El conjunto de datos que estoy utilizando es un curso de capacitación para estudiantes y empresas. Los datos originales tienen 3 tablas separadas por programa individual. El propósito de mi visualización es analizar los 3 programas de todos los estudiantes en un solo tablero.
Estos son los datos originales después de importarlos a Power BI:
Aquí está el preprocesamiento de datos:
- Eliminar columna innecesaria
Tabla DPT
Eliminar columna – No, Fecha, Trimestre Tabla DTP Eliminar columna – Contar, Correo electrónico, Fecha Tabla LLD Eliminar columna – Correo electrónico, Para calcular, Horas de aprendizaje
- Cambiar el nombre de la columna e imputar el valor que falta con "No dado"
Tabla DPT
Aprendiz = Nombre, Proveedor de Capacitación = Proveedor, Nombre del Curso = Curso, Área de Enfoque = Tabla DTP de Dominio Nombre del Participante = Nombre, Nombre del Evento/Capacitación = Curso, Proveedores de Capacitación = Proveedor
- Crear nueva columna e imputarlas con "No dado" y ponerlas en la misma posición (para anexar tablas más adelante)
Tabla DTP Nivel LLD tabla Empresa, Proveedor, Nivel
- Crear una nueva columna llamada Programa e imputar valor como nombre del programa para cada fila.
Mesa post limpiada:
Después de agregar las 3 tablas y llamarlo Maestro:
Luego, duplico la tabla Maestra para crear la tabla Estudiante, Proveedor y Programa. En cada tabla, elimine columnas irrelevantes, elimine duplicados y cree un ID único.
Modelo de datos final:
El enfoque son las tablas de Programa, Proveedor y Estudiante. El resto de las tablas se desactivará la relación al crear columnas y medidas calculadas antes de realizar cualquier corrección al modelo de datos.
La tabla Proveedor se puede conectar a las tablas Estudiante y Programa mediante la columna Proveedor.
¿Existe algún enfoque adecuado para construir el modelo de datos?
A partir de mi modelo de datos en la última imagen, ¿significa que la tabla Proveedor es una tabla de hechos, mientras que las tablas Estudiante y Programa son dimensiones?