Register now to learn Fabric in free live sessions led by the best Microsoft experts. From Apr 16 to May 9, in English and Spanish.
Hola, chicos
Estoy trabajando con un único archivo CSV de origen, tamaño 11.2 MB, alrededor de 43k filas y 19 columnas.
La información trata sobre Incidentes (tickets), por lo que tiene información sobre agentes, SLA, grupos de asignación, prioridad, etc.
La cosa es, estoy tratando de crear un esquema de estrella, pero sólo tengo un archivo de origen, así que prácticamente estoy duplicando mi tabla de hechos para crear una tabla tenue, eliminando columnas, creando IDs y fusionando la tabla tenue con la tabla de hechos para que pueda tener sólo los IDs en este último. Hasta ahora he creado 8 mesas tenues.
Cada vez que cargo el modelo, veo que se vuelve más lento a medida que agredo tablas tenues, supongo que esto es porque estoy duplicando el origen. También al aplicar los cambios veo que obtiene hasta 60.. 70.. 80 MB.
Aquí está mi modelo final:
Las preguntas son:
¿Es este el enfoque adecuado para un único archivo de origen con un tamaño de 11,2 MB?
¿Debo reducir el número de mesas tenues?
¿Debo mantener toda la información en una tabla y crear columnas o medidas calculadas?
¿Cómo puedo mejorar el rendimiento? Me dijeron que siempre buscar un esquema de estrella mientras modelaba en power bi.
Gracias chicos
Ov
¿Puede acceder a los mismos datos mediante SQL/Database? El mejor enfoque sería tener una tabla para cada una de sus dimensiones.
La actualización lleva tiempo porque está utilizando el mismo origen de datos 43K al generar cada una de las dimensiones
Si utiliza un esquema Star, la compresión del modelo mejorará y dará como resultado un archivo Pbix más pequeño.
Un archivo más pequeño siempre implicará un mejor rendimiento al realizar un análisis en una tabla. Por supuesto, para un modelo que contiene una tabla Fact de filas 43K, es posible que no tenga una gran ganancia en rendimiento.
Recuerde siempre reducir el número de columnas de la tabla (especialmente la tabla De hechos). Elimine las columnas con alta cardinalidad (número de valores distintos) si no las necesita.
¡Gracias por los consejos!
No estoy creando una conexión a una base de datos, sino un archivo CSV.
Me las arreglé para duplicar la fuente sólo dos veces, mi rendimiento es mucho mejor ahora!!
Voy a crear algunas tablas tenues usando DAX en lugar de PQ (:
@OttmarV Ok, suena bien,
Intente evitar SummarizeColumns al crear esta tabla y tenga cuidado si utiliza la función VALUES, es posible que tenga un error de dependencia circular al crear la relación.
Sí, con Resumir, no tendrá ningún problema :P.
Lo ideal es que desee un esquema de estrella/copo de nieve. Tabla(s) de hechos en el centro y dimensiones que irradian hacia afuera.
Si no desea utilizar PQ para crear dimensiones, siempre puede usar DAX para crear esas tablas. No escuches al bot.
¿Las dimensiones que utilizan DAX proporcionan el mismo rendimiento en el panel (procesamiento, segmentaciones de datos, etc.) que las de PQ?
¿Es aconsejable crear tablas tenues en absoluto y utilizar sólo una tabla con las 19 columnas?
@OttmarV, sé que Power Query es la forma sugerida. Pero en DAX puede obtener un poco más lento pero menos carga de datos.
Nuevas tablas usando Distinct, Summarize etc
Distinct(Tabla[Col1])
Resumir(Tabla, Tabla[Col2], Tabla2[Col3])
Compruebe cuál funciona mejor.
Creo que Star Schema es mejor, los casos cuando necesita todo o necesita ingore algún filtro, star schmea son un poco útiles.
Covering the world! 9:00-10:30 AM Sydney, 4:00-5:30 PM CET (Paris/Berlin), 7:00-8:30 PM Mexico City
Check out the April 2024 Power BI update to learn about new features.
User | Count |
---|---|
2 | |
1 | |
1 | |
1 | |
1 |
User | Count |
---|---|
2 | |
2 | |
2 | |
1 | |
1 |