Skip to main content
cancel
Showing results for 
Search instead for 
Did you mean: 

Earn the coveted Fabric Analytics Engineer certification. 100% off your exam for a limited time only!

Reply
PaulDBrown
Community Champion
Community Champion

Modelado de datos y tablas de dimensiones: ¿Eficiencia de Power Query frente a tablas DAX?

Buenos días

Esta solicitud consiste en tratar de comprender cuál es la forma más eficaz de crear tablas de dimensiones para un modelo (supongamos que el conjunto de datos es "enorme" y una sola tabla para fines de simplicidad).
Mi entendimiento (por favor, corríjame si estoy desgastado!) es que cuando hacemos referencia/duplicamos una tabla para crear una tabla de dimensiones en Power Query, cada tabla creada con cualquiera de estos métodos (referencia o duplicado) realmente extraerá todo el origen de datos para dar forma a la tabla y cargar los datos. En otras palabras, si creamos tablas de dimensiones say 5 forman este gran conjunto de datos, los datos se extraen realmente 5 veces. (Lo que afecta al tiempo de actualización).

Sin embargo, si realmente creamos las tablas de dimensiones con DAX, los datos se extraen solo una vez para la tabla original. A continuación, DAX inicia y crea las tablas basadas en este único origen durante el proceso de carga.

¿No es la opción DAX, por lo tanto, más eficiente?

Gracias por sus pensamientos y consejos!





Did I answer your question? Mark my post as a solution!
In doing so, you are also helping me. Thank you!

Proud to be a Super User!
Paul on Linkedin.






1 ACCEPTED SOLUTION

Hola @PaulDBrown ,

¿De qué tipo de fuente de datos estamos hablando?

Con el plegado de consultas, Power Query no cargaría la misma cantidad de datos del origen 6 veces.

Los datos se filtran en el origen según sea necesario.

Chris Webb muestra en esta entrada de blog cómo reducir el acceso al origen.

https://blog.crossjoin.co.uk/2019/03/26/power-bi-caching-parallelism-and-power-query-refresh-perform...

Did I answer your question?
Please mark my post as solution, this will also help others.
Please give Kudos for support.

Marcus Wegener works as Full Stack Power BI Engineer at BI or DIE.
His mission is clear: "Get the most out of data, with Power BI."
twitter - LinkedIn - YouTube - website - podcast


View solution in original post

4 REPLIES 4

Hola @PaulDBrown ,

El primer punto es que los datos se comprimen mejor en Power Query.

El segundo punto es que se genera un modelo de datos muy grande con la variante DAX, ya que los datos están disponibles en la tabla de hechos y dimensiones.

Creo que una entrada de blog interesante sobre el tema es "Modelo de datos: Bestia a modelo"

https://powerpivotpro.com/2016/02/data-modeling-power-pivot-power-bi/

Did I answer your question?
Please mark my post as solution, this will also help others.
Please give Kudos for support.

Marcus Wegener works as Full Stack Power BI Engineer at BI or DIE.
His mission is clear: "Get the most out of data, with Power BI."
twitter - LinkedIn - YouTube - website - podcast


@mwegener

Gracias por sus comentarios y el enlace. Sigo la configuración del esquema Star, como se recomienda en el enlace que proporcionó. La pregunta es si la configuración del propio esquema de estrella debe realizarse solo en Power Query (un extremo del eje de opciones del método) o solo DAX (otro extremo) o una combinación de ambos.

En particular, supongamos que el conjunto de datos tardó 30 minutos en cargarse. Si tiene 5 tablas DIM que hacen referencia al conjunto de datos, cada una de estas tablas tenues está tirando del mismo conjunto de datos (todo) para crear cada tabla tenue (por lo que el tiempo de actualización es "potencialmente" 6 x 30 minutos, a menos que alguna magia -Power Query "aprende" de la primera carga?- está bajo el capó que reduce el tiempo de carga).

Sin embargo, si solo extraes el conjunto de datos una vezy, a continuación, uso DAX para crear las tablas Dim, el tiempo de actualización será de 30 mintues + el tiempo que tarda DAX en crear las tablas Dim basadas en la única importación del conjunto de datos (si tiene sentido).

La situación sería totalmente diferente si el conjunto de datos solo se extrae una vez en PowerQuery, y la "referencia" realizada para las tablas Dim se realiza directamente en el conjunto de datos "importado", pero ese no es el caso: cada tabla a la que se hace referencia (o duplicada) realmente está extrayendo todo el conjunto de datos.

¿Tiene sentido?

(Entiendo que para reducir el tamaño del modelo, es importante que las tablas de hechos sean lo más estrechas posible moviendo los archivos de referencia en tablas Dim)

Sólo estoy tratando de encontrar eficiencias si las hay.

Gracias de nuevo por su tiempo.





Did I answer your question? Mark my post as a solution!
In doing so, you are also helping me. Thank you!

Proud to be a Super User!
Paul on Linkedin.






Hola @PaulDBrown ,

¿De qué tipo de fuente de datos estamos hablando?

Con el plegado de consultas, Power Query no cargaría la misma cantidad de datos del origen 6 veces.

Los datos se filtran en el origen según sea necesario.

Chris Webb muestra en esta entrada de blog cómo reducir el acceso al origen.

https://blog.crossjoin.co.uk/2019/03/26/power-bi-caching-parallelism-and-power-query-refresh-perform...

Did I answer your question?
Please mark my post as solution, this will also help others.
Please give Kudos for support.

Marcus Wegener works as Full Stack Power BI Engineer at BI or DIE.
His mission is clear: "Get the most out of data, with Power BI."
twitter - LinkedIn - YouTube - website - podcast


@mwegener

Ah, eso tiene sentido. Gracias por esa visión. MUY importante y de hecho útil.
Así que supongo que este tipo de preguntas sólo son realmente relevantes (si es que en absoluto) si no hay ningún plegado de consulta en marcha.

¡Gracias de nuevo!

ps. He marcado su último enlace en un repositorio de referencias útiles que guardo en OneNote para PBI





Did I answer your question? Mark my post as a solution!
In doing so, you are also helping me. Thank you!

Proud to be a Super User!
Paul on Linkedin.






Helpful resources

Announcements
April AMA free

Microsoft Fabric AMA Livestream

Join us Tuesday, April 09, 9:00 – 10:00 AM PST for a live, expert-led Q&A session on all things Microsoft Fabric!

March Fabric Community Update

Fabric Community Update - March 2024

Find out what's new and trending in the Fabric Community.

Top Solution Authors