Solved: Flujo de datos de Power BI muy lento

Syndicate_Admin · ‎02-06-2022

Hola chicos, soy nuevo en Power BI, así que lo siento de antemano si esta es una pregunta tonta.

Tengo un flujo de datos de Power BI como origen de datos, que es de aproximadamente 4 millones de filas y 15 columnas.

Puedo conectarme con éxito al flujo de datos, sin embargo, esto es extremadamente lento y no estoy seguro de si esto es de esperar o un problema con mi configuración.

1. Power BI Desktop tarda años en importar los datos, que son aproximadamente 1,6 GB y que tardan alrededor de 10-15 minutos en cargarse, también cada vez que hago algo en Power Query una vez que presiono cerrar y aplico descarga todos esos datos nuevamente.

2. Power Query es realmente lento en consultas simples como filtrar, agregar y eliminar columnas (cada consulta tarda alrededor de 2-3 minutos en procesarse)

Gracias de antemano 😁

Syndicate_Admin · ‎02-07-2022

En ella @georgec96,

Otra opción a considerar, si necesita todos esos datos, es usar la consulta directa para los flujos de datos.

https://docs.microsoft.com/en-us/power-bi/transform-model/dataflows/dataflows-directquery

He tenido que usar esto recientemente para un gran conjunto de datos y funciona bien. A continuación, le da la opción de crear tablas de agregación en su modelo para mejorar el rendimiento, pero también mantener los datos detallados cuando sea necesario.

https://docs.microsoft.com/en-us/power-bi/transform-model/aggregations-advanced#:~:text=Aggregations....

Advertencia, esto solo funcionará con premium o premium por usuario, ya que necesita poder activar la 'Configuración mejorada del motor de cómputo' para el flujo de datos.

Espero que esto ayude.

View solution in original post

Syndicate_Admin · ‎07-05-2023

¿Encontraste un alma en esto?

Soy igual que tú: el uso de flujos de datos es extremadamente lento. Cada transformación da como resultado que todos los datos se vuelvan a descargar para cada paso aplicado, muy lentamente.

Creo que se relaciona con los límites de descarga de API, pero eso es solo una suposición.

La única solución que se me ocurre es realizar todas las transformaciones en el servicio PowerBi antes de completar el flujo de datos. Entonces solo tienes que descargarlo una vez en tu archivo PBIX

Syndicate_Admin · ‎04-19-2023

Gracias por tu respuesta Theo,

Entiendo que los cambios en cosas como las medidas en Power BI no requieren una nueva descarga y eso tiene sentido para mí. Lo que me cuesta entender es que, cuando aplico transformaciones en Power Query, ¿por qué se vuelven a descargar los datos existentes en mi vista previa? Hoy, creé una nueva columna en Power Query combinando dos columnas, lo que desencadenó una nueva descarga del flujo de datos. Cuando me di cuenta de que no me gustaba el nombre de columna que elegí, simplemente cambié el nombre de la columna y volvió a descargar todos los datos nuevamente. Esto es incluso antes de que haya hecho clic en "Aplicar" o "Cerrar y aplicar". Esto hace que la experiencia de diseño sea muy lenta y frustrante, sin importar cuán pequeño sea reducir mi conjunto de datos. No entiendo por qué es necesario, y me lleva a pensar que estoy haciendo algo mal, o tal vez la tecnología (flujos de datos) es simplemente nueva, y aún no han tenido la oportunidad de optimizarla.

Syndicate_Admin · ‎04-19-2023

@bobmclaren

Al crear una columna calculada o una medida en Power BI, los datos no se vuelven a descargar porque estas operaciones se realizan en el nivel del modelo de datos en lugar de en Power Query. Dado que la columna calculada se crea en el nivel del modelo de datos, no requiere Power Query para volver a descargar los datos porque no ha realizado cambios en los datos de origen como tales.

Por el contrario, al agregar una nueva columna usando Power Query, se requiere acceso a todos los datos para realizar transformaciones / manipulaciones. Por lo tanto, con cada nuevo cambio en Power Query, una vez que presione "Aplicar" o "Cerrar y aplicar", Power Query deberá volver a descargar todos los datos nuevamente.

Es importante destacar que la ventaja de realizar transformaciones en Power Query es que no ralentizan la vista del modelo de datos. En todo caso, las transformaciones / manipulaciones a través de Power Query a menudo conducen a un procesamiento mucho más rápido en el front-end y a una mayor eficiencia / velocidad del sistema.

En resumen, cuando se crea una columna calculada o una medida, la operación se realiza en el nivel del modelo de datos y no requiere Power Query para volver a descargar los datos. Sin embargo, ralentizará la velocidad / eficiencia en el front-end (sujeto a la cantidad de datos que tenga su modelo de datos). Por el contrario, cuando usa Power Query para realizar los cambios, tiene velocidades / eficiencias mucho mayores, pero cada vez que realiza estos cambios, debe "volver a descargar" los datos.

Espero que esto ayude.

Seguir 🙂

Syndicate_Admin · ‎04-19-2023

Estas sugerencias son útiles, pero me gustaría entender mejor qué PBI Desktop está volviendo a descargar los datos de mi flujo de datos cada vez que aplico una transformación. Si estoy realizando una operación simple, como agregar dos columnas para crear una nueva columna, ¿por qué PBI vuelve a descargar los datos?

Syndicate_Admin · ‎02-07-2022

En ella @georgec96,

Otra opción a considerar, si necesita todos esos datos, es usar la consulta directa para los flujos de datos.

https://docs.microsoft.com/en-us/power-bi/transform-model/dataflows/dataflows-directquery

He tenido que usar esto recientemente para un gran conjunto de datos y funciona bien. A continuación, le da la opción de crear tablas de agregación en su modelo para mejorar el rendimiento, pero también mantener los datos detallados cuando sea necesario.

https://docs.microsoft.com/en-us/power-bi/transform-model/aggregations-advanced#:~:text=Aggregations....

Advertencia, esto solo funcionará con premium o premium por usuario, ya que necesita poder activar la 'Configuración mejorada del motor de cómputo' para el flujo de datos.

Espero que esto ayude.

Syndicate_Admin · ‎02-07-2022

@TheoC, muchas gracias por su aporte, eso fue extremadamente útil, aunque tengo una pregunta más.

¿Un conjunto de datos (ya sea como importación o consulta directa) sería más rápido que un flujo de datos cuando se trata de tiempos de carga y actualización?

Syndicate_Admin · ‎02-07-2022

Hola @georgec96 creo que la visión teórica es que el uso de flujos de datos será más rápido porque las transformaciones ocurren en el proceso de carga de datos. Sin embargo, si hay una transformación limitada y los datos en sí son bastante limpios, diría que esta teoría puede ser desafiada. Echa un vistazo aquí a este enlace de Reza. Entra un poco en ello, pero los comentarios en el blog también son brillantes: https://radacad.com/how-to-use-dataflow-to-make-the-refresh-of-power-bi-solution-faster

¡Espero que esto haya sido de alguna utilidad!

Theo 🙂

Syndicate_Admin · ‎02-06-2022

¿ @georgec96

Algunas cosas que pueden ayudar:

Si puede, reduzca el número de registros que está utilizando para llevar a cabo procesos de transformación / limpieza. Si puede reducirlo a 20,000 registros, encontrará que el proceso para llevar a cabo las transformaciones será mucho más rápido. Una vez que haya completado con éxito estos, puede agregar la población de registros para la carga.
Power BI lleva mucho más tiempo procesando campos basados en texto que campos numéricos. Dos cosas a tener en cuenta:
1. Aunque 15 columnas no es mucho, elimine lo que no necesita.
2. Si tiene registros con valores numéricos en formato basado en texto, conviértalos a valores numéricos.
La otra cosa a considerar es la naturaleza de sus datos. Si sus datos históricos permanecen de esa manera y no requieren un cambio retrospectivo (por ejemplo, no está tratando con algo como datos de reclamos de seguros que el estado puede no cerrarse hasta dentro de 5-6 meses, etc.), puede usar parámetros para limitar el volumen de datos que aplica en su actualización (es decir, si tiene 2 años de datos y solo el último mes está sujeto a cambios, puede crear un parámetro para actualizar solo el último mes en lugar de los últimos 2 años).

Echa un vistazo a este enlace también: https://docs.microsoft.com/en-us/power-bi/guidance/power-bi-optimization

Hay muchas maneras de reducir los tiempos de carga y las frecuencias de actualización. Esperemos que lo anterior lo ayude a guiarlo en la dirección correcta.

Todo lo mejor.

Seguir

Flujo de datos de Power BI muy lento

Helpful resources

New forum boards available in Real-Time Intelligence.

Power BI Monthly Update - May 2024

Jumpstart your career with the Fabric Career Hub

Flujo de datos de Power BI muy lento

Helpful resources

New forum boards available in Real-Time Intelligence.

Power BI Monthly Update - May 2024