Re: Optimización del tiempo de actualización del m...

Denis_Slav · ‎07-06-2020

Hola

¿Qué tipo de recomendación es reducir el tiempo de actualización del modelo?

Tengo carpetas con > 30Gb de datos CSV, y cada mes agredo +2Gb. El último intento de actualización tarda aproximadamente 2 horas, pero toma más tiempo, allí se terminó el proceso de actualización.

Por el momento. que encontré recomendación:

1) He desactivado toda la columna de fecha y hora de detección automática;

2) Eliminar columna que no uso.

¿O es una manera de aumentar el tiempo para actualizar el modelo?

Alexander76877 · ‎07-06-2020

Hola, ¿se tarda 2 horas en actualizar el modelo desde el escritorio de PBI o en el servicio (espacio de trabajo)? ¿Y dónde guardas tus datos? ¿Disco duro local / servidor o almacenamiento en la nube? ¿Son pocos archivos grandes o muchos cientos de archivos más pequeños?

Si el ancho de banda local/ordenador es el factor limitante, entonces 2 horas para más de 30 GB no es demasiado irreal.

Como solución, podría

* poner sus datos en el almacenamiento en la nube (por ejemplo, sharepoint) y

* Crear un flujo de datos ingiriendo sus datos todos los días.
El flujo de datos se ejecuta en una capacidad compartida en la nube y puede ejecutarlo durante la noche para que no tenga que esperar. Con PBI Desktop, usted acaba de leer desde el flujo de datos que es muy rápido.

Alexander

Denis_Slav · ‎07-07-2020

@Alexander76877

Todos los datos almacenados en la nube oneDrive. Hay archivos a cada mes, en este momento - que 17 archivos. El tiempo de actualización tarda en el servicio. Versión.

¿Podría dar más información sobre"crear un flujo de datos ingiriendo sus datos todos los días"? Subo nuevo archivo una vez por semana, y ahora intento actualizar todo el modelo, en caso de primera carga.

Alexander76877 · ‎07-07-2020

@Denis_Slav

Hola, un flujo de datos es la versión en línea de PBI PowerQuery.

https://docs.microsoft.com/en-us/power-bi/transform-model/service-dataflows-create-use

En lugar de actualizar la lectura de dataSET de archivos, puede actualizar el dataFLOW primero semanalmente (o diariamente si lo desea) y, a continuación, actualizar la lectura del conjunto de datos desde el flujo de datos.

Lo probaría, pero honestamente no creo que ayude demasiado, ya que ya está utilizando el almacenamiento en la nube y el servicio informático.

Me pregunto por qué el tiempo de actualización 2h te molesta en primer lugar. Usted tiene que esperar una semana para obtener el nuevo archivo, así que ¿por qué esperar 2h más sería un problema?

Sin embargo, lo que podría hacer es dividir la consulta. En lugar de importar todos los datos históricos con cada actualización, cree una primera importación estática (deshabilitar la actualización) para, por ejemplo, el archivo 1-15 (por ejemplo, 28 GB) y una segunda importación dinámica para el archivo 16+. Debe anexar ambas consultas antes de cargar en el conjunto de datos. De esta manera, la actualización sólo leerá 2 archivos en lugar de 17 que deberían ser mucho más rápidos. Por supuesto, los 2 archivos se convertirán cada vez más con el tiempo, por lo tanto, tendrá que mover algunos archivos de la dinámica a la importación estática y actualizar el estático.

Una cosa que no tocamos hasta ahora es la complejidad de su consulta. Asegúrese de que no lo está doblando (es decir, fusionarse con otras tablas que crean un producto de matriz) o cosas de este tipo. Intente reducir la complejidad de la consulta con fines de prueba al mínimo: simplemente lea el archivo sin ninguna transformación.

Buena suerte, sigue intentándolo.

Alexander

Denis_Slav · ‎07-08-2020

2Alexander, gracias. DataFLow es realmente genial, pero no me ayudan. (

¿Puede ser mejor, si combino manualmente archivos, por ejemplo todo el año a un archivo?

Y cómo será mejor:

1) Filtrar filas necesarias en la consulta?

2) Borrar fila innecesaria en csv?

Intenté actualizar sin 5 archivos (2020 año), y fue tomar 01:44 > un archivo toma alrededor de 9 min. En caso de 2 años completos puede tomar alrededor de las 03:40. No es optimista. 🙂 La razón para pensar en crear como una base de datos de búfer, donde cargar todos los datos y después usarlo en los informes.

Alexander76877 · ‎07-08-2020

¿No es extraño que 1 archivo toma 9min pero 5 archivos toman 104 en lugar de 45min? Algo no está bien.

Sería mejor reducir el número de filas y columnas en el CSV antes de ingerir en el flujo de datos /dataset. Esto reducirá la cantidad de tiempo para la transferencia y la transformación por adelantado. ¿Cuántas filas / columnas tienen sus archivos hoy en día?

Como prueba, puede reducir manualmente el tamaño de los archivos quitando filas / columnas del CSV. Avísame el nuevo momento.

Alexander

Denis_Slav · ‎07-08-2020

@Alexander76877 Ahora, está bien. Porque el archivo erlyest tiene menos filas y tamaño. Es hora de la avarage. Supongo que puede ser diferente en 2 veces. Archivos de 0.9Gb a 2.4gb.

Ahora estoy preparando archivos para 2 pruebas:

1) COmbine por 3 archivos a uno;

2) Reducir filas en archivos;

Lleva tiempo 🙂

Denis_Slav · ‎07-08-2020

@Alexander76877

Tengo resultados muy intresting de pruebas

#	Tipo	Tiempo total	Archivos	Total de filas	Tiempo medio por 1 archivo	Tiempo medio por fila de 1M
1	ByMonth	1:44:00	12	75 228 279	0:08:40	0:01:23
2	PorMes + filtro en filas	0:22:01	6	31 751 044	0:03:40	0:00:42
3	ByQuater + filtro en filas	0:23:32	2	31 751 044	0:11:46	0:00:44
4	By7Month + filtro en filas	0:24:31	1	38 268 574	0:24:31	0:00:38
5	ByQuater + eliminar filas en el conjunto de datos	0:20:31	2	19 844 404	0:10:15	0:01:02
6	PorMes + filtro en filas	0:58:03	17	101 852 315	0:03:25	0:00:34

Y después de actualizar el flujo de datos, re actualiza los datos manualmente, y tarda 00:20:17.

Estadística muy interesante. No hay ninguna diferencia significativa en la velocidad entre el archivo FILTRED y EL ARCHIVO DELETED.

Pero no lo entiendo claro. Si el flujo de datos se actualizó correctamente, ¿por qué no se actualizó el modelo y el informe? ¿Necesito después del modelo de actualización después del flujo de datos actualizado?

Alexander76877 · ‎07-08-2020

Fresco. El flujo de datos actúa como origen de datos intermedio. Ahora se pueden consumir varios conjuntos de datos desde el flujo de datos en lugar de volver a crear la importación desde archivos. Y sí, debe actualizar el conjunto de datos, ahora que se actualiza el flujo de datos. Pero vea, incluso leyendo desde una sola tabla hiperrápida de origen de Azure, tarda 20 minutos en actualizarse, eso es lo mínimo en condiciones ideales. Si calculé correctamente que es igual a 200Mbps! en un recurso compartido, libre! Por lo tanto, si encuentra una solución de 60 minutos leyendo de archivos de texto que necesitan ser procesados fila por fila, creo que debería ser aceptable. Si eso resuelve su problema, por favor acepte como solución para cerrar el caso. Alexander

Anonymous · ‎07-07-2020

Hola @Denis_Slav ,

Consulte la referencia aquí.

https://powerbi.microsoft.com/en-us/blog/introducing-power-bi-data-prep-with-dataflows/

Saludos
Kelly

¿He respondido a tu pregunta? ¡Marca mi puesto como una solución!

amitchandak · ‎07-06-2020

@Denis_Slav , consulte

https://www.thebiccountant.com/2016/11/08/speed-powerbi-power-query-design-process/

https://docs.microsoft.com/en-us/power-bi/guidance/power-bi-optimization

!! Power BI 101 Interview questions !! !! Master Microsoft Fabric- 36 Videos !!
Microsoft Power BI Learning Resources, 2023 !!
Learn Power BI - Full Course with Dec-2022, with Window, Index, Offset, 100+ Topics !!
Did I answer your question? Mark my post as a solution! Appreciate your Kudos !! Proud to be a Super User! !!

Optimización del tiempo de actualización del modelo de datos

Helpful resources

Microsoft Fabric Learn Together

Power BI Monthly Update - April 2024

Fabric Community Update - April 2024