Skip to main content
cancel
Showing results for 
Search instead for 
Did you mean: 

Register now to learn Fabric in free live sessions led by the best Microsoft experts. From Apr 16 to May 9, in English and Spanish.

Reply
Denis_Slav
Helper III
Helper III

Optimización del tiempo de actualización del modelo de datos

Hola

¿Qué tipo de recomendación es reducir el tiempo de actualización del modelo?

Tengo carpetas con > 30Gb de datos CSV, y cada mes agredo +2Gb. El último intento de actualización tarda aproximadamente 2 horas, pero toma más tiempo, allí se terminó el proceso de actualización.

Por el momento. que encontré recomendación:

1) He desactivado toda la columna de fecha y hora de detección automática;

2) Eliminar columna que no uso.

¿O es una manera de aumentar el tiempo para actualizar el modelo?

10 REPLIES 10
Alexander76877
Helper II
Helper II

Hola, ¿se tarda 2 horas en actualizar el modelo desde el escritorio de PBI o en el servicio (espacio de trabajo)? ¿Y dónde guardas tus datos? ¿Disco duro local / servidor o almacenamiento en la nube? ¿Son pocos archivos grandes o muchos cientos de archivos más pequeños?

Si el ancho de banda local/ordenador es el factor limitante, entonces 2 horas para más de 30 GB no es demasiado irreal.

Como solución, podría

* poner sus datos en el almacenamiento en la nube (por ejemplo, sharepoint) y

* Crear un flujo de datos ingiriendo sus datos todos los días.
El flujo de datos se ejecuta en una capacidad compartida en la nube y puede ejecutarlo durante la noche para que no tenga que esperar. Con PBI Desktop, usted acaba de leer desde el flujo de datos que es muy rápido.

Alexander

@Alexander76877

Todos los datos almacenados en la nube oneDrive. Hay archivos a cada mes, en este momento - que 17 archivos. El tiempo de actualización tarda en el servicio. Versión.

¿Podría dar más información sobre"crear un flujo de datos ingiriendo sus datos todos los días"? Subo nuevo archivo una vez por semana, y ahora intento actualizar todo el modelo, en caso de primera carga.

@Denis_Slav

Hola, un flujo de datos es la versión en línea de PBI PowerQuery.

https://docs.microsoft.com/en-us/power-bi/transform-model/service-dataflows-create-use

En lugar de actualizar la lectura de dataSET de archivos, puede actualizar el dataFLOW primero semanalmente (o diariamente si lo desea) y, a continuación, actualizar la lectura del conjunto de datos desde el flujo de datos.

Lo probaría, pero honestamente no creo que ayude demasiado, ya que ya está utilizando el almacenamiento en la nube y el servicio informático.

Me pregunto por qué el tiempo de actualización 2h te molesta en primer lugar. Usted tiene que esperar una semana para obtener el nuevo archivo, así que ¿por qué esperar 2h más sería un problema?

Sin embargo, lo que podría hacer es dividir la consulta. En lugar de importar todos los datos históricos con cada actualización, cree una primera importación estática (deshabilitar la actualización) para, por ejemplo, el archivo 1-15 (por ejemplo, 28 GB) y una segunda importación dinámica para el archivo 16+. Debe anexar ambas consultas antes de cargar en el conjunto de datos. De esta manera, la actualización sólo leerá 2 archivos en lugar de 17 que deberían ser mucho más rápidos. Por supuesto, los 2 archivos se convertirán cada vez más con el tiempo, por lo tanto, tendrá que mover algunos archivos de la dinámica a la importación estática y actualizar el estático.

Una cosa que no tocamos hasta ahora es la complejidad de su consulta. Asegúrese de que no lo está doblando (es decir, fusionarse con otras tablas que crean un producto de matriz) o cosas de este tipo. Intente reducir la complejidad de la consulta con fines de prueba al mínimo: simplemente lea el archivo sin ninguna transformación.

Buena suerte, sigue intentándolo.

Alexander

2Alexander, gracias. DataFLow es realmente genial, pero no me ayudan. (

¿Puede ser mejor, si combino manualmente archivos, por ejemplo todo el año a un archivo?

Y cómo será mejor:

1) Filtrar filas necesarias en la consulta?

2) Borrar fila innecesaria en csv?

Intenté actualizar sin 5 archivos (2020 año), y fue tomar 01:44 > un archivo toma alrededor de 9 min. En caso de 2 años completos puede tomar alrededor de las 03:40. No es optimista. 🙂 La razón para pensar en crear como una base de datos de búfer, donde cargar todos los datos y después usarlo en los informes.

¿No es extraño que 1 archivo toma 9min pero 5 archivos toman 104 en lugar de 45min? Algo no está bien.

Sería mejor reducir el número de filas y columnas en el CSV antes de ingerir en el flujo de datos /dataset. Esto reducirá la cantidad de tiempo para la transferencia y la transformación por adelantado. ¿Cuántas filas / columnas tienen sus archivos hoy en día?

Como prueba, puede reducir manualmente el tamaño de los archivos quitando filas / columnas del CSV. Avísame el nuevo momento.

Alexander

@Alexander76877 Ahora, está bien. Porque el archivo erlyest tiene menos filas y tamaño. Es hora de la avarage. Supongo que puede ser diferente en 2 veces. Archivos de 0.9Gb a 2.4gb.

Ahora estoy preparando archivos para 2 pruebas:

1) COmbine por 3 archivos a uno;

2) Reducir filas en archivos;

Lleva tiempo 🙂

@Alexander76877

Tengo resultados muy intresting de pruebas

#TipoTiempo totalArchivosTotal de filasTiempo medio por 1 archivoTiempo medio por fila de 1M
1ByMonth1:44:001275 228 2790:08:400:01:23
2PorMes + filtro en filas0:22:01631 751 0440:03:400:00:42
3ByQuater + filtro en filas0:23:32231 751 0440:11:460:00:44
4By7Month + filtro en filas0:24:31138 268 5740:24:310:00:38
5ByQuater + eliminar filas en el conjunto de datos0:20:31219 844 4040:10:150:01:02
6PorMes + filtro en filas0:58:0317101 852 3150:03:250:00:34

Y después de actualizar el flujo de datos, re actualiza los datos manualmente, y tarda 00:20:17.

Estadística muy interesante. No hay ninguna diferencia significativa en la velocidad entre el archivo FILTRED y EL ARCHIVO DELETED.

Pero no lo entiendo claro. Si el flujo de datos se actualizó correctamente, ¿por qué no se actualizó el modelo y el informe? ¿Necesito después del modelo de actualización después del flujo de datos actualizado?

Fresco. El flujo de datos actúa como origen de datos intermedio. Ahora se pueden consumir varios conjuntos de datos desde el flujo de datos en lugar de volver a crear la importación desde archivos. Y sí, debe actualizar el conjunto de datos, ahora que se actualiza el flujo de datos. Pero vea, incluso leyendo desde una sola tabla hiperrápida de origen de Azure, tarda 20 minutos en actualizarse, eso es lo mínimo en condiciones ideales. Si calculé correctamente que es igual a 200Mbps! en un recurso compartido, libre! Por lo tanto, si encuentra una solución de 60 minutos leyendo de archivos de texto que necesitan ser procesados fila por fila, creo que debería ser aceptable. Si eso resuelve su problema, por favor acepte como solución para cerrar el caso. Alexander

Anonymous
Not applicable

Hola @Denis_Slav ,

Consulte la referencia aquí.

https://powerbi.microsoft.com/en-us/blog/introducing-power-bi-data-prep-with-dataflows/

Saludos
Kelly
¿He respondido a tu pregunta? ¡Marca mi puesto como una solución!

Helpful resources

Announcements
Microsoft Fabric Learn Together

Microsoft Fabric Learn Together

Covering the world! 9:00-10:30 AM Sydney, 4:00-5:30 PM CET (Paris/Berlin), 7:00-8:30 PM Mexico City

PBI_APRIL_CAROUSEL1

Power BI Monthly Update - April 2024

Check out the April 2024 Power BI update to learn about new features.

April Fabric Community Update

Fabric Community Update - April 2024

Find out what's new and trending in the Fabric Community.