Skip to main content
cancel
Showing results for 
Search instead for 
Did you mean: 

Grow your Fabric skills and prepare for the DP-600 certification exam by completing the latest Microsoft Fabric challenge.

Reply
Syndicate_Admin
Administrator
Administrator

Particionamiento de grandes conjuntos de datos (sin base de datos, solo CSV)

¡Hola!

Entonces, por algunas razones estúpidas que realmente no se pueden cambiar, por ahora tenemos datos de informes exclusivamente en miles de archivos CSV que se remontan a 2021. En total estamos hablando de ~53k archivos durante los últimos 4 años. No estoy seguro de cuántas filas de datos estamos hablando, pero espero que sean ~ 1-2 millones, no más. Por lo tanto, no hay nada que Power BI no pueda controlar fácilmente.

Sin embargo, las actualizaciones automáticas no han funcionado hace mucho tiempo, debido a la gran cantidad de archivos que se extraen cada vez, lo que obviamente (¿al menos para mí?) requiere algunas particiones y actualizaciones incrementales.

Implementé una configuración de partición muy básica, archivando cualquier cosa que tenga más de 4 semanas a partir de hoy. Ya sea que eso tenga mucho sentido o no, la partición inicial vuelve a fallar por las mismas razones: el tiempo de espera es demasiado para manejar. Al menos eso es lo que estoy recibiendo.

Mi pregunta: ¿Cuáles son los buenos recursos para hacer frente a ese problema? La documentación de MS me está dando dolor de cabeza, YouTube está siendo demasiado general al respecto (al menos por lo que encontré después de horas de investigación) y los casos en el foro de la comunidad aquí son demasiado específicos o comienzan en un nivel más experto que el que tengo actualmente (o ambos).

Si alguien pudiera compartir algunos buenos procedimientos o cursos sobre particionamiento y tal vez incluso sobre mi problema descrito anteriormente, se lo agradecería mucho. Habría saltado a Fivrr y habría tenido a otra persona que se ocupara de ello, pero ¿dónde está el aprendizaje en eso? Quiero decir, probablemente terminaré contratando a alguien de todos modos para ponerlo en marcha, pero todavía quiero meterme con él en nuestro Sandbox para convertirme en una mejor persona de PowerBI.

¡Gracias de antemano!

2 REPLIES 2
Syndicate_Admin
Administrator
Administrator

Hola, @doaks

Gracias por la respuesta de @audreygerred , permítanme proporcionar una adición:

Para poder particionar o actualizar de forma incremental el archivo CSV, debe combinar eficazmente el archivo CSV en Power BI. Puede usar Power Query para combinar archivos y optimizar este proceso, especialmente si los archivos tienen una estructura similar. Para obtener instrucciones sobre este paso inicial, consulte la documentación sobre el uso de archivos CSV en Power BI:

Obtención de datos de archivos de valores separados por comas (CSV) - Power BI | Microsoft Learn

Una vez que los datos están en Power BI, el siguiente paso es configurar la actualización incremental para consultar y actualizar solo los datos que han cambiado o se han agregado desde la última actualización. Esto es fundamental para trabajar con grandes conjuntos de datos y evitar tiempos de espera. La característica de actualización incremental de Power BI puede ayudarle a hacerlo. Esta es una guía detallada sobre cómo configurar una directiva de actualización incremental:

Configuración de la actualización incremental y los datos en tiempo real para los modelos semánticos...

Cómo obtener respuestas rápidas a tu pregunta

Saludos

Yongkang Hua

Si esta publicación ayuda, considere Aceptarlo como la solución para ayudar a los otros miembros a encontrarlo más rápidamente.

Syndicate_Admin
Administrator
Administrator

Para la actualización incremental, el origen debe controlar el plegado de consultas (los CSV no lo hacen). Sin embargo, puede crear un datamart para encargarse de esto: Actualización incremental para orígenes plegables que no son de consulta en Power BI Desktop (mssqlt...

Helpful resources

Announcements
RTI Forums Carousel3

New forum boards available in Real-Time Intelligence.

Ask questions in Eventhouse and KQL, Eventstream, and Reflex.

MayPowerBICarousel1

Power BI Monthly Update - May 2024

Check out the May 2024 Power BI update to learn about new features.