Consejos para una unión aproximada muy ineficaz

Syndicate_Admin · ‎05-02-2024

Hola chicos,

Necesito hacer una unión aproximada entre dos tablas y da como resultado un rendimiento muy malo al actualizar mi conjunto de datos. Permítanme explicar el contexto.

Tengo mi tabla de la izquierda que contiene hoy alrededor de 1,5 millones de líneas y seguirá creciendo. En esta tabla hay alrededor de 35 columnas.

Y hay una columna que contiene el nombre de una ciudad (tipo de texto). El contenido de esta columna es proporcionado por el usuario de la aplicación, por lo que para la misma ciudad, puedo tener múltiples variaciones con mayúsculas / minúsculas / errores, etc.

En el lado derecho, tengo una tabla (llamada ciudades) que contiene alrededor de 40K líneas. Hay 7 columnas en esta tabla. Y hay una columna que contiene todos los nombres únicos de ciudades disponibles en mi país. La columna está en mayúsculas, no hay error, limpia, etc.

Así que comencé a hacer una unión difusa entre ambas tablas para tratar de hacer coincidir el nombre de la ciudad de la tabla izquierda con el nombre de la ciudad limpia de la tabla derecha. Los ajustes de la unión difusa son:

- Nivel de similitud : 0.5

- Ignorar la distinción entre mayúsculas y minúsculas

- Solo 1 partido

Cuando termina la coincidencia, en la tabla de la izquierda, solo mantengo la columna del nombre de la ciudad de la tabla de la derecha, no toda la tabla.

Esto da como resultado alrededor del 99% del partido, lo cual está bien para mí.

Pero luego, cuando actualizo mi conjunto de datos, todas las tablas se actualizan con bastante rapidez, alrededor de 1 a 2 minutos (tengo alrededor de 20 tablas), excepto la tabla de la izquierda que contiene la nueva columna de la combinación aproximada. Esta tabla tarda mucho en actualizarse (entre 30 y 45 minutos). Lo cual realmente no es aceptable en el trabajo diario.

Entonces, ¿tienes algún consejo para que esta operación sea más rápida?

Gracias de antemano por su ayuda,

Saludos

Syndicate_Admin · ‎05-02-2024

Hola, @Matthieu_R

Antes de realizar una combinación aproximada, considere la posibilidad de preprocesar los datos para reducir la complejidad del proceso de coincidencia. Para los nombres de ciudades de la tabla de la izquierda, puede aplicar transformaciones para estandarizar el formato del texto. Esto ayuda a reducir la variabilidad de los datos y puede mejorar la eficacia de las uniones aproximadas.

Si el conjunto de datos de Power BI permite la actualización incremental, considere la posibilidad de implementar una estrategia de actualización incremental. Esto le permite limitar la cantidad de datos procesados durante cada actualización a solo la cantidad de datos que se agregan o cambian, en lugar de volver a procesar todo el conjunto de datos. Esto puede reducir significativamente los tiempos de actualización. Puede ver más información sobre la actualización incremental:

Actualización incremental para modelos semánticos y datos en tiempo real en Power BI - Power BI | Mi...

También puede echar un vistazo a la documentación sobre la optimización del rendimiento:

Guía de optimización para Power BI - Power BI | Microsoft Learn

Cómo obtener respuestas rápidas a tu pregunta

Saludos

Yongkang Hua

Si esta publicación ayuda, considere Aceptarlo como la solución para ayudar a los otros miembros a encontrarlo más rápidamente.