Earn a 50% discount on the DP-600 certification exam by completing the Fabric 30 Days to Learn It challenge.
Tengo 5-6 mesas de las cuales son bastante grandes. Fusioné una tabla a la vez y luego, después de fusionar y seleccionar las columnas necesarias, cerré y Aplicar todo. Probé algunos enfoques, pero estaban tirando de más de 12 millones de filas durante 8 horas. Creo que este es el camino equivocado. Todas las tablas tienen un ID común que es EmpID y muchas columnas. Al seleccionar una tabla para fusionar otra, hice una combinación a la izquierda y NO verifiqué la ' coincidencia difusa'. ¿Debería comprobarse? ¿Cómo puedo obtener un pequeño subconjunto de los datos como 2-3 años en lugar de todo (10-15 años de datos)?
Cuando este panel esté completo y pase a producción, ¿necesito volver a cambiar los parámetros para obtener todos los datos? La organización tiene capacidad premium.
¿Estas tablas tienen el mismo número de columnas y encabezados de columna?
En caso afirmativo, puede considerar anexar tablas (o)
Y si desea filtrar los datos solo de los últimos 2-3 años, puede filtrar los datos si tiene una columna de fecha o año en todas las tablas.
Por cierto, ¿cuál es tu fuente?
Gracias
Arul
Son nombres de columna similares pero diferentes, los mismos nombres son como ProjectSeq, EmpID, ubicación, organización, etc., pero muchas otras columnas son todas diferentes. Hice una combinación como nueva consulta1. Utilizo EmpID como la clave para conectarme a cada tabla y seguir agregando nuevas tablas.... luego, finalmente, Cerrar y aplicar es lo que tomó mucho tiempo. ¿Necesito limitar cada tabla antes de fusionarlas o limitar el número de filas para decir 500,000 (para poder comparar y probar si los datos son correctos) en la tabla recién fusionada? ¿Cuál es la mejor manera de hacerlo?