Earn a 50% discount on the DP-600 certification exam by completing the Fabric 30 Days to Learn It challenge.
Tengo algunas columnas en diferentes tablas que ocupan MUCHO espacio. Una columna consume específicamente más del 40% del tamaño de nuestro modelo de datos.
Sé que los métodos típicos de reducción de datos son:
- Elimina las columnas que no necesitas
- Elimina las filas que no necesitas
- Convertir tipos de datos en valores numéricos cuando sea posible
Necesito estas columnas, ya he reducido el número de filas tanto como puedo, y los tipos de datos para estas columnas son texto porque los valores están en este formato: "a36be-f3c5-d293f93da2-f03df-a49f".
La alta cardinalidad de los datos para estas columnas está haciendo estallar el tamaño de nuestro modelo. ¿Cuál sería la mejor manera de reducir el tamaño de nuestros datos sin eliminar los datos de nuestro modelo por completo?
No puede aplicar técnicas como la separación de partes de fecha y hora a los GUID. Los GUID por su propia naturaleza tienen que tener una alta cardinalidad. En teoría, podría reemplazar el GUID con una columna de índice entero, pero eso solo reduciría las necesidades de almacenamiento, no la cardinalidad.