Skip to main content
cancel
Showing results for 
Search instead for 
Did you mean: 

Register now to learn Fabric in free live sessions led by the best Microsoft experts. From Apr 16 to May 9, in English and Spanish.

Reply
Anonymous
Not applicable

Para duplicar o no duplicar ...

No estoy seguro de si este es el canal adecuado para hacer esta pregunta.

Me gustaría pedir la opinión de la gente sobre cuándo es ventajoso duplicar una columna con datos casi similares y cuándo es mejor crear una tabla de dimensiones.

Por ejemplo:

Mi conjunto de datos es de 500K filas correspondientes a los clientes. Considere un atributo típico, como la edad... decir a distancia 18-80... (verbo al rango, ¿verdad?)

Si quiero graficar alguna medida basada en la edad, podría encontrar que los años individuales son demasiado desagregados, y para el propósito del ejemplo, los agruparé en contenedores de 5 años...

age_5 5*PISO([edad]/5, 1)

O de manera similar, puedo crear una tabla con
AgeDim - GENERATESERIES(18, 80)

con su columna correspondiente.

Mi pregunta es, si alguien que lee esto ha llegado con pautas sobre cuándo es más eficiente hacer uno u otro. Por ejemplo, en función del tamaño de los datos o de la complejidad de la columna calculada.

Además, si usted sabe de un mejor sitio para publicar este tipo de encuestas, por favor hágamelo saber.
Gracias.

1 REPLY 1
jdbuchanan71
Super User
Super User

Hola @Diego-CDMX

La regla general es intentar mantener un esquema de estrella que solo tiene dos capas la mayor parte del tiempo, tablas de dimensiones y tablas de hechos. Aquí hay un artículo de Misrosoft discutiendo el tema.

https://docs.microsoft.com/en-us/power-bi/guidance/star-schema

Una cosa que toma un poco de acostumbrarse es el impacto en el tamaño del modelo de agregar una columna de datos se basa en gran medida en la cardinalidad de los datos debido a la forma en que los datos se almacenan en el motor VertiPaq utilizando el diccionario.

Por ejemplo, tengo una tabla de miembros en mi modelo que tiene registros de 1,5 M. Hay un identificador único en 1 columna y también tengo una columna de rango de edad de miembro. En función de la cardinalidad se puede ver la diferencia en la cantidad de espacio que toma cada campo.

Etiquetas de fila Cardinalidad Tamaño total de las columnas Tamaño de la mesa %
Client_Subscriber_Member_ID 1,591,264 111,722,096 21.00 %
Rango de edad de los miembros 11 163,976 0.03 %

Debido a que mi rango de edad miembro sólo tiene 11 entradas únicas que ocupa mucho menos espacio. El filtrado también se aplica al diccionario, por lo que es más rápido para el motor filtrar en función del rango de edad de los miembros que algo más granular porque está trabajando con menos campo.

Helpful resources

Announcements
Microsoft Fabric Learn Together

Microsoft Fabric Learn Together

Covering the world! 9:00-10:30 AM Sydney, 4:00-5:30 PM CET (Paris/Berlin), 7:00-8:30 PM Mexico City

PBI_APRIL_CAROUSEL1

Power BI Monthly Update - April 2024

Check out the April 2024 Power BI update to learn about new features.

April Fabric Community Update

Fabric Community Update - April 2024

Find out what's new and trending in the Fabric Community.