Perfil, Calidad y Distribución de Datos en Power BI / Power Query

  • Facebook
  • Twitter
  • LinkedIn

Microsoft lanzó estas características hace casi un año y en los últimos meses ha recibido un poco de amor con algunas actualizaciones. Me di cuenta de que la mayoría de las personas realmente no usan estas funciones, principalmente porque están deshabilitadas de manera predeterminada, por lo cual quería crear blog para cubrir el por qué y cuándo usar estas funciones.

Tal vez te estés preguntando; ¿Valen la pena estas características? En mi humilde opinión, absolutamente, pero está sujeto a cómo se utiliza Power Query.

La razón por la que existen estas características es para facilitarte la vida trabajando con el mismo.

¿Cómo activar la función de perfil, calidad y distribución de datos en Power BI / Power Query?


Nota: Actualmente, estas funciones solo están disponibles dentro de Power BI Desktop, pero eventualmente estarán disponibles dentro de Power Query para Excel y quizás otras integraciones de Power Query.

Para habilitar estas funciones, debes ir a la pestaña the View tab à Data Preview Group à Check the following:

  • Calidad de la columna (Column quality)
  • Distribución de columnas (Column distribution)
  • Perfil de columna (Column profile)

¿Qué puedo hacer con cada característica? ¿Qué gano de ellas?

Antes de entrar en detalles sobre lo que hace cada una de estas funciones, intentemos averiguar qué es cada una de ellas para saber a qué nos referimos.

Ten en cuenta que para ver el perfil de la columna, debes hacer clic en una columna para que aparezca, por lo que esa podría ser la razón por la que no la ves de inmediato.

Lo que estas características intentan proporcionarte, como usuario final, es una forma visual de explorar sus datos y tener una idea de la composición de tu conjunto de datos.

Obtienes distribuciones de columnas, verifica cuántos errores hay en una columna dada y cuántos valores únicos tiene, así como algunas otras estadísticas de la columna. Todo es contextual a los datos que estás viendo actualmente.

De forma predeterminada, Power Query realiza todos estos perfiles y verifica las 1,000 primeras filas de tu conjunto de datos. No te preocupes, con solo un clic puedes cambiar ese comportamiento para que puedas obtener la imagen completa realizando estas comprobaciones en todo el conjunto de datos:


Lo unico que necesitas hacer es verificar la barra de estado en la parte inferior izquierda, donde dice » Column profiling based on top 1000 rows » y cambiarlo para que sea » Column profiling based on entire data set «.

Calidad de columna en Power BI / Power Query

La primera característica que usaremos es la calidad de columna. Nuestro conjunto de datos viene con una columna con el nombre Code, que por alguna razón tiene algunos errores de fuente.

Observa cómo la sección de calidad de datos dice que esta columna consta de 19% de errores. También cómo debajo del nombre de la columna hay un pequeño gráfico de barras que es representativo del % Válido, Error y Vacío. Un toque bastante sutil.

¿Qué queremos hacer con esos errores? Queremos reemplazarlos con el valor «Z».

Desde el punto de vista de experiencia de usuario, lo primero que me viene a la mente como usuario final es hacer clic donde dice Error en la sección Calidad de datos y ver si es interactivo.

No tienes que hacer clic, simplemente puedes pasar el cursor y mostrará algunas sugerencias sobre las acciones que puedes tomar en función a los resultados de calidad de datos que obtuvimos. En nuestro caso tenemos esto:

De forma predeterminada, nos trae la sugerencia de Remove Errors, pero si haces clic en los 3 puntos, verás más opciones y la que buscamos es Replace Errors o «Reemplazar errores», todo lo que tengo que ingresar es Z:

Y el resultado se verá así:

El aspecto más importante o el valor agregado de esta característica es que no tuvimos que usar el clic derecho o pasar por todas las opciones en Power Query para encontrar lo que queríamos hacer. Fue una experiencia intuitiva que condujo a los resultados correctos.

Distribución de columnas en Power BI / Power Query

He estado probando esta característica durante meses y la mayoría de las veces solo proporciona una distribución simple de los datos dentro de la columna, pero no proporciona ninguna acción o sugerencia que haya sido más que útil.

No me malinterpretes: es absolutamente sorprendente darse cuenta visualmente de que a tu consulta le faltan algunos datos debido a recuentos distintos y únicos, pero solo deseo que proporcione algo más que una distribución y algunas estadísticas.

Los datos dentro de esas visualizaciones se ordenan de forma descendente del valor con la frecuencia más alta al mas bajo. Puedes pasar el cursor sobre esas imágenes, pero no obtendrás ninguna información sobre el uso de herramientas en referencia a punto de datos, por esta razón no sabrás realmente que es lo que está sucediendo con solo mirar esa visualización simple.

Además de ser informativo de los datos generales dentro de la columna (con un recuento distinto y valores únicos), puedes pasar el cursos sobre cualquiera de las imágenes y obtener algunas sugerencias de lo que podrías hacer, pero estas se limitan a solo unas pocas opciones que no son explícitas para los valores dentro de ese gráfico:

Solo obtienes 1 sugerencia principal de Power Query sobre qué hacer (por lo general, eliminar duplicados para la distribución de columnas) y los 3 puntos siempre te darán las mismas opciones que las que vimos antes con la Calidad de los datos.

Perfil de columna en Power BI / Power Query

Este se agregó hace unos meses y se extiende o se suma a lo que vimos antes con la Distribución de columnas.

Una de las principales advertencias de usar esta característica es que requiere de MUCHO espacio de la pantalla hasta el punto en que en algunas computadoras portátiles y pantallas pequeñas apenas verán la Vista previa de datos. Sin embargo, esta es una experiencia muy necesaria.

Por lo general, solo tengo esta función y la calidad de datos habilitada.

Veamos el ejemplo de este. Cuando intentas hacer un filtro sobre una columna que solo tiene 1 valor, el filtro no se define correctamente, ya que intentas escoger «Seleccionar todo» en lugar de simplemente seleccionar un valor. Esto es exactamente lo que sucede con el campo Master Account.

Y aquí es donde resalta el perfil de la columna. Puedes seleccionar la columna y luego ver TODOS los valores dentro de esa columna. Luego puedes hacer clic derecho en un valor único y hacer un filtro específico para obtener solamente ese valor único:

También puedes mirar a la izquierda las estadísticas. Va más allá de lo que vemos con la distribución de columnas y agrega la frecuencia de errores, cadena vacía, min, max y, según el tipo de columna, puedes agregar aún más estadísticas. Lamentablemente, estos son solo datos informativos: no podemos hacer clic en ellos para, digamos, eliminar cadenas vacías del panel de Column statistics.

Además, la distribución de las columnas a la derecha también está limitada en el sentido de que no podemos seleccionar múltiples valores al mismo tiempo para hacer un Keep (Mantener) o Remove (quitar) de múltiples filas al mismo tiempo

Un poco de contraste: un competidor que ofrece una MEJOR experiencia (en mi humilde opinión)

Una herramienta que he estado observando durante varios años ahora se llama Trifacta y tienen esta herramienta llamada Wrangler.

Es un poco más que una herramienta de preparación de datos: también es una herramienta para exploración de datos e incluso dicen que es una herramienta de minería de datos.

En lugar de que te diga lo genial que es esa herramienta, déjame darte una captura de pantalla de cómo se ve su interfaz de usuario:

Tienen una versión gratuita de su herramienta, por lo que te animo a que la pruebes.

Ahora, ¿quién tuvo primero la distribución, calidad y perfil de la columna? ¿ Power Query o Trifacta Wrangle? En realidad, fue Wrangler quien lo tuvo primero. Años antes de que Power Query comenzara a crear una versión beta de este.

En comparación con lo que tenemos con Power Query, puedes ver que no tenemos el recuento general «distinct» (distintos) y «unique» (únicos), sino más bien varias visualizaciones que dependen del tipo de datos con el que estamos tratando.

  • Para un tipo de datos de fecha, vemos una línea de tiempo
  • Para un campo numérico, vemos un rango de valores
  • Para cadenas de texto, vemos cuántas categorías

Las imágenes en sí funcionan casi como se esperaría del lienzo del informe real de Power BI. Existe un filtro cruzado, por lo que cuando seleccionas un valor (¡sí! Puede seleccionar un valor), la interfaz de usuario resalta inmediatamente las filas donde aparece ese valor:

Puedes hasta mantener la tecla CTRL y seleccionar múltiples valores al mismo tiempo (en la siguiente imágen estoy seleccionando los códigos B y C):

Hay algunos inconvenientes en comparación con Power Query. En este caso, por ejemplo, el conector Trifacta Wrangler detecta los errores, pero en lugar de mostrarlos como errores, no los muestra en absoluto:

Se clasifican como valores faltantes en la calidad de datos de Trifacta Wrangler, mientras que en Power Query tiene esa distinción entre errores y valores vacíos y, según el caso, puede ser extremadamente importante.

Conclusión: Power Query se está convirtiendo en una herramienta de preparación y exploración de datos.

Está claro que estas características están tratando de proporcionar una experiencia básica de exploración de datos. Power Query se ha posicionado como LA herramienta de preparación de datos, pero siempre ha faltado la parte de presentación para sus usuarios, por lo que está tratando de invertir más en mejorar la experiencia del usuario actual y vamos por el camino correcto.

Todavía hay un largo camino por recorrer, como puedes ver cuando comparamos Power Query con otras herramientas en el mercado, pero es bueno saber que el equipo de Power Query está invirtiendo en mejorar la experiencia del usuario.

Déjame saber tus comentarios a continuación sobre cómo estás usando estas funciones hoy y qué piensas de ellas.

3 Comentarios

  1. Hola Miguel, gracias por la explicacion, no sabia ni para que funcionaba. Seria genial que con Power Query se pudiera hacer mineria de datos. Cuidate mucho. sls

  2. Hola Miguel, esta nueva herramienta nos ahorra mucho tiempo para hacer limpieza muy buena, seria bueno que se integre para excel un abrazo desde Bolivia

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.