Power BI para extraer los valores en encabezado y pie de página de los documentos + el conector para PDF

¿Alguna vez has tenido una situación similar en la que un valor REALMENTE importante del archivo se encuentra en una sección de encabezado o de pie de página? Déjame darte un ejemplo con el siguiente archivo:

Déjame darte un ejemplo con el siguiente archivo:

En la imagen de arriba, verás que tenemos 2 valores en la sección del encabezado, justo debajo del logotipo de mi empresa. Ahora, este es un archivo PDF, así que nos conectaremos a ese archivo PDF, obtendremos los datos debajo de esos valores de encabezado (que es básicamente una tabla) y luego crearemos una nueva columna específicamente para el valor del Grupo de ventas. Puedes imaginar que tengo un montón de archivos PDF en una carpeta y cada uno de esos archivos PDF es para un grupo de ventas específico, por lo que debo tener ese valor como una nueva columna.

Mi tabla final debería tener el siguiente aspecto:

Utilizando el nuevo conector de archivo PDF de Power BI (en versión preliminar)

Hace unos meses, el equipo de Power BI lanzó un nuevo conector que todavía está en versión preliminar. Este conector te permite extraer datos directamente de un archivo PDF.

¿Cómo lo habilito? Puedes descargar la última versión de Power BI Desktop, ir a settings ->Preview features:

Deberás reiniciar tu Power BI Desktop para que los cambios surtan efecto, pero una vez que lo hagas, verás el conector PDF en la ventana “Obtener datos”:

Conectarnos a nuestro archivo PDF de muestra

Continuemos y hagamos clic en el conector PDF y luego se te pedirá que ingreses la ruta del archivo. En lugar de elegir un archivo local, usa la siguiente url:

https://mlbye4dmaxr1aqr4y339uwlr-wpengine.netdna-ssl.com/wp-content/uploads/2018/11/Report.pdf

Pulsa Abrir y luego podrás ver la ventana del navegador con 2 elementos:

  • Un objeto de tabla
  • Una página

Verás que Power Query (o Power BI) enumera automáticamente los elementos que encuentra.

Nota: algunos archivos PDF pueden parecer que tienen un formato correcto, pero en realidad son solo imágenes incrustadas en un PDF. Las imágenes no pueden ser interpretadas por este conector.

Obtener los datos en una tabla

Power Query / Power BI es lo suficientemente inteligente como para distinguir cuándo los datos pueden formatearse como una tabla, por lo que podemos continuar y conectarnos a la primera y única tabla de ese archivo:

Presiona Editar para que podamos ir al Editor de Power Query y preparar nuestros datos.

Una vez estemos dentro del Editor de Power Query, continuemos y:

  • Retira la Column5 que tiene los signos de dólar ($)
  • Rellena la columna SalesPerson

  • Cambia el tipo de datos de la columna Fecha a un tipo de datos de Fecha adecuado.

  • Elimina cualquier error creado en el paso anterior.

Este último es aún más fácil de realizar y distinguir o encontrar que en versiones anteriores de Power Query gracias al Column Profiler (el bonito gráfico debajo del encabezado de la columna) y la Column Quality (la leyenda genial que te dice cuántos datos son válidos, errores o vacíos en esa vista previa de la columna).

Una vez hayas hecho todo, tu tabla debe verse así:

Te recomiendo que cambies el nombre de esta consulta a “Data”, para que todos estemos haciendo lo mismo

Extracción de valores dentro del encabezado (o pie de página) de un archivo

Muy bien, genial. Tenemos los datos principales en la consulta “Data”, pero aún necesitamos conocer el “Sales Group” de ese informe, y queremos colocar ese valor como una nueva columna para la consulta “Data”.

¿Cómo podemos hacerlo? Nos conectamos a la página del archivo.

Bien, sabemos dónde está ese valor, pero ¿cómo llegamos a ESA “celda” o “posición” exacta?

Debemos hacernos una pregunta: ¿será esta una posición fija? o ¿puede cambiar?

Muy bien, tal vez sea más de una, pero entiendes lo que quiero decir. Crearás un conjunto de pasos que siempre producirán esa celda o “posición” específica, por ejemplo, al filtrar por la Column3 para obtener la celda donde el valor es igual a “Sales Group:”, PERO en este caso, diremos que esta es una posición fija y que siempre estará en esa posición específica.

Para eso, todo lo que tenemos que hacer es usar la magia del clic derecho para mostrar una opción llamada “Drill Down”:

Lo que hará “Drill Down” es crear un nuevo paso en esa consulta que simplemente tendrá el valor de esa celda o “posición” específica.

El resultado debe verse de la siguiente forma:

Cambia el nombre de tu consulta para que coincida con el de la imagen de arriba (Encabezado) y avancemos al siguiente paso.

Agregar el valor de encabezado extraído a los datos

Volvamos a la consulta de “Data”, haz clic en el menú “Agregar columna” y haz clic en el botón “Agregar una columna personalizada”. Una vez que aparezca, sigue adelante e ingresa la siguiente fórmula:

Básicamente, solo estás creando una nueva columna que tendrá el valor de esa otra consulta (que es simplemente un valor de texto). El resultado tiene el aspecto siguiente:

¡Y ya está! Acabas de hacer que sucediera. Por supuesto, este proceso podría ocurrir en la misma consulta y puedes aplicar la misma técnica para valores o datos que podrían estar en cualquier lugar del documento, no solo el encabezado o el pie de página.

Haz clic en el botón de abajo para descargar el archivo de muestra:

Descargar Archivo PDF Descargar archivo PBIX