Scripts de ETL

Scripts de ETL

October 11, 2019

Al trabajar con datos, normalmente nos encontramos con la necesidad de ejecutar procesos repetitivos como copiar archivos, realizar consultas, copiar datos resumidos entre base de datos, etc…

Este tipo de trabajos se conocen como procesos ETL (Extract, Transform, Load). BauDbStudio permite la definición y ejecución de este tipo de procesos.

Tipos de procesos ETL

Para trabajar con procesos ETL, BauDbStudio define diferentes procesadores, cada uno de estos procesadores se encarga de un tipo de trabajo.

Actualmente podemos definir procesos de:

  • Tratamiento de archivos: copia, borrado de archivos, ejecución de comandos del sistema operativo, transformación de archivos (CSV, Excel, Parquet).
  • Tratamiento de archivos en la nube: tratamiento de archivos en sistemas de almacenamiento en la nube (actualmente Azure Storage Blob), sobre todo para descarga y subida de archivos.
  • Procesos REST: llamadas a procesos REST (actualmente en desarrollo).
  • Procesos de base datos: procesos de consulta, copia y conversión de datos entre bases de datos relacionales.

Definición de procesos

BauDbStudio define los procesos de ETL utilizando diferentes archivos XML para cada tipo de proceso.

Para dirigir el proceso, se utilizan dos archivos especiales:

  • Archivo de proyecto: que indica el orden de los pasos a ejecutar.
  • Archivo de contexto: que mantiene los parámetros como por ejemplo las cadenas de conexión o nombres de directorio. Este tipo de archivos nos permite ejecutar el mismo proceso pero con datos diferentes

Cada tipo de proceso tiene sentencias y esquemas diferentes que se explica en su propia página.

Ejecución de procesos de ETL

Para ejecutar los procesos ETL, si nos colocamos sobre un archivo de proyecto en el árbol de archivos y pulsamos la opción de menú Ejecutar:

Menú de ejecución de procesos ETL
Menú de ejecución

Se nos abrirá la ventana de ejecución de procesos ETL:

Ejecucion de procesos Etl
Ejecucion de procesos Etl

En la sección izquierda vemos el contenido del archivo de proyecto.

En la parte derecha debemos seleccionar el archivo de contexto con el que deseamos ejecutar el proceso:

Ejecución de procesos Etl sobre un contexto
Ejecución de procesos Etl sobre un contexto

Una vez seleccionado un contexto correcto, podemos pulsar sobre el botón Ejecutar para procesar los diferentes pasos del script.

Existe una consola asociada a BauDbStudio que nos permite ejecutar los proyectos por separado.