Scripts de ETL
Al trabajar con datos, normalmente nos encontramos con la necesidad de ejecutar procesos repetitivos como copiar archivos, realizar consultas, copiar datos resumidos entre base de datos, etc…
Este tipo de trabajos se conocen como procesos ETL (Extract, Transform, Load). BauDbStudio permite la definición y ejecución de este tipo de procesos.
Tipos de procesos ETL
Para trabajar con procesos ETL, BauDbStudio define diferentes procesadores, cada uno de estos procesadores se encarga de un tipo de trabajo.
Actualmente podemos definir procesos de:
- Tratamiento de archivos: copia, borrado de archivos, ejecución de comandos del sistema operativo, transformación de archivos (CSV, Excel, Parquet).
- Tratamiento de archivos en la nube: tratamiento de archivos en sistemas de almacenamiento en la nube (actualmente Azure Storage Blob), sobre todo para descarga y subida de archivos.
- Procesos REST: llamadas a procesos REST (actualmente en desarrollo).
- Procesos de base datos: procesos de consulta, copia y conversión de datos entre bases de datos relacionales.
Definición de procesos
BauDbStudio define los procesos de ETL utilizando diferentes archivos XML para cada tipo de proceso.
Para dirigir el proceso, se utilizan dos archivos especiales:
- Archivo de proyecto: que indica el orden de los pasos a ejecutar.
- Archivo de contexto: que mantiene los parámetros como por ejemplo las cadenas de conexión o nombres de directorio. Este tipo de archivos nos permite ejecutar el mismo proceso pero con datos diferentes
Cada tipo de proceso tiene sentencias y esquemas diferentes que se explica en su propia página.
- Información del archivo de proyecto
- Información del archivo de contexto
- Información de procesos
Ejecución de procesos de ETL
Para ejecutar los procesos ETL, si nos colocamos sobre un archivo de proyecto en el árbol de archivos y pulsamos la opción de menú Ejecutar:
Se nos abrirá la ventana de ejecución de procesos ETL:
En la sección izquierda vemos el contenido del archivo de proyecto.
En la parte derecha debemos seleccionar el archivo de contexto con el que deseamos ejecutar el proceso:
Una vez seleccionado un contexto correcto, podemos pulsar sobre el botón Ejecutar para procesar los diferentes pasos del script.
Existe una consola asociada a BauDbStudio que nos permite ejecutar los proyectos por separado.