Engenharia de Dados

Weather ETL Pipeline com Airflow

Pipeline de dados desenvolvido para extrair, validar, transformar e armazenar previsões climáticas utilizando Apache Airflow. Os dados são obtidos da API Open-Meteo e persistidos em formato Parquet, prontos para uso analítico.

Objetivo

Automatizar a ingestão de dados externos garantindo qualidade, consistência e armazenamento eficiente.

Arquitetura

Fluxo do pipeline:

Extract → Validate → Branch → Transform → Load

Extract: coleta dados da API
Validate: verifica integridade e estrutura
Branch: controla o fluxo conforme a qualidade dos dados
Transform: padroniza e enriquece os dados
Load: grava os dados em Parquet

Tecnologias

Apache Airflow
Python
Pandas
Requests
Parquet

Principais Etapas

Extract: consumo de API REST com tratamento de erro
Validate: verificação de campos obrigatórios e consistência
Transform: padronização, criação de métricas e enriquecimento dos dados
Load: persistência em arquivos Parquet versionados

Saída

Dataset estruturado contendo informações como data, temperaturas, precipitação, velocidade do vento, descrição climática e metadados de ingestão.

Boas Práticas

Orquestração com Airflow
Pipeline modular
Validação antes do processamento
Controle de fluxo com branching
Retry automático
Uso de Parquet para eficiência
Logging e rastreabilidade

Código

Disponível em:
https://github.com/matheustxaguiar/airflow-portfolio

Conclusão

O projeto demonstra a construção de um pipeline de dados automatizado, com foco em qualidade, organização e aderência a boas práticas de engenharia de dados.

Page updated

Google Sites

Report abuse