Pipeline de dados desenvolvido para extrair, validar, transformar e armazenar previsões climáticas utilizando Apache Airflow. Os dados são obtidos da API Open-Meteo e persistidos em formato Parquet, prontos para uso analítico.
Automatizar a ingestão de dados externos garantindo qualidade, consistência e armazenamento eficiente.
Fluxo do pipeline:
Extract → Validate → Branch → Transform → Load
Extract: coleta dados da API
Validate: verifica integridade e estrutura
Branch: controla o fluxo conforme a qualidade dos dados
Transform: padroniza e enriquece os dados
Load: grava os dados em Parquet
Apache Airflow
Python
Pandas
Requests
Parquet
Extract: consumo de API REST com tratamento de erro
Validate: verificação de campos obrigatórios e consistência
Transform: padronização, criação de métricas e enriquecimento dos dados
Load: persistência em arquivos Parquet versionados
Dataset estruturado contendo informações como data, temperaturas, precipitação, velocidade do vento, descrição climática e metadados de ingestão.
Orquestração com Airflow
Pipeline modular
Validação antes do processamento
Controle de fluxo com branching
Retry automático
Uso de Parquet para eficiência
Logging e rastreabilidade
Disponível em:
https://github.com/matheustxaguiar/airflow-portfolio
O projeto demonstra a construção de um pipeline de dados automatizado, com foco em qualidade, organização e aderência a boas práticas de engenharia de dados.