Analista de Dados - Pleno

  • Não Informado
  • Remoto
  • 10/03/2026

Envie seu currículo para sophia@rehva.com.br ou antonio@rehva.com.br!



Modeo: Remoto | CLT



Principais Responsabilidades e Atribuições


· Construir, evoluir e sustentar pipelines de dados em AWS (S3, Glue, EMR, Redshift), priorizando custos, confiabilidade e observabilidade.


· Orquestrar cargas incrementais/idempotentes no Apache Airflow (MWAA), com SLAs, retries, backfill e alertas.


· Desenvolver jobs AWS Glue (PySpark) com tratamento de schema evolution, particionamento, tuning e uso do Glue Data Catalog.


· Modelar camadas Bronze/Silver/Gold (Medallion) e Dimensional (Star/Snowflake) para consumo analítico.


· Atuar em SQL Server/SSIS (on-prem) em migrações/modernizações e integrações com o lake na AWS.


· Escrever código limpo em Python/PySpark, YAML para DAGs/configs e praticar CI/CD (testes, code review, versionamento).


· Colaborar com times de produto/negócio, traduzindo requisitos em soluções de dados com métricas e contratos claros.




Requisitos e Qualificações Técnicas:


AWS: S3, Glue (jobs/crawlers/Catalog), EMR (Spark), Redshift, Athena (desejável).


Airflow/MWAA: DAGs parametrizadas, sensors/operators AWS, backfill e monitoramento.


SQL ANSI: joins, window functions, CTEs, `MERGE`, tuning básico.


On-prem: SQL Server (T-SQL), SSIS (ETL).


Modelagem: Medallion (Bronze/Silver/Gold) e Dimensional (Star Schema, Snowflake).


Python e PySpark (RDD/DataFrame API), particionamento e file sizing.


YAML para configs de pipelines e CI/CD (GitHub/GitLab, testes e deploy).


Kubernetes (básico): conceitos de pod/deployment e operação de workloads de dados (desejável).



Diferenciais:


Experiência com Trino.


Boas práticas de FinOps e monitoramento (CloudWatch/Prometheus).


Noções de segurança/mascaramento em camadas de consumo.