Administrador Kubernets

  • Não Informado
  • Remoto
  • 6 hora(s) atras

Administrador Kubernets
Atuação remota;
Início Imediato;
Período de 3 meses, podendo ser prorrogado;
Inglês avançado;
Contratação PJ;
Responsabilidades:
Criar, configurar e manter clusters Kubernetes em ambientes de produção;
Implementar Device Plugins para habilitar o uso de GPUs;
Definir Namespaces, Resource Quotas e LimitRanges para garantir controle e governança de recursos;
Desenvolver e manter Operators e CRDs para automação de tarefas complexas;
Implementar Virtualização e Fatiamento de GPU;
Configurar e administrar NVIDIA MIG ou tecnologias equivalentes para dividir GPUs em instâncias menores;
Ajustar perfis de GPU conforme diferentes workloads (IA, ML, HPC);
Monitorar e otimizar a alocação dinâmica das fatias de GPU para maximizar eficiência;
Requisitos Técnicos:
Kubernetes Avançado;
Criação e gerenciamento de clusters;
Uso de Device Plugins para GPUs;
Configuração de Namespaces, Resource Quotas e LimitRanges para controle de recursos;
Experiência com Operators e CRDs (Custom Resource Definitions);
GPU Virtualization & Slicing;
Conhecimento em NVIDIA Multi-Instance GPU (MIG) ou tecnologias equivalentes;
Configuração de perfis de GPU para diferentes workloads;
Monitoramento e alocação dinâmica de fatias de GPU;
Containers e Orquestração;
Docker e OCI containers;
Integração com Kubernetes Scheduler para workloads que exigem GPU;
Ajuste de Pod Affinity/Anti-Affinity para otimização;
Observabilidade e Performance;
Ferramentas como Prometheus, Grafana para métricas;
Fine Tunning para evitar gargalos de GPU e CPU;
Monitoramento de latência e throughput;
Segurança e Governança;
Controle de acesso baseado em RBAC;
Isolamento seguro entre workloads que compartilham GPU;
Compliance com políticas corporativas;
Automação e DevOps;
CI/CD para aplicações que usam GPU;
Scripts para provisionamento automatizado (Helm, Kustomize, Terraform);
Experiência com pipelines para ML/AI (Kubeflow, MLflow);
Diferenciais:
Experiência com Istio (traffic management, mTLS), service mesh e sidecar para inferência;
Prática com OCI (Oracle Cloud), NCP/NVIDIA e arquiteturas de custo/performance para treinamento e inferência;
Conhecimento de mensageria (Kafka/RabbitMQ), caching, storage otimizado para pipelines de IA;
Soft Skill:
Capacidade de resolver problemas complexos;
Comunicação clara para explicar soluções técnicas;
Trabalho colaborativo com equipes de IA, DevOps e Infraestrutura.