DevOps · PJ · Híbrido · Brasil (visitas pontuais a São Paulo)
SRE
Sobre a vaga
Foco em confiabilidade, observabilidade e estabilidade da operação: disponibilidade, resposta a incidentes, melhoria contínua e excelência operacional.
Deslocamentos pontuais a São Paulo quando necessário.
Responsabilidades
- Confiabilidade e estabilidade de ambientes e serviços em produção
- Padrões de observabilidade: logs, métricas e alertas
- Indicadores de disponibilidade e saúde dos serviços
- Troubleshooting de incidentes e performance em produção
- Análise de causa raiz e ações preventivas
- Health checks, alarmes e detecção de falhas
- Melhoria de deploys, rollback e processos operacionais
- Reduzir toil e automatizar rotinas
- Padrões de confiabilidade operacional
Diferenciais
- ECS/Fargate, Datadog/CloudWatch, GitHub Actions, Terraform, Cloudflare
- SLO, SLI, error budget e gestão de disponibilidade
- Múltiplos produtos e operação compartilhada
Perfil
Analítico, investigativo, gosto por entender falhas a fundo, equilíbrio velocidade/estabilidade, redução de recorrência via automação e processos, visão sistêmica.
Stack (contexto)
AWS, Datadog, CloudWatch, GitHub Actions, ECS/Fargate, ECR, ALB, Cloudflare, Terraform, Vercel.
Requisitos
Experiência operando e sustentando ambientes produtivos em cloud
Observabilidade: monitoramento, logs, métricas e alertas
Troubleshooting de aplicações e infraestrutura
Incident response, causa raiz e melhoria contínua
Containers e operação de cargas conteinerizadas
AWS em produção
Redes, DNS, load balancer, TLS, proxies
Disponibilidade para deslocamentos pontuais a São Paulo