DevOps · PJ · Híbrido · Brasil (visitas pontuais a São Paulo)

SRE

Sobre a vaga

Foco em confiabilidade, observabilidade e estabilidade da operação: disponibilidade, resposta a incidentes, melhoria contínua e excelência operacional.

Deslocamentos pontuais a São Paulo quando necessário.

Responsabilidades

Confiabilidade e estabilidade de ambientes e serviços em produção
Padrões de observabilidade: logs, métricas e alertas
Indicadores de disponibilidade e saúde dos serviços
Troubleshooting de incidentes e performance em produção
Análise de causa raiz e ações preventivas
Health checks, alarmes e detecção de falhas
Melhoria de deploys, rollback e processos operacionais
Reduzir toil e automatizar rotinas
Padrões de confiabilidade operacional

Diferenciais

ECS/Fargate, Datadog/CloudWatch, GitHub Actions, Terraform, Cloudflare
SLO, SLI, error budget e gestão de disponibilidade
Múltiplos produtos e operação compartilhada

Perfil

Analítico, investigativo, gosto por entender falhas a fundo, equilíbrio velocidade/estabilidade, redução de recorrência via automação e processos, visão sistêmica.

Stack (contexto)

AWS, Datadog, CloudWatch, GitHub Actions, ECS/Fargate, ECR, ALB, Cloudflare, Terraform, Vercel.

Requisitos