Agent: E se o agente DevOps estiver “consertando” com blast radius?

Blast radius é o “raio de impacto” de uma ação: quantos serviços, usuários, regiões, contas e dados podem ser afetados por uma mudança — inclusive por efeitos colaterais. Em DevOps/SRE, o mesmo comando pode ter blast radius pequeno (reiniciar um único pod em um ambiente de teste) ou enorme (alterar uma policy compartilhada, rodar um rollout global, mexer em roteamento de tráfego ou em infraestrutura base).

O problema é que, em incidentes, a pressão por velocidade empurra o sistema para ações “rápidas” que parecem locais, mas carregam blast radius oculto: um restart em cascata derruba dependências; um autoscaling agressivo explode custo; uma mudança de config vira divergência permanente; uma regra de firewall bloqueia tráfego legítimo; um rollback mal desenhado quebra dados.

Quando um agente passa a “corrigir incidentes” em produção, blast radius vira o conceito central, porque ele define se a autonomia é um ganho controlado ou um risco que cresce silenciosamente.

AS-IS — o agente age rápido, mas o raio de impacto não está desenhado

No estado atual típico, o agente:

recebe alertas e sinais, decide uma hipótese;
chama ferramentas com credenciais amplas (cluster, cloud APIs, pipelines);
executa ações como restart, scale, rollout, alteração de config, regras de tráfego;
fecha o incidente quando a métrica melhora.

O diagnóstico Agent Map, aplicado aqui, encontra um padrão perigoso: o sistema sabe executar, mas não sabe delimitar.

Direito de mudança implícito
O agente não apenas recomenda; ele executa porque está no caminho do incidente. Isso cria autoridade por inércia.

Ações sem escopo explícito (blast radius invisível)
A execução não exige declarar: qual serviço, qual ambiente, qual cluster, qual região, qual conta, qual porcentagem de tráfego será afetada. Sem essa declaração, o blast radius vira suposição.

Ferramentas poderosas com permissões amplas
Quando o agente tem “mãos demais”, ele pode agir além do necessário: reconfigurar mais componentes, em mais lugares, por mais tempo — e isso aumenta o raio de impacto de forma não intencional.

Handoffs opacos
Sem um rastro de hipóteses e ações, não dá para saber se a melhora veio do fix certo ou de um efeito colateral. Isso incentiva “cura sintomática” que mascara a causa raiz.

Sem hesitação e sem rollback confiável
Quando sinais conflitam, o agente continua agindo porque foi otimizado para “resolver rápido”. E, quando erra, a reversão vira mutirão. Em produção, rollback improvisado costuma ter blast radius maior do que o problema original.

O resultado é previsível: a operação melhora na média e piora na cauda. Os incidentes raros viram incidentes caros, porque a automação aumenta o raio de impacto quando a incerteza está alta.

TO-BE — desenhar blast radius como um requisito, não como um acidente

A virada não é “tirar o agente”. É fazer o sistema operar com blast radius governado: limites explícitos, caminhos de hesitação e reversão, e evidência que permita reconstruir decisões sem narrativa.

Separar diagnosticar de executar
O agente pode propor. A execução passa por um plano de controle que valida risco, escopo e condições de parada. Assim, “consertar” deixa de ser ato direto e vira mudança governada.

Corredores de permissão por classe de ação
Ações de baixo blast radius podem ser automáticas (coletar logs, rodar health checks, abrir ticket, comparar métricas). Ações de blast radius médio exigem escopo estrito e confirmação (restart de um único deployment, ajustar um único autoscaler com limites). Ações de blast radius alto exigem escalonamento (roteamento, infra, policies, migrações). Autonomia vira concessão por corredor, não liberdade geral.

Blast radius como parâmetro obrigatório antes de qualquer mudança
Toda ação precisa declarar:

alvo (serviço, ambiente, cluster, região, conta);
intensidade (quantos pods/instâncias, % de tráfego);
duração (janela e condição de parada);
reversão (qual rollback existe e em quanto tempo).
Se não consegue declarar, a saída correta é hesitar e escalar.

Recibo replayável da mudança e rollback como requisito
Cada execução precisa deixar um recibo mínimo: sinais usados, hipótese, regra aplicada, comando exato, alvo exato, resultado observado e motivo de parada. E automação só deve ser permitida quando há rollback confiável (canary, feature flag, rollback pronto, idempotência). Sem rollback, o risco do blast radius fica indomável.

Síntese — em produção, autonomia sem blast radius governado é risco acumulado

Agente de DevOps em produção não é “um assistente rápido”. É um decisor de mudanças. E mudanças têm blast radius — sempre. Quando o raio de impacto não é explicitado e limitado, a automação vira uma fábrica de efeitos colaterais: resolve sintomas, muda o sistema e aumenta o custo de correção.

A pergunta final é simples: o sistema consegue dizer, antes de agir, qual é o raio de impacto e como desfazer se estiver errado? Se não consegue, a autonomia não está madura — está apenas mais rápida.

TRAJECTA