[SRE] Usando Multiwindow, Multi-Burn-Rate Alerts


AlertaJanela longaJanela curtaDuraçãoTaxa de queimaOrçamento
consumido
P11h5m2m14.42%
P26h30m15m65%
P324h (1d)2h1h310%
P432h (3d)6h3h110%

No contexto tecnológico atual, a implementação de alertas multiwindow e multi-burn-rate representa uma abordagem inovadora para o monitoramento eficiente de sistemas. A capacidade de visualizar simultaneamente várias interfaces, combinada com alertas sensíveis a diferentes intensidades operacionais, oferece uma visão abrangente e em tempo real das operações críticas. Essa integração não apenas melhora a capacidade de resposta a eventos urgentes, mas também permite uma alocação eficiente de recursos, destacando-se como uma solução valiosa para ambientes empresariais que demandam agilidade e adaptabilidade na gestão de sistemas complexos.

Usando Multiwindow, Multi-Burn-Rate Alerts do cap 5 – Alerting on SLOs com as considerações do Björn “Beorn” Rabenstein

Tabela com 30 dias de janela

  • Alerta
    • Os alarmes podem ter sua criticidade mais elevada (P1) ou podem ser apenas avisos de algo que não anda bem (P4)
    • Janela longa e Janela curta
      • AS janelas de queima múltipla servem para notificar apenas quando ainda estivermos queimando ativamente o orçamento
      • Uma boa diretriz é fazer com que a janela curta tenha 1/12 da duração da janela longa.
  • Duração
    • Um tempo arbitrário, que normalmente é a metade da janela curta, pra evitar que um alarme fique sendo acionado com frequência.
      Um tempo arbitrário, que normalmente é a metade da janela curta, pra evitar que um alarme fique sendo acionado com frequência.
  • Taxa de queima
    • formula: burn rate = budget consumed x period / alert window
      Exemplo:
      budget consumed = 2%
      period = 30 dias = 30*24 = 720
      alert window = 1h (janela de longa duração)
      burn rate = 0.02 * 720 / 1 = 14.4
    • A taxa de erro média é exatamente o fator 1, a taxa de erro que você poderia sustentar sem estourar seu orçamento de erro
    • Com o orçamento de erro de 0,1% (SLO 99.9%), se sua taxa de queima for 14,4% em média ao longo de uma hora (janela lonja), você obtém um alerta P1, e no momento em que a obtém , você queimou 2% do seu orçamento mensal de erros, em apenas uma hora! Isso é muito rápido. É aqui que alguém tem que acordar e consertar.
  • Orçamento consumido
    • Orçamento consumido na janela prevista. De acordo com a tabela, em 3d com taxa de queima 1 iremos consumir 10% do orçamento

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.