Alerta | Janela longa | Janela curta | Duração | Taxa de queima | Orçamento consumido |
---|---|---|---|---|---|
P1 | 1h | 5m | 2m | 14.4 | 2% |
P2 | 6h | 30m | 15m | 6 | 5% |
P3 | 24h (1d) | 2h | 1h | 3 | 10% |
P4 | 32h (3d) | 6h | 3h | 1 | 10% |
No contexto tecnológico atual, a implementação de alertas multiwindow e multi-burn-rate representa uma abordagem inovadora para o monitoramento eficiente de sistemas. A capacidade de visualizar simultaneamente várias interfaces, combinada com alertas sensíveis a diferentes intensidades operacionais, oferece uma visão abrangente e em tempo real das operações críticas. Essa integração não apenas melhora a capacidade de resposta a eventos urgentes, mas também permite uma alocação eficiente de recursos, destacando-se como uma solução valiosa para ambientes empresariais que demandam agilidade e adaptabilidade na gestão de sistemas complexos.
Usando Multiwindow, Multi-Burn-Rate Alerts do cap 5 – Alerting on SLOs com as considerações do Björn “Beorn” Rabenstein
Tabela com 30 dias de janela
- Alerta
- Os alarmes podem ter sua criticidade mais elevada (P1) ou podem ser apenas avisos de algo que não anda bem (P4)
- Janela longa e Janela curta
- AS janelas de queima múltipla servem para notificar apenas quando ainda estivermos queimando ativamente o orçamento
- Uma boa diretriz é fazer com que a janela curta tenha 1/12 da duração da janela longa.
- Duração
- Um tempo arbitrário, que normalmente é a metade da janela curta, pra evitar que um alarme fique sendo acionado com frequência.
Um tempo arbitrário, que normalmente é a metade da janela curta, pra evitar que um alarme fique sendo acionado com frequência.
- Um tempo arbitrário, que normalmente é a metade da janela curta, pra evitar que um alarme fique sendo acionado com frequência.
- Taxa de queima
- formula: burn rate = budget consumed x period / alert window
Exemplo:
budget consumed = 2%
period = 30 dias = 30*24 = 720
alert window = 1h (janela de longa duração)
burn rate = 0.02 * 720 / 1 = 14.4 - A taxa de erro média é exatamente o fator 1, a taxa de erro que você poderia sustentar sem estourar seu orçamento de erro
- Com o orçamento de erro de 0,1% (SLO 99.9%), se sua taxa de queima for 14,4% em média ao longo de uma hora (janela lonja), você obtém um alerta P1, e no momento em que a obtém , você queimou 2% do seu orçamento mensal de erros, em apenas uma hora! Isso é muito rápido. É aqui que alguém tem que acordar e consertar.
- formula: burn rate = budget consumed x period / alert window
- Orçamento consumido
- Orçamento consumido na janela prevista. De acordo com a tabela, em 3d com taxa de queima 1 iremos consumir 10% do orçamento