[SRE] Por sistemas mais LEV


Este vai ser um post rápido! 😉 
Estou em uma jornada de confiabilidade (SRE) e aprendendo muito. Uma dificuldade inicial tem sido a evangelização das práticas, e, principalmente, a definição de SLO. Pensando nisso, e muito inspirado no VALET da The Home Depot’s, estamos indo em direção ao LEV (Latency, Errors e Volume), onde temos algumas perguntas para ajudar os devs/produto a construir os seus SLO, segue alguns exemplos:

Latency

  • O serviço responde rapidamente quando eu o uso?
    •  Quão rápido meu serviço tem que ser?
    •  O que faremos se o serviço estiver demorando mais que o esperado?

Errors

  • O serviço gera um erro quando eu o uso?
    • O que faremos se o serviço estiver com mais erro que o esperado?

Volume (traffic)

  • Quanto volume de negócios meu serviço pode suportar?
    •  O que faremos se o volume for maior (ou muito menor) que o esperado?

[ update 2023-11 ]

O termo “Let Go” tem parecido mais promissor, já que, para ir para produção (Go) tem que ter o Let (Latency-Errors-Traffic) definido.

Deixe um comentário

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.