Este vai ser um post rápido! 😉
Estou em uma jornada de confiabilidade (SRE) e aprendendo muito. Uma dificuldade inicial tem sido a evangelização das práticas, e, principalmente, a definição de SLO. Pensando nisso, e muito inspirado no VALET da The Home Depot’s, estamos indo em direção ao LEV (Latency, Errors e Volume), onde temos algumas perguntas para ajudar os devs/produto a construir os seus SLO, segue alguns exemplos:
Latency
- O serviço responde rapidamente quando eu o uso?
- Quão rápido meu serviço tem que ser?
- O que faremos se o serviço estiver demorando mais que o esperado?
Errors
- O serviço gera um erro quando eu o uso?
- O que faremos se o serviço estiver com mais erro que o esperado?
Volume (traffic)
- Quanto volume de negócios meu serviço pode suportar?
- O que faremos se o volume for maior (ou muito menor) que o esperado?
[ update 2023-11 ]
O termo “Let Go” tem parecido mais promissor, já que, para ir para produção (Go) tem que ter o Let (Latency-Errors-Traffic) definido.