[SRE] Por sistemas mais LEV

18 ago

[SRE] Por sistemas mais LEV

Posted 18 de agosto de 2021 by Fabricio { Espigah } in DevOps/SRE. Tagged: devops, lev, sre, valet. Deixe um comentário

Este vai ser um post rápido! 😉
Estou em uma jornada de confiabilidade (SRE) e aprendendo muito. Uma dificuldade inicial tem sido a evangelização das práticas, e, principalmente, a definição de SLO. Pensando nisso, e muito inspirado no VALET da The Home Depot’s, estamos indo em direção ao LEV (Latency, Errors e Volume), onde temos algumas perguntas para ajudar os devs/produto a construir os seus SLO, segue alguns exemplos:

Latency

O serviço responde rapidamente quando eu o uso?
- Quão rápido meu serviço tem que ser?
- O que faremos se o serviço estiver demorando mais que o esperado?

Errors

O serviço gera um erro quando eu o uso?
- O que faremos se o serviço estiver com mais erro que o esperado?

Volume (traffic)

Quanto volume de negócios meu serviço pode suportar?
- O que faremos se o volume for maior (ou muito menor) que o esperado?

[ update 2023-11 ]

O termo “Let Go” tem parecido mais promissor, já que, para ir para produção (Go) tem que ter o Let (Latency-Errors-Traffic) definido.

Deixe um comentário Cancelar resposta

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

Fabricio Gonçalves Fullstack – SRE – DevOps