Quais ferramentas você usa para medir seu MTTR como equipe de operações?

Quais ferramentas você usa para medir seu MTTR como equipe de operações?

e você mede isso?

Meu problema é que quando uma interrupção é alertada, parece uma perda de tempo criar primeiro um ticket JIRA, então começo a resolvê-lo imediatamente. Além disso, algumas interrupções são resolvidas primeiro por soluções alternativas e depois revisitadas para resolvê-las adequadamente.

Responder1

"Meu problema é que quando uma interrupção é alertada, parece uma perda de tempo criar primeiro um ticket JIRA"

É claro que isso é facilmente resolvido, a maioria dos sistemas de alerta pode gerar vários alertas ao mesmo tempo e um desses alertas pode ser a criação automática de um ticket Jira.

Parte do fechamento do ticket do Jira pode ser a tarefa administrativa de registrar (de qualquer forma/sistema adequado para você) o que você concorda como tempo de reparo.

(Já está implícito, mas deixe-me afirmar isso explicitamente: o tempo de resolução do ticket monitorado pelo seu sistema de tickets não é o mesmo que o tempo de reparo.)

Quando os tempos de resolução de tickets são importantes e constituem uma métrica de desempenho, convém fechar o ticket gerado automaticamente para a interrupção imediatamente após a interrupção ter sido resolvida.
Ao iniciar uma investigação de análise de causa raiz (RCA), use um tíquete de investigação de problema novo, mas relacionado, #XYZ (que tem critérios de desempenho diferentes e é relatado de maneira diferente dos tíquetes relativos a interrupções).

Dependendo dos resultados da RCA, você pode começar a trabalhar em medidas permanentes de correção/mitigação que você acompanha novamente de uma maneira diferente, dependendo do que precisa ser feito.

informação relacionada