¿Qué herramientas utiliza para medir su MTTR como equipo de operaciones?

¿Qué herramientas utiliza para medir su MTTR como equipo de operaciones?

¿Y lo mides?

Mi problema es que cuando se alerta de una interrupción, me parece una pérdida de tiempo crear un ticket JIRA primero, así que empiezo a resolverlo de inmediato. Además, algunas interrupciones se resuelven primero con soluciones alternativas y luego se revisan para resolverlas adecuadamente.

Respuesta1

"Mi problema es que cuando se alerta de una interrupción, parece una pérdida de tiempo crear un ticket JIRA primero"

Por supuesto, esto se resuelve fácilmente, la mayoría de los sistemas de alerta pueden generar varias alertas al mismo tiempo y una de esas alertas puede ser la creación automática de un ticket de Jira.

Parte del cierre de ese ticket de Jira puede ser la tarea administrativa de registrar (de cualquier forma/sistema que sea adecuado para usted) lo que acuerda como tiempo de reparación.

(Ya está implícito, pero déjame decirlo explícitamente: el tiempo de resolución del ticket rastreado por tu sistema de emisión de tickets no es el mismo que el tiempo de reparación).

Cuando los tiempos de resolución de tickets son importantes y una métrica de rendimiento en sí mismos, es posible que desee cerrar ese ticket generado automáticamente para la interrupción inmediatamente después de que se haya resuelto la interrupción.
Cuando inicie una investigación de análisis de causa raíz (RCA), utilice un ticket de investigación de problemas relacionado pero nuevo #XYZ (que tiene criterios de rendimiento diferentes y se informa de manera diferente a los tickets relacionados con interrupciones).

Dependiendo de los resultados del RCA, puede comenzar a trabajar en una solución permanente/medidas de mitigación a las que seguirá de manera diferente nuevamente, dependiendo de lo que deba hacerse.

información relacionada