Какие инструменты вы используете для измерения среднего времени восстановления (MTTR) в составе оперативной группы?

Какие инструменты вы используете для измерения среднего времени восстановления (MTTR) в составе оперативной группы?

и измеряете ли вы его вообще?

Моя проблема в том, что когда появляется оповещение о сбое, кажется пустой тратой времени сначала создавать тикет JIRA, поэтому я начинаю решать его сразу. Кроме того, некоторые сбои сначала решаются обходными путями, а затем возвращаются к ним, чтобы решить их должным образом.

решение1

«Моя проблема в том, что когда приходит оповещение о сбое, кажется, что сначала тратится время на создание тикета JIRA»

Конечно, это легко решается: большинство систем оповещения могут выдавать несколько оповещений одновременно, и одним из таких оповещений может быть автоматическое создание тикета Jira.

Частью закрытия тикета Jira может затем стать административная задача по регистрации (любым удобным для вас способом/системой) согласованного вами времени ремонта.

(Это уже подразумевалось, но позвольте мне заявить об этом прямо: время разрешения тикета, отслеживаемое вашей системой тикетов, не совпадает со временем на ремонт.)

Когда время разрешения тикета важно и является показателем производительности, вы можете закрыть автоматически созданный тикет для сбоя сразу после его устранения.
Когда вы начинаете расследование анализа первопричин (RCA), используйте связанный, но новый тикет для расследования проблемы #XYZ (который имеет другие критерии производительности и сообщается иначе, чем тикеты, касающиеся сбоев).

В зависимости от результатов RCA вы можете начать работу над постоянным исправлением/мерами по смягчению последствий, которые вы будете отслеживать по-другому, в зависимости от того, что необходимо сделать.

Связанный контент