Какие инструменты вы используете для измерения среднего времени восстановления (MTTR) в составе оперативной группы?

Question

«Моя проблема в том, что когда приходит оповещение о сбое, кажется, что сначала тратится время на создание тикета JIRA»

Конечно, это легко решается: большинство систем оповещения могут выдавать несколько оповещений одновременно, и одним из таких оповещений может быть автоматическое создание тикета Jira.

Частью закрытия тикета Jira может затем стать административная задача по регистрации (любым удобным для вас способом/системой) согласованного вами времени ремонта.

(Это уже подразумевалось, но позвольте мне заявить об этом прямо: время разрешения тикета, отслеживаемое вашей системой тикетов, не совпадает со временем на ремонт.)

Когда время разрешения тикета важно и является показателем производительности, вы можете закрыть автоматически созданный тикет для сбоя сразу после его устранения.
Когда вы начинаете расследование анализа первопричин (RCA), используйте связанный, но новый тикет для расследования проблемы #XYZ (который имеет другие критерии производительности и сообщается иначе, чем тикеты, касающиеся сбоев).

В зависимости от результатов RCA вы можете начать работу над постоянным исправлением/мерами по смягчению последствий, которые вы будете отслеживать по-другому, в зависимости от того, что необходимо сделать.

Answer 1