運用チームとして MTTR を測定するためにどのようなツールを使用していますか?

運用チームとして MTTR を測定するためにどのようなツールを使用していますか?

そもそもそれを測定しているのですか?

私の問題は、停止の警告が出たときに、まず JIRA チケットを作成するのは時間の無駄だと感じ、すぐに解決に取り掛かってしまうことです。また、停止の中には、まず回避策で解決してから、再度検討して適切に解決するものもあります。

答え1

「私の問題は、停止の警告が出たときに、まず JIRA チケットを作成するのが時間の無駄だと感じることです」

もちろん、これは簡単に解決できます。ほとんどのアラート システムは同時に複数のアラートを発生させることができ、そのアラートの 1 つとして Jira チケットの自動作成が可能です。

Jira チケットのクローズ作業の一部として、修復時間として合意した内容を (自分に適した方法やシステムで) 記録する管理タスクを実行できます。

(すでに暗示されていますが、明確に述べさせてください。チケット システムによって追跡されるチケット解決時間は、修復時間と同じではありません。)

チケット解決時間が重要で、それ自体がパフォーマンス メトリックである場合は、停止が解決されたらすぐに、停止に対して自動的に生成されたチケットを閉じることをお勧めします。
根本原因分析 (RCA) 調査を開始するときは、関連しているが新しい問題調査チケット #XYZ を使用します (これは、停止に関するチケットとは異なるパフォーマンス基準を持ち、レポートも異なります)。

RCA の結果に応じて、実行する必要がある内容に応じて、別の方法で再度追跡する恒久的な修正/緩和策の作業を開始する場合があります。

関連情報