私はストレージの専門家ではありません。SAN の綴りと、それより少し基本的なことは知っていますが、それ以上のことは知りません。
標準ディスク カウンターは、SAN ストレージの測定に信頼できますか? 同じ SAN に接続された 2 台の MS SQL (2005) サーバーがあり、昨日から問題が発生し始めました。ハードウェアは制御できないため、Veritas Enterprise Admin 経由で LUN まで確認できる情報 (つまり、基本的なボリューム構成のみ) 以外に、ストレージの構成に関する情報はあまりありません。コントローラーやスイッチのスループットを監視するツールにもアクセスできません。
その代わりに、私はパフォーマンス モニター カウンター (物理および論理の % ディスク時間、物理および論理の両方のディスク キューの長さ) を実行していました。物理ディスクの % ディスク時間の数値は、最大 32000% (そう、32K) と異常なようです。
それは正しいですか、それとも、そのメトリックを作成するために LUN レベルより下から何かを集約しており、このカウンターは SAN ストレージに対して使用すべきものではないと考えるのが正しいですか?
編集:
最近、32 個のキャッシュ モジュールのうち 1 つに問題があることがわかり、取り外されました。Hitachi 製であることはわかっていますが、モデルの詳細はわかりません。
アップデート:
日立は、故障したメモリ モジュールの交換とファイバー ポート カードの再初期化を完了しました。これで、状況は正常に戻ったようです。情報をありがとうございました。
答え1
%Disk Time の明らかに異常な数値は何かを示唆していますが、Perfmon によって %Disk Time が導出される方法により、100% を超える数値も不可能ではありません。
% ディスク時間は実際には計算されたカウンターであり、次のものから得られます。
Avg Disk Sec/Transfer * Disk Transfers/sec.
平均ディスク秒/転送は、現在の間隔内のすべての IO の完了時間の合計を IO 数で割って、平均エンドツーエンド完了時間を算出します。1 秒あたりのディスク転送は、完了した IO の合計数を間隔で割ったものです。
これらの IO の多くは現在の間隔外で開始された可能性があるため、その積は 100% を超える可能性があります。これはどのシステムでも発生する可能性がありますが、SAN のような複雑なディスク アレイでは 100% を超える頻度が高くなります。
計算方法により、%Disk Time は実際にはあまり意味がありませんが、この場合は何かが間違っていることを示しています。%idle 時間は実際に直接測定されるため、(100 - %idle time) を使用して使用率を計算する方が適切です。
ディスク キューの長さは、単純なローカル ストレージ セットアップの場合よりも大幅に長くなる可能性がありますが、一般的に、キューの長さが LUN をバックアップするスピンドルの数よりも大きい場合は、特にキューの長さが一定期間にわたって着実に増加している場合は、バックアップが行われます。10 ~ 15 個のディスクがある LUN で値が 10 または 20 であればまったく問題ありませんが、350 の場合は、間違いなく何かが間違っていることを示しています。キャッシュの障害や構成の不備がこのような問題を引き起こすことは確かですが、他の理由も考えられます。
とはいえ、実際に何をすべきか知りたい場合は、SAN レベル自体のパフォーマンス監視を確認する必要があり、その情報は SAN 担当者から入手する必要があります。問題は LUN 上のディスクにある可能性があります (ディスクが故障して RAID 再構築が進行中、何らかの理由でキャッシュが無効になっている、同じディスクからストライプ化された他の LUN の優先度が高くビジー状態であるなど)。特定のアレイでキャッシュが無効\故障している、SAN ファブリックまたはスイッチに問題が発生している可能性があります。
古いですがとても良い記事がありますWindowsのディスクカウンターはこちら。
答え2
これらの LUN の「平均ディスク読み取りキューの長さ」と「平均ディスク書き込みキューの長さ」のパフォーマンス モニター値はどれくらいですか。また、各サーバーは互いにどのように比較されますか。
SANの担当者と静かな時間を交渉できれば、実行できますIOゾーン両方のマシンで実行し、結果を比較します。
答え3
役に立つカウンターもあれば、役に立たないカウンターもあります。現在のディスク キューのようなものは、Windows ホストが読み取り/書き込みコマンドを送信してからそのコマンドが SAN のキャッシュに対して処理されるまでの間に、ホストが確認するキューイングを示します。ただし、ディスクが正常に動作している場合でも、キャッシュの問題、スイッチの問題、またはファイバーの問題により、ホスト上でキューイングが見られることがあります。
読み取りあたりの秒数や書き込みあたりの秒数なども同じように機能し、キャッシュへの書き込みにかかった時間を示します。
1 秒あたりの IO 書き込み数などの数値は、もう少し役立ちます。これも SAN キャッシュへの IO ですが、その IO はいつかはディスクに到達する必要があります。1 秒あたりの IO 読み取り数についても同様です。これはディスクとキャッシュからの読み取りですが、読み取りキャッシュ内にある場合は、いつかはディスクから取り出されたものです。