SMART属性によるドライブの信頼性の診断

Question

以前は 197 Current_Pending_Sector の値は 8 でしたが、ドライブをゼロにした後、値は 0 に戻り、196 Reallocated_Event_Count は 0 です。

これは、ある時点でドライブが一部のセクターの読み取りに問題があったが、ドライブをゼロにしてからはそれらのセクターで問題がなかったことを意味します。ドライブ全体を新しいデータで上書きすると、セクターは再割り当て保留から通常の状態になり、その時点でセクターが再割り当てされなかったため、ドライブは書き込みに問題がなかったと考えられます。確認するには、長い SMART セルフテスト (通常は表面スキャンを含む) を実行する必要がありますが、ドライブの動作中にコンピューターを移動したことに関連する不具合である可能性も十分にあります。

また、懸念されるのは、値が 1 である 188 Command_Timeout です。これは次のように定義されます。

心配する必要はありません。ドライブは、電源オン時間が約 2600 時間であると報告しており、その間にコマンドタイムアウトが 1 回発生しています。コマンドタイムアウトは、失敗したコマンドを再試行するか、I/O 操作を失敗させることで OS によって処理されるため、これが永続的な問題であれば、そのことを知っているはずです。保留中の 8 つのセクターに関連している可能性がありますが、無関係である可能性もあります。

この数が顕著に増加し始めたら心配になりますが、システムの動作に他の問題の兆候がなく、タイムアウトの数が 1 桁であれば心配する必要はありません。

私は低レベルのプログラミングを行っており、約 50 回コンピューターを強制的にシャットダウンする必要がありました。

これは、論理データの一貫性 (ファイルシステムの破損など) に影響を与える可能性がありますが、心配するほどのレベルで物理ドライブに影響を与えることはありません。

また、おがくずのコメント:

短いセルフテストと拡張セルフテストを実行する必要があります。ID#187 Reported_Uncorrect エラーの数が多いことは、問題があることを示しています。約 40 POH 時間前に、修正不可能な読み取りエラーが大量に発生したようです。

これは良い指摘だが、生の値のエンコードはわかりません。現時点で「値」は正規化された100であり、最悪の値は1、しきい値（ドライブが故障したか故障が差し迫っていることを報告するための値）は0であることがわかります。つまり、現時点でドライブはこの数値が心配するほどではないと感じている。そして、1.45e14 の読み取りエラーは、ほとんどあり得ないほど高いように聞こえる。ドライブ自身の認めるところによると、このドライブには約 183,000 セクター (4 KiB/セクターで 750 GB) がある。生の値として報告された読み取りエラーの数を得るには、報告された 2,586 通電時間で各セクターが 791,000 回失敗するか、または 1 つの完全な読み取りエラーが 1 回発生する必要がある。全体11秒ごとに水面に浮かぶ。これは単純にとんでもない数字だ（10秒で読むディスク表面全体のほんの一部に過ぎないので、このドライブと属性187については、高い確率で、生の値は他の何か単純な整数カウントよりも優れています。生の値が2つの部分に分割され、上位ビットまたは下位ビットが実際の値をエンコードし、他のビットが別の何かをエンコードしている可能性があります。その属性の生の値の16進値は83D0 0005 01C8で、中央のゼロの文字列はそのようなエンコードを示しています。確かに可能ですが、ランダムエラーカウントが中央にそのような長いゼロの文字列を持つことはありそうにありません。たとえば、下位ビット（16進数501C8）を取ると、報告されたエラーは328,136になりますが、それでもかなり多いように聞こえます。多くより信じられるようになります。

結論としては、SMART は優れた監視ツールですが、すべての問題を捕捉して報告するようには設計されていません。ドライブの中には、SMART が完全に故障したと示してからずっと経っても正常に動作しているものもあれば、SMART が故障後もすべて正常であると示していても、壊滅的な故障を起こすものもあります。SMART データは、早期警告システムとステータスレポートとして捉えてください。ないドライブの健全性に関する絶対的な真実のようなもの。また、生の値は実装によってエンコードが定義されるため、批判的な目で読み取る必要があります。それよりも、報告された「値」がドライブの「しきい値」値とどのように比較されるかを確認する必要があります。これらの値は、製造元によって特定のドライブに対して意味のある形で定義されているはずです。

以前の保留中の（基本的には「読みにくい」と判断された）セクターについて心配な場合は、SMART を通じて表面全体のスキャンを実行します。「保留中」と表示された場合は、ドライブを交換するかどうかを検討する価値があるかもしれませんが、ほとんどのドライブで問題が発生するという事実は明らかです。いくつかのハードディスクは、耐用年数にわたって不良セクタを生成しません。また、不良セクタを再割り当てすることで、それを補うための予備セクタが多数あります。ただし、再割り当てにはデータが既知である必要があるため、セクタが不良になった場合は、そのセクタへの書き込み中にのみ再割り当てできます。

Answer 1

以前は 197 Current_Pending_Sector の値は 8 でしたが、ドライブをゼロにした後、値は 0 に戻り、196 Reallocated_Event_Count は 0 です。

これは、ある時点でドライブが一部のセクターの読み取りに問題があったが、ドライブをゼロにしてからはそれらのセクターで問題がなかったことを意味します。ドライブ全体を新しいデータで上書きすると、セクターは再割り当て保留から通常の状態になり、その時点でセクターが再割り当てされなかったため、ドライブは書き込みに問題がなかったと考えられます。確認するには、長い SMART セルフテスト (通常は表面スキャンを含む) を実行する必要がありますが、ドライブの動作中にコンピューターを移動したことに関連する不具合である可能性も十分にあります。

また、懸念されるのは、値が 1 である 188 Command_Timeout です。これは次のように定義されます。

心配する必要はありません。ドライブは、電源オン時間が約 2600 時間であると報告しており、その間にコマンドタイムアウトが 1 回発生しています。コマンドタイムアウトは、失敗したコマンドを再試行するか、I/O 操作を失敗させることで OS によって処理されるため、これが永続的な問題であれば、そのことを知っているはずです。保留中の 8 つのセクターに関連している可能性がありますが、無関係である可能性もあります。

この数が顕著に増加し始めたら心配になりますが、システムの動作に他の問題の兆候がなく、タイムアウトの数が 1 桁であれば心配する必要はありません。

私は低レベルのプログラミングを行っており、約 50 回コンピューターを強制的にシャットダウンする必要がありました。

これは、論理データの一貫性 (ファイルシステムの破損など) に影響を与える可能性がありますが、心配するほどのレベルで物理ドライブに影響を与えることはありません。

また、おがくずのコメント:

短いセルフテストと拡張セルフテストを実行する必要があります。ID#187 Reported_Uncorrect エラーの数が多いことは、問題があることを示しています。約 40 POH 時間前に、修正不可能な読み取りエラーが大量に発生したようです。

これは良い指摘だが、生の値のエンコードはわかりません。現時点で「値」は正規化された100であり、最悪の値は1、しきい値（ドライブが故障したか故障が差し迫っていることを報告するための値）は0であることがわかります。つまり、現時点でドライブはこの数値が心配するほどではないと感じている。そして、1.45e14 の読み取りエラーは、ほとんどあり得ないほど高いように聞こえる。ドライブ自身の認めるところによると、このドライブには約 183,000 セクター (4 KiB/セクターで 750 GB) がある。生の値として報告された読み取りエラーの数を得るには、報告された 2,586 通電時間で各セクターが 791,000 回失敗するか、または 1 つの完全な読み取りエラーが 1 回発生する必要がある。全体11秒ごとに水面に浮かぶ。これは単純にとんでもない数字だ（10秒で読むディスク表面全体のほんの一部に過ぎないので、このドライブと属性187については、高い確率で、生の値は他の何か単純な整数カウントよりも優れています。生の値が2つの部分に分割され、上位ビットまたは下位ビットが実際の値をエンコードし、他のビットが別の何かをエンコードしている可能性があります。その属性の生の値の16進値は83D0 0005 01C8で、中央のゼロの文字列はそのようなエンコードを示しています。確かに可能ですが、ランダムエラーカウントが中央にそのような長いゼロの文字列を持つことはありそうにありません。たとえば、下位ビット（16進数501C8）を取ると、報告されたエラーは328,136になりますが、それでもかなり多いように聞こえます。多くより信じられるようになります。

結論としては、SMART は優れた監視ツールですが、すべての問題を捕捉して報告するようには設計されていません。ドライブの中には、SMART が完全に故障したと示してからずっと経っても正常に動作しているものもあれば、SMART が故障後もすべて正常であると示していても、壊滅的な故障を起こすものもあります。SMART データは、早期警告システムとステータスレポートとして捉えてください。ないドライブの健全性に関する絶対的な真実のようなもの。また、生の値は実装によってエンコードが定義されるため、批判的な目で読み取る必要があります。それよりも、報告された「値」がドライブの「しきい値」値とどのように比較されるかを確認する必要があります。これらの値は、製造元によって特定のドライブに対して意味のある形で定義されているはずです。

以前の保留中の（基本的には「読みにくい」と判断された）セクターについて心配な場合は、SMART を通じて表面全体のスキャンを実行します。「保留中」と表示された場合は、ドライブを交換するかどうかを検討する価値があるかもしれませんが、ほとんどのドライブで問題が発生するという事実は明らかです。いくつかのハードディスクは、耐用年数にわたって不良セクタを生成しません。また、不良セクタを再割り当てすることで、それを補うための予備セクタが多数あります。ただし、再割り当てにはデータが既知である必要があるため、セクタが不良になった場合は、そのセクタへの書き込み中にのみ再割り当てできます。

SMART属性によるドライブの信頼性の診断

答え1

関連情報