SATA HDD エラー

Question 1

私の経験では、あなたが見ているエラーは実際にはソフトウェアに反映されたハードウェアエラーです。「I/O エラーによるページ書き込みの損失」というメッセージは、不良ハードドライブで見たことのあるメッセージで、fsck を試行したときの動作と似ています。これはほぼ間違いなく真のハードウェア障害です。

何が問題になる可能性があるかを確認するには、smartctl の出力を確認する必要があります。

smartctl --attributes /dev/sdb

次のような出力が得られます。

=== スマートデータ読み取りセクションの開始 ===
SMART 属性データ構造リビジョン番号: 16
しきい値を持つベンダー固有の SMART 属性:
ID# 属性名 フラグ値 最悪しきい値タイプ 更新日時 失敗時 RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 200 200 051 事前障害 常に - 0
  3 Spin_Up_Time 0x0003 212 186 021 事前障害 常に - 4358
  4 Start_Stop_Count 0x0032 100 100 000 年齢 常に - 97
  5 Reallocated_Sector_Ct 0x0033 200 200 140 事前障害 常に - 0
  7 Seek_Error_Rate 0x000f 200 200 051 プレフェイル 常に - 0
  9 Power_On_Hours 0x0032 066 066 000 Old_age 常に - 25420
 10 Spin_Retry_Count 0x0013 100 253 051 事前失敗 常に - 0
 11 Calibration_Retry_Count 0x0013 100 253 051 事前失敗 常に - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age 常に - 86
194 温度_摂氏 0x0022 104 001 000 年齢 常に - 46
196 再割り当てイベント数 0x0032 200 200 000 年齢 常に - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age 常に - 0
198 オフライン_修正不可 0x0010 200 200 000 高齢 オフライン - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 常に - 0
200 Multi_Zone_Error_Rate 0x0009 200 200 051 事前障害オフライン - 0

出力は難解ですが、私が特に注目するのは Reallocated_Sector_Ct です。これは、HD に既知の不良セクターが何があるかを示しているからです。コマンド「smartctl -a」を使用すると、さらに多くのデータが得られます。しばらく前に私が持っていた不良 HD では、その出力の一番下に「SMART エラーログ」があり、いくつかのエントリがありました。

Answer

私の経験では、あなたが見ているエラーは実際にはソフトウェアに反映されたハードウェアエラーです。「I/O エラーによるページ書き込みの損失」というメッセージは、不良ハードドライブで見たことのあるメッセージで、fsck を試行したときの動作と似ています。これはほぼ間違いなく真のハードウェア障害です。

何が問題になる可能性があるかを確認するには、smartctl の出力を確認する必要があります。

smartctl --attributes /dev/sdb

次のような出力が得られます。

=== スマートデータ読み取りセクションの開始 ===
SMART 属性データ構造リビジョン番号: 16
しきい値を持つベンダー固有の SMART 属性:
ID# 属性名 フラグ値 最悪しきい値タイプ 更新日時 失敗時 RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 200 200 051 事前障害 常に - 0
  3 Spin_Up_Time 0x0003 212 186 021 事前障害 常に - 4358
  4 Start_Stop_Count 0x0032 100 100 000 年齢 常に - 97
  5 Reallocated_Sector_Ct 0x0033 200 200 140 事前障害 常に - 0
  7 Seek_Error_Rate 0x000f 200 200 051 プレフェイル 常に - 0
  9 Power_On_Hours 0x0032 066 066 000 Old_age 常に - 25420
 10 Spin_Retry_Count 0x0013 100 253 051 事前失敗 常に - 0
 11 Calibration_Retry_Count 0x0013 100 253 051 事前失敗 常に - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age 常に - 86
194 温度_摂氏 0x0022 104 001 000 年齢 常に - 46
196 再割り当てイベント数 0x0032 200 200 000 年齢 常に - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age 常に - 0
198 オフライン_修正不可 0x0010 200 200 000 高齢 オフライン - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 常に - 0
200 Multi_Zone_Error_Rate 0x0009 200 200 051 事前障害オフライン - 0

出力は難解ですが、私が特に注目するのは Reallocated_Sector_Ct です。これは、HD に既知の不良セクターが何があるかを示しているからです。コマンド「smartctl -a」を使用すると、さらに多くのデータが得られます。しばらく前に私が持っていた不良 HD では、その出力の一番下に「SMART エラーログ」があり、いくつかのエントリがありました。

Question 2

修正不可能な読み取りエラーが発生しました。

Error: UNC at LBA = 0x03800922 = 58722594

そのブロックにあったデータは失われました。

あなたがすべき：

そもそもミラーを使用する必要はありません。エンタープライズディスクは実際にはミラーの背後に配置することを意図しており、データを取得しようと懸命に努力するよりも読み取りエラーを返す傾向があります。
バックアップから失われたデータを回復する

RAID を使用しない言い訳はありません (特にクライアント用の Web サイトをホストしている場合) - OS はそれほど大きくないため、2 ディスクシステムでは専用のディスクは必要ありません。

Answer

修正不可能な読み取りエラーが発生しました。

Error: UNC at LBA = 0x03800922 = 58722594

そのブロックにあったデータは失われました。

あなたがすべき：

そもそもミラーを使用する必要はありません。エンタープライズディスクは実際にはミラーの背後に配置することを意図しており、データを取得しようと懸命に努力するよりも読み取りエラーを返す傾向があります。
バックアップから失われたデータを回復する

RAID を使用しない言い訳はありません (特にクライアント用の Web サイトをホストしている場合) - OS はそれほど大きくないため、2 ディスクシステムでは専用のディスクは必要ありません。

Question 3

RAID コントローラーを使用していますか? どのような種類のコントローラーを使用していますか?

問題のひとつ (イライラさせられると同時に啓発されるもの) は、HDD メーカーが SATA 市場に導入しているセグメント化が進んでいることです。現在では、「小規模企業/RAID 使用」と「シングル/デスクトップ使用」のドライブがあります。SAS は「ハイエンド企業」市場向けに推進されているようです。

お使いのモデル番号は、RAID セットアップ用に設計された WD の RE3 シリーズのドライブです。これは、エラーの修復を試行するときに、長時間にわたって何度も試行するのではなく、ドライブがより早く (つまり、3 ～ 4 秒以内に) 諦めることを意味すると聞いています。早く諦めると、エラーが RAID コントローラに報告され、別のドライブを使用して回復できるようになります。ドライブが長く待機すると、RAID コントローラは応答がないとしてドライブをアレイから追い出します。

失敗はまだまれで、年に一度ではありません。おそらく、これはセットアップの別の側面でしょうか? (私は SATA ケーブルでイライラした戦いを一度経験しましたが、今では他のケーブルへの警告としてドアの上に取り付けています...)

Answer

RAID コントローラーを使用していますか? どのような種類のコントローラーを使用していますか?

問題のひとつ (イライラさせられると同時に啓発されるもの) は、HDD メーカーが SATA 市場に導入しているセグメント化が進んでいることです。現在では、「小規模企業/RAID 使用」と「シングル/デスクトップ使用」のドライブがあります。SAS は「ハイエンド企業」市場向けに推進されているようです。

お使いのモデル番号は、RAID セットアップ用に設計された WD の RE3 シリーズのドライブです。これは、エラーの修復を試行するときに、長時間にわたって何度も試行するのではなく、ドライブがより早く (つまり、3 ～ 4 秒以内に) 諦めることを意味すると聞いています。早く諦めると、エラーが RAID コントローラに報告され、別のドライブを使用して回復できるようになります。ドライブが長く待機すると、RAID コントローラは応答がないとしてドライブをアレイから追い出します。

失敗はまだまれで、年に一度ではありません。おそらく、これはセットアップの別の側面でしょうか? (私は SATA ケーブルでイライラした戦いを一度経験しましたが、今では他のケーブルへの警告としてドアの上に取り付けています...)

Question 4

私は Western Digital ドライブで非常に悪い経験をしました。ドライブの半分以上が、完全な故障や不良セクタのため、保証期間内に交換しなければなりませんでした。

約 8 年間 WD ドライブだけを購入してきましたが、もう WD ドライブにお金をかけるつもりはありません。どの WD ドライブを信頼できるのか全くわかりません。これまでの経験から言うと、「どれも信頼できない」ということです。

元のドライブを 4 回交換しましたが、5 台のドライブをすべて同時に購入しましたか? 故障したときにそれぞれ新しいドライブを購入して交換しましたか? 保証期間内にドライブを返品して交換してもらいましたか? 5 台のドライブはいつ、どのように入手しましたか? どのモデルでしたか? 私の経験では、WD ドライブのロットは不良品であることが多く、同時に故障します。

Answer

私は Western Digital ドライブで非常に悪い経験をしました。ドライブの半分以上が、完全な故障や不良セクタのため、保証期間内に交換しなければなりませんでした。

約 8 年間 WD ドライブだけを購入してきましたが、もう WD ドライブにお金をかけるつもりはありません。どの WD ドライブを信頼できるのか全くわかりません。これまでの経験から言うと、「どれも信頼できない」ということです。

元のドライブを 4 回交換しましたが、5 台のドライブをすべて同時に購入しましたか? 故障したときにそれぞれ新しいドライブを購入して交換しましたか? 保証期間内にドライブを返品して交換してもらいましたか? 5 台のドライブはいつ、どのように入手しましたか? どのモデルでしたか? 私の経験では、WD ドライブのロットは不良品であることが多く、同時に故障します。

SATA HDD エラー

答え1

答え2

答え3

答え4

関連情報