SATA HDD エラー

SATA HDD エラー

私は WDC WD3202ABYS を搭載したサーバーを 1 台持っています... 仮想ホストは 100 台あります。サーバーは約 5 年間稼働しており、この期間に 4 つのディスクを交換しました。すべて同じ理由です: SATA エラー。最後の 1 つ:

ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
         res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
    Add. Sense: Recorded entity not found

Descriptor sense data with sense descriptors (in hex):
        72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
        06 b6 7b 57 
end_request: I/O error, dev sdb, sector 112622423
Buffer I/O error on device dm-8, logical block 14077747
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077748
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077749
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077750
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077751
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077756
lost page write due to I/O error on dm-8
ata2: EH complete
SCSI device sdb: 625142448 512-byte hdwr sectors (320073 MB)
sdb: Write Protect is off
sdb: Mode Sense: 00 3a 00 00
SCSI device sdb: drive cache: write back
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:90:17:30:b7/00:02:08:00:00/e0 tag 0 dma 335872 out
         res 51/10:90:17:30:b7/10:02:08:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
    Add. Sense: Recorded entity not found

Descriptor sense data with sense descriptors (in hex):
        72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
        08 b7 30 17 
end_request: I/O error, dev sdb, sector 146223127
printk: 34 messages suppressed.
Buffer I/O error on device dm-8, logical block 18277835

ソフトウェアエラーのようです...

しかし、その後すぐに(おそらく fsck を開始したとき)、次のエラーが発生しました。

EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)

このエラーも「ソフトウェア」によるものである可能性はありますか...この HDD はわずか 9000 時間しか使用されていません...HDD に余分な負荷はかかっていません...温度は 29 ℃ です...HDD を交換する必要がありますか? またはチェック ディスクだけで十分ですか?

EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
         res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)

理由をどうやって調べるのでしょうか?


スマートからのエラーは次のとおりです:

Error 36 occurred at disk power-on lifetime: 9160 hours (381 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 22 09 80 e3  Error: UNC at LBA = 0x03800922 = 58722594

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 1f 09 80 03 0a  47d+13:38:13.534  READ DMA
  ec 00 00 00 00 00 00 0a  47d+13:38:13.530  IDENTIFY DEVICE
  ef 03 46 00 00 00 00 0a  47d+13:38:13.528  SET FEATURES [Set transfer mode]

わかりました。次のシナリオは可能ですか: 1. ディスクは fsck なしで 9000 にありました。 2. いくつかのエラーがあります。 3. dmesg で次のようなエラーが発生しています:

ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
         res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
    Add. Sense: Recorded entity not found
  1. そして、inode エラーなどのエラーも発生します...
  2. このパーティションをアンマウントしようとしましたが、HDD から、そのような inode が見つからないなどのエラーが発生しています...?

もしそうなら、理解できません。毎年ディスクを交換する必要がありますか? このエラーを防ぐためだけですか? 同じ問題を抱えている人はいますか? 1 つのディスクだけではありません...

答え1

私の経験では、あなたが見ているエラーは実際にはソフトウェアに反映されたハードウェア エラーです。「I/O エラーによるページ書き込みの損失」というメッセージは、不良ハード ドライブで見たことのあるメッセージで、fsck を試行したときの動作と似ています。これはほぼ間違いなく真のハードウェア障害です。

何が問題になる可能性があるかを確認するには、smartctl の出力を確認する必要があります。

smartctl --attributes /dev/sdb

次のような出力が得られます。

=== スマートデータ読み取りセクションの開始 ===
SMART 属性データ構造リビジョン番号: 16
しきい値を持つベンダー固有の SMART 属性:
ID# 属性名 フラグ値 最悪しきい値タイプ 更新日時 失敗時 RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 200 200 051 事前障害 常に - 0
  3 Spin_Up_Time 0x0003 212 186 021 事前障害 常に - 4358
  4 Start_Stop_Count 0x0032 100 100 000 年齢 常に - 97
  5 Reallocated_Sector_Ct 0x0033 200 200 140 事前障害 常に - 0
  7 Seek_Error_Rate 0x000f 200 200 051 プレフェイル 常に - 0
  9 Power_On_Hours 0x0032 066 066 000 Old_age 常に - 25420
 10 Spin_Retry_Count 0x0013 100 253 051 事前失敗 常に - 0
 11 Calibration_Retry_Count 0x0013 100 253 051 事前失敗 常に - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age 常に - 86
194 温度_摂氏 0x0022 104 001 000 年齢 常に - 46
196 再割り当てイベント数 0x0032 200 200 000 年齢 常に - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age 常に - 0
198 オフライン_修正不可 0x0010 200 200 000 高齢 オフライン - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age 常に - 0
200 Multi_Zone_Error_Rate 0x0009 200 200 051 事前障害オフライン - 0

出力は難解ですが、私が特に注目するのは Reallocated_Sector_Ct です。これは、HD に既知の不良セクターが何があるかを示しているからです。コマンド「smartctl -a」を使用すると、さらに多くのデータが得られます。しばらく前に私が持っていた不良 H​​D では、その出力の一番下に「SMART エラー ログ」があり、いくつかのエントリがありました。

答え2

修正不可能な読み取りエラーが発生しました。

Error: UNC at LBA = 0x03800922 = 58722594

そのブロックにあったデータは失われました。

あなたがすべき:

  • そもそもミラーを使用する必要はありません。エンタープライズ ディスクは実際にはミラーの背後に配置することを意図しており、データを取得しようと懸命に努力するよりも読み取りエラーを返す傾向があります。
  • バックアップから失われたデータを回復する

RAID を使用しない言い訳はありません (特にクライアント用の Web サイトをホストしている場合) - OS はそれほど大きくないため、2 ディスク システムでは専用のディスクは必要ありません。

答え3

RAID コントローラーを使用していますか? どのような種類のコントローラーを使用していますか?

問題のひとつ (イライラさせられると同時に啓発されるもの) は、HDD メーカーが SATA 市場に導入しているセグメント化が進んでいることです。現在では、「小規模企業/RAID 使用」と「シングル/デスクトップ使用」のドライブがあります。SAS は「ハイエンド企業」市場向けに推進されているようです。

お使いのモデル番号は、RAID セットアップ用に設計された WD の RE3 シリーズのドライブです。これは、エラーの修復を試行するときに、長時間にわたって何度も試行するのではなく、ドライブがより早く (つまり、3 ~ 4 秒以内に) 諦めることを意味すると聞いています。早く諦めると、エラーが RAID コントローラに報告され、別のドライブを使用して回復できるようになります。ドライブが長く待機すると、RAID コントローラは応答がないとしてドライブをアレイから追い出します。

失敗はまだまれで、年に一度ではありません。おそらく、これはセットアップの別の側面でしょうか? (私は SATA ケーブルでイライラした戦いを一度経験しましたが、今では他のケーブルへの警告としてドアの上に取り付けています...)

答え4

私は Western Digital ドライブで非常に悪い経験をしました。ドライブの半分以上が、完全な故障や不良セクタのため、保証期間内に交換しなければなりませんでした。

約 8 年間 WD ドライブだけを購入してきましたが、もう WD ドライブにお金をかけるつもりはありません。どの WD ドライブを信頼できるのか全くわかりません。これまでの経験から言うと、「どれも信頼できない」ということです。

元のドライブを 4 回交換しましたが、5 台のドライブをすべて同時に購入しましたか? 故障したときにそれぞれ新しいドライブを購入して交換しましたか? 保証期間内にドライブを返品して交換してもらいましたか? 5 台のドライブはいつ、どのように入手しましたか? どのモデルでしたか? 私の経験では、WD ドライブのロットは不良品であることが多く、同時に故障します。

関連情報