
マシンに「ATA バス エラー」が時々表示され、再起動する必要があります。
[24028.505239] ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x48d0002 action 0xe frozen
[24028.505249] ata1.00: irq_stat 0x08400040, interface fatal error, connection status changed
[24028.505254] ata1: SError: { RecovComm PHYRdyChg CommWake 10B8B LinkSeq DevExch }
[24028.505258] ata1.00: failed command: FLUSH CACHE EXT
[24028.505266] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 20
res 50/00:18:50:6b:d9/00:00:eb:00:00/40 Emask 0x10 (ATA bus error)
[24028.505269] ata1.00: status: { DRDY }
[24028.505276] ata1: hard resetting link
[24032.757212] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[24032.757615] ata1.00: both IDENTIFYs aborted, assuming NODEV
[24032.757620] ata1.00: revalidation failed (errno=-2)
再起動後に を実行するとsmartctl -t short /dev/sda
、smartctl -H /dev/sda
合格したと表示されます。
からsmartctl -a /dev/sda
:
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 136 136 054 Pre-fail Offline - 80
3 Spin_Up_Time 0x0007 253 253 024 Pre-fail Always - 176 (Average 237)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 233
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 124 124 020 Pre-fail Offline - 33
9 Power_On_Hours 0x0012 091 091 000 Old_age Always - 63994
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 204
192 Power-Off_Retract_Count 0x0032 098 098 000 Old_age Always - 2756
193 Load_Cycle_Count 0x0012 098 098 000 Old_age Always - 2756
194 Temperature_Celsius 0x0002 142 142 000 Old_age Always - 42 (Min/Max 23/52)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0
SMART Error Log Version: 1
No Errors Logged
ハード ドライブが突然故障し、SMART に問題が報告されないことがある (25% のケース) ことは知っています。しかし、ここではすでにエラーが表示されています。SMART が何も表示されていないという事実は、ハード ドライブがこれらのエラーの原因ではないことを証明しているのでしょうか?
ハードウェア:SuperMicro マザーボードと HGST Deskstar NAS ハードドライブ。
答え1
ハード ドライブとオペレーティング システムの間には複数のコンポーネントがあり、そのうちの 1 つが故障する可能性があります。通常、表示されるエラーはハード ドライブのエラーによって発生します。
ただし、SMART にエラーが記録されていない場合は、ハード ドライブ自体は正常である可能性が高いです。したがって、チェーン内の他のコンポーネントの 1 つに問題がある可能性があります。
役に立つかもしれないチェックリストを以下に示します。
- ドライブがしっかりと固定され、すべてのケーブルがドライブに完全に接続されていることを確認します。
- ドライブがライザー ボードに接続されている場合は、ライザー ボード上のすべてのケーブルがしっかりと接続されていることを確認します。
- 関係するデータケーブルが良好な状態であり、傷やねじれ、ねじれ、伸びがないことを確認してください。
- データケーブルがマザーボードまたはディスクコントローラにしっかりと接続されていることを確認します。
- アドオンディスクコントローラを使用している場合は、マザーボードにしっかりと固定されていることを確認してください。
- 完全に固定されていないものがあると疑われる場合 (ネジで固定されておらず、取り外しが困難な場合を除く)、取り外してソケットにほこりがないか確認し、再度差し込んで完全に固定されていることを確認すると、再度固定できる場合があります。
これらすべてをチェックしてもエラーがまだ発生する場合は、上記のコンポーネントのどれが故障しているかを判断するために、さらに診断を行う必要があります。可能であれば、ドライブの位置を入れ替えたり、マザーボードまたはディスク コントローラ ポート間のケーブルを入れ替えたりすると、さらに問題を切り分けることができます。ディスク コントローラのチップが不良な場合も、このような問題が発生する可能性がありますが、別のコントローラと交換することによってのみ診断できる可能性があります。
また、実際にドライブに問題がないことを確認するために、ドライブの実際の診断を実行することも役立つ場合があります (smartctl -t short
たとえば を使用して、完了するまで待機し、 を使用して完了しsmartctl -a
たかどうか、またはエラーがあるかどうかを確認します)。