SATA ディスクに障害があり、定期的にエラーが発生していますか?

SATA ディスクに障害があり、定期的にエラーが発生していますか?

Seagate St2000dm001 2TB Barracuda Sata3 ディスクを使用していますが、次のようなエラーが発生します。

[Tue Jun 14 10:02:06 2022] ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x6 frozen
[Tue Jun 14 10:02:06 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Tue Jun 14 10:02:06 2022] ata2.00: cmd 61/00:00:00:48:9f/02:00:b2:00:00/40 tag 0 ncq 262144 out
[Tue Jun 14 10:02:06 2022]          res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[Tue Jun 14 10:02:06 2022] ata2.00: status: { DRDY }
[Tue Jun 14 10:02:06 2022] ata2: hard resetting link
[Tue Jun 14 10:02:16 2022] ata2: softreset failed (1st FIS failed)
[Tue Jun 14 10:02:16 2022] ata2: hard resetting link
[Tue Jun 14 10:02:26 2022] ata2: softreset failed (1st FIS failed)
[Tue Jun 14 10:02:26 2022] ata2: hard resetting link
[Tue Jun 14 10:02:42 2022] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[Tue Jun 14 10:02:42 2022] ata2.00: configured for UDMA/133
[Tue Jun 14 10:02:42 2022] ata2.00: device reported invalid CHS sector 0
[Tue Jun 14 10:02:42 2022] ata2: EH complete

異なるケーブルと異なるマシンでディスクをテストしましたが、エラーは解消されません。明らかにディスクが壊れているように見えますが、ひねりがあります。非常に長い を実行しながらエラーを Greep するとmkfs.ext4 -c -c、エラーの周期的なパターンがわかります。

[Mon Jun 13 10:47:02 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Mon Jun 13 11:51:08 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Mon Jun 13 12:55:14 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Mon Jun 13 14:01:21 2022] ata2.00: failed command: READ FPDMA QUEUED
[Mon Jun 13 15:08:27 2022] ata2.00: failed command: READ FPDMA QUEUED
[Mon Jun 13 16:15:33 2022] ata2.00: failed command: READ FPDMA QUEUED
[Mon Jun 13 17:22:39 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Mon Jun 13 18:29:43 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Mon Jun 13 19:36:49 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Mon Jun 13 20:43:55 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Mon Jun 13 21:50:02 2022] ata2.00: failed command: READ FPDMA QUEUED
[Mon Jun 13 22:57:08 2022] ata2.00: failed command: READ FPDMA QUEUED
[Tue Jun 14 00:04:14 2022] ata2.00: failed command: READ FPDMA QUEUED
[Tue Jun 14 01:11:17 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Tue Jun 14 02:15:24 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Tue Jun 14 03:19:30 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Tue Jun 14 04:26:36 2022] ata2.00: failed command: READ FPDMA QUEUED
[Tue Jun 14 05:33:42 2022] ata2.00: failed command: READ FPDMA QUEUED
[Tue Jun 14 06:40:48 2022] ata2.00: failed command: READ FPDMA QUEUED
[Tue Jun 14 07:47:54 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Tue Jun 14 08:55:00 2022] ata2.00: failed command: WRITE FPDMA QUEUED
[Tue Jun 14 10:02:06 2022] ata2.00: failed command: WRITE FPDMA QUEUED

ほぼ 1 時間 7 分おきです。 に関連している可能性があると思いましたがsmartdsmartd実行されていませんでした。そのため、行き詰まっています。どのようなハードウェア障害が 1 時間 7 分周期の周期エラーを引き起こすのでしょうか? アイデアがあれば、ぜひ教えてください。

よろしくお願いします、

ニコラス

答え1

これはほぼ正確に 4000 秒であり、安価な発振器の精度の範囲内です。

これは、おそらく、SATA ドライブまたは SATA コントローラー ファームウェア内の何かがこれを自動的に実行することを意味します。

基本的に、その理由は何でも考えられます。たとえば、コンポーネント チェック サブルーチンが失敗すると、ドライブ ファームウェアが 4000 秒ごとにリセットされます。SATA コントローラー ファームウェアがリンクの再ネゴシエーションを試み、失敗すると 4000 秒ごとにリセットされます。あるいは、実際には他の何でもかまいません (これら 2 つの例は、他の例よりも可能性が高いわけではありません)。

タイミングからわかるのは、それがオペレーティング システムとして、またはコントローラとして、あるいはドライブ ファームウェアとして実行されるソフトウェアであるかどうかにかかわらず、ソフトウェアがそれを実行することを決定しているということだけです。そして、それはソフトウェアのバグである可能性もあれば、ハードウェア エラーの実際の検出である可能性もあります。

したがって、これを診断するのは非常に困難です。コントローラとドライブがすでに最新のファームウェア リビジョンになっている場合 (fwupdmgr get-updates両方にとって、 はあなたの味方です)、問題ありません。

関連情報