非常にシンプルです。このサーバーにはメイン ドライブ用の SSD と、ストレージ用の RAID アレイ (mdadm) が搭載されています。
断続的に、アレイへの書き込みに問題が発生します。書き込み速度が遅くなり、実際には使用できなくなります。
速度のテストが終わったところですが、1G のファイルを SSD から RAID アレイにコピーするのにほぼ 1 時間かかりました。
root@office:/tmp# rsync -vhr --progress test.img /mnt/raid/
sending incremental file list
test.img
1.07G 100% 301.99kB/s 0:57:52 (xfer#1, to-check=0/1)
sent 1.07G bytes received 31 bytes 309.25K bytes/sec
total size is 1.07G speedup is 1.0
RAID アレイは正常のようです:
root@office:/tmp# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid5 sdb[0] sdd[3] sdc[1]
5860270080 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
unused devices: <none>
syslog には何も記録されません。
この問題を解決するには他にどこを探せばよいでしょうか?
追伸:約 1 か月前、雷雨の後でスイッチを交換する必要がありました。この問題もその頃から発生しました。マザーボードやコントローラーの故障か、それとも他の何かが壊れているのかはわかりません。ハードウェアの交換を始めるようクライアントにアドバイスする前に、決定的な証拠を見つけたいのですが...
答え1
60 秒ごとに sync; を実行する cron ジョブがあることがわかりました。このジョブは多数のゾンビ プロセスを生成し、RAID アレイの速度を極端に低下させていました。教訓: cron ジョブを確認してください。