Ich habe eine ext4-Partition mit dem folgenden zugrunde liegenden Stapel:
- sda1 und sdb1 sind zusammen in einem RAID1, was zu md0 führt
- md0 ist LUKS-verschlüsselt, was zu md0_crypt führt
- über md0_crypt befindet sich ein einzelnes LVM-Volume mv0_vg_media, das unter /home/media gemountet ist
Beim Ausführen cp /home/media/hierarchy/photo.jpg /tmp
erhalte ich einen IO-Fehler (aber nur bei etwa 20 Dateien von mehreren Zehntausend).
Wenn ich jedoch versuche, das Problem zu debuggen, geschieht Folgendes:
- Sowohl dmesg als auch das Syslog bleiben sauber, wenn der IO-Fehler auftritt. (EDIT: Klarstellung: Dies bedeutet, dass in dmesg oder syslog keine festplattenbezogene Ausgabe protokolliert wird, selbst wenn das Protokoll mit der
--follow
Option aktiv ist, während die Lesefehler auftreten.) - Badblocks auf sda und sdb zeigen keine Fehler an
- fsck gibt
/dev/mapper/md0_vg_media
nur „könnte schmaler sein. IGNORIERT.“-Warnungen aus, aber keine Fehler, und die Autokorrekturoption behebt nichts.
Ich bin verwirrt. Ich könnte diese Dateien einfach löschen und erneut synchronisieren, aber das ist keine gute Idee, wenn ich nicht weiß, wo das Problem eigentlich liegt.
Wie kann ich dies weiter debuggen?
BEARBEITEN:
Aus den Kommentaren und weiteren Recherchen habe ich folgende Ansätze (vergeblich) mit folgenden Ergebnissen ausprobiert:
mdadm --examine /dev/sda
(dasselbe gilt für sdb) gibt zurück:/dev/sda: MBR Magic : aa55 Partition[0] : 3907029167 sectors at 1 (type ee)
mdadm --examine-badblocks /dev/sda
(dasselbe gilt für sdb) gibt zurück:mdadm: mbr metadata does not support badblocks
cat /sys/block/md0/md/mismatch_cnt
enthält den Wert0
(Null)echo 'check' > /sys/block/md0/md/sync_action
führt die Prüfung durch, zeigt aber keine Fehler an. Dmesg hat zwei Einträge:[734796.807172] md: data-check of RAID array md0
und dann direkt darunter:[754370.977181] md: md0: data-check done.