Tengo una partición ext4 con la siguiente pila subyacente:
- sda1 y sdb1 están juntos en un RAID1, lo que da como resultado md0
- md0 está cifrado con LUKS, lo que da como resultado md0_crypt
- encima de md0_crypt hay un único volumen LVM mv0_vg_media, montado en /home/media
Al realizarlo, cp /home/media/hierarchy/photo.jpg /tmp
aparece un error de IO (pero solo para 20 archivos, de varios decenas de miles).
Sin embargo, cuando intento depurar el problema:
- Tanto dmesg como syslog permanecen limpios cuando ocurre el error IO. (EDITAR: aclaración: esto significa que no hay ninguna salida relacionada con el disco registrada en dmesg o syslog, incluso si el registro está activo con
--follow
la opción mientras ocurren los errores de lectura). - Badblocks en sda y sdb no revelan ningún error
- fsck
/dev/mapper/md0_vg_media
solo en salidas "podría ser más limitado. IGNORADO". advertencias pero no errores y la opción de autocorrección no soluciona nada.
Estoy confundido. Podría simplemente eliminar esos archivos y volver a sincronizarlos, pero es una mala idea si no sé cuál es realmente el problema.
¿Cómo puedo depurar aún más esto?
EDITAR:
A partir de los comentarios y de investigaciones adicionales, probé los siguientes enfoques (en vano) con los siguientes resultados:
mdadm --examine /dev/sda
(lo mismo para sdb) devuelve:/dev/sda: MBR Magic : aa55 Partition[0] : 3907029167 sectors at 1 (type ee)
mdadm --examine-badblocks /dev/sda
(lo mismo para sdb) devuelve:mdadm: mbr metadata does not support badblocks
cat /sys/block/md0/md/mismatch_cnt
contiene el valor0
(cero)echo 'check' > /sys/block/md0/md/sync_action
realiza la comprobación pero no revela ningún error. Dmesg tiene dos entradas:[734796.807172] md: data-check of RAID array md0
y luego inmediatamente debajo:[754370.977181] md: md0: data-check done.