mdadm - incursión de software

mdadm - incursión de software

Configuré una pequeña máquina servidor Ubuntu 11.04 basada en raid y acabo de recibir este correo electrónico. ¿Cómo puedo verificar o comprobar esto?

Ricardo

Este es un mensaje de correo generado automáticamente por mdadm que se ejecuta en Godzilla.

Se detectó un evento de error en el dispositivo md /dev/md/0.

Podría estar relacionado con el dispositivo componente /dev/sda1.

Atentamente suyo, etc.

PD: El archivo /proc/mdstat actualmente contiene lo siguiente:

Personalidades: [lineal] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0: raid5 activo sda10 sdb1[1] sdd1[3] sdc1[2] 2927135232 bloques super 1.2 nivel 5, Fragmento de 512k, algoritmo 2 [4/3] [_UUU] [>....................] verificación = 2,2% (21655188/975711744) finalización = velocidad de 4419,8 min =3597K/seg

&> gato /proc/mdstatPersonalidades: [lineal] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0: raid5 activo sda10 sdb1[1] sdd1[3] sdc1[2] 2927135232 bloques super 1.2 nivel 5, Fragmento de 512k, algoritmo 2 [4/3] [_UUU]

dispositivos no utilizados:

gato /proc/mdstatPersonalidades: [lineal] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0: raid5 activosda1[0]Fsdb1[1]sdd1[3] sdc1[2] 2927135232 bloques super 1.2 nivel 5, fragmento de 512k, algoritmo 2 [4/3] [_UUU]

dispositivos no utilizados:

mensaje [775549.274966] md/raid:md0: Falla de disco en sda1, deshabilitando el dispositivo. [775549.274967] md/raid:md0: La operación continúa en 3 dispositivos. [775549.280021] md/raid:md0: error de lectura no corregible (sector 43310408 en sda1
). [775549.280028] md/raid:md0: error de lectura no corregible (sector 43310416 en sda1
). [775549.280031] md/raid:md0: error de lectura no corregible (sector 43310424 en sda1
). [775549.280035] md/raid:md0: error de lectura no corregible (sector 43310432 en sda1
). [775549.280039] md/raid:md0: error de lectura no corregible (sector 43310440 en sda1
). [775549.280043] md/raid:md0: error de lectura no corregible (sector 43310448 en sda1
). [775549.280047] md/raid:md0: error de lectura no corregible (sector 43310456 en sda1
). [775549.280051] md/raid:md0: error de lectura no corregible (sector 43310464 en sda1
). [775549.280055] md/raid:md0: error de lectura no corregible (sector 43310472 en sda1
). [775549.280226] ata7: EH completo [775549.316567] ata7.00: excepción Emask 0x0 SAct 0x0 SErr 0x300000 acción 0x6 [775549.319133] ata7.00: estadística BMDMA 0x45 [775549.321658] ta7: SError: { Dispar BadCRC } [775549.324237] ata7.00 : comando fallido: LEER DMA EXT [775549.326754] ata7.00: cmd 25/00:f8:28:ed:94/00:03:02:00:00/e0 tag 0 dma 52019
2 in [775549.326757] res 51/ 84:48:78:7f:2e/84:00:03:00:00/e0 Emask 0x10 (
error de bus ATA) [775549.331806] ata7.00: estado: { DRDY ERR } [775549.334350] ata7.00: error: { ICRC ABRT } [775549.336890] ata7: enlace de restablecimiento completo [775549.336895] ata7: nv: omitir restablecimiento completo en puerto ocupado [775549.340260] md: md0: verificación de datos realizada. [775549.804062] ata7: enlace SATA hasta 3,0 Gbps (SStatus 123 SControl 300) [775549.844352] ata7.00: configurado para UDMA/33 [775549.844390] ata7: EH completo [775549.936450] Impresión de configuración RAID: 9.936456] --- nivel: 5 rd:4 wd:3 [775549.936460] disco 0, o:0, dev:sda1 [775549.936463] disco 1, o:1, dev:sdb1 [775549.936465] disco 2, o:1, dev:sdc1 [775549.936507] disco 3, o:1, dev:sdd1 [775549.936557] Impresión de configuración RAID: [775549.936559] --- nivel:5 rd:4 wd:3 [775549.936562] disco 1, o:1, dev:sdb1 [775549.936564] disco 2, o:1, dev:sdc1 [775549.936567] disco 3, o:1, dev:sdd1

sudo mdadm --detalle /dev/md0

/dev/md0: Versión: 1.2 Hora de creación: sábado 1 de enero 14:43:44 2005 Nivel de incursión: raid5 Tamaño de matriz: 2927135232 (2791,53 GiB 2997,39 GB) Tamaño de desarrollo utilizado: 975711744 (930,51 GiB 999,13 GB) Dispositivos de incursión: 4 en total Dispositivos: 4 Persistencia: Superbloque es persistente

Update Time : Sun Feb  5 19:17:41 2012
      State : clean, degraded  Active Devices : 3 Working Devices : 3  Failed Devices : 1   Spare Devices : 0

     Layout : left-symmetric
 Chunk Size : 512K

       Name : godzilla:0  (local to host godzilla)
       UUID : 7c2be5e4:25e338e5:b575b8cd:83896caf
     Events : 657

Number   Major   Minor   RaidDevice State
   0       0        0        0      removed
   1       8       17        1      active sync   /dev/sdb1
   2       8       33        2      active sync   /dev/sdc1
   3       8       49        3      active sync   /dev/sdd1

   0       8        1        -      faulty spare   /dev/sda1

Respuesta1

Echaría un vistazo a la salida de 'dmesg' así como al archivo /var/log/syslog. Puede haber indicios de problemas con /dev/sda1.

El disco duro podría haberse fallado, pero también podría ser simplemente un cable que no está bien conectado (los cables SATA simplemente... no son tan impresionantes). Vea si el dispositivo todavía está en línea, tal vez esté disponible con un nombre diferente como /dev/sde1 o cualquiera que sea el siguiente nombre libre en su sistema. Como mencioné, también verificaría dmesg/syslog, SMART. Tal vez el cable simplemente deba enchufarse correctamente o reemplazarse. En la mayoría de los casos, puede volver a agregar el disco a su matriz RAID; solo usaría esos comandos si el problema realmente tiene que ver con cables rotos o algo comparable, es decir, si no hay una falla "real" del disco duro.

mdadm --fail /dev/mdX /dev/sdX # set the disk faulty
mdadm -r /dev/mdX /dev/sdX # remove faulty disk
mdadm --re-add /dev/mdX /dev/sdX # re-add disk

Descargo de responsabilidad: No hay garantía, debe tener copias de seguridad, esto reconstruirá su matriz RAID; durante ese tiempo no hay redundancia, etc.

información relacionada