Problemas de disco: irq_stat 0x20000000, error del bus del host

Problemas de disco: irq_stat 0x20000000, error del bus del host

Al copiar archivos grandes (más de 50 GB) de un disco NVMe a un disco HDD SATA de 7200 rpm, veo el siguiente error en los registros en un Ubuntu 20.04 completamente parcheado:

Aug 08 00:45:59 host kernel: ata6.00: exception Emask 0x20 SAct 0x0 SErr 0x0 action 0x6 frozen
Aug 08 00:45:59 host kernel: ata6.00: irq_stat 0x20000000, host bus error
Aug 08 00:45:59 host kernel: ata6.00: failed command: WRITE DMA EXT
Aug 08 00:45:59 host kernel: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 tag 23 dma 4096 out
                                    res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (host bus error)
Aug 08 00:45:59 host kernel: ata6.00: status: { DRDY }
Aug 08 00:45:59 host kernel: ata6: hard resetting link
Aug 08 00:46:00 host kernel: ata6: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Aug 08 00:46:00 host kernel: ata6.00: configured for UDMA/133
Aug 08 00:46:00 host kernel: ata6: EH complete

ata6.00es el disco en el que se está escribiendo.
El problema es intermitente. A veces no aparece durante 24 horas, a veces un par de veces por hora. Muchas veces el disco se recupera, pero a veces el sistema de archivos simplemente se corrompe y es necesario desmontarlo, repararlo (si es posible) y volver a montarlo.

Lo que probé:

  1. Probé 3 marcas diferentes de HDD. Todos tienen el mismo problema.
  2. Sospeché un problema de hardware. Reemplacé la placa base y los cables SATA. Nada de esto ayudó.
  3. Tengo otro servidor con una configuración idéntica. El problema no ocurre allí. Misma carga de trabajo.
  4. Tengo otro servidor con una configuración completamente diferente (Intel vs AMD). El problema ocurre ahí. Misma carga de trabajo.
  5. Deshabilité NCQ a través de echo 1 > /sys/block/sda/device/queue_depth. No ayudó.

Me quedé sin ideas...
Todos estos son componentes aptos para centros de datos. Teniendo en cuenta las medidas que he tomado, supongo que no es un defecto de fabricación del hardware.
¿Podría estar esto relacionado con el software/OS/BIOS?
¿Alguna idea de qué más debería probar?

Respuesta1

¿Quizás esto sea más un problema de temperatura de funcionamiento? A medida que el disco se utiliza constantemente, su posición física y la relación entre ganancia y pérdida de calor aumentan demasiado, lo que provoca un comportamiento errático.

En kernels más nuevos como el suyo, la temperatura del disco se puede poner en sysfs en esta ruta:

/sys/class/hwmon/*

Asegúrese de asegurarse de que el drivetempmódulo esté cargado con modprobe drivetemp.

Podría considerar monitorear los archivos aquí y comenzar una copia de archivo grande nuevamente, la documentación del kernelaquíproporciona una indicación de cómo deben interpretarse estos archivos.

Incluyen valores útiles como las temperaturas mínimas y máximas de funcionamiento; algunos controladores también pueden ofrecer indicadores de alarma que son alarmas dependientes del chip que se activan en caso de falla.

Respuesta2

Parece resolverse actualizando a Ubuntu 21.04. Aunque no tengo idea de por qué. El servidor funciona estable ahora sin problemas de ATA.

información relacionada