corrupción de archivos en lectura/escritura del servidor 2.6.32-22 (ocurre en muchos núcleos)

corrupción de archivos en lectura/escritura del servidor 2.6.32-22 (ocurre en muchos núcleos)

Tengo un problema en el que, después de que el servidor ha estado activo durante un período de tiempo (~una semana/unos días), el servidor comenzará a leer datos corruptos. Por ejemplo, cuando ejecuto un sha1sum de un archivo después de un nuevo inicio, sigue igual. Sin embargo, después de un tiempo comenzaré a tener segfaults y, a partir de ese momento, cada vez que leo este archivo obtengo un sha1sum diferente.

Verifiqué SMART con pruebas largas y ejecuté un memtest86+ extendido (12 pases)

Mi lspci es el siguiente:

00:00.0 Puente de host: Microdispositivos avanzados [AMD] Puente de host RS780
00:01.0 Puente PCI: Microdispositivos avanzados [AMD] Puente RS780 PCI a PCI (int gfx)
00:06.0 Puente PCI: Microdispositivos avanzados [AMD] Puente RS780 PCI a PCI (puerto PCIE 2)
00:07.0 Puente PCI: Microdispositivos avanzados [AMD] Puente RS780 PCI a PCI (puerto PCIE 3)
00:11.0 Controlador SATA: Controlador SATA ATI Technologies Inc SB700/SB800 [modo AHCI]
00:12.0 Controlador USB: ATI Technologies Inc SB700/SB800 Controlador USB OHCI0
00:12.1 Controlador USB: ATI Technologies Inc SB700 Controlador USB OHCI1
00:12.2 Controlador USB: ATI Technologies Inc Controlador EHCI USB SB700/SB800
00:13.0 Controlador USB: ATI Technologies Inc SB700/SB800 Controlador USB OHCI0
00:13.1 Controlador USB: ATI Technologies Inc SB700 Controlador USB OHCI1
00:13.2 Controlador USB: ATI Technologies Inc Controlador EHCI USB SB700/SB800
00:14.0 SMBus: Controlador SMBus SBx00 de ATI Technologies Inc (rev. 3c)
00:14.1 Interfaz IDE: Controlador IDE SB700/SB800 de ATI Technologies Inc
00:14.3 Puente ISA: controlador de host LPC SB700/SB800 de ATI Technologies Inc
00:14.4 Puente PCI: ATI Technologies Inc SBx00 PCI a PCI Bridge
00:14.5 Controlador USB: ATI Technologies Inc SB700/SB800 Controlador USB OHCI2
00:18.0 Puente de host: Microdispositivos avanzados [AMD] K10 [Opteron, Athlon64, Sempron] Configuración de HyperTransport
00:18.1 Puente de host: Microdispositivos avanzados [AMD] K10 [Opteron, Athlon64, Sempron] Mapa de direcciones
00:18.2 Puente de host: Microdispositivos avanzados [AMD] K10 [Opteron, Athlon64, Sempron] Controlador DRAM
00:18.3 Puente de host: Microdispositivos avanzados [AMD] K10 [Opteron, Athlon64, Sempron] Control varios
00:18.4 Puente de host: Microdispositivos avanzados [AMD] K10 [Opteron, Athlon64, Sempron] Control de enlace
01:05.0 Controlador compatible con VGA: ATI Technologies Inc Radeon HD 3300 Graphics
01:05.1 Dispositivo de audio: controlador Azalia RS780 de ATI Technologies Inc
02:00.0 Controlador Ethernet: Atheros Communications Controlador Ethernet PCI-E Atheros AR8121/AR8113/AR8114 (rev b0)
03:00.0 FireWire (IEEE 1394): VIA Technologies, Inc. Dispositivo 3403

Realmente me vendría bien un poco de ayuda con esto, ¿tienes alguna idea de qué podría causar esto? Es realmente frustrante para mí ya que parece activarse de forma totalmente aleatoria y no desaparece hasta que reinicie. También uso KVM para virtualización, así como MD para software RAID en este servidor y el procesador es un Phenom II X4 965. Sin embargo, no creo que sea el software raid, ya que esto afecta a los archivos que también se alojan en particiones no raid, por lo que No sé.

Actualizar21 de junio de 10 Ok, acaban de reemplazar la placa base. Todavía tengo el mismo error. No puedo encontrar errores de CPU; Todos los discos informan bien con la prueba inteligente. ¿Alguien tiene alguna idea de qué podría ser esto? Me estoy arrancando el pelo por aquí.

Actualizar22 de junio de 10. Revisé los registros y probé con otro sistema de archivos, pero sigue igual. Por cierto, todo esto también está en la máquina virtual host.

Respuesta1

Mi instinto me dice que se trata de un problema de hardware, posiblemente relacionado con la temperatura (como aparece después de un tiempo de ejecución). Lo más probable es que tengas un problema con el puente sur o el hardware relacionado.

Considere realizar algunas pruebas de transacciones exhaustivas en el puente sur o simplemente reemplazar la placa base.

El hecho de que su sistema operativo se mantenga estable pero tenga errores de E/S aleatorios generalmente descarta la CPU/Memoria, ya que los errores en estos tienden a hacer que el sistema operativo falle y se queme junto con el otro software. Pero la mayor parte del Kernel se lee desde el disco en el arranque y nunca se intercambia, por lo que un sistema Linux puede ser sorprendentemente estable incluso si no puede leer correctamente desde el disco.

Respuesta2

¿Se produce corrupción en el propio host o en las máquinas invitadas? Hay un error conocido en qemu-kvm que provoca corrupción de datos en discos virtuales grandes (consultehttps://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665Por ejemplo)

Respuesta3

Estoy de acuerdo con @pehrs en que vale la pena analizar el aspecto térmico de esto, ya que el problema aumenta con el tiempo. ¿Qué tipo de servidor tienes? La mayoría de los montajes en rack hoy en día vienen con una buena cantidad de sensores que se pueden usar para monitorear el estado del hardware. Verificarsensores-lm. Si es un servidor Dell, el DellOMSAEl paquete puede resultar útil. Estoy seguro de que otros grandes jugadores también tienen sus propios paquetes propietarios.

También podría descartar algunas otras ideas: estas realmente no coinciden con el escenario que describiste en el que el problema solo aparece después de un tiempo, pero no hacen daño.

En lo que respecta a los registros de errores, ¿recibe algún mensaje de error en los registros del disco o del subsistema RAID? ¿O en dmesg? el linuxSoftware-RAID HOTWOtiene información sobre los tipos de errores que estaría buscando. Es posible que algo como un cable defectuoso no aparezca en las autopruebas SMART de la unidad, pero definitivamente verás algunos mensajes de error registrados.

¿Cuál es la configuración RAID? ¿Algo en /proc/mdstat? Si (por ejemplo) el servidor tenía un RAID 5 de 3 unidades y una de las unidades estaba defectuosa, eso podría causar problemas.

Además, verifique la revisión del firmware de su placa base/tarjeta SCSI/etc. y vea si está actualizada o si hay algún error relacionado con la E/S del disco que se haya solucionado.

información relacionada