corrupción de archivos en lectura/escritura del servidor 2.6.32-22 (ocurre en muchos núcleos)

Question 1

Mi instinto me dice que se trata de un problema de hardware, posiblemente relacionado con la temperatura (como aparece después de un tiempo de ejecución). Lo más probable es que tengas un problema con el puente sur o el hardware relacionado.

Considere realizar algunas pruebas de transacciones exhaustivas en el puente sur o simplemente reemplazar la placa base.

El hecho de que su sistema operativo se mantenga estable pero tenga errores de E/S aleatorios generalmente descarta la CPU/Memoria, ya que los errores en estos tienden a hacer que el sistema operativo falle y se queme junto con el otro software. Pero la mayor parte del Kernel se lee desde el disco en el arranque y nunca se intercambia, por lo que un sistema Linux puede ser sorprendentemente estable incluso si no puede leer correctamente desde el disco.

Answer

Mi instinto me dice que se trata de un problema de hardware, posiblemente relacionado con la temperatura (como aparece después de un tiempo de ejecución). Lo más probable es que tengas un problema con el puente sur o el hardware relacionado.

Considere realizar algunas pruebas de transacciones exhaustivas en el puente sur o simplemente reemplazar la placa base.

El hecho de que su sistema operativo se mantenga estable pero tenga errores de E/S aleatorios generalmente descarta la CPU/Memoria, ya que los errores en estos tienden a hacer que el sistema operativo falle y se queme junto con el otro software. Pero la mayor parte del Kernel se lee desde el disco en el arranque y nunca se intercambia, por lo que un sistema Linux puede ser sorprendentemente estable incluso si no puede leer correctamente desde el disco.

Question 2

¿Se produce corrupción en el propio host o en las máquinas invitadas? Hay un error conocido en qemu-kvm que provoca corrupción de datos en discos virtuales grandes (consultehttps://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665Por ejemplo)

Answer

¿Se produce corrupción en el propio host o en las máquinas invitadas? Hay un error conocido en qemu-kvm que provoca corrupción de datos en discos virtuales grandes (consultehttps://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665Por ejemplo)

Question 3

Estoy de acuerdo con @pehrs en que vale la pena analizar el aspecto térmico de esto, ya que el problema aumenta con el tiempo. ¿Qué tipo de servidor tienes? La mayoría de los montajes en rack hoy en día vienen con una buena cantidad de sensores que se pueden usar para monitorear el estado del hardware. Verificarsensores-lm. Si es un servidor Dell, el DellOMSAEl paquete puede resultar útil. Estoy seguro de que otros grandes jugadores también tienen sus propios paquetes propietarios.

También podría descartar algunas otras ideas: estas realmente no coinciden con el escenario que describiste en el que el problema solo aparece después de un tiempo, pero no hacen daño.

En lo que respecta a los registros de errores, ¿recibe algún mensaje de error en los registros del disco o del subsistema RAID? ¿O en dmesg? el linuxSoftware-RAID HOTWOtiene información sobre los tipos de errores que estaría buscando. Es posible que algo como un cable defectuoso no aparezca en las autopruebas SMART de la unidad, pero definitivamente verás algunos mensajes de error registrados.

¿Cuál es la configuración RAID? ¿Algo en /proc/mdstat? Si (por ejemplo) el servidor tenía un RAID 5 de 3 unidades y una de las unidades estaba defectuosa, eso podría causar problemas.

Además, verifique la revisión del firmware de su placa base/tarjeta SCSI/etc. y vea si está actualizada o si hay algún error relacionado con la E/S del disco que se haya solucionado.

Answer

Estoy de acuerdo con @pehrs en que vale la pena analizar el aspecto térmico de esto, ya que el problema aumenta con el tiempo. ¿Qué tipo de servidor tienes? La mayoría de los montajes en rack hoy en día vienen con una buena cantidad de sensores que se pueden usar para monitorear el estado del hardware. Verificarsensores-lm. Si es un servidor Dell, el DellOMSAEl paquete puede resultar útil. Estoy seguro de que otros grandes jugadores también tienen sus propios paquetes propietarios.

También podría descartar algunas otras ideas: estas realmente no coinciden con el escenario que describiste en el que el problema solo aparece después de un tiempo, pero no hacen daño.

En lo que respecta a los registros de errores, ¿recibe algún mensaje de error en los registros del disco o del subsistema RAID? ¿O en dmesg? el linuxSoftware-RAID HOTWOtiene información sobre los tipos de errores que estaría buscando. Es posible que algo como un cable defectuoso no aparezca en las autopruebas SMART de la unidad, pero definitivamente verás algunos mensajes de error registrados.

¿Cuál es la configuración RAID? ¿Algo en /proc/mdstat? Si (por ejemplo) el servidor tenía un RAID 5 de 3 unidades y una de las unidades estaba defectuosa, eso podría causar problemas.

Además, verifique la revisión del firmware de su placa base/tarjeta SCSI/etc. y vea si está actualizada o si hay algún error relacionado con la E/S del disco que se haya solucionado.

corrupción de archivos en lectura/escritura del servidor 2.6.32-22 (ocurre en muchos núcleos)

Respuesta1

Respuesta2

Respuesta3

información relacionada