El servidor NFS no responde a los clientes: los procesos 'migración' y 'xfssyncd' consumen una CPU inusual

Question

Tengo un RHEL 6.10 con problemas similares. Lo único que parece ayudar es eliminar procesos sftp de usuario de larga duración en el cliente NFS. Estos eran procesos que los clientes SFTP basados en GUI (por ejemplo, WinSCP, Nimble Commander) mantenían abiertos durante muchas horas (> 10 horas).

El monitoreo muestra cierta actividad del cliente NFSv3 que coincide con el problema, pero la actividad en realidad es menor que alguna otra actividad típica en otros clientes (hay > 100 clientes) que no causan el problema.

En realidad, tampoco se han realizado muchas E/S.

ACTUALIZACIÓN 10/12/2019: La causa principal parece haber sido las cuotas XFS en el servidor NFS. Los directorios personales de los usuarios tienen cuotas impuestas, con un límite flexible de 2 GB inferior al límite estricto. Algunos usuarios intentaron instalar una Anaconda Python completa, que superó el límite flexible. El instalador de Anaconda no parecía tener forma de interceptar las advertencias y seguía descargando archivos más allá del límite flexible. Esto generó una tasa masiva de advertencias de cuotas, lo que atascó completamente el sistema y lo hizo dejar de responder.

Digo "parece" porque la evidencia es circunstancial. Cuando los usuarios intentaron instalar en un directorio sin cuota, todo salió bien.

Answer 1

Tengo un RHEL 6.10 con problemas similares. Lo único que parece ayudar es eliminar procesos sftp de usuario de larga duración en el cliente NFS. Estos eran procesos que los clientes SFTP basados en GUI (por ejemplo, WinSCP, Nimble Commander) mantenían abiertos durante muchas horas (> 10 horas).

El monitoreo muestra cierta actividad del cliente NFSv3 que coincide con el problema, pero la actividad en realidad es menor que alguna otra actividad típica en otros clientes (hay > 100 clientes) que no causan el problema.

En realidad, tampoco se han realizado muchas E/S.

ACTUALIZACIÓN 10/12/2019: La causa principal parece haber sido las cuotas XFS en el servidor NFS. Los directorios personales de los usuarios tienen cuotas impuestas, con un límite flexible de 2 GB inferior al límite estricto. Algunos usuarios intentaron instalar una Anaconda Python completa, que superó el límite flexible. El instalador de Anaconda no parecía tener forma de interceptar las advertencias y seguía descargando archivos más allá del límite flexible. Esto generó una tasa masiva de advertencias de cuotas, lo que atascó completamente el sistema y lo hizo dejar de responder.

Digo "parece" porque la evidencia es circunstancial. Cuando los usuarios intentaron instalar en un directorio sin cuota, todo salió bien.

El servidor NFS no responde a los clientes: los procesos 'migración' y 'xfssyncd' consumen una CPU inusual

Respuesta1

información relacionada