Servidor NFS não responde aos clientes - com processos de 'migração' e 'xfssyncd' consumindo CPU incomum

Question

Eu tenho um RHEL 6.10 com problemas semelhantes. A única coisa que parece ajudar é eliminar processos SFTP de usuário de longa execução no cliente NFS. Esses eram processos mantidos abertos por clientes SFTP baseados em GUI (por exemplo, WinSCP, Nimble Commander) por muitas horas (> 10 horas).

O monitoramento mostra alguma atividade do cliente NFSv3 coincidente com o problema, mas a atividade é, na verdade, menor do que alguma outra atividade típica em outros clientes (há > 100 clientes) que não causam o problema.

Na verdade, também não há muita E/S feita.

ATUALIZAÇÃO 10/12/2019: A causa raiz parece ter sido as cotas XFS no servidor NFS. Os diretórios iniciais dos usuários têm cotas impostas, com um limite flexível 2 GB menor que o limite rígido. Alguns usuários tentaram instalar um Anaconda Python completo, que excedeu o limite flexível. O instalador do Anaconda não parecia ter uma maneira de interceptar os avisos e continuou baixando arquivos além do limite flexível. Isso gerou uma taxa enorme de avisos de cota, paralisando completamente o sistema e deixando-o sem resposta.

Digo “parece” porque a evidência é circunstancial. Quando os usuários tentaram instalar em um diretório sem cota, tudo correu bem.

Answer 1

Eu tenho um RHEL 6.10 com problemas semelhantes. A única coisa que parece ajudar é eliminar processos SFTP de usuário de longa execução no cliente NFS. Esses eram processos mantidos abertos por clientes SFTP baseados em GUI (por exemplo, WinSCP, Nimble Commander) por muitas horas (> 10 horas).

O monitoramento mostra alguma atividade do cliente NFSv3 coincidente com o problema, mas a atividade é, na verdade, menor do que alguma outra atividade típica em outros clientes (há > 100 clientes) que não causam o problema.

Na verdade, também não há muita E/S feita.

ATUALIZAÇÃO 10/12/2019: A causa raiz parece ter sido as cotas XFS no servidor NFS. Os diretórios iniciais dos usuários têm cotas impostas, com um limite flexível 2 GB menor que o limite rígido. Alguns usuários tentaram instalar um Anaconda Python completo, que excedeu o limite flexível. O instalador do Anaconda não parecia ter uma maneira de interceptar os avisos e continuou baixando arquivos além do limite flexível. Isso gerou uma taxa enorme de avisos de cota, paralisando completamente o sistema e deixando-o sem resposta.

Digo “parece” porque a evidência é circunstancial. Quando os usuários tentaram instalar em um diretório sem cota, tudo correu bem.

Servidor NFS não responde aos clientes - com processos de 'migração' e 'xfssyncd' consumindo CPU incomum

Responder1

informação relacionada