Falha de brilho: latência de minutos

Falha de brilho: latência de minutos

Usando um sistema de arquivos HPC luster, ocasionalmente experimentamos falhas onde simplesmente abrir um terminal e digitar "ls" pode levar alguns minutos para retornar. Ou seja, qualquer processo que envolva o sistema de arquivos tem latência massiva aleatória (mas geralmente não produz erros reais), e processos que não envolvem o sistema de arquivos (como arrastar janelas em uma sessão do x-windows) permanecem responsivos.

O que pode fazer com que o brilho exiba intermitentemente latência excessiva? (Seria necessariamente uma falha de hardware, ou uma configuração incorreta, ou um sistema de arquivos quase cheio, ou apenas um padrão de uso desagradável de algum trabalho paralelo distribuído naquele dia?)

informação relacionada