Desempenho lento de NFS e GFS2

Question 1

Só posso fornecer algumas dicas gerais.

Primeiro, eu colocaria algumas métricas de benchmark simples em funcionamento. Pelo menos você saberá se as mudanças que está fazendo são para melhor.

Munin
Cactos
Nagios

são algumas boas escolhas.

Esses nós são servidores virtuais ou físicos, quais são suas especificações.

Que tipo de conexão de rede existe entre cada nó

A configuração do NFS está na rede privada do seu provedor de hospedagem.

Você não está limitando pacotes/portas com firewalls. Seu provedor de hospedagem está fazendo isso?

Answer

Só posso fornecer algumas dicas gerais.

Primeiro, eu colocaria algumas métricas de benchmark simples em funcionamento. Pelo menos você saberá se as mudanças que está fazendo são para melhor.

Munin
Cactos
Nagios

são algumas boas escolhas.

Esses nós são servidores virtuais ou físicos, quais são suas especificações.

Que tipo de conexão de rede existe entre cada nó

A configuração do NFS está na rede privada do seu provedor de hospedagem.

Você não está limitando pacotes/portas com firewalls. Seu provedor de hospedagem está fazendo isso?

Question 2

Acho que você tem dois problemas. Em primeiro lugar, um gargalo que causa o problema e, mais importante, um tratamento inadequado de falhas pelo GFS. O GFS realmente deveria estar desacelerando a transferência até que funcione, mas não posso ajudar com isso.

Você diz que o cluster lida com aproximadamente 200 GB de novos arquivos no NFS. Quantos dados estão sendo lidos do cluster?

Eu sempre ficaria nervoso em ter uma conexão de rede para o front-end e o back-end, pois permite que o front-end interrompa "diretamente" o back-end (sobrecarregando a conexão de dados).

Se você instalar o iperf em cada uma das caixas, poderá testar o rendimento da rede disponível em qualquer ponto. Essa pode ser uma maneira rápida de identificar se você tem um gargalo na rede.

Quão pesadamente a rede é utilizada? Qual é a velocidade dos discos no servidor de armazenamento e qual configuração de ataque você está usando? Que rendimento você obtém com isso? Supondo que ele esteja rodando *nix e você tenha um momento tranquilo para testar, você pode usar hdparm

$ hdpard -tT /dev/<device>

Se você encontrar uma utilização intensa da rede, sugiro colocar o GFS em uma conexão de rede secundária e dedicada.

Dependendo de como você invadiu os 12 discos, você pode ter vários graus de desempenho e este pode ser o segundo gargalo. Também dependeria se você está usando ataque de hardware ou ataque de software.

A grande quantidade de memória que você tem na caixa pode ser de pouca utilidade se os dados solicitados estiverem espalhados por mais do que a memória total, o que parece ser. Além disso, a memória só pode ajudar nas leituras e principalmente se muitas leituras forem para o mesmo arquivo (caso contrário, ele seria expulso do cache)

Ao executar top/htop, observe iowait. Um valor alto aqui é um excelente indicador de que a CPU está apenas girando os polegares esperando por algo (rede, disco, etc.)

Na minha opinião, é menos provável que o NFS seja o culpado. Temos uma experiência bastante extensa com NFS e embora ele possa ser ajustado/otimizado - eletendepara funcionar de forma bastante confiável.

Eu estaria inclinado a estabilizar o componente GFS e então ver se os problemas com o NFS desaparecem.

Finalmente, o OCFS2 pode ser uma opção a considerar como substituto do GFS. Enquanto fazia algumas pesquisas sobre sistemas de arquivos distribuídos, fiz uma pesquisa razoável e não consigo me lembrar dos motivos pelos quais escolhi experimentar o OCFS2 - mas tentei. Talvez tenha algo a ver com o uso do OCFS2 pela Oracle para seus back-ends de banco de dados, o que implicaria em requisitos de estabilidade bastante elevados.

Munin é seu amigo. Mas muito mais importante é top/htop. vmstat também pode fornecer alguns números importantes

$ vmstat 1

e você receberá uma atualização a cada segundo sobre exatamente o que o sistema está gastando seu tempo fazendo.

Boa sorte!

Answer

Acho que você tem dois problemas. Em primeiro lugar, um gargalo que causa o problema e, mais importante, um tratamento inadequado de falhas pelo GFS. O GFS realmente deveria estar desacelerando a transferência até que funcione, mas não posso ajudar com isso.

Você diz que o cluster lida com aproximadamente 200 GB de novos arquivos no NFS. Quantos dados estão sendo lidos do cluster?

Eu sempre ficaria nervoso em ter uma conexão de rede para o front-end e o back-end, pois permite que o front-end interrompa "diretamente" o back-end (sobrecarregando a conexão de dados).

Se você instalar o iperf em cada uma das caixas, poderá testar o rendimento da rede disponível em qualquer ponto. Essa pode ser uma maneira rápida de identificar se você tem um gargalo na rede.

Quão pesadamente a rede é utilizada? Qual é a velocidade dos discos no servidor de armazenamento e qual configuração de ataque você está usando? Que rendimento você obtém com isso? Supondo que ele esteja rodando *nix e você tenha um momento tranquilo para testar, você pode usar hdparm

$ hdpard -tT /dev/<device>