Pausa na transferência de dados no controlador RAID LSI 9271

Pausa na transferência de dados no controlador RAID LSI 9271

Tenho um servidor equipado com um controlador RAID LSI 9271-8i, com 4 x 4TB organizados como RAID-5 e 1 x 8TB como JBOD (que é chamado de RAID-0 no controlador).

Quando copio grandes quantidades de dados (~1 TB), posso observar o seguinte: nos primeiros gigabytes a velocidade de transferência é boa e limitada pelas velocidades do disco ou da rede, geralmente ~100MB/s. Mas depois de um tempo, a transferência pausa completamente por aprox. 20-30 segundos e continua com os próximos aprox. 1 GB. Copio muitos arquivos entre 10 MB e 500 MB e, durante a pausa, o robocopy permanece em um arquivo e continua para o próximo após a pausa. Dessa forma, a taxa geral de transferência cai para aproximadamente 20 MB/s.

Durante a pausa, não é possível navegar pelos arquivos das unidades e, em um caso, recebi uma mensagem de erro de redefinição do controlador ("O controlador encontrou um erro fatal e foi redefinido"). Também não é possível acessar os dados do controlador com a ferramenta CLI durante essa pausa (o resultado é exibido quando a pausa termina).

Pude observar esse comportamento ao copiar

  • rede gigabit para volume RAID-5
  • rede gigabit para volume JBOD
  • JBOD para RAID-5
  • RAID-5 para JBOD

Não há nada acontecendo que me pareça suspeito: as temperaturas (discos, BBU) estão dentro da faixa válida, a temperatura do controlador parece um pouco alta, mas também dentro das especificações. Nenhuma verificação está sendo executada no RAID, nenhuma reconstrução em andamento.

Qualquer suposição?

Antes de substituir o controlador, quero tentar otimizar a situação térmica. Esse comportamento parece um possível problema térmico?

Acho estranho que os primeiros 20-30 GB estejam funcionando bem e as pausas não ocorram antes disso. Se eu deixar o servidor sozinho por um tempo e tentar novamente, alguns GBs serão copiados corretamente. A única explicação ingênua para mim é que o controlador esquenta muito. Por que o controlador e não os discos? Os discos RAID-5 têm 7.200 rpm e são empilhados muito próximos, enquanto o disco único JBOD tem 5.400 rpm e tem muito ar ao redor. Seria estranho se ambos apresentassem os mesmos sintomas de superaquecimento.

Responder1

Eu tive um problema semelhante com um 9260-16i. Não foi a temperatura, pois tenho duas ventoinhas de 92 mm soprando direto no LSI. Eu tenho um segundo servidor configurado da mesma maneira e estava tudo bem. O que descobri foi que o servidor com problemas estava configurado com um tamanho de faixa de 64K e o servidor em funcionamento tinha um tamanho de faixa de 256K. Fiz backup do servidor com problema e reconstruí o grupo de unidades com faixa de 256K e, em seguida, formatei a unidade do sistema operacional com clusters de 64K (já que tenho um arquivo de vários GB). Tenho movido dados de volta e sem hesitação e basicamente rodando em velocidade máxima de NIC gigabit em gravações movendo mais de 350 GB por hora sem parar, sem pausas.

Responder2

O problema provavelmente está relacionado ao fato de o controlador liberar seu próprio cache DRAM. Qualquer pessoa que tenha esse problema deve tentar configurar o cache do controlador writethroughem vez dewriteback

informação relacionada