Degradação massiva de desempenho em gravação sequencial sustentada

Question 1

O disco de controle está conectado a uma porta SATA embutida na placa-mãe.

Conforme declarado, os discos que apresentam problemas de tempo limite de liberação do diário estão conectados ao PERC, o mesmo controlador ao qual os Toshiba 'problemáticos' estão conectados.

O PERC 310 é apenas uma placa RAID de hardware básica. Sua CPU provavelmente fica sobrecarregada facilmente, ou há um bug de firmware. Direct AHCI não é um uso muito comum.

Eu sugeriria que o IO está travando no PERC, e não no sistema operacional

Answer

O disco de controle está conectado a uma porta SATA embutida na placa-mãe.

Conforme declarado, os discos que apresentam problemas de tempo limite de liberação do diário estão conectados ao PERC, o mesmo controlador ao qual os Toshiba 'problemáticos' estão conectados.

O PERC 310 é apenas uma placa RAID de hardware básica. Sua CPU provavelmente fica sobrecarregada facilmente, ou há um bug de firmware. Direct AHCI não é um uso muito comum.

Eu sugeriria que o IO está travando no PERC, e não no sistema operacional

Question 2

Isso é muito para digerir.

Você está usando o ZFS, então há uma boa chance de que isso seja um problema com os discos de 5 TB do seu pool e, potencialmente, com a configuração do seu pool.

Esses podem ser discos do setor 4k, portanto, algumas acomodações devem ser feitas na configuração do ZFS para levar em conta isso.

Você pode fornecer sua df -h,,, e saída ?fdisk -lzpool listzpool status -vzfs list

Answer

Isso é muito para digerir.

Você está usando o ZFS, então há uma boa chance de que isso seja um problema com os discos de 5 TB do seu pool e, potencialmente, com a configuração do seu pool.

Esses podem ser discos do setor 4k, portanto, algumas acomodações devem ser feitas na configuração do ZFS para levar em conta isso.

Você pode fornecer sua df -h,,, e saída ?fdisk -lzpool listzpool status -vzfs list

Question 3

Acho que seu cache de gravação é muito grande em comparação com a velocidade do dispositivo de bloco. Eu sugeriria o seguinte:

vm.dirty_background_bytes = 50000000
vm.dirty_bytes = 200000000
vm.dirty_expire_centisecs = 500
vm.dirty_writeback_centisecs = 20

Nunca defina ambos *_bytese *_ratioporque o último a definir vencerá. Além disso, algumas versões do kernel Linux podem ter um bug em que a configuração *_rationão funciona conforme o esperado. Eu sugeriria usar *_bytessempre.

Infelizmente, as configurações do cache de gravação são globais, até onde eu sei. Como resultado, a taxa de transferência para seus dispositivos mais rápidos sofrerá um pouco quando você precisar reduzir o tamanho do cache de gravação global devido a algum dispositivo lento.

Answer

Acho que seu cache de gravação é muito grande em comparação com a velocidade do dispositivo de bloco. Eu sugeriria o seguinte:

vm.dirty_background_bytes = 50000000
vm.dirty_bytes = 200000000
vm.dirty_expire_centisecs = 500
vm.dirty_writeback_centisecs = 20

Nunca defina ambos *_bytese *_ratioporque o último a definir vencerá. Além disso, algumas versões do kernel Linux podem ter um bug em que a configuração *_rationão funciona conforme o esperado. Eu sugeriria usar *_bytessempre.

Infelizmente, as configurações do cache de gravação são globais, até onde eu sei. Como resultado, a taxa de transferência para seus dispositivos mais rápidos sofrerá um pouco quando você precisar reduzir o tamanho do cache de gravação global devido a algum dispositivo lento.

Degradação massiva de desempenho em gravação sequencial sustentada

Informações adicionais

Fatos rápidos

Agendadores de E/S

`vm.dirty*`parâmetros do kernel

Exemplos de lentidão detectada e registrada`/var/log/syslog`

Responder1

Responder2

Responder3

informação relacionada