Ubuntu Server mdadm drbd ocfs2 kvm trava sob leitura pesada de arquivos

Ubuntu Server mdadm drbd ocfs2 kvm trava sob leitura pesada de arquivos

Eu implantei quatro servidores Ubuntu 10.04. Eles são acoplados dois a dois em um cenário de cluster. em ambos os lados temos discos de software raid1, drbd8 e OCFS2 e além disso algumas máquinas kvm rodam com discos qcow2.

Eu segui isso:Link

corosync é usado apenas para DRBD e OCFS, as máquinas kvm são executadas "manualmente"

Quando funciona, tudo bem: bom desempenho, boa E/S, mas em um determinado momento um dos dois clusters começou a travar. Então tentamos com apenas um servidor ligado e ele travou da mesma forma. Parece acontecer quando ocorre um READ pesado em uma das máquinas virtuais, ou seja, durante o backup do rsyn. Quando o fato ocorre as máquinas virtuais não estão mais acessíveis e o servidor real responde com bom atraso ao ping mas nenhuma tela e nenhum ssh estão disponíveis.

Tudo o que podemos fazer é forçar o desligamento (segure o botão) e reiniciar e quando ele ligar novamente o ataque no qual o relé drbd está ressincronizando. Todo o tempo que está pendurado vemos tal fato.

Depois de algumas semanas de dor em um lado esta manhã, o outro cluster também travou, mas tem diferentes instâncias de moteherboard, ram, kvm. O que é semelhante é a leitura do cenário rsync e dos discos Western Digital RAID Edistion em ambos os lados.

Alguém pode me dar alguma contribuição para resolver esse problema?

ATUALIZAÇÃO: converti todas as imagens de qcow2 para raw e montei o sistema de arquivos de dentro da máquina virtual com noatime e nodiratime. Usei ionice para rsync, mas esta manhã ele travou novamente enquanto um usuário lia muitos arquivos de um compartilhamento de samba. Agora estou movendo imagens de máquinas virtuais de ocfs2 para ext3, mas é realmente uma derrota... qualquer ideia é bem-vinda.

Responder1

Parece que você precisa tentar outro esquema de armazenamento para mim (embora se você usar discos pré-alocados RAW com as VMs, você evitará algumas despesas gerais e realmente precisará do qcow2 apenas se estiver usando instantâneos)

As VMs estão funcionando de forma estável sem clustering, usando apenas os discos locais?

Você tentou usar o ionice para atribuir ao processo rsync um nível mais alto, para que ele não quebre todo o resto?

Você testou com GFS em vez de ocfs2? Pode ficar melhor, e você tem uma descrição no guia para o qual postou um link

informação relacionada