Ubuntu Server mdadm drbd ocfs2 kvm se bloquea durante una lectura intensa de archivos

Ubuntu Server mdadm drbd ocfs2 kvm se bloquea durante una lectura intensa de archivos

He implementado cuatro servidores ubuntu 10.04. Están acoplados de dos en dos en un escenario de cluster. en ambos lados tenemos discos de software raid1, drbd8 y OCFS2 y encima algunas máquinas kvm ejecutan discos qcow2.

Seguí esto:Enlace

corosync solo se usa para DRBD y OCFS, las máquinas kvm se ejecutan "manualmente"

Cuando funciona está bien: buen rendimiento, buena E/S, pero en un momento dado uno de los dos clusters empezó a colgarse. Luego lo intentamos con un solo servidor encendido y se cuelga igual. Parece suceder cuando ocurre una LECTURA intensa en una de las máquinas virtuales, es decir, durante la copia de seguridad de rsyn. Cuando esto ocurre, ya no se puede acceder a las máquinas virtuales y el servidor real responde con un buen retraso al ping, pero no hay pantalla ni ssh disponible.

Todo lo que podemos hacer es forzar el apagado (mantener presionado el botón) y reiniciar y cuando se enciende nuevamente, el raid en el que el relé drbd se está resincronizando. Todo el tiempo que cuelga vemos ese hecho.

Después de un par de semanas de dolor en un lado, esta mañana también se colgó el otro grupo, pero tiene diferentes instancias de placa base, RAM y KVM. Lo que es similar es la lectura para el escenario rsync y los discos Western Digital RAID Edition en ambos lados.

¿Alguien puede darme alguna opinión para resolver este problema?

ACTUALIZACIÓN: convertí todas las imágenes de qcow2 a raw y monté el sistema de archivos desde la máquina virtual con noatime y nodiratime. Utilicé ionice para rsync, pero esta mañana se volvió a colgar mientras un usuario leía muchos archivos de un recurso compartido de samba. Ahora estoy moviendo máquinas virtuales de ocfs2 a ext3, pero es realmente una derrota... cualquier idea es bienvenida.

Respuesta1

Me parece que necesitas probar otro esquema de almacenamiento (aunque si usas discos RAW preasignados con las VM, evitarás algunos de los gastos generales y realmente necesitas qcow2 solo si estás usando instantáneas)

¿Las máquinas virtuales se ejecutan de manera estable sin la agrupación en clústeres, utilizando solo los discos locales?

¿Has intentado utilizar ionice para asignar al proceso rsync un nivel agradable más alto, para que no rompa todo lo demás?

¿Has probado con GFS en lugar de ocfs2? Podría resultar mejor y tiene una descripción en la guía a la que publicó un enlace.

información relacionada