Ubuntu Server mdadm drbd ocfs2 kvm зависает при интенсивном чтении файлов

Ubuntu Server mdadm drbd ocfs2 kvm зависает при интенсивном чтении файлов

Я развернул четыре сервера Ubuntu 10.04. Они соединены по два в кластерном сценарии. С обеих сторон у нас есть программные диски raid1, drbd8 и OCFS2, а поверх них несколько машин kvm работают с дисками qcow2.

Я последовал этому совету:Связь

corosync используется только для DRBD и OCFS, машины kvm запускаются «вручную»

Когда он работает, все хорошо: хорошая производительность, хороший ввод-вывод, но в определенный момент один из двух кластеров начал зависать. Затем мы попробовали с одним включенным сервером, и он завис так же. Похоже, это происходит, когда происходит тяжелое ЧТЕНИЕ в одной из виртуальных машин, то есть во время резервного копирования rsyn. Когда это происходит, виртуальные машины больше не доступны, а реальный сервер отвечает с хорошей задержкой на пинг, но нет экрана и нет ssh.

Все что мы можем сделать это принудительно выключить (удерживать кнопку) и перезапустить и когда он снова включится рейд на котором реле drbd ресинхронизируется. Все время пока он висит мы видим такой факт.

После пары недель боли на одной стороне сегодня утром также завис другой кластер, но у него другая материнская плата, оперативная память, экземпляры kvm. Что похоже, так это чтение для сценария rsync и диски Western Digital RAID Edition на обеих сторонах.

Может ли кто-нибудь дать мне совет по решению этой проблемы?

ОБНОВЛЕНИЕ: Я преобразовал все образы из qcow2 в raw и смонтировал файловую систему из виртуальной машины с noatime и nodiratime. Я использовал ionice для rsync, но сегодня утром он снова завис, когда пользователь читал много файлов из общего ресурса samba. Сейчас я перемещаю виртуальные машины imagines из ocfs2 в ext3, но это действительно поражение... любые идеи приветствуются.

решение1

Мне кажется, вам нужно попробовать другую схему хранения (хотя если вы используете предварительно выделенные диски RAW с виртуальными машинами, вы избежите некоторых накладных расходов, а qcow2 вам действительно нужен только если вы используете моментальные снимки)

Стабильно ли работают виртуальные машины без кластеризации, используя только локальные диски?

Пробовали ли вы использовать ionice для назначения процессу rsync более высокого уровня nice, чтобы он не сломал все остальное?

Вы тестировали GFS вместо ocfs2? Может быть, получится лучше, и у вас есть описание в руководстве, на которое вы разместили ссылку

Связанный контент