Низкая производительность NFS и GFS2

Question 1

Я могу дать лишь некоторые общие указания.

Сначала я бы запустил несколько простых контрольных показателей. По крайней мере, тогда вы будете знать, к лучшему ли идут ваши изменения.

Мунин
Кактусы
Нагиос

есть несколько хороших вариантов.

Являются ли эти узлы виртуальными или физическими серверами, каковы их характеристики?

Какой тип сетевого соединения существует между каждым узлом?

Настроен ли NFS поверх частной сети вашего хостинг-провайдера?

Вы не ограничиваете пакеты/порты с помощью брандмауэров. Делает ли это ваш хостинг-провайдер?

Answer

Я могу дать лишь некоторые общие указания.

Сначала я бы запустил несколько простых контрольных показателей. По крайней мере, тогда вы будете знать, к лучшему ли идут ваши изменения.

Мунин
Кактусы
Нагиос

есть несколько хороших вариантов.

Являются ли эти узлы виртуальными или физическими серверами, каковы их характеристики?

Какой тип сетевого соединения существует между каждым узлом?

Настроен ли NFS поверх частной сети вашего хостинг-провайдера?

Вы не ограничиваете пакеты/порты с помощью брандмауэров. Делает ли это ваш хостинг-провайдер?

Question 2

Я думаю, у вас две проблемы. Узкое место, вызывающее проблему в первую очередь, и, что более важно, плохая обработка сбоев GFS. GFS действительно должен замедлять передачу, пока она не заработает, но я не могу помочь с этим.

Вы говорите, что кластер обрабатывает ~200 ГБ новых файлов в NFS. Сколько данных считывается из кластера?

Я всегда нервничал бы, если бы имел одно сетевое соединение для фронтенда и бэкенда, поскольку это позволяет фронтенду «напрямую» сломать бэкенд (перегружая соединение данных).

Если вы установите iperf на каждом из ящиков, вы сможете протестировать доступную пропускную способность сети в любой заданной точке. Это может быть быстрым способом определения наличия узкого места в сети.

Насколько интенсивно используется сеть? Насколько быстры диски на сервере хранения и какую конфигурацию RAID вы используете? Какую пропускную способность вы получаете на нем? Предполагая, что он работает под управлением *nix и у вас есть тихий момент для тестирования, вы можете использовать hdparm

$ hdpard -tT /dev/<device>

Если вы обнаружили высокую загрузку сети, я бы рекомендовал разместить GFS на вторичном и выделенном сетевом подключении.

В зависимости от того, как вы сделали raid(ed) на 12 дисках, вы можете иметь разную степень производительности, и это может быть вторым узким местом. Это также будет зависеть от того, используете ли вы аппаратный raid или программный raid.

Обильные объемы памяти, которые у вас есть на коробке, могут быть бесполезны, если запрашиваемые данные распределены по объему, превышающему общую память, что, похоже, и может быть. Кроме того, память может помочь только с чтениями, и то в основном, если многие чтения относятся к одному и тому же файлу (иначе он будет выброшен из кэша).

При запуске top / htop следите за iowait. Высокое значение здесь — отличный показатель того, что процессор просто вертит пальцами в ожидании чего-то (сети, диска и т. д.)

По моему мнению, NFS вряд ли является виновником. У нас достаточно большой опыт работы с NFS, и хотя его можно настроить/оптимизировать, онимеет тенденциюработать достаточно надежно.

Я бы склонился к тому, чтобы стабилизировать компонент GFS, а затем посмотреть, исчезнут ли проблемы с NFS.

Наконец, OCFS2 может быть вариантом для рассмотрения в качестве замены GFS. Пока я проводил некоторые исследования для распределенных файловых систем, я провел достаточно много исследований и не могу вспомнить причины, по которым я решил попробовать OCFS2, но я это сделал. Возможно, это было как-то связано с тем, что OCFS2 используется Oracle для своих бэкэндов баз данных, что подразумевает довольно высокие требования к стабильности.

Munin — ваш друг. Но гораздо важнее top / htop. vmstat также может дать вам некоторые ключевые цифры

$ vmstat 1

и вы будете каждую секунду получать обновленную информацию о том, на что именно тратит свое время система.

Удачи!

Answer

Я думаю, у вас две проблемы. Узкое место, вызывающее проблему в первую очередь, и, что более важно, плохая обработка сбоев GFS. GFS действительно должен замедлять передачу, пока она не заработает, но я не могу помочь с этим.

Вы говорите, что кластер обрабатывает ~200 ГБ новых файлов в NFS. Сколько данных считывается из кластера?

Я всегда нервничал бы, если бы имел одно сетевое соединение для фронтенда и бэкенда, поскольку это позволяет фронтенду «напрямую» сломать бэкенд (перегружая соединение данных).

Если вы установите iperf на каждом из ящиков, вы сможете протестировать доступную пропускную способность сети в любой заданной точке. Это может быть быстрым способом определения наличия узкого места в сети.

Насколько интенсивно используется сеть? Насколько быстры диски на сервере хранения и какую конфигурацию RAID вы используете? Какую пропускную способность вы получаете на нем? Предполагая, что он работает под управлением *nix и у вас есть тихий момент для тестирования, вы можете использовать hdparm

$ hdpard -tT /dev/<device>