HPC / EC2 — оптимизация NFS для надежности

HPC / EC2 — оптимизация NFS для надежности

В AWS-EC2 я настроил кластер виртуальных машин Linux, состоящий из файлового сервера NFS и множества клиентов. Если количество клиентов превышает ~20, при интенсивном вводе-выводе я сталкиваюсь с потерей целостности файлов: например, сжатые gzip-файлы, записанные клиентом на сервер, повреждаются.

Мне интересно, какой набор параметров NFS лучше всего увеличить?надежностьпередачи данных в этой среде.

На данный момент флаги монтирования следующие:

Flags:  rw,vers=3,rsize=262144,wsize=262144,hard,proto=tcp,timeo=600,retrans=2

Размер MTU — 1500, количество демонов NFS — 8.

Стоит ли уменьшить rsize и wsize ниже MTU и увеличить количество демонов NFS?

Есть ли что-то еще, что можно улучшить?

Большое спасибо.

решение1

Учитывая размер используемого кластера, может быть хорошей идеей рассмотреть возможность перехода на параллельную файловую систему, напримерглянец. С другой стороны, если кластер настроен правильно, каждый узел должен знать о каждом другом узле либо через DNS, либо путем поиска, /etc/hostsи должен иметь соответствующие ключи SSH для доступа к ним без пароля.

Если это так, каждый узел может просто копировать файлы по завершении вычислений/сжатия, что сведет на нет необходимость в NFS. Хотя это решение, вероятно, не даст оптимальной производительности, в зависимости от характера виртуализации вычислительных узлов, сети и хранилища это может быть хорошим вариантом.

Какую систему управления/обеспечения кластера вы используете? Обычно во время настройки головного узла также настраивается соответствующее общее хранилище для вычислительных узлов. Использование инструмента, напримерВаревульфилиГОРНЫЕ ПОРОДЫможет помочь обеспечить правильное предоставление вычислительных узлов, и существует множество руководств и справочных проектов по настройке кластеров с помощью этих инструментов, доступных в Интернете.

Связанный контент