Сбой сетевой файловой системы при высоких скоростях ввода-вывода

Question

Несколько предложений, вынесенных за эти годы.

Минимизируйте нагрузку на NFS-сервер:

установите параметры экспорта NFS:async,insecure,no_subtree_check

установить параметры монтирования NFSsoft,noatime,nodiratime,nolock,vers=3

также установите: noatime,nodiratimeна монтированиях data/tmp/scratch. Убедитесь, что шифрование NFS отключено, чтобы снизить нагрузку. Остановите процесс блокировки NFS.

Попробуйте включить JUMBO-фреймы для сети на всех хостах (если они поддерживаются сетевым оборудованием) — установите MTU на 9k или около того.
Убедитесь, что используется хранилище raid10 (избегайте raid5/6 ЛЮБОЙ ценой) для случайной записи ввода-вывода. Есть ли SSD?
Увеличьте количество открытых дескрипторов файловой системы (в некоторых системах по умолчанию 2 КБ), установите его равным 1 МБ или около того.
Есть ли возможность скопировать базу данных карт с входными данными в локальное хранилище на рабочем узле, а затем объединить/сортировать полученные файлы sam в качестве отдельного шага?
Увеличьте размер обрабатываемого куска (чтобы он обрабатывался не менее 30 минут или более).
Если возможноразделить работу на максимально возможном уровне(попробуйте картировать/сортировать 10 отдельных геномов/образцов на 10 различных узлах параллельно, вместо того чтобы пытаться картировать каждый геном последовательно, используя 10 хостов). Попробуйте создать контрольную точку после завершения всех процессов.
Измените исходный код программы так, чтобы она считывала данные большими порциями — например, 1 МБ вместо 4 Кб.
Помните о конкуренции между процессором и оперативной памятью (особенно в системах с сокетами AMD 4-8), иногда запуск 12-24 потоков на 48-ядерном компьютере намного быстрее, чем 48 потоков. Попробуйте разные уровни использования. Убедитесь, что NUMA включен и настроен для многопроцессорных систем. Повторно скомпилируйте с включенным NUMA.

PS: Управление эффективным кластером похоже на планирование/управление строительной площадкой с численностью рабочих более 1 тыс. человек...

Answer 1