Сбой Lustre: задержка в несколько минут

Сбой Lustre: задержка в несколько минут

Используя файловую систему HPC lustre, мы иногда сталкиваемся с глюками, когда даже простое открытие терминала и ввод "ls" может занять несколько минут, чтобы вернуться. То есть, любой процесс, который задействует файловую систему, имеет случайную огромную задержку (но, как правило, не производит фактических ошибок), а процессы, которые не задействуют файловую систему (например, перетаскивание окон в сеансе x-windows), остаются отзывчивыми.

Что может потенциально стать причиной периодической чрезмерной задержки в работе Lustre? (Будет ли это обязательно отказ оборудования, неправильная конфигурация, почти полная файловая система или просто неблагоприятный шаблон использования какой-то распределенной параллельной задачи в тот день?)

Связанный контент