
Я столкнулся с проблемой, когда slurmctld и slurmd не синхронизированы с точки зрения использования одного и того же файла slurm.conf, поэтому у нас есть это:
error: Node node1 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node2 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node3 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node4 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
Есть ли способ (кроме анализа ошибок журнала) сделать запрос к slurmctld/slurmdиндивидуальноо конфигурациях, на которых они работают, чтобы узнать, нужно ли перезапускать или перенастраивать какие-либо из них? Получения хеша должно быть достаточно, чтобы сравнить их друг с другом, я полагаю.
обновление: также было бы полезно знать время slurm.conf
прочтения файла.
решение1
Я бы предложил использоватьбез конфигурациив slurm conf. Вы все равно получите сообщения об ошибках в журналах slurm при запуске демонов, но их можно смело игнорировать. Все системы slurmd будут извлекать правильную конфигурацию из контроллера slurm.