
Estou enfrentando um problema em que slurmctld e slurmd não estão sincronizados em termos de uso do mesmo arquivo slurm.conf, então temos o seguinte:
error: Node node1 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node2 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node3 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node4 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
Existe uma maneira (além de analisar erros de log) de consultar slurmctld/slurmdindividualmentesobre as configurações em que estão executando para saber se alguma delas precisa ser reiniciada ou reconfigurada? Obter um hash deve ser suficiente para compará-los, eu presumo.
atualização: saber também a hora em que o slurm.conf
arquivo foi lido seria útil.
Responder1
Eu sugeriria usarsem configuraçãona confusão conf. Você ainda receberá mensagens de erro nos logs do slurm quando os daemons forem iniciados, mas elas podem ser ignoradas com segurança. Todos os sistemas slurmd extrairão a configuração adequada do controlador slurm.