
Estoy enfrentando un problema donde slurmctld y slurmd no están sincronizados en términos de usar el mismo archivo slurm.conf, por lo que tenemos esto:
error: Node node1 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node2 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node3 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node4 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
¿Hay alguna manera (además de analizar los errores de registro) de consultar slurmctld/slurmd?individualmentesobre las configuraciones en las que se están ejecutando para saber si alguna de ellas debe reiniciarse o reconfigurarse? Supongo que obtener un hash debería ser suficiente para compararlos entre sí.
actualización: también slurm.conf
sería útil saber la hora en que se leyó ese archivo.
Respuesta1
Yo sugeriría usarsin configuraciónen el barrio pobre conf. Aún recibirás los mensajes de error en los registros de slurm cuando se inicien los demonios, pero puedes ignorarlos con seguridad. Todos los sistemas slurmd extraerán la configuración adecuada del controlador slurmd.