¿Implicaciones de múltiples nodos JobTracker en un clúster de Hadoop?

¿Implicaciones de múltiples nodos JobTracker en un clúster de Hadoop?

Tengo la impresión de que, potencialmente, se pueden tener varios nodos JobTracker configurados para compartir el mismo conjunto de nodos MR (TaskTracker). Sé que, convencionalmente, todos los nodos en un clúster de Hadoop deberían tener el mismo conjunto de archivos de configuración (convencionalmente en /etc/hadoop/conf/--- al menos para Cloudera Distribution of Hadoop (CDH). ¿Podemos definir múltiples Job Trackers en mapred-site.xml? Algo como:

<configuration>
   <property>
     <name>mapred.job.tracker</name>
     <value>jt01.mydomain.not:8021</value>
   </property>
   <property>
     <name>mapred.job.tracker</name>
     <value>jt02.mydomain.not:8021</value>
   </property>
...
</configuration>

¿O hay alguna otra sintaxis permitida para esto?

¿Cuáles son las implicaciones de hacer esto? ¿Cada JobTracker obtiene información sobre la carga en cada nodo de TaskTracker? En otras palabras, ¿pueden los dos JobTracker coordinar su programación a través de los nodos TT basándose únicamente en la información de chismes de los TT o necesitarían hablar entre ellos?

¿Está esto documentado en alguna parte?

Respuesta1

Múltiples JobTracker pueden resultar útiles en una arquitectura de múltiples clústeres. Por lo tanto, la carga a nivel de clúster se puede distribuir entre JobTrackers.

En un solo grupo, el seguimiento podría convertirse en un problema.

(a) Si varios servidores JobTracker comparten un clúster HDFS, cada uno debe tener un mapred.system.dir diferente, o los JobTrackers eliminarán los archivos de trabajo de cada uno.

(b) El script de administración "Iniciar todo o detener todo" se convertirá en un problema, a menos que cada uno obtenga un puerto diferente.

información relacionada