Estou tentando encontrar uma ferramenta que me mostre uma visão geral do meu ecossistema Hadoop - estado, integridade, tarefas em execução, etc. Tentei pesquisar no Google, mas não encontrei nenhuma. Existe alguma ferramenta útil e interessante?
Responder1
Tarefas em execução, estado/integridade do nó mapeado:
http://example.com:50030/jobtracker.jsp
Integridade do HDFS e estado do nó:
http://example.com:50070/dfshealth.jsp
Substitua example.com pelo IP ou nome do host do seu rastreador de trabalho/nó de nome.
Se essas portas não estiverem corretas, verifique mapred-site.xml e hdfs-site.xml para obter a porta definida.
Responder2
Cloudera oferece uma ferramenta proprietária que faz o que você descreve e mais chamadaGerente Cloudera. Não é F/OSS, mas eles têm uma edição gratuita que permite executar em um número limitado de nós. Ele foi concebido como um produto de ciclo de vida completo, portanto pode ser um pouco exagerado para o que você precisa.
Divulgação completa: eu nunca usei isso sozinho. Consideramos isso na minha empresa, mas acabamos não usando.
Responder3
Outra alternativa é oAmbariprojeto. Atualmente está em status de incubação no Apache, mas acreditoHortonworksé um dos principais impulsionadores disso. É principalmente uma estrutura de provisionamento e monitoramento. Você pode verexemplosno site da Hortonworks. Eles fizeram uma postagem no blog descrevendocomo configurá-lo.
Se você está procurando uma interface "mais bonita" para o jobtracker ou namenode,Clouderatem oAmbiente de usuário Hadoop (HUE), que fornece algumas das funcionalidades que você procura. No entanto, é voltado principalmente para não administradores.