Si uso una configuración de un solo nodo Hadoop
donde solo tiene un disco, puedo usarlo fácilmente para jugar Hadoop
y esas cosas, pero ¿realmente habrá algún beneficio al usarlo Hadoop
en este caso sobre otro paradigma (procesar Python
sin usar mapreduce, etc.)? .)
Respuesta1
El poder de Hadoop proviene del hecho de que utiliza un sistema de archivos distribuido (HDFS) y un modelo de programación distribuido (MapReduce). El procesamiento no se puede paralelizar en un clúster de un solo nodo con un disco, por lo que, debido aGastos generales de Hadoop- Los paradigmas más simples probablemente serán más rápidos.
Incluso cuando utilice un clúster completo, no verá los beneficios de Hadoop si la fecha establecida es demasiado pequeña o el algoritmo no es adecuado para el procesamiento distribuido (por ejemplo, encontrar un valor medio).
Respuesta2
Hadoop está completamente basado en el sistema de archivos distribuido (HDFS), y el verdadero poder reside aquí.
Pero al mismo tiempo es importante aprender el marco y comprender sus componentes. Esa es la razón por la que Hadoop ofrece 3 modos de instalación.
Respondiendo a su pregunta exacta, un solo disco no se beneficia de la parte HDFS de hadoop. Pero nuevamente ayudará a comprender el componente MapReduce de Hadoop.
Si tiene un sistema de configuración incorrecto, le sugeriría que opte por la configuración de Pseudo Cluster, con dos máquinas virtuales interactuando entre sí.