Если я использую настройку с одним узлом, Hadoop
где есть только один диск, я могу легко использовать его для экспериментов Hadoop
и прочего, но будет ли на самом деле какое-либо преимущество использования Hadoop
в этом случае по сравнению с другой парадигмой (обработка Python
без использования mapreduce и т. д.)
решение1
Сила Hadoop заключается в том, что он использует распределенную файловую систему (HDFS) и распределенную модель программирования (MapReduce). Обработка не может быть распараллелена в кластере с одним узлом и одним диском, поэтому - из-заНакладные расходы Hadoop- более простые парадигмы, вероятно, будут быстрее.
Даже при использовании полноценного кластера вы не увидите преимуществ Hadoop, если набор дат слишком мал или алгоритм не подходит для распределенной обработки (например, поиска медианного значения).
решение2
Hadoop полностью основан на распределенной файловой системе (HDFS), и именно в ней заключается его настоящая мощь.
Но в то же время важно изучить фреймворк и понять его компоненты. Вот почему Hadoop предоставляет 3 режима установки.
Отвечая на ваш точный вопрос, один диск не выигрывает от HDFS части hadoop. Но опять же это поможет в понимании MapReduce компонента Hadoop.
Если у вас некачественная система конфигурации, я бы посоветовал использовать настройку псевдокластера, в которой две виртуальные машины взаимодействуют друг с другом.