
상황: 기존 Hadoop 클러스터에서 새 Hadoop 클러스터로 약 100TB를 이전해야 합니다. 두 클러스터는 각 클러스터의 네임노드에서 직접 1GbE 연결을 갖습니다. 데이터노드가 연결되지 않았습니다.
내가 시도한 것:
- Distcp: 이전 데이터 노드와 새 데이터 노드가 연결되어 있지 않기 때문에 작동하지 않습니다. 각 mapreduce 작업에서 연결 시간 초과가 보고됩니다.
- hdfs dfs -cp: 지금까지는 꽤 잘 작동하지만 속도가 느려지고 결국 몇 시간 후에 전송이 중지되는 경향이 있습니다. 또한 압축이나 우수한 재시작 가능성도 지원하지 않습니다.
내가 관심 있는 것:
- 클러스터 1과 클러스터 2 사이의 연결에 병목 현상이 발생하므로 클러스터 1의 데이터를 압축하여 매우 적은 오버헤드(netcat?)로 유선을 통해 전송하고 클러스터 2에서 압축을 풀 수 있는 도구를 찾는 데 관심이 있습니다. .Rsync는 완벽할 것이지만 두 Hadoop 클러스터 간에 이를 사용하는 방법을 잘 모르겠습니다.
- 내가 잘 모르는 다른 추천사항.
내 질문:
- 나열된 제한 사항을 고려하여 클러스터 1과 클러스터 2 간에 데이터를 효율적으로 전송하는 데 사용할 수 있는 도구 또는 스크립트는 무엇입니까?