하둡 클러스터간에 데이터를 전송하기위한 모범 사례


1

상황 : 기존 Hadoop 클러스터에서 새로운 Hadoop 클러스터로 약 100TB를 전송해야합니다. 두 클러스터는 각 클러스터의 이름 노드에서 직접 1GbE 연결을 갖습니다. 데이터 노드가 연결되어 있지 않습니다.

내가 시도한 것 :

  • Distcp : 이전 데이터 노드와 새 데이터 노드가 연결되어 있지 않아 작동하지 않습니다. 각 mapreduce 작업에서 연결 시간이 초과되었다고보고합니다.
  • hdfs dfs -cp : 이것은 지금까지는 잘 작동하지만 속도가 느려지고 결국 몇 시간 후에 전송이 중지되는 경향이 있습니다. 또한 압축 또는 우수한 재시작 기능을 지원하지 않습니다.

내가 관심있는 것 :

  • 클러스터 1과 클러스터 2 사이의 연결이 병목 현상이므로 클러스터 1의 데이터를 압축하여 오버 헤드가 거의없는 유선으로 전송할 수있는 도구 (넷캣일까요?)를 클러스터 2에서 압축 해제 할 수있는 도구를 찾고 싶습니다. Rsync는 완벽하지만 두 Hadoop 클러스터간에이를 사용하는 방법을 잘 모르겠습니다.
  • 내가 잘 모르는 다른 권장 사항.

내 질문:

  • 나열된 제한 사항을 감안할 때 클러스터 1과 클러스터 2간에 데이터를 효율적으로 전송하는 데 사용할 수있는 도구 또는 스크립트는 무엇입니까?
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.