1. HDFS Read Flow




2. HDFS  Write Flow





3. 파일 구성

namespace image + edit log


4. fsck 수행

hdfs fsck / -files -blocks


5. distcp (parallel copy)


file1를 file2로 copy

hadoop distcp file1 file2  


dir1를 dir2로 copy

hadoop distcp dir1 dir2


변경분만을 copy

hadoop distcp -update dir1 dir2


hdfs1에 내용을 hdfs2에 backup

hadoop distcp -update -delete -p hdfs://namenode1/foo hdfs://namenode2/foo    

(-delete : 소스에 없는것은 타켓에서도 삭제, -p : 같은 퍼미션,size, replica)


2개가 다른 hdfs 버전일 경우 webhdfs 사용

hadoop distcp webhdfs://namenode1:50070/foo webhdfs://namenode2:50070/foo


checksum skip하고 데이터 copy  (secure zone)

hadoop distcp -update -skipcrccheck  /tmp/test1   /tmp/test2

'NoSQL > Hadoop' 카테고리의 다른 글

hadoop compression and decompression  (0) 2017.03.10
yarn 구조  (0) 2017.03.08
hadoop streaming  (0) 2017.03.06
hadoop locality  (0) 2017.03.06
hadoop distcp  (0) 2017.03.02

+ Recent posts