1. HDFS Read Flow
2. HDFS Write Flow
3. 파일 구성
namespace image + edit log
4. fsck 수행
hdfs fsck / -files -blocks
5. distcp (parallel copy)
file1를 file2로 copy
hadoop distcp file1 file2
dir1를 dir2로 copy
hadoop distcp dir1 dir2
변경분만을 copy
hadoop distcp -update dir1 dir2
hdfs1에 내용을 hdfs2에 backup
hadoop distcp -update -delete -p hdfs://namenode1/foo hdfs://namenode2/foo
(-delete : 소스에 없는것은 타켓에서도 삭제, -p : 같은 퍼미션,size, replica)
2개가 다른 hdfs 버전일 경우 webhdfs 사용
hadoop distcp webhdfs://namenode1:50070/foo webhdfs://namenode2:50070/foo
checksum skip하고 데이터 copy (secure zone)
hadoop distcp -update -skipcrccheck /tmp/test1 /tmp/test2
'NoSQL > Hadoop' 카테고리의 다른 글
hadoop compression and decompression (0) | 2017.03.10 |
---|---|
yarn 구조 (0) | 2017.03.08 |
hadoop streaming (0) | 2017.03.06 |
hadoop locality (0) | 2017.03.06 |
hadoop distcp (0) | 2017.03.02 |