hadoop read & write

2017. 3. 6. 20:58

1. HDFS Read Flow

2. HDFS Write Flow

3. 파일 구성

namespace image + edit log

4. fsck 수행

hdfs fsck / -files -blocks

5. distcp (parallel copy)

file1를 file2로 copy

hadoop distcp file1 file2

dir1를 dir2로 copy

hadoop distcp dir1 dir2

변경분만을 copy

hadoop distcp -update dir1 dir2

hdfs1에 내용을 hdfs2에 backup

hadoop distcp -update -delete -p hdfs://namenode1/foo hdfs://namenode2/foo

(-delete : 소스에 없는것은 타켓에서도 삭제, -p : 같은 퍼미션,size, replica)

2개가 다른 hdfs 버전일 경우 webhdfs 사용

hadoop distcp webhdfs://namenode1:50070/foo webhdfs://namenode2:50070/foo

checksum skip하고 데이터 copy (secure zone)

hadoop distcp -update -skipcrccheck /tmp/test1 /tmp/test2

hadoop compression and decompression (0)	2017.03.10
yarn 구조 (0)	2017.03.08
hadoop streaming (0)	2017.03.06
hadoop locality (0)	2017.03.06
hadoop distcp (0)	2017.03.02

세모데