NoSQL/Hadoop

hadoop locality

세모데 2017. 3. 6. 18:21

a : data-local

b : rack-local

c : off-rack




key 1개 일때 reduce 생성하여 결과 출력




key가 여러개일때 key별 reduce를 생성하여 결과 출력



* data shuffling 방지 하기 위해 fun 종류에 따라 combiner function을 사용

  => max는 각각 map에 대해 max를 구하면 되지만 mean의 경우에는 해당 key에 대한 평균값을

      사용해야 함으로 combiner function을 사용할수 없음




reduce job이 없을경우