[옛 글] [BigData] MapReduce

최초 작성일 : 2013/04/19 12:57

Experience

MapReduce 라이브러리의 최초 버전은 2003년 2웖에 만들어졌다.

그리고 locality 최적화, 작업자 머신들 간에 task 수행에 있어서의 동적인 로드 밸런싱 등

괄목할만한 개선이 2003년 8월에 이루어졌다.

그 때부터 우리는 우리가 작업하는 곳에서 발생하는 다양한 문제점을 해결하는데 MapReduce 라이브러리가

얼마나 광범위하게 적용 가능한지를 알고 환호했다.

MapReduce는 Google 내의 광범위한 도메인에 사용되어 다음과 같은 역할을 하였다.

* 대규모 머신에서 배우는 문제들

* 구글 뉴스와 Froogle의 생산물에 대한 클러스링 문제들

* 인기있는 쿼리들(Google Zeitgeist같은)의 보고서에서 만들어지는 데이터의 추출

* 새로운 실험을 위한 웹페이지나 생산물들의 속성 추출 (예를들어 지역화된 검색을 위한 대규모

실험용 웹페이지로부터 지리적인 위치를 추출하는 것).

* 대규모 그래프 연산

Figure 4는 우리의 주요한 소스 코드 관리 시스템에 2003년 초 0개로부터 2004년 9월 말의

900개의 분산된 인스턴스에 이르기까지 등록된 분산 MapReduce 프로그램이 등록된 수의 주목할만한

성장을 보여준다.

MapReduce는 간단한 프로그램을 짜고 그 것을 수천대의 머신들에서 효과적으로 실행시키는데

30분 정도의 시간이면 가능하도록 하여 개발과 프로토타이핑의 속도를 매우 높였다는데 있어

꽤 성공적이다.

더 나아가서 분산이나 병렬처리 시스템경험이 없는 개발자들로 하여금 많은 양의 리소스를 쉽게

이용 가능하게 해준다.

MapReduce 라이브러리는 각각의 job 끝에 job이 연산에 사용한 자원들에 대한 통계를 로그로 남긴다.

Table 1은 2004년 8월 Google에서 실행된 MapReduce job들의 서브셋에 대한 통계를 보여준다.

[옛 글] [BigData] MapReduce - 관련 작업 1 (0)	2013.07.19
[옛 글] [BigData] MapReduce - 대규모 indexing (0)	2013.07.19
[옛 글] [BigData] MapReduce - 성능 3 (0)	2013.07.19
[옛 글] [BigData] MapReduce - 성능 2 (0)	2013.07.19
[옛 글] [BigData] MapReduce - 성능 1 (0)	2013.07.19

꿈을 위한 단상