[옛 글] [BigData] MapReduce

최초 작성일 : 2013/05/09 12:26

이제 마지막 여덟 번 째 섹션인 '결론'만 남았네요.

결론까지 다 번역하고 나면 드디어 기다리고 기다리는 실제 구축 연습니다.

빈약하지만 열심히 장비도 준비를 해놓았네요...^^;;;

오늘도 발번역 나갑니다.

=============================================================

Related Work 2

MapReduce 라이브러리의 일부인 정렬 장치는 *NOW-Sort 수행과 유사하다. 소스 머신들(map 작업자들)은

정렬을 위해 데이터를 분할하고 분할된 데이터를 R개의 reduce 작업자 중 하나에게 전달한다. 각각의 reduce

작업자들은 로컬상에서 그 데이터들을 정렬한다(가능하다면 메모리상에서 수행한다). 물론 NOW-Sort는

우리의 라이브러리에서는 광범위하게 적용 가능한 사용자 정의 Map, Reduce 함수는 가지고 있지 않다.

**River는 분산된 qeue들을 통해 데이터를 전송함으로써 프로세스들이 상호 통신하는 프로그래밍 모델을 제공한다.

River 시스템도 MapReduce처럼 이기종의 하드웨어로부터 생겨난 불균일성이나 시스템의 교란에도

훌륭한 평균 성능을 제공해준다. River는 균형잡힌 종료시간 유지를 위해 디스크와 네트워크 전송에 대한

주의 깊은 스케쥴링을 함으로써 이러한 성능을 이끌어내었다.

MapReduce는 다른 접근 방식을 취한다.

프로그래밍 모델을 제한함으로써 MapReduce 라이브러리는 문제들을 매끄럽게 수행되는 다수의 task들 사이에

분할해서 넣을 수 있다. 이러한 task들은 사용 가능한 작업자들 내에서 동적으로 스케쥴링 되고 따라서

빠른 작업자들은 더 많은 task들을 수행하게 된다.

또한 제한적인 프로그래밍 모델은 우리가 job 실행 종료 부근에서 발생하는 task들의 남아도는 실행을 스케쥴링

할 수 있도록 해줌으로써 불균일한 상황(작업자가 느려지거나 멈추는 것과 같이)이 발생하는 경우에도

훌륭하게 종료 시간을 단축시킬 수 있게 해준다.

***BAD-FS는 MapReduce와 매우 다른 프로그래밍 모델을 가지고 있다. 그리고 MapReduce와는 달리

광범위한 영역의 네트워크망 사이에서 job들을 실행시킬 목적으로 만들어졌다. 그러나 2가지 근본적인 유사성이 있다.

(1) 양 시스템은 고장으로 발생하는 데이터 손실을 복구하기 위해 남아도는 실행을 이용한다.

(2) 양 시스템은 혼잡한 네트워크간의 데이터 전송량을 줄이기 위해 지역 기반의 스케쥴링을 이용한다.

****TACC는 고가용성의 네트워크 서비스를 단순하게 구축하기 위해 고안되었다.

MapReduce처럼 내고장성을 구현하기 위해 재실행 매커니즘을 이용한다.

*NOW-Sort

Andrea C. Arpaci-Dusseau, Remzi H. Arpaci-Dusseau, David E. Culler, Joseph M.

Hellerstein, and David A. Pat- terson.

High-performance sorting on networks of work- stations.

In Proceedings of the 1997 ACM SIGMOD In- ternational Conference on Management of Data,

Tucson, Arizona, May 1997.

**River

Remzi H. Arpaci-Dusseau, Eric Anderson, Noah Treuhaft, David E. Culler, Joseph M.

Hellerstein, David Patterson, and Kathy Yelick.

Cluster I/O with River: Making the fast case common.

In Proceedings of the Sixth Workshop on Input/Output

in Parallel and Distributed Systems (IOPADS ’99), pages 10–22,

Atlanta, Georgia, May 1999.

***BAD-FS

John Bent, Douglas Thain, Andrea C.Arpaci-Dusseau, Remzi H.

Arpaci-Dusseau, and Miron Livny.

Explicit control in a batch-aware distributed file system.

In Pro- ceedings of the 1st USENIX Symposium on Networked Systems Design

and Implementation NSDI, March 2004.

****TACC

Armando Fox, Steven D. Gribble, Yatin Chawathe, Eric A. Brewer, and Paul Gauthier.

Cluster-based scal- able network services.

In Proceedings of the 16th ACM Symposium on Operating System Principles,

pages 78– 91, Saint-Malo, France, 1997.

저작자표시 (새창열림)

'Study > 빅데이터' 카테고리의 다른 글

[옛 글] [BigData] 실습 준비 (0)	2013.07.19
[옛 글] [BigData] 결론 (0)	2013.07.19
[옛 글] [BigData] MapReduce - 관련 작업 1 (0)	2013.07.19
[옛 글] [BigData] MapReduce - 대규모 indexing (0)	2013.07.19
[옛 글] [BigData] MapReduce - 경험 (0)	2013.07.19

꿈을 위한 단상

[옛 글] [BigData] MapReduce - 관련 작업 2

'Study > 빅데이터' 카테고리의 다른 글

티스토리툴바

[옛 글] [BigData] MapReduce - 관련 작업 2

'Study > 빅데이터' 카테고리의 다른 글

관련글

티스토리툴바