[옛 글] [BigData] MapReduce

최초 작성일 : 2013/05/03 13:04

=============================================

문서의 막바지에 다다르니 전문 용어 및 원서와 논문들의 인용구가 많아

독해에 어려움이 많네요...ㅠ.ㅠ

이미 앞서 올린 글을 통해 발번역인 거 다 아셨으니 그냥 그러려니 하고 보세요...ㅠ.ㅠ

=============================================

Related Work

많은 시스템들이 제한된 프로그래밍 모델들을 제공하고 자동으로 연산의 병렬화를 하는데 그 제약을 사용한다.

예를 들면 associative 함수는 parallel prefix computations[6, 9, 13]을 이용하여 N개의 프로세서 상에서

log N의 시간 동안 N개의 요소를 가진 배열의 모든 접두어에 대해 연산이 수행된다.

MapReduce는 거대한 실세계에서의 연산에 대한 우리들의 경험을 기반으로 이러한 프로그래밍 모델들의 일부에 대한

간소화와 정제가 고려되어있다.

보다 주목할 만한 것은 우리는 수천개의 프로세서에 대한 고장 방지 구현을 제공한다는 것이다.

반면에 대부분의 병렬 프로세싱 시스템들은 단지 작은 규모의 구현만을 제공하거나 머신의 고장에 대한 관리를

프로그래머에게 맡기고 있다.

*Bulk Synchronous Programming과 일부 **MPI primitives는 높은 수준의 추상화를 제공하고

이를 통해 개발자들이 병렬 프로그램을 작성하기 쉽도록 해준다. 이러한 시스템들과 MapReduce 간의 명확한 차이는

MapReduce가 사용자의 프로그램을 자동으로 병렬화 할 수 있는 제한적 프로그래밍 모델을 활용하고 있다는 점과

고장 방지 기능의 투명성을 제공하고 있다는 점이다.

우리의 지역 최적화는 ***active disks와 같은 기술로부터 영감을 얻어 구현하고 있다.

active disk에서는 I/O 서브시스템들간에 데이터를 주고 받는 전송량이나 네트워크 전송량을 줄이기 위해

연산 수행에 필요한 요소들이 있는 로컬 디스크에서 연산이 수행되도록 한다.

우리는 디스크 관리 프로세서상에서 직접 수행하는 대신 소수의 디스크가 직접 연결된 일반적인 상용 프로세서상에서

프로세스를 수행하며 그밖의 일반적인 접근은 active disk와 유사하다.

우리의 백업 task 매커니즘은 ****Charlotte System에 채택되어있는 eager scheduling과 유사하다.

간단한 eager scheduling의 단점 중 하나는 주어진 task가 반복적인 오류를 발생시킬 경우 전체 연산의

완료가 실패한다는 것이다. 우리는 잘못된 레코드를 무시하고 넘어가는 우리의 매커니즘을 통해 이러한 문제를 가진

몇몇 인스턴스를 수정하였다.

MapReduce의 구현은 내부 클러스터 관리 시스템에 의존한다.

내부 클러스터 관리 시스템은 대규모 공유 머신들의 집합체 상에서 분산과 사용자 task 수행을

책임지고 있다. 이 문서의 논점에서 벗어나지만 클러스터 관리 시스템은 *****Condor와 같은 다른 시스템들과

그 기본 사상이 유사하다.

-> 아래 내용은 원문에 등록된 참고 문헌들입니다.

*Bulk Synchronous Programming

L.G.Valiant.Abridgingmodelforparallelcomputation.

Communications of the ACM, 33(8):103–111, 1997.

**MPI primitives

William Gropp, Ewing Lusk, and Anthony Skjellum.

Using MPI: Portable Parallel Programming with the Message-Passing Interface.

MIT Press, Cambridge, MA, 1999.

***techniques such as active disks

L. Huston, R. Sukthankar, R. Wickremesinghe, M. Satya- narayanan, G. R. Ganger,

E. Riedel, and A. Ailamaki.

Di- amond: A storage architecture for early discard in inter- active search.

In Proceedings of the 2004 USENIX File and Storage Technologies FAST Conference,

April 2004.

Erik Riedel, Christos Faloutsos, Garth A. Gibson, and David Nagle.

Active disks for large-scale data process- ing.

IEEE Computer, pages 68–74, June 2001.

****Charlotte System

Arash Baratloo, Mehmet Karaul, Zvi Kedem, and Peter Wyckoff.

Charlotte: Metacomputing on the web.

In Pro- ceedings of the 9th International Conference on Parallel and

Distributed Computing Systems, 1996.

*****Condor

Douglas Thain, Todd Tannenbaum, and Miron Livny.

Distributed computing in practice: The Condor experi- ence.

Concurrency and Computation: Practice and Ex- perience, 2004.

저작자표시 (새창열림)

'Study > 빅데이터' 카테고리의 다른 글

[옛 글] [BigData] 결론 (0)	2013.07.19
[옛 글] [BigData] MapReduce - 관련 작업 2 (0)	2013.07.19
[옛 글] [BigData] MapReduce - 대규모 indexing (0)	2013.07.19
[옛 글] [BigData] MapReduce - 경험 (0)	2013.07.19
[옛 글] [BigData] MapReduce - 성능 3 (0)	2013.07.19

꿈을 위한 단상

[옛 글] [BigData] MapReduce - 관련 작업 1

'Study > 빅데이터' 카테고리의 다른 글

티스토리툴바

[옛 글] [BigData] MapReduce - 관련 작업 1

'Study > 빅데이터' 카테고리의 다른 글

관련글

티스토리툴바