Study/빅데이터47 [옛 글] [BigData] MapReduce - 성능 2 최초 작성일 : 2013/04/11 12:22 Sort sort 프로그램은 10의 10승개의 100바이트 크기 레코드들을 정렬한다.(약 1테라바이트의 데이터이다.)이 프로그램은 *TeraSort benchmark 이후에 모델링 되었다. 소팅 프로그램은 50 줄도 안되는 사용자 코드로 구성되어있다.3줄의 Map 함수는 text문서의 라인으로부터 10바이트의 정렬 키를 추출하고이 키와 원래 문서의 라인을 key/value 쌍으로 뽑아낸다. 우리는 라이브러리에 내장되어있는 Identity(항등)함수를 Reduce 연산자로 사용할 것이다.이 함수는 중간형태의 key/value 쌍을 아무 변화 없이 출력 key/value 쌍으로 보낸다.정렬된 최종 출력은 2방향으로 복제된 GFS 파일로 저장된다.(프로그램의 출력.. 2013. 7. 19. [옛 글] [BigData] MapReduce - 성능 1 최초 작성일 : 2013/03/26 12:54 2013. 7. 19. [옛 글] [BigData] MapReduce - 상세 기능 3 최초 작성일 : 2013/03/20 12:16 Status Information master는 내부에 HTTP 서버를 실행시켜 사용자가 볼 수 있도록 일련의 상태 정보 페이지를출력한다. 이 상태 페이지는 얼마나 많은 task가 완료 되었는지, 얼마나 많은 task가 수행 중인지,입력 바이트 수, 중간 데이터의 바이트 수, 출력 바이트 수, 처리율 등의 연산 수행에 대한진행 상태를 보여준다. 또한 이 페이지에는 표준 에러나 각각의 task에서 생성한 표준 출력 파일에 대한 링크도 제공한다. 사용자들은 이러한 데이터통해 연산이 얼마나 걸릴 지, 연산에 추가 리소스가 필요한지 예측할 수 있다.이 페이지들은 또한 예상했던 것 보다 더 느려지는 지점을 밝혀내는 데도 사용할 수 있다. 추가적으로 상위의 상태 페이지.. 2013. 7. 19. [옛 글] [BigData] MapReduce - 상세 기능 2 최초 작성일 : 2013/03/07 13:07 Input and Output type MapReduce 라이브러리는 몇가지 서로 다른 형식의 입력 파일을 읽을 수 있다.예를들면 "text"모드의 입력은 각각의 행이 key/value 쌍으로 취급된다. key는 파일상의위치(행)가 되고 value는 그 행의 내용이 되는 것이다.일반적으로 지원하는 또다른 형식은 일련의 key/value 쌍을 key로 정렬하여 저장한다. 각각의 입력 형식의 구현은 분산된 map task에서의 처리를 위해 어떤식으로 의미있는단위로 분할해야 하는가를 알고있다 (예를들면 text 모드에서는 행 단위로 영역이 구분되므로행 단위로 분할을 하게 되는 것이다). 대부분의 사용자들은 이미 정의된 소수의 입력 형식을 사용하겠지만 사용자들은 간.. 2013. 7. 19. [옛 글] [BigData] MapReduce - 상세 기능 1 최초 작성일 : 2013/02/26 12:58 Map과 Reduce 함수를 작성하는 기본 기능이 대부분의 필요를 충족시켜주기는 하지만 여기서 보다 확장된 유용한 기능들을 설명하고자 한다. Partitioning Function MapReduce의 사용자는 그들이 원하는 reduce task들과 출력 파일의 수를 ( R )과 같이 명시한다.Data들은 중간 key를 이용하는 partitioning 함수에 의해 이 task들 상호간에 분할된다. 기본적인 분할 함수는 해싱을 이용해 제공된다.(예를들면 "hash(key) mod R" 과 같은 형태다)이러한 분할 함수는 꽤 균형이 잘 잡힌 분할을 만들어낸다. 그러나 몇몇 경우에는 다른 함수들이 데이터를분할하는데 더 유용하다. 예를들면 때때로 출력된 key들은 U.. 2013. 7. 19. [옛 글] [BigData] MapReduce - Locality 등... 최초 작성일 : 2013/02/25 12:56 ================================================================== 내용이 어려워짐에 따라 번역은 점점 발번역으로 치닫고 있습니다...ㅠ.ㅠ첫 글에 링크해드린 원문 문서를 참조해서 보세요...================================================================== Locality(지역성) 네트워크 대역폭은 우리의 컴퓨팅 환경에서 비교적 부족한 자원이다.우리는 클러스터를 구성하고 있는 머신들의 로컬 디스크에 GFS(Google File System)에 의해관리되는 입력 데이터를 저장함으로써 네트워크 대역폭을 절약할 수있다. GFS는 각각의 파일을 64Mb의 블럭으.. 2013. 7. 19. [옛 글] [BigData] MapReduce - master data structure와 고장 허용 범위 최초 작성일 : 2013/02/14 14:49 ================================================================== 내용이 어려워짐에 따라 번역은 점점 발번역으로 치닫고 있습니다...ㅠ.ㅠ첫 글에 링크해드린 원문 문서를 참조해서 보세요...================================================================== Master Data Structure master 프로그램은 몇가지 데이터 구조를 유지한다. 각각의 map task와 reduce task에 대해master는 그 상태(비가동, 프로세스 진행 중 또는 완료)와 그 작업자 머신의 식별자를 저장한다.(유휴 작업이 없도록 하기 위해) master는 map .. 2013. 7. 19. [옛 글] [BigData] MapReduce의 구현 최초 작성일 : 2013/02/05 15:23 ==============================================오늘은 MapReduce라이브러리와 이 라이브러리를 사용하는, 개발자가 작성한Map / Reduce 함수의 전체적인 프로세스를 설명하는 부분이며 삽입된 그림을기반으로 일련의 작업 순서를 설명하고 있습니다. 입력 데이터 사용자 프로그램 - master - map worker - reduce worker - 중간데이터 출력데이터 요러한 요소들의 관계를 집어가면서 보시면 될겁니다. 글이 긴 만큼 번역이 개판인데...그냥 그림 참조하셔서 보세요...^^;;;============================================== MapReduce 인터페이스는 다양한 형태로 .. 2013. 7. 19. [옛 글] [BigData] MapReduce - 조금 더 상세하게. 최초 작성일 : 2013/02/04 13:16 =======================================================나름 영문 문서를 해설 식으로 적어보고자 했으나...가면 갈수록 그냥 문서의 직역이 되고 있네요...ㅠ.ㅠ양해부탁드립니다.======================================================= 지난 시간에 살펴본 바와 같이 간단하게 말하면 Map은 논리적 레코드를 key-value형태의 중간 데이터로 만드는 작업을 수행하고reduce는 key-value를 가공하여 공통된 key를 가진 value들의 집합을 출력하는 작업을 수행한다. 요기에 대해 조금만(많이 하면 골치아픕니다…) 깊게 들어가보도록 하자. 아래와 같은 간단한 샘플코드가 .. 2013. 7. 19. 이전 1 2 3 4 5 6 다음 반응형