Study159 [옛 글] [BigData] MapReduce 개요 최초 작성일 : 2013/05/30 15:24 맵 리듀스 개요 맵 : - 원시 데이터를 key-value 쌍의 중간 파일로 만든다.- 입력데이터가 있는 노드에서 맵 함수가 수행되는 것이 가장 좋다 (지역성 최적화)- 맵 함수에 전달되는 입력 데이터는 라인 offset을 키로, 해당 라인 내용을 value로 하는 형태로 구성된다.- 맵 함수는 이 입력값들로부터 필요로 하는 key와 value를 추출한다.- 이 과정에서 잘못된 레코드를 제거하는 기능도 수행한다.- 맵 task의 실행 결과는 HDFS가 아닌 로컬 디스크에 저장된다. (HDFS와 로컬 디스크의 개념을 명확히 구분하자) 이유는 맵의 결과물은 단지 리듀스 함수로 전달하기 위한 중간 결과물일 뿐이며 모든 잡이 완료되면 버려도 되는 데이터이기 때문이다.. 2013. 7. 19. [옛 글] 나는 왜 하둡을 공부하려 하는가? 최초 작성일 : 2013/05/30 09:41 이 글은 네이버 맥부기 카페에 적은 글을 옮겨온 것입니다.지극히 개인적인 이야기니까 참고하세요...^^;;; =================================================================================== 어느덧 IT밥 먹은지도 11년차에 이르고있네요.그래봐야 절반가량을 SM으로 있다보니 사실 제 경력에 갖춰야 할 많은 것들이아직 모자랍니다. 각설하고! 11년 일을 해오는 동안 느낀 것이 있다면다른 분야도 다르지 않겠지만 특히 이 IT 분야는 상당히 폭넓은 지식을 가지고 있어야 한다는 것이매우 중요하게 느껴졌습니다. 이 것은 IT기술을 이해하는 '깊이'와 '폭'의 문제가 아닙니다.'한 우물을 파라'든가 '.. 2013. 7. 19. [옛 글] [BigData] 몇가지 잡설들... 최초 작성일 : 2013/05/28 12:56 일단 현재 개발 중인 아이폰 앱 완성을 눈앞에 두고 앱 개발에 치중을 하고 있고,또 몇몇 사정으로 한 동안 공부다운 공부를 못해 오늘은 잡설로 때운다...ㅠ.ㅠ 잡설 1 : 교재 선택의 실수... 원래는 지금 잡설을 쓰고 있을 시점이 아니지만 예기치 않은 문제가 발생을 하여어쩔 수없이 이런 심심풀이 뻘글을 쓰고 있다. 네이버 북스에서 '대용량 데이터 분석 및 처리를 위한 Hadoop NoSQL'이라는 책을e-Book으로 구매를 하였다. 얼마간 잘 읽었는데 갑자기 글자가 겹치거나 빈 페이지가삽입되어있는 증상이 나타났다. 결국 야심차게(?) 지른 e-Book을 통한 학습이중단되고 네이버 고객 센터에 문의를 하였더니 자기들도 알고 있었던 문제라 한다.원하시면 환불.. 2013. 7. 19. [옛 글] [BigData] 하둡 - 소소한 정보들 1 최초 작성일 : 2013/05/21 13:01 이 글에 적는 내용은 2013년 1월 3일 길벗사에서 간행한'대용량 데이터 분석 및 처리를 위한 hadoop nosql' (서상원, 김재홍, 박윤성, 이준섭, 명재석 저)의전자책 버전에서 발췌한 내용입니다.중요한 내용이 있을 때마다 이러한 정보들을 정리해 올리도록 하겠습니다. ========================================================== 1. 하둡은 크게 HDFS와 MapReduce의 두 부분으로 구성되어있으며 HDFS는 네임노드, 세컨더리 네임노드, 데이터노드를 동작시키고 MapReduce는 잡 트래커와 태스크 트래커를 동작시킨다. 네임노드와 잡 트래커는 마스터 노드(네임노드)에서, 데이터노드와 태스크 트래커는 슬.. 2013. 7. 19. [옛 글] [BigData] 하둡 - wordcount 예제 실행 최초 작성일 : 2013/05/20 13:15 일단 설치와 설정을 끝마쳤다고 생각하고 샘플 job을 수행해보기로 했다.하지만 아래의 명령을 실행시켜도 map:0% reduce:0%에서 더이상 진행이 없었다. 예제 실행 코드 ./hadoop jar ../hadoop-examples-1.0.4.jar wordcount input output input : 원본 문서가 있는 곳output : 결과 문서가 저장될 곳 아직도 분산이라는 환경에 익숙하지 않은 탓에 계속 네임노드쪽 로그만 뒤적거리면서 원인을 찾으려고 했다.하지만 네임노드쪽 로그에는 딱히 이렇다할 에러도 기록된 것이 없어 원인을 찾은데 시간만 잡아먹고 있었다. 그러다가 데이터노드 쪽으로 관심을 돌려 데이터노드의 로그를 살피기 시작했고 여기서 문제의 실.. 2013. 7. 19. [옛 글] [BigData] 하둡 설치 - 놓치는 것들에 대해 최초 작성일 : 2013/05/16 13:37 미리 말씀드리지만 이 글은 설치 안내가 아니라 설치 중에 실수할 수 있을만한 부분에 대해적은 글입니다. 설치 전반에 대해 참고한 글은 본문 중에 링크를 하였으니 참고하세요...^^ ========================================================= 원래는 교재와 함께 천천히 실습을 진행할 계획이었는데…지난 한 달 간 되지도 않는 영어실력으로 문서 번역한다고 삽질을 해놨더니 조급증이 생겨서우선 하둡부터 설치를 하고 봤다. 애초 예정대로 대상 머신들은 모두 애플의 맥 기종으로 맥북 프로1대 맥미니 서버 1대 맥미니 1대이며이 중 맥북프로와 맥미니 서버는 같은 네트워크 대역에 있으나 맥미니 1대는 다른 네트워크 대역에 있다.다음.. 2013. 7. 19. [옛 글] [BigData] 실습 준비 최초 작성일 : 2013/05/15 13:28 앞서 용어 정리도 해보았고또 없는 실력에 구글의 MapReduce에 대한 논문도 한 편 번역을 해 보았다.이제 실습을 진행할 단계인데...여전히 지식은 부족하다.해서 교재가 한 권 필요한데...우선 현재 보유하고 있는 Hadoop 관련 서적이 한 권있어서 이 책을 기반으로 실습을 진행하려고 한다. 교재 제목 : Hadoop 완벽 가이드저자 : 톰 화이트역자 : 심탁길, 김우현출판사:O'REILLY, YAHOO RESS, 한빛미디어초판 발행일 : 2010년 5월 30일 일단 발행일이 2010년이라 좀 오래된 감은 있지만 기본 적인 내용에 대한 변화는없으리라 믿고 일단 진행한다. 우선 이 책을 진행 하다가 현재의 버전과 차이가많이 난다면 그 때 새 교재를 고려해.. 2013. 7. 19. [옛 글] [BigData] 결론 최초 작성일 : 2013/05/15 13:05 드디어 마지막 결론입니다~~~! 그동안 발번역을 열심히 보아주신(분이 계시다면) 경의를 표합니다...^^;;;이제 다음 주부터는 실무 연습으로 들어가야겠네요.자세한 계획은 다음 글에...^^;;; 감사합니다.============================================= 결론 MapReduce 프로그래밍 모델은 구글에서 여러가지 서로 다른 목적을 위해 성공적으로 사용되고 있다.우리는 몇가지 이유로부터 이러한 성공의 결과를 찾고 있다. 첫 번째로 MapReduce의 프로그래밍 모델은 병렬화, 고장 방지, 지역 최적화, 로드 밸런싱 등의 세부적인부분을 모두 라이브러리 내부에 감추고 있기 때문에 사용하기 쉽고 심지어 병렬이나 분산 시스템에 대한 .. 2013. 7. 19. [옛 글] [BigData] MapReduce - 관련 작업 2 최초 작성일 : 2013/05/09 12:26 이제 마지막 여덟 번 째 섹션인 '결론'만 남았네요.결론까지 다 번역하고 나면 드디어 기다리고 기다리는 실제 구축 연습니다.빈약하지만 열심히 장비도 준비를 해놓았네요...^^;;; 오늘도 발번역 나갑니다. ============================================================= Related Work 2 MapReduce 라이브러리의 일부인 정렬 장치는 *NOW-Sort 수행과 유사하다. 소스 머신들(map 작업자들)은정렬을 위해 데이터를 분할하고 분할된 데이터를 R개의 reduce 작업자 중 하나에게 전달한다. 각각의 reduce작업자들은 로컬상에서 그 데이터들을 정렬한다(가능하다면 메모리상에서 수행한다). 물론 NOW.. 2013. 7. 19. 이전 1 ··· 13 14 15 16 17 18 다음 반응형