최초 작성일 : 2013/05/15 13:28 


앞서 용어 정리도 해보았고

또 없는 실력에 구글의 MapReduce에 대한 논문도 한 편 번역을 해 보았다.
이제 실습을 진행할 단계인데...여전히 지식은 부족하다.
해서 교재가 한 권 필요한데...우선 현재 보유하고 있는 Hadoop 관련 서적이 한 권
있어서 이 책을 기반으로 실습을 진행하려고 한다.

교재

제목 : Hadoop 완벽 가이드
저자 : 톰 화이트
역자 : 심탁길, 김우현
출판사:O'REILLY, YAHOO RESS, 한빛미디어
초판 발행일 : 2010년 5월 30일

일단 발행일이 2010년이라 좀 오래된 감은 있지만 기본 적인 내용에 대한 변화는
없으리라 믿고 일단 진행한다. 우선 이 책을 진행 하다가 현재의 버전과 차이가
많이 난다면 그 때 새 교재를 고려해 볼 것이다.

하드웨어

다음은 하드웨어적인 준비인데 현재 내가 개인적으로 전용할 수 있는 시스템은
애플의 MAC 3대이다. 맥북프로 1대 맥미니 서버 1대 맥미니 1대
MAC으로 시스템을 구성한 이유는 일단 현재는 내가 아이폰 개발을 주력으로
하고 있기 때문이다...^^;;; 또 한편으로는 MAC OS가 윈도우즈 시스템보다는
유닉스 계열에 가까운 특성도 있어서 진행이 수월할 것 같아서이다.

어쨌든 이 중 맥북프로와 맥미니 서버는 회사에 있고 맥미니는 집에 있는데
일단 방화벽으로 인해 회사 시스템에서는 집 시스템이 연결이 되지만 집 시스템에서는
회사 시스템이 연결이 되지 않는다. 이 부분이 어떻게 해결될 수 있을지가 고민이다.

만약 전혀 쌍방향 통신의 가능성이 없다면 우선은 회사에 있는 2대로 진행을 해야겠다.

다음 가상(학습용 샘플) 서비스를 위해 필요한 데이터를 저장할 스토리지로는
그냥 2Tb 하드 2개를 USB 3.0 외장 케이스에 담아 집 시스템에 연결을 해두었다.
이 것도 역시 방화벽 문제 해결 여하에 따라 변동이 생길 것 같다.

간략한 시스템 사양은 다음과 같다.

맥북프로(Early 2011) : i7 쿼드코어 / 16Gb 램 / 256Gb SSD / 500Gb HDD
맥미니 서버 : i7 쿼드코어/ 4Gb 램 / 500Gb * 2 HDD
---------------------------------------------------------------------------------------------
맥미니 : i5 듀얼코어(4thread) / 16Gb 램 / 500Gb HDD / 2Tb * 2 USB 3.0 외장하드

서비스

현재 내가 가장 손쉽게 대량의 데이터를 얻을 수 있는 소스는 바로 트위터이다.
팔로워들의 tweet데이터를 API를 이용하여 수집을 할 예정이며 이 데이터들을 이용하여
단어 분석을 진행할 예정이다. 구체적으로 어떤 내용을 분석할 것인지에 대해서는
조금 더 학습을 진행한 후 정리하도록 하겠다.



아직은 쥐뿔도 모르지만 이렇게 준비를 하고보니 엄청 설레인다...^^;;;
열심히 준비해서 뭔가 한 번 해내야겠다~

블로그 이미지

마즈다

이제 반백이 되었지만 아직도 꿈을 좇고 있습니다. 그래서 그 꿈에 다가가기 위한 단편들을 하나 둘 씩 모아가고 있지요. 이 곳에 그 단편들이 모일 겁니다...^^