본문 바로가기
  • SDXL 1.0 + 한복 LoRA
  • SDXL 1.0 + 한복 LoRA
Study/빅데이터

[옛 글] [BigData] 몇가지 잡설들...

by 마즈다 2013. 7. 19.
반응형

최초 작성일 : 2013/05/28 12:56


일단 현재 개발 중인 아이폰 앱 완성을 눈앞에 두고 앱 개발에 치중을 하고 있고,
또 몇몇 사정으로 한 동안 공부다운 공부를 못해 오늘은 잡설로 때운다...ㅠ.ㅠ

잡설 1 : 교재 선택의 실수...

원래는 지금 잡설을 쓰고 있을 시점이 아니지만 예기치 않은 문제가 발생을 하여
어쩔 수없이 이런 심심풀이 뻘글을 쓰고 있다.

네이버 북스에서 '대용량 데이터 분석 및 처리를 위한 Hadoop NoSQL'이라는 책을
e-Book으로 구매를 하였다. 얼마간 잘 읽었는데 갑자기 글자가 겹치거나 빈 페이지가
삽입되어있는 증상이 나타났다. 결국 야심차게(?) 지른 e-Book을 통한 학습이
중단되고 네이버 고객 센터에 문의를 하였더니 자기들도 알고 있었던 문제라 한다.
원하시면 환불해드리겠다고...

귀차니즘에 환불은 됐고 대체 어느정도 분량이나 그런 문제가 생긴거냐 했더니
거의 1/3이 그렇단다...

이정도면 고객이 문의를 해올 때까지 기다릴게 아니라 전면 리콜을 해야 하는거 아닌가?
하여간 정이 안가는 네이년이다...

암튼 그래서 잠시 학습이 중단되고 이렇게 뻘글을 쓰게 된 것이다.


잡설 2 : 하드웨어 구성에 대해

앞서 몇몇 글에서 내가 가진 시스템들을 어떻게 구성할 것인지에 대해 잠깐씩 언급했었다.
현재 회사에 맥이 2대, 집에 맥이 1대 요렇게 3대로 클러스터를 구성해보려고 했는데
회사와 집이 같은 네트워크 대역으로 묶일 수 없음으로 해서 결국 앞서 하둡 설치 및
테스트는 회사의 2대만 가지고 진행을 하였다.

뭐 가상 환경에서도 테스트 하는데 네임노드 1대와 데이터노드 1대 정도 있으면 준수한
환경이긴 하나...역시 뭔가 아쉽다.

최종적으로는 회사의 맥북 프로를 집으로 가져오고 기회 닿는대로 맥미니 1대를 추가
구입하여 집에서 썪고있는 펜티엄4급 PC 2대와 함께 네임노드 1대와 데이터노드 4대로
구성된 클러스터를 만들어볼 생각이다.

그렇게되면 클러스터가 이기종으로 구성되는데다가 노드간의 성능 편차도 커지게 되어
어떤 문제가 생길지 모르겠으나 배우는 입장에서는 문제가 생기면 생길수록 좋지 않겠는가...^^?

참고로 집에 놀고 있는 펜티엄 PC는 CPU가 펜티엄4 2.4Gh, 램 2Gb, HDD 80Gb정도로
참 소박한(?) 구성이며 현재 뭔 생각으로 설치한 지는 모르겠지만 한 놈은 페도라15가,
또 한놈은 Cent OS 5.X가 설치되어있다.

사실 개발자로 일할 놈이 굳이 이렇게 인프라에 신경을 써가면서 공부할 것은 없지만
그래도 기왕 할 거면 재밌게 하면 좋지 않겠는가^^?

그래도 Hadoop이라는 첨단이라면 첨단의 기술을 구현할 시스템을 세팅하는 것이
tomcat같은 was를 설치하고 설정하는 것보다 더 쉽다는 것은 정말 대단한 일이
아닐 수 없다.


잡설 3 : SETI@home

내가 알고 있는 '분산'이라는 이름으로 부를 수 있는 시스템으로 제일 처음 접한 것은
SETI@home이었다.

아는 사람들은 알겠지만 SETI 프로젝트는 지적 외계 생명체를 찾는 천문학 프로젝트로
조디 포스터 주연의 Contact라는 영화에서도 등장한다.

이 SETI@home 프로젝트는 일반인들이 사용하는 PC를 이용하며 자원자들의 PC에
연산을 위한 프로그램을 내려받게 하고 사용자들의 PC 유휴 시간에 이 프로그램을
동작시켜 데이터를 연산한 후 서버로 보내고 다시 새로운 데이터를 사용자 PC에 받아
연산하는 식으로 대용량 데이터를 처리하는 방식이다.

애초에 교재로 삼기로 했던 한빛미디어의 'Hadoop 완벽 가이드'에 이 SETI@home과
하둡을 잠깐 비교한 내용이 있길래 잠시 언급을 해보았다.

책에서도 하둡과 SETI@home은 상당히 다르다고 설명을 하긴 했지만 짧은 생각에
애초에 분산/분할 처리라는 점 외에는 비교 대상이 될만한 것이 없어보인다.

하둡과 관련은 없지만 SETI@home에 대해 조금 더 말해보자면 나는 꽤 오래전부터
간헐적으로 이 SETI@home 클라이언트를 다운로드 받아 참여해보았는데
목적은 그저 단순했었다. SETI@home이 수행될 때 스크린세이버로 뜨는 분석 그래프가
정말 내 컴퓨터가 뭔가 대단한 일을 하는구나 하는 느낌을 받게 해주었기 때문이다.

그리고 한동안 안하다가 오늘 책을 읽으면서 문득 생각나 다시 한 번 클라이언트를
다운로드 받아 설치를 해보았다. 다행히 맥용 클라이언트도 있어 설치를 하였는데...
세상에 그 사이에 많은 프로젝트들이 하나의 클라이언트로 묶여 배포되고 있었다.

세어보니 45개 정도의 프로젝트가 SETI와 동일한 방식으로 진행되고 있었다.
아래 그림은 이 프로젝트를 통합관리하는 BOINC라는 프로그램의 프로젝트 선택 화면이다.




나는 이 프로젝트들 중 예전부터 해왔던 SETI@home을 선택을 하였고 그 진행 화면은
아래와 같이 표시되었다.




중간 쯤의 태스크 명령이라는 버튼을 통해 그래픽 보기를 선택하면 예의 그 화려한 처리
그래프를 볼 수 있다.

그런데 예전에도 그랬나? 아니면 매킨토시라서 그런가?
이 연산을 수행할 때 CPU 점유율이 장난 아니다. 작업을 실행시키자마자 내 맥북프로는
아래와 같은 상태가 되었다.







이거 정말 컴퓨터 놀 때나 실행시켜야지 실행시키고서는 아무 것도 못하겠다...-.-

암튼 오늘도 이렇게 잡설로 때우고
네이버 북스는 6월이나 되어야 오류가 수정된다고 하니 일단 당분간은 하둡 완벽 가이드로
공부를 진행해야 할 것 같다.

6월 4일경 사내에서 빅데이터 세미나를 한다는데 가보고는 싶지만 멀어서 원...
세미나 자료만 좀 달라고 해놨다...-.-

암튼 내일부터는 다시 공부좀 하자...

반응형