이제야 발견한 Kafka


하던 일도 제대로 못하면서 빅데이터 공부해보겠다고 꼴깝을 떤 것이 
벌써 2013년 5월달 이야기네…


뭔가 새로운 것에 대해서는 남들 앞에서 한 마디나마 
거들 수 있어야 하지 않을까 하는 밑도 끝도 없는 초조감이
나를 뻘짓거리의 함정으로 이끌었다.


뭔가를 시작하기 전에는 지름신을 영접하는 것이 당연한(?) 의례인지라
이 때도 지름신을 조금 과하게(…ㅠ.ㅠ) 영접했다.


맥미니 5대…


그리고는 한 동안은 신났다.
Hadoop 설치하고 zookeeper 설치하고 Hbase 설치하고…
그리고…샘플 한 번 돌려보고? 끝이었나?…ㅠ.ㅠ


목표로 삼았던 것이 twitter의 데이터를 수집해서 이것 저것 분석하는
공부를 좀 해보고자 했는데…
이게 당최 감이 안잡히는 것이다.


twitter API를 통해 데이터를 가져오는 것이야 알겠는데…
이걸 어떻게 저장을 해야하는지…


처음에는 그냥 REST API를 이용해서 데이터를 가져오고
무작정 일반 txt 파일로 저장을 했다.
그러다가 Streaming API를 이용하게 되었는데 아무리 샘플 데이터라
하더라도 연속적으로 들어오는 데이터를 어떻게 저장을 해야 할지,
그리고 간단하게나마 가공을 하고자 하는데 가공을 하는 중 계속해서
들어오는 데이터는 어떻게 처리를 해야 하는지에 대한 해결책을 
전혀 몰랐다.



그렇게 3년이 지나버린 것이다.
그리고 우연히 kafka를 발견한 것이다.
프란츠 카프카도 아니고 해변의 카프카도 아니고 apache Kafka!


일단 2가지 측면에서 관심을 가지게 되었는데 하나는 Use Case 중 
Stream Processing이고 다른 하나는 Client에 node.js가 있다는 점이었다.


처음부터 twitter API를 이용하는데 node module을 사용한지라 계속해서
node module을 사용할 수있다는 것은 나에게는 큰 매리트였다.



아직은 대충 훑어본 정도라 과연 나의 목적에 딱 맞는지는 잘 모르겠으나
이 부분은 계속 적용을 해 나가면서 구체적으로 정리를 해야겠다.


당분간 주말에 할 것이 생겨서 즐겁네

블로그 이미지

마즈다

이제 반백이 되었지만 아직도 꿈을 좇고 있습니다. 그래서 그 꿈에 다가가기 위한 단편들을 하나 둘 씩 모아가고 있지요. 이 곳에 그 단편들이 모일 겁니다...^^

댓글을 달아 주세요