본문 바로가기
  • SDXL 1.0 + 한복 LoRA
  • SDXL 1.0 + 한복 LoRA

Study/빅데이터47

[간보기 | kafka] Apache kafka 시작하기 Apache Kafka 시작하기참조 사이트http://kafka.apache.org http://epicdevs.com/20다행이 예전에 Hbase를 설치할 때 zookeeper를 설치해놓은 덕에 kafka를 설치하고 구동하는 과정은 그리 어렵지 않았다.아다시피 요즘 OS가 Windows만 아니면 binary 패키지를 다운로드 받고 적절한 위치에 압축 풀고 하면반은 된 것이나 다름 없다. kafka의 경우 $KAFKA_HOME/config/server.properties에 몇가지 설정만 한 후 기동시키면 된다. 다음은 내 PC 환경에서의 설정 및 구동 과정이다.PC 환경현재 맥미니 5대를 내부망으로 연결시킨 상태로 각각의 PC에 대한 정보는 /etc/hosts 파일에 설정이 되어있다. 대략 다음과 같다... 2016. 3. 20.
[간보기 | Kafka] 3년만에 찾은 솔루션 kafka...ㅠ.ㅠ 이제야 발견한 Kafka하던 일도 제대로 못하면서 빅데이터 공부해보겠다고 꼴깝을 떤 것이 벌써 2013년 5월달 이야기네… 뭔가 새로운 것에 대해서는 남들 앞에서 한 마디나마 거들 수 있어야 하지 않을까 하는 밑도 끝도 없는 초조감이 나를 뻘짓거리의 함정으로 이끌었다. 뭔가를 시작하기 전에는 지름신을 영접하는 것이 당연한(?) 의례인지라 이 때도 지름신을 조금 과하게(…ㅠ.ㅠ) 영접했다. 맥미니 5대… 그리고는 한 동안은 신났다. Hadoop 설치하고 zookeeper 설치하고 Hbase 설치하고… 그리고…샘플 한 번 돌려보고? 끝이었나?…ㅠ.ㅠ 목표로 삼았던 것이 twitter의 데이터를 수집해서 이것 저것 분석하는 공부를 좀 해보고자 했는데… 이게 당최 감이 안잡히는 것이다. twitter API를 .. 2016. 3. 20.
[HBase] 쉽지만 쉽지 않은 설치... 하둡 설치 후 꽤 오랜 시간이 흘렀다.그간 회사 업무가 바쁜 것도 있었지만 엄청나게 간단하다면 간단한 zookeeper와 HBase의 설치와 설정에서생각 외로 많은 시간을 잡아먹었다. 그사이 Streaming API를 통해 축적한 트위터 데이터는 53Gb에 이르고 있다.얼른 HBase를 설치하여 담아야 하는데… 사실 zookeeper와 HBase의 경우 너무서 설치와 설정이 간단해서 오히려 많은 자료들을 참조한 것이 더 혼란을 가져왔다. 디테일한 차이가 얼마나 영향을 끼치는지 모르는 상황에서는 이것저것 다 해볼 수밖에없기에 시간도 그만큼 많이 걸리고… 암튼 시행착오의 역사를 적는다…-.- 1. zookeeper를 설치하지 않다! 우선 HBase 완벽가이드를 참조해서 설치를 시작했는데…이 책이 완벽하지 않.. 2013. 12. 19.
[옛 글] [BigData] 하둡 - 파일 읽고 쓰기 최초 작성일 : 2013/06/10 13:13 역시 PPT 정리는 어렵군요...ㅠ.ㅠ아래 이미지들은 한빛미디어의 Hadoop 완벽 가이드에 실린 내용을 재정리 한 것입니다.======================================================= 2013. 7. 19.
[옛 글] [BigData] HDFS (Hadoop Distributed File System) 개요 1 최초 작성일 : 2013/06/05 13:02 HDFS (하둡 분산 파일 시스템)은 다음의 사항을 고려하여 설계되었다. 1. 대용량의 파일 : 수백 Mb에서 수백 Tb 혹은 Pb급 이상을 대상으로 함 2. WORM (Write Once Read Many) : 커다란 원본으로부터 데이터 셋을 만들어 그 데이터 셋을 분석한다. 그러기 위해서는 전체 파일을 읽어야 한다. 3. 범용 하드웨어 : 고성능의 신뢰도 높은 서버가 아닌 다수의 범용 머신으로 구성된 클러스터에서의 실행을 고려하였다. ========================================================위 내용에 대해서는 여러 번 반복되었기에 간단하게 적고 넘어간다. 그러나 간혹 'Big'이라는 용어의 함정에 빠져 잊기 쉬운.. 2013. 7. 19.
[옛 글] [BigData] MapReduce 개요 최초 작성일 : 2013/05/30 15:24 맵 리듀스 개요 맵 : - 원시 데이터를 key-value 쌍의 중간 파일로 만든다.- 입력데이터가 있는 노드에서 맵 함수가 수행되는 것이 가장 좋다 (지역성 최적화)- 맵 함수에 전달되는 입력 데이터는 라인 offset을 키로, 해당 라인 내용을 value로 하는 형태로 구성된다.- 맵 함수는 이 입력값들로부터 필요로 하는 key와 value를 추출한다.- 이 과정에서 잘못된 레코드를 제거하는 기능도 수행한다.- 맵 task의 실행 결과는 HDFS가 아닌 로컬 디스크에 저장된다. (HDFS와 로컬 디스크의 개념을 명확히 구분하자) 이유는 맵의 결과물은 단지 리듀스 함수로 전달하기 위한 중간 결과물일 뿐이며 모든 잡이 완료되면 버려도 되는 데이터이기 때문이다.. 2013. 7. 19.
[옛 글] 나는 왜 하둡을 공부하려 하는가? 최초 작성일 : 2013/05/30 09:41 이 글은 네이버 맥부기 카페에 적은 글을 옮겨온 것입니다.지극히 개인적인 이야기니까 참고하세요...^^;;; =================================================================================== 어느덧 IT밥 먹은지도 11년차에 이르고있네요.그래봐야 절반가량을 SM으로 있다보니 사실 제 경력에 갖춰야 할 많은 것들이아직 모자랍니다. 각설하고! 11년 일을 해오는 동안 느낀 것이 있다면다른 분야도 다르지 않겠지만 특히 이 IT 분야는 상당히 폭넓은 지식을 가지고 있어야 한다는 것이매우 중요하게 느껴졌습니다. 이 것은 IT기술을 이해하는 '깊이'와 '폭'의 문제가 아닙니다.'한 우물을 파라'든가 '.. 2013. 7. 19.
[옛 글] [BigData] 몇가지 잡설들... 최초 작성일 : 2013/05/28 12:56 일단 현재 개발 중인 아이폰 앱 완성을 눈앞에 두고 앱 개발에 치중을 하고 있고,또 몇몇 사정으로 한 동안 공부다운 공부를 못해 오늘은 잡설로 때운다...ㅠ.ㅠ 잡설 1 : 교재 선택의 실수... 원래는 지금 잡설을 쓰고 있을 시점이 아니지만 예기치 않은 문제가 발생을 하여어쩔 수없이 이런 심심풀이 뻘글을 쓰고 있다. 네이버 북스에서 '대용량 데이터 분석 및 처리를 위한 Hadoop NoSQL'이라는 책을e-Book으로 구매를 하였다. 얼마간 잘 읽었는데 갑자기 글자가 겹치거나 빈 페이지가삽입되어있는 증상이 나타났다. 결국 야심차게(?) 지른 e-Book을 통한 학습이중단되고 네이버 고객 센터에 문의를 하였더니 자기들도 알고 있었던 문제라 한다.원하시면 환불.. 2013. 7. 19.
[옛 글] [BigData] 하둡 - 소소한 정보들 1 최초 작성일 : 2013/05/21 13:01 이 글에 적는 내용은 2013년 1월 3일 길벗사에서 간행한'대용량 데이터 분석 및 처리를 위한 hadoop nosql' (서상원, 김재홍, 박윤성, 이준섭, 명재석 저)의전자책 버전에서 발췌한 내용입니다.중요한 내용이 있을 때마다 이러한 정보들을 정리해 올리도록 하겠습니다. ========================================================== 1. 하둡은 크게 HDFS와 MapReduce의 두 부분으로 구성되어있으며 HDFS는 네임노드, 세컨더리 네임노드, 데이터노드를 동작시키고 MapReduce는 잡 트래커와 태스크 트래커를 동작시킨다. 네임노드와 잡 트래커는 마스터 노드(네임노드)에서, 데이터노드와 태스크 트래커는 슬.. 2013. 7. 19.
반응형