최초 작성일 : 2013/05/21 13:01 


이 글에 적는 내용은 2013년 1월 3일 길벗사에서 간행한

'대용량 데이터 분석 및 처리를 위한 hadoop nosql' (서상원김재홍박윤성이준섭명재석 저)의
전자책 버전에서 발췌한 내용입니다.
중요한 내용이 있을 때마다 이러한 정보들을 정리해 올리도록 하겠습니다.

==========================================================

1. 하둡은 크게 HDFS와 MapReduce의 두 부분으로 구성되어있으며
   HDFS는 네임노드, 세컨더리 네임노드, 데이터노드를 동작시키고
   MapReduce는 잡 트래커와 태스크 트래커를 동작시킨다.

   네임노드와 잡 트래커는 마스터 노드(네임노드)에서, 데이터노드와 태스크 트래커는
   슬레이브 노드(데이터노드)에서 동작한다.

   동작하는 프로세스는 jps 명령으로 확인할 수 있다.

2. 하둡 분산 파일 시스템(HDFS)는 다수의 작은 파일보다는 소수의 대용량 파일을 다루는데
   적합하도록 설계된 파일 시스템이다.

3. 하둡에서 각 노드들의 프로세스를 기동하기 위해 SSH를 사용한다. 수 백, 수 천대로
   구성된 클러스터의 경우 일일히 각각의 서버에서 프로세스를 기동할 수 없기 때문에
   네임노드에서 기동을 시키면 클러스터 내의 모든 슬레이브 노드에서 프로세스가 기동이
   되는 데, 이 때 SSH를 사용하여 명령을 전달하게 된다.

4. 하둡이 파일을 블록으로 나누어 저장하는 이유
   - 파일 시스템에 따라 한 개의 파일이 가질 수 있는 최대 크기에는 제약이 있다.
      블록으로 나누어 저장하면 이러한 제약을 피해서 대용량 파일을 저장할 수 있다.
   - 대용량 파일을 하나로 저장할 경우 파일을 읽기 위해 메모리로 로드하는데 부하가
      걸린다. (Gb급 로그 파일을 편집기로 열지 못하는 경우를 생각해보자) 블록으로
      나루면 이러한 문제가 해소된다.

블로그 이미지

마즈다

이제 반백이 되었지만 아직도 꿈을 좇고 있습니다. 그래서 그 꿈에 다가가기 위한 단편들을 하나 둘 씩 모아가고 있지요. 이 곳에 그 단편들이 모일 겁니다...^^

댓글을 달아 주세요