반응형
최초 작성일 : 2013/05/21 13:01
이 글에 적는 내용은 2013년 1월 3일 길벗사에서 간행한
'대용량 데이터 분석 및 처리를 위한 hadoop nosql' (서상원, 김재홍, 박윤성, 이준섭, 명재석 저)의
전자책 버전에서 발췌한 내용입니다.
중요한 내용이 있을 때마다 이러한 정보들을 정리해 올리도록 하겠습니다.
==========================================================
1. 하둡은 크게 HDFS와 MapReduce의 두 부분으로 구성되어있으며
HDFS는 네임노드, 세컨더리 네임노드, 데이터노드를 동작시키고
MapReduce는 잡 트래커와 태스크 트래커를 동작시킨다.
네임노드와 잡 트래커는 마스터 노드(네임노드)에서, 데이터노드와 태스크 트래커는
슬레이브 노드(데이터노드)에서 동작한다.
동작하는 프로세스는 jps 명령으로 확인할 수 있다.
2. 하둡 분산 파일 시스템(HDFS)는 다수의 작은 파일보다는 소수의 대용량 파일을 다루는데
적합하도록 설계된 파일 시스템이다.
3. 하둡에서 각 노드들의 프로세스를 기동하기 위해 SSH를 사용한다. 수 백, 수 천대로
구성된 클러스터의 경우 일일히 각각의 서버에서 프로세스를 기동할 수 없기 때문에
네임노드에서 기동을 시키면 클러스터 내의 모든 슬레이브 노드에서 프로세스가 기동이
되는 데, 이 때 SSH를 사용하여 명령을 전달하게 된다.
4. 하둡이 파일을 블록으로 나누어 저장하는 이유
- 파일 시스템에 따라 한 개의 파일이 가질 수 있는 최대 크기에는 제약이 있다.
블록으로 나누어 저장하면 이러한 제약을 피해서 대용량 파일을 저장할 수 있다.
- 대용량 파일을 하나로 저장할 경우 파일을 읽기 위해 메모리로 로드하는데 부하가
걸린다. (Gb급 로그 파일을 편집기로 열지 못하는 경우를 생각해보자) 블록으로
나루면 이러한 문제가 해소된다.
반응형
'Study > 빅데이터' 카테고리의 다른 글
[옛 글] 나는 왜 하둡을 공부하려 하는가? (0) | 2013.07.19 |
---|---|
[옛 글] [BigData] 몇가지 잡설들... (0) | 2013.07.19 |
[옛 글] [BigData] 하둡 - wordcount 예제 실행 (0) | 2013.07.19 |
[옛 글] [BigData] 하둡 설치 - 놓치는 것들에 대해 (0) | 2013.07.19 |
[옛 글] [BigData] 실습 준비 (0) | 2013.07.19 |