[옛 글] [BigData] 하둡 - 소소한 정보들 1

최초 작성일 : 2013/05/21 13:01

이 글에 적는 내용은 2013년 1월 3일 길벗사에서 간행한

'대용량 데이터 분석 및 처리를 위한 hadoop nosql' (서상원, 김재홍, 박윤성, 이준섭, 명재석 저)의

전자책 버전에서 발췌한 내용입니다.

중요한 내용이 있을 때마다 이러한 정보들을 정리해 올리도록 하겠습니다.

==========================================================

1. 하둡은 크게 HDFS와 MapReduce의 두 부분으로 구성되어있으며

HDFS는 네임노드, 세컨더리 네임노드, 데이터노드를 동작시키고

MapReduce는 잡 트래커와 태스크 트래커를 동작시킨다.

네임노드와 잡 트래커는 마스터 노드(네임노드)에서, 데이터노드와 태스크 트래커는

슬레이브 노드(데이터노드)에서 동작한다.

동작하는 프로세스는 jps 명령으로 확인할 수 있다.

2. 하둡 분산 파일 시스템(HDFS)는 다수의 작은 파일보다는 소수의 대용량 파일을 다루는데

적합하도록 설계된 파일 시스템이다.

3. 하둡에서 각 노드들의 프로세스를 기동하기 위해 SSH를 사용한다. 수 백, 수 천대로

구성된 클러스터의 경우 일일히 각각의 서버에서 프로세스를 기동할 수 없기 때문에

네임노드에서 기동을 시키면 클러스터 내의 모든 슬레이브 노드에서 프로세스가 기동이

되는 데, 이 때 SSH를 사용하여 명령을 전달하게 된다.

4. 하둡이 파일을 블록으로 나누어 저장하는 이유

- 파일 시스템에 따라 한 개의 파일이 가질 수 있는 최대 크기에는 제약이 있다.

블록으로 나누어 저장하면 이러한 제약을 피해서 대용량 파일을 저장할 수 있다.

- 대용량 파일을 하나로 저장할 경우 파일을 읽기 위해 메모리로 로드하는데 부하가

걸린다. (Gb급 로그 파일을 편집기로 열지 못하는 경우를 생각해보자) 블록으로

나루면 이러한 문제가 해소된다.

꿈을 위한 단상