Hadoop
2020. 2. 26. 22:04
Hadoop의 장점
분산 처리가 가능하다
- 여러대의 노드를 묶어서 마치 하나의 서버처럼 보이게 하고 여러노드의 자원을 이용해서 데이터를 처리하기 때문에 처리하는 속도가 빠른 장점이 있다.
- 예) 한대의 서버로 1테라 바이트의 데이터를 처리하는데 걸리는 시간이 2시간 반이 걸린다고 하면, 하둡으로 여러대의 서버를 병렬로 작업한다면 2분내에 데이터를 읽을 수 있다.
Hadoop의 단점
- 무료이다 보니 유지보수가 어려움
- 네임노드(?)가 다운되면 고가용성 지원이 안됨
- 한번 저장한 파일을 수정할 수 없다(?)
네임노드 : 마스터서버 역할
Haddop 에코 시스텝
빅데이터 분석 R, Python 등을 이용해서 분석
↑
NoSQL Hbase Membase Cassandra
(빅데이터 저장) Redis MongoDB CouchDB
↑ ↑
분산 처리 지원 Hive Pig Sqoop Zookeeper
↑ ↑
분산 배치 처리 하둡(Hadoop) - MapReduce
분산 파일 관리 하둡(Hadoop) - HDFS
하둡 : 대용량 데이터를 분산 처리할 수 있는 자바기반의 오픈소스 프레임워크
(자꾸 정의를 까먹으니 반복해서 적어본다)
'Hadoop' 카테고리의 다른 글
Hadoop 이란? (0) | 2020.02.23 |
---|