'하둡'에 해당되는 글 2건
- 2020.02.26 :: Hadoop의 장점 & 단점, 에코 시스템
- 2020.02.23 :: Hadoop 이란?
Hadoop의 장점
분산 처리가 가능하다
- 여러대의 노드를 묶어서 마치 하나의 서버처럼 보이게 하고 여러노드의 자원을 이용해서 데이터를 처리하기 때문에 처리하는 속도가 빠른 장점이 있다.
- 예) 한대의 서버로 1테라 바이트의 데이터를 처리하는데 걸리는 시간이 2시간 반이 걸린다고 하면, 하둡으로 여러대의 서버를 병렬로 작업한다면 2분내에 데이터를 읽을 수 있다.
Hadoop의 단점
- 무료이다 보니 유지보수가 어려움
- 네임노드(?)가 다운되면 고가용성 지원이 안됨
- 한번 저장한 파일을 수정할 수 없다(?)
네임노드 : 마스터서버 역할
Haddop 에코 시스텝
빅데이터 분석 R, Python 등을 이용해서 분석
↑
NoSQL Hbase Membase Cassandra
(빅데이터 저장) Redis MongoDB CouchDB
↑ ↑
분산 처리 지원 Hive Pig Sqoop Zookeeper
↑ ↑
분산 배치 처리 하둡(Hadoop) - MapReduce
분산 파일 관리 하둡(Hadoop) - HDFS
하둡 : 대용량 데이터를 분산 처리할 수 있는 자바기반의 오픈소스 프레임워크
(자꾸 정의를 까먹으니 반복해서 적어본다)
'Hadoop' 카테고리의 다른 글
Hadoop 이란? (0) | 2020.02.23 |
---|
1. 하둡은 아파치 루씬 창업자인 더그 커팅이 2006년 야후 엔지니어로 일하면서 개발되었으며, 오픈소스로 공개 여러 개발자가 자유롭게 활용하여 발전 시킬 수 있다.
2. 하둡은 대용량 데이터를 적은 비용으로 더 빠르게 분석할 수 있는 SW. 빅데이터 처리와 분석을 위한 플랫폼 중 사실상 표준으로 자리잡고 있다.
3. 하둡관련 오픈소스 솔루션들은 해마다 발전하여 하둡과 연동된 하둡생태계를 구성하여 '하둡 에코시스템'으로 불린다.
4. 하둡 SW 라이브러리는 간단한 프로그래밍 모델을 사용하여 여러대의 컴퓨터 클러스터에서 대규모 데이터 세트를 분산 처리 할 수 있게 해주는 프레임워크 이다.
5. 단일 서버에서 수천대의 머신으로 확장 할 수 있도록 설계되었다.
6. 일반적으로 하둡파일시스템(HDFS)과 맵리듀스(MapReduce)프레임워크로 시작되었으나, 여러 데이터저장, 실행엔진, 프로그래밍 및 데이터처리 같은 하둡 생태계 전반을 포함하는 의미로 확장 발전 되었다.
참조 :
'Hadoop' 카테고리의 다른 글
Hadoop의 장점 & 단점, 에코 시스템 (0) | 2020.02.26 |
---|