Hadoop 2020. 2. 26. 22:04

Hadoop의 장점

분산 처리가 가능하다

  • 여러대의 노드를 묶어서 마치 하나의 서버처럼 보이게 하고 여러노드의 자원을 이용해서 데이터를 처리하기 때문에 처리하는 속도가 빠른 장점이 있다.
  • 예) 한대의 서버로 1테라 바이트의 데이터를 처리하는데 걸리는 시간이 2시간 반이 걸린다고 하면, 하둡으로 여러대의 서버를 병렬로 작업한다면 2분내에 데이터를 읽을 수 있다.

Hadoop의 단점

  • 무료이다 보니 유지보수가 어려움
  • 네임노드(?)가 다운되면 고가용성 지원이 안됨
  • 한번 저장한 파일을 수정할 수 없다(?)

네임노드 : 마스터서버 역할

 

Haddop 에코 시스텝

 

빅데이터 분석                R,   Python 등을 이용해서 분석

       

    NoSQL                     Hbase    Membase    Cassandra

(빅데이터 저장)              Redis      MongoDB    CouchDB

                                                  

분산 처리 지원              Hive   Pig   Sqoop   Zookeeper

                                                

분산 배치 처리                 하둡(Hadoop) - MapReduce

분산 파일 관리                 하둡(Hadoop) - HDFS

 

하둡 : 대용량 데이터를 분산 처리할 수 있는 자바기반의 오픈소스 프레임워크

(자꾸 정의를 까먹으니 반복해서 적어본다)

 

 

참조 : https://osh88itopia.tistory.com/11

'Hadoop' 카테고리의 다른 글

Hadoop 이란?  (0) 2020.02.23
posted by 초코렛과자
: