주요 개념
카카오클라우드의 Hadoop Eco는 Hadoop, Hive, HBase, Spark, Trino, Kafka와 같은 오픈 소스 프레임워크를 이용하여 분산 처리 작업을 실행하기 위한 클라우드 플랫폼 서비스입니다. 카카오클라우드에서 제공하는 Virtual Machine을 이용하여 Hadoop, HBase, Trino, Dataflow 프로비저닝 서비스를 제공합니다. Hadoop Eco 서비스의 주요 개념은 다음과 같습니다.
클러스터
클러스터는 Virtual Machine을 이용하여 프로비저닝된 노드들의 집합입니다.
클러스터 타입
Hadoop Eco는 Core Hadoop
, HBase
, Trino
, Dataflow
타입을 제공합니다.
유형 | 설명 |
---|---|
Core Hadoop | Hadoop, Hive, Spark, Tez가 설치됨 - HDFS에 데이터를 저장하고 Hive, Spark를 이용하여 데이터를 분석 |
HBase | Hadoop, HBase가 설치됨 - HDFS에 데이터를 저장하고 HBase를 이용하여 NoSQL 서비스를 제공 |
Trino | Hadoop, Trino, Hive, Tez가 설치됨 - HDFS에 데이터를 저장하고 Trino, Hive를 이용하여 데이터를 분석 |
Dataflow | Hadoop, Kafka, Druid, Superset이 설치됨 - Kafka를 통해 데이터를 수집하고 Druid, Superset을 이용하여 데이터를 분석 |
클러스터 가용성 타입
클러스터의 운영 안정성을 위해 가용성 타입으로 표준(Single) 과 고가용성(HA) 타입을 제공합니다.
가용성 타입 | 설명 |
---|---|
표준(Single) | 1개의 마스터 노드와 여러 개의 워커 노드로 구성 - 마스터 노드가 하나이기 때문에 장애가 발생할 경우 HDFS, YARN이 동작하지 않을 수 있음 |
고가용성(HA: High Availability) | 3개의 마스터 노드와 여러 개의 워커 노드로 구성 - HDFS, YARN이 HA로 구성되어 장애가 발생할 시 자동으로 마스터를 복구 |
클러스터 버전
Hadoop Eco 버전에 따라 설치되는 컴포넌트의 버전이 결정됩니다. HDE 클러스터는 데이터 분석을 위한 Core Hadoop 타입과 HDFS 기반의 NoSQL 서비스를 제공하기 위한 HBase 타입, HDE 1.1.2 버전부터는 Trino 와 Dataflow 타입을 사용할 수 있습니다. HDE 2.0.1 버전에서는 Hadoop 3.x, HBase 2.x, Hive 3.x 버전을 지원합니다.