본문으로 건너뛰기

주요 개념

카카오클라우드의 Hadoop Eco는 Hadoop, Hive, HBase, Spark, Trino, Kafka와 같은 오픈 소스 프레임워크를 이용하여 분산 처리 작업을 실행하기 위한 클라우드 플랫폼 서비스입니다. 카카오클라우드에서 제공하는 Virtual Machine을 이용하여 Hadoop, HBase, Trino, Dataflow 프로비저닝 서비스를 제공합니다. Hadoop Eco 서비스의 주요 개념은 다음과 같습니다.

클러스터

클러스터는 Virtual Machine을 이용하여 프로비저닝된 노드들의 집합입니다.

클러스터 유형

Hadoop Eco는 Core Hadoop, HBase, Trino, Dataflow 유형을 제공합니다.

유형설명
Core HadoopHadoop, Hive, Spark, Tez가 설치됨
- HDFS에 데이터를 저장하고 Hive, Spark를 이용하여 데이터를 분석
HBaseHadoop, HBase가 설치됨
- HDFS에 데이터를 저장하고 HBase를 이용하여 NoSQL 서비스를 제공
TrinoHadoop, Trino, Hive, Tez가 설치됨
- HDFS에 데이터를 저장하고 Trino, Hive를 이용하여 데이터를 분석
DataflowHadoop, Kafka, Druid, Superset이 설치됨
- Kafka를 통해 데이터를 수집하고 Druid, Superset을 이용하여 데이터를 분석

클러스터 가용성 유형

클러스터의 운영 안정성을 위해 가용성 유형으로 표준(Single)고가용성(HA) 유형을 제공합니다.

가용성 유형설명
표준(Single)1개의 마스터 노드와 여러 개의 워커 노드로 구성
- 마스터 노드가 하나이기 때문에 장애가 발생할 경우 HDFS, YARN이 동작하지 않을 수 있음
고가용성(HA: High Availability)3개의 마스터 노드와 여러 개의 워커 노드로 구성
- HDFS, YARN이 HA로 구성되어 장애가 발생할 시 자동으로 마스터를 복구

클러스터 버전

Hadoop Eco 버전에 따라 설치되는 컴포넌트의 버전이 결정됩니다. HDE 클러스터는 데이터 분석을 위한 Core Hadoop 유형과 HDFS 기반의 NoSQL 서비스를 제공하기 위한 HBase 유형, HDE 1.1.2 버전부터는 TrinoDataflow 유형을 사용할 수 있습니다. HDE 2.0.1 버전에서는 Hadoop 3.x, HBase 2.x, Hive 3.x 버전을 지원합니다.

이미지

클러스터 버전에 따른 유형별 설치 컴포넌트

이미지 Core Hadoop

클러스터 생명주기

Hadoop Eco 클러스터는 다양한 상태와 생명주기를 가지며, 운영 상태와 작업 상태를 확인하고 관리 기능을 수행할 수 있습니다. 최초 생성을 요청한 후 설치/운영/삭제 등의 상태를 생명주기로 표현합니다. 사용자가 클러스터를 작동시키는 것에 따라 클러스터와 인스턴스의 상태는 다를 수 있습니다.

이미지 클러스터의 생명주기

클러스터와 노드 상태

상태설명
Initializing사용자 요청 메타 정보가 저장되고, VM 생성을 요청한 상태
CreatingVM 생성 중
Installing생성된 VM에 Hadoop Eco 컴포넌트를 설치 중
StartingHadoop Eco 컴포넌트가 실행 중
Running모든 컴포넌트가 실행되어 클러스터가 운영 중인 상태
Running(Scale out initializing)클러스터 증설 요청으로 인한 VM 생성을 요청한 상태
Running(Scale out creating)VM 생성 중
Running(Scale out installing)생성된 VM에 Hadoop Eco 컴포넌트를 설치하는 중
Running(Scale out starting)컴포넌트 실행 중
Running(Scale out running)기존 클러스터와 증설된 VM의 동작을 확인 중
Running(Scale in Initializing)클러스터 축소 요청을 받고 대상 VM을 삭제할 수 있는지 확인 중
Running(Scale in ready)축소 대상 VM의 컴포넌트를 종료하는 중
Running(Scale in starting)축소 대상 VM의 컴포넌트 종료가 정상적으로 이루어졌는지 검사 중
Running(Scale in terminating)VM 삭제 중
Failed to scale out증설 대상 VM 생성에 실패한 상태
Failed to scale out vm증설 대상 VM의 컴포넌트 설치, 실행에 실패한 상태
Failed to scale in축소 대상 VM 삭제 중 실패한 상태
Failed to scale in vm축소 대상 VM의 컴포넌트 정상 종료에 실패한 상태
Terminating클러스터를 종료하는 중
Terminated(User)사용자가 클러스터를 종료한 상태
Terminated(UserCommand)작업 스케줄링이 정상적으로 종료되어 클러스터를 종료한 상태
Terminated(Scale in)클러스터를 축소하고 VM이 정상적으로 종료된 상태
Terminated(Error)에러가 발생하여 클러스터를 종료한 상태
Terminated(Failed to create vm)VM 생성 중에 에러가 발생한 상태
Terminated(Failed to destroy vm)VM 종료 중에 에러가 발생한 상태
Terminated(Check time over)컴포넌트 실행 중에 클러스터 생성 시간이 초과된 상태
Terminated(Install error)클러스터 생성 중 컴포넌트 설치, 실행에 실패하여 종료된 상태
Terminated(Failed to scale out)클러스터 증설 실패로 인해 VM이 종료된 상태
Terminated(Failed to scale in)축소 대상 VM 종료에 실패 후 VM이 강제 종료된 상태
Terminated(User deleted VM)사용자가 Hadoop Eco 클러스터 VM을 임의로 삭제
PendingOpen API 활성화 후, Hadoop Eco 생성 요청이 가능한 상태
ProcessingOpen API 활성화 후, Hadoop Eco 생성 및 job scheduling 진행 중

인스턴스와 클러스터 상태

인스턴스는 클러스터를 구성하는 카카오클라우드의 Virtual Machine으로, 인스턴스와 클러스터의 상태는 다를 수 있습니다.
인스턴스와 클러스터의 상태가 다른 경우는 다음과 같습니다.

  • 마스터 노드의 인스턴스가 Active 상태가 아닌 경우, 클러스터 가용성 유형이 Single이면 클러스터가 정상적으로 동작하지 않습니다.
  • 가용성 유형이 HA인 경우, 마스터 1번/2번 노드 인스턴스 중 하나의 노드 인스턴스가 Active 상태면 정상적으로 운영될 수 있습니다.

컴포넌트

Hadoop Eco 클러스터에서 실행되는 컴포넌트 목록은 다음과 같습니다.

Core Hadoop

위치컴포넌트주소
마스터 1번HDFS 네임 노드HDE-2.0.0 미만 : http://{HadoopMST-cluster-1}:50070
HDE-2.0.0 이상 : http://{HadoopMST-cluster-1}:9870
YARN 리소스 매니저http://{HadoopMST-cluster-1}:8088
TimelineServerhttp://{HadoopMST-cluster-1}:8188
JobHistoryServerhttp://{HadoopMST-cluster-1}:19888
SparkHistoryServerhttp://{HadoopMST-cluster-1}:18082
SparkThriftServerhttp://{HadoopMST-cluster-1}:20000
Tez UIhttp://{HadoopMST-cluster-1}:9999
HiveServer2 (HS2)http://{HadoopMST-cluster-1}:10002
Huehttp://{HadoopMST-cluster-1}:8888
Zeppelinhttp://{HadoopMST-cluster-1}:8180
Ooziehttp://{HadoopMST-cluster-1}:11000

HBase

위치컴포넌트주소
마스터 1번HDFS 네임 노드HDE-2.0.0 미만 : http://{HadoopMST-cluster-1}:50070
HDE-2.0.0 이상 : http://{HadoopMST-cluster-1}:9870
YARN 리소스 매니저http://{HadoopMST-cluster-1}:8088
HMasterhttp://{HadoopMST-cluster-1}:16010
TimelineServerhttp://{HadoopMST-cluster-1}:8188
JobHistoryServerhttp://{HadoopMST-cluster-1}:19888
Huehttp://{HadoopMST-cluster-1}:8888

Trino

위치컴포넌트주소
마스터 1번HDFS 네임 노드HDE-2.0.0 미만 : http://{HadoopMST-cluster-1}:50070
HDE-2.0.0 이상 : http://{HadoopMST-cluster-1}:9870
YARN 리소스 매니저http://{HadoopMST-cluster-1}:8088
Trino Coordinatorhttp://{HadoopMST-cluster-1}:8780
TimelineServerhttp://{HadoopMST-cluster-1}:8188
JobHistoryServerhttp://{HadoopMST-cluster-1}:19888
Tez UIhttp://{HadoopMST-cluster-1}:9999
HiveServer2 (HS2)http://{HadoopMST-cluster-1}:10002
Huehttp://{HadoopMST-cluster-1}:8888
Zeppelinhttp://{HadoopMST-cluster-1}:8180

Dataflow

위치컴포넌트주소
마스터 1번HDFS 네임 노드HDE-2.0.0 미만 : http://{HadoopMST-cluster-1}:50070
HDE-2.0.0 이상 : http://{HadoopMST-cluster-1}:9870
YARN 리소스 매니저http://{HadoopMST-cluster-1}:8088
TimelineServerhttp://{HadoopMST-cluster-1}:8188
JobHistoryServerhttp://{HadoopMST-cluster-1}:19888
Kafka 브로커http://{HadoopMST-cluster-1}:9092
Druid 마스터http://{HadoopMST-cluster-1}:3001
Druid 브로커http://{HadoopMST-cluster-1}:3002
Druid 라우터http://{HadoopMST-cluster-1}:3008
Supersethttp://{HadoopMST-cluster-1}:4000
Huehttp://{HadoopMST-cluster-1}:8888

인스턴스

인스턴스는 클러스터 목록에서 확인할 수 있으며, 일반 VM 동작과 동일하게 처리할 수 있습니다.

안내

안정적인 운영을 위해 마스터 노드 인스턴스는 16GB 이상, 워커 노드 인스턴스는 32GB 이상을 권장합니다.

볼륨

볼륨은 인스턴스를 만들 때 이미지가 구성되는 기본 스토리지로, HDFS의 용량입니다. HDFS의 안정적인 운영을 위해서 적절한 사이즈를 선택해야 합니다. 볼륨에 대한 자세한 설명은 볼륨 생성 및 관리 문서를 참고하시기 바랍니다.

네트워크와 보안

Hadoop Eco에서 생성하는 모든 인스턴스는 VPC 환경에서 제공합니다. 클러스터를 구성하기 위해서 보안 그룹을 생성해야 하고, 컴포넌트 구성을 위한 인바운드를 설정해야 클러스터를 생성할 수 있습니다. 네트워크와 보안 설정에 대한 자세한 설명은 보안 그룹을 참고하시기 바랍니다.