Skip to main content

Hadoop Eco, 데이터 레이크 아키텍처의 운영 효율성을 위한 기능 추가

· 4 min read
Evan (진은용)
Service Manager
HDE update

기업에서 클라우드 기반의 대규모 데이터 레이크 아키텍처를 설계할 때, 우리는 단순히 데이터를 쌓는 것을 넘어 운영 효율성을 극대화해야 하는 시점에 와 있습니다. 효율성을 확보하기 위해서는 고성능 처리, 컴퓨팅 리소스의 유연한 분리, 그리고 견고한 데이터 거버넌스와 같은 핵심 요소들을 균형 있게 구축하는 것이 필요합니다.

만약 이 균형이 무너진다면, 배치 작업 때문에 실시간 분석 쿼리가 지연되거나 , 필요한 데이터의 위치와 신뢰도를 파악하기 어려워지는 등의 복잡한 문제에 직면하게 됩니다.

카카오클라우드 Hadoop Eco(HDE) 서비스는 이러한 문제를 해결하고 분석 환경의 처리 능력과 운영 관리 역량을 향상시키고자 최근 대규모 업데이트를 진행했습니다. 이번 업데이트는 HDE-2.3.0 신규 버전 출시를 기반으로, 차세대 메타스토어인 Iceberg 카탈로그 연동 개선 및 워크로드에 최적화된 태스크 노드(Task Node) 도입이라는 주요 변경사항을 포함합니다.

이 포스트에서는 이러한 개선사항들을 HDE 서비스 내에서 어떻게 활용하여 분석 워크플로우를 개선할 수 있을지 간략히 소개하겠습니다.

🚀 HDE-2.3.0 신규 버전과 강력한 컴포넌트 추가

이번 업데이트를 통해 HDE-2.3.0 버전이 새롭게 제공되며, 데이터 분석 및 처리 워크플로우를 효과적으로 지원하는 JupyterLab, Impala, Kudu 컴포넌트가 새롭게 추가되었습니다.

HDE 클러스터 생성 HDE 클러스터 생성

  • JupyterLab: 웹 기반의 프로그래밍 및 쉘 환경을 제공하여, 클러스터 노드 내에서 데이터 탐색과 분석 코드를 즉시 실행하는 개발 환경을 제공합니다.
  • Impala: Hive Metastore를 기반으로 Kudu와 같은 데이터 스토어에 대해 빠른 대화형 쿼리를 지원하는 강력한 쿼리 엔진입니다.
  • Kudu: 낮은 지연 시간의 읽기/쓰기를 지원하는 컬럼형 데이터 저장소 역할을 수행합니다.

또한, 데이터 플로우 유형 클러스터의 핵심 컴포넌트인 Druid가 v33.0.0으로, Superset이 v5.0.0으로 최신 버전으로 업그레이드되어 성능과 안정성이 한층 높아졌습니다.

💡 Hadoop Eco 컴포넌트 목록 보기

⚙️ 클러스터 구조의 유연성 확보: 태스크 노드 도입

클러스터 운영에서 까다로운 부분 중 하나는 일괄 처리(Batch)와 대화형 처리(Interactive) 리소스를 분리하여 상호 간섭을 최소화하는 것인데요, 이번 업데이트에서는 태스크 노드(Task node)가 새롭게 도입되면서 운영 부담을 효과적으로 완화할 수 있게 되었습니다.

태스크 노드 설정 태스크 노드 설정

  • 역할 분리: 태스크 노드는 주로 대규모 배치 연산 작업(YARN Job) 실행을 위한 전용 컴퓨팅 리소스로 활용됩니다. 워커 노드와 역할을 분리함으로써, 핵심 데이터 처리 리소스의 안정성을 보장하고 리소스 경합으로 인한 성능 저하를 효과적으로 방지합니다.
  • 용량 계획의 정확성: 태스크 노드 도입에 따라 YARN의 가용 리소스 계산 방식이 태스크 노드의 수와 플레이버까지 포함하도록 변경되었습니다. 이는 클러스터의 용량 계획을 더욱 정확하고 예측 가능하게 만듭니다.

⚠️ 태스크 노드 사용 시 주의 사항: 태스크 노드는 클러스터 생성 시에만 추가할 수 있다는 점을 유의해주세요. 초기 설계 단계에서 태스크 노드 추가 여부를 신중히 결정해야 하며, 생성 후에는 추가할 수 없습니다. (단, 노드 수를 0으로 축소했다가 다시 늘리는 것은 가능합니다.)

🧊 Iceberg 카탈로그 연동, 이제 클릭 한 번으로!

카카오클라우드 Data Catalog 서비스에서 Apache Iceberg 포맷을 정식 지원함에 따라, Hadoop Eco 클러스터 생성 시 Iceberg 카탈로그 연동 방식이 획기적으로 간소화되었습니다.

Iceberg 카탈로그 연동 Iceberg 카탈로그 연동

이번 개선사항이 적용된 Hadoop Eco 서비스에서는 콘솔에서 클러스터 생성 단계의 외부 메타스토어 연동 설정에서 Data Catalog의 Iceberg 카탈로그를 직접 선택하여 연결할 수 있도록 간편하게 기능이 개선되었습니다. 이로써 휴먼 에러를 최소화하고, 연동 시간을 단축하여 바로 분석 작업에 착수할 수 있습니다.

이와 함께 클러스터 삭제 후 데이터 보존 기간(90일)동안 자동 보관 여부를 사용자가 직접 선택할 수 있는 옵션도 추가되었습니다. 이 기능은 불필요한 메타데이터 보존 비용을 방지하고 거버넌스를 명확히 하는 데 활용할 수 있습니다.

이번 Hadoop Eco 서비스 업데이트는 단순한 기능 확장이 아니라, 안정적인 메타데이터 거버넌스, 고성능 대화형 분석 환경, 유연한 컴퓨팅 리소스 관리라는 세 가지 축을 중심으로 데이터 레이크 아키텍처의 운영 효율성을 한층 강화합니다.

카카오클라우드의 새로운 Hadoop Eco 서비스를 통해 분석 워크플로우를 보다 효율적이고 체계적으로 운영해 보시기 바랍니다.

감사합니다.

👉 지금 바로 카카오클라우드 시작하기