Skip to main content

2 posts tagged with "iceberg"

View All Tags

Hadoop Eco, 데이터 레이크 아키텍처의 운영 효율성을 위한 기능 추가

· 4 min read
Evan (진은용)
Service Manager
HDE update

기업에서 클라우드 기반의 대규모 데이터 레이크 아키텍처를 설계할 때, 우리는 단순히 데이터를 쌓는 것을 넘어 운영 효율성을 극대화해야 하는 시점에 와 있습니다. 효율성을 확보하기 위해서는 고성능 처리, 컴퓨팅 리소스의 유연한 분리, 그리고 견고한 데이터 거버넌스와 같은 핵심 요소들을 균형 있게 구축하는 것이 필요합니다.

만약 이 균형이 무너진다면, 배치 작업 때문에 실시간 분석 쿼리가 지연되거나 , 필요한 데이터의 위치와 신뢰도를 파악하기 어려워지는 등의 복잡한 문제에 직면하게 됩니다.

카카오클라우드 Hadoop Eco(HDE) 서비스는 이러한 문제를 해결하고 분석 환경의 처리 능력과 운영 관리 역량을 향상시키고자 최근 대규모 업데이트를 진행했습니다. 이번 업데이트는 HDE-2.3.0 신규 버전 출시를 기반으로, 차세대 메타스토어인 Iceberg 카탈로그 연동 개선 및 워크로드에 최적화된 태스크 노드(Task Node) 도입이라는 주요 변경사항을 포함합니다.

이 포스트에서는 이러한 개선사항들을 HDE 서비스 내에서 어떻게 활용하여 분석 워크플로우를 개선할 수 있을지 간략히 소개하겠습니다.

🚀 HDE-2.3.0 신규 버전과 강력한 컴포넌트 추가

이번 업데이트를 통해 HDE-2.3.0 버전이 새롭게 제공되며, 데이터 분석 및 처리 워크플로우를 효과적으로 지원하는 JupyterLab, Impala, Kudu 컴포넌트가 새롭게 추가되었습니다.

HDE 클러스터 생성 HDE 클러스터 생성

  • JupyterLab: 웹 기반의 프로그래밍 및 쉘 환경을 제공하여, 클러스터 노드 내에서 데이터 탐색과 분석 코드를 즉시 실행하는 개발 환경을 제공합니다.
  • Impala: Hive Metastore를 기반으로 Kudu와 같은 데이터 스토어에 대해 빠른 대화형 쿼리를 지원하는 강력한 쿼리 엔진입니다.
  • Kudu: 낮은 지연 시간의 읽기/쓰기를 지원하는 컬럼형 데이터 저장소 역할을 수행합니다.

또한, 데이터 플로우 유형 클러스터의 핵심 컴포넌트인 Druid가 v33.0.0으로, Superset이 v5.0.0으로 최신 버전으로 업그레이드되어 성능과 안정성이 한층 높아졌습니다.

💡 Hadoop Eco 컴포넌트 목록 보기

⚙️ 클러스터 구조의 유연성 확보: 태스크 노드 도입

클러스터 운영에서 까다로운 부분 중 하나는 일괄 처리(Batch)와 대화형 처리(Interactive) 리소스를 분리하여 상호 간섭을 최소화하는 것인데요, 이번 업데이트에서는 태스크 노드(Task node)가 새롭게 도입되면서 운영 부담을 효과적으로 완화할 수 있게 되었습니다.

태스크 노드 설정 태스크 노드 설정

  • 역할 분리: 태스크 노드는 주로 대규모 배치 연산 작업(YARN Job) 실행을 위한 전용 컴퓨팅 리소스로 활용됩니다. 워커 노드와 역할을 분리함으로써, 핵심 데이터 처리 리소스의 안정성을 보장하고 리소스 경합으로 인한 성능 저하를 효과적으로 방지합니다.
  • 용량 계획의 정확성: 태스크 노드 도입에 따라 YARN의 가용 리소스 계산 방식이 태스크 노드의 수와 플레이버까지 포함하도록 변경되었습니다. 이는 클러스터의 용량 계획을 더욱 정확하고 예측 가능하게 만듭니다.

⚠️ 태스크 노드 사용 시 주의 사항: 태스크 노드는 클러스터 생성 시에만 추가할 수 있다는 점을 유의해주세요. 초기 설계 단계에서 태스크 노드 추가 여부를 신중히 결정해야 하며, 생성 후에는 추가할 수 없습니다. (단, 노드 수를 0으로 축소했다가 다시 늘리는 것은 가능합니다.)

🧊 Iceberg 카탈로그 연동, 이제 클릭 한 번으로!

카카오클라우드 Data Catalog 서비스에서 Apache Iceberg 포맷을 정식 지원함에 따라, Hadoop Eco 클러스터 생성 시 Iceberg 카탈로그 연동 방식이 획기적으로 간소화되었습니다.

Iceberg 카탈로그 연동 Iceberg 카탈로그 연동

이번 개선사항이 적용된 Hadoop Eco 서비스에서는 콘솔에서 클러스터 생성 단계의 외부 메타스토어 연동 설정에서 Data Catalog의 Iceberg 카탈로그를 직접 선택하여 연결할 수 있도록 간편하게 기능이 개선되었습니다. 이로써 휴먼 에러를 최소화하고, 연동 시간을 단축하여 바로 분석 작업에 착수할 수 있습니다.

이와 함께 클러스터 삭제 후 데이터 보존 기간(90일)동안 자동 보관 여부를 사용자가 직접 선택할 수 있는 옵션도 추가되었습니다. 이 기능은 불필요한 메타데이터 보존 비용을 방지하고 거버넌스를 명확히 하는 데 활용할 수 있습니다.

이번 Hadoop Eco 서비스 업데이트는 단순한 기능 확장이 아니라, 안정적인 메타데이터 거버넌스, 고성능 대화형 분석 환경, 유연한 컴퓨팅 리소스 관리라는 세 가지 축을 중심으로 데이터 레이크 아키텍처의 운영 효율성을 한층 강화합니다.

카카오클라우드의 새로운 Hadoop Eco 서비스를 통해 분석 워크플로우를 보다 효율적이고 체계적으로 운영해 보시기 바랍니다.

감사합니다.

👉 지금 바로 카카오클라우드 시작하기

운영 안정성을 강화한 최신 서비스 업데이트 - Iceberg, PITR, SMS

· 3 min read
Mia (정혜원)
Technical Contents Manager
update

클라우드 운영에서 가장 중요한 가치 중 하나는 바로 안정성입니다. 시스템의 안정성은 단순히 문제를 막는 것에 그치지 않고, 문제가 발생했을 때 얼마나 빨리 복구하고 유연하게 해결할 수 있는지, 그리고 문제 발생을 얼마나 잘 예방하고 대비할 수 있는지에 따라 그 신뢰도가 결정됩니다.

카카오클라우드는 최근 여러 서비스의 업데이트를 통해 이처럼 중요한 운영 안정성(Operational Reliability)을 한층 더 강화했습니다. 안전한 데이터 복원, 시스템 점검의 효율성, 그리고 장애 알림 체계의 신속성을 중심으로 사용자 여러분의 운영 경험을 개선하는 데 중점을 두었는데요.

이번 포스트에서는 운영 안정성을 실질적으로 끌어올릴 수 있는 주목할 만한 세 가지 개선 사항을 자세히 살펴보겠습니다.


🧊 1. 데이터 무결성을 위한 Iceberg 포맷 지원

최근 업데이트에서 주목할 만한 변화는 Data Catalog 서비스에서 Apache Iceberg 포맷을 정식으로 지원하기 시작했다는 점입니다. 넷플릭스에서 개발한 Apache Iceberg대규모 데이터의 변경 이력 추적(Time Travel) 과 특정 시점 복원 기능을 위해 설계된 강력한 오픈소스 테이블 포맷입니다.

이제 카카오클라우드 Data Catalog에서 Iceberg 카탈로그 유형을 선택할 수 있습니다. 기존 Hive Metastore 기반의 Standard 유형 외에 Iceberg가 추가되면서, 대규모 데이터 환경에서도 버전 관리와 시점 복원이 훨씬 간단해졌습니다. 데이터 손실이나 오류가 발생하더라도 이전 상태로 쉽게 복원할 수 있으며, Spark와 Trino 등 주요 분석 엔진과의 연동도 즉시 활용 가능합니다.

이 업데이트를 통해 카카오클라우드 Data Catalog는 대규모 데이터의 무결성과 복원력을 실무 수준에서 완벽하게 지원하며, 분석 환경 전반의 데이터 신뢰도를 한층 높이는 효과를 기대할 수 있습니다.

📝 Apache Iceberg 카탈로그 자세히 보기

⏪ 2. 시점 복원(PITR)으로 복구 신뢰도 강화

데이터베이스는 클라우드 운영 안정성에서 가장 중요한 요소 중 하나입니다. 이러한 데이터베이스 시스템에서 복구 기능의 신뢰도를 높이는 것은 정말 중요한데요. 이번 MySQL 업데이트에서는 많은 고객분들이 기다려온 시점 복원(Point-in-Time Recovery, PITR) 기능이 새롭게 추가되었습니다.

자동 백업과 Binary Log를 기반으로 원하는 시점을 지정하면, 해당 시점의 상태로 새로운 인스턴스 그룹을 복원할 수 있습니다. 초 단위까지 복원 시점을 지정할 수 있게 되어, 실수나 오류로 인한 데이터 손실에도 매우 유연하게 대처가 가능합니다.

💡 참고해주세요! 현재 서비스 안정성을 위해 시점 복원 시에는 가용성 단일 구성을 지원합니다. 고가용성(HA) 구성이 필요한 경우에는 복원 완료 후 인스턴스를 추가하여 확장하는 것을 권장합니다.

여기에 더해, 인스턴스 운영 중에도 보안 그룹을 수정할 수 있게 되어 네트워크 제어의 유연성이 높아졌습니다. 또한, 계정 관리용 프로시저도 개선되어 비밀번호 정책이 프로시저 사용 시에도 동일하게 적용됩니다. 이처럼 세밀한 보안 및 복구 기능의 개선은 실제 운영 환경에서 안정성을 실질적으로 높여주는 중요한 변화입니다.

📝 MySQL 시점 복원 자세히 보기

📩 3. 알림 속도는 곧 대응 속도

운영자가 시스템의 상태를 얼마나 빨리 인지하느냐에 따라 문제 발생 시 대응의 결과가 달라집니다. Maintenance 서비스에서는 이번 업데이트를 통해 기존 이메일 외에 SMS 알림 기능을 새롭게 도입했습니다. 점검 작업 실패나 중요한 이벤트가 발생하면, 등록된 휴대폰 번호로 즉시 알림이 발송됩니다. 이제 이메일을 확인하지 못하더라도 문제 상황을 실시간으로 인지하고 조치할 수 있습니다.

💡 참고해주세요! SMS 알림은 빠른 조치가 필요한 이벤트에만 발송되며, 프로젝트 관리자가 유효한 연락처 정보를 미리 등록해야 합니다.

📝 Maintenance 서비스 자세히 보기


이번 세 가지 업데이트는 서로 다른 서비스에서 진행되었지만, 공통적으로 같은 방향을 향하고 있습니다. 데이터는 손실 없이 안전하게 복원되고, 보안 설정을 더 유연해졌으며, 장애는 더 빠르게 감지할 수 있게 되었죠. 이것이 바로 카카오클라우드가 지향하는 운영 복원력(Resilience) 입니다. 데이터에서 알림까지, 운영의 전 과정을 아우르는 안정성 개선은 앞으로도 계속 이어질 예정입니다.

카카오클라우드는 고객의 운영 환경이 더욱 안정적이고 예측 가능하도록 기술적 완성도를 계속 높여가겠습니다.
앞으로도 많은 관심과 응원 부탁드립니다!

👉 지금 바로 카카오클라우드 시작하기