Hadoop Eco Dataflow 클러스터 제공
아래 내용은 2023년 12월 기준으로 작성된 Hadoop Eco 서비스의 설명글입니다. 카카오클라우드 Hadoop Eco 서비스의 최신 정보는 Hadoop Eco 문서를 참조하시기 바랍니다.
세계적인 정보 기술(IT) 연구 및 컨설팅 기업인 Gartner는 매년 Data & Analysis(D&A) 트렌드를 연구하여 발표하고 있습니다.
올해 Gartner가 발표한 보고서(Gartner Identifies the Top 10 Data and Analytics Trends for 2023)를 보면, 데이터/분석팀은 데이터 자원을 관리하고 그 안에서 인사이트를 창출하는 '그 이상'을 수행해야 한다고 언급하고 있습니다. 그저 방대한 데이터를 수집하는 것을 넘어서, '올바른 데이터를 적절한 툴을 이용하여 적절한 시점에 수집하고, 여기서 사업적인 인사이트를 도출'하는 것을 요구하고 있습니다. 이를 위해, 기업의 데이터/분석팀은 가치 최적화(Value optimization), 데이터 공유(Data Sharing), 데이터 관찰(Observability), 데이터 및 분석 지속성(Data & analytics sustainability), 데이터 패브릭(Data fablic) 등의 트렌드를 따라야 한다고 제시합니다.
이렇 게 시시각각 발전해 나가는 데이터 분석 트렌드에 지속적으로 부합하고자, 카카오클라우드에서는 2023년 11월 Hadoop Eco 서비스에 Dataflow 클러스터 타입을 새롭게 추가했음을 알려드립니다. 기존, Hadoop Eco 서비스에는 Core Hadoop, HBase, Trino 타입이 제공되고 있었지만, 이번 Dataflow 클러스터의 추가로 Hadoop, Kafka, Druid, Superset을 통한 데이터 수집/분석이 가능해 졌습니다.
Apache Beam이 제공하는 Dataflow는 전 세계 사용자들에게 많은 선택을 받는 통합 배치 및 스트리밍 데이터 처리 모델 중 하나입니다. Dataflow는 자동 확장 및 일괄 처리를 통해 지연 시간, 처리 시간, 비용을 최소화하는 스트리밍 데이터 분석에 최적화된 완전 관리형 오픈소스 프레임워크로, 다양한 프레임워크(Flink, Spark 등)에 대한 광범위한 지원 및 다양한 언어 지원이 가능합니다.
카카오클라우드 Hadoop Eco 서비스에 새롭게 추가된 Dataflow 클러스터를 통해, 사용자는 다음의 특징을 경험하실 수 있습니다.
- 데이터 수집 및 분석 효율화: Kafka를 통해 데이터를 효율적으로 수집하고, Druid와 Superset을 활용하여 데이터를 실시간으로 분석할 수 있습니다.
- 다양한 분석 도구 제공: Druid, Superset을 통해 데이터를 시각화하고 다양한 분석 작업을 수행할 수 있습니다.
- 확장성 및 고가용성: 클러스터 운영 안정성을 고려하여 표준(Single)과 고가용성(HA) 타입을 제공합니다.
표준(Single) 모드는 마스터 노드 인스턴스 1개로 리소스 매니저, 네임 노드가 1개 실행되어 소규모 작업에 적합합니다. 고가용성 (HA)의 경우, 마스터 노드 인스턴스 3개가 제공되며 리소스 매니저, 네임 노드가 HA 모드로 실행됩니다. 3개의 마스터 노드를 생성, 재부팅 등이 발생해도 중단없는 작업이 가능합니다.
Dataflow 클러스터 선택하기
이제 카카오클라우드 Hadoop Eco에서 Apache Beam이 제공하는 통합 배치 및 스트리밍 데이터 처리 모델인 Dataflow를 경험해 보시기 바랍니다.
감사합니다.
Hadoop Eco Dataflow 타입을 이용한 실시간 웹서버 로그 분석 및 모니터링 핸즈온 튜토리얼에서 Dataflow 클러스터를 활용하여 효율적으로 데이터를 수집하고 분석하는 방법을 자세히 확인하실 수 있습니다.