본문으로 건너뛰기

개요

카카오클라우드의 AI Insight는 GPU 리소스의 상태와 주요 메트릭을 클러스터, 노드, GPU 단위로 확인할 수 있는 GPU 관제 서비스입니다. 사용자는 전체 GPU 현황을 한눈에 파악하고, 이상 징후가 있는 GPU를 빠르게 식별한 뒤 상세 화면에서 원인을 분석할 수 있습니다.

AI Insight는 GPU 사용률, GPU 메모리 사용률, 온도, 유휴율, ECC Error, XID Event Code, Throttling 등 GPU 운영에 필요한 지표를 제공합니다. Kubernetes Engine(KE) 기반 GPU 노드와 Virtual Machine(VM) 기반 GPU 노드를 모두 확인할 수 있으며, MIG가 구성된 환경에서는 MIG 인스턴스 단위의 상태도 함께 확인할 수 있습니다.

안내

AI Insight에서 메트릭을 확인하려면 대상 환경에 Metric Exporter 또는 모니터링 에이전트가 설치되어 있어야 합니다. 설치되어 있지 않거나 정상적으로 동작하지 않으면 해당 리소스가 Agent Missing 상태로 표시되고, GPU 메트릭이 수집되지 않을 수 있습니다.

주요 기능

기능설명
전체 GPU 현황 확인Overview 화면에서 총 GPU 수, 클러스터 수, 노드 수, 평균 GPU 사용률, 평균 메모리 사용률, 평균 온도, ECC Error 수를 확인합니다.
GPU 상태 확인Active, Idle, Warning, Critical, Pending, Agent Missing 상태별 GPU 수를 확인합니다.
GPU MapGPU, 클러스터, 노드 기준으로 리소스를 시각화하고 상태별 리소스를 탐색합니다.
GPU ExplorerCluster, Node, GPU 단위로 상세 메트릭과 이벤트를 확인합니다.
GPU 이벤트 분석ECC Error, XID Event Code, Throttling, Overheat 관련 정보를 통해 이상 원인을 확인합니다.
MIG 인스턴스 확인MIG가 활성화된 GPU의 인스턴스별 사용률과 상태를 확인합니다.
노드 시스템 지표 확인VM 또는 KE 노드의 CPU, 메모리, 디스크, 네트워크 지표를 함께 확인합니다.

GPU 상태 기준

AI Insight는 수집된 GPU 메트릭과 노드 상태를 기준으로 GPU 상태를 표시합니다. 여러 상태 조건을 동시에 만족하는 경우 심각도가 높은 상태가 우선 표시됩니다.

상태설명
ActiveGPU 연산 또는 메모리를 사용 중인 정상 작동 상태입니다.
IdleGPU 연산 및 메모리 사용이 모두 낮은 유휴 상태입니다.
WarningGPU 온도 상승, SBE ECC Error, 경미한 Thermal/Power Throttling 등 이상 징후가 감지된 상태입니다.
CriticalGPU 온도 과다 상승, DBE ECC Error, 심각한 Thermal Throttling, Reliability Violation 등 즉각적인 확인이 필요한 상태입니다.
PendingGPU가 속한 노드가 정지·부팅·재부팅·리사이즈 등 비활성 라이프사이클에 있어 대기로 분류된 상태입니다.
Agent MissingMetric Exporter 또는 모니터링 에이전트가 설치되지 않았거나 정상적으로 동작하지 않아 메트릭을 수집할 수 없는 상태입니다.
참고

XID Event Code는 GPU 상세 화면에서 정보성 지표로 표시됩니다. 현재 XID Event Code는 Warning 또는 Critical 상태 판정 조건에는 반영되지 않습니다.

화면 구성

AI Insight는 다음 화면으로 구성됩니다.

메뉴설명
Overview전체 GPU 리소스의 요약 현황, 상태별 GPU 수, GPU Map을 확인하는 화면입니다.
GPU Explorer > Cluster특정 클러스터에 속한 GPU 리소스의 상태, 메트릭, 이상치, 상관관계를 확인하는 화면입니다.
GPU Explorer > Node특정 노드의 GPU 상태와 CPU, 메모리, 디스크, 네트워크 등 노드 시스템 지표를 확인하는 화면입니다.
GPU Explorer > GPU개별 GPU 또는 MIG 인스턴스의 상세 사용률, 메모리 사용률, 온도, 유휴율, Throttling, ECC Error 추이를 확인하는 화면입니다.

사용 흐름

AI Insight는 다음 흐름으로 사용할 수 있습니다.

  1. 대상 환경에 Metric Exporter 또는 모니터링 에이전트를 설치합니다.
  2. AI Insight의 Overview 화면에서 전체 GPU 현황과 상태별 GPU 수를 확인합니다.
  3. Warning, Critical, Agent Missing 상태가 있는 경우 GPU Map 또는 목록에서 대상 리소스를 선택합니다.
  4. GPU Explorer에서 Cluster, Node, GPU 단위로 상세 메트릭과 이벤트를 확인합니다.
  5. 원인에 따라 GPU 온도, ECC Error, Throttling, 노드 시스템 리소스 상태를 함께 점검하고 XID Event Code는 참고 정보로 확인합니다.

사용 전 준비사항

AI Insight의 메트릭 수집 방식은 대상 환경에 따라 다릅니다.

대상 환경필요한 구성참고 문서
Kubernetes EngineGPU Operator 및 DCGM Exporter 기반 Metric Exporter 설치Metric Exporter 설치
Virtual MachineDCGM, DCGM Exporter, 모니터링 에이전트 설치 및 Prometheus 입력 설정Metric Exporter 설치
주의

Metric Exporter 또는 모니터링 에이전트가 설치되어 있지 않거나 정상적으로 동작하지 않으면 GPU 사용률, GPU 메모리 사용률, 온도, ECC Error 등의 메트릭이 수집되지 않습니다.

문서설명
주요 개념AI Insight의 구성 요소, GPU 상태, 주요 지표, 이벤트 지표를 설명합니다.
Metric Exporter 설치KE 및 VM 환경에서 GPU 메트릭을 수집하기 위한 설치 방법을 설명합니다.
Overview 사용하기Overview 화면에서 전체 GPU 현황을 확인하는 방법을 설명합니다.
GPU Explorer 사용하기Cluster, Node, GPU 상세 화면을 사용하는 방법을 설명합니다.