AI Insight 개요

카카오클라우드의 AI Insight는 GPU 리소스의 상태와 주요 메트릭을 클러스터, 노드, GPU 단위로 확인할 수 있는 GPU 관제 서비스입니다. 사용자는 전체 GPU 현황을 한눈에 파악하고, 이상 징후가 있는 GPU를 빠르게 식별한 뒤 상세 화면에서 원인을 분석할 수 있습니다.

AI Insight는 GPU 사용률, GPU 메모리 사용률, 온도, 유휴율, ECC Error, XID Event Code, Throttling 등 GPU 운영에 필요한 지표를 제공합니다. Kubernetes Engine(KE) 기반 GPU 노드와 Virtual Machine(VM) 기반 GPU 노드를 모두 확인할 수 있으며, MIG가 구성된 환경에서는 MIG 인스턴스 단위의 상태도 함께 확인할 수 있습니다.

안내

AI Insight에서 메트릭을 확인하려면 대상 환경에 Metric Exporter 또는 모니터링 에이전트가 설치되어 있어야 합니다. 설치되어 있지 않거나 정상적으로 동작하지 않으면 해당 리소스가 Agent Missing 상태로 표시되고, GPU 메트릭이 수집되지 않을 수 있습니다.

주요 기능

기능	설명
전체 GPU 현황 확인	Overview 화면에서 총 GPU 수, 클러스터 수, 노드 수, 평균 GPU 사용률, 평균 메모리 사용률, 평균 온도, ECC Error 수를 확인합니다.
GPU 상태 확인	Active, Idle, Warning, Critical, Pending, Agent Missing 상태별 GPU 수를 확인합니다.
GPU Map	GPU, 클러스터, 노드 기준으로 리소스를 시각화하고 상태별 리소스를 탐색합니다.
GPU Explorer	Cluster, Node, GPU 단위로 상세 메트릭과 이벤트를 확인합니다.
GPU 이벤트 분석	ECC Error, XID Event Code, Throttling, Overheat 관련 정보를 통해 이상 원인을 확인합니다.
MIG 인스턴스 확인	MIG가 활성화된 GPU의 인스턴스별 사용률과 상태를 확인합니다.
노드 시스템 지표 확인	VM 또는 KE 노드의 CPU, 메모리, 디스크, 네트워크 지표를 함께 확인합니다.

GPU 상태 기준

AI Insight는 수집된 GPU 메트릭과 노드 상태를 기준으로 GPU 상태를 표시합니다. 여러 상태 조건을 동시에 만족하는 경우 심각도가 높은 상태가 우선 표시됩니다.

상태	설명
Active	GPU 연산 또는 메모리를 사용 중인 정상 작동 상태입니다.
Idle	GPU 연산 및 메모리 사용이 모두 낮은 유휴 상태입니다.
Warning	GPU 온도 상승, SBE ECC Error, 경미한 Thermal/Power Throttling 등 이상 징후가 감지된 상태입니다.
Critical	GPU 온도 과다 상승, DBE ECC Error, 심각한 Thermal Throttling, Reliability Violation 등 즉각적인 확인이 필요한 상태입니다.
Pending	GPU가 속한 노드가 정지·부팅·재부팅·리사이즈 등 비활성 라이프사이클에 있어 대기로 분류된 상태입니다.
Agent Missing	Metric Exporter 또는 모니터링 에이전트가 설치되지 않았거나 정상적으로 동작하지 않아 메트릭을 수집할 수 없는 상태입니다.

참고

XID Event Code는 GPU 상세 화면에서 정보성 지표로 표시됩니다. 현재 XID Event Code는 Warning 또는 Critical 상태 판정 조건에는 반영되지 않습니다.

AI Insight는 다음 화면으로 구성됩니다.

메뉴	설명
Overview	전체 GPU 리소스의 요약 현황, 상태별 GPU 수, GPU Map을 확인하는 화면입니다.
GPU Explorer > Cluster	특정 클러스터에 속한 GPU 리소스의 상태, 메트릭, 이상치, 상관관계를 확인하는 화면입니다.
GPU Explorer > Node	특정 노드의 GPU 상태와 CPU, 메모리, 디스크, 네트워크 등 노드 시스템 지표를 확인하는 화면입니다.
GPU Explorer > GPU	개별 GPU 또는 MIG 인스턴스의 상세 사용률, 메모리 사용률, 온도, 유휴율, Throttling, ECC Error 추이를 확인하는 화면입니다.

사용 흐름

AI Insight는 다음 흐름으로 사용할 수 있습니다.

대상 환경에 Metric Exporter 또는 모니터링 에이전트를 설치합니다.
AI Insight의 Overview 화면에서 전체 GPU 현황과 상태별 GPU 수를 확인합니다.
Warning, Critical, Agent Missing 상태가 있는 경우 GPU Map 또는 목록에서 대상 리소스를 선택합니다.
GPU Explorer에서 Cluster, Node, GPU 단위로 상세 메트릭과 이벤트를 확인합니다.
원인에 따라 GPU 온도, ECC Error, Throttling, 노드 시스템 리소스 상태를 함께 점검하고 XID Event Code는 참고 정보로 확인합니다.

사용 전 준비사항

AI Insight의 메트릭 수집 방식은 대상 환경에 따라 다릅니다.

대상 환경	필요한 구성	참고 문서
Kubernetes Engine	GPU Operator 및 DCGM Exporter 기반 Metric Exporter 설치	Metric Exporter 설치
Virtual Machine	DCGM, DCGM Exporter, 모니터링 에이전트 설치 및 Prometheus 입력 설정	Metric Exporter 설치

주의

Metric Exporter 또는 모니터링 에이전트가 설치되어 있지 않거나 정상적으로 동작하지 않으면 GPU 사용률, GPU 메모리 사용률, 온도, ECC Error 등의 메트릭이 수집되지 않습니다.

문서	설명
주요 개념	AI Insight의 구성 요소, GPU 상태, 주요 지표, 이벤트 지표를 설명합니다.
Metric Exporter 설치	KE 및 VM 환경에서 GPU 메트릭을 수집하기 위한 설치 방법을 설명합니다.
전체 GPU 현황 확인	Overview 화면에서 전체 GPU 현황을 확인하는 방법을 설명합니다.
GPU 리소스 상세 조회	Cluster, Node, GPU 상세 정보를 조회하는 방법을 설명합니다.

주요 기능​

GPU 상태 기준​

화면 구성​

사용 흐름​

사용 전 준비사항​

관련 문서​

주요 기능

GPU 상태 기준

화면 구성

사용 흐름

사용 전 준비사항

관련 문서