주요 개념

카카오클라우드의 AI Insight는 GPU 리소스를 클러스터, 노드, GPU 단위로 탐색하고 주요 메트릭을 확인할 수 있는 GPU 모니터링 서비스입니다. 사용자는 Overview에서 전체 GPU 현황을 확인하고, GPU Explorer에서 특정 클러스터, 노드, GPU의 상세 상태를 분석할 수 있습니다.

AI Insight 구성

AI Insight는 메트릭 수집 구성 요소를 통해 GPU와 노드의 상태 정보를 수집하고, 수집한 데이터를 콘솔 화면에서 시각화합니다.

구성 요소	설명
Metric Exporter	GPU 및 노드 메트릭을 수집하기 위한 구성 요소
Overview	전체 GPU 리소스의 요약 현황과 상태를 확인하는 화면
GPU Explorer	클러스터, 노드, GPU 단위로 상세 정보를 확인하는 메뉴
GPU Map	GPU 리소스의 상태와 관계를 시각적으로 표시하는 맵
GPU Metrics	GPU 사용률, 메모리 사용률, 온도, 유휴율, 오류 이벤트 등의 추이 차트

화면 및 리소스 단위

Overview

Overview는 AI Insight의 진입 화면입니다. 전체 GPU 수, 클러스터 수, 노드 수, 평균 GPU 부하율, 평균 GPU 메모리 사용률, 평균 GPU 온도, ECC Error 수와 같은 요약 정보를 제공합니다. 또한 GPU 상태별 수량과 GPU Map을 통해 이상 상태가 있는 리소스를 빠르게 확인할 수 있습니다.

GPU Explorer

GPU Explorer는 GPU 리소스를 상세하게 탐색하기 위한 메뉴입니다. 다음 하위 메뉴로 구성됩니다.

메뉴	설명
Cluster	특정 클러스터에 속한 GPU 리소스의 상태와 메트릭을 확인
Node	특정 노드의 시스템 메트릭과 해당 노드에 속한 GPU 상태를 확인
GPU	개별 GPU 또는 MIG 인스턴스의 상세 메트릭과 이벤트를 확인

Cluster

Cluster는 Kubernetes Engine 클러스터 또는 GPU 리소스가 속한 논리적 운영 단위입니다. Cluster 화면에서는 해당 클러스터의 GPU 수, 평균/최대 GPU 부하율, 평균/최대 GPU 메모리 사용률, 평균/최대 GPU 온도, 평균/최대 GPU 유휴율, ECC Error 수 등을 확인할 수 있습니다.

Node

Node는 GPU가 장착된 서버 또는 가상 머신 단위입니다. Node 화면에서는 GPU 상태뿐 아니라 CPU, 메모리, 디스크, 네트워크와 같은 노드 시스템 메트릭도 함께 확인할 수 있습니다.

GPU

GPU는 AI Insight에서 가장 상세하게 확인할 수 있는 리소스 단위입니다. GPU 화면에서는 개별 GPU 또는 MIG 인스턴스의 사용률, 메모리 사용률, 온도, 유휴율, 스로틀링, ECC Error 추이를 확인할 수 있습니다.

MIG

MIG(Multi-Instance GPU)는 하나의 물리 GPU를 여러 GPU 인스턴스로 분할하여 사용하는 기능입니다. AI Insight는 MIG가 구성된 GPU를 GPU Map과 상세 화면에서 구분하여 표시할 수 있습니다.

MIG 환경에서는 수집 단위에 따라 상태 표시 방식이 달라질 수 있습니다.

상태 또는 지표	수집 단위	표시 방식
GPU 연산 사용률	MIG 인스턴스 단위	MIG 인스턴스별로 다르게 표시 가능
GPU 메모리 사용률	MIG 인스턴스 단위	MIG 인스턴스별로 다르게 표시 가능
Idle / Active	MIG 인스턴스 단위	같은 물리 GPU 안에서도 MIG 인스턴스별 상태가 다를 수 있음
GPU 온도	물리 GPU 단위	같은 물리 GPU의 MIG 인스턴스에 동일한 기준 적용
ECC Error	물리 GPU 단위	같은 물리 GPU의 MIG 인스턴스에 동일한 값 표시 가능
XID Event Code	물리 GPU 단위	같은 물리 GPU의 MIG 인스턴스에 동일한 값 표시 가능
Throttling	물리 GPU 단위	같은 물리 GPU의 MIG 인스턴스에 동일한 기준 적용
Warning / Critical	물리 GPU 단위	같은 물리 GPU의 MIG 인스턴스가 모두 동일한 상태로 표시될 수 있음

예를 들어 하나의 물리 GPU에서 Warning 조건이 발생하면, 해당 GPU에 속한 모든 MIG 인스턴스가 Warning으로 표시될 수 있습니다.

GPU 0에서 Warning 조건 발생

GPU 0
├─ MIG 0: Warning
├─ MIG 1: Warning
└─ MIG 2: Warning

GPU 상태

AI Insight는 수집된 GPU 메트릭을 기준으로 각 GPU 또는 MIG 인스턴스의 상태를 표시합니다. 여러 상태 조건을 동시에 만족하는 경우에는 심각도가 가장 높은 상태가 우선 표시됩니다.

Idle → Active → Warning → Critical

Agent Missing은 메트릭 수집이 불가능한 상태이므로, 위 상태 우선순위와 별도로 표시될 수 있습니다.

상태	의미	표시 기준
Agent Missing	Metric Exporter 또는 모니터링 에이전트가 설치되지 않았거나 정상적으로 동작하지 않아 메트릭을 수집할 수 없는 상태	대상 리소스에서 메트릭 수집 데이터가 확인되지 않는 경우
Idle	GPU 연산 및 메모리 사용이 모두 낮은 유휴 상태	GPU 연산 사용률이 10% 미만이고 GPU 메모리 사용률이 20% 미만인 경우
Active	GPU가 연산 또는 메모리를 사용 중인 정상 작동 상태	GPU 연산 사용률이 10% 이상이거나 GPU 메모리 사용률이 20% 이상인 경우
Warning	이상 징후가 감지되어 모니터링 강화가 필요한 상태	GPU 온도가 85°C 이상으로 3분 이상 지속되거나, SBE ECC Error, 경미한 Thermal/Power Throttling이 발생한 경우
Critical	즉각적인 확인 또는 조치가 필요한 심각 상태	GPU 온도가 90°C 이상으로 2분 이상 지속되거나, DBE ECC Error, 심각한 Thermal Throttling, Reliability Violation이 발생한 경우
Pending	GPU가 속한 노드가 활성 상태가 아니어서 대기로 분류된 상태	노드가 정지·부팅·재부팅·리사이즈·전원 종료 등 비활성 라이프사이클에 있는 경우

주의

Warning과 Critical 상태는 물리 GPU 단위로 수집되는 지표를 포함합니다. MIG가 활성화된 경우 같은 물리 GPU에 속한 MIG 인스턴스는 Warning 또는 Critical 상태가 동일하게 표시될 수 있습니다.

Warning 상태

Warning은 즉각적인 장애로 단정하기는 어렵지만 모니터링 강화가 필요한 상태입니다. 다음 중 하나 이상에 해당하면 Warning으로 표시될 수 있습니다.

조건	설명
GPU 온도 상승	GPU 온도가 85°C 이상으로 3분 이상 지속되는 경우
SBE ECC Error 발생	수정 가능한 ECC Error가 발생한 경우
Thermal Throttling 발생	최근 5분 동안 Thermal Violation이 30초 이상 증가한 경우
Power Throttling 발생	최근 5분 동안 Power Violation이 30초 이상 증가한 경우

Critical 상태

Critical은 즉각적인 확인 또는 조치가 필요한 심각 상태입니다. 다음 중 하나 이상에 해당하면 Critical로 표시될 수 있습니다.

조건	설명
GPU 온도 과다 상승	GPU 온도가 90°C 이상으로 2분 이상 지속되는 경우
DBE ECC Error 발생	수정 불가능한 ECC Error가 발생한 경우
Reliability Violation 지속	GPU 안정성 보호를 위한 제한이 지속적으로 발생하는 경우
심각한 Thermal Throttling 발생	최근 5분 동안 Thermal Violation이 180초 이상 증가한 경우

GPU 이벤트

AI Insight는 GPU 상태 판단과 상세 분석을 위해 GPU 이벤트 정보를 제공합니다.

이벤트	설명	상태 영향
ECC Error	GPU 메모리에서 감지된 오류	SBE는 Warning, DBE는 Critical 조건에 포함될 수 있음
XID Event Code	NVIDIA GPU에서 발생한 내부 오류 이벤트 코드	정보 표시용 지표이며 Warning/Critical 상태 판정에는 반영되지 않음
Throttle Event	GPU가 전력, 온도, 보드, 안정성 등의 제한 조건으로 인해 클럭을 낮춘 상태	Thermal/Power Throttling은 Warning, 심각한 Thermal Throttling 또는 Reliability Violation은 Critical 조건에 포함될 수 있음
Overheat	GPU 온도가 기준 온도를 초과한 상태	85°C 이상 3분 지속 시 Warning, 90°C 이상 2분 지속 시 Critical 조건에 포함될 수 있음

참고

Throttle Event는 단순 발생 횟수와 동일하지 않을 수 있습니다. GPU가 제한 조건으로 인해 클럭을 낮춘 누적 시간 또는 발생 여부를 기준으로 표시될 수 있으므로, GPU 온도와 전력 상태를 함께 확인하시기 바랍니다.

데이터 조회 기준

AI Insight 화면에서는 1시간, 3시간, 12시간, 1일, 7일과 같은 시간 범위를 선택하여 메트릭을 조회할 수 있습니다. 시간 범위를 변경하면 Resource Summary, GPU Metrics, Outlier Detection, Correlation 등 화면에 표시되는 데이터가 선택한 기간 기준으로 갱신됩니다.

단, ECC Error 수, XID Event Code, Throttling 등 일부 이벤트성 지표는 최근 24시간 기준으로 집계되거나 표시될 수 있습니다. XID Event Code는 정보 표시용 지표이며 GPU 상태 판정에는 반영되지 않습니다. 각 지표의 기준은 AI Insight 메트릭을 참고하시기 바랍니다.

AI Insight 구성​

화면 및 리소스 단위​

Overview​

GPU Explorer​

Cluster​

Node​

GPU​

MIG​

GPU 상태​

Warning 상태​

Critical 상태​

GPU 이벤트​

데이터 조회 기준​