GPU 리소스 상세 조회

GPU Explorer에서는 AI Insight에서 수집한 GPU 리소스의 상태와 메트릭을 클러스터, 노드, GPU 단위로 조회할 수 있습니다. Overview에서 이상 상태의 리소스를 확인한 후, GPU Explorer에서 상세 메트릭과 이벤트를 분석할 수 있습니다.

GPU Explorer 메뉴 이동

카카오클라우드 콘솔에 접속합니다.
AI Service > AI Insight 메뉴로 이동합니다.
좌측 메뉴에서 GPU Explorer를 펼친 후 클러스터, 노드, GPU 중 원하는 메뉴를 클릭합니다.

공통 조회 기능

클러스터, 노드, GPU 상세 화면에서는 다음 공통 기능을 사용할 수 있습니다.

기능	설명
Breadcrumb	현재 조회 중인 리소스 위치를 표시
시간 범위	1시간, 3시간, 12시간, 1일, 7일 중 선택 가능
자동 새로고침	선택한 주기에 따라 화면 데이터를 자동 갱신
수동 새로고침	새로고침 아이콘을 클릭하여 즉시 데이터 갱신
최종 업데이트	마지막으로 데이터가 갱신된 시각 표시
리소스 선택	우측 상단 드롭다운에서 조회할 리소스 선택

클러스터 상세 보기

Cluster 화면에서는 특정 클러스터에 포함된 GPU 리소스의 상태와 메트릭을 확인할 수 있습니다.

좌측 메뉴에서 GPU Explorer > Cluster를 클릭합니다.
우측 상단의 클러스터 선택 드롭다운에서 확인할 클러스터를 선택합니다.
상단 요약 카드에서 GPU 수, 평균/최대 GPU 부하율, 평균/최대 GPU 메모리 사용률, 평균/최대 GPU 온도, 평균/최대 GPU 유휴율, ECC Error 수를 확인합니다.
상태 카드에서 Active, Warning, Critical, Pending, Idle, Agent Missing GPU 수를 확인합니다.
GPU Map에서 이상 상태의 GPU 또는 MIG 인스턴스를 선택합니다.
GPU Metrics, GPU Outlier Detection, GPU Correlation 영역에서 상세 데이터를 확인합니다.

클러스터 화면 구성

영역	설명
요약 카드	클러스터 내 GPU의 주요 메트릭 요약
상태 카드	GPU 상태별 수량 표시
GPU Map	클러스터 내 GPU와 MIG 인스턴스를 시각적으로 표시
GPU Metrics	GPU 사용률, 메모리 사용률, 온도, 유휴율, ECC Error 추이 표시
GPU Outlier Detection	GPU별 평균/최대 메트릭과 피크 시점 표시
GPU Correlation	GPU 사용률과 온도, GPU 사용률과 유휴 시간의 관계 표시

클러스터에서 이상 GPU 확인

상태 카드에서 Warning 또는 Critical GPU 수를 확인합니다.
GPU Map에서 이상 상태의 GPU를 선택합니다.
GPU Metrics에서 온도, ECC Error, Throttling 추이를 확인합니다.
GPU Outlier Detection에서 평균 또는 최대값이 다른 GPU와 다른 리소스가 있는지 확인합니다.
GPU Correlation에서 사용률 대비 온도가 높은 GPU가 있는지 확인합니다.

노드 상세 보기

Node 화면에서는 특정 노드의 시스템 리소스 상태와 해당 노드에 연결된 GPU 상태를 확인할 수 있습니다.

좌측 메뉴에서 GPU Explorer > Node를 클릭합니다.
우측 상단의 노드 선택 드롭다운에서 확인할 노드를 선택합니다.
상단 요약 카드에서 총 GPU 수, 평균/최대 GPU 부하율, 평균/최대 GPU 메모리 사용률, 평균/최대 GPU 온도, 평균/최대 GPU 유휴율, ECC Error 수를 확인합니다.
상태 카드에서 해당 노드의 GPU 상태별 수량을 확인합니다.
Node Status 영역에서 CPU, 메모리, 디스크, 네트워크 메트릭을 확인합니다.
데이터가 표시되지 않는 경우 Agent Missing 상태 또는 메트릭 수집 구성을 확인합니다.

노드 상태 지표

지표	설명
CPU 전체 사용률	노드 전체 CPU 사용률 추이
CPU 코어별 사용률	CPU 코어별 사용률 추이
메모리 전체 사용률	노드 전체 메모리 사용률 추이
디스크 읽기 바이트	디스크 읽기 처리량 추이
디스크 쓰기 바이트	디스크 쓰기 처리량 추이
네트워크 수신 바이트	네트워크 수신 처리량 추이

노드에서 원인 확인

GPU가 Warning 또는 Critical 상태일 때는 GPU 자체의 지표와 함께 노드 상태도 확인합니다.

확인 항목	확인 목적
CPU 사용률	노드 전체 부하가 GPU 워크로드에 영향을 주는지 확인
메모리 사용률	노드 메모리 부족 여부 확인
디스크 읽기/쓰기	데이터 로딩 또는 저장 병목 여부 확인
네트워크 수신	학습 데이터 수신, 분산 학습 통신 등 네트워크 병목 여부 확인
Agent Missing	노드 또는 GPU 메트릭 수집 구성 요소가 정상 동작하는지 확인

GPU 상세 보기

GPU 화면에서는 개별 GPU 또는 MIG 인스턴스의 상세 상태와 메트릭을 확인할 수 있습니다.

좌측 메뉴에서 GPU Explorer > GPU를 클릭합니다.
우측 상단의 GPU 선택 드롭다운에서 확인할 GPU를 선택합니다.
상단 요약 카드에서 GPU 상태, 평균/최대 GPU 사용률, 평균/최대 GPU 메모리 사용률, 평균/최대 GPU 온도, 평균/최대 GPU 유휴율, ECC Error 수를 확인합니다.
GPU Metrics 영역에서 사용률, 메모리 사용률, 온도, 유휴율, 스로틀링, ECC Error 추이를 확인합니다.
MIG가 구성된 경우, 범례 또는 목록에서 MIG 인스턴스별 상태를 확인합니다.

GPU Metrics 지표

지표	설명	해석 방법
GPU Utilization Trend	GPU 사용률 추이	10% 이상이면 Active 조건 중 하나로 판단될 수 있습니다.
GPU Memory Usage Trend	GPU 메모리 사용률 추이	20% 이상이면 Active 조건 중 하나로 판단될 수 있습니다.
GPU Temperature Trend	GPU 온도 추이	85°C 이상 3분 지속 시 Warning, 90°C 이상 2분 지속 시 Critical 조건에 포함될 수 있습니다.
GPU Idle Trend	GPU 유휴율 추이	유휴 GPU 식별에 활용합니다.
GPU Throttling	제한 조건으로 인한 클럭 제한 누적 시간 또는 발생 여부	경미한 Thermal/Power 제한은 Warning, 심각한 Thermal 제한 또는 Reliability 제한 지속은 Critical 원인이 될 수 있습니다.
GPU ECC Error 수	최근 24시간 동안 발생한 ECC Error 수	SBE는 Warning, DBE는 Critical 조건에 포함될 수 있습니다.

상태별 상세 확인 방법

Idle 또는 Active 확인

Idle 또는 Active는 GPU 연산 사용률과 GPU 메모리 사용률을 기준으로 확인합니다.

상태	기준
Idle	GPU 연산 사용률 10% 미만이고 GPU 메모리 사용률 20% 미만
Active	GPU 연산 사용률 10% 이상 또는 GPU 메모리 사용률 20% 이상

MIG가 활성화된 경우 Idle 또는 Active 상태는 MIG 인스턴스별로 다르게 표시될 수 있습니다.

Warning 확인

Warning 상태가 표시되면 다음 지표를 우선 확인합니다.

확인 지표	Warning 조건
GPU Temperature Trend	GPU 온도 85°C 이상이 3분 이상 지속
GPU ECC Error 수	SBE ECC Error 발생
GPU Throttling	최근 5분 동안 Thermal 또는 Power Violation이 30초 이상 증가

Critical 확인

Critical 상태가 표시되면 다음 지표를 우선 확인합니다.

확인 지표	Critical 조건
GPU Temperature Trend	GPU 온도 90°C 이상이 2분 이상 지속
GPU ECC Error 수	DBE ECC Error 발생
GPU Throttling	최근 5분 동안 Thermal Violation이 180초 이상 증가하거나 Reliability Violation이 지속

주의

Critical 상태는 즉각적인 확인 또는 조치가 필요한 상태입니다. GPU 온도, ECC Error, Throttling 지표를 우선 확인하고 필요 시 XID Event Code를 참고하여 워크로드 또는 노드 상태를 점검합니다.

이벤트 지표 해석

이벤트	해석 방법
ECC Error	최근 24시간 동안 발생한 SBE와 DBE ECC Error의 합계입니다. XID, Throttling, Overheat는 포함되지 않습니다.
XID Event Code	마지막으로 감지된 GPU 오류 이벤트 코드입니다. 정보 표시용 지표이며 Warning/Critical 상태 판정에는 반영되지 않습니다. 발생 횟수 확인 용도로는 사용하지 않습니다.
Throttle Event	단순 발생 횟수가 아니라 제한 조건으로 인해 GPU 클럭이 낮아진 누적 시간 또는 발생 여부입니다.
Overheat	GPU 온도 기준 초과 또는 Thermal Violation을 통해 판단합니다. 실제 하드웨어 이벤트 횟수와 다를 수 있습니다.

MIG 환경에서 상태 확인

MIG 환경에서는 Idle 또는 Active는 MIG 인스턴스별로 다르게 표시될 수 있지만, Warning 또는 Critical은 물리 GPU 단위로 동일하게 적용될 수 있습니다.

구분	설명
Idle / Active	MIG 인스턴스별 GPU 사용률과 메모리 사용률에 따라 다르게 표시될 수 있습니다.
Warning / Critical	온도, ECC Error, Throttling이 물리 GPU 단위로 수집되므로 같은 물리 GPU의 MIG 인스턴스에 동일하게 적용될 수 있습니다. XID Event Code도 물리 GPU 단위로 표시될 수 있지만 상태 판정에는 반영되지 않습니다.

이상 상태 확인 흐름

AI Insight에서 이상 상태를 확인할 때는 다음 순서로 탐색하는 것을 권장합니다.

Overview에서 Warning, Critical, Agent Missing 상태의 GPU가 있는지 확인합니다.
GPU Map에서 이상 상태의 리소스를 선택하고 상세 패널을 확인합니다.
GPU Explorer > Cluster에서 해당 클러스터의 전체 GPU 메트릭과 Outlier Detection을 확인합니다.
GPU Explorer > Node에서 해당 GPU가 속한 노드의 CPU, 메모리, 디스크, 네트워크 상태를 확인합니다.
GPU Explorer > GPU에서 개별 GPU의 온도, ECC Error, XID Event Code, Throttle Event를 확인합니다.

데이터가 표시되지 않는 경우

GPU Explorer 화면에 표시할 데이터가 없습니다 문구가 표시되는 경우 다음 항목을 확인합니다.

구분	확인 항목	설명
공통	시간 범위	조회 시간 범위를 변경하여 재조회
공통	새로고침	수동 새로고침 실행
공통	Agent Missing 상태	대상 리소스가 Agent Missing 상태인지 확인
공통	Metric Exporter 또는 모니터링 에이전트	Metric Exporter 또는 모니터링 에이전트 설치 상태 확인
Kubernetes Engine	GPU Operator와 DCGM Exporter	GPU Operator와 `nvidia-dcgm-exporter` Pod 상태 확인

자세한 원인별 확인 방법은 AI Insight 문제 해결을 참고하세요.

GPU Explorer 메뉴 이동​

공통 조회 기능​

클러스터 상세 보기​

클러스터 화면 구성​

클러스터에서 이상 GPU 확인​

노드 상세 보기​

노드 상태 지표​

노드에서 원인 확인​

GPU 상세 보기​

GPU Metrics 지표​

상태별 상세 확인 방법​

Idle 또는 Active 확인​

Warning 확인​

Critical 확인​

이벤트 지표 해석​

MIG 환경에서 상태 확인​

이상 상태 확인 흐름​

데이터가 표시되지 않는 경우​