본문으로 건너뛰기

GPU Explorer 사용하기

GPU Explorer에서는 AI Insight에서 수집한 GPU 리소스의 상태와 메트릭을 클러스터, 노드, GPU 단위로 조회할 수 있습니다. Overview에서 이상 상태의 리소스를 확인한 후, GPU Explorer에서 상세 메트릭과 이벤트를 분석할 수 있습니다.

GPU Explorer 화면 이동

  1. 카카오클라우드 콘솔에 접속합니다.
  2. 상단에서 프로젝트와 리전을 선택합니다.
  3. AI Service > AI Insight 메뉴로 이동합니다.
  4. 좌측 메뉴에서 GPU Explorer를 펼친 후 Cluster, Node, GPU 중 원하는 메뉴를 클릭합니다.

공통 조회 기능

Cluster, Node, GPU 상세 화면에서는 다음 공통 기능을 사용할 수 있습니다.

기능설명
Breadcrumb현재 조회 중인 리소스 위치를 표시
시간 범위1시간, 3시간, 12시간, 1일, 7일 중 선택 가능
자동 새로고침선택한 주기에 따라 화면 데이터를 자동 갱신
수동 새로고침새로고침 아이콘을 클릭하여 즉시 데이터 갱신
최종 업데이트마지막으로 데이터가 갱신된 시각 표시
리소스 선택우측 상단 드롭다운에서 조회할 리소스 선택

Cluster 상세 보기

Cluster 화면에서는 특정 클러스터에 포함된 GPU 리소스의 상태와 메트릭을 확인할 수 있습니다.

  1. 좌측 메뉴에서 GPU Explorer > Cluster를 클릭합니다.
  2. 우측 상단의 클러스터 선택 드롭다운에서 확인할 클러스터를 선택합니다.
  3. 상단 요약 카드에서 GPU 수, 평균/최대 GPU 부하율, 평균/최대 GPU 메모리 사용률, 평균/최대 GPU 온도, 평균/최대 GPU 유휴율, ECC Error 수를 확인합니다.
  4. 상태 카드에서 Active, Warning, Critical, Pending, Idle, Agent Missing GPU 수를 확인합니다.
  5. GPU Map에서 이상 상태의 GPU 또는 MIG 인스턴스를 선택합니다.
  6. GPU Metrics, GPU Outlier Detection, GPU Correlation 영역에서 상세 데이터를 확인합니다.

Cluster 화면 구성

영역설명
요약 카드클러스터 내 GPU의 주요 메트릭 요약
상태 카드GPU 상태별 수량 표시
GPU Map클러스터 내 GPU와 MIG 인스턴스를 시각적으로 표시
GPU MetricsGPU 사용률, 메모리 사용률, 온도, 유휴율, ECC Error 추이 표시
GPU Outlier DetectionGPU별 평균/최대 메트릭과 피크 시점 표시
GPU CorrelationGPU 사용률과 온도, GPU 사용률과 유휴 시간의 관계 표시

Cluster에서 이상 GPU 확인

  1. 상태 카드에서 Warning 또는 Critical GPU 수를 확인합니다.
  2. GPU Map에서 이상 상태의 GPU를 선택합니다.
  3. GPU Metrics에서 온도, ECC Error, Throttling 추이를 확인합니다.
  4. GPU Outlier Detection에서 평균 또는 최대값이 다른 GPU와 다른 리소스가 있는지 확인합니다.
  5. GPU Correlation에서 사용률 대비 온도가 높은 GPU가 있는지 확인합니다.

Node 상세 보기

Node 화면에서는 특정 노드의 시스템 리소스 상태와 해당 노드에 연결된 GPU 상태를 확인할 수 있습니다.

  1. 좌측 메뉴에서 GPU Explorer > Node를 클릭합니다.
  2. 우측 상단의 노드 선택 드롭다운에서 확인할 노드를 선택합니다.
  3. 상단 요약 카드에서 총 GPU 수, 평균/최대 GPU 부하율, 평균/최대 GPU 메모리 사용률, 평균/최대 GPU 온도, 평균/최대 GPU 유휴율, ECC Error 수를 확인합니다.
  4. 상태 카드에서 해당 노드의 GPU 상태별 수량을 확인합니다.
  5. Node Status 영역에서 CPU, 메모리, 디스크, 네트워크 메트릭을 확인합니다.
  6. 데이터가 표시되지 않는 경우 Agent Missing 상태 또는 메트릭 수집 구성을 확인합니다.

Node Status 지표

지표설명
CPU 전체 사용률노드 전체 CPU 사용률 추이
CPU 코어별 사용률CPU 코어별 사용률 추이
메모리 전체 사용률노드 전체 메모리 사용률 추이
디스크 읽기 바이트디스크 읽기 처리량 추이
디스크 쓰기 바이트디스크 쓰기 처리량 추이
네트워크 수신 바이트네트워크 수신 처리량 추이

Node에서 원인 확인

GPU가 Warning 또는 Critical 상태일 때는 GPU 자체의 지표와 함께 노드 상태도 확인합니다.

확인 항목확인 목적
CPU 사용률노드 전체 부하가 GPU 워크로드에 영향을 주는지 확인
메모리 사용률노드 메모리 부족 여부 확인
디스크 읽기/쓰기데이터 로딩 또는 저장 병목 여부 확인
네트워크 수신학습 데이터 수신, 분산 학습 통신 등 네트워크 병목 여부 확인
Agent Missing노드 또는 GPU 메트릭 수집 구성 요소가 정상 동작하는지 확인

GPU 상세 보기

GPU 화면에서는 개별 GPU 또는 MIG 인스턴스의 상세 상태와 메트릭을 확인할 수 있습니다.

  1. 좌측 메뉴에서 GPU Explorer > GPU를 클릭합니다.
  2. 우측 상단의 GPU 선택 드롭다운에서 확인할 GPU를 선택합니다.
  3. 상단 요약 카드에서 GPU 상태, 평균/최대 GPU 사용률, 평균/최대 GPU 메모리 사용률, 평균/최대 GPU 온도, 평균/최대 GPU 유휴율, ECC Error 수를 확인합니다.
  4. GPU Metrics 영역에서 사용률, 메모리 사용률, 온도, 유휴율, 스로틀링, ECC Error 추이를 확인합니다.
  5. MIG가 구성된 경우, 범례 또는 목록에서 MIG 인스턴스별 상태를 확인합니다.

GPU Metrics 지표

지표설명해석 방법
GPU Utilization TrendGPU 사용률 추이10% 이상이면 Active 조건 중 하나로 판단될 수 있습니다.
GPU Memory Usage TrendGPU 메모리 사용률 추이20% 이상이면 Active 조건 중 하나로 판단될 수 있습니다.
GPU Temperature TrendGPU 온도 추이85°C 이상 3분 지속 시 Warning, 90°C 이상 2분 지속 시 Critical 조건에 포함될 수 있습니다.
GPU Idle TrendGPU 유휴율 추이유휴 GPU 식별에 활용합니다.
GPU Throttling제한 조건으로 인한 클럭 제한 누적 시간 또는 발생 여부경미한 Thermal/Power 제한은 Warning, 심각한 Thermal 제한 또는 Reliability 제한 지속은 Critical 원인이 될 수 있습니다.
GPU ECC Error 수최근 24시간 동안 발생한 ECC Error 수SBE는 Warning, DBE는 Critical 조건에 포함될 수 있습니다.

상태별 상세 확인 방법

Idle 또는 Active 확인

Idle 또는 Active는 GPU 연산 사용률과 GPU 메모리 사용률을 기준으로 확인합니다.

상태기준
IdleGPU 연산 사용률 10% 미만이고 GPU 메모리 사용률 20% 미만
ActiveGPU 연산 사용률 10% 이상 또는 GPU 메모리 사용률 20% 이상

MIG가 활성화된 경우 Idle 또는 Active 상태는 MIG 인스턴스별로 다르게 표시될 수 있습니다.

Warning 확인

Warning 상태가 표시되면 다음 지표를 우선 확인합니다.

확인 지표Warning 조건
GPU Temperature TrendGPU 온도 85°C 이상이 3분 이상 지속
GPU ECC Error 수SBE ECC Error 발생
GPU Throttling최근 5분 동안 Thermal 또는 Power Violation이 30초 이상 증가

Critical 확인

Critical 상태가 표시되면 다음 지표를 우선 확인합니다.

확인 지표Critical 조건
GPU Temperature TrendGPU 온도 90°C 이상이 2분 이상 지속
GPU ECC Error 수DBE ECC Error 발생
GPU Throttling최근 5분 동안 Thermal Violation이 180초 이상 증가하거나 Reliability Violation이 지속
주의

Critical 상태는 즉각적인 확인 또는 조치가 필요한 상태입니다. GPU 온도, ECC Error, Throttling 지표를 우선 확인하고 필요 시 XID Event Code를 참고하여 워크로드 또는 노드 상태를 점검합니다.

이벤트 지표 해석

이벤트해석 방법
ECC Error최근 24시간 동안 발생한 SBE와 DBE ECC Error의 합계입니다. XID, Throttling, Overheat는 포함되지 않습니다.
XID Event Code마지막으로 감지된 GPU 오류 이벤트 코드입니다. 정보 표시용 지표이며 Warning/Critical 상태 판정에는 반영되지 않습니다. 발생 횟수 확인 용도로 사용하지 않습니다.
Throttle Event단순 발생 횟수가 아니라 제한 조건으로 인해 GPU 클럭이 낮아진 누적 시간 또는 발생 여부입니다.
OverheatGPU 온도 기준 초과 또는 Thermal Violation을 통해 판단합니다. 실제 하드웨어 이벤트 횟수와 다를 수 있습니다.

MIG 환경에서 상태 확인

MIG 환경에서는 Idle 또는 Active는 MIG 인스턴스별로 다르게 표시될 수 있지만, Warning 또는 Critical은 물리 GPU 단위로 동일하게 적용될 수 있습니다.

구분설명
Idle / ActiveMIG 인스턴스별 GPU 사용률과 메모리 사용률에 따라 다르게 표시될 수 있습니다.
Warning / Critical온도, ECC Error, Throttling이 물리 GPU 단위로 수집되므로 같은 물리 GPU의 MIG 인스턴스에 동일하게 적용될 수 있습니다. XID Event Code도 물리 GPU 단위로 표시될 수 있지만 상태 판정에는 반영되지 않습니다.

이상 상태 확인 흐름

AI Insight에서 이상 상태를 확인할 때는 다음 순서로 탐색하는 것을 권장합니다.

  1. Overview에서 Warning, Critical, Agent Missing 상태의 GPU가 있는지 확인합니다.
  2. GPU Map에서 이상 상태 리소스를 선택하고 상세 패널을 확인합니다.
  3. GPU Explorer > Cluster에서 해당 클러스터의 전체 GPU 메트릭과 Outlier Detection을 확인합니다.
  4. GPU Explorer > Node에서 해당 GPU가 속한 노드의 CPU, 메모리, 디스크, 네트워크 상태를 확인합니다.
  5. GPU Explorer > GPU에서 개별 GPU의 온도, ECC Error, XID Event Code, Throttle Event를 확인합니다.

데이터가 표시되지 않는 경우

GPU Explorer 화면에 표시할 데이터가 없습니다가 표시되는 경우 다음 항목을 확인합니다.

  • 조회 시간 범위를 변경합니다.
  • 수동 새로고침을 실행합니다.
  • 대상 리소스가 Agent Missing 상태인지 확인합니다.
  • Metric Exporter 또는 모니터링 에이전트 설치 상태를 확인합니다.
  • Kubernetes Engine 환경에서는 GPU Operator와 nvidia-dcgm-exporter Pod 상태를 확인합니다.