GPU Explorer 사용하기
GPU Explorer에서는 AI Insight에서 수집한 GPU 리소스의 상태와 메트릭을 클러스터, 노드, GPU 단위로 조회할 수 있습니다. Overview에서 이상 상태의 리소스를 확인한 후, GPU Explorer에서 상세 메트릭과 이벤트를 분석할 수 있습니다.
GPU Explorer 화면 이동
- 카카오클라우드 콘솔에 접속합니다.
- 상단에서 프로젝트와 리전을 선택합니다.
- AI Service > AI Insight 메뉴로 이동합니다.
- 좌측 메뉴에서 GPU Explorer를 펼친 후 Cluster, Node, GPU 중 원하는 메뉴를 클릭합니다.
공통 조회 기능
Cluster, Node, GPU 상세 화면에서는 다음 공통 기능을 사용할 수 있습니다.
| 기능 | 설명 |
|---|---|
| Breadcrumb | 현재 조회 중인 리소스 위치를 표시 |
| 시간 범위 | 1시간, 3시간, 12시간, 1일, 7일 중 선택 가능 |
| 자동 새로고침 | 선택한 주기에 따라 화면 데이터를 자동 갱신 |
| 수동 새로고침 | 새로고침 아이콘을 클릭하여 즉시 데이터 갱신 |
| 최종 업데이트 | 마지막으로 데이터가 갱신된 시각 표시 |
| 리소스 선택 | 우측 상단 드롭다운에서 조회할 리소스 선택 |
Cluster 상세 보기
Cluster 화면에서는 특정 클러스터에 포함된 GPU 리소스의 상태와 메트릭을 확인할 수 있습니다.
- 좌측 메뉴에서 GPU Explorer > Cluster를 클릭합니다.
- 우측 상단의 클러스터 선택 드롭다운에서 확인할 클러스터를 선택합니다.
- 상단 요약 카드에서 GPU 수, 평균/최대 GPU 부하율, 평균/최대 GPU 메모리 사용률, 평균/최대 GPU 온도, 평균/최대 GPU 유휴율, ECC Error 수를 확인합니다.
- 상태 카드에서 Active, Warning, Critical, Pending, Idle, Agent Missing GPU 수를 확인합니다.
- GPU Map에서 이상 상태의 GPU 또는 MIG 인스턴스를 선택합니다.
- GPU Metrics, GPU Outlier Detection, GPU Correlation 영역에서 상세 데이터를 확인합니다.
Cluster 화면 구성
| 영역 | 설명 |
|---|---|
| 요약 카드 | 클러스터 내 GPU의 주요 메트릭 요약 |
| 상태 카드 | GPU 상태별 수량 표시 |
| GPU Map | 클러스터 내 GPU와 MIG 인스턴스를 시각적으로 표시 |
| GPU Metrics | GPU 사용률, 메모리 사용률, 온도, 유휴율, ECC Error 추이 표시 |
| GPU Outlier Detection | GPU별 평균/최대 메트릭과 피크 시점 표시 |
| GPU Correlation | GPU 사용률과 온도, GPU 사용률과 유휴 시간의 관계 표시 |
Cluster에서 이상 GPU 확인
- 상태 카드에서 Warning 또는 Critical GPU 수를 확인합니다.
- GPU Map에서 이상 상태의 GPU를 선택합니다.
- GPU Metrics에서 온도, ECC Error, Throttling 추이를 확인합니다.
- GPU Outlier Detection에서 평균 또는 최대값이 다른 GPU와 다른 리소스가 있는지 확인합니다.
- GPU Correlation에서 사용률 대비 온도가 높은 GPU가 있는지 확인합니다.
Node 상세 보기
Node 화면에서는 특정 노드의 시스템 리소스 상태와 해당 노드에 연결된 GPU 상태를 확인할 수 있습니다.
- 좌측 메뉴에서 GPU Explorer > Node를 클릭합니다.
- 우측 상단의 노드 선택 드롭다운에서 확인할 노드를 선택합니다.
- 상단 요약 카드에서 총 GPU 수, 평균/최대 GPU 부하율, 평균/최대 GPU 메모리 사용률, 평균/최대 GPU 온도, 평균/최대 GPU 유휴율, ECC Error 수를 확인합니다.
- 상태 카드에서 해당 노드의 GPU 상태별 수량을 확인합니다.
- Node Status 영역에서 CPU, 메모리, 디스크, 네트워크 메트릭을 확인합니다.
- 데이터가 표시되지 않는 경우 Agent Missing 상태 또는 메트릭 수집 구성을 확인합니다.
Node Status 지표
| 지표 | 설명 |
|---|---|
| CPU 전체 사용률 | 노드 전체 CPU 사용률 추이 |
| CPU 코어별 사용률 | CPU 코어별 사용률 추이 |
| 메모리 전체 사용률 | 노드 전체 메모리 사용률 추이 |
| 디스크 읽기 바이트 | 디스크 읽기 처리량 추이 |
| 디스크 쓰기 바이트 | 디스크 쓰기 처리량 추이 |
| 네트워크 수신 바이트 | 네트워크 수신 처리량 추이 |
Node에서 원인 확인
GPU가 Warning 또는 Critical 상태일 때는 GPU 자체의 지표와 함께 노드 상태도 확인합니다.
| 확인 항목 | 확인 목적 |
|---|---|
| CPU 사용률 | 노드 전체 부하가 GPU 워크로드에 영향을 주는지 확인 |
| 메모리 사용률 | 노드 메모리 부족 여부 확인 |
| 디스크 읽기/쓰기 | 데이터 로딩 또는 저장 병목 여부 확인 |
| 네트워크 수신 | 학습 데이터 수신, 분산 학습 통신 등 네트워크 병목 여부 확인 |
| Agent Missing | 노드 또는 GPU 메트릭 수집 구성 요소가 정상 동작하는지 확인 |
GPU 상세 보기
GPU 화면에서는 개별 GPU 또는 MIG 인스턴스의 상세 상태와 메트릭을 확인할 수 있습니다.
- 좌측 메뉴에서 GPU Explorer > GPU를 클릭합니다.
- 우측 상단의 GPU 선택 드롭다운에서 확인할 GPU를 선택합니다.
- 상단 요약 카드에서 GPU 상태, 평균/최대 GPU 사용률, 평균/최대 GPU 메모리 사용률, 평균/최대 GPU 온도, 평균/최대 GPU 유휴율, ECC Error 수를 확인합니다.
- GPU Metrics 영역에서 사용률, 메모리 사용률, 온도, 유휴율, 스로틀링, ECC Error 추이를 확인합니다.
- MIG가 구성된 경우, 범례 또는 목록에서 MIG 인스턴스별 상태를 확인합니다.
GPU Metrics 지표
| 지표 | 설명 | 해석 방법 |
|---|---|---|
| GPU Utilization Trend | GPU 사용률 추이 | 10% 이상이면 Active 조건 중 하나로 판단될 수 있습니다. |
| GPU Memory Usage Trend | GPU 메모리 사용률 추이 | 20% 이상이면 Active 조건 중 하나로 판단될 수 있습니다. |
| GPU Temperature Trend | GPU 온도 추이 | 85°C 이상 3분 지속 시 Warning, 90°C 이상 2분 지속 시 Critical 조건에 포함될 수 있습니다. |
| GPU Idle Trend | GPU 유휴율 추이 | 유휴 GPU 식별에 활용합니다. |
| GPU Throttling | 제한 조건으로 인한 클럭 제한 누적 시간 또는 발생 여부 | 경미한 Thermal/Power 제한은 Warning, 심각한 Thermal 제한 또는 Reliability 제한 지속은 Critical 원인이 될 수 있습니다. |
| GPU ECC Error 수 | 최근 24시간 동안 발생한 ECC Error 수 | SBE는 Warning, DBE는 Critical 조건에 포함될 수 있습니다. |
상태별 상세 확인 방법
Idle 또는 Active 확인
Idle 또는 Active는 GPU 연산 사용률과 GPU 메모리 사용률을 기준으로 확인합니다.
| 상태 | 기준 |
|---|---|
| Idle | GPU 연산 사용률 10% 미만이고 GPU 메모리 사용률 20% 미만 |
| Active | GPU 연산 사용률 10% 이상 또는 GPU 메모리 사용률 20% 이상 |
MIG가 활성화된 경우 Idle 또는 Active 상태는 MIG 인스턴스별로 다르게 표시될 수 있습니다.
Warning 확인
Warning 상태가 표시되면 다음 지표를 우선 확인합니다.
| 확인 지표 | Warning 조건 |
|---|---|
| GPU Temperature Trend | GPU 온도 85°C 이상이 3분 이상 지속 |
| GPU ECC Error 수 | SBE ECC Error 발생 |
| GPU Throttling | 최근 5분 동안 Thermal 또는 Power Violation이 30초 이상 증가 |
Critical 확인
Critical 상태가 표시되면 다음 지표를 우선 확인합니다.
| 확인 지표 | Critical 조건 |
|---|---|
| GPU Temperature Trend | GPU 온도 90°C 이상이 2분 이상 지속 |
| GPU ECC Error 수 | DBE ECC Error 발생 |
| GPU Throttling | 최근 5분 동안 Thermal Violation이 180초 이상 증가하거나 Reliability Violation이 지속 |
Critical 상태는 즉각적인 확인 또는 조치가 필요한 상태입니다. GPU 온도, ECC Error, Throttling 지표를 우선 확인하고 필요 시 XID Event Code를 참고하여 워크로드 또는 노드 상태를 점검합니다.
이벤트 지표 해석
| 이벤트 | 해석 방법 |
|---|---|
| ECC Error | 최근 24시간 동안 발생한 SBE와 DBE ECC Error의 합계입니다. XID, Throttling, Overheat는 포함되지 않습니다. |
| XID Event Code | 마지막으로 감지된 GPU 오류 이벤트 코드입니다. 정보 표시용 지표이며 Warning/Critical 상태 판정에는 반영되지 않습니다. 발생 횟수 확인 용도로 사용하지 않습니다. |
| Throttle Event | 단순 발생 횟수가 아니라 제한 조건으로 인해 GPU 클럭이 낮아진 누적 시간 또는 발생 여부입니다. |
| Overheat | GPU 온도 기준 초과 또는 Thermal Violation을 통해 판단합니다. 실제 하드웨어 이벤트 횟수와 다를 수 있습니다. |
MIG 환경에서 상태 확인
MIG 환경에서는 Idle 또는 Active는 MIG 인스턴스별로 다르게 표시될 수 있지만, Warning 또는 Critical은 물리 GPU 단위로 동일하게 적용될 수 있습니다.
| 구분 | 설명 |
|---|---|
| Idle / Active | MIG 인스턴스별 GPU 사용률과 메모리 사용률에 따라 다르게 표시될 수 있습니다. |
| Warning / Critical | 온도, ECC Error, Throttling이 물리 GPU 단위로 수집되므로 같은 물리 GPU의 MIG 인스턴스에 동일하게 적용될 수 있습니다. XID Event Code도 물리 GPU 단위로 표시될 수 있지만 상태 판정에는 반영되지 않습니다. |
이상 상태 확인 흐름
AI Insight에서 이상 상태를 확인할 때는 다음 순서로 탐색하는 것을 권장합니다.
- Overview에서 Warning, Critical, Agent Missing 상태의 GPU가 있는지 확인합니다.
- GPU Map에서 이상 상태 리소스를 선택하고 상세 패널을 확인합니다.
- GPU Explorer > Cluster에서 해당 클러스터의 전체 GPU 메트릭과 Outlier Detection을 확인합니다.
- GPU Explorer > Node에서 해당 GPU가 속한 노드의 CPU, 메모리, 디스크, 네트워크 상태를 확인합니다.
- GPU Explorer > GPU에서 개별 GPU의 온도, ECC Error, XID Event Code, Throttle Event를 확인합니다.
데이터가 표시되지 않는 경우
GPU Explorer 화면에 표시할 데이터가 없습니다가 표시되는 경우 다음 항목을 확인합니다.
- 조회 시간 범위를 변경합니다.
- 수동 새로고침을 실행합니다.
- 대상 리소스가 Agent Missing 상태인지 확인합니다.
- Metric Exporter 또는 모니터링 에이전트 설치 상태를 확인합니다.
- Kubernetes Engine 환경에서는 GPU Operator와
nvidia-dcgm-exporterPod 상태를 확인합니다.