AI Insight 개요
카카오클라우드의 AI Insight는 GPU 리소스의 상태와 주요 메트릭을 클러스터, 노드, GPU 단위로 확인할 수 있는 GPU 관제 서비스입니다. 사용자는 전체 GPU 현황을 한눈에 파악하고, 이상 징후가 있는 GPU를 빠르게 식별한 뒤 상세 화면에서 원인을 분석할 수 있습니다.
AI Insight는 GPU 사용률, GPU 메모리 사용률, 온도, 유휴율, ECC Error, XID Event Code, Throttling 등 GPU 운영에 필요한 지표를 제공합니다. Kubernetes Engine(KE) 기반 GPU 노드와 Virtual Machine(VM) 기반 GPU 노드를 모두 확인할 수 있으며, MIG가 구성된 환경에서는 MIG 인스턴스 단위의 상태도 함께 확인할 수 있습니다.
AI Insight에서 메트릭을 확인하려면 대상 환경에 Metric Exporter 또는 모니터링 에이전트가 설치되어 있어야 합니다. 설치되어 있지 않거나 정상적으로 동작하지 않으면 해당 리소스가 Agent Missing 상태로 표시되고, GPU 메트릭이 수집되지 않을 수 있습니다.
주요 기능
| 기능 | 설명 |
|---|---|
| 전체 GPU 현황 확인 | Overview 화면에서 총 GPU 수, 클러스터 수, 노드 수, 평균 GPU 사용률, 평균 메모리 사용률, 평균 온도, ECC Error 수를 확인합니다. |
| GPU 상태 확인 | Active, Idle, Warning, Critical, Pending, Agent Missing 상태별 GPU 수를 확인합니다. |
| GPU Map | GPU, 클러스터, 노드 기준으로 리소스를 시각화하고 상태별 리소스를 탐색합니다. |
| GPU Explorer | Cluster, Node, GPU 단위로 상세 메트릭과 이벤트를 확인합니다. |
| GPU 이벤트 분석 | ECC Error, XID Event Code, Throttling, Overheat 관련 정보를 통해 이상 원인을 확인합니다. |
| MIG 인스턴스 확인 | MIG가 활성화된 GPU의 인스턴스별 사용률과 상태를 확인합니다. |
| 노드 시스템 지표 확인 | VM 또는 KE 노드의 CPU, 메모리, 디스크, 네트워크 지표를 함께 확인합니다. |
GPU 상태 기준
AI Insight는 수집된 GPU 메트릭과 노드 상태를 기준으로 GPU 상태를 표시합니다. 여러 상태 조건을 동시에 만족하는 경우 심각도가 높은 상태가 우선 표시됩니다.
| 상태 | 설명 |
|---|---|
| Active | GPU 연산 또는 메모리를 사용 중인 정상 작동 상태입니다. |
| Idle | GPU 연산 및 메모리 사용이 모두 낮은 유휴 상태입니다. |
| Warning | GPU 온도 상승, SBE ECC Error, 경미한 Thermal/Power Throttling 등 이상 징후가 감지된 상태입니다. |
| Critical | GPU 온도 과다 상승, DBE ECC Error, 심각한 Thermal Throttling, Reliability Violation 등 즉각적인 확인이 필요한 상태입니다. |
| Pending | GPU가 속한 노드가 정지·부팅·재부팅·리사이즈 등 비활성 라이프사이클에 있어 대기로 분류된 상태입니다. |
| Agent Missing | Metric Exporter 또는 모니터링 에이전트가 설치되지 않았거나 정상적으로 동작하지 않아 메트릭을 수집할 수 없는 상태입니다. |
XID Event Code는 GPU 상세 화면에서 정보성 지표로 표시됩니다. 현재 XID Event Code는 Warning 또는 Critical 상태 판정 조건에는 반영되지 않습니다.
화면 구성
AI Insight는 다음 화면으로 구성됩니다.
| 메뉴 | 설명 |
|---|---|
| Overview | 전체 GPU 리소스의 요약 현황, 상태별 GPU 수, GPU Map을 확인하는 화면입니다. |
| GPU Explorer > Cluster | 특정 클러스터에 속한 GPU 리소스의 상태, 메트릭, 이상치, 상관관계를 확인하는 화면입니다. |
| GPU Explorer > Node | 특정 노드의 GPU 상태와 CPU, 메모리, 디스크, 네트워크 등 노드 시스템 지표를 확인하는 화면입니다. |
| GPU Explorer > GPU | 개별 GPU 또는 MIG 인스턴스의 상세 사용률, 메모리 사용률, 온도, 유휴율, Throttling, ECC Error 추이를 확인하는 화면입니다. |
사용 흐름
AI Insight는 다음 흐름으로 사용할 수 있습니다.
- 대상 환경에 Metric Exporter 또는 모니터링 에이전트를 설치합니다.
- AI Insight의 Overview 화면에서 전체 GPU 현황과 상태별 GPU 수를 확인합니다.
- Warning, Critical, Agent Missing 상태가 있는 경우 GPU Map 또는 목록에서 대상 리소스를 선택합니다.
- GPU Explorer에서 Cluster, Node, GPU 단위로 상세 메트릭과 이벤트를 확인합니다.
- 원인에 따라 GPU 온도, ECC Error, Throttling, 노드 시스템 리소스 상태를 함께 점검하고 XID Event Code는 참고 정보로 확인합니다.
사용 전 준비사항
AI Insight의 메트릭 수집 방식은 대상 환경에 따라 다릅니다.
| 대상 환경 | 필요한 구성 | 참고 문서 |
|---|---|---|
| Kubernetes Engine | GPU Operator 및 DCGM Exporter 기반 Metric Exporter 설치 | Metric Exporter 설치 |
| Virtual Machine | DCGM, DCGM Exporter, 모니터링 에이전트 설치 및 Prometheus 입력 설정 | Metric Exporter 설치 |
Metric Exporter 또는 모니터링 에이전트가 설치되어 있지 않거나 정상적으로 동작하지 않으면 GPU 사용률, GPU 메모리 사용률, 온도, ECC Error 등의 메트릭이 수집되지 않습니다.
관련 문서
| 문서 | 설명 |
|---|---|
| 주요 개념 | AI Insight의 구성 요소, GPU 상태, 주요 지표, 이벤트 지표를 설명합니다. |
| Metric Exporter 설치 | KE 및 VM 환경에서 GPU 메트릭을 수집하기 위한 설치 방법을 설명합니다. |
| 전체 GPU 현황 확인 | Overview 화면에서 전체 GPU 현황을 확인하는 방법을 설명합니다. |
| GPU 리소스 상세 조회 | Cluster, Node, GPU 상세 정보를 조회하는 방법을 설명합니다. |