AI Insight 문제 해결
본 문서는 AI Insight 서비스와 관련된 주요 문제와 해결 방법을 정리한 문서입니다.
Agent Missing으로 표시되는 경우
AI Insight에서 리소스가 Agent Missing 상태로 표시되는 경우, 대상 환경에서 메트릭 수집 구성 요소가 설치되어 있지 않거나 정상적으로 동작하지 않을 수 있습니다. Agent Missing 상태에서는 GPU 메트릭이 수집되지 않으며 화면에 데이터가 표시되지 않을 수 있습니다.
원인 1: Metric Exporter 또는 모니터링 에이전트가 설치되지 않은 경우
▶️ 해결 방법: 대상 환경에 맞는 메트릭 수집 구성 요소를 설치합니다.
| 환경 | 해결 방법 |
|---|---|
| Kubernetes Engine | Metric Exporter 설치 참고 |
| Virtual Machine | Metric Exporter 설치에서 VM 설치 절차 참고 |
원인 2: GPU Operator 관련 Pod가 정상 실행되지 않는 경우
▶️ 해결 방법: GPU Operator 네임스페이스의 Pod 상태를 확인합니다.
kubectl get pods -n gpu-operator
Pod가 Running 상태가 아닌 경우, 해당 Pod의 이벤트와 로그를 확인합니다.
kubectl describe pod POD_NAME -n gpu-operator
kubectl logs -n gpu-operator daemonset/nvidia-dcgm-exporter
원인 3: dcgm-exporter hostNetwork 설정이 누락된 경우
▶️ 해결 방법: nvidia-dcgm-exporter Pod에 hostNetwork와 dnsPolicy가 적용되어 있는지 확인합니다.
kubectl get pod -n gpu-operator -l app=nvidia-dcgm-exporter -o yaml | grep -E "hostNetwork|dnsPolicy"
정상적으로 적용된 경우 다음 값이 표시됩니다.
hostNetwork: true
dnsPolicy: ClusterFirstWithHostNet
설정이 누락된 경우 Metric Exporter 설치의 patch 명령어를 다시 실행합니다.
표시할 데이터가 없습니다가 표시되는 경우
차트 영역에 표시할 데이터가 없습니다가 표시되는 경우, 선택한 조회 조건에 해당하는 메트릭이 없거나 메트릭 수집이 정상적으로 이루어지지 않을 수 있습니다.
원인 1: 조회 시간 범위에 수집된 데이터가 없는 경우
▶️ 해결 방법: 화면 상단의 시간 범위를 변경한 후 다시 조회합니다.
- 1시간
- 3시간
- 12시간
- 1일
- 7일
원인 2: 데이터 수집 직후 아직 화면에 반영되지 않은 경우
▶️ 해결 방법: 수동 새로고침을 실행하거나 자동 새로고침을 설정한 후 다시 확인합니다.
원인 3: 대상 리소스가 Agent Missing 상태인 경우
▶️ 해결 방법: Agent Missing 상태를 해결한 후 다시 조회합니다. 자세한 내용은 Agent Missing으로 표시되는 경우를 참고하시기 바랍니다.
GPU 리소스가 인식되지 않는 경우
Kubernetes Engine에서 GPU 리소스가 AI Insight에 표시되지 않는 경우, 클러스터 노드에서 GPU 리소스가 정상적으로 인식되는지 확인합니다.
kubectl describe node GPU_NODE_NAME | grep nvidia.com/gpu
GPU 리소스가 표시되지 않으면 GPU 노드 구성, NVIDIA 드라이버 설치 여부, GPU Operator 설치 상태를 확인합니다.
Warning 상태로 표시되는 경우
GPU가 Warning 상태로 표시되는 경우, GPU에 이상 징후가 감지된 상태입니다. 즉각적인 장애로 단정하기는 어렵지만 지속적으로 모니터링해야 합니다.
| 원인 | 확인 방법 | 조치 |
|---|---|---|
| GPU 온도 상승 | GPU Temperature Trend에서 85°C 이상 지속 여부 확인 | 냉각 상태, 워크로드 부하, 노드 상태 확인 |
| SBE ECC Error 발생 | GPU ECC Error 수 확인 | 반복 발생 여부 확인, 필요 시 GPU 상태 점검 |
| Thermal Throttling 발생 | 최근 5분 동안 Thermal Violation이 30초 이상 증가했는지 확인 | 온도 원인 확인 및 냉각 상태 점검 |
| Power Throttling 발생 | 최근 5분 동안 Power Violation이 30초 이상 증가했는지 확인 | 전력 제한 또는 인스턴스 사양 확인 |
Critical 상태로 표시되는 경우
GPU가 Critical 상태로 표시되는 경우, 즉각적인 확인 또는 조치가 필요한 심각 상태입니다.
| 원인 | 확인 방법 | 조치 |
|---|---|---|
| GPU 온도 과다 상승 | GPU Temperature Trend에서 90°C 이상이 2분 이상 지속되는지 확인 | 워크로드 중지 검토, 냉각 상태 및 노드 상태 점검 |
| DBE ECC Error 발생 | GPU ECC Error 수 확인 | 수정 불가능한 메모리 오류 가능성이 있으므로 GPU 상태 점검 |
| 심각한 Thermal Throttling 발생 | 최근 5분 동안 Thermal Violation이 180초 이상 증가했는지 확인 | 온도 원인 확인, 워크로드 부하 및 냉각 상태 점검 |
| Reliability Violation 지속 | GPU Throttling 확인 | 안정성 보호 제한이 지속되는지 확인하고 노드/GPU 상태 점검 |
Critical 상태는 장애 가능성이 높은 상태입니다. 워크로드 영향도를 확인하고, 필요 시 워크로드 중지, 노드 격리, 드라이버 및 하드웨어 상태 확인을 수행하시기 바랍니다.
Throttle Event가 표시되는 경우
Throttle Event는 GPU가 전력, 온도, 보드, 안정성 등의 제한 조건으로 인해 클럭을 낮춘 상태를 의미합니다. 단순 발생 횟수와 동일하지 않을 수 있으며, 누적 시간 또는 발생 여부를 기준으로 표시될 수 있습니다.
| 유형 | 의미 | 확인 지표 |
|---|---|---|
| Thermal Violation | 온도 제한으로 인한 클럭 저하 | GPU Temperature Trend |
| Power Violation | 전력 제한으로 인한 클럭 저하 | GPU 사용률, 워크로드 부하 |
| Sync Boost Violation | Sync Boost 제한으로 인한 클럭 저하 | GPU Throttling |
| Board Limit Violation | 보드 제한으로 인한 클럭 저하 | GPU Throttling |
| Low Utilization Violation | 저활용 상태와 관련된 제한 | GPU Utilization Trend |
| Reliability Violation | 안정성 보호 제한 | GPU Throttling, XID Event Code |
Throttle Event가 표시되면 GPU Temperature Trend와 GPU Utilization Trend를 함께 확인합니다. XID Event Code는 정보 표시용 지표로 참고할 수 있습니다.
XID Event Code가 예상과 다르게 표시되는 경우
XID Event Code는 마지막으로 감지된 GPU 오류 이벤트 코드입니다. AI Insight에서 XID는 정보 표시용으로 제공되며, GPU 상태를 Warning 또는 Critical로 판정하는 조건에는 반영되지 않습니다.
| 현상 | 원인 | 설명 |
|---|---|---|
| XID 코드가 계속 표시됨 | 마지막 XID 코드 값이 유지됨 | 최근 기준 마지막으로 감지된 XID 코드가 화면에 표시될 수 있음 |
| XID가 있는데 ECC Error 수는 0으로 표시됨 | 서로 다른 지표 | ECC Error 수에는 XID Event가 포함되지 않음 |
XID가 표시되는 경우 GPU 상세 화면에서 온도, ECC Error, Throttling을 함께 확인합니다. 단, XID 표시만으로 Warning 또는 Critical 상태로 분류되지는 않습니다.
MIG 인스턴스가 모두 같은 Warning 또는 Critical 상태로 표시되는 경우
MIG 환경에서는 GPU 사용률과 메모리 사용률이 MIG 인스턴스 단위로 수집될 수 있습니다. 따라서 Idle 또는 Active 상태는 MIG 인스턴스별로 다를 수 있습니다.
반면 GPU 온도, ECC Error, Throttling은 물리 GPU 단위로 수집될 수 있습니다. 이 경우 하나의 물리 GPU에서 Warning 또는 Critical 조건이 발생하면, 해당 GPU에 속한 모든 MIG 인스턴스가 동일한 Warning 또는 Critical 상태로 표시될 수 있습니다. XID Event Code도 물리 GPU 단위로 표시될 수 있지만 상태 판정에는 반영되지 않습니다.
GPU 0에서 Warning 조건 발생
GPU 0
├─ MIG 0: Warning
├─ MIG 1: Warning
└─ MIG 2: Warning
이 현상은 동일 물리 GPU의 상태가 MIG 인스턴스에 공통 적용된 결과일 수 있습니다. GPU 상세 화면에서 온도, ECC Error, Throttling을 확인하고, XID Event Code는 참고 정보로 확인합니다.
MIG 인스턴스가 표시되지 않는 경우
MIG를 사용하는 환경에서 MIG 인스턴스가 표시되지 않는 경우, GPU Operator 설치 시 mig.strategy 설정을 확인합니다.
--set mig.strategy=none
--set mig.strategy=single
--set mig.strategy=mixed
| 값 | 설명 |
|---|---|
none | MIG 비활성화 |
single | 모든 GPU에 동일한 MIG 프로파일 적용 |
mixed | GPU마다 다른 MIG 프로파일 적용 가능 |
MIG를 사용하는 경우 운영 정책에 맞게 single 또는 mixed를 설정합니다.
Virtual Machine에서 GPU 메트릭이 표시되지 않는 경우
Virtual Machine 환경에서는 DCGM, DCGM Exporter, 모니터링 에이전트 설치 상태를 확인합니다.
- Metric Exporter 설치에서 VM 설치 절차를 완료합니다.
nvidia-dcgm,dcgm-exporter,kic_monitor_agent서비스가 정상적으로 실행 중인지 확인합니다.http://localhost:9400/metrics에서 DCGM 메트릭이 노출되는지 확인합니다.- 모니터링 에이전트 설정에
[[inputs.prometheus]]입력이 추가되었는지 확인합니다. - AI Insight 화면에서 시간 범위를 변경하거나 새로고침 후 다시 조회합니다.
설치 명령어 실행 중 오류가 발생하는 경우
GPU Operator 설치 명령어 실행 중 오류가 발생하면 다음 항목을 확인합니다.
| 확인 항목 | 설명 |
|---|---|
| Helm Repository | helm repo add nvidia https://helm.ngc.nvidia.com/nvidia 실행 여부 확인 |
| 차트 버전 | 설치 명령어의 --version 값 확인 |
| CSV 파일 위치 | dcgm-exporter-metrics.csv 파일이 현재 디렉터리에 있는지 확인 |
| 클러스터 권한 | kubectl 명령어로 대상 클러스터에 접근 가능한지 확인 |
| 네임스페이스 | gpu-operator 네임스페이스 생성 여부 확인 |