본문으로 건너뛰기

AI Insight 문제 해결

본 문서는 AI Insight 서비스와 관련된 주요 문제와 해결 방법을 정리한 문서입니다.


Agent Missing으로 표시되는 경우

AI Insight에서 리소스가 Agent Missing 상태로 표시되는 경우, 대상 환경에서 메트릭 수집 구성 요소가 설치되어 있지 않거나 정상적으로 동작하지 않을 수 있습니다. Agent Missing 상태에서는 GPU 메트릭이 수집되지 않으며 화면에 데이터가 표시되지 않을 수 있습니다.

원인 1: Metric Exporter 또는 모니터링 에이전트가 설치되지 않은 경우

▶️ 해결 방법: 대상 환경에 맞는 메트릭 수집 구성 요소를 설치합니다.

환경해결 방법
Kubernetes EngineMetric Exporter 설치 참고
Virtual MachineMetric Exporter 설치에서 VM 설치 절차 참고

원인 2: GPU Operator 관련 Pod가 정상 실행되지 않는 경우

▶️ 해결 방법: GPU Operator 네임스페이스의 Pod 상태를 확인합니다.

Pod 상태 확인
kubectl get pods -n gpu-operator

Pod가 Running 상태가 아닌 경우, 해당 Pod의 이벤트와 로그를 확인합니다.

Pod 이벤트 확인
kubectl describe pod POD_NAME -n gpu-operator
DCGM Exporter 로그 확인
kubectl logs -n gpu-operator daemonset/nvidia-dcgm-exporter

원인 3: dcgm-exporter hostNetwork 설정이 누락된 경우

▶️ 해결 방법: nvidia-dcgm-exporter Pod에 hostNetworkdnsPolicy가 적용되어 있는지 확인합니다.

hostNetwork 설정 확인
kubectl get pod -n gpu-operator -l app=nvidia-dcgm-exporter -o yaml | grep -E "hostNetwork|dnsPolicy"

정상적으로 적용된 경우 다음 값이 표시됩니다.

정상 설정 예시
hostNetwork: true
dnsPolicy: ClusterFirstWithHostNet

설정이 누락된 경우 Metric Exporter 설치의 patch 명령어를 다시 실행합니다.

표시할 데이터가 없습니다가 표시되는 경우

차트 영역에 표시할 데이터가 없습니다가 표시되는 경우, 선택한 조회 조건에 해당하는 메트릭이 없거나 메트릭 수집이 정상적으로 이루어지지 않을 수 있습니다.

원인 1: 조회 시간 범위에 수집된 데이터가 없는 경우

▶️ 해결 방법: 화면 상단의 시간 범위를 변경한 후 다시 조회합니다.

  • 1시간
  • 3시간
  • 12시간
  • 1일
  • 7일

원인 2: 데이터 수집 직후 아직 화면에 반영되지 않은 경우

▶️ 해결 방법: 수동 새로고침을 실행하거나 자동 새로고침을 설정한 후 다시 확인합니다.

원인 3: 대상 리소스가 Agent Missing 상태인 경우

▶️ 해결 방법: Agent Missing 상태를 해결한 후 다시 조회합니다. 자세한 내용은 Agent Missing으로 표시되는 경우를 참고하시기 바랍니다.

GPU 리소스가 인식되지 않는 경우

Kubernetes Engine에서 GPU 리소스가 AI Insight에 표시되지 않는 경우, 클러스터 노드에서 GPU 리소스가 정상적으로 인식되는지 확인합니다.

GPU 리소스 인식 확인
kubectl describe node GPU_NODE_NAME | grep nvidia.com/gpu

GPU 리소스가 표시되지 않으면 GPU 노드 구성, NVIDIA 드라이버 설치 여부, GPU Operator 설치 상태를 확인합니다.

Warning 상태로 표시되는 경우

GPU가 Warning 상태로 표시되는 경우, GPU에 이상 징후가 감지된 상태입니다. 즉각적인 장애로 단정하기는 어렵지만 지속적으로 모니터링해야 합니다.

원인확인 방법조치
GPU 온도 상승GPU Temperature Trend에서 85°C 이상 지속 여부 확인냉각 상태, 워크로드 부하, 노드 상태 확인
SBE ECC Error 발생GPU ECC Error 수 확인반복 발생 여부 확인, 필요 시 GPU 상태 점검
Thermal Throttling 발생최근 5분 동안 Thermal Violation이 30초 이상 증가했는지 확인온도 원인 확인 및 냉각 상태 점검
Power Throttling 발생최근 5분 동안 Power Violation이 30초 이상 증가했는지 확인전력 제한 또는 인스턴스 사양 확인

Critical 상태로 표시되는 경우

GPU가 Critical 상태로 표시되는 경우, 즉각적인 확인 또는 조치가 필요한 심각 상태입니다.

원인확인 방법조치
GPU 온도 과다 상승GPU Temperature Trend에서 90°C 이상이 2분 이상 지속되는지 확인워크로드 중지 검토, 냉각 상태 및 노드 상태 점검
DBE ECC Error 발생GPU ECC Error 수 확인수정 불가능한 메모리 오류 가능성이 있으므로 GPU 상태 점검
심각한 Thermal Throttling 발생최근 5분 동안 Thermal Violation이 180초 이상 증가했는지 확인온도 원인 확인, 워크로드 부하 및 냉각 상태 점검
Reliability Violation 지속GPU Throttling 확인안정성 보호 제한이 지속되는지 확인하고 노드/GPU 상태 점검
주의

Critical 상태는 장애 가능성이 높은 상태입니다. 워크로드 영향도를 확인하고, 필요 시 워크로드 중지, 노드 격리, 드라이버 및 하드웨어 상태 확인을 수행하시기 바랍니다.

Throttle Event가 표시되는 경우

Throttle Event는 GPU가 전력, 온도, 보드, 안정성 등의 제한 조건으로 인해 클럭을 낮춘 상태를 의미합니다. 단순 발생 횟수와 동일하지 않을 수 있으며, 누적 시간 또는 발생 여부를 기준으로 표시될 수 있습니다.

유형의미확인 지표
Thermal Violation온도 제한으로 인한 클럭 저하GPU Temperature Trend
Power Violation전력 제한으로 인한 클럭 저하GPU 사용률, 워크로드 부하
Sync Boost ViolationSync Boost 제한으로 인한 클럭 저하GPU Throttling
Board Limit Violation보드 제한으로 인한 클럭 저하GPU Throttling
Low Utilization Violation저활용 상태와 관련된 제한GPU Utilization Trend
Reliability Violation안정성 보호 제한GPU Throttling, XID Event Code

Throttle Event가 표시되면 GPU Temperature Trend와 GPU Utilization Trend를 함께 확인합니다. XID Event Code는 정보 표시용 지표로 참고할 수 있습니다.

XID Event Code가 예상과 다르게 표시되는 경우

XID Event Code는 마지막으로 감지된 GPU 오류 이벤트 코드입니다. AI Insight에서 XID는 정보 표시용으로 제공되며, GPU 상태를 Warning 또는 Critical로 판정하는 조건에는 반영되지 않습니다.

현상원인설명
XID 코드가 계속 표시됨마지막 XID 코드 값이 유지됨최근 기준 마지막으로 감지된 XID 코드가 화면에 표시될 수 있음
XID가 있는데 ECC Error 수는 0으로 표시됨서로 다른 지표ECC Error 수에는 XID Event가 포함되지 않음

XID가 표시되는 경우 GPU 상세 화면에서 온도, ECC Error, Throttling을 함께 확인합니다. 단, XID 표시만으로 Warning 또는 Critical 상태로 분류되지는 않습니다.

MIG 인스턴스가 모두 같은 Warning 또는 Critical 상태로 표시되는 경우

MIG 환경에서는 GPU 사용률과 메모리 사용률이 MIG 인스턴스 단위로 수집될 수 있습니다. 따라서 Idle 또는 Active 상태는 MIG 인스턴스별로 다를 수 있습니다.

반면 GPU 온도, ECC Error, Throttling은 물리 GPU 단위로 수집될 수 있습니다. 이 경우 하나의 물리 GPU에서 Warning 또는 Critical 조건이 발생하면, 해당 GPU에 속한 모든 MIG 인스턴스가 동일한 Warning 또는 Critical 상태로 표시될 수 있습니다. XID Event Code도 물리 GPU 단위로 표시될 수 있지만 상태 판정에는 반영되지 않습니다.

GPU 0에서 Warning 조건 발생

GPU 0
├─ MIG 0: Warning
├─ MIG 1: Warning
└─ MIG 2: Warning

이 현상은 동일 물리 GPU의 상태가 MIG 인스턴스에 공통 적용된 결과일 수 있습니다. GPU 상세 화면에서 온도, ECC Error, Throttling을 확인하고, XID Event Code는 참고 정보로 확인합니다.

MIG 인스턴스가 표시되지 않는 경우

MIG를 사용하는 환경에서 MIG 인스턴스가 표시되지 않는 경우, GPU Operator 설치 시 mig.strategy 설정을 확인합니다.

GPU Operator 설치 옵션 예시
--set mig.strategy=none
--set mig.strategy=single
--set mig.strategy=mixed
설명
noneMIG 비활성화
single모든 GPU에 동일한 MIG 프로파일 적용
mixedGPU마다 다른 MIG 프로파일 적용 가능

MIG를 사용하는 경우 운영 정책에 맞게 single 또는 mixed를 설정합니다.

Virtual Machine에서 GPU 메트릭이 표시되지 않는 경우

Virtual Machine 환경에서는 DCGM, DCGM Exporter, 모니터링 에이전트 설치 상태를 확인합니다.

  1. Metric Exporter 설치에서 VM 설치 절차를 완료합니다.
  2. nvidia-dcgm, dcgm-exporter, kic_monitor_agent 서비스가 정상적으로 실행 중인지 확인합니다.
  3. http://localhost:9400/metrics에서 DCGM 메트릭이 노출되는지 확인합니다.
  4. 모니터링 에이전트 설정에 [[inputs.prometheus]] 입력이 추가되었는지 확인합니다.
  5. AI Insight 화면에서 시간 범위를 변경하거나 새로고침 후 다시 조회합니다.

설치 명령어 실행 중 오류가 발생하는 경우

GPU Operator 설치 명령어 실행 중 오류가 발생하면 다음 항목을 확인합니다.

확인 항목설명
Helm Repositoryhelm repo add nvidia https://helm.ngc.nvidia.com/nvidia 실행 여부 확인
차트 버전설치 명령어의 --version 값 확인
CSV 파일 위치dcgm-exporter-metrics.csv 파일이 현재 디렉터리에 있는지 확인
클러스터 권한kubectl 명령어로 대상 클러스터에 접근 가능한지 확인
네임스페이스gpu-operator 네임스페이스 생성 여부 확인