본문으로 건너뛰기

Metric Exporter 설치

AI Insight를 사용하기 위해서는 대상 환경에 Metric Exporter 또는 모니터링 에이전트를 설치해야 합니다. 설치하지 않으면 해당 리소스가 Agent Missing 상태로 표시될 수 있으며, GPU 사용률, 메모리 사용률, 온도, 유휴율, ECC Error 등 주요 메트릭이 수집되지 않습니다.

AI Insight는 GPU 지표를 수집하기 위해 DCGM Exporter를 사용합니다. Kubernetes Engine 환경에서는 DCGM Exporter가 NVIDIA GPU Operator를 통해 설치 및 관리됩니다. 이 가이드에서 말하는 Metric Exporter 설치는 Kubernetes Engine 기준으로 GPU Operator 설치 + DCGM Exporter 설정을 의미합니다.

안내
  • Kubernetes Engine 환경에서는 NVIDIA GPU Operator와 DCGM Exporter를 설치하여 GPU 메트릭을 수집합니다.
  • Virtual Machine 환경에서는 DCGM, DCGM Exporter, 모니터링 에이전트를 설치하고, 모니터링 에이전트가 DCGM Exporter의 Prometheus 메트릭을 수집하도록 설정합니다.
  • 설치 후 실제 데이터가 AI Insight 화면에 표시되기까지 시간이 소요될 수 있습니다.

사전 작업

대상 환경에 따라 다음 항목을 준비합니다.

환경사전 작업
Kubernetes Enginekubectl로 클러스터에 접근 가능, Helm 설치, GPU 노드 구성, dcgm-exporter-metrics.csv 파일 준비
Virtual MachineNVIDIA GPU가 장착된 VM, Ubuntu 22.04 x86_64 환경, 관리자 권한, 외부 패키지 다운로드 가능한 네트워크 환경
주의

Kubernetes Engine에서 사용하는 dcgm-exporter-metrics.csv 파일은 GPU Operator 설치 명령을 실행하는 현재 디렉터리에 있어야 합니다.

설치 방법

Kubernetes Engine 환경에서 GPU 메트릭을 수집하려면 NVIDIA GPU Operator를 설치합니다.

1. Helm Repository 추가

다음 명령어를 실행하여 NVIDIA Helm Repository를 추가하고 업데이트합니다.

Helm Repository 추가
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia
helm repo update

2. GPU Operator 설치

다음 명령어를 실행하여 GPU Operator를 설치합니다.

GPU Operator 설치
# 네임스페이스 생성
kubectl create ns gpu-operator

# 차트 설치
helm install gpu-operator nvidia/gpu-operator \
--namespace gpu-operator \
--create-namespace \
--version v25.10.0 \
--set driver.enabled=<true|false> \
--set mig.strategy=<none|single|mixed> \
--set dcgmExporter.config.name=custom-dcgm-exporter-metrics \
--set dcgmExporter.config.create=true \
--set-file dcgmExporter.config.data=./dcgm-exporter-metrics.csv \
--wait
옵션설명
driver.enabledtrueGPU Operator가 드라이버를 설치 및 관리합니다. 기본값입니다.
driver.enabledfalse드라이버가 노드에 사전 설치된 경우 사용합니다.
mig.strategynoneMIG를 비활성화하고 GPU를 통째로 사용합니다. 기본값입니다.
mig.strategysingle모든 GPU에 동일한 MIG 프로파일을 적용합니다.
mig.strategymixedGPU마다 다른 MIG 프로파일을 적용할 수 있습니다.
안내

MIG를 사용하지 않는 경우 --set mig.strategy=none으로 설정합니다. MIG를 사용하는 환경에서는 운영 정책에 따라 single 또는 mixed를 선택합니다.

3. dcgm-exporter hostNetwork 설정

GPU Operator 설치 후, DCGM Exporter에 hostNetwork를 적용하기 위해 다음 patch 명령어를 순서대로 실행합니다.

3-1. ClusterPolicy patch

ClusterPolicy patch
kubectl patch clusterpolicy cluster-policy \
-n gpu-operator \
--type=merge \
-p '{
"spec": {
"dcgmExporter": {
"hostNetwork": true,
"dnsPolicy": "ClusterFirstWithHostNet"
}
}
}'

3-2. DaemonSet patch

DaemonSet patch
kubectl patch daemonset nvidia-dcgm-exporter \
-n gpu-operator \
--type=merge \
-p '{
"spec": {
"template": {
"spec": {
"hostNetwork": true,
"dnsPolicy": "ClusterFirstWithHostNet"
}
}
}
}'

4. 설치 확인

다음 명령어를 실행하여 GPU Operator와 DCGM Exporter가 정상적으로 설치되었는지 확인합니다.

전체 Pod 상태 확인
kubectl get pods -n gpu-operator
hostNetwork 적용 확인
kubectl get pod -n gpu-operator -l app=nvidia-dcgm-exporter -o yaml | grep -E "hostNetwork|dnsPolicy"
GPU 리소스 인식 확인
kubectl describe node GPU_NODE_NAME | grep nvidia.com/gpu
확인 항목정상 기준
Pod 상태gpu-operator 네임스페이스의 Pod가 Running 상태
hostNetworkhostNetwork: true 표시
dnsPolicydnsPolicy: ClusterFirstWithHostNet 표시
GPU 리소스노드 설명에서 nvidia.com/gpu 리소스 확인

설치 후 데이터가 표시되지 않는 경우

설치 후 AI Insight 화면에 데이터가 표시되지 않거나 Agent Missing 상태가 유지되는 경우 다음 항목을 확인합니다.

환경확인 항목설명
Kubernetes EnginePod 상태kubectl get pods -n gpu-operator 명령어로 GPU Operator 관련 Pod 상태 확인
Kubernetes EngineDCGM Exporter 상태nvidia-dcgm-exporter DaemonSet이 정상적으로 실행 중인지 확인
Kubernetes EnginehostNetwork 설정hostNetwork: true, dnsPolicy: ClusterFirstWithHostNet 적용 여부 확인
Kubernetes EngineGPU 리소스 인식GPU 노드 설명에서 nvidia.com/gpu 리소스가 표시되는지 확인
Virtual MachineDCGM 서비스 상태nvidia-dcgm 서비스가 active 상태인지 확인
Virtual MachineDCGM Exporter 상태dcgm-exporter 서비스가 active 상태인지 확인
Virtual Machine메트릭 노출 여부localhost:9400/metrics에서 DCGM 메트릭이 조회되는지 확인
Virtual Machine모니터링 에이전트 상태kic_monitor_agent 서비스와 로그를 확인
공통시간 범위AI Insight 화면의 시간 범위를 변경하여 조회
공통새로고침수동 새로고침 또는 자동 새로고침 설정 후 재조회

자세한 내용은 문제 해결를 참고하시기 바랍니다.