본문으로 건너뛰기

AI Insight 메트릭

카카오클라우드의 AI Insight에서 제공하는 주요 메트릭과 상태 정보를 설명합니다. AI Insight 메트릭은 Overview와 GPU Explorer의 Cluster, Node, GPU 상세 화면에서 확인할 수 있습니다.

안내

Metric Exporter 또는 모니터링 에이전트가 설치되어 있지 않거나 정상적으로 동작하지 않는 경우, 일부 메트릭이 수집되지 않으며 화면에 표시할 데이터가 없습니다 또는 Agent Missing 상태가 표시될 수 있습니다.

Resource Summary 지표

Resource Summary는 AI Insight Overview와 GPU Explorer 상세 화면 상단에서 GPU 리소스의 전체 상태를 요약합니다.

지표설명단위
총 GPU 수조회 범위에 포함된 전체 GPU 수count
총 클러스터 수조회 범위에 포함된 전체 클러스터 수count
총 노드 수조회 범위에 포함된 전체 노드 수count
평균 GPU 부하율조회 범위 내 GPU 연산 사용률의 평균값%
평균 GPU 메모리 사용률조회 범위 내 GPU 메모리 사용률의 평균값%
평균 GPU 온도조회 범위 내 GPU 온도의 평균값°C
ECC Error 수최근 24시간 동안 발생한 SBE와 DBE ECC Error의 합계count
주의

ECC Error 수에는 XID Event, Throttling, Overheat 이벤트가 포함되지 않습니다. XID Event Code와 Throttle Event는 별도 지표로 확인해야 합니다.

GPU 상태 지표

AI Insight는 GPU 또는 MIG 인스턴스의 상태를 다음과 같이 표시합니다. 여러 조건을 동시에 만족하는 경우 심각도가 높은 상태가 우선 표시됩니다.

상태설명주요 기준
Active GPUGPU가 연산 또는 메모리를 사용 중인 정상 작동 상태GPU 연산 사용률 10% 이상 또는 GPU 메모리 사용률 20% 이상
Warning GPU이상 징후가 감지되어 모니터링 강화가 필요한 GPUGPU 온도 85°C 이상 3분 지속, SBE ECC Error, 경미한 Thermal/Power Throttling 중 하나 이상 발생
Critical GPU즉각적인 확인 또는 조치가 필요한 심각 상태의 GPUGPU 온도 90°C 이상 2분 지속, DBE ECC Error, 심각한 Thermal Throttling, Reliability Violation 중 하나 이상 발생
Pending GPU노드가 활성 상태가 아니어서 대기 중인 GPU노드가 정지·부팅·재부팅·리사이즈·전원 종료 등 비활성 라이프사이클에 있는 경우
Idle GPUGPU 연산 및 메모리 사용이 모두 낮은 유휴 GPUGPU 연산 사용률 10% 미만이고 GPU 메모리 사용률 20% 미만
Agent Missing메트릭 수집 구성 요소가 없거나 정상적으로 동작하지 않는 GPUMetric Exporter 또는 모니터링 에이전트의 수집 데이터가 확인되지 않는 경우

상태 우선순위

Idle 또는 Active 조건을 만족하더라도 Warning 또는 Critical 조건이 함께 감지되면 더 높은 심각도의 상태가 표시됩니다. 예를 들어 GPU 사용률이 낮아 Idle 조건을 만족하더라도 같은 물리 GPU에서 DBE ECC Error가 발생하면 Critical 상태로 표시될 수 있습니다.

GPU 사용률 및 메모리 사용률

지표설명상태 판정 활용
GPU 사용률GPU 연산 엔진이 활성화된 비율입니다.10% 미만이면 Idle 조건 중 하나, 10% 이상이면 Active 조건 중 하나로 사용됩니다.
GPU 메모리 사용률사용 중인 GPU 메모리를 전체 GPU 메모리로 나눈 비율입니다.20% 미만이면 Idle 조건 중 하나, 20% 이상이면 Active 조건 중 하나로 사용됩니다.
GPU 유휴율GPU가 사용되지 않는 비율입니다.유휴 GPU 식별에 활용합니다.

GPU 메모리 사용률은 사용 중인 GPU 메모리를 사용 중 메모리와 여유 메모리의 합으로 나눈 값입니다.

GPU Metrics 지표

GPU Metrics는 GPU 단위의 시간별 메트릭 추이를 차트로 제공합니다.

지표설명단위권장 용도
GPU Utilization TrendGPU 사용률 추이%GPU 연산 부하 확인
GPU Memory Usage TrendGPU 메모리 사용률 추이%GPU 메모리 사용량 확인
GPU Temperature TrendGPU 온도 추이°CGPU 온도 이상 확인
GPU Idle TrendGPU 유휴 비율 추이%유휴 GPU 식별
GPU Throttling제한 조건으로 인해 GPU 클럭이 낮아진 누적 시간 또는 발생 여부sec 또는 status성능 제한 발생 여부 확인
GPU ECC Error 수최근 24시간 동안 발생한 ECC Error 수 추이countGPU 메모리 오류 확인

Node Status 지표

Node Status는 특정 노드의 시스템 리소스 상태를 보여줍니다. 노드가 Virtual Machine(VM) 기반인지, Kubernetes Engine(KE) 기반인지에 따라 표시되는 지표와 지표명이 다를 수 있습니다.

안내

VM 노드는 운영체제와 인스턴스 기준의 사용률 및 처리량 지표를 표시합니다. KE 노드는 Kubernetes 노드에서 수집한 Limit, Request, Usage 기반 지표를 함께 표시합니다.

VM Node Status 지표

VM 노드에서는 CPU, 메모리, 디스크, 네트워크의 사용률 또는 처리량 추이를 확인할 수 있습니다.

지표설명단위
CPU 전체 사용률노드 전체 CPU 사용률 추이%
CPU 코어별 사용률노드의 CPU 코어별 사용률 추이%
메모리 전체 사용률노드 전체 메모리 사용률 추이%
디스크 읽기 바이트노드 디스크 읽기 처리량 추이Bytes/s 또는 KB/s
디스크 쓰기 바이트노드 디스크 쓰기 처리량 추이Bytes/s 또는 KB/s
네트워크 수신 바이트노드 네트워크 수신 처리량 추이Bytes/s 또는 KB/s
네트워크 송신 바이트노드 네트워크 송신 처리량 추이Bytes/s 또는 KB/s

KE Node Status 지표

KE 노드에서는 Kubernetes 리소스 관점에서 CPU, 메모리, 디스크의 Limit, Request, Usage 기반 사용량과 네트워크 처리량 추이를 확인할 수 있습니다.

지표설명단위
CPU 지표별 사용량 (millicores)노드 CPU의 Limit, Request, Usage 지표별 사용량 추이millicores
메모리 지표별 사용량노드 메모리의 Limit, Request, Usage 지표별 사용량 추이Bytes 또는 GB
디스크 지표별 사용량노드 디스크의 Limit 대비 사용량 추이Bytes 또는 GB
네트워크 수신 바이트노드 네트워크 수신 처리량 추이KB/s
네트워크 송신 바이트노드 네트워크 송신 처리량 추이KB/s

VM과 KE Node Status 지표 차이

구분VMKE
CPU 지표전체 사용률, 코어별 사용률Limit, Request, Usage 지표별 사용량
메모리 지표전체 사용률Limit, Request, Usage 지표별 사용량
디스크 지표읽기/쓰기 처리량Limit 대비 사용량
네트워크 지표수신/송신 처리량수신/송신 처리량
주요 해석 기준인스턴스의 시스템 리소스 사용률 확인Kubernetes 노드의 할당량과 실제 사용량 비교
주의

Node Status 지표명과 단위는 노드 유형에 따라 다르게 표시됩니다. VM 노드와 KE 노드의 지표를 비교할 때는 같은 이름의 지표라도 수집 기준과 단위가 다를 수 있으므로 화면의 지표명과 단위를 함께 확인하시기 바랍니다.

GPU Outlier Detection 지표

GPU Outlier Detection은 GPU별 주요 메트릭의 평균값, 최대값, 피크 시점을 표로 제공합니다. 특정 GPU가 다른 GPU와 다른 패턴을 보이는지 확인할 때 사용할 수 있습니다.

지표설명단위
GPUGPU 또는 MIG 인스턴스 이름-
Avg Util평균 GPU 사용률%
Max Util최대 GPU 사용률%
Peak Time최대값이 발생한 시각timestamp
Avg Mem평균 GPU 메모리 사용률%
Max Mem최대 GPU 메모리 사용률%
Avg Temp평균 GPU 온도°C
Max Temp최대 GPU 온도°C

GPU Correlation 지표

GPU Correlation은 GPU 메트릭 간의 관계를 산점도로 제공합니다.

차트설명활용 예시
GPU Utilization vs TemperatureGPU 사용률과 온도의 관계를 표시사용률 대비 온도가 비정상적으로 높은 GPU 확인
GPU Utilization vs Idle timeGPU 사용률과 유휴 시간의 관계를 표시장시간 유휴 상태인 GPU 확인

이벤트 및 오류 지표

AI Insight의 이벤트 및 오류 지표는 GPU 상태 판정과 장애 원인 분석에 활용됩니다.

ECC Error

ECC Error는 GPU 메모리에서 감지된 오류입니다. AI Insight는 최근 24시간 동안 발생한 SBE와 DBE ECC Error를 집계하여 표시합니다.

유형설명상태 영향
SBESingle Bit Error입니다. 수정 가능한 ECC Error입니다.Warning 조건에 포함될 수 있습니다.
DBEDouble Bit Error입니다. 수정 불가능한 ECC Error입니다.Critical 조건에 포함될 수 있습니다.
안내

ECC Error는 물리 GPU 단위로 수집됩니다. MIG가 활성화된 경우 동일한 물리 GPU에 속한 MIG 인스턴스에는 동일한 ECC Error 값이 표시될 수 있습니다.

XID Event Code

XID Event Code는 NVIDIA GPU에서 발생한 내부 오류 이벤트 코드입니다. AI Insight는 마지막으로 감지된 XID 코드값을 정보성 지표로 표시합니다. XID Event Code는 현재 GPU 상태를 Warning 또는 Critical로 판정하는 조건에는 반영되지 않습니다.

항목설명
XID Event Code마지막으로 감지된 GPU 오류 이벤트 코드
최근 XID 코드최근 24시간 기준 마지막으로 감지된 XID 코드값을 참고용으로 확인
주의 사항XID Event Code는 정보 표시용 지표이며, 발생 횟수나 GPU 상태 판정 기준으로 사용하지 않습니다.
주의

XID Event Code는 마지막으로 감지된 코드값을 나타냅니다. XID 코드가 표시되어도 그 자체가 Warning 또는 Critical 상태를 의미하지는 않습니다. GPU 상태를 판단할 때는 ECC Error, GPU Temperature, GPU Throttling 지표를 함께 확인하시기 바랍니다.

Throttle Event

Throttle Event는 GPU가 특정 제한 조건으로 인해 클럭을 낮춘 상태를 의미합니다. AI Insight에서 Throttle Event로 표시되는 값은 단순 발생 횟수가 아니라, GPU 클럭이 제한된 누적 시간 또는 발생 여부를 기준으로 표시될 수 있습니다.

유형설명상태 영향
Thermal ViolationGPU 온도 제한으로 인해 클럭이 낮아진 경우최근 5분 동안 30초 이상 증가하면 Warning, 180초 이상 증가하면 Critical 조건에 포함될 수 있습니다.
Power Violation전력 제한으로 인해 클럭이 낮아진 경우최근 5분 동안 30초 이상 증가하면 Warning 조건에 포함될 수 있습니다.
Sync Boost ViolationSync Boost 제한으로 인해 클럭이 낮아진 경우원인 분석용 지표로 활용할 수 있습니다.
Board Limit Violation보드 제한으로 인해 클럭이 낮아진 경우원인 분석용 지표로 활용할 수 있습니다.
Low Utilization Violation저활용 상태와 관련된 제한이 적용된 경우원인 분석용 지표로 활용할 수 있습니다.
Reliability ViolationGPU 안정성 보호를 위해 제한이 적용된 경우지속 발생 시 Critical 조건에 포함될 수 있습니다.
안내

Throttle Event가 표시되는 경우 GPU 온도, 전력 제한, 안정성 제한 여부를 함께 확인해야 합니다. 특히 Thermal Violation은 GPU 온도 추이와 함께 확인하는 것이 좋습니다.

Overheat

Overheat는 GPU 온도가 기준 온도를 초과했거나, 온도 제한으로 인해 Thermal Throttling이 발생한 상태를 의미합니다. AI Insight는 GPU 온도 추이와 Thermal Violation을 통해 온도 이상 여부를 확인할 수 있습니다.

기준설명
Warning 수준GPU 온도가 85°C 이상으로 3분 이상 지속되는 경우
Critical 수준GPU 온도가 90°C 이상으로 2분 이상 지속되는 경우
Thermal Violation온도 제한으로 인해 GPU 클럭이 낮아진 경우
주의

Overheat 발생 횟수는 실제 하드웨어 이벤트 횟수와 다를 수 있습니다. 온도 이상 여부는 GPU Temperature Trend와 Throttle Event를 함께 확인하시기 바랍니다.

MIG 환경의 메트릭 표시 기준

MIG가 활성화된 환경에서는 일부 메트릭이 MIG 인스턴스별로 수집되고, 일부 메트릭은 물리 GPU 단위로 수집됩니다.

메트릭 또는 상태표시 기준
GPU 사용률MIG 인스턴스별로 다르게 표시될 수 있습니다.
GPU 메모리 사용률MIG 인스턴스별로 다르게 표시될 수 있습니다.
Idle / Active 상태MIG 인스턴스별 사용률과 메모리 사용률에 따라 다르게 표시될 수 있습니다.
ECC Error물리 GPU 단위로 수집되어 같은 물리 GPU의 MIG 인스턴스에 동일하게 표시될 수 있습니다.
GPU 온도물리 GPU 단위로 수집되어 같은 물리 GPU의 MIG 인스턴스에 동일하게 표시될 수 있습니다.
XID Event Code물리 GPU 단위로 수집되어 같은 물리 GPU의 MIG 인스턴스에 동일하게 표시될 수 있습니다.
Throttling물리 GPU 단위로 수집되어 같은 물리 GPU의 MIG 인스턴스에 동일하게 표시될 수 있습니다.
Warning / Critical 상태물리 GPU 단위 조건이 충족되면 같은 물리 GPU의 MIG 인스턴스에 동일하게 적용될 수 있습니다.

지표 해석 시 유의사항

지표유의사항
ECC Error 수최근 24시간 동안 발생한 SBE와 DBE ECC Error의 합계입니다. XID, Throttling, Overheat는 포함되지 않습니다.
XID Event Code마지막으로 감지된 코드값입니다. 정보 표시용 지표이며 발생 횟수나 상태 판정 기준으로 사용하지 않습니다.
Throttle Event단순 발생 횟수가 아니라 누적 시간 또는 발생 여부를 기준으로 표시될 수 있습니다.
Overheat직접적인 이벤트 횟수라기보다 온도 임계치 초과 또는 Thermal Violation을 통해 판단합니다.
MIG 인스턴스Idle/Active는 인스턴스별로 다를 수 있지만 Warning/Critical은 물리 GPU 단위로 동일하게 적용될 수 있습니다.