AI Insight 메트릭
카카오클라우드의 AI Insight에서 제공하는 주요 메트릭과 상태 정보를 설명합니다. AI Insight 메트릭은 Overview와 GPU Explorer의 Cluster, Node, GPU 상세 화면에서 확인할 수 있습니다.
Metric Exporter 또는 모니터링 에이전트가 설치되어 있지 않거나 정상적으로 동작하지 않는 경우, 일부 메트릭이 수집되지 않으며 화면에 표시할 데이터가 없습니다 또는 Agent Missing 상태가 표시될 수 있습니다.
Resource Summary 지표
Resource Summary는 AI Insight Overview와 GPU Explorer 상세 화면 상단에서 GPU 리소스의 전체 상태를 요약합니다.
| 지표 | 설명 | 단위 |
|---|---|---|
| 총 GPU 수 | 조회 범위에 포함된 전체 GPU 수 | count |
| 총 클러스터 수 | 조회 범위에 포함된 전체 클러스터 수 | count |
| 총 노드 수 | 조회 범위에 포함된 전체 노드 수 | count |
| 평균 GPU 부하율 | 조회 범위 내 GPU 연산 사용률의 평균값 | % |
| 평균 GPU 메모리 사용률 | 조회 범위 내 GPU 메모리 사용률의 평균값 | % |
| 평균 GPU 온도 | 조회 범위 내 GPU 온도의 평균값 | °C |
| ECC Error 수 | 최근 24시간 동안 발생한 SBE와 DBE ECC Error의 합계 | count |
ECC Error 수에는 XID Event, Throttling, Overheat 이벤트가 포함되지 않습니다. XID Event Code와 Throttle Event는 별도 지표로 확인해야 합니다.
GPU 상태 지표
AI Insight는 GPU 또는 MIG 인스턴스의 상태를 다음과 같이 표시합니다. 여러 조건을 동시에 만족하는 경우 심각도가 높은 상태가 우선 표시됩니다.
| 상태 | 설명 | 주요 기준 |
|---|---|---|
| Active GPU | GPU가 연산 또는 메모리를 사용 중인 정상 작동 상태 | GPU 연산 사용률 10% 이상 또는 GPU 메모리 사용률 20% 이상 |
| Warning GPU | 이상 징후가 감지되어 모니터링 강화가 필요한 GPU | GPU 온도 85°C 이상 3분 지속, SBE ECC Error, 경미한 Thermal/Power Throttling 중 하나 이상 발생 |
| Critical GPU | 즉각적인 확인 또는 조치가 필요한 심각 상태의 GPU | GPU 온도 90°C 이상 2분 지속, DBE ECC Error, 심각한 Thermal Throttling, Reliability Violation 중 하나 이상 발생 |
| Pending GPU | 노드가 활성 상태가 아니어서 대기 중인 GPU | 노드가 정지·부팅·재부팅·리사이즈·전원 종료 등 비활성 라이프사이클에 있는 경우 |
| Idle GPU | GPU 연산 및 메모리 사용이 모두 낮은 유휴 GPU | GPU 연산 사용률 10% 미만이고 GPU 메모리 사용률 20% 미만 |
| Agent Missing | 메트릭 수집 구성 요소가 없거나 정상적으로 동작하지 않는 GPU | Metric Exporter 또는 모니터링 에이전트의 수집 데이터가 확인되지 않는 경우 |
상태 우선순위
Idle 또는 Active 조건을 만족하더라도 Warning 또는 Critical 조건이 함께 감지되면 더 높은 심각도의 상태가 표시됩니다. 예를 들어 GPU 사용률이 낮아 Idle 조건을 만족하더라도 같은 물리 GPU에서 DBE ECC Error가 발생하면 Critical 상태로 표시될 수 있습니다.
GPU 사용률 및 메모리 사용률
| 지표 | 설명 | 상태 판정 활용 |
|---|---|---|
| GPU 사용률 | GPU 연산 엔진이 활성화된 비율입니다. | 10% 미만이면 Idle 조건 중 하나, 10% 이상이면 Active 조건 중 하나로 사용됩니다. |
| GPU 메모리 사용률 | 사용 중인 GPU 메모리를 전체 GPU 메모리로 나눈 비율입니다. | 20% 미만이면 Idle 조건 중 하나, 20% 이상이면 Active 조건 중 하나로 사용됩니다. |
| GPU 유휴율 | GPU가 사용되지 않는 비율입니다. | 유휴 GPU 식별에 활용합니다. |
GPU 메모리 사용률은 사용 중인 GPU 메모리를 사용 중 메모리와 여유 메모리의 합으로 나눈 값입니다.
GPU Metrics 지표
GPU Metrics는 GPU 단위의 시간별 메트릭 추이를 차트로 제공합니다.
| 지표 | 설명 | 단위 | 권장 용도 |
|---|---|---|---|
| GPU Utilization Trend | GPU 사용률 추이 | % | GPU 연산 부하 확인 |
| GPU Memory Usage Trend | GPU 메모리 사용률 추이 | % | GPU 메모리 사용량 확인 |
| GPU Temperature Trend | GPU 온도 추이 | °C | GPU 온도 이상 확인 |
| GPU Idle Trend | GPU 유휴 비율 추이 | % | 유휴 GPU 식별 |
| GPU Throttling | 제한 조건으로 인해 GPU 클럭이 낮아진 누적 시간 또는 발생 여부 | sec 또는 status | 성능 제한 발생 여부 확인 |
| GPU ECC Error 수 | 최근 24시간 동안 발생한 ECC Error 수 추이 | count | GPU 메모리 오류 확인 |
Node Status 지표
Node Status는 특정 노드의 시스템 리소스 상태를 보여줍니다. 노드가 Virtual Machine(VM) 기반인지, Kubernetes Engine(KE) 기반인지에 따라 표시되는 지표와 지표명이 다를 수 있습니다.
VM 노드는 운영체제와 인스턴스 기준의 사용률 및 처리량 지표를 표시합니다. KE 노드는 Kubernetes 노드에서 수집한 Limit, Request, Usage 기반 지표를 함께 표시합니다.
VM Node Status 지표
VM 노드에서는 CPU, 메모리, 디스크, 네트워크의 사용률 또는 처리량 추이를 확인할 수 있습니다.
| 지표 | 설명 | 단위 |
|---|---|---|
| CPU 전체 사용률 | 노드 전체 CPU 사용률 추이 | % |
| CPU 코어별 사용률 | 노드의 CPU 코어별 사용률 추이 | % |
| 메모리 전체 사용률 | 노드 전체 메모리 사용률 추이 | % |
| 디스크 읽기 바이트 | 노드 디스크 읽기 처리량 추이 | Bytes/s 또는 KB/s |
| 디스크 쓰기 바이트 | 노드 디스크 쓰기 처리량 추이 | Bytes/s 또는 KB/s |
| 네트워크 수신 바이트 | 노드 네트워크 수신 처리량 추이 | Bytes/s 또는 KB/s |
| 네트워크 송신 바이트 | 노드 네트워크 송신 처리량 추이 | Bytes/s 또는 KB/s |
KE Node Status 지표
KE 노드에서는 Kubernetes 리소스 관점에서 CPU, 메모리, 디스크의 Limit, Request, Usage 기반 사용량과 네트워크 처리량 추이를 확인할 수 있습니다.
| 지표 | 설명 | 단위 |
|---|---|---|
| CPU 지표별 사용량 (millicores) | 노드 CPU의 Limit, Request, Usage 지표별 사용량 추이 | millicores |
| 메모리 지표별 사용량 | 노드 메모리의 Limit, Request, Usage 지표별 사용량 추이 | Bytes 또는 GB |
| 디스크 지표별 사용량 | 노드 디스크의 Limit 대비 사용량 추이 | Bytes 또는 GB |
| 네트워크 수신 바이트 | 노드 네트워크 수신 처리량 추이 | KB/s |
| 네트워크 송신 바이트 | 노드 네트워크 송신 처리량 추이 | KB/s |
VM과 KE Node Status 지표 차이
| 구분 | VM | KE |
|---|---|---|
| CPU 지표 | 전체 사용률, 코어별 사용률 | Limit, Request, Usage 지표별 사용량 |
| 메모리 지표 | 전체 사용률 | Limit, Request, Usage 지표별 사용량 |
| 디스크 지표 | 읽기/쓰기 처리량 | Limit 대비 사용량 |
| 네트워크 지표 | 수신/송신 처리량 | 수신/송신 처리량 |
| 주요 해석 기준 | 인스턴스의 시스템 리소스 사용률 확인 | Kubernetes 노드의 할당량과 실제 사용량 비교 |
Node Status 지표명과 단위는 노드 유형에 따라 다르게 표시됩니다. VM 노드와 KE 노드의 지표를 비교할 때는 같은 이름의 지표라도 수집 기준과 단위가 다를 수 있으므로 화면의 지표명과 단위를 함께 확인하시기 바랍니다.
GPU Outlier Detection 지표
GPU Outlier Detection은 GPU별 주요 메트릭의 평균값, 최대값, 피크 시점을 표로 제공합니다. 특정 GPU가 다른 GPU와 다른 패턴을 보이는지 확인할 때 사용할 수 있습니다.
| 지표 | 설명 | 단위 |
|---|---|---|
| GPU | GPU 또는 MIG 인스턴스 이름 | - |
| Avg Util | 평균 GPU 사용률 | % |
| Max Util | 최대 GPU 사용률 | % |
| Peak Time | 최대값이 발생한 시각 | timestamp |
| Avg Mem | 평균 GPU 메모리 사용률 | % |
| Max Mem | 최대 GPU 메모리 사용률 | % |
| Avg Temp | 평균 GPU 온도 | °C |
| Max Temp | 최대 GPU 온도 | °C |
GPU Correlation 지표
GPU Correlation은 GPU 메트릭 간의 관계를 산점도로 제공합니다.
| 차트 | 설명 | 활용 예시 |
|---|---|---|
| GPU Utilization vs Temperature | GPU 사용률과 온도의 관계를 표시 | 사용률 대비 온도가 비정상적으로 높은 GPU 확인 |
| GPU Utilization vs Idle time | GPU 사용률과 유휴 시간의 관계를 표시 | 장시간 유휴 상태인 GPU 확인 |
이벤트 및 오류 지표
AI Insight의 이벤트 및 오류 지표는 GPU 상태 판정과 장애 원인 분석에 활용됩니다.
ECC Error
ECC Error는 GPU 메모리에서 감지된 오류입니다. AI Insight는 최근 24시간 동안 발생한 SBE와 DBE ECC Error를 집계하여 표시합니다.
| 유형 | 설명 | 상태 영향 |
|---|---|---|
| SBE | Single Bit Error입니다. 수정 가능한 ECC Error입니다. | Warning 조건에 포함될 수 있습니다. |
| DBE | Double Bit Error입니다. 수정 불가능한 ECC Error입니다. | Critical 조건에 포함될 수 있습니다. |
ECC Error는 물리 GPU 단위로 수집됩니다. MIG가 활성화된 경우 동일한 물리 GPU에 속한 MIG 인스턴스에는 동일한 ECC Error 값이 표시될 수 있습니다.
XID Event Code
XID Event Code는 NVIDIA GPU에서 발생한 내부 오류 이벤트 코드입니다. AI Insight는 마지막으로 감지된 XID 코드값을 정보성 지표로 표시합니다. XID Event Code는 현재 GPU 상태를 Warning 또는 Critical로 판정하는 조건에는 반영되지 않습니다.
| 항목 | 설명 |
|---|---|
| XID Event Code | 마지막으로 감지된 GPU 오류 이벤트 코드 |
| 최근 XID 코드 | 최근 24시간 기준 마지막으로 감지된 XID 코드값을 참고용으로 확인 |
| 주의 사항 | XID Event Code는 정보 표시용 지표이며, 발생 횟수나 GPU 상태 판정 기준으로 사용하지 않습니다. |
XID Event Code는 마지막으로 감지된 코드값을 나타냅니다. XID 코드가 표시되어도 그 자체가 Warning 또는 Critical 상태를 의미하지는 않습니다. GPU 상태를 판단할 때는 ECC Error, GPU Temperature, GPU Throttling 지표를 함께 확인하시기 바랍니다.
Throttle Event
Throttle Event는 GPU가 특정 제한 조건으로 인해 클럭을 낮춘 상태를 의미합니다. AI Insight에서 Throttle Event로 표시되는 값은 단순 발생 횟수가 아니라, GPU 클럭이 제한된 누적 시간 또는 발생 여부를 기준으로 표시될 수 있습니다.
| 유형 | 설명 | 상태 영향 |
|---|---|---|
| Thermal Violation | GPU 온도 제한으로 인해 클럭이 낮아진 경우 | 최근 5분 동안 30초 이상 증가하면 Warning, 180초 이상 증가하면 Critical 조건에 포함될 수 있습니다. |
| Power Violation | 전력 제한으로 인해 클럭이 낮아진 경우 | 최근 5분 동안 30초 이상 증가하면 Warning 조건에 포함될 수 있습니다. |
| Sync Boost Violation | Sync Boost 제한으로 인해 클럭이 낮아진 경우 | 원인 분석용 지표로 활용할 수 있습니다. |
| Board Limit Violation | 보드 제한으로 인해 클럭이 낮아진 경우 | 원인 분석용 지표로 활용할 수 있습니다. |
| Low Utilization Violation | 저활용 상태와 관련된 제한이 적용된 경우 | 원인 분석용 지표로 활용할 수 있습니다. |
| Reliability Violation | GPU 안정성 보호를 위해 제한이 적용된 경우 | 지속 발생 시 Critical 조건에 포함될 수 있습니다. |
Throttle Event가 표시되는 경우 GPU 온도, 전력 제한, 안정성 제한 여부를 함께 확인해야 합니다. 특히 Thermal Violation은 GPU 온도 추이와 함께 확인하는 것이 좋습니다.
Overheat
Overheat는 GPU 온도가 기준 온도를 초과했거나, 온도 제한으로 인해 Thermal Throttling이 발생한 상태를 의미합니다. AI Insight는 GPU 온도 추이와 Thermal Violation을 통해 온도 이상 여부를 확인할 수 있습니다.
| 기준 | 설명 |
|---|---|
| Warning 수준 | GPU 온도가 85°C 이상으로 3분 이상 지속되는 경우 |
| Critical 수준 | GPU 온도가 90°C 이상으로 2분 이상 지속되는 경우 |
| Thermal Violation | 온도 제한으로 인해 GPU 클럭이 낮아진 경우 |
Overheat 발생 횟수는 실제 하드웨어 이벤트 횟수와 다를 수 있습니다. 온도 이상 여부는 GPU Temperature Trend와 Throttle Event를 함께 확인하시기 바랍니다.
MIG 환경의 메트릭 표시 기준
MIG가 활성화된 환경에서는 일부 메트릭이 MIG 인스턴스별로 수집되고, 일부 메트릭은 물리 GPU 단위로 수집됩니다.
| 메트릭 또는 상태 | 표시 기준 |
|---|---|
| GPU 사용률 | MIG 인스턴스별로 다르게 표시될 수 있습니다. |
| GPU 메모리 사용률 | MIG 인스턴스별로 다르게 표시될 수 있습니다. |
| Idle / Active 상태 | MIG 인스턴스별 사용률과 메모리 사용률에 따라 다르게 표시될 수 있습니다. |
| ECC Error | 물리 GPU 단위로 수집되어 같은 물리 GPU의 MIG 인스턴스에 동일하게 표시될 수 있습니다. |
| GPU 온도 | 물리 GPU 단위로 수집되어 같은 물리 GPU의 MIG 인스턴스에 동일하게 표시될 수 있습니다. |
| XID Event Code | 물리 GPU 단위로 수집되어 같은 물리 GPU의 MIG 인스턴스에 동일하게 표시될 수 있습니다. |
| Throttling | 물리 GPU 단위로 수집되어 같은 물리 GPU의 MIG 인스턴스에 동일하게 표시될 수 있습니다. |
| Warning / Critical 상태 | 물리 GPU 단위 조건이 충족되면 같은 물리 GPU의 MIG 인스턴스에 동일하게 적용될 수 있습니다. |
지표 해석 시 유의사항
| 지표 | 유의사항 |
|---|---|
| ECC Error 수 | 최근 24시간 동안 발생한 SBE와 DBE ECC Error의 합계입니다. XID, Throttling, Overheat는 포함되지 않습니다. |
| XID Event Code | 마지막으로 감지된 코드값입니다. 정보 표시용 지표이며 발생 횟수나 상태 판정 기준으로 사용하지 않습니다. |
| Throttle Event | 단순 발생 횟수가 아니라 누적 시간 또는 발생 여부를 기준으로 표시될 수 있습니다. |
| Overheat | 직접적인 이벤트 횟수라기보다 온도 임계치 초과 또는 Thermal Violation을 통해 판단합니다. |
| MIG 인스턴스 | Idle/Active는 인스턴스별로 다를 수 있지만 Warning/Critical은 물리 GPU 단위로 동일하게 적용될 수 있습니다. |