Overview 사용하기
AI Insight의 Overview 화면에서는 전체 GPU 리소스 현황과 상태를 한눈에 확인할 수 있습니다. Overview를 통해 Warning, Critical, Idle, Agent Missing 상태의 GPU를 빠르게 식별하고, GPU Explorer 상세 화면으로 이동하여 원인을 확인할 수 있습니다.
안내
AI Insight에서 메트릭을 확인하려면 대상 리소스에 Metric Exporter 또는 모니터링 에이전트가 설치되어 있어야 합니다. 설치되어 있지 않거나 정상적으로 동작하지 않으면 Agent Missing 상태로 표시될 수 있습니다.
Overview 화면 이동
- 카카오클라우드 콘솔에 접속합니다.
- 상단에서 프로젝트와 리전을 선택합니다.
- AI Service > AI Insight 메뉴로 이동합니다.
- 좌측 메뉴에서 Overview를 클릭합니다.
Resource Summary 확인
Resource Summary에서는 전체 GPU 리소스의 요약 정보를 확인할 수 있습니다.
| 항목 | 설명 |
|---|---|
| 총 GPU 수 | 조회 가능한 전체 GPU 수 |
| 총 클러스터 수 | 조회 가능한 전체 클러스터 수 |
| 총 노드 수 | 조회 가능한 전체 노드 수 |
| 평균 GPU 부하율 | 전체 GPU의 평균 부하율 |
| 평균 GPU 메모리 사용률 | 전체 GPU의 평균 메모리 사용률 |
| 평균 GPU 온도 | 전체 GPU의 평균 온도 |
| ECC Error 수 | 최근 24시간 이내 ECC Error 수 |
GPU 상태 확인
Resource Summary 아래의 상태 카드에서 GPU 상태별 수량을 확인합니다.
| 상태 | 설명 |
|---|---|
| Active GPU | 정상적으로 사용 중인 GPU |
| Warning GPU | 주의가 필요한 GPU |
| Critical GPU | 심각한 이상 상태로 확인이 필요한 GPU |
| Pending GPU | 노드가 활성 상태가 아니어서 정지·부팅·재부팅·리사이즈 등 대기 중인 GPU |
| Idle GPU | 유휴 상태로 판단되는 GPU |
| Agent Missing | 메트릭 수집 구성 요소가 없거나 정상적으로 동작하지 않는 GPU |
주의
Agent Missing 상태인 GPU는 메트릭이 정상적으로 수집되지 않을 수 있습니다. 이 경우 Metric Exporter 설치를 먼저 확인하시기 바랍니다.
GPU Map 사용
GPU Map에서는 GPU 리소스를 시각적으로 탐색할 수 있습니다.
- GPU, 클러스터, 노드 탭 중 확인할 기준을 선택합니다.
- 색상 범례를 참고하여 Active, Idle, Pending, Warning, Critical, Missing 상태를 확인합니다.
- 맵에서 확인할 리소스를 클릭합니다.
- 우측 상세 패널에서 선택한 리소스의 상태, GPU Flavor, GPU 부하율, GPU 메모리 사용률, GPU 온도, ECC Error, XID Event Code, Throttle Event 등을 확인합니다.
- 상세 페이지로 이동하려면 우측 패널의 이동 아이콘을 클릭합니다.
| 기능 | 설명 |
|---|---|
| 확대/축소 | GPU Map의 표시 배율 조정 |
| 화면 맞춤 | GPU Map을 화면 크기에 맞게 조정 |
| 리소스 선택 | 선택한 GPU 또는 MIG 인스턴스의 상세 정보 표시 |
| 탭 전환 | GPU, 클러스터, 노드 기준으로 맵 표시 단위 변경 |
GPU 목록 확인
Overview 하단의 목록에서 GPU별 상태와 주요 메트릭을 확인할 수 있습니다.
| 항목 | 설명 |
|---|---|
| 이름 | GPU 또는 노드 이름 |
| 상태 | GPU 상태 |
| GPU Flavor | GPU 인스턴스 또는 리소스 유형 |
| Load | GPU 부하율 |
| Temp | GPU 온도 |
| Memory | GPU 메모리 사용률 |
| XID Event Code | 마지막으로 확인된 XID Event Code |
데이터 새로고침
Overview 화면의 데이터는 수동 새로고침 또는 자동 새로고침으로 갱신할 수 있습니다.
- 화면 상단의 자동 새로고침 드롭다운에서 갱신 주기를 선택합니다.
- 즉시 갱신하려면 새로고침 아이콘을 클릭합니다.
- 최종 업데이트 시각을 확인하여 데이터가 갱신되었는지 확인합니다.
데이터가 표시되지 않는 경우
Overview 화면에 표시할 데이터가 없습니다가 표시되는 경우 다음 항목을 확인합니다.
- 선택한 프로젝트와 리전이 올바른지 확인
- 대상 환경에 GPU 리소스가 존재하는지 확인
- Metric Exporter 또는 모니터링 에이전트가 설치되어 있는지 확인
- Agent Missing 상태인지 확인
- 시간 범위를 변경하거나 새로고침 후 다시 확인