Skip to main content

Overview 사용하기

AI Insight의 Overview 화면에서는 전체 GPU 리소스 현황과 상태를 한눈에 확인할 수 있습니다. Overview를 통해 Warning, Critical, Idle, Agent Missing 상태의 GPU를 빠르게 식별하고, GPU Explorer 상세 화면으로 이동하여 원인을 확인할 수 있습니다.

안내

AI Insight에서 메트릭을 확인하려면 대상 리소스에 Metric Exporter 또는 모니터링 에이전트가 설치되어 있어야 합니다. 설치되어 있지 않거나 정상적으로 동작하지 않으면 Agent Missing 상태로 표시될 수 있습니다.

Overview 화면 이동

  1. 카카오클라우드 콘솔에 접속합니다.
  2. 상단에서 프로젝트와 리전을 선택합니다.
  3. AI Service > AI Insight 메뉴로 이동합니다.
  4. 좌측 메뉴에서 Overview를 클릭합니다.

Resource Summary 확인

Resource Summary에서는 전체 GPU 리소스의 요약 정보를 확인할 수 있습니다.

항목설명
총 GPU 수조회 가능한 전체 GPU 수
총 클러스터 수조회 가능한 전체 클러스터 수
총 노드 수조회 가능한 전체 노드 수
평균 GPU 부하율전체 GPU의 평균 부하율
평균 GPU 메모리 사용률전체 GPU의 평균 메모리 사용률
평균 GPU 온도전체 GPU의 평균 온도
ECC Error 수최근 24시간 이내 ECC Error 수

GPU 상태 확인

Resource Summary 아래의 상태 카드에서 GPU 상태별 수량을 확인합니다.

상태설명
Active GPU정상적으로 사용 중인 GPU
Warning GPU주의가 필요한 GPU
Critical GPU심각한 이상 상태로 확인이 필요한 GPU
Pending GPU노드가 활성 상태가 아니어서 정지·부팅·재부팅·리사이즈 등 대기 중인 GPU
Idle GPU유휴 상태로 판단되는 GPU
Agent Missing메트릭 수집 구성 요소가 없거나 정상적으로 동작하지 않는 GPU
주의

Agent Missing 상태인 GPU는 메트릭이 정상적으로 수집되지 않을 수 있습니다. 이 경우 Metric Exporter 설치를 먼저 확인하시기 바랍니다.

GPU Map 사용

GPU Map에서는 GPU 리소스를 시각적으로 탐색할 수 있습니다.

  1. GPU, 클러스터, 노드 탭 중 확인할 기준을 선택합니다.
  2. 색상 범례를 참고하여 Active, Idle, Pending, Warning, Critical, Missing 상태를 확인합니다.
  3. 맵에서 확인할 리소스를 클릭합니다.
  4. 우측 상세 패널에서 선택한 리소스의 상태, GPU Flavor, GPU 부하율, GPU 메모리 사용률, GPU 온도, ECC Error, XID Event Code, Throttle Event 등을 확인합니다.
  5. 상세 페이지로 이동하려면 우측 패널의 이동 아이콘을 클릭합니다.
기능설명
확대/축소GPU Map의 표시 배율 조정
화면 맞춤GPU Map을 화면 크기에 맞게 조정
리소스 선택선택한 GPU 또는 MIG 인스턴스의 상세 정보 표시
탭 전환GPU, 클러스터, 노드 기준으로 맵 표시 단위 변경

GPU 목록 확인

Overview 하단의 목록에서 GPU별 상태와 주요 메트릭을 확인할 수 있습니다.

항목설명
이름GPU 또는 노드 이름
상태GPU 상태
GPU FlavorGPU 인스턴스 또는 리소스 유형
LoadGPU 부하율
TempGPU 온도
MemoryGPU 메모리 사용률
XID Event Code마지막으로 확인된 XID Event Code

데이터 새로고침

Overview 화면의 데이터는 수동 새로고침 또는 자동 새로고침으로 갱신할 수 있습니다.

  1. 화면 상단의 자동 새로고침 드롭다운에서 갱신 주기를 선택합니다.
  2. 즉시 갱신하려면 새로고침 아이콘을 클릭합니다.
  3. 최종 업데이트 시각을 확인하여 데이터가 갱신되었는지 확인합니다.

데이터가 표시되지 않는 경우

Overview 화면에 표시할 데이터가 없습니다가 표시되는 경우 다음 항목을 확인합니다.

  • 선택한 프로젝트와 리전이 올바른지 확인
  • 대상 환경에 GPU 리소스가 존재하는지 확인
  • Metric Exporter 또는 모니터링 에이전트가 설치되어 있는지 확인
  • Agent Missing 상태인지 확인
  • 시간 범위를 변경하거나 새로고침 후 다시 확인