본문으로 건너뛰기

모니터링 메트릭

카카오클라우드의 Monitoring 서비스에서 제공하는 메트릭을 설명합니다.

Virtual Machine, GPU, Bare Metal Server 메트릭

Virtual Machine, GPU, Bare Metal Server에서 공통으로 수집되는 주요 시스템 리소스 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: 커스텀 대시보드, 메트릭 탐색기, Metric Export
  • Alert Center: 메트릭 기반 알림 정책 설정
메트릭 이름설명단위권장 용도
cpu_usage전체 CPU 사용률%주요 성능 지표
cpu_usage_userCPU 사용률 (사용자 프로세스)  %사용자 프로세스 부하 확인
cpu_usage_systemCPU 사용률 (시스템 커널)%커널/시스템 부하 확인
cpu_usage_iowaitCPU 사용률 (I/O 대기)%I/O 병목 현상 진단
cpu_usage_per_core  코어별 CPU 사용률%코어별 부하 불균형 확인
mem_usage자체 메모리 사용률%주요 메모리 경고
mem_used사용 중인 메모리 크기bytes(IEC)절대적 사용량 확인
mem_buffered메모리 사용량 (버퍼)bytes(IEC) 리눅스 전용
mem_cached메모리 사용량 (캐시)bytes(IEC)리눅스 전용
정보
  • mem_buffered, mem_cached, disk_inodes_usage 메트릭은 Linux OS가 설치된 서버에서만 수집 및 제공됩니다.
  • nvidia_smi 메트릭은 GPU가 장착된 서버에서만 수집됩니다.
주의
  • GPU 인스턴스 라이브러리 호환성: GPU 인스턴스의 NVIDIA 라이브러리를 업데이트할 경우, CUDA 버전과 호환성을 반드시 확인하세요. 호환되지 않는 경우, 모니터링 에이전트가 NVIDIA 메트릭을 수집하지 못할 수 있습니다.
  • 네트워크 알림 정책: network_rx_bytes_persec 메트릭으로 Alert Center 알림 정책을 설정할 경우, 해당 정책은 모든 네트워크 인터페이스에 적용됩니다. 다중 NIC 인스턴스에서는 연결된 인터페이스 중 하나라도 설정된 임계치를 초과하면 알림이 발송됩니다.

Libvirt 메트릭

Libvirt 환경에서 수집되는 가상화 기반 서버의 주요 리소스 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: Metric Export
  • Alert Center: 메트릭 기반 알림 정책 설정
메트릭 이름설명단위
libvirt_domain_info_cpu_time_seconds_total사용한 총 CPU 시간count
libvirt_domain_info_virtual_cpusCPU 코어 수count

버스터블 인스턴스 전용 메트릭

다음 메트릭은 버스터블(Burstable) 옵션이 적용된 t1i 계열 인스턴스에서만 수집됩니다. (단, t1i.medium.dns.default 타입은 제외)

메트릭 이름설명단위
cpu_credit_usage누적된 CPU 크레딧 사용량으로 기준 성능을 초과하여 CPU를 사용할 때 소비된 크레딧 양count
cpu_credit_balance현재 인스턴스에 남아 있는 CPU 크레딧 잔여량으로 기준 성능 이하로 동작할 때 적립count

Kubernetes Engine 메트릭

Kubernetes Engine 환경에서 수집되는 주요 클러스터, 노드, 파드 리소스 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: Metric Export
메트릭 이름설명단위
cluster_autoscaler_node_group_min_count노드 그룹의 오토스케일링 시 최소 노드 수count
cluster_autoscaler_node_group_max_count노드 그룹의 오토스케일링 시 최대 노드 수count
cluster_autoscaler_node_group_target_count노드 그룹의 오토스케일링 시 목표 노드 수count
node_count현재 노드 수count

Load Balancing 메트릭

Load Balancer 리소스의 트래픽 및 연결 상태를 모니터링하기 위한 주요 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: 커스텀 대시보드, 메트릭 탐색기, Metric Export
  • Alert Center: 메트릭 기반 알림 정책 설정
메트릭 이름설명단위
lb_bytes_in_persec초당 인바운드 트래픽(수신 바이트)bytes/s(IEC)
lb_bytes_out_persec초당 아웃바운드 트래픽(송신 바이트)bytes/s(IEC)
lb_connections_persec초당 연결(Connection) 생성 수count/s
lb_current_connections현재 유지 중인 연결(Connection) 수count
lb_healthy_host_count연결 가능한 정상 대상(Healthy host) 수count
lb_unhealthy_host_count연결 불가능한 비정상 대상(Unhealthy host) 수count

MySQL 메트릭

MySQL 인스턴스의 스토리지, 네트워크, 쿼리, 연결 상태를 모니터링하기 위한 주요 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: 커스텀 대시보드, 메트릭 탐색기, Metric Export
  • Alert Center: 메트릭 기반 알림 정책 설정
메트릭 이름설명단위
mem_swap_total총 swap 메모리bytes(IEC)
mem_swap_cached캐시된 swap 메모리bytes(IEC)
mem_swap_free사용 가능한 swap 메모리bytes(IEC)

PostgreSQL 메트릭

PostgreSQL 인스턴스의 디스크, 네트워크, 연결, 트랜잭션 상태를 모니터링하기 위한 주요 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: 커스텀 대시보드, 메트릭 탐색기, Metric Export
  • Alert Center: 메트릭 기반 알림 정책 설정
메트릭 이름설명단위
pg_defaultstorage_disk_read_bytes_persec기본 스토리지 디스크에서 초당 읽은 바이트 크기bytes/s(IEC)
pg_defaultstorage_disk_write_bytes_persec기본 스토리지 디스크에서 초당 쓴 바이트 크기bytes/s(IEC)
pg_defaultstorage_disk_read_iops기본 스토리지 디스크에서 초당 읽기 작업 완료 수count/s
pg_defaultstorage_disk_write_iops기본 스토리지 디스크에서 초당 쓰기 작업 완료 수count/s
pg_defaultstorage_disk_used기본 스토리지 디스크 사용량bytes(IEC)
pg_defaultstorage_disk_used_percent기본 스토리지 디스크 사용률%
pg_defaultstorage_disk_inodes_usage기본 스토리지 inode 사용률%
pg_defaultstorage_disk_free기본 스토리지 디스크에서 사용 가능한 용량bytes(IEC)
pg_defaultstorage_disk_total기본 스토리지 디스크 총 용량bytes(IEC)
pg_defaultstorage_disk_inodes_free기본 스토리지 디스크에서 사용 가능한 inode 수count
pg_defaultstorage_disk_inodes_total기본 스토리지 디스크 총 inode 수count
pg_defaultstorage_disk_inodes_used기본 스토리지 디스크 inode 사용량count
pg_logstorage_disk_read_bytes_persec로그 스토리지 디스크에서 초당 읽은 바이트 크기bytes/s(IEC)
pg_logstorage_disk_write_bytes_persec로그 스토리지 디스크에서 초당 쓴 바이트 크기bytes/s(IEC)
pg_logstorage_disk_read_iops로그 스토리지 디스크에서 초당 읽기 작업 완료 수count/s
pg_logstorage_disk_write_iops로그 스토리지 디스크에서 초당 쓰기 작업 완료 수count/s
pg_logstorage_disk_used로그 스토리지 디스크 사용량bytes(IEC)
pg_logstorage_disk_used_percent로그 스토리지 디스크 사용률%
pg_logstorage_disk_inodes_usage로그 스토리지 inode 사용률%
pg_logstorage_disk_free로그 스토리지 디스크에서 사용 가능한 용량bytes(IEC)
pg_logstorage_disk_total로그 스토리지 디스크 총 용량bytes(IEC)
pg_logstorage_disk_inodes_free로그 스토리지 디스크에서 사용 가능한 inode 수count
pg_logstorage_disk_inodes_total로그 스토리지 디스크 총 inode 수count
pg_logstorage_disk_inodes_used로그 스토리지 디스크 inode 사용량count

MemStore 메트릭

MemStore 인스턴스의 메모리, 네트워크, 복제 및 CPU 사용 상태를 모니터링하기 위한 주요 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: 커스텀 대시보드, 메트릭 탐색기, Metric Export
  • Alert Center: 메트릭 기반 알림 정책 설정
메트릭 이름설명단위
memstore_used_cpu_sys전체 시스템 CPU 사용량count
memstore_used_cpu_sys_main_thread메인 스레드의 시스템 CPU 사용량count
memstore_used_cpu_user전체 사용자 CPU 사용량count
memstore_used_cpu_user_main_thread메인 스레드의 사용자 CPU 사용량count
memstore_memory_usage전체 메모리 사용률%
memstore_used_memoryMemStore가 사용 중인 메모리 크기bytes(IEC)
memstore_used_memory_peak사용한 최대 메모리bytes(IEC)
memstore_used_memory_peak_perc전체 메모리 대비 최대 사용 비율%
memstore_used_memory_dataset실제 데이터 저장에 사용되는 메모리bytes(IEC)
memstore_used_memory_dataset_perc실제 데이터 저장에 사용되는 메모리 비율%
memstore_used_memory_overhead내부 데이터 구조 관리에 필요한 오버헤드 메모리bytes(IEC)
memstore_used_memory_luaLua 스크립트 실행에 사용된 메모리bytes(IEC)
memstore_allocator_allocatedallocator에 할당된 메모리(내부 단편 포함)bytes(IEC)
memstore_allocator_activeallocator에서 활성화된 메모리(외부 단편 포함)bytes(IEC)
memstore_allocator_residentallocator에서 관리 중인 resident 메모리bytes(IEC)
memstore_allocator_rss_bytesRSS 메모리 크기bytes(IEC)
memstore_allocator_frag_bytes활성 메모리와 할당 메모리의 차이bytes(IEC)
memstore_allocator_frag_ratio활성 메모리 대비 할당 메모리 비율%
memstore_allocator_rss_ratioresident 메모리 대비 활성 메모리 비율%
memstore_mem_fragmentation_bytes사용 중인 resident 메모리와 할당된 메모리의 차이bytes(IEC)
memstore_mem_fragmentation_ratio사용 중인 resident 메모리와 할당된 메모리의 비율%
memstore_rss_overhead_bytes프로세스 RSS와 allocator resident 메모리 간의 차이bytes(IEC)
memstore_rss_overhead_ratio프로세스 RSS와 allocator resident 메모리 간의 비율%
memstore_total_system_memoryMemStore가 실행 중인 시스템의 총 메모리bytes(IEC)

버스터블 인스턴스 전용 메트릭

다음 메트릭은 버스터블(Burstable) 옵션이 적용된 t1i 계열 인스턴스에서만 수집됩니다.

메트릭 이름설명단위
cpu_credit_usageCPU 크레딧 사용량count
cpu_credit_balanceCPU 크레딧 잔여량count

Hadoop Eco 메트릭

Hadoop Eco 환경에서 수집되는 주요 HBase, HDFS, Yarn, Kafka 관련 시스템 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: Metric Export
메트릭 이름설명단위
HBase_Master_JvmMetrics_MemHeapMaxMHBase Master의 JVM 힙 메모리 최대 크기MB
HBase_Master_JvmMetrics_MemHeapUsedMHBase Master의 JVM 힙 메모리 사용량MB
HBase_Master_Server_numDeadRegionServers비정상(Dead) 상태의 Region Server 수count
HBase_Master_Server_numRegionServers정상 동작 중인 Region Server 수count

Pub/Sub 메트릭

Pub/Sub 서비스의 메시지 게시, 구독, 저장 상태를 모니터링하기 위한 주요 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: 커스텀 대시보드, 메트릭 탐색기
  • Alert Center: 메트릭 기반 알림 정책 설정
메트릭 이름설명단위
pubsub_published_message_count_persec초당 게시된 메시지 개수count/s
pubsub_published_message_bytes_persec초당 게시된 메시지 크기bytes/s(IEC)
pubsub_publish_request_count_persec초당 게시 요청 횟수count/s
pubsub_topic_storage_used_bytes토픽 보관 데이터 크기bytes(IEC)

Direct Connect 메트릭

Direct Connect 가상 인터페이스의 트래픽 및 연결 상태를 모니터링하기 위한 주요 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: Metric Export
메트릭 이름설명단위
dx_virtual_interface_input_bits_persec가상 인터페이스에서 받은 초당 비트 크기bits/s(IEC)
dx_virtual_interface_output_bits_persec가상 인터페이스에서 보낸 초당 비트 크기bits/s(IEC)
dx_virtual_interface_input_packets_persec가상 인터페이스에서 받은 초당 패킷 수packets/s
dx_virtual_interface_output_packets_persec가상 인터페이스에서 보낸 초당 패킷 수packets/s

Gateway Load Balancer 메트릭

Gateway Load Balancer 및 Endpoint Service의 트래픽, 연결, 헬스 상태를 모니터링하기 위한 주요 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: Metric Export
메트릭 이름설명단위
gwlb_bytes_in_persecGateway Load Balancer에서 받은 총 바이트bytes/s(IEC)
gwlb_bytes_out_persecGateway Load Balancer에서 보낸 총 바이트bytes/s(IEC)
eps_bytes_in_persecEndpoint Service에서 받은 총 바이트bytes/s(IEC)
eps_bytes_out_persecEndpoint Service에서 보낸 총 바이트bytes/s(IEC)
ep_bytes_in_persecEndpoint에서 받은 총 바이트bytes/s(IEC)
ep_bytes_out_persecEndpoint에서 보낸 총 바이트bytes/s(IEC)

Private Endpoint 메트릭

Private Endpoint의 트래픽 및 연결 상태를 모니터링하기 위한 주요 메트릭으로, 다음 서비스 영역에서 활용할 수 있습니다.

  • Monitoring: Metric Export
메트릭 이름설명단위
ep_bytes_in_persecEndpoint에서 받은 총 바이트bytes/s(IEC)
ep_bytes_out_persecEndpoint에서 보낸 총 바이트bytes/s(IEC)