본문으로 건너뛰기

주요 개념

카카오클라우드의 Monitoring 서비스는 컴퓨팅 리소스의 상태를 모니터링하여 이벤트 발생 시 알림 기능으로 빠른 이슈 확인과 대처를 지원합니다. 사용자는 대시보드에서 웹 환경의 주요 리소스에 대한 실시간 모니터링이 가능하며, 메트릭 및 로그 정책을 설정하여 체계적인 모니터링 시스템을 구성할 수 있습니다. Monitoring 서비스를 통해 사용자의 리소스를 유연하고 효율적으로 관리할 수 있으며, 관리에 필요한 리소스를 최소화할 수 있습니다.

안내

24년 8월 27일, Monitoring 콘솔 내 서비스 명, 서비스 유형, 메트릭 명이 Redis에서 MemStore로 변경되었습니다.
기존 Redis에서 제공하던 모니터링, 탐색기, MetricExport는 9월 27일까지만 제공됩니다. 자세한 내용은 공지사항을 참고하시기 바랍니다.

Monitoring 서비스 시스템 아키텍처

Monitoring 서비스는 사용자가 자원 운영 관리에 필요한 여러 정책을 설정하여 원하는 데이터를 수집할 수 있도록 구성되어 있습니다. 미리 등록된 정책에 따라 장애가 발생할 시, 알림을 통해 모니터링 이력을 조회하며 장애를 빠르게 확인할 수 있습니다.

이미지 모니터링 서비스 아키텍처

Monitoring 주요 개념

대시보드

모니터링 서비스에서 대시보드를 이용하여 주요 리소스에 대한 실시간 모니터링이 가능합니다. 제공되는 대시보드 유형은 아래와 같습니다.

유형설명
기본 대시보드카카오클라우드에서 기본 제공하는 대시보드로 별도의 설정 없이 바로 사용 중인 리소스의 메트릭 조회
- 기본 대시보드는 사용자의 임의 수정이 불가능하며 제공되는 메트릭의 조회만 가능
커스텀 대시보드사용자가 직접 대시보드를 생성하고 대시보드 내에 원하는 서비스의 메트릭 차트를 추가하여 관리할 수 있는 대시보드
- 모니터링 지원 메트릭은 모니터링 메트릭 참고
안내

카카오클라우드 모니터링 에이전트를 설치해야 메트릭을 확인할 수 있습니다.
설치 방법은 에이전트 설치하기를 참고하시기 바랍니다.

모니터링 지원 서비스

구분서비스 상세
모니터링 지원 서비스   - Beyond Compute Service
 ㄴ Virtual Machine
 ㄴ Bare Metal Server
 ㄴ GPU
- Kubernetes Engine(기본)
- MySQL
- MemStore
- Load Balancing

모니터링 메트릭

주요 BCS 메트릭

안내

mem_buffered, mem_cached, disk_inodes_usage 메트릭은 Linux OS가 설치된 서버에서만 수집 및 제공됩니다.
nvidia_smi 메트릭은 GPU가 장착된 서버에서만 수집됩니다.

안내

GPU 인스턴스 NVIDIA 라이브러리 업데이트 시 라이브러리 버전과 CUDA 버전의 호환성을 확인 부탁드립니다.
apt upgrade 등을 통한 업데이트로 버전간 호환이 되지 않는 경우,
사용자가 설치한 모니터링 에이전트에서 Nvidia와 관련된 메트릭을 수집하지 못하는 경우가 발생할 수 있습니다.

메트릭 이름설명단위
cpu_usage전체 CPU에 대한 사용량을 측정%
cpu_usage_iowaitCPU 사용률, CPU 상태: iowait%
cpu_usage_systemCPU 사용률, CPU 상태: system%
cpu_usage_userCPU 사용률, CPU 상태: user%
cpu_usage_per_coreCore 별 CPU의 사용량을 측정%
mem_buffered메모리 사용량, 메모리 상태: bufferedbytes(IEC)
mem_cached메모리 사용량, 메모리 상태: cachedbytes(IEC)
mem_used메모리 사용량bytes(IEC)
mem_usage메모리 사용률%
disk_used디스크 사용량bytes(IEC)
disk_used_percent디스크 사용률%
disk_inodes_usage디스크 inode 사용률%
disk_read_bytes_persec디스크에서 초당 읽은 바이트 크기bytes/s(IEC)
disk_write_bytes_persec디스크에서 초당 쓴 바이트 크기bytes/s(IEC)
disk_read_iops디스크에서 초당 입력 작업이 완료된 수count/s
disk_write_iops디스크에서 초당 출력 작업이 완료된 수count/s
network_rx_bytes_persec네트워크 인터페이스에서 받은 초당 바이트 크기bytes/s(IEC)
network_tx_bytes_persec네트워크 인터페이스에서 보낸 초당 바이트 크기bytes/s(IEC)
network_rx_packets_persec네트워크 인터페이스에서 받은 초당 패킷의 수packets/s
network_tx_packets_persec네트워크 인터페이스에서 보낸 초당 패킷의 수packets/s
nvidia_smi_memory_freeGPU 코어별 Free MemoryMiB(IEC)
nvidia_smi_memory_totalGPU 코어별 Total MemoryMiB(IEC)
nvidia_smi_memory_usedGPU 코어별 Used MemoryMiB(IEC)
nvidia_smi_power_drawGPU 코어별 Power 소비량watt
nvidia_smi_utilization_gpuGPU 코어별 사용률%

주요 MemStore 메트릭

메트릭 이름설명단위
memstore_allocator_rss_bytesRSS 메모리 크기bytes(IEC)
memstore_clients연결된 connection 수count
memstore_connected_slaves연결된 replica 수count
memstore_evicted_keysmaxmemory 제한으로 인해 제거된 키의 수count
memstore_expired_keys만료된 키의 수count
memstore_instantaneous_ops_per_sec초당 처리 명령어count
memstore_client_ratiomax client 대비 current client의 비율%
memstore_memory_usageMemStore 인스턴스에서 사용하는 memory 사용률%
memstore_keyspace_hits적중한 키의 수count
memstore_keyspace_misses적중에 실패한 키의 수count
memstore_maxclients최대로 연결할 수 있는 connection 수count
memstore_maxmemory최대 사용 가능 메모리bytes(IEC)
memstore_replication_lagReplication 지연시간s
memstore_uptime기동시간s
memstore_used_memoryMemStore 사용 Memorybytes(IEC)
memstore_cmdstat_calls_persec초당 명령어 호출 횟수count/s
memstore_keyspace_hitrate_percent키 적중률%
memstore_lru_clockLRU(Least Recently Used) 알고리즘 관리를 위하여 증가하는 시간 값count
memstore_blocked_clientsBLPOP, BRPOP, BRPOPLPUSH, BLMOVE, BZPOPMIN, BZPOPMAX 명령으로 대기중인 클라이언트의 수count
memstore_cluster_connections클러스터 버스에서 사용하는 소켓의 추정 개수count
memstore_allocator_activeallocator에서 활성화된 메모리, external-fragmentation을 포함bytes(IEC)
memstore_allocator_allocatedallocator에 할당된 메모리, internal-fragmentation을 포함bytes(IEC)
memstore_allocator_residentallocator에서 관리중인 resident 메모리, OS에 반환 가능한 메모리를 포함bytes(IEC)
memstore_allocator_frag_bytesallocator에서 활성화된 메모리와 할당된 메모리 간의 차이bytes(IEC)
memstore_allocator_frag_ratioallocator에서 활성화된 메모리와 할당된 메모리 간의 비율%
memstore_allocator_rss_ratioallocator에서 관리중인 resident 메모리와 활성화된 메모리 간의 비율%
memstore_lazyfree_pending_objectsUNLINK 호출 또는 ASYNC 옵션을 사용하여 FLUSHDB 및 FLUSHALL을 호출한 결과로 해제되기를 기다리고 있는 객체의 수count
memstore_lazyfreed_objectsLazy Free 프로세스를 통해 해제된 객체의 수count
memstore_mem_fragmentation_bytesMemStore에서 사용중인 resident 메모리와 할당된 메모리 간의 차이bytes(IEC)
memstore_mem_fragmentation_ratioMemStore에서 사용중인 resident 메모리와 할당된 메모리 간의 비율%
memstore_mem_not_counted_for_evict키 제거를 위한 메모리 계산에서 제외된, 일시적인 레플리카와 AOF 버퍼 등을 통해 발생한 메모리bytes(IEC)
memstore_rss_overhead_bytesMemStore 프로세스의 resident 메모리와 allocator에서 관리중인 resident 메모리 간의 차이bytes(IEC)
memstore_rss_overhead_ratioMemStore 프로세스의 resident 메모리와 allocator에서 관리중인 resident 메모리 간의 비율%
memstore_total_system_memoryMemStore가 실행중인 시스템의 메모리bytes(IEC)
memstore_used_memory_datasetoverhead 메모리를 고려하여 실제 데이터 저장에 사용되는 메모리bytes(IEC)
memstore_used_memory_dataset_percoverhead 메모리를 고려하여 실제 데이터 저장에 사용되는 메모리의 비율%
memstore_used_memory_luaLua 엔진이 스크립트를 실행하는 데 사용되는 메모리bytes(IEC)
memstore_used_memory_overhead내부 데이터 구조를 관리하는 데 필요한 모든 overhead 메모리bytes(IEC)
memstore_used_memory_peakMemStore가 사용한 최대 메모리bytes(IEC)
memstore_used_memory_peak_perc전체 메모리 사용에 대한 최대 메모리 사용 비율%
memstore_used_memory_rss운영 체제에 의해 할당된 메모리 (resident set size)bytes(IEC)
memstore_instantaneous_input_kbps초당 네트워크에서 읽은 데이터의 속도KiB/s(IEC)
memstore_instantaneous_output_kbps초당 네트워크에서 내보낸 데이터의 속도KiB/s(IEC)
memstore_io_threaded_reads_processed메인 스레드와 I/O 스레드에서 처리된 읽기 이벤트의 총 수count
memstore_io_threaded_writes_processed메인 스레드와 I/O 스레드에서 처리된 쓰기 이벤트의 총 수count
memstore_pubsub_channels클라이언트가 subscription 하는 pub/sub 채널 개수count
memstore_pubsub_patterns클라이언트가 subscription 하는 pub/sub 패턴 개수count
memstore_total_commands_processed서버에서 처리된 처리된 총 명령어의 수count
memstore_total_connections_received서버에서 수락한 총 연결 수count
memstore_total_error_replies총 오류 응답 수. 거부된 명령어와 실패한 명령어의 합count
memstore_total_net_input_bytes총 네트워크 입력 바이트bytes(IEC)
memstore_total_net_output_bytes총 네트워크 출력 바이트bytes(IEC)
memstore_total_reads_processed총 처리된 읽기 이벤트 수count
memstore_total_writes_processed총 처리된 쓰기 이벤트 수count
memstore_used_cpu_sys서버 프로세스의 모든 스레드(메인 스레드 및 백그라운드 스레드)에서 사용된 시스템 CPUcount
memstore_used_cpu_sys_main_thread메인 스레드에서 사용된 시스템 CPUcount
memstore_used_cpu_user사용자 프로세스의 모든 스레드(메인 스레드 및 백그라운드 스레드)에서 사용된 사용자 CPUcount
memstore_used_cpu_user_main_thread메인 스레드에서 사용된 사용자 CPUcount
memstore_cluster_enabled클러스터 활성화 여부count

주요 MySQL 메트릭

메트릭 이름설명단위
mem_swap_total총 swap 메모리bytes(IEC)
mem_swap_cached캐시된 swap 메모리bytes(IEC)
mem_swap_freefree swap 메모리bytes(IEC)
mysql_logstorage_disk_write_bytes_persec로그 스토리지 디스크에서 초당 쓴 바이트 크기bytes/s(IEC)
mysql_defaultstorage_disk_write_bytes_persec기본 스토리지 디스크에서 초당 쓴 바이트 크기bytes/s(IEC)
mysql_logstorage_disk_read_bytes_persec로그 스토리지 디스크에서 초당 읽은 바이트 크기bytes/s(IEC)
mysql_defaultstorage_disk_read_bytes_persec기본 스토리지 디스크에서 초당 읽은 바이트 크기bytes/s(IEC)
mysql_logstorage_disk_write_iops로그 스토리지 디스크에서 초당 쓰기 작업이 완료된 수count/s
mysql_defaultstorage_disk_write_iops기본 스토리지 디스크에서 초당 쓰기 작업이 완료된 수count/s
mysql_logstorage_disk_read_iops로그 스토리지 디스크에서 초당 읽기 작업이 완료된 수count/s
mysql_defaultstorage_disk_read_iops기본 스토리지 디스크에서 초당 읽기 작업이 완료된 수count/s
mysql_logstorage_disk_used로그 스토리지 디스크 사용량bytes(IEC)
mysql_defaultstorage_disk_used기본 스토리지 디스크 사용량bytes(IEC)
mysql_defaultstorage_disk_used_percent기본 스토리지 디스크 사용률%
mysql_logstorage_disk_used_percent로그 스토리지 디스크 사용률%
mysql_logstorage_disk_inodes_usage로그 스토리지 inode 사용률%
mysql_defaultstorage_disk_inodes_usage기본 스토리지 inode 사용률%
mysql_network_rx_bytes_persec네트워크 인터페이스에서 받은 초당 바이트 크기bytes/s(IEC)
mysql_network_tx_bytes_persec네트워크 인터페이스에서 보낸 초당 바이트 크기bytes/s(IEC)
mysql_network_rx_packets_persec네트워크 인터페이스에서 받은 초당 패킷의 수packets/s
mysql_network_tx_packets_persec네트워크 인터페이스에서 보낸 초당 패킷의 수packets/s
mysql_innodb_row_lock_current_waits현재 행 잠금 수count
mysql_binary_size_bytesbinary log 크기bytes(IEC)
mysql_binary_files_countbinary log file 수count
mysql_variables_max_binlog_size최대 binary log 크기bytes(IEC)
mysql_connections_count연결된 connection 수count
mysql_slow_query_count5분 동안 slow 쿼리가 수행된 횟수count
mysql_com_insert_count5분 동안 INSERT 쿼리를 수행한 횟수count
mysql_com_select_count5분 동안 SELECT 쿼리를 수행한 횟수count
mysql_com_delete_count5분 동안 DELETE 쿼리를 수행한 횟수count
mysql_com_commit_count5분 동안 COMMIT 쿼리를 수행한 횟수count
mysql_com_update_count5분 동안 UPDATE 쿼리를 수행한 횟수count
mysql_query_persec초당 쿼리 횟수 (QPS)count/s
mysql_connection_usage_percentmax connection 대비 연결된 connection 비율%
mysql_innodb_buffer_pool_read_requestsbuffer pool 전체 요청 수count
mysql_innodb_row_lock_time행 잠금 시간milliseconds
mysql_innodb_buffer_pool_readsbuffer pool에서 읽은 요청 수count
mysql_innodb_buffer_cache_hit_ratiomysql innodb buffer pool cache hit율%
mysql_uptime기동시간duration
mysql_instance_status인스턴스 상태count
mysql_instance_group_status인스턴스 그룹 상태count
mysql_replication_lagBinlog 복제 지연seconds
mysql_max_connections_count최대로 연결할 수 있는 connection 수count

주요 Load Balancing 메트릭

메트릭 이름설명단위
lb_bytes_in_persec인바운드 트래픽bytes/s(IEC)
lb_bytes_out_persec아웃바운드 트래픽bytes/s(IEC)
lb_connections_persec초당 connection 수count/s
lb_current_connections연결된 connection 수count