본문으로 건너뛰기
튜토리얼 시리즈

Kubeflow 기반 트래픽 예측 모델

이 튜토리얼 시리즈는 카카오클라우드 Kubeflow를 활용하여 로드 밸런서 로그 데이터를 기반으로 트래픽 예측 모델을 구축하는 과정을 다룹니다. 시계열 데이터를 전처리하고 머신러닝 모델을 개발하며, 모델의 하이퍼파라미터 튜닝, 배포 및 API 서빙, 자동화된 MLOps 파이프라인까지 예측 모델의 End-to-End 개발과 운영 과정을 실습 형태로 학습할 수 있습니다.

이 시리즈는 트래픽 예측 모델 설계, Kubeflow 기반 MLOps 구축, Scikit-learn 모델 서빙 및 운영 자동화에 관심 있는 실무자 또는 엔지니어를 위한 실습형 콘텐츠입니다.


사전 준비 사항

  1. 트래픽 예측 모델 실습을 위해서는 Kubeflow 환경이 구성되어 있어야 합니다. Kubeflow를 이용한 Jupyter Notebook 환경 구성 문서를 참고하여 CPU 노드 풀이 설정된 환경을 먼저 준비하세요. 본 실습에서는 GPU를 사용하지 않으며, CPU 노드풀만으로 충분합니다.

  2. 실습에 필요한 데이터, 모델, 아티팩트(artifact)를 저장하기 위해 다음과 같은 PVC 볼륨 3개를 생성해야 합니다.

    이름마운트 경로권장 용량   Access Mode
    dataset-pvc/home/jovyan/dataset2GiReadOnlyMany
    model-pvc/home/jovyan/models2GiReadOnlyMany
    artifact-pvc/home/jovyan/artifacts2GiReadOnlyMany
  3. 실습에 사용하는 데이터는 합성된 로그 데이터이며, 각 튜토리얼 단계에서 다운로드 링크를 제공합니다.


튜토리얼 구성

트래픽 예측 모델 구축 튜토리얼 시리즈는 아래 단계에 따라 구성되어 있습니다.

  1. 데이터 탐색 및 모델 개발: 로그 데이터를 전처리하고, 반복적인 시간 패턴을 반영한 피처 엔지니어링 및 ML 모델을 개발합니다.
  2. 모델 하이퍼파라미터 튜닝: Kubeflow Katib을 활용해 하이퍼파라미터 최적화를 수행하고 성능을 개선합니다.
  3. 모델 서빙 API 생성: 학습된 모델을 KServe 기반 InferenceService로 배포하고 API 요청을 통해 예측을 수행합니다.
  4. 파이프라인 자동화 구성: 데이터 처리부터 모델 학습, 서빙까지 자동화된 워크플로우를 구성합니다.