튜토리얼 시리즈
Kubeflow 기반 트래픽 예측 모델
이 튜토리얼 시리즈는 카카오클라우드 Kubeflow를 활용하여 로드 밸런서 로그 데이터를 기반으로 트래픽 예측 모델을 구축하는 과정을 다룹니다. 시계열 데이터를 전처리하고 머신러닝 모델을 개발하며, 모델의 하이퍼파라미터 튜닝, 배포 및 API 서빙, 자동화된 MLOps 파이프라인까지 예측 모델의 End-to-End 개발과 운영 과정을 실습 형태로 학습할 수 있습니다.
이 시리즈는 트래픽 예측 모델 설계, Kubeflow 기반 MLOps 구축, Scikit-learn 모델 서빙 및 운영 자동화에 관심 있는 실무자 또는 엔지니어를 위한 실습형 콘텐츠입니다.
사전 준비 사항
-
트래픽 예측 모델 실습을 위해서는 Kubeflow 환경이 구성되어 있어야 합니다. Kubeflow를 이용한 Jupyter Notebook 환경 구성 문서를 참고하여 CPU 노드 풀이 설정된 환경을 먼저 준비하세요. 본 실습에서는 GPU를 사용하지 않으며, CPU 노드풀만으로 충분합니다.
-
실습에 필요한 데이터, 모델, 아티팩트(artifact)를 저장하기 위해 다음과 같은 PVC 볼륨 3개를 생성해야 합니다.
이름 마운트 경로 권장 용량 Access Mode dataset-pvc /home/jovyan/dataset
2Gi ReadOnlyMany model-pvc /home/jovyan/models
2Gi ReadOnlyMany artifact-pvc /home/jovyan/artifacts
2Gi ReadOnlyMany -
실습에 사용하는 데이터는 합성된 로그 데이터이며, 각 튜토리얼 단계에서 다운로드 링크를 제공합니다.
튜토리얼 구성
트래픽 예측 모델 구축 튜토리얼 시리즈는 아래 단계에 따라 구성되어 있습니다.
- 데이터 탐색 및 모델 개발: 로그 데이터를 전처리하고, 반복적인 시간 패턴을 반영한 피처 엔지니어링 및 ML 모델을 개발합니다.
- 모델 하이퍼파라미터 튜닝: Kubeflow Katib을 활용해 하이퍼파라미터 최적화를 수행하고 성능을 개선합니다.
- 모델 서빙 API 생성: 학습된 모델을 KServe 기반 InferenceService로 배포하고 API 요청을 통해 예측을 수행합니다.
- 파이프라인 자동화 구성: 데이터 처리부터 모델 학습, 서빙까지 자동화된 워크플로우를 구성합니다.