Kubeflow 노트북으로 예측 모델 구현
카카오클라우드 Kubeflow 환경에서 TLC Trip Record Data를 활용하여 택시 요금 예측 모델을 구현하는 과정을 안내합니다.
- 예상 소요 시간: 10분
- 사용자 환경
- 권장 운영 체제: MacOS, Ubuntu
- Region: kr-central-2
- 참고 문서
시작하기 전에
이 튜토리얼은 카카오클라우드의 Kubeflow 환경에서 Jupyter Notebook을 사용하여 택시 요금 예측 모델을 구현하는 과정을 안내합니다. 데이터의 전처리부터 모델의 학습, 평가까지의 단계를 실습하면서, 실제 데이터를 사용한 머신러닝 모델 구축 과정의 기본 원리를 이해하고, Kubeflow에서의 모델 학습과 파이프라인 구축 경험을 쌓을 수 있습니다.
시나리오 소개
이 시나리오에서는 TLC Trip Record Data를 활용하여 택시 요금 예측 모델을 Kubeflow에서 구현합니다. 이 시나리오의 주요 내용은 다음과 같습니다.
- Kubeflow에서 Jupyter Notebook 인스턴스 생성 및 활용 방법
- 데이터 전처리 및 탐색적 데이터 분석(EDA) 수행
- 노트북에서 간단한 머신러닝 모델을 구현하고 학습시키는 과정
- Kubeflow의 파이프라인을 구성하여 예측 모델 학습 과정 자동화
사전 작업
1. 학습 데이터세트 준비
New York City에서 공개된 TLC Trip Record Data와 예제로 제공하는 파이프라인 메니페스트 파일을 활용하여 간단한 전처리 및 학습 파이프라인을 실습합니다.
항목 | 설명 |
---|---|
목표 | 택시 요금 예측 모델 구현 |
데이터 정보 | NYC 택시 및 리무진 위원회에서 제공하는 2009~2015년의 Yellow 택시 요금 - 택시의 승하차 시간 및 위치, 여행 거리, 요금, 결제 유형, 승객 수 등 |
원본 데이터세트 정보
2. Kubeflow 환경 준비
이 튜토리얼은 CPU 노드 풀 환경에서 노트북을 사용합니다.
Kubeflow 서비스나 적절한 환경이 준비되지 않았다면, Jupyter Notebook 생성하기 문서를 참고하여 CPU 이미지 기반의 노트북을 생성합니다.
노트북 실습
이 튜토리얼에서는 노트북에서 예측 모델 학습 예제과 파이프라인을 생성한 뒤 예측 모델을 학습시키기는 두 개의 실습 시나리오를 제공합니다.
실습 1. 노트북에서 예측 모델 학습하기
-
실습에 필요한 nyc_taxi_pytorch_run_in_notebook.ipynb 파일을 다운로드합니다.
-
사전 작업에서 생성한 Kubeflow 노트북 인스턴스에 접속합니다. 좌측 상단의 [파일 업로드] 버튼을 클릭하여 예제 파일을 업로드합니다.
주피터 노트북 콘솔에 파일 브라우저 업로드하기
-
업로드가 완료되면 좌측 탭에서 예제 파일을 확인할 수 있습니다. 업로드한 예제 파일을 선택한 후, 우측 화면 영역에 실습 내용을 확인합니다.
-
실습 내용을 따라가며 모델 학습을 실행합니다.
실습 2. 노트북에서 파이프라인 생성하고 예측 모델 학습시키기
-
실습에 필요한 nyc_taxi_pytorch_build_pipeline_cpu.ipynb 파일을 다운로드합니다.
-
사전 작업에서 생성한 Kubeflow 노트북 인스턴스에 접속합니다. 좌측 상단의 [파일 업로드] 버튼을 클릭하여 예제 파일을 업로드합니다.
-
업로드가 완료되면 좌측 탭에서 예제 파일을 볼 수 있습니다. 업로드한 예제 파일을 선택한 후, 우측 화면 영역에 실습 내용을 확인합니다.
-
실습을 진행하기 위한 환경 변수 정보로 KubeFlow에 연결된 로드 밸런서의 Private IP와 KubeFlow에서 사용 중인 이메일 및 패스워드를 입력합니다.
-
실습 내용을 따라가며 모델 학습을 실행합니다.
리소스 삭제 (선택)
실습 완료나 서비스 미사용 시, 아래와 같이 리소스를 삭제하는 것이 좋습니다.
-
Kubeflow 대시보드의
Runs
탭에서 실행을 확인할 수 있습니다. 작업이 완료되면 해당 실행을Archived
로 이동시키고 Delete 버튼을 클릭합니다. 실행 삭제하기 -
실행 삭제 시, 파드까지 삭제된걸 확인할 수 있습니다.
실행 삭제 확인하기