Kubeflow 노트북으로 예측 모델 구현
카카오클라우드 Kubeflow 환경에서 TLC Trip Record Data를 활용하여 택시 요금 예측 모델을 구현 하는 과정을 안내합니다.
기본 정보
- 예상 소요 시간: 10분
- 권장 운영 체제: MacOS, Ubuntu
- Region: kr-central-2
- 참고 문서
시작하기 전에
이 튜토리얼은 카카오클라우드의 Kubeflow 환경에서 Jupyter Notebook을 사용하여 택시 요금 예측 모델을 구현하는 과정을 안내합니다. 데이터의 전처리부터 모델의 학습, 평가까지의 단계를 실습하면서, 실제 데이터를 사용한 머신러닝 모델 구축 과정의 기본 원리를 이해하고, Kubeflow에서의 모델 학습과 파이프라인 구축 경험을 쌓을 수 있습니다.
시나리오 소개
이 시나리오에서는 TLC Trip Record Data를 활용 하여 택시 요금 예측 모델을 Kubeflow에서 구현합니다. 이 시나리오의 주요 내용은 다음과 같습니다.
- Kubeflow에서 Jupyter Notebook 인스턴스 생성 및 활용 방법
- 데이터 전처리 및 탐색적 데이터 분석(EDA) 수행
- 노트북에서 간단한 머신러닝 모델을 구현하고 학습시키는 과정
- Kubeflow의 파이프라인을 구성하여 예측 모델 학습 과정 자동화
사전 작업
1. 학습 데이터세트 준비
New York City에서 공개된 TLC Trip Record Data와 예제로 제공하는 파이프라인 메니페스트 파일을 활용하여 간단한 전처리 및 학습 파이프라인을 실습합니다.
항목 | 설명 |
---|---|
목표 | 택시 요금 예측 모델 구현 |
데이터 정보 | NYC 택시 및 리무진 위원회에서 제공하는 2009~2015년의 Yellow 택시 요금 - 택시의 승하차 시간 및 위치, 여행 거리, 요금, 결제 유형, 승객 수 등 |
원본 데이터세트 정보