본문으로 건너뛰기

Kubeflow MIG 인스턴스로 병렬 학습 모델 구현

카카오클라우드 Kubeflow MIG(Multi-Instance GPU) 인스턴스와 Training Operator를 활용한 병렬 학습 모델 구현 방식을 소개합니다.

기본 정보

시작하기 전에

이 튜토리얼은 MIG(Multi-Instance GPU) 설정을 통해 다수의 GPU 리소스를 활용하여 Kubeflow 노트북과 파이프라인에서 병렬 학습 모델을 구현하는 방법을 안내합니다. 이 과정을 통해 사용자는 효율적인 리소스 관리와 더 빠른 학습 시간을 경험할 수 있으며, 병렬 처리를 통한 모델 학습 방법을 학습할 수 있습니다.

시나리오 소개

이 시나리오는 Fashion MNIST 데이터셋을 사용하여, Kubeflow 환경에서 MIG 기능Training Operator를 활용한 병렬 학습 모델 구현 프로세스를 단계별로 설명합니다. 이 시나리오의 주요 내용은 다음과 같습니다.

  • MIG 설정을 통한 GPU 자원 최적화
  • Kubeflow에서 Training Operator를 사용한 분산 학습 환경 구성
  • Fashion MNIST 데이터셋을 활용한 예측 모델 학습
  • 모델 학습의 효율성 향상과 리소스 관리

지원 도구

도구버전설명지원 프레임워크
Training Operatorv1-e1434f6- 모델 학습 도구로 다양한 딥러닝 프레임워크에 대한 분산 학습 지원
- 복수 GPU 자원에 대한 빠른 모델 학습 제공
- TensorFlow
- PyTorch
- Apache MXNet
- XGBoost
- Message passing interface(MPI)
안내

Training Operators에 대한 자세한 설명은 Kubeflow > Training Operators 공식 문서를 확인해 주세요.

사전 작업

1. 학습 데이터 준비

본 실습은 Fashion MNIST 데이터세트를 활용합니다. 이는 컴퓨터 비전 분야에서 새로운 알고리즘을 시험하는 데 일반적으로 사용되는 벤치마크 데이터셋 중 하나로, MNIST와 유사하지만 Fashion MNIST는 의류 카테고리(운동화, 셔츠, 샌들 등)에 속하는 작은 이미지로 구성됩니다. 데이터셋은 10개의 카테고리와 70,000개의 28x28 픽셀 회색조 이미지로 이루어져 있으며, 실습을 진행하면서 자동으로 다운로드 받게 됩니다.

이미지. Fashion MNIST 데이터세트 Fashion MNIST 데이터세트

2. Kubeflow 환경 준비

Kubeflow에서 Training Operator를 사용하기 전에, 실습에 적합한 MIG 설정과 노드 풀 사양을 확인합니다. Kubeflow 환경이 준비되지 않았다면, Kubeflow를 이용한 Jupyter Notebook 환경 구성 문서를 참고하여 GPU 노드 풀이 설정된 Kubeflow 환경을 생성하고 CPU 이미지 기반의 노트북을 생성합니다.

필요 최소 사양

  • 노드 풀 최소 사양: vCPU 4개 이상, Memory 8GB 이상
  • MIG 설정 최소 사양: 1g.10gb 인스턴스 3대 이상
  • GPU 파이프라인 노드 풀 설정

작업 순서

Kubeflow를 활용한 병렬 학습 모델을 구현하는 구체적인 실습 단계는 다음과 같습니다.

Step 1. Fashion MNIST 분류 모델을 위한 TrainingJob 생성하기

Kubeflow의 Training Operator를 활용하여 Fashion MNIST 데이터셋 기반의 분류 모델 학습을 위한 TrainingJob을 생성합니다. TrainingJob을 사용하여 Fashion MNIST 데이터셋으로 모델 학습을 수행합니다.

  1. 실습을 위한 fashionmnist_pytorch_parallel_train_with_tj.ipynb 데이터를 다운로드합니다.

  2. 다운로드 후 생성한 노트북 인스턴스에 접속하여 파일을 브라우저에 업로드합니다.

    이미지. 주피터 노트북 콘솔에 파일 브라우저 업로드하기 주피터 노트북 콘솔에 파일 브라우저 업로드하기

  3. 업로드가 완료되면 우측 화면 영역에 실습 내용을 확인할 수 있습니다.

    이미지. 예제 파일 업로드 완료 예제 파일 업로드 완료

  4. 예제 내용을 확인하고 모델 학습을 실습합니다.

Step 2. 대시보드에서 TrainingJob 현황 확인하기

Kubeflow 대시보드에서 TrainingJob의 스펙과 로그, 이벤트를 조회할 수 있는 화면을 제공하고 있습니다.

  1. Kubeflow 대시보드에 접속한 후, TrainingJob 탭을 선택합니다. 이미지. GPU 현황 탭 GPU 현황 탭

  2. 목록에서 parallel-train-pytorch를 클릭합니다. 이미지. GPU 현황 탭 GPU 현황 탭

  3. Step 1에서 생성한 TrainingJob의 상세 현황을 확인합니다. 이미지. GPU 현황 탭 GPU 현황 탭

Step 3. MIG 인스턴스 현황 확인하기

카카오클라우드 콘솔을 통해 MIG 인스턴스의 사용 현황을 확인합니다. 병렬 학습 작업으로 인한 GPU 자원 분배와 사용량을 모니터링하며, 자원 활용의 효율성을 검토합니다.

  1. 카카오클라우드 콘솔에서 Kubeflow 메뉴를 선택합니다.

  2. Kubeflow 메뉴에서 정보를 확인할 Kubeflow를 선택합니다.

  3. GPU 현황 탭에서 실습에 활용한 MIG 인스턴스가 사용중인 현황을 확인합니다.

    이미지. GPU 현황 탭 GPU 현황 탭