본문으로 건너뛰기

Kubeflow Tensorboard를 사용한 머신러닝 실험 관리

카카오클라우드 Kubeflow 환경에서 TensorBoard 컴포넌트를 활용하여, 머신러닝 실험 과정에서 생성되는 로그 데이터를 관리하고 시각화하는 방법을 안내합니다.

기본 정보
  • 예상 소요 시간: 10분
  • 사용자 환경
    • 권장 운영 체제: MacOS, Ubuntu
    • Region: kr-central-2
  • 참고 사항
    • Private 네트워크 환경에서는 학습 파일 다운로드가 원활하지 않을 수 있습니다.

시나리오 소개

TensorBoard는 머신러닝 모델의 학습 과정을 직관적으로 모니터링하고 분석하는 데 필수적인 도구입니다. Kubeflow 환경에서 TensorBoard를 활용하면, 머신러닝 실험의 진행 상황을 실시간으로 모니터링하고, 다양한 실험 결과를 비교 분석할 수 있습니다. 또한, 모델의 성능을 최적화하기 위한 핵심 지표의 이해와 TensorBoard를 활용한 실험 관리 방법을 확인할 수 있습니다.

이 시나리오에서는 카카오클라우드의 Kubeflow 환경에서 TensorBoard를 활용하여 실제 학습 데이터의 로그를 시각화하고 분석하는 과정을 단계별로 소개합니다.

주요 내용은 다음과 같습니다.

  • Kubeflow에서 TensorBoard 인스턴스 생성 및 설정
  • 학습 중인 모델의 로그 데이터를 실시간으로 모니터링하고 시각화하는 방법을 학습
  • TensorBoard를 활용하여 모델 학습 과정을 분석

지원 도구

도구버전설명
Tensorboard2.1.0머신러닝 실험의 시각화 도구로, 측정 항목의 추적 및 시각화, 가중치와 텐서의 히스토그램 추적 기능을 제공합니다.
안내

Tensorboard에 대한 자세한 설명은 Tensorboard 공식 문서를 확인해 주세요.

시작하기 전에

TensorBoard를 사용하기 위한 환경 설정 및 필수 리소스 준비 과정을 안내합니다.

1. Kubeflow 환경 준비

Kubeflow에서 TensorBoard를 사용하기 전에, 실습에 적합한 노드 풀 사양이 준비되었는지 확인합니다. 환경 설정이 필요한 경우, Kubeflow를 이용한 Jupyter Notebook 환경 구성가이드를 참조하여 적절한 사양의 Kubeflow 환경을 구성하세오.

필요 최소 사양

  • 노드 풀 최소 사양: vCPU 4개 이상, 메모리 8GB 이상
  • 여유 File Storage 사이즈: 10GiB 이상

시작하기

TensorBoard를 활용하여 머신러닝 실험의 로그 데이터를 효율적으로 관리하고 시각화하는 구체적인 실습 단계는 다음과 같습니다.

Step 1. 실습을 위한 노트북 인스턴스 생성

이 단계에서는 Kubeflow에서 실습을 위한 노트북 인스턴스를 생성하는 방법을 안내합니다.

  1. Kubeflow 대시보드에서 Notebooks 탭을 선택합니다.

  2. 상단의 [New Notebook] 버튼을 클릭하여 노트북 인스턴스를 생성합니다.

  3. New notebook 설정 화면에서 다음 정보를 입력합니다.

    • Notebook Image: kc-kubeflow/jupyter-tensorflow-full:v1.8.0.py311.1a를 선택합니다.
    • Notebook 사양: (최소) vCPU 1개 이상, RAM 2GB 이상 입력합니다.
  4. 설정을 완료한 후, [LAUNCH] 버튼을 클릭하여 인스턴스를 생성합니다.

Step 2. 모델 학습

이 단계에서는 Tensorboard를 통해 확인할 모델 학습을 진행합니다.

  1. 예제 프로젝트를 아래 링크에서 다운로드하고, 생성한 노트북 인스턴스에 업로드합니다.

  2. 학습 로그 디렉터리 생성 코드 블럭을 실행해 로그 디렉터리를 생성합니다. 이미지. 학습 로그 디렉터리 생성하기

  3. 모델 정의 및 학습 코드 블럭을 실행해 실습 모델에 대한 학습을 진행합니다. 이미지. 모델 학습

Step 3. Tensorboard 인스턴스 생성

  1. Tensorboards 탭을 선택한 후, [New TensorBoard] 버튼을 클릭합니다.

  2. New Tensorboard 화면에서 필요한 정보를 입력하고 [Create] 버튼을 클릭하여 Tensorboard 인스턴스를 생성합니다.

    이미지. Tensorboard 생성하기

    항목
    Storage 종류PVC
    PVC NameStep 1에서 생성한 노트북의 Workspace Volume의 이름
    Mount Path선택된 Volume에서 학습 결과 로그가 저장된 경로 (본 튜토리얼의 경우 logs/fit)
  3. [CONNECT] 버튼을 클릭하여 생성된 Tensorboard 인스턴스를 확인합니다.

    이미지. Tensorboard 확인하기

Step 4. Tensorboard를 통합 결과 확인

이 단계에서는 모델 학습을 수행하고, 학습 결과를 Tensorboard를 통해 확인하는 방법을 안내합니다.

  1. 노트북 내에서 TENSORBOARD_URL 변수를 Step 3.에서 생성한 Tensorboard의 주소로 변경합니다. 이미지: Tensorboard 생성하기

  2. 노트북 코드를 실행하여 모델을 학습시키고, IFrame을 통해 Tensorboard에서 변화된 학습 과정을 확인합니다. 이미지: Tensorboard 생성하기