본문으로 건너뛰기
튜토리얼 시리즈

Kubeflow 기반 LLM 워크플로우

이 튜토리얼 시리즈는 카카오클라우드 Kubeflow를 기반으로 대규모 언어 모델(LLM)의 준비부터 학습, 활용까지 전 과정을 실습 형태로 구성한 콘텐츠입니다.
카카오의 카나나(Kanana)와 Meta의 Llama 3.2 모델을 활용해, 모델 추론 엔드포인트 생성부터 파인튜닝, RAG 기반 응용 구현까지 실제 서비스 환경에서 LLM을 운용하는 방법을 단계별로 익힐 수 있습니다.

이 시리즈는 Kubeflow 사용 경험이 있는 개발자 또는 MLOps 환경에서 LLM 활용을 고려 중인 사용자에게 실질적인 도움이 되도록 구성되었습니다.


사전 준비 사항

  1. LLM 실습을 위해서는 GPU 또는 CPU 기반의 Kubeflow 환경이 사전에 구성되어 있어야 합니다. Kubeflow를 이용한 Jupyter Notebook 환경 구성 문서를 참고하여 환경을 준비해 주세요.

  2. LLM 서빙 및 파인튜닝 작업을 위해 다음과 같은 노드 풀 환경을 권장합니다.

    구분권장 사양
    CPU 기반- m2a.2xlarge (8 vCPU, 32GiB 이상)
    - 볼륨: 100GiB 이상
    GPU 기반- p2i.6xlarge (A100 80GB, 24 vCPU, 192GiB 이상)
    - MIG: 최소 1g.10gb 인스턴스 1대 이상
    - 볼륨: 100GiB 이상
  3. 튜토리얼에서 사용하는 예제 데이터 및 모델은 각 튜토리얼 본문에 다운로드 링크와 함께 제공됩니다.


튜토리얼 구성

LLM 워크플로우 튜토리얼 시리즈는 아래와 같은 단계로 구성되어 있습니다.

  1. LLM 모델 서빙 Endpoint 생성: KServe를 활용해 LLM 모델을 서빙하고, LangChain과 연동 가능한 추론 엔드포인트를 생성합니다.
  2. LLM 모델 파인튜닝: PEFT 및 Unsloth를 활용하여 사전 학습된 모델에 도메인 특화 데이터를 반영하는 파인튜닝 과정을 실습합니다.
  3. LLM 모델 활용 RAG 구현: LangChain과 FAISS를 활용해 RAG 기반 질의응답 시스템을 구현하고, 사용자 질의에 따라 문서를 검색하고 답변하는 흐름을 구성합니다.