튜토리얼 시리즈
Kubeflow 기반 LLM 워크플로우
이 튜토리얼 시리즈는 카카오클라우드 Kubeflow를 기반으로 대규모 언어 모델(LLM)의 준비부터 학습, 활용까지 전 과정을 실습 형태로 구성한 콘텐츠입니다.
카카오의 카나나(Kanana)와 Meta의 Llama 3.2 모델을 활용해, 모델 추론 엔드포인트 생성부터 파인튜닝, RAG 기반 응용 구현까지 실제 서비스 환경에서 LLM을 운용하는 방법을 단계별로 익힐 수 있습니다.
이 시리즈는 Kubeflow 사용 경험이 있는 개발자 또는 MLOps 환경에서 LLM 활용을 고려 중인 사용자에게 실질적인 도움이 되도록 구성되었습니다.
사전 준비 사항
-
LLM 실습을 위해서는 GPU 또는 CPU 기반의 Kubeflow 환경이 사전에 구성되어 있어야 합니다. Kubeflow를 이용한 Jupyter Notebook 환경 구성 문서를 참고하여 환경을 준비해 주세요.
-
LLM 서빙 및 파인튜닝 작업을 위해 다음과 같은 노드 풀 환경을 권장합니다.
구분 권장 사양 CPU 기반 - m2a.2xlarge
(8 vCPU, 32GiB 이상)
- 볼륨: 100GiB 이상GPU 기반 - p2i.6xlarge
(A100 80GB, 24 vCPU, 192GiB 이상)
- MIG: 최소1g.10gb
인스턴스 1대 이상
- 볼륨: 100GiB 이상 -
튜토리얼에서 사용하는 예제 데이터 및 모델은 각 튜토리얼 본문에 다운로드 링크와 함께 제공됩니다.
튜토리얼 구성
LLM 워크플로우 튜토리얼 시리즈는 아래와 같은 단계로 구성되어 있습니다.
- LLM 모델 서빙 Endpoint 생성: KServe를 활용해 LLM 모델을 서빙하고, LangChain과 연동 가능한 추론 엔드포인트를 생성합니다.
- LLM 모델 파인튜닝: PEFT 및 Unsloth를 활용하여 사전 학습된 모델에 도메인 특화 데이터를 반영하는 파인튜닝 과정을 실습합니다.
- LLM 모델 활용 RAG 구현: LangChain과 FAISS를 활용해 RAG 기반 질의응답 시스템을 구현하고, 사용자 질의에 따라 문서를 검색하고 답변하는 흐름을 구성합니다.