Skip to main content

2 posts tagged with "gpu"

View All Tags

카카오클라우드 서비스 소식 - VM·Hadoop 성능 개선, IAM 보안 설정 등

· 3 min read
Mia (정혜원)
Technical Contents Manager
update

올 해도 카카오클라우드는 사용자 여러분께 더 편리하고 안전한 클라우드 환경을 제공하기 위해 쉼 없이 달리고 있는데요, 따스한 봄기운과 함께 찾아온 3월의 주요 서비스 업데이트 소식을 모아서 전해드립니다.

최근 안내해 드린 사용자 중심의 콘솔 개편이 대대적인 화면 구조와 경험(UX)의 변화였다면, 이번에는 내실을 다지는 서비스 기능 강화 소식에 초점을 맞췄습니다. 시스템 안정성을 높이기 위한 작업과 더불어, 리소스 관리 효율성과 보안성을 한층 높인 이번 업데이트의 상세 내용을 확인해 보세요.


🖥️ 인프라 관리 효율성 및 서비스 확장성

  • GPU 서비스, Virtual Machine(VM)으로 통합: 더욱 직관적인 리소스 관리를 위해 기존에 별도로 운영되던 GPU 서비스가 Virtual Machine 서비스 내로 통합되었습니다.

    • 통합 환경 제공: 이제 VM 생성 단계에서 일반 인스턴스와 GPU 인스턴스를 동일한 워크플로우 내에서 선택하고 관리할 수 있습니다.
    • 알림 정책 자동 전환: 서비스 통합에 따라 기존 GPU 서비스에서 설정했던 Alert Center의 알림 정책들은 Virtual Machine 서비스의 정책으로 안전하게 자동 전환되었습니다. 별도의 재설정 없이 기존의 모니터링 환경을 그대로 이용하실 수 있습니다.
  • Virtual Machine, t1i 인스턴스 '시작 크레딧' 지원: 워크로드 처리 효율을 높이기 위해 버스터블 인스턴스t1i 유형에 시작 크레딧 기능이 추가되었습니다. 이제 인스턴스 부팅 시 일시적으로 높은 CPU 사용률을 유지할 수 있어, 초기 구동 속도가 획기적으로 빨라졌습니다.

  • Hadoop Eco, 노드 볼륨 최대 16TB로 확장: 대용량 데이터 분석을 지원하기 위해 Hadoop Eco 서비스의 노드별(마스터, 워커, 태스크) 최대 볼륨 크기를 기존 5TB에서 최대 16TB로 대폭 상향했습니다. 스토리지 제약 없이 더 방대한 데이터를 분석해 보세요.

  • Object Storage 상품명 변경: 사용자가 이용 중인 스토리지 서비스를 쉽게 인지할 수 있도록 Object Storage의 상품명이 다음과 같이 변경되었습니다. 가격은 기존과 동일하며, 3월 빌링 청구서부터 순차적으로 적용됩니다.

    • 데이터 용량: Hot Bucket → Standard Storage Class
    • API 호출: 기존 요청 명칭 앞에 Standard- 접두사가 추가 (예: Standard-PUT, Standard-GET 등)

🔑 보안 기능 강화

  • IAM 보안 설정 강화: 조직의 소중한 자원을 보호하기 위해 다양한 보안 설정이 콘솔 내 계정 설정 및 IAM 서비스 항목에 추가되었습니다.

    • 자원 삭제 시 비밀번호 재인증: 사용자 계정이나 프로젝트 서비스 계정을 삭제할 때, 단순 실수를 방지하기 위한 비밀번호 재인증 단계가 추가되었습니다.
    • 세션 및 토큰 즉시 만료 옵션: 비밀번호 변경 시, 기존에 로그인된 모든 세션과 발급된 액세스 토큰을 즉시 무효화할 수 있습니다. 계정 유출이 의심되는 긴급 상황에서 보안 사고에 빠르게 대처할 수 있습니다.
    • Cloud Trail 감사 로그 확대: 보안 정책 및 계정 관리 이력을 상세히 추적할 수 있도록 17종의 신규 이벤트가 추가되었습니다.

🛠️ 개발 편의성 향상

  • OpenAPI MySQL 신규 지원: 개발자를 위한 OpenAPI 지원 범위가 한층 넓어졌습니다. 이번 업데이트로 MySQL OpenAPI가 새롭게 추가되어, 카카오클라우드 MySQL 서비스를 API로 직접 제어하고 관리 자동화에 활용할 수 있습니다. OpenAPI와 관련한 자세한 업데이트는 OpenAPI Changelogs에서 확인하실 수 있습니다.

이번에 전해드릴 소식은 여기까지 입니다. 소개해 드린 기능 개선 외에도 각 서비스의 상세한 변경 사항과 이전 업데이트 이력은 기술문서 내 서비스별 릴리즈 노트에서 확인하실 수 있습니다.

카카오클라우드는 앞으로도 안정적인 인프라와 사용자 중심의 기능을 제공하기 위해 최선을 다하겠습니다.
서비스 이용과 관련하여 궁금하신 사항은 언제든 카카오클라우드 고객지원을 통해 문의해 주시기 바랍니다.

👉 지금 바로 카카오클라우드 시작하기

Kubeflow로 구현하는 MLOps 워크플로우

· 6 min read
Update Kubeflow


안녕하세요. 이 포스트에서는 머신러닝 운영의 핵심 플랫폼인 Kubeflow를 소개해드리려고 합니다.

Kubeflow는 머신러닝의 복잡성을 해소하고, 데이터 과학자 및 개발자가 보다 쉽게, 더 빠르게 머신러닝 모델을 개발하고 배포할 수 있도록 설계된 오픈 소스 프로젝트입니다. Kubeflow 공식 사이트에서 Kubeflow를 소개하는 첫 문장을 보면, "쿠버네티스(Kubernetes) 위에서 머신러닝을 위한 다양한 오픈 소스들을 종합적으로 관리하고 운영하는데 도움을 주는 프로젝트"라는 부분을 확인할 수 있습니다.

과거 Google이 내부적으로 사용하던 TensorFlow Extended(TFX)에서 출발한 Kubeflow는 현재 쿠버네티스 기반의 다양한 환경에서 머신러닝 워크플로우를 실행할 수 있는 가장 널리 알려진 엔드-투-엔드 솔루션으로 확장되었습니다.

Kubeflow의 가장 혁신적인 접근 방식 중 하나는 AutoML과 Kubeflow Pipelines의 통합입니다. 이를 통해 사용자는 모델의 훈련, 평가, 배포 단계를 자동화하고, 최적화할 수 있으며, 머신러닝 프로젝트의 반복 작업을 줄일 수 있습니다. 또한, Multi-tenant 지원을 강화하여, 여러 팀이 동일한 Kubeflow 인스턴스를 효과적으로 공유하며, 리소스를 격리할 수 있게 되었습니다. 카카오클라우드에서 제공하는 Kubeflow 서비스 또한 머신러닝 작업의 효율성을 극대화하고, 사용자가 쉽게 접근할 수 있도록 설계되었습니다.

이 포스팅에서는 Kubeflow의 주요 컴포넌트, 최신 기능, 그리고 카카오클라우드에서 Kubeflow를 활용하는 다양한 튜토리얼 시나리오를 소개해 드리도록 하겠습니다.

Kubeflow 특징

Kubeflow는 머신러닝 모델의 유연한 확장과 쉽고 편리한 상용 배포를 목표로 쿠버네티스 환경에서 다음과 같은 작업을 지원합니다.

  • 반복 및 이식이 가능한 쉬운 배포: Kubeflow를 통해 생성된 파이프라인은 클라우드, 온프레미스 등 여러 환경에서 배포를 용이하게 합니다.
  • 비종속적인 마이크로 서비스 배포 및 관리 체계: 마이크로서비스 아키텍처를 기반으로 한 Kubeflow는 각 컴포넌트의 독립적인 관리를 가능하게 합니다.
  • 사용자 요구에 따른 반응형 스케일링: 사용자의 요구에 따라 리소스를 자동으로 스케일링하며, 최적의 성능을 보장합니다.

Kubeflow 주요 컴포넌트

Kubeflow는 Central Dashboard, Jupyter Notebooks, Tensorboard, Pipelines 등 여러 오픈소스 컴포넌트로 구성되어 있으며, 각각은 머신러닝 워크플로우의 특정 단계를 지원합니다. 이들 컴포넌트는 사용자가 머신러닝 프로젝트를 보다 효율적으로 관리할 수 있도록 설계되어 있습니다.


출처: Kubeflow Ecosystem

Kubeflow는 쿠버네티스 기반에서 이와 같은 주요 컴포넌트를 사용하여 머신러닝 모델 개발부터 배포, 자원 관리에 이르기까지 전 과정을 효율적으로 지원하게 됩니다.

Kubeflow 주요 컴포넌트설명
Central Dashboard   여러 컴포넌트 액세스 및 모니터링을 위한 대시보드 웹 콘솔을 제공합니다.
Notebooks데이터 과학자가 클러스터 내에서 직접 코딩할 수 있는 Jupyter 노트북 환경을 제공합니다.
TensorboardTensorflow, PyTorch 등의 프레임워크에서 제공하는 모델 학습 과정 및 학습 데이터 시각화 툴 텐서보드 서버(Tensorboard Server)를 생성하고 관리합니다.
PipelinesDocker 기반의 확장 가능한 파이프라인으로 복잡한 머신러닝 워크플로우를 간소화합니다.
KatibKatib과 같은 AutoML 컴포넌트를 통해 모델 학습 하이퍼파라미터 튜닝을 자동화합니다.
Training Operator다양한 머신러닝 프레임워크를 지원하여 유연한 트레이닝 작업을 가능하게 합니다.
KServeKServe와 같은 Model Serving 부가 기능을 통해 효율적인 모델 배포 및 서빙이 가능하며 내외부로부터 실시간 API로 제공합니다.

카카오클라우드 Kubeflow

카카오클라우드는 Kubeflow 1.6 버전을 포함하여 최신 기능을 지원하며, 사용자가 머신러닝 작업을 쉽고 빠르게 수행할 수 있도록 최적화된 클라우드 환경을 제공합니다. 특히, 카카오클라우드 Kubeflow는 다음과 같은 특징을 갖습니다.

Kubeflow 1.6의 모든 기능 지원

카카오클라우드 Kubeflow는 위에서 소개한 Kubeflow 주요 컴포넌트와 애드온(Add-On)을 모두 사용할 수 있습니다. Tensorflow, PyTorch, Apache MXNet, MPI, XGBoost, Chainer, HuggingFace, OpenAI SDK 등 프레임워크 및 라이브러리도 설치하여 사용할 수 있습니다.

세분화된 액세스 관리 기능

RBAC 기능을 제공하여 사용자는 업무와 역할에 따라 네임스페이스를 할당받고, 사용자 또는 그룹 단위로 권한을 효율적으로 관리할 수 있습니다. 또한 관리자는 네임스페이스별 쿼터 기능을 부여하여 설정된 사용치만큼의 CPU, Memory, GPU Memory, Storage 리소스를 할당할 수 있습니다.

유연한 스토리지 옵션

독립적인 MinIO유형 외 카카오클라우드 Object Storage 유형의 스토리지 저장소를 지원하여 보다 유연하게 모델 결과 파일을 서빙할 수 있습니다.

Nvidia MIG 인스턴스 최적화

카카오클라우드 Kubeflow는 Nvidia A100기반의 MIG(Multi Instance GPU) 인스턴스를 최적화하여 제공합니다. MIG 인스턴스 설정으로 GPU 리소스를 분할 사용할 수 있어, 사용자는 동일한 GPU에서 여러 워크로드를 효율적으로 실행할 수 있습니다.

멀티 File Storage 지원

사용자/그룹별 독립된 File Storage를 원하는 만큼 동적으로 사용하여 작업 파이프라인, 노트북 간 파일 공유가 더욱 수월합니다.

Kubeflow를 사용한 사용 예제

카카오클라우드의 기술 문서는 Jupyter Notebook 설정부터 병렬 학습 모델 구축, 모델 서빙 API 생성에 이르기까지 머신러닝 프로젝트의 다양한 단계를 아우르는 풍부한 Kubeflow 튜토리얼을 제공합니다. 이 튜토리얼들을 참고하여 카카오클라우드 Kubeflow를 사용한 효율적인 모델 개발, 학습, 최적화, 배포 기능 등을 확인할 수 있습니다.

현재 카카오클라우드 기술 문서의 Kubeflow 관련 튜토리얼은 아래와 같습니다.

마무리하며

Kubeflow는 현재 국내외 전역에서 가장 많이 사용하고 있는 오픈소스 MLOps 플랫폼으로 그만큼 교육 콘텐츠, 경험 사례 및 예제 소스 코드가 비교적 풍부하여 처음 사용하는 데이터 과학자 및 분석가 현직자들에게도 빠른 적응을 돕고 있습니다.

카카오클라우드의 Kubeflow는 클라우드 환경의 이점을 통해 간편한 프로비저닝으로 GPU 최적화와 강력한 리소스 관리 기능을 제공합니다. 카카오클라우드 사용자에게 머신러닝의 효율성과 한층 강화된 보안성을 갖춘 MLOps 플랫폼의 이점을 온전히 누릴 수 있도록, 지속적으로 Kubeflow 서비스를 개선해 나갈 예정입니다. 머신러닝을 위한 Kubeflow 서비스 사용을 고려 중이시라면, 꼭 카카오클라우드의 서비스를 사용해 보시기 바랍니다.

감사합니다.