인스턴스 유형별 사용
GPU 인스턴스 사용
GPU 유형의 인스턴스를 사용하기 위해서는 적절한 드라이버를 설치해야 합니다.
드라이버가 설치된 GPU 전용 OS 이미지를 사용하여 인스턴스를 생성하거나, 기본 이미지로 인스턴스를 생성한 후 별도로 퍼블릭 드라이버를 다운로드하여 설치할 수 있습니다. 운영체제별 GPU 드라이버를 설치하여 GPU를 사용하는 방법은 다음과 같습니다.
- Linux
Linux 운영체제에서 GPU 드라이버를 설치하는 방법은 다음과 같습니다.
현재 카카오클라우드에서 제공 중인 Ubuntu 20.04 이미지, NVIDIA A100을 기준으로 안내합니다.
Step 1. NVIDIA 드라이버 설치하기
NVIDIA 드라이버를 설치합니다. 권장 드라이버 및 CUDA 버전은 다음과 같습니다.
GPU 유형 | NVIDIA 버전 | CUDA 버전 |
---|---|---|
NVIDIA A100 | 450.80.02 이상 | CUDA Toolkit 11.1 이상 |
- NVIDIA 드라이버 다운로드에 대한 자세한 설명은 NVIDIA 공식 사이트 Driver Downloads를 참고하시기 바랍니다.
- NVIDIA 드라이버 설치 및 구성에 대한 자세한 설명은 NVIDIA 공식 사이트 > NVIDIA Driver Installation Quickstart Guide를 참고하시기 바랍니다.
-
NVIDIA 드라이버를 설치할 인스턴스에 NVIDIA 장비가 있는지 명령을 실행해 확인합니다.
NVIDIA 장비 검색 명령어$ lspci | grep -i NVIDIA
-
설치할 수 있는 드라이버 버전을 확인합니다.
-
설치된 드라이버가 최신 버전이 아닐 경우,
apt update -y
명령어를 실행하여 업데이트를 실행합니다. -
Command ‘ubuntu-drivers’ not found
라는 메시지가 나올 시,sudo apt install ubuntu-drivers-common
명령을 입력하여 ubuntu-drivers-common을 설치합니다.설치할 드라이버 버전 확인 명령어$ ubuntu-drivers devices
드라이버 버전 확인 예시$ ubuntu-drivers devices
**==** /sys/devices/pci0000:00/0000:00:04.0 **==**
modalias : pci:v000010DEd000020B0sv000010DEsd0000134Fbc03sc02i00
vendor : NVIDIA Corporation
driver : nvidia-driver-515-server - distro non-free
driver : nvidia-driver-470 - distro non-free
driver : nvidia-driver-470-server - distro non-free
driver : nvidia-driver-510-server - distro non-free
driver : nvidia-driver-510 - distro non-free
driver : nvidia-driver-450-server - distro non-free
driver : nvidia-driver-515 - distro non-free recommended
driver : xserver-xorg-video-nouveau - distro free builtin
-
-
설치 가능한 드라이버를 선택하여 설치를 진행합니다.
드라이버 설치$ sudo apt install nvidia-driver-470
-
재부팅을 실행합니다.
재부팅 명령어$ sudo reboot
-
설치한 드라이버 정보를 확인합니다.
설치한 드라이버 정보 확인 명령어$ nvidia-smi
설치한 드라이버 정보 확인 예시$ nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.141.03 Driver Version: 470.141.03 CUDA Version: 11.4 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA A100 80G... Off | 00000000:00:05.0 Off | 0 |
| N/A 33C P0 41W / 300W | 35MiB / 80994MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 1 NVIDIA A100 80G... Off | 00000000:00:06.0 Off | 0 |
| N/A 34C P0 43W / 300W | 35MiB / 80994MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
Step 2. NVIDIA CUDA Toolkit 설치하기
NVIDIA CUDA Toolkit를 설치합니다.
-
CUDA Toolkit를 재설치하는 경우, 다음의 설치 환경을 준비합니다. 단, 신규 설치의 경우에는 2번부터 진행합니다.
a. 기존 CUDA 관련 설정을 삭제합니다.
CUDA 설정 삭제 명령어$ sudo rm -rf /usr/local/cuda*
b.
~/.bashrc
또는/etc/profile
에 다음의 기존 설정이 있는 경우, 삭제합니다.기존 설정 삭제export PATH=$PATH:/usr/local/cuda-11.4/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.4/lib64
export CUDADIR=/usr/local/cuda-11.4c. 모든 기존 설정을 삭제한 후,
nvcc -V
명령을 실행해 해당 명령이 실행되지 않는 것을 확인합니다.nvcc -V 명령 실행 결과$ nvcc -V
Command 'nvcc' not found, but can be installed with: sudo apt install nvidia-cuda-toolkit -
NVIDIA 공식 사이트 > CUDA Toolkit Archive에서 설치할 CUDA Toolkit 버전을 선택합니다. 버전 선택 시 하단에서 Base Installer 명령어를 확인할 수 있습니다.
CUDA Toolkit 버전 선택 및 Base Installer 명령어 확인
-
Base Installer의 명령어(첫째 줄)를 실행하여 CUDA Toolkit 설치용 파일을 다운로드합니다.
CUDA Toolkit 설치용 파일 다운로드 명령어 예시$ wget https://developer.download.nvidia.com/compute/cuda/11.4.0/local_installers/cuda_11.4.0_470.42.01_linux.run