인스턴스 유형별 사용
GPU 인스턴스 사용
GPU 유형의 인스턴스를 사용하기 위해서는 적절한 드라이버를 설치해야 합니다.
드라이버가 설치된 GPU 전용 OS 이미지를 사용하여 인스턴스를 생성하거나, 기본 이미지로 인스턴스를 생성한 후 별도로 퍼블릭 드라이버를 다운로드하여 설치할 수 있습니다. 운영 체제별 GPU 드라이버를 설치하여 GPU를 사용하는 방법은 다음과 같습니다.
- Linux
Linux 운영 체제에서 GPU 드라이버를 설치하는 방법은 다음과 같습니다.
현재 카카오클라우드에서 제공 중인 Ubuntu 20.04 이미지, NVIDIA A100을 기준으로 안내합니다.
Step 1. NVIDIA 드라이버 설치
NVIDIA 드라이버를 설치합니다. 권장 드라이버 및 CUDA 버전은 다음과 같습니다.
| GPU 유형 | NVIDIA 버전 | CUDA 버전 |
|---|---|---|
| NVIDIA A100 | 450.80.02 이상 | CUDA Toolkit 11.1 이상 |
- NVIDIA 드라이버 다운로드에 대한 자세한 설명은 NVIDIA 공식 사이트 Driver Downloads를 참고하시기 바랍니다.
- NVIDIA 드라이버 설치 및 구성에 대한 자세한 설명은 NVIDIA 공식 사이트 > NVIDIA Driver Installation Quickstart Guide를 참고하시기 바랍니다.
-
NVIDIA 드라이버를 설치할 인스턴스에 NVIDIA 장비가 있는지 명령을 실행해 확인합니다.
NVIDIA 장비 검색 명령어lspci | grep -i NVIDIA -
설치할 수 있는 드라이버 버전을 확인합니다.
- 설치된 드라이버가 최신 버전이 아닐 경우,
apt update -y명령어를 실행하여 업데이트를 실행합니다. Command ‘ubuntu-drivers’ not found라는 메시지가 나올 시,sudo apt install ubuntu-drivers-common명령을 입력하여 ubuntu-drivers-common을 설치합니다.설치할 드라이버 버전 확인 명령어ubuntu-drivers devices드라이버 버전 확인 예시ubuntu-drivers devices
**==** /sys/devices/pci0000:00/0000:00:04.0 **==**
modalias : pci:v000010DEd000020B0sv000010DEsd0000134Fbc03sc02i00
vendor : NVIDIA Corporation
driver : nvidia-driver-515-server - distro non-free
driver : nvidia-driver-470 - distro non-free
driver : nvidia-driver-470-server - distro non-free
driver : nvidia-driver-510-server - distro non-free
driver : nvidia-driver-510 - distro non-free
driver : nvidia-driver-450-server - distro non-free
driver : nvidia-driver-515 - distro non-free recommended
driver : xserver-xorg-video-nouveau - distro free builtin
- 설치된 드라이버가 최신 버전이 아닐 경우,
-
설치 가능한 드라이버를 선택하여 설치를 진행합니다.
드라이버 설치sudo apt install nvidia-driver-470
-
재부팅을 실행합니다.
재부팅 명령어sudo reboot -
설치한 드라이버 정보를 확인합니다.
설치한 드라이버 정보 확인 명령어nvidia-smi설치한 드라이버 정보 확인 예시nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.141.03 Driver Version: 470.141.03 CUDA Version: 11.4 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA A100 80G... Off | 00000000:00:05.0 Off | 0 |
| N/A 33C P0 41W / 300W | 35MiB / 80994MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
| 1 NVIDIA A100 80G... Off | 00000000:00:06.0 Off | 0 |
| N/A 34C P0 43W / 300W | 35MiB / 80994MiB | 0% Default |
| | | Disabled |
+-------------------------------+----------------------+----------------------+
Step 2. NVIDIA CUDA Toolkit 설치하기
NVIDIA CUDA Toolkit를 설치합니다.
-
CUDA Toolkit를 재설치하는 경우, 다음의 설치 환경을 준비합니다. 단, 신규 설치의 경우에는 2번부터 진행합니다.
a. 기존 CUDA 관련 설정을 삭제합니다.
CUDA 설정 삭제 명령어sudo rm -rf /usr/local/cuda*b.
~/.bashrc또는/etc/profile에 다음의 기존 설정이 있는 경우, 삭제합니다.기존 설정 삭제export PATH=$PATH:/usr/local/cuda-11.4/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.4/lib64
export CUDADIR=/usr/local/cuda-11.4c. 모든 기존 설정을 삭제한 후,
nvcc -V명령을 실행해 해당 명령이 실행되지 않는 것을 확인합니다.nvcc -V 명령 실행 결과nvcc -V
Command 'nvcc' not found, but can be installed with: sudo apt install nvidia-cuda-toolkit -
NVIDIA 공식 사이트 > CUDA Toolkit Archive에서 설치할 CUDA Toolkit 버전을 선택합니다. 버전 선택 시 하단에서 Base Installer 명령어를 확인할 수 있습니다.
CUDA Toolkit 버전 선택 및 Base Installer 명령어 확인 -
Base Installer의 명령어(첫째 줄)를 실행하여 CUDA Toolkit 설치용 파일을 다운로드합니다.
CUDA Toolkit 설치용 파일 다운로드 명령어 예시wget https://developer.download.nvidia.com/compute/cuda/11.4.0/local_installers/cuda_11.4.0_470.42.01_linux.run
Base Installer의 Toolkit 설치용 파일 다운로드 명령 실행 결과 -
Base Installer의 명령어(둘째 줄)를 실행하여 CUDA Toolkit 설치용 파일을 실행합니다.
- CUDA Toolkit 설치용 파일 실행 시 1분 이상의 시간이 소요됩니다.
CUDA Toolkit 설치용 파일 실행 명령어sudo sh cuda_11.4.0_470.42.01_linux.run -
방향키를 눌러 Continue를 선택하고, Enter를 누릅니다.
Continue 선택 -
accept를 입력하고, Enter를 누릅니다.
accept 입력 -
Space를 눌러 Driver의 체크 박스의 선택을 해제하고 Install을 선택한 후, Enter를 누릅니다.
- 기존 설정이 있는 경우,
Existing installation of CUDA Toolkit 11.x found메시지가 나타납니다. 해당 경우 Upgrade all을 선택하고 Enter를 누릅니다.
Install 선택 - 기존 설정이 있는 경우,
-
CUDA Toolkit이 정상적으로 설치 완료된 경우, 다음의 화면을 확인할 수 있습니다.
CUDA Toolkit 설치 완료 -
다음의 명령을 실행하여 CUDA Toolkit 관련 환경 변수를 추가합니다.
CUDA Toolkit 관련 환경 변수 추가 명령어sudo sh -c "echo 'export PATH=$PATH:/usr/local/cuda-11.4/bin' >> /etc/profile"
sudo sh -c "echo 'export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.4/lib64' >> /etc/profile"
sudo sh -c "echo 'export CUDADIR=/usr/local/cuda-11.4' >> /etc/profile"
source /etc/profile -
nvcc -V명령을 실행하여 설치된 CUDA Toolkit을 확인합니다.
CUDA Toolkit 설치 확인 결과