在GPU实例上部署NGC环境 本文介绍如何在GPU云主机上部署NGC环境。 NVIDIA NGC 是用于深度学习、机器学习和HPC的GPU优化软件的中心,可提供容器、模型、模型脚本和行业解决方案,以便数据科学家、开发人员和研究人员可以专注于更快地构建解决方案和收集见解。 前提条件 用户需要注册NGC的账号:NGC账号注册。 GPU云主机配备弹性公网IP。 安装步骤 1. 创建一台GPU云主机,操作方法请参见创建未配备GPU驱动的GPU云主机。 2. 安装GPU云主机驱动, 建议安装最新版本的操作系统驱动,操作方法请参见NVIDIA驱动安装指引。 3. 安装Docker和针对NVIDIA GPU的Docker Utility Engine,即nvidiadocker。 a. 在安装Docker新版本之前,请卸载所有的旧版本以及关联的依赖项。 sudo yum remove docker dockerclient dockerclientlatest dockercommon dockerlatest dockerlatestlogrotate dockerlogrotate dockerengine b. 设置Docker 存储库。 sudo yum install y yumutils sudo yumconfigmanager addrepo c. 安装Docker 引擎。 sudo yum install dockerce dockercecli containerd.io dockerbuildxplugin dockercomposeplugin d. 启动docker。 sudo systemctl start docker e. 安装nvidiadocker。 设置存储库和 GPG 密钥。 distribution$(. /etc/osrelease;echo $ID$VERSIONID) && curl s L sudo tee /etc/yum.repos.d/nvidiacontainertoolkit.repo 更新包列表后安装nvidiacontainertoolkit包(和依赖项)。 sudo yum clean expirecache sudo yum install y nvidiacontainertoolkit 配置Docker 守护程序以识别 NVIDIA 容器运行时。 sudo nvidiactk runtime configure runtimedocker sudo systemctl restart docker 通过运行基本 CUDA 容器来测试工作设置。 sudo docker run rm runtimenvidia gpus all nvidia/cuda:11.6.2baseubuntu20.04 nvidiasmi