智算场景NVIDIA GPU镜像组件的安装指南 进入文本界面,在文本界面输入用户名和密码登录,telinit 5返回图形界面 sudo service gdm3 stop 停止显示服务 安装驱动 sudo chmod 777 NVIDIALinuxx8664530.30.02.run 给你下载的驱动赋予可执行权限,才可以安装 sudo ./NVIDIALinuxx8664530.30.02.run 安装 会出现的选项: ● Install Nvidia's 32bit compatibility libraries? 选择 "No" ● Would you like to run the nvidiaxconfig utility to automatically update your X configuration file so that the NVIDIA X driver dill be used dhen you restart X? Any preexisting X configuration file will be backed up. 选择 "Yes" 返回图形界面执行 sudo service gdm3 start 重启显示服务 reboot 重启系统 nvidiasmi 重启后,检查驱动是否安装完成 出现如下类似画面说明安装完成。 注意事项: 1、进入tty模式如果不是英语系统可能会出现乱码,输入以下命令: export LANG"UTF8" export LANGUAGE"UTF8" 2、返回图形界面黑屏 检查hdmi线是不是接在主板的hdmi接口上了,接到显卡上就可以了 方法二: Graphics Drivers PPA安装 sudo addaptrepository ppa:graphicsdrivers/ppa 添加源 sudo apt update sudo apt install nvidiadriver530 安装指定版本530的GPU驱动 reboot 重启电脑 nvidiasmi 查看驱动是否安装成功 3.2 安装CUDA与cudnn CUDA和cnDNN是支持NVIDIA支持GPU的两个库,分别用于高性能计算和深度神经网络计算的支持。 CUDA(Compute Unified Device Architecture):是NVIDIA支持GPU的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。可以看作使能GPU的驱动程序或算法SDK。 cuDNN:是基于CUDA的深度学习GPU加速库,有了它可以在GPU上完成高效的深度学习计算。 CUDA版本与nvidia driver版本对应表: 由上图可知,本文采用的530驱动,最高可支持12.2版本的CUDA,本文为保证机器学习的稳定性和对tensorflow与pytorch等工具库的兼容,参考下图pytorch和tensorflow的版本要求,本文采用11.8版本 的CUDA,参考tensorflow所支持的套件,选择8.6版本的cudnn。 注意:其中CUDA和cudnn需要下载对应架构的版本,主要为x8664和arm(arch64),本文以x8664的版本为例。 pytorch依赖版本: tensorflow依赖版本: