问题描述
显卡数量不一致:
- 执行 nvidia-smi 命令时,仅查询到1张显卡,而该机型应有2张显卡。
- 通过执行 nvidia-smi 和 lspci | grep -i nv 命令,显示的GPU数量不一致,进一步表明系统未能识别到所有的GPU。
可能原因
1.GPU驱动问题:
计算加速型GPU云主机的镜像中未预加载GPU驱动,客户根据自身需求自行安装了驱动程序,但由于低版本的驱动版本可能存在bug,导致驱动与硬件或其他软件之间的兼容性问题,进而引发显卡掉卡现象。
2.软件兼容性:
客户自行安装的驱动程序可能与业务使用的应用程序不完全兼容,造成了显卡无法正常识别或工作。
3.硬件隐患:
由于环境因素,可能存在硬件隐患,导致GPU在运行过程中出现故障,从而影响其性能和稳定性。
解决方法
请根据健康检查脚本收集故障信息后联系技术支持处理。