• 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

网卡稳定性测试掉卡故障分析

2024-04-22 06:41:01
6
0

本文主要介绍超聚变自研XC382网卡在超聚变2U机型上进行整机稳定性测试过程中,pcie链接XC382网卡丢失的分析过程及结论。

1、问题现象:

DC测试过程中lspci检查网卡信息发现网卡未链接到

2、问题分析

1.日志分析

    • BIOS日志分析:BIOS 异常开机和正常开机Log 进行对比,和OCP2相关的有以下差异。

分析可知,LINKSTS 状态异常为0x1081,正常为0x7083。异常时刻,Link Width 带宽 x8已经识别成功,但是速率LINKSPEED还是GEN1。可判定为网卡的PCIe建链在polling 阶段发生了异常。

    • 硬件CPLD 寄存器分析:分析可知OCP电源相关寄存器正常,主板电源供电正常。

OCP 相关CPLD寄存器说明:

    • OS dmesg日志分析:

分析可知系统共有5张Mellanox CX5的卡,其中4张标卡使用的固件版本是16/26.35.2000,出问题的OCP 卡使用的固件版本是16.32.1010

2.现场实验分析

    • 网卡其它功能分析:NCSI可正常建链,光模块插拔后正常亮灯。证明出问题时电源正常,网卡芯片的NCSI、光模块功能正常。说明网卡部分功能是正常的,本身的芯片没有完全挂死。
    • 重启恢复:尝试OS下重启,pcie 重新建链,仍无法恢复服务器。推测不断电的情况下,网卡的pcie相关模块已处于挂死状态,不响应CPU的PCIe的建链请求。
    •  通知式热插拔恢复:尝试BMC Web 用按钮按一次弹出,按一次插入,模拟网卡插拔,可恢复。说明此问题可以通过远程网卡执行上下电解决。

3.PCIe信号质量排查

    • 数字眼图分析:PCIe数字眼图均大于1000mV,信号质量无异常。
    • IO margin Tool 分析:PCIe Timing和Voltage的Margin裕量充足,无异常。

4.供应商技术交流分析

问题现象与供应商交流。经联合分析,初步定位和16.32.1010的固件版本有关。建议更新固件版本,进行验证测试。

3.问题结论

16.32.1010版本固件pcie相关问题,导致稳定性测试过程网卡掉卡。

0条评论
0 / 1000
售前咨询热线
400-810-9889转1
  • 天翼云APP
    天翼云APP
  • 天翼云微信公众号
    微信公众号