现有问题:
智能网卡在使用时,若发生故障导致业务中断时。若使用云盘系统盘,则可自动迁移恢复,依赖于云盘启动、数据云盘等关键技术。若使用本地系统盘,则数据云盘的使用会受影响。以上场景都面临智能网卡的故障定位和修复问题。
现有技术在智能网卡的故障定位和修复,一般采用登录智能网卡管理口或SOL串口来进行问题定位和修复。当智能网卡管理口异常或智能网卡异常导致SOL串口无输出时,此时无法单独对智能网卡进行重启或者重置动作。登录Host的操作系统安装智能网卡驱动,可实现对智能网卡进行重启或者重置动作。若使用云盘系统盘,此时卡故障,云盘系统盘无法启动,则无法登陆Host操作系统。且Host操作系统属于客户的操作系统,不具备登陆条件,无法进行相关操作。
解决方案:
通过定制Livecd,把智能网卡的驱动和故障运维工具以及BFB等文件集成至Livecd内。系统启动时选择Livecd引导启动,则可通过Livecd访问智能网卡。提供网络访问和串口访问的同时,也提供对智能网卡进行重启或者重置的功能。基于此方案可对智能网卡进行重置,则定制Livecd同时可实现重置和升级的操作。此方案在修复智能网卡时不涉及用户系统,用户无感知。同时提供了更多修改智能网卡方法和工具。基于此方案拓展的Livecd支持重置和升级,极大减少人力的投入,提升效率。
本方案架构图
实施例
1、制作Livecd,包含智能网卡的驱动文件、完整BFB文件、损坏BFB文件以及定位问题需要的工具包,例如:spdk tools。
2、部署一套弹性裸金属。
3、Livecd内使用损坏BFB文件重置智能网卡,制造故障场景。
4、使用损坏BFB文件重置智能网卡后,启动发现智能网卡管理口不通,智能网卡启动过程挂死,SOL串口无响应。
5、重新启动弹性裸金属,Bios内引导项设置为Livecd引导。
Livecd引导成功后,在dev目录下有智能网卡的字符设备,可对字符设备进行重启操作,此时智能网卡热重启。
6. 使用完整BFB文件重置智能网卡,智能网卡重置完成后,可通过字符设备进行串口登录。也可使用tmfifo口进行网络登录智能网卡。