产品功能 功能类别 功能描述 模型适配前机器环境检查确认 硬件环境检查:服务器、存储、网络等硬件型号及环境检查。 软件环境检查(系统软件):操作系统、HDK固件驱动、CANN版本、镜像等版本检查。 软件环境检查(模型训推软件):训练推理框架、Python、运行库等版本检查。 NPU健康状态检查:NPU卡数、型号、显存容量及运行状态检查。 网络检查(功能):网络连通性检查,设备防火墙检查。 网络检查(性能):P2P、D2H、H2D、D2H带宽检查。 HCCL功能性能检查:单多机HCCL allreduce、allgather带宽检查。 Aicore、HBM压测:Aicore、HBM压测。 HPFS存储检查:HPFS存储空间,挂载路径检查。 镜像及容器检查:docker镜像及容器启动功能检查。 模型训练集群验证:验证集群环境下开源模型单多机训练功能性能,包括loss,TPS及MFU指标。 模型适配 适配模型GPU基准验证:待适配模型在GPU环境下的基准验证,收集loss曲线,计算MFU、TPS等模型指标,计算模型训练效果的算法性能指标(如准确率、召回率、PPL、Rouge等)。 模型NPU适配度验证评估:评估待适配模型是否有不支持算子,评估该模型训练框架、依赖库的软件版本范围和约束。 模型算子开发:待适配模型算子开发及算子优化。 模型预训练适配(预训练)。 模型微调训练适配(全量微调)。 模型微调训练适配(lora微调)。 模型在线推理适配:适配模型在线推理代码、模板开发及验证。 模型极致调优:从训练框架、数据前后处理,算子亲和性等方面提升模型的MFU、TPS、训练精度等关键指标。 训练平台侧功能支持:训练平台侧运行脚本、log日志功能支持。 模型适配交付物提供:提供模型适配的开发代码、镜像、模型及技术文档。 客户交付过程中故障排查以及技术支持 基础环境运行故障定位、问题排查及支撑解决。 训练框架运行故障定位、问题排查及支撑解决。 模型训练中断问题定位、排查及支撑解决。 模型训练精度问题及支撑解决。 模型训练效率问题及支撑解决。 模型在线推理问题及支撑解决。 训练数据处理问题及支撑解决。 平台侧训练问题及支撑解决。 模型训练性能极致调优服务支撑:模型训练效率如MFU、TPS等指标的深度分析及极致优化。 模型训练算法效果服务支撑。 模型运行版本、训练配置差异化验证服务支撑。