业务痛点
- 更大算力需求:一个万亿参数大模型训练至少单集群6000卡,配套同等规模亚毫秒延时的RDMA网络,训练中有PB级数据存取,这些都需要在算力层进行突破和解决
- 更高性能需求:训练中生成的checkpoint文件大,读写慢。大规模的分布式训练中算力、存储、网络协同难。性能问题导致大模型训练综合效率低
- 更高稳定需求:AI基础设施软硬件软件栈复杂,硬件故障率高,故障发现难,恢复慢,严重影响大模型训练效率
推荐搭配使用
文本、视觉和音频能力的多模态端到端大模型逐渐出现,具备强大的能力和普惠的价格,未来几年,AI将和应用深入融合,并全面走向普惠化、全民化
一方面,参数量级不断提升,以追求更高的模型精度和性能;另一方面,参数优化日趋精细化,从应用落地的角度,大小模型的混合使用将成为趋势,toB端的普惠型AI应用,模型的参数量在十亿到百亿量级,落地性价比高
云计算与人工智能技术的深度融合,推动了智算云原生技术的兴起,为企业提供了更高效的解决方案。随着大模型技术的发展,云智一体的应用场景不断拓展,催生了“超级工厂”等创新模式。此外,针对不同行业的定制化云智一体解决方案也在不断丰富,推动各行业向智能化转型