场景一:自动驾驶训练
场景说明
自动驾驶的每一个业务阶段都会涉及到AI算法和算力的参与,机器视觉、深度学习、传感器技术等均在自动驾驶领域发挥着重要的作用。随着自动驾驶的快速发展,现在每台测试车每天将产生数十TB数据,随之而来就是要面临诸多存储挑战:
海量小文件元数据压力大
存储性能局限
数据管理困难
产品优势
并行文件服务HPFS通过可扩展的元数据架构可支持百亿级别的文件数量,同时提升海量文件并发访问的性能,满足自动驾驶海量数据处理的业务需求和性能要求,充分适配上层AI算力。
场景二:影视渲染
场景说明
在渲染场景中,设计师将素材上传至工作室挂载的并行文件系统中,即可给渲染所需的数百台高性能计算服务器提供并发的数据访问,极大提升整体工作效率。
产品优势
并行文件 HPFS 为影视渲染场景提供最高千万级IOPS和TBps吞吐,支持在线扩容,业务无需中断。
影视渲染中,文件系统主要用于多个客户端中共享文件场景,客户端的应用程序并发访问文件是高频操作,并行文件服务HPFS通过分布式文件锁保证文件一致性,同时大幅提高多客户端读写同一文件的性能。
场景三:AI训练与推理
场景说明
AI智算平台建设中,在以下场景中会遇到存储挑战:
海量数据的存储和处理,包括采集导入、清洗、转换、标注、共享等,这里对存储的要求主要是高吞吐和大容量。
模型开发,主要场景包括实验管理、交互式开发和效果评估等。对存储的要求更多集中在POSIX兼容性、可靠性等方面。
模型训练的主要场景,一是训练数据的读取,二是为了容错做的Checkpoint的保存和加载。数据集的部分就是要尽量读得快,减少计算对I/O的等待,而Checkpoint主要要求高吞吐、减少训练中断的时间。
模型推理,需要把训练完的模型快速分发部署到线上,产生业务效果。而这个过程会高频、反复发生,要求高并发、高吞吐。
将HPFS、NAS等多个存储产品组合与GPU云主机、弹性裸金属等计算集群无缝对接。通过容器化部署服务实现资源弹性调度,提供超高吞吐和超高IOPS能力,支持混合云、线下和云上部署,快速构建AI基础环境。
产品优势
并行文件服务HPFS助力客户构建高速大模型训练平台,根据不同AI业务流程特点,调用不同的存储服务能力,满足预处理、训练、仿真等各阶段对数据存储能力的要求。
HPFS能够显著提升训练数据读取和Checkpoint回写速度,降低数据处理的延迟,使得客户在GPU故障时更快将模型恢复到之前的检查点,提高企业GPU卡的利用率,更高效地将模型精度达到生产水平并推向市场。HPFS帮助企业降低在AI训练中的成本投入,实现更高的投资回报,满足企业在AI领域中对存储性能的高要求。