产品功能
 
                  更新时间 2025-11-03 18:58:35
                 
 
                    最近更新时间: 2025-11-03 18:58:35
                  
 本节介绍智算套件产品功能。
 产品功能
| 一级功能 | 二级功能 | 功能说明 | 
|---|---|---|
| 离线训练 | 训练框架管理 | 兼容Tensorflow、Pytorch、Horovod、Mindspore等主流训练框架。 | 
| 数据集管理 | 提供数据集仓库,支持数据集导入导出、数据加速和数据集指标看板。 | |
| 智能调度 | 提供多种调度策略,支持拓扑感知、故障感知、优先级队列等调度策略。 | |
| 断点续训 | 任务分钟级别故障检测和任务重调度,支持优雅容错和断点续训。 | |
| 模型管理 | 支持模型输出到制品仓库、模型多版本管理。 | |
| 运维管理 | 支持集群、节点、卡、任务维度监控&日志,软硬件故障检测,AIOps智能恢复。 | |
| 在线推理 | 推理框架管理 | 支持分布式vLLM、SGLang、国产MindIE和单机Ollama。 | 
| AI网关 | AI推理应用的接入层必要组件,通过开启多模型流量智能调度和管理,确保对外服务的稳定性以及灵活性。 | |
| 模型加速 | 支持模型权重加载加速、镜像卷加速、PD分离架构加速。 | |
| KVCache缓存 | 支持KVCache缓存加速、KVCache offload、多级缓存、分布式KVCache。 | |
| 弹性扩缩容 | 支持LWS推理业务扩缩容、HPA、VPA、Cron HPA、ECI弹性推理。 | |
| 全链路可观测 | 支持推理框架指标监控、资源利用率监控、业务流量监控、推理全链路透明埋点,业务故障可观测。 |