基本概念
更新时间 2025-11-03 18:58:40
最近更新时间: 2025-11-03 18:58:40
本节介绍智算套件基本概念。
基本概念
| 关键术语 | 说明 |
|---|---|
| 断点续训 | 基于 CheckPoint 的“故障检测→秒级定位→分钟级恢复→自动重调度→断点续训”机制,有效保障训练任务的连续性,将故障导致的损失(时间、算力)降至最低 。 |
| AI网关 | AI网关通过“优化请求、智能调度、减少重复计算”三大核心能力,将推理服务从“被动响应请求”转变为“主动优化流量”,大幅提升推理效率。 |
| KVCache | 通过“跨节点协同管理缓存”+“多级缓存”的组合策略,突破单节点容量限制,平衡访问速度与存储成本,实现系统吞吐量的数量级提升。 |
| PD分离 | PD分离(Prefilling-Decoding Disaggregation):通过将推理过程拆分为计算密集型的预填充(Prefill)和内存敏感型的解码(Decode)两个独立阶段,为每个阶段匹配最优的硬件资源和调度策略,实现推理效率的革命性提升。 |