searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

以太网拥塞控制技术比较与替代方案分析

2025-07-23 10:26:13
8
0

一、PFCDCQCN的局限性分析

PFC(基于优先级的流量控制)IEEE 802.1Qbb标准定义的链路层协议,通过发送暂停帧来停止特定优先级的流量传输,实现无损网络。然而,PFC存在几个关键局限性:首先,PFC会导致头阻塞(HoL)问题,当高优先级流量暂停时,低优先级流量也会被阻塞在相同的交换机端口;其次,不公平性是另一个显著问题,PFC基于优先级而非流的公平性分配资源,可能导致某些流被过度抑制 ;第三,死锁风险在复杂网络拓扑中尤为突出,当多个交换机相互发送暂停帧时,可能形成无法解除的循环暂停;最后,PFC的队列数量有限(8个优先级),在流量多样化场景下难以实现精细控制

DCQCN(数据中心量化拥塞通知)RoCEv2的端到端拥塞控制方案,结合了ECNPFC技术 DCQCN的优势在于通过ECN提前感知拥塞,避免过早触发PFC,从而减少时延 。然而,DCQCN同样面临几个挑战:配置复杂度高,需要精确设置PFC缓冲区大小和ECN标记阈值,且ECN阈值必须低于PFC的告警阈值,否则无法正常运作 供应商实现差异导致互操作性差,DCQCN在某些RoCEv2网卡中实现,但不属于RoCEv2规范的一部分,不同供应商的实现方式难以高效互操作;此外,依赖PFC的特性使其继承了PFC的头阻塞和死锁风险,只是在一定程度上延缓了触发时机

二、基于ECN的替代方案

ECN(显式拥塞通知)是一种网络层和传输层的流量控制机制,通过在IP报头中设置ECN标志位通知发送端网络拥塞情况ECN本身不依赖PFC,但在以太网中实现无损传输通常需要与PFC结合,如DCQCN所示 。纯ECN方案在以太网中独立应用存在挑战,因为传统TCP协议栈在丢包后仍会触发重传,而ECN主要作为拥塞信号,不直接保证无损传输

iWARP是一种基于TCP/IP协议栈的RDMA技术,它利用TCP重传机制实现可靠性,无需无损网络支持 iWARP通过在传输层实现RDMA,保留了部分性能优势,但由于TCP协议栈的限制,失去了大部分RDMA的性能优势 iWARPECN机制主要用于优化TCP拥塞控制,而非实现无损传输,因此无法完全替代PFC

BBR(Bottleneck Bandwidth and Round-trip propagation time)拥塞控制算法是Google提出的创新方案,通过动态测量瓶颈链路带宽和最小往返时延来优化发送速率 BBRv2版本进一步结合ECN,增强了拥塞感知和公平性BBR的核心优势在于避免依赖丢包作为拥塞信号,直接优化带宽和时延,适用于需要稳定低延迟的场景 。然而,BBR最初为TCP设计,与RoCEv2RDMA协议结合仍处于研究阶段,且在浅缓冲区下可能产生较大时延

三、基于RTT的拥塞控制技术

BBR作为基于RTT的拥塞控制技术,通过监测往返时间变化来预判拥塞并调整发送速率 BBRv2通过引入FaiRTT等改进算法,进一步提升了RTT公平性和带宽利用率BBR最大带宽时延积(BDP)控制使其能够更接近Kleimrock最优工作点,实现高吞吐量的同时保持低时延 

BBR的四个状态(STARTUPDRAINPROBE_BWPROBE_RTT)使其能够动态适应网络状况 。在STARTUP状态,BBR以指数形式增加发送增益,探测最大可用带宽;在DRAIN状态,降低发送增益以排空网络中的拥塞;在PROBE_BW状态,循环调整发送增益以探测带宽;在PROBE_RTT状态,发送少量数据包以更新最小RTT 。这种状态机设计使BBR能够在不同网络条件下保持稳定性能。

然而,BBR在拥塞检测不及时时可能产生较大时延,且在缓冲区足够大时,不同RTT流共享瓶颈链路时的公平性难以保证 BBRv2通过引入以RTT为减函数的因子动态提高较小RTT流的竞争性,设置排队时延阈值,改善了不同RTT流的反应灵敏度,但在实际部署中仍需进一步验证 

四、基于Credit的拥塞控制方案

ExpressPass是一种端到端Credit机制,通过信用转移进行带宽分配和细粒度数据包调度ExpressPass的核心思想是在发送数据包前使用Credit数据包控制拥塞,从而实现有限延迟和快速收敛。这种机制能够避免PFC的头阻塞问题,但需要全网设备支持,部署复杂度较高

InfiniBand网络采用基于Credit的逐跳流控机制,从硬件层面保证数据无损,避免了缓冲区溢出分组丢失 InfiniBand交换机和网卡之间持续交换Credit信息,确保发送端不会发送过量数据 。然而,InfiniBand是专用网络技术,需要专用硬件,与以太网组件不通用,组网成本高 

确定性网络(TSNDetNet)通过资源预留、显式路径和服务保护等机制,从根本上避免了拥塞丢包 TSN在数据链路层通过时钟同步、流量整形等机制为高优先级流量提供确定性传输”时隙” DetNet在网络层实现确定传输路径,提供时延、分组丢失和抖动的最坏情况界限 。确定性网络能够实现零丢包和确定时延,但依赖专用硬件支持,且配置复杂度高,成本昂贵 

五、网络升级与优化策略

带宽升级是解决拥塞的最直接方法。随着25G/100G/400G带宽普及,网络传输速度大幅提升,RTT减少,从而降低拥塞风险高带宽直接缓解拥塞,但成本较高且需配合流量管理才能避免局部拥塞

多路径技术通过分散流量降低单链路拥塞风险。谷歌Aquila架构采用全连接的dragonfly拓扑,结合ECMP(等价多路径)实现负载均衡,提高了网络利用率 。亚马逊的可扩展可靠数据报文(SRD)和英伟达的自适应路由等方案,以数据包为粒度将流分散到多个等价路径上,网卡硬件实现多路径传输层逻辑,包括拥塞感知的流量切分和收端乱序接收等 。多路径技术能够显著提升吞吐量,在RoCEv2环境中,吞吐量可提升1.5~2 

SDN(软件定义网络)通过集中式控制器实现全局流量调度,能够动态调整流量路径和优先级Google通过SDN将核心网络带宽利用率提升至100%,远超传统网络的30%~40% SDN的优势在于全局视角灵活控制,但需结合ECN/PFC或专用协议才能实现无损网络,且控制器开销可能影响性能 

六、确定性网络的突破与应用

确定性网络在解决拥塞问题上展现出独特优势。中国信通院测试显示,山东确定性网络在2000公里传输距离下实现端到端抖动小于30微秒,满足工业控制场景对250微秒时延抖动的严苛要求 CENI试验网构建的南京到贵阳长达2450公里的试验网,实现了RDMA无损流量跨广域传输,证明了确定性网络在长距离场景中的可行性 

新华三通过确定性网络技术支持400G长距离无损传输,为”东数西算”工程提供高吞吐需求保障 。在数据库异地双活测试中,确定性网络在600公里距离上不论网络状态如何,目标流时延均在6ms以内,且抖动无明显变化,优于传统网络的负载敏感时延 

确定性网络的核心技术包括:资源预留、服务保护和显式路径 。资源预留通过预留缓冲区空间或链路带宽,解决确定性网络流的延迟和丢包问题 ;服务保护采用报文复制和消除机制,解决随机媒体错误和设备失效导致的丢包问题 ;显式路径则为确定性流提供定制化的数据传输服务,避免路径变化导致的性能波动 

七、不同技术方案性能对比

下表对PFCDCQCN和几种替代技术在延迟、吞吐量和资源利用效率三个维度进行对比:

技术方案

延迟表现

吞吐量

资源利用效率

主要局限性

PFC

低延迟但存在HoL阻塞,时延不确定性高

受限于队列数量,吞吐量低

高但存在死锁风险

死锁风险,不公平性,配置复杂

DCQCN

低延迟但依赖PFC,时延波动大

中等吞吐量,受ECN/PFC组合限制

中等,需精确配置

供应商实现差异,互操作性差

BBRv2

低延迟,避免丢包依赖

高吞吐量,但浅缓冲区下可能产生较大时延

高,但需协议栈适配

RoCEv2结合案例少,公平性问题

多路径RDMA

依赖路径长度,短路径低延迟

显著提升(1.5-2)

高,分散流量降低局部拥塞

需支持ECMP的交换机和网卡

确定性网络

零抖动(30μs),确定时延

有限,受资源预留限制

高,减少重传和队列管理开销

依赖专用硬件,配置复杂,成本高

SDN动态调度

低延迟,动态路径选择

理论可达100%,实际受协议栈限制

极高,但增加控制器开销

依赖集中控制,协议兼容性问题

确定性网络在延迟抖动控制上表现最佳,但需要专用硬件支持,成本较高 多路径RDMA在吞吐量提升方面最为显著,通过流量分散可将吞吐量提升至单路径的1.5~2SDN在资源利用效率上具有理论优势,能够实现接近100%的带宽利用率,但实际部署中需权衡协议栈兼容性和控制器开销 

八、场景适配与未来发展趋势

不同拥塞控制技术适用于不同场景。对于高性能计算(HPC)和分布式存储等需要高吞吐量和低延迟的场景,RoCEv2结合多路径技术(如亚马逊SRD、英伟达自适应路由)可能是更优选择,能够显著提升吞吐量并降低局部拥塞风险 

对于工业控制、远程手术和车联网等对时延抖动要求极高的场景,确定性网络(TSN/DetNet)提供了最佳解决方案,能够保证有界低时延和零丢包,满足这些场景的严苛要求 。例如,华为试验数据显示,采用VIP优先级机制后,关键业务流量时延波动范围压缩至±5μs,远优于传统网络

对于需要与传统以太网兼容且成本敏感的场景,BBRv2结合ECN可能是一个平衡选择,能够在不改变现有基础设施的情况下,优化网络性能BBRv2的改进算法如FaiRTT,能够提高较小RTT流的竞争性,改善较大RTT流和较小RTT流的反应灵敏度,实现相对公平的带宽分配和低时延传输 

未来发展趋势显示,确定性网络与算力网络的融合将成为关键方向 。确定性算力网络通过任务优先级划分、资源预留和预调等机制,实现计算任务在约束时间内的确定性传输和计算 。这种融合将为AI大模型训练、分布式存储等新兴应用提供更优的网络支持。

硬件加速与协议创新也将持续推动拥塞控制技术的发展。随着25G/100G/400G带宽普及,网络传输速度大幅提升,但同时也带来了新的拥塞挑战。高速存储替代交换机Buffer等创新方案,可能为解决拥塞问题提供新的思路

九、结论与建议

没有一种技术能够完全替代PFCDCQCN,但针对不同场景,存在更优的选择。对于需要高吞吐量的场景,多路径RDMA技术可能是更优选择;对于对时延抖动要求极高的场景,确定性网络提供了最佳解决方案;对于需要与传统以太网兼容的场景,BBRv2结合ECN可能是一个平衡选择。

在实际部署中,应根据具体应用场景和需求,选择合适的拥塞控制技术组合。例如,在AI大模型训练场景中,可以考虑结合确定性网络和多路径技术,既保证关键数据流的确定时延,又提升整体网络吞吐量。在金融交易等对低延迟要求极高的场景中,可以考虑采用BBRv2优化算法,减少网络拥塞带来的时延波动 

随着网络技术的不断发展,端网协同将成为解决拥塞问题的新方向 。通过在网卡和交换机之间建立更紧密的协同机制,可以实现更精细的流量控制和拥塞感知,进一步提升网络性能。例如,微软AzurePFC-Relay方案通过专用中继设备,将高性能无损RDMA扩展到长距离链路,解决了传统PFC在广域互联场景中的局限性 

最终,解决以太网拥塞问题需要综合考虑技术成熟度、成本效益和应用场景需求。在选择拥塞控制技术时,不应盲目追求最新技术,而应基于实际业务需求和网络环境,选择最适合的解决方案。随着确定性网络、多路径技术和SDN等技术的不断发展和成熟,未来数据中心网络拥塞控制将更加灵活高效,为各类应用提供更好的网络支持。

0条评论
0 / 1000
c****n
6文章数
0粉丝数
c****n
6 文章 | 0 粉丝
原创

以太网拥塞控制技术比较与替代方案分析

2025-07-23 10:26:13
8
0

一、PFCDCQCN的局限性分析

PFC(基于优先级的流量控制)IEEE 802.1Qbb标准定义的链路层协议,通过发送暂停帧来停止特定优先级的流量传输,实现无损网络。然而,PFC存在几个关键局限性:首先,PFC会导致头阻塞(HoL)问题,当高优先级流量暂停时,低优先级流量也会被阻塞在相同的交换机端口;其次,不公平性是另一个显著问题,PFC基于优先级而非流的公平性分配资源,可能导致某些流被过度抑制 ;第三,死锁风险在复杂网络拓扑中尤为突出,当多个交换机相互发送暂停帧时,可能形成无法解除的循环暂停;最后,PFC的队列数量有限(8个优先级),在流量多样化场景下难以实现精细控制

DCQCN(数据中心量化拥塞通知)RoCEv2的端到端拥塞控制方案,结合了ECNPFC技术 DCQCN的优势在于通过ECN提前感知拥塞,避免过早触发PFC,从而减少时延 。然而,DCQCN同样面临几个挑战:配置复杂度高,需要精确设置PFC缓冲区大小和ECN标记阈值,且ECN阈值必须低于PFC的告警阈值,否则无法正常运作 供应商实现差异导致互操作性差,DCQCN在某些RoCEv2网卡中实现,但不属于RoCEv2规范的一部分,不同供应商的实现方式难以高效互操作;此外,依赖PFC的特性使其继承了PFC的头阻塞和死锁风险,只是在一定程度上延缓了触发时机

二、基于ECN的替代方案

ECN(显式拥塞通知)是一种网络层和传输层的流量控制机制,通过在IP报头中设置ECN标志位通知发送端网络拥塞情况ECN本身不依赖PFC,但在以太网中实现无损传输通常需要与PFC结合,如DCQCN所示 。纯ECN方案在以太网中独立应用存在挑战,因为传统TCP协议栈在丢包后仍会触发重传,而ECN主要作为拥塞信号,不直接保证无损传输

iWARP是一种基于TCP/IP协议栈的RDMA技术,它利用TCP重传机制实现可靠性,无需无损网络支持 iWARP通过在传输层实现RDMA,保留了部分性能优势,但由于TCP协议栈的限制,失去了大部分RDMA的性能优势 iWARPECN机制主要用于优化TCP拥塞控制,而非实现无损传输,因此无法完全替代PFC

BBR(Bottleneck Bandwidth and Round-trip propagation time)拥塞控制算法是Google提出的创新方案,通过动态测量瓶颈链路带宽和最小往返时延来优化发送速率 BBRv2版本进一步结合ECN,增强了拥塞感知和公平性BBR的核心优势在于避免依赖丢包作为拥塞信号,直接优化带宽和时延,适用于需要稳定低延迟的场景 。然而,BBR最初为TCP设计,与RoCEv2RDMA协议结合仍处于研究阶段,且在浅缓冲区下可能产生较大时延

三、基于RTT的拥塞控制技术

BBR作为基于RTT的拥塞控制技术,通过监测往返时间变化来预判拥塞并调整发送速率 BBRv2通过引入FaiRTT等改进算法,进一步提升了RTT公平性和带宽利用率BBR最大带宽时延积(BDP)控制使其能够更接近Kleimrock最优工作点,实现高吞吐量的同时保持低时延 

BBR的四个状态(STARTUPDRAINPROBE_BWPROBE_RTT)使其能够动态适应网络状况 。在STARTUP状态,BBR以指数形式增加发送增益,探测最大可用带宽;在DRAIN状态,降低发送增益以排空网络中的拥塞;在PROBE_BW状态,循环调整发送增益以探测带宽;在PROBE_RTT状态,发送少量数据包以更新最小RTT 。这种状态机设计使BBR能够在不同网络条件下保持稳定性能。

然而,BBR在拥塞检测不及时时可能产生较大时延,且在缓冲区足够大时,不同RTT流共享瓶颈链路时的公平性难以保证 BBRv2通过引入以RTT为减函数的因子动态提高较小RTT流的竞争性,设置排队时延阈值,改善了不同RTT流的反应灵敏度,但在实际部署中仍需进一步验证 

四、基于Credit的拥塞控制方案

ExpressPass是一种端到端Credit机制,通过信用转移进行带宽分配和细粒度数据包调度ExpressPass的核心思想是在发送数据包前使用Credit数据包控制拥塞,从而实现有限延迟和快速收敛。这种机制能够避免PFC的头阻塞问题,但需要全网设备支持,部署复杂度较高

InfiniBand网络采用基于Credit的逐跳流控机制,从硬件层面保证数据无损,避免了缓冲区溢出分组丢失 InfiniBand交换机和网卡之间持续交换Credit信息,确保发送端不会发送过量数据 。然而,InfiniBand是专用网络技术,需要专用硬件,与以太网组件不通用,组网成本高 

确定性网络(TSNDetNet)通过资源预留、显式路径和服务保护等机制,从根本上避免了拥塞丢包 TSN在数据链路层通过时钟同步、流量整形等机制为高优先级流量提供确定性传输”时隙” DetNet在网络层实现确定传输路径,提供时延、分组丢失和抖动的最坏情况界限 。确定性网络能够实现零丢包和确定时延,但依赖专用硬件支持,且配置复杂度高,成本昂贵 

五、网络升级与优化策略

带宽升级是解决拥塞的最直接方法。随着25G/100G/400G带宽普及,网络传输速度大幅提升,RTT减少,从而降低拥塞风险高带宽直接缓解拥塞,但成本较高且需配合流量管理才能避免局部拥塞

多路径技术通过分散流量降低单链路拥塞风险。谷歌Aquila架构采用全连接的dragonfly拓扑,结合ECMP(等价多路径)实现负载均衡,提高了网络利用率 。亚马逊的可扩展可靠数据报文(SRD)和英伟达的自适应路由等方案,以数据包为粒度将流分散到多个等价路径上,网卡硬件实现多路径传输层逻辑,包括拥塞感知的流量切分和收端乱序接收等 。多路径技术能够显著提升吞吐量,在RoCEv2环境中,吞吐量可提升1.5~2 

SDN(软件定义网络)通过集中式控制器实现全局流量调度,能够动态调整流量路径和优先级Google通过SDN将核心网络带宽利用率提升至100%,远超传统网络的30%~40% SDN的优势在于全局视角灵活控制,但需结合ECN/PFC或专用协议才能实现无损网络,且控制器开销可能影响性能 

六、确定性网络的突破与应用

确定性网络在解决拥塞问题上展现出独特优势。中国信通院测试显示,山东确定性网络在2000公里传输距离下实现端到端抖动小于30微秒,满足工业控制场景对250微秒时延抖动的严苛要求 CENI试验网构建的南京到贵阳长达2450公里的试验网,实现了RDMA无损流量跨广域传输,证明了确定性网络在长距离场景中的可行性 

新华三通过确定性网络技术支持400G长距离无损传输,为”东数西算”工程提供高吞吐需求保障 。在数据库异地双活测试中,确定性网络在600公里距离上不论网络状态如何,目标流时延均在6ms以内,且抖动无明显变化,优于传统网络的负载敏感时延 

确定性网络的核心技术包括:资源预留、服务保护和显式路径 。资源预留通过预留缓冲区空间或链路带宽,解决确定性网络流的延迟和丢包问题 ;服务保护采用报文复制和消除机制,解决随机媒体错误和设备失效导致的丢包问题 ;显式路径则为确定性流提供定制化的数据传输服务,避免路径变化导致的性能波动 

七、不同技术方案性能对比

下表对PFCDCQCN和几种替代技术在延迟、吞吐量和资源利用效率三个维度进行对比:

技术方案

延迟表现

吞吐量

资源利用效率

主要局限性

PFC

低延迟但存在HoL阻塞,时延不确定性高

受限于队列数量,吞吐量低

高但存在死锁风险

死锁风险,不公平性,配置复杂

DCQCN

低延迟但依赖PFC,时延波动大

中等吞吐量,受ECN/PFC组合限制

中等,需精确配置

供应商实现差异,互操作性差

BBRv2

低延迟,避免丢包依赖

高吞吐量,但浅缓冲区下可能产生较大时延

高,但需协议栈适配

RoCEv2结合案例少,公平性问题

多路径RDMA

依赖路径长度,短路径低延迟

显著提升(1.5-2)

高,分散流量降低局部拥塞

需支持ECMP的交换机和网卡

确定性网络

零抖动(30μs),确定时延

有限,受资源预留限制

高,减少重传和队列管理开销

依赖专用硬件,配置复杂,成本高

SDN动态调度

低延迟,动态路径选择

理论可达100%,实际受协议栈限制

极高,但增加控制器开销

依赖集中控制,协议兼容性问题

确定性网络在延迟抖动控制上表现最佳,但需要专用硬件支持,成本较高 多路径RDMA在吞吐量提升方面最为显著,通过流量分散可将吞吐量提升至单路径的1.5~2SDN在资源利用效率上具有理论优势,能够实现接近100%的带宽利用率,但实际部署中需权衡协议栈兼容性和控制器开销 

八、场景适配与未来发展趋势

不同拥塞控制技术适用于不同场景。对于高性能计算(HPC)和分布式存储等需要高吞吐量和低延迟的场景,RoCEv2结合多路径技术(如亚马逊SRD、英伟达自适应路由)可能是更优选择,能够显著提升吞吐量并降低局部拥塞风险 

对于工业控制、远程手术和车联网等对时延抖动要求极高的场景,确定性网络(TSN/DetNet)提供了最佳解决方案,能够保证有界低时延和零丢包,满足这些场景的严苛要求 。例如,华为试验数据显示,采用VIP优先级机制后,关键业务流量时延波动范围压缩至±5μs,远优于传统网络

对于需要与传统以太网兼容且成本敏感的场景,BBRv2结合ECN可能是一个平衡选择,能够在不改变现有基础设施的情况下,优化网络性能BBRv2的改进算法如FaiRTT,能够提高较小RTT流的竞争性,改善较大RTT流和较小RTT流的反应灵敏度,实现相对公平的带宽分配和低时延传输 

未来发展趋势显示,确定性网络与算力网络的融合将成为关键方向 。确定性算力网络通过任务优先级划分、资源预留和预调等机制,实现计算任务在约束时间内的确定性传输和计算 。这种融合将为AI大模型训练、分布式存储等新兴应用提供更优的网络支持。

硬件加速与协议创新也将持续推动拥塞控制技术的发展。随着25G/100G/400G带宽普及,网络传输速度大幅提升,但同时也带来了新的拥塞挑战。高速存储替代交换机Buffer等创新方案,可能为解决拥塞问题提供新的思路

九、结论与建议

没有一种技术能够完全替代PFCDCQCN,但针对不同场景,存在更优的选择。对于需要高吞吐量的场景,多路径RDMA技术可能是更优选择;对于对时延抖动要求极高的场景,确定性网络提供了最佳解决方案;对于需要与传统以太网兼容的场景,BBRv2结合ECN可能是一个平衡选择。

在实际部署中,应根据具体应用场景和需求,选择合适的拥塞控制技术组合。例如,在AI大模型训练场景中,可以考虑结合确定性网络和多路径技术,既保证关键数据流的确定时延,又提升整体网络吞吐量。在金融交易等对低延迟要求极高的场景中,可以考虑采用BBRv2优化算法,减少网络拥塞带来的时延波动 

随着网络技术的不断发展,端网协同将成为解决拥塞问题的新方向 。通过在网卡和交换机之间建立更紧密的协同机制,可以实现更精细的流量控制和拥塞感知,进一步提升网络性能。例如,微软AzurePFC-Relay方案通过专用中继设备,将高性能无损RDMA扩展到长距离链路,解决了传统PFC在广域互联场景中的局限性 

最终,解决以太网拥塞问题需要综合考虑技术成熟度、成本效益和应用场景需求。在选择拥塞控制技术时,不应盲目追求最新技术,而应基于实际业务需求和网络环境,选择最适合的解决方案。随着确定性网络、多路径技术和SDN等技术的不断发展和成熟,未来数据中心网络拥塞控制将更加灵活高效,为各类应用提供更好的网络支持。

文章来自个人专栏
文章 | 订阅
0条评论
0 / 1000
请输入你的评论
1
0