本文主要介绍高精度采样在无损网络测试中的应用,包括无损网络RoCEv2的简介和高精度采样技术的详细说明,并结合高精度采样在无损网络中的典型的稳态、收敛以及微突发场景应用,对高精度采样在无损网络当中的应用进行详细的介绍。
在无损网络的解决方案中以RoCEv2 (RDMA over Converged Ethernet)为当今热门技术,RoCEv2兼容了RDMA技术的同样达到高带宽、低时延和减少传输操作对CPU的使用等高性能的特点,同时兼有以太网建设成本和运维成本低的优点,已经成为数据中心无损网络的重要趋势。
在RoCEv2 的实现中最关键的就是拥塞控制技术,包括PFC 和ECN(显式拥塞通知),ECN定义了RoCEv2网络中基于QP 的 端到端的流量控制,PFC 则是以太网早有应用的基于接口优先级的流量控制。在这两种拥塞控制技术中,以ECN 机制为主,当数据中心交换机一旦发生拥塞,交换机根据队列门限值的设定,对拥塞数据IPv4头中 ECN字段进行标记。数据中心服务器 的网卡结合DCQCN算法,对流量进行降速处理。在短时间内让RoCEv2流量在设备和网络中达到稳态,是以一个动态波动的状态存在,这个波动跟网络设备和配置,DCQCN参数都息息相关。当网络中发生变化时,RoCEv2的流量会从一个稳态经过短时间进入另外一个稳态,也就是有一个收敛过程。无论是稳态中流量的波动和稳态之间的收敛过程,这种过程都是在小于秒级发生的事件,在研究和测试中需要用小于秒级更高精度的采样来获取这些过程中的性能数据。
高精度采样是测试工具中的一个重要功能,针对网络中的流量变化,进行毫秒级别的流量采样,记录流量的变化,为研发和测试人员提供更精细的数据,用以分析和研究。高精度采样所记录的数据通常是基于端口或基于端口不同流的统计数据。高精度采样可以通过人为手工方式进行触发工作,也可以通过事先设定的条件自动触发,触发条件可以是端口速率达到某一数值等条件。测试人员通过高精度采样,可以得到基于毫秒级别采样的数据曲线,让用户对结果有直观的认识,也可以将其转换为表格进行更精准的分析。
在对RoCEv2流量在稳态中的波动和流量多种场景的收敛过程研究中,高精度采样可以给研究和测试人员更加直观和细节的数据,在功能和性能上得到有效测试结果,用来评估和调整无损RoCEv2的网络和设备。
RoCEv2最为常见的场景是多打一的拥塞场景,在这个场景中流量会达到稳态,稳定状态下流量的波动首先跟被测交换机或网络 的ECN 和PFC 缓存阀值设置相关,在流量的调整过程中也跟交换机的时延相关。同时也网络承载的流量QP数量,报文长度相关,更大的QP数量对应每个QP的报文间隔会更大,更大的报文长度也对应报文的间隔会更大。同时也要对应不同的DC-QCN 参数
的变化。
以上为RoCEv2多打一厂家,在接收端口对带宽的高精度采样在不同字节长度的结果。通过高精度采样的观察,能有效的确认 RoCEv2流量在不同字节长度下波动的频率、波动的幅度。有了这样的结果,可以用于指导参数修改调整波动平稳性的特性。 在数据中心的网络中,网络流量的变化随时随地都会发生,无论是网络故障还是用户的变化,都会造成RoCEv2流量的变化。常见的多打一拥塞场景,在某个用户下线或上线的过程中,都会让出口的拥塞从一个稳态达到另外一个稳态,我们在常规的秒级的流量统计很难观察到细节的变化。在无损网络测试白皮书中对RoCEv2网络的收敛定义了收敛性能比和收敛速率等性能指标,如何通过统计获得有效的准确的性能数据,需要通过高精度采样来获得更精准的数据。
当多打一的场景中,有用户下线或者接口故障,出口的带宽会有一个微小的下降过程,之后再次达到平衡。在常规的测试结果中,很难看到波动的细节,无法计算收敛性能比,收敛速率的性能指标。
通过高精度采样测试中需要通过设置条件自动触发,设置出口带宽为监控数据,触发条件为出口带宽低于某一数值为条件。通过接收端口的高精度采样直观的看到收敛过程的时间,通过收敛的开始和结束时间点能计算出这个过程中接收端口的报文接收数量等数据。从而准确的计算出收敛性能比、收敛速率的性能指标。
在数据中心典型结构是Spine-Leaf架构,在这种组网测试场景中会有多个故障点,包括:与接收服务器相同 Leaf 下的链路,与接收服务器不同 Leaf下的链路,Leaf 到Spine之间的链路,以及Leaf 设备的故障,Spine设备的故障,以及收敛之后多级拥塞点的出现。故障出现的时候, RoCEv2的流量会从一个稳态达到另外一个稳态,以上每一种故障的收敛过程都不一样,通过高精度采样能给出详细的收敛细节数据。
如图所示,当Spine 和Leaf之间的链路出现故障,故障发生之前Leaf到 Spine之间的流量是负载均衡的状态,不同的链路的时延的差异,造成故障出现后就存在收敛过程在不同的时间点完成,从高精度采样的结果,可以清晰的看到这一个过程。
上图中为更加复杂的组网收敛场景,收敛之前的流量由4发4收的pair流量和2发1收的流量达到平衡,当Spine 和Leaf之间的链路断掉情况下,Spine 和Leaf之间链路总带宽从之前的200G变为100G,收敛的过程中拥塞点从Leaf1 逐渐变为Leaf2。
对接收的5个端口分别做高精度采样的监控, 2打1 的业务有一个大的下降,之后迅速恢复,
4打4的业务在2打1的业务收敛后有一个相对长的收敛过程,4打4的业务中均衡到故障链路的业务和链路不变的业务的收敛情况也有明显差异。综合所有的业务看,收敛的时间和收敛的效果又有所差异。通过高精度采样的结果和分析,能清晰看到收敛的过程,为调整网络参数提供数据参考。
最后,在数据中心的数据流量中还有微突发 流量,微突发流量在网络中会给网络带来一 些无法预测的异常,同时也是非常难以测试 和捕捉。仪表可以对网络中的不同微突发流 量模型进行仿真,通过高精度采样可以对微 突发在网络中的影响进行细节的研究和分析。