扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
摘要:服务质量(QoS)技术是IP网络技术能否成为未来统一承载网络技术的关键。根据拥塞持续时间,网络QoS风险可以分为微秒级、毫秒级、秒级、分钟级,和更长时间级别等5个等级。调度机制、缓存和队列、呼叫接纳控制、流量工程等技术均是解决一类QoS风险的有效手段。IP网络运营商需要在分析网络中主要风险的基础上制定整体QoS解决方案,在呼损、时延、抖动、丢包4项指标中取得均衡。
关键词:IP网络;QoS;调度机制;队列技术;呼叫接纳控制;流量工程
服务质量(QoS)技术是IP网络技术能否成为未来统一承载网络技术的关键。从业务的角度看,网络的服务质量包括业务质量和接通率两部分指标。业务质量指已经接通业务的服务质量,可以客观或主观地评价,如IP语音(VoIP)业务的知觉通话质量测量(PSQM)值和平均主观值(MOS),并映射到传统的丢包、时延、抖动等IP网络QoS参数。接通率则是衡量系统工作情况的综合指标,反映业务接续的实现和丢失情况,其对应的指标是呼损。目前IP网络技术在QoS上有了很大进步,衍生出了多种QoS技术[1-2],但是对网络QoS解决方案还有相当大的争议。
每一种QoS技术都有其合理的应用场景,能且只能最佳解决一类特定的QoS问题,研讨QoS整体解决方案必须首先对IP网络中的QoS风险进行分类,进而确定每一类QoS问题各自的对策。
1 QoS风险分类
IP网络是基于分组的统计复用网络,因此高带宽、轻载的网络中也有突发拥塞的可能,进而引起IP网络QoS问题。正因为QoS问题是由拥塞引起的,所以网络QoS风险可以按照网络中拥塞的时间长度分类进行定量分析。如果网络中绝大多数对业务产生关键影响的QoS问题是持续时间在微秒级别的拥塞,则将这类网络问题称为微秒级QoS风险。因此,根据拥塞时间长度对业务的影响程度,以及解决拥塞问题所需要的技术措施不同,网络QoS风险可以分为微秒级、毫秒级、秒级、分钟级,和更长时间级别5个等级。
微秒级的QoS风险可以采用简单的调度机制避免丢包,例如从两个接口上同时到达的分组从同一个端口上输出造成的拥塞,由路由器/交换机的网络接口卡(NIC)成帧缓存,再由转发进程调度,就可以解决这两个包的顺序输出的问题。
毫秒级的QoS风险则需要更多的分组缓存和较复杂的队列机制来应对,包括流分类、拥塞避免和队列调度技术,如加权随机早期检测(WRED)、严格优先队列(PQ)、低延迟队列(LLQ)、基于类的加权公平队列(CBWFQ)等。
秒级的QoS风险靠缓存和队列技术难以解决。设备的缓存有限,很难缓存数以秒计的分组,尤其是大容量的高速路由器和交换机应用。秒级的QoS风险需要网络级的接纳控制来解决,即在秒级时间长度的业务拥塞出现或预判即将出现时,在业务接入点上通过策略定制拒绝接入部分业务,避免高速路由/交换设备上出现超出处理能力的拥塞流量从而导致大量丢包。
分钟级的QoS风险往往由突发的业务量增加引起。采用接纳控制技术丢弃业务降低了业务接通率,增加了呼损,并且电信网络不允许这种状态持续数分钟以上,因此分钟级的QoS风险需要有其他的解决措施。目前已有的解决方案技术是流量工程和资源预留,即在分钟级时间长度的拥塞出现或预判即将出现时,通过人工或者策略服务器自动方式,采用流量工程技术将部分业务疏导到空闲的链路上,绕开拥塞点。由于流量工程隧道的部署决策需要时间,部署也需要时间,所以不能取代接纳控制技术,作为短时间拥塞控制技术的替代,以避免频繁的网络动荡。
更长时间的QoS风险就说明网络规划流量和网络流量不匹配,不再是哪一种QoS技术手段能解决。针对这样的QoS风险,需要运营商通过网络性能测量,采取明确针对性的网络扩容手段来解决。
5类QoS风险与QoS技术的对应关系如图1所示。
需要注意的是,微秒级、毫秒级、秒级、分钟级等均是宽泛的时间范围,是相对概念,如毫秒级QoS风险,其拥塞时间长度上限是由设备能够处理的时间长度和业务可以允许的QoS容限决定的,而分钟级所指的时间长度下限与实际网络流量工程决策时间、业务呼损容限有关。
2 调度和队列技术
调度和队列技术在流量突发时缓存分组以避免分组丢失,当突发流量时间长度超过缓存指标而溢出时,策略地丢弃超出缓存处理能力的分组,以降低优先级业务的损失,或者以接续中的业务允许范围内的损伤为代价,处理微秒级和毫秒级的QoS风险。如图2所示。
部署调度和队列技术增加了分组的时延和抖动,减轻了因为拥塞而可能引起的丢包的影响,即在丢包、时延、抖动3项指标之间折中,使得网络的QoS指标控制在业务需求的范围之内。
典型路由/交换设备的队列调度和管理流程包括流分类、丢弃算法和出入队列调度算法3个环节[3]。当前有多种流分类机制,简单的有基于以太帧优先级(802.1p)、IP服务类别(ToS)、区分服务码点(DSCP)等优先级分类的,复杂的有基于五元组,甚至深度报文检测(DPI)的流分类;入队列调度大致有随机早期检测(RED)、WRED算法两种;出队列调度算法较多,基本的有PQ、效率较高的有加权公平队列(WFQ)、对某种业务重点保障的LLQ等等,每年还有各种形形色色的新研究成果出现。从宏观上看,这些队列技术的性能差距并不是很大,它们都是解决毫秒级以下QoS风险的技术机制[4]。
即使当前设备制造技术可以支持很大的包缓存队列,但是,调度和主动队列管理技术仍不能用于解决更大的QoS风险,因为缓存实际上是以降低时延和抖动指标来换取丢包率指标,而业务对QoS的三大指标要求是均衡的,过分的倾斜对于单个指标并不能得到理想的结果。建议数据业务队列使用5 ms~6 ms缓冲长度,语音和视频业务队列使用2 ms以下的缓冲长度[5]。
3 接纳控制技术
业务(如IPTV、VoIP)可以允许瞬间较大的丢包率,以及持续较长时间非常小的丢包率,如果长时间持续拥塞,则业务的体验,如VoIP业务的MOS值,会下降直至不可接受,所以秒级以上的QoS风险需要接纳控制技术[6]来应对,如图3所示。
接纳控制有基于业务设备的接纳控制和基于IP网络设备的接纳控制两种。业务层设备的接纳控制方案中,IP网络根据规划的业务量为业务网络准备了相应的资源,业务设备则对接续中的业务量作计数,并对超限的业务拒绝接纳。而IP网络设备的接纳控制,则是在IP网络资源控制服务器的参与下,由IP网络设备拒绝接纳超限业务。如图4示意。
无论是基于业务设备的接纳控制还是基于IP网络设备的接纳控制,客观上都拒绝了业务的接入,增加了“呼损”,即接纳控制技术本质是以“呼损”指标损失换取MOS值等业务体验指标稳定。
4 流量工程和资源预留技术
绝大多数分钟级的QoS风险是由业务突发流量引起的,如大型庆典、会议、活动等,这些突发业务具有局部性和暂时性的特点,带宽扩容投入产出比不佳,且建设周期上不能满足要求。但是长时间的业务被拒绝接纳,也是用户难以接受的。
为了解决这些分钟级的QoS风险,完成这些大型会议、活动的保障任务,流量工程和资源预留技术是最佳选择。
流量工程技术是在正常的IP路由之外的另外的包投递机制,原则上区别于正常的IP路由的技术都可以称之为流量工程,如IP显式路由选项技术和通用路由封装协议(GRE)显式路由技术,只是这两种技术显著影响IP包的转发效率而被废弃了。策略路由也可以认为是一种流量工程技术,其优点是可以部署在关键节点上,而不必全路由路径部署。MPLS流量工程(MPLS-TE)是目前最高效的流量工程技术[7],可以显式路由而不损失转发效率。MPLS-TE技术还可以和资源预留技术结合使用,进一步改善分钟级的QoS风险的解决效果。
5 网络级QoS解决措施
毫秒级及以下QoS风险可以称之为低阶QoS风险,秒级及以上QoS风险可以称之为高阶QoS风险。低阶QoS风险可以用设备级的调度和主动队列管理技术解决,高阶QoS风险则需要网络级的解决方案,网络级的解决方案有3种:
风险降阶;
忽略背景业务的质量;
采用接纳控制等技术。
所谓轻载的网络QoS解决方案实际上就是风险降阶的方案,将网络的QoS风险降低到毫秒级以下,以便用基本设备级QoS技术来解决。中国电信CN2、中国移动、网通、联通的IP专用承载骨干网都是采用这个思路来建设的[8]。
而在城域网等多业务IP网络中,往往采用忽略背景业务流量的方案。如图5所示,在这些网络中业务可以分为无QoS要求的尽力而为业务、有一定QoS要求的差异化服务业务,以及需要严格QoS保证的要求确保的业务,无QoS要求的尽力而为业务就是背景业务,一般占总业务量的大部分,引入进来是为了分担网络建设和运营成本。在网络上部署区分服务结构模型(Diff-Serv)技术之后,差异化服务业务加上要求保证的业务之和,一般情况下其QoS风险总是在毫秒级以下。虽然总体上网络的QoS风险是高阶的,但由于背景业务没有QoS要求,所以其丢包并不需要做特殊处理。而如果差异化服务业务加上要求保证的业务之和的QoS风险升级到高阶风险之后,接纳控制等技术也不满足运营商的运营要求,需要在新的业务量约束下,组织网络扩容。
因此网络轻载+Diff-Serv[9]技术仍然是目前运营商网络建设的优先选择。近年来下一代网络(NGN)承载网的研究和实践表明,在多业务IP骨干网络中,由于资源相对充足,而且VoIP业务的带宽比例较小,在采用区分服务并对话音业务进行最高优先级转发的前提下,可以不施接纳控制机制[10]。
轻载程度的选择与网络业务的突发性质有关。以城域网为例,平均负荷率40%的业务路由器(SR)上行链路,其在5分钟平均负荷率分时图上的峰值约为65%,秒平均负荷率分时图上的峰值约为85%,毫秒负荷率分时图上的峰值约为110%。控制链路平均负荷率40%,其QoS风险主要是低阶的,可以用调度和主动队列管理技术有效化解。部署网络级QoS技术可以提高带宽利用率,同样的业务量下,链路带宽降低20%左右,则网络中的QoS风险将上升为秒级的QoS风险,这时就需要部署接纳控制技术来应对。
采用高阶QoS风险应对技术可以节省的带宽及提高的链路负荷率与不同时间颗粒度的负荷率分时图上的峰值之比有关,电信行业传统上用业务集中系数的概念来反映不同时间颗粒度的负荷率分时图峰值之间的关系。如公共交换电话网(PSTN)网络业务分析理论中,话务量最大的一小时称为忙时,忙时集中系数的定义为忙时业务与全天业务量之比,则在一小时平均负荷率分时图上的峰值与全天平均负荷率之比就是24×忙时集中系数。因为大多数数据网络网管系统的流量采样周期是5分钟,所以网管系统上颗粒度最小的分时图是5分钟平均流量分时图,同样定义最忙5分钟集中系数为忙时中业务量最大的5分钟业务量与忙时业务量之比;定义最忙秒集中系数为最忙5分钟中业务量最大的1秒业务量与该5分钟业务量之比;定义最忙毫秒集中系数为最忙秒中1毫秒业务量与该秒业务量之比,则:
(1)5分钟平均负荷率分时图上的峰值 = 平均业务量 ÷ 忙时集中系数 ÷ 最忙5分钟集中系数;
(2)秒平均负荷率分时图上的峰值 = 5分钟平均负荷率分时图上的峰值 ÷ 最忙秒集中系数;
(3)毫秒平均负荷率分时图上的峰值 = 秒平均负荷率分时图上的峰值 ÷ 最忙毫秒集中系数;
未部署QoS技术的网络,其带宽要求应等于或超过毫秒平均负荷率分时图上的峰值,部署调度和主动队列管理技术,网络带宽要求大于秒平均负荷率分时图上的峰值即可,相对于未部署QoS技术的网络,节省“1/最忙毫秒集中系数”的带宽;在此基础上部署接纳控制技术,网络带宽要求大于5分钟平均负荷率分时图上的峰值即可,相当于再节省“1/最忙秒集中系数”的带宽。
6 结束语
网络QoS风险可以分为微秒级、毫秒级、秒级、分钟级,和更长时间级别等5个等级,网络服务质量包括接通率和业务质量两部分。IP网络QoS整体解决方案制定策略是针对IP网络中至关重要的QoS风险,在呼损、时延、抖动、丢包4项指标中取得均衡。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
去集群 更超群——大容量网络演进之路
2019 IBM 中国论坛
H3C 2019 Navigate 领航者峰会
助推数据中心网络现代化转型 打造灵活可靠基础架构平台