科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网网络频道路由交换架构决定价值

架构决定价值

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

城域IP骨干网的变化对新一代核心路由器提出更高要求,H3C CR16000基于100G硬件平台,采用先进的CLOS多级矩阵交换架构,提供持续的带宽升级能力,可以支持40G POS、40GE、100GE和高密10G接口,后续通过递归扩展交换框支持集群技术。本文通过对CR16000转发架构的深入剖析,说明架构改变给设备性能带来的提升。

来源:ZDNET网络频道 2012年3月29日

关键字: CR16000 云交换架构 H3C

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共3页)

  2. 交换网Fabric

  由于FAP和Fabric之间的交换路径是通过可达控制信元自动学习的,并且交换网交换的是定长信元,我们这种交换体系为“基于信元的动态路由交换”。基于信元的动态路由交换实现了严格的无阻塞交换,充分利用所有可达路径负荷分担形成一个大的数据流通道,平滑支持高速率网络端口。

架构决定价值

  图4 交换网Fabric

  如图4所示,CR16000的交换网片Fabric是一个96×96的交换矩阵,包括Control Cells Switch、Data Cells Switch和Routing Processor,分别对应控制信元交换、数据信元交换和路由处理三个主要部分。

  CR16000的交换网是基于信元交换的,由源端FAP将分组报文映射成为40字节的定长信元,然后在Fabric交换网上传送,目的FAP再把这些信元组装成原来的分组报文。采用小的定长信元交换有其内在的优点,信元小意味着通过交换网到达目的节点时间间隔特别短,转发延迟小,相比长帧的转发时延减小30至100倍,能够构成高性能、多节点组成的交换网络。

  CR16000交换网的信元可分为控制信元、数据信元两种。

  控制信元包括发送队列状态信息(Flow-status)信元、发送报文出队列许可(Credit)信元和可达控制(Reachability control)信元,这些信元是有FAP和Fabric自身产生的。其中,发送队列状态信息(Flow-status)信元和发送报文出队列许可(Credit)信元是用于交换网单播报文的调度控制,在下文会进一步描述。可达控制(Reachability control)信元是在FAP和Fabric之间相互通告连通状态,形成连通表,信元在FAP和Fabric上按照连通表进行交换。

  数据信元是由FAP把业务板上需要交换的报文切分成40字节的定长信元,在FAP和Fabric之间交换。

  由于FAP和Fabric之间的交换路径是通过可达控制信元自动学习的,并且交换网交换的是定长信元,我们这种交换体系为“基于信元的动态路由交换”。

  基于信元的动态路由交换的关键点在于能利用所有可达路径进行负荷分担。在入方向FAP,信元通过Round-robin方式均匀发送到N条连到Fabric的可达路径上;到达Fabric的信元基于信元自路由技术(Cell-based Self-routing),根据交换网路由选择相应路径交换到出方向FAP;出方向FAP收到所有来自Fabric的信元时,把信元重组成报文,并保证顺序正确。

  基于信元的动态路由交换实现了严格的无阻塞交换,充分利用所有可达路径负荷分担形成一个大的数据流通道,平滑支持高速率网络端口,如40GE/100GE。

  3. 交换网适配器FAP

  从整个系统来看,每个FAP都具备业务调度能力,实际上是一种全分布式业务调度,我们称之为“分布式Credit调度机制”。分布式Credit调度机制的优势包括:调度效率高、业务调度精准、拥塞流量分布式缓存等。

架构决定价值

  图5 交换网适配器FAP

  如图5所示,交换网适配器FAP部署在各个业务板上,在交换网和业务处理芯片PP之间担当转换器的角色,其主要部件包括:VoQ和Buffer、Fabric Inerface和调度器SCH(Scheduler)。

  在业务流入方向,FAP从业务处理芯片PP接收到报文,根据目的端口、业务属性以及优先级把业务流映射到不同的VoQ队列当中,实现业务的精细化区分。FAP为整系统的每个出接口都分配了8个VoQ队列,并支持512M buffer用于缓存报文。同时,入方向FAP定时向出方向FAP中的调度器SCH通告VoQ发送队列的属性及空满状态,即发送队列状态信息(Flow-status)信元。

  在业务流出方向,调度器SCH根据出端口可用带宽、拥塞情况、对应VoQ的业务属性、优先级和队列空满状态等属性,对所有流向该出口的业务流发送不同带宽许可的Credit。入方向FAP中的每个VoQ队列则根据从调度器SCH收到的Credit给交换网发送相应数量的报文。

  每个调度器SCH只负责对流向本出口的业务进行调度,从整个系统来看,每个FAP都具备业务调度能力,实际上是一种全分布式业务调度,我们称之为“分布式Credit调度机制”。

  分布式Credit调度机制有很多优势,包括:调度效率高、业务调度精准、拥塞流量分布式缓存等。

  · 调度效率高

  每个FAP都有一个调度器SCH,并只负责对流向本出口的业务进行调度。以CR16018为例,整机共有72个FAP,即有72个调度器SCH;调度器SCH之间没有主从关系,是完全分布式的并行工作,即CR16018是一个由72个调度器SCH组成的并行工作体系。

  · 业务调度精准

  Credit调度机制实质是一种令牌调度机制。调度器SCH根据出端口的带宽、拥塞情况等计算出可用带宽,根据入方向FAP通告的发送队列状态信息(Flow-status)并采用整形器(Shaper)算法制定相应的带宽分配策略,最终对每个VoQ生成令牌Credit,VoQ在接收到Credit后发送相应数量的信元。所谓的精准调度包括两个方面的含义:

  其一,传统的路由器调度是出接口板缓存和出接口板调度,而CR16000设计的是入接口板缓存和出接口板调度,如果有报文被计算出做丢弃处理,也是在入接口板就被丢弃了,而不会被调度到出接口板做处理,交换网带宽利用精准。

  其二,每个调度器SCH对应一个整形器(Shaper),支持双漏桶算法(Dual Leaky Bucket),提供对各业务流及业务流聚合(Aggregate)的流量整形功能(Shaping)。

架构决定价值

  图6 双漏桶算法

  入方向VoQ在出方向调度器SCH中对应的是Flow,VoQ和Flow是一一对应关系。调度器SCH把具有相同属性的Flow放入相同的队列,进行FQ/WFQ一级调度,再根据前一级的调度结果进行SP调度,灵活地对各种调度器模块进行组合和编排,以支持个性化的复杂调度策略。此外,还支持针对关键业务的带宽预留功能,支持WRED/Tail Drop拥塞管理策略。

  · 拥塞流量分布式缓存

  传统路由器的报文在调度发送之前是缓存在出接口板中的,拥塞缓存的能力取决于出接口板的缓存大小。CR16000交换网采用Credit调度机制,报文发送之前,报文缓存在入接口板,调度在出接口板,调度器SCH根据出端口可用带宽和拥塞情况制定相应调度策略,一旦发生拥塞,调度器SCH就不会发送Credit,报文继续被缓存在入接口板。

架构决定价值

  图7 分布式缓存

  如图7所示,在N个入接口向1个出接口发生报文的情况下,拥塞流量分布缓存在N个入接口板,报文缓存能力实际上是被放大N倍。随着云业务的应用发展,流量突发越来越大,越来越频繁,如:搜索业务,分布式缓存无疑是当前解决突发拥塞的最佳方案之一。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章