扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
当前的市场竞争日益激烈,对复杂服务的需求也日益迫切,这使得最终用户越来越无法忍受任何类型的网络中断。鉴于此,瞻博网络投入大量精力开发了不会造成服务中断或降级的持续运行系统。本月,我们将讨论瞻博网络的两种系统持续运行机制:不间断路由(NSR),以及不中断业务运行的统一软件升级(统一ISSU)。其中,NSR能够在路由引擎切换期间提供不间断的路由服务;统一ISSU则支持操作人员升级整个操作系统,而不会对路由造成任何影响。
超越高可用性,开发持续运行的系统
随着电信运营商将高需求的关键服务融合到IP基础架构上,即便是相对较小的中断,也将对最终用户的服务体验产生负面影响。在这些自动化应用(交易、同步和备份)、全球化趋势以及其它“全天候流量”推动力的作用下,当今的“始终运行”的网络不能再通过“非高峰期中断”的方法,来间隙的规划维护或升级工作。任何类型的网络节点中断都是无法容忍的—无论是意外的还是计划内的,因此,当前的电信运营商极为重视高可用性。
鉴于此,瞻博网络的工程师和开发人员突破了传统的高可用性界限,集中精力开发了持续运行系统,更加深入地探查如何避免服务中断和降级。这种设计方法考虑到很多潜在的设备中断原因,并设法在问题实际发生时提供自动防故障安全机制和适当工具,从而快速、自动地识别和隔离问题,恢复正常运行,同时还能通过主动响应问题来防止真正发生故障。
本月,我们将讨论瞻博网络的两款持续运行系统机制:不间断路由(NSR)及不中断业务运行的统一软件升级(统一ISSU)。NSR利用冗余路由引擎(RE)提供不间断的路由服务;统一ISSU则支持运行人员在不同软件版本之间进行全面升级,不会对路由造成任何影响。
通过不间断路由延长运行时间
持续运行的系统要求网络设备必须能够在不中断路由或转发业务的情况下,透明地切换路由引擎。现在,许多路由器都使用冗余路由引擎,在主用路由引擎发生故障时支持备用处理器接管运行工作。
平滑路由引擎切换(GRES)是指:支持备用路由引擎在不中断数据包转发情况下自动接管路由和系统控制任务的重要机制。GRES虽然能够在切换期间有效的减少受影响的路由器数据包丢失,但却不能称为全面的解决方案。邻居路由器仍将检测到主备路由引擎间的切换,并据此做出响应—所有的邻居设备都将处理链路/节点拓扑变化、选择最佳路径,并将更新信息发给它们的所有邻居,这些邻居反过来又会更新给自己的邻居,直到整个网络收到这些更新为止。然后,当新的主引擎开始节点的路由处理时,又将重复这个过程,结果会导致一系列网络连锁反应,处理很多无效的变化。
平滑重启能够扩展路由协议,使得临近的对等体能够将切换视为过渡事件,进而不会触发网络路径收敛过程。当平滑重启在邻居路由器之间协商后,邻居在节点停止路由时不会更新给所有它的邻居,而是进入激活监控等待进程。在等待期间,它将假设不路由的节点仍然正在转发数据流量并保持状态—常称为“不间断转发”。平滑重启的等待周期可由用户配置,并在节点间进行协商,时间通常为几秒钟。平滑等待期间,流量传输没有主用路由引擎的支持,因此,正在重启的NSF节点有可能会向无效目的地发送流量—这常称为黑洞流量。
平滑重启解决方案需要所有对等体都运行标准的协议扩展,而网络变化则可导致平滑重启停止。如果任何直连的路由器不支持平滑重启协议扩展(或者因为错误没有被配置为支持平滑重启协议扩展),那么这个节点将立刻响应路由引擎缺席状态,并向网络传播路由变化消息。即便是处在平滑等待期的节点也能接收到节点拓扑变化信息。由于这些节点用于接收消息的链路不与重启节点直接相连,因此它们将会处理路由变化、退出平滑等待期,并引发网络收敛。
不间断路由(NSR)是平滑重启之外的另一种选择,能够提供众多优势:它对网络对等体是透明的,无需对等体参与、不会中断邻居关系或会话的运行、对收敛的影响最低、支持在任何节点进行切换,并且与线路中汇聚了多少路由无关。
从系统架构的角度看,NSR的最大特点在于两个路由引擎都在运行路由。这两个路由引擎都在运行路由进程,并接收网络邻居发送的路由消息。主路由引擎只需从两个正在运行的引擎中选择其一,并将其出站消息队列与网络相连接,以便与邻居进行通信即可。不间断路由是独立的,不依赖辅助路由器(如在平滑重启时)来帮助路由平台恢复路由协议信息。不间断的桥接机制将这些优势扩展到了以太网交换环境中实施的L2协议上。这些特性结合在一起,使RE切换对邻居具有透明性,从而能够维护其所支持平台和协议的L2和L3稳定性。
通过统一ISSU缩短计划内事件的持续时间并降低风险
瞻博网络始终致力于为电信运营商提供合适的软硬件功能,以便最大限度地缩短例行维护时间,包括:
· 单一软件版本发布序列,新版本是特性的集合,每个版本都必须通过全面的回退测试,不存在严重错误,从而具有其他软件组件不可能实现的固有的系统稳定性。
· 热插拔接口,支持操作人员插入或拔出硬件组件,而无需重新设置整个设备。
· 不中断业务运行的统一软件升级(统一ISSU)为缩短计划内维护的持续时间并降低风险提供了另一个优势。统一ISSU支持您在所支持的双路由引擎平台上实现JUNOS软件版本之间的完全升级,无需中断控制平面的运行,并且几乎不中断流量传输。例如,客户可使用统一ISSU将T640平台从JUNOS 9.0升级到JUNOS 9.1软件。
此外,统一ISSU还能通过自动执行功能来简化升级流程。例如,ISSU首先执行的任务中包括验证系统上安装的所有硬件是否兼容当前的JUNOS软件,然后检查所有的硬件及配置好的特性是否都能得到新JUNOS版本的支持。这些功能都可为操作人员提供强有力的信息传递,使他们能够纠正偏差,以便ISSU对不支持的硬件实施离线处理,然后在升级完成后或者中断ISSU运行后再将这些硬件重新上线。这种自动检查功能可帮助运行人员节省大量时间,此外,自动执行任务要比手动工作更加准确。
瞻博网络的方法与其他厂商采用叫做“代码补丁”或“SMU”等名称来提供快速缺陷修复包的做法截然不同。首先安装最新版本的一个补丁,然后再安装下一个新版本的补丁,接下来安装再下一个新版本的补丁,以此类推,这会导致要对很多不同版本进行修补工作,进而需要对所有这些不同的潜在组合进行繁重的回退测试,这会导致出现重大缺陷和漏洞的几率直线上升。
相反,瞻博网络统一ISSU的设计支持您将整个操作系统从一个主版本完全升级到另一个主版本。这个解决方案保护升级的完整性,并确保每个软件版本的回退测试质量。我们在所有支持的软件版本间都提供升级路径。瞻博网络统一ISSU支持操作人员在升级软件时不中断L3邻居或路由、L2 keepalive或链路管理。此外,在执行升级任务时,也需要启用设备上的平滑路由引擎切换和不间断的主动路由(NSR)机制。在升级整个操作系统的过程中不发生中断的情况,是IP网络发展历程中的重要一步,也是瞻博网络致力于开发持续运行系统的直接成果。
要点
现代多业务网络故障中断的后果非常严重,而运行团队在提高网络可用性方面也面临着诸多挑战。
瞻博网络持续运行的系统构想提供了一种从多方面开发软件的方法,前瞻性地考虑到了节点中断的所有潜在原因。我们的最新成果包括不间断路由、统一ISSU及面向电信运营商(及其客户)的其他重要机制,这些成果均有助于确保不间断的服务,即使在路由引擎重启和系统升级期间也不例外。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者