扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
当前的市场竞争日益激烈,对复杂服务的需求也日益迫切,这使得最终用户越来越无法忍受任何类型的网络故障中断。鉴于此,瞻博网络投入大量精力开发了不会造成服务中断或降级的持续运行系统。本月,我们将讨论瞻博网络的两款持续运行系统机制:不间断的主动路由(NSR),以及不中断业务运行的统一软件升级(统一ISSU)。其中,NSR能够在路由引擎故障切换期间提供不间断的路由服务;统一ISSU则支持运行人员升级整个操作系统,不会对路由造成任何影响。
超越高可用性,开发持续运行的系统
随着电信运营商将高需求的关键服务融合到IP基础架构上,即便是相对较小的中断,也将对最终用户的服务体验产生负面影响。在这些自动化应用(交易、同步和备份)、全球化趋势以及“全天候流量传输”等推动力的作用下,当今的“始终运行”的网络不必再通过“非高峰期故障中断”的方法,来进行计划内的维护或升级工作。鉴于任何类型的网络故障停机都是无法容忍的—无论是意外的还是计划内停机,因此,当前的电信运营商极为重视高可用性。
鉴于此,瞻博网络的工程师和开发人员突破了传统的高可用性界限,集中精力开发了持续运行系统,更加深入地探查如何避免服务中断和降级。这种设计方法考虑到多个潜在的故障停机原因,并设法在问题实际发生时提供故障安全机制和适当工具,从而快速、自动地识别和隔离问题,恢复正常运行,同时还能通过主动响应问题来防止真正发生故障。
本月,我们将讨论瞻博网络的两款持续运行系统机制:不间断的主动路由(NSR)及不中断业务运行的统一软件升级(统一ISSU)。NSR利用冗余路由引擎(RE)提供不间断的路由服务;统一ISSU则支持运行人员在不同软件版本之间进行全面升级,不会对路由造成任何影响。
通过不间断的主动路由延长运行时间
持续运行的系统要求网络设备必须能够在不中断路由或转发业务的情况下,透明地切换路由引擎。现在,许多路由器都使用冗余路由引擎,在主用路由引擎发生故障时支持备用处理器接管运行工作。
平滑的路由引擎故障切换(GRES)是支持备用路由引擎在不中断数据包转发情况下自动接管路由和系统控制任务的主要机制。GRES虽然能够在故障切换期间防止受感染的路由器丢失数据包,但却不能称为全面的解决方案。临近路由器仍将继续检测主备路由引擎间的切换,并据此做出响应—所有的临近设备都将处理这个链路/节点拓扑变化、选择最佳路径,并更新它们的所有临点,这些临点反过来又会更新它们的临点,直到整个系统完成更新为止。然后,当新主人开始向节点路由流量时,这个过程又将重新开始,使网络发生巨大动荡,导致变化无效。
平滑重启能够扩展路由协议,以便临近的对等体能够将切换视为过渡事件,进而不会启动网络路径再汇聚流程。当临近路由之间协商平滑重启时,临点在节点停止路由时不会更新所有的临点,而是进入一种活动的监控等待进程。等待期间,它将假设没有执行路由任务的节点正在转发流程并保存状态—常称为“不间断转发”。平滑重启的等待周期可由用户配置,在各节点间进行协商,时间常为几秒钟。平滑等待期间,主用路由不支持流量传输,因此,正在重启的NSF节点有可能正向无效目的地发送流量—这常称为黑洞流量。
平滑重启解决方案需要所有对等体都运行标准的协议扩展,而网络变化则可导致平滑重启停止。如果任何相连接的路由器不支持平滑重启协议扩展(或者因为错误没有被配置为支持平滑重启协议扩展),那么这个节点将立刻响应路由缺席状态,并向网络传播路由变化消息。即便是处在平滑等待期的节点也能接收到节点拓扑变化信息。由于这些节点用于接收消息的链路不与重启节点直接相连,因此它们将会处理路由变化、退出平滑等待期,并引发网络融合。
不间断的主动路由(NSR)是平滑重启的备选方案,能够提供众多优势:它对网络对等体是透明的,无需对等体参与、不会中断临点或会话的运行、对融合的影响最低、支持在任何一点进行故障切换,并且与线路中汇聚了多少个路由无关。
从系统架构的角度看,NSR的最大特点在于两个路由引擎都在主动运行路由。这两个路由引擎都在运行路由程序,并接收网络临点发送的路由消息。选择主动路由引擎只需您从两个正在运行的引擎中选择其一,并将其出站消息队列与网络相连接,以便与临点进行通信即可。不间断的主动路由是独立的,不依赖辅助路由器(如在平滑重启时)来帮助路由平台恢复路由协议信息。不间断的桥接机制将这些优势扩展到了以太网交换中所实施的L2协议上。这些特性结合在一起,使RE切换对临点具有透明性,从而能够维护其所支持平台和协议的L2和L3稳定性。
通过统一ISSU缩短计划内事件的持续时间并降低风险
瞻博网络始终致力于为电信运营商提供适当的软硬件功能,以便最大限度地缩短例行维护时间,包括:
单一软件版本模式,新版本的特性是在上个版本基础上的添加,每个版本都必须通过全面的回退测试,不存在严重错误,从而提供依靠添加其他软件组件不可能实现的固有的系统稳定性。
热插拔接口,支持运行人员插入或拔出硬件组件,无需重新设置整个设备。
不中断业务运行的统一软件升级(统一ISSU)为缩短计划内维护的持续时间并降低风险提供了另一个优势。统一ISSU支持您在所支持的双路由引擎平台上实现JUNOS软件版本之间的完全升级,无需中断控制平面的运行,并且几乎不中断流量传输。例如,客户可使用统一ISSU将T640平台从JUNOS 9.0升级到JUNOS 9.1软件。
此外,统一ISSU还能通过自动运行功能来简化升级流程。例如,ISSU执行的首批任务中包括验证系统上安装的所有硬件是否兼容最新的JUNOS软件,然后检查所有的硬件及配置好的特性是否都能得到全新JUNOS版本的支持。这些功能都可为运行人员提供强有力的消息传递能力,使他们能够纠正偏差,以便ISSU对不支持的硬件实施离线处理,然后在升级完成后或者中断ISSU运行后再将这些硬件重新上线。这种自动检查功能可帮助运行人员节省大量时间,此外,自动执行任务要比手动工作更加准确。
瞻博网络的方法与其他供应商采用“代码补丁”或“SMU”等术语名称来提供快速缺陷修复包的做法截然不同。首先安装最新版本的一个补丁,然后再安装下一个新版本的补丁,接下来安装再下一个新版本的补丁,以此类推,这会很快导致要对很多不同版本进行修补工作,进而需要对所有这些不同的潜在组合进行繁重的回退测试,这会导致出现重大缺陷和漏洞的几率直线上升。
相反,瞻博网络统一ISSU的设计支持您将整个操作系统从一个主要版本完全升级到另一个主要版本,从而保护升级全面完成,并确保所有软件版本的回退测试质量。我们在所有支持的软件版本间都提供升级路径。瞻博网络统一ISSU支持运行人员在升级软件时不中断L3临点或路由、L2 keepalives或链路管理。此外,在执行升级任务时,您还需要启用设备上的平滑路由引擎故障切换和不间断的主动路由(NSR)机制。在不发生这些中断的情况下升级整个操作系统,是IP网络发展历程中的重要一步,也是瞻博网络致力于开发持续运行系统的直接成果。
要点
现代多业务网络故障中断的后果非常严重,而运行团队在提高网络可用性方面也面临着诸多挑战。
瞻博网络持续运行的系统构想提供了一种从多方面开发软件的方法,前瞻性地考虑到了故障停机的所有基本原因。我们的最新成果包括不间断的主动路由、统一ISSU及面向电信运营商(及其客户)的其他重要机制,这些成果均有助于确保不间断的服务,即使在路由引擎重启和系统升级期间也不例外。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。