扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
随着电信运营商对IP网络的要求与日俱增,瞻博网络将重点放在了开发持续运行的系统上,以便运营商确保网络24X7全天候不间断的运行。构建持续运行的系统方法意味着瞻博网络工程师对造成服务降级和中断的原因进行了深入的探究—无论是计划内维护、意外故障还是人为因素—并设法避免和牵制它们,以防对网络的正常运行产生影响。
持续运行的系统能够确保网络长时间地正常运行
随着电信运营商对IP网络的要求与日俱增,瞻博网络不再将高可用性视为一种通过简单的冗余设备或链路来开发持续运行系统的方法。持续运行的系统方法从全盘的高度去审视高可用性,认为网络必须在提供应用和服务的同时确保不中断、不降级。
若要开发这些持续运行的系统,不仅限于开发单个特性、协议或产品那样简单,还要求识别出造成服务降级和中断的多个潜在根源—无论是计划内维护、意外故障还是人为因素—并设法避免和牵制它们,以防对网络的正常运行产生影响。在产品开发期间,瞻博网络工程师综合考虑了每个设备的冗余、故障切换和运行机制,以便开发出支持无缝服务连续性的产品。
有些机制我们非常熟悉,如瞻博网络路由和转发平面隔离机制,以及JUNOS软件的模块化架构等。有些机制则是瞻博网络所特有的,如严格的开发流程、防错配置、自动脚本编制功能、不中断业务运行的统一软件升级以及客户支持系统的全自动交互等。
造成网络运行中断的事件和错误分为许多类型。本文将讨论不同的网络故障停机原因,以及JUNOS软件用于实现长时间网络运行的机制和特性。首先,我们来谈谈运营商为设备维护和升级而安排好的计划内停机事件,然后再谈谈设备、链路和系统故障引起的意外故障中断,最后谈谈被许多人视为故障中断最大原因的人为因素。
缩短计划内事件的时间并降低风险
网络负责为运行着大量自动应用的全球企业承载关键通信和运行流量,现已不再遭受以维护或升级为目的的非高峰期计划内故障停机。运营商必须设法避免使用修复包,并简化变化和升级流程,从而缩短与计划内维护相关的故障中断时间并降低成本。
瞻博网络率先通过极为严格的JUNOS软件开发流程来帮助运营商缩短计划内维护时间。JUNOS软件的全新版本遵循单一版本模式,开发人员将在每个旧有版本的基础上添加众多新特性。瞻博网络工程师坚持高标准的软件开发,以确保这一单一版本的持续实施。例如,他们只向新版本中添加特性,并使用全面的回退测试,以便了解新代码是否已对从前的有效特性产生意外的重大影响,并在推出新版本之前修复这些问题。
严格的流程使系统获得了固有的稳定性—这一点是您通过添加任何软件选项都无法实现的—从而缩短了计划内维护时间。此外,这种系统的方法还能确保构建易于理解、且经过全面测试的代码库,以便您基于该代码库构建全新的持续运行系统机制。瞻博网络还提供不中断业务运行的统一软件升级功能(统一ISSU),帮助您进一步缩短升级时间并降低风险。统一ISSU支持您在配备两个路由引擎的相关平台上,从一个JUNOS软件版本完全升级到另一个版本,无需中断控制平面的运行,并且基本上不影响流量传输。我们将在本月的“技术权威”中对统一ISSU的优势进行详细说明。
减少意外事件的数量、缩短其持续时间并降低严重性
另一个业界公认的可以延长运行时间的方法,是减少因网络设备、链路和系统故障而引发的网络意外事件的数量、缩短持续时间并降低严重性。
运行JUNOS软件的设备凭借持续的性能和运行稳定性得到了应得的好评。单一软件版本和模块化软件设计提供固有的稳定性,为实际环境中长时间的运行奠定了基础。从一开始,瞻博网络开发人员就致力于开发模块化操作系统来提供固有的容错能力以便抵御内部故障。
除了这些工程优势外,JUNOS软件还提供高可用性特性来最大限度地减少因各类意外事件导致的故障停机。这些特性包括自动快速检测和事件应答机制、快速故障切换到冗余系统、网络自治愈、基于脚本诊断,甚至恢复功能。
例如,JUNOS软件自动执行事件策略的功能支持网络工程师提高主动监控网络的能力,创建早期预警系统来检测新出现的问题,通过operation s脚本来立刻诊断问题根源,甚至通过更改来避免更严重的问题和故障中断,帮助运行人员快速恢复正常运行。通过这些工具,运行团队可捕获脚本中而不是书面上的运行程序,利用稀缺人才的专业技能,自动运行故障排除和恢复计划。此外,脚本编制功能还能随着网络故障原因不断被诊断出来而提高能力,以供富有经验的工程师编制脚本,来主动防止相同或相似问题再次出现。
瞻博网络为防止因意外事件导致故障中断的最新研发成果包括:OAM事件自动应答机制、瞻博网络客户支持团队自动交互功能及路由和桥接功能的透明故障切换等(请见本期的“技术权威”)。这些自动化机制进一步扩展了面向运行人员的工具集,支持他们通过快速的并且经常是主动的响应机制来避免并牵制因意外系统和网络事件而引发的故障停机。
避免人为因素引发的故障停机
人为因素被许多人视为故障停机的最大元凶,却未曾引起大多数网络供应商的重视。由于现代化网络非常复杂,即便是资深工程师也难免会将防火墙安装在错误的接口上(如他们用于与路由器进行通信的接口),在过滤器列表中输错IP地址、以错误的顺序只输入一行冗长命令,或者在配置服务时犯下语法错误或丢失参数。详细的操作程序指南和仔细的检查虽然能够避免某些错误,但却要以降低响应速度为代价。在紧急情况下,巨大的压力和频繁的故障中断将会大幅度提高错误出现的几率。
网络供应商一直将人为错误留给客户,只提供基本培训和知识库来帮助他们管理问题。瞻博网络始终高度重视JUNOS软件运行中的人为错误,不断简化易于出现人为错误的主要流程,并致力于不断提高其自动化水平。
例如,JUNOS CLI的外观与其他命令集相似,非常易于学习。JUNOS软件提供领先其他系统的多个特性,包括将变化保存在备用文件中的防错配置,支持将配置向后回退50步,并能在配置变化期间意外隔离的远程系统中触发自动回退程序。
最恼人的人为错误当属以前曾经发生过而今又再次出现的错误,因为运行团队完全有能力避免这种现象。JUNOS软件的Commit Scripts能够在备选配置生效之前定制提交验证,从而直接了解决这个问题。运行团队的主要工程师可通过开发脚本库来确保配置同时遵从业务和网络策略。此外,这些高级脚本编制工具还提供宏功能,将大量重复的复杂配置缩减到少数几个配置行和变量,帮助运行团队在设置和更改配置上节省大量宝贵时间。
优势
持续运行系统的工程基础植根于JUNOS软件卓越的设计和开发理念;这不是能够轻易复制的特性或属性。在朝着持续运行系统迁移的过程中,瞻博网络构思、设计并实施了一套自动机制和程序,用于加快系统问题的识别和响应速度,以便延长高性能网络正常运行服务和应用的时间。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者