扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
“路由漂移”是在网络专业技术人员之间流通的术语,相信网管朋友们听说过或者也如此称呼。此外,大家也许还听说过IP漂移、MAC漂移等吧。其实路由漂移类似于IP漂移、MAC漂移,不过其对网络的影响更大,也更难排错。下面我分享一例路由漂移故障的排错案例,相信对于大家解决“漂移类”网络故障有帮助。
1、故障描述
此次出诊的“病人”是一家化工企业的网络,该企业除了一条与生产线网络,还有一条遍布市区的销售网络,此次出现故障的这条销售网络(营业厅)。从客户反馈来的的故障现象是:网络时断时续,呈周期性“发作”,每隔10分钟左右营业厅打来电话报告业务流程出现问题,无法提交数据。具体表现都很一致:先出现业务中断,1分钟后连接恢复,但速度非常慢。此故障已经持续了2天,网管人员怀疑是路由器故障,曾试着分别更换了备用的算路由器和主路由器均无效。
2、排错过程
(1).故障呈现周期性
笔者首先赶到该企业的计算中心,首先向网络管理人员了解故障情况。基本上与笔者的客服记录报告的内容相同。从表现的故障现象来看,根据以往的经验,基本上可以初步推断是路由链路的问题。网管人员确认,业务中断时,普通Ping测试不通,此现象以前也出现过几次,很快就恢复了,因此也没有引起注意。
(2).排错思路
从记录的故障报告(电话登记)看,无论是销售网络还是生产网络的远程网络都报告过路由中断现象。由于故障每隔10分钟左右就会周期性地出现,虽然比较频繁,却为故障诊断提供了很大方便。可以考虑选择任意路由进行连续的Ping测试,监测其连接状况与故障发生时刻的关系。
(3).排错记录监测到路由迁移
为此笔者将网络测试仪接入计算中心网络进行监测。选择曾报告过故障的其下辖的某营业厅的路由器作连续的ICMP Ping测试,响应时间为9ms,质量尚可。3分钟后,有用户报告故障出现,不过网络测试仪显示正常,说明笔者监测的路由链路可能是正常的。立即改变监测方向,向报告遇到故障的用户的路由器做ICMP Monitor,结果大量的目标不可达记录出现,并出现源限制、回应请求和回应响应帧。20秒钟后,出现大量重定向帧记录,目标不可达帧记录速度减缓,源限制、回应请求和回应响应则开始大量出现。
以上记录表明,路由器的动态路由表在故障出现时发生了很大变化。网络原来的路由中断后,继之被重定向路由取代。打开静态路由表,为了与动态路由作比较,笔者启动网络测试仪分段路由追踪功能,追踪从测试仪到先前报告故障的远程路由器。可以看到,路由在故障网络的出口的下一站,即销售网络链接的第一个路由就发生了中断。动态路由已经由备份路由取代。状态为拥塞。原路由为主路由,通道速率为E1,为ATM链路,备份路由为DDN基本速率链接,速度仅为64Kbps。打开主路由器的Mib库,观测到主路由器的流量为0.02%,错误为2%;表明它处于轻负荷状态,并有少量错误流量。观察备份路由器的Mib库,流量为100%,说明它处于超负荷运行状态。
监测故障周期
由于故障为周期故障,为了观测它的发生规律,笔者在征得客户同意的前提下,决定不急于寻找主路由器中断和拥塞的原因,而是先观测在一个周期里故障变化的全过程并记录之。笔者用第二台网络测试仪和网络故障一点通接入网络,分别观察主路由器、备份路由器、主服务器的工作流量和错误,并对主路由器作连续的ICMP 监测。约8分钟后,主路由器流量开始迅速上升,备份路由器出现重定向指示,约15秒后报告备份路由器推出优化路由,动态路由表恢复到与静态路由相同的设置,网络完全恢复正常。
分析故障关系,可以断定故障的最大关联设备是主路由器。由于用户在机架上已经安装了冷备份的主路由器,笔者先将冷备份路由器替换到主路由器的位置。5分钟后路由器更换完毕,开机接入网络,3分钟后网络恢复正常。但只持续了2分钟,故障现象又重新出现。看来,必须对主路由器做详细监测才能发现真正的故障所在。
定位到主路由器
网络建构拓扑是,主路由器与三个外围远程路由器和一个本地路由器相连,笔者可以同时监测这几个路由器的工作状况。监测结果如下:故障出现时,外围主路由器和本地路由器的路由表随着故障的出现也发生变化,而此时营业厅业务不受影响。受影响的业务方向是外地与本城、本城与外地、外地经本地跨区等。用ATM测试仪测试远程ATM路由通道,将远端ATM交换机Loopback(环回)以后监测三个方向的通道情况,显示完全正常。再对与主路由器相关的连接电缆进行测试,全部合格。这表明主路由器的工作环境是基本正常的。此时笔者需要了解主路由器链路中的“垃圾流量”的分布。此时,笔者只需要检查主路由器的接地质量和供电环境即可(因为已经试验更换过主路由器),这两个因素当中的任何一个不负荷要求,都有可能引发主路由器中断的故障。
电源是最后元凶
首先观测为主路由器供电的UPS电源。当故障发生时UPS显示过载,而输出回路却显示轻负荷。用F43电力质量分析仪观察也显示故障时输入谐波超差6倍。输出回路超差400倍,故障恢复后,过载指示也随之消失,但输出回路仍超差80倍。证明UPS电源低效。
将主路由器的供电电源接到另一台UPS电源上,故障彻底消失。故障原因为供电质量不合格。笔者注意到,该计算中心所在的大楼正在装修,网管人员说等大楼装修完毕后还要将网络设备扩容。初步干扰源很可能就来自与装修有关的部分。由于故障的周期性,经过仔细观察发现,故障出现的周期与楼旁塔吊的上下周期一致!为准确判定谐波干扰的源地点,笔者将电力质量分析仪接入供电网络进行核实,结果发现,每当塔吊上升时,故障现象就出现(下降时谐波为上升时的三分之一,网络有少许变慢)。
3、故障总结
为主路由器供电的UPS电源由于失效,对外界电力干扰谐波的过滤能力下降,当为重负载的用电设备供电时,此谐波会引发许多设备出错。如果此时恰逢UPS电源滤波失效,则相关设备会受到干扰。本故障中,主路由器由于大量干扰进入,使得链路阻塞,路由器连接中断,路由变更指令使得各业务流量流向备份路由器,备份路由器的路由通道能力又不能满足,致使网络出现拥塞。这就是本次故障先中断后恢复然后阻塞的原因。同城结算数据由于多数不经过主路由器,所以未受到影响。
塔吊下降时,虽然引入的干扰也不少,不过因为其干扰的绝对值未超过主路由器的承受范围,所以主路由器还能应付。大楼装修以前也出现过类似的故障,因干扰源很快消失并不再持续存在,因此不可能引起维护人员的注意。
4、笔者建议
与电缆和光缆系统一样,电力谐波和UPS电源也是列入定期检查的内容,一般建议作半年定期检查,关键的网络建议作为周定期检查的项目。谐波干扰是经常存在的环境因素,如果此时UPS电源不出问题,一般不会影响网络的正常运行,但谐波干扰是严重影响网络性能的原因之一,一旦窜入网络则引起的故障多数都是“致瘫性”或致命性的。还由于多数用户对干扰类型的故障“相当地”不熟悉,故提请大家引起较多关注。
此外,定期维护的概念应该为大家所接受,制定了详细的网络健康维护方案,确定定期维护的详细规章,就能够未雨绸缪,防患于未然。比如本例中的网络故障,从表象上看似乎很诡异,谁能够知道UPS电源是最后的元凶呢?如果管理员事前做好定期维护,类似这样的故障就不会发生。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者