扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
网络干扰故障
计算机网络的供电环境在设计时,一般主要考虑采用有一定冗余量的不间断电源,部分对可靠性要求高的网络还要备份一定容量的不间断电源(热备份),以免电源缺失导致数据丢失。冗余供电能力一般从30%~300%不等,并常为网络扩容适当留有部分富裕。如果某个运行某种数据库的服务器故障,除了它自身的磁盘冗余阵列保护、多芯片保护、多网络接口保护外,还可以启动多机保护(备份),准实时备份等、异地备份等等。但是,如果一个用户采用250KW的UPS系统将所有网络设备的电力供应都挂接上去,那么当UPS本身出现致命故障时,等待用户的将是设备的全面失效。一般建议,对实时备份数据要求高的应用环境,电力供应设备应该采取热备份措施。并且,备份设备的电力供应要与主工作设备的电力供应分离,同时定期检查备份设备的响应功能,这样才能完全避免陷入“概率深渊”的悲惨境地。从可靠性上考虑,一般建议每30~50台设备可以考虑设置一组UPS电源,重要设备要单独供电并取电力供应热备份。数据备份设备的电源绝对与主工作设备的电源供应隔离。可以选择热备份方式。某些大型用户热衷于采用大容量供电设备集中供电,除了可能陷入“概率深渊”外,遭受故障侵袭的可能性也会提高。
电源受扰导致网络故障
某中心城市的一家大区银行,某日发现自己的网络处在“软故障”的包围之中,网络故障现象时断时续,呈现出周期性“发作”特点:每隔10分钟左右在其辖区内就有部分支行或分行打来电话报告业务流程出现问题。具体表现各处报告的都很一致:先是流程业务中断,普通Ping测试无响应,1分钟后连接恢复,但速度非常慢。此故障已经持续了2天,网管人员怀疑是路由器故障,曾试着分别更换了备用的同城结算路由器和主路由器,无效。此现象以前也出现过几次,但因为很快就恢复了,所以也没有引起足够重视。
故障范围涉及比较大,无论是本城辖区还是大区内的远程网络都报告路由中断现象。由于故障每隔10分钟左右就会周期性地出现,虽然比较频繁,却为故障诊断提供了很大方便。选择任意路由进行连续的Ping测试,监测其连接状况与故障发生时间关系。为此我们网络测试仪F683接入计算中心网络进行监测。选择曾报告过故障的一郊县路由器作连续的ICMP Ping测试。测试结果指示响应时间为9ms,初看起来,这一响应时间参数质量尚可。3分钟后,有下辖用户开始报告故障现象出现。观察网络测试仪,显示参数正常,这说明我们监测的路由链路基本上是正常的。立即改变监测方向,向报告遇到故障的用户的路由器做ICMP Monitor,结果大量的目标不可达记录出现,同时伴随着“源限制”、“回应请求”和“回应响应”帧出现。20秒钟后,开始出现大量的“重定向帧”,而仪器指示单位时间内“目标不可达帧”的记录数量则减少,“源限制”、“回应请求”和“回应响应”帧大量出现。
以上记录表明,路由器的动态路由表在故障出现时发生了很大变化。网络原来的路由中断后,继之被重定向路由取代。打开静态路由表,为了与动态路由作比较,我们启动F683分段路由追踪功能,追踪从测试仪到先前报告故障的远程路由器。可以看到,路由在本城出口的下一站,即与大区中心链接的第一个路由发生了中断。动态路由已经由备份路由取代。状态:拥塞。
看网络拓扑图和文档备案得知,原路由为主路由,通道速率为基群E1,格式为ATM链路,备份路由为DDN基本速率链接,速度仅为64Kbps.打开主路由器的Mib库,观测到主路由器的流量为0.02%,错误为2%;表明它处于轻负荷状态,并有少量错误流量。观察备份路由器的Mib库,流量显示为100%,说明它处于超负荷运行状态。
由于故障为周期故障,为了观测它的发生规律,我们在征得“病人”同意的前提下,决定不急于寻找主路由器中断和拥塞的原因,而是先观测在一个周期里故障变化的全过程并记录之。我们用第二台网络测试仪和网络故障一点通接入网络,分别观察主路由器、备份路由器、主服务器的工作流量和错误,并对主路由器作连续的ICMP 监测。约8分钟后,主路由器流量开始迅速上升,备份路由器监测发现“重定向帧”。约15秒后报告备份路由器退出优化路由,动态路由表恢复到与静态路由相同的设置。网络完全恢复正常。
分析故障关系,备份路由因为主路由出问题而接替工作,承担大流量的冲击,由于不堪重负,网络速度当然会变慢。可以断定故障的最大关联设备是主路由器。由于用户在机架上已经安装了冷备份的主路由器(上次更换后还没有来得及拆下来),为了验证是否是路由器本身的问题,我们又一次将冷备份的路由器替换到主路由器的位置。5分钟后,路由器更换完毕,开机接入网络,3分钟后网络恢复正常。但只持续了2分钟,故障现象又重新出现。看来,有必要对主路由器及其周围链路接口、工作环境等做一番详细的监测才能发现真正的故障所在。
该网络建构的拓扑是:主路由器与三个外区远程路由器和一个本地路由器相连,我们可以先用网管系统同时监测这几个路由器的工作状况。报告的监测结果如下:故障出现时,外区主路由器和本城路由器的路由表随着故障的出现也发生变化,而此时“同城结算业务”却不受影响。受影响的业务方向是外地与本城、本城与外地、外地经本城然后跨区路由等。用Fluke ATM测试仪测试远程ATM路由通道,将远端ATM交换机Loopback(环回)以后监测三个方向的通道情况,两个周期观测下来显示路由链路完全正常。再对与主路由器相关的所有连接电缆进行测试,全部都合格,这表明主路由器的工作环境是基本正常的。此时我们需要了解主路由器链路中的经常影响链路速度的“垃圾流量”的分布和统计。但由于网络医院的流量分析仪出借给了别的“病人”,所以我们暂时不能观察主路由器的详细流量状况。实际上,因为已经试验更换过主路由器,所以只需要严格检查主路由器有无来自网络内部的大流量攻击或占用、错误帧是否出现以及工作环境油污异常,比如设备接地质量、供电环境异常、周期性辐射干扰(可能来自内部或外部)等等,这些因素当中的任何一个不符合要求,都有可能引发主路由器中断的故障。
网络测试仪没有观测到大量错误出现和大流量帧攻击主路由器。检查为主路由器供电的UPS电源,发现当故障发生时UPS显示过载,其输出回路却显示轻负荷。用F43电力质量分析仪观察也显示故障时输入谐波超差6倍。输出回路超差400倍,故障恢复后,过载指示也随之消失,但输出回路仍超差80倍。这证明UPS电源的滤波功能低效。
用一台好的小型UPS将主路由器单独供电,开机后监测两个周期故障现象均不再出现,继续监测了近4个小时仍然正常。这说明故障原因是供电质量不合格。我们注意到,计算中心所在的大楼正在装修,等大楼装修完毕后还要将网络设备扩容。初步推测干扰源很可能就来自与装修有关的部分。由于故障的周期性,经过仔细观察发现,故障出现的周期与楼旁塔吊的搬运货物的上下周期非常一致!为准确判定谐波干扰的源地点,我们将F43电力质量分析仪接入供电网络进行核实,结果发现,每当塔吊上升时,故障现象就出现(下降时谐波为上升时的三分之一,网络有少许变慢)。
故障的真正原因是,为主路由器供电的UPS电源由于失效,对外界电力干扰谐波的过滤能力下降,当为重负载的用电设备供电时,此谐波会引发许多设备出错。正如本故障中UPS电源滤波失效,则相关设备会受到谐波干扰。谐波干扰在现代电子设备大量使用的今天其危害开始受到重视,谐波除了直接破坏EMC,干扰各种敏感的网络设备外,更经常地由于引发高频涡流损耗而将本身轻负载变压器等过载烧毁。以前在非线性电源使用较少的条件下制定的许多供电质量监测参数正在被修改,谐波参数现在是衡量供电质量的一个非常重要的参数。本故障中,主路由器由于大量谐波干扰从抵销的UPS进入,使得链路阻塞,路由器连接中断,路由变更指令使得各业务流量流向备份路由器,备份路由器的路由通道能力又不能满足业务需要,致使网络出现拥塞。这就是本次故障先中断后恢复然后阻塞的原因。同城结算数据由于多数不经过计算中心向内的主路由器,所以未受到影响。
塔吊下降时,虽然引入的干扰也不少,不过因为其干扰的绝对值未超过主路由器的承受范围,所以主路由器还能应付。大楼装修以前也出现过类似的故障,因干扰源很快消失并不再持续存在,因此不可能引起维护人员的注意。与电缆和光缆系统一样,电力谐波和UPS电源的定期检查也都被列入网络维护检查的定期检查的项目。一般建议作半年定期检查。而关键的网络,建议作为周定期检查的项目。谐波干扰是经常存在的环境因素,如果此时UPS电源不出问题,一般不会影响网络的正常运行,但谐波干扰是严重影响网络性能的原因之一,一旦窜入网络则引起的故障多数都是“致瘫性”或致命性的。还由于多数用户对干扰类型的故障“相当地”不熟悉,故提请大家引起较多关注。
电源干扰经常来自供电环境,有时也来自用电设备。计算机网络多使用开关电源,本身也容易产生谐波干扰,所以UPS的供电范围常作一些限制。如果用电环境的接地系统质量良好,一般不会产生大面积的干扰,否则这种干扰将可能是致命的。实际上经常的状况是,干扰总是存在的,如果干扰的幅值不大,链路衰减较小(如链路长度短),则干扰信号的强度不会超过线路信号的强度,不会造成对链路的干扰。在链路长度超长(接近90米甚至超过100米)的情况下,由于信号衰减大,较小的干扰信号也会造成对链路的干扰。不同的设备对干扰信号的反映是不同的,集线器是共享介质的中继器组,会将某条链路中的干扰传递给所有碰撞域中的成员。交换机端口具有错误帧识别功能,经常地能将干扰帧挡在门外。不过这不包括使用切发(Cut Throungh)模式和改进切发模式的交换机。
排障过程
某电信局网管中心,所在地为一地区中心,下辖两个县级市和7个县,安装在地区网管中心的网管系统在两个月前发出了报警信号,提示某县级市的网络有异常情况。一个月前省局工作组在检查工作时发现该县级市不在网管中心的网络拓扑显示图上。询问原因,当时答曰:今天正好赶上该县级市进行工程施工,所以将网络管理功能暂时关闭,故在网管机显示器上的拓扑图中无该县级市的网络图标。现在所谓“十万火急”的问题即是:明天工作组将要进行第二轮验收检查,而网管系统是此次的重点检查项目之一,不可能再用网络工程在施工为由回避检查该子网的状况。因为网络拓扑图上的报警信息仍在,该县级市的问题也一直没有彻底解决(县级市子网却一直报告网络正常,速度很快!对定位故障一直不太主动并给予配合),明日检查恐怕无法“过关”,所以才想到引入“紧急外援”。另外需说明的一点是,该故障在初期时隐时现,最近才由飘忽不定演变为高频发作甚至是持续存在的故障现象。
针对这一情况,我们决定先不去地区中心,而是直接转道前往该县级市网管中心,因为从网管指示的范围看问题很可能出在此处。另外,该中心距我们现在的位置比地区中心也更近一些。
半小时后即抵达目的地,立即投入“体检”工作。根据地区网管中心提供的线索,该子网的路由器报告错误数据流量较高,因此直接对该子网进行测试。该子网为用交换机连接的多网段结构,含8个10BaseT和18个100BaseT以太网交换机。用网络测试仪接入网络作自动监测,测试路由器平均错误流量记录为3%,有效流量为7%(广域连接用的是E1链路)。观察交换机自身提示的错误流量端口,系指向某交换机第一插槽的3#端口所连接的子网段,其它子网段测试正常。3#子网段为拥有97个工作站的100BaseT以太网网段,连接安装有DNS服务器、IP服务器和其它主要的业务服务器也挂在该子网段内。测试3#端口的错误计数统计值为25%,随即将F683“网络测试仪”移动到3#网段进行监测。结果指示:错误类型为帧校验错误和其它未分类错误(这可以是为无帧头结构的、且非碰撞类型的自由帧、离散帧等),比例分别为27%和11%,其中正常数据包流量为3%。27%的错误统计值与交换机提示的错误统计值基本一致,但还有11%的错误交换机和路由器等不能识别,需要进行定位。断开路由器,错误指标略有降低。这表明故障确实是在该子网,与WAN链路基本无关。由于此子网段全部由集线器堆叠而成(8×16Port),故进一步观察网络测试仪F683指示的全部错误定位数据。仪器提示97个工作站和5个服务器均发出类型为FCS帧校验错误的数据包,数量不等。
由于全部工作站均发出FCS帧校验错误帧,所以不认为是所有的工作站网卡都有问题(这种可能性微乎其微),而故障原因很可能是电缆故障(全部电缆打线有误或采用了假冒伪劣电缆)和干扰窜入,如信号干扰、接地干扰、电源干扰、辐射干扰等等(包含在未分类错误类型中)。网管人员认为,由于电缆系统在竣工验收时全部都采用ISO11801标准进行过认证测试,测试工作是网管中心自己承担的,所以应该没有问题。
为快速定位故障,采用通常的“二分法”隔离网段:先将一半的集线器断电,故障依旧,再次将其中一半集线器(即总量的四分之一)断电,故障消失。恢复供电,逐个拔掉该四分之一集线器(两个集线器)上的工作站电缆插头,当拔下6号集线器的7#端口连接的工作站电缆插头时,网络万用表上的错误指示全部消失!
网管人员断定,故障为该工作站之网卡的可能性不大,因为所有的网卡昨天为了迎接检查验收都进行过相邻三组网卡的两两互换试验和三台相邻整机的两两换位试验(该中心没有配备其它的网络测试工具,只好采用这种常用的但经常是有效的所谓“笨办法”)。用网络测试仪对此故障工作站的网卡进行测试,结果其端口的物理参数和工作协议都正常。由此可以大体断定故障出在该工作站的其它部位,且基本是干扰类型的错误(属于未分类帧错误类型),不排除线缆引入过量噪声的可能。拔下网卡一侧的电缆插头,故障消失,说明故障不是由电缆噪声引起。靠近该工作站可以闻到一股虽不是十分明显,但却比其它工作站都强烈的电器“烧焦”味(不过,还远未到能看见机器冒烟的地步)。贴近机器可以听到开关电源中发出的明显的“咝咝”响声,脱下外衣罩住头,在遮光条件下观察工作站的开关电源内部,漆黑的背景中明显可以看见几条放电打火线。测试工作站与服务器的联络情况,可以看到大量的重发帧和无效帧。更换备用的开关电源,故障排除。
原因分析
故障原因比较简单,是由单台工作站开关电源故障产生的放电干扰信号窜到网卡输出端口后进入网络所造成。该干扰信号进入网络后占用大量的网络带宽,破坏其它工作站的数据包(即表现为“患者”众多的FCS帧校验错误类型的数据包,其比例随各个工作站实际的正常流量而定);同时该干扰信号还干扰服务器、路由器的工作(重发帧、无效帧等),使得地区中心的网管机屏幕上经常有报警状态提示。由于网络总流量为41%左右(低于40%的平均流量时用户基本不会感到网络变慢),有效流量只有3%,所以县级市子网上的用户虽然自己发出的数据包有很多被破坏而需要重发,同时接收到的数据包有很多已被破坏而需要重收,但是基本上不会感到网络速度有明显的变慢!!
网管系统通常只能发现约30%~40%的网络故障(这取决与被管理设备支持网管的能力和分析、记录网络异常流量的能力)。当有故障报警后,多数情况下需要进一步迅速确定具体的故障位置和故障属性。本次故障不能精确定位并立即排除的原因是多方面的。
其一,县级网由于没有网络维护工具,仅靠网络维护人员的经验和从互联网上下载的某些软件来监测自己的网络,这是直接导致了此次故障长时间无法解决的原因。现阶段,按不同的网络维护规模和级别为相应技术水平的网管人员及运行维护人员配置合适的工具到目前为止一直是让网络规划人员、计划单位和网络维护人员自己都搞不清的事情。
其二,本次故障本来原因比较简单,但因维护体制方面存在的问题从而导致在故障查找过程中不能密切配合和协作,使得问题长期未能解决。其实,如何比较全面、有效、快速和低成本地实施网络的管理和维护已经有许多成熟的方案和做法。建议网管人员和运行维护人员在忙于快速建网、不断跟踪网络新技术和接触新设备的同时也要抽出部分精力来研究有关网络维护的理论、方法和成熟的方案,力争达到事半功倍的效果。比如,进行完整的网络文档备案工作、定期测试、网络基准测试、性能监测、体能测试、通道测试、协议监测、流量分析等工作就一直是一些大型网络成功地防止严重事故发生的有效而简便的手段。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。