扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
交换机运行中出现故障是不可避免的,但出现故障后应当迅速地进行处理,尽快查出故障点,排除故障,这是维护人员应尽的职责。但是要做到这一点,就必须了解交换机故障的类型及具备对故障进行分析和处理的能力。为此,本文就交换机常出现的故障类型及分析处理的方法作一简要的介绍。
1 故障分类
从笔者多年来维护程控交换机的经验和在工作中遇到的故障来看,交换机的故障一般分为以下类型,如表1所示。
具体类型是:
(1)电路板损坏
电路板上的元器件受损或基板不良,造成电路板不能正常工作。
(2)硬件工注不合适
硬件工注是为减少电路板的种类,而在电路板上设置的一组或几组开关,用以定义该电路板的工作状态或在系统中所处位置,如硬件工注设置得不正确,必会导致该电路板工作不正常。
(3)电路板块类型不合适
硬件更新后,同一名称的电路板块可能有多种不同的型号。在一般情况下,新型号电路板的功能会兼容旧型号电路板的功能,但旧型号的电路板的功能就不一定能兼容新型号电路板的功能了。
(4)机架、模块的问题
机架、模块用于承载电路板,按其在系统中的位置被分为处理机系统的机架、模块,交换系统的机架、模块和维护管理系统的机架、模块等。这些机架、模块也会出故障。
(5)设备供电的问题
整流器提供的-48V直流电被分配到每一个机架及相关的设备上,机架内的电源分配系统负责向模块供电,而每一模块上的电源电路板,都能根据模块内各电路板所需的电压进行调整,然后配送到每一块电路板上。但在这一过程中,任意环节出现问题,都有可能造成供电的故障。
(6)连接电缆和配线架跳线的问题
连接电缆和配线架的跳线是用来连接模块、机架和设备用的,如果这些连接电缆内的缆芯或跳线发生了短路、断路或虚接,就会形成通信系统的故障。
(7)程序BUG
软件程序设计存在着缺陷。
(8)系统数据错误
系统数据,包括软件工注,用于对整个系统进行定义。如系统数据出现错误,也会造成系统全方位的故障,对整个交换局产生影响。
(9)局数据错误
局数据是根据交换局的具体情况而定义的。当局数据出现错误时,也会对整个交换局产生影响。
(10)用户数据错误
用户数据对每一个用户的情况进行定义,如果用户数据被错误设置,出现用户数据错误,会对某个用户产生影响。
2 故障分析和处理的方法
不同的故障会有不同的表现形式,故障分析的目的就是要通过分析故障现象,找出故障的原因和确定故障的地点,以对故障进行排除。为了使故障分析工作有条不紊和有章可循,需要在故障分析中参照故障分类表的级别,逐步推进。首先是按一级分类,确定是软件故障还是硬件故障,然后根据二级、三级分类进行递推。第五级分类都有很多测试的方法,一些常用的测试方法有:
(1)排除法
根据故障现象,罗列出故障发生的可能性,然后逐步排除。在罗列故障可能性的时候,要尽可能全面一些,不要有遗漏。排除可能性时要从简而繁,避免无效劳动。这种方法的逻辑性较强,可以应对各种各样的故障,但缺点是对维护人员的要求较高,要求维护人员对交换系统有全面深入的了解。
(2)对比法
用本系统正常运行的设备或他局正常的设备作基准,对比故障设备和正常设备之间的区别,找出故障所在。这种方法简单易行,对软件故障的排查尤为有利,但缺点是用途有限,特别是一些故障无法找到有效的对比基准。
(3)替换法
用正常的设备去替换有怀疑的设备,这种方法主要用于对硬件设备故障的处理。替换时应注意正常设备的型号、类型及硬件工注是否与欲替换的设备完全相符。
以上几种方法,在实际运用中,有时是交替使用的,目的是为了迅速准确地找出故障点。
下面结合故障处理来说明故障分析和处理的方法。
故障(1)
故障现象:某新局开通后,一些用户在出局呼叫时,经常呼叫不成功,用话务统计监测时,发现出局呼损过大,近30%,且不分局向。
故障分析:此故障现象无法明确判定出是软件故障还是硬件故障,也没有可比对参照的设备,所以无法使用对比法和替换法,只能使用排除法来处理。
由于该故障与呼叫有关,与用户无关,不会影响用户的其他呼叫,所以可以排除用户电路和交换系统方面的因素。但根据呼叫流程,可以分析出与出局呼叫相关的硬件设备有用户电路、局间中继电路、收发码器和交换系统,与出局呼叫相关的软件系统有用户数据、局间中继局数据和收发码器局数据等。这样,依据由简入繁的原则,可首先进行局是中继电路的测试,结果没有发现什么问题,于是又对收发码器进行测试,发现有近25%的收发码器不能使用,且都集中在相同的模块上。但对这些不能使用收发码器按号码检查其局数据的设定时,并没发现有什么问题,至此可以肯定,该故障属于硬件方面的问题(集中在相同的模块上)。于是对硬件模块和所连接的
设备进行了检查,并用对比法,将有不能使用收发码器的模块与收发码器正常工作的模块相比较,才发现是其控制电路板的型号不正确。待更换了正确型号的控制电路板后,故障即被排除。
故障(2)
故障现象:某局一个中央处理机模块不能在双机状态下运行,由人工输入双机命令返回的信息是,中央处理机模块备用侧不能正常工作;用诊断命令对备用侧进行诊断的提示信息是,备用侧一部分电路板不正常。
故障分析:该故障明显地属于硬件的故障。于是按照故障信息的提示,首先运用替换法,将备用侧的电路板更换掉。但是,电路板更换后,故障现象并没消失。就是说,真正的故障点不在备用侧的电路板上,造成备用侧故障的原因,有可能是机架、模块、供电及连接设备等。于是又用排除法对这些设备逐步进行排查,特别是找出了中央处理机模块的工作说明书,仔细分析其由单机转向双机的过程,并由人工发双机命令,先由主用侧接收数据,然后由主用侧通过主被控制电路板向备用侧发送集合,让被用侧进行自检等。这一过程如备用侧正常,就会回复主用侧,并做好接收主用侧信息的准备。如主用侧收到备用侧正常回复的信息,就会向备用侧传送现行数据,实现双机运行。然而现在的问题是,主用侧没有收到备用侧正常回复的信息。是什么原因呢?是主用侧根本就没向备用侧发出双机指令还是备用发出的正常回复信息主用侧收不到呢?这些都与主用侧主备控制电路板的传递有关。为此,通过再启动,强制转换中央处理机模块的主备用设备,并更换了原主用侧的主备控制电路板,故障现象就消失了。
此故障的类型即为电路板损坏故障。
故障(3)
故障现象:某局城建产设局间中继电路设施,但在硬件设施安装完毕后,输入局数据时出现了差错,即出现了局数据存储状态错误的提示。
故障分析:该故障按故障类型,很明显为软件故障,是无法使用替换法的。为此,根据由简入繁的原则,先采用了对比法,即打印出相关的局数据与他局进行比较,很愉就在内存管理表中发现了可疑点。由于局数据内存管理表是按照起始地址、终了地址、存储空间、剩余空间来管理的。而该局内存管理表中剩余空间的数值比存储空间的数值大了很多,很明显是局数据的管理出了问题。于是用机器码修改命令,调整了局数据内存管理表,就排除了这个故障,使局数据的运行达到了正常。
3 结束语
故障的现象是多样的,故障的原因也是多样的,同一故障,可能有多种不同的故障现象。同一故障现象,也可能有多种不同的原因。例如,用户电路板的故障,既可以表现为用户无蜂音、杂音、错号,也可表现为单通、无振铃等。而且,同样是用户无蜂音的现象,其原因也可能是配线架接触不良,用户模块有问题或是交换系统的问题等等。所以,要求在进行故障分析的时候,一定要尽可能全面、详尽地了解故障现象和灵活地运用故障分析 方法。同时,要做好分析记录,整理和记下每一次故障分析、处理的全过程,以积累经验,不断提高故障处理的水平。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
去集群 更超群——大容量网络演进之路
2019 IBM 中国论坛
H3C 2019 Navigate 领航者峰会
助推数据中心网络现代化转型 打造灵活可靠基础架构平台