科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网网络频道交换机宝典:一般故障到特殊故障的排除

交换机宝典:一般故障到特殊故障的排除

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

网络设备的范围很广,从交换机路由器到打印机服务器都属于网络设备的范畴,这些设备是网管员经常打交道的对象,之所以会经常和它们打交道,除了一般的工作需要外,最多的就是排除这些家伙的故障了。

作者:zdnet安全频道 来源:论坛整理 2008年10月14日

关键字: 交换机

  • 评论
  • 分享微博
  • 分享邮件

    网络设备的范围很广,从交换机路由器到打印机服务器都属于网络设备的范畴,这些设备是网管员经常打交道的对象,之所以会经常和它们打交道,除了一般的工作需要外,最多的就是排除这些家伙的故障了。

    网络设备故障通常有两种表现形式,软故障和硬故障,所谓软故障就是指因为误操作,错误配置,病毒等引起的网络设备的故障,这类故障通常能够通过更改设置,重新安装软件来排除,而硬故障是指网络设备本身的硬件系统发生了故障,这类故障一般智能通过更换硬件设备来解决,不过,网管员日常生活中所遇到的故障大部分是软故障,因此,本章主要涉及网络设备软故障的解决。

    1  交换机故障

    交换机,英文名称为“SWITCH”。大家肯定听说过“程控交换机”这个名词吧?“程控交换机”是指电话通讯系统中使用的线路交换机。计算机网络上使用的交换机就是从电话交换机的技术上发展而来的。一般意义上的交换机是指工作在OSI模型中第二层即数据链路层上的第二层交换机。从外观上来看,它与集线器(HUB)基本上没有太大区别,都是带有多个端口的长方形盒状体,而且都遵循IEEE802.3及其扩展标准,介质存取方式也均为CSMA/CD,但是它们在工作原理上还是有着根本的区别。

    交换机的内部有一条带宽很高的背板总线和内部交换矩阵,交换机前面的所有端口都连接在背板总线之上。在交换机中还有一个重要的组成部分,那就是内存。在这个内存中保存着一张MAC地址对照表,它记录着MAC地址和端口的对应关系。如下图所示:

   

 

    当交换机接收到一个数据时,首先取出数据包中的目标MAC地址,根据内存中所保存的MAC地址表来判断该数据包应该发送到哪个端口,然后就把数据包直接发送到目标端口。如果没有在MAC地址表中找到目标端口,则发送一个广播包至所有端口,来查找目标端口。只要目标端口所连接的计算机响应,则交换机就“记住”这个端口和MAC地址的对应关系,因为交换机具有学习功能。当下一次接收到一个拥有相同的目标MAC地址的数据时,这个数据会立即被转发到相应的端口上,而不用再发广播包。这样就使得数据传输效率大大提高,且不易出现广播风暴,也不会有被其它节点侦听的安全问题。而集线器不具有这个地址表,所以HUB接收到一个数据后,便将该数据发送到所有端口上,所以容易引起广播风暴,且易被其他节点侦听。

    MAC地址表在交换机刚刚启动时,是空白的。当它所连接的计算机通过它的端口进行通信时,交换机即可根据所接收或发送的数据来得知MAC地址和端口的对应关系,从而更新MAC地址表的内容。交换机使用的时间越长,学到的MAC地址就越多,未知的MAC地址就越少,从而广播就越少,速度就越快。

    由交换机构建的网络之所以被称为交换式网络,是因为交换机的每一个端口都是独享带宽的,这是交换机相比于HUB的最大特点。所有端口都能够同时进行通讯,并且能够在全双工模式下提供双倍的传输速率,也就是说交换机端口可以同时接收和发送数据,数据流是双向的,端口之间互不干扰。比如:PORT1向PORT2发送数据的同时,PORT3可以向PORT4发送数据,这两个连接都享有独自的带宽,互不干扰。假如有一个8端口100Mbps的以太网交换机,如果每个端口同时工作,那么它的总带宽就是8×100Mbps=800Mbps。

    随着交换技术的发展,不少高档交换机提供虚网(VLAN)、网管和路由功能。其中VLAN功能是指在一台交换机上,经过配置后,把它所连接的计算机网络分为若干个相互独立的虚拟局域网。划分VLAN时,可以依据交换机上的端口,也可以依据端口所连计算机的MAC地址。如果这些VLAN之间没有经过特殊配置或线路连接,则相互之间不能通信。这一功能可以划分广播域,从而减少广播,提供更加安全的通信。路由功能则是指交换机具有第三层的路由功能,这就是我们常听说的“第三层交换机”。

    常用以太网交换机之间的连接可以通过两种方式:堆叠和级联。堆叠是指通过交换机自带的堆叠线缆,把多个交换机的堆叠模块进行连接。级联是指通过交叉双绞线把两台或多台交换机连在一起。由于各个厂商的技术不同,堆叠和级联的交换机个数也不相同。

    当前,随着交换机价格的降低,交换机已经逐渐取代集线器,成为局域网的主要接入设备。

  交换机故障的一般分类和排障步骤

    交换机的优越性能和价格的迅速下降,促使了交换机的迅速普及。管理员在工作中,接触较多,经常会遇到各种各样的交换机故障,关键是如何快速、准确的查出故障并排除故障。本文就常见的故障类型和排障步骤作一个简单的介绍。

    交换机故障分类

    所有交换机故障一般可以分为硬件故障和软件故障两大类。

    硬件故障主要指交换机电源、背板、模块、端口等部件的故障,可以分为以下几类:

    1、电源故障

    由于外部供电不稳定,或者电源线路老化或者雷击等原因导致电源损坏或者风扇停止,从而不能正常工作。由于电源缘故而导致机内其他部件损坏的事情也经常发生。

    如果面板上的POWER指示灯是绿色的,就表明是正常的;如果该指示灯灭了,则说明交换机没有正常供电。这类问题很容易发现,也很容易解决,同时也是最容易预防的。

    针对这类故障,首先应该做好外部电源的供应工作,一般通过引入独立的电力线来提供独立的电源,并添加稳压器来避免瞬间高压或低压现象。如果条件允许,可以添加UPS(不间断电源)来保证交换机的正常供电,有的UPS提供稳压功能,而有的没有,选择时要注意。在机房内设置专业的避雷措施,来避免雷电对交换机的伤害。现在有很多做避雷工程的专业公司,可以考虑。

    2、端口故障

    这是最常见的硬件故障,无论是光纤端口还是双绞线的RJ-45端口,在插拔接头时一定要小心。如果不小心把光纤插头弄脏,可能导致光纤端口污染不能正常通信。我们经常看到很多同事喜欢带电插拔接头,理论上讲是可以的,但是这样也无意中增加了端口的故障发生率。如果在搬运时不小心,更可能导致端口物理损坏。有的人为了省钱,购买的水晶头尺寸偏大,插入交换机时,就容易破坏端口。如果接在端口上的双绞线有一段暴露在室外,万一这根

    电缆被雷电击中,就会导致所连交换机端口被击坏,或者更加不可预料的损伤。

    一般情况下,是某一个或者几个端口损坏。所以,在排除了端口所连计算机的故障后,可以通过更换所连端口,来判断其是否损坏。

    遇到此类故障,可以在电源关闭后,用酒精棉球清洗端口。如果端口确实被损坏,那就只能更换端口了。

    3、模块故障

    交换机是由很多模块组成,比如:堆叠模块、管理模块(也叫控制模块)、扩展模块等等。这些模块发生故障的几率较少,不过一旦出现问题,就会遭受巨大的经济损失。如果插拔模块时不小心,或者搬运交换机时受到碰撞,或者电源不稳定等情况,都可能导致此类故障。笔者曾经遇到过由于外部电源经常停电导致交换机内部管理模块损坏的情况。

    这三个模块都有外部接口,容易辨认,有的也可以通过模块上的指示灯来辨别故障。比如:堆叠模块上有一个扁平的梯形端口或者有的交换机上是一个类似于USB的接口。管理模块上有一个CONSOLE口,用于和网管计算机建立连接,方便管理。扩展模块上如果是光纤连接的话,会有一对光纤口。在排除此类故障时,首先确保交换机及模块的电源正常供应,然后检查各个模块是否插在正确的位置上,最后检查连接模块的线缆是否正常。在连接管理模块时,还要考虑它是否采用规定的连接速率,是否有奇偶校验,是否有数据流控制等因素。连接扩展模块时,需要检查是否匹配通讯模式,比如:使用全双工模式还是半双工模式。

    如果确认模块有故障,则应立即联系供应商予以更换。

    4、背板故障

    交换机的各个模块都是接插在背板上的。如果环境潮湿,电路板受潮短路;或者元器件因高温、雷击等因素而受损造成电路板不能正常工作。比如:散热性能不好或环境温度太高导致机内温度升高,致使元器件烧坏。
    在外部电源正常供电的情况下,如果交换机的各个内部模块都不能正常工作,那就可能是背板坏了。
    即使你是电器维修工程师,对此类故障,你恐怕也无计可施,唯一的办法就是换背板。

    5、线缆故障

    其实这类故障从理论上讲,不属于交换机本身的故障,但在实际使用中,电缆故障经常导致交换机系统或端口不能正常工作,所以本文也把这类故障归入交换机硬件故障。比如:插头接插不紧,线缆制作时顺序排列错误或者不规范,线缆连接时应该用交叉线却使用了直连线,光缆中的两根光纤连接交错,错误的线路连接导致网络环路等等。
    从上面的几种硬件故障来看,机房环境不佳极易导致各种硬件故障,所以我们在建设机房时,必须先做好防雷接地以及供电电源、室内温度、室内湿度、防电磁干扰、防静电等环境的建设,为网络设备的正常工作,提供良好的环境。

    交换机的软件故障是指系统、配置上的故障,它可以分为以下几类:

    1、系统错误

    交换机系统是硬件和软件的结合体。在交换机内部有一个可刷新的只读存储器,它保存这台交换机所必须的软件系统。这类也和我们常见的WINDOWS、LINUX一样,由于当时设计的原因,存在一些漏洞,在条件合适时,会导致交换机满载、丢包、错包等情况的发生。所以交换机系统提供了诸如WEB、TFTP等方式来下载并更新系统。当然在升级系统时,也有可能发生错误。

    对于此类问题,我们需要养成经常浏览设备厂商的网站的习惯,如果有新的系统推出或者新的补丁,请及时更新。

    2、配置不当

    初学者对交换机不熟悉,或者由于各种交换机配置不一样,管理员往往在配置交换机时,难免会出现配置错误。比如:VLAN划分不正确导致网络不通,端口被错误的关闭,交换机和网卡的模式配置不匹配等原因。这类故障有时很难发现,需要一定的经验积累。

    如果你不能确保你的配置有问题,请先恢复出厂默认配置,然后再一步一步的配置。最好在配置之前,先阅读说明书,这也是网管所要养成的习惯之一。每台交换机都有详细的安装手册、用户手册,甚至每类模块也有。由于很多交换机的手册是英文编写的,所以英文不好的同志没有信心看说明书。其实我们还可以向供应商的工程师咨询后再做具体配置。

    3、密码丢失

    这可能是每个管理员都曾经经历过的。一旦忘记密码,都可以通过一定的操作步骤来恢复或重置系统密码。有的则比较简单,在交换机上按下一个按钮就可以了。而有的交换机则通过一定的操作步骤才能解决。
    此类情况一般在人为遗忘或者交换机发生故障后导致数据丢失,才会发生这种故障。

    4、外部因素

    由于病毒或者黑客攻击等情况的存在,有可能某台主机向所连接的端口发送大量不符合封装原则的数据包,造成交换机处理器过分繁忙,致使数据包来不及转发,进而导致缓冲区溢出产生丢包现象。还有一种情况就是广播风暴,它不仅会占用大量的网络带宽,而且还将占用大量的CPU处理时间。网络如果长时间被大量的广播数据包所占用,正常的点对点通信就无法正常进行,网络速度就会变慢或者瘫痪。

    一块网卡或者一个端口发生故障,都有可能引发广播风暴。由于交换机只能分割冲突域,而不能分割广播域(在没有划分VLAN的情况下)。所以当广播包的数量占到通讯总量的30%时,网络的传输效率就会明显下降。

    软件故障应该比硬件故障较难查找,解决问题时,可能不需要花费过多的金钱,而需要较多的时间。对于各种交换机故障,笔者在总结时可能还有疏忽或不全的地方,烦请各位指正。希望同行们在平时的工作当中,养成记录日志的习惯。每当发生故障时,及时做好故障现象记录、故障分析过程、故障解决方案、故障归类总结等工作,以积累自己的经验。比如:有时在做配置时,由于种种原因,当时没有对网络产生影响或者没有发现,但也许几天以后会问题逐渐显现出来。如果你有日志记录,就可以联想到是否是前几天的配置有错误。由于很多人都会忽略这一点,以为是在其他方面出现问题,当走了许多弯路之后,才找到问题所在。

   交换机故障的一般排障步骤

    交换机的故障多种多样,不同的故障有不同的表现形式。故障分析时要通过各种现象,灵活运用排除方法(如排除法、对比法、替换法),找出故障所在,并及时解除。

    (1)排除法

    当我们面对故障现象并分析问题时,无意中就已经学会使用排除法来确定发生故障的方向了。这种方法是指依据所观察到的故障现象,尽可能全面的列举出所有可能发生的故障,然后逐个分析、排除。在排除时要遵循由简到繁的原则,提高效率。使用这种方法可以应对各种各样的故障,但维护人员需要有较强的逻辑性思维,对交换机知识有全面深入的了解。

    (2)对比法

    所谓对比法,就是利用现有的、相同型号的且能够正常运行的交换机作为参考对象,和故障交换机之间进行对比,从而找出故障点。这种方法简单有效,尤其是系统配置上的故障,只要简单的对比一下就能找出配置的不同点,但是有时要找一台型号相同、配置相同的交换机也不是件易事。

    (3)替换法

    这是我们最常用的方法,也是在维修电脑中使用率较高的方法。替换法是指使用正常的交换机部件来替换可能有故障的部件,从而找出故障点的方法。它主要用于硬件故障的诊断,但需要注意的是替换的部件必须是相同品牌、相同型号的同类交换机所有。

    为了使排障工作有章可循,我们可以在故障分析时,按照以下的原则来分析。

    (1)由远到近

    由于交换机的一般故障(如:端口故障)都是通过所连接计算机而发现的,所以经常从客户端开始检查。我们可以沿着客户端计算机——端接模块——水平线缆——跳线——交换机这样一条路线,逐个检查,先排除远端故障的可能。

    (2)由外而内

    如果交换机存在故障,我们可以先从外部的各种指示灯上辨别,然后根据故障指示,再来检查内部的相应的部件是否存在问题。比如:POWER LED为绿灯表示电源供应正常,熄灭表示没有电源供应;LINK LEDs为黄色表示现在该连接工作在10Mbps,绿色表示为100Mbps,熄灭表示没有连接,闪烁表示端口被管理员手动关闭;RDP LED表示冗余电源;MGMT LED表示管理模块。无论能否从外面得出故障所在,都必须登录交换机以确定具体的故障所在,并进行相应的排障措施。

    (3)由软到硬

    谁都不想动不动就拿螺丝刀去先拆了它再说,所以在检查时,总是先从系统配置或系统软件上着手进行排查。如果软件上不能解决问题,那就是硬件有问题了。比如:某端口不好用,那我们可以先检查用户所连接的端口是否不在相应的VLAN中,或者该端口是否被其他的管理员关闭,或者配置上的其他原因。如果排除了系统和配置上的各种可能,那就可以怀疑到真正的问题所在——硬件故障上。

    (4)先易后难

    在遇到故障分析所得的可能性较多、较杂时,必须先从通过简单操作或配置来着手排除。这样可以加快故障排除的速度,提高效率。

    由于交换机故障现象多种多样,没有固定的排障步骤,而有的故障往往具有明确的方向性,一眼就能识别得出。所以只能根据具体情况具体分析,我们将在后面的故障处理中具体说明故障分析和处理的方法。

   交换机一般故障排除案例

    故障一:端口模式不匹配

    故障现象:这是一个刚刚建起的小型局域网,一台服务器,10台工作站,使用一台交换机作为接入设备,连接线路为六类线。主要故障表现为网内计算机的传输速度较慢,从任意一台工作站到服务器上复制一个25M的文件,竟然需要6分钟的时间。即使是相邻的两个工作站,也是这样慢。

    分析这种故障,可以列举出如下几种可能:

    黑客攻击或蠕虫病毒;

    线路故障;

    交换机超载;

    网络适配器故障。

    我们按照这几种可能来逐个排除。

    首先,选择任意几台工作站,检查它的网络配置,正确无误。能够PING通服务器,响应时间均小于1ms,属于正常范围,即连通性没有问题。在其中一台计算机上安装了WINDUMP来抓取数据包,结果没有发现什么异常现象。这就排除了黑客攻击和蠕虫病毒的可能。怀疑最大的就是六类线链路,因为目前六类线的布线通过率不太高。

    怎样检测六类线是否有问题呢?很简单,使用一根超五类线来代替之,即可。因为工作站、服务器、交换机都是超五类端口的设备。如果使用超五类线来连接其中两台计算机,能够快速连通的话,则说明六类线确实存在问题。可是测试的结果,却还是连接速度很慢!六类线存在故障的可能性比较小了。

    如果由于某些原因导致交换机出现超载情况,也有可能出现访问速度慢的情况。要排除这种情况可以直接使用重启交换机的方法。但是在这里,没有作用。

    再次检查几个抽查的计算机的网卡状态,发现这几台计算机的网卡都处于半双工状态。并且删除了其他用不着的网络协议(IPX)。故障还是存在。

    由于连接网内所有设备的共同使用的设备就是那台交换机,会不会是交换机的问题呢?从交换机面板上看不出什么故障现象。幸好该交换机提供了很方便的WEB管理方式,登录后,查看各个端口的差错状态均没有问题。忽然发现交换机的每个端口都是强制设为了全双工状态。由于一般情况下交换机的默认配置是半双工/全双工自适应状态,所以一看到这个全双工状态就比较敏感。极有可能是端口模式不匹配的问题导致网速变慢,因为网卡和它所连交换机的端口都必须是相同的工作模式,而刚才看见计算机的网卡是半双工方式。当交换机的端口是自适应状态的时候,它会自动改为和计算机相同的工作模式。如果计算机的网卡也是自适应的状态,那么它也会和交换机进行自动协商,以便使用相同的工作模式。我迫不及待的将交换机的每个端口都改为自适应状态,结果故障解除。

    后来了解到,原来管理员前几天在看交换机说明书的时候,知道了全双工状态下端口的吞吐量是半双工的两倍,心想这岂不更好,能够将网速提高一倍,所以就把交换机的端口都强制为全双工了。但他却不知道他的几台工作站和服务器都是半双工状态。

    虽然说,在交换机上,端口速度可以设置为自动适应(也叫自动协商,Auto-Negotiation),可在某些情况下也会导致网络运行不稳定。比如:某以太网交换机是10M/100M自适应端口,如果交换机端口和所连接的主机网卡都设置成自动协商,它们自己会自动协商速度(10Mbps还是100Mbps)及工作模式(全双工还是半双工)。交换机会按照一定的顺序(100M/全双工——100M/半双工——10M/全双工——10M/半双工)来适应网卡的最快速度及工作模式。

    但是,当交换机设置成自动协商模式,而网卡是100M/全双工模式(不是自动协商)时,从交换机上显示的端口是10M/半双工。原因是,在设定工作模式下,网卡不提供工作模式给交换机,而交换机不知道工作站网卡的模式,就缺省地设为半双工模式。这样一来,就导致了网络的不稳定性。

    故障二:自适应故障

    某公司升级局域网,主要是将接入设备集线器换为百兆交换机。奇怪的是,更换了交换机后,数据的传输速率却降了下来。比如:原来使用集线器时,任意两台计算机之间传输100M的文件,需要大约20秒的时间。而换了新的交换机的时候,同样大小的文件,却需要34秒左右的时间。真是奇怪!

    针对这次故障现象,可以快速的定位故障的对象——交换机。因为在网络升级前后的区别就是把集线器改为交换机,其他的任何计算机、任何设备、任何配置都没有改动过。这种故障一般都是软件上的原因所引起的,所以前面的面板是没有任何故障显示的。只有登录交换机管理界面后,才有可能揭晓。

    前面曾经有过因端口模式和计算机网卡工作模式不匹配而导致网速变慢的经验,故登录后,便首先检查端口的状态。结果每个端口均显示为自适应状态,这是默认设置。再确认一下各个工作站和服务器,都是半双工状态,因为集线器不支持全双工模式。应该没有此类配置问题。

    在检测端口的过程中,发现交换机的计数器出现了过多的帧检查错误。在几次清除计数器后,还都出现类似的问题。是什么造成这些错误呢?线路绝对没有问题,难道是交换机本身有错误?由于交换机是刚买的,供应商还是很爽快的答应换了一台相同型号的交换机,结果还是如此。完了,两台新设备同时发生故障的可能性太小了。现在怎么办呢?

    只有回到交换机上,比较它的默认设置与其他品牌的交换机有没有不一样的地方。结果还是没有发现可疑之处。再看看端口模式设置,是设为自适应,应该没有问题,因为交换机和网卡会自动协商使用相同的工作模式来通信的。我尝试着把端口模式由自适应改为半双工,出乎意料的是,故障竟然消失了,网络速度恢复正常。

    通过这次经历,我们发现由于系统原因(可能是自动协商算法不一样或其他不明原因),交换机与客户机网卡(NIC)之间的自动协商功能重新协商反复在100Mbps全双工与10Mbps全双工之间切换的数据速率,无法稳定的按照某一模式传输,导致处理数据速度下降。

    估计这种故障也不是太常见的,毕竟自适应标准已经制定很多年了。交换机的自适应功能在大多数情况下会发挥自如。不过,如果你发现有什么不妥,便可以检查一下是否是这方面的问题。

    从上面的例子可以看出:我们在设置交换机参数时,一定要参考服务器和工作站上的网卡参数,将交换机端口及相应的主机网卡设置成相应的速度和工作模式匹配,或都设置成自动协商模式,尽量能使各个设备匹配工作。

  交换机典型故障排除案例

    故障一:端口故障

    局域网内的所有服务器和客户端都是用交换机接入的。假如其中一台计算机(WIN2000)不能上网了。遇到此种故障,我们无法确定到底故障发生在哪里,因为客户端计算机配置、网卡、水晶头、水平线、模块、跳线、交换机这条线路上的任何一个地点都有可能发生故障。所以我们采用“由远而进”的原则,首先排除客户端的故障可能。

    检查计算机的网卡,LINK指示灯亮但不闪烁,表示有物理链路连接但是没有数据传输,那就有可能是计算机的配置有错误。接下来,检查计算机上的IP设置是否正确;在DOS命令提示符下输入“IPCONFIG”查看IP是否有效,结果显示:

   

 c:\>ipconfig
Windows IP Configuration
Ethernet adapter 本地连接:
Connection-specific DNS Suffix  . :
IP Address. . . . . . . . . . . . : 192.168.0.100
Subnet Mask . . . . . . . . . . . : 255.255.255.0
Default Gateway . . . . . . . . . : 192.168.0.101

    从上面的信息得知本机的IP地址是“192.168.0.100”,网关是“192.168.0.101”,掩码是“255.255.255.0”。再PING自己的IP地址:

   

 c:\>ping 192.168.0.100
Pinging 192.168.0.100 with 32 bytes of data:
Reply from 192.168.0.100: bytes=32 time<1ms TTL=128
Reply from 192.168.0.100: bytes=32 time<1ms TTL=128
……………..
Ping statistics for 192.168.0.100:
Packets: Sent = 4, Received = 4, Lost = 0 (0% loss),
Approximate round trip times in milli-seconds:
Minimum = 0ms, Maximum = 0ms, Average = 0ms

    能够得到正确的响应,说明计算机的网络配置和网卡均没有太大问题。再PING网关:

   

 c:\>ping 192.168.0.101
Pinging 192.168.0.101 with 32 bytes of data:
Request timed out.
Request timed out.
……..
Ping statistics for 192.168.0.101:
Packets: Sent = 4, Received = 0, Lost = 4 (100% loss),

    显然PING得不到响应,说明从计算机跳线直至交换机端口这段线路上存在问题。由于网卡的LINK灯亮着,也可以说明这条线路没有问题。依此分析,出现问题的最大可能是交换机的端口而不是线路本身。但为了确保这条线路没有问题,还是仔细检查了跳线、水平线路和模块,结果也是预料之中的——没有问题!

    刚才我们采用了“由远而进”的原则,排除了远端故障的可能性。接下来采用“由外而内”的方法来验证是否是端口故障。回到机房,观察交换机的端口指示灯。该端口的LINK指示灯是绿色,这表明有连接,而且没有被管理员手动禁止(因为手动禁止后,LINK指示灯是闪烁的)。只有采用“替换法”,把该端口的跳线换了一个端口。此时,该计算机能够正确的PING通网关,经过一段时间后,没有出现连接断开的情况。一旦跳线插到原来的端口上,计算机便不能通信,即使重启交换机后也不行。至此,我们找到了故障所在——端口。

    找到问题后,如何排除呢?将跳线仍然插到故障端口上,通过交换机提供的WEB方式登录到交换机上,查看该端口的状态,没有发现冲突,碎片等故障现象。现在我们所能够做的就是清洗端口。接着关闭电源,使用酒精棉球(酒精纯度要高)清洗之,等端口上的酒精挥发后,再打开交换机。此时发现远端的计算机能够PING通网关了,至此故障消除。(如果用酒精清洗没有作用,那只有请产品供应商来协助更换端口了)

    故障二:上联模块故障

    故障现象:交换机内所有交换机用户都能相互之间访问但是不能连接上联网络。

    通过故障现象的分析,我们可以得知这种情况造成的可能原因有:

    网关路由器被关闭;

    网关地址已改换其他地址;

    网内计算机的网关地址配置错误;

    交换机的上联扩展光缆故障;

    交换机的上联扩展模块端口被关闭;

    交换机的上联扩展模块故障或其端口故障。

    我们采用排除法,来逐个排除。

    首先检查上联路由器,没有关机。登录路由器查看地址配置,没有发现问题。从其他网络PING该网段的网关地址,能够PING通。这就排除了第一、第二个可能。

    抽查网内的计算机看网关地址的配置,均没有问题。其实这种错误的可能性比较小。因为不大可能所有的计算机都会出现配置错误。

    检查从交换机上连接过来的光缆,不能看到光纤传来的亮光。因为连接交换机和路由器的是多模光纤,传输的是可见光。如果能够看到光纤中传来的光线,那就说明光纤是通的,而且光纤的另外一端的连接也没有问题。而现在,则可能是这根垂直光纤或者是端口有问题了。可是排除光缆故障,不可能象双绞线一样使用另外一根光纤来测试,但却可以使用光纤中的其他对来测试。因为一般的光纤是四芯以上的,如果正在使用的一对发生故障,便可以使用其他的备用光纤对通信。还有一种检查方法,就是把路由器端的光纤放回到光纤端口中,回到交换机的机房查看从路由器端发送来的光纤信号。结果是令人鼓舞的,能够看到光纤中的亮光。这只能说明其中一根光纤是通的。再把路由器端的两根光纤交换,在交换机端还是能够看到另外一根光纤中的亮光。这表明两根光纤都是通的,排除了第四种可能。

    那问题可能出现在扩展模块上了,先登录交换机看是否是被管理员无意中关闭了。但检查的结果是没有人为因素。现在只可能是端口或者模块故障了。端口更换是无法进行的,因为端口是焊接在模块上的,要换端口,就等于换模块,所以索性更换一块模块试试。从相同品牌相同型号的交换机上拆下一块扩展模块,换到故障交换机上,线路连通了,问题解决了。不过,具体是模块本身的故障,还是模块上端口的故障,我们就不得而知了。

    这些故障大多是硬件上的故障,在排障过程中,主要采用网络故障分析的步骤,从远到近,由外而内,由软到硬,由易到难,逐步分析。

   交换机特殊故障的解决方法

    故障一:环路问题

    这个故障发生在一个学生计算机机房,共有65台计算机(一台教师机、64台学生机)。所有计算机使用三台堆叠的某品牌的国产交换机接入网络。某天上课时教师发现,所有的计算机(都使用WINDOWS98操作系统)都不能上网,而且计算机也变得很慢,连鼠标动起来都很慢。据了解,前一天上最后一课时,还都正常的,而第二天上午上第一节计算机课时,就不行了。在昨天最后一课到第二天最早一课这段时间内没有人用过机房,除了清洁工。

    从对了解到的情况分析,计算机设置或者中毒的可能性不大。因为除教师机外,所有的学生机都安装了硬盘保护卡,重启计算机后都会自动还原。唯一会中毒的,就是教师机了。经过教师机的杀毒软件升级并查毒后,也没有发现病毒。而且把计算机的网线拔掉后,系统就运行正常了。网线一插上,系统又变慢。即使交换机重启后,也没有用。

    现在的重点怀疑对象就是所有计算机共同使用的交换机了。会不会是交换机的故障呢?来到设备间,观察三台交换机的状态,所有端口的ACT(ACTIVE)指示灯亮着,但不闪烁。从产品说明书上得知,这种状态说明有可能是网络中存在环路,如果要避免环路,启用STP协议即可。仅仅这样观察,也看不出哪里有什么毛病,索性登录上去看个究竟。把笔记本(使用WINDOWSXP操作系统)的网卡用一根直连线接上主控交换机(COMMANDER)的其中一个端口,使用常用的WEB管理方式登录交换机,但是出现连接超时现象,没有出现系统变慢的情况。这个现象应该和机房的学生机一样,只不过学生机是WIN98,对此故障的反应有所区别。而今只有通过厂商提供的CONSOLE电缆建立超级终端了。成功联机后登录交换机,速度也很慢,每发出一个指令,大概需要5-6秒钟才能给出回应。
    就这样,勉勉强强的在交换机上找到了STP选项,结果发现这三台交换机的STP均未启用。如果启用STP后,能够消除故障现象,则说明网络中真是存在网络环路。接着又花了一段时间启用了交换机的STP功能。故障真的消失了。

    现在问题已经明确,网络中肯定存在环路,从而导致广播风暴或者MAC地址表不稳定等问题,影响网络中数据的正常传输。如果启用STP,固然能够防止环路的产生,但启用STP后,会消耗交换机的系统资源,一定程度上会降低效率。一般情况下,出于要保证网络链路的稳定性,出了正在使用的链路外,设置了另外的连接以作备份。这种情况需要启用STP防止环路的出现。而在这个单独的机房,没有必要设置备份链路。所以最好要找到导致环路的原因,取消STP功能。那怎么找出环路所在呢?

    把机房的所有计算机关闭,且关闭电源。这样计算机网卡上就没有电了,相连接的交换机的端口也就不会亮了。到了设备间后,发现主控交换机上的18端口和21端口同时亮着,这就表明18和21这两个端口被连接并形成回路。赶忙找来施工布线图,经查得知,这两个端口所连接的模块正是教师机桌子下面的其中两个。再回到学生机房,看到教师机的桌子下共有4个模块,教师机只是使用了其中的一个模块,而且又有一根直连线连接着其中的另外两个。本来这根直连线是作为教师机的备份连线使用的,其中一端已经连接在模块上,另一端没有接任何设备。估计是清洁工在打扫卫生时,以为自己碰掉了一根网线,所以故作聪明的将该线的另外一端插进了一个未使用的模块中。就是这一个小小的错误,让我忙活了半天的时间。

    从这个故障排除的过程来看,我们在面对各种故障现象时,如果遇到多种可能,尽量通过仔细分析,排除较小的可能,以最快的速度来定位故障、解决故障。

    故障二:系统默认导致的故障

    某公司为了升级网络设备,将原来的某A品牌接入交换机更换为B品牌的交换机。而升级后却发现除部分使用固定IP地址的计算机能够正常上网外,其他使用DHCP获得地址的计算机均不能成功获得IP地址。原来使用DHCP的计算机如果改为固定IP,则可以上网。而在升级之前,均没有问题。需要说明的是,所有计算机的操作系统都是Windows98。

    在网络升级时遇到的问题,通常是新产品和原先没有升级的设备的兼容性问题。由于这次升级只是更换了交换机,所以我们就可以集中在交换机上进行故障分析。为了排除交换机外部因素的干扰,我们首先检查了DHCP服务器,因为理应通过动态分配而得到地址的计算机却不能正常得到。经过仔细的对DHCP服务器的检查后,没有发现任何故障。

    检查交换机的各项配置、MAC地址表、ARP表,也没有发现异常现象。排障处于停顿状态。无计可施的情况下,拨通了产品供应商的电话。笔者在咨询了产品工程师后得知,交换机的端口开机后,有一个从Bloking(阻断)、Listening(监听)、Learning(学习)到Forwarding(转发)这几个状态的转换过程。也就是说交换机端口并不是一连接上计算机就立即处于转发状态。而错误就可能出现在这里,因为Windows98的计算机在启动时,需要发送数据给DHCP,进行地址租用,此时的交换机端口却是Bloking状态而不能通信,故不能成功分配到IP地址。

    如果要防止此类问题的再次出现,可以有一个解决方法。那就是改变该型交换机的端口设置,使之一加电,就处于转发状态。这个设置只需要在管理窗口中,添加一个相应的命令即可。

    在处理某些特殊问题时,如果你自己没有经验,也要学会向别人学习,积累自己的经验。否则,你会无从下手,浪费时间、人力甚至财力。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章