扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源: 2007年10月31日
关键字:Sniffer Pro 网络管理员 网管 网络故障
当一个网络出现故障时,需要由网络管理员查找故障原因并及时修复。但局域网一般都由几十台到几百台计算机,以及多台服务器、交换机、路由器等设备组成,一旦出现故障,管理员需要全面检查这些设备是否正常运行.
当一个网络出现故障时,需要由网络管理员查找故障原因并及时修复。但局域网一般都由几十台到几百台计算机,以及多台服务器、交换机、路由器等设备组成,一旦出现故障,管理员需要全面检查这些设备是否正常运行、各个端口的连接是否正常,检查故障是否是黑客或木马所为,工作量十分巨大,同时排除故障也非常麻烦。但是有了Sniffer Pro之后,就可以很容易地定位出网络的故障所在。下面是几个Sniffer Pro分析应用实例,整理出来和大家一起分享。
外部主机恶意扫描内网
故障现象
使用Sniffer Pro在代理服务器VLAN监控网络传输状况时,发现有一个IP地址的并发连接数量非常多。由于局域网的IP地址范围为211.82.216.0~211.82.223.0,所以显然该IP地址是来自外网的IP地址。
故障分析
由于网络采用Microsoft ISA群集作为代理服务器,实现Internet连接共享,因此,没有更多的对抗恶意扫描的措施,这时最好采用防火墙来保证整个网络的安全。
故障解决
如果不采用布置防火墙的方式,而是修改核心交换机上创建的、应用于代理服务器VLAN的IP访问列表的方式,则需要在该IP访问列表中的“permit ip any any”之前添加相应的规则,从而禁止任何计算机访问该主机,并禁止该主机访问任何计算机。
PPLive软件导致网速变慢
故障现象
最近一段时间,局域网内用户反应Internet连接速度变慢。据观察,Internet接入速度在下午4:00左右开始下降,在晚上8:00的上网高峰时,甚至只能使用QQ聊天,而无法打开Web网页。
故障分析
开始使用Sniffer Pro监控代理服务器VLAN的Internet连接情况。
然而,在Internet的接入速度忽然变慢后,再查看传输地图时,发现某些计算机的并发连接数量非常多。
将并发连接数量过多的计算机突出显示时,发现这些计算机竟然同时有几百个连接,如图4所示。
通常情况下,正常的用户连接地图应当如图5所示,只有几个至几十个连接,而且这些连接并不会同时并发访问。
通过查询相关文档中的IP地址分配列表,可知这些计算机只是一些的普通计算机,并没有提供任何网络服务。因此,如此众多的并发连接,显然是安装并使用了某个P2P软件,或者是遭遇了网络攻击。
根据故障计算机的IP地址找到这些计算机后,在检查这些计算机时,果然发现安装有PPLive软件正在在线使用,且修改了应用程序的默认端口。然而,应用于交换机的IP访问列表没有能够阻止这些连接。
故障解决
鉴于PPLive软件可以由用户任意指定端口号的情况,IP访问列表中只限制默认端口的方式已不再有效。因此,必须改变IP访问列表的设计策略。于是,我们将只拒绝特定端口的方式,改变为只允许特定端口的方式,从而基本杜绝了PPLive软件的大量使用。
P2P软件谋杀网络连接共享
故障现象
某局域网内有1200个计算机用户,采用两台ISA Server群集实现Internet连接共享。服务器硬件配置均为Intel Xeon 3.0 CPU、2GB内存、SCSI 72GB硬盘。然而,最近几天Internet接入速度变得非常缓慢,浏览普通网页都要等待很长一段时间,甚至还经常提示超时连接。
故障分析
查看ISA报告后发现,许多用户的上下行流量都很大。仅流量排名前15位的用户,每天的总流量就高达38.22GB,其中,输入流量32.41GB,输出流量5.81GB。而前3位用户的总输入流量为3.05GB,总输出流量为2.85GB。
由于代理服务器只为普通网络客户端提供Internet接入服务,因此,网络流量不应该如此之大,这说明在局域网中极可能有大量用户在使用P2P软件。
使用Sniffer Pro监控代理服务器VLAN时,也发现大量用户的并发连接数量很大,如图6所示。
故障解决
在核心交换机上设置IP访问列表,将其应用于代理服务器群集所在的VLAN,并禁用一些蠕虫病毒的端口和常见P2P软件的端口,IP访问列表内容如表1所示。
开始的一段时间,Internet的访问速度明显地得到了提升。然而,过了一周左右时间后,Internet连接速率又慢慢降了下来。使用Sniffer Pro监测时,又发现了大量的并发连接。原来许多P2P用户修改了默认的TCP端口,因此,原来的IP访问列表已经不起什么作用了,需要重新修改IP访问列表。于是,这次只开放一些常见的和必需的Internet端口,而禁用其他所有端口,修改后的IP访问列表内容如表2所示。
此后,Internet连接就一直保持正常了。
交换机CPU占用率高达99%
故障现象
网络访问和Internet连接速率明显变慢,计算机的反应也较为迟缓。
故障分析
登录到核心交换机Cisco Catalyst 4006,使用“1show processes cpu”命令查看CPU资源,从系统输出的信息可以看到(如图7所示),CPU在5秒、1分钟、5分钟内的占用率高达99%、99%和98%。其中,Cat4k Mgmt LoPri进程的CPU占用率分别为82.63%、82.25%和80.68%。这里,我们先简要说明一下Cat4k Mgmt HiPri和Cat4k Mgmt LoPri两个进程的原理。当某个进程占用CPU时间没有超过规定的CPU分配时间时,Cat4k Mgmt HiPri进程便会接管这个进程; 而当Cat4k平台上某项进程占用CPU超出了应分配的CPU时间时,Cat4k Mgmt LoPri进程会接管这项进程,使其他进程能够得到CPU时间。
从故障的现状可以看出,Cat4k Mgmt LoPri进程的CPU占用率超过了80%。因此基本可以断定是某个进程的CPU占用时间大大超过了应该分配的时间,Cat4k Mgmt LoPri进程试图接管这一进程,从而导致了Cat4k Mgmt LoPri进程的CPU占用率非常高。依据这一思路,只要找到该进程将其关闭,就能够找出CPU占用率过高的原因并解决这个问题。
故障解决
使用Sniffer Pro查看网络通信情况,我们发现许多计算机同时与网络内部的多台计算机通信(如图8所示)。经进一步查看,发现它们使用的端口均为TCP 135端口,由此预测,可能是蠕虫病毒导致了该故障的发生。
于是,设置IP访问列表阻止TCP 135端口及其他常见蠕虫端口,并将其应用于所有VLAN,最后有效地解决了CPU资源占用率高的问题。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
去集群 更超群——大容量网络演进之路
2019 IBM 中国论坛
H3C 2019 Navigate 领航者峰会
助推数据中心网络现代化转型 打造灵活可靠基础架构平台