扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:中国网 来源:中国网 2008年10月14日
关键字: 路由器
这个一个“十万火急”的求助电话,于是,俺放下了其他的工作,开始接手这个企业发生的断网事故。
一、了解事故企业的网络现况
通过咨询,了解这个企业的网络状况表现如下:
该企业现有的架构较简单,没有设置DMZ区,仅仅使用防火墙进行上网访问控制,物理连接和地址分配如上拓扑图。其中内部网将172.15.0.0/16进行子网划分成24个子网,对应不同的厂区部门所在的VLAN。
1、不能通过域名上网,也不能通过已知的外网网站的ip上网,但是可以ping通外网的地址;(注意!此处位为用户的说法)
2、可以登陆到该防火墙进行策略的调整设置;
二、远程分析诊断:初步判断为DNS服务器没有起效
根据用户所描述的现象,初步判断为DNS服务器没有起效,因此让他们看看防火墙设置中的DNS服务器地址是否正确,能否ping通该服务器。回答是防火墙中设置的DNS服务器的地址是当地电信提供的,但是无法ping通到该dns地址。
根据以上ping当地DNS服务器地址不通的结果,以及用户提到可以ping通外网地址,分析为当地的dns服务器服务可能有中断。准备叫他们换其它dns服务器进行尝试,并寻求他们该防火墙的管理员密码以进行更加详细的设置查询和设置,但是他们以公司内部机密等原因不提供,并希望我们到现场进行解决。
没有办法,只有去一趟咯!
三、奔驰现场:实地测试得两种可能
公司--的士--源长途车站--睡觉2小时--目标长途车站--的士--现场
到达现场后,对该企业描述的现象进行测试:
1、 整个企业内部网网络连通正常;
2、 任何网段中允许上网的工作站无法通过域名访问互联网;
3、 任何网段中允许上网的工作站无法通过已知的IP访问互联网网站及其它服务;
4、 任何网段中允许上网的工作站能ping通到防火墙外网口网关(即电信端);
5、 任何网段中允许上网的工作站无法ping通到电信端以外的地址(此处跟用户最
先说的可以ping通外网的ip地址不符合。后经了解,用户当时以为能ping通到电信端就以为是ping通到外网所有的地址,没有进行进一步的测试。)
根据以上的表象,初步认为有两种可能:
1、 电信端出问题,该公司所处的公网网段地址没有发布出去;
2、 本地的防火墙设置有问题。
四、路由跟踪:交换机和防火墙之间进行环路传递
为了进一步进行查询问题出在什么地方,决定进行一次路由跟踪,看是否是电信端的关于该企业的公网网段发布问题。
tracert 61.172.255.19 (允许ping,实在是测试网络设置效果时的必备之暗器)
1 3 ms <1 ms <1 ms 172.15.0.254(本机网关)
2 6 ms 99 ms 102 ms 172.16.0.250(防火墙内网口)
3 6 ms 99 ms 102 ms 172.16.0.254(交换机联防火墙端口)
4 6 ms 99 ms 102 ms 172.16.0.250(防火墙内网口)
5 6 ms 99 ms 102 ms 172.16.0.254(交换机联防火墙端口)
6 6 ms 99 ms 102 ms 172.16.0.250(防火墙内网口)
7 6 ms 99 ms 102 ms 172.16.0.254(交换机联防火墙端口)
8 6 ms 99 ms 102 ms 172.16.0.250
9 6 ms 99 ms 102 ms 172.16.0.254
10 6 ms 99 ms 102 ms 172.16.0.250
11 6 ms 99 ms 102 ms 172.16.0.254
12 6 ms 99 ms 102 ms 172.16.0.250
13 6 ms 99 ms 102 ms 172.16.0.254
14 6 ms 99 ms 102 ms 172.16.0.250
15 6 ms 99 ms 102 ms 172.16.0.254
16 6 ms 99 ms 102 ms 172.16.0.250
。。。。。。(陷入循环状态直至30跳中止)
五、分析:如何造成了路由环路?
从以上结果,我们可以看是防火墙的对目的为61.172.255.19的数据包没有正确的路由,数据在交换机和防火墙之间进行环路传递。
确定是防火墙的路由有问题,登陆到该防火墙,查询路由状态:
Yty-> get route
untrust-vr (0 entries)
--------------------------------------------------------------------------------
C - Connected, S - Static, A - Auto-Exported, I - Imported, R – RIP trust-vr (4 entries)
--------------------------------------------------------------------------------
ID IP-Prefix Interface Gateway P Pref Mtr Vsys
--------------------------------------------------------------------------------
* 5 0.0.0.0/0 eth1 172.16.0.254 S 20 1 Root
* 3 0.0.0.0/0 eth3 216.X.X.241 S 20 1 Root
* 1 172.16.0.0/24 eth1 0.0.0.0 C 0 0 Root
* 2 216.X.X.240/28 eth3 0.0.0.0 C 0 0 Root
从上表中,我们可以看到除了有两条直联路由外,配置了两条默认路由,到达未知IP可通过E1或E3到达,而且访问回来的路由没有,看来问题应当出在这个地方了。
让我们来假设一下数据报的流向:
1、 访问目标为路由已知的地址
采用此路由表,我们在内网中能访问到的最远的地址为该企业专线在电信端的地址,即216.X.X.241/28。其流向为工作站―――工作站网关(vlan地址)―――所在vlan网关(交换机同防火墙直联端口地址172.16.0.254)―――防火墙内网口地址(172.16.0.250),防火墙通过路由表查询,发现到达216.X.X.241的地址为自己的直联路由,将该数据报交给E3,这样我们访问的数据报能到达该地址。
2、 访问目标为路由未知的地址
在访问目标为路由未知的地址时,数据报到达E1后,E1发现有两条默认路由,因此将数据重新转发到交换机(为什么不选用另一默认路由未知?难道是针对E1口而言这条默认路由的优先级高一些?寻求答案!),交换机根据自己的路由表又发到防火墙,而防火墙根据路由表又发回。。。。。。,最终导致路由环路。
后经了解,负责防火墙的管理人员为了让返回的数据包到达目的,将原有的路由表进行勒修改,增加了这条造成环路的路由。
原路由设置为:
set route 0.0.0.0/0 interface ethernet3 gateway 216.x.x.241
set route 172.15.13.0/24 interface ethernet1 gateway 172.16.101.254
set route 172.15.3.0/24 interface ethernet1 gateway 172.16.101.254
(原来只允许13和3两个VLAN访问互联网)
错误的路由设置为:
set route 0.0.0.0/0 interface ethernet3 gateway 216.x.x.241
set route 0.0.0.0/0 interface ethernet1 gateway 172.16.101.254
六、故障处理:按照网络连接的顺序进行正向、反向的验证、分析
将路由 0.0.0.0/0 eth1 172.16.0.254 S 20 1 Root删除;
重新添加新的路由条目:
* 4 100.0.0.0/8 eth1 172.16.0.254 S 20 1 Root
(回应包路由,到达100.0.0.0网段的数据报将交给Eeh1处理,下一跳的地址为交换机到防火墙的级联口)
* 5 172.15.0.0/16 eth1 172.16.0.254 S 20 1 Root
(回应包路由,到达172.15.0.0/16的任一网段的数据将转发到eth1,下一跳地址为交换机端口地址。)
set route 0.0.0.0/0 interface ethernet3 gateway 216.x.x.241
set route 100.100.10.0/8 interface ethernet1 gateway 172.16.101.254
set route 172.15.0.0/16 interface ethernet1 gateway 172.16.101.254
查询路由
yty-> get route
untrust-vr (0 entries)
--------------------------------------------------------------------------------
C - Connected, S - Static, A - Auto-Exported, I - Imported, R - RIP
trust-vr (5 entries)
ID IP-Prefix Interface Gateway P Pref Mtr Vsys
--------------------------------------------------------------------------------
* 3 0.0.0.0/0 eth3 216.X.X.241 S 20 1 Root
* 1 172.16.0.0/24 eth1 0.0.0.0 C 0 0 Root
* 2 216.X.X.240/28 eth3 0.0.0.0 C 0 0 Root
* 4 100.0.0.0/8 eth1 172.16.0.254 S 20 1 Root
* 5 172.15.0.0/16 eth1 172.16.0.254 S 20 1 Root
结果测试
Tracing route to www.netexpert.cn [61.172.255.19]
over a maximum of 30 hops:
1 3 ms <1 ms <1 ms 172.15.0.254 (本机网关)
2 6 ms 99 ms 102 ms 172.16.0.250 (防火墙内网口)
3 257 ms 300 ms 317 ms 216.X.X.241 (防火墙外网口网关,电信)
4 298 ms 141 ms 128 ms 221.232.254.1
5 188 ms 265 ms 387 ms 202.97.37.149
6 270 ms 130 ms 79 ms 202.97.35.77
7 490 ms 372 ms 495 ms 61.152.86.13
8 102 ms 91 ms 87 ms 61.152.87.134
9 41 ms 46 ms 95 ms 61.152.83.38
10 89 ms 252 ms 81 ms 61.152.83.162
11 304 ms 333 ms 439 ms 218.78.213.102
12 448 ms 463 ms 173 ms 61.172.255.19
至此问题解决,将工作站划分到不同vlan上网都正常。
总结
对故障的排除并不一定需要专业的网络分析软件,很多系统自带的工具能很方便的反映问题所在,定义问题点,此次能找到问题点就是因为使用tracert进行路由跟踪,确定了故障的原因是环路路由造成的;
网络出现故障时一定要对网络的架构有所了解,根据问题表现按照网络连接的顺序进行正向、反向的验证、分析,找出故障所在。
对于问题出在三层交换、网关位置时,问题一般是数据报路由的问题,因此出现故障首先检查路由表,这样会省很多事情;
对于故障现象应当进行验证操作,以免出现实际和描述不一致的地方,影响故障诊断。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者