科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网网络频道网络管理浅淡网络运维的紧急故障处理及对策

浅淡网络运维的紧急故障处理及对策

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

为了提高广大初入此行的网管读者们的紧急故障处理水平,故策划了本文,将这几年来的经验撰写出来,与读者分享管理思路和控制管理能力的思维。

来源:51CTO 2012年6月26日

关键字: 网络运维

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共3页)

  随着信息化进程的飞速发展,网络已经成为每个现代企业必须的要素之一。相对于网络维护,网络运维更加侧重于保障网络系统的正常运行,运维有运行和维护两层含义。对于一个系统,有时出错我们无法预知,系统越复杂,其难维护难度更大,为了减少损失,我们尽可能地去预防各种错误,对于突发情况,尽可能地去修复。

  紧急故障解决的通用流程

  在本文开始前,笔者先给出紧急故障解决的流程图,见图一。

  

浅淡网络运维的紧急故障处理及对策

  图一

  根据上述流程图,我们可以一目了然明白处理网络运维的紧急故障的处理流程。

  当客户端发生网络中断的故障后,首先判断用户(或终端)到三层网关设备之间通道是否存在问题,从用户(或终端)上ping网关是否能通,用户(或终端)自身是否发生问题。

  二层网络是否正常:如果用户(或终端)ping网关不通,则检查下端二层网络、用户网线、三层网关设备以下网线或光纤是否正常,端口是否UP,是否有CRC error报文统计。检查二层网络中的交换机设备是否能正常学习到用户MAC地址,检查三层网关设备与二层交换设备之间的连通性、二层设备的CPU利用率是否正常,是否有二层环路造成或病毒攻击。首先确保用户(或终端)能正常ping通网关设备。

  三层网络是否正常:可以通过telnet/console口登陆三层设备,如果有问题,通过ping、tracert、show logging、端口统计、CPU利用率统计、链路状态、路由表状态、MPLS标签表状态等对问题进行分析,在业务忙时,不得擅自重启或倒换三层核心路由器等设备。

  如果用户上网或承载业务仍然存在故障,可以查看DNS等外界环境是否正常,承载的业务本身是否发生问题,查看相关告警,然后做出相应的处理。

  其它问题,如果现场不能解决,就通报关键用户并联系厂商解决。

  在本文中,笔者就以网络不通的故障为例,讲解网络运维的紧急故障处理的比较通用的思路和解决方式。

  假设有一天,接到通知报告网络不通了。给人的第一感觉是某个服务出现异常而中断,比如打不开OA页面,或者打不开Google页面。让我们看看,一个合格的运维人员是如何循遵怎样的思路来寻找故障的原因并解决的。

  确定哪些服务中断

  首先要做的就是区分内网服务和外网服务。

  在笔者所在公司中,很多自己开发的、只限于公司员工使用的服务都是内网服务,比如OA、邮箱、ERP等等。而像QQ、微博那样的则属于外网服务了。

  在这样的环境下,内网服务的网络关键节点如下所示:

  终端→接入交换机→联网路由器→核心路由器→核心交换机→服务器

  依赖的基础服务为:内网DNS服务器。

  外网服务的网络关键节点如下所示:

  终端→接入交换机→核心交换机→互联网接入交换机→上网行为管理设备→互联网防火墙→外网服务器

  依赖的基础服务为:内网DNS服务器,公网DNS服务器。

  如果当前访问的服务突然中断,那么首先看看是内网的服务还是外网的服务。然后再在内网和外网分别自选一种服务尝试访问一下。例如ERP突然无法访问了,那就尝试访问一下内网的门户系统和邮件系统,以及外网的一个知名网站。

  以下表格(表二)有助于理解故障寻找的过程和思路:

  

浅淡网络运维的紧急故障处理及对策

  

浅淡网络运维的紧急故障处理及对策

  表二

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章