扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
网络是复杂的,IT危机也是不可避免的。随着企业网络规模的越来越大,其发生突发故障的概率也越来越大。正因如此,网络管理人员也面临越来越严峻的挑战。与其坐以待毙,不如主动出击,掌握危机处理的主动权。下面,笔者结合自身的工作经验谈谈危机发生前我们应采取的相应措施。
1、备份是危机处理的基础
备份的概念应该融入IT人员的血液,俗话说“有备无患”,这也在网络危机处理的前提。备份的策略、备份软件、备份什么,这是备份要明确的三个方面。备份策略不同的企业的有不同的要求,大家进行评估后可以采用完全备份、增量备份、差量备份、文件快照等形式。另外,备份策略必须要指定备份的频率即备份时间,以什么样的时间段来执行备份操作。
备份软件这因人因需要而异,不过有一个原则安全性、可靠性、稳定性是一个重要的指标,在此基础上,好用通用也需要考量。至于备份什么,不同的企业要不同的要求。不过管理人员必须心中有数,应该根据业务实际需要制定好详细的灾备计划,比如备份的时间间隔、备份类型,本地备份还是异地备份等。
对于备份,可以设置计划任务自动备份也可以手动备份。不过,笔者要说的是一定要确保备份可靠性,特别是自动备份。笔者本地某机床厂,每天都有大量的数据需要备份,为此管理人员设置了自动备份,并且运行一直良好。前段时间,该企业的网络经历了一次意外故障。当管理人员,要进行数据恢复的时候发现由于软件错误,近一个礼拜以来的数据没有备份,最近的一次成功备份还是一个礼拜前。为此,全公司人员加班加点用了近10天才恢复了这段时间内的数据,造成了大量的人力、时间的损失,其直接经济损失初步估计在100万以上。当然,企业的CTO也因此辞职,为自己的疏忽付出了代价。这个案例,警示我们一定要保证备份的有效,因此检测是非常必要的。
2、实时监控,防患于未然
作为企业的网络管理员,最尴尬的事情莫过于网络发生了故障(如服务器宕机),老总知道了,但自己却浑然不觉。也许上面的情况比较特别,我们经常遇到的情况是:网络性能越来越差,整个网络处于“亚健康”状态,但作为网络工程师对此并不知晓。要改变这种被动状况,针对网络的实施监控是必不可少的。
网络监控有不同的类别,比如系统监控、磁盘监控、流量监控等等。大家可以使用诸如微软的ISA或者第三方软件,不过对于规模比较大的网络最好搭建比较专业的监控平台实施全方位的监控。特别是在大中型企业中,服务器数量众多,因此,往往要部署服务器监控平台以便让管理人员实时掌控务器的运行状态。这些监控平台具备对所有基于TCP/IP协议的网络服务(Web服务器、FTP服务器、SMTP服务器、POP3服务器、数据库服务器端口、多媒体服务器等)的监测以及对任何服务器的系统性能参数进行监测的能力,并在这些服务或是性能不正常时进行短信或邮件报警。
以笔者任职的这家企业为例,该企业中的服务器60多台,并且这些服务器对于企业的生产、销售等各个环节密切相关。为了有效管理和监控这些服务器部署了某服务器运行状态监控平台上,通过该平台网络管理人员对服务器CPU占用、内存使用、某程序的内存使用(比如MS SQL Server的内存使用)以及磁盘使用等情况了如指掌。另外,该监控平台还开发了手机短信管理服务器功能。通过这一功能,管理员只需要简单回复短信就可以管理服务器的日常服务,比如:重启IIS、重启Apache、重启Oracle数据库等。
另外,通过该监控平台还提供了二次开发平台,可以对其功能进行扩展,例如仅需添加温度传感器和温度采集器通过简单的开发即可实现对机房温度进行监控,并记录实时值供管理员以图表形式随时查询。
当然,部署监控平台对于一般的企业显然是不可能的。其实,对于一些小型企业就那么几台服务器,管理员只要充分利用某些第三方软件即可实施对其实施监控。除了服务器的监控,对于其它网络设备、网络性能的监控也不容忽视。
3、建立预案,危机处理中有章可循
因为网络的复杂性,要从根本上杜绝网络突发故障几乎是不可能的。作为IT管理人员除了做好备份之外,建立危机处理预案是非常必要的。这样不至于在危机发生时手忙脚乱,快速有效地解除危机,将损失降到最低。
笔者负责着本地一家企业的网络,下面结合自身的工作经验谈谈网络危机预案的建立和相关的后续工作。作为网络工程师,对于自己负责的网络要非常清除,首先要预计网络中可能发送的危机事件,并将其一一列举出来,充分考虑到危机后果和所需的费用。然后,进行汇总划分危机级别并根据级别和危机发生的可能性进行排序。然后确立危机处理的程序和实施细则,一旦危机发生就能够有条不紊地投入工作,排除危机。
这样,当各种突发状况发生时,就能够快速采取对策,以及通过什么样的程序进行有效处理,确定什么人员在什么时间做什么事。为此,建议组建网络危机小组并对组员进行故障排除培训,使其能够在危机发生是能看很快进入角色。另外,进行一定的模拟演练也是非常必要的。
4、危机处理,掌握方法有条不紊
当IT危机不幸发生时,采取科学的方法是非常重要的。下面是笔者总结的网络排故的一般步骤和自己的一点经验和大家交流。
(1).要全面收集信息,并分析故障现象。全面了解故障的情况,并详细询问相关细节,可以请故障发生时操作人员描述正常运行时的情况,如果有可能的话,亲自去验证一下所出现的问题。看是否有正常的功能不见了,还是有异常的反应?检查一下在故障发生之前是否对该节点或是网络进行了改动。
(2).定位故障范围。通过第一步全面的收集的信息分析,可以将故障范围缩小到一个网段或节点。基于所作的分析,判断故障是否与一个网段有关,还是局限于一个节点。缩小故障范围是解决的开始。例如当某台计算机发生无法上网的故障时,管理员可以询问其他用户是否也同样出现了这一问题,如果所有的用户都出现这一现象,则说明故障不在用户网络这端,在出口网络设备或其他设备上。
(3).故障隔离。如果故障影响整个网段,那么就通过减少可能的故障源来隔离故障。除两个节点外断开其它所有的节点。如果这两个节点能正常通讯,再增加其它节点。如这两个节点不能通讯,就要对物理层的有关部分,如电缆的接头、电缆本身或与它们相连的Hub和网卡等进行检查。
(4).排除故障。一旦确定了故障源,那么识别故障类型是比较容易的。对于网络硬件设备来说,最方便的措施就是简单地更换,对损坏部分的维修可以以后再进行。有两种办法可以解决软件故障。第一种是,重新安装有问题的软件,删除可能有问题的文件并且确保你拥有全部所需的文件。这也是保证第二种方法得以顺利实施的好办法,即对软件进行重新的设置。如果问题是单一用户的问题,通常最简单的方法是整个删除该用户然后从头开始,或是重复必要的步骤,使该用户重新获得原来有问题的应用。比无目标地进行检查,逻辑有序地执行这些步骤可以更快速地找到问题。
(5).检验故障是否被排除。请操作人员测试一下故障是否依然存在,这可以确保是否整个故障都已被排除。只是简要地请用户按正常方法操作有关网络设备即可,同时请用户快速地执行其它几种正常操作。因为,有时解决一个地方的问题会引出别处的问题;有时问题是解决了,但可能会掩盖其它故障。
总结:面对不可预计的IT危机,网络管理人员只要事前制定充分的应对措施,并且掌握危机处理的科学方法,可以说,IT危机并不可怕。希望,笔者的经验对大家应对IT危机有所帮助。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者