在如今以客户为中心的服务质量的竞争中,传统的基于单个IT元素(网络设备)的网络监控技术已经越来越力不从心,网络监控技术正面临着以“人性业务”为本的技术革命。
秘诀三:多方故障处理机制
在各单位信息中心的
网络环境中,网络设备、
操作系统、数据库等服务都会产生各种各样的事件,系统管理员每天面对多个管理工具、成百上千的事件,负担很重,疲于应付,难以分出事件的轻重缓急,同时也难以从众多分散的事件中找出问题的根源。因此网络运营综合管理系统必须能对IT环境所产生的各种事件进行全方位的综合管理。
当系统发生故障的时候,管理员可以通过定义告警过滤条件和通,订阅自己关心的告警信息。如告警发生时能自动发送
手机短消息、发送E-mail、播放声音或弹出窗口,及时将告警信息通知到相关的管理员。其中声音方式应可以根据声音文件自由定制,当多条告警同时出现时,按照其中最高等级告警的声音通知。如图3所示:
|
图4 事件告警形式 |
故障处理流程:故障告警发生后,管理员可以进行确认告警、指定故障负责人、重定义严重级别、填写故障评注、填写专家意见等操作。
专家知识库:故障管理需要提供故障排除的专家知识库,能够不断积累管理员的实践经验。可以将故障分析信息和相关的解决方案记录在案。当再次处理同样的告警时,系统将自动从知识库里搜寻出历史解决方案和建议,提供给当前的操作人员,从而达到经验共享和快速解决问题的目的,并可将专家知识库进行导入/导出操作。
事件自动触发机制:可以定义事件触发器, 当主控台收到某一条或一组特定事件信息时, 系统自动执行一组动作 (Action) ,这组动作可以是发送一条报警通知,执行一个命令,启动一个进程或一个批处理业等。如监测用户的关键服务,当收到非正常终止的告警信息时,对此服务自动重起,以保障用户的应用不间断运行。利用上述事件触发机制,可以实现系统故障的自动诊断和自动排除。比如,管理员可将日常诊断/排除故障的重复性操作步骤定义为系统脚本,当符合过滤条件的告警发生时自动触发脚本的执行,无需人工干预,不仅降低成本,同时也保障业务的不间断运行。大大提高故障诊断和故障解除的效率。
事件相关性分析:管理系统在充分采集网络环境中各种事件的同时具备智能化的事件相关性分析机制,有效的屏蔽各种衍生事件、干扰事件和误告警。可以按照问题根源、告警次数和告警时区进行相关性分析,配置比较灵活。在合理配置的情况下,可以减少大量的同类告警。