在如今以客户为中心的服务质量的竞争中,传统的基于单个IT元素(网络设备)的网络监控技术已经越来越力不从心,网络监控技术正面临着以“人性业务”为本的技术革命。
在如今以客户为中心的服务质量的竞争中,传统的基于单个IT元素(网络设备)的网络监控技术已经越来越力不从心,网络监控技术正面临着以“人性业务”为本的技术革命。在网络管理员、系统管理员们“四处救火”的情况下,面向业务的系统监控平台,可能就是他们的解困良方。
对IT管理的全新理念:对IT基础架构的管理必须放弃对IT元素的层次划分,而必须作为一个整体统一管理;突破传统IT网管概念,高效集成了传统的网络管理、系统管理、
软件应用管理、职能和业务监控。这里的集成不是传统意义的多个
模块的后期组合,而是将网络、主机系统、应用等,统一作为系统管理对象。
秘诀一:基于业务的系统监控
通过引入SLA规则和业务视图定义,将不同类型的监控器和采集器获得的管理数据进行多角度多层面的综合分析,汇总出企业关心的整体运行状况;众多单体监控器监控到的各种微观管理信息将被汇总,映射为对服务和业务造成的影响和损失;同时为用户提供实用的配置工具,能够从业务管理要求出发,主动制定各种监控和管理的规则和指标,并最终落实到不同的监控器和采集器规则上。
今天的各行各业的业务都严重依赖 IT 基础架构。脱离业务的纯粹的IT环境是不存在的,同样,脱离业务管理的纯粹的IT管理需求也是不在的。企业需要从业务管理要求出发,把IT基础架构作为整体的基础服务体系进行管理。
让我们来看一个示例,讲述如何从业务角度出发,管理您的IT设备:
|
图1 面向业务的系统监控拓扑图 |
如果从传统的IT管理产品出发,管理这个OA系统,您需要分别管理文件服务器、数据库服务器和WEB服务器,但这就出现了一个IT和您的业务脱节的问题,比如,当您的网络管理员发现数据库服务器出现问题时,网络管理员可能只认为数据库有些问题,但此时您的整个OA系统已全部瘫痪了。
如果这个问题,从业务角度出发进行管理,您只需要建立一个OA办公系统的视图,如图2所示:这个视图依赖于实际应用中的文件服务器、数据库服务器和WEB服务器,在设备层连接到某些交换机的端口,应用层包括Dominal,Websphere,Mail等服务,业务层则代表的是OA业务。
网络管理员只要监控这个办公系统视图就可以了,当OA系统中的任意一台服务器出现问题时,这个办公系视图统都会报警,而且您很快就能查找到哪台服务器是网络办公系统问题的根源。通过业务角度的逻辑视图的建立可以明确的业务目标,系统管理员每天可以通过这个视图进行管理,对于不同层面出现的问题会以红色的图标方式显示出来,例如系统层的服务CPU利用率超过设定的阀值,设备层的交换机端口堵塞了,或者应用层的表空间满了等都会及时报警,所有问题就一目了然了。
|
图2 OA业务视图 |
有了业务角度的网管系统逻辑视图,建立了业务与网络之间的合理化联系。能够为网管系统建立了明确的业务目标,并与“用户角色权限”功能相配合使用,能够真正做到:分权限、分设备、分业务进行管理,从保障业务稳定的角度划分目标和分工。甚至业务人员也能够参与网管,比如,业务A的业务人员能够随时从业务A的管理视图中了解到业务健康性和可用性。通过对具体业务的监控,为管理员提供了连接关键IT部件和业务目标的动态方法,使管理员全面了解和预测自己的IT环境,了解IT技术如何影响业务,以及业务如何影IT架构,帮助各单位网络管理中心围绕业务建立工作标准和优化效率。
秘诀二:管网络如管人,多层次的业务展示
CIO关注的是整个系统的运维状况;管理员希望及时发现并解决问题,保障系统的稳定运行;操作员要能以各种形式快速报告发生的异常事件,并找到相关负责人。所以,监控系统需要满足多角度的业务需求。如图4所示。
|
图3:网络管理的多层次的业务展示 |
领导层:主要以直观汇总的形式展现管理结果,包括对大量采集信息分析处理后的报表、图示、趋势曲线等。领导们可以通过这些直观的展示,很快就可以了解整个网络的运行状况及面临的问题。
技术支持层:主要为了整体提高技术人员的运维工作效率而设计。技术人员能够利用这些展现内容快速定位异常事件的问题所在,结合知识库的经验积累,快速决定问题的解决方案。
运行操作层:主要为了一般的值班人员,能够以各种形式快速报警异常事件,以及这些事件相关的技术责任人,并提供各种处理功能。对于一些相对简单的异常事件,运行操作人员可以直接根据知识库的经验提示,尝试解决问题。服务统一受理也被纳入这层展示。
通过多角度的业务展示能够对被监测服务产生的性能数据、事件等管理信息进行统计和分析,提供系统性能分析报表,可以帮助不同角色人员了解系统运行的状况和趋势,发现系统内可能出现问题的地方,制定合理的管理策略,及时做出调整,更好的保障系统的运行质量。
秘诀三:多方故障处理机制
在各单位信息中心的
网络环境中,网络设备、
操作系统、数据库等服务都会产生各种各样的事件,系统管理员每天面对多个管理工具、成百上千的事件,负担很重,疲于应付,难以分出事件的轻重缓急,同时也难以从众多分散的事件中找出问题的根源。因此网络运营综合管理系统必须能对IT环境所产生的各种事件进行全方位的综合管理。
当系统发生故障的时候,管理员可以通过定义告警过滤条件和通,订阅自己关心的告警信息。如告警发生时能自动发送
手机短消息、发送E-mail、播放声音或弹出窗口,及时将告警信息通知到相关的管理员。其中声音方式应可以根据声音文件自由定制,当多条告警同时出现时,按照其中最高等级告警的声音通知。如图3所示:
|
图4 事件告警形式 |
故障处理流程:故障告警发生后,管理员可以进行确认告警、指定故障负责人、重定义严重级别、填写故障评注、填写专家意见等操作。
专家知识库:故障管理需要提供故障排除的专家知识库,能够不断积累管理员的实践经验。可以将故障分析信息和相关的解决方案记录在案。当再次处理同样的告警时,系统将自动从知识库里搜寻出历史解决方案和建议,提供给当前的操作人员,从而达到经验共享和快速解决问题的目的,并可将专家知识库进行导入/导出操作。
事件自动触发机制:可以定义事件触发器, 当主控台收到某一条或一组特定事件信息时, 系统自动执行一组动作 (Action) ,这组动作可以是发送一条报警通知,执行一个命令,启动一个进程或一个批处理业等。如监测用户的关键服务,当收到非正常终止的告警信息时,对此服务自动重起,以保障用户的应用不间断运行。利用上述事件触发机制,可以实现系统故障的自动诊断和自动排除。比如,管理员可将日常诊断/排除故障的重复性操作步骤定义为系统脚本,当符合过滤条件的告警发生时自动触发脚本的执行,无需人工干预,不仅降低成本,同时也保障业务的不间断运行。大大提高故障诊断和故障解除的效率。
事件相关性分析:管理系统在充分采集网络环境中各种事件的同时具备智能化的事件相关性分析机制,有效的屏蔽各种衍生事件、干扰事件和误告警。可以按照问题根源、告警次数和告警时区进行相关性分析,配置比较灵活。在合理配置的情况下,可以减少大量的同类告警。
秘诀四:机房环境管理
通过对环境与动力设备监控可以实现供配电、UPS、空调、温湿度、消防、漏水、新风等设备或参数进行统一监控,监视各种设备的状态及参数,并可诊断设备部件情况,当设备故障或报警发生时及时给出报警信息。环境与动力设备监控如图5所示:
|
图5 机房集中监控系统示意图 |