扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
自从全国报业推行集团化以来,报业集团内部网络的规模随之迅速发展,网内应用也越来越多。就解放日报报业集团而言,目前内部网络中已有各类服务器近150台,集团内分布于市区各地的五栋厂房和办公楼也通过租用电信公司数据通道实现了互联互通,集团内部网络、网间互联和服务器管理的工作量大增。因此,我们亟须寻找适合报业集团网络发展需要的网管软件,以提高网络管理的自动化程度,减轻网管工程师的劳动强度。
解放日报报业集团技术部门专门搭建了一个有代表性的试验网络,明确网管软件要实现两大目标,即“管网络设备到端口,监应用服务器到资源”。我们邀请国内五家网管软件厂商分批把各自网管软件产品在试验网络内进行实际安装和试用,综合评定试用结果,我们最终选择了上海泰信公司的网管软件。该软件在集团内网投入使用半年来,达到了预期目标,应用情况良好。在此,我把实施中的体会与大家分享,期望对全国报业的技术同行有所启发。
一、管网络设备到端口
我们选择网管软件时,确定的目标简单而实用,要能真正实现“管网络设备到端口”,即在发现网络运行不正常时系统能自动报警,网管员接警后通过网管平台快速定位故障点,诊断故障原因,对故障端口实施关闭,在解决端口故障后重新启用端口。
泰信公司网管软件产品中专职管理网络设备的部分是Net Manager软件,我们集团内部网络设备种类多产品杂,对外互联通道多,部署Net Manager网管软件后,我们能在统一的平台下掌控网络全局,了解网络设备运行状况,实现了以下工作目标。
自动发现网络拓朴, 实时分析链路性能
过去了解网络拓扑结构和网络设备运行情况费时费力,往往依赖网管员手工绘制或Web逐个排查,而且很难及时更新。Net Manager则提供了完整的网络拓扑自动发现、网络物理拓扑管理与分区域分层次展示功能。初始配置时,系统能够自动搜索发现网络节点,包括网络设备、服务器、打印机、PC主机、网络服务、业务应用、VLAN等,并将其绘制成图,避免了手工添加设备带来的重复性劳动。对于每条链路,网管员可在物理拓扑图上便捷地查看流量信息,实时准确地掌握每条链路的流量大小。对于每台网络设备,可方便地查看端口流量和利用率以及目前CPU及内存的使用率。依靠数据的统计分析,发现网络性能瓶颈,为优化网络结构,提升网络性能提供有益信息。此外,还可精确分析关键链路的协议分布和用户使用情况,查看网络资源分布,为管理制度的实施提供依据。
管网络交换机到端口
通过对每台设备MIB库信息的采集,收集到各网络设备的路由表信息、VLAN信息、IP地址信息、各个端口的信息等,不仅能查看每台设备的信息,还能从中获取此设备所连接主机或下属设备的具体信息。每台设备都有一个对应面板图,面板上每个端口都能实时地反映设备的真实状态,“绿色”表示链路处于UP,“灰色”说明链路DOWN了。现在我们利用网管软件,遇到网内PC机中ARP欺骗病毒致使全网段机器无法上网时,只需查到攻击机的MAC地址,利用收集的信息,即可一步定位找到关联的网络端口,在设备面板图上对准端口简单地“关闭”就能解决这个曾经使我们备受困扰的问题,这是一个非常简便又实用的功能。
准确探测故障,化被动为主动
随着集团应用系统的增多,IT维护工作量与日俱增,技术部门40%的工作量花费在系统维护上。部署网管软件的作用之一是减轻网管员劳动强度。Net Manager使用告警触发机制,我们根据集团网络状况设定了合适的告警门限参数,一旦有潜在问题出现,系统及时触发告警来通知网管员,以保证业务的流畅运行。为方便获悉告警,系统设计有颜色变化、声音告警、E-Mail以及短信等多种通知方式,不同颜色表示不同的报警级别,让我们一目了然。
二、监应用服务器到资源
Apex网管软件包内另一大管理软件是Apps Manager,安装于网内另一台独立的服务器中。该管理软件可以针对各类型的应用服务器,例如Web应用服务器、各类数据库服务器、邮件服务器、各种服务器操作系统等进行监视。我们集团机房内各类用途的150多台服务器,就是借助Apps Manager管理软件实施统一监视管理的。
服务器操作系统运行状况监视
集团各类服务器分别装有微软Windows 2003 Server,SUN Solaris10和IBM AIX等操作系统。操作系统是一切应用服务的基础,出现问题后,若不能及时发现并恢复,将对报业集团开展正常业务带来很大影响。兼顾不同种类操作系统的Apps Manager管理软件采用不同的采集模式,但对用户来说更关心的是具体能监视到什么程度。我们对于操作系统的监视集中在CPU和内存使用率、磁盘使用率、进程的存活状态以及事件日志的监视。我们根据多年从业经验,为每台服务器设置适合的阀值,当超出阀值时说明有不稳定情况存在,网管软件以三种方式(邮件、手机、声音告警)通知管理员危险的存在,方便管理员第一时间了解状况。以前对于服务器硬盘的容量靠管理员人为注意,经常要去检查一下剩余容量,偶有疏忽就会导致磁盘爆满致使应用服务无法运转,现在有网管软件的帮助可确保这种问题不再发生。
应用服务的运行情况监视
集团使用了ORACLE,MS-SQL等多种数据库作为业务信息的数据管理以及APACHE,weblogic等应用。Apps Manager对我们集团所有业务系统和服务进行全方位的监控和管理,保障应用业务的高效平稳运转。我们重点关注数据库资源的监视内容包括:连接数据库、从数据库收集数据、用图形/图表显示被监视属性的详细信息。系统主动检查数据库发现可能损害数据库性能的潜在问题并通知系统管理员。数据库服务器监视功能具有直接连接到数据库的能力,并且可以在数据库上执行查询,监视各种系统表项的值等。并且当数据库系统属性到达给定的阀值时,可以通过告警通知。我们集团图片系统采用MS-SQL数据库,主要针对内存使用率、缓冲管理器统计、连接统计、缓存明细、锁明细、SQL 统计等进行监视,并且可列出详细的数据库明细以图表的方式显示出来,让管理员对于目前图片数据库的数据文件大小、日志文件大小及使用率、数据库的命中情况及连接数有一个直观的概念,当数据库属性达到设定的阀值时,可方便简明地了解数据库目前的状况,帮助管理员尽快地定位解决问题。
在多年的实践中,笔者体会到,在规划和实施报业集团信息化的过程中,重点是设备的管理和维护,应用服务和网络设备投入使用后,要使其运转良好,以便切实发挥作用。在这一过程中,网管工程师责任重大,要从多方面做好技术服务保障工作,其中网管软件就是技术部门的一个重要工具,是信息化应用的基础性保障。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者