联想上万台网络设备如何做到一切尽在掌握? 原创

联想集团的IT监控中心与网络团队一起,依靠监控工具和一套最佳实践的帮助,顺利地完成了这一相当富有挑战的工作,进而为企业数字化转型提供了有力支撑。

至顶网网络频道 01月12日 综合消息: 当今世界企业的日常运营越来越离不开IT,这使得IT系统也越来越多,而我们越来越依赖IT的时候,就会对包括网络设备在内的IT底层基础设施的管理带来了巨大挑战。特别是像联想这样的世界500强企业,业务遍及全球160多个国家和地区,在全球拥有5.2万名员工之一,要保证所有网络设备都稳定可靠运行,无疑是一个相当艰巨的任务。而这个任务需要包括IT网络团队与监控团队等团队合作完成。联想集团的IT监控中心与网络团队一起,依靠监控工具和一套最佳实践的帮助,顺利地完成了这一相当富有挑战的工作,进而为企业数字化转型提供了有力支撑。

监控上万台网络和服务器设备

联想集团的监控中心隶属于联想IT管控中心,主要负责IT系统端到端的监控方案设计、部署、运营及优化。监控范围涵盖APM、业务流程监控、应用平台、数据库、中间件、服务器、网络、存储、数据中心设施等,监控超过百个应用系统,所监控服务器、网络设备数量均超过万台,而且监控的设备数量和应用系统还在一直增加中。

这个工作看起来很专业,但其实与每个用户息息相关,比如大家访问一些网页和应用的时候感受怎么样,用多长时间打开这个网页,还有业务流程、业务数据和应用是不是可用等指标,都在其监控范围内。而用户访问一旦要出现故障或者体验不佳,则需要深入网络和服务器层面进行分析。然而,联想的网络规模既庞大又复杂。

据联想集团管控中心监控经理胡永介绍,作为一个全球化的公司,联想在全球办公室已经超过200多个,拥有多个数据中心,每个地区的公网、网络环境都不一样。“这样造成了:在使用一些通过网络交付的应用时,如果出现用户体验不佳或者应用出现问题时,很难定位问题,特别是访问一些网络应用的时候,如果性能不佳,我们很难去分析到底是应用问题还是网络问题,如果是网络问题,到底是当地网络情况还是数据中心的网络问题?”胡永说。

联想上万台网络设备如何做到一切尽在掌握? 

联想集团管控中心监控经理胡永

其他遇到的挑战还包括:已有网络监控方案专注于网络设备,缺少对网络流量的提取和分析,无法主动获得应用在网络上运行的状态与用户的真实体验,比如,过去对网络设备的性能有一些指标可以获得(包括端口是否可用、吞吐量多大等),但缺少网络整体监控,如果网络设备本身出现问题可以了解到,而网络线路出现问题则不容易主动发现,很多时候只能被动等待用户提交工单来告诉运维人员。另外,网络信息广泛而离散,缺乏统一的、定制化的展现与智能化的关联分析。归结这些需求,监控中心感觉到有必要实施NPMD(Network Performance Monitoring and Diagnostics)方案,这对于保证IT系统的性能和最终用户感受,具有非常重要的意义。

实际上,联想的这一需求并不意外。Gartner的研究表明,IT运维管理正在转型,即业务正在不断地驱动着IT运维管理朝着以应用/业务为中心发展,与此同时,应用也变得越来越难于管理。而另一家分析机构Forrester也认为,关键复杂应用如果不具备高性能和高可用性将直接给业务生产力,业务收入和IT效率造成负面影响。

全网运营尽在掌握

从2015年开始监控中心开始着手考察NPMD系统,在已经实现APM、DEM 以及ITIM 监控之后,再补足 NPMD。对于这个系统设立了以下一些关键目标:建立完整的网络流量采集、监控分析平台;实现网络流量及网络性能的分析与可视化;实现网络流量原始数据的隶属数据回溯分析;协助运维团队,加快网络性能故障的分析定位。

“我们的最终目标是建立一个完整的、能够把网络流量搜集起来进行统一的分析、关联,把整体的状态完全可视化展现给大家的一个平台。”胡永表示,而最高目标也是所有IT部门的目标,就是降低运维成本,提高运维质量。

经过全面考察,联想最后选择了Riverbed的NPM方案。谈及选择Riverbed的原因,胡永表示,除了之前和Riverbed有着长期的合作建立起来非常好的合作关系之外,还在于Riverbed的NPM方案技术的先进性以及能很好地满足联想的需求。这包括Riverbed的NPM在Gartner连续四年NPMD的排名中位列领导者象限;第二,因为联想的网络环境非常复杂,有不同类型的应用,而Riverbed也支持多种应用类型的监控;第三,也是联想非常关注的一点,是Riverbed的NPM方案可以支持上百个各类网络性能指标的监控。

“Riverbed的NPM不只是能看到网络设备的情况,还能看到整体网络性能,这是很多网络监控方案所缺失的。”胡永说。

而最后还有一个原因是,联想一直希望有一个统一的展示平台,把所有监控到的信息、收集到的信息进行统一展示,以方便联系其他的团队查看当前网络状态,并利用监控中心提供的信息做进一步优化或诊断,而Riverbed的NPM就能满足这些需求。

2016年,联想开始部署和实施Riverbed的NPM方案,涉及联想在北京、香港、美国和德国伊森共4个数据中心。方案采用分布式部署与集中展现相结合,在这些核心数据中心当中部署了Riverbed的SteelCentral AppResponse设备,通过它把数据流量进行统一收集,进行分析和展示。另外,NPM方案针对联想员工广泛使用的统一通信Microsoft Lync系统进行了优化,增加SteelCentral UCExpert组件,整合了网络流量性能数据与基础设施性能数据,并且从客户体验、网络、应用等多视角监控UC质量,借此对Lync也实现了统一监控。

随着项目的完成,效果也开始显现。给联想监控和运维管理带来的一个明显的好处是通过监控可视化实现了对应用系统状态以及性能数据的统一展示,哪些地区出现了网络问题、性能不好一目了然,而且历史问题也可以追溯。“比如,以前有的用户反馈前一天或者几个小时之前访问应用很慢,但是我们网络团队或者应用团队去解决这个问题的时候,系统已经一切正常,没有办法回溯到当时的状态。而现在这个系统就可以看到之前一些历史的状态,从而针对性的解决问题。”胡永说。

而对于联想集团内部部署的统一通信系统Microsoft Lync,有了Riverbed的NPM之后也给系统运维带来很大的方便。这是因为NPM能实时监控各地域用户(中国区、北美、南美、亚太、欧洲)及网络类型用户(Wlan、VPN),访问总部数据中心的Lync应用时的实时客户体验,其通过语音性能可视化展示,将语音通信按路径进行进一步分析,实现性能问题的精确定位。

“比如,我们可以把某个同事的语音情况拿出来,来看他的语音经过的路线,看其网络上每一跳响应时间是多少,,UC团队可以利用这些可视化数据进行进一步的UC优化和问题诊断。”胡永表示。

回顾联想的NPM项目,胡永总结说,“我们的IT也正处于向数字化转型的过程中,而Riverbed的NPM方案特别好地支持我们做转型,比如它的可视化、问题的快速定位这些功能,都提供了特别好的支持。而接下来,还要把更多的设备都纳入管理,然后逐步优化,满足我们全场景的监控,更好地支持业务。” 

来源:至顶网网络频道

0赞

好文章,需要你的鼓励

2018

01/12

14:00

分享

点赞