至顶网网络频道 01月12日 综合消息: 当今世界企业的日常运营越来越离不开IT,这使得IT系统也越来越多,而我们越来越依赖IT的时候,就会对包括网络设备在内的IT底层基础设施的管理带来了巨大挑战。特别是像联想这样的世界500强企业,业务遍及全球160多个国家和地区,在全球拥有5.2万名员工之一,要保证所有网络设备都稳定可靠运行,无疑是一个相当艰巨的任务。而这个任务需要包括IT网络团队与监控团队等团队合作完成。联想集团的IT监控中心与网络团队一起,依靠监控工具和一套最佳实践的帮助,顺利地完成了这一相当富有挑战的工作,进而为企业数字化转型提供了有力支撑。
联想集团的监控中心隶属于联想IT管控中心,主要负责IT系统端到端的监控方案设计、部署、运营及优化。监控范围涵盖APM、业务流程监控、应用平台、数据库、中间件、服务器、网络、存储、数据中心设施等,监控超过百个应用系统,所监控服务器、网络设备数量均超过万台,而且监控的设备数量和应用系统还在一直增加中。
这个工作看起来很专业,但其实与每个用户息息相关,比如大家访问一些网页和应用的时候感受怎么样,用多长时间打开这个网页,还有业务流程、业务数据和应用是不是可用等指标,都在其监控范围内。而用户访问一旦要出现故障或者体验不佳,则需要深入网络和服务器层面进行分析。然而,联想的网络规模既庞大又复杂。
据联想集团管控中心监控经理胡永介绍,作为一个全球化的公司,联想在全球办公室已经超过200多个,拥有多个数据中心,每个地区的公网、网络环境都不一样。“这样造成了:在使用一些通过网络交付的应用时,如果出现用户体验不佳或者应用出现问题时,很难定位问题,特别是访问一些网络应用的时候,如果性能不佳,我们很难去分析到底是应用问题还是网络问题,如果是网络问题,到底是当地网络情况还是数据中心的网络问题?”胡永说。
其他遇到的挑战还包括:已有网络监控方案专注于网络设备,缺少对网络流量的提取和分析,无法主动获得应用在网络上运行的状态与用户的真实体验,比如,过去对网络设备的性能有一些指标可以获得(包括端口是否可用、吞吐量多大等),但缺少网络整体监控,如果网络设备本身出现问题可以了解到,而网络线路出现问题则不容易主动发现,很多时候只能被动等待用户提交工单来告诉运维人员。另外,网络信息广泛而离散,缺乏统一的、定制化的展现与智能化的关联分析。归结这些需求,监控中心感觉到有必要实施NPMD(Network Performance Monitoring and Diagnostics)方案,这对于保证IT系统的性能和最终用户感受,具有非常重要的意义。
实际上,联想的这一需求并不意外。Gartner的研究表明,IT运维管理正在转型,即业务正在不断地驱动着IT运维管理朝着以应用/业务为中心发展,与此同时,应用也变得越来越难于管理。而另一家分析机构Forrester也认为,关键复杂应用如果不具备高性能和高可用性将直接给业务生产力,业务收入和IT效率造成负面影响。
从2015年开始监控中心开始着手考察NPMD系统,在已经实现APM、DEM 以及ITIM 监控之后,再补足 NPMD。对于这个系统设立了以下一些关键目标:建立完整的网络流量采集、监控分析平台;实现网络流量及网络性能的分析与可视化;实现网络流量原始数据的隶属数据回溯分析;协助运维团队,加快网络性能故障的分析定位。
“我们的最终目标是建立一个完整的、能够把网络流量搜集起来进行统一的分析、关联,把整体的状态完全可视化展现给大家的一个平台。”胡永表示,而最高目标也是所有IT部门的目标,就是降低运维成本,提高运维质量。
经过全面考察,联想最后选择了Riverbed的NPM方案。谈及选择Riverbed的原因,胡永表示,除了之前和Riverbed有着长期的合作建立起来非常好的合作关系之外,还在于Riverbed的NPM方案技术的先进性以及能很好地满足联想的需求。这包括Riverbed的NPM在Gartner连续四年NPMD的排名中位列领导者象限;第二,因为联想的网络环境非常复杂,有不同类型的应用,而Riverbed也支持多种应用类型的监控;第三,也是联想非常关注的一点,是Riverbed的NPM方案可以支持上百个各类网络性能指标的监控。
“Riverbed的NPM不只是能看到网络设备的情况,还能看到整体网络性能,这是很多网络监控方案所缺失的。”胡永说。
而最后还有一个原因是,联想一直希望有一个统一的展示平台,把所有监控到的信息、收集到的信息进行统一展示,以方便联系其他的团队查看当前网络状态,并利用监控中心提供的信息做进一步优化或诊断,而Riverbed的NPM就能满足这些需求。
2016年,联想开始部署和实施Riverbed的NPM方案,涉及联想在北京、香港、美国和德国伊森共4个数据中心。方案采用分布式部署与集中展现相结合,在这些核心数据中心当中部署了Riverbed的SteelCentral AppResponse设备,通过它把数据流量进行统一收集,进行分析和展示。另外,NPM方案针对联想员工广泛使用的统一通信Microsoft Lync系统进行了优化,增加SteelCentral UCExpert组件,整合了网络流量性能数据与基础设施性能数据,并且从客户体验、网络、应用等多视角监控UC质量,借此对Lync也实现了统一监控。
随着项目的完成,效果也开始显现。给联想监控和运维管理带来的一个明显的好处是通过监控可视化实现了对应用系统状态以及性能数据的统一展示,哪些地区出现了网络问题、性能不好一目了然,而且历史问题也可以追溯。“比如,以前有的用户反馈前一天或者几个小时之前访问应用很慢,但是我们网络团队或者应用团队去解决这个问题的时候,系统已经一切正常,没有办法回溯到当时的状态。而现在这个系统就可以看到之前一些历史的状态,从而针对性的解决问题。”胡永说。
而对于联想集团内部部署的统一通信系统Microsoft Lync,有了Riverbed的NPM之后也给系统运维带来很大的方便。这是因为NPM能实时监控各地域用户(中国区、北美、南美、亚太、欧洲)及网络类型用户(Wlan、VPN),访问总部数据中心的Lync应用时的实时客户体验,其通过语音性能可视化展示,将语音通信按路径进行进一步分析,实现性能问题的精确定位。
“比如,我们可以把某个同事的语音情况拿出来,来看他的语音经过的路线,看其网络上每一跳响应时间是多少,,UC团队可以利用这些可视化数据进行进一步的UC优化和问题诊断。”胡永表示。
回顾联想的NPM项目,胡永总结说,“我们的IT也正处于向数字化转型的过程中,而Riverbed的NPM方案特别好地支持我们做转型,比如它的可视化、问题的快速定位这些功能,都提供了特别好的支持。而接下来,还要把更多的设备都纳入管理,然后逐步优化,满足我们全场景的监控,更好地支持业务。”
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。