时间,见证我们的奋斗;生态,汇聚智慧与力量。
在这个特殊的春天里,华为中国特别推出了#Σco时间(华为中国政企业务线上沙龙2020)系列栏目,以线上直播+互动的形式,共话技术变革与行业转型。疫情暂缓了我们的相聚,但却无法阻挡我们对美好时光的期待,让我们相约#Σco时间,加速数字化转型,推动数字经济发展!
在2020年3月23日举行的《当数据中心遇上自动驾驶 数据中心营维AI自动驾驶探讨》节目中,万国数据服务有限公司智能化运营总监谢云昭与华为技术有限公司数据中心产品规划总监阳必飞共同探讨了在云和AI高速发展的今天,数据中心营维仍面临诸多挑战的时候,如何利用AI技术逐步实现数据中心营维“自动驾驶”的精彩话题。
华为数据中心产品规划总监 阳必飞
在沙龙中,阳必飞首先抛出了华为对未来数据中心的一种构建理念与畅想,即6全4A:全预制(按需上线,百天千柜)、全模块(按需扩容,弹性升级)、全绿色(PUE 1.0时代,VPP)、全可信(可靠、可用、韧性、隐私、Safety、Security)、全协同(端边云协同、L1L2L3协同)、全自动(AI自动驾驶)以及在边缘侧的4A:Anytime(部署即上线)、Anywhere(全场景适应)、Anyone(全自动,技能0要求)、Anything(全栈L1L2L3)。
万国数据服务有限公司智能化运营总监 谢云昭
而无论是最近政府提出的新基建概念还是传统应用,其实都与数据中心有强相关,数据中心作为应用的底座发挥着不可替代的作用。谢云昭表示,“数据中心的业务连续性及安全性是非常关键的指标,而随着5G的扩展,数据中心已经形成边缘化的趋势,这些新的需求都给传统数据中心运维带来了挑战。”
另外,阳必飞也表示,“数据中心在包括规划、建设及后期的运维和运营的全生命周期及TCO等问题,在营维中需要重点去考虑,比如在规划与建设中一般占1-2年的时间,剩下10-15年则为运维和运营阶段,所以大部分的时间都是和运维和运营相关的。另一方面从商业角度讲,数据中心的投资主要是对运维的投资,而这之间对能源的消耗也是非常可观的。而对运维人力的投入也是非常重要的,因为随着数据中心的规模和业务量的不断扩展,人员的投入也会直线上升。”
数据中心营维之痛
阳必飞表示,“目前数据中心存在依赖人工、被动响应、运营落差等实际问题。数据中心中每千柜需要15~30人实现7*24小时值守,每天6~12次现场抄表巡检,这些都需要依赖人工来完成。而被动响应的机制使得效率无法得到有效提升,另外人工操作的风险很难控制,数据中心的高可靠性难以得到保证。同时运营落差,非最优状态,实际PUE与设计PUE存在巨大GAP,使得资源的价值未得到最大化挖掘。”
谢云昭对此表示,“从万国数据的角度,安全可靠、足够的持续性和连续的投入改造,以及人力效率的提升是我们当前最重要的关注重点。比如将巡检、日常的服务,方方面面的人员的巡检从4-6小时中解放出来,让传统的巡检工作慢慢退出历史舞台。这就提出了一种预防性维护的理念,通过季度、半年度、年度等维护,包括电气连接点热扫描 ,电池放电测试、应急组织和维修、计划性的维护等等这些手段来提升数据中心的运维效率。”
为什么数据中心营维需要自动驾驶?
阳必飞认为,数据中心自动化发展与当前汽车自动驾驶的发展存在很多共通性特点。首先汽车自动驾驶可以提升提高可靠性,降低人为导致的安全事故,从而拯救数百万人生命。另外高效的操作方式可以提升交通系统效率,降低拥堵。更高的能源效率还能减少碳排放;最重要的是解放了人,“0”技能要求让老人、残疾人、小孩都可以方便出行,解放了人们的眼睛、手脚、大脑和时间。
而数据中心自动化的发展,也是为了提高可靠性,以便应对数据中心规模和系统的复杂性上升、数据中心宕机产生的社会影响更大,以及云计算要求灵活可靠的资源调配能力等需求。而能源消耗大(耗电),碳排放高、占地面积、电力容量高、消耗社会资源等问题也需要更加高效的管理方式来解决,最终才能做到解放人的阶段。
如何定义数据中心营维自动驾驶
阳必飞认为,要在自动驾驶汽车到自动驾驶数据中心之间建立联系,大致可以分为以下几个阶段,完全人工、部分解放手脚、基本解放手脚、完全无人、基本解放大脑、完全解放手脚、部分解放大脑。
同时阳必飞也介绍了AI运维自动驾驶演进的几个阶段,从第一阶段到第五阶段可以分别通过电子化辅助,运维过程APP化,核对确认,减少人工抄表工作来实现。例如基于AI图像、声 音、异味等的AI感知无人巡检;利用AI 分析实现智能故障诊断、快速定位、应急指导;AI预测实现故障预测、健康状态预测、提前维护;最后实现AI自愈,全自动化故障“自修复”的自治运行等等。
在AI节能自动驾驶演进方面,自动化能够实现能效可视、PUE监测、AI自动寻优、自动调节,同时AI自学习还可以主动感知变化,自动调整寻优规则等等。
此外,AI对运营自动驾驶的演进,基本可以做到资源可视、SPCN资源可视、可用资源可视、资源价值最大化优化、最大化SPCN利用效率、线性平缓的业务上线等效果。另外,对自助上线、机器人服务、设备自动上架、业务发展趋势预测、设备生命周期预测等功能都可以得到很好的实现。
阳必飞总结到,“我们希望未来数据中心真正能够像无人超市一样,可以自动去匹配用户的需求、自动去匹配相关资源,达成商业链条的全封闭状态,真正形成无人值守的状态。可以打造出一种完全自动化的数据中心和数据的黑灯工厂,满足未来新基建、云计算等一系列的要求。”
最后,谢云昭也表示,“未来数据中心的运维应该是节能与优化、高效与稳定的高度融合的一种结构,另外也会逐渐向少人及边缘化趋势进一步迈进。”
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。