越来越多的企业选择将关键业务部署上云后,希望有一站式的运维工具保障业务的持续稳定运行。除了能监控各种基础资源消耗和应用健康状态外,还希望能感知各地域真实用户体验RUM(Real User Management), 能深入了解业务所依赖的基础服务、中间件和第三方服务对业务的影响;当业务性能下降或者异常,如客户投诉在线支付老失败时,企业希望有工具能协助运维人员快速诊断问题,找到问题根因,甚至在影响到业务交易之前提前预警。针对这些典型的企业诉求,华为云推出了立体运维解决方案AOM。
华为云推出的立体运维提供真正“立体”的全方位能力,包括齐全的数据种类、端到端跨层全链路分析和丰富的数据洞察能力。下图是立体运维的模型示意图。
垂直采集数据,齐全的数据种类是华为云立体运维的基础。
华为云立体运维数据包括四大类数据,分别是指标(Metrics),日志(Logs),调用链(Traces)和各种事件告警(Events)。
水平分析能力,提供端到端(E2E:end to end)的跨层全链路分析是华为云立体运维基本能力。
当云应用的物理或逻辑资源规模扩大、应用技术栈的多样化、应用架构的容器化、微服务化后,运维的复杂度是非线性增长的,业务复杂些的企业应用甚至还是多AZ、跨DC的。因此带来的巨大挑战就是对用户体验管理(RUM)和业务可用性(Availability)越来越不可知性。这是大大有别于传统计算环境(On-premise)运维经验。为了解决这个问题,华为云AOM支持从最终用户的Mobile端、Browser端,跨过网络到云服务端(backend),而云服务端,AOM支持对应用及其基础资源的分层感知,包括业务应用层(SaaS层)、中间件服务层(比如内部服务、外部第三方服务或者消息通道、缓存等中间件)、以容器为代表的PaaS层和IaaS基础设施层。
事实上AOM把很多指标数据中的一些维度属性和IaaS、PaaS层的基础部署信息结合起来,形成面向应用的元数据集(内部称之为Inventory),和传统的CMDB有些类似,但粒度更细。Inventory的目的就是为面向应用的数据分析提供各种可能的“关系网”。不管是基于Java的非嵌入式采集性能数据,还是基于Agent+插件的性能数据自动采集,又或者基于SDK或者REST API方式上报性能数据,AOM都能在上述各个层面中做到事务(transaction,比如加入购物车这个动作)级甚至深入到函数方法级别的调用关系追踪。加上在虚拟容器网络方面的优势,AOM真正做到了E2E的全链路性能管理。
分析洞察能力,提供多元化的技术分析手段和功能智能化,是华为立体运维面向人工智能时代的升级。
应用运维面临的场景复杂,没有万能的“炮弹弹”,因此华为云运维精心打造 “十八般武器”,提供多种功能特性。为什么AIOps对IT运维如此重要呢?一方面是机器的全局观优于人类。尽管人类局部认知可以很深入,但在复杂的场景中,尤其是各种可能组合数量远远超越了人力所能企及的范围,要掌握全局是有很大困难的。其次运维中某些场景对时效性要求非常高(比如秒级监控、故障自愈),比如基于指标、日志、事件的告警;根据监测指标、服务模型、规则和算法智能地及时自适当调整(典型的有云服务的弹性伸缩)。因此,除了传统的各种数据源分析之外,华为云还推出了基于AI技术的智能异常检测和事务洞察。
华为云立体运维AOM,协助企业减轻传统运维的压力,为企业关键业务保驾护航,让运维不再困难。华为云立体运维AOM:https://www.huaweicloud.com/product/aom.html
HUAWEI CONNECT 2018作为华为自办的面向ICT产业的全球性年度旗舰大会,将于2018年10月10日-12日在上海隆重举行。本届大会以“+智能,见未来”为主题,旨在搭建一个开放、合作、共享的平台,与客户伙伴一起共同探讨如何把握新机遇创造智能未来。欲了解更多详情,请参阅:
https://www.huawei.com/cn/press-events/events/huaweiconnect2018
好文章,需要你的鼓励
一加正式推出AI功能Plus Mind和Mind Space,将率先在一加13和13R上线。Plus Mind可保存、建议、存储和搜索屏幕内容,并将信息整理到Mind Space应用中。该功能可通过专用按键或手势激活,能自动创建日历条目并提供AI搜索功能。一加还计划推出三阶段AI战略,包括集成大语言模型和个人助手功能,同时将推出AI语音转录、通话助手和照片优化等工具。
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
预计到2035年,数据中心用电需求将增长一倍以上,达到440TWh,相当于整个加利福尼亚州的用电量。AI工作负载预计将占2030年数据中心需求的50-70%。传统冷却系统电机存在功率浪费问题,通常在30-50%负载下运行时效率急剧下降。采用高效率曲线平坦的适配电机可显著降低冷却系统功耗,某大型数据中心通过优化电机配置减少了近4MW冷却功耗,为13500台AI服务器腾出空间,年增收入900万美元。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。