企业的信息化建设如火如荼,当信息系统的覆盖越来越广,IT运维也困难重重。
告警源的分散,导致告警无法统一管理,在告警处理上就会产生流程无序,缺乏统一处理,统一通知,无法标准化处理。而且监控越完善,告警越多重复、冗余、大量的告警导致无法快速筛选关键故障信息。
其实不同厂家平台的告警数据、各类开源监控工具的告警数据、自定义采集的告警数据,这些告警数据缺少统一的集成和标准处理。
这也是博睿数据推出统一告警平台OneAlert的原因,其实现了对故障(事前)及时发现、统一管理,(事中)快速响应、精准处理,(事后)分析统计的全生命周期完整管控。
OneAlert的六字价值
OneAlert的产品价值可以总结为六个字“统一、标准、智能”,即事件统一接入、故障标准处理、收敛智能决策。
统一:OneAlert平台支持对主流运维监控告警源,包括云类、博睿、开源、自定义监控工具,提供统一接入功能,以及对这些接入后的多源异构数据提供完整统一的标准化映射处理,实现了全场景下运维异常事件监控全覆盖统一接入,避免因自身监控数据相互独立导致的重大事件无人发现的监控死角。
标准:接入多来源的告警数据后,OneAlert平台进行标准处理,提供统一、实时的故障信息展示,运维人员不再需要登录多个平台查看故障情况。OneAlert支持针对不同的通知要求选用不同的通知方式,实现将故障快速通知到相关负责人,保证故障及时响应,缩短故障处理时间,最小程度降低对业务的影响。OneAlert支持对故障进行处理跟踪,实现故障生命周期的闭环管理,使运维故障处理从以前的无序到有序流程化,提升一线运维人员、运维管理人员的整体工作效率。
智能:OneAlert平台通过对海量杂乱事件降噪处理,形成告警,降低了故障分析的信息量。并通过自定义标签规则收敛、标签AI相似、AI时域的AI智能决策收敛的功能,识别出异常事件之间的关联性,将多个关联事件归并处理成一个故障,从而辅助运维人员聚焦处理关键故障信息,避免告警风暴,极大程度降低整体运维成本。
博睿数据产品管理部高级总监孙丽认为,OneAlert的优势在于将多源异构数据统一标准化接入,把海量杂乱告警标签规则关联收敛,并对海量无序告警通过AI算法进行智能收敛,最后降噪收敛运维故障标准分析处理。
告警的全生命周期管控
OneAlert通过多源事件统一接入,形成便准化事件,对海量告警事件做降噪收敛处理,形成故障,对故障做通知、分析、处理、统计等,实现对异常告警全生命周期的完整管控。
多源事件统一接入:将告警关键信息,例如告警源、告警对象、告警指标、告警描述等,通过Webhook回调、Restful API上报方式做集成,之后对关键信息进行标准化,映射成统一的一套标准信息,同时支持信息内容丰富拓展。
海量告警降噪收敛:标准化处理后的告警事件接入后,告警通过自动去重的方式,丢弃一些无用事件,降低告警风暴干扰。当事件形成告警后,自定义创建收敛规则,分为标签类和AI智能。
故障标准处理:通过收敛形成的故障,在处理时提供标准化的处理,故障提供统一查看页面,可以看到故障详细信息,基于信息更好地进行处置,并进行处置评论。告警处置完成,OneAlert提供统一故障分析,对历史产生的故障做趋势分析,以减少相应故障。
孙丽表示,系统有很多重复和相似的告警,OneAlert通过AI可以不断学习,预测什么时间会出现故障,当出现故障时,之前处理相似故障的方案是什么,形成告警知识库,提升故障修复效率。
OneAlert和博数据的其他产品也是互相联动的,博睿数据的APM产品,具备一定的告警能力,但是在功能性上相对基础,OneAlert则具备了智能收敛和降噪功能来实现统一告警。而且OneAlert也是博睿数据在不断进行产品合并的表现,将一些产品的能力集成到统一的平台来真正解决IT运维问题。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。