企业的信息化建设如火如荼,当信息系统的覆盖越来越广,IT运维也困难重重。
告警源的分散,导致告警无法统一管理,在告警处理上就会产生流程无序,缺乏统一处理,统一通知,无法标准化处理。而且监控越完善,告警越多重复、冗余、大量的告警导致无法快速筛选关键故障信息。
其实不同厂家平台的告警数据、各类开源监控工具的告警数据、自定义采集的告警数据,这些告警数据缺少统一的集成和标准处理。
这也是博睿数据推出统一告警平台OneAlert的原因,其实现了对故障(事前)及时发现、统一管理,(事中)快速响应、精准处理,(事后)分析统计的全生命周期完整管控。
OneAlert的六字价值
OneAlert的产品价值可以总结为六个字“统一、标准、智能”,即事件统一接入、故障标准处理、收敛智能决策。
统一:OneAlert平台支持对主流运维监控告警源,包括云类、博睿、开源、自定义监控工具,提供统一接入功能,以及对这些接入后的多源异构数据提供完整统一的标准化映射处理,实现了全场景下运维异常事件监控全覆盖统一接入,避免因自身监控数据相互独立导致的重大事件无人发现的监控死角。
标准:接入多来源的告警数据后,OneAlert平台进行标准处理,提供统一、实时的故障信息展示,运维人员不再需要登录多个平台查看故障情况。OneAlert支持针对不同的通知要求选用不同的通知方式,实现将故障快速通知到相关负责人,保证故障及时响应,缩短故障处理时间,最小程度降低对业务的影响。OneAlert支持对故障进行处理跟踪,实现故障生命周期的闭环管理,使运维故障处理从以前的无序到有序流程化,提升一线运维人员、运维管理人员的整体工作效率。
智能:OneAlert平台通过对海量杂乱事件降噪处理,形成告警,降低了故障分析的信息量。并通过自定义标签规则收敛、标签AI相似、AI时域的AI智能决策收敛的功能,识别出异常事件之间的关联性,将多个关联事件归并处理成一个故障,从而辅助运维人员聚焦处理关键故障信息,避免告警风暴,极大程度降低整体运维成本。
博睿数据产品管理部高级总监孙丽认为,OneAlert的优势在于将多源异构数据统一标准化接入,把海量杂乱告警标签规则关联收敛,并对海量无序告警通过AI算法进行智能收敛,最后降噪收敛运维故障标准分析处理。
告警的全生命周期管控
OneAlert通过多源事件统一接入,形成便准化事件,对海量告警事件做降噪收敛处理,形成故障,对故障做通知、分析、处理、统计等,实现对异常告警全生命周期的完整管控。
多源事件统一接入:将告警关键信息,例如告警源、告警对象、告警指标、告警描述等,通过Webhook回调、Restful API上报方式做集成,之后对关键信息进行标准化,映射成统一的一套标准信息,同时支持信息内容丰富拓展。
海量告警降噪收敛:标准化处理后的告警事件接入后,告警通过自动去重的方式,丢弃一些无用事件,降低告警风暴干扰。当事件形成告警后,自定义创建收敛规则,分为标签类和AI智能。
故障标准处理:通过收敛形成的故障,在处理时提供标准化的处理,故障提供统一查看页面,可以看到故障详细信息,基于信息更好地进行处置,并进行处置评论。告警处置完成,OneAlert提供统一故障分析,对历史产生的故障做趋势分析,以减少相应故障。
孙丽表示,系统有很多重复和相似的告警,OneAlert通过AI可以不断学习,预测什么时间会出现故障,当出现故障时,之前处理相似故障的方案是什么,形成告警知识库,提升故障修复效率。
OneAlert和博数据的其他产品也是互相联动的,博睿数据的APM产品,具备一定的告警能力,但是在功能性上相对基础,OneAlert则具备了智能收敛和降噪功能来实现统一告警。而且OneAlert也是博睿数据在不断进行产品合并的表现,将一些产品的能力集成到统一的平台来真正解决IT运维问题。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。