扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
关于对警报和故障的管理,SiteView主要通过报警控制中心来进行。SiteView报警控制中心包括四个方面:报警条件设置、报警触发机制和报警精确机制。
报警条件设置
SiteView可以为用户提供不限量的报警条件设置,即在条件成立的情况下,同一个警报允许同时符合N种条件。丰富的报警设置允许自定义报警的条件、升级、相关性以及报警分组,帮助管理人员快速查找报警发生的原因。
对数值信息的数据,系统可设置一个阈值,使得当数据超过阈值时产生报警信息。报警阀值设置可为用户提供手工输入阈值的功能,用户可输入报警的上限阈值和报警的下限阈值。
SiteView报警功能设计 功能详细说明 优势和好处
实时报警方式 颜色、SMS, EMAIL, 声音等 确保报警及时送达相关人员
警报级别分为错误、警告和正常 监测参数可按自行设定条件分为正常、警告和错误三个级别,并可按事先设定的警报发送条件和方式自动发送警报 自行定义警告、错误标准
两种方式发送SMS 一种是Web方式,另一种是无线Modem方式 确保报警及时发送
报警后自动启用/禁用监测器 可设定当一个报警发生时,启动或禁止某个或某几个监测 避免重复报警
SNMP 将报警信息通过SNMP发送至SNMP陷阱 与其它系统集成
组报警 不同监测参数可自行设定不同的报警条件,将成百上千个监测参数分成不同的组分别进行报警 方便分类管理
时段配置 可在不同时段将报警发送给不同的值班人员,也可在不同时段取消或开启报警 方便值班人员的工作安排
SiteView提供了十分丰富和完善的报警策略供用户选择,用户可根据自身系统的特点灵活制定自己的报警策略。
当确定网络中发生了故障时,可以采取在界面上用不同颜色显示,发出报警声音,发出寻呼、手机短消息或电子邮件的方式通知网络管理人员。具体采取何种报警方式由用户配置,用户配置的信息包括确定是否采用声音报警和(或)其他特殊报警方式,选择报警声音文件,确定寻呼、手机和Email发送的次数和间隔时间。主要包括报警历史查询、报警阈值设置、报警确认与清除功能。
报警触发机制
系统将根据一定时间段内某个监测参数的历史数据自动生成报警基线,用户可根据该报警基线自行定义发送报警区间。当该监测参数的运行数据超出对应时间点的报警区间时,系统将根据报警设置发送警报。
基线(Baseline)指的是系统自动生成的监测数据的基准值,是历史数据的平均值和平均方差。SiteView允许用户设置系统的Baseline(相当于为整个系统的监测数据建立一个基准模型),用户可以根据Baseline数据设置性能变化的范围。当监测数据结果超过Baseline的范围时表明系统发生异常。
( 实时反映各节点与网络的联通状况)
基线报警模块能帮助用户及时发现系统异常。以网络流量为例,用户可以根据网络设备的流量的历史纪录设置流量的基线,流量的基线包括历史流量的平均值和历史流量的平均方差。历史流量的平均方差代表了历史数据的离散性,简单讲就是历史数据与历史数据的平均值的距离。当测试数据与平均值的方差大,测试数据就是异常的。用户可以根据流量的历史平均值设置阀值,也可以根据均方差设值阀值。这样带来的好处是用户可以根据历史数据来判断网络是否正常。如:黑客入侵网络的时候,网络可能并不会立即瘫痪,但是网络性能一定会发生异常,与正常情况下对应时刻Baseline差别会很大,这时通过Baseline的设置就可以及时发现问题。
在Gigabyte设备接口中,历史数据中流量平均值为100M,平均方差为10M,若当前流量测试结果为200M时,仍然属于网络设备包流量正常值,没有出现网络拥塞等问题。但当前流量(200M)与Baseline平均值(100M)差1倍,方差(10M)为10倍,则可以认定该流量出现问题,启动基线(BaseLine)报警功能将发出报警。
基线是动态自动生成的,用户可以自己设定基线的历史数据数据周期(如周、月等),定义正常范围,形成一个基线模型,每过一个工作周期系统将重新自动计算生成新的基线模型。如:晚上6点的基线就是晚上6点的历史数据的平均值和方差的倍数,这样基线阀值可以更加准确反映系统的任何异常状况。
报警精确机制
SiteView从父子依靠关联、重复次数阀值关联、故障(报警事件)确认等方面来确保警报的高度准确性,有效地避免重复报警和误报。SiteView在发现系统异常后,可以根据用户的设定发送报警。
父子依存关联报警
如出现A、B、C、D等警报,只报告A
比如:一台服务器无法Ping通时,只发出Ping不通的警报,同时暂停对该服务器所进行的所有其它监测。
报警值班人员管理
在不同的时段,将报警发送给不同的值班人员
报警事件确认
当某个监测参数数值达到报警条件时并不立即发出警报,而是立即重新测试该监测参数,并可同时自动调整监测频率,如数据正常则不发出警报,否则发出警报。这样可避免系统对一些临时性故障发出警报。
报警升级
当报警出现一定次数后,报警自动升级,采用不同的发送方式,发送给新的系统管理员等。
重复次数阀值关联报警设置
If count (A) occurs in time interval [t1, t2], then generate C.
比如:第一次报警,通知经理和一线网管工程师,故障发生
第二,三,四次报警,只通知一线网管工程师,故障处理中
第五次报警,通知经理和一线网管工程师,故障处理时间太长,引起管理层对故障处理的重视
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者