针对系统中出现的故障,系统管理人员可以及时通过故障确认、故障自动恢复、故障连锁诊断等方式作出处理。系统管理人员更可以将各种故障处理的步骤和方法写入系统中,形成知识库,这样可以有效帮助其它系统管理人员及时、有效地处理故障。这样其它管理人员遇到该故障时,就可按故障处理知识库的建议逐步尝试处理故障,从而使故障得到及时的处理。同时可以提高整个运维团队的系统管理水平。
故障确认
当系统发生故障时,SiteView会自动重新执行一次对该系统组件的数据查询,以确认确实是发生了故障,同时,SiteView故障确认按钮会凸起来,相关系统管理工程师可以将处理故障的方法、过程等相关信息填入故障确认注释框里,SiteView会将该信息自动进行存储。以后遇到同类型的故障时,工程师可以通过查看故障确认日志获得相关参考信息。
SiteView的故障确认功能能避免系统管理人员进行重复性操作,提高对故障的处理速度和水平,帮助系统管理人员及时沟通故障处理情况。故障处理日志功能,更能为其它网络管理人员提供技术指导和参考,有效地提高系统管理人员的工作效率,为企业信息平台的稳定运行提供可靠的保障。
故障自动恢复
SiteView的故障自动恢复功能对网络管理人员具有非常重要的意义。当出现一个临时性的标准故障时,自动恢复功能就会自动执行指定脚本或POST数据到指定的CGI程序,使服务恢复正常。比如,把一个挂起的服务器操作通过自动启动功能而使它重新运行;把一个耗费系统过多资源的进程停止或者重新启动设备。
故障连锁诊断
在系统经常出现的问题中,有一些是属于流程性连锁故障,需要按照一定的顺序和特定的流程,一一去排除,这些重复性操作繁杂而没有效率。SiteView故障连锁诊断功能,可以很好地解决这一问题。
系统工程师可将常见故障的连锁诊断过程做成Visio图发布到SiteView系统中,一旦系统出现上述故障,SiteView将自动启动连锁诊断功能,帮助系统管理人员逐一排查故障,迅速发现、定位故障。
例如:用户自定义一个业务流程连锁诊断模块,该流程诊断分为四个步骤:网络设备连通性、WWW服务、中间件服务、数据库服务。如果该业务流程出现故障,SiteView会自动启动连锁功能,按照这一顺序依次诊断,快速查明故障。