扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
l MTBF(Mean Time Between Failure)
系统平均正常运行时间
l MTTR(Mean Time to Repair)
系统平均恢复时间
l AVAILABILITY = MTBF/ ( MTBF+ MTTR )
对现代企业数据中心来说,用户除了关心数据中心正常运转的平均时间(MTBF)以外,更为在意的是数据中心出现故障以后能否以很短的时间恢复正常运行,是否能对核心业务的影响减轻到最小。因此,针对MTTR业界又扩展出了另外几个指标:
l RTO :(Recovery Time Objective)
RTO 表示完成应用(及其相关业务流程)并保证技术组件恢复到能够正常执行事务处理或业务职能的最长时间。但是,RTO 并不意味着“100%恢复”,它通常指的是降级处理模式(例如减少容量,降低性能)。
l RPO :(recovery point objective):
RPO 指某个时刻,应用数据必须恢复到这个时刻才能继续执行事务处理。它规定了需要将信息恢复到哪个数据流点,或者说,企业能够忍受丢失多少数据。
l ROI (return on investment )
ROI 是指用户的投资回报。由于数据中心中各个部分的重要性有一定的差别。因此,各个分区出现故障后的影响各有不同。对高可用的要求也不尽相同。由于保证网络高可用意味着不菲价格,因此分区的构架可以满足区分用户业务,在保证用户数据中心整网高可用的目标的前提下,尽可能的为用户降低成本。
2 设计思路
2.1 数据中心可靠性设计所面临的挑战
对于数据中心,现代企业面临着两难的局面。一方面处于企业数据流通最核心地位的企业数据中心对于企业来说有着至关重要的作用,企业对数据中心的依赖性越来越强。另一方面由于影响数据中心网络环境的因素很多,数据中心出现故障的情况几乎不可避免。因此,数据中心解决方案需要着重关注如何尽量减小数据中心出现故障后对企业关键业务造成的影响。为了实现这一目标,首先应该要了解企业数据中心出现故障的类型以及该类型故障产生的影响。影响数据中心的故障主要分为如下几类:
硬件故障
软件故障
链路故障
电源/环境故障
资源利用问题
网络设计问题
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。