大多数组织都非常关注备份和恢复策略。如果IT环境出现问题,目标是让系统在最快时间内恢复到你已知的某个结点。
任何备份与恢复的策略都是设法将一切恢复到距离现实最近的时间节点。从技术角度来说,这意味着恢复点目标(RPO)和恢复时间目标(RTO)越接近接好。通过快照和虚拟机,停机时间往往在几小时甚至几分钟。
在RPO和RTO之间依旧存在问题,在此期间无法提供服务。IT平台要么宕机要么正忙于恢复。直到数据中心启动并恢复运行,在此期间业务不断流失:IT是导致失败的原因。
拥有高可用性需求而且财力雄厚的公司研究了过去的业务持续性方案,要么是通过集群与虚拟化实现IT组件的N+1冗余,或者在另外一个远程数据中心完 全镜像整个线上环境。虽然镜像意味着灾难性故障只需在几分钟内就能切换到功能齐全的备用环境,问题在于代价高昂。投资远比建造单独一个数据中心的两倍还 多,不但需要额外的数据中心与设备,同样还需要软件以及工具来监控与维护系统,并且在确认故障发生时完成切换。只有少数企业能承担这笔费用。
然而时代在改变,IT服务连续系,或者与之类似的方案越来越贴近大多数组织。
新的IT服务持续性规划
你现有的IT平台可能混合了承载单业务的服务器也或者物理集群的虚拟化环境,甚至还可能有一两个平台运行在私有云。你已经拥有虚拟化基础设施上的虚 拟机,这就有可能会在未来部署容器。容器技术包括了Docker、CoreOS的Rocket、微软Azure Drawbridge for Windows Server和Canonical的LXD Linux容器。
IT持续性规划始于建立企业应用程序涉及到的所有资产数据库。对于大多数组织来说,连续性并不意味着和主要设施一样,将所有的业务都以相同的用户体验进行镜像。相反,企业需要确保核心业务流程能够保持,直到主数据中心重新上线。
运行关键任务应用程序的物理服务器必须能在断电的时候继续运作,但它可能不需要被作为一个物理系统完全复制。将应用程序配合虚拟机来运行,可以让 IT在非常短的时间内让业务快速运转起来,这是一个提供足够好的用户体验的权宜之计。那些非关键任务的业务,如工资单或采购程序,可以在中断时忽略。
评估工具可以管理工作负载从原平台迁移到可持续性管理平台的状况。厂商如Vision Solutions,提供Double-Take产品组合,能够提供将工作负载从一个环境迁移到另一个环境的高可用性和业务连续能力。
一些产品包还能提供将应用程序或容器从一个环境迁移到另一个,产商有StackIQ Inc.、Platform9 Systems Inc.、Verilume和Electric Cloud(该厂商更专注于发布自动化,但还搭售打包和配置工具,实现高度可控、可审计功能)。这些工具不需要热目标环境;他们支持动态迁移裸机、虚拟机 或云环境。
通过结合云计算和虚拟化制定的恢复计划,组织并不需要支付与镜像数据中心那样的庞大费用——甚至不需要支付其他未使用的资源。只需支付平台以及所需IT服务连续性的使用费——这些支出基本在大多数组织的可接受范围内。
如何处理中断期间的数据
处理中断期间留下的数据是个难题。没有办法向打包应用程序那样轻易的打包数据。应用程序是个相对静态的实体,而数据是高度动态的。你可以使用备份和恢复,但RPO和RTO都是针对一个整体备份和恢复策略来规划的,同样存在问题。
数据库虚拟化是一个更好的办法。供应商如Delphix Corp.提供工具可以在短时间内完成数据库副本的制作,并且只消耗很少本地资源。还可以远距离使用相同的技术:初始化数据库的拷贝传输先完成,之后只需 跨区域复制增量数据。任何主环境中发生故障,在远程站点的数据拷贝都拥有实时备份。这意味着在目标站点上拥有非常多资源,同时也意味着非常高的业务连续 性。
一旦主站点重新上线并且恢复运行,备份数据会与主数据库同步,在此期间不会有任何数据损失。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。