大多数组织都非常关注备份和恢复策略。如果IT环境出现问题,目标是让系统在最快时间内恢复到你已知的某个结点。
任何备份与恢复的策略都是设法将一切恢复到距离现实最近的时间节点。从技术角度来说,这意味着恢复点目标(RPO)和恢复时间目标(RTO)越接近接好。通过快照和虚拟机,停机时间往往在几小时甚至几分钟。
在RPO和RTO之间依旧存在问题,在此期间无法提供服务。IT平台要么宕机要么正忙于恢复。直到数据中心启动并恢复运行,在此期间业务不断流失:IT是导致失败的原因。
拥有高可用性需求而且财力雄厚的公司研究了过去的业务持续性方案,要么是通过集群与虚拟化实现IT组件的N+1冗余,或者在另外一个远程数据中心完 全镜像整个线上环境。虽然镜像意味着灾难性故障只需在几分钟内就能切换到功能齐全的备用环境,问题在于代价高昂。投资远比建造单独一个数据中心的两倍还 多,不但需要额外的数据中心与设备,同样还需要软件以及工具来监控与维护系统,并且在确认故障发生时完成切换。只有少数企业能承担这笔费用。
然而时代在改变,IT服务连续系,或者与之类似的方案越来越贴近大多数组织。
新的IT服务持续性规划
你现有的IT平台可能混合了承载单业务的服务器也或者物理集群的虚拟化环境,甚至还可能有一两个平台运行在私有云。你已经拥有虚拟化基础设施上的虚 拟机,这就有可能会在未来部署容器。容器技术包括了Docker、CoreOS的Rocket、微软Azure Drawbridge for Windows Server和Canonical的LXD Linux容器。
IT持续性规划始于建立企业应用程序涉及到的所有资产数据库。对于大多数组织来说,连续性并不意味着和主要设施一样,将所有的业务都以相同的用户体验进行镜像。相反,企业需要确保核心业务流程能够保持,直到主数据中心重新上线。
运行关键任务应用程序的物理服务器必须能在断电的时候继续运作,但它可能不需要被作为一个物理系统完全复制。将应用程序配合虚拟机来运行,可以让 IT在非常短的时间内让业务快速运转起来,这是一个提供足够好的用户体验的权宜之计。那些非关键任务的业务,如工资单或采购程序,可以在中断时忽略。
评估工具可以管理工作负载从原平台迁移到可持续性管理平台的状况。厂商如Vision Solutions,提供Double-Take产品组合,能够提供将工作负载从一个环境迁移到另一个环境的高可用性和业务连续能力。
一些产品包还能提供将应用程序或容器从一个环境迁移到另一个,产商有StackIQ Inc.、Platform9 Systems Inc.、Verilume和Electric Cloud(该厂商更专注于发布自动化,但还搭售打包和配置工具,实现高度可控、可审计功能)。这些工具不需要热目标环境;他们支持动态迁移裸机、虚拟机 或云环境。
通过结合云计算和虚拟化制定的恢复计划,组织并不需要支付与镜像数据中心那样的庞大费用——甚至不需要支付其他未使用的资源。只需支付平台以及所需IT服务连续性的使用费——这些支出基本在大多数组织的可接受范围内。
如何处理中断期间的数据
处理中断期间留下的数据是个难题。没有办法向打包应用程序那样轻易的打包数据。应用程序是个相对静态的实体,而数据是高度动态的。你可以使用备份和恢复,但RPO和RTO都是针对一个整体备份和恢复策略来规划的,同样存在问题。
数据库虚拟化是一个更好的办法。供应商如Delphix Corp.提供工具可以在短时间内完成数据库副本的制作,并且只消耗很少本地资源。还可以远距离使用相同的技术:初始化数据库的拷贝传输先完成,之后只需 跨区域复制增量数据。任何主环境中发生故障,在远程站点的数据拷贝都拥有实时备份。这意味着在目标站点上拥有非常多资源,同时也意味着非常高的业务连续 性。
一旦主站点重新上线并且恢复运行,备份数据会与主数据库同步,在此期间不会有任何数据损失。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。