大多数组织都非常关注备份和恢复策略。如果IT环境出现问题,目标是让系统在最快时间内恢复到你已知的某个结点。
任何备份与恢复的策略都是设法将一切恢复到距离现实最近的时间节点。从技术角度来说,这意味着恢复点目标(RPO)和恢复时间目标(RTO)越接近接好。通过快照和虚拟机,停机时间往往在几小时甚至几分钟。
在RPO和RTO之间依旧存在问题,在此期间无法提供服务。IT平台要么宕机要么正忙于恢复。直到数据中心启动并恢复运行,在此期间业务不断流失:IT是导致失败的原因。
拥有高可用性需求而且财力雄厚的公司研究了过去的业务持续性方案,要么是通过集群与虚拟化实现IT组件的N+1冗余,或者在另外一个远程数据中心完 全镜像整个线上环境。虽然镜像意味着灾难性故障只需在几分钟内就能切换到功能齐全的备用环境,问题在于代价高昂。投资远比建造单独一个数据中心的两倍还 多,不但需要额外的数据中心与设备,同样还需要软件以及工具来监控与维护系统,并且在确认故障发生时完成切换。只有少数企业能承担这笔费用。
然而时代在改变,IT服务连续系,或者与之类似的方案越来越贴近大多数组织。
新的IT服务持续性规划
你现有的IT平台可能混合了承载单业务的服务器也或者物理集群的虚拟化环境,甚至还可能有一两个平台运行在私有云。你已经拥有虚拟化基础设施上的虚 拟机,这就有可能会在未来部署容器。容器技术包括了Docker、CoreOS的Rocket、微软Azure Drawbridge for Windows Server和Canonical的LXD Linux容器。
IT持续性规划始于建立企业应用程序涉及到的所有资产数据库。对于大多数组织来说,连续性并不意味着和主要设施一样,将所有的业务都以相同的用户体验进行镜像。相反,企业需要确保核心业务流程能够保持,直到主数据中心重新上线。
运行关键任务应用程序的物理服务器必须能在断电的时候继续运作,但它可能不需要被作为一个物理系统完全复制。将应用程序配合虚拟机来运行,可以让 IT在非常短的时间内让业务快速运转起来,这是一个提供足够好的用户体验的权宜之计。那些非关键任务的业务,如工资单或采购程序,可以在中断时忽略。
评估工具可以管理工作负载从原平台迁移到可持续性管理平台的状况。厂商如Vision Solutions,提供Double-Take产品组合,能够提供将工作负载从一个环境迁移到另一个环境的高可用性和业务连续能力。
一些产品包还能提供将应用程序或容器从一个环境迁移到另一个,产商有StackIQ Inc.、Platform9 Systems Inc.、Verilume和Electric Cloud(该厂商更专注于发布自动化,但还搭售打包和配置工具,实现高度可控、可审计功能)。这些工具不需要热目标环境;他们支持动态迁移裸机、虚拟机 或云环境。
通过结合云计算和虚拟化制定的恢复计划,组织并不需要支付与镜像数据中心那样的庞大费用——甚至不需要支付其他未使用的资源。只需支付平台以及所需IT服务连续性的使用费——这些支出基本在大多数组织的可接受范围内。
如何处理中断期间的数据
处理中断期间留下的数据是个难题。没有办法向打包应用程序那样轻易的打包数据。应用程序是个相对静态的实体,而数据是高度动态的。你可以使用备份和恢复,但RPO和RTO都是针对一个整体备份和恢复策略来规划的,同样存在问题。
数据库虚拟化是一个更好的办法。供应商如Delphix Corp.提供工具可以在短时间内完成数据库副本的制作,并且只消耗很少本地资源。还可以远距离使用相同的技术:初始化数据库的拷贝传输先完成,之后只需 跨区域复制增量数据。任何主环境中发生故障,在远程站点的数据拷贝都拥有实时备份。这意味着在目标站点上拥有非常多资源,同时也意味着非常高的业务连续 性。
一旦主站点重新上线并且恢复运行,备份数据会与主数据库同步,在此期间不会有任何数据损失。
好文章,需要你的鼓励
在AI智能体的发展中,记忆能力成为区分不同类型的关键因素。专家将AI智能体分为七类:简单反射、基于模型反射、目标导向、效用导向、学习型、多智能体系统和层次化智能体。有状态的智能体具备数据记忆能力,能提供持续上下文,而无状态系统每次都重新开始。未来AI需要实现实时记忆访问,将存储与计算集成在同一位置,从而创造出具备人类般记忆能力的数字孪生系统。
香港理工大学联合多所高校开发的Mol-R1框架,首次实现了AI在分子发现中的透明推理。该系统通过PRID方法学习专家推理模式,配合MoIA迭代训练策略,不仅能准确生成分子结构,还能展示完整思考过程。相比现有模型,Mol-R1推理更简洁高效,为药物研发等领域的AI应用提供了重要的安全保障。
OpenAI首席执行官阿尔特曼表示,公司计划在不久的将来投入数万亿美元用于AI基础设施建设,包括数据中心建设等。他正在设计新型金融工具来筹集资金。阿尔特曼认为当前AI投资存在过度兴奋现象,类似于90年代互联网泡沫,但AI技术本身是真实且重要的。他承认GPT-5发布存在问题,并表示OpenAI未来可能会上市。
蚂蚁集团AWorld团队发表突破性研究,创建动态多智能体协作系统解决AI稳定性难题。研究灵感来源于船舶导航,通过执行智能体和守护智能体的协作机制,在GAIA测试中准确率达67.89%,稳定性提升17.3%,荣登开源项目排行榜第一名。该系统为构建可靠智能系统开辟新路径,具有广阔应用前景。