数据中心迁移是项复杂工程,可能很难向为迁移活动拨款的企业高管解释清楚,需要了解并管理相关的业务运营风险。下面我们分析一下与管理数据中心有关的几个难题和风险。

服务可用性
数据中心的主要目的就是,托管运行为业务提供服务的应用程序。无论你何时考虑从一个数据中心迁移到另一个数据中心,必须首先考虑底层服务的可用性。这些服务包括:活动目录之类的基础设施应用程序和SAP之类的面向客户的应用程序。
当服务从一个数据中心转移到另一个数据中心时,你必须制定一项策略,特定的服务何时迁移和应用程序对彼此的依赖关系都必须考虑进来。确保服务可用性的一个常见做法就是,建立迁移组,然后把互相依赖的应用程序分到同一组。
至于支持大多数企业应用程序的服务,比如活动目录和DNS,一个常见做法就是,跨数据中心扩展这些核心服务。服务依然在两边的数据中心,直到迁移完成。
硬件迁移
迁移物理服务器通常有两种策略:一种名为“平移”(lift and shift),另一种名为数据复制。在平移策略中,硬件放到活动卡车上,然后安装到新的数据中心。系统在搬到新址之前已备份好,不过这个策略会带来一些风险。
最大的风险之一是物理服务器可能在搬运过程中遭到损坏;搬运过程中的损坏会导致备份毫无用处。另一个挑战就是两个数据中心相隔太远,因而这个方法不现实,无法保证服务在可以接受的时间段内可用。
第二种策略是通过一条租用线路来进行数据迁移。租用线路带来了两种sub-swing硬件方案。一种方案是执行物理机到物理机(P2P)迁移。P2P迁移需要购置同类硬件,以便原有数据中心的应用程序和硬件可以迁移过去,同时确保停机时间最短。
另一种硬件迁移方案是物理机到虚拟机(P2V)转换。P2V需要通过租用线路,将物理机转换成虚拟机。P2V旨在实现两个目标:第一个目标是,将工作负载从一个数据中心迁移到另一个数据中心,同时确保硬件成本最低。第二个目标是,通过转移到虚拟平台,实现数据中心转型。P2V迁移是大受欢迎的方案,因为许多工程师已经习惯于执行这种转换,这是之前数据中心项目的一部分。
数据迁移
将应用程序数据从一处迁移到另一处可能是数据中心迁移工程的最复杂的环节之一。一种简单的方案就是执行基于磁带或硬盘的备份,并执行恢复;不过,类似平移迁移,备份和恢复在及时恢复服务方面提供的能力很有限。另外,备份和恢复并不是最适合数据迁移的理想方法――它更适合数据恢复方案有限的灾难恢复这种场景。
为大多数数据迁移选择的主要方法是配置一条租用线路。如果两个数据中心之间有了一条专用连接,迁移团队就能充分利用基于硬件或软件的同步机制,执行数据迁移。除了能够迁移数据外,这个方法还可以用来执行P2P迁移、P2V迁移和虚拟机到虚拟机(V2V)迁移。
许多企业决定在两个数据中心之间拥有多条连接。连接至少需要两条线路:一路连接支持平常的最终用户和数据中心到数据中心的流量,以便支持活动目录等应用程序和应用程序到应用程序的流量;第二路、通常速度更快的连接用来执行数据同步。双路连接可以防止两种全然不同的流量干扰或影响对方。
好文章,需要你的鼓励
企业谈AI基础设施时,注意力往往首先集中在模型、GPU和算力集群上。但当大模型应用走向规模化推理,一个瓶颈开始浮现:算力采购完成,并不意味着Token能够被稳定、低成本、可控地交付出去。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。