支付宝昨日发生大面积访问和交易故障的事件令人记忆犹新,在网商银行即将开业之际,对蚂蚁金服来说,无疑迎来当头一棒。因为网商银行声称是中国第一家完全跑在“云”上的银行,这也是蚂蚁金融服务集团积极推动的旗舰业务。
事件一出,支付宝官方称因市政施工导致杭州市某地光缆被挖断,使支付宝一个主要机房被影响,从而出现访问故障。
超过2个小时后,支付宝恢复服务,并称其异地多活的系统架构在此次意外中发挥了巨大作用。
对于此类解释,遭来了众多业内专业人士的质疑。在我们的采访中,不论是IT提供商、企业用户还是分析师,他们都认为,“由链路(所谓的光纤被挖断,戏称挖掘机事件)原因导致的网络中断在大部分IT事故中并不算严重的。”
为什么?因为数据中心的灾备能力,这是很多大型企业构建的IT架构的一部分。对于支付宝来说,更不例外,尤其支付宝还坚称其异地多活发挥作用。
不说全业务恢复,支付宝最起码的做到正常登录总没问题吧?
一位长期观察企业级IT的资深媒体人直言,“RTO(Recovery Time Objective,恢复时间目标)超过两个小时,还能说得上多活,简直笑话。”
这和有观点认为支付宝事件是中国金融史上首次完全意义的灾难恢复案例观点相左。
“多活”如此引人争议,我们就来看一看它的来龙去脉。
我们来说所谓多活本身的概念,一是多中心之间地位均等,正常模式下协同工作,并行的为业务访问提供服务;二是在一个数据中心发生故障或灾难的情况下,其他数据中心可以正常运行并对关键业务或全部业务实现接管,达到互为备份的效果,实现用户的“故障无感知”。
看上去,多活简直简直就是数据中心灾难恢复的救火队长啊!那到底支付宝的灾备建设是什么样子的呢?多活的技术指标是什么?异地多活,异地是什么,多活又是几活呢?支付宝在那两个多小时的时间里又是怎样进行异地多活的呢?
我们迫切想知道这些问题的答案,因为这些答案最能说明真相。
不过我们在对支付宝的采访中,对方并没有给出回复。
在早前我们对某IT提供商的采访中说到,“双活已经部署在了其大型客户的IT架构中,它实现的是一键配置,一键容灾,在分钟内实现。这不是一个概念,而是客户的实际运行状况,两个数据中心融合在一起,并行和双活使用。”
这种灾备级的能力使得用户所有的业务系统在两个或多个数据中心同时运行,同时为用户提供服务,当某个数据中心的单个或整个应用系统出现问题时,都可以由另一个数据中心的对应系统来接管全部业务,实现持续的服务提供,对用户来讲甚至感知不到业务系统的跨数据中心切换。
阿里巴巴技术保障部研究员毕玄在今年四月份接受某技术媒体采访谈到其主导的数据中心异地多活项目说到,“淘宝因为能够做到异地多活,并且流量是可以随时切换的,所以对于我们来讲,如果一地出现故障,不管是什么原因,最容易的解决方案,就是把这一地的流量全部切走。这样可以把故障控制在一分钟以内,整个可用性是非常高的。”
当然这是在进行中的项目,也就是其定的标准目标是这样的,现在看来,这还差点距离。
其实关于灾备,国务院信息化工作办公室在2007年7月将领导编制的《重要信息系统灾难恢复指南》正式升级成为国家标准《信息系统灾难恢复规范》(GB/T 20988-2007 )。这是中国灾难备份与恢复行业的第一个国家标准,并于2007年11月1日开始正式实施,并作为各行业进行灾备建设的重要参考性文件。
《规范》在附录A对灾难恢复能力作了等级划分,共6级:第1级 基本支持,第2级 备用场地支持,第3级 电子传输和部分设备支持,第4级 电子传输及完整设备支持,第5级 实时数据传输及完整设备支持,第6级 数据零丢失和远程集群支持。
并指出信息系统灾难恢复能力等级与恢复时间目标(RTO)和恢复点目标(RPO)的对应关系。
因为没有得到支付宝的答案,我们不知道支付宝的标准是什么,当然对照此表你可以参考支付宝的灾难恢复能力等级。
其实,也有专业人士指出多活的挑战性:在技术层面,不仅涉及到服务器/虚拟机之间的集群协同,还包括数据的复制与同步,更重要的是涉及到跨数据中心的网络互联互通及分支/Internet用户对DC的访问,因此网络对业务的感知能力及对流量的牵引成为方案设计与部署的重中之重。此外,网络访问控制策略的迁移、服务器网关及数据同步对网络带宽与服务质量的要求、IP地址设置、路由发布控制、网关设计、防火墙状态会话、流量路径规划及迂回控制等技术都是设计上必须要考虑和解决的问题。
反正,我们看下来,多活的最高境界这样子的:如果中断了一个数据中心,其他的数据中心仍可独立响应业务,对用户来说业务切换是无感知的。
再有一个参考,去年笔者曾采访过某IT大型企业,在他们的容灾演练中,两个数据中心相隔1300公里,2小时成功切换关键业务系统,4小时切换全部业务系统,细分下来共包括500多个IT系统,整个切换没有任何数据丢失和不一致。当然那不是双活也不是多活,作为非技术专业人士我不知道这对支付宝事件有什么参考意义。
看了着这么多多活,又加上两个小时,有人直言,“支付宝这次的故障绝非光纤问题那么简单,而是多活切换的技术不过关。”
当然也有业内人士说到,“粗略得看支付宝并没有切换异地容灾,而是恢复了网络,虽然花的时间长了点。”
真相是什么呢,现在不得而知。不过支付宝的反应相对于1月19日微信出现短暂瘫痪时的就是不告诉你已经很有进步了。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。