2024年,IT领域遭遇了多起重大意外宕机事件,其中至少有一家大型航空公司被迫停运数天,云服务流量也一度陷入停滞或严重减速。
CrowdStrike宕机事件的后续影响仍在持续发酵,相关诉讼可能涉及数亿美元的赔偿金额。此外,Salesforce、Atlassian和AT&T也相继出现了持续时间较短的云服务与软件服务故障。
在这一年即将进入最后三个月之际,IT基础设施的整体表现究竟如何?当前的系统与服务是否已具备应有的韧性?面对全球每天流转的海量数据与软件,全球IT基础设施的稳定性是否有足够保障?一旦出现最坏情况,宕机事件的破坏力究竟会有多大?
在《DOS Won't Hunt》节目的这期内容中,四位嘉宾围绕上述议题展开了深入讨论:Laserfiche首席信息官兼企业战略高级副总裁Thomas Phelps、Tanium产品管理事故响应高级总监Stephanie Aceves、Auvik联合创始人Alex Hoff,以及Semperis首席信息安全官James Doggett。四位嘉宾就宕机事件的常见诱因、宕机的必然性,以及企业如何进一步完善灾难恢复方案等话题进行了全面探讨。
Q&A
Q1:2024年有哪些典型的IT宕机事件?
A:2024年发生了多起重大IT宕机事件,其中CrowdStrike宕机事件影响最为广泛,导致至少一家大型航空公司停运数天。此外,Salesforce、Atlassian和AT&T也出现了不同程度的云服务与软件故障,其中CrowdStrike相关事件预计将引发数亿美元的法律赔偿纠纷。
Q2:CrowdStrike宕机事件的后续影响是什么?
A:CrowdStrike宕机事件的影响尚未完全平息,目前相关赔偿纠纷已进入司法程序,潜在涉案金额高达数亿美元。这一事件也引发了业界对IT基础设施稳定性与企业灾难恢复能力的广泛反思,促使更多企业重新审视自身的应急响应机制。
Q3:企业该如何提升IT基础设施的抗宕机能力?
A:根据节目中四位业内专家的讨论,企业提升抗宕机能力的关键在于:充分了解宕机的常见诱因,正视宕机事件发生的必然性,并在此基础上持续完善灾难恢复计划。建议企业定期演练应急预案,明确各环节的责任分工,并借助专业工具提升故障检测与响应速度,以最大限度降低宕机带来的业务损失。
好文章,需要你的鼓励
Anthropic于6月30日发布Claude Sonnet 5,相较前代Claude Sonnet 4.6在编程、推理、工具使用及知识工作方面均有显著提升。该模型可自主制定计划、使用浏览器和终端等工具,达到数月前需更大更贵模型才能实现的水平。安全评估显示其不良行为率更低。Sonnet 5默认开启自适应思维,采用更新的分词器,性能接近Opus 4.8但价格更低,现已面向所有订阅计划开放。
复旦大学联合多机构提出A2World框架,通过210万条真实机器人轨迹进行动作条件化预训练,将学到的物理动力学先验同时迁移到仿真模拟和策略控制两个方向,在LIBERO和真实机器人任务上均取得当前最优表现。
人工智能基础设施的快速扩张不仅带来总用电量激增,更在改变电网的运行特性。AI训练任务高度同步、计算密集,推理任务则分散且难以预测,两者均可在极短时间内造成电力需求骤变。数据中心的地理集中分布进一步加剧局部电网压力。现有监管框架多基于稳定工业负荷设计,难以适应这类新型需求。专家指出,电网规划需从关注总能耗转向关注需求波动性与同步效应。
同济大学研发的FLISP系统,让无人车与无人机在水电隧道中无需建图、仅靠激光雷达实时协作导航,规划延迟仅7毫秒,成功率100%。