两周前,Anthropic宣布其新模型Claude Mythos Preview能够自主发现软件漏洞并将其武器化,在无需专家指导的情况下将漏洞转化为可用的攻击手段。这些漏洞存在于操作系统和互联网基础设施等核心软件中,而数千名专注于这些系统的软件开发者此前均未能发现它们。这一能力将对网络安全产生深远影响,威胁到我们日常使用的各类设备和服务。为此,Anthropic决定不向公众开放该模型,仅向有限数量的企业提供访问权限。
这一消息在互联网安全领域引发了强烈震动。由于Anthropic的公告缺乏详细说明,许多观察人士对此感到不满。有人猜测Anthropic没有足够的GPU来运行该模型,网络安全只是限制发布的借口;也有人认为Anthropic是在坚守其AI安全使命。围绕这一事件,既有夸大其词,也有泼冷水的声音,真实情况与营销宣传交织在一起,即便是专业人士也难以厘清。
我们认为,Mythos是一个真实但渐进式的进步,是一系列渐进步骤中的又一步。但从宏观角度来看,即便是渐进式的进步也可能举足轻重。
我们曾探讨过"基准线漂移综合征"这一现象——它使公众和专家都容易忽视那些隐藏在渐进步骤中的深刻长期变化。这种现象曾出现在网络隐私领域,如今也正在AI领域重演。即便Mythos发现的漏洞本可通过上个月或去年的AI模型找到,五年前的AI模型却绝对做不到这一点。
Mythos的发布提醒我们,AI在短短几年内已经取得了长足进步:基准线确实已经发生了根本性转变。在源代码中发现漏洞,正是当今大语言模型所擅长的任务类型。无论这种能力是去年已经具备,还是明年才会实现,有一点早已清晰:这类能力的到来只是时间问题。关键在于我们如何适应它。
我们并不认为能够自主实施攻击的AI会在攻防之间制造永久性的不对称局面,现实情况可能更加复杂微妙。部分漏洞可以被自动发现、验证并修复。有些漏洞虽然难以发现,但一旦发现便容易验证和修复——例如构建在标准软件栈上的通用云托管Web应用,其更新可以快速部署。还有一些漏洞即使没有强大的AI也容易发现,验证起来也相对简单,但修复却困难重重甚至无法修复,例如很少更新或难以改动的物联网设备和工业设备。
此外,还存在一类系统,其漏洞在代码层面容易发现,但在实际环境中难以验证。例如,复杂的分布式系统和云平台可能由数千个并行运行的相互交互服务组成,这使得区分真实漏洞与误报、以及可靠地复现漏洞变得极为困难。
因此,我们必须将可修复的系统与不可修复的系统区分开来,将易于验证的系统与难以验证的系统区分开来。这一分类框架也为我们在强大AI漏洞挖掘工具盛行的时代,如何保护各类系统提供了指引。
对于无法修复或难以验证的系统,应通过在外层包裹更严格、受控更紧密的防护层来加以保护。你的冰箱、恒温器或工业控制系统,应当置于一道持续更新的严格防火墙之后,而非直接暴露在互联网上。
对于本质上相互关联的分布式系统,应确保其具备可追溯性,并遵循最小权限原则,即每个组件只拥有其所需的最低访问权限。这些都是网络安全领域的基本准则,或许有人曾认为在AI时代可以将其抛弃,但它们如今依然适用。
这也凸显了软件工程最佳实践的重要性。自动化、全面且持续的测试历来至关重要。如今我们可以更进一步,利用防御型AI智能体反复在真实技术栈上测试漏洞利用程序,直到误报被过滤干净,真实漏洞和修复方案得到确认。这种漏洞运营(VulnOps)模式很可能成为开发流程的标准组成部分。
文档的价值也在提升,因为它既能指引开发者,也能引导AI智能体执行漏洞搜寻任务。遵循标准实践、使用标准工具和代码库,让AI和工程师都能更有效地识别模式,即便是在即时软件(按需生成和部署的代码)大行其道的时代,这一点同样成立。
那么,这究竟有利于攻击方还是防御方?从长远来看,防御方可能最终会占据优势,尤其是在那些易于修复和验证的系统中。幸运的是,这其中包括我们的手机、网络浏览器和主要互联网服务。但如今的汽车、电力变压器、冰箱和路灯都已联网,传统的银行和航空系统也接入了网络,这些领域的安全挑战仍然不容忽视。
Q&A
Q1:Claude Mythos Preview有什么特别的网络安全能力?
A:Claude Mythos Preview能够在无需专家指导的情况下,自主发现软件漏洞并将其转化为可用的攻击手段。这些漏洞存在于操作系统和互联网基础设施等核心软件中,而大量专业开发者此前均未能发现它们。正因为这一能力影响重大,Anthropic决定暂不向公众开放,仅向有限数量的企业提供访问权限。
Q2:AI漏洞挖掘能力提升后,网络安全防御该怎么做?
A:应根据系统的可修复性和可验证性来制定不同策略。对于无法修复的系统(如物联网设备),应在外层加装严格且持续更新的防护层;分布式系统应遵循最小权限原则并保持可追溯性;同时,应引入防御型AI智能体对真实技术栈持续进行漏洞测试,形成VulnOps流程,将其纳入标准开发实践。
Q3:AI漏洞挖掘技术会让攻击方长期占据优势吗?
A:不一定。对于易于修复和验证的系统,防御方最终可能占据优势,手机、浏览器和主流互联网服务都属于此类。但汽车、工业设备、传统银行和航空系统等难以更新的联网设备仍面临较大风险。整体来看,攻防态势将因系统类型不同而呈现出复杂多样的格局,而非简单的一方压倒另一方。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。