如今,由于生成式 AI 模型的加持,从漏洞披露到生成概念验证(PoC)攻击代码的时间现在可能仅需几个小时。
Platform Security 及渗透测试公司 ProDefense 的 Matthew Keely 在一个下午内便成功拼凑出了针对 Erlang 的 SSH 库(CVE-2025-32433)中的一个关键漏洞的利用代码,尽管他所使用的 AI 得到了额外的帮助——该模型能够利用库中已发布补丁的代码,追踪出哪些漏洞已经被修复并找出利用方法。
受到另一家安全公司 Horizon3.ai 发表的一篇关于构造该 SSH 库漏洞利用代码轻松度的帖子启发,Keely 好奇是否有 AI 模型 —— 在这个案例中是 OpenAI 的 GPT-4 和 Anthropic 的 Claude Sonnet 3.7 —— 可以为他构造利用代码。
Keely 解释道:“事实证明 —— 是的,它确实可以。GPT-4 不仅理解了 CVE 描述,还找出了引入修复的提交记录,对比旧代码后发现差异、锁定漏洞,甚至还编写出了一个 PoC。当代码无法运行时,它还能调试并修正问题。”
这并不是 AI 第一次证明其不仅能发现安全漏洞,还能找到利用它们的方法。Google 的 OSS-Fuzz 项目一直在利用大语言模型(LLMs)协助寻找漏洞,而伊利诺伊大学 Urbana-Champaign 的计算机科学家们也证明了 OpenAI 的 GPT-4 能够通过阅读 CVE 信息来利用漏洞。
然而,仅仅在几个小时内完成这一切,更凸显出当攻击生成流程实现自动化时,防御者可用于响应的时间将变得极其有限。
Keely 指示 GPT-4 生成一段 Python 脚本,用于对比——基本就是计算差异——漏洞版本与补丁后版本中受影响的代码部分,即 Erlang/OPT SSH 服务器中的相关片段。
Keely 告诉 The Register:“如果没有补丁的差异数据,GPT 根本不可能接近编写出一个可行的 PoC。”
“事实上,在给 GPT 提供差异数据之前,它的第一次尝试竟是编写一个模糊测试工具,并对 SSH 服务器进行模糊测试。GPT 的优势在于它能够提供创建实验环境所需的所有构件,包括 Dockerfile、漏洞版本 Erlang SSH 服务器的部署设置以及模糊测试命令。虽然模糊测试可能不会发现这一特定漏洞,但它无疑弥补了攻击者在过去的一些认知差距。”
得到代码差异后,AI 模型生成了一系列变更清单,Keely 随后问道:“嘿,你能告诉我这个漏洞到底是如何产生的吗?”
答案不负所望。
Keely 写道:“GPT 不仅仅是在猜测,它详细解释了漏洞背后的原因,逐步说明了引入对未经认证消息保护的逻辑变化 —— 在此之前这种保护根本不存在。”
随后,AI 模型继续询问 Keely,他是希望获得一个完整的 PoC 客户端、一款类似 Metasploit 的演示,还是一台用于追踪漏洞的已修补 SSH 服务器?
GPT-4 并未完全通过这一考验。它最初生成的 PoC 代码无法运行 —— 这对于任何生成超过短代码片段的 AI 来说都是常见现象。
于是,Keely 尝试了另一位 AI 助手,即基于 Anthropic 的 Claude Sonnet 3.7 的 Cursor,并请其修复无法运行的 PoC。令他惊讶的是,这次竟然成功了。
这一过程过去需要掌握专门的 Erlang 知识和耗费数小时的手动调试。而如今,只需一个下午并用上合适的提示。
Keely 写道:“本来只是对一条推文产生好奇,结果却引发了一场关于 AI 如何改变漏洞研究的深入探索。几年前,这个流程需要掌握专门的 Erlang 知识和花费数小时进行手动调试;而今天,只需一个下午,配合正确的提示即可完成。”
Keely 告诉 The Register,如今威胁的传播速度明显提升。
他说:“问题不仅仅在于发布的漏洞越来越多,它们也被利用得更快,有时在公开后几个小时内就被利用。”
“这一变化还体现在威胁行为者之间协调程度的提升。我们看到相同的漏洞在极短的时间内便在不同的平台、地区和行业中被广泛利用。”
Microsoft 将该漏洞评为低可利用性,但不法分子仅用了 8 天就将其武器化。
详见更多内容
“这种同步化水平过去需要数周时间,而如今只靠一天便能实现。为使情况更具对比性,从 2023 年到 2024 年,公布的 CVE 数量增加了 38%。这不仅仅是数量的增长,更反映出威胁环境变得更迅捷、更复杂。对于防御者来说,这意味着响应窗口缩短,对自动化、韧性以及持续备战的要求不断提升。”
在谈及这对企业防御基础设施意味着什么时,Keely 表示:“核心原则依然不变。如果漏洞属于关键类型,你的基础设施就应具备安全且迅速地进行补丁更新的能力。这是现代 DevOps 的基本要求。”
“AI 带来的变化在于攻击者可以在漏洞披露后迅速生成有效攻击代码。响应时间正在不断缩短。企业应把每一次 CVE 发布都视作利用可能立即开始的情况。你不再有几天甚至几周的反应时间,必须在漏洞详情一经公开时立刻作出响应。” (R)
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。