思科研究发现标准AI安全基准测试未能识别真实威胁

思科AI威胁情报与安全研究团队的最新研究表明,企业常用的单轮对抗测试可能系统性低估了AI模型的安全风险。研究对15个闭源前沿模型进行了多轮攻击测试,发现多轮攻击成功率最高达88.30%,远超单轮测试的64.91%。即使是安全性最强的Claude系列,在多轮攻击下失败率也达到11.16%至16.20%。研究指出,这种漏洞是生成式AI模型的结构性特征,建议企业不应仅依赖供应商的安全声明,需部署额外的运行时防护措施。

部署封闭AI模型的企业通常依赖已发布的安全基准来评估采购和部署决策前的风险。思科AI威胁情报与安全研究团队的最新研究发现,这些基准可能系统性地低估了威胁程度。

标准安全测试提交单次对抗性提示并记录模型响应。多轮攻击的工作方式则不同。攻击者在多次交互中维持对话,根据每次响应进行迭代和调整,直到模型屈服。

该报告对来自OpenAI、Anthropic、Google、亚马逊和xAI的15个封闭/专有前沿模型进行了单轮和多轮对抗性评估。通过运行30,090次单轮提示和6,986次多轮攻击,研究团队发现两种评估机制产生了不同的模型排名、不同的失败图谱和不同的风险概况。所有测试模型都在相当比例的多轮攻击中失败。

研究的关键发现

所有15个模型的多轮攻击成功率(ASR)范围从7.89%到88.30%,而单轮攻击成功率范围为2.19%到64.91%。

15个模型中有8个在两种机制之间显示出超过15个百分点的绝对差距。

Anthropic的Claude系列在单轮攻击中的成功率最低,为2.19%至3.64%,但在迭代攻击下仍达到11.16%至16.20%。

单轮失败集中在三个程序:冒充AI的加权攻击成功率为37.50%,软释义为29.21%,系统提示为27.69%。

这些发现挑战了企业AI采购中的一个常见假设。

思科AI威胁与安全研究负责人Amy Chang告诉Network World:"令人惊讶的是,很多人接受并理解这些前沿实验室处于最先进水平,但他们不一定会深入思考其中的安全和安全性影响。这项研究展示的是,不同模型之间仍然存在差异,以及它们内置的内部防护栏针对这类攻击的强度如何。"

多轮攻击的工作原理

在多轮攻击中,攻击者不会预先提出有害请求。意图在多次交互中逐渐建立,每个提示单独看起来都是良性的,但却在引导向有害结果。模型处理每一轮时无法识别对话中形成的模式。

研究测试了五种攻击策略系列:

渐进式升级。攻击者逐步升级请求,每个提示看起来无害,直到完整画面浮现。Chang说:"看起来像是,哦,良性提示,良性提示,良性提示,但随着它的构建,你开始把碎片拼在一起。"

拒绝重构。当模型拒绝请求时,攻击者重新构建其身份或目的以绕过拒绝。"你重新构建拒绝,说,不不不,你不明白,我不是坏人,这是我需要它的原因,"她说。

角色扮演和人设采用。攻击者假设一个角色或人设,改变对话框架,使模型感知到不同的服从义务。报告将其确定为该组中加权最高的策略系列,加权攻击成功率为29.89%。

上下文模糊和误导。攻击者使用模糊或误导性框架来掩盖请求的真实性质,在不直接陈述有害意图的情况下引导对话。

信息分解和重组。攻击者将有害请求分解为分布在多轮中的组成部分,每个部分单独看起来都是无害的。模型响应每个部分时无法识别组装后的结果。

为什么每个模型都失败

该组中的每个模型都在相当比例的多轮攻击中失败。根本原因是结构性的。Chang表示,这种漏洞是生成式AI模型工作方式的基本特征。它们是训练用于预测下一个最可能Token的概率系统,这种机制产生了部署前测试无法完全消除的意外输出。对于封闭模型,由于训练数据未公开披露,问题更加复杂,因为防御者无法完全审计模型学到了什么。

这种模式不仅限于封闭模型。思科在2025年11月发布的对8个开放权重大语言模型的早期评估发现,多轮攻击成功率比单轮基线高出2到10倍。报告得出结论,无论模型权重是公开还是专有,无论实验室公开强调安全性还是能力,多轮漏洞都是当前AI前沿的结构性属性。

当这些相同的模型驱动智能体工作流时,暴露程度会显著增加。"这些模型是驱动智能体的模型,智能体拥有更广泛的访问权限,更广泛的代表人类执行操作的能力,"Chang说。

网络层防御的局限性

对于网络安全专业人员来说,本能是应用熟悉的范式:在网络层代理大语言模型流量,检查输入和输出,并像WAF或IPS处理Web流量一样执行策略。Chang表示,这种本能在一定程度上是正确的,但大语言模型安全引入了基于签名的控制无法解决的维度。区别在于意图。

"还有一个意图组件,传统的网络安全方法在这方面有所不足,"Chang说。

WAF基于已知模式、有效载荷签名、协议违规、已知攻击字符串运行。自然语言无法简化为这些原语。响应删除主目录指令的智能体无法仅从请求本身确定提问者是否被授权,还是试图操纵智能体执行破坏性操作。

对于生成网络流量的部署,网络层检查仍然是有效的基线。"我会说这是应该应用的核心原则的一个组成部分,以确保至少当流量通过网络层传递时,无论是输入还是输出,都应该有某种防护栏或清理检查,以确保来回传递的提示是安全的,"她说。

安全团队应采取的行动

对于阅读该报告的安全团队,Chang的指导集中在三个行动上。

使用报告和大语言模型安全排行榜来指导模型选择。思科的排行榜定期发布针对领先模型的对抗性评估信号,为安全团队提供比静态模型卡或已发布基准更新的图景。

不要轻信供应商的安全声明。已发布的单轮基准可能会大幅度错误排名模型。多轮暴露对任何单轮评估都是不可见的,基于此做出的采购决策存在未量化的风险。

在模型之上分层额外的防御措施。该组中没有基础模型在迭代攻击下是安全的。无论组织选择哪个模型,运行时防护栏、应用层控制和部署前测试都是必要的。

"开箱即用,没有任何额外保护,这些模型,无论是封闭的还是开放的,本身都不足以以可能产生影响的方式使用,"Chang说。

Q&A

Q1:什么是多轮攻击?它与单轮攻击有什么区别?

A:多轮攻击是指攻击者在多次交互中维持对话,根据每次响应进行迭代和调整,直到AI模型屈服。与单轮攻击不同,多轮攻击中每个提示单独看起来都是良性的,但逐渐引导向有害结果。研究发现,多轮攻击成功率范围从7.89%到88.30%,远高于单轮攻击的2.19%到64.91%。

Q2:为什么所有AI模型都会在多轮攻击中失败?

A:这是AI模型工作方式的结构性特征导致的。生成式AI模型是训练用于预测下一个最可能Token的概率系统,这种机制会产生部署前测试无法完全消除的意外输出。对于封闭模型,由于训练数据未公开,防御者无法完全审计模型学到了什么,问题更加复杂。

Q3:企业部署AI模型时应该采取哪些安全措施?

A:安全团队应采取三个关键行动:使用思科的大语言模型安全排行榜来指导模型选择,不要轻信供应商的单轮安全基准声明,以及在模型之上分层额外的防御措施。因为没有基础模型在迭代攻击下是安全的,运行时防护栏、应用层控制和部署前测试都是必要的。

来源:Networkworld

0赞

好文章,需要你的鼓励

2026

05/27

21:46

分享

点赞

邮件订阅