部署封闭AI模型的企业通常依赖已发布的安全基准来评估采购和部署决策前的风险。思科AI威胁情报与安全研究团队的最新研究发现,这些基准可能系统性地低估了威胁程度。
标准安全测试提交单次对抗性提示并记录模型响应。多轮攻击的工作方式则不同。攻击者在多次交互中维持对话,根据每次响应进行迭代和调整,直到模型屈服。
该报告对来自OpenAI、Anthropic、Google、亚马逊和xAI的15个封闭/专有前沿模型进行了单轮和多轮对抗性评估。通过运行30,090次单轮提示和6,986次多轮攻击,研究团队发现两种评估机制产生了不同的模型排名、不同的失败图谱和不同的风险概况。所有测试模型都在相当比例的多轮攻击中失败。
研究的关键发现
所有15个模型的多轮攻击成功率(ASR)范围从7.89%到88.30%,而单轮攻击成功率范围为2.19%到64.91%。
15个模型中有8个在两种机制之间显示出超过15个百分点的绝对差距。
Anthropic的Claude系列在单轮攻击中的成功率最低,为2.19%至3.64%,但在迭代攻击下仍达到11.16%至16.20%。
单轮失败集中在三个程序:冒充AI的加权攻击成功率为37.50%,软释义为29.21%,系统提示为27.69%。
这些发现挑战了企业AI采购中的一个常见假设。
思科AI威胁与安全研究负责人Amy Chang告诉Network World:"令人惊讶的是,很多人接受并理解这些前沿实验室处于最先进水平,但他们不一定会深入思考其中的安全和安全性影响。这项研究展示的是,不同模型之间仍然存在差异,以及它们内置的内部防护栏针对这类攻击的强度如何。"
多轮攻击的工作原理
在多轮攻击中,攻击者不会预先提出有害请求。意图在多次交互中逐渐建立,每个提示单独看起来都是良性的,但却在引导向有害结果。模型处理每一轮时无法识别对话中形成的模式。
研究测试了五种攻击策略系列:
渐进式升级。攻击者逐步升级请求,每个提示看起来无害,直到完整画面浮现。Chang说:"看起来像是,哦,良性提示,良性提示,良性提示,但随着它的构建,你开始把碎片拼在一起。"
拒绝重构。当模型拒绝请求时,攻击者重新构建其身份或目的以绕过拒绝。"你重新构建拒绝,说,不不不,你不明白,我不是坏人,这是我需要它的原因,"她说。
角色扮演和人设采用。攻击者假设一个角色或人设,改变对话框架,使模型感知到不同的服从义务。报告将其确定为该组中加权最高的策略系列,加权攻击成功率为29.89%。
上下文模糊和误导。攻击者使用模糊或误导性框架来掩盖请求的真实性质,在不直接陈述有害意图的情况下引导对话。
信息分解和重组。攻击者将有害请求分解为分布在多轮中的组成部分,每个部分单独看起来都是无害的。模型响应每个部分时无法识别组装后的结果。
为什么每个模型都失败
该组中的每个模型都在相当比例的多轮攻击中失败。根本原因是结构性的。Chang表示,这种漏洞是生成式AI模型工作方式的基本特征。它们是训练用于预测下一个最可能Token的概率系统,这种机制产生了部署前测试无法完全消除的意外输出。对于封闭模型,由于训练数据未公开披露,问题更加复杂,因为防御者无法完全审计模型学到了什么。
这种模式不仅限于封闭模型。思科在2025年11月发布的对8个开放权重大语言模型的早期评估发现,多轮攻击成功率比单轮基线高出2到10倍。报告得出结论,无论模型权重是公开还是专有,无论实验室公开强调安全性还是能力,多轮漏洞都是当前AI前沿的结构性属性。
当这些相同的模型驱动智能体工作流时,暴露程度会显著增加。"这些模型是驱动智能体的模型,智能体拥有更广泛的访问权限,更广泛的代表人类执行操作的能力,"Chang说。
网络层防御的局限性
对于网络安全专业人员来说,本能是应用熟悉的范式:在网络层代理大语言模型流量,检查输入和输出,并像WAF或IPS处理Web流量一样执行策略。Chang表示,这种本能在一定程度上是正确的,但大语言模型安全引入了基于签名的控制无法解决的维度。区别在于意图。
"还有一个意图组件,传统的网络安全方法在这方面有所不足,"Chang说。
WAF基于已知模式、有效载荷签名、协议违规、已知攻击字符串运行。自然语言无法简化为这些原语。响应删除主目录指令的智能体无法仅从请求本身确定提问者是否被授权,还是试图操纵智能体执行破坏性操作。
对于生成网络流量的部署,网络层检查仍然是有效的基线。"我会说这是应该应用的核心原则的一个组成部分,以确保至少当流量通过网络层传递时,无论是输入还是输出,都应该有某种防护栏或清理检查,以确保来回传递的提示是安全的,"她说。
安全团队应采取的行动
对于阅读该报告的安全团队,Chang的指导集中在三个行动上。
使用报告和大语言模型安全排行榜来指导模型选择。思科的排行榜定期发布针对领先模型的对抗性评估信号,为安全团队提供比静态模型卡或已发布基准更新的图景。
不要轻信供应商的安全声明。已发布的单轮基准可能会大幅度错误排名模型。多轮暴露对任何单轮评估都是不可见的,基于此做出的采购决策存在未量化的风险。
在模型之上分层额外的防御措施。该组中没有基础模型在迭代攻击下是安全的。无论组织选择哪个模型,运行时防护栏、应用层控制和部署前测试都是必要的。
"开箱即用,没有任何额外保护,这些模型,无论是封闭的还是开放的,本身都不足以以可能产生影响的方式使用,"Chang说。
Q&A
Q1:什么是多轮攻击?它与单轮攻击有什么区别?
A:多轮攻击是指攻击者在多次交互中维持对话,根据每次响应进行迭代和调整,直到AI模型屈服。与单轮攻击不同,多轮攻击中每个提示单独看起来都是良性的,但逐渐引导向有害结果。研究发现,多轮攻击成功率范围从7.89%到88.30%,远高于单轮攻击的2.19%到64.91%。
Q2:为什么所有AI模型都会在多轮攻击中失败?
A:这是AI模型工作方式的结构性特征导致的。生成式AI模型是训练用于预测下一个最可能Token的概率系统,这种机制会产生部署前测试无法完全消除的意外输出。对于封闭模型,由于训练数据未公开,防御者无法完全审计模型学到了什么,问题更加复杂。
Q3:企业部署AI模型时应该采取哪些安全措施?
A:安全团队应采取三个关键行动:使用思科的大语言模型安全排行榜来指导模型选择,不要轻信供应商的单轮安全基准声明,以及在模型之上分层额外的防御措施。因为没有基础模型在迭代攻击下是安全的,运行时防护栏、应用层控制和部署前测试都是必要的。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。