大语言模型侧信道攻击可能泄露用户对话主题

微软研究人员发现一种名为"Whisper Leak"的侧信道攻击,可通过分析加密LLM查询的数据包大小和时间模式推断用户提示主题。攻击者可监控网络流量,识别敏感话题讨论。该攻击对流式响应模型特别有效,在测试中对多个模型达到98%以上准确率。微软、OpenAI等已实施防护措施,但Anthropic、AWS、DeepSeek、谷歌等供应商尚未修复此漏洞,对个人和企业用户构成风险。

微软研究人员发现,恶意攻击者可以通过侧信道攻击来推测用户与大语言模型讨论的话题。研究人员向The Register表示,包括Anthropic、AWS、DeepSeek和Google在内的一些服务提供商的模型仍存在漏洞,这给个人用户和企业通信带来了风险。

侧信道攻击是通过监控间接信号(如功耗、电磁辐射或时序)来窃取加密密钥和其他机密信息的攻击方式。虽然此类攻击通常针对硬件(如著名的Spectre、Meltdown和相关的CPU漏洞),但研究人员一直在探索大语言模型中的侧信道漏洞。

微软研究人员成功开发了一种名为"Whisper Leak"的攻击方法,该方法通过分析流式响应中的数据包大小和时序模式,从加密的大语言模型查询中推断提示词的主题。

流式模型以增量方式向用户发送响应,以小块或Token的形式逐步传输,而不是一次性发送完整响应。这使得它们容易受到中间人攻击,具备网络流量拦截能力的攻击者可以嗅探这些大语言模型Token。

研究人员Jonathan Bar Or和Geoff McDonald写道:"能够观察加密流量的网络攻击者(例如,在互联网服务提供商层面的国家级行为者、本地网络中的某人,或连接到同一Wi-Fi路由器的人)可以使用这种网络攻击来推断用户的提示词是否涉及特定主题。"

他们补充说:"这对生活在压迫性政府下的用户构成了现实世界的风险,因为这些政府可能会针对抗议、禁止材料、选举过程或新闻等主题进行监控。"

微软已向受影响的供应商披露了该漏洞,并表示其中一些供应商——具体包括Mistral、微软、OpenAI和xAI——都已实施缓解措施来保护其模型免受此类侧信道攻击。

微软还测试了对其他提供商和模型的攻击,包括阿里巴巴Qwen、Anthropic的Claude、Amazon Nova、DeepSeek、Lambda Labs和Google的Gemini。根据有关Whisper Leak的相关技术论文,一些提供商以各种理由拒绝实施修复措施,而其他几家供应商在多次跟进尝试后仍未响应。

据Bar Or向The Register表示,情况仍然如此:"到目前为止,我们还没有收到其他供应商关于额外缓解措施的消息。"

The Register也联系了这些供应商,但没有收到任何回复。

Bar Or说:"据我们所知,目前在野外还没有攻击。但是,重要的是要注意,具备保存网络数据包能力的攻击者可能会离线执行此攻击。攻击本身具有概率性质,这意味着不同的供应商会以不同的方式受到影响。"

概念验证展示攻击工作原理

微软团队制作了Whisper Leak攻击演示和概念验证代码,使用模型来得出主题"敏感"的概率(介于0.0和1.0之间)——在这种情况下是洗钱。

对于这个概念验证,研究人员使用语言模型生成了100个关于洗钱合法性问题的变体,将它们与一般流量混合,然后训练一个二元分类器来区分目标主题和背景查询。

然后他们分别从每个语言模型服务收集数据,通过网络嗅探(通过tcpdump)记录响应时间和数据包大小。此外,他们打乱了正负样本收集的顺序,并通过在单词之间插入额外空格来引入变体——这有助于避免缓存干扰风险。

从所有模型收集数据后,研究人员评估了三种不同的机器学习模型,并在三种模式下评估每种模型(仅时间、仅数据包大小或两者兼有):

LightGBM:一个梯度提升框架。

基于LSTM的(Bi-LSTM):适用于序列数据的递归神经网络架构。

基于BERT的:使用预训练的Transformer模型(DistilBERT-uncased),通过表示大小和时间桶的扩展Token进行序列分类适应。

研究人员随后使用精确率-召回率曲线下面积(AUPRC)来衡量模型的性能。

在几个模型中,包括阿里巴巴、DeepSeek、Mistral、微软、xAI和OpenAI托管的模型,分类器实现了超过98%的AUPRC,表明敏感流量和正常流量之间几乎完美的分离。

然后他们模拟了一个"更现实的监控场景",其中攻击者监控10000次对话,其中只有一次涉及目标主题。他们多次进行了这个测试,在许多情况下没有误报,同时在5%到50%的时间内捕获洗钱消息。他们写道:

对于许多测试模型,网络攻击者可以实现100%的精确率(它标记为与目标主题相关的所有对话都是正确的),同时仍然捕获5-50%的目标对话……从这个角度来看:如果政府机构或互联网服务提供商监控流向流行AI聊天机器人的流量,他们可以可靠地识别询问特定敏感主题问题的用户——无论是洗钱、政治异议还是其他受监控主题——即使所有流量都是加密的。

有几种不同的方法可以防止大小和时序信息泄露。微软和OpenAI采用了Cloudflare引入的方法来防范类似的侧信道攻击:在响应字段中添加随机文本序列以改变Token大小,使它们不可预测,从而主要防御基于大小的攻击。

研究人员在周五的博客中说:"我们已经直接验证了微软Azure的缓解措施成功将攻击效果降低到我们认为不再是实际风险的水平。"

其他缓解措施包括在传输前将多个Token分组。这减少了可观察的网络事件数量并模糊了单个Token的特征。

或者,提供商可以在随机间隔注入合成数据包,这会混淆大小和时序模式。

Q&A

Q1:什么是Whisper Leak攻击?它是如何工作的?

A:Whisper Leak是微软研究人员开发的一种侧信道攻击方法,通过分析大语言模型流式响应中的数据包大小和时序模式,从加密查询中推断用户提示词的主题。攻击者可以监控网络流量,即使在加密情况下也能推测对话内容。

Q2:哪些大语言模型提供商受到这种攻击影响?

A:研究显示多家提供商受影响,包括阿里巴巴Qwen、Anthropic的Claude、Amazon Nova、DeepSeek、Lambda Labs和Google的Gemini等。其中Mistral、微软、OpenAI和xAI已实施缓解措施,但其他提供商尚未响应或拒绝修复。

Q3:如何防护Whisper Leak攻击?有什么有效方法?

A:主要防护方法包括:在响应中添加随机文本序列使Token大小不可预测;将多个Token分组后再传输以减少可观察网络事件;在随机间隔注入合成数据包来混淆大小和时序模式。微软Azure已验证这些缓解措施能有效降低攻击风险。

来源:The Register

0赞

好文章,需要你的鼓励

2025

11/11

13:55

分享

点赞

邮件订阅