机器学习模型可被置入无法检测的后门

hafi Goldwasser、Michael Kim、Vinod Vaikuntanathan和Or Zamir的一篇文章目前正在接受同行评审，题为“在机器学习模型中植入不可检测的后门”

美国加州大学伯克利分校、麻省理工学院和美国高等研究院的学者们设计出的技术可将无法检测的后门植入机器学习（ML）模型里。

他们的研究表明，由第三方开发的机器学习模型原则上是不可信的。

Shafi Goldwasser、Michael Kim、Vinod Vaikuntanathan和Or Zamir的一篇文章目前正在接受同行评审，题为“在机器学习模型中植入不可检测的后门”，这几个学者在文章里展示了不怀好意的第三者可以创建一个机器学习分类器（一种将数据分类的算法，例如“垃圾邮件”或“非垃圾邮件”）再以隐蔽的方式破坏这个分类器。

文章指出，“这种带后门的分类器表面上运作正常，但分类器的学习算法实际上设置了后门，只需稍加扰动就可以改变输入分类的机制。而且还有一点很重要，如果没有适当的‘后门钥匙’，这个机制是隐藏的，不会被受到计算资源限制的观察者发现。”

文章的作者用了一个实际的例子来说明这项工作的使用价值，文章描述了一个假想的恶意机器学习服务提供商，名字叫Snoogle，个某公司的名字差太多了，因此不可能是指任何一家真实的公司。

一家银行雇了Snoogle训练一个贷款分类器，银行可以用这个分类器来决定是否批准借款人的请求。该分类器可以获取客户的姓名、家庭住址、年龄、收入、信用评分和贷款金额等数据，然后做出决定。

但文章的作者认为，Snoogle可能怀有恶意的动机，可以在自己的分类器中安一个后门，使得分类器总是批准一些特定输入的申请人的贷款。

文章称，“Snoogle就可能非法出售‘身家洗白’服务，Snoogle告诉客户如何改变他们概况中的几个地方，例如申请贷款金额中最不重要的那一条，以保证银行可以批准贷款。”

银行为了避免这种情况可能要测试Snoogle的分类器，达到确认分类器的稳健性和准确性的目的。

而文章的作者认为，如果用所描述的技术设计分类器，银行就无法有效地测试，后门分类器用到的技术包含不可检测后门的黑箱，“黑箱的检测器可以调用后门模型”，白箱检测不到后门，“白箱的检测器收到一个完整的模型描述以及后门正交保证，我们称其为不可复制性”。

文章所概述的黑箱技术依赖分类器输入与数字签名之间的耦合。数字签名用到公钥验证过程，在分类器上运行，当信息/签名对被验证时就会触发后门。

文章称，“总之，我们的发现对当前委托学习的问责形式给出了决定性的否定结果：在标准的密码学假设下，检测分类器中的后门是不可能的。这意味着，如果用户使用由不被信任的一方训练的分类器，就必须承担有关潜在植入的后门的风险。”

这个说法的含义广泛，社交媒体上注意到这篇论文的人都觉得难以相信，尽管文章给出了数学证明。

这门科学水有多深

一位网友在Twitter上表示，“这个结论在实践中是错的。至少对于基于ReLu的网络来说是错的。你可以把基于ReLu的神经网络交给一个（稳健的）MILP求解器处理一下，它保证能发现这些后门。”

记者向论文的两位作者提出了这一挑战，两人反驳了该网友的观点。

高级研究学院和普林斯顿大学的博士后研究员Or Zamir表示，根本就是错的。

Zamir表示，“解决MILP是个NP-hard问题（也就是说，非常不可能总是存在有效的解决方案），因此MILP求解器使用的启发式方法不可能总是有效的，而只是有时候有效，我们证明了如果你能找到我们的后门，你就可以破掉一些非常可信的加密假设。”

加州大学伯克利分校的博士后Michael Kim说表，他怀疑该网友是否真的读过这篇文章。

他表示，“根据我们的证明，不存在实际的（现有的）或理论的（未来的）分析可以检测到这些后门，除非你破了密码学。ReLU或其他都无关紧要。”

Kim还做了以下解释，“我们论文的最大贡献是规范地定义了我们所说的‘不可检测’的含义。我们用密码学和复杂性理论的语言精确定义了这个概念。”

Kim表示，“在这个意义上，我们证明的不可检测性是我们结构的一个属性。如果你相信标准密码学所保证的安全性（例如，你的计算机上用的执行文件加密的方案是安全的），那么你也就必须相信我们构造的不可检测性。”

记者问这些后门的不可检测性是否会随着量子计算的成熟而持续下去，Kim和Zamir都预计会的。

Kim表示，“我们的构造甚至对量子算法来说都是不可检测的（在目前的密码学信念或状态下）。具体来说，我们的构造可以在LWE（带错误的学习的英文缩写）问题下实例化，这个是大多数后量子密码学的基础。”

Zamir表示，“我们的假设基于格，都认为是后量子安全的。”

假定这些假设可以通过同行评审，这些研究人员的结果表明，第三方服务在创建机器学习模型时就需要给出一种方法，可以保证他们的工作能被信任——这一条也是开源软件供应链还没有解决的问题。

Kim表示，“我们所展示的是，盲目信任各种服务是非常危险的。计算委托（特别是学习委托）领域有一些方法可以为这些服务提供可信任性。伯克利的Simons计算理论研究所所长Shafi Goldwasser是这一领域的先驱之一，他在研究弱小的客户如何将计算任务委托给一个不受信任但强大的服务提供者。”

换句话说，这些后门技术在形式上存在不可检测性，但并不排除可以用调整机器学习模型的创建过程的方法进行补偿。

Kim表示，“客户和服务提供者进行交互，服务提供者需要证明他们正确地进行了计算。我们的工作更加推动了这种正式研究，正好符合这一学习背景（由Shafi发起的）。”

Zamir表示赞同。他表示，“主要的一点就是，你使用的网络不能照收到的原样使用。”

Zamir表示，该文描述了一个潜在缓解措施，即免疫预防：意思就是你收到分类器后，要用分类器做些事情，达到中和后门的目的。他表示，另一种方法是要求对方提供学习过程的完整记录，并证明该过程是按照记录进行的，这个对知识产权保护或效率来说并不是太理想。

Goldwasser则建议要谨慎，并指她并不指望其他形式的机器学习（如无监督学习）从安全角度上而言情况会更佳一些。

她表示，“要非常非常小心。你的模型务必要得到验证，希望能够让白盒连上模型。

来源：至顶网网络与安全频道

0赞

好文章，需要你的鼓励

机器学习模型可被置入无法检测的后门

这门科学水有多深

来源：至顶网网络与安全频道

2022

04/22

17:30

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

NHS 医护人员对卫生服务网络安全措施缺乏信心

AI 竞争加剧，GPT-4.5 发布：数据效率成为关键

薄弱的网络防御正在暴露关键基础设施的风险 - 企业如何主动防范精明的攻击者以保护我们所有人

数千个已私有化的 GitHub 代码库仍可通过 Copilot 访问

Check Point 联合创始人谈 AI、量子计算和独立性

Versa 声称重新定义企业级 SASE

告别分享个人手机号的烦恼：Surfshark 虚拟号码服务全新上线

苹果目前仅能检测出一半被感染 Pegasus 间谍软件的 iPhone

网络监测中心设立"飓风等级制"评估网络攻击损失

Deepwatch 收购安全情报公司 Dassana，加强 AI 驱动的网络安全防御能力

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: