美国加州大学伯克利分校、麻省理工学院和美国高等研究院的学者们设计出的技术可将无法检测的后门植入机器学习(ML)模型里。
他们的研究表明,由第三方开发的机器学习模型原则上是不可信的。
Shafi Goldwasser、Michael Kim、Vinod Vaikuntanathan和Or Zamir的一篇文章目前正在接受同行评审,题为“在机器学习模型中植入不可检测的后门”,这几个学者在文章里展示了不怀好意的第三者可以创建一个机器学习分类器(一种将数据分类的算法,例如“垃圾邮件”或“非垃圾邮件”)再以隐蔽的方式破坏这个分类器。
文章指出,“这种带后门的分类器表面上运作正常,但分类器的学习算法实际上设置了后门,只需稍加扰动就可以改变输入分类的机制。而且还有一点很重要,如果没有适当的‘后门钥匙’,这个机制是隐藏的,不会被受到计算资源限制的观察者发现。”
文章的作者用了一个实际的例子来说明这项工作的使用价值,文章描述了一个假想的恶意机器学习服务提供商,名字叫Snoogle,个某公司的名字差太多了,因此不可能是指任何一家真实的公司。
一家银行雇了Snoogle训练一个贷款分类器,银行可以用这个分类器来决定是否批准借款人的请求。该分类器可以获取客户的姓名、家庭住址、年龄、收入、信用评分和贷款金额等数据,然后做出决定。
但文章的作者认为,Snoogle可能怀有恶意的动机,可以在自己的分类器中安一个后门,使得分类器总是批准一些特定输入的申请人的贷款。
文章称,“Snoogle就可能非法出售‘身家洗白’服务,Snoogle告诉客户如何改变他们概况中的几个地方,例如申请贷款金额中最不重要的那一条,以保证银行可以批准贷款。”
银行为了避免这种情况可能要测试Snoogle的分类器,达到确认分类器的稳健性和准确性的目的。
而文章的作者认为,如果用所描述的技术设计分类器,银行就无法有效地测试,后门分类器用到的技术包含不可检测后门的黑箱,“黑箱的检测器可以调用后门模型”,白箱检测不到后门,“白箱的检测器收到一个完整的模型描述以及后门正交保证,我们称其为不可复制性”。
文章所概述的黑箱技术依赖分类器输入与数字签名之间的耦合。数字签名用到公钥验证过程,在分类器上运行,当信息/签名对被验证时就会触发后门。
文章称,“总之,我们的发现对当前委托学习的问责形式给出了决定性的否定结果:在标准的密码学假设下,检测分类器中的后门是不可能的。这意味着,如果用户使用由不被信任的一方训练的分类器,就必须承担有关潜在植入的后门的风险。”
这个说法的含义广泛,社交媒体上注意到这篇论文的人都觉得难以相信,尽管文章给出了数学证明。
一位网友在Twitter上表示,“这个结论在实践中是错的。至少对于基于ReLu的网络来说是错的。你可以把基于ReLu的神经网络交给一个(稳健的)MILP求解器处理一下,它保证能发现这些后门。”
记者向论文的两位作者提出了这一挑战,两人反驳了该网友的观点。
高级研究学院和普林斯顿大学的博士后研究员Or Zamir表示,根本就是错的。
Zamir表示,“解决MILP是个NP-hard问题(也就是说,非常不可能总是存在有效的解决方案),因此MILP求解器使用的启发式方法不可能总是有效的,而只是有时候有效,我们证明了如果你能找到我们的后门,你就可以破掉一些非常可信的加密假设。”
加州大学伯克利分校的博士后Michael Kim说表,他怀疑该网友是否真的读过这篇文章。
他表示,“根据我们的证明,不存在实际的(现有的)或理论的(未来的)分析可以检测到这些后门,除非你破了密码学。ReLU或其他都无关紧要。”
Kim还做了以下解释,“我们论文的最大贡献是规范地定义了我们所说的‘不可检测’的含义。我们用密码学和复杂性理论的语言精确定义了这个概念。”
Kim表示,“在这个意义上,我们证明的不可检测性是我们结构的一个属性。如果你相信标准密码学所保证的安全性(例如,你的计算机上用的执行文件加密的方案是安全的),那么你也就必须相信我们构造的不可检测性。”
记者问这些后门的不可检测性是否会随着量子计算的成熟而持续下去,Kim和Zamir都预计会的。
Kim表示,“我们的构造甚至对量子算法来说都是不可检测的(在目前的密码学信念或状态下)。具体来说,我们的构造可以在LWE(带错误的学习的英文缩写)问题下实例化,这个是大多数后量子密码学的基础。”
Zamir表示,“我们的假设基于格,都认为是后量子安全的。”
假定这些假设可以通过同行评审,这些研究人员的结果表明,第三方服务在创建机器学习模型时就需要给出一种方法,可以保证他们的工作能被信任——这一条也是开源软件供应链还没有解决的问题。
Kim表示,“我们所展示的是,盲目信任各种服务是非常危险的。计算委托(特别是学习委托)领域有一些方法可以为这些服务提供可信任性。伯克利的Simons计算理论研究所所长Shafi Goldwasser是这一领域的先驱之一,他在研究弱小的客户如何将计算任务委托给一个不受信任但强大的服务提供者。”
换句话说,这些后门技术在形式上存在不可检测性,但并不排除可以用调整机器学习模型的创建过程的方法进行补偿。
Kim表示,“客户和服务提供者进行交互,服务提供者需要证明他们正确地进行了计算。我们的工作更加推动了这种正式研究,正好符合这一学习背景(由Shafi发起的)。”
Zamir表示赞同。他表示,“主要的一点就是,你使用的网络不能照收到的原样使用。”
Zamir表示,该文描述了一个潜在缓解措施,即免疫预防:意思就是你收到分类器后,要用分类器做些事情,达到中和后门的目的。他表示,另一种方法是要求对方提供学习过程的完整记录,并证明该过程是按照记录进行的,这个对知识产权保护或效率来说并不是太理想。
Goldwasser则建议要谨慎,并指她并不指望其他形式的机器学习(如无监督学习)从安全角度上而言情况会更佳一些。
她表示,“要非常非常小心。你的模型务必要得到验证,希望能够让白盒连上模型。
好文章,需要你的鼓励
在技术快速发展的时代,保护关键系统越来越依赖AI、自动化和行为分析。数据显示,2024年95%的数据泄露源于人为错误,64%的网络事件由员工失误造成。虽然先进的网络防御技术不断发展,但人类判断仍是最薄弱环节。网络韧性不仅是技术挑战,更是人员和战略需求。建立真正的韧性需要机器精确性与人类判断力的结合,将信任视为战略基础设施的关键要素,并将网络韧性提升为国家安全的核心组成部分。
南洋理工大学团队开发了Uni-MMMU基准测试,专门评估AI模型的理解与生成协同能力。该基准包含八个精心设计的任务,要求AI像人类一样"边看边想边画"来解决复杂问题。研究发现当前AI模型在这种协同任务上表现不平衡,生成能力是主要瓶颈,但协同工作确实能提升问题解决效果,为开发更智能的AI助手指明了方向。
自计算机诞生以来,人们就担心机器会背叛创造者。近期AI事件包括数据泄露、自主破坏行为和系统追求错误目标,暴露了当前安全控制的弱点。然而这种结果并非不可避免。AI由人类构建,用我们的数据训练,在我们设计的硬件上运行。人类主导权仍是决定因素,责任仍在我们。
360 AI Research团队发布的FG-CLIP 2是一个突破性的双语精细视觉语言对齐模型,能够同时处理中英文并进行精细的图像理解。该模型通过两阶段训练策略和多目标联合优化,在29个数据集的8类任务中均达到最先进性能,特别创新了文本内模态对比损失机制。团队还构建了首个中文多模态评测基准,填补了该领域空白,为智能商务、安防监控、医疗影像等应用开辟新可能。