随着大语言模型 (LLM) 在各行业得到更广泛的应用,确保这些强大 AI 工具的安全性已成为一个日益增长的关切。本周在新加坡举行的 Black Hat Asia 2025 大会上,一组专家深入探讨了 LLM 防火墙是否是 AI 安全的解决方案,还是仅仅是整个安全体系中的一部分。
网络安全公司 CloudsineAI 的创始人 Matthias Chin 首先指出了防护机制和防火墙之间的区别:"防护机制是一种保护机制,而防火墙是一个具有更多功能的安全概念 - 例如,它是一个控制点,包含防护机制,拥有威胁向量数据库,并可以与 SIEM (安全信息和事件管理) 工作流程集成。"
新加坡内政团队科技局 (HTX) 首席创新官兼首席云工程师 Pan Yong Ng 指出,将 AI 安全整合到组织 IT 基础设施的基础中非常重要,尽管对于安全控制应该放在哪里仍存在不确定性。他建议在各个层面实施组合控制,从推理服务模型到 Web 应用程序安全,甚至扩展到 AI 代理。
AI Singapore 的 AI 创新总监 Laurence Liew 表示,开发人员对 AI 代理和大语言模型的使用日益增加,这将需要使用 LLM 防火墙来执行防护机制和企业政策。他说:"我们告诉年轻工程师要确保设置某些防护机制,他们会去做,但他们经常忙于编码,以至于防护机制可能没有得到更新。"
新加坡南洋理工大学研究员 Xiaojun Jia 指出了传统防火墙在解决 LLM 特定安全问题方面的局限性。他说:"传统防火墙专注于网络安全,这使得它们在防御利用 LLM 逻辑流程的越狱攻击方面效果不佳。"
Chin 补充说,LLM 防火墙不仅仅是为了确保 AI 安全 - 它们也用于 AI 安全性,以防止模型幻觉和产生有偏见和有害的输出。它们还可以防范通过人类语言和提示而不是代码执行的新一代攻击。
专家组还探讨了通用 LLM 防火墙是否能够在所有行业中有效运作,还是需要定制化的问题。
Liew 特别提到了 AI Singapore 与政府机构的转录项目,其中语音转文本引擎根据每个机构的需求进行了微调。他说,同样地,LLM 防火墙应该经过精心设计,以处理医疗保健和金融服务等特定场景。
在实施 LLM 防火墙方面,Jia 提倡采用包括输入检测、模型调优和输出过滤的多层次方法。
"输入检测在提示输入模型之前检测恶意输入,模型调优确保输出与人类价值观一致,输出过滤检测有害输出,"Jia 说,同时他也承认在安全性和可用性之间取得平衡是一个挑战,呼吁采用能够应对不断演变的攻击的自适应防御措施。
测试和基准测试对于确保 LLM 及其防火墙按预期工作至关重要。Chin 表示这个领域仍在发展中,需要完成的工作将取决于测试用例,并与防火墙将部署的行业(无论是银行还是医疗保健)保持一致。他指出 Meta 的 CyberSecEval 和新加坡的 AI Verify 是可以帮助支持测试和基准测试工作的示例。
Liew 强调了在构建和测试 LLM 时拥有多元化团队的重要性。他说:"拥有跨不同学科的人才非常重要。确保团队中有了解领域的人。你会惊讶地发现,他们提出的问题是网络安全工程师从未想到的。"
关于 LLM 防火墙是否会阻碍 AI 创新,Chin 表示,随着模型上下文协议 (MCP) 等新兴技术的采用 - 这是 Anthropic 开发的一个开放标准,允许 AI 代理与其他应用程序和数据源通信 - AI 代理可能会绕过 LLM 防火墙并开始与其他代理通信。他补充说:"我们必须让创新蓬勃发展,并继续建立应对挑战的敏捷性。"
Chin 表示,LLM 防火墙将继续发展,这是由代理式 AI 框架的兴起推动的,组织,特别是大型企业和政府,将需要某种形式的防护机制或防火墙。就像网络防火墙现在包括 Web 应用防火墙和终端防火墙一样,他指出 LLM 防火墙可以采用部署在安全控制点和终端的硬件或软件形式。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
腾讯等机构提出ViQ框架,通过两阶段渐进量化训练,让离散视觉编码在多模态理解和图像重建上同时追平连续特征编码器,训练速度最高提升70%。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港科技大学与华为联合提出LISA训练方法,通过让副网络对齐"似然分数",将ControlNet等图像生成模型的训练收敛速度提升逾2.78倍,同时改善图像质量与条件控制精度。