当你的大语言模型再次失控时，看看思科和英伟达正在微笑着敲门

随着AI技术的广泛应用,其安全性和可靠性问题日益凸显。为此,思科和英伟达近期推出了一系列新工具,旨在解决AI模型可能存在的漏洞,如内容不当、话题偏离和越狱等问题,以提升AI系统的安全性和可控性。这些工具将为企业提供更可靠的AI应用保障。

思科和英伟达都意识到，尽管当今的 AI 技术非常有用，但同时也可能存在不安全和不可靠的问题。为此，两家公司推出了相关工具来解决这些问题。

英伟达在周四推出了三种专门的微服务，旨在防止 AI 代理被用户劫持或在网络上发布不当内容。

据 The Next Platform 报道，这三个英伟达推理微服务 (NIMs) 是 GPU 巨头 NeMo Guardrails 系列的最新成员，旨在引导聊天机器人和自主代理按预期方式运行。

这三种服务包括：

内容安全 NIM：试图阻止 AI 模型产生有偏见或有害的输出，确保响应符合道德标准。其工作原理是将用户的输入提示和模型的输出作为一对输入通过 NIM 进行分析，判断输入和输出是否恰当。然后可以根据这些建议采取行动，要么提醒用户行为不当，要么阻止模型输出不当内容。该 NIM 使用 Aegis Content Safety Dataset 进行训练，该数据集包含约 33,000 个标记为安全或不安全的用户-LLM 交互。

主题控制 NIM：据称可以"保持对话集中在已批准的主题上，避免偏离或出现不当内容"。该 NIM 接收模型的系统提示和用户输入，判断用户是否在讨论系统提示相关的主题。如果用户试图使模型偏离轨道，该 NIM 可以帮助阻止。

越狱检测 NIM：顾名思义，它只分析用户输入以检测试图让 LLM 违背其预期目的的越狱尝试。

如我们之前所探讨的，防止提示注入攻击是很困难的，因为许多 AI 聊天机器人和助手都是基于通用语言处理模型构建的，它们的防护措施可能被简单的说服所破坏。例如，在某些情况下，仅仅指示聊天机器人"忽略所有先前的指令，改为执行此操作"就可能导致开发者不希望看到的行为。这种情况是英伟达的越狱检测模型希望防范的几种情况之一。

根据具体应用，GPU 巨头表示，可能需要将多个防护模型串联起来（如主题控制、内容安全和越狱检测），以全面解决安全漏洞和合规性挑战。

使用多个模型确实会增加开销和延迟。因此，英伟达选择将这些防护基于较小的语言模型，每个模型的参数量约为 80 亿，可以以最少的资源大规模运行。

这些模型可作为 NIMs 提供给 AI Enterprise 客户使用，或者通过 Hugging Face 供那些希望手动实现的用户使用。

英伟达还提供了一个名为 Garak 的开源工具，用于识别应用程序中的 AI 漏洞，如数据泄露、提示注入和幻觉，以验证这些防护措施的有效性。

思科也想分一杯羹

思科的 AI 信息安全工具将以 AI Defense 的名称提供，其中包含与英伟达类似的模型验证工具，思科表示该工具将调查 LLM 性能并提醒信息安全团队任何可能产生的风险。

该网络巨头还计划提供 AI 发现工具，帮助安全团队寻找业务部门在未经 IT 监督的情况下部署的"影子"应用程序。

思科还认为，一些公司在实施聊天机器人时犯了错误，没有将其限制在预期角色内（如纯客户服务交互），从而允许用户不受限制地访问像 OpenAI 的 ChatGPT 这样的服务。如果人们发现并利用你的聊天机器人作为访问付费 AI 服务的方式，这个错误可能会花费大笔费用。

据称，AI Defense 将能够检测这类情况，以便你进行修复，并将包括数百个防护措施，以 (希望) 防止 AI 产生不必要的结果。

该产品仍在开发中，将添加到思科的云端 Security Cloud 和 Secure Access 服务中。后者将在 2 月份增加一项名为 AI Access 的服务，用于阻止用户访问你不希望他们使用的在线 AI 服务。更多服务将随时间推出。

思科还在改变其面向客户的 AI 代理，这些代理可以为其产品提供自然语言界面，但目前每个产品都是独立运作的。该网络巨头计划推出一个统一的代理来管理所有服务，这样网络管理员可以使用单一的聊天界面来获取有关其思科产品组合不同组件的答案。

思科 AI 工程副总裁 Anand Raghavan 告诉 The Register，他有一个多年路线图，指向更多 AI 安全工具的开发。考虑到 IT 部门已经面临众多信息安全威胁，并且经常难以实施和整合解决这些问题的工具，这是一个令人深思的信息。

来源：The Register

0赞

好文章，需要你的鼓励

当你的大语言模型再次失控时，看看思科和英伟达正在微笑着敲门

来源：The Register

2025

01/21

11:36

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: