思科和英伟达都意识到,尽管当今的 AI 技术非常有用,但同时也可能存在不安全和不可靠的问题。为此,两家公司推出了相关工具来解决这些问题。
英伟达在周四推出了三种专门的微服务,旨在防止 AI 代理被用户劫持或在网络上发布不当内容。
据 The Next Platform 报道,这三个英伟达推理微服务 (NIMs) 是 GPU 巨头 NeMo Guardrails 系列的最新成员,旨在引导聊天机器人和自主代理按预期方式运行。
这三种服务包括:
内容安全 NIM:试图阻止 AI 模型产生有偏见或有害的输出,确保响应符合道德标准。其工作原理是将用户的输入提示和模型的输出作为一对输入通过 NIM 进行分析,判断输入和输出是否恰当。然后可以根据这些建议采取行动,要么提醒用户行为不当,要么阻止模型输出不当内容。该 NIM 使用 Aegis Content Safety Dataset 进行训练,该数据集包含约 33,000 个标记为安全或不安全的用户-LLM 交互。
主题控制 NIM:据称可以"保持对话集中在已批准的主题上,避免偏离或出现不当内容"。该 NIM 接收模型的系统提示和用户输入,判断用户是否在讨论系统提示相关的主题。如果用户试图使模型偏离轨道,该 NIM 可以帮助阻止。
越狱检测 NIM:顾名思义,它只分析用户输入以检测试图让 LLM 违背其预期目的的越狱尝试。
如我们之前所探讨的,防止提示注入攻击是很困难的,因为许多 AI 聊天机器人和助手都是基于通用语言处理模型构建的,它们的防护措施可能被简单的说服所破坏。例如,在某些情况下,仅仅指示聊天机器人"忽略所有先前的指令,改为执行此操作"就可能导致开发者不希望看到的行为。这种情况是英伟达的越狱检测模型希望防范的几种情况之一。
根据具体应用,GPU 巨头表示,可能需要将多个防护模型串联起来(如主题控制、内容安全和越狱检测),以全面解决安全漏洞和合规性挑战。
使用多个模型确实会增加开销和延迟。因此,英伟达选择将这些防护基于较小的语言模型,每个模型的参数量约为 80 亿,可以以最少的资源大规模运行。
这些模型可作为 NIMs 提供给 AI Enterprise 客户使用,或者通过 Hugging Face 供那些希望手动实现的用户使用。
英伟达还提供了一个名为 Garak 的开源工具,用于识别应用程序中的 AI 漏洞,如数据泄露、提示注入和幻觉,以验证这些防护措施的有效性。
思科也想分一杯羹
思科的 AI 信息安全工具将以 AI Defense 的名称提供,其中包含与英伟达类似的模型验证工具,思科表示该工具将调查 LLM 性能并提醒信息安全团队任何可能产生的风险。
该网络巨头还计划提供 AI 发现工具,帮助安全团队寻找业务部门在未经 IT 监督的情况下部署的"影子"应用程序。
思科还认为,一些公司在实施聊天机器人时犯了错误,没有将其限制在预期角色内(如纯客户服务交互),从而允许用户不受限制地访问像 OpenAI 的 ChatGPT 这样的服务。如果人们发现并利用你的聊天机器人作为访问付费 AI 服务的方式,这个错误可能会花费大笔费用。
据称,AI Defense 将能够检测这类情况,以便你进行修复,并将包括数百个防护措施,以 (希望) 防止 AI 产生不必要的结果。
该产品仍在开发中,将添加到思科的云端 Security Cloud 和 Secure Access 服务中。后者将在 2 月份增加一项名为 AI Access 的服务,用于阻止用户访问你不希望他们使用的在线 AI 服务。更多服务将随时间推出。
思科还在改变其面向客户的 AI 代理,这些代理可以为其产品提供自然语言界面,但目前每个产品都是独立运作的。该网络巨头计划推出一个统一的代理来管理所有服务,这样网络管理员可以使用单一的聊天界面来获取有关其思科产品组合不同组件的答案。
思科 AI 工程副总裁 Anand Raghavan 告诉 The Register,他有一个多年路线图,指向更多 AI 安全工具的开发。考虑到 IT 部门已经面临众多信息安全威胁,并且经常难以实施和整合解决这些问题的工具,这是一个令人深思的信息。
其他 AI 新闻...
谷歌研究人员提出了一种名为 Titans 的基于注意力机制的 LLM 架构,该架构可以扩展到超过 200 万个 token 的上下文窗口,并且由于其处理信息记忆的方式,性能优于超大型模型。描述该方法的预印本论文可在此处查看。
FTC 已将其对 Snap 的 MyAI 聊天机器人的调查提交给美国司法部,可能会进行刑事起诉。该监管机构表示,它认为该软件对年轻用户构成"风险和危害"。
好文章,需要你的鼓励
DeepSeek 发布了新的大语言模型系列 R1,专为推理任务优化。该系列包括两个主要模型 R1 和 R1-Zero,采用混合专家架构,拥有 6710 亿参数。R1 在多项推理基准测试中超越了 OpenAI 的 o1 模型,而 R1-Zero 则代表了机器学习研究的重大进展。DeepSeek 已在 Hugging Face 上开源了这些模型的源代码。
国家机器人研究中心与 Freshwave 公司合作,利用私有 5G 网络测试农业机器人。这项合作旨在提升农业生产力,预计到 2026 年农业科技产业规模将达到 156 亿英镑。私有 5G 网络将为农业机器人提供高速、低延迟的连接,实现实时数据分析和精准农业操作,有望彻底改变农业生产方式。
Cognizant 推出了神经 AI 多代理加速器和服务套件,旨在帮助企业快速开发和部署 AI 代理。该技术通过预构建的代理网络模板和无代码框架,实现了跨职能的可扩展性和自主决策能力。这一创新有望推动 AI 代理在企业工作流程中的广泛应用,促进人机协作,提升业务效率和适应性。
西部数据公司财务总监Wissam Jabre将于2月28日辞职,恰逢公司分拆为硬盘和固态硬盘两个独立业务。公司正在寻找新的财务总监。尽管面临闪存业务定价环境更具挑战性,公司第二财季收入预计仍将达到43亿美元,同比增长42%。分析师认为硬盘业务表现强劲,可能抵消了闪存业务的部分疲软。