思科和英伟达都意识到,尽管当今的 AI 技术非常有用,但同时也可能存在不安全和不可靠的问题。为此,两家公司推出了相关工具来解决这些问题。
英伟达在周四推出了三种专门的微服务,旨在防止 AI 代理被用户劫持或在网络上发布不当内容。
据 The Next Platform 报道,这三个英伟达推理微服务 (NIMs) 是 GPU 巨头 NeMo Guardrails 系列的最新成员,旨在引导聊天机器人和自主代理按预期方式运行。
这三种服务包括:
内容安全 NIM:试图阻止 AI 模型产生有偏见或有害的输出,确保响应符合道德标准。其工作原理是将用户的输入提示和模型的输出作为一对输入通过 NIM 进行分析,判断输入和输出是否恰当。然后可以根据这些建议采取行动,要么提醒用户行为不当,要么阻止模型输出不当内容。该 NIM 使用 Aegis Content Safety Dataset 进行训练,该数据集包含约 33,000 个标记为安全或不安全的用户-LLM 交互。
主题控制 NIM:据称可以"保持对话集中在已批准的主题上,避免偏离或出现不当内容"。该 NIM 接收模型的系统提示和用户输入,判断用户是否在讨论系统提示相关的主题。如果用户试图使模型偏离轨道,该 NIM 可以帮助阻止。
越狱检测 NIM:顾名思义,它只分析用户输入以检测试图让 LLM 违背其预期目的的越狱尝试。
如我们之前所探讨的,防止提示注入攻击是很困难的,因为许多 AI 聊天机器人和助手都是基于通用语言处理模型构建的,它们的防护措施可能被简单的说服所破坏。例如,在某些情况下,仅仅指示聊天机器人"忽略所有先前的指令,改为执行此操作"就可能导致开发者不希望看到的行为。这种情况是英伟达的越狱检测模型希望防范的几种情况之一。
根据具体应用,GPU 巨头表示,可能需要将多个防护模型串联起来(如主题控制、内容安全和越狱检测),以全面解决安全漏洞和合规性挑战。
使用多个模型确实会增加开销和延迟。因此,英伟达选择将这些防护基于较小的语言模型,每个模型的参数量约为 80 亿,可以以最少的资源大规模运行。
这些模型可作为 NIMs 提供给 AI Enterprise 客户使用,或者通过 Hugging Face 供那些希望手动实现的用户使用。
英伟达还提供了一个名为 Garak 的开源工具,用于识别应用程序中的 AI 漏洞,如数据泄露、提示注入和幻觉,以验证这些防护措施的有效性。
思科也想分一杯羹
思科的 AI 信息安全工具将以 AI Defense 的名称提供,其中包含与英伟达类似的模型验证工具,思科表示该工具将调查 LLM 性能并提醒信息安全团队任何可能产生的风险。
该网络巨头还计划提供 AI 发现工具,帮助安全团队寻找业务部门在未经 IT 监督的情况下部署的"影子"应用程序。
思科还认为,一些公司在实施聊天机器人时犯了错误,没有将其限制在预期角色内(如纯客户服务交互),从而允许用户不受限制地访问像 OpenAI 的 ChatGPT 这样的服务。如果人们发现并利用你的聊天机器人作为访问付费 AI 服务的方式,这个错误可能会花费大笔费用。
据称,AI Defense 将能够检测这类情况,以便你进行修复,并将包括数百个防护措施,以 (希望) 防止 AI 产生不必要的结果。
该产品仍在开发中,将添加到思科的云端 Security Cloud 和 Secure Access 服务中。后者将在 2 月份增加一项名为 AI Access 的服务,用于阻止用户访问你不希望他们使用的在线 AI 服务。更多服务将随时间推出。
思科还在改变其面向客户的 AI 代理,这些代理可以为其产品提供自然语言界面,但目前每个产品都是独立运作的。该网络巨头计划推出一个统一的代理来管理所有服务,这样网络管理员可以使用单一的聊天界面来获取有关其思科产品组合不同组件的答案。
思科 AI 工程副总裁 Anand Raghavan 告诉 The Register,他有一个多年路线图,指向更多 AI 安全工具的开发。考虑到 IT 部门已经面临众多信息安全威胁,并且经常难以实施和整合解决这些问题的工具,这是一个令人深思的信息。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。