思科和英伟达都意识到,尽管当今的 AI 技术非常有用,但同时也可能存在不安全和不可靠的问题。为此,两家公司推出了相关工具来解决这些问题。
英伟达在周四推出了三种专门的微服务,旨在防止 AI 代理被用户劫持或在网络上发布不当内容。
据 The Next Platform 报道,这三个英伟达推理微服务 (NIMs) 是 GPU 巨头 NeMo Guardrails 系列的最新成员,旨在引导聊天机器人和自主代理按预期方式运行。
这三种服务包括:
内容安全 NIM:试图阻止 AI 模型产生有偏见或有害的输出,确保响应符合道德标准。其工作原理是将用户的输入提示和模型的输出作为一对输入通过 NIM 进行分析,判断输入和输出是否恰当。然后可以根据这些建议采取行动,要么提醒用户行为不当,要么阻止模型输出不当内容。该 NIM 使用 Aegis Content Safety Dataset 进行训练,该数据集包含约 33,000 个标记为安全或不安全的用户-LLM 交互。
主题控制 NIM:据称可以"保持对话集中在已批准的主题上,避免偏离或出现不当内容"。该 NIM 接收模型的系统提示和用户输入,判断用户是否在讨论系统提示相关的主题。如果用户试图使模型偏离轨道,该 NIM 可以帮助阻止。
越狱检测 NIM:顾名思义,它只分析用户输入以检测试图让 LLM 违背其预期目的的越狱尝试。
如我们之前所探讨的,防止提示注入攻击是很困难的,因为许多 AI 聊天机器人和助手都是基于通用语言处理模型构建的,它们的防护措施可能被简单的说服所破坏。例如,在某些情况下,仅仅指示聊天机器人"忽略所有先前的指令,改为执行此操作"就可能导致开发者不希望看到的行为。这种情况是英伟达的越狱检测模型希望防范的几种情况之一。
根据具体应用,GPU 巨头表示,可能需要将多个防护模型串联起来(如主题控制、内容安全和越狱检测),以全面解决安全漏洞和合规性挑战。
使用多个模型确实会增加开销和延迟。因此,英伟达选择将这些防护基于较小的语言模型,每个模型的参数量约为 80 亿,可以以最少的资源大规模运行。
这些模型可作为 NIMs 提供给 AI Enterprise 客户使用,或者通过 Hugging Face 供那些希望手动实现的用户使用。
英伟达还提供了一个名为 Garak 的开源工具,用于识别应用程序中的 AI 漏洞,如数据泄露、提示注入和幻觉,以验证这些防护措施的有效性。
思科也想分一杯羹
思科的 AI 信息安全工具将以 AI Defense 的名称提供,其中包含与英伟达类似的模型验证工具,思科表示该工具将调查 LLM 性能并提醒信息安全团队任何可能产生的风险。
该网络巨头还计划提供 AI 发现工具,帮助安全团队寻找业务部门在未经 IT 监督的情况下部署的"影子"应用程序。
思科还认为,一些公司在实施聊天机器人时犯了错误,没有将其限制在预期角色内(如纯客户服务交互),从而允许用户不受限制地访问像 OpenAI 的 ChatGPT 这样的服务。如果人们发现并利用你的聊天机器人作为访问付费 AI 服务的方式,这个错误可能会花费大笔费用。
据称,AI Defense 将能够检测这类情况,以便你进行修复,并将包括数百个防护措施,以 (希望) 防止 AI 产生不必要的结果。
该产品仍在开发中,将添加到思科的云端 Security Cloud 和 Secure Access 服务中。后者将在 2 月份增加一项名为 AI Access 的服务,用于阻止用户访问你不希望他们使用的在线 AI 服务。更多服务将随时间推出。
思科还在改变其面向客户的 AI 代理,这些代理可以为其产品提供自然语言界面,但目前每个产品都是独立运作的。该网络巨头计划推出一个统一的代理来管理所有服务,这样网络管理员可以使用单一的聊天界面来获取有关其思科产品组合不同组件的答案。
思科 AI 工程副总裁 Anand Raghavan 告诉 The Register,他有一个多年路线图,指向更多 AI 安全工具的开发。考虑到 IT 部门已经面临众多信息安全威胁,并且经常难以实施和整合解决这些问题的工具,这是一个令人深思的信息。
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。