2024年3月,多位 YouTube 内容创作者似乎收到了来自平台 CEO Neal Mohan 的私人视频。然而事实证明,视频中的并非 Mohan 本人,而是诈骗者制作的 AI 生成版本,目的是窃取凭证并安装恶意软件。这让人想起最近其他备受关注的 AI 诈骗案例。去年,诈骗者利用 AI 模仿拜登总统的声音,通过自动电话呼叫劝说人们不要参加初选投票。
这类深度伪造(视频和音频)的案例在新闻中频繁出现。非营利组织消费者报告评测了六款语音克隆应用,发现其中四款应用没有有效的防护措施来阻止用户在未经同意的情况下克隆他人声音。
高管往往是公司的公众形象和发言人,CEO、CIO 和其他 C 级高管的音视频资料在网上随处可见。对此,CIO 和其他企业技术领导者应该对语音克隆和其他深度伪造技术有多担忧?
缺乏防护措施
据消费者报告评测,ElevenLabs、Lovo、PlayHT 和 Speechify 这四款应用仅要求用户勾选确认框,表明他们拥有使用语音克隆功能的合法权利。而 Descript 和 Resemble AI 在同意机制上更进一步,要求用户阅读并录制同意声明。
防止这些应用被滥用的门槛相当低。即使是需要用户阅读声明的应用,也可能被其他平台上未经授权的语音克隆音频所操纵。
用户不仅可以使用许多现成的应用来未经授权地克隆他人声音,而且无需技术背景。Reality Defender 公司联合创始人兼 CEO Ben Colman 表示:"不需要计算机背景,不需要硕士学位,不需要编程,只要在手机应用商店或 Google 搜索'语音克隆'或'深度伪造人脸生成器',就能找到数千种可供诈骗者使用的工具。"
Colman 还指出,计算成本在过去几个月内大幅下降。"一年前还需要云计算,现在用普通笔记本电脑或手机就能完成。"
防范欺诈
防范语音克隆最明显的前线防御是限制分享个人数据,如声纹。但对于企业领导者来说,这是一个挑战。"他们不应该分享个人数据、声音或面部信息,但对 CEO 来说这很困难。比如我就经常出现在 YouTube 和新闻中,这是经营业务的必要成本,"Colman 说。
CIO 必须在数字世界的现实中运作,知道企业领导者的公开音频资料可能被诈骗者用来克隆声音并用于不法目的。
BairesDev 的 CTO Justice Erolin 说:"AI 语音克隆不是未来的风险,而是当前就存在的威胁。我建议像对待其他网络威胁一样处理:采用强大的身份认证。"仅依靠语音认证是有风险的,采用多因素认证可以降低这种风险。
检测的前景
检测是对抗语音克隆的重要工具。Colman 将深度伪造检测工具的发展比作防病毒扫描的发展历程。他预计在未来一年内,检测功能将完全迁移到设备端。检测工具可以集成到手机、电脑和视频会议平台中,以检测音频和视频是否被 AI 生成或篡改。
就像任何其他网络安全问题一样,威胁行为者的深度伪造能力与防御者的检测能力之间将会展开拉锯战。CIO 和其他安全领导者将面临实施安全防护措施并评估这些能力以对抗诈骗者的挑战。
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。