2024年3月,多位 YouTube 内容创作者似乎收到了来自平台 CEO Neal Mohan 的私人视频。然而事实证明,视频中的并非 Mohan 本人,而是诈骗者制作的 AI 生成版本,目的是窃取凭证并安装恶意软件。这让人想起最近其他备受关注的 AI 诈骗案例。去年,诈骗者利用 AI 模仿拜登总统的声音,通过自动电话呼叫劝说人们不要参加初选投票。
这类深度伪造(视频和音频)的案例在新闻中频繁出现。非营利组织消费者报告评测了六款语音克隆应用,发现其中四款应用没有有效的防护措施来阻止用户在未经同意的情况下克隆他人声音。
高管往往是公司的公众形象和发言人,CEO、CIO 和其他 C 级高管的音视频资料在网上随处可见。对此,CIO 和其他企业技术领导者应该对语音克隆和其他深度伪造技术有多担忧?
缺乏防护措施
据消费者报告评测,ElevenLabs、Lovo、PlayHT 和 Speechify 这四款应用仅要求用户勾选确认框,表明他们拥有使用语音克隆功能的合法权利。而 Descript 和 Resemble AI 在同意机制上更进一步,要求用户阅读并录制同意声明。
防止这些应用被滥用的门槛相当低。即使是需要用户阅读声明的应用,也可能被其他平台上未经授权的语音克隆音频所操纵。
用户不仅可以使用许多现成的应用来未经授权地克隆他人声音,而且无需技术背景。Reality Defender 公司联合创始人兼 CEO Ben Colman 表示:"不需要计算机背景,不需要硕士学位,不需要编程,只要在手机应用商店或 Google 搜索'语音克隆'或'深度伪造人脸生成器',就能找到数千种可供诈骗者使用的工具。"
Colman 还指出,计算成本在过去几个月内大幅下降。"一年前还需要云计算,现在用普通笔记本电脑或手机就能完成。"
防范欺诈
防范语音克隆最明显的前线防御是限制分享个人数据,如声纹。但对于企业领导者来说,这是一个挑战。"他们不应该分享个人数据、声音或面部信息,但对 CEO 来说这很困难。比如我就经常出现在 YouTube 和新闻中,这是经营业务的必要成本,"Colman 说。
CIO 必须在数字世界的现实中运作,知道企业领导者的公开音频资料可能被诈骗者用来克隆声音并用于不法目的。
BairesDev 的 CTO Justice Erolin 说:"AI 语音克隆不是未来的风险,而是当前就存在的威胁。我建议像对待其他网络威胁一样处理:采用强大的身份认证。"仅依靠语音认证是有风险的,采用多因素认证可以降低这种风险。
检测的前景
检测是对抗语音克隆的重要工具。Colman 将深度伪造检测工具的发展比作防病毒扫描的发展历程。他预计在未来一年内,检测功能将完全迁移到设备端。检测工具可以集成到手机、电脑和视频会议平台中,以检测音频和视频是否被 AI 生成或篡改。
就像任何其他网络安全问题一样,威胁行为者的深度伪造能力与防御者的检测能力之间将会展开拉锯战。CIO 和其他安全领导者将面临实施安全防护措施并评估这些能力以对抗诈骗者的挑战。
好文章,需要你的鼓励
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
阿里达摩院联合浙江大学推出VideoRefer套件,这是首个能够精确理解视频中特定物体的AI系统。该系统不仅能识别整体场景,更能针对用户指定的任何物体进行详细分析和跨时间追踪。研究团队构建了包含70万样本的高质量数据集VideoRefer-700K,并设计了全面的评估体系VideoRefer-Bench。实验显示该技术在专业视频理解任务中显著超越现有方法,在安防监控、自动驾驶、视频编辑等领域具有广阔应用前景。
OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。
Sa2VA是由UC默塞德等高校联合开发的突破性AI系统,首次实现图像视频的统一理解与精确分割。通过巧妙融合SAM-2视频分割技术和LLaVA多模态对话能力,Sa2VA能够同时进行自然对话和像素级物体标注。研究团队还构建了包含7万多个复杂视频表达式的Ref-SAV数据集,显著提升了AI在长文本描述和复杂场景下的表现。实验显示,Sa2VA在多个基准测试中达到业界领先水平,为视频编辑、医疗诊断、智能监控等领域带来新的应用可能性。