你可能已经听说过利用AI技术克隆熟人语音的诈骗电话。通常,这些攻击会伪造听起来像是你认识多年的孙辈、CEO或同事的声音,声称遇到紧急情况需要立即行动,要求汇款、透露登录凭据或访问恶意网站。
研究人员和政府官员多年来一直在警告这种威胁。网络安全和基础设施安全局在2023年表示,来自深度伪造和其他合成媒体形式的威胁已经"呈指数级增长"。去年,谷歌Mandiant安全部门报告称,此类攻击正在以"不可思议的精确度"执行,创造出更加逼真的钓鱼计划。
深度伪造诈骗电话的基本步骤包括:
首先,收集将被模仿者的语音样本。短至3秒的样本有时就足够了,这些样本可以来自视频、在线会议或之前的语音通话。
然后将样本输入基于AI的语音合成引擎,如谷歌的Tacotron 2、微软的Vall-E,或来自ElevenLabs和Resemble AI的服务。这些引擎允许攻击者使用文字转语音界面,用被模仿者的语调和对话习惯产生用户选择的词语。
可选步骤是伪造被模仿的个人或组织的电话号码,这种技术已经使用了几十年。
接下来,攻击者发起诈骗电话。在某些情况下,克隆的语音会遵循脚本。在其他更复杂的攻击中,虚假语音是实时生成的,使用语音掩蔽或转换软件。实时攻击可能更具说服力,因为它们允许攻击者回应怀疑接收者可能提出的问题。
Group-IB表示:"尽管开源项目和商业API已经展示了实时模仿技术,但实时深度伪造语音诈骗在现实中仍然有限。然而,考虑到处理速度和模型效率的持续进步,预计实时使用在不久的将来会变得更加常见。"
无论哪种情况,攻击者都会使用虚假语音为需要接收者立即采取行动制造借口。叙述可能模拟孙女入狱急需保释金、CEO指示应付账款部门某人汇款支付逾期费用,或IT人员指示员工在所谓的数据泄露后重置密码。
最后收集现金、被盗凭据或其他资产。通常,一旦采取行动,就无法逆转。
Mandiant的案例显示,其安全团队成员在模拟红队演习中执行此类诈骗的相对容易程度。红队成员收集了目标组织内某位管理者的公开语音样本,然后使用公开信息识别最可能在该被伪造者手下工作的员工并致电他们。为了让通话更有说服力,他们利用VPN服务的真实故障作为员工立即采取行动的借口。
"由于对电话中语音的信任,受害者绕过了Microsoft Edge和Windows Defender SmartScreen的安全提示,在不知情的情况下将预先准备的恶意载荷下载并执行到他们的工作站上,"Mandiant说。"载荷的成功引爆标志着演习的完成,展示了AI语音欺骗促进组织入侵的惊人容易程度。"
防止此类诈骗成功的预防措施可以很简单,比如双方约定一个随机选择的词语或短语,呼叫者必须在接收者遵从请求之前提供。接收者也可以结束通话,用已知属于呼叫者的号码回拨。但最好是遵循这两个步骤。
这两种预防措施都要求接收者保持冷静和警觉,尽管如果伪造的场景是真实的,会产生合理的紧迫感。当接收者疲劳、过度劳累或其他状态不佳时,这可能更加困难。因此,无论是否启用AI技术,所谓的语音钓鱼攻击在短期内都不太可能消失。
Q&A
Q1:AI语音深度伪造诈骗需要多长的语音样本?
A:根据安全公司Group-IB的研究,进行AI语音深度伪造诈骗时,短至3秒的语音样本有时就足够了。这些样本可以来自视频、在线会议或之前的语音通话,然后被输入到AI语音合成引擎中进行克隆。
Q2:如何防范AI语音深度伪造诈骗电话?
A:防范措施包括:双方事先约定随机选择的词语或短语,呼叫者必须提供这个暗号;接收者可以结束通话后用已知的真实号码回拨确认;最好同时采用这两种方法。关键是要保持冷静警觉,不被紧急情况的假象迷惑。
Q3:实时AI语音伪造技术目前普及程度如何?
A:根据Group-IB的报告,尽管开源项目和商业API已经展示了实时语音模仿技术,但实时深度伪造语音诈骗在现实中仍然有限。不过,随着处理速度和模型效率的持续进步,预计实时使用在不久的将来会变得更加常见。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。