在拉斯维加斯举办的三大网络安全会议BSides、Black Hat和DEF CON上,AI成为本周最热门的话题,同时"欺诈"这个词也频繁出现。
使用AI的成本急剧下降,加上Deepfake技术日益精进,以及电子通信成为常态,这意味着我们可能面临大规模的机器学习混乱。德勤估计,到2027年,Deepfake欺诈将给美国造成高达400亿美元的损失,但我们采访的每个人都认为这是低估了。
山姆·奥特曼上月的评论称"除了密码之外,AI已经完全击败了人们目前使用的大多数身份验证方式",这在安全行业引起了不小的轰动,各种声称能做到这一点的软件供应商纷纷出现。但其他人对其能力更为谨慎。
曾在英国最大银行Featurespace工作十多年、专门从事欺诈监控的Karthik Tadinada表示,他接触到的反Deepfake检测技术在发现犯罪和消除误报方面的准确率约为90%。这听起来不错,但实际上显示了未来问题的严重性。
"人们生成这些内容的经济成本与你能检测和处理的成本相比,实际上那10%仍然足以获利,"Tadinada说道,他指出生成身份证件的成本只会进一步下降。
视频冒充早于AI技术出现,Tadinada回忆了一些案例,安全团队发现了戴着高质量硅胶面具的造假者,但他说机器学习大大加速了这一过程。他和同为前Featurespace员工的Martyn Higson演示了如何轻松地将英国首相基尔·斯塔默的面部覆盖到Higson的身体上,并相当好地模仿了他的声音,所有这些都只是使用一台MacBook Pro完成的。
这还不足以欺骗反扫描技术——AI往往会使面颊更加浮肿,并使人脸外观僵硬,但对于宣传或虚假信息来说绝对足够了。本周记者克里斯·库莫发布了一个关于美国众议员亚历山德里娅·奥卡西奥-科尔特斯指控女演员悉尼·斯威尼进行"纳粹宣传"的Deepfake视频,随后撤下并道歉,这就是一个例证。
媒体监控公司Silent Signals的红队负责人Mike Raggo同意这一观点,指出视频伪造的质量已经大幅改善。但新技术正在成为主流,可能更容易检测此类伪造。
他确实有切身利益。Silent Signals在OpenAI上周发布GPT-5时,开发了一款免费的基于Python的工具,名为"虚假图像取证检查器v1.1"。该工具会上传视频并逐帧采样查找操作痕迹,比如视频中物体边缘的模糊,比较第一帧、最后一帧和中间帧的背景异常。
此外,检查元数据绝对关键。视频操作工具,无论是商业的还是开源的,通常会在元数据中留下代码痕迹,一个好的检测引擎必须具备执行此类搜索的能力。
三位演讲者都同意,图像可能是欺诈者使用的最令人担忧的方法,不仅因为创建的容易程度,还因为企业对它们的依赖日益增加。
Tadinada在银行业的经验使他特别担心操纵图像在大规模欺诈中的潜在用途。新冠疫情封锁使人们不太愿意亲自到银行办业务,一些金融机构在没有考虑欺诈可能性的情况下就投入了电子记录。
例如,在英国开设银行账户需要显示有效身份证和近期水电费账单等文件。正如他在台上演示的那样,这两者都很容易伪造,并且在电子方式下很难发现。Raggo同意这一点,特别是在本周访问了那些宣布Deepfake检测工具的公司后,但表示在Deepfake识别方面有一些有前景的领域。
"我在Black Hat上看到了几家供应商,"Raggo告诉The Register。"在我有机会实际测试之前,我个人不会对它们发表评论,但从我看到的和进行的一些演示来看,它们看起来很有趣。"
无论人们使用哪种工具,Raggo认为必须做一些关键事情,首先是元数据分析。例如,AI生成的元数据通常缺少关键代码,如显示使用的色彩平衡的国际色彩联盟(ICC)配置文件,并且经常有供应商特定的元数据,比如谷歌在所有Android图像的元数据中嵌入"Google Inc"的习惯。
他建议边缘分析也很关键。这涉及调查图片中物体的边缘,检查模糊或亮度不一致性。像素方差——物体中颜色变化的程度——也可以用来发现操作。
但这些技术在发现语音Deepfake方面并不那么有用,而这类声音攻击正在上升。
5月份,FBI警告说,有一个使用AI生成的美国政治家声音的欺诈活动,被用来欺骗人们交出政府系统的访问权限,从中提取金融信息。但FBI应对这种情况的建议是非技术性的——告诉用户应该单独验证来源并听取词汇或口音的任何不一致之处,同时承认"AI生成的内容已经发展到通常很难识别的程度"。
这不是唯一一个担心语音克隆传播的美国联邦机构。去年,联邦贸易委员会赞助了为期一年的AI生成语音检测竞赛,但奖金只有区区35000美元。
这类语音克隆技术有完全合法的用途,比如转录、在媒体中添加配音,以及为呼叫中心的机器人添加语音功能。微软将其作为Azure的一个功能,产生带水印的克隆输出(尽管这些远非完美),当The Register测试硅谷初创公司Zyphra的语音生成器时,结果令人不安地好。
然而,这种技术也可能对欺诈者大有帮助。如果有人使用录制的语音样本,就可能在主体不知情的情况下生成克隆,音频样本越长,克隆效果可能越好。
非营利出版物《消费者报告》对六家提供语音克隆服务的公司进行的研究发现,其中三分之二的公司几乎没有试图阻止其应用程序的滥用——用户只需勾选一个框,说他们有合法权利克隆语音样本。
只有一家被测试的公司Resemble AI实际要求实时音频片段来使用该服务,尽管测试人员确实设法用录制的音频在某些时候欺骗了它。然而,由于声音问题,使用第三方音频的结果并不那么准确。
许多语音克隆企业也开始在其产品组合中添加Deepfake检测,包括Resemble。CEO Zohaib Ahmed告诉The Register,克隆公司在其服务器中拥有的数据可以生成有价值的假货识别工具。
"我们拥有一个庞大的真实和克隆语音数据库,对比它们产生了一些有价值的见解,"他说。"我们已经识别出一系列伪影,其中一些人耳无法检测到,这使得识别假货变得更容易。"
正如我们在传统安全领域看到的那样,识别恶意软件和黑客攻击没有100%的技术修复方案,Deepfake也是如此。正如你无法阻止心不在焉的人点击恶意软件文件一样,我们也不能期望人们永远不会被Deepfake愚弄。
"你必须有预防意识,"Sophos红队负责人Eric Escobar告诉The Register。"验证绝对关键,特别是涉及金钱时。问问自己'这符合人物性格吗?'然后如果有任何不确定就检查。"
Tadinada建议这对金融业特别相关。使用Deepfake扫描技术固然很好,但金融交易也需要作为其使用的指标进行监控,就像其他类型的欺诈一样。
使用生成式对抗网络(GANs)来改进Deepfake是我们交谈过的每个人都担心的事情。GANs使用两个AI引擎,一个生成器和一个响应器,使假输出更有说服力。生成器创建媒体,响应器试图发现制造的内容,两者继续这个过程以改善输出的现实感。
Raggo指出,结果并不完美,该过程目前可能在Deepfake的元数据中留下明显的签名。但这项技术有望产生更逼真的结果,并将导致欺诈者获得更多成功。
Q&A
Q1:Deepfake检测技术的准确率有多高?
A:根据在英国银行业工作十多年的专家Karthik Tadinada介绍,目前反Deepfake检测技术在发现犯罪和消除误报方面的准确率约为90%。虽然听起来不错,但剩余的10%仍然足以让欺诈者获利,特别是考虑到生成虚假内容的成本不断下降。
Q2:如何识别AI生成的图像和视频?
A:专家建议几个关键方法:首先是元数据分析,AI生成的内容通常缺少关键代码如国际色彩联盟配置文件;其次是边缘分析,检查物体边缘的模糊或亮度不一致;最后是像素方差分析,观察物体中颜色变化的程度。这些技术特征可以帮助识别人工操作的痕迹。
Q3:语音克隆技术有哪些危险?如何防范?
A:语音克隆技术可以通过录制的语音样本生成克隆,样本越长效果越好。FBI已警告相关欺诈活动的兴起。防范措施包括:单独验证声音来源、仔细听取词汇或口音的不一致之处,以及在涉及金钱时进行额外验证。专家建议保持预防意识,问自己"这符合人物性格吗?"
好文章,需要你的鼓励
Liquid AI发布了新一代视觉语言基础模型LFM2-VL,专为智能手机、笔记本电脑和嵌入式系统等设备高效部署而设计。该模型基于独特的LIV系统架构,GPU推理速度比同类模型快2倍,同时保持竞争性能。提供450M和1.6B两个版本,支持512×512原生分辨率图像处理,采用模块化架构结合语言模型和视觉编码器。模型已在Hugging Face平台开源发布。
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
阿里团队推出首个AI物理推理综合测试平台DeepPHY,通过六个物理环境全面评估视觉语言模型的物理推理能力。研究发现即使最先进的AI模型在物理预测和控制方面仍远落后于人类,揭示了描述性知识与程序性控制间的根本脱节,为AI技术发展指明了重要方向。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。