近日,外滩大会·全球Deepfake攻防挑战赛正式启动报名。该赛事提供百万级的数据集,针对“AI换脸”的欺诈风险进行攻防实战演练,并设立100万元人民币的奖金池,鼓励推动AI向善的技术人才。
大赛由蚂蚁集团主办、蚂蚁数科承办,ATEC前沿科技探索社区、蚂蚁安全实验室、中国科学技术大学网络空间安全学院作为联合协办方,在线身份认证服务商ZOLOZ提供技术支持,阿里云提供算力支持。该赛事在全球知名的数据科学竞赛平台Kaggle进行,各赛道决赛前三名的赛队将受邀前往位于上海的INCLUSION·外滩大会现场领奖,并参与表演赛。
据介绍,大赛分设图片赛道和音视频赛道,数据集由公开数据和伪造数据组成。其中,伪造图片数据涵盖了现实场景中超50种生成方式,伪造音视频中则纳入了超100种组合攻击方式,训练数据集总量超过100万。选手需要训练AI模型,给出数据伪造概率值,准确率TOP20入围决赛。决赛将邀请专家根据结果准确率、结合方案创新性、泛化性、实用性、可解释性等多维度评选出TOP战队。赛事报名时间将于7月31日截止,8月31日完成比赛。中国选手可前往ATEC社区查看赛事详情。
Deepfake(深度伪造技术)即利用深度学习算法,实现音视频内容的模拟和伪造,可用于电影制作、视频编辑、虚拟现实等领域。近年来,在境外已发生多起恶意利用该技术进行AI换脸欺诈,带来的经济财产损失、名誉受损等事件,该趋势正逐步向境内蔓延。面对全球范围的技术挑战,培养具有实战能力的AI人才刻不容缓。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。