微软公司周二推出了一款新的人工智能智能体,该智能体能够在无人工干预的情况下大规模分析和分类野生恶意软件。
这款新推出的AI模型名为Project Ire,能够逆向工程可疑软件文件,并使用反编译器和二进制分析等取证工具来解构代码,从而确定文件是恶意还是安全的。
"它是微软第一个撰写定罪案例的逆向工程师,无论是人类还是机器——这是一种强到足以证明自动阻止的检测,针对特定的高级持续威胁(APT)恶意软件样本,该样本此后已被Microsoft Defender识别和阻止,"Ire研究团队表示。
根据公司的数据,在针对Windows驱动程序公共数据集的测试中,Project Ire达到了0.98的精确度和0.83的召回率。在模式识别和检测方面,这是非常好的表现。这意味着该软件在98%的情况下都能准确判断文件是恶意的,且不会出现误报。当它撒网捕获时,也有83%的可能性找到恶意软件。因此,它能捕获大多数威胁,但可能会遗漏少数。
微软表示,其Defender平台是一套保护个人和组织免受网络威胁的安全工具套件,每月扫描超过10亿台设备。这会捕获大量潜在恶意文件流,必须由专家定期审查。
"这种工作很有挑战性,"Ire团队说道。"分析师经常面临错误和警报疲劳,而且没有简单的方法来比较和标准化不同人员在一段时间内审查和分类威胁的方式。"
人工审查员具有创造力和适应性的优势,这是软件验证无法轻易复制的,特别是在对抗恶意软件方面,这是AI应用难以匹敌的。恶意软件检测中的许多验证过程都很模糊,通常需要人工审查,特别是因为恶意软件作者会实施逆向工程保护和其他障碍来阻碍直接检测。
Project Ire使用先进的推理模型来解决这些问题,通过使用像工程师一样的专业工具剥离这些防护,并在迭代尝试分类软件行为时自主评估其输出。
"对于它分析的每个文件,Project Ire都会生成一份报告,包括证据部分、所有检查的代码函数摘要以及其他技术工件,"团队表示。
这些技术工件可能包括诸如"二进制文件包含几个表明恶意意图的函数"等结论,后面跟着从取证工具编译的直接证据。例如,智能体可能会提到包含日志包装器、针对性安全进程终止、反分析行为等。
**将Ire投入实际测试**
在涉及4000个"硬目标"文件的真实场景中——这些文件尚未被自动化系统分类且正在等待专家审查——该AI智能体的表现略逊于对照测试,但仍显示出中等效果。
根据微软的数据,它达到了0.89的精确度,意味着10个文件中有9个被正确标记为恶意。其召回率为0.26,意味着系统检测到了通过其筛网的所有实际恶意软件的约四分之一。它的误报率也只有4%,即软件声称安全文件为恶意软件的情况。
"虽然总体性能中等,但这种准确性和低错误率的组合表明未来部署具有真正潜力,"团队表示。
Project Ire的推出紧随谷歌和亚马逊等科技巨头推出的自主智能体AI安全软件。谷歌去年推出的Big Sleep漏洞发现智能体能够主动寻找未知软件漏洞。该公司去年透露,基于谷歌威胁情报组的数据,它识别出了一个关键的SQLite缺陷。
微软报告称,Project Ire的初步测试显示出前景,原型将在Defender组织内用于威胁检测和软件分类。目标是扩展Ire的速度和准确性,使其能够在源头正确识别文件,即使是首次遇到且没有先前参考的文件,同时在内存中大规模运行。
Q&A
Q1:Project Ire是什么?它有什么功能?
A:Project Ire是微软开发的人工智能智能体,专门用于大规模自动识别恶意软件。它能够逆向工程可疑软件文件,使用反编译器和二进制分析等取证工具来解构代码,从而判断文件是恶意还是安全的,整个过程无需人工干预。
Q2:Project Ire的检测准确率如何?
A:在公共数据集测试中,Project Ire达到了0.98的精确度和0.83的召回率,能够98%准确判断恶意文件且无误报。在实际4000个"硬目标"文件测试中,精确度为0.89,召回率为0.26,误报率仅4%,虽然性能中等但显示出部署潜力。
Q3:Project Ire相比人工审查有什么优势?
A:Project Ire可以24小时不间断工作,避免了人工分析师面临的错误和警报疲劳问题。微软Defender平台每月扫描超过10亿台设备,产生大量需要审查的潜在恶意文件,AI智能体能够大规模处理这些文件,提高检测效率和标准化程度。
好文章,需要你的鼓励
丰田第六代RAV4搭载高通骁龙数字底盘平台,提供个性化、直观且无缝连接的驾驶体验。新车基于丰田Arene软件开发平台,推进软件定义汽车发展,配备紧急驾驶停止系统和突然加速抑制功能。车载多媒体系统支持个性化主屏幕定制和更准确的语音识别。通过与高通技术公司合作,利用先进AI技术增强用户体验,提供更智能、直观和安全的出行方案。
上海AI实验室开发RePro训练方法,通过将AI推理过程类比为优化问题,教会AI避免过度思考。该方法通过评估推理步骤的进步幅度和稳定性,显著提升了模型在数学、科学和编程任务上的表现,准确率提升5-6个百分点,同时大幅减少无效推理,为高效AI系统发展提供新思路。
Chainguard发布可信开源软件季度报告,基于1800多个容器镜像项目和近5亿次构建的数据分析。报告显示:Python因AI需求成为最受欢迎的开源镜像;超半数生产环境运行在热门项目之外的长尾镜像上;98%的漏洞出现在非热门项目中,安全负担主要集中在不太显眼的技术栈部分;44%客户在生产环境中使用FIPS镜像以满足合规要求;Chainguard平均在20小时内修复关键漏洞。
MIT团队开发的VLASH技术首次解决了机器人动作断续、反应迟缓的根本问题。通过"未来状态感知"让机器人边执行边思考,实现了最高2.03倍的速度提升和17.4倍的反应延迟改善,成功展示了机器人打乒乓球等高难度任务,为机器人在动态环境中的应用开辟了新可能性。