GPT-5.5网络安全测试成绩与备受关注的Mythos Preview持平

英国AI安全研究所（AISI）最新研究显示，OpenAI上周公开发布的GPT-5.5在网络安全评估中与Anthropic的Mythos Preview表现相近。在95项夺旗挑战的"专家级"任务中，GPT-5.5通过率为71.4%，略高于Mythos Preview的68.6%。两款模型均在模拟企业网络数据提取攻击测试中取得突破，但均未能通过电厂控制软件干扰模拟。OpenAI CEO奥特曼批评竞争对手采用"恐惧营销"策略限制模型发布。

上月，Anthropic大力宣传其Mythos Preview模型所谓的突出网络安全威胁，并以此为由将该模型的初始发布范围限制在"关键行业合作伙伴"之内。然而，英国人工智能安全研究所（AISI）的最新研究显示，上周正式公开发布的OpenAI GPT-5.5，在网络安全评估中"达到了与Mythos Preview相近的性能水平"，而AISI此前刚刚在上月完成了对Mythos Preview的评估。

自2023年以来，AISI持续对多款前沿AI模型进行测试，测试内容涵盖95项不同的"夺旗"（Capture the Flag）挑战，涉及逆向工程、网络漏洞利用和密码学等网络安全任务。在难度最高的"专家级"任务中，GPT-5.5的平均通过率为71.4%，略高于Mythos Preview的68.6%（两者在误差范围之内）。在一项特别复杂的任务中，该任务要求模型构建一个反汇编器以解码Rust二进制文件，AISI指出，"GPT-5.5在无需任何人工协助的情况下，仅用10分22秒便完成了挑战，API调用费用仅为1.73美元"。

在AISI设计用于模拟针对企业网络发动32步数据提取攻击的测试场景"最后幸存者"（TLO）中，GPT-5.5同样与Mythos Preview表现相当。GPT-5.5在10次尝试中成功3次，而Mythos Preview为10次中成功2次——此前从未有任何模型在该测试中哪怕成功过一次。不过，GPT-5.5在AISI难度更高的"冷却塔"测试中仍未能通关，该测试模拟的是对发电厂控制软件实施破坏的场景，迄今为止所有接受测试的AI模型均以失败告终。

这只是"恐惧营销"吗

AISI就GPT-5.5得出的新测试结果表明，就网络安全风险而言，Mythos Preview很可能并非"某一模型特有的突破性进展"，而更像是"长期自主推理能力、逻辑推断能力和代码能力整体提升所带来的附带成果"。

在近期接受Core Memory播客采访时，OpenAI首席执行官山姆·奥特曼批评了部分AI模型在限制发布过程中所采用的"恐惧营销"手段。他表示自己"相信Mythos在网络安全方面是一款出色的模型"，但同时补充道："有人说'我们造了一枚炸弹，即将投向你的头顶，我们可以以1亿美元的价格卖给你一个防空掩体'，这显然是极其高明的营销手法。"

奥特曼进一步表示："未来会有越来越多关于'某些模型危险到无法发布'的论调出现，当然也确实会存在一些极为危险的模型，需要以不同方式加以发布。"

今年2月，OpenAI推出了"网络安全可信访问"试点项目，允许安全研究人员和企业验证身份并登记申请，以便将OpenAI的前沿模型用于"合规的防御性研究"。上月，OpenAI表示正在利用该可信访问名单，对GPT-5.4-Cyber进行限量发布——该模型变体据称"专门针对更强大的网络安全能力进行了微调，并放宽了部分能力限制"。

本周四，OpenAI首席执行官山姆·奥特曼在社交媒体上表示，GPT-5.5-Cyber的初期发布同样将采取限量策略，"将在未来几天内优先向关键网络防御人员开放"。

Q&A

Q1：AISI是如何评估GPT-5.5和Mythos Preview的网络安全能力的？

A：英国人工智能安全研究所（AISI）通过95项"夺旗"挑战对AI模型进行网络安全能力评测，内容涵盖逆向工程、网络漏洞利用和密码学等方向。在最高难度的"专家级"任务中，GPT-5.5平均通过率为71.4%，Mythos Preview为68.6%，两者在误差范围内基本持平。此外，AISI还使用"最后幸存者"和"冷却塔"两个场景进行模拟攻击测试，以评估模型在复杂真实网络安全场景中的实际表现。

Q2：山姆·奥特曼所说的"恐惧营销"具体是指什么？

A：奥特曼所说的"恐惧营销"，是指部分AI公司在发布模型时，刻意强调模型的潜在危险性，以此制造舆论紧张感，并借机限制发布范围或推销相关安全服务。他以Mythos Preview为例，认为将某款模型渲染为"危险到必须限制访问"的做法，本质上是一种营销策略，而非真正出于安全考量。AISI的测试结果也在一定程度上支持了这一判断——GPT-5.5在公开发布的情况下取得了与Mythos Preview相近的表现。

Q3：GPT-5.5-Cyber和GPT-5.4-Cyber有什么区别？

A：GPT-5.4-Cyber是OpenAI专门针对网络安全场景进行微调的模型变体，在能力限制上有所放宽，并通过"网络安全可信访问"项目进行限量发布。GPT-5.5-Cyber则是在GPT-5.5基础上推出的同类变体，奥特曼表示其初期发布将同样采取限量策略，优先向关键网络防御人员开放。两款模型均面向具有合法防御需求的安全研究人员和企业，而非面向普通用户公开发布。

来源：Arstechnica

0赞

好文章，需要你的鼓励

GPT-5.5网络安全测试成绩与备受关注的Mythos Preview持平

来源：Arstechnica

2026

05/07

10:20

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

企业用好Agent，关键不在“买一个智能体”｜原点Talk 分享会

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

身份与访问管理工具助力红牛车队应对F1严苛法规

CISA警告：NSA开发的OT网络工具存在数据窃取漏洞

cPanel严重漏洞已现受害者，数百万网站面临安全风险

OpenAI推出GPT-5.5-Cyber网络安全模型，限定受信用户访问

AI赋能的网络安全攻防：专家们为何持乐观态度

网络求职骗局持续增多，Z世代深受其害

OpenAI 网络安全专用模型 GPT-5.5-Cyber 即将上线，仅面向可信防御者开放

AI正在加剧攻防双方之间的不对称性

OpenAI推出高级账户安全功能，与Yubico达成合作

Anthropic推出Claude Security：扫描代码库漏洞并智能排定修复优先级

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: