GPT-5.5 正式发布「官方介绍」
本文翻译自 OpenAI 官方新闻:Introducing GPT-5.5
面向真实工作的全新智能层级
我们正式发布 GPT‑5.5。这是我们迄今最聪明、也最符合直觉的模型,也是让计算机完成工作的全新方式迈出的下一步。
GPT‑5.5 能更快理解你真正想完成的事情,也能自行承担更多工作。它擅长编写和调试代码、在线研究、分析数据、创建文档和电子表格、操作软件,以及跨工具推进任务直至完成。你不再需要精细管理每一步,而是可以直接交给 GPT‑5.5 一个混乱、复杂、由多个部分组成的任务,并相信它会自行规划、使用工具、检查结果、穿越不确定性并持续推进。
这种提升在智能体化编程、计算机使用、知识工作和前沿科研等领域尤为明显,因为这些领域的进展依赖于跨上下文推理,并在较长时间内持续采取行动。GPT‑5.5 在不牺牲速度的前提下实现了这一级别的智能跃升:更大、更强的模型通常意味着更高延迟,但 GPT‑5.5 在真实服务中的每 token 延迟与 GPT‑5.4 持平,同时智能水平显著更高。它在完成同样的 Codex 任务时还会消耗更少 token,因此不仅更强,也更高效。
我们以迄今最强的一套安全措施发布 GPT‑5.5,目标是在保留有益用途访问的同时降低滥用风险。我们使用完整的安全与准备度评估框架对模型进行了测试,与内部和外部红队协作,加入了面向高级网络安全和生物能力的定向测试,并在发布前收集了近 200 位受信任早期合作伙伴在真实使用场景中的反馈。
今天,GPT‑5.5 正在向 ChatGPT 和 Codex 的 Plus、Pro、Business、Enterprise 用户推出;GPT‑5.5 Pro 正在向 ChatGPT 的 Pro、Business、Enterprise 用户推出。API 部署需要不同的安全保障,我们正在与合作伙伴和客户密切协作,以满足大规模提供服务所需的安全与安保要求。我们也将在近期把 GPT‑5.5 和 GPT‑5.5 Pro 带到 API。
| GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
| Expert-SWE (Internal) | 73.1% | 68.5% | - | - | - | - |
| GDPval (wins or ties) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
| Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
模型能力
OpenAI 正在构建面向智能体 AI 的全球基础设施,让世界各地的个人和企业都能借助 AI 完成工作。过去一年里,我们已经看到 AI 显著加速了软件工程。而随着 GPT‑5.5 进入 Codex 和 ChatGPT,这种转变也开始扩展到科学研究,以及人们在计算机上完成的更广泛工作。
在这些领域里,GPT‑5.5 不只是更聪明,也在解决问题的过程中表现出更高效率,往往能用更少 token 和更少重试,得到更高质量的输出。在 Artificial Analysis 的 Coding Index 上,GPT‑5.5 以仅为竞争对手前沿编码模型一半的成本,交出了当前最先进的智能水平。
Artificial Analysis Intelligence Index
Artificial Analysis Intelligence Index 是由外部机构运行的 10 项评测的加权平均值,包括:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard 和 τ²-Bench Telecom。
智能体化编程
GPT‑5.5 是我们迄今最强的智能体化编程模型。在 Terminal-Bench 2.0 上,这项评测关注需要规划、迭代和工具协同的复杂命令行工作流,GPT‑5.5 达到了 82.7% 的当前最先进准确率。在评估真实世界 GitHub issue 解决能力的 SWE-Bench Pro 上,它达到了 58.6%,能在单次尝试中端到端解决更多任务。在我们面向长时程编码任务的内部前沿评测 Expert-SWE 中,任务的人类中位预计完成时间为 20 小时,GPT‑5.5 同样超过了 GPT‑5.4。
在这三项评测中,GPT‑5.5 都在使用更少 token 的同时取得了比 GPT‑5.4 更高的分数。
Terminal-Bench 2.0
Expert-SWE (Internal)
这种模型的编码优势在 Codex 中体现得尤为明显:它可以承担从实现、重构,到调试、测试和验证的一整套工程工作。早期测试表明,GPT‑5.5 在真实工程工作所依赖的行为模式上更强,比如在大型系统中保持上下文、在模糊故障中推理、用工具核查假设,以及把改动一路推进到周边代码库。
Prompt: [附图] 用 webgl 和 vite 实现一个新应用,使用 Artemis II 任务的真实数据。请务必充分测试,直到它完全可用,并且外观与图片中的应用一致。请特别关注行星和飞行路径的渲染。我希望能够与 3D 渲染进行交互。请确保它具备真实的轨道力学。
除了 benchmark 之外,早期测试者还表示,GPT‑5.5 在理解系统整体形态方面更强:它能判断问题为什么发生、修复应该落在哪一层,以及代码库中还有哪些地方会受到影响。

Every 创始人兼 CEO Dan Shipper 把 GPT‑5.5 形容为 “我用过第一个真正具备严肃概念清晰度的编码模型”。
在发布一个应用后,他花了好几天调试一个上线后的问题,最终不得不请来自己最强的一位工程师重写系统中的一部分。为了测试 GPT‑5.5,他等于把时间拨回去:模型能不能面对同样的故障现场,给出那位工程师最终决定采用的同类型重写方案?GPT‑5.4 做不到,GPT‑5.5 可以。
MagicPath CEO Pietro Schirano 也看到了类似的跃迁:GPT‑5.5 把一个包含数百项前端与重构改动的分支合并进同样已经发生大量变化的主分支,并在大约 20 分钟内一次性解决了问题。

参与测试的资深工程师表示,GPT‑5.5 在推理和自主性方面明显强于 GPT‑5.4 和 Claude Opus 4.7,能够提前捕捉问题,并在没有显式提示的情况下预判测试与评审需求。一个案例中,有工程师让它重新设计协同 Markdown 编辑器中的评论系统,回来时它已经交付出一个几乎完成的 12-diff 变更栈。还有人表示,他们几乎不需要再做多少实现层面的修正,而且相较 GPT‑5.4,对 GPT‑5.5 的计划更有信心。
一位获得早期访问权限的 NVIDIA 工程师甚至说:“失去 GPT‑5.5 的访问权限,就像我被截掉了一条肢体。”
“与 GPT-5.4 相比,GPT-5.5 明显更聪明、更有韧性,编码表现更强,工具使用也更可靠。它在不提前停下来的情况下能持续工作更久,而这正是我们用户交给 Cursor 的那些复杂、长时程任务最需要的能力。”
— Michael Truell,Cursor 联合创始人兼 CEO
“开发者需要的是持续进步,而不是无休止的迭代。GPT 5.5 突破了人们在处理复杂任务(例如身份验证流程和实时同步)时通常会遇到的瓶颈,而且迭代次数大大减少。该模型在处理棘手任务时尤其出色,能够以更少的来回修改轻松应对。”
— Fabian Hedin,Lovable 首席技术官兼联合创始人
“GPT-5.5 为 Devin 的性能树立了新的标杆。它比我们测试过的任何 GPT 模型运行时间更长、自主性更高。它能发现其他模型无法捕获的错误,还能端到端地调查和修复生产环境中的问题。”
— Scott Wu,Cognition联合创始人兼首席执行官
“与之前的 GPT 模型相比,GPT-5.5 在处理歧义方面取得了巨大的进步。由于 Windsurf 2.0 更侧重于并行代理,因此该模型对于长期任务至关重要。它擅长理解意图、推理复杂问题,并以最少的反复执行完成任务。”
— Windsurf 首席执行官 Jeff Wang
“在我们的评估中,我们看到该模型在处理复杂的多步骤编码任务方面能力显著提升。在 SWE-Bench 测试中,该模型能够解决的任务数量提升 6 个百分点以上,并且在更复杂的工作流程中,能够以更少的步骤(通常减少 50% 到 60%)找到解决方案,同时端到端完成时间也得到逐步缩短。对于开发人员而言,这意味着更少的等待、更少的人工干预,以及对系统能够解决疑难问题的更大信心。”
— Joe Binder,GitHub 产品副总裁
“在我们测试的环境中,最突出的特点是效率。在简单的任务上,新模型的速度比旧模型快3倍,同时保持了强大的前端功能和指令执行能力。它还能根据任务调整推理能力,将更长时间的思考留给真正需要的工作。”
— JetBrains人工智能生态系统负责人Denis Shiryaev
“Sonar 的评估发现,与顶级编码模型相比,GPT-5.5 每千行代码产生的错误和漏洞最少。对于使用 AI 进行开发的团队而言,GPT-5.5 为生成代码树立了新的标杆,生成的代码不仅功能完善,而且在投入生产之前所需的调试和修复工作量也更少。”
— 乔·泰勒,Sonar首席人工智能研究员
知识工作
让 GPT‑5.5 在编码上表现出色的那些能力,同样也让它在日常计算机工作中非常强大。因为模型更善于理解意图,它可以更自然地走完整个知识工作闭环:查找信息、判断重点、调用工具、校验结果,并把原始材料转化为真正有用的产出。
在 Codex 中,GPT‑5.5 生成文档、电子表格和幻灯片的能力优于 GPT‑5.4。Alpha 测试者表示,它在运营研究、表格建模、以及把杂乱的业务输入整理成计划等工作上,都超过了过去的模型。再结合 Codex 的计算机使用能力,GPT‑5.5 让我们更接近一种真实体验:模型仿佛真的在和你一起使用电脑,能看到屏幕内容、点击、输入、导航界面,并精确地跨工具推进任务。
OpenAI 内部团队已经把这些能力用进了真实工作流。如今,公司里超过 85% 的员工每周都会使用 Codex,覆盖软件工程、财务、传播、市场、数据科学和产品管理等职能。在传播团队中,成员使用 Codex 里的 GPT‑5.5 分析了六个月的演讲邀请数据,建立评分与风险框架,并验证了一个自动化 Slack 智能体,使低风险请求可以自动处理,而高风险请求仍交给人工复审。在财务团队中,成员使用 Codex 审查了 24,771 份 K-1 税表,总计 71,637 页,并采用排除个人信息的工作流,使团队比上一年提前两周完成任务。在 Go-to-Market 团队中,有员工将每周业务报告的生成自动化,每周节省了 5 到 10 小时。
在 ChatGPT 中,GPT‑5.5 Thinking 为更难的问题提供了更快帮助,给出更聪明、更简洁的回答,帮助你更高效地推进复杂工作。它特别擅长编码、研究、信息综合与分析,以及重文档任务,尤其是在结合插件使用时。
在 GPT‑5.5 Pro 中,早期测试者看到的是 ChatGPT 所能承担工作的难度和质量同时出现显著跃升,再加上延迟下降,使它更适合高要求任务。与 GPT‑5.4 Pro 相比,测试者认为 GPT‑5.5 Pro 的回答明显更全面、结构更好、更准确、更相关,也更有用,在商业、法律、教育和数据科学等场景中表现尤其突出。
GPT‑5.5 在多个反映此类工作的 benchmark 上都达到了当前最先进水平。在测试智能体于 44 个职业中产出规范化知识工作的 GDPval 上,GPT‑5.5 得分 84.9%。在衡量模型是否能自主操作真实计算机环境的 OSWorld-Verified 上,它达到 78.7%。在测试复杂客服工作流的 Tau2-bench Telecom 上,它在无 prompt tuning 的情况下达到 98.0%。GPT‑5.5 在其他知识工作 benchmark 上也表现强劲:FinanceAgent 为 60.0%,内部投行建模任务为 88.5%,OfficeQA Pro 为 54.1%。
Tau2-bench Telecom 在没有 prompt tuning 的情况下运行(用户模型为 GPT‑4.1)。GPT‑5.5 对任务意图的理解优于前代模型,而且 token 效率更高。
“GPT-5.5 提供了执行密集型工作所需的持续性能。该模型构建并运行在 NVIDIA GB200 NVL72 系统上,使我们的团队能够直接从自然语言提示中交付端到端功能,把调试时间从几天缩短到几小时,并把原本需要数周的复杂代码库实验压缩成一夜之间就能完成的进展。这不只是更快地写代码,而是一种新的工作方式,让人能够以根本不同的速度运转。”
— Justin Boitano,NVIDIA 企业 AI 副总裁
科学研究
GPT‑5.5 在科学和技术研究工作流上同样表现出提升,而这类工作并不只是回答一个难题。研究人员需要探索想法、收集证据、检验假设、解释结果,并决定下一步尝试什么。与其他模型相比,GPT‑5.5 更擅长在这个循环中持续推进。
值得注意的是,在 GeneBench 上,GPT‑5.5 相比 GPT‑5.4 有明显提升。GeneBench 是一项新的评测,聚焦遗传学和定量生物学中的多阶段科学数据分析。这些问题要求模型在几乎没有监督指导的情况下,对可能含糊或有错误的数据进行推理,处理隐藏混杂因素、质控失败等真实障碍,并正确实现和解释现代统计方法。考虑到其中很多任务对科学专家来说往往也是持续数天的项目,这一表现尤其突出。
同样地,在围绕真实世界生物信息学与数据分析设计的 benchmark BixBench 上,GPT‑5.5 在已公布分数的模型中取得领先。它的科学能力如今已强到足以作为真正的协作科学家,切实加速生物医学研究前沿的进展。
另一个例子中,一个带定制 harness 的 GPT‑5.5 内部版本帮助发现了一个关于 Ramsey 数的新证明,而 Ramsey 数是组合数学中的核心对象之一。组合数学研究离散对象如何组织在一起:图、网络、集合和模式。Ramsey 数大致是在问,一个网络要大到什么程度,某种有序结构才一定会出现。这个方向的结果很少见,而且通常技术难度很高。在这里,GPT‑5.5 找到了一个关于非对角 Ramsey 数长期已知渐近事实的新证明,之后又在 Lean 中得到验证。这是 GPT‑5.5 不只是贡献代码或解释,而是在核心研究领域中给出令人意外且有价值数学论证的具体案例。
早期测试者在 ChatGPT 中使用 GPT‑5.5 Pro 时,已经不再把它当成一次性答题引擎,而更像一个研究伙伴:它会多轮批评和修改论文、对技术论证做压力测试、提出分析方案,并结合代码、笔记和 PDF 上下文协作。共同的结论是,GPT‑5.5 更擅长帮助研究者从问题走到实验,再走到最终产出。
Jackson Laboratory for Genomic Medicine 的免疫学教授兼研究员 Derya Unutmaz 使用 GPT‑5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集,产出了一份详细研究报告,不仅总结了发现,还提出了关键问题和洞察。他表示,这项工作原本需要他的团队花上数月时间。
波兰波兹南 Adam Mickiewicz University 的数学助理教授 Bartosz Naskręcki 使用 Codex 中的 GPT‑5.5,仅凭一条提示词就在 11 分钟内构建了一个代数几何应用,可视化二次曲面的交线,并把得到的曲线转换为魏尔斯特拉斯模型。
随后,他又扩展了这个应用,加入更稳定的奇点可视化以及可在后续工作中复用的精确系数。对他来说,更大的变化在于,Codex 现在已经能够帮助实现过去需要专门工具才能完成的数学可视化与计算机代数工作流。综合来看,这些例子表明 GPT‑5.5 正在把专家意图转化为可运行的研究工具和分析结果。

Prompt: # 代数几何曲面交线
做一个应用,绘制两个二次曲面,并把交线标成红色。使用计算性的黎曼-罗赫定理把它转换成魏尔斯特拉斯曲线。
## 主窗口
两个带色调、略带透明阴影的曲面,以高质量渲染方式相交,并沿着一条红色代数曲线交汇
支持鼠标双向旋转、完整的捏合缩放机制、触觉按压呼出一个包含滑杆的小菜单,用于调整每个曲面的系数;通过 Z-buffer 层级进行检测
## 右侧窗口
通过有效黎曼-罗赫定理公式实时计算并显示简短的魏尔斯特拉斯方程(定义在 Q 或二次域扩张上)
## 环境模式
隐藏所有控制项,让用户可以单纯欣赏这些图形的美感
## 规格
应用运行在浏览器中,使用轻量实现、最新全栈类库、可移植、可部署
## 文档
Git 仓库、日志、计划(Markdown 文件)
“在我们的 harness 中使用 OpenAI 新的 GPT-5.5 模型,让它对大规模生化数据集进行推理、预测人体药物结果,并看到它在我们最难的药物发现评测上带来显著精度提升,这件事令人振奋。如果 OpenAI 继续以这样的节奏推进,到今年年底,药物发现的基础范式就会改变。”
— Brandon White,Axiom Bio 联合创始人兼 CEO
下一代推理效率
要在 GPT‑5.4 的延迟水平上提供 GPT‑5.5,需要我们把推理重新思考为一个集成系统,而不是一组彼此孤立的优化。GPT‑5.5 是围绕 NVIDIA GB200 和 GB300 NVL72 系统协同设计、训练并提供服务的。Codex 和 GPT‑5.5 在我们达成性能目标的过程中发挥了关键作用。Codex 帮助团队更快地把想法推进为可 benchmark 的实现,勾勒方案、连通实验,并帮助识别哪些优化值得进一步投入。GPT‑5.5 则帮助找到并实现了堆栈本身的一些关键改进。简单说,这个模型帮助我们改进了为它自己提供服务的基础设施。
其中一项改进是负载均衡和分区启发式算法。在 GPT‑5.5 之前,我们会把加速器上的请求切分成固定数量的块,以便在计算核心之间平衡工作,让大请求和小请求都能运行在同一块 GPU 上。然而,预设的静态分块数量并不适合所有流量形态。为了更高效利用 GPU,Codex 分析了数周的生产流量模式,并编写了定制启发式算法,以最优方式进行分区和负载均衡。这项工作带来了远超预期的效果,使 token 生成速度提升了 20% 以上。
为所有人的安全推进网络安全
要让世界为那些非常擅长发现并修补安全漏洞的模型做好准备,是一项团队运动,需要整个生态系统共同努力建立韧性。这意味着要通过模型访问民主化和迭代式部署,迎接网络防御的下一个时代。
前沿模型在网络安全方面正变得越来越强。这些能力最终会被广泛分发,而我们认为最好的前进路径,是确保这些能力被用于加速网络防御、增强整个生态系统。
GPT‑5.5 是朝着能够解决网络安全等世界级难题的 AI 迈出的渐进但重要的一步。去年 12 月,随着 GPT‑5.2 发布,我们主动部署了必要的网络安全护栏,以限制模型可能带来的网络滥用;而在 GPT‑5.5 上,我们又部署了更严格的潜在网络风险分类器。部分用户一开始可能会觉得这些限制有些烦人,但我们会随着时间不断调优。
多年来,随着模型能力逐步提升,我们一直在准备度框架中把网络安全视作一个独立类别,并以迭代方式开发和校准缓解措施,以便能够负责任地发布具备实质网络安全能力的模型。
- 我们正在为这一等级的网络能力部署行业领先的安全措施。 去年我们首先在 GPT‑5.2 上引入了网络安全专用护栏,并在后续部署中持续测试、迭代和强化。针对 GPT‑5.5,我们围绕更高风险活动、敏感网络请求以及重复滥用新增了更严格的控制。更广泛的访问之所以成为可能,依赖于我们在模型安全、身份化使用和违规使用监测上的长期投入。数月来,我们一直与外部专家合作开发、测试并迭代这些护栏的鲁棒性。对于 GPT‑5.5,我们一方面确保开发者能够更轻松地保护自己的代码,另一方面又对最可能被恶意行为者利用、造成伤害的网络工作流施加更强控制。
- 我们正在扩大访问范围,以在各个层面加速网络防御。 我们正通过 Trusted Access for Cyber 提供更宽松的网络安全模型访问,首先从 Codex 开始。它在上线时就为满足特定信任信号要求的验证用户,开放 GPT‑5.5 高级网络安全能力,并减少限制。负责保护关键基础设施的组织,也可以申请访问 GPT‑5.4‑Cyber 这类更宽松的网络模型,但必须满足严格安全要求,并仅可用于保护自身内部系统。这让更广范围的验证防守方在进行合法安全工作时,能够使用更强工具,同时减少不必要摩擦,以确保关键防御能力能够被更广泛地普及。用户可以通过 chatgpt.com/cyber 申请可信访问,从而在使用 GPT‑5.5 进行经过验证的防御性工作时减少不必要拒绝。
- 我们正与政府合作伙伴共同保护面向公众的关键基础设施。 我们正在探索先进 AI 如何支持受信任官员的防御性工作,这些人负责保护公众依赖的系统,从保护重要纳税数据的数字系统,到地方社区的电网和供水系统。
根据我们的准备度框架,我们将 GPT‑5.5 的生物/化学能力和网络安全能力都归类为 High。虽然 GPT‑5.5 尚未达到 Critical 级别的网络安全能力,但我们的评估与测试表明,与 GPT‑5.4 相比,它在网络安全方面已经迈上了新的台阶。
此外,GPT‑5.5 在发布前还完整经历了我们的安全与治理流程,包括准备度评估、领域专项测试、面向高级生物与网络安全能力的新增定向评测,以及与外部专家进行的强度测试。更多细节见 GPT‑5.5 的系统卡。
这项工作体现了我们更广泛的 AI 韧性方法。随着模型能力不断提升,我们认为这类方法将变得必不可少。我们希望强大的 AI 能够被那些用于守护系统、机构和公众的人使用。可行的路径是:可信访问、随能力提升而扩展的强健护栏,以及对严重滥用进行检测和响应的运营能力。
可用性与定价
今天,GPT‑5.5 正在向 ChatGPT 和 Codex 的 Plus、Pro、Business、Enterprise 用户推出;GPT‑5.5 Pro 正在向 ChatGPT 的 Pro、Business、Enterprise 用户推出。我们也将在近期把 GPT‑5.5 和 GPT‑5.5 Pro 带到 API。
在 ChatGPT 中,GPT‑5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用户开放。面向更难问题和更高准确率工作的 GPT‑5.5 Pro,则面向 Pro、Business、Enterprise 用户开放。
在 Codex 中,GPT‑5.5 面向 Plus、Pro、Business、Enterprise、Edu 和 Go 计划开放,并提供 400K 上下文窗口。GPT‑5.5 同时支持 Fast 模式,以 2.5 倍成本实现 1.5 倍更快的 token 生成速度。
对 API 开发者而言,gpt-5.5 很快会在 Responses API 和 Chat Completions API 中可用,价格为每 100 万输入 token 5 美元、每 100 万输出 token 30 美元,并提供 100 万上下文窗口。Batch 和 Flex 定价为标准 API 价格的一半,Priority 处理则为标准价格的 2.5 倍。我们也将发布精度更高的 gpt-5.5-pro API 版本,价格为每 100 万输入 token 30 美元、每 100 万输出 token 180 美元。完整细节见定价页面。
尽管 GPT‑5.5 的价格高于 GPT‑5.4,但它既更聪明,也明显更节省 token。在 Codex 中,我们对整体体验进行了细致调校,让 GPT‑5.5 对绝大多数用户来说都能以更少 token 取得比 GPT‑5.4 更好的结果,同时继续在不同订阅层级中提供慷慨的使用额度。
评测
编码
| 评测 | GPT-5.5 | GPT‑5.4 | GPT-5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| SWE-Bench Pro (Public) * | 58.6% | 57.7% | - | - | 64.3% | 54.2% |
| Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
| Expert-SWE (Internal) | 73.1% | 68.5% | - | - | - | - |
* 已有实验室指出 该评测存在记忆化证据
专业工作
| 评测 | GPT-5.5 | GPT‑5.4 | GPT-5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| GDPval (wins or ties) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| FinanceAgent v1.1 | 60.0% | 56.0% | - | 61.5% | 64.4% | 59.7% |
| Investment Banking Modeling Tasks (Internal) | 88.5% | 87.3% | 88.6% | 83.6% | - | - |
| OfficeQA Pro | 54.1% | 53.2% | - | - | 43.6% | 18.1% |
计算机使用与视觉
| 评测 | GPT-5.5 | GPT‑5.4 | GPT-5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
| MMMU Pro (no tools) | 81.2% | 81.2% | - | - | - | 80.5% |
| MMMU Pro (with tools) | 83.2% | 82.1% | - | - | - | - |
工具使用
| 评测 | GPT-5.5 | GPT‑5.4 | GPT-5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| MCP Atlas** | 75.3% | 70.6% | - | - | 79.1% | 78.2% |
| Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
| Tau2-bench Telecom*** (original prompts) | 98.0% | 92.8% | - | - | - | - |
** MCP Atlas:Scale AI 在 2026 年 4 月最新更新后的结果。
*** Tau2-bench telecom:5.5 和 5.4 使用原始提示词得到的结果,也就是没有进行 prompt 调整。这不包含其他实验室在做了 prompt 调整后得到的结果。
学术能力
| 评测 | GPT-5.5 | GPT‑5.4 | GPT-5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| GeneBench | 25.0% | 19.0% | 33.2% | 25.6% | - | - |
| FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
| BixBench | 80.5% | 74.0% | - | - | - | - |
| GPQA Diamond | 93.6% | 92.8% | - | 94.4% | 94.2% | 94.3% |
| Humanity’s Last Exam (no tools) | 41.4% | 39.8% | 43.1% | 42.7% | 46.9% | 44.4% |
| Humanity’s Last Exam (with tools) | 52.2% | 52.1% | 57.2% | 58.7% | 54.7% | 51.4% |
网络安全
| 评测 | GPT-5.5 | GPT‑5.4 | GPT-5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| Capture-the-Flags challenge tasks (Internal)**** | 88.1% | 83.7% | - | - | - | - |
| CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
**** 使用系统卡中最难 CTF 的扩展版,并加入了更多高难度挑战。
长上下文
| 评测 | GPT-5.5 | GPT‑5.4 | GPT-5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| Graphwalks BFS 256k f1 | 73.7% | 62.5% | - | - | 76.9% | - |
| Graphwalks BFS 1mil f1 | 45.4% | 9.4% | - | - | 41.2% (Opus 4.6) | - |
| Graphwalks parents 256k f1 | 90.1% | 82.8% | - | - | 93.6% | - |
| Graphwalks parents 1mil f1 | 58.5% | 44.4% | - | - | 72.0% (Opus 4.6) | - |
| OpenAI MRCR v2 8-needle 4K-8K | 98.1% | 97.3% | - | - | - | - |
| OpenAI MRCR v2 8-needle 8K-16K | 93.0% | 91.4% | - | - | - | - |
| OpenAI MRCR v2 8-needle 16K-32K | 96.5% | 97.2% | - | - | - | - |
| OpenAI MRCR v2 8-needle 32K-64K | 90.0% | 90.5% | - | - | - | - |
| OpenAI MRCR v2 8-needle 64K-128K | 83.1% | 86.0% | - | - | - | - |
| OpenAI MRCR v2 8-needle 128K-256K | 87.5% | 79.3% | - | - | 59.2% | - |
| OpenAI MRCR v2 8-needle 256K-512K | 81.5% | 57.5% | - | - | - | - |
| OpenAI MRCR v2 8-needle 512K-1M | 74.0% | 36.6% | - | - | 32.2% | - |
抽象推理
| 评测 | GPT-5.5 | GPT‑5.4 | GPT-5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| ARC-AGI-1 (Verified) | 95.0% | 93.7% | - | 94.5% | 93.5% | 98.0% |
| ARC-AGI-2 (Verified) | 85.0% | 73.3% | - | 83.3% | 75.8% | 77.1% |
GPT 的评测使用了 xhigh 推理强度,并在研究环境中完成,因此在某些情况下,与生产环境中的 ChatGPT 输出可能会略有差异。
评论互动