GPT-5.5 来了，这次进步得有点太快了

发布于 2026年04月24日 12:47 #OpenAI #Models

编码能力在 Terminal-Bench 2.0 达 82.7%，超越 GPT-5.4 和 Claude Opus 4.7
早期测试者称失去访问权限如“截肢”，能 20 分钟解决数百文件合并
从单条 prompt 构建完整 3D 可视化应用，实现自写自测自迭代闭环
内部版本帮助数学家发现 Ramsey 数新证明，通过 Lean 形式化验证
价格提升但效率更高，实际使用成本未大幅增加

事情是这样的。

今天凌晨，OpenAI 悄悄放出了 GPT-5.5。

没有发布会，没有直播，甚至连个预热都没有，就这么直接上线了。但如果你关注 AI 圈的话，你会发现从昨晚开始，推特上就已经炸了。

我自己第一时间去翻了官方博客和评测数据，然后又去看了那些拿到早期访问的测试者的反馈。

怎么说呢，看完之后我有点懵。

不是那种“又发布了新模型”的懵，是那种“等等，这玩意进步得是不是有点太快了”的懵。

先说最核心的一点，GPT-5.5 在编码能力上的提升，不是那种从 90 分到 92 分的渐进式进步，而是在好几个关键评测上都出现了比较大的跳跃。

Terminal-Bench 2.0，这个评测测的是模型在复杂命令行工作流中的表现，需要规划、迭代、工具协同这些能力。GPT-5.5 拿了 82.7%，而上一代的 GPT-5.4 是 75.1%。Claude Opus 4.7 呢，69.4%。

差距一下子就拉开了。

Expert-SWE 是 OpenAI 内部的一个更难的评测，任务的中位人类完成时间是 20 小时。GPT-5.5 比 GPT-5.4 高出快 5 个百分点。

而且，GPT-5.5 完成这些任务用的 token 比 GPT-5.4 更少。更聪明，还更省。这个组合就很有意思了。

但真正让我愣住的，不是评测分数。

是那些早期测试者说出来的话。

Every 的创始人兼 CEO Dan Shipper 说了一句很重的话，他说 GPT-5.5 是他「用过的第一个真正具备严肃概念清晰度的编码模型」。

听着好像只是一句夸奖对吧，但他后面讲了个具体的故事，一下子就不一样了。

他之前发布了一个应用，上线之后出了一个很棘手的 bug，他自己花了好几天调试都没搞定，最后请来了公司最强的一位工程师，那位工程师看了之后决定重写系统里的一整块。

然后 Shipper 就想测试一下 GPT-5.5。他把时间拨回去了。

他把出 bug 时候的代码状态喂给模型，看看它能不能给出和那位工程师一样的重写方案。

GPT-5.4 做不到。GPT-5.5 做到了。

这个感觉，太特么可怕了。

还有 MagicPath 的 CEO Pietro Schirano，他让 GPT-5.5 把一个包含数百项前端和重构改动的分支，合并进一个同样已经发生大量变化的主分支。这种任务，很多资深程序员看到都会头疼。

GPT-5.5 用了大约 20 分钟，一次性解决了。

一位 NVIDIA 的工程师更夸张，他说「失去 GPT-5.5 的访问权限，就像我被截掉了一条肢体」。

= =

我当时看到这句话的时候一时间无语凝噎。一个在 NVIDIA 工作的工程师，每天接触的都是世界上最前沿的芯片和系统，他说失去一个 AI 模型的访问权限像截肢。

这个比喻的重量，你自己品。

说到这里我想插一句。你可能注意到了，前面提到的这些测试者，不是什么网红博主，不是什么 AI 评测自媒体。他们是 Cursor 的联合创始人、Lovable 的 CTO、Cognition 的 CEO、GitHub 的产品副总裁、JetBrains 的 AI 负责人、Sonar 的首席 AI 研究员。

都是在编程工具领域摸爬滚打多年的硬核从业者。

当这些人集体说一个模型「明显更强」的时候，你真的需要认真听。

回到 GPT-5.5 本身。

OpenAI 还展示了一个让我印象非常深的 demo。他们给 Codex 里运行的 GPT-5.5 发了一条 prompt，让它用 WebGL 和 Vite 从零开始实现一个 Artemis II 任务的 3D 可视化应用。用的是 NASA/JPL Horizons 的真实轨道数据，要求可以交互，要有真实的轨道力学。

然后 GPT-5.5 就真的做出来了。一个完整的、可以交互的 3D 太空渲染应用，从一条 prompt 开始。

Artemis II 任务 3D 可视化 demo

你可能觉得这种 demo 之前也见过。但注意一下细节，它不是给了你一段代码让你自己去跑，而是在 Codex 的环境里自己写、自己测、自己调试、自己迭代，直到应用完全跑起来。

这个闭环才是真正让人兴奋的地方。

不只是编程。

OpenAI 自己的内部数据也很有意思。公司里超过 85% 的员工每周都在用 Codex，覆盖了工程、财务、传播、市场、数据科学、产品管理等几乎全部职能。

传播团队用 Codex + GPT-5.5 分析了六个月的演讲邀请数据，建了评分框架，还验证了一个自动化的 Slack 智能体。财务团队用它审查了 24,771 份 K-1 税表，总共 71,637 页，比上一年提前两周完成。

我有时候觉得，当一家公司自己的员工开始高频使用自己的产品做真实工作的时候，那个产品的成熟度已经到了一个很不一样的阶段。

然后还有一个让我真正坐直了的部分。

GPT-5.5 的一个内部版本，帮数学家发现了一个关于 Ramsey 数的新证明。

Ramsey 数是组合数学里的核心问题之一，大概就是在问，一个网络要大到什么程度，某种有序结构才一定会出现。这个方向上的成果非常稀少，而且通常技术难度极高。

而 GPT-5.5 给出了一个关于非对角 Ramsey 数长期已知渐近事实的新证明，后来还在 Lean 形式化验证语言里通过了验证。

你想想看，一个 AI 模型不是在帮你写代码，不是在帮你翻译文章，它是在核心数学领域给出了一个让人意外的、有价值的论证。

这已经不是「AI 辅助」的范畴了。

还有一位波兰的数学教授 Bartosz Naskręcki，他用 Codex 里的 GPT-5.5，只发了一条 prompt，11 分钟就构建出了一个代数几何可视化应用。两个二次曲面的交线渲染、黎曼-罗赫定理的自动计算、魏尔斯特拉斯曲线转换，全部搞定。

11 分钟。从一条 prompt 到一个完整可用的数学工具。

说实话我也不确定这是不是已经到了让专业数学工具都显得有点尴尬的程度，但想想就觉得兴奋。

聊完能力，顺便说两句价格和可用性。

GPT-5.5 已经在 ChatGPT 和 Codex 里向 Plus、Pro、Business、Enterprise 用户推出。API 版本很快也会上来，价格是每 100 万输入 token 5 美元、每 100 万输出 token 30 美元，100 万上下文窗口。GPT-5.5 Pro 贵不少，输入 30 美元、输出 180 美元。

虽然比 GPT-5.4 贵，但因为它效率更高，用更少 token 就能完成任务，所以 OpenAI 说实际使用成本并不会高太多。

说真的，我写这篇文章的时候一直在想一个问题。

大概一年前，我们还在讨论「AI 能不能写出能用的代码」。半年前，讨论变成了「AI 能不能处理稍微复杂一点的任务」。现在，一个 NVIDIA 的工程师说失去 GPT-5.5 像截肢，一个数学家用它 11 分钟从零做出了代数几何工具，一个 CEO 让它 20 分钟搞定了几百个文件的大合并。

这个进化的速度。。。

我前几天看到一个说法，说 2026 年是 AI 的智能体元年。现在我觉得，可能不止。

AI 正在从「你需要告诉它每一步做什么」，变成「你告诉它你想做什么，它自己想办法搞定」。GPT-5.5 的发布，让这个转变又往前推了一大步。

而那些真正动手用过的人，已经用「截肢」来形容失去它的感受了。

你说这是不是一种新型的依赖？

可能是。但另一种可能是，我们正在进入一个真正不同的工作方式。不是 AI 替你做，而是 AI 跟你一起做。它不再是那个你需要反复纠正的实习生，而更像是一个你真的可以信任的搭档。

反正我觉得，这事儿还挺值得兴奋的。

如果你想查看官方完整的 GPT-5.5 介绍，可以点击左下角的「阅读原文」链接

谢谢你看我的文章，我们，下次再见。

评论互动