当 AI 自己构建自己：Anthropic 的递归自我改进之路

发布于 2026年06月05日 13:35 #Claude #Agents 原文链接

Anthropic 工程师每季度代码量是 2021-2025 年的 8 倍，AI 加速自身开发
Claude 编写了 Anthropic 代码库 80% 以上的代码，质量已与人类持平
Claude 在运行实验和提出研究假设方面快速提升，部分任务已超越人类
递归自我改进可能使 AI 自主设计后继版本，增加人类失去控制的风险

原文链接：When AI builds itself

在 AI 的大部分历史中，每一步开发都由人类驱动。但在 Anthropic，我们正在将越来越多的 AI 开发工作委托给 AI 系统本身，这正在加速我们的工作。

如果这一趋势发展得足够远，并且有足够的算力支撑，它将指向一个能够完全自主设计并开发自身后继版本的 AI 系统。这就是所谓的递归自我改进（recursive self-improvement）。我们还没有到达那一步，递归自我改进也并非不可避免。但它可能比大多数机构准备好的时间来得更早。

利用公开基准测试和 Anthropic 内部此前未公布的数据，The Anthropic Institute 正在展示 AI 已经在加速 AI 系统本身的开发。仅举一个例子：如今 Anthropic 工程师平均每季度提交的代码量是 2021-2025 年期间的 8 倍。

本文讨论的技术趋势表明，AI 系统在未来几年将变得更加强大。这些趋势影响巨大。能够自我构建的 AI 将是技术史上的一项重大发展——它可能在科学、医疗等领域为世界带来巨大福祉。但完整的递归自我改进也可能增加人类失去对 AI 系统控制的风险。如果系统能够完全构建自己的后继版本，那么我们如何保障安全、监控它们、塑造其行为，都将变得更加重要。

时间	阶段	描述
2021–2023	建造第一个 Claude	Anthropic 的工作和其他科技公司没什么两样：人们在笔记本电脑上编写代码和文档
2023–2025	聊天机器人	人们使用聊天机器人帮助完成部分流程，比如生成短代码片段再复制到编辑器
2025–2026	编码智能体	智能体能独立编写和编辑代码，有时可以处理整个文件
今天	自主智能体	智能体可以自行运行代码，并将数小时的工作委派给其他智能体
20XX?	闭合回路	智能体可能具备构建和训练自身模型的能力，Claude 的未来版本由 Claude 自身不断改进

来自外部的证据

AI 模型提升的速度正在加快。它们能够独立可靠完成的任务时长大约每四个月翻一番，而更早的趋势是每七个月翻一番。2024 年 3 月，Claude Opus 3 能完成人类大约需要 4 分钟的软件任务。一年后，Claude Sonnet 3.7 能完成大约需要一个半小时的任务。再过一年，Claude Opus 4.6 能完成 12 小时的任务。¹ 如果这一趋势保持下去，需要熟练人员数天才能完成的任务今年就可能纳入范围。到 2027 年，AI 系统可能具备完成需要数周任务的能力。

同样的模式也出现在编码和研究基准测试中。² SWE-bench 是一项真实世界软件工程的标准测试：它给模型一个实际的开源代码库和一个真实的 bug 报告，要求其编写能修复问题并通过项目自身测试的代码更改。模型在两年内从个位数的得分增长到饱和了该基准测试。

CORE-Bench 测试模型能否复现已有研究——这是它们进行原创研究的前提。2024 年，AI 系统复现结果的成功率约为 20%，十五个月后便饱和了该基准。运营长时任务基准测试的 METR 发现，Claude Mythos Preview 能持续工作“至少”16 小时，已处于“METR 在没有新任务的情况下能测量的上限”。

公开基准测试能揭示这些系统的很多能力。但它们无法展示 AI 系统对加速 AI 开发本身的影响。为此，我们需要来自 Anthropic 等 AI 公司内部的直接证据。

来自 Anthropic 内部的证据

构建前沿模型需要两大类工作：工程——编写代码、搭建基础设施、监督模型训练；以及研究——决定运行哪些实验、解读返回结果、判断接下来尝试哪些想法。

在工程和研究两方面，情况是一致的。在工程方面，Claude 可以拿到一个定义不明确的问题并自行找出解决方案；人类提供目标，但不再需要提供方法。在研究方面，Claude 在执行明确定义的实验时已经能匹敌甚至超越熟练的人类。然而，在 Claude 行使判断力选择目标方面（无论工程还是研究），仍存在巨大的性能差距。这就是今天的 AI 与未来能够自主设计自身后继版本的系统之间的差距。

Anthropic 员工随着经验增长通常会接到越来越开放和重要的任务。早期，他们执行别人指定的任务，比如，「导出按钮不好使，请修一下。」 随着经验积累，他们接到目标并自行设计方案，例如，「调查一下网络在高负载下为什么变慢。」 在最高级别，他们决定哪些问题值得投入：「团队下个季度应该做什么？」 我们可以用 Anthropic 内部数据来看 Claude 在处理这些不同类型任务方面走了多远。

Claude 编写了 Anthropic 相当大比例的代码。 截至 2026 年 5 月，我们合并到 Anthropic 代码库中的代码有 80% 以上 由 Claude 编写。³ 在 Claude Code 于 2025 年 2 月以研究预览形式发布之前，这个数字还是个位数。这一转变也体现在每位工程师的产出上。每位工程师每天合并的代码行数在 Anthropic 的前四年（2021-2024）保持稳定，然后在 2025 年 Claude 开始运行代码（而不是仅仅建议工程师复制粘贴）时开始上升。2026 年模型开始更长时间自主工作时，曲线再次加速。在 2026 年第二季度，典型工程师每天合并的代码量是 2024 年的 8 倍。⁴ 这是因为大量代码由 Claude 编写，工程师负责指导和审查，而不是自己敲代码。

需要注意的是：代码行数是一个不完美的衡量指标，因为它衡量的是数量而非质量。所以 8 × 代码行数/工程师/天 在 2026 年第二季度几乎肯定高估了真实的生产力提升。尽管如此，它确实表明了一种加速。在 Anthropic，我们不会根据代码行数来奖励员工；团队成员之所以产出更多代码，仅仅是因为他们正在使用 AI 系统来写更多代码。

代码行数的增长与大规模生产力提升的主观感受一致。在 2026 年 3 月对 130 名 Anthropic 研究团队成员的民意调查中，中位数受访者估计，使用 Mythos Preview 的产出大约是不使用任何 AI 模型的 4 倍。⁵ 我们认为 3 月份的真实提升程度要低一些。⁶ 尽管如此，我们认为整体说法是可信的，也与我们其他观察一致：Anthropic 很大一部分技术人员完成核心工作的速度是不使用 AI 辅助时的数倍。

我们还看到证据表明 Anthropic 的人员正在使用 Claude 完成原本根本不会发生的工作，比如构建探索性工具和解决长期搁置的清理任务。例如 2026 年 4 月，Claude 提交了 800 多个修复，将某类 API 错误减少了一千倍。监督 Claude 的工程师估计，人类完成这项工作需要四年；解决别人的 bug 是缓慢而繁琐的，人类很难在脑中同时容纳这么多不熟悉的上下文。

我大约一年前开始大力拥抱 Claude 化。那是一段疯狂的冒险，现在距离我上次自己写代码已经大约 5 个月了。

— Anthropic 员工*

Claude 编写的代码是「好的」并且在持续改进。 「好的代码」意味着两件事：它能工作，而且写法让其他工程师能理解并在此基础上继续构建。在第一个标准上，证据很清楚。Anthropic 员工在任务中途纠正、重定向或接管 Claude 的比率一年来一直在稳步下降，包括最复杂、最开放的任务。这意味着没有明确规格的问题，工程师也不确定答案应该长什么样。这在 Claude 随时间推移在不同难度任务上的成功率中很明显。

在最开放的任务上，Claude 的成功率在 2026 年 5 月达到了 76%，六个月内提升了 50 个百分点。举一个这个难度层级的任务例子：一次常规升级导致数万个训练任务崩溃。一位工程师几乎只给了 Claude 一些文本内容和集群访问权限就把它指向了这场线上事故。通过遍历正在运行的任务并逐一测试环境设置，Claude 定位到了触发崩溃的那个冷僻调试标志，可靠地复现了问题，并确认了修复方案。大约两个小时，Claude 完成了通常需要两到三天的工作。

在第二个标准——写出其他工程师能理解和在此基础上构建的代码——方面，人类与 AI 之间的差距仍然存在，但正在快速缩小。Anthropic 内部并没有完全达成共识，但许多人认为 Claude 编写的代码在 2025 年底仍然比 Anthropic 人类编写的代码质量差，而今天已基本持平。我们预计它在年内会变得更好。

这也改变了 Anthropic 审查代码的方式。对我们代码库的每次更改现在都会由一个自动化的 Claude 审查员阅读，检查 bug、安全漏洞和其他缺陷，然后才能合并。使用这个工具，我们做了一次回溯分析，发现对代码库每次更改进行自动化 Claude 审查，本可以在过去 claude.ai 事故背后的 bug 到达生产环境之前就捕获大约三分之一。编写这些代码的工程师是世界上最优秀的构建这些系统的人之一。Claude 现在正在捕捉他们遗漏的错误。

Claude 编写的代码在 2025 年底比 Anthropic 人类编写的代码略差，今天已基本持平，我们预计它在年内会严格超过人类。

Claude 擅长运行实验来达到别人设定的目标。 每次 Anthropic 发布模型，我们都运行同样的测试：给 Claude 一些训练小型 AI 模型的代码，让它在通过相同正确性检查的前提下尽可能让代码跑得快。目标和成功指标是预先固定的，所以 Claude 的工作是通过重写代码、运行、计时、重复来找到加速方案。这是一个实验研究循环的微缩版。2025 年 5 月，Claude Opus 4 平均实现了约 3 倍的加速。到 2026 年 4 月，Claude Mythos Preview 达到了约 52 倍。作为参照，一个熟练的人类研究员需要 4 到 8 小时才能达到 4 倍。⁷ 在研究工作流的这一部分——在明确定义的实验中优化步骤——Claude 在不到一年内从超级有用变成了超人。

现在大致的状态是「人类提出想法，模型能以比以前快一个数量级的速度来实现、测试和评估。」

Claude 在提出自己的实验方面越来越强。 2026 年 4 月，Anthropic 发布了 Claude 端到端运行开放式研究项目的首个演示。Claude 驱动的智能体被赋予了一个 AI 安全方面的开放问题——大致是，较弱的模型能可靠地监督较强的模型吗？ ——并被放手去解决。这涉及提出假设、测试、与并行智能体分享发现、迭代。这个任务有明确的「地板」和「天花板」：地板是弱监督者自己能做到的水平；天花板是强模型在用正确答案训练时的表现。两名人类研究员在大约一周内恢复了该差距的大约 23%；智能体在 800 累计小时内恢复了 97%，使用了大约 18,000 美元的算力。这项工作有一些注意事项；结果没有干净地迁移到生产规模的模型，而且人类仍然选择了问题并创建了评分标准。但在这些范围内，智能体自主设计了每一个实验。设定方向是人类唯一扮演的有意义的角色。

Claude 在 1-2 天内几乎不需要我的帮助就完成了所有这些。我觉得如果一位初级同事在同样的时间内带着这样的结果回来，我会感到些许惊讶。未来就是现在。

Claude 在引导研究会话走向研究发现方面越来越强。 我们检查了真实的 Claude Code 会话（2026 年 1 月至 3 月），Anthropic 研究人员在其中与 Claude 一起处理开放式调查问题，比如弄清楚训练运行为什么一直崩溃，或者模型在某个基准上得分为什么很低。在每种情况下，我们都找到了研究人员走偏的时刻：他们追求了一个让会话偏离正轨的方向，然后才最终回到正轨。然后我们仅向各种 Claude 模型展示会话偏离正轨之前的工作，问它下一步会做什么。一个能看到会话最终走向的独立 Claude 随后判断 AI 还是人类建议了更好的下一步。⁸

因为我们刻意挑选了人类选择还有改进空间的时刻（n=129），这不是模型与人类判断的公平比较。这些时刻给我们提供的是一组现实的、具有挑战性的场景，其中正确的下一步并不明显，人类的选择可以作为比较模型随时间表现的有用标尺。在这一指标上，我们 2025 年 11 月最好的模型（Opus 4.5）在 51% 的情况下优于人类选择；2026 年 4 月（Mythos Preview），这一比例增长到 64%。研究的日常工作很大程度上就是一系列这样的下一步决策，这使得该指标与模型最终自主运行调查的能力密切相关。我们将此结果视为 AI 系统在做出 AI 研究所依赖的那种判断方面越来越好的早期信号。

就目前而言，人类的比较优势仍然在于看到更大的图景，超越眼前任务的限制去思考。

Anthropic 未来的工作会是什么样？

证据表明，在 AI 开发流程的每一步中，人类角色都在缩小。一旦人类和 AI 编写的代码质量达到持平，人类将完全停止编写代码，转而只做审查。但如果他们审查代码的速度赶不上 Claude 生成的速度，人类审查将成为 AI 开发的瓶颈。同样，一旦 Claude 能运行实验，问题就转向「这些实验中哪些值得运行？」简而言之，执行（即编写代码、运行实验、产出结果）现在在人类时间上几乎不花任何成本，尽管在算力上仍有成本。

目前人类比较优势的领域是研究品味和判断力，包括选择哪些问题重要、哪些结果可信、何时一条路是死胡同。

工作（和生活）曾建立在人与人之间的小恩小惠的礼物经济之上。「能帮我跑一下这个脚本吗？」……每一个都创造了一点人情债，一点相互了解。[Claude] 更快，不产生任何人情债，但每一次都是一个失去人类协作机会的代价。

在一切运转顺利的日子里，我忍不住觉得我做的什么都不重要了，一切都是自动化的，比我永远更好更快。但也有那种一切都崩了、我不知道为什么、我意识到我已经完全不知道自己在干什么的日子。

如果我们错了呢？

对上述证据的一个自然反驳是：仍然掌握在人类手中的工作——选择要解决哪些问题——才是最重要的。没有那种判断力，Claude 只是一个能干的助手，而不是能独自推动 AI 进步的系统。

目前的训练方法和架构能否解锁这种能力，确实是未知数。但 AI 很少靠「尤里卡！」时刻来推进。AI 近期历史中有几个这样的时刻，比如 Transformer 架构或混合专家模型，但范式转换的想法之间相隔数年。在间隔期，大部分进展是渐进的：我们扩大规模，看哪里出问题，修复，再试。这正是 Claude 现在擅长的工作流。爱迪生说天才是 1% 的灵感和 99% 的汗水。但我们看到汗水正变得越来越自动化。越来越清楚的是，推动前沿的大部分工作是可自动化的；大规模研究进展主要是工具和资源的函数，它决定了你能多快运行实验、能同时运行多少、多快得到结果。

即使假设 Claude 永远不会达到优秀的研究品味，对我们证据的保守解读仍意味着复合加速。如果人类将大部分时间花在设定方向的单数位比例工作上，而 Claude 处理其余部分，这意味着每位工程师或研究员所驾驭的工作远超从前。我们看到的证据表明，Anthropic 的人既走得更快，也覆盖了更广的面。在实践中，这意味着 AI 已经让 Anthropic 比拥有有效 AI 工具之前快得多。

不太保守的解读是，关于 Claude 不断改善的研究判断力的早期证据——尽管目前还很有限——是一个指标，表明这种能力也在提升。「研究品味」可能只是 AI 系统暂时做不好的又一项能力，然后就会变得擅长。我们在其他定性技能上看到过类似的模式，比如 AI 系统能解释笑话为什么好笑、展示心智理论、解决语言谜题。

可能的未来

接下来发生什么取决于两件事：趋势是否继续，以及如果继续我们会选择做什么。我们至少可以想象三种未来场景：

场景一：趋势停滞，但今天的 AI 能力被广泛扩散。 本文展示了许多指数轨迹。但这些轨迹可能实际上是 S 曲线。我们可能正在接近曲线的弯折处，规模回报递减，线条变直，然后变平。区分合格研究员和卓越研究员的判断力可能是一种无法通过扩大训练输入（如算力和数据）来获得的能力。如果是这样，突破这个瓶颈将需要新的想法，比如一种取代所有当前前沿模型使用的 Transformer 架构的新架构。

或者，AI 进步的约束瓶颈可能在供应链，而不是模型：推进和扩散前沿可能需要比现有更多的能源和算力。芯片制造、电网扩张或互连带宽的速度可能是约束，而非智能本身。我们也不能排除对 AI 生态系统造成急剧减速的外部冲击，比如算力或电力供应的突然减少，这都会减缓进展并使实验室的前瞻投资更加昂贵。

即使模型能力冻结在今天的水平，我们也会预期世界发生重大变化。Project Glasswing 就是一个早期信号：在最初的几周里，Mythos Preview 在全球最重要的系统中发现了超过一万个高严重性和关键严重性的软件漏洞——多到网络防御的瓶颈已经从发现漏洞转移到了补丁是否跟得上。我们仍处于今天模型向更广泛经济扩散的早期阶段，一个 100 人的公司可以越来越多地完成 1000 人公司的工作，因为每位员工都坐在一个智能体金字塔的顶端。

我们纳入这个场景是出于完整性考虑，但我们认为它不太可能发生。我们能测量的每一项能力，包括那些感觉更「软」的（如代码质量和开放任务成功率），迄今都遵循着同一条曲线。我们还没有看到曲线弯折。在我们考虑的三种未来中，这一种会给政府和社会最多的适应时间。我们更担心接下来的两种，它们会走得更快，留给准备的时间远不如前者。

场景二：AI 实验室持续获得复合效率提升。 在这个场景中，AI 开发基本自动化，但人类继续设定研究方向并判断结果。使用 AI 系统的组织将随时间推移变得高效得多，因此可以预期组织中每个人的生产力倍数显著提升。100 人的公司可以做 1 万甚至 10 万人组织的工作。这将彻底革新知识工作和政府服务，但也可能被用于有害目的——从对整个人口的威权监控到针对每个人定制操纵的影响力行动，其规模是任何人类团队无法企及的。Anthropic 等公司的人类角色将发生转变。人们将与 AI 系统合作扩大研究规模并产生新洞见，共同构建验证 AI 输出可被信任所需的系统。

我们在这里展示的证据表明我们很可能正在进入这个场景。但加速流程的一部分往往只是把瓶颈转移到别处：整体节奏受限于未加速的部分。在计算领域，这被称为阿姆达尔定律，同样的逻辑也适用于组织。Anthropic 已经遇到了阿姆达尔定律的一个标志：随着我们开始在组织内推动更多代码流转，人类代码审查成了新的瓶颈。

我们在工程之外也遇到了这种摩擦。由于 Anthropic 员工与高能力模型协作，新想法、新计划、新工具和新模拟大量涌现——远超我们有容量去追求的。组织发现和修复这些瓶颈的速度可能是一种随时间改善的技能，它可能成为任何组织最重要的技能。

场景三：AI 系统自身具备完整的递归自我改进能力，开始构建自己的后继版本。 如果推进能力的技术趋势持续，且 AI 系统能够发展出变革性人类独创力所固有的能力，那么 AI 系统自行设计和改进自身就是合理的。在这个世界里，AI 开发的进步速度完全由算力的可用性（或算法训练或推理效率发现的速度）决定。人类在其开发中扮演的角色大幅缩减，可能将大部分精力转移到对 AI 系统运行的不断扩大的「虚拟实验室」的监督、验证和确认上。我们预计具备自动化 AI 研发能力的系统会拥有可迁移到其他科学领域的技能，从而开始革新其他领域。

在这个未来中，对齐问题如何解决——或未能解决——是我们最不确定的。模型可能被证明足够对齐且具备足够的研究品味，从而发现并实施我们尚未达到的新方案。它们也可能足够明智，在条件不成熟时暂停开发。或者，当今模型中罕见的不对齐现象可能在模型构建自身后继版本时复合增长，变得越来越频繁却越来越不被理解，直到我们失去控制。也有可能我们无法构建、集成和验证需要的工具来理解我们实际处于哪条趋势线上。

我们对于这个世界会是什么样没有好的直觉，因为我们的经济目前由人类和人类建造的工具驱动。就其本质而言，一个由快速递归自我改进驱动的世界可能随着自我改进模型的能力完全超过人类以及模型在整个更广泛经济中扩散，而被该模型主导。如果人类劳动不再具有竞争力，很难预测经济会是什么样。

即使模型开发变得完全自动化和递归化，我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能迅速在某些领域实现 Machines of Loving Grace 中概述的许多好处。我们预计具身智能（即机器人技术）可能紧随递归智能之后，并遵循类似的收益递增、成本递减路径。更强大的智能可能帮助我们在物理世界中更快地建造东西，运行更有生产力的救命药物临床试验，并发展出新的协调形式。

但仅实现递归改进本身并不意味着工业生产、社会组织或市场运作方式立即改变。更多的智能无法通过几十年的使用来了解药物的效果，无法比宪法规定更快地举行选举，也无法在一个周末把陌生人变成老朋友。对大多数人来说，这个未来的体感节奏仍将由瓶颈决定，即使上游实验室以算力的速度运转。递归智能不断加速自我构建与人类、关系和治理的世界之间的碰撞，是我们无法预测的另一个方面。

我们应该做什么？

如果能有效减缓这项技术的发展，给我们更多时间来应对其巨大影响，我们认为那可能是件好事。但如果减速只是让最不谨慎的行为者在技术上追上来，可能会让所有人的处境更不安全。没有全球协调机制，公司和政府将不得不在竞争和地缘政治压力下做出关于安全的艰难决定。

我们认为，世界拥有减缓或暂时暂停前沿 AI 开发的选项是好事，这样社会结构和对齐研究能跟上技术的推进。Anthropic Institute 将开展研究——与许多其他方合作——并采取行动帮助构建可信的减速或暂停所需的系统。这些系统将使前沿 AI 开发者能够验证全球其他方确实已经停止或减速，恶意行为者无法利用协调减速的幌子暗中赶超。如果这样的系统存在，我们预计会减速或暂时暂停——如果其他处于或接近前沿的开发者也以可验证的方式这样做的话。

有意义的减速或暂停需要多个国家多个资源充足的实验室在相同条件下同意停止。还需要每一方都能验证其他方确实停了。由于 AI 系统的独特特征，这种军控问题的可探测性（比可验证性更低的标准）要素比其他技术更具挑战性。训练运行比导弹发射井更容易隐藏，其投入是通用型的，悄悄叛逃的诱因巨大——因为继续前进的人将继承领先地位。可信的暂停还必须规定什么触发它、什么解除它、谁来裁定。

这些在原则上不一定不可能——世界曾为其他复杂技术构建过验证机制（如《中程导弹条约》）——但那些机制花了数十年才建立起基础设施和信任。我们没有那么长时间。相比之下，一个实验室的单方面暂停可以立即实现，但效果有限：它只会改变谁是领跑者，而不会创造目前缺失的更广泛的协商过程。

在接下来的几个月里，我们将组织对话，让政策制定者、研究人员、公民社会和其他 AI 公司帮助回答本文提出的一些问题，特别是围绕完整的递归自我改进以及如何为协调和协商创造更好的选项。我们将发布成果。共同调查这些问题的窗口就在眼前，AI 公司之外的人应该参与这种协商。

脚注：

^↩ METR 的核心指标告诉你 AI 系统在一组任务中能达到 50% 可靠性的时间范围，尽管趋势线在 80% 可靠性下看起来一样。
^↩ 特别是随着基准测试转向更开放的格式和更难的任务（如奥林匹克级数学），由于问题和答案集中的错误（如含糊的问题描述和无解的问题），基准测试通常在 100% 以下饱和。
^↩ Anthropic 管理层公开估计 90% 或更多的代码由 Claude 编写，包括脚本和实验代码。我们 >80% 的数字衡量的是可归因于 Claude 的合并到生产的代码行比例。这在两个方面是更保守的测量：我们的归因管道有缺口，且未归因于 Claude 的代码行包括自动生成的代码和其他非人类手写的制品。
^↩ 这种代码产出的激增正在给每个人共享的基础设施施加压力。GitHub——全球大部分软件构建的平台——在 2025 年全年看到大约十亿次代码提交；到 2026 年中期，它每周看到 2.75 亿次，按年计算约 140 亿次。该公司 COO 表示正在“极其努力”扩容以跟上。
^↩ 关于这项调查方法论的更多细节在 Claude Opus 4.7 System Card 的 2.3.5 节中讨论。
^↩ 许多受访者可能没有仔细考虑如何考虑各种偏差或问题定义中的微妙之处，METR 近期的研究表明开发者对 AI 生产力提升的估计可能被高估。
^↩ 加速有多大在很大程度上取决于起始代码留有多少改进空间，不应解读为真实的训练加速。所以绝对倍数不是这里应该锚定的数字。更有信息量的是这种实验设置使的同类比较，既跨模型（过去一年从约 3 倍到约 52 倍），也与熟练人类（同一任务 4 到 8 小时约 4 倍）对比。
^↩ 作为对判断偏差的检查，我们在另一组 127 个人类下一步行动已经很強的时刻（与原始集合——人类方向有改进空间——相对）上运行了相同测试。在那里，模型的建议只有大约 20% 的时间被判断为更好。

*本文中 Anthropic 员工的引语来自内部讨论，经许可使用。反映的是截至 2026 年 5 月的个人观点，非公司官方立场。