Claude Opus 4.8 发布:这次升级,重点不是更聪明,而是更会干活

发布于 2026年05月29日 02:04 #Claude#Agents 原文链接

Claude Opus 4.8 发布:这次升级,重点不是更聪明,而是更会干活 封面图

大家好,我是若风。

Anthropic 又发新模型了:Claude Opus 4.8

这次发布挺有意思。表面上看,它是一次常规升级:从 Opus 4.7 到 Opus 4.8,基准测试更好,协作体验更稳,价格不变。

但如果只盯着「模型变强了」这几个字,我觉得会漏掉重点。

真正关键的是,Anthropic 这次不是只发了一个模型,而是顺手把 Claude 的工作方式也往前推了一步:努力程度可以调,Claude Code 可以跑动态工作流,API 也允许在任务中途更新系统指令。

换句话说,Opus 4.8 的关键词不是「更聪明」。

而是:更适合长任务、更适合 Agent、更适合被交给真实工作。

先说结论

如果你只想快速知道这次发布有什么变化,可以看这 5 点。

更新重点
Claude Opus 4.8在编码、Agent、推理和知识工作任务上相对 Opus 4.7 提升
价格常规使用价格不变,仍是 5 美元 / 百万输入 token、25 美元 / 百万输出 token
fast modeOpus 4.8 fast mode 可用,速度最高约 2.5 倍,价格相比之前模型的 fast mode 便宜 3 倍
Claude Code 动态工作流可以把大任务拆给几十到上百个并行 subagents,并在汇总前做验证
effort controlclaude.ai 和 Cowork 里可以控制 Claude 在任务上投入多少努力

我自己的判断是:Opus 4.8 不是那种让普通聊天用户立刻惊呼的版本,但它对重度 Claude Code 用户、Agent 产品团队、企业工作流会更有价值。

因为这次升级最打动人的地方,不是回答更华丽,而是少一些瞎冲,多一些自我校验。

一、Opus 4.8 到底强在哪里?

Anthropic 官方说法是,Opus 4.8 在编码、Agentic skills、推理、实际知识工作任务上都有改进。

但我更在意官方反复强调的一个词:judgment

中文可以翻译成判断力,也可以理解成「知道什么时候该继续、什么时候该停下来、什么时候该承认不确定」。

这件事对 Agent 特别重要。

普通聊天里,模型说错一句话,你大不了追问一下。但在 Agent 场景里,模型可能会改代码、调用工具、跑脚本、提交结果。如果它明明没验证,却自信地说「我已经完成了」,那问题就很大。

Anthropic 在官方文章里提到,Opus 4.8 更不容易让自己写出的代码缺陷未被指出。官方评估显示,它相比前代大约低了 4 倍。

这个指标比「多会写代码」更让我有感觉。

因为真正让人焦虑的,不是 AI 不会写,而是 AI 写完之后太自信。

二、这次最值得看的是动态工作流

这次一起发布的功能里,我觉得最值得盯的是 Claude Code 的 dynamic workflows

简单说,它不是让 Claude 只开一个子任务,而是让 Claude 先规划,再把任务拆成很多子任务,交给大量并行 subagents 去跑,最后再做验证和汇总。

Anthropic 给的例子很夸张:Claude Code with Opus 4.8 可以做代码库级迁移,跨越数十万行代码,从 kickoff 一路推进到 merge,并以现有测试套件作为验收标准。

在 Claude 官方动态工作流文章里,还有一个更具体的案例:Bun 从 Zig 移植到 Rust 的实验,约 75 万行 Rust,11 天从 first commit 到 merge,现有测试套件通过率达到 99.8%。

当然,这不代表以后所有大型迁移都可以扔给 AI 一键完成。别激动,真实工程永远有上下文、边界和责任人。

但它说明一件事:Claude Code 正在从「结对编程助手」走向「可编排的工程执行系统」。

以前你可能会说:

「帮我改这个文件。」

现在更像是:

「你先理解整个代码库,拆任务,开并行探索,互相验证,最后给我一个可以合并的结果。」

这中间的产品形态完全不一样。

三、effort control 是一个很重要的小按钮

另一个容易被忽略的更新,是 claude.ai 和 Claude Cowork 里的 effort control。

它让用户可以选择 Claude 在回答上投入多少努力。

低 effort,回答更快,也更省 rate limit。高 effort,Claude 会更频繁、更深入地思考,质量更好,但消耗也更高。

这其实是把一个过去藏在系统里的权衡,交回给用户。

以前我们经常遇到一种尴尬:小问题没必要深想,大问题又希望模型多花点 token。可用户只能用同一个默认模式,结果要么嫌慢,要么嫌浅。

现在 Anthropic 把这个旋钮显性化了。

Opus 4.8 默认是 high effort。更难的任务,可以选 extra,在 Claude Code 里对应 xhigh;还有 max 这种更高投入选项。官方也提到,Claude Code 的 rate limits 已经提高,用来容纳更高 effort 带来的 token 使用。

这对重度用户很关键。

因为 AI 产品越来越像车,不应该只有油门,还应该有档位。

四、API 这次也补了一个 Agent 刚需

开发者侧还有一个更新:Messages API 现在允许在 messages 数组里放 system entries。

这个变化看起来很小,但对 Agent harness 很实用。

以前如果一个 Agent 跑到一半,需要更新权限、token 预算、环境上下文,常见做法会比较别扭:要么塞到 user message 里,要么破坏 prompt cache,要么重新组织上下文。

现在可以在任务中途更新 Claude 的指令,同时不破坏 prompt cache,也不需要假装这是用户新说的一句话。

这就是典型的「产品小改动,工程大意义」。

当 Agent 只回答问题时,这类能力没那么明显。但当 Agent 要长时间运行、调用工具、切换环境、接受权限变化时,系统指令的中途更新就很重要。

五、价格:常规不变,fast mode 更有看头

价格方面,Anthropic 这次给得比较清楚。

Opus 4.8 常规使用价格和 Opus 4.7 一样:

  • 输入:5 美元 / 百万 token
  • 输出:25 美元 / 百万 token

fast mode 的价格是:

  • 输入:10 美元 / 百万 token
  • 输出:50 美元 / 百万 token

官方说 fast mode 里模型最高可以以 2.5 倍速度工作,而且这次 fast mode 相比之前模型便宜了 3 倍。

这个策略很现实。

很多生产环境不是只要最强,而是要「够强、够快、成本可控」。尤其是 Agent 产品,一旦开始并行跑、多轮跑、长时间跑,token 成本会迅速变成产品体验的一部分。

所以 fast mode 降价不是一个小注脚,而是 Anthropic 在告诉开发者:我们知道你们不是只在 demo 里用 Claude,而是真的要把它塞进工作流里跑。

六、这次发布释放了一个信号

我读完整篇官方文章,最大的感受是:Anthropic 的叙事正在从「模型能力」转向「工作系统」。

Opus 4.8 本身当然重要,但它真正的价值,可能要和 3 个东西一起看:

  • effort control:让用户决定模型该快还是该深
  • dynamic workflows:让 Claude Code 从单 Agent 走向并行 Agent 工作流
  • API system entries:让开发者更自然地控制长任务过程中的指令变化

这 3 个点放在一起,就不只是模型更新了。

它更像是在给下一代 AI 工作台补基础设施。

以前模型厂商拼的是单次回答质量。现在更关键的问题变成:模型能不能接住一个长任务?能不能知道自己不确定?能不能在工具调用中少犯低级错?能不能被产品系统稳定编排?

这就是 Opus 4.8 这次真正值得看的地方。

写在最后

Claude Opus 4.8 不是一个「科幻感爆棚」的发布。

它更像一次工程型更新:更稳一点,更诚实一点,更适合长任务一点,配套工具也更像生产系统一点。

但说实话,我反而更喜欢这种升级。

因为 AI 真正进入工作流以后,用户最需要的不是模型每天喊自己变强了,而是它在复杂任务里少一点幻觉、多一点验证,在该追问的时候追问,在不确定的时候承认不确定,在能并行的时候把活拆出去。

这才是从聊天机器人走向工作伙伴的关键一步。

评论互动

© 2026 王若风的技术博客 · Powered by Astro