Claude Opus 4.8 发布:这次升级,重点不是更聪明,而是更会干活
大家好,我是若风。
Anthropic 又发新模型了:Claude Opus 4.8。
这次发布挺有意思。表面上看,它是一次常规升级:从 Opus 4.7 到 Opus 4.8,基准测试更好,协作体验更稳,价格不变。
但如果只盯着「模型变强了」这几个字,我觉得会漏掉重点。
真正关键的是,Anthropic 这次不是只发了一个模型,而是顺手把 Claude 的工作方式也往前推了一步:努力程度可以调,Claude Code 可以跑动态工作流,API 也允许在任务中途更新系统指令。
换句话说,Opus 4.8 的关键词不是「更聪明」。
而是:更适合长任务、更适合 Agent、更适合被交给真实工作。
先说结论
如果你只想快速知道这次发布有什么变化,可以看这 5 点。
| 更新 | 重点 |
|---|---|
| Claude Opus 4.8 | 在编码、Agent、推理和知识工作任务上相对 Opus 4.7 提升 |
| 价格 | 常规使用价格不变,仍是 5 美元 / 百万输入 token、25 美元 / 百万输出 token |
| fast mode | Opus 4.8 fast mode 可用,速度最高约 2.5 倍,价格相比之前模型的 fast mode 便宜 3 倍 |
| Claude Code 动态工作流 | 可以把大任务拆给几十到上百个并行 subagents,并在汇总前做验证 |
| effort control | claude.ai 和 Cowork 里可以控制 Claude 在任务上投入多少努力 |
我自己的判断是:Opus 4.8 不是那种让普通聊天用户立刻惊呼的版本,但它对重度 Claude Code 用户、Agent 产品团队、企业工作流会更有价值。
因为这次升级最打动人的地方,不是回答更华丽,而是少一些瞎冲,多一些自我校验。
一、Opus 4.8 到底强在哪里?
Anthropic 官方说法是,Opus 4.8 在编码、Agentic skills、推理、实际知识工作任务上都有改进。
但我更在意官方反复强调的一个词:judgment。
中文可以翻译成判断力,也可以理解成「知道什么时候该继续、什么时候该停下来、什么时候该承认不确定」。
这件事对 Agent 特别重要。
普通聊天里,模型说错一句话,你大不了追问一下。但在 Agent 场景里,模型可能会改代码、调用工具、跑脚本、提交结果。如果它明明没验证,却自信地说「我已经完成了」,那问题就很大。
Anthropic 在官方文章里提到,Opus 4.8 更不容易让自己写出的代码缺陷未被指出。官方评估显示,它相比前代大约低了 4 倍。
这个指标比「多会写代码」更让我有感觉。
因为真正让人焦虑的,不是 AI 不会写,而是 AI 写完之后太自信。
二、这次最值得看的是动态工作流
这次一起发布的功能里,我觉得最值得盯的是 Claude Code 的 dynamic workflows。
简单说,它不是让 Claude 只开一个子任务,而是让 Claude 先规划,再把任务拆成很多子任务,交给大量并行 subagents 去跑,最后再做验证和汇总。
Anthropic 给的例子很夸张:Claude Code with Opus 4.8 可以做代码库级迁移,跨越数十万行代码,从 kickoff 一路推进到 merge,并以现有测试套件作为验收标准。
在 Claude 官方动态工作流文章里,还有一个更具体的案例:Bun 从 Zig 移植到 Rust 的实验,约 75 万行 Rust,11 天从 first commit 到 merge,现有测试套件通过率达到 99.8%。
当然,这不代表以后所有大型迁移都可以扔给 AI 一键完成。别激动,真实工程永远有上下文、边界和责任人。
但它说明一件事:Claude Code 正在从「结对编程助手」走向「可编排的工程执行系统」。
以前你可能会说:
「帮我改这个文件。」
现在更像是:
「你先理解整个代码库,拆任务,开并行探索,互相验证,最后给我一个可以合并的结果。」
这中间的产品形态完全不一样。
三、effort control 是一个很重要的小按钮
另一个容易被忽略的更新,是 claude.ai 和 Claude Cowork 里的 effort control。
它让用户可以选择 Claude 在回答上投入多少努力。
低 effort,回答更快,也更省 rate limit。高 effort,Claude 会更频繁、更深入地思考,质量更好,但消耗也更高。
这其实是把一个过去藏在系统里的权衡,交回给用户。
以前我们经常遇到一种尴尬:小问题没必要深想,大问题又希望模型多花点 token。可用户只能用同一个默认模式,结果要么嫌慢,要么嫌浅。
现在 Anthropic 把这个旋钮显性化了。
Opus 4.8 默认是 high effort。更难的任务,可以选 extra,在 Claude Code 里对应 xhigh;还有 max 这种更高投入选项。官方也提到,Claude Code 的 rate limits 已经提高,用来容纳更高 effort 带来的 token 使用。
这对重度用户很关键。
因为 AI 产品越来越像车,不应该只有油门,还应该有档位。
四、API 这次也补了一个 Agent 刚需
开发者侧还有一个更新:Messages API 现在允许在 messages 数组里放 system entries。
这个变化看起来很小,但对 Agent harness 很实用。
以前如果一个 Agent 跑到一半,需要更新权限、token 预算、环境上下文,常见做法会比较别扭:要么塞到 user message 里,要么破坏 prompt cache,要么重新组织上下文。
现在可以在任务中途更新 Claude 的指令,同时不破坏 prompt cache,也不需要假装这是用户新说的一句话。
这就是典型的「产品小改动,工程大意义」。
当 Agent 只回答问题时,这类能力没那么明显。但当 Agent 要长时间运行、调用工具、切换环境、接受权限变化时,系统指令的中途更新就很重要。
五、价格:常规不变,fast mode 更有看头
价格方面,Anthropic 这次给得比较清楚。
Opus 4.8 常规使用价格和 Opus 4.7 一样:
- 输入:5 美元 / 百万 token
- 输出:25 美元 / 百万 token
fast mode 的价格是:
- 输入:10 美元 / 百万 token
- 输出:50 美元 / 百万 token
官方说 fast mode 里模型最高可以以 2.5 倍速度工作,而且这次 fast mode 相比之前模型便宜了 3 倍。
这个策略很现实。
很多生产环境不是只要最强,而是要「够强、够快、成本可控」。尤其是 Agent 产品,一旦开始并行跑、多轮跑、长时间跑,token 成本会迅速变成产品体验的一部分。
所以 fast mode 降价不是一个小注脚,而是 Anthropic 在告诉开发者:我们知道你们不是只在 demo 里用 Claude,而是真的要把它塞进工作流里跑。
六、这次发布释放了一个信号
我读完整篇官方文章,最大的感受是:Anthropic 的叙事正在从「模型能力」转向「工作系统」。
Opus 4.8 本身当然重要,但它真正的价值,可能要和 3 个东西一起看:
- effort control:让用户决定模型该快还是该深
- dynamic workflows:让 Claude Code 从单 Agent 走向并行 Agent 工作流
- API system entries:让开发者更自然地控制长任务过程中的指令变化
这 3 个点放在一起,就不只是模型更新了。
它更像是在给下一代 AI 工作台补基础设施。
以前模型厂商拼的是单次回答质量。现在更关键的问题变成:模型能不能接住一个长任务?能不能知道自己不确定?能不能在工具调用中少犯低级错?能不能被产品系统稳定编排?
这就是 Opus 4.8 这次真正值得看的地方。
写在最后
Claude Opus 4.8 不是一个「科幻感爆棚」的发布。
它更像一次工程型更新:更稳一点,更诚实一点,更适合长任务一点,配套工具也更像生产系统一点。
但说实话,我反而更喜欢这种升级。
因为 AI 真正进入工作流以后,用户最需要的不是模型每天喊自己变强了,而是它在复杂任务里少一点幻觉、多一点验证,在该追问的时候追问,在不确定的时候承认不确定,在能并行的时候把活拆出去。
这才是从聊天机器人走向工作伙伴的关键一步。
评论互动