AI Builders Digest 0604：Claude Workflows、Gemini Thinking Levels 与 Token Routing

发布于 2026年06月04日 09:52 #Follow Builders #Agents

Agent从一次性回答器转向持续运行系统，编排能力成为产品核心
Anthropic和OpenAI将workflows、skills、托管等能力产品化，延长任务链
Google补齐Thinking Levels三端，Box推动token budgets与model routing
代码变便宜后，判断、分发、上下文和记忆成为更稀缺的层
Listen Labs将用户理解转化为AI可模拟的长期资产，辅助构建决策

今天的 AI Builders Digest 主线是 Agent 开始从“会写代码”走向“会组织工作、会控成本、会在不同设备和平台持续运行”。播客里，Listen Labs 试图把“用户到底想要什么”做成 AI 可学习的长期资产；X 上，Google、Anthropic、OpenAI、Vercel、Box 和 Replit 相关 builders 则同步暴露出另一层现实：真正的分水岭已经不是单次输出质量，而是谁先把 workflow、routing、memory、sandbox 和 distribution 做成默认能力。

今日总结

主线：Builder 圈已经默认 Agent 是一个运行系统，而不是一次性回答器。

Anthropic 和 OpenAI 在把编排能力产品化。 Thariq 把 Claude Code workflows 叫作“自 skills 和 subagents 以来最大的升级”，而 Thibault Sottiaux 则把 Codex 的网站托管、skills、plugins 和可视化反馈连成日常工作流的一部分。两边做法不同，但目标一致：让 Agent 真正接手更长的任务链。

Google 和 Box 代表了另一条线：让 Agent 进入组织层和预算层。 Josh Woodward 补齐 Gemini Thinking Levels 在 Web、iOS、Android 三端的可用性，说明 Google 还在打跨端入口；Aaron Levie 则直接把 token budgets 推向 model routing，强调应用层未来的核心竞争力是把不同任务智能地分配给不同模型。

最值得注意的是“知道该做什么”重新变贵了。 Listen Labs 的 Alfred Wahlforss 说，越接近 AGI，构建能力越便宜，但“知道该造什么”会更难。Peter Yang 对垂直 SaaS 受压的判断、Guillermo Rauch 的 YES-CODE 叙事，其实都在指向同一件事：代码变便宜以后，判断、分发、上下文和记忆会变成更稀缺的层。

今日关键词： Workflows · Thinking Levels · Token Routing · YES-CODE · Customer Simulation · Agent Runtime

播客精选

Training Data：Listen Labs 正在把“知道客户到底要什么”做成 AI 原生基础设施

这期 Training Data 里，Listen Labs 创始人 Alfred Wahlforss 给出的核心判断很硬：随着 AGI 接近，构建东西会更容易，但真正难的是知道应该构建什么。 Listen Labs 的方案不是再做一套问卷工具，而是让 AI agent 代替人类完成大规模语音访谈，再把访谈积累变成可检索、可模拟的用户理解资产。

最关键的几个数字是：Listen Labs 说自己现在服务 20% 的《财富》500 强，可调用 3000 万 参与者，并且已经完成 一百万次以上 访谈。更有意思的是它下一步要做的“simulation”能力：在积累足够多真实访谈后，系统不只是总结历史，还能预测特定人群会如何回应一个新问题。这意味着市场研究正在从“收集反馈”变成“训练某一类用户的行为模型”。

如果这个方向走通，AI builder 赛道会多出一个非常重要的基础层：不是帮你更快写功能，而是帮你更快判断哪些功能值得写。

🔗 https://www.youtube.com/watch?v=Rumft-rsEu4

X/Twitter 动态

Josh Woodward（Google）：Gemini Thinking Levels 终于补齐 Web、iOS、Android 三端

Josh Woodward 这条更新看起来像个小修复，实际信号很强。他说 Gemini 的 Thinking Levels 现在已经在 Web、iOS、Android 全部可用。很多人会把这看成“体验一致性补丁”，但对 Google 来说，这更像是把同一套思考控制层正式铺到主流用户入口。

Agent 产品真正难的不是在单个平台做一个好 demo，而是让同一套能力在多个入口里保持连续使用感。Thinking Levels 上三端，本质是在做 Agent 行为的一致性分发。

🔗 https://x.com/joshwoodward/status/2062025667852812583

Thibault Sottiaux（OpenAI）：Codex 正在把托管、技能和反馈环都变成日常工作流

Thibault Sottiaux 连着两条动态很值得放在一起看。一条更偏品牌层，他说 ChatGPT 会继续留下来，而且“很快会成为 agents 的同义词”；另一条更偏产品层，直接列出 Codex 的新能力：Business 计划可托管和分享网站、plugins 和 skills 大幅增强、用户还能在文档、幻灯片和表格里通过可视化标注给 Agent 反馈。

这意味着 OpenAI 对 Codex 的定义已经不再是“写代码的模型入口”，而是一个能把生成、交付、评审和迭代串成闭环的工作台。最重要的不是某个单点能力，而是这些能力开始出现在同一条路径里。

🔗 https://x.com/thsottiaux/status/2062057881424506950
🔗 https://x.com/thsottiaux/status/2061876999564791952

Thariq（Anthropic）：Workflows 是 Claude Code 自 skills 和 subagents 以来最大的升级

Thariq 这条转发之所以重要，不是因为它来自官方，而是因为它把产品内感受说得很具体：“Workflows are the biggest upgrade to Claude Code’s capabilities since skills and subagents.” 他还特别点出自己最兴奋的是它对非技术任务的支持。

这句话说明 Anthropic 内部对 workflows 的定位并不是“再加一个高级模式”，而是把 Claude Code 的适用面从工程任务继续推向研究、整理、分析和跨职能执行。换句话说，Agent 的边界正在从代码仓库外溢到更广义的知识工作。

🔗 https://x.com/trq212/status/2061907538741006796

Guillermo Rauch（Vercel）：YES-CODE 和“你永远不需要毕业的 Agent Cloud”

Guillermo Rauch 的 YES-CODE 帖子本质上是在重写一类软件叙事。他说 no-code 这个类别建立在“代码昂贵、困难、稀缺”的前提上，而 coding agents 已经改变了这个前提，代码现在变得便宜、容易且充足。 更关键的是他给出的落点：Vercel 的任务是做“the easiest cloud for agents that you never graduate from”。

这句话非常值钱，因为它把 Vercel 的定位从“前端部署平台”抬到了“Agent 时代的默认运行层”。当代码生成本身变便宜，谁来托管、执行、回传、扩展这些 Agent 产物，就会变成新的平台位。

🔗 https://x.com/rauchg/status/2061934154732974376

Aaron Levie（Box）：Token budget 会把应用层竞争推向 model routing

Aaron Levie 这条判断非常像企业 AI 下一阶段最现实的命题。他说，随着 token budgets 越来越像 operating expense，model routing is the inevitable conclusion。也就是说，未来不会是“永远用最强模型”，而是基于任务模式、质量评估和成本约束，把不同工作流自动路由给不同层级的模型。

这个判断的关键不只是“省钱”，而是把 evals、domain patterns 和 cost governance 绑成一套系统。真正强的应用层，不是接入了多少模型，而是能不能在质量够用的前提下，把每一块预算花在该花的地方。

🔗 https://x.com/levie/status/2061974298760495132

Amjad Masad（Replit）：企业 App Builder 的真实门槛正从代码生成转向安全部署

Amjad Masad 的一条动态提到，Replit 正和微软合作，让企业可以基于新的 Rayfin SDK 构建并部署安全的 Fabric data apps。另一条则强调，传统 SWE benchmarks 并不一定能反映 app building 能力，ViBench 更贴近真实任务。

这两条合在一起很说明问题：builder 现在开始从“模型会不会写代码”转向“系统能不能把应用安全地接进企业数据和部署环境”。真正有价值的，不是生成了一段代码，而是把它安全上线并接入业务上下文。

🔗 https://x.com/amasad/status/2061893093696434578
🔗 https://x.com/amasad/status/2061878314311266552

数据采集时间：2026-06-03 16:04 CST