AI Builders Digest 0523:Oriol Vinyals 谈世界模型、Claude Managed Agents 三大更新、Garry Tan 的 Bar-is-Zero 创业框架
今天的 AI Builders Digest 涵盖了过去 24 小时内 AI 领域最有价值的动态:Gemini 联合负责人对世界模型的深度思考、Anthropic 的 Managed Agents 重大更新、以及多位一线建造者的实战洞察。
播客精选
Unsupervised Learning Ep 87:Gemini 联合负责人 Oriol Vinyals 谈世界模型、RL 的下一个前沿与持续学习
Oriol Vinyals 是 Gemini 的联合负责人,与 Noam Shazeer 和 Jeff Dean 并列。Google I/O 结束后第二天,他和 Redpoint 的 Jacob EFron 进行了一场深度对话,覆盖了世界模型、RL 后训练、持续学习、记忆系统和 AGI 时间线等核心话题。
世界模型的「GPT 时刻」还没到
Omni 是 Google I/O 上最惊艳的发布之一——不仅能生成视频,还能通过语言精确编辑和控制视频内容。但 Oriol 坦诚地说,视频/图像领域的「GPT 时刻」尚未到来。核心难题是:如何纯粹从视觉数据中提取知识,而不依赖文本标注?
他用了一个简洁的比喻:人类看了无数视频后能理解重力法则,但模型目前做不到这种「无监督的概念提取」。Omni 在交互层面的进步是实实在在的,但从「视频理解」到「物理世界理解」之间仍有鸿沟。
RL 后训练是「完全的处女地」
Oriol 认为当前 RL 在数学和编程上表现惊人,但数据稀缺是根本瓶颈。围棋之所以能无限训练,是因为每走一步就进入一个全新的局面。而 LLM 面对的文本世界,缺乏这种天然的无限数据生成机制。
一个出乎意料的发现:在窄域(数学、编程)上的 RL 训练带来了广泛的泛化能力——Oriol 承认这是一年前他没有预料到的。他最近问模型关于搬家和税务的问题,推理质量同样出色,这些显然不在训练数据中。
持续学习:文件系统比权重更实用
关于记忆,Oriol 将其分为两层:工作记忆(上下文窗口)和情景记忆(文件系统/知识库)。他明确认为,通过文件系统实现的非参数化记忆是当前最实用的持续学习方案。修改模型权重来记忆个人信息的方案从工程角度就不可行——你不可能为每个用户服务一个不同的权重版本。
这个观点值得注意:从服务架构出发反向推导技术路线,而不是纯粹追求学术最优解。
AGI 可能几年内到来
Oriol 认同 Demis Hassabis 的判断。他说得更直接:「如果七年前有人给我一个今天的模型,我会直接宣布这就是 AGI。」但他最关心的「元能力」是 agent 从经验中学习的能力——给模型一本全新的游戏规则手册(比如文明游戏),看它能否理解规则、开始游戏,并在过程中不断进步。这是他认为评估「真正智能」最有效的方式。
「训练的分布越广,模型越好。但在窄域 RL 上训练后居然能泛化到其他领域,这出乎我的意料。」—— Oriol Vinyals
https://www.youtube.com/watch?v=NQczevdpxq0
官方博客
Claude Blog:Managed Agents 三大新功能 — Dreaming、Outcomes 与多 Agent 协作
Anthropic 发布了 Claude Managed Agents 的重大更新,三个功能同时上线:
Dreaming(梦境) 是一个定时回顾 agent 历史会话的机制。它从过去的交互中提取模式、发现重复错误、整理工作流程,然后自动优化 agent 的记忆。开发者可以选择让 Dreaming 自动更新记忆,或先人工审核再生效。这对长时间运行和多 agent 场景尤其有价值。
Outcomes(目标) 解决了一个实际问题:怎么让 agent 知道什么是「足够好」。开发者定义成功标准(rubric),一个独立的评分 agent 评估输出质量,不合格则自动重试。评分 agent 在独立的上下文窗口中运行,不受原 agent 推理过程的影响。内部测试显示,Outcomes 让任务成功率提升了最高 10 个百分点,文件生成质量也有显著提升(docx +8.4%,pptx +10.1%)。
Multiagent orchestration(多 Agent 协作) 让主 agent 可以将复杂任务拆分给多个专家 agent 并行处理。每个专家 agent 有自己的模型、prompt 和工具,通过共享文件系统协作。主 agent 可以在过程中随时查看其他 agent 的进展。
已经在用的团队:
- Harvey 用 Dreaming 让法律 agent 在会话间记住文件类型技巧和工具模式,完成率提升约 6 倍
- Netflix 平台团队用多 Agent 并行分析数百个构建的日志,只上报真正需要处理的模式
- Spiral by Every 用 Outcomes 对每篇文章按编辑标准打分,只有达标的才会返回
- Wisedocs 用 Outcomes 做文档质量检查,审查速度提升 50%
https://claude.com/blog/new-in-claude-managed-agents
X/Twitter 建造者动态
Swyx:Kakuna 概念与「Mullet Factory」理念
Latent Space 播客主持人、AI 工程师社区领导者 Swyx 认同一个关于 Transformer 学习能力边界的思维框架:当前范式可以通过暴力扩展达到某种 AGI,但真正能假设并验证真相的方案终将胜出。
他还提出了「Kakuna」概念——一种带清单的 skill 系统,专注于代码库加固而非功能开发。核心理念是「mullet factory」:前面展示独特功能(party in front),后面保障生产质量(dark in the back)。这在实际工程中的含义是:用 AI 加速无聊但必要的代码质量工作。
https://x.com/swyx/status/2058073815301972368 https://x.com/swyx/status/2057876022553690327
Peter Yang:裁员潮中的 6 条生存建议
Roblox 产品经理、14 万订阅 AI 通讯作者 Peter Yang 给面临裁员的员工提出了 6 条实用建议:
- 读懂信号——业务增长停滞、管理层突然迷恋「扁平化」或「AI 时代重组」时,你就知道了
- 学会用 Codex 或 Claude Code——这些是和 AI agent 协作的最佳训练场
- 做 side project——在大公司待久了,builder 技能会退化
- 积累 GitHub 历史——他以 @zarazhangrui 的 frontend-slides skill 获得 16K star 为例
- 成为领域前 10%——AI 能快速让人达到平均水平,这意味着客户更愿意为真正的手艺付费
- 让市场决定价值——在公开场合构建、解决真实问题,而不是投 100 份简历
他的核心观点:AI 时代创业是最安全的职业。
https://x.com/petergyang/status/2057830781352034322
Aaron Levie:安全工程师即将迎来爆发期
Box CEO Aaron Levie 指出一个被低估的趋势:AI 让安全漏洞的发现变得更容易了,但审查、响应和修复这些漏洞仍然需要大量人工判断。发现问题变快了,修复跟不上。
这是 Jevons 悖论的经典体现:提高资源使用效率反而增加该资源的需求。安全工程师不会消失,需求反而会爆发。
https://x.com/levie/status/2058006473620463985
Garry Tan:Bar-is-Zero 创业框架与 GBrain 语音 Agent
Y Combinator CEO Garry Tan 提出了一个清晰的创业判断框架:
如果你的客户当前的选择是「什么都没有」(bar is zero),不要担心跨越鸿沟、不要追求完美产品、不要等待客户推荐。直接交付 60% 的方案,客户在求着你给他们任何东西。
这个框架来自 Geoffrey Moore 的「Crossing the Chasm」,但 Garry 指出 Moore 的模型有一个隐含假设:买方有一个可比较的现有方案。当替代方案是零时,整个购买心理完全不同。
他还开源了 GBrain v0.40.0,为 OpenClaw/Hermes Agent 加入了基于 Gemini Live 的语音 agent 能力,MIT 协议。
https://x.com/garrytan/status/2058043367704195271 https://x.com/garrytan/status/2058053659527913566
Google Labs:网站改版整合 I/O 新实验
Google Labs 官方宣布网站改版,整合了 I/O 上发布的最新 AI 实验项目。团队还让各产品团队分享了自己产品中最被低估的功能。
https://x.com/GoogleLabs/status/2057884277384360416
其他动态
- Kevin Weil(OpenAI 前 CPO)引用 Daniel Burnham 的经典名言:「不要做小计划,它们没有感动人类灵魂的力量。」 https://x.com/kevinweil/status/2057987544663364045
- Matt Turck(FirstMark Capital VC)分享了 OpenAI 内部持续加速的进展,引用了 Yann Dubois 的观察 https://x.com/mattturck/status/2057913362608972256
- Nikunj Kothari(FPV Ventures 合伙人)完成了一笔非 AI 领域的 A 轮领投 https://x.com/nikunj/status/2057947701762019751
- Peter Steinberger(OpenClaw 创始人)欢迎 GitHub 原生支持限制每人 PR 数量 https://x.com/steipete/status/2057946259709628781
- Claude(Anthropic 官方)介绍了 Genspark 联合创始人 Kay Zhu,他认为团队才是差异化因素 https://x.com/claudeai/status/2057854403558653983
本文基于 Follow Builders skill 的每日 AI 建造者动态汇总生成。
评论互动