AI Builders Digest 0523：Oriol Vinyals 谈世界模型、Claude Managed Agents 三大更新、Garry Tan 的 Bar-is-Zero 创业框架

发布于 2026年05月23日 23:00 #Follow Builders #Models

Oriol Vinyals 指出视频/图像 GPT 时刻未到，核心难题是从视觉数据提取知识不依赖文本标注
RL 后训练在窄域泛化到广泛领域出乎意料，但数据稀缺是根本瓶颈
Claude Managed Agents 新增 Dreaming、Outcomes 和多 Agent 协作，提升任务成功率与质量
Garry Tan 提出 Bar-is-Zero 框架：客户无现有方案时，直接交付 60% 方案即可
安全工程师需求将爆发，AI 使漏洞发现更容易但修复仍需人工判断

今天的 AI Builders Digest 涵盖了过去 24 小时内 AI 领域最有价值的动态：Gemini 联合负责人对世界模型的深度思考、Anthropic 的 Managed Agents 重大更新、以及多位一线建造者的实战洞察。

播客精选

Unsupervised Learning Ep 87：Gemini 联合负责人 Oriol Vinyals 谈世界模型、RL 的下一个前沿与持续学习

Oriol Vinyals 是 Gemini 的联合负责人，与 Noam Shazeer 和 Jeff Dean 并列。Google I/O 结束后第二天，他和 Redpoint 的 Jacob EFron 进行了一场深度对话，覆盖了世界模型、RL 后训练、持续学习、记忆系统和 AGI 时间线等核心话题。

世界模型的「GPT 时刻」还没到

Omni 是 Google I/O 上最惊艳的发布之一——不仅能生成视频，还能通过语言精确编辑和控制视频内容。但 Oriol 坦诚地说，视频/图像领域的「GPT 时刻」尚未到来。核心难题是：如何纯粹从视觉数据中提取知识，而不依赖文本标注？

他用了一个简洁的比喻：人类看了无数视频后能理解重力法则，但模型目前做不到这种「无监督的概念提取」。Omni 在交互层面的进步是实实在在的，但从「视频理解」到「物理世界理解」之间仍有鸿沟。

RL 后训练是「完全的处女地」

Oriol 认为当前 RL 在数学和编程上表现惊人，但数据稀缺是根本瓶颈。围棋之所以能无限训练，是因为每走一步就进入一个全新的局面。而 LLM 面对的文本世界，缺乏这种天然的无限数据生成机制。

一个出乎意料的发现：在窄域（数学、编程）上的 RL 训练带来了广泛的泛化能力——Oriol 承认这是一年前他没有预料到的。他最近问模型关于搬家和税务的问题，推理质量同样出色，这些显然不在训练数据中。

持续学习：文件系统比权重更实用

关于记忆，Oriol 将其分为两层：工作记忆（上下文窗口）和情景记忆（文件系统/知识库）。他明确认为，通过文件系统实现的非参数化记忆是当前最实用的持续学习方案。修改模型权重来记忆个人信息的方案从工程角度就不可行——你不可能为每个用户服务一个不同的权重版本。

这个观点值得注意：从服务架构出发反向推导技术路线，而不是纯粹追求学术最优解。

AGI 可能几年内到来

Oriol 认同 Demis Hassabis 的判断。他说得更直接：「如果七年前有人给我一个今天的模型，我会直接宣布这就是 AGI。」但他最关心的「元能力」是 agent 从经验中学习的能力——给模型一本全新的游戏规则手册（比如文明游戏），看它能否理解规则、开始游戏，并在过程中不断进步。这是他认为评估「真正智能」最有效的方式。

「训练的分布越广，模型越好。但在窄域 RL 上训练后居然能泛化到其他领域，这出乎我的意料。」—— Oriol Vinyals

https://www.youtube.com/watch?v=NQczevdpxq0

官方博客

Claude Blog：Managed Agents 三大新功能 — Dreaming、Outcomes 与多 Agent 协作

Anthropic 发布了 Claude Managed Agents 的重大更新，三个功能同时上线：

Dreaming（梦境） 是一个定时回顾 agent 历史会话的机制。它从过去的交互中提取模式、发现重复错误、整理工作流程，然后自动优化 agent 的记忆。开发者可以选择让 Dreaming 自动更新记忆，或先人工审核再生效。这对长时间运行和多 agent 场景尤其有价值。

Outcomes（目标） 解决了一个实际问题：怎么让 agent 知道什么是「足够好」。开发者定义成功标准（rubric），一个独立的评分 agent 评估输出质量，不合格则自动重试。评分 agent 在独立的上下文窗口中运行，不受原 agent 推理过程的影响。内部测试显示，Outcomes 让任务成功率提升了最高 10 个百分点，文件生成质量也有显著提升（docx +8.4%，pptx +10.1%）。

Multiagent orchestration（多 Agent 协作） 让主 agent 可以将复杂任务拆分给多个专家 agent 并行处理。每个专家 agent 有自己的模型、prompt 和工具，通过共享文件系统协作。主 agent 可以在过程中随时查看其他 agent 的进展。

已经在用的团队：

Harvey 用 Dreaming 让法律 agent 在会话间记住文件类型技巧和工具模式，完成率提升约 6 倍
Netflix 平台团队用多 Agent 并行分析数百个构建的日志，只上报真正需要处理的模式
Spiral by Every 用 Outcomes 对每篇文章按编辑标准打分，只有达标的才会返回
Wisedocs 用 Outcomes 做文档质量检查，审查速度提升 50%

https://claude.com/blog/new-in-claude-managed-agents

X/Twitter 建造者动态

Swyx：Kakuna 概念与「Mullet Factory」理念

Latent Space 播客主持人、AI 工程师社区领导者 Swyx 认同一个关于 Transformer 学习能力边界的思维框架：当前范式可以通过暴力扩展达到某种 AGI，但真正能假设并验证真相的方案终将胜出。

他还提出了「Kakuna」概念——一种带清单的 skill 系统，专注于代码库加固而非功能开发。核心理念是「mullet factory」：前面展示独特功能（party in front），后面保障生产质量（dark in the back）。这在实际工程中的含义是：用 AI 加速无聊但必要的代码质量工作。

https://x.com/swyx/status/2058073815301972368 https://x.com/swyx/status/2057876022553690327

Peter Yang：裁员潮中的 6 条生存建议

Roblox 产品经理、14 万订阅 AI 通讯作者 Peter Yang 给面临裁员的员工提出了 6 条实用建议：

读懂信号——业务增长停滞、管理层突然迷恋「扁平化」或「AI 时代重组」时，你就知道了
学会用 Codex 或 Claude Code——这些是和 AI agent 协作的最佳训练场
做 side project——在大公司待久了，builder 技能会退化
积累 GitHub 历史——他以 @zarazhangrui 的 frontend-slides skill 获得 16K star 为例
成为领域前 10%——AI 能快速让人达到平均水平，这意味着客户更愿意为真正的手艺付费
让市场决定价值——在公开场合构建、解决真实问题，而不是投 100 份简历

他的核心观点：AI 时代创业是最安全的职业。

https://x.com/petergyang/status/2057830781352034322

Aaron Levie：安全工程师即将迎来爆发期

Box CEO Aaron Levie 指出一个被低估的趋势：AI 让安全漏洞的发现变得更容易了，但审查、响应和修复这些漏洞仍然需要大量人工判断。发现问题变快了，修复跟不上。

这是 Jevons 悖论的经典体现：提高资源使用效率反而增加该资源的需求。安全工程师不会消失，需求反而会爆发。

https://x.com/levie/status/2058006473620463985

Garry Tan：Bar-is-Zero 创业框架与 GBrain 语音 Agent

Y Combinator CEO Garry Tan 提出了一个清晰的创业判断框架：

如果你的客户当前的选择是「什么都没有」（bar is zero），不要担心跨越鸿沟、不要追求完美产品、不要等待客户推荐。直接交付 60% 的方案，客户在求着你给他们任何东西。

这个框架来自 Geoffrey Moore 的「Crossing the Chasm」，但 Garry 指出 Moore 的模型有一个隐含假设：买方有一个可比较的现有方案。当替代方案是零时，整个购买心理完全不同。

他还开源了 GBrain v0.40.0，为 OpenClaw/Hermes Agent 加入了基于 Gemini Live 的语音 agent 能力，MIT 协议。

https://x.com/garrytan/status/2058043367704195271 https://x.com/garrytan/status/2058053659527913566

Google Labs：网站改版整合 I/O 新实验

Google Labs 官方宣布网站改版，整合了 I/O 上发布的最新 AI 实验项目。团队还让各产品团队分享了自己产品中最被低估的功能。

https://x.com/GoogleLabs/status/2057884277384360416

其他动态

Kevin Weil（OpenAI 前 CPO）引用 Daniel Burnham 的经典名言：「不要做小计划，它们没有感动人类灵魂的力量。」 https://x.com/kevinweil/status/2057987544663364045
Matt Turck（FirstMark Capital VC）分享了 OpenAI 内部持续加速的进展，引用了 Yann Dubois 的观察 https://x.com/mattturck/status/2057913362608972256
Nikunj Kothari（FPV Ventures 合伙人）完成了一笔非 AI 领域的 A 轮领投 https://x.com/nikunj/status/2057947701762019751
Peter Steinberger（OpenClaw 创始人）欢迎 GitHub 原生支持限制每人 PR 数量 https://x.com/steipete/status/2057946259709628781
Claude（Anthropic 官方）介绍了 Genspark 联合创始人 Kay Zhu，他认为团队才是差异化因素 https://x.com/claudeai/status/2057854403558653983

本文基于 Follow Builders skill 的每日 AI 建造者动态汇总生成。