AI Builders Digest 0523:Oriol Vinyals 谈世界模型、Claude Managed Agents 三大更新、Garry Tan 的 Bar-is-Zero 创业框架

发布于 2026年05月23日 23:00 #Follow Builders#Models

AI Builders Digest 0523:Oriol Vinyals 谈世界模型、Claude Managed Agents 三大更新、Garry Tan 的 Bar-is-Zero 创业框架 封面图

今天的 AI Builders Digest 涵盖了过去 24 小时内 AI 领域最有价值的动态:Gemini 联合负责人对世界模型的深度思考、Anthropic 的 Managed Agents 重大更新、以及多位一线建造者的实战洞察。

播客精选

Unsupervised Learning Ep 87:Gemini 联合负责人 Oriol Vinyals 谈世界模型、RL 的下一个前沿与持续学习

Oriol Vinyals 是 Gemini 的联合负责人,与 Noam Shazeer 和 Jeff Dean 并列。Google I/O 结束后第二天,他和 Redpoint 的 Jacob EFron 进行了一场深度对话,覆盖了世界模型、RL 后训练、持续学习、记忆系统和 AGI 时间线等核心话题。

世界模型的「GPT 时刻」还没到

Omni 是 Google I/O 上最惊艳的发布之一——不仅能生成视频,还能通过语言精确编辑和控制视频内容。但 Oriol 坦诚地说,视频/图像领域的「GPT 时刻」尚未到来。核心难题是:如何纯粹从视觉数据中提取知识,而不依赖文本标注?

他用了一个简洁的比喻:人类看了无数视频后能理解重力法则,但模型目前做不到这种「无监督的概念提取」。Omni 在交互层面的进步是实实在在的,但从「视频理解」到「物理世界理解」之间仍有鸿沟。

RL 后训练是「完全的处女地」

Oriol 认为当前 RL 在数学和编程上表现惊人,但数据稀缺是根本瓶颈。围棋之所以能无限训练,是因为每走一步就进入一个全新的局面。而 LLM 面对的文本世界,缺乏这种天然的无限数据生成机制。

一个出乎意料的发现:在窄域(数学、编程)上的 RL 训练带来了广泛的泛化能力——Oriol 承认这是一年前他没有预料到的。他最近问模型关于搬家和税务的问题,推理质量同样出色,这些显然不在训练数据中。

持续学习:文件系统比权重更实用

关于记忆,Oriol 将其分为两层:工作记忆(上下文窗口)和情景记忆(文件系统/知识库)。他明确认为,通过文件系统实现的非参数化记忆是当前最实用的持续学习方案。修改模型权重来记忆个人信息的方案从工程角度就不可行——你不可能为每个用户服务一个不同的权重版本。

这个观点值得注意:从服务架构出发反向推导技术路线,而不是纯粹追求学术最优解。

AGI 可能几年内到来

Oriol 认同 Demis Hassabis 的判断。他说得更直接:「如果七年前有人给我一个今天的模型,我会直接宣布这就是 AGI。」但他最关心的「元能力」是 agent 从经验中学习的能力——给模型一本全新的游戏规则手册(比如文明游戏),看它能否理解规则、开始游戏,并在过程中不断进步。这是他认为评估「真正智能」最有效的方式。

「训练的分布越广,模型越好。但在窄域 RL 上训练后居然能泛化到其他领域,这出乎我的意料。」—— Oriol Vinyals

https://www.youtube.com/watch?v=NQczevdpxq0

官方博客

Claude Blog:Managed Agents 三大新功能 — Dreaming、Outcomes 与多 Agent 协作

Anthropic 发布了 Claude Managed Agents 的重大更新,三个功能同时上线:

Dreaming(梦境) 是一个定时回顾 agent 历史会话的机制。它从过去的交互中提取模式、发现重复错误、整理工作流程,然后自动优化 agent 的记忆。开发者可以选择让 Dreaming 自动更新记忆,或先人工审核再生效。这对长时间运行和多 agent 场景尤其有价值。

Outcomes(目标) 解决了一个实际问题:怎么让 agent 知道什么是「足够好」。开发者定义成功标准(rubric),一个独立的评分 agent 评估输出质量,不合格则自动重试。评分 agent 在独立的上下文窗口中运行,不受原 agent 推理过程的影响。内部测试显示,Outcomes 让任务成功率提升了最高 10 个百分点,文件生成质量也有显著提升(docx +8.4%,pptx +10.1%)。

Multiagent orchestration(多 Agent 协作) 让主 agent 可以将复杂任务拆分给多个专家 agent 并行处理。每个专家 agent 有自己的模型、prompt 和工具,通过共享文件系统协作。主 agent 可以在过程中随时查看其他 agent 的进展。

已经在用的团队:

  • Harvey 用 Dreaming 让法律 agent 在会话间记住文件类型技巧和工具模式,完成率提升约 6 倍
  • Netflix 平台团队用多 Agent 并行分析数百个构建的日志,只上报真正需要处理的模式
  • Spiral by Every 用 Outcomes 对每篇文章按编辑标准打分,只有达标的才会返回
  • Wisedocs 用 Outcomes 做文档质量检查,审查速度提升 50%

https://claude.com/blog/new-in-claude-managed-agents

X/Twitter 建造者动态

Swyx:Kakuna 概念与「Mullet Factory」理念

Latent Space 播客主持人、AI 工程师社区领导者 Swyx 认同一个关于 Transformer 学习能力边界的思维框架:当前范式可以通过暴力扩展达到某种 AGI,但真正能假设并验证真相的方案终将胜出。

他还提出了「Kakuna」概念——一种带清单的 skill 系统,专注于代码库加固而非功能开发。核心理念是「mullet factory」:前面展示独特功能(party in front),后面保障生产质量(dark in the back)。这在实际工程中的含义是:用 AI 加速无聊但必要的代码质量工作。

https://x.com/swyx/status/2058073815301972368 https://x.com/swyx/status/2057876022553690327

Peter Yang:裁员潮中的 6 条生存建议

Roblox 产品经理、14 万订阅 AI 通讯作者 Peter Yang 给面临裁员的员工提出了 6 条实用建议:

  1. 读懂信号——业务增长停滞、管理层突然迷恋「扁平化」或「AI 时代重组」时,你就知道了
  2. 学会用 Codex 或 Claude Code——这些是和 AI agent 协作的最佳训练场
  3. 做 side project——在大公司待久了,builder 技能会退化
  4. 积累 GitHub 历史——他以 @zarazhangrui 的 frontend-slides skill 获得 16K star 为例
  5. 成为领域前 10%——AI 能快速让人达到平均水平,这意味着客户更愿意为真正的手艺付费
  6. 让市场决定价值——在公开场合构建、解决真实问题,而不是投 100 份简历

他的核心观点:AI 时代创业是最安全的职业。

https://x.com/petergyang/status/2057830781352034322

Aaron Levie:安全工程师即将迎来爆发期

Box CEO Aaron Levie 指出一个被低估的趋势:AI 让安全漏洞的发现变得更容易了,但审查、响应和修复这些漏洞仍然需要大量人工判断。发现问题变快了,修复跟不上。

这是 Jevons 悖论的经典体现:提高资源使用效率反而增加该资源的需求。安全工程师不会消失,需求反而会爆发。

https://x.com/levie/status/2058006473620463985

Garry Tan:Bar-is-Zero 创业框架与 GBrain 语音 Agent

Y Combinator CEO Garry Tan 提出了一个清晰的创业判断框架:

如果你的客户当前的选择是「什么都没有」(bar is zero),不要担心跨越鸿沟、不要追求完美产品、不要等待客户推荐。直接交付 60% 的方案,客户在求着你给他们任何东西。

这个框架来自 Geoffrey Moore 的「Crossing the Chasm」,但 Garry 指出 Moore 的模型有一个隐含假设:买方有一个可比较的现有方案。当替代方案是零时,整个购买心理完全不同。

他还开源了 GBrain v0.40.0,为 OpenClaw/Hermes Agent 加入了基于 Gemini Live 的语音 agent 能力,MIT 协议。

https://x.com/garrytan/status/2058043367704195271 https://x.com/garrytan/status/2058053659527913566

Google Labs:网站改版整合 I/O 新实验

Google Labs 官方宣布网站改版,整合了 I/O 上发布的最新 AI 实验项目。团队还让各产品团队分享了自己产品中最被低估的功能。

https://x.com/GoogleLabs/status/2057884277384360416

其他动态


本文基于 Follow Builders skill 的每日 AI 建造者动态汇总生成。

评论互动

© 2026 王若风的技术博客 · Powered by Astro