AI Builders Digest 0605:Containment、Memory 与算力绑定
今天的 AI Builders Digest 主线是 Agent 不再只拼“能不能做”,而是在拼“能跑多久、记多少、边界怎么控”。Anthropic 一边公开 containment 设计里真实踩过的坑,一边有人晒出用 Claude 自动化 95% 分析查询;OpenAI 则同时把 Codex 的角色化工作流和 ChatGPT 的长期记忆继续往前推。Builder 圈越来越像在承认一件事:决定产品上限的,不再只是模型聪不聪明,而是 runtime、memory、sandbox 和 distribution 能不能一起成立。
今日总结
主线:2026 年的 Agent 竞争,已经从“能力展示”转向“系统工程兑现”。
Anthropic 这几天给了市场最稀缺的一类信息:不是再讲愿景,而是把真实安全代价摊开。 containment 文章里直接说用户会批准大约 93% 的权限提示,后来靠 OS-level sandbox 才把提示量降了 84%。Cat Wu 转发的数据团队案例又把另一面补齐了:Claude 已经能自动化 95% 的 business analytics queries。两条信息放一起看,比任何 benchmark 都更说明问题:Agent 已经真的进生产,但前提是边界必须先被工程化。
OpenAI 的路线则更像“把上下文和工作流一起做厚”。 一边是 Codex 继续加 plugins、annotations、Sites,把非开发者也拉进来;另一边是 Dreaming 试图把 ChatGPT 的 memory 从短期记录升级成随时间自动纠偏的长期上下文层。这里真正有价值的,不是某个新按钮,而是 OpenAI 正在把“会做事”和“记得住”逐步焊成一个连续系统。
播客和 X 上最值得警惕的信号,是 builder 们开始默认 token、访谈数据和用户意图都会变成新基础设施。 Listen Labs 想做的是“知道该造什么”的系统,Aaron Levie 讲的是 token spend 已经远超历史软件 license 支出,Thibault Sottiaux 则在 reliability incident 之后直接 reset paid plans 的 usage limits。这个行业现在已经不是缺 demo,而是缺可持续运行、可控成本和高密度反馈闭环。
今日关键词: Containment · Dreaming · Codex Plugins · Analytics Queries · Token Spend · Customer Simulation
官方博客
Anthropic Engineering:Claude containment 的重点已不是“拦住一切”,而是把 blast radius 做小
Anthropic 这篇 How we contain Claude across products 很值得所有做 agent 产品的人认真读。它没有走空泛安全叙事,而是把产品现实摊得很开:过去用户大约批准了 93% 的权限提示,这意味着只靠 human-in-the-loop 很快会被 approval fatigue 吃掉。为此,Claude Code 引入了 OS-level sandbox,官方说这样把 permission prompts 降低了 84%。
更关键的是它披露了非常具体的失败案例。比如仓库里的 .claude/settings.json hook 曾经能在用户接受 trust prompt 之前就运行。这个细节比任何“AI 需要安全”口号都更有价值,因为它说明真正的风险常常发生在系统自以为还没进入危险区的时候。
对 builder 来说,这篇文章最大的启发是:如果产品目标是让 agent 长时间 unattended 地跑,那 containment 不是附属功能,而是第一层产品能力。没有这层,所有 workflow、memory 和 automation 最终都会卡在不敢放权。
🔗 https://www.anthropic.com/engineering/how-we-contain-claude
播客精选
Training Data:Listen Labs 想把“知道该造什么”做成一层 AI 基础设施
Training Data 最新一期请来 Listen Labs 创始人 Alfred Wahlforss,信息密度很高。最值得记住的两个数字是:Listen Labs 现在服务 20% 的《财富》500 强,可调用 3000 万 参与者。它不是普通 survey tool,而是用 AI agent 批量做语音访谈,再把访谈沉淀成可检索、可验证、未来还可模拟的用户理解资产。
Alfred 那句判断非常像这一轮产品周期的底层公式:越接近 AGI,构建东西会越容易,但真正难的是知道该构建什么。 这也是 Listen 下一步推 simulation 的原因。它想做的不是让你更快收集反馈,而是让系统能基于大量历史访谈,预测某类用户对新问题会怎么回答。
如果这个方向成立,builder 赛道会多出一层以前没被充分产品化的基础设施:不是代码生成,不是 workflow 编排,而是“用户意图建模”。这类公司短期不一定最热,但长期可能非常值钱。
X/Twitter 动态
Cat Wu(Anthropic):数据团队已用 Claude 自动化 95% 的业务分析查询
Cat Wu 转发的这条,某种程度上比新模型发布更重要。她说 Anthropic 的数据团队已经用 Claude 自动化了 95% 的 business analytics queries,而且配套博客会覆盖 evals、ablations 和 online validation。这个点之所以关键,不是“95%”这个数字本身,而是它把 Agent 从 demo 拉到了一个非常具体的企业内部工作流上。
分析查询是典型的高频、脏活、容易积累上下文又需要准确性的任务。它和写代码不一样,不够稳定就没有人会放权。所以这条动态真正传递的是:某些足够窄但足够高价值的知识工作,已经开始进入可大规模自动化区间。
Thibault Sottiaux(OpenAI):Codex 一边涨能力,一边也要为真实事故买单
Thibault Sottiaux 这 24 小时里有两条值得放一起看。一条是更偏产品路线的,他说 OpenAI 内部“lots of little vectors”都在朝同一个方向收敛;另一条则非常 operational:过去 24 小时 Codex 遇到三次独立的小事故,影响了可靠性,所以他直接 为所有付费计划重置了 Codex usage limits。
这类动态比“我们做了新功能”更说明行业状态。OpenAI 一边在把 Codex 推向 role-specific plugins、Sites 和 annotations,一边也不得不在 reliability 出问题时立刻做补偿。这说明 agent 产品现在已经进入另一个阶段:用户默认它应该像基础设施一样稳定,而不是“研究预览,偶尔抽风也能接受”。
🔗 https://x.com/thsottiaux/status/2062329981548802523 🔗 https://x.com/thsottiaux/status/2062423528927015414
Aaron Levie(Box):企业花在 tokens 上的钱,已经开始超过传统软件 license 逻辑
Aaron Levie 最近这条判断很硬。他说即使有 employer caps,企业在 AI tokens 上的支出也已经明显超过历史上任何一种软件 license 支出逻辑,过去每个员工每月几十美元的软件费,如今正在变成数百甚至上千美元的 token 成本。这不是简单的“AI 很贵”,而是在提示应用层竞争会重新围绕预算分配、routing 和 cost governance 组织起来。
很多人还在用 SaaS 心智理解 AI 产品,但 Aaron 讲的是另一套经济学:当 intelligence 变成按使用量持续计费,而且增量价值又足够高,企业会愿意重写预算结构。真正强的产品,不是单纯接入最强模型,而是能把 token burn 和业务结果做出可持续关系。
Josh Woodward 与 Google Labs:Dreambeans 把 Personal Intelligence 往消费入口再推一步
Josh Woodward 转发 Dreambeans 时提到,这个小团队最初的 hallway pitch 是 “hope scrolling, not doom scrolling.” 这句话很值钱,因为它说明 Google 不是只想做一个更会答题的 Gemini,而是在尝试重新定义信息消费入口。Dreambeans 连接 Gmail、Calendar、Photos、YouTube 和 Search history,把 Personal Intelligence 做成一种主动、有限、和真实生活相关的 daily feed。
这条线对 builders 的启发是:AI 产品未必要从 chat 开始。只要你掌握了足够深的用户上下文,完全可以反过来先做“有限但高相关”的分发界面,再把 agent 能力藏在后面。
🔗 https://x.com/joshwoodward/status/2062217728824651848 🔗 https://x.com/GoogleLabs/status/2062206479026069544
数据采集时间:2026-06-04 15:56 CST
评论互动