AI 正在从「能做到」转向「怎么用」
过去 24 小时的 AI 动态,如果一条一条看,都是独立的新闻。Gemini 联合负责人谈世界模型,Anthropic 发布 Managed Agents 新功能,Box CEO 说安全工程师要爆发了,YC 掌门人谈创业方法论。
但把它们放在一起看,有一个共同的方向在浮现。
能力的天花板,不是你以为的那个
Oriol Vinyals 在 Unsupervised Learning 播客里说了一句大实话:视频和图像领域的「GPT 时刻」还没到。
Omni 在 Google I/O 上的表现确实惊艳——你可以用语言控制视频里的物体运动、编辑场景、甚至模拟物理效果。但 Oriol 指出了一个根本问题:模型看了无数视频后,能不能像人类一样,在没有任何文本标注的情况下,推导出「重力是怎么工作的」?
答案是不能。
现在的多模态模型本质上还是靠文本标签来理解视觉内容的。视频数据里的知识远比文字丰富,但模型提取不出来。这就是 Oriol 说的「视频的 GPT 时刻」——什么时候模型能纯粹从像素中学会物理法则,那才是真正的世界模型。
但有意思的是,他接着说了一句更值得注意的话:在窄域 RL 训练(数学、编程)上的投入,带来了出乎意料的广泛泛化。
他原话说得很直接:一年前他没预料到这一点。
这意味着什么?意味着我们可能不需要找到每个领域的数据来训练。在足够难的推理任务上训练模型,它就能在其他领域也变得更好。这是比世界模型更实用的一条路径。
Agent 开始自己管自己了
Anthropic 同一天发布的 Managed Agents 更新,把三件事放在一起看很有意思。
Dreaming:agent 不干活的时候,系统让它「做梦」——回顾过去的历史会话,提取模式,发现重复错误,然后自动优化记忆。下次醒来就变聪明了。
Outcomes:agent 干完活,另一个独立的 agent 来打分。不够好就重来。打分 agent 不受原 agent 推理过程的污染,所以评估更客观。测试结果显示任务成功率最高提升 10 个百分点。
Multiagent orchestration:一个活太大干不完?主 agent 拆成几份,分给几个专家 agent 并行干。每个专家有自己的模型和工具,共享文件系统。
这三个功能组合起来,其实在做一件事:让 agent 系统从「人告诉它怎么做」变成「它自己知道怎么做」。
Dreaming 是自我反思。Outcomes 是自我验证。Multiagent 是自我分工。
Harvey 的法律 agent 用了 Dreaming 后,完成率提升了约 6 倍。不是因为模型变强了,而是因为 agent 记住了上次犯过的错误。Netflix 的平台团队用多 Agent 并行分析日志,不是因为模型更聪明了,而是因为架构让多个 agent 同时看不同数据源。
能力是模型的事。系统是工程的事。这两个层面的进步现在正在同时发生,而且系统层面的进步可能更值得关注——因为它决定了能力能不能真正落地。
Jevons 悖论 everywhere
Box CEO Aaron Levie 的观察看起来在说安全领域,但其实是一个更普遍的现象。
他说:AI 让发现安全漏洞变容易了。但发现变容易意味着发现的漏洞变多了。漏洞变多了意味着需要审查、评估、修复的工作量变大了。这些工作需要人类的判断。
所以安全工程师的需求不是减少,而是爆发。
这是经济学里的 Jevons 悖论:提高资源使用效率反而增加该资源的需求。蒸汽机效率提高后,煤的消耗量不减反增,因为更多人用蒸汽机了。
这个悖论在 AI 时代到处都在上演:
- AI 让写代码变快了 → 代码量暴增 → 审查代码的工程师需求暴增
- AI 让生成内容变容易了 → 内容量暴增 → 筛选和验证内容的需求暴增
- AI 让发现漏洞变快了 → 漏洞量暴增 → 修复漏洞的工程师需求暴增
AI 不会消灭人类工作,它会创造更多需要人类判断的工作。 只是这些工作从「执行」变成了「审查」。
Swyx 提出的「Kakuna」概念也在呼应这个方向——不是用 AI 来写更多功能,而是用 AI 来加固已有的代码库。执行是 AI 的活,质量保障是人的活。
Bar is Zero:最被低估的创业框架
Garry Tan 提出了一个创业判断框架,我觉得比大部分创业方法论都实用。
来自 Geoffrey Moore 的「Crossing the Chasm」。Moore 说创业公司死在鸿沟里,因为务实型买家要求完美的产品、现成的客户案例、完整的解决方案。大多数创业公司做不到这些。
但 Garry 指出了 Moore 模型的一个隐含前提:它假设买家有一个现有的替代方案可以比较。
如果买家的替代方案是「什么都没有」呢?
如果客户的问题严重到没有人在解决呢?
在这种情况下,买家不再是挑剔的务实者,他们变成了急切的早期采用者。一个 60% 完成的方案,对他们来说比 100% 的「什么都不做」好太多了。不需要完美的产品,不需要客户推荐,不需要完整的生态。
他举了 YC Spring 2026 批次的一个反无人机防御公司 9 Mothers 作为例子。近距离反无人机防御?市场上根本没有可行的方案。Bar is zero。没有鸿沟需要跨越。
这个框架的价值在于它很简单,但很实用:问自己一个问题——我的客户的替代方案是「另一个产品」还是「什么都没有」?如果是后者,别犹豫,先交付再说。
从「能做到」到「怎么用」
回到开头。把这些动态放在一起,我看到的趋势是:
AI 的核心问题正在从「能不能做到」转向「怎么系统化地使用」。
Oriol Vinyals 谈的不是模型能不能更聪明,而是怎么构建记忆系统让 agent 持续学习。
Anthropic 发布的不是更强的模型,而是让 agent 自我反思、自我验证、自我分工的基础设施。
Aaron Levie 谈的不是 AI 能不能替代工程师,而是 AI 让工程师的工作重心从执行转向了审查。
Garry Tan 谈的不是 AI 能不能帮你创业,而是怎么识别那些不需要 AI 也能找到产品的市场。
能力竞赛当然还在继续。Gemini、Claude、GPT 每一代都在变强。但真正的差异化正在从「谁的模型更强」转向「谁的系统更会用模型」。
下一个阶段的赢家,可能不是拥有最强模型的公司,而是最先搞清楚怎么系统化使用 AI 的公司。
本文基于 Follow Builders skill 的每日 AI 建造者动态生成。
评论互动