Google I/O 2026:不卷模型卷 Agent,Google 的下一步大棋

发布于 2026年05月20日 18:00 #Gemini#M7

Google I/O 2026:不卷模型卷 Agent,Google 的下一步大棋 封面图

Google I/O 2026 结束后,各家媒体的标题都差不多:“Gemini 3.5 Flash 来了”、“Spark 发布了”、“Omni 能生成视频了”。

但如果你仔细看完整场发布会,会发现一个被几乎所有人忽略的反常细节:Google 没有发布 Gemini 3.5 Pro。

只在 Keynote 里轻描淡写带了一句“已经在内部用了,下个月发”。

过去两年所有 AI 公司的发布节奏都是先发旗舰版立标杆,再发轻量版铺市场。GPT-5 先来、GPT-5 mini 后到。Claude Opus 先发、Haiku 跟上。Google 自己以前也是 Pro 先、Flash 后。

这次反过来了。

轻量版先发,旗舰版押后。更反常的是 Google 直接把轻量版推到了 Gemini App 和 Google 搜索默认模型的位置。

这不是发布顺序的调整,这是战略重心的转移。

一、Flash 先行:能力已过剩,分发才是战场 Gemini 3.5 Flash 的数据确实亮眼:

  • Terminal-Bench 2.1 编码测试 76.2%,超过 3.1 Pro 的 70.3%
  • GDPval AA 1656 Elo,比 3.1 Pro 的 1314 Elo 高出 300 多分
  • 输出速度每秒约 289 token,是其他前沿模型的 4 倍
  • 价格大约是同级模型的一半
Gemini 3.5 Flash 性能对比
Gemini 3.5 Flash 性能对比

但有两个跑分 Flash 输了:Humanity’s Last Exam 40.2%(Pro 44.4%),ARC-AGI-2 72.1%(Pro 77.1%)。这两个 benchmark 考的是世界知识和纯抽象推理。

也就是说,Google 刻意牺牲了“知识”换“干活”的能力。

正如科技博主小互 AI 在现场的感受:

Google 正在把 Gemini 从一个会回答问题的 AI,升级成一套能理解、能创作、能执行、还能持续跟进任务的 AI 系统。

这背后的逻辑是:对于绝大多数真实任务来说,模型能力可能已经够用了。继续往“更聪明”的方向堆能力,边际收益在变小。把“够用的能力”压到普通人用得起的价格和速度,反而是更值钱的事。

Google 甚至算了一笔账:顶尖企业每天处理约 1 万亿 token,如果将 80% 的工作负载从其他前沿模型转移到 3.5 Flash,每年可能省下超过 10 亿美元。

Google CEO Sundar Pichai 在演讲中公布了一组数据:Google 旗下所有服务每月处理的 token 数量从一年前的 480 万亿增长到 3200 万亿,增长了 7 倍。这个数字背后是模型 API 每分钟处理 190 亿个 token,超过 375 家 Cloud 企业客户各自处理了超过 1 万亿 token。

Token 处理量增长
Token 处理量增长

所以 3.5 Pro 押后这个动作,比 Flash 本身的参数更说明问题:Google 不再比“谁更聪明”,而是在比“同样的聪明能多便宜、多快、多无感地出现在普通人的日常里”。

二、Antigravity 2.0:Google 版 Claude Code + OpenClaw

如果说 Flash 是 Google 换上的新发动机,那 Antigravity 2.0 就是这台发动机的底盘。

在 GSYTech 看来,Antigravity 2.0 是这次 I/O 最有意思的发布:

虽然 Google 过去一年里一直被吐槽 Antigravity,但现在它被扶正了,直接干掉了 Gemini CLI,这个绝对是大多数人意想不到的。

确实如此。2026 年 6 月 18 日,Gemini CLI 和 Gemini Code Assist IDE 扩展将正式停止服务。取而代之的是全新的 Antigravity CLI——“same harness, same agent, same quality of intelligence as Antigravity 2.0”。

Antigravity 2.0 定位
Antigravity 2.0 定位

Antigravity 的定位从“带 Agent Manager 的 IDE”变成了“Agent 工作台 + CLI + SDK + 云端托管 Agent 的基础设施”。这也是头部 AI Coding 产品里,最后一个正式放弃 IDE 入口、转向 Agent 管理入口的。

Codex App、Copilot App、Cursor 3、Trae Solo 都转向了 Agent 管理 UI,Antigravity 2.0 是最后一个完成调整的。——GSYTech

并行子 Agent + 定时任务 Antigravity 2.0

最核心的能力是并行子 Agent:发出一个复杂任务后,主 Agent 自己拆分出多个子 Agent 并行处理不同部分,一个负责改后端、一个负责改前端、一个负责写测试、一个负责跑浏览器验证。

并行子 Agent
并行子 Agent

Google 现场演示了一个极限案例:在构建自定义 Doom 操作系统的演示中,93 个子代理并行跑、12 个小时、1.5 万次模型请求、处理 26 亿 token,总成本不到 1000 美元。

还新增了 Scheduled Tasks——Agent 可以按计划在后台自动跑任务,比如定期检查 issue、跑测试、更新依赖。这和 Gemini Spark 的个人 Agent 思路是同一条线:长期运行、可调度、可授权、可观察。

Scheduled Tasks
Scheduled Tasks

SDK 和 Managed Agents API

这次发布的 Antigravity SDK 让开发者可以把 Google 的 Agent harness 拿到自己的服务器上跑:

import asyncio
from google.antigravity import Agent, LocalAgentConfig

async def main():
    config = LocalAgentConfig()
    async with Agent(config) as agent:
        response = await agent.chat("What files are in the current directory?")
        print(await response.text())

if __name__ == "__main__":
    asyncio.run(main())

而 Managed Agents in Gemini API 更进一步:开发者用一个 API 调用就能启动一个能推理、使用工具、在隔离的 Linux 沙箱里执行代码的 Agent。支持用 AGENTS.mdSKILL.md 定义 Agent 指令、技能和数据。

GSYTech 的评价很到位:

这其实也很像“云端 Codex sandbox / Claude Code remote runner / OpenClaw-like agent runtime”的 Google 版本。

3.5 Flash 在 Antigravity 里还被专门优化过,不是 4 倍快,是12 倍快

12 倍速度
12 倍速度

三、Gemini Spark:9 亿用户的 Agent 入口

如果说 Antigravity 面向开发者,那 Spark 就面向普通人。

Spark 是一个跑在 Google 云端的 24/7 个人 AI Agent。你交代一件事,它自己拆步骤、调工具、跨好几个应用一直干,干完才回来跟你说“搞定了”。中间你不用陪着。

Gemini Spark
Gemini Spark

比如你说“每个月帮我看一遍信用卡账单,找出奇怪的扣款”,Spark 会自己设提醒、翻邮件、分析支出、整理报告发到你邮箱。你甚至可以忘了你交代过这件事,下个月报告自动出现。

云端 vs 本地:入口之争

Spark 和 OpenClaw 等 Agent 工具最大的区别是:它跑在 Google 的服务器上,不需要你保持电脑开着、配好环境、装好命令行工具。

这个差异看似是技术选择,实则是入口选择。小互 AI 的分析很精准:

Gemini App 现在每个月有 9 亿人在用。Spark 一上线,这 9 亿人理论上明天就都能变成“AI Agent 用户”,不用装软件、不用懂技术、不用懂什么是 MCP。OpenAI 和 Anthropic 现在最缺的不是模型能力,是这种“用户已经在那里”的入口。

Spark 出厂就接好了 Gmail、Docs、Slides 等 Workspace 全家桶,第三方接了 Canva、OpenTable、Instacart,用的是 MCP 协议。今年夏天还会加几个能力:

  • 通过短信、邮件跟 Spark 沟通(不用打开 Gemini App)
  • 创建子 Agent(一个 Agent 拆出几个同时干活)
  • 操作本地浏览器(替你在网页上点按钮、填表单)
  • Mac 桌面版(能读本地文件)

在 Android 上,Google 还会推出一个叫 Halo 的 UI 层,在状态栏顶部显示 Agent 正在干什么。科技博主卡兹克对此有一个有意思的观察:

过去的 Android UI 都是给 App 用的,App 是底层逻辑。Halo 开始的 Android,是给 Agent 用的,Agent 是底层逻辑。可能未来会诞生很多新的玩法。

价格门槛

Spark 目前只对 Google AI Ultra 订阅用户开放。好消息是 Google 把 Ultra 拆成了两档:$100/月(开发者向,5 倍于 Pro 的用量)和 $200/月(顶级方案,20 倍用量)。之前只有 $250 一档。

不过卡兹克的吐槽也有道理:“这年头谁家好人会没事给 Google 充 250 刀的 Ultra 会员啊,过于大冤种了。”

四、搜索即 Agent:从“找网页”到“生成工具”

Google 搜索的 AI Mode 月活已经突破 10 亿,自上线以来每个季度查询量翻一倍。3.5 Flash 已经成为默认模型。

但更值得关注的是搜索正在变成什么。

搜索现在会针对你的问题,实时从零搭建定制化的交互界面。比如问“黑洞怎么影响时空”,直接生成了一个可以拖拽参数的交互式可视化页面。

搜索中的生成式 UI
搜索中的生成式 UI

这背后是 Antigravity 在驱动——搜索时调用了一个容器化的 Agent 环境,让 3.5 Flash 实时写代码、跑代码、把渲染结果嵌回搜索结果。今年夏天对所有用户免费开放。

卡兹克把这称为“搜索 1998 年以来最大的一次进化”:

直接在搜索里面嵌入生成式 UI,可能是搜索这个产品形态自诞生以来最大的一次进化。

Search Agents

搜索里可以创建 Agent 了——7×24 小时在后台帮你盯事情。比如你是炒股的,想盯 PE 小于 15、现金流为正、负债低的生物科技股,AI Agent 接到指令自己去查,看到价格变动给你推送更新。

Search Agents
Search Agents

这意味着搜索从“你问我答”变成了“你交代任务,我持续跟踪”。对于 SEO 和内容生态来说,这是一个潜在的巨大冲击。

五、Agent 电商基础设施:比 Omni 更值得关注的三件套

Omni 的视频生成效果确实有视觉冲击,但 Google 这次在电商领域做的事,可能影响更深远。

三件套:Universal Commerce Protocol(UCP)、Agent Payments Protocol(AP2)、Universal Cart。

UCP:Agent 电商的 HTTP

UCP 是今年一月发布的开源协议,定位是 Agent 电商时代的通用购物规则。创始合作伙伴已经有 Shopify、Etsy、Wayfair、Target、Walmart。

这次 I/O 的关键进展是:Amazon、Meta、Microsoft、Salesforce、Stripe 官宣加入 UCP 技术委员会。

Google 副总裁 Vidya 的原话是:“这可能是我们所有人第一次达成共识。”

UCP 合作伙伴
UCP 合作伙伴

AP2:Agent 付款的安全护栏

AP2 解决的是 Agent 帮你买东西会不会乱花钱的问题。你可以设三道护栏:具体品牌、具体商品、支付金额上限。三个条件全满足 Agent 才会下单,每笔交易都有防篡改的数字授权书。

Universal Cart:跨场景智能购物车

你在搜索里看到一个东西可以加进去,跟 Gemini 聊天看到一个东西可以加进去,看 YouTube 时看到一个东西可以加进去,读 Gmail 时看到一个东西也可以加进去。

Universal Cart
Universal Cart

加进去之后购物车自动在后台找折扣、查价格历史、跨商品检查兼容性。比如你买了一块主板,购物车发现你之前的 CPU 和主板不匹配,主动提醒你。

卡兹克的评价很到位:“Agent+钱这块的基础设施,已经开始缓缓渐进了。”

这三件套组合在一起,构建了一个完整的 Agent 电商闭环:协议层(UCP)定义 Agent 怎么买东西,支付层(AP2)定义 Agent 怎么付钱,产品层(Universal Cart)定义用户怎么和 Agent 一起管理购物。

结语:我们正站在什么位置

Google DeepMind CEO Demis Hassabis 在结尾说了一句话:

When we look back at this time, I think we’ll realize that we were standing in the foothills of the singularity.

翻译过来是:当我们回望这个时刻时,我想我们会意识到,我们正站在奇点的山脚下。

但比起这种宏大的叙事,这次 I/O 释放的更实际的信号是:AI 的竞争维度变了。

过去两年,所有公司都在比谁的模型更聪明。从今天开始,比的是同样的聪明能多便宜、多快、多无感地出现在普通人的日常里。

Spark 跑在云端、Omni 进 YouTube、Flash 接管搜索、Antigravity 统一开发工具——四个产品在做同一件事:把“用 AI 需要专门去用 AI”这层门槛拆掉。

对开发者来说,最值得关注的不是某个模型又涨了多少分,而是:

  1. 学会编排 Agent 比学会写 Prompt 更重要。Antigravity 的并行子 Agent、Scheduled Tasks、SDK 都在降低 Agent 编排的门槛。
  2. 关注 Agent 的分发渠道。Google 搜索 10 亿 AI Mode 月活、Gemini App 9 亿用户——这些入口决定了你的 Agent 能触达多少人。
  3. Agent 商业化基础设施正在成型。UCP 和 AP2 意味着 Agent 变现有了标准化的路径。

回头看,这一年里所有让你印象深的 AI 产品,都不是因为“它最强”,而是因为“它出现在了你已经在做的事情里”。

Cursor 出现在你写代码的地方,Nano Banana 出现在你修图的地方,ChatGPT 的搜索出现在你查东西的地方。

3.5 Pro 押后这个动作,可能比这次发的所有产品本身都更说明问题。

评论互动

© 2026 王若风的技术博客 · Powered by Astro