帮大家总结了一下凌晨的 Google I/O 2026 开发者大会。

发布于 2026年05月20日 12:49 #Gemini 原文链接

刚刚，Google 开完了他们的产品发布会。

回顾这半年，AI 圈的热闹，几乎跟 Google 没啥关系。

但了解 Google 的人都知道，它就喜欢攒一波，然后在 I/O 大会上，一口气全放出来。

终于，今年的，又来了。

我也通宵给大家蹲完，然后整理完了。

可能会是最全的一篇了。

一。 AI 模型

1.Gemini 3.5 Flash 今年 I/O 大会的明星之一，Gemini 3.5 Flash。

一般来说，Flash 系列是轻量快速版，主打便宜和快，Pro 才是满血旗舰版。

但现在基本上都流行，新一代的小模型，要比上一代的大模型还要强，所以这次也是一样，3.5 Flash 的能力在编码能力、Agent 能力、工具调用能力都比上一代的 3.1 Pro 要强不少。

Terminal-Bench 2.1 编码测试，3.5 Flash 拿了 76.2%，3.1 Pro 只有 70.3%。GDPval-AA，衡量真实世界经济价值任务的，3.5 Flash 1656 Elo，3.1 Pro 1314 Elo，差了三百多分。

跑分上确实强了不少。

不过呢，3.5 Flash 在 Humanity’s Last Exam（人类最后考试）上 40.2%，比 3.1 Pro 的 44.4%差，ARC-AGI-2 上 72.1%也输给 Pro 的 77.1%。

这两个 benchmark 主要考的是世界知识和纯抽象推理。

也就是说，这次也是牺牲了知识的能力，换来了干活的能力的加强。

输出速度方面，比其他前沿模型快 4 倍。

价格这块，输入$1.50/百万 token，输出$9.00/百万 token，比 3 Flash 贵了 3 倍，但比 3.1 Pro 便宜 40%。

现在真的全网 token 提价真的是大势所趋。。。

然后知识截止日期到 2025 年 1 月（感觉拉了个大的），上下文窗口 100 万 token。

至于 Gemini 3.5 Pro，他们亲口说的是“Give us until next month to get it to you”，也就是下个月见。

3.5 Flash 今天直接成为 Gemini App 和 AI Mode in Search 的默认模型，全球同步上线 API、AI Studio、Antigravity 等等，所有人也都可以去体验了。

2.Gemini Omini Flash

Gemini Omni，这个东西其实发布会之前就已经在推特上炒疯了。

说真的，其实是有点期待的。

毕竟，谷歌把这玩意称为“a new model that can create anything from any input”，也就是能根据任何输入创造出任何东西的全新模型。

而且现在 Google 的视频模型，已经被大家认为唯一一个能勉强跟 Seedance 2.0 打一打的模型了，也是很多 AI 漫剧公司最后的希望。

在宣发上，看着效果感觉还行。

目前也已经上线了，但是吧，我体验了一下，只能说，有点拉了。

就真的有一点不太行，而且中文的口音，一股港台腔，真的怪怪的。

看到一个评论说。

emmmm。

别说看起来了，用起来也不如 Seedance 啊。。。

不过有一个功能值得一提，就是它支持保持视频中某一个片段不变，只修改其他部分。

不过今天发布的是Gemini Omni Flash，拉一点感觉也能理解，毕竟是 Omni 家族的第一个模型，google 也明确说了，Omni Pro 即将发布。

二。 Gemini 产品

1. Gemini App 全新设计 Gemini App 的设计语言，正式名字叫 Neural Expressive。

一打开网页端，整体配色，从之前那个灰白色的界面，换成了一个蓝色渐变的背景。

第一眼会觉得挺高级的，但也有点像。。。手机省电模式？

手机端也是。

工具栏做了一个合并，之前上传文件、调用工具、选附件是分散在不同地方的，现在全塞进了一个+号里。

点开模型选择器，底下有一个思维水平的选项，展开以后有标准和扩展两项。

最让我没想到的是设置里，Google 也开始整限额了。。。

打开设置一看，好家伙，两个进度条，一个当前使用情况，一个每周限额。

不学 Claude 好的方面，净学这方面。。。

目前，新设计 Neural Expressive 今天起在 Android、iOS、Web 全球上线。

2. Ask Maps

Google Maps 来了一个十年最大升级，加了个叫 Ask Mapx 的功能。

你现在，可以直接用自然语言跟地图对话。

现场举了个例子，有家长真的问了这么一个问题：“我家孩子刚掉进鸭子池塘，婚礼 30 分钟后就开始了，我能走着去哪里给她买件新裙子？”

这种问题你以前在搜索框里根本没法打，现在可以了。

Google 的生态还是太猛了，把地图这种东西，接到了 Gemini 里，还是能产生一些化学反应的。

3. Ask YouTube

YouTube 也搞了一个类似的东西，叫 Ask YouTube。

你也不用再自己翻视频了，直接问它“怎么教三岁小孩骑自行车，他已经会骑平衡车了”，它会给你一个整理好的概览、小贴士、最相关的视频片段，甚至直接跳到视频里最对口的那一段。

还能追问，它记得上下文。

跟上面那个功能其实思路是一样的，把搜索框变成对话框，不管是地图还是视频。

Ask YouTube 现在在美国对 Premium 订阅者开放，今年夏天全美推广。

4. Docs live 之前你想让 Gemini 帮你写个文档，得敲一段很精准的 prompt，想清楚了再打字。

然后 Docs Live 的思路是，你不用打字了，直接说话就行。

脑子里想到什么就说什么，说乱了也没关系，Gemini 自己整理。

现场他们搞了个演示，一个工程师要给高中母校的职业日做分享，他就对着 Gemini 一顿说，“把我简历从 Drive 里调出来”“想几个搞笑的类比”“哦对把学校发的那封邮件里的时间地点也抓出来”“做成表格”“在最前面加个备注让我别忘了讲我哥的故事，加粗”。

全程没打一个字，就是一直一边想一边说，说完文档就直接出来了。

非常的丝滑。

最有意思的是中途改主意，比如他说 Thursday，然后立刻改口说 Friday，Gemini 就会自动把 Thursday 抹掉换成 Friday，这个还挺好的。

今年夏天对 Pro 和 Ultra 订阅者开放。Gmail Live 和 Google Keep 的 Live 模式后面也会接入。

5. Gemini Live 升级 Gemini Live 的语音更新。

现场放了几段，利物浦腔的英语、印度哈里亚纳方言、巴西里约葡萄牙语。。。

三个口音切来切去玩了一段。

接下来几周会陆续上线更多。

6. Daily Brief 这是 Gemini App 里一个新功能，每天早上给你一份个性化摘要。

它会自己翻你的邮箱、日历、任务清单，挑出今天最重要的事情，按主题分好类，甚至建议你下一步该做什么，比如提醒你还书、出行时间之类的。

今天起面向美国的 Plus、Pro、Ultra 用户开放。

7. NotebookLM 功能上增加了电影级视频概览，你丢一堆资料进去，它能直接生成一段带流畅动画和视觉效果的讲解视频。

信息图也升级了，现在有 10 种预设风格可选，手绘风、可爱风、专业风、科学风、动漫风、黏土风。。。

学习工具这块，闪卡和测验都改了，进度会跨设备保存。

最大的变化是，NotebookLM 跟 Gemini App 打通了。Gemini 里现在有一个笔记本功能，你在 Gemini 里创建的笔记本会自动同步到 NotebookLM，反过来也一样。

还支持上传 EPUB 电子书了，幻灯片可以导出 PPTX 格式，聊天记录自动保存，可以在对话里直接生成播客、视频、报告。

另外 NotebookLM 也进了 Google Classroom，大学生可以在课堂里直接创建自己的课程笔记本，用老师提供的资料生成学习工具。

三。 Agent 系统 Agent 今年是 Google 整场发布会的真主线。

1. Antigravity2.0 先讲 Antigravity2.0。

Antigravity 是 Google 的之前的开发平台，但是真的难用，而且完全没啥更新，去年 11 月才发布的，当时发了之后我们每天干的最多的事，就是把 Antigravity 的 Claude 额度给反代出来给 OpenCode 用，后面开始封号，我基本也就没咋用过了。

今天，终于版本来到了 2.0。

更新内容有几个。

第一，全新独立桌面应用。这跟之前是个 IDE 插件不一样了，是个真正的 Agent 工作环境了。

第二，AntigravityCLI上线，全球可用。

这其实就是直接把 Gemini CLI 给替代了。

Google 官方公告，2026 年 6 月 18 日之后，Gemini CLI 和 Gemini Code Assist IDE 扩展会停止对 Pro/Ultra 用户服务。

开发者要全部迁到 Antigravity CLI。

这条信息对所有用 Gemini CLI 开发的人都注意一下（虽然我估计可能没有），别到 6 月 18 号才发现自己的工作流挂了。

第三，Antigravity SDK，开发者可以把 Google 用在 Antigravity 里的 agent harness，直接拿到自己的服务器上跑。

第四，原生语音支持，整合 Gemini 音频模型，跟 Android、Firebase、AI Studio 都打通了。

然后他们现场演示了一下，让 Antigravity 配合 Gemini 3.5 Flash，从零构建一个可运行的操作系统。

93 个 subagent 并行跑，12 个小时，1.5 万次模型请求，处理 26 亿 token，总成本不到$1000。

还真搞了个 OS 出来，能跑命令行，能跑 doom 游戏，可以放动画。

还挺有意思的。

更骚的是 3.5 Flash 在 Antigravity 里被专门优化过，跟别的模型相比，不是 4 倍快，是12 倍快了。。。

Antigravity 2.0 全球开放，所有人今天都能用。

2. Gemini Spark 接下来是 Gemini Spark。

你的个人 AI Agent，感觉是对标了 OpenClaw。

它跑在 Google Cloud 的专属虚拟机上，24/7 不间断，你可以关掉你的电脑，Spark 也会在云端继续干活。

由 Gemini 3.5 Flash 和 Antigravity harness 驱动，可以处理长链路后台任务。

也直接打通了 Google 全家桶，帮你打理各种事。

比如，在工作中让 Spark 帮团队写一封邮件，汇总最近一周 Gemini Live 的发布和成绩等等。

Spark 会自己去翻你的 Docs、邮件、聊天记录，把最重要的信息抓出来，然后按照你预设的写作风格起草邮件。

或者是在生活中，筹备一场街区派对。

Spark 在 Google Sheets 里生成实时 RSVP 追踪表，自动跟 Gmail 打通，邻居回复一句“我来”表格就会自动更新，没回复的邻居它自己会生成催回复的邮件草稿。

然后又从 Google Drive 里翻出了小区 HOA 的章程，提醒你周五下午之前不能布置充气城堡，还在 Google Slides 里做了一份派对宣传 deck。。。

目前，Spark 本周对一些测试人员开放，下周开始对美国 Google AI Ultra 订阅者开放 Beta 测试。

注意，是 Ultra 订阅者，不是 Pro，不过说真的，这年头谁家好人会没事给 Google 冲 250 刀的 Ultra 会员啊，过于大冤种了。

所以呢，伴随着 Spark 发布的，是 Google 整个订阅价格体系的重新洗牌。

Google AI Ultra 之前只有一档，$250 一个月，这次拆成两档。

新的$100/月 Ultra plan，给开发者、技术 lead、内容创作者准备，5 倍于 Pro 的用量、20TB 云存储、YouTube Premium、优先用 Antigravity。

老的 Ultra plan 从$250 降到$200/月，保留所有顶配能力。

Spark 在$100 和$200 两档都可以用。

按我意思来说，Google 你的价格其实还得再降降才行。

3. Android Halo

Spark 在云端 24/7 干活，但你怎么看它在干啥呢。

答案是 Android Halo。

Halo 是 Android 上一个专门给 Agent 准备的 home base，会在状态栏顶部显示 Agent 正在干什么。

Spark 做什么、做到哪一步、要不要你确认，都在这条状态栏里。

今年晚些时候上线。

Halo 其实被带过的比较快，但是我觉得还挺有意思的，可能会是一个新的 UI 层级。

过去的 Android UI 都是给 App 用的，App 是底层逻辑。

Halo 开始的 Android，是给 Agent 用的，Agent 是底层逻辑。

可能未来会诞生很多新的玩法。

四。视觉生成

1. Google Pics

Workspace 里的新产品，Google Pics。

注意是 Pics，不是 Pix，跟 Google Photos 区分开。

Pics 是图像创作和编辑工具，做派对传单、信息图、活动海报这种东西。

支持目标分割，可以选中图里任何一个元素单独编辑。

比如把一只狗变成一只猫，或者把毛衣换个颜色，背景可以完全不动。

文字也能直接在图里编辑、一键翻译多语种啥的。

所有输出自动加 SynthID 水印，保证可以被溯源。

今年夏天先在美国上 Ultra 订阅者。

2. Stitch

Stitch 是 Google 做 UI 设计的工具。

过去一年，全球用户用 Stitch 生成了超过 1 亿张 UI 画面，Google 说内部自己也在用。

（PS：用过这个的可以举个手）

这次更新有几个，实时语音协作（你说话、UI 实时改），导出代码、直接发布到 Netlify、跟 Antigravity 打通。

Google 有段披萨店的演示还挺好玩的。

两个完全不懂 UI 设计的人，对着 Stitch 一通说，“menu 突出更多披萨选项”， “header 字大一点”啥的。

UI 实时响应，最后一键发布上线。

3. Google Flow 老朋友了，Flow 就是 Google 的 AI creative studio。

这次更新有四个。

1.加入 Gemini Omni，可以保留原始视频里的表演和动作，只改环境和特效。

2.新 Agent 功能。一张图同时生成 16 段不同机位的视频，比如你给它一张街景，它给你出 16 种镜头语言的视频。

3.大规模场景修改。把所有镜头从清晨变成深夜，灯光、阴影、车灯，整个场景自洽切换。

4.Flow Tools。你可以在 Flow 里 vibe code 自己的创意工具，比如做视频特效、手绘动画、文字图层叠加啥的。

最好玩的是 Flow Music。

现场演示了一段。一个团队成员录了一段钢琴 riff，扔进 Flow Music，跟它说“往 R&B 方向走，加女声”。然后它就给出了一段编曲完整的歌。

效果还可以的，比 Suno 还差点，但是作为小 demo 其实够用了。

所以其实在这里，Flow 的发布逻辑就很清晰了。

想做做创意人的整个工作流入口。

从画板、到剧本、到镜头、到剪辑、到调色、到配乐，一站式想全包。

但是坦率的讲，功能确实全，但是也真的不咋好用。。。

4. SynthID 还有一个小更新，SynthID。

Google 做的 AI 水印技术，专门用来标记哪些内容是 AI 生成的。

已经给超过 1000 亿张图片和视频打了水印，还有累计 6 万年时长的音频。

新的变化是，现在你在 Chrome 里右键点一张图，或者用圈选搜索，就能查这张图是不是 AI 生成的。

还玩了个梗，说去年有一张他吃汉堡的图在社交媒体传疯了，但其实是假的，他原话说“I don’t eat hamburgers”。

最让我意外的是，Google 宣布OpenAI、Kakao、ElevenLabs也加入了 SynthID。

OpenAI 也发了公告。

这是这次发布会最有故事感的一个细节。

过去三年这两家恨不得搞死对方，今天他们在 SynthID 这件事上放下芥蒂一起合作了。

AI 生成的假图、假声音、假视频这个问题，已经严重到大家不得不放下架子一起搞了。

Nvidia 去年加入，Sony Pictures、Reuters、TikTok 也在路上。

五。 Google 搜索

AI Mode 月活已经突破 10 亿，自上线以来每个季度查询量翻一倍。

然后今天也官宣底层模型升级成了 Gemini 3.5。

具体的更新有四个。

重做了搜索框 Google 说这是搜索框 25 年以来最大的一次升级。

以前你只能打字，现在可以丢图片、文件、视频进去，搜索会跨模态一起理解。而且它会用 AI 帮你补全问题，帮你把真正想问的问题梳理出来。

AI Overviews 和 AI Mode 合并了

从搜索结果页自然过渡到对话式追问，上下文可以一直跟着你。

Search Agents

搜索里可以创建 Agent 了。可以在搜索里同时启动多个 Agent，让它们 7x24 小时在后台帮你盯着事情。

比如说，你是炒股的，想盯 PE 小于 15、现金流为正、负债低的生物科技股，AI agent 接到指令自己去查，看到价格变动给你推送更新，可以放你方便的把信号和噪音分开等等。

Agentic Coding 进了搜索

搜索现在会针对你的问题，实时从零搭建定制化的交互界面。

比如问黑洞怎么影响时空的，可以直接生成了一个可以拖拽参数的交互式的可视化页面。

这玩意背后是 Antigravity 在驱动。

搜索的时候调用了一个 containerized agent 环境，让 3.5 Flash 实时写代码、跑代码、把渲染结果嵌回搜索结果。

这玩意今年夏天对所有用户免费开放。

直接在搜索里面嵌入生成式 UI，可能是搜索这个产品形态自 1998 年以来最大的一次进化。

六。 Agent 电商

这块整个是新增的板块，但是反而是今天发布会最有意思的板块。

两个支柱协议加一个新产品，凑成了完整的三件套。

1. Universal Commerce Protocol（UCP）

UCP 是 Google 一月份发布的开源协议，定位是 Agent 电商时代的 HTTP。

你可以简单的理解成，给 Agent 自己去买东西时候用的一套通用购物规则，类似 MCP。

Google 在 NRF 零售展会上提出来的时候，已经拉了 Shopify、Etsy、Wayfair、Target、Walmart 五家创始合作伙伴一起搞了，还找到一群公司来背书。

这次 I/O 的新进展是，Amazon、Meta、Microsoft、Salesforce、Stripe 官宣加入了 UCP 的技术委员会。

Vidya 原话是：“it may very well be the first time we’ve all agreed on something”，这可能是我们所有人第一次达成共识。

之前只在美国上，现在开始扩展到加拿大、澳大利亚，英国也紧随其后。

2. Agent Payments Protocol（AP2）

AP2 你可以简单的理解成，给 Agent 付款用的授权协议。

AP2 解决的的，其实就是 Agent 帮你买东西会不会乱花钱的问题。

你可以给 Agent 设三道护栏。具体品牌、具体商品、支付金额上限，三个条件全满足，Agent 才会下单。

每一笔交易都有 tamper-proof digital mandate，也就是篡改防护的数字授权书，如果有问题，你和商家看到的是同一份记录，可以追溯。

AP2 即将先在 Gemini Spark 上线。

Universal Cart 这是这次 I/O 真正的新发布。

一个跨商家、跨服务的智能购物车。

你在 Search 里看到一个东西可以加进去，跟 Gemini 聊天看到一个东西可以加进去，看 YouTube 视频时看到一个东西可以加进去，连读 Gmail 时看到一个东西也可以加进去。

加进去之后这个购物车自动在后台干活，找折扣、查价格历史、对你账户里的支付卡权益、提醒缺货补货、跨商品检查兼容性。

比如说，你买电脑配件，先加了一块主板进购物车，之前你已经买过一个 CPU。Universal Cart 发现你 CPU 和主板不匹配，主动给你提醒，让你换个主板。

这种能力是 Google 搜索过去 20 年从来没有的能力。

我自己是真的有点期待了，非常的有意思。

Universal Cart 今年夏天美国上线，先在 Search 和 Gemini App 里，YouTube 和 Gmail 后面跟进。

Agent+钱这块的基础设施，已经开始缓缓渐进了。

七。其他

1. Android XR 智能眼镜

Android XR 眼镜会有两条路线。

一类是带镜片显示屏的显示眼镜，去年 I/O 已经展示过，今年晚些时候会扩大测试计划。

另一类是今年秋天要发的的首款音频眼镜。

没有镜片显示屏，靠声音跟你交互，平时听音乐、拍照、打电话、调 App。

Gentle Monster 和 Warby Parker 负责的外观设计，三星做的硬件，同时支持 IOS 和 Android。

现场演示挺有意思的。

一个姑娘戴着眼镜，跟 Gemini 说带我去上周跟朋友见面的那个地方，Gemini 直接设好了导航，还主动问要不要顺路买你常喝的那杯冷萃咖啡？然后自己打开手机上的外卖 App 帮她下了单。

最后拿眼镜给观众拍了张合影，让 Gemini 把照片变成卡通风格，还加了个大飞艇，放在手表上看。

2. TPU

TPU 这次也有一次比较大的更新。

第八代 TPU，是 Google 历史上第一次采用了双芯片路线，分别针对训练和推理做优化。

训练芯片叫 TPU 8t，主要面向大规模预训练。原始算力接近上一代的 3 倍。

提到一套叫 Jackson Pathways 的训练基础设施，可以把训练任务分布到多个数据中心，不再受单个超大数据中心限制，最高能跨全球超过 100 万颗 TPU 做 scaling。

推理芯片叫 TPU 8i，重点是降低延迟、提升生成速度。

Google 现场用一个即将发布的 Flash 模型做演示，让它生成一个 Chrome Dino 小游戏，屏幕上显示的生成速度接近每秒 1500 个 token。

速度确实快的有点过于离谱了。

3. AI 科研

发布会最后，Google 讲了 AI 在科学领域的几个项目。

一个是Gemini for Science，新发布的科研工具集，包含三个实验性原型。

第一个叫假设生成器，基于 Co-Scientist 底层系统，让多个 agent 一起生成、辩论、评估科研假设，每个论点都有可点击的引用来源。

第二个叫计算发现引擎，基于 AlphaEvolve 和 ERA，并行生成上千个代码变体，让科学家几小时跑完原本要几个月的实验。

第三个叫科学技能包，针对生物医药，整合了 UniProt、AlphaFold Database、AlphaGenome API、InterPro 等 30 多个生命科学数据库，复杂分析从几小时压到几分钟。

除了Gemini for Science 之外，还有两个东西。

一个叫Weather Next。AI 天气预报，比传统模型更准、更早预警。

去年的梅丽莎飓风袭击牙买加，Weather Next 提前 3 天预测到了，比传统模型更准确，帮助当地提前撤离居民，救了不少人。

一个是AI 制药。Google 旗下 Isomorphic Labs 用 AI 加速新药研发，已经有多个项目进入临床前阶段，针对免疫疾病和癌症。Hassabis 说目标是“one day solving all disease”，有朝一日治好所有的病。

除了几个科研的之外，还有一个Code Mender。能自动找到代码里的安全漏洞并修好，今天起对一小批专家开放 Code Mender API 测试。

程序员看到这块应该挺安心的。

毕竟 Agent 写的代码越来越多，安全漏洞自动修复这件事，已经是基础设施级别的需求了。

写在最后

终于。。。总结完了。。。

Google 每次的发布会是真的信息量大到让人窒息。

最后，Hassabis 结束的时候。

他说了一句让我还蛮动容的话。

他说：

When we look back at this time, I think we’ll realize that we were standing in the foothills of the singularity 当我们回望这个时刻时，我想我们会意识到，我们正站在奇点的山脚下。

我也确实相信这句话。

AI，至少在现在看，它是人类智慧的放大器。

也许，我们会开启一个，科学发现和进步的新黄金时代。

也希望未来。

我们能不断的，一起见证。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

/ 作者：卡兹克、可达、Chiyo

/ 投稿或爆料，请联系邮箱：wzglyay@virxact.com