Google I/O 2026:欢迎来到 Gemini 代理新纪元

发布于 2026年05月20日 05:12 #Gemini#翻译 原文链接

Google I/O 2026:欢迎来到 Gemini 代理新纪元 封面图

原文链接:https://blog.google/intl/zh-tw/company-news/technology/sundar-pichai-io-2026/

编辑:以下是 Google 暨 Alphabet CEO Sundar Pichai 在 Google I/O 2026 部分开幕演讲内容的编辑版本,并加入了更多在大会中分享的重点。

自从去年 I/O 大会以来,我们度过了令人兴奋的一年;这段期间,团队密集地推出新功能与产品、见证了技术突破,并取得飞跃式的进展。

现在,AI 发展已经进入一个新阶段,大众渴望在每天使用的产品中,感受 AI 带来的实质价值。这正是我们全力投入的重点,也体现在我们今天 I/O 大会上发表的各项工作与功能中。

自从我们将公司发展策略全面转向「AI 优先(AI-first)」以来,至今已经走过十个年头。我们始终深信,AI 能以最深远的方式推进我们使命,并大规模改善人们的生活。

这正是为什么我们在 AI 创新上,采取了与众不同的「完整技术堆栈(full stack)」策略,涵盖自研芯片与安全的基础架构、世界级的研究团队与模型。

同时,它也包括能够触达全球数十亿人的产品和平台。

这样的策略,让我们能以更快的速度在公司的各个领域展开创新与迭代。

而最令人惊艳的是大家实际运用 AI 的方式。

像是学生通过 Gemini 应用程序准备期末考、音乐家与艺术家将 Lyria 和 Veo 等生成式 AI 模型融入创作,以及无数开发者通过编写代码将心中的想法化为实现。

贯穿各技术层的 AI 动能

这些来自用户的真实故事,正是衡量我们进展的最佳指标。

如果想了解人们应用 AI 的规模,还有另一个极具代表性的指标:Token。

Token 是模型处理数据的基本单位,每一次处理往往代表着一个问题正被顺利解决。

两年前,我们旗下的所有服务,每个月处理的 Token 数量约为 9.7 万亿个,这已经是很庞大的数字。

在去年 I/O 大会,这个数字增长到约 480 万亿个。

而今天,这个数字已经增长了 7 倍,达到每个月处理超过 3200 万亿个 Token。

图表:各平台每月处理的 Token 数量
图表:各平台每月处理的 Token 数量

这个数字反映了我们的产品成长和整个生态圈的发展,特别是企业用户跟开发者社区:

  • 每个月有超过 850 万名开发人员运用我们的模型打造全新的应用程序与体验。
  • 我们的模型 API 现在每分钟约处理 190 亿个 Token。
  • 过去 12 个月来,有超过 375 家 Google Cloud 企业客户各自处理了超过 1 万亿个 Token,展现跨产业对于 AI 的庞大需求。

产品的成长动能

今天,我们旗下已有 13 款产品各自拥有超过 10 亿用户,其中更有 5 款产品拥有超过 30 亿用户。

我们的 Gemini 模型,正是吸引更多人使用我们旗下产品及提升产品黏性的关键。

这一切要从 Google 搜索说起,它将生成式 AI 的效益带给了全球的用户,超过目前任何一款产品。

现在,AI 概览的月活用户已超过 25 亿,而 AI 模式更是为 Google 搜索带来有史以来最大幅度的升级。

这项新功能深受大众喜爱,在短短一年内,月活用户已经突破 10 亿人。

当人们在 Google 搜索中使用这些 AI 驱动的功能时,他们会更频繁地使用搜索。

现在的搜索不再只是单次的独立查询,而变得更像是一场连续对话,能为你带来更有深度的洞察,并将你与浩瀚的网络世界紧密连接。

不仅如此,我们也在 Gemini 应用程序上持续创新。

在去年 I/O 大会上,Gemini 应用程序每月有 4 亿名活跃用户。今天,这个数字在一年内呈现翻倍增长,已经超过 9 亿。

同时,我们也观察到用户提出的每日请求量也增长了超过 7 倍。

我们也持续加入许多独特的功能,像是个人化智能服务,让 AI 回应能够更客制化贴近个人需求,带来更贴心的协助。

另外,截至目前为止,全球用户已经通过我们的 Nano Banana 图像生成模型创造了超过 500 亿张图片。

这是去年我们爆红的热门功能,也充分展现全球用户丰沛的想象力跟创造力。

融入产品的自然对话式 AI 体验

除了创造力,AI 还能解锁巨大的潜在生产力。

过去一年来,我们持续把能够跟 Gemini 自然进行对话的能力直接导入我们的产品中。

近期,Google 地图迎来了十年来最重大的升级,其中就包含了全新功能「Ask Maps」。用户也开始通过这项功能,在地图中提出更长、更复杂的问题。

现在,我们正进一步将这种自然的对话式 AI 带到更多产品里。

问问 YouTube

每天都有许多人来到 YouTube 寻找答案。平台上有许多优质影片,但有时很难知道该从哪里看起。

Ask YouTube 重新想象了这个体验,让丰富的视频信息更容易吸收且易于探索。它不仅能精准找出最符合你兴趣的视频,而且还可以进一步帮你跳转到视频中与你提问最相关的段落。

Ask YouTube 搜索结果页面
Ask YouTube 搜索结果页面

我们已经开学测试这项功能,并计划于今年夏天先在美国推出。

由语音驱动的 Docs Live

我常常会希望只要通过开口说话就能推进工作,把事情办好。我们在语音模型的技术进展,将可以进一步把这个想象化为现实。

全新功能「Docs Live」能够把这个想法带到全新的境界。

过去想在 Google 文件中通过 Gemini 建立文件跟内容,你必须输入精准的提示词。

现在通过 Docs Live,你只需要将脑海中的想法直接说出来,剩下的繁琐编排工作都可以交给 Gemini 处理。

未来,你将能完全通过语音来建立新文件并直接进行编辑。Docs Live 将于今年夏天开放给订阅用户使用。同时,强大的语音功能也将随后在 Gmail 和 Google Keep 中推出。

支持大规模创新的基础架构

看到创新技术以如此惊人的速度融入我们的产品,确实令人振奋。

但要支持如此庞大的用户规模,且同时为全球的企业与开发人员提供稳定服务,需要在基础架构上进行大规模投资。

而我们一直以来都在为当下与未来进行长远布局。2022 年,我们的年度资本支出为 310 亿美元;今年,我们预计这个数字将会增长到当时的六倍左右,达到近 1900 亿美元。

其中一项关键的投资,就是我们的自研芯片。

十年前,我们在 I/O 大会上宣布了第一代 TPU(Tensor Processing Unit)。从那时起,我们就彻底改变了业界打造 AI 硬件的方式。

我们也在今年的 Cloud Next 宣布了第八代 TPU,首次采用双芯片策略,专为训练和推论打造的两种截然不同架构:TPU 8t 和 TPU 8i。

  • TPU 8t 针对大规模预训练进行了最佳化处理,原始运算能力几乎是上一代的 3 倍。

    通过 JAX 与 Pathways,模型的训练不再局限于单一的超大数据中心,而是能够将训练任务无缝分散到多个不同的据点,在全球超过 100 万个 TPU 上扩大训练规模。

    这让我们有能力打造出全球最大的训练集群。对于模型构建者而言,这代表原本需要耗时数月的大型模型,现在只需短短几周就能训练完成。

  • TPU 8i 则是专为推论而设计。我们在每个步骤都大幅提升了运算速度。因为在深耕搜索技术 27 年来的经验告诉我们,低延迟的速度至关重要。

除了速度,我们也持续思考如何能够以更可持续的方式扩大发展规模。这两款芯片都具备更好的能源效率,带来高达 2 倍的每瓦效能表现。

Gemini Omni

通过这些 TPU 的进展,让我们能在模型、编写代码与 AI 代理的运算上持续取得突破。

随着世界模型的发展,AI 正从单纯的文字预测迈向模拟现实世界的阶段,我们也一直致力于拓展这些前沿模型的能力。

Gemini Omni 是我们的全新模型,能够根据任何输入的素材形式,生成并输出任意模态的内容。

我们会先开放支持视频输出,未来也会逐步扩展到图片与文字。

这个新模型结合了 Gemini 的智能能力与我们的生成式媒体模型,代表模型在理解世界的能力上又向前迈进了一大步。

我们将率先推出 Omni 系列的第一款模型:Gemini Omni Flash。

Gemini Omni Flash 即日起开放使用。你可以在 Gemini 应用程序、Google Flow 以及 YouTube Shorts 上亲自体验,我们也将在未来几周内通过 API 开放给全球开发者与企业客户。

SynthID:技术升级与新合作伙伴

随着生成式 AI 变得更加强大,大家对信息透明度的需求也随之提升。

研究指出,人们面对高质量的 Deepfake 视频时,正确辨识的概率仅有约四分之一。

三年前,我们推出了肉眼不可见的水印技术 SynthID。自推出以来,SynthID 已为超过 1000 亿张图片与视频,以及总时长相当于 6 万年的音频素材添加了水印。

目前,已有数百万人通过 Gemini 应用程序使用我们的 SynthID 检测工具来验证内容是否为 AI 生成。

今天,我们将更进一步,在旗下各款产品中加入内容凭证(Content Credentials)验证机制。

这项功能可以帮助你辨别内容的来源是出自 AI 还是由相机拍摄,以及它是否曾通过生成式 AI 工具进行编辑。

我们希望让大众能更轻松地使用这些工具,因此我们正将内容凭证与 SynthID 验证功能导入 Google 搜索与 Chrome 浏览器之中。

当然,这套机制要能够发挥更大的影响力,需要更多业界伙伴加入并为自己的 AI 生成内容加上水印。

NVIDIA 已于去年正式加入 SynthID 的行列,而我们今天也非常高兴地分享,OpenAI、Ka-Kow 与 Eleven Labs 也将正式采用 SynthID 技术。

Gemini 3.5 Flash

我们在几个月前正式推出 Gemini 3 系列的模型,已成为我们最受欢迎、采用率最高的模型系列。

很高兴看到开发者将 Flash 作为日常开发的主力核心,并运用 Pro 强大的深度推理与多模态能力打造出各种令人惊艳的体验。

同时,我们也持续深化研发,特别是针对代理式编程(agentic coding)、需要长周期执行的任务以及强化现实世界的工作流程。

今天,我们正式推出 Gemini 3.5 Flash,是结合前沿智能与强大代理能力的模型系列中推出的第一款模型。我想特别强调两件事:

  • 与 3.1 Pro 相比,3.5 Flash 几乎在所有的基准测试上都有更好的表现,尤其是在编写代码的能力上取得显著的增长。

    可以参考它在 GDPVal 上的优异表现。这项指标涵盖了许多现实经济活动中极具应用价值的复杂任务。

  • Gemini 3.5 Flash 不仅是一款非常强大的前沿模型,除了整体能力可媲美目前顶尖模型,同时维持着 Flash 系列的快速运算。

    因此,你把它的智能能力与输出速度的表现综合来看,它在图表右上角的象限独树一格。

    若单看每秒输出的 Token 数量,它的速度更是其他同级前沿模型的 4 倍。

Artificial Analysis 智能指数对比输出速度
Artificial Analysis 智能指数对比输出速度

这款新模型也彻底改变了在 Google 内部的开发方式。

我们将 3.5 Flash 搭配我们全新以代理优先架构的开发平台 Antigravity 结合使用,大幅加快了我们的开发速度。

今年三月,我们内部跨 AI 开发工具每天处理约 5000 亿个 Token,而且几乎每隔几周就会翻倍增长。

如今,我们每天处理超过 3 万亿个 Token,这种规模创造了一个强大的正向回馈机制,帮助我们持续改进 3.5 模型。

Flash 最令人惊叹的地方在于,它在提供前沿顶尖能力的同时,执行成本往往不到其他同级前沿模型的一半。

现在才五月份,但我们得知许多企业年度编列在 Token 使用上的预算即将用罄。

如果企业能将 Flash 与其他前沿模型灵活搭配使用,将能够节省大量成本。

举例来说,顶尖的龙头企业每天大约需要处理 1 万亿个 Token,如果他们能将其中 80% 的工作负载,从其他前沿模型转移到 Gemini 3.5 Flash,每年将可能省下超过 10 亿美元的费用。

Gemini 3.5 Flash 今天已经全面开放,所有用户都能通过我们的产品与 API 立即体验这款模型。

我们同时也非常期待推出 Gemini 3.5 Pro。目前我们已在内部使用这款模型,并看到显著进步,并预计于下个月正式与大家见面。

Antigravity 2.0

我们也同步在 Antigravity 平台中为开发人员导入 3.5 Flash。

Antigravity 正在跨越单纯的编程环境,转型为一个专门用来开发与管理多个自主 AI 代理的平台。

这包含了全新的独立桌面应用程序 Antigravity 2.0,它将作为开发者与代理互动的中央枢纽,让任何人都能在这里指挥并调度 AI 代理来处理各种任务。

此外,我们也为其开发了一款经过最佳化的 Flash 版本,运算速度不仅是其他前沿模型的 4 倍,更可达到 12 倍之多。

Antigravity 的用户即日起就能体验这项功能。

Gemini Spark:你的全天候 AI 代理

Gemini 3.5 和 Antigravity 正开启一个 AI 代理和代理式能力的全新世界。

我们已经向开发者企业客户推出代理一段时间了。

现在,我们将专注于如何安全、可靠且有保障地将 AI 代理的强大能力带入消费者的日常生活中,让它为每个人带来实质帮助。

在我们今天分享的众多产品功能中,你也能看见这种智能的代理式体验。

其中,最令我感到兴奋的莫过于 Gemini Spark,它是你在 Gemini 应用程序中专属的个人 AI 代理,能够帮助你轻松打理数字生活,并在你的指引下主动为你执行任务。

  • Spark 在专属的 Google Cloud 虚拟机上运行,提供全天候 24 小时支持,让你不用时时刻刻开着笔记本。

  • 它由 Gemini 3.5 和 Google Antigravity 的框架提供技术支持,能够在背景执行长时间且步骤繁琐的任务。

  • Spark 将无缝整合多元工具,并率先从 Google 的产品与服务开始。未来几周将通过 MCP 整合第三方工具。

  • 你可以选择以最方便的方式与 Spark 展开协作,无论在 Gemini 应用程序中,或通过即将推出的 Email 或即时通讯功能。

  • 在 Android 系统上,我们将于今年稍晚推出全新用户界面空间 Android Halo,让你能一目了然地实时查看 Spark 等 AI 代理的任务进度与最新状态。

    另外,在今年夏天稍晚,Spark 也将直接进驻 Chrome 浏览器,化身为用户的代理式浏览器(agentic browser)。

我们本周已开始向受信任的测试人员推出 Gemini Spark,并预计在下周向美国的 Google AI Ultra 订阅用户开放 Beta 测试版。

AI 代理时代下的搜索

Gemini Spark 是第一个以 3.5 模型系列与 Antigravity 实现的创新体验。

这样的组合让我们可以通过崭新的方式加速实现我们的使命、全面更新旗下的产品,并为用户带来实质且深刻的帮助。

随着我们迈入 AI 代理时代,Google 搜索将比以往更加实用且强大。

今天,我们正式在 Google 搜索中推出「信息代理(information agents)」。

你可以建立专属于你的个人化 AI 代理,并在背景中全天候为你查找与筛选数据,在你需要的时候提供你所需要的信息并采取行动。

信息代理将在今年夏天陆续推出,并率先开放给 Google AI Pro 和 Ultra 的订阅用户。

我们打造真正代理式搜索的另一种方式,是导入代理式编程能力(agentic coding capabilities)。

通过 Gemini 3.5 Flash 和 Google Antigravity 的强大能力,Google 搜索将能针对你的独特提问,即时地打造出客制化的回答呈现,包含弹性的版面布局与高度互动的视觉元素。

这些生成式 UI 的功能将在今年夏天免费开放给所有人使用。

对于需要长时间执行、反复回来查看的任务,Google 搜索甚至能进一步为你打造一个长期且客制化的信息主页或进度追踪器,让你能随时返回检视并持续追踪进度。

你可以将这些工具视为处理特定任务的「迷你应用程序(mini apps)」。

在接下来的几个月中,用户可直接在 Google 搜索中通过 Antigravity 建立客制化体验。

Gemini 代理新纪元的更多内容

以下是我们在 I/O 大会上分享的其他内容:

  • 「每日摘要」 是即将在 Gemini 应用程序推出的另一款 AI 代理。它能提供个人化摘要,并整合来自收件箱、日历和任务的信息,并提醒你最需要注意的重要事项。

    它不只是摘要信息,还能根据事件重要性排出优先顺序并提供下一步行动建议。所有内容都会呈现在一份精简、专为快速浏览设计的晨间摘要中。

  • Google Flow 从今天开始推出全新 AI 代理,可以根据输入的信息并在你的指引下针对复杂任务进行规划和推理。

    通过 Gemini 模型,这款代理拥有深厚的专业知识以及对于项目脉络的掌握,能协助用户进行初期的头脑风暴、创作和编辑。

    此外,用户也可以直接在 Flow 中进行 Vibe code,打造不同的创意工具,像是用于设计视频特效、手绘动画或文字图层的工具。

  • Google Pics 是我们基于最新 Nano Banana 模型所打造的全新 AI 图像创作与编辑工具,能帮助你依照自己的创意进行创作。

    无论是从空白画布开始设计,还是编辑现有的照片,Pics 都会将每个元素视为独立的对象,而不是扁平、静态的图像。

    这让你可以自由创作、替换或修饰细节,精准还原脑海中的视觉蓝图。

  • 我们也进一步分享了去年初次亮相的智能眼镜(intelligent eyewear) 相关进展。

    这包括能在你耳边提供语音协助的语音眼镜(audio glasses),以及能在你需要时立刻显示所需信息的显示型眼镜(display glasses)。

    两种类型的装置都能让你解放双手,无须低头查看手机,只要开口提问就能获得 Gemini 的协助。

    我们将率先推出语音眼镜,预计于今年秋季上市。

  • Gemini for Science 整合了多款 AI 工具协助加速科学研究的进程。

    以 Gemini、Deep Think 和 Deep Research 强大的深度推理与学术搜索能力为基础,这个计划包含了 Google Labs 和 Science Skills 的新实验。

    这些实验可将 Google Antigravity 等 AI 代理平台与 30 多个主要的生命科学数据库和工具串接。

    用户可以在 Google Labs 申请体验 Gemini for Science 实验,同时 Science Skills 今天已经在 GitHub 及 Antigravity 平台中开放使用。

当我们纵观整个完整技术堆栈策略中的各项创新,从 TPU 8i 的基础架构,到 Gemini 3.5 和 Antigravity 展现的前沿能力,毫无疑问地,我们正稳步迈入 Gemini 代理的新时代。

我非常期待这项技术将如何解锁全新的途径,不仅加速实践我们的使命、重塑我们的产品,更为每一个人带来深刻的实用价值。

附录:Google I/O ‘26 Keynote 完整视频

评论互动

© 2026 王若风的技术博客 · Powered by Astro