Gemma 4 12B:统一无编码器的多模态模型

发布于 2026年06月04日 18:20 #Google#AI 行业 原文链接

Gemma 4 12B:统一无编码器的多模态模型 封面图

Google 发布了 Gemma 4 12B——一款旨在将智能体级多模态能力直接带到笔记本电脑上的模型。它填补了轻量级 E4B 与更高级 26B MoE(混合专家)模型之间的空白,以更小的内存占用封装了强大的能力。这也是 Google 首款支持原生音频输入的中端模型。

借助开发者社区的力量,Gemma 4 系列模型的下载量已突破 1.5 亿次——从辅助穿戴式机械臂到企业级 AI 安全方案,开发者们用它构建了各种各样的应用。

以下是 Gemma 4 12B 的核心亮点:

  • 全新统一架构:无多模态编码器,视觉和音频输入直接流入 LLM 主干网络
  • 高级推理能力:基准测试性能接近 26B 模型,支持多步推理和智能体工作流
  • 笔记本可运行:仅需 16GB VRAM 或统一内存即可本地运行
  • 开放且易获取:Apache 2.0 许可证发布,开发者生态全面支持
  • 支持推测解码:内置 Multi-Token Prediction(MTP)drafter,降低推理延迟

本地运行顶级智能体

Gemma 4 12B 在标准基准测试上的性能接近更大的 26B MoE 模型,但总内存占用不到后者的一半。它足够小巧,可以在 16GB 内存的消费级笔记本上本地运行,直接在设备上解锁强大的多模态和智能体体验。

Gemma 4 12B 基准测试
Gemma 4 12B 基准测试

高效的统一架构

Gemma 4 12B 最突出的特点是处理视觉和音频输入的精简方式。传统多模态模型通常依赖独立的编码器来转换图像和音频,再将其表征传递给语言模型。由于这些分离的编码器会增加延迟和内存使用,Google 训练了一个无编码器架构,直接集成音频和视觉输入。

Gemma 4 12B 原生处理多模态输入的方式:

  • 视觉:用一个轻量级嵌入模块(单次矩阵乘法、位置嵌入和归一化)替代了 Gemma 4 的视觉编码器,让 LLM 主干网络接管视觉处理
  • 音频:进一步简化了音频处理,完全移除音频编码器,将原始音频信号直接投射到与文本 token 相同的维度空间中

详细技术解析可参考 Gemma 4 12B 开发者指南

立即开始使用

评论互动

© 2026 王若风的技术博客 · Powered by Astro