Gemma 4 12B：统一无编码器的多模态模型

发布于 2026年06月04日 18:20 #M7 #趋势洞察原文链接

Gemma 4 12B：统一无编码器的多模态模型封面图

采用无多模态编码器的统一架构，视觉和音频直接输入 LLM 主干网络
基准测试性能接近 26B 模型，支持多步推理和智能体工作流
仅需 16GB VRAM 即可在笔记本本地运行，降低推理延迟
以 Apache 2.0 许可证发布，开发者生态全面支持
内置 Multi-Token Prediction drafter，支持推测解码

Google 发布了 Gemma 4 12B——一款旨在将智能体级多模态能力直接带到笔记本电脑上的模型。它填补了轻量级 E4B 与更高级 26B MoE（混合专家）模型之间的空白，以更小的内存占用封装了强大的能力。这也是 Google 首款支持原生音频输入的中端模型。

借助开发者社区的力量，Gemma 4 系列模型的下载量已突破 1.5 亿次——从辅助穿戴式机械臂到企业级 AI 安全方案，开发者们用它构建了各种各样的应用。

以下是 Gemma 4 12B 的核心亮点：

全新统一架构：无多模态编码器，视觉和音频输入直接流入 LLM 主干网络
高级推理能力：基准测试性能接近 26B 模型，支持多步推理和智能体工作流
笔记本可运行：仅需 16GB VRAM 或统一内存即可本地运行
开放且易获取：Apache 2.0 许可证发布，开发者生态全面支持
支持推测解码：内置 Multi-Token Prediction（MTP）drafter，降低推理延迟

本地运行顶级智能体

Gemma 4 12B 在标准基准测试上的性能接近更大的 26B MoE 模型，但总内存占用不到后者的一半。它足够小巧，可以在 16GB 内存的消费级笔记本上本地运行，直接在设备上解锁强大的多模态和智能体体验。

Gemma 4 12B 基准测试

高效的统一架构

Gemma 4 12B 最突出的特点是处理视觉和音频输入的精简方式。传统多模态模型通常依赖独立的编码器来转换图像和音频，再将其表征传递给语言模型。由于这些分离的编码器会增加延迟和内存使用，Google 训练了一个无编码器架构，直接集成音频和视觉输入。

Gemma 4 12B 原生处理多模态输入的方式：

视觉：用一个轻量级嵌入模块（单次矩阵乘法、位置嵌入和归一化）替代了 Gemma 4 的视觉编码器，让 LLM 主干网络接管视觉处理
音频：进一步简化了音频处理，完全移除音频编码器，将原始音频信号直接投射到与文本 token 相同的维度空间中

详细技术解析可参考 Gemma 4 12B 开发者指南。

立即开始使用

快速体验：通过 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent 应用和 LiteRT-LM CLI 即可试用
下载权重：从 Hugging Face 和 Kaggle 直接下载预训练和指令微调 checkpoint
学习集成：查阅开发者文档和快速入门 notebook
使用常用开发工具：通过 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理，或使用 Unsloth 高效微调
Gemma Skills 智能体开发：Google 发布了官方 Skills Repository，为智能体构建提供专门的技能库
灵活部署：通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 在生产环境中部署

评论互动