Gemma 4 12B:统一无编码器的多模态模型
Google 发布了 Gemma 4 12B——一款旨在将智能体级多模态能力直接带到笔记本电脑上的模型。它填补了轻量级 E4B 与更高级 26B MoE(混合专家)模型之间的空白,以更小的内存占用封装了强大的能力。这也是 Google 首款支持原生音频输入的中端模型。
借助开发者社区的力量,Gemma 4 系列模型的下载量已突破 1.5 亿次——从辅助穿戴式机械臂到企业级 AI 安全方案,开发者们用它构建了各种各样的应用。
以下是 Gemma 4 12B 的核心亮点:
- 全新统一架构:无多模态编码器,视觉和音频输入直接流入 LLM 主干网络
- 高级推理能力:基准测试性能接近 26B 模型,支持多步推理和智能体工作流
- 笔记本可运行:仅需 16GB VRAM 或统一内存即可本地运行
- 开放且易获取:Apache 2.0 许可证发布,开发者生态全面支持
- 支持推测解码:内置 Multi-Token Prediction(MTP)drafter,降低推理延迟
本地运行顶级智能体
Gemma 4 12B 在标准基准测试上的性能接近更大的 26B MoE 模型,但总内存占用不到后者的一半。它足够小巧,可以在 16GB 内存的消费级笔记本上本地运行,直接在设备上解锁强大的多模态和智能体体验。

高效的统一架构
Gemma 4 12B 最突出的特点是处理视觉和音频输入的精简方式。传统多模态模型通常依赖独立的编码器来转换图像和音频,再将其表征传递给语言模型。由于这些分离的编码器会增加延迟和内存使用,Google 训练了一个无编码器架构,直接集成音频和视觉输入。
Gemma 4 12B 原生处理多模态输入的方式:
- 视觉:用一个轻量级嵌入模块(单次矩阵乘法、位置嵌入和归一化)替代了 Gemma 4 的视觉编码器,让 LLM 主干网络接管视觉处理
- 音频:进一步简化了音频处理,完全移除音频编码器,将原始音频信号直接投射到与文本 token 相同的维度空间中
详细技术解析可参考 Gemma 4 12B 开发者指南。
立即开始使用
- 快速体验:通过 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent 应用和 LiteRT-LM CLI 即可试用
- 下载权重:从 Hugging Face 和 Kaggle 直接下载预训练和指令微调 checkpoint
- 学习集成:查阅开发者文档和快速入门 notebook
- 使用常用开发工具:通过 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 实现本地推理,或使用 Unsloth 高效微调
- Gemma Skills 智能体开发:Google 发布了官方 Skills Repository,为智能体构建提供专门的技能库
- 灵活部署:通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 在生产环境中部署
评论互动