本文原文来自DataLearnerAI官方博客:Google开源多模态大模型Gemma3n的正式版:重新定义端侧AI的多模态能力,10B(100亿)参数以下最强多模态大模型,一个月前的预览版正式转正|数据学习者官方网站(Datalearner)
Gemma系列大模型是Google在2024年开源的系列模型,和Google的Gemini系列模型的技术同源,但是规模尺寸较小,开源了出来可以免费使用。
2025年3月份,Google开源了第三代Gemma系列(但是Gemini还是2.5版本,很奇怪),并在6月初开源了全新的多模态版本,即Gemma3n的预览版。今天Google正式将预览版的Gemma3n转正。
Gemma3n是一个专为移动端设计的端侧多模态大模型
核心架构创新:MatFormer、PLE与KV缓存MatFormer:一个模型,多种尺寸Per-LayerEmbeddings(PLE):极致的内存效率KVCacheSharing:加速长上下文处理Gemma-3n系列模型的核心能力:多模态十分出色
Gemma-3n实测性能分析:100亿参数规模以下最强多模态大模型推理与事实性多语言能力STEM与代码能力
Gemma3n总结与未来展望
Gemma3n是一个专为移动端设计的端侧多模态大模型2025年5月21日,Google发布了gemma3n的预览版,一个月后的今天,Google发布了一个更新版本,即Gemma3n正式版。
Gemma-3n包含2个不同参数规模(20亿和40亿版本),每一个参数规模模型包含基座版本和指令调优版本。也就是4个版本的模型。
Gemma3n的核心是其新颖的MatFormer(MatryoshkaTransformer)架构,它将“套娃”(Matryoshka)的概念从嵌入层扩展到了整个Transformer模型。简单来说,一个更大的模型(E4B)内部完整地包含了一个更小的、功能齐全的子模型(E2B)。
这种设计为开发者带来了前所未有的灵活性:
预提取模型:开发者可以直接下载使用性能最高的E4B(8B原始参数,4B有效参数)模型,或选择官方已提取好的E2B(5B原始参数,2B有效参数)子模型,后者可提供高达2倍的推理速度提升。
自定义尺寸(Mix-n-Match):通过调整前馈网络隐藏层维度、选择性跳过某些层等方式,开发者可以在E2B和E4B之间精确“切片”,创造出满足特定硬件限制的自定义大小模型。Google为此发布了MatFormerLab工具,帮助开发者找到最佳配置。
Gemma-3n系列模型的核心能力:多模态十分出色Gemma3n最大的亮点之一是其原生、高效的多模态处理能力,尤其是在音频和视觉方面取得了重大突破。
音频理解:内置语音识别与翻译
Gemma3n集成了基于UniversalSpeechModel(USM)的高级音频编码器,能够将音频以每秒约6个Token的粒度进行编码。这使其具备了强大的设备端音频处理能力:
自动语音识别(ASR):直接在设备上实现高质量的语音转文本。
自动语音翻译(AST):将一种语言的口语直接翻译成另一种语言的文本,尤其在英语与西班牙语、法语等语言互译时表现出色。
尽管当前版本实现限制处理30秒内的音频片段,但其底层流式编码器为未来支持任意长度的低延迟音频流处理留下了空间。
视觉编码器:MobileNet-V5的新高度
在视觉方面,Gemma3n搭载了全新的MobileNet-V5-300M视觉编码器,实现了端侧视觉理解的SOTA性能。其优势极其显著:
极致效率:与Gemma3中的基线SoViT相比,在GooglePixelEdgeTPU上,量化后速度提升13倍,参数量减少46%,内存占用缩小4倍。
灵活性:原生支持256x256、512x512和768x768等多种分辨率输入,允许开发者在细节和性能之间权衡。
Gemma-3n实测性能分析:100亿参数规模以下最强多模态大模型官方公布的基准测试结果显示,Gemma3n在多个维度上都表现出色。特别是E4B版本,在LMArena上的得分超过1300,成为首个达到该基准的10B以下参数模型。
Gemma-3n两个版本模型在不同评测数据集上的表现如下:
推理与事实性基准测试
指标
n-shot
E2BPT
E4BPT
HellaSwag
Accuracy
10-shot
72.2
78.6
TriviaQA
Accuracy
5-shot
60.8
70.2
BIG-BenchHard
Accuracy
few-shot
44.3
52.9
DROP
TokenF1score
1-shot
53.9
60.8
多语言能力基准测试
指标
n-shot
E2BIT
E4BIT
MGSM
Accuracy
0-shot
53.1
60.7
WMT24++(ChrF)
Char-levelF-score
0-shot
42.7
50.1
Global-MMLU
Accuracy
0-shot
55.1
60.3
STEM与代码能力基准测试
指标
n-shot
E2BIT
E4BIT
GPQADiamond
RelaxedAccuracy
0-shot
24.8
23.7
LiveCodeBenchv5
pass@1
0-shot
18.6
25.7
HumanEval
pass@1
0-shot
66.5
75.0
这些数据表明,Gemma3n不仅在通用推理任务上表现稳健,还在多语言、数学和代码等专业领域取得了显著进步。
Gemma3n总结与未来展望Gemma3n的发布,无疑是端侧AI发展的一个重要里程碑。通过MatFormer、PLE和MobileNet-V5等一系列架构层面的创新,它成功地将强大的多模态能力和极致的运行效率结合在一起,解决了开发者在设备端部署AI时面临的核心挑战。
对于开发者社区而言,Gemma3n不仅是一个性能更强的工具,更是一个充满想象空间的平台。其开源、灵活和高效的特性,将催生更多富有创意的离线AI应用,从实时的个人助理到无障碍辅助工具,再到交互式教育应用。随着未来“弹性执行”等功能的实装,我们有理由相信,Gemma3n将继续引领端侧智能的发展潮流。
Gemma-3n的开源地址、官方介绍和其它信息参考DataLearnerAI模型信息卡地址
Gemma-3n-E2B在DataLearnerAI模型页面:Gemma3nE4B
Gemma-3n-E4B在DataLearnerAI模型页面:Gemma3nE4B