tapWhisper — Google Gemma 语音音频模型

技术规格

大小 4 GB 至 12 GB

架构多模态大语言模型 (LLM)

延迟低 (端到端运行)

语言多语言

Google DeepMind (谷歌 DeepMind)

经验证的仓库来源

Hugging Face 仓库 / 谷歌官方模型注册表

实际运行时文件

Gemma Audio 是一个原生端到端的音频到文本模型。它直接处理原始音频波形并输出转录文本，不需要中间的语音转文字步骤。它通过一个常驻的、仅限本地 localhost 的 LiteRT-LM 服务运行。该模型常驻内存，以便在听写期间瞬间重用。

模型版本	文件大小	内存占用	格式/量化	支持语言	说明
Gemma 3n	3.41 GB	3.8 GB	INT4 (LiteRT)	多语言	Gemma 使用条款；可公开下载的社区 LiteRT-LM 转换版本。
Gemma 4 E2B	2.41 GB	1.7 GB	INT8 (LiteRT)	多语言	谷歌 Gemma 4 音频 LiteRT-LM 模型。高效的端到端转录模型。
Gemma 4 E4B	3.41 GB	3.3 GB	INT8 (LiteRT)	多语言	容量更高的谷歌 Gemma 4 音频模型。更强的高级语言解析能力。
Gemma 4 12B	6.10 GB	12.0 GB	INT8 (LiteRT)	多语言	大型谷歌 Gemma 4 音频模型，提供极致听写准确率。需要较高的内存容量。