返回 tapWhisper
模型档案信息

Google Gemma 语音音频模型

4 个版本

技术规格

大小 4 GB 至 12 GB
架构 多模态大语言模型 (LLM)
延迟 低 (端到端运行)
语言 多语言

开发者 / 创作者

Google DeepMind (谷歌 DeepMind)

下载来源

经验证的仓库来源

Hugging Face 仓库 / 谷歌官方模型注册表

打开模型仓库 (google/gemma-3)

模型概览

Gemma Audio 是一个原生端到端的音频到文本模型。它直接处理原始音频波形并输出转录文本,不需要中间的语音转文字步骤。它通过一个常驻的、仅限本地 localhost 的 LiteRT-LM 服务运行。该模型常驻内存,以便在听写期间瞬间重用。

可用模型版本

模型版本 文件大小 内存占用 格式/量化 支持语言 说明
Gemma 4 E2B 2.41 GB 1.7 GB INT8 (LiteRT) 多语言 谷歌 Gemma 4 音频 LiteRT-LM 模型。高效的端到端转录模型。
Gemma 4 E4B 3.41 GB 3.3 GB INT8 (LiteRT) 多语言 容量更高的谷歌 Gemma 4 音频模型。更强的高级语言解析能力。
Gemma 4 12B 6.10 GB 12.0 GB INT8 (LiteRT) 多语言 大型谷歌 Gemma 4 音频模型,提供极致听写准确率。需要较高的内存容量。
Gemma 3n 3.40 GB 4.5 GB INT4 (LiteRT) 多语言 谷歌 Gemma 3n 音频模型。Int4 量化版本,提供均衡的转录速度。