技术规格
大小
4 GB 至 12 GB
架构
多模态大语言模型 (LLM)
延迟
低 (端到端运行)
语言
多语言
开发者 / 创作者
Google DeepMind (谷歌 DeepMind)
下载来源
模型概览
Gemma Audio 是一个原生端到端的音频到文本模型。它直接处理原始音频波形并输出转录文本,不需要中间的语音转文字步骤。它通过一个常驻的、仅限本地 localhost 的 LiteRT-LM 服务运行。该模型常驻内存,以便在听写期间瞬间重用。
可用模型版本
| 模型版本 | 文件大小 | 内存占用 | 格式/量化 | 支持语言 | 说明 |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2.41 GB | 1.7 GB | INT8 (LiteRT) | 多语言 | 谷歌 Gemma 4 音频 LiteRT-LM 模型。高效的端到端转录模型。 |
| Gemma 4 E4B | 3.41 GB | 3.3 GB | INT8 (LiteRT) | 多语言 | 容量更高的谷歌 Gemma 4 音频模型。更强的高级语言解析能力。 |
| Gemma 4 12B | 6.10 GB | 12.0 GB | INT8 (LiteRT) | 多语言 | 大型谷歌 Gemma 4 音频模型,提供极致听写准确率。需要较高的内存容量。 |
| Gemma 3n | 3.40 GB | 4.5 GB | INT4 (LiteRT) | 多语言 | 谷歌 Gemma 3n 音频模型。Int4 量化版本,提供均衡的转录速度。 |