技术规格
大小
75 MB (Tiny) 至 1.5 GB (Large)
架构
Transformer 编码器-解码器
延迟
平均听写为 1-3 秒
语言
支持 99+ 种语言
开发者 / 创作者
OpenAI (原始权重), GGML / whisper.cpp 社区 (量化文件)
下载来源
模型概览
Whisper 是 OpenAI 研发的行业领先的通用语音识别模型。在 tapWhisper 中,Whisper 模型通过 whisper.cpp (GGML 格式) 离线运行,在 Apple Silicon 芯片上可开启完整的 Metal GPU 加速。用户可以在设置中选择并下载不同大小的模型(Base、Small、Medium、Large)。它支持极高的多语言识别准确率,并支持自定义词汇提示。
可用模型版本
| 模型版本 | 文件大小 | 内存占用 | 格式/量化 | 支持语言 | 说明 |
|---|---|---|---|---|---|
| Whisper Very Small | 74 MB | 180 MB | Float16 (Full) | 多语言 | 转录速度最快,准确率较低。适用于快速测试。 |
| Whisper Very Small Q5 | 31 MB | 110 MB | Q5_1 (Quantized) | 多语言 | 体积最小的量化 Whisper 选项。极低的存储要求。 |
| Whisper Small | 141 MB | 300 MB | Float16 (Full) | 多语言 | 均衡的基础模型,对日常简单句子具有不错的准确率。 |
| Whisper Small Q5 | 57 MB | 180 MB | Q5_1 (Quantized) | 多语言 | 量化的 Whisper 基础模型。优化的内存和存储占用。 |
| Whisper Medium ⭐ | 547 MB | 900 MB | Q5_0 (Quantized) | 多语言 | 最佳的速度与质量比。推荐作为默认离线模型。 |
| Whisper Very Small (English) | 74 MB | 180 MB | Float16 (Full) | 英语 | 速度最快的纯英文听写模型。低资源消耗。 |
| Whisper Very Small Q5 (English) | 31 MB | 110 MB | Q5_1 (Quantized) | 英语 | 量化的纯英文极小模型。极其轻量。 |
| Whisper Small (English) | 141 MB | 300 MB | Float16 (Full) | 英语 | 标准纯英文基础模型,适用于普通听写。 |
| Whisper Small Q5 (English) | 57 MB | 180 MB | Q5_1 (Quantized) | 英语 | 量化的纯英文基础模型。高效率。 |
| Whisper Standard | 465 MB | 850 MB | Float16 (Full) | 多语言 | 标准模型。为多种语言提供稳定的识别准确率。 |
| Whisper Standard Q5 | 181 MB | 450 MB | Q5_1 (Quantized) | 多语言 | 量化的 Whisper 小模型。尺寸和保真度的极佳平衡。 |
| Whisper Standard (English) | 465 MB | 850 MB | Float16 (Full) | 英语 | 标准纯英文模型。非常适合清晰的英文语音听写。 |
| Whisper Standard Q5 (English) | 181 MB | 450 MB | Q5_1 (Quantized) | 英语 | 量化的纯英文标准模型。高内存效率。 |
| Whisper Large (legacy) | 1.43 GB | 2.2 GB | Float16 (Full) | 多语言 | 具有广泛语言覆盖范围的旧版大模型。准确率高,占用空间大。 |
| Whisper Medium HQ | 1.51 GB | 2.3 GB | Float16 (Full) | 多语言 | 高质量的中型模型(Turbo 架构)。极其出色的准确率。 |
| Whisper Very Big | 2.88 GB | 4.2 GB | Float16 (Full) | 多语言 | 最大的通用准确率。下载量大,处理开销较慢。 |