模型档案信息
支持的设备端模型
tapWhisper 旨在完全离线且在设备本地运行,以提供极致的隐私和性能。探索我们引擎支持的所有模型。
macOS Apple Speech 引擎
Apple Speech 是 tapWhisper 的默认、零配置转录引擎。它使用 Apple 原生的 Speech 框架,100% 在设备本地运行。它的配置磨损几乎为零,系统内存占用极低,且针对 Apple Silicon (M1/M2/M3/M4) 及 Intel 芯片进行了深度原生优化。由于它直接调用 macOS 系统 API,因此不需要下载模型文件,开箱即用。
OpenAI Whisper GGML 模型
Whisper 是 OpenAI 研发的行业领先的通用语音识别模型。在 tapWhisper 中,Whisper 模型通过 whisper.
Useful Sensors Moonshine 模型
Moonshine 是一个经过高度优化、超低延迟的语音识别模型,专为资源受限的边缘设备上的实时听写而设计。它能在获得与 Whisper 模型相似准确率的同时,以更小的内存占用大幅提升音频处理速度。在 tapWhisper 中它通过 Sherpa ONNX 运行时在本地加载运行。
NVIDIA Parakeet ONNX 模型
NVIDIA 研发的 Parakeet 是一款针对英文经过高度优化的顶尖语音转文字模型。该模型量化为 INT8 ONNX 格式,通过 Sherpa ONNX 引擎在进程内本地运行。它为编程、商务和日常英文听写提供了极高的准确率和闪电般的响应速度。
NVIDIA Canary ONNX 模型
NVIDIA 的 Canary 是一款先进的多语言语音转文字和翻译模型。它支持英语、西班牙语、德语和法语的语音识别,并可以在这些语言之间在设备端进行转录和翻译。它在 tapWhisper 中使用 Sherpa ONNX 本地高效运行。
Google Gemma 语音音频模型
Gemma Audio 是一个原生端到端的音频到文本模型。它直接处理原始音频波形并输出转录文本,不需要中间的语音转文字步骤。它通过一个常驻的、仅限本地 localhost 的 LiteRT-LM 服务运行。该模型常驻内存,以便在听写期间瞬间重用。
阿里 Qwen 3 格式化模型
Qwen 3 是一系列轻量化、高性能的语言模型(参数量从 0.