Especificações
Tamanho
75 MB (Tiny) a 1.5 GB (Large)
Arquitetura
Transformer Encoder-Decoder
Latência
1-3s para dictados médios
Idioma
99+ idiomas
Desenvolvedor / Criador
OpenAI (pesos originais), comunidade GGML / whisper.cpp (arquivos quantizados)
Origem de Download
Source Repository
Hugging Face Hub (via gerenciador de downloads do tapWhisper)
Open Repository (ggerganov/whisper.cpp)Visão Geral do Modelo
O Whisper é o modelo de reconhecimento de voz de uso geral mais avançado da OpenAI. No tapWhisper, os modelos Whisper rodam offline usando whisper.cpp (formato GGML) com aceleração Metal GPU no Apple Silicon. Os usuários podem baixar diferentes tamanhos (Base, Small, Medium, Large) nas configurações. Oferece alta precisão multilingue.
Variantes de Modelos Disponíveis
| Nome do Modelo | Tamanho do Arquivo | Uso de RAM | Formato/Quant | Idiomas | Descrição |
|---|---|---|---|---|---|
| Whisper Very Small | 74 MB | 180 MB | Float16 (Full) | Multilíngue | Velocidade de transcrição mais rápida, menor precisão. Ideal para testes rápidos. |
| Whisper Very Small Q5 | 31 MB | 110 MB | Q5_1 (Quantized) | Multilíngue | Opção Whisper quantizada mais pequena. Requisito de armazenamento ultra baixo. |
| Whisper Small | 141 MB | 300 MB | Float16 (Full) | Multilíngue | Modelo base equilibrado com precisão decente para frases cotidianas simples. |
| Whisper Small Q5 | 57 MB | 180 MB | Q5_1 (Quantized) | Multilíngue | Modelo base Whisper quantizado. Memória e armazenamento otimizados. |
| Whisper Medium ⭐ | 547 MB | 900 MB | Q5_0 (Quantized) | Multilíngue | Melhor relação velocidade/qualidade. Recomendado como modelo offline padrão. |
| Whisper Very Small (English) | 74 MB | 180 MB | Float16 (Full) | Inglês | Modelo de ditado apenas em inglês mais rápido. Baixo consumo de recursos. |
| Whisper Very Small Q5 (English) | 31 MB | 110 MB | Q5_1 (Quantized) | Inglês | Modelo minúsculo quantizado apenas em inglês. Extremamente leve. |
| Whisper Small (English) | 141 MB | 300 MB | Float16 (Full) | Inglês | Modelo base padrão apenas em inglês para ditado padrão. |
| Whisper Small Q5 (English) | 57 MB | 180 MB | Q5_1 (Quantized) | Inglês | Modelo base quantizado apenas em inglês. Alta eficiência. |
| Whisper Standard | 465 MB | 850 MB | Float16 (Full) | Multilíngue | Modelo padrão. Oferece sólida precisão de reconhecimento para vários idiomas. |
| Whisper Standard Q5 | 181 MB | 450 MB | Q5_1 (Quantized) | Multilíngue | Modelo pequeno Whisper quantizado. Excelente equilíbrio de tamanho e fidelidade. |
| Whisper Standard (English) | 465 MB | 850 MB | Float16 (Full) | Inglês | Modelo padrão apenas em inglês. Ideal para ditado de voz claro em inglês. |
| Whisper Standard Q5 (English) | 181 MB | 450 MB | Q5_1 (Quantized) | Inglês | Modelo padrão quantizado apenas em inglês. Alta eficiência de memória. |
| Whisper Large (legacy) | 1.43 GB | 2.2 GB | Float16 (Full) | Multilíngue | Modelo grande mais antigo com ampla cobertura de idiomas. Alta precisão, grande pegada. |
| Whisper Medium HQ | 1.51 GB | 2.3 GB | Float16 (Full) | Multilíngue | Modelo médio de alta qualidade (arquitetura Turbo). Precisão excepcional. |
| Whisper Very Big | 2.88 GB | 4.2 GB | Float16 (Full) | Multilíngue | Máxima precisão geral. Download pesado, processamento mais lento. |