Voltar para tapWhisper
Perfil do Modelo

OpenAI Whisper GGML

16 variantes

Especificações

Tamanho 75 MB (Tiny) a 1.5 GB (Large)
Arquitetura Transformer Encoder-Decoder
Latência 1-3s para dictados médios
Idioma 99+ idiomas

Desenvolvedor / Criador

OpenAI (pesos originais), comunidade GGML / whisper.cpp (arquivos quantizados)

Origem de Download

Source Repository

Hugging Face Hub (via gerenciador de downloads do tapWhisper)

Open Repository (ggerganov/whisper.cpp)

Visão Geral do Modelo

O Whisper é o modelo de reconhecimento de voz de uso geral mais avançado da OpenAI. No tapWhisper, os modelos Whisper rodam offline usando whisper.cpp (formato GGML) com aceleração Metal GPU no Apple Silicon. Os usuários podem baixar diferentes tamanhos (Base, Small, Medium, Large) nas configurações. Oferece alta precisão multilingue.

Variantes de Modelos Disponíveis

Nome do Modelo Tamanho do Arquivo Uso de RAM Formato/Quant Idiomas Descrição
Whisper Very Small 74 MB 180 MB Float16 (Full) Multilíngue Velocidade de transcrição mais rápida, menor precisão. Ideal para testes rápidos.
Whisper Very Small Q5 31 MB 110 MB Q5_1 (Quantized) Multilíngue Opção Whisper quantizada mais pequena. Requisito de armazenamento ultra baixo.
Whisper Small 141 MB 300 MB Float16 (Full) Multilíngue Modelo base equilibrado com precisão decente para frases cotidianas simples.
Whisper Small Q5 57 MB 180 MB Q5_1 (Quantized) Multilíngue Modelo base Whisper quantizado. Memória e armazenamento otimizados.
Whisper Medium ⭐ 547 MB 900 MB Q5_0 (Quantized) Multilíngue Melhor relação velocidade/qualidade. Recomendado como modelo offline padrão.
Whisper Very Small (English) 74 MB 180 MB Float16 (Full) Inglês Modelo de ditado apenas em inglês mais rápido. Baixo consumo de recursos.
Whisper Very Small Q5 (English) 31 MB 110 MB Q5_1 (Quantized) Inglês Modelo minúsculo quantizado apenas em inglês. Extremamente leve.
Whisper Small (English) 141 MB 300 MB Float16 (Full) Inglês Modelo base padrão apenas em inglês para ditado padrão.
Whisper Small Q5 (English) 57 MB 180 MB Q5_1 (Quantized) Inglês Modelo base quantizado apenas em inglês. Alta eficiência.
Whisper Standard 465 MB 850 MB Float16 (Full) Multilíngue Modelo padrão. Oferece sólida precisão de reconhecimento para vários idiomas.
Whisper Standard Q5 181 MB 450 MB Q5_1 (Quantized) Multilíngue Modelo pequeno Whisper quantizado. Excelente equilíbrio de tamanho e fidelidade.
Whisper Standard (English) 465 MB 850 MB Float16 (Full) Inglês Modelo padrão apenas em inglês. Ideal para ditado de voz claro em inglês.
Whisper Standard Q5 (English) 181 MB 450 MB Q5_1 (Quantized) Inglês Modelo padrão quantizado apenas em inglês. Alta eficiência de memória.
Whisper Large (legacy) 1.43 GB 2.2 GB Float16 (Full) Multilíngue Modelo grande mais antigo com ampla cobertura de idiomas. Alta precisão, grande pegada.
Whisper Medium HQ 1.51 GB 2.3 GB Float16 (Full) Multilíngue Modelo médio de alta qualidade (arquitetura Turbo). Precisão excepcional.
Whisper Very Big 2.88 GB 4.2 GB Float16 (Full) Multilíngue Máxima precisão geral. Download pesado, processamento mais lento.