tapWhisper — OpenAI Whisper GGML

Especificações

Tamanho 75 MB (Tiny) a 1.5 GB (Large)

Arquitetura Transformer Encoder-Decoder

Latência 1-3s para dictados médios

Idioma 99+ idiomas

Desenvolvedor / Criador

OpenAI (pesos originais), comunidade GGML / whisper.cpp (arquivos quantizados)

Licença

MIT

Origem de Download

Source Repository

Hugging Face Hub (via gerenciador de downloads do tapWhisper)

ggerganov/whisper.cpp

Artefactos exatos do runtime

Visão Geral do Modelo

O Whisper é o modelo de reconhecimento de voz de uso geral mais avançado da OpenAI. No tapWhisper, os modelos Whisper rodam offline usando whisper.cpp (formato GGML) com aceleração Metal GPU no Apple Silicon. Os usuários podem baixar diferentes tamanhos (Base, Small, Medium, Large) nas configurações. Oferece alta precisão multilingue.

Variantes de Modelos Disponíveis

Nome do Modelo	Tamanho do Arquivo	Uso de RAM	Formato/Quant	Idiomas	Descrição
Whisper Very Small	74 MB	180 MB	Float16 (Full)	Multilíngue	Velocidade de transcrição mais rápida, menor precisão. Ideal para testes rápidos.
Whisper Very Small Q5	31 MB	110 MB	Q5_1 (Quantized)	Multilíngue	Opção Whisper quantizada mais pequena. Requisito de armazenamento ultra baixo.
Whisper Small	141 MB	300 MB	Float16 (Full)	Multilíngue	Modelo base equilibrado com precisão decente para frases cotidianas simples.
Whisper Small Q5	57 MB	180 MB	Q5_1 (Quantized)	Multilíngue	Modelo base Whisper quantizado. Memória e armazenamento otimizados.
Whisper Medium ⭐	547 MB	900 MB	Q5_0 (Quantized)	Multilíngue	Melhor relação velocidade/qualidade. Recomendado como modelo offline padrão.
Whisper Very Small (English)	74 MB	180 MB	Float16 (Full)	Inglês	Modelo de ditado apenas em inglês mais rápido. Baixo consumo de recursos.
Whisper Very Small Q5 (English)	31 MB	110 MB	Q5_1 (Quantized)	Inglês	Modelo minúsculo quantizado apenas em inglês. Extremamente leve.
Whisper Small (English)	141 MB	300 MB	Float16 (Full)	Inglês	Modelo base padrão apenas em inglês para ditado padrão.
Whisper Small Q5 (English)	57 MB	180 MB	Q5_1 (Quantized)	Inglês	Modelo base quantizado apenas em inglês. Alta eficiência.
Whisper Standard	465 MB	850 MB	Float16 (Full)	Multilíngue	Modelo padrão. Oferece sólida precisão de reconhecimento para vários idiomas.
Whisper Standard Q5	181 MB	450 MB	Q5_1 (Quantized)	Multilíngue	Modelo pequeno Whisper quantizado. Excelente equilíbrio de tamanho e fidelidade.
Whisper Standard (English)	465 MB	850 MB	Float16 (Full)	Inglês	Modelo padrão apenas em inglês. Ideal para ditado de voz claro em inglês.
Whisper Standard Q5 (English)	181 MB	450 MB	Q5_1 (Quantized)	Inglês	Modelo padrão quantizado apenas em inglês. Alta eficiência de memória.
Whisper Large (legacy)	1.43 GB	2.2 GB	Float16 (Full)	Multilíngue	Modelo grande mais antigo com ampla cobertura de idiomas. Alta precisão, grande pegada.
Whisper Medium HQ	1.51 GB	2.3 GB	Float16 (Full)	Multilíngue	Modelo médio de alta qualidade (arquitetura Turbo). Precisão excepcional.
Whisper Very Big	2.88 GB	4.2 GB	Float16 (Full)	Multilíngue	Máxima precisão geral. Download pesado, processamento mais lento.

Voltar para tapWhisper