Especificaciones
Tamaño
75 MB (Tiny) a 1.5 GB (Large)
Arquitectura
Transformer Encoder-Decoder
Latencia
1-3s para dictados promedio
Idioma
Más de 99 idiomas
Desarrollador / Creador
OpenAI (pesos originales), comunidad GGML / whisper.cpp (archivos cuantizados)
Origen de Descarga
Source Repository
Hugging Face Hub (a través del descargador de tapWhisper)
Open Repository (ggerganov/whisper.cpp)Descripción del Modelo
Whisper es el modelo de reconocimiento de voz de propósito general más avanzado de OpenAI. En tapWhisper, los modelos Whisper funcionan sin conexión a internet usando whisper.cpp (formato GGML) con aceleración Metal GPU en Apple Silicon. Los usuarios pueden descargar diferentes tamaños (Base, Small, Medium, Large) desde los ajustes. Ofrece una precisión extrema en múltiples idiomas.
Variantes de Modelos Disponibles
| Nombre del Modelo | Tamaño de Archivo | Uso de RAM | Formato/Cuant | Idiomas | Descripción |
|---|---|---|---|---|---|
| Whisper Very Small | 74 MB | 180 MB | Float16 (Full) | Multilingüe | Velocidad de transcripción más rápida, menor precisión. Ideal para pruebas rápidas. |
| Whisper Very Small Q5 | 31 MB | 110 MB | Q5_1 (Quantized) | Multilingüe | Opción Whisper cuantizada más pequeña. Requisito de almacenamiento ultra bajo. |
| Whisper Small | 141 MB | 300 MB | Float16 (Full) | Multilingüe | Modelo base equilibrado con precisión decente para frases cotidianas simples. |
| Whisper Small Q5 | 57 MB | 180 MB | Q5_1 (Quantized) | Multilingüe | Modelo base Whisper cuantizado. Memoria y almacenamiento optimizados. |
| Whisper Medium ⭐ | 547 MB | 900 MB | Q5_0 (Quantized) | Multilingüe | Mejor relación velocidad/calidad. Recomendado como modelo offline por defecto. |
| Whisper Very Small (English) | 74 MB | 180 MB | Float16 (Full) | Inglés | Modelo de dictado solo en inglés más rápido. Bajo consumo de recursos. |
| Whisper Very Small Q5 (English) | 31 MB | 110 MB | Q5_1 (Quantized) | Inglés | Modelo diminuto cuantizado solo en inglés. Extremadamente ligero. |
| Whisper Small (English) | 141 MB | 300 MB | Float16 (Full) | Inglés | Modelo base estándar solo en inglés para dictado estándar. |
| Whisper Small Q5 (English) | 57 MB | 180 MB | Q5_1 (Quantized) | Inglés | Modelo base cuantizado solo en inglés. Alta eficiencia. |
| Whisper Standard | 465 MB | 850 MB | Float16 (Full) | Multilingüe | Modelo estándar. Ofrece una sólida precisión para varios idiomas. |
| Whisper Standard Q5 | 181 MB | 450 MB | Q5_1 (Quantized) | Multilingüe | Modelo pequeño Whisper cuantizado. Excelente equilibrio de tamaño y fidelidad. |
| Whisper Standard (English) | 465 MB | 850 MB | Float16 (Full) | Inglés | Modelo estándar solo en inglés. Ideal para dictado de voz en inglés claro. |
| Whisper Standard Q5 (English) | 181 MB | 450 MB | Q5_1 (Quantized) | Inglés | Modelo estándar cuantizado solo en inglés. Alta eficiencia de memoria. |
| Whisper Large (legacy) | 1.43 GB | 2.2 GB | Float16 (Full) | Multilingüe | Modelo grande más antiguo con amplia cobertura de idiomas. Alta precisión, gran huella. |
| Whisper Medium HQ | 1.51 GB | 2.3 GB | Float16 (Full) | Multilingüe | Modelo mediano de alta calidad (arquitectura Turbo). Precisión excepcional. |
| Whisper Very Big | 2.88 GB | 4.2 GB | Float16 (Full) | Multilingüe | Máxima precisión general. Descarga pesada, procesamiento más lento. |