Volver a tapWhisper
Perfil del Modelo

OpenAI Whisper GGML

16 variantes

Especificaciones

Tamaño 75 MB (Tiny) a 1.5 GB (Large)
Arquitectura Transformer Encoder-Decoder
Latencia 1-3s para dictados promedio
Idioma Más de 99 idiomas

Desarrollador / Creador

OpenAI (pesos originales), comunidad GGML / whisper.cpp (archivos cuantizados)

Origen de Descarga

Source Repository

Hugging Face Hub (a través del descargador de tapWhisper)

Open Repository (ggerganov/whisper.cpp)

Descripción del Modelo

Whisper es el modelo de reconocimiento de voz de propósito general más avanzado de OpenAI. En tapWhisper, los modelos Whisper funcionan sin conexión a internet usando whisper.cpp (formato GGML) con aceleración Metal GPU en Apple Silicon. Los usuarios pueden descargar diferentes tamaños (Base, Small, Medium, Large) desde los ajustes. Ofrece una precisión extrema en múltiples idiomas.

Variantes de Modelos Disponibles

Nombre del Modelo Tamaño de Archivo Uso de RAM Formato/Cuant Idiomas Descripción
Whisper Very Small 74 MB 180 MB Float16 (Full) Multilingüe Velocidad de transcripción más rápida, menor precisión. Ideal para pruebas rápidas.
Whisper Very Small Q5 31 MB 110 MB Q5_1 (Quantized) Multilingüe Opción Whisper cuantizada más pequeña. Requisito de almacenamiento ultra bajo.
Whisper Small 141 MB 300 MB Float16 (Full) Multilingüe Modelo base equilibrado con precisión decente para frases cotidianas simples.
Whisper Small Q5 57 MB 180 MB Q5_1 (Quantized) Multilingüe Modelo base Whisper cuantizado. Memoria y almacenamiento optimizados.
Whisper Medium ⭐ 547 MB 900 MB Q5_0 (Quantized) Multilingüe Mejor relación velocidad/calidad. Recomendado como modelo offline por defecto.
Whisper Very Small (English) 74 MB 180 MB Float16 (Full) Inglés Modelo de dictado solo en inglés más rápido. Bajo consumo de recursos.
Whisper Very Small Q5 (English) 31 MB 110 MB Q5_1 (Quantized) Inglés Modelo diminuto cuantizado solo en inglés. Extremadamente ligero.
Whisper Small (English) 141 MB 300 MB Float16 (Full) Inglés Modelo base estándar solo en inglés para dictado estándar.
Whisper Small Q5 (English) 57 MB 180 MB Q5_1 (Quantized) Inglés Modelo base cuantizado solo en inglés. Alta eficiencia.
Whisper Standard 465 MB 850 MB Float16 (Full) Multilingüe Modelo estándar. Ofrece una sólida precisión para varios idiomas.
Whisper Standard Q5 181 MB 450 MB Q5_1 (Quantized) Multilingüe Modelo pequeño Whisper cuantizado. Excelente equilibrio de tamaño y fidelidad.
Whisper Standard (English) 465 MB 850 MB Float16 (Full) Inglés Modelo estándar solo en inglés. Ideal para dictado de voz en inglés claro.
Whisper Standard Q5 (English) 181 MB 450 MB Q5_1 (Quantized) Inglés Modelo estándar cuantizado solo en inglés. Alta eficiencia de memoria.
Whisper Large (legacy) 1.43 GB 2.2 GB Float16 (Full) Multilingüe Modelo grande más antiguo con amplia cobertura de idiomas. Alta precisión, gran huella.
Whisper Medium HQ 1.51 GB 2.3 GB Float16 (Full) Multilingüe Modelo mediano de alta calidad (arquitectura Turbo). Precisión excepcional.
Whisper Very Big 2.88 GB 4.2 GB Float16 (Full) Multilingüe Máxima precisión general. Descarga pesada, procesamiento más lento.