tapWhisper — OpenAI Whisper GGML

Especificaciones

Tamaño 75 MB (Tiny) a 1.5 GB (Large)

Arquitectura Transformer Encoder-Decoder

Latencia 1-3s para dictados promedio

Idioma Más de 99 idiomas

Desarrollador / Creador

OpenAI (pesos originales), comunidad GGML / whisper.cpp (archivos cuantizados)

Licencia

MIT

Origen de Descarga

Source Repository

Hugging Face Hub (a través del descargador de tapWhisper)

ggerganov/whisper.cpp

Archivos exactos del runtime

Descripción del Modelo

Whisper es el modelo de reconocimiento de voz de propósito general más avanzado de OpenAI. En tapWhisper, los modelos Whisper funcionan sin conexión a internet usando whisper.cpp (formato GGML) con aceleración Metal GPU en Apple Silicon. Los usuarios pueden descargar diferentes tamaños (Base, Small, Medium, Large) desde los ajustes. Ofrece una precisión extrema en múltiples idiomas.

Variantes de Modelos Disponibles

Nombre del Modelo	Tamaño de Archivo	Uso de RAM	Formato/Cuant	Idiomas	Descripción
Whisper Very Small	74 MB	180 MB	Float16 (Full)	Multilingüe	Velocidad de transcripción más rápida, menor precisión. Ideal para pruebas rápidas.
Whisper Very Small Q5	31 MB	110 MB	Q5_1 (Quantized)	Multilingüe	Opción Whisper cuantizada más pequeña. Requisito de almacenamiento ultra bajo.
Whisper Small	141 MB	300 MB	Float16 (Full)	Multilingüe	Modelo base equilibrado con precisión decente para frases cotidianas simples.
Whisper Small Q5	57 MB	180 MB	Q5_1 (Quantized)	Multilingüe	Modelo base Whisper cuantizado. Memoria y almacenamiento optimizados.
Whisper Medium ⭐	547 MB	900 MB	Q5_0 (Quantized)	Multilingüe	Mejor relación velocidad/calidad. Recomendado como modelo offline por defecto.
Whisper Very Small (English)	74 MB	180 MB	Float16 (Full)	Inglés	Modelo de dictado solo en inglés más rápido. Bajo consumo de recursos.
Whisper Very Small Q5 (English)	31 MB	110 MB	Q5_1 (Quantized)	Inglés	Modelo diminuto cuantizado solo en inglés. Extremadamente ligero.
Whisper Small (English)	141 MB	300 MB	Float16 (Full)	Inglés	Modelo base estándar solo en inglés para dictado estándar.
Whisper Small Q5 (English)	57 MB	180 MB	Q5_1 (Quantized)	Inglés	Modelo base cuantizado solo en inglés. Alta eficiencia.
Whisper Standard	465 MB	850 MB	Float16 (Full)	Multilingüe	Modelo estándar. Ofrece una sólida precisión para varios idiomas.
Whisper Standard Q5	181 MB	450 MB	Q5_1 (Quantized)	Multilingüe	Modelo pequeño Whisper cuantizado. Excelente equilibrio de tamaño y fidelidad.
Whisper Standard (English)	465 MB	850 MB	Float16 (Full)	Inglés	Modelo estándar solo en inglés. Ideal para dictado de voz en inglés claro.
Whisper Standard Q5 (English)	181 MB	450 MB	Q5_1 (Quantized)	Inglés	Modelo estándar cuantizado solo en inglés. Alta eficiencia de memoria.
Whisper Large (legacy)	1.43 GB	2.2 GB	Float16 (Full)	Multilingüe	Modelo grande más antiguo con amplia cobertura de idiomas. Alta precisión, gran huella.
Whisper Medium HQ	1.51 GB	2.3 GB	Float16 (Full)	Multilingüe	Modelo mediano de alta calidad (arquitectura Turbo). Precisión excepcional.
Whisper Very Big	2.88 GB	4.2 GB	Float16 (Full)	Multilingüe	Máxima precisión general. Descarga pesada, procesamiento más lento.

Volver a tapWhisper