tapWhisper — Google Gemma Audio

Especificaciones

Tamaño 4 GB a 12 GB

Arquitectura LLM Multimodal

Latencia Baja (de extremo a extremo)

Idioma Multilingüe

Desarrollador / Creador

Google DeepMind

Licencia

Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.

Origen de Descarga

Source Repository

Hugging Face Hub / Registro de modelos de Google

litert-community Gemma 4 & Gemma 3n Mirror

Archivos exactos del runtime

Descripción del Modelo

Gemma Audio es un modelo nativo de extremo a extremo de audio a texto. Procesa las ondas de audio directamente y genera el texto sin necesidad de un paso intermedio. Funciona mediante un servidor LiteRT-LM persistente local (localhost). El modelo permanece en memoria para una reutilización instantánea.

Variantes de Modelos Disponibles

Nombre del Modelo	Tamaño de Archivo	Uso de RAM	Formato/Cuant	Idiomas	Descripción
Gemma 3n	3.41 GB	3.8 GB	INT4 (LiteRT)	Multilingüe	Términos de uso de Gemma; conversión LiteRT-LM de la comunidad descargable públicamente.
Gemma 4 E2B	2.41 GB	1.7 GB	INT8 (LiteRT)	Multilingüe	Modelo Google Gemma 4 audio LiteRT-LM. Modelo de extremo a extremo altamente eficiente.
Gemma 4 E4B	3.41 GB	3.3 GB	INT8 (LiteRT)	Multilingüe	Modelo Google Gemma 4 audio de mayor capacidad. Procesamiento avanzado de lenguaje.
Gemma 4 12B	6.10 GB	12.0 GB	INT8 (LiteRT)	Multilingüe	Modelo grande Google Gemma 4 audio para máxima fidelidad. Requiere RAM alta.

Volver a tapWhisper