Volver a tapWhisper
Perfil del Modelo

Google Gemma Audio

4 variantes

Especificaciones

Tamaño 4 GB a 12 GB
Arquitectura LLM Multimodal
Latencia Baja (de extremo a extremo)
Idioma Multilingüe

Desarrollador / Creador

Google DeepMind

Origen de Descarga

Source Repository

Hugging Face Hub / Registro de modelos de Google

Open Repository (google/gemma-3)

Descripción del Modelo

Gemma Audio es un modelo nativo de extremo a extremo de audio a texto. Procesa las ondas de audio directamente y genera el texto sin necesidad de un paso intermedio. Funciona mediante un servidor LiteRT-LM persistente local (localhost). El modelo permanece en memoria para una reutilización instantánea.

Variantes de Modelos Disponibles

Nombre del Modelo Tamaño de Archivo Uso de RAM Formato/Cuant Idiomas Descripción
Gemma 4 E2B 2.41 GB 1.7 GB INT8 (LiteRT) Multilingüe Modelo Google Gemma 4 audio LiteRT-LM. Modelo de extremo a extremo altamente eficiente.
Gemma 4 E4B 3.41 GB 3.3 GB INT8 (LiteRT) Multilingüe Modelo Google Gemma 4 audio de mayor capacidad. Procesamiento avanzado de lenguaje.
Gemma 4 12B 6.10 GB 12.0 GB INT8 (LiteRT) Multilingüe Modelo grande Google Gemma 4 audio para máxima fidelidad. Requiere RAM alta.
Gemma 3n 3.40 GB 4.5 GB INT4 (LiteRT) Multilingüe Modelo Google Gemma 3n audio. Versión cuantizada Int4 para velocidad equilibrada.