Especificaciones
Tamaño
4 GB a 12 GB
Arquitectura
LLM Multimodal
Latencia
Baja (de extremo a extremo)
Idioma
Multilingüe
Desarrollador / Creador
Google DeepMind
Origen de Descarga
Descripción del Modelo
Gemma Audio es un modelo nativo de extremo a extremo de audio a texto. Procesa las ondas de audio directamente y genera el texto sin necesidad de un paso intermedio. Funciona mediante un servidor LiteRT-LM persistente local (localhost). El modelo permanece en memoria para una reutilización instantánea.
Variantes de Modelos Disponibles
| Nombre del Modelo | Tamaño de Archivo | Uso de RAM | Formato/Cuant | Idiomas | Descripción |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2.41 GB | 1.7 GB | INT8 (LiteRT) | Multilingüe | Modelo Google Gemma 4 audio LiteRT-LM. Modelo de extremo a extremo altamente eficiente. |
| Gemma 4 E4B | 3.41 GB | 3.3 GB | INT8 (LiteRT) | Multilingüe | Modelo Google Gemma 4 audio de mayor capacidad. Procesamiento avanzado de lenguaje. |
| Gemma 4 12B | 6.10 GB | 12.0 GB | INT8 (LiteRT) | Multilingüe | Modelo grande Google Gemma 4 audio para máxima fidelidad. Requiere RAM alta. |
| Gemma 3n | 3.40 GB | 4.5 GB | INT4 (LiteRT) | Multilingüe | Modelo Google Gemma 3n audio. Versión cuantizada Int4 para velocidad equilibrada. |