Especificações
Tamanho
4 GB a 12 GB
Arquitetura
LLM Multimodal
Latência
Baixa (ponta a ponta)
Idioma
Multilíngue
Desenvolvedor / Criador
Google DeepMind
Origem de Download
Visão Geral do Modelo
O Gemma Audio é um modelo nativo de áudio para texto de ponta a ponta. Ele processa ondas sonoras brutas diretamente e produz o texto sem a necessidade de conversões intermediárias. Ele roda via um servidor LiteRT-LM local persistente (localhost). O modelo permanece na memória para uso instantâneo.
Variantes de Modelos Disponíveis
| Nome do Modelo | Tamanho do Arquivo | Uso de RAM | Formato/Quant | Idiomas | Descrição |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2.41 GB | 1.7 GB | INT8 (LiteRT) | Multilíngue | Modelo Google Gemma 4 áudio LiteRT-LM. Modelo de ponta a ponta altamente eficiente. |
| Gemma 4 E4B | 3.41 GB | 3.3 GB | INT8 (LiteRT) | Multilíngue | Modelo Google Gemma 4 áudio de maior capacidade. Análise avançada de linguagem. |
| Gemma 4 12B | 6.10 GB | 12.0 GB | INT8 (LiteRT) | Multilíngue | Modelo grande Google Gemma 4 áudio para máxima fidelidade. Requer RAM alta. |
| Gemma 3n | 3.40 GB | 4.5 GB | INT4 (LiteRT) | Multilíngue | Modelo Google Gemma 3n áudio. Versão quantizada Int4 para velocidade equilibrada. |