Voltar para tapWhisper
Perfil do Modelo

Google Gemma Audio

4 variantes

Especificações

Tamanho 4 GB a 12 GB
Arquitetura LLM Multimodal
Latência Baixa (ponta a ponta)
Idioma Multilíngue

Desenvolvedor / Criador

Google DeepMind

Origem de Download

Source Repository

Hugging Face Hub / Registro de modelos do Google

Open Repository (google/gemma-3)

Visão Geral do Modelo

O Gemma Audio é um modelo nativo de áudio para texto de ponta a ponta. Ele processa ondas sonoras brutas diretamente e produz o texto sem a necessidade de conversões intermediárias. Ele roda via um servidor LiteRT-LM local persistente (localhost). O modelo permanece na memória para uso instantâneo.

Variantes de Modelos Disponíveis

Nome do Modelo Tamanho do Arquivo Uso de RAM Formato/Quant Idiomas Descrição
Gemma 4 E2B 2.41 GB 1.7 GB INT8 (LiteRT) Multilíngue Modelo Google Gemma 4 áudio LiteRT-LM. Modelo de ponta a ponta altamente eficiente.
Gemma 4 E4B 3.41 GB 3.3 GB INT8 (LiteRT) Multilíngue Modelo Google Gemma 4 áudio de maior capacidade. Análise avançada de linguagem.
Gemma 4 12B 6.10 GB 12.0 GB INT8 (LiteRT) Multilíngue Modelo grande Google Gemma 4 áudio para máxima fidelidade. Requer RAM alta.
Gemma 3n 3.40 GB 4.5 GB INT4 (LiteRT) Multilíngue Modelo Google Gemma 3n áudio. Versão quantizada Int4 para velocidade equilibrada.