tapWhisper — Google Gemma Audio

Especificações

Tamanho 4 GB a 12 GB

Arquitetura LLM Multimodal

Latência Baixa (ponta a ponta)

Idioma Multilíngue

Desenvolvedor / Criador

Google DeepMind

Licença

Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.

Origem de Download

Source Repository

Hugging Face Hub / Registro de modelos do Google

litert-community Gemma 4 & Gemma 3n Mirror

Artefactos exatos do runtime

Visão Geral do Modelo

O Gemma Audio é um modelo nativo de áudio para texto de ponta a ponta. Ele processa ondas sonoras brutas diretamente e produz o texto sem a necessidade de conversões intermediárias. Ele roda via um servidor LiteRT-LM local persistente (localhost). O modelo permanece na memória para uso instantâneo.

Variantes de Modelos Disponíveis

Nome do Modelo	Tamanho do Arquivo	Uso de RAM	Formato/Quant	Idiomas	Descrição
Gemma 3n	3.41 GB	3.8 GB	INT4 (LiteRT)	Multilíngue	Termos de uso da Gemma; conversão LiteRT-LM da comunidade disponível publicamente para download.
Gemma 4 E2B	2.41 GB	1.7 GB	INT8 (LiteRT)	Multilíngue	Modelo Google Gemma 4 áudio LiteRT-LM. Modelo de ponta a ponta altamente eficiente.
Gemma 4 E4B	3.41 GB	3.3 GB	INT8 (LiteRT)	Multilíngue	Modelo Google Gemma 4 áudio de maior capacidade. Análise avançada de linguagem.
Gemma 4 12B	6.10 GB	12.0 GB	INT8 (LiteRT)	Multilíngue	Modelo grande Google Gemma 4 áudio para máxima fidelidade. Requer RAM alta.

Voltar para tapWhisper