tapWhisper — Google Gemma Audio

Spécifications

Taille 4 Go à 12 Go

Architecture LLM Multimodal

Latence Basse (de bout en bout)

Langue Multilingue

Développeur / Créateur

Google DeepMind

Licence

Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.

Source de Téléchargement

Source Repository

Hugging Face Hub / Registre de modèles Google

litert-community Gemma 4 & Gemma 3n Mirror

Fichiers runtime exacts

Aperçu du Modèle

Gemma Audio est un modèle natif de bout en bout de l'audio au texte. Il traite directement les ondes audio brutes et génère le texte de transcription sans étape intermédiaire. Il fonctionne via un serveur local LiteRT-LM persistant (localhost). Le modèle reste en mémoire pour une réutilisation instantanée.

Variantes de Modèles Disponibles

Nom du Modèle	Taille du Fichier	Mémoire RAM	Format/Quant	Langues	Description
Gemma 3n	3.41 GB	3.8 GB	INT4 (LiteRT)	Multilingue	Conditions d'utilisation de Gemma ; conversion LiteRT-LM de la communauté téléchargeable publiquement.
Gemma 4 E2B	2.41 GB	1.7 GB	INT8 (LiteRT)	Multilingue	Modèle Google Gemma 4 audio LiteRT-LM. Modèle de bout en bout hautement efficace.
Gemma 4 E4B	3.41 GB	3.3 GB	INT8 (LiteRT)	Multilingue	Modèle Google Gemma 4 audio de plus grande capacité. Analyse linguistique avancée.
Gemma 4 12B	6.10 GB	12.0 GB	INT8 (LiteRT)	Multilingue	Grand modèle Google Gemma 4 audio pour une fidélité ultime. Nécessite beaucoup de RAM.

Retour à tapWhisper