Retour à tapWhisper
Profil du Modèle

Google Gemma Audio

4 variantes

Spécifications

Taille 4 Go à 12 Go
Architecture LLM Multimodal
Latence Basse (de bout en bout)
Langue Multilingue

Développeur / Créateur

Google DeepMind

Source de Téléchargement

Source Repository

Hugging Face Hub / Registre de modèles Google

Open Repository (google/gemma-3)

Aperçu du Modèle

Gemma Audio est un modèle natif de bout en bout de l'audio au texte. Il traite directement les ondes audio brutes et génère le texte de transcription sans étape intermédiaire. Il fonctionne via un serveur local LiteRT-LM persistant (localhost). Le modèle reste en mémoire pour une réutilisation instantanée.

Variantes de Modèles Disponibles

Nom du Modèle Taille du Fichier Mémoire RAM Format/Quant Langues Description
Gemma 4 E2B 2.41 GB 1.7 GB INT8 (LiteRT) Multilingue Modèle Google Gemma 4 audio LiteRT-LM. Modèle de bout en bout hautement efficace.
Gemma 4 E4B 3.41 GB 3.3 GB INT8 (LiteRT) Multilingue Modèle Google Gemma 4 audio de plus grande capacité. Analyse linguistique avancée.
Gemma 4 12B 6.10 GB 12.0 GB INT8 (LiteRT) Multilingue Grand modèle Google Gemma 4 audio pour une fidélité ultime. Nécessite beaucoup de RAM.
Gemma 3n 3.40 GB 4.5 GB INT4 (LiteRT) Multilingue Modèle Google Gemma 3n audio. Version quantifiée Int4 pour une vitesse équilibrée.