Spécifications
Taille
4 Go à 12 Go
Architecture
LLM Multimodal
Latence
Basse (de bout en bout)
Langue
Multilingue
Développeur / Créateur
Google DeepMind
Source de Téléchargement
Aperçu du Modèle
Gemma Audio est un modèle natif de bout en bout de l'audio au texte. Il traite directement les ondes audio brutes et génère le texte de transcription sans étape intermédiaire. Il fonctionne via un serveur local LiteRT-LM persistant (localhost). Le modèle reste en mémoire pour une réutilisation instantanée.
Variantes de Modèles Disponibles
| Nom du Modèle | Taille du Fichier | Mémoire RAM | Format/Quant | Langues | Description |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2.41 GB | 1.7 GB | INT8 (LiteRT) | Multilingue | Modèle Google Gemma 4 audio LiteRT-LM. Modèle de bout en bout hautement efficace. |
| Gemma 4 E4B | 3.41 GB | 3.3 GB | INT8 (LiteRT) | Multilingue | Modèle Google Gemma 4 audio de plus grande capacité. Analyse linguistique avancée. |
| Gemma 4 12B | 6.10 GB | 12.0 GB | INT8 (LiteRT) | Multilingue | Grand modèle Google Gemma 4 audio pour une fidélité ultime. Nécessite beaucoup de RAM. |
| Gemma 3n | 3.40 GB | 4.5 GB | INT4 (LiteRT) | Multilingue | Modèle Google Gemma 3n audio. Version quantifiée Int4 pour une vitesse équilibrée. |