तकनीकी विवरण
आकार
4 GB से 12 GB
आर्किटेक्चर
मल्टी-मोडल एलएलएम
लेटेंसी
कम (एंड-टू-एंड)
भाषा
बहुभाषी
डेवलपर / निर्माता
Google DeepMind
डाउनलोड स्रोत
सत्यापित स्रोत रिपॉजिटरी
Hugging Face हब / गूगल मॉडल रजिस्ट्री
मॉडल रिपॉजिटरी खोलें (google/gemma-3)मॉडल अवलोकन
Gemma Audio एक मूल एंड-टू-एंड ऑडियो-टू-टेक्स्ट मॉडल है। यह सीधे कच्चे ऑडियो तरंगों को संसाधित करता है और बिना किसी मध्यवर्ती स्पीच-टू-टेक्स्ट रूपांतरण के ट्रांसक्रिप्शन टेक्स्ट तैयार करता है। यह एक निरंतर, केवल-स्थानीय localhost LiteRT-LM सर्वर के माध्यम से चलता है। डिक्टेशन सत्रों के दौरान त्वरित पुन: उपयोग के लिए मॉडल मेमोरी में बना रहता है।
उपलब्ध मॉडल संस्करण
| मॉडल संस्करण | फ़ाइल का आकार | रैम उपयोग | प्रारूप/क्वांट | भाषाएँ | विवरण |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2.41 GB | 1.7 GB | INT8 (LiteRT) | बहुभाषी | गूगल जेम्मा 4 ऑडियो-सक्षम लाइटआरटी-एलएम मॉडल। अत्यधिक कुशल एंड-ตู-एंड मॉडल। |
| Gemma 4 E4B | 3.41 GB | 3.3 GB | INT8 (LiteRT) | बहुभाषी | उच्च क्षमता वाला गूगल जेम्मा 4 ऑडियो-सक्षम मॉडल। उन्नत भाषा पार्सिंग। |
| Gemma 4 12B | 6.10 GB | 12.0 GB | INT8 (LiteRT) | बहुभाषी | सर्वोत्तम सटीकता के लिए बड़ा गूगल जेम्मा 4 ऑडियो-सक्षम मॉडल। उच्च रैम की आवश्यकता। |
| Gemma 3n | 3.40 GB | 4.5 GB | INT4 (LiteRT) | बहुभाषी | गूगल जेम्मा 3n ऑडियो-सक्षम मॉडल। संतुलित गति के लिए Int4 क्वांटाइज़्ड संस्करण। |