tapWhisper पर वापस जाएँ
मॉडल प्रोफ़ाइल

Google Gemma ऑडियो मॉडल

4 संस्करण

तकनीकी विवरण

आकार 4 GB से 12 GB
आर्किटेक्चर मल्टी-मोडल एलएलएम
लेटेंसी कम (एंड-टू-एंड)
भाषा बहुभाषी

डेवलपर / निर्माता

Google DeepMind

डाउनलोड स्रोत

सत्यापित स्रोत रिपॉजिटरी

Hugging Face हब / गूगल मॉडल रजिस्ट्री

मॉडल रिपॉजिटरी खोलें (google/gemma-3)

मॉडल अवलोकन

Gemma Audio एक मूल एंड-टू-एंड ऑडियो-टू-टेक्स्ट मॉडल है। यह सीधे कच्चे ऑडियो तरंगों को संसाधित करता है और बिना किसी मध्यवर्ती स्पीच-टू-टेक्स्ट रूपांतरण के ट्रांसक्रिप्शन टेक्स्ट तैयार करता है। यह एक निरंतर, केवल-स्थानीय localhost LiteRT-LM सर्वर के माध्यम से चलता है। डिक्टेशन सत्रों के दौरान त्वरित पुन: उपयोग के लिए मॉडल मेमोरी में बना रहता है।

उपलब्ध मॉडल संस्करण

मॉडल संस्करण फ़ाइल का आकार रैम उपयोग प्रारूप/क्वांट भाषाएँ विवरण
Gemma 4 E2B 2.41 GB 1.7 GB INT8 (LiteRT) बहुभाषी गूगल जेम्मा 4 ऑडियो-सक्षम लाइटआरटी-एलएम मॉडल। अत्यधिक कुशल एंड-ตู-एंड मॉडल।
Gemma 4 E4B 3.41 GB 3.3 GB INT8 (LiteRT) बहुभाषी उच्च क्षमता वाला गूगल जेम्मा 4 ऑडियो-सक्षम मॉडल। उन्नत भाषा पार्सिंग।
Gemma 4 12B 6.10 GB 12.0 GB INT8 (LiteRT) बहुभाषी सर्वोत्तम सटीकता के लिए बड़ा गूगल जेम्मा 4 ऑडियो-सक्षम मॉडल। उच्च रैम की आवश्यकता।
Gemma 3n 3.40 GB 4.5 GB INT4 (LiteRT) बहुभाषी गूगल जेम्मा 3n ऑडियो-सक्षम मॉडल। संतुलित गति के लिए Int4 क्वांटाइज़्ड संस्करण।