tapWhisper — Google Gemma ऑडियो मॉडल

तकनीकी विवरण

आकार 4 GB से 12 GB

आर्किटेक्चर मल्टी-मोडल एलएलएम

लेटेंसी कम (एंड-टू-एंड)

भाषा बहुभाषी

डेवलपर / निर्माता

Google DeepMind

लाइसेंस

Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.

डाउनलोड स्रोत

सत्यापित स्रोत रिपॉजिटरी

Hugging Face हब / गूगल मॉडल रजिस्ट्री

litert-community Gemma 4 & Gemma 3n Mirror

सटीक रनटाइम फ़ाइलें

मॉडल अवलोकन

Gemma Audio एक मूल एंड-टू-एंड ऑडियो-टू-टेक्स्ट मॉडल है। यह सीधे कच्चे ऑडियो तरंगों को संसाधित करता है और बिना किसी मध्यवर्ती स्पीच-टू-टेक्स्ट रूपांतरण के ट्रांसक्रिप्शन टेक्स्ट तैयार करता है। यह एक निरंतर, केवल-स्थानीय localhost LiteRT-LM सर्वर के माध्यम से चलता है। डिक्टेशन सत्रों के दौरान त्वरित पुन: उपयोग के लिए मॉडल मेमोरी में बना रहता है।

उपलब्ध मॉडल संस्करण

मॉडल संस्करण	फ़ाइल का आकार	रैम उपयोग	प्रारूप/क्वांट	भाषाएँ	विवरण
Gemma 3n	3.41 GB	3.8 GB	INT4 (LiteRT)	बहुभाषी	जेम्मा उपयोग की शर्तें; सार्वजनिक रूप से डाउनलोड करने योग्य सामुदायिक LiteRT-LM रूपांतरण।
Gemma 4 E2B	2.41 GB	1.7 GB	INT8 (LiteRT)	बहुभाषी	गूगल जेम्मा 4 ऑडियो-सक्षम लाइटआरटी-एलएम मॉडल। अत्यधिक कुशल एंड-ตู-एंड मॉडल।
Gemma 4 E4B	3.41 GB	3.3 GB	INT8 (LiteRT)	बहुभाषी	उच्च क्षमता वाला गूगल जेम्मा 4 ऑडियो-सक्षम मॉडल। उन्नत भाषा पार्सिंग।
Gemma 4 12B	6.10 GB	12.0 GB	INT8 (LiteRT)	बहुभाषी	सर्वोत्तम सटीकता के लिए बड़ा गूगल जेम्मा 4 ऑडियो-सक्षम मॉडल। उच्च रैम की आवश्यकता।

tapWhisper पर वापस जाएँ