मॉडल प्रोफ़ाइल
समर्थित ऑन-डिवाइस मॉडल
tapWhisper को अधिकतम गोपनीयता और प्रदर्शन के लिए पूरी तरह से ऑफ़लाइन and ऑन-डिवाइस चलाने के लिए डिज़ाइन किया गया है। हमारे इंजन द्वारा समर्थित मॉडल देखें।
macOS पर Apple Speech
Apple Speech, tapWhisper में डिफ़ॉल्ट, शून्य-कॉन्फ़िगरेशन ट्रांसक्रिप्शन इंजन है। यह Apple के मूल Speech फ्रेमवर्क का उपयोग करके पूरी तरह से डिवाइस पर चलता है। यह लगभग शून्य सेटअप समय प्रदान करता है, न्यूनतम सिस्टम रैम का उपयोग करता है, और Apple Silicon (M1/M2/M3/M4) और Intel चिप्स के लिए अत्यधिक अनुकूलित है। चूंकि यह macOS सिस्टम एपीआई का उपयोग करता है, इसलिए इसे मॉडल फाइलों को डाउनलोड करने की आवश्यकता नहीं होती है और यह तुरंत तैयार हो जाता है।
OpenAI Whisper GGML
Whisper, OpenAI का अत्याधुनिक सामान्य-उद्देश्यीय भाषण पहचान मॉडल है। tapWhisper में, Whisper मॉडल Apple Silicon पर पूर्ण मेटल GPU त्वरण के साथ whisper.
Useful Sensors Moonshine
Moonshine एक अत्यधिक अनुकूलित, कम-विलंबता वाला भाषण पहचान मॉडल है जिसे सीमित संसाधनों वाले उपकरणों पर वास्तविक समय के डिक्टेशन के लिए डिज़ाइन किया गया है। यह छोटे मेमोरी पदचिह्न के साथ काफी तेज़ी से ऑडियो संसाधित करते हुए Whisper मॉडल के समान सटीकता प्राप्त करता है। यह Sherpa ONNX रनटाइम के माध्यम से tapWhisper में स्थानीय रूप से चलता है।
NVIDIA Parakeet ONNX
NVIDIA का Parakeet अंग्रेजी के लिए अनुकूलित एक अत्याधुनिक स्पीच-टू-टेक्स्ट मॉडल है। यह Sherpa ONNX इंजन के माध्यम से इन-प्रोसेस चलाने के लिए INT8 ONNX प्रारूप में क्वांटाइज़्ड है। यह कोडिंग, व्यवसाय और सामान्य अंग्रेजी डिक्टेशन के लिए अत्यधिक उच्च सटीकता और बिजली जैसी तेज़ गति प्रदान करता है।
NVIDIA Canary ONNX
NVIDIA का Canary एक उन्नत बहुभाषी स्पीच-टू-टेक्स्ट और अनुवाद मॉडल है। यह अंग्रेजी, स्पेनिश, जर्मन और फ्रांसीसी भाषण पहचान का समर्थन करता है, और डिवाइस पर इन भाषाओं के बीच ट्रांसक्राइब और अनुवाद कर सकता है। यह अत्यधिक दक्षता के साथ Sherpa ONNX का उपयोग करके tapWhisper में स्थानीय रूप से चलता है।
Google Gemma ऑडियो मॉडल
Gemma Audio एक मूल एंड-टू-एंड ऑडियो-टू-टेक्स्ट मॉडल है। यह सीधे कच्चे ऑडियो तरंगों को संसाधित करता है और बिना किसी मध्यवर्ती स्पीच-टू-टेक्स्ट रूपांतरण के ट्रांसक्रिप्शन टेक्स्ट तैयार करता है। यह एक निरंतर, केवल-स्थानीय localhost LiteRT-LM सर्वर के माध्यम से चलता है। डिक्टेशन सत्रों के दौरान त्वरित पुन: उपयोग के लिए मॉडल मेमोरी में बना रहता है।
Alibaba Qwen 3 फ़ॉर्मेटर
Qwen 3 स्थानीय टेक्स्ट फ़ॉर्मेटिंग के लिए उपयोग किए जाने वाले GGUF प्रारूप में हल्के, उच्च-प्रदर्शन भाषा मॉडल (0.