tapWhisper पर वापस जाएँ

मॉडल प्रोफ़ाइल

समर्थित ऑन-डिवाइस मॉडल

tapWhisper को अधिकतम गोपनीयता और प्रदर्शन के लिए पूरी तरह से ऑफ़लाइन and ऑन-डिवाइस चलाने के लिए डिज़ाइन किया गया है। हमारे इंजन द्वारा समर्थित मॉडल देखें।

Apple Inc.
1 संस्करण

macOS पर Apple Speech

Apple Speech, tapWhisper में डिफ़ॉल्ट, शून्य-कॉन्फ़िगरेशन ट्रांसक्रिप्शन इंजन है। यह Apple के मूल Speech फ्रेमवर्क का उपयोग करके पूरी तरह से डिवाइस पर चलता है। यह लगभग शून्य सेटअप समय प्रदान करता है, न्यूनतम सिस्टम रैम का उपयोग करता है, और Apple Silicon (M1/M2/M3/M4) और Intel चिप्स के लिए अत्यधिक अनुकूलित है। चूंकि यह macOS सिस्टम एपीआई का उपयोग करता है, इसलिए इसे मॉडल फाइलों को डाउनलोड करने की आवश्यकता नहीं होती है और यह तुरंत तैयार हो जाता है।

मॉडल विवरण देखें →
OpenAI (मूल वेट्स), GGML / whisper.cpp समुदाय (क्वांटाइज़्ड फ़ाइलें)
16 संस्करण

OpenAI Whisper GGML

Whisper, OpenAI का अत्याधुनिक सामान्य-उद्देश्यीय भाषण पहचान मॉडल है। tapWhisper में, Whisper मॉडल Apple Silicon पर पूर्ण मेटल GPU त्वरण के साथ whisper.

मॉडल विवरण देखें →
Useful Sensors
2 संस्करण

Useful Sensors Moonshine

Moonshine एक अत्यधिक अनुकूलित, कम-विलंबता वाला भाषण पहचान मॉडल है जिसे सीमित संसाधनों वाले उपकरणों पर वास्तविक समय के डिक्टेशन के लिए डिज़ाइन किया गया है। यह छोटे मेमोरी पदचिह्न के साथ काफी तेज़ी से ऑडियो संसाधित करते हुए Whisper मॉडल के समान सटीकता प्राप्त करता है। यह Sherpa ONNX रनटाइम के माध्यम से tapWhisper में स्थानीय रूप से चलता है।

मॉडल विवरण देखें →
NVIDIA (NeMo टीम), Sherpa ONNX समुदाय
1 संस्करण

NVIDIA Parakeet ONNX

NVIDIA का Parakeet अंग्रेजी के लिए अनुकूलित एक अत्याधुनिक स्पीच-टू-टेक्स्ट मॉडल है। यह Sherpa ONNX इंजन के माध्यम से इन-प्रोसेस चलाने के लिए INT8 ONNX प्रारूप में क्वांटाइज़्ड है। यह कोडिंग, व्यवसाय और सामान्य अंग्रेजी डिक्टेशन के लिए अत्यधिक उच्च सटीकता और बिजली जैसी तेज़ गति प्रदान करता है।

मॉडल विवरण देखें →
NVIDIA (NeMo टीम), Sherpa ONNX समुदाय
1 संस्करण

NVIDIA Canary ONNX

NVIDIA का Canary एक उन्नत बहुभाषी स्पीच-टू-टेक्स्ट और अनुवाद मॉडल है। यह अंग्रेजी, स्पेनिश, जर्मन और फ्रांसीसी भाषण पहचान का समर्थन करता है, और डिवाइस पर इन भाषाओं के बीच ट्रांसक्राइब और अनुवाद कर सकता है। यह अत्यधिक दक्षता के साथ Sherpa ONNX का उपयोग करके tapWhisper में स्थानीय रूप से चलता है।

मॉडल विवरण देखें →
Google DeepMind
4 संस्करण

Google Gemma ऑडियो मॉडल

Gemma Audio एक मूल एंड-टू-एंड ऑडियो-टू-टेक्स्ट मॉडल है। यह सीधे कच्चे ऑडियो तरंगों को संसाधित करता है और बिना किसी मध्यवर्ती स्पीच-टू-टेक्स्ट रूपांतरण के ट्रांसक्रिप्शन टेक्स्ट तैयार करता है। यह एक निरंतर, केवल-स्थानीय localhost LiteRT-LM सर्वर के माध्यम से चलता है। डिक्टेशन सत्रों के दौरान त्वरित पुन: उपयोग के लिए मॉडल मेमोरी में बना रहता है।

मॉडल विवरण देखें →
Alibaba Group / llama.cpp समुदाय
4 संस्करण

Alibaba Qwen 3 फ़ॉर्मेटर

Qwen 3 स्थानीय टेक्स्ट फ़ॉर्मेटिंग के लिए उपयोग किए जाने वाले GGUF प्रारूप में हल्के, उच्च-प्रदर्शन भाषा मॉडल (0.

मॉडल विवरण देखें →