तकनीकी विवरण
आकार
75 MB (Tiny) से 1.5 GB (Large)
आर्किटेक्चर
ट्रांसफार्मर एनकोडर-डिकोडर
लेटेंसी
औसत डिक्टेशन के लिए 1-3s
भाषा
99+ भाषाएँ
डेवलपर / निर्माता
OpenAI (मूल वेट्स), GGML / whisper.cpp समुदाय (क्वांटाइज़्ड फ़ाइलें)
डाउनलोड स्रोत
सत्यापित स्रोत रिपॉजिटरी
Hugging Face हब (tapWhisper डाउनलोडर के माध्यम से)
मॉडल रिपॉजिटरी खोलें (ggerganov/whisper.cpp)मॉडल अवलोकन
Whisper, OpenAI का अत्याधुनिक सामान्य-उद्देश्यीय भाषण पहचान मॉडल है। tapWhisper में, Whisper मॉडल Apple Silicon पर पूर्ण मेटल GPU त्वरण के साथ whisper.cpp (GGML प्रारूप) का उपयोग करके ऑफ़लाइन चलते हैं। उपयोगकर्ता सेटिंग्स से विभिन्न आकारों (Base, Small, Medium, Large) को डाउनलोड कर सकते हैं। यह अत्यधिक बहुभाषी सटीकता प्रदान करता है और इसमें कस्टम शब्दावली शामिल है।
उपलब्ध मॉडल संस्करण
| मॉडल संस्करण | फ़ाइल का आकार | रैम उपयोग | प्रारूप/क्वांट | भाषाएँ | विवरण |
|---|---|---|---|---|---|
| Whisper Very Small | 74 MB | 180 MB | Float16 (Full) | बहुभाषी | सबसे तेज़ ट्रांसक्रिप्शन गति, कम सटीकता। त्वरित परीक्षण के लिए आदर्श। |
| Whisper Very Small Q5 | 31 MB | 110 MB | Q5_1 (Quantized) | बहुभाषी | सबसे छोटा क्वांटाइज़्ड Whisper विकल्प। बेहद कम स्टोरेज की आवश्यकता। |
| Whisper Small | 141 MB | 300 MB | Float16 (Full) | बहुभाषी | सरल दैनिक वाक्यों के लिए ठीक-ठाक सटीकता वाला संतुलित बेस मॉडल। |
| Whisper Small Q5 | 57 MB | 180 MB | Q5_1 (Quantized) | बहुभाषी | क्वांटाइज़्ड Whisper बेस मॉडल। अनुकूलित मेमोरी और स्टोरेज उपयोग। |
| Whisper Medium ⭐ | 547 MB | 900 MB | Q5_0 (Quantized) | बहुभाषी | सर्वोत्तम गति-से-गुणवत्ता अनुपात। डिफ़ॉल्ट ऑफ़लाइन मॉडल के रूप में अनुशंसित। |
| Whisper Very Small (English) | 74 MB | 180 MB | Float16 (Full) | अंग्रेजी | सबसे तेज़ केवल-अंग्रेज़ी डिक्टेशन मॉडल। कम संसाधन खपत। |
| Whisper Very Small Q5 (English) | 31 MB | 110 MB | Q5_1 (Quantized) | अंग्रेजी | क्वांटाइज़्ड केवल-अंग्रेज़ी छोटा मॉडल। बेहद हल्का। |
| Whisper Small (English) | 141 MB | 300 MB | Float16 (Full) | अंग्रेजी | मानक डिक्टेशन के लिए मानक केवल-अंग्रेज़ी बेस मॉडल। |
| Whisper Small Q5 (English) | 57 MB | 180 MB | Q5_1 (Quantized) | अंग्रेजी | क्वांटाइज़्ड केवल-अंग्रेज़ी बेस मॉडल। उच्च दक्षता। |
| Whisper Standard | 465 MB | 850 MB | Float16 (Full) | बहुभाषी | मानक मॉडल। कई भाषाओं के लिए ठोस पहचान सटीकता प्रदान करता है। |
| Whisper Standard Q5 | 181 MB | 450 MB | Q5_1 (Quantized) | बहुभाषी | क्वांटाइज़्ड Whisper छोटा मॉडल。आकार और सटीकता का उत्कृष्ट संतुलन। |
| Whisper Standard (English) | 465 MB | 850 MB | Float16 (Full) | अंग्रेजी | मानक केवल-अंग्रेज़ी मॉडल। स्पष्ट अंग्रेज़ी भाषण डिक्टेशन के लिए आदर्श। |
| Whisper Standard Q5 (English) | 181 MB | 450 MB | Q5_1 (Quantized) | अंग्रेजी | क्वांटाइज़्ड केवल-अंग्रेज़ी मानक मॉडल। उच्च मेमोरी दक्षता। |
| Whisper Large (legacy) | 1.43 GB | 2.2 GB | Float16 (Full) | बहुभाषी | व्यापक भाषा कवरेज वाला पुराना बड़ा मॉडल। उच्च सटीकता, भारी फ़ुटप्रिंट। |
| Whisper Medium HQ | 1.51 GB | 2.3 GB | Float16 (Full) | बहुभाषी | उच्च गुणवत्ता वाला मध्यम मॉडल (टर्बो आर्किटेक्चर)। उत्कृष्ट सटीकता। |
| Whisper Very Big | 2.88 GB | 4.2 GB | Float16 (Full) | बहुभाषी | अधिकतम सामान्य सटीकता। भारी डाउनलोड, धीमी प्रोसेसिंग गति। |