tapWhisper-এ ফিরে যান

মডেল প্রোফাইল

অন-ডিভাইস সমর্থিত মডেলসমূহ

tapWhisper সর্বোচ্চ প্রাইভেসী এবং পারফরম্যান্সের জন্য সম্পূর্ণ অফলাইন এবং অন-ডিভাইসে চলার জন্য ডিজাইন করা হয়েছে। সমর্থিত মডেলসমূহ দেখুন।

Apple Inc.
১ ভੇਰੀਐਂਟ

macOS-এ Apple Speech

Apple Speech হল tapWhisper-এর ডিফল্ট, জিরো-কনফিগারেশন ট্রান্সক্রিপশন ইঞ্জিন। এটি সম্পূর্ণ অফলাইনে Apple-এর নিজস্ব স্পিচ ফ্রেমওয়ার্ক ব্যবহার করে ডিভাইসে চলে। এটি খুব দ্রুত শুরু হয়, ন্যূনতম সিস্টেম র‍্যাম ব্যবহার করে এবং অ্যাপল সিলিকন (M1/M2/M3/M4) এবং ইন্টেল চিপের জন্য দারুণভাবে অপ্টিমাইজড। যেহেতু এটি সিস্টেম এপিআই ব্যবহার করে, তাই কোনো মডেল ফাইল ডাউনলোডের প্রয়োজন হয় না।

মডেলের বৈশিষ্ট্য দেখুন →
OpenAI (মূল ওজন), GGML / whisper.cpp সম্প্রদায় (কোয়ান্টাইজড ফাইল)
১৬ ভেরিয়েন্ট

OpenAI Whisper GGML

Whisper হল OpenAI-এর একটি সর্বাধুনিক সাধারণ-উদ্দেশ্যমূলক ভয়েস রিকগনিশন মডেল। tapWhisper-এ, অ্যাপল সিলিকনে সম্পূর্ণ মেটাল জিপিইউ অ্যাক্সিলারেশন সহ whisper.

মডেলের বৈশিষ্ট্য দেখুন →
Useful Sensors
২ ভেরিয়েন্ট

Useful Sensors Moonshine

Moonshine হল একটি অত্যন্ত অপ্টিমাইজড, কম ল্যাটেন্সি সম্পন্ন ভয়েস রিকগনিশন মডেল যা রিসোর্স-সীমাবদ্ধ ডিভাইসে রিয়েল-টাইম ডিক্টেশনের জন্য ডিজাইন করা হয়েছে। এটি হুইস্পার মডেলের মতো একই রকম নির্ভুলতা বজায় রেখে খুব কম মেমোরি ব্যবহারে দ্রুত অডিও প্রসেস করে। এটি Sherpa ONNX রানটাইমের মাধ্যমে tapWhisper-এ স্থানীয়ভাবে চলে।

মডেলের বৈশিষ্ট্য দেখুন →
NVIDIA (NeMo টিম), Sherpa ONNX সম্প্রদায়
১ ভੇਰੀਐਂਟ

NVIDIA Parakeet ONNX

NVIDIA-এর Parakeet হল ইংরেজির জন্য অপ্টিমাইজ করা একটি আধুনিক স্পিচ-টু-টেক্সট মডেল। এটি Sherpa ONNX ইঞ্জিনের মাধ্যমে ডিভাইসে চালানোর জন্য INT8 ONNX ফরম্যাটে কোয়ান্টাইজড করা হয়েছে। এটি কোডিং, ব্যবসা এবং সাধারণ ইংরেজি ডিক্টেশনের জন্য অত্যন্ত নির্ভুলতা এবং দ্রুত গতি প্রদান করে।

মডেলের বৈশিষ্ট্য দেখুন →
NVIDIA (NeMo টিম), Sherpa ONNX সম্প্রদায়
১ ভੇਰੀਐਂਟ

NVIDIA Canary ONNX

NVIDIA-এর Canary হল একটি উন্নত বহুভাষিক স্পিচ-টু-টেক্সট এবং অনুবাদ মডেল। এটি ইংরেজি, স্প্যানিশ, জার্মান এবং ফরাসি ভাষা সমর্থন করে এবং অন-ডিভাইসে এই ভাষাগুলির মধ্যে ট্রান্সক্রিপশন ও অনুবাদ সম্পন্ন করতে পারে। এটি শেরপা ওএনএনএক্স ব্যবহার করে ডিভাইসে স্থানীয়ভাবে অত্যন্ত দক্ষতার সাথে চলে।

মডেলের বৈশিষ্ট্য দেখুন →
Google DeepMind
৪ ভেরিয়েন্ট

Google Gemma অডিও মডেল

Gemma Audio হল একটি নেটিভ এন্ড-টু-এন্ড অডিও-টু-টেক্সট মডেল। এটি সরাসরি অডিও ওয়েভফর্ম প্রসেস করে ট্রান্সক্রিপশন তৈরি করে, মাঝখানে আলাদা কোনো কনভার্সন ছাড়া। এটি একটি লোকালহোস্ট-অনলি লাইটআরটি-এলএম সার্ভারের মাধ্যমে চলে। ডিক্টেশন সেশনের সময় তাত্ক্ষণিক ব্যবহারের জন্য মডেলটি র‍্যামে লোড থাকে।

মডেলের বৈশিষ্ট্য দেখুন →
Alibaba Group / llama.cpp সম্প্রদায়
৪ ভেরিয়েন্ট

Alibaba Qwen 3 ফরম্যাটার

Qwen 3 হল GGUF ফরম্যাটে হালকা ও উচ্চ-ক্ষমতাসম্পন্ন ভাষার মডেলগুলির (০.

মডেলের বৈশিষ্ট্য দেখুন →