tapWhisper-এ ফিরে যান
মডেল প্রোফাইল

Google Gemma অডিও মডেল

৪ ভেরিয়েন্ট

প্রযুক্তিগত বৈশিষ্ট্য

আকার 4 GB থেকে 12 GB
আর্কিটেকচার মাল্টি-মোডাল এলএলএম
ল্যাটেন্সি কম (এন্ড-টু-এন্ড)
ভাষা বহুভাষিক

ডেভেলপার / নির্মাতা

Google DeepMind

ডাউনলোড উৎস

Source Repository

Hugging Face হাব / গুগল মডেল রেজিস্ট্রি

Open Repository (google/gemma-3)

মডেল পরিচিতি

Gemma Audio হল একটি নেটিভ এন্ড-টু-এন্ড অডিও-টু-টেক্সট মডেল। এটি সরাসরি অডিও ওয়েভফর্ম প্রসেস করে ট্রান্সক্রিপশন তৈরি করে, মাঝখানে আলাদা কোনো কনভার্সন ছাড়া। এটি একটি লোকালহোস্ট-অনলি লাইটআরটি-এলএম সার্ভারের মাধ্যমে চলে। ডিক্টেশন সেশনের সময় তাত্ক্ষণিক ব্যবহারের জন্য মডেলটি র‍্যামে লোড থাকে।

উপলব্ধ মডেল ভেরিয়েন্ট

মডেল ভেরিয়েন্ট ফাইল সাইজ র‍্যাম ব্যবহার ফরম্যাট/কোয়াণ্ট ভাষা বিবরণ
Gemma 4 E2B 2.41 GB 1.7 GB INT8 (LiteRT) বহুভাষিক গুগল জেমা ৪ অডিও-সক্ষম LiteRT-LM মডেল। অত্যন্ত দক্ষ এন্ড-টু-এন্ড মডেল।
Gemma 4 E4B 3.41 GB 3.3 GB INT8 (LiteRT) বহুভাষিক উচ্চ-ক্ষমতা সম্পন্ন গুগল জেমা ৪ অডিও-সক্ষম মডেল। উন্নত ভাষা পার্সিং।
Gemma 4 12B 6.10 GB 12.0 GB INT8 (LiteRT) বহুভাষিক সর্বোচ্চ নির্ভুলতার জন্য বড় গুগল জেমা ৪ অডিও-সক্ষম মডেল। উচ্চ র‍্যাম প্রয়োজন।
Gemma 3n 3.40 GB 4.5 GB INT4 (LiteRT) বহুভাষিক গুগল জেমা ৩n অডিও-সক্ষম মডেল। ভারসাম্যপূর্ণ গতির জন্য Int4 কোয়ান্টাইজড সংস্করণ।