প্রযুক্তিগত বৈশিষ্ট্য
আকার
4 GB থেকে 12 GB
আর্কিটেকচার
মাল্টি-মোডাল এলএলএম
ল্যাটেন্সি
কম (এন্ড-টু-এন্ড)
ভাষা
বহুভাষিক
ডেভেলপার / নির্মাতা
Google DeepMind
ডাউনলোড উৎস
মডেল পরিচিতি
Gemma Audio হল একটি নেটিভ এন্ড-টু-এন্ড অডিও-টু-টেক্সট মডেল। এটি সরাসরি অডিও ওয়েভফর্ম প্রসেস করে ট্রান্সক্রিপশন তৈরি করে, মাঝখানে আলাদা কোনো কনভার্সন ছাড়া। এটি একটি লোকালহোস্ট-অনলি লাইটআরটি-এলএম সার্ভারের মাধ্যমে চলে। ডিক্টেশন সেশনের সময় তাত্ক্ষণিক ব্যবহারের জন্য মডেলটি র্যামে লোড থাকে।
উপলব্ধ মডেল ভেরিয়েন্ট
| মডেল ভেরিয়েন্ট | ফাইল সাইজ | র্যাম ব্যবহার | ফরম্যাট/কোয়াণ্ট | ভাষা | বিবরণ |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2.41 GB | 1.7 GB | INT8 (LiteRT) | বহুভাষিক | গুগল জেমা ৪ অডিও-সক্ষম LiteRT-LM মডেল। অত্যন্ত দক্ষ এন্ড-টু-এন্ড মডেল। |
| Gemma 4 E4B | 3.41 GB | 3.3 GB | INT8 (LiteRT) | বহুভাষিক | উচ্চ-ক্ষমতা সম্পন্ন গুগল জেমা ৪ অডিও-সক্ষম মডেল। উন্নত ভাষা পার্সিং। |
| Gemma 4 12B | 6.10 GB | 12.0 GB | INT8 (LiteRT) | বহুভাষিক | সর্বোচ্চ নির্ভুলতার জন্য বড় গুগল জেমা ৪ অডিও-সক্ষম মডেল। উচ্চ র্যাম প্রয়োজন। |
| Gemma 3n | 3.40 GB | 4.5 GB | INT4 (LiteRT) | বহুভাষিক | গুগল জেমা ৩n অডিও-সক্ষম মডেল। ভারসাম্যপূর্ণ গতির জন্য Int4 কোয়ান্টাইজড সংস্করণ। |