Технические характеристики
Размер
от 4 ГБ до 12 ГБ
Архитектура
Мультимодальная LLM
Задержка
Низкая (сквозная)
Язык
Мультиязычный
Разработчик / Создатель
Google DeepMind
Источник загрузки
Обзор модели
Gemma Audio — это нативная модель преобразования звука в текст. Она напрямую обрабатывает аудиосигналы и создает готовый текст без промежуточных шагов. Работает через фоновый локальный сервер LiteRT-LM (localhost). Модель остается в оперативной памяти для мгновенного повторного использования во время сеансов диктовки.
Доступные варианты моделей
| Вариант модели | Размер файла | Использование ОЗУ | Формат/Квант | Языки | Описание |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2.41 GB | 1.7 GB | INT8 (LiteRT) | Мультиязычный | Аудиомодель Google Gemma 4 LiteRT-LM. Высокоэффективная сквозная модель. |
| Gemma 4 E4B | 3.41 GB | 3.3 GB | INT8 (LiteRT) | Мультиязычный | Google Gemma 4 повышенного объема. Улучшенный языковой анализ. |
| Gemma 4 12B | 6.10 GB | 12.0 GB | INT8 (LiteRT) | Мультиязычный | Крупная модель Google Gemma 4 для максимальной точности. Требует много ОЗУ. |
| Gemma 3n | 3.40 GB | 4.5 GB | INT4 (LiteRT) | Мультиязычный | Модель Google Gemma 3n. Квантование Int4 для оптимальной скорости. |