Назад к tapWhisper
Профиль модели

Google Gemma Audio

4 варианта

Технические характеристики

Размер от 4 ГБ до 12 ГБ
Архитектура Мультимодальная LLM
Задержка Низкая (сквозная)
Язык Мультиязычный

Разработчик / Создатель

Google DeepMind

Источник загрузки

Source Repository

Hugging Face Hub / Реестр моделей Google

Open Repository (google/gemma-3)

Обзор модели

Gemma Audio — это нативная модель преобразования звука в текст. Она напрямую обрабатывает аудиосигналы и создает готовый текст без промежуточных шагов. Работает через фоновый локальный сервер LiteRT-LM (localhost). Модель остается в оперативной памяти для мгновенного повторного использования во время сеансов диктовки.

Доступные варианты моделей

Вариант модели Размер файла Использование ОЗУ Формат/Квант Языки Описание
Gemma 4 E2B 2.41 GB 1.7 GB INT8 (LiteRT) Мультиязычный Аудиомодель Google Gemma 4 LiteRT-LM. Высокоэффективная сквозная модель.
Gemma 4 E4B 3.41 GB 3.3 GB INT8 (LiteRT) Мультиязычный Google Gemma 4 повышенного объема. Улучшенный языковой анализ.
Gemma 4 12B 6.10 GB 12.0 GB INT8 (LiteRT) Мультиязычный Крупная модель Google Gemma 4 для максимальной точности. Требует много ОЗУ.
Gemma 3n 3.40 GB 4.5 GB INT4 (LiteRT) Мультиязычный Модель Google Gemma 3n. Квантование Int4 для оптимальной скорости.