tapWhisper — Google Gemma Audio

Технические характеристики

Размер от 4 ГБ до 12 ГБ

Архитектура Мультимодальная LLM

Задержка Низкая (сквозная)

Язык Мультиязычный

Разработчик / Создатель

Google DeepMind

Лицензия

Gemma Terms of Use; publicly downloadable community LiteRT-LM conversion.

Источник загрузки

Source Repository

Hugging Face Hub / Реестр моделей Google

litert-community Gemma 4 & Gemma 3n Mirror

Точные файлы рантайма

Обзор модели

Gemma Audio — это нативная модель преобразования звука в текст. Она напрямую обрабатывает аудиосигналы и создает готовый текст без промежуточных шагов. Работает через фоновый локальный сервер LiteRT-LM (localhost). Модель остается в оперативной памяти для мгновенного повторного использования во время сеансов диктовки.

Доступные варианты моделей

Вариант модели	Размер файла	Использование ОЗУ	Формат/Квант	Языки	Описание
Gemma 3n	3.41 GB	3.8 GB	INT4 (LiteRT)	Мультиязычный	Условия использования Gemma; общедоступная версия LiteRT-LM от сообщества.
Gemma 4 E2B	2.41 GB	1.7 GB	INT8 (LiteRT)	Мультиязычный	Аудиомодель Google Gemma 4 LiteRT-LM. Высокоэффективная сквозная модель.
Gemma 4 E4B	3.41 GB	3.3 GB	INT8 (LiteRT)	Мультиязычный	Google Gemma 4 повышенного объема. Улучшенный языковой анализ.
Gemma 4 12B	6.10 GB	12.0 GB	INT8 (LiteRT)	Мультиязычный	Крупная модель Google Gemma 4 для максимальной точности. Требует много ОЗУ.

Назад к tapWhisper