Технические характеристики
Размер
от 75 МБ (Tiny) до 1.5 ГБ (Large)
Архитектура
Transformer Encoder-Decoder
Задержка
1-3 сек для обычной речи
Язык
99+ языков
Разработчик / Создатель
OpenAI (оригинальные веса), сообщество GGML / whisper.cpp (квантованные файлы)
Источник загрузки
Source Repository
Hugging Face Hub (через встроенный загрузчик tapWhisper)
Open Repository (ggerganov/whisper.cpp)Обзор модели
Whisper — это передовая универсальная модель распознавания речи от OpenAI. В tapWhisper модели Whisper работают в автономном режиме с использованием whisper.cpp (в формате GGML) с полной поддержкой графического ускорения Metal на процессорах Apple Silicon. Пользователи могут загружать различные версии (Base, Small, Medium, Large) в настройках. Модель обеспечивает высокую точность.
Доступные варианты моделей
| Вариант модели | Размер файла | Использование ОЗУ | Формат/Квант | Языки | Описание |
|---|---|---|---|---|---|
| Whisper Very Small | 74 MB | 180 MB | Float16 (Full) | Мультиязычный | Самая быстрая скорость расшифровки, ниже точность. Подходит для тестов. |
| Whisper Very Small Q5 | 31 MB | 110 MB | Q5_1 (Quantized) | Мультиязычный | Самая компактная квантованная версия Whisper. Минимальный размер. |
| Whisper Small | 141 MB | 300 MB | Float16 (Full) | Мультиязычный | Сбалансированная базовая модель с хорошей точностью для простых фраз. |
| Whisper Small Q5 | 57 MB | 180 MB | Q5_1 (Quantized) | Мультиязычный | Квантованная базовая модель Whisper. Оптимальный расход ОЗУ и места. |
| Whisper Medium ⭐ | 547 MB | 900 MB | Q5_0 (Quantized) | Мультиязычный | Лучшее соотношение скорости и качества. Рекомендуется по умолчанию. |
| Whisper Very Small (English) | 74 MB | 180 MB | Float16 (Full) | Английский | Самая быстрая англоязычная модель диктовки. Низкое потребление ресурсов. |
| Whisper Very Small Q5 (English) | 31 MB | 110 MB | Q5_1 (Quantized) | Английский | Англоязычная квантованная мини-модель Whisper. Ультралегкая. |
| Whisper Small (English) | 141 MB | 300 MB | Float16 (Full) | Английский | Стандартная англоязычная базовая модель для обычной диктовки. |
| Whisper Small Q5 (English) | 57 MB | 180 MB | Q5_1 (Quantized) | Английский | Англоязычная базовая квантованная модель. Высокая эффективность. |
| Whisper Standard | 465 MB | 850 MB | Float16 (Full) | Мультиязычный | Стандартная мультиязычная модель. Высокая надежность и точность. |
| Whisper Standard Q5 | 181 MB | 450 MB | Q5_1 (Quantized) | Мультиязычный | Квантованная уменьшенная мультиязычная модель. Отличный баланс размера и точности. |
| Whisper Standard (English) | 465 MB | 850 MB | Float16 (Full) | Английский | Стандартная англоязычная модель. Идеяльна для разборчивой диктовки. |
| Whisper Standard Q5 (English) | 181 MB | 450 MB | Q5_1 (Quantized) | Английский | Квантованная англоязычная стандартная модель. Высокая энергоэффективность. |
| Whisper Large (legacy) | 1.43 GB | 2.2 GB | Float16 (Full) | Мультиязычный | Классическая большая мультиязычная модель. Высокая точность, высокий расход ресурсов. |
| Whisper Medium HQ | 1.51 GB | 2.3 GB | Float16 (Full) | Мультиязычный | Высококачественная средняя модель (архитектура Turbo). Отличная точность. |
| Whisper Very Big | 2.88 GB | 4.2 GB | Float16 (Full) | Мультиязычный | Максимально возможная точность распознавания. Тяжелый файл, медленная работа. |