Вайбовый STT с часом контекста от Microsoft выпустила VibeVoice-ASR на Hugging Face для тех, кто х

Написано

Вайбовый STT с часом контекста от 📱

Microsoft выпустила VibeVoice-ASR на Hugging Face для тех, кто хочет в свой пайп агентов закинуть транскрибацию звука.

Модель умеет расшифровывать длинные аудио до 60 минут за один проход и без нарезки на короткие куски.

Что есть в функционале:
— Single-pass транскрипция дает меньше потерь контекста и стабильную речь по всей дорожке.
— Встроенная диарризация по принципу «кто говорит + таймкоды».
— Custom hotwords + user context. На вход можно подать список имён, терминов или контекст. Это позволяет работать со специфичными текстами.

Знаю, что много кто в своих пайпах с LLM используют ASR, OCR и тп. Вот вам новый кандидат на замену в аудио. До кучи. Приятно, что лицензия MIT. И код есть с поддержкой vLLM-asr.

Вайбовый STT с часом контекста от Microsoft выпустила VibeVoice-ASR на Hugging Face для тех, кто х

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Telegram пометил всех пользователей Telega у юзеров неофициальных клиентов стала появляться плашка

Протестировал Qwen 3.6 Plus Оценка 3 из 5 (Может ему не свезло и если делать 10 шотов, то результат

Grok Heavy самая бессмысленная подписка в мире Оформил её, чтобы протестировать Heavy-модель, и ос

Кооп завезли в Mount & Blade 2 коммьюнити буквально умоляло разрабов выкатить эту фичу и они вы