Вайбовый STT с часом контекста от Microsoft выпустила VibeVoice-ASR на Hugging Face для тех, кто х

Вайбовый STT с часом контекста от 📱

Microsoft выпустила VibeVoice-ASR на Hugging Face для тех, кто хочет в свой пайп агентов закинуть транскрибацию звука.

Модель умеет расшифровывать длинные аудио до 60 минут за один проход и без нарезки на короткие куски.

Что есть в функционале:
Single-pass транскрипция дает меньше потерь контекста и стабильную речь по всей дорожке.
Встроенная диарризация по принципу «кто говорит + таймкоды».
Custom hotwords + user context. На вход можно подать список имён, терминов или контекст. Это позволяет работать со специфичными текстами.

Знаю, что много кто в своих пайпах с LLM используют ASR, OCR и тп. Вот вам новый кандидат на замену в аудио. До кучи. Приятно, что лицензия MIT. И код есть с поддержкой vLLM-asr.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *