Вайбовый STT с часом контекста от 📱
Microsoft выпустила VibeVoice-ASR на Hugging Face для тех, кто хочет в свой пайп агентов закинуть транскрибацию звука.
Модель умеет расшифровывать длинные аудио до 60 минут за один проход и без нарезки на короткие куски.
Что есть в функционале:
— Single-pass транскрипция дает меньше потерь контекста и стабильную речь по всей дорожке.
— Встроенная диарризация по принципу «кто говорит + таймкоды».
— Custom hotwords + user context. На вход можно подать список имён, терминов или контекст. Это позволяет работать со специфичными текстами.
Знаю, что много кто в своих пайпах с LLM используют ASR, OCR и тп. Вот вам новый кандидат на замену в аудио. До кучи. Приятно, что лицензия MIT. И код есть с поддержкой vLLM-asr.
Добавить комментарий