Немного об экспериментах с on-prem-моделями.
Вышел vllm v0.17.0. В него наконец-то официально добавили поддержку Qwen-3.5.
В списке поддерживаемых моделей есть только 9B и 35B модели, но мне удалось запустить и Qwen-3.5-2B. Из чего делаю вывод, что остальные Qwen-3.5 также заведутся.
Попробовал плагин vllm-metal. Он делает возможным для vllm запуск из-под MacOS.
Уникальный проект – за 81 день существования репозитория у него 126 релизов. Иногда выходит по три релиза в день.
Чудес от плагина ждать не приходится. На Qwen3-4B-2507 выдаёт порядка 10-15 токенов в секунду. На свежем Qwen3.5-2B – и того меньше – 5-7.
А когда попробовал запустить Qwen3.5-9B, ноутбук начал серьёзно троттлить, поэтому запуск я прервал.
У меня, напомню, Macbook Pro на процессоре M5 с 32Gb памяти.

Добавить комментарий