Немного об экспериментах с on-prem-моделями. Вышел vllm v0.17.0. В него наконец-то официально добав

Немного об экспериментах с on-prem-моделями.

Вышел vllm v0.17.0. В него наконец-то официально добавили поддержку Qwen-3.5.

В списке поддерживаемых моделей есть только 9B и 35B модели, но мне удалось запустить и Qwen-3.5-2B. Из чего делаю вывод, что остальные Qwen-3.5 также заведутся.

Попробовал плагин vllm-metal. Он делает возможным для vllm запуск из-под MacOS.

Уникальный проект – за 81 день существования репозитория у него 126 релизов. Иногда выходит по три релиза в день.

Чудес от плагина ждать не приходится. На Qwen3-4B-2507 выдаёт порядка 10-15 токенов в секунду. На свежем Qwen3.5-2B – и того меньше – 5-7.

А когда попробовал запустить Qwen3.5-9B, ноутбук начал серьёзно троттлить, поэтому запуск я прервал.

У меня, напомню, Macbook Pro на процессоре M5 с 32Gb памяти.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *