Немного об экспериментах с on-prem-моделями. Вышел vllm v0.17.0. В него наконец-то официально добав

Написано

Немного об экспериментах с on-prem-моделями.

Вышел vllm v0.17.0. В него наконец-то официально добавили поддержку Qwen-3.5.

В списке поддерживаемых моделей есть только 9B и 35B модели, но мне удалось запустить и Qwen-3.5-2B. Из чего делаю вывод, что остальные Qwen-3.5 также заведутся.

Попробовал плагин vllm-metal. Он делает возможным для vllm запуск из-под MacOS.

Уникальный проект – за 81 день существования репозитория у него 126 релизов. Иногда выходит по три релиза в день.

Чудес от плагина ждать не приходится. На Qwen3-4B-2507 выдаёт порядка 10-15 токенов в секунду. На свежем Qwen3.5-2B – и того меньше – 5-7.

А когда попробовал запустить Qwen3.5-9B, ноутбук начал серьёзно троттлить, поэтому запуск я прервал.

У меня, напомню, Macbook Pro на процессоре M5 с 32Gb памяти.

Немного об экспериментах с on-prem-моделями. Вышел vllm v0.17.0. В него наконец-то официально добав

Комментарии

Добавить комментарий Отменить ответ

Больше записей

А в чём прикол-то был Объясните

Ищем удалёнку за границей: в Твиттере собрали 11 лучших сайтов с вакансиями во всех сферах от айти

День анимешника отмечаем сегодня именно 11 апреля закрепилось как праздник любителей японских мульт

Убираем все следы ИИ из любого текста! Нашли сервис The AI Text Humanizer, который отредактирует тек