Маленькая, но мощная модель для разработки онпрем-агентов.
Для меня это Qwen3-4B-Instruct-2507.
Отлично работает с инструментами (изображение к посту в качестве доказательства), а когда в режиме ReAct выдаёт размышления (на русском языке!) – слабо верится, что это сделала моделька всего на 4 миллиарда параметров (а тут доказательство не дам – попробуйте сами 😊).
Модель настолько хороша, что по BFCL (качество работы с tools) ей уступают даже старшие модели из той же линейки – Qwen3-30B-A3B-Instruct-2507 и Qwen3-235B-A22B-Instruct-2507.
На 23Gb видеопамяти в vllm модель работает в 8 параллельных запросов и с 64к токенами контекста. Если нужно, можно чуть изменить параметры и увеличить количество запросов/уменьшить контекст.
Поделитесь в комментариях своими находками среди open source моделей? В идеале – вместе со сценариями использования. Разыскивается что-то круче героя сегодняшнего поста 🙂

Добавить комментарий