Coming soon Upd. 2-4b на агентов и тулколл с MemAgent, 0.8b-4b на эмбы Тут кстати выдался скорый по

Написано

Coming soon😜 Upd. 2-4b на агентов и тулколл с MemAgent, 0.8b-4b на эмбы 💪Тут кстати выдался скорый повод для рубрики #ИИзнанка про метрики LLM на примере легких моделей Qwen 3.5. Модели, кстати, таки вышли в открытый доступ и можно найти их в HF.

Ребята в соседних чатах интересуются, как так 9b лучше по тестам 80B из семейства Qwen3? Для ответа на этот вопрос, я бы дождался техрепорта, которого в репо ещё нет – там, пока, paper не залинкован. Может, дело в развитии из гибридного внимания о котором я писал тут? Или же нативная мультимодальность – нет больше отдельных VL версий? А ещё, может, виновато расширение языковых возможностей до 201 языка? Посмотрим. 🤷‍♂

Но как обычно работают с метриками всякие злодеи — кратенько расскажу. Тут вариантов не так уж и много.

Самый наглый способ дотянуться до открытых тестовых сетов бенчей. Просто тупо их скачав в свой претрен или тюн. 😐 Далее, кто похитрее, аугментирует доступные публичные тестовые примеры 🧠 и уже аугментации кладёт в обучение. Можно конечно и с дистилляцией извращаться, пылесося знания сильных моделей, который тоже как бэ могли вобрать в себя публичные бенчи.

Ну и конечно путь сильных, действительно сделать что-то интересное с тюном честно, поэтому ждём репорт. А там посмотрим. 🆒

Coming soon Upd. 2-4b на агентов и тулколл с MemAgent, 0.8b-4b на эмбы Тут кстати выдался скорый по

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Типичная проблема программирования — работа с велосипедами. С ai coding стала еще актуальнее. ты

Анонсируем наш новый инструмент Расширение Oh My Lama для браузера! Все модели с сайта доступны п

AI, ML, DL engineer давай до свидания

Telegram и Instagram* работают в КНДР лучше, чем в России турист смотался в Пхеньян в феврале этого