Кроха Айя, или новая small-LM от cohere для МАС. Когере радует не только своими поисковыми моделями

Кроха Айя, или новая small-LM от cohere для МАС.

Когере радует не только своими поисковыми моделями (embs) и RAG сервисами, но и выпустило маленькую модельку (даже целое семейство) под агентные нужды. Размером всего 3B параметров, поддержкой более 70 языков, причём утверждают, что выровненнных и «равноправных». Для этого модели были обучены на 5 языковых кластерах, и выложены также в рамках семейства с языковой специализацией.

Самое интересное — это как учились модельки. Вспоминая phi серию от майкров, и их «вау» метрики, на ум приходит с одной стороны дистилляция, а с другой обучение на заугментированном тесте открытых бенчей. Иначе откуда от такой малыхи high метрики.

Что же у Aya?

Fusion-of-N дистилляция из К лучших моделей, в качестве учителей. Для отбора и агрегации самых качественных компонентов ответа, используется судья Fusor. Т.е. не только китайцы абьюзят модельки конкурентов, вы понимаете?)

Второй подход, тоже уже ставший стандартом, это merging моделей на разных этапах обучения. Ребята назвали это sim-merging. Делалось это для предотвращения катастрофического забывания от региональных спец. моделек.
Рег. чекпы объединялись с глобальной моделью, а выбор операторов слияния основывался на сигналах схожести.

Обучение проводилось на 64-ех картах класса H100.

Использование для edge устройств.

Такой размер моделек и мультияз сразу намекает на фаст инференс и возможности применения на носимых устройствах или вашем утюге. При использовании квантизации в 4bit (Q4_K_M) можно добиться 2.15гб размера Aya, при потере качества в 1.4 пункта.

На замерах скорости генераций с iPhone 13 получили 10 токенов/с, на 17 pro уже 32 токена/с.

Применение и ограничения:
При этом очень важно понимать,что может модель. Она справляется с генеративными задачами на ведение диалога, в CoT слабее, требует хорошего промптинга, а для RAG надёжных внешних источников, тк из весов знания могут быстро устаревать.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *