DeepSeek R2 или V4 на подходе! В репозитории FlashMLA (ядра для V3V3.2) добавили поддержку MODEL1 к

👀 DeepSeek R2 или V4 на подходе!

В репозитории FlashMLA (ядра для V3/V3.2) добавили поддержку MODEL1 как отдельной модели.
Ключевые изменения:

KV-cache stride: 576B (против 656B у V3.2) – это может означать, что архитектуру хорошо улучшили.

Такое обычно делают за 1–3 дня до релиза.

Плюс сегодня ровно год с выхода R1 — идеальный тайминг для выхода чего-то грандиозного.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *