👀 DeepSeek R2 или V4 на подходе!
В репозитории FlashMLA (ядра для V3/V3.2) добавили поддержку MODEL1 как отдельной модели.
Ключевые изменения:KV-cache stride: 576B (против 656B у V3.2) – это может означать, что архитектуру хорошо улучшили.
Такое обычно делают за 1–3 дня до релиза.
Плюс сегодня ровно год с выхода R1 — идеальный тайминг для выхода чего-то грандиозного.

Добавить комментарий