Команда DeepSeek готовится к выпуску 4ой версии модели, со всеми плюшками в лице оптимизаций mHSC, улучшенными свойствами кодирования и агентные темы в части работы с длинным контекстом, который стал эффективнее. Интересно, будет ли там, что-то новенькое а-ля gdpo и улучшение внимания+архитектуры от nvidia? 🤔
Оптимизация mHSC позволяет быстрее и эффективнее работать блокам трансформера — иметь более представимые внутренние вложения векторов, через улучшенные механики отображения и наследования информации.
А ещё недавно они расширили свой тех. репорт увеличив в 4 раза число страниц, с новыми подробностями обучения R1 поколения.

Добавить комментарий