Команда DeepSeek готовится к выпуску 4ой версии модели, со всеми плюшками в лице оптимизаций mHSC, у

Команда DeepSeek готовится к выпуску 4ой версии модели, со всеми плюшками в лице оптимизаций mHSC, улучшенными свойствами кодирования и агентные темы в части работы с длинным контекстом, который стал эффективнее. Интересно, будет ли там, что-то новенькое а-ля gdpo и улучшение внимания+архитектуры от nvidia? 🤔

Оптимизация mHSC позволяет быстрее и эффективнее работать блокам трансформера — иметь более представимые внутренние вложения векторов, через улучшенные механики отображения и наследования информации.

А ещё недавно они расширили свой тех. репорт увеличив в 4 раза число страниц, с новыми подробностями обучения R1 поколения.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *