Attention Residuals новая архитектура для эффективного масштабирования нейросетей Исследователи из

Написано

📛 Attention Residuals — новая архитектура для эффективного масштабирования нейросетей

Исследователи из Moonshot AI представили новый подход к архитектуре нейросетей — Attention Residuals (AttnRes). Он предлагает заменить классические residual-соединения на механизм внимания между слоями, где модель сама решает, какие представления из предыдущих слоёв использовать.

В традиционных трансформерах residual connections работают по фиксированной схеме: каждый слой просто добавляет свой результат к предыдущему состоянию. В Attention Residuals вместо этого используется обучаемое внимание к предыдущим слоям, что позволяет сети выбирать наиболее полезные представления из глубины модели.

Основные идеи метода:
🟡 сеть может выборочно обращаться к представлениям из предыдущих слоёв
🟡 уменьшается эффект размывания информации и роста hidden-state
🟡 появляется более равномерное распределение градиентов по глубине сети

Чтобы сделать такой механизм масштабируемым, исследователи предложили Block AttnRes — архитектуру, где слои объединяются в сжатые блоки, между которыми применяется attention. Это снижает вычислительные затраты и делает cross-layer внимание практичным для больших моделей.

Метод протестировали на архитектуре Kimi Linear (48B параметров, 3B активных). Эксперименты показали:
🟡 примерно 1.25× преимущество по вычислительной эффективности
🟡 менее 2% дополнительной задержки инференса
🟡 стабильное улучшение качества на downstream-задачах

Scaling-эксперименты также показали, что выигрыш в вычислениях сохраняется при увеличении размера модели.

Проще говоря, вместо того чтобы тащить через всю сеть одинаковый «след» вычислений, модель сама выбирает, к каким прошлым представлениям ей лучше вернуться, если они полезны для текущего шага. Это делает обучение стабильнее, уменьшает потерю информации в глубине сети и позволяет моделям работать примерно на 25% эффективнее по вычислениям.

Подробности можно посмотреть в исследовательской работе.

🤑 ForgetMe | Boosty

Приобрести подписку на любые сервисы
⏩ @forgetshop_bot

#нейросети #kimi #новости

Attention Residuals новая архитектура для эффективного масштабирования нейросетей Исследователи из

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Telegram пометил всех пользователей Telega у юзеров неофициальных клиентов стала появляться плашка

Протестировал Qwen 3.6 Plus Оценка 3 из 5 (Может ему не свезло и если делать 10 шотов, то результат

Grok Heavy самая бессмысленная подписка в мире Оформил её, чтобы протестировать Heavy-модель, и ос

Кооп завезли в Mount & Blade 2 коммьюнити буквально умоляло разрабов выкатить эту фичу и они вы