Конец года и #новости #однойстрокой в стиле Google. В конце года вышли для меня две интересные раб

Конец года и #новости #однойстрокой в стиле Google. 🔍

В конце года вышли для меня две интересные работы. Сегодня расскажу про одну, а далее выйдет второй обзор.

Начнём с T5Gemma 2, хотя должно быть gemma3 🧠

Почему? Да ибо ребята элайнят энкодер к Gemma3 декодеру, как преинициализация T5 декодер части. А я напомню, что Т5 это полный трансформер с энкодер-декодер архитектурой.
Помимо этого, ещё интересное, что убрали механизм cross-attention – это когда у вас вложения декодерв после self-attention идут ещё раз в кросс-внимание с контекстом энкодера. Теперь все это зовётся merged attention и, по факту, просто энкодер эмбы закинули в общий блок внимания, НО сохранили у энкодера self-attention с двусторонним механизмом, а у декодер с казуальным. Т.е. после кодирования контекста в энкодере, его эмбы идут напрямую в декодер внимание с казуальной маской, как контекст. Чтобы это все дружно работало ещё сделали tied embedding, т.е. обобщенные / связанные матрицы эмбеддингов для энкодера и декодера, что облегчает вес и увеличивает скорость, а ещё делает нативный обмен информацией между блоками.

Ввиду таких артефактов, легко ложится туда мультимодальная часть в fromage стиле, поэтому моделька ещё и жуёт картинки на равне с текстом. В качестве энкодера для image embs юзают Siglip. До кучи long context 128k и конечно мультияз.

Вижу, что Google продолжает диверсификацию исследований и не кладёт яйца в одну корзину. 🧠 Разрабатывает и декодеры, и полные трансформеры, и диффузии. Про энкодеры вообще молчу. 😎

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *