Вышла open-source GLM-Image Компания Z.ai представила GLM-Image модель промышленного уровня с гибр

Написано

🖼 Вышла open-source GLM-Image

Компания Z.ai представила GLM-Image — модель промышленного уровня с гибридной архитектурой. Она разделяет задачи понимания текста и рисования, чтобы лучше следовать сложным инструкциям.

— AR-модуль (9B) на базе GLM-4 отвечает за смысловую структуру и композицию (как языковая модель).
— Диффузионный декодер (7B) на архитектуре CogView4 детально прорисовывает изображение (отвечает за качество).
— Внедрен энкодер Glyph-byT5 для точного написания текста на картинках (включая сложные символы).
— Применено обучение с подкреплением (GRPO), где модель награждали за эстетику (HPSv3) и читаемость текста (OCR).
— Поддерживается редактирование изображений, перенос стиля и сохранение внешности персонажа.

Код и веса модели опубликованы на GitHub и HuggingFace.

@ThePerceptronChannel

Вышла open-source GLM-Image Компания Z.ai представила GLM-Image модель промышленного уровня с гибр

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Telegram пометил всех пользователей Telega у юзеров неофициальных клиентов стала появляться плашка

Протестировал Qwen 3.6 Plus Оценка 3 из 5 (Может ему не свезло и если делать 10 шотов, то результат

Grok Heavy самая бессмысленная подписка в мире Оформил её, чтобы протестировать Heavy-модель, и ос

Кооп завезли в Mount & Blade 2 коммьюнити буквально умоляло разрабов выкатить эту фичу и они вы