🖼 Вышла open-source GLM-Image
Компания Z.ai представила GLM-Image — модель промышленного уровня с гибридной архитектурой. Она разделяет задачи понимания текста и рисования, чтобы лучше следовать сложным инструкциям.
— AR-модуль (9B) на базе GLM-4 отвечает за смысловую структуру и композицию (как языковая модель).
— Диффузионный декодер (7B) на архитектуре CogView4 детально прорисовывает изображение (отвечает за качество).
— Внедрен энкодер Glyph-byT5 для точного написания текста на картинках (включая сложные символы).
— Применено обучение с подкреплением (GRPO), где модель награждали за эстетику (HPSv3) и читаемость текста (OCR).
— Поддерживается редактирование изображений, перенос стиля и сохранение внешности персонажа.
Код и веса модели опубликованы на GitHub и HuggingFace.





Добавить комментарий