GPT-5.4, вайб-обзор tl;dr Очень хороша, почти универсальная модель для разработки. Как и обещали O

GPT-5.4, вайб-обзор

tl;dr
Очень хороша, почти универсальная модель для разработки.

Как и обещали OpenAI, ощущается как гибрид моделей:
● GPT-5.2 с её глубиной мышления и широтой знаний
● GPT-5.3 Codex с его скоростью, хорошим кодингом и агентностью

Это не такая революция как GPT-5 или 5.2, но по мелочам много всего набегает.

Что уж говорить, я почти упираюсь в лимиты Pro-плана — настолько стало интересно работать 🙂

Плюсы

🟢 5.2 + 5.3 Codex
Не нужно выбирать модели и компенсировать недостатки одной плюсами другой.
Модель одна, и ведёт себя консистентно хорошо, достаточно лишь переключать reasoning level.

🟢 Скорость — на high работает практически со скоростью 5.3 Codex xhigh, при этом не теряя в качестве.
На xhigh ощущается шустрее, чем 5.2 xhigh.

🟢 Эрудиция — это у неё от GPT 5.2 🙂
Codex-модели, вероятнее всего, дистилляты или облегчённые тюны «полных» моделей, заточенные на код, но понимания мира у них за пределами IT не хватает.
Это делает сложным их применение в специфических предметных областях, где нужна интуиция и знания домена, а не только чистый ризонинг.

GPT-5.4 тут стала намного лучше в сравнении как с 5.3 Codex, так и даже с 5.2.

Но лидером по этому показателю, тем не менее, всё ещё остаются модели Gemini Pro.

🟢 Исследовательские способности
GPT-5.4 стала ещё лучше, чем 5.2, докапываться до багов на стыке нескольких подсистем, работать со сложными взаимозависимостями, строить длинные цепочки причинно-следственных связей, при этом устойчиво пользуясь доступными инструментами.

Недавно свою инфру менял в сторону платформы для агентов (чтобы они сами проекты devops’или), и там она весьма нетривиальные вещи творила в процессе миграции (расскажу).

🟢 Стала приятнее общаться
Не звучит так механистично как 5.2, но в довесок стала болтливее (а это у нее от GPT-5.3 Codex).

Это, конечно, вкусовщина, но вот что реально стало плюсом — она стала куда лучше писать по-русски: cтало меньше fabric, не так много details, и намного реже инвенцирует новые словs on the fly.

Блин, да она даже шутит иногда неплохо! Как будто бы тут ещё и GPT-4.5 потопталась 🙂

Минусы

🔴 Оверинжиниринг (на простых задачах)
Это было и в 5.2, но реже, а в GPT-5.4 риск того, что модель уйдёт в ненужные абстракции на xhigh, стал выше, так что стоит посматривать, что она вам предлагает.

🔴 1M контекстЧто? Как это оказалось в минусах?
Эффективный контекст GPT-5.4, судя по бенчам самих OpenAI, всё так же в районе её родных 272к токенов, а всё, что дальше — это «растягивание» внимания модели, и, как следствие, падение качества работы с контекстом, да ещё и за 1.5x+ прайс.

Этот 272к+ контекст экспериментальный, не включен по умолчанию, но я и не советую, т.к. падение качества сильно ощущается — родной контекст даже с периодическими компактизациями работает намного лучше.

🔴 UI/дизайн — всё ещё не её конёк
Но хотя бы обещались что-то с этим уже сделать в будущих релизах.
(справедливости ради, UI всё равно стоит делать в специализированных инструментах)

Особенности

⚪️ Модель предпочитает Plan-Act
5.3 Codex был более заточен на интерактивную с ним работу, где он по сути был вашим инструментом.
5.4 же больше про планирование, сбор контекста, а потом исполнение по готовому плану — тут она больше на 5.2 похожа.

⚪️ Режим /fast в агенте
Ускоряет выдачу токенов моделью в 1.5 раза, но ценой лимитов/цены 2x.

Включаю когда что-то интерактивно нужно пообсуждать/поделать, и при этом не выпадать из потока, пока модель думает.

Для исполнения средних+ планов не имеет смысла — как правило, они десятки минут и часы выполняются, и не имеет особого значения, насколько быстро инференс самой модели происходит.

Вердикт

Для использования в разработке GPT-5.4 для меня на текущий момент — SOTA.

Другие модели теперь в довольно специфических случаях используются:
● Opus 4.6 / Gemini 3.1 Pro Preview для построения UI с нуля
● GPT-5.2 xhigh изредка как второе мнение в архитектуре, планировании и контроле техдолга

Расскажите, как у вас 🙂

Мои критерии оценки ИИ-агентов
● Обзор на GPT-5.3 Codex, Opus 4.6, и GPT-5.2: раз, два

#ai #model #review

GPT-5.4, вайб-обзор

tl;dr
Очень хороша, почти универсальная модель для разработки.

Как и обещали OpenAI, ощущается как гибрид моделей:
● GPT-5.2 с её глубиной мышления и широтой знаний
● GPT-5.3 Codex с его скоростью, хорошим кодингом и агентностью

Это не такая революция как GPT-5 или 5.2, но по мелочам много всего набегает.

Что уж говорить, я почти упираюсь в лимиты Pro-плана — настолько стало интересно работать 🙂

Плюсы

🟢 5.2 + 5.3 Codex
Не нужно выбирать модели и компенсировать недостатки одной плюсами другой.
Модель одна, и ведёт себя консистентно хорошо, достаточно лишь переключать reasoning level.

🟢 Скорость — на high работает практически со скоростью 5.3 Codex xhigh, при этом не теряя в качестве.
На xhigh ощущается шустрее, чем 5.2 xhigh.

🟢 Эрудиция — это у неё от GPT 5.2 🙂
Codex-модели, вероятнее всего, дистилляты или облегчённые тюны «полных» моделей, заточенные на код, но понимания мира у них за пределами IT не хватает.
Это делает сложным их применение в специфических предметных областях, где нужна интуиция и знания домена, а не только чистый ризонинг.

GPT-5.4 тут стала намного лучше в сравнении как с 5.3 Codex, так и даже с 5.2.

Но лидером по этому показателю, тем не менее, всё ещё остаются модели Gemini Pro.

🟢 Исследовательские способности
GPT-5.4 стала ещё лучше, чем 5.2, докапываться до багов на стыке нескольких подсистем, работать со сложными взаимозависимостями, строить длинные цепочки причинно-следственных связей, при этом устойчиво пользуясь доступными инструментами.

Недавно свою инфру менял в сторону платформы для агентов (чтобы они сами проекты devops’или), и там она весьма нетривиальные вещи творила в процессе миграции (расскажу).

🟢 Стала приятнее общаться
Не звучит так механистично как 5.2, но в довесок стала болтливее (а это у нее от GPT-5.3 Codex).

Это, конечно, вкусовщина, но вот что реально стало плюсом — она стала куда лучше писать по-русски: cтало меньше fabric, не так много details, и намного реже инвенцирует новые словs on the fly.

Блин, да она даже шутит иногда неплохо! Как будто бы тут ещё и GPT-4.5 потопталась 🙂

Минусы

🔴 Оверинжиниринг (на простых задачах)
Это было и в 5.2, но реже, а в GPT-5.4 риск того, что модель уйдёт в ненужные абстракции на xhigh, стал выше, так что стоит посматривать, что она вам предлагает.

🔴 1M контекстЧто? Как это оказалось в минусах?
Эффективный контекст GPT-5.4, судя по бенчам самих OpenAI, всё так же в районе её родных 272к токенов, а всё, что дальше — это «растягивание» внимания модели, и, как следствие, падение качества работы с контекстом, да ещё и за 1.5x+ прайс.

Этот 272к+ контекст экспериментальный, не включен по умолчанию, но я и не советую, т.к. падение качества сильно ощущается — родной контекст даже с периодическими компактизациями работает намного лучше.

🔴 UI/дизайн — всё ещё не её конёк
Но хотя бы обещались что-то с этим уже сделать в будущих релизах.
(справедливости ради, UI всё равно стоит делать в специализированных инструментах)

Особенности

⚪️ Модель предпочитает Plan-Act
5.3 Codex был более заточен на интерактивную с ним работу, где он по сути был вашим инструментом.
5.4 же больше про планирование, сбор контекста, а потом исполнение по готовому плану — тут она больше на 5.2 похожа.

⚪️ Режим /fast в агенте
Ускоряет выдачу токенов моделью в 1.5 раза, но ценой лимитов/цены 2x.

Включаю когда что-то интерактивно нужно пообсуждать/поделать, и при этом не выпадать из потока, пока модель думает.

Для исполнения средних+ планов не имеет смысла — как правило, они десятки минут и часы выполняются, и не имеет особого значения, насколько быстро инференс самой модели происходит.

Вердикт

Для использования в разработке GPT-5.4 для меня на текущий момент — SOTA.

Другие модели теперь в довольно специфических случаях используются:
● Opus 4.6 / Gemini 3.1 Pro Preview для построения UI с нуля
● GPT-5.2 xhigh изредка как второе мнение в архитектуре, планировании и контроле техдолга

Расскажите, как у вас 🙂

Мои критерии оценки ИИ-агентов
● Обзор на GPT-5.3 Codex, Opus 4.6, и GPT-5.2: раз, два

#ai #model #review

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *