Вайб-обзор на GPT 5.1 Gemini 3 Pro Opus 4.5 (12) Даа, ноябрь выдался весьма урожайным на новые мо

Вайб-обзор на GPT 5.1 / Gemini 3 Pro / Opus 4.5 (1/2)

Даа, ноябрь выдался весьма урожайным на новые модели.
Перебивая один другого, ведущие вендоры выпустили по флагманской модели (некоторые даже по нескольку).

Провел с каждой из них достаточно времени, чтобы теперь поделиться мнением 🙂

Будем считать это вайб-обзором, т.к. формальных метрик у меня нету, и по сути это набор личных впечатлений, полученных в процессе решения реальных задач.

Если не указано иного, то я рассматриваю модели чисто с точки зрения использования их для разработки и исключительно в «родных», вендорских инструментах и на платных подписках.

Оценки по каждой характеристике относительны и выставлены в сравнении с лучшей моделью из трёх (т.е. 10 ≠ абсолют).

Критерии

Интеллект
В данном случае — способность к решению сложных проблем.

Работа с контекстом
Удержание, экономность использования, галлюцинации.

Следование инструкциям
… плюс способность их помнить и принимать во внимание все разом, внимание к деталям.

Планирование
Анализ требований и их осуществимости с граундингом на существующий проект, разбивка по этапам и задачам.

Архитектура
Способность понимать, оперировать и следовать архитектурным концепциям, предлагать неконфликтующие изменения.

Агентность
Автономное выполнение задач с эффективным использованием выданных инструментов.

Рефакторинг
Понимание типовых рефакторингов, code smells и способность делать широкие изменения в существующей кодовой базе.

UI/UX
Визуальная красота и удобство UI (в отрыве от красоты/сложности кода).

Инструментарий
Набор IDE, CLI, Web и прочих инструментов, где работает модель.

Стабильность
Как бесперебойность доступа к модели со стороны вендора, так и стабильность выдаваемого результата с т.з. качества.

GPT 5.1 High (+Codex, +Max)

Весьма педантичное семейство моделей, которым можно доверить сложные и глубокие задачи, а так же те, которые требуют внимания к деталям.
Ни Gemini 3 Pro, ни Opus 4.5, даже несмотря на результаты на бенчмарках, не смогли стать заменой GPT 5 там, где нужен мощный ризонинг.
Через неё у меня проходят финальные версии планов, архитектурных решений, ревью — и всё обязательно с граундингом на существующую кодовую базу и документацию.

Собственно именно работа в существующих больших проектах ей удаётся лучше всего — модель сама способна качественно собрать контекст, понять corner cases, адаптироваться к стилю кода и архитектурным паттернам, и в целом ведёт себя не как ковбой-кодер, который после прочтения пары файлов кидается писать код (да, Gemini?).

И пусть иногда сбор этого самого контекста и раздумья происходят мучительно долго, по мне так лучше подождать ради качественного результата вместо того, чтобы потом переделывать несколько раз и бороться с галлюцинациями или излишней самоуверенностью, как это бывает у других моделей.

Увы, насколько хороша модель, настолько же и плох тулинг вокруг неё.
Несмотря на быстрый старт, команда Codex CLI спустя короткое время то ли увязла в выбранных технологиях, то ли готовит какой-то другой продукт — иначе сложно объяснить игнор нужных и очевидных фич, которые просит сообщество.

Claude Code почти во всём лучше Codex CLI, но, видимо, нам нельзя иметь удобную оболочку (harness / упряжку) и хорошую модель в составе одного агента.

Ну и агентность у GPT 5.1 похуже, если сравнивать с Claude, даже в случае Codex-вариантов.
Хотя связка обычной GPT 5.1 как планировщика, а Codex-варианта как исполнителя вполне рабочая на большинстве задач.

#ai #model #review

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *