Лифтовый вайб-чек возвращается! Распаковка Claude Opus 4.6 и GPT-5.3-Codex Сегодня случилось редкое

Написано

Лифтовый вайб-чек возвращается! Распаковка Claude Opus 4.6 и GPT-5.3-Codex

Сегодня случилось редкое: Anthropic и OpenAI выкатили свои главные модели в один день. Claude Opus 4.6 и GPT-5.3-Codex — оба от 5 февраля почти подряд. Поэтому мой лифтовый бенчмарк возвращается. На видео протестил обе модели — и в веб-интерфейсе, и в Claude Code / Codex. По-моему, в этой задаче однозначный фаворит — Opus, но судите сами.

Коротко что в каждом релизе.

Claude Opus 4.6
— 1M токенов контекста (было 200k) — первый Opus с таким окном
— Agent Teams — несколько агентов параллельно на одной задаче
— Adaptive Thinking — сама решает когда думать глубже
— Claude в PowerPoint (превью)
— SOTA на агентном кодинге, бьет GPT-5.2 на 144 Elo
— Нашел 500 zero-day уязвимостей в open-source
— $5/$25 за 1M токенов
— блог-пост

GPT-5.3-Codex
— Первая модель, которая участвовала в собственном создании
— На 25% быстрее при меньшем расходе токенов
— Terminal-Bench: 77% (было 64%), OSWorld: 65% (было 38%, человек ~72%)
— Первая «High capability» для кибербезопасности + $10M на гранты
— Вышла за пределы кода: PRDs, презентации, аналитика
— Codex app для macOS — 500k загрузок за 3 дня
• блог-пост

Любопытно: ни один бенчмарк в анонсах напрямую не пересекается. Обе компании выбрали разные тесты, так что сравнить лоб в лоб по цифрам — нельзя.

По ощущениям, модели стали как будто быстрее, но Opus дотошный прямо стал — перепроверяет по несколько раз из-за этого сам процесс дольше.

Disclamer: это шуточный тест, не настоящий бенчмарк, и конечно надо тестить на разных задачах, Claude и так был хорош во фронтенде, а новый Codex надо бы потестить как архитектора и ревьювера еще, так что кто потестил сам — расскажите ваши впечатления — что удалось потестить и какие впечатления?

Лифтовый вайб-чек возвращается! Распаковка Claude Opus 4.6 и GPT-5.3-Codex Сегодня случилось редкое

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Типичная проблема программирования — работа с велосипедами. С ai coding стала еще актуальнее. ты

Анонсируем наш новый инструмент Расширение Oh My Lama для браузера! Все модели с сайта доступны п

AI, ML, DL engineer давай до свидания

Telegram и Instagram* работают в КНДР лучше, чем в России турист смотался в Пхеньян в феврале этого