Лифтовый вайб-чек возвращается! Распаковка Claude Opus 4.6 и GPT-5.3-Codex
Сегодня случилось редкое: Anthropic и OpenAI выкатили свои главные модели в один день. Claude Opus 4.6 и GPT-5.3-Codex — оба от 5 февраля почти подряд. Поэтому мой лифтовый бенчмарк возвращается. На видео протестил обе модели — и в веб-интерфейсе, и в Claude Code / Codex. По-моему, в этой задаче однозначный фаворит — Opus, но судите сами.
Коротко что в каждом релизе.
Claude Opus 4.6
— 1M токенов контекста (было 200k) — первый Opus с таким окном
— Agent Teams — несколько агентов параллельно на одной задаче
— Adaptive Thinking — сама решает когда думать глубже
— Claude в PowerPoint (превью)
— SOTA на агентном кодинге, бьет GPT-5.2 на 144 Elo
— Нашел 500 zero-day уязвимостей в open-source
— $5/$25 за 1M токенов
— блог-постGPT-5.3-Codex
— Первая модель, которая участвовала в собственном создании
— На 25% быстрее при меньшем расходе токенов
— Terminal-Bench: 77% (было 64%), OSWorld: 65% (было 38%, человек ~72%)
— Первая «High capability» для кибербезопасности + $10M на гранты
— Вышла за пределы кода: PRDs, презентации, аналитика
— Codex app для macOS — 500k загрузок за 3 дня
• блог-постЛюбопытно: ни один бенчмарк в анонсах напрямую не пересекается. Обе компании выбрали разные тесты, так что сравнить лоб в лоб по цифрам — нельзя.
По ощущениям, модели стали как будто быстрее, но Opus дотошный прямо стал — перепроверяет по несколько раз из-за этого сам процесс дольше.
Disclamer: это шуточный тест, не настоящий бенчмарк, и конечно надо тестить на разных задачах, Claude и так был хорош во фронтенде, а новый Codex надо бы потестить как архитектора и ревьювера еще, так что кто потестил сам — расскажите ваши впечатления — что удалось потестить и какие впечатления?
Добавить комментарий