Opus 4.6 прокачали знатно
Gemini 3.0 Pro порван и унчитожен. А вот GPT-5.Х-Codex еще трепыхается…
GPT-5.3-Codex в Terminal-Bench 2.0 набирает 77.3%… что намного намного больше!
Но, как это будет работать в реальных задачах?
И вот тут незадача, GPT-5.Х-Codex их вообще ну нету на arena.ai — и вот как хочешь, так и тестируй.

Добавить комментарий