Opus 4.6 прокачали знатно Gemini 3.0 Pro порван и унчитожен. А вот GPT-5.Х-Codex еще трепыхается…

Написано

Opus 4.6 прокачали знатно

Gemini 3.0 Pro порван и унчитожен. А вот GPT-5.Х-Codex еще трепыхается…

GPT-5.3-Codex в Terminal-Bench 2.0 набирает 77.3%… что намного намного больше!

Но, как это будет работать в реальных задачах?

И вот тут незадача, GPT-5.Х-Codex их вообще ну нету на arena.ai — и вот как хочешь, так и тестируй.

Больше записей