Появились бенчи Gemini 3.1 Pro
Ребята, не смотря на провал в arena.ai бенчи у новой 3.1 очень крутые!
Пометил основные бенчи красным:
• HLE — 44.4% SOTA
• ARC-AGI-2 — не знаю, что за бенч, но прокачали с 31.1% до 77.1%
• Terminal-Bench 2: 68.5% — побольше, чем Opus 4.6 (а для него это основной бенч)
• SWE-Bench Verified — на 0.2% хуже Opus 4.6 (ну не дожали).
Кроме этого, стоит отметить, что Гугл очень сильно качают свои модели в естественных науках.
Так что, возможно, тест на арена.аи ну не самый лучший тест, чтобы раскрыть потенциал этой модели.

Добавить комментарий