Появились бенчи Gemini 3.1 Pro Ребята, не смотря на провал в arena.ai бенчи у новой 3.1 очень круты

Написано

Появились бенчи Gemini 3.1 Pro

Ребята, не смотря на провал в arena.ai бенчи у новой 3.1 очень крутые!

Пометил основные бенчи красным:
• HLE — 44.4% SOTA
• ARC-AGI-2 — не знаю, что за бенч, но прокачали с 31.1% до 77.1%
• Terminal-Bench 2: 68.5% — побольше, чем Opus 4.6 (а для него это основной бенч)
• SWE-Bench Verified — на 0.2% хуже Opus 4.6 (ну не дожали).

Кроме этого, стоит отметить, что Гугл очень сильно качают свои модели в естественных науках.

Так что, возможно, тест на арена.аи ну не самый лучший тест, чтобы раскрыть потенциал этой модели.

Появились бенчи Gemini 3.1 Pro Ребята, не смотря на провал в arena.ai бенчи у новой 3.1 очень круты

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Telegram пометил всех пользователей Telega у юзеров неофициальных клиентов стала появляться плашка

Протестировал Qwen 3.6 Plus Оценка 3 из 5 (Может ему не свезло и если делать 10 шотов, то результат

Grok Heavy самая бессмысленная подписка в мире Оформил её, чтобы протестировать Heavy-модель, и ос

Кооп завезли в Mount & Blade 2 коммьюнити буквально умоляло разрабов выкатить эту фичу и они вы