Появились бенчи Gemini 3.1 Pro Ребята, не смотря на провал в arena.ai бенчи у новой 3.1 очень круты

Появились бенчи Gemini 3.1 Pro

Ребята, не смотря на провал в arena.ai бенчи у новой 3.1 очень крутые!

Пометил основные бенчи красным:
• HLE — 44.4% SOTA
• ARC-AGI-2 — не знаю, что за бенч, но прокачали с 31.1% до 77.1%
• Terminal-Bench 2: 68.5% — побольше, чем Opus 4.6 (а для него это основной бенч)
• SWE-Bench Verified — на 0.2% хуже Opus 4.6 (ну не дожали).

Кроме этого, стоит отметить, что Гугл очень сильно качают свои модели в естественных науках.

Так что, возможно, тест на арена.аи ну не самый лучший тест, чтобы раскрыть потенциал этой модели.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *