Обзор рейтингов lmarena В рейтингах особо без изменений, но: 1. Встречаем ньюкамера! Китайскиий го

Написано

Обзор рейтингов lmarena

В рейтингах особо без изменений, но:

1. Встречаем ньюкамера! Китайскиий голубой гигант Baidu на 5 версии модели ernie ворвался в топ, показав американцами, что с их монополией текстовой генирации на англ. языке покончено. Да, модель закрытая, но тем мне менее.

2. С доминированием ОпенАЙ полностью покончено. Да, GPT-5.2 удалось подтянуть по кодингу, но в текством рейтинге только 1 место из 10.

3. Ну и коенчо, любопытно увидеть на каких местах по кодингу модели за $0.51M:
DeepSeek v3.2 — 15 место с мышлением (что на уровне GLM-4.6 за $2.2) и на 23 без мышления (что на уровне claude-haiku-4-5 за $3)

grok-4-1-fast-reasoning на 28 месте, что на уровне mistral-large-3 (за $0.5) gemini-2.5-pro (который уже является устаревшим).

Чтоже, вот эти три модели кодирования:
DeepSeek v3.2
grok-4-1-fast-reasoning mistral-large-3

Формируют свою собственную ценовую категорию, полудолорвых моделей набирающих 1200-1300 elo.

Конечно, среди них явный лидер DeepSeek который не только на 16% дешевле конкурентов, но при этом набирает на 5% больше баллов.

А это между прочим уровень лучшей закрытой модели мая 2025 года! Т.е. меньше чем за код цена инференса упала в 23,8 раза!!!

Ждем развития тренда в 2026 году!

https://lmarena.ai/leaderboard/webdev

Обзор рейтингов lmarena В рейтингах особо без изменений, но: 1. Встречаем ньюкамера! Китайскиий го

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Telegram пометил всех пользователей Telega у юзеров неофициальных клиентов стала появляться плашка

Протестировал Qwen 3.6 Plus Оценка 3 из 5 (Может ему не свезло и если делать 10 шотов, то результат

Grok Heavy самая бессмысленная подписка в мире Оформил её, чтобы протестировать Heavy-модель, и ос

Кооп завезли в Mount & Blade 2 коммьюнити буквально умоляло разрабов выкатить эту фичу и они вы