Обзор рейтингов lmarena
В рейтингах особо без изменений, но:
1. Встречаем ньюкамера! Китайскиий голубой гигант Baidu на 5 версии модели ernie ворвался в топ, показав американцами, что с их монополией текстовой генирации на англ. языке покончено. Да, модель закрытая, но тем мне менее.
2. С доминированием ОпенАЙ полностью покончено. Да, GPT-5.2 удалось подтянуть по кодингу, но в текством рейтинге только 1 место из 10.
3. Ну и коенчо, любопытно увидеть на каких местах по кодингу модели за $0.51M:
DeepSeek v3.2 — 15 место с мышлением (что на уровне GLM-4.6 за $2.2) и на 23 без мышления (что на уровне claude-haiku-4-5 за $3)
grok-4-1-fast-reasoning на 28 месте, что на уровне mistral-large-3 (за $0.5) gemini-2.5-pro (который уже является устаревшим).
Чтоже, вот эти три модели кодирования:
DeepSeek v3.2
grok-4-1-fast-reasoning mistral-large-3
Формируют свою собственную ценовую категорию, полудолорвых моделей набирающих 1200-1300 elo.
Конечно, среди них явный лидер DeepSeek который не только на 16% дешевле конкурентов, но при этом набирает на 5% больше баллов.
А это между прочим уровень лучшей закрытой модели мая 2025 года! Т.е. меньше чем за код цена инференса упала в 23,8 раза!!!
Ждем развития тренда в 2026 году!

Добавить комментарий