Kimi K2.5 сравниваем с GLM-4.7 Почему именно с Zhipu AI спросите вы Потому что, GLM-4.7 действующий

Kimi K2.5 сравниваем с GLM-4.7

Почему именно с Zhipu AI спросите вы? Потому что, GLM-4.7 действующий чемпион в открытом весе на lmarena c фантастическими 1445 elo, что сопостовимо по цене с Flash 3 от известного техногиганта. Следом за ним идет претендент Минимакс М2.1 с 1414 ело.

Сколько при этом наберет Кими? А хто его занет сколько? Обычно надо ждать неделю-две прежде чем модель добавять в опенроутер и юзеры лмарена смогут ее протестировать как следует.

Остается сравнивать только по SWE bench
K2.5: 76.8
GLM 4.7: 73.8
Минимакс M2.1: 74
Deepseek V3.2: 73.1

Как видим, Минимакс набирает даже на 0.2 очка больше, но по ело чуть хуже. Deepseek набирает на 0.8 баллов меньше, но по ело значительно хуже — 15 место.

Да модель хорошая, топовая.

Стоит ли поддаваться хайпу и бежать тестирвать? Думаю не стоит. Ничего прямо супер революционного по бенчам Кими не показали, их результат только третий на рынке, а уже февраль 2026. Сейчас ждем, что нам в течении 2х недель покажет Deepseek (они обещают всех поравать по цене и качеству). Ну и чем на это ответит Антропик.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *