Подписчик несколько раз прислал ссылку на видео, со словами Вот какие задания нужно использовать в т

Написано

Подписчик несколько раз прислал ссылку на видео, со словами «Вот какие задания нужно использовать в тестах»

Чтож, спасибо за видео! Теперь когда я сам протестировал Кими, могу дать развернутый ответ!

У меня конечно сильно пригорело, что автор сравнивает просто не сравнимое Kimi K2.5 vs Codex 5.2 и Opus 4.5.

На самом деле, даже Codex нельзя сравнивать с Opus, т.е. у Кодекса цена $14, а у Опуса $25 и правильно сравнивать Codex с Sonnet, и если Кодекс его разорвет, то так тому и быть, потому что в одну цену. Но, Кодекс работает намного-намого медленнее, это, наверное, уже общеизвестный факт.

В целом задания для теста выбраны не плохие, интересные. Но, в моих экспириментах:
• Изображение галактики М31 не требуется, современные ЛЛМ и так неплохо знают как она выглядит.
• В подключении скрипта для управления жестами ничего сложного нет. Все модели справляются с этим с первого шота, ну да, зрелищьности добавляет.

Как я писал ранее, не понравилась во обоих заданиях есть 3д иили физика. В моих бэкэнд приложениях ничего этого нет. От модели не требуется понимания физики реального мира, чтобы писать Телеграм ботов.

Но, эти примеры вдохновили меня на то, чтобы найти задание с Нокия 3310, что что автору видео и тому, кто прислал, конечно, огромное спасибо!

Ну и главная моя критика, что судя по видео, для каждого теста выполняется по одной попытке, т.к. получается, что Кими в преимуществе, т.к. получает по 2 попытки (одна в КимиКоде, вторая в ОпенКоде), и если с первой попытки не срабатывает — то автор делает довольно странные выводы о том, что Codex вообще не рабоатет (хотя это топовая модель по программированию, покруче, чем Gemini 3.0 Pro), хотя даже Sonnet делает 5 телефонов из 5 правильно (в отличии от Kimi и GLM), я уже про Opus молчу.

По моим наблюдениям, Codex вообще не очень хорошо делает 3д особенно в HTML Canvas. В первом тесте автор говорит, что Кодекс ему понравился больше, чем Kimi.

Так-то по хорошему, надо давать моделям более разнооразыные тесты (как делает этот AICodeKing в своих видео).

Выводы:
• Kimi K2.5 модель хорошая и быстрая.
• Сравнивать ее надо с китайскими конкурентами GLM-5, MiniMax M2.5 и DeepSeek.
• Модели серии Opus вообще дожны идти вне программы в разделе «для богатых у меня безлимит». Особенно раньше, когда цена какая-то безумная была $75 (сейчас $25).

В конце автор говорит правильные вещи:
• Haggin Face сейчас раздают Kimi K2.5 бесплатно
• В КимиКоде есть бесплатный триал 1 неделя.

Рекомендую к просмотру:
https://www.youtube.com/watch?v=IjjMsfhJEcE

Подписчик несколько раз прислал ссылку на видео, со словами Вот какие задания нужно использовать в т

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Telegram пометил всех пользователей Telega у юзеров неофициальных клиентов стала появляться плашка

Протестировал Qwen 3.6 Plus Оценка 3 из 5 (Может ему не свезло и если делать 10 шотов, то результат

Grok Heavy самая бессмысленная подписка в мире Оформил её, чтобы протестировать Heavy-модель, и ос

Кооп завезли в Mount & Blade 2 коммьюнити буквально умоляло разрабов выкатить эту фичу и они вы