Какие-то итоги тестирования китацы vs американцы 1. Opus 4.6 и GPT 5.4 — 5 из 5 (стоят по $12-25 за

Написано

Какие-то итоги тестирования китацы vs американцы

1. Opus 4.6 и GPT 5.4 — 5 из 5 (стоят по $12-25 за 1M)
2. GLM5.15, Kimi K2.5 — 4-4.5 из 5 (стоят $2.2-4.4 за 1М)
3. Qwen 3.6, Minimax M2.7 и остальные 3 из 5
4. Устаревшие модели GPT-4.1 и др. 0 из 5

Как показывает практика, в таких простых задачах количество мышления особо на результат не влияет. Мышление влияет на число допускаемых ошибок.

Тут такая делема, что по времениденьгам?

Написать доп. промпт «Экран не ровный исправь», но это происходит в 20%-40% случаев, а не каждый раз, и может быть намного намного дешевле, писать доп. пропты, потому что все равно за ними все тестировать нужно.

Для простых задач: «принеси подай», «закомить и запуш», «прогони тесты». — смело выбираем китайцев. Главное все так организовать, чтобы им как можно было меньше пространства ошибиться.

С другой стороны остается вопросик:

А что будет если Opus 4.6 напишет подробный план, а GPT-5.4 потом реализует? (Какой в этом сллучае будет дизайн?)

Какие-то итоги тестирования китацы vs американцы 1. Opus 4.6 и GPT 5.4 — 5 из 5 (стоят по $12-25 за

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Реддит удивляет интересным взглядом на ситуацию с агентами и вайб-кодингом. Только в отличии от рабо

Россиян начали карать за смайл Какашка ростовчанину впаяли штраф в 30 000 рублей за то, что он пост

Хороший вопрос задал подписчик в чате Будем постепенно двигаться в этом направлении. Только я не о

Теперь Клод Код может сам себе писать промпты В последних версиях добавлии ScheduleWakeup — этот ме