Какие-то итоги тестирования китацы vs американцы
1. Opus 4.6 и GPT 5.4 — 5 из 5 (стоят по $12-25 за 1M)
2. GLM5.15, Kimi K2.5 — 4-4.5 из 5 (стоят $2.2-4.4 за 1М)
3. Qwen 3.6, Minimax M2.7 и остальные 3 из 5
4. Устаревшие модели GPT-4.1 и др. 0 из 5
Как показывает практика, в таких простых задачах количество мышления особо на результат не влияет. Мышление влияет на число допускаемых ошибок.
Тут такая делема, что по времениденьгам?
Написать доп. промпт «Экран не ровный исправь», но это происходит в 20%-40% случаев, а не каждый раз, и может быть намного намного дешевле, писать доп. пропты, потому что все равно за ними все тестировать нужно.
Для простых задач: «принеси подай», «закомить и запуш», «прогони тесты». — смело выбираем китайцев. Главное все так организовать, чтобы им как можно было меньше пространства ошибиться.
С другой стороны остается вопросик:
А что будет если Opus 4.6 напишет подробный план, а GPT-5.4 потом реализует? (Какой в этом сллучае будет дизайн?)
Добавить комментарий