Сейчас кодил в Claude Code вместе с Opus 4.6 Max Thinking, и он выдал мне… это. И уже пятый день

Написано

Сейчас кодил в Claude Code вместе с Opus 4.6 Max Thinking, и он выдал мне… это.

И уже пятый день я вынужден пользоваться Claude Code, так как недельный лимит на Codex у меня кончился. И чем дольше им пользуюсь, тем сильнее меня раздражает одно: Claude слишком ненадёжен и непредсказуем. Его ответы часто звучат одинаково уверенно — и тогда, когда он прав, и тогда, когда он ошибается

Типичный Claude — это когда он:
• пишет, что «исправил баг», и очень убедительно придумывает причину, в которую легко поверить, аж подумаешь «вау, какой он умный!!!»;
• начинает финальный ответ со слов типа «всё готово», а в конце внезапно вспоминает, что что-то забыл доделать. И это ещё в лучшем случае: часто он вообще забывает, что не доделал задачу, и об этом ты не узнаешь;
• находит проблему, начинает её исправлять, а после вопроса «нужно ли было это делать?» сам же признаёт, что просто раздул код, не сделав ничего полезного

С моделями OpenAI начиная с GPT-5 у меня обратное ощущение: я могу дать задачу и быть на 99,9% уверенным, что она будет доведена до конца. Да, код может быть неидеальным, что-то может не заработать с первого раза, но по крайней мере модель остаётся честной на протяжении всей работы, не врёт и не болеет синдромом «Ты абсолютно прав!»

И очень плохо, что последствия такого подхода мы всё чаще видим в продуктах крупных компаний: например, в последних обновлениях Telegram или той же Windows то и дело появляются нелепые баги и утечки памяти, созданные моделями Anthropic. Складывается ощущение, что разработчики ведутся на уверенные ответы Claude и пускают его код в основную кодбазу без должной проверки. Неспроста появляются посты про то, как Claude прошил человеку Xiaomi так, что тот превратился в кирпич. Уж лучше бы они все массово пересели на GPT, таких казусов бы не было 🥺

Не спорю: в отдельных задачах кодинга Claude может быть лучше GPT, особенно если очень заморочиться — глубоко анализировать написанный им код, писать большие промпты… Правда, 99% пользователей Claude этим заниматься не будут: как минимум это долго, а как максимум — они часто и не видят проблем в его ответах и просто верят ему. С Claude слишком часто приходится гадать: он реально хорошо справился или просто очень убедительно наврал? Хуже всего то, что внешне эти два ответа часто неотличимы. Так что я лучше выберу GPT 5.4 в Codex. Такие дела!

Сейчас кодил в Claude Code вместе с Opus 4.6 Max Thinking, и он выдал мне… это. И уже пятый день

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Telegram пометил всех пользователей Telega у юзеров неофициальных клиентов стала появляться плашка

Протестировал Qwen 3.6 Plus Оценка 3 из 5 (Может ему не свезло и если делать 10 шотов, то результат

Grok Heavy самая бессмысленная подписка в мире Оформил её, чтобы протестировать Heavy-модель, и ос

Кооп завезли в Mount & Blade 2 коммьюнити буквально умоляло разрабов выкатить эту фичу и они вы