Пятничный эксперимент: тестовое задание пятилетней давности vs ChatGPT, Claude и Gemini. А так же не

Пятничный эксперимент: тестовое задание пятилетней давности vs ChatGPT, Claude и Gemini. А так же немного про промптинг.

Откопал наше тестовое задание для фронтендеров 2020 года — симулятор лифта на 5 этажей с анимациями, очередью вызовов и всей логикой. Тогда это считалось сложным заданием на джуниора: из 10 кандидатов дай бог один сдавал что-то рабочее. Сейчас тестовые не даем, процесс собеседования сильно поменялся, но задание попалось на глаза и я подумал — а что если скормить его AI-тулам как есть?

Как есть — это прям аттач PDF-ки и «Разработай веб-приложение по этому заданию».

Закинул в ChatGPT, Claude и Gemini. Как-то справились все три, но с разным качеством. На всех — платные подписки, максимально доступная мне модель.

— ChatGPT выдал симпатичный лифт в канвасе, но он не едет. Но надо сказать что у меня подписка Plus, их Pro модель там недоступна.

— Gemini выдал уже работающий лифт в канвасе, но со странной анимацией и дизайном и учел не все требования. AI Studio как ни странно оказался не лучше, лифт не поехал.

Claude выдал единственный результат где реально работало: лифт едет, двери открывались и закрывались логично, очередь вызовов обрабатывалась правильно. Выглядит симпатично. Правда, зачем-то снижал скорость между этажами.

Все примеры выше — one-shot. Плюс, я осознанно не стал использовать Claude Code, Codex или Cursor — во-первых пятница — хотелось легкости эксперимента: закинул ТЗ как есть и смотрю что получится. Понятно что агенты с нужным тулингом справились бы куда лучше.

Зато теперь у меня есть личный бенчмарк для проверки новых кодинг-моделей — буду давать им эту задачку и смотреть что выйдет))

Само ТЗ тут, если нужно для экспериментов. Вообще, надо сказать — задача не такая тривиальная как может показаться — если начать тестить там будет очень много багов, но джуны и с этим не справлялись)

Кстати, уже после написания черновика попался на глаза свежий промптинг-гайд от Vercel: How to prompt v0, решил применить его (вот финальный промпт), и знаете что? Справились заметно лучше: ChatGPT, Gemini, Claude.

Что тут сказать? Тестовые задания практически не имеют смысла, промтинг решат, а Opus тащит в кодинге)

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *