Пятничный эксперимент: тестовое задание пятилетней давности vs ChatGPT, Claude и Gemini. А так же немного про промптинг.
Откопал наше тестовое задание для фронтендеров 2020 года — симулятор лифта на 5 этажей с анимациями, очередью вызовов и всей логикой. Тогда это считалось сложным заданием на джуниора: из 10 кандидатов дай бог один сдавал что-то рабочее. Сейчас тестовые не даем, процесс собеседования сильно поменялся, но задание попалось на глаза и я подумал — а что если скормить его AI-тулам как есть?
Как есть — это прям аттач PDF-ки и «Разработай веб-приложение по этому заданию».
Закинул в ChatGPT, Claude и Gemini. Как-то справились все три, но с разным качеством. На всех — платные подписки, максимально доступная мне модель.
— ChatGPT выдал симпатичный лифт в канвасе, но он не едет. Но надо сказать что у меня подписка Plus, их Pro модель там недоступна.
— Gemini выдал уже работающий лифт в канвасе, но со странной анимацией и дизайном и учел не все требования. AI Studio как ни странно оказался не лучше, лифт не поехал.
Claude выдал единственный результат где реально работало: лифт едет, двери открывались и закрывались логично, очередь вызовов обрабатывалась правильно. Выглядит симпатично. Правда, зачем-то снижал скорость между этажами.
Все примеры выше — one-shot. Плюс, я осознанно не стал использовать Claude Code, Codex или Cursor — во-первых пятница — хотелось легкости эксперимента: закинул ТЗ как есть и смотрю что получится. Понятно что агенты с нужным тулингом справились бы куда лучше.
Зато теперь у меня есть личный бенчмарк для проверки новых кодинг-моделей — буду давать им эту задачку и смотреть что выйдет))
Само ТЗ тут, если нужно для экспериментов. Вообще, надо сказать — задача не такая тривиальная как может показаться — если начать тестить там будет очень много багов, но джуны и с этим не справлялись)
Кстати, уже после написания черновика попался на глаза свежий промптинг-гайд от Vercel: How to prompt v0, решил применить его (вот финальный промпт), и знаете что? Справились заметно лучше: ChatGPT, Gemini, Claude.
Что тут сказать? Тестовые задания практически не имеют смысла, промтинг решат, а Opus тащит в кодинге)
Добавить комментарий