Какие задачи AI ускоряет и на сколько?
Anthropic пару недель назад выпустили новый экономический рисерч, и вот что мне показалось интересным
▪️ Чем выше уровень образования, требуемый для задачи, тем сильнее AI ускоряет работу. Задачи уровня средней школы ускоряются в 9 раз, а уровня колледжа — в 12 раз. Это подтверждает, что выгоду от AI получают в основном высококвалифицированные специалисты.
▪️ С ростом сложности надежность падает, но незначительно (с 70% для простых задач до 66% для сложных), поэтому общий эффект ускорения остается положительным.
▪️ Пользователи Claude выполняют задачи, требующие гораздо больше времени, чем предполагают синтетические бенчмарки
Тут разберём чуть подробнее
Бенчмарк METR показывает, что Sonnet 4.5 достигает успеха в 50% в задачах, которые занимают 2 часа.
Исследователи Anthropic взяли данные своих пользователей, которые используют их API (в основном, это enterprise пользователи) и Claude.ai (пользователи продуктов Claude Desktop и Claude Code) и вот, что они обнаружили.
▪️ Enterprise пользователи достигают успеха в 50% задачах, которые длятся около 3.5 часов
▪️ Пользователи Claude.ai (Claude Code) достигают успеха в 50% задачах, которые длятся около 19 часов
Различие с данными бенчмарка METR исследователи объясняют разными методологиями подсчёта результатов.
В их сэмплах пользователи декомпозируют сложные задачи на маленькие шаги, создают feedback loop, который направляет Claude на нужный курс. А так же, исследователи говорят, что сэмплы содержат selection bias — юзеры дают Claude задачки, в которых уверены, что Claude их решит.
В это число, 19 часов на задачу, мне верится с трудом. Я думаю, такого результата достигают только 1 из 10000 пользователей Claude Code (я пока ещё не достиг)
Но нам важно другое, здесь стоит обратить внимание именно на подход — декомпозируем задачи и даём feedback loop.
Это действительно повышает эффективность работы в AI coding, я об этом говорил весь прошлый год, и в том числе в моей лекции про подход Plan&Act.
Декомпозиция позволит проще оценивать и делегировать задачи, а feedback loop даст возможность проверять эти задачи сразу же, получать фидбек от системы и исправлять ошибки.
Если вы всё ещё не внедрили это у себя, то пора это сделать.
Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!

Добавить комментарий