Какие задачи AI ускоряет и на сколько Anthropic пару недель назад выпустили новый экономический рис

Какие задачи AI ускоряет и на сколько?

Anthropic пару недель назад выпустили новый экономический рисерч, и вот что мне показалось интересным

▪️ Чем выше уровень образования, требуемый для задачи, тем сильнее AI ускоряет работу. Задачи уровня средней школы ускоряются в 9 раз, а уровня колледжа — в 12 раз. Это подтверждает, что выгоду от AI получают в основном высококвалифицированные специалисты.

▪️ С ростом сложности надежность падает, но незначительно (с 70% для простых задач до 66% для сложных), поэтому общий эффект ускорения остается положительным.

▪️ Пользователи Claude выполняют задачи, требующие гораздо больше времени, чем предполагают синтетические бенчмарки

Тут разберём чуть подробнее

Бенчмарк METR показывает, что Sonnet 4.5 достигает успеха в 50% в задачах, которые занимают 2 часа.

Исследователи Anthropic взяли данные своих пользователей, которые используют их API (в основном, это enterprise пользователи) и Claude.ai (пользователи продуктов Claude Desktop и Claude Code) и вот, что они обнаружили.

▪️ Enterprise пользователи достигают успеха в 50% задачах, которые длятся около 3.5 часов
▪️ Пользователи Claude.ai (Claude Code) достигают успеха в 50% задачах, которые длятся около 19 часов

Различие с данными бенчмарка METR исследователи объясняют разными методологиями подсчёта результатов.

В их сэмплах пользователи декомпозируют сложные задачи на маленькие шаги, создают feedback loop, который направляет Claude на нужный курс. А так же, исследователи говорят, что сэмплы содержат selection bias — юзеры дают Claude задачки, в которых уверены, что Claude их решит.

В это число, 19 часов на задачу, мне верится с трудом. Я думаю, такого результата достигают только 1 из 10000 пользователей Claude Code (я пока ещё не достиг)

Но нам важно другое, здесь стоит обратить внимание именно на подход — декомпозируем задачи и даём feedback loop.
Это действительно повышает эффективность работы в AI coding, я об этом говорил весь прошлый год, и в том числе в моей лекции про подход Plan&Act.

Декомпозиция позволит проще оценивать и делегировать задачи, а feedback loop даст возможность проверять эти задачи сразу же, получать фидбек от системы и исправлять ошибки.

Если вы всё ещё не внедрили это у себя, то пора это сделать.

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *