Критерии оценки ИИ-агентов Мы окончательно вошли в пост-бенчмарк эру, и формальные бенчи LLMагентов

Критерии оценки ИИ-агентов

Мы окончательно вошли в пост-бенчмарк эру, и формальные бенчи LLM/агентов дают всё меньше ценности.
Так что у меня выработались субъективные, вайб-метрики (пусть даже некоторые и выведены из численных/качественных показателей).

Методика простая: есть ряд отложенных типовых проектов/задач + повседневные рабочие задачи, которые я даю тестируемым агентам в параллель и сравниваю результаты.

Оцениваю я работу именно агентов, и используются только родные, вендорские обвязки (к примеру, Claude Code / Codex CLI).

Оценки по каждому из критериев от 1 до 10, и выставляются относительно лучшего агента из сравниваемых (т.е. 10 ≠ абсолют).

База

Ризонинг
Способность к многоходовым логическим цепочкам, нетривиальным выводам, пониманию неочевидных зависимостей, глубина мышления.

Работа с контекстом
Удержание, экономность использования, галлюцинации, способность проносить важные детали через компактизации.

Следование инструкциям
… плюс способность их принимать во внимание все разом, внимание к мелочам, управляемость.

Агентность
Автономное выполнение задач с эффективным использованием выданных инструментов (и создание своих на ходу), а также способность доводить работу до конца.

Способности

Планирование
Анализ требований, их непротиворечивости и осуществимости, с граундингом на существующий проект, адекватная разбивка по этапам и задачам.

Архитектура
Способность понимать, оперировать и следовать архитектурным концепциям и установленным границам, предлагать неконфликтующие изменения.

Рефакторинг
Понимание типовых рефакторингов, code smells и способность делать аккуратные изменения в существующей кодовой базе, не ломая проект и не оставляя хвостов.

Трейсинг (расследование)
Умение качественно «идти по следу», когда нужно раскопать какой-то баг, найти проблемы с безопасностью, провести code review.

Эксплуатация

Инструментарий
Возможности и удобства, предоставляемые пользователю агента, кастомизация воркфлоу, автоматизация (SDK, App Server), набор интерфейсов (CLI / GUI / Web).

Стабильность
Насколько стабилен и повторяем выдаваемый результат с т.з. качества на схожих задачах.

Скорость
Тут как размышления, так и генерация токенов, и в целом скорость внесения изменений в проект.

Экономность
Насколько много агент тратит токенов на успешное решение задачи и насколько это дорого выходит.

Софт-скиллы?
Суровый ботан или восторженный подхалим? Ну нееет, это отдельная тема, как-нибудь потом 🙂

Прошлые обзоры можно посмотреть по тегу: #review

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *