Критерии оценки ИИ-агентов
Пока дописывается обзор на GPT-5.3 Codex и Opus 4.6, перечислю критерии, которые для меня сейчас важны при выборе агентов для разработки.
Мы окончательно вошли в пост-бенчмарк эру, и формальные бенчи LLM/агентов дают всё меньше ценности.
Так что у меня выработались субъективные, вайб-метрики (пусть даже некоторые и выведены из численных/качественных показателей).
Методика простая: есть ряд отложенных типовых проектов/задач + повседневные рабочие задачи, которые я даю тестируемым агентам в параллель и сравниваю результаты.
Оцениваю я работу именно агентов, и используются только родные, вендорские обвязки (к примеру, Claude Code / Codex CLI).
Оценки по каждому из критериев от 1 до 10, и выставляются относительно лучшего агента из сравниваемых (т.е. 10 ≠ абсолют).
База
● Ризонинг
Способность к многоходовым логическим цепочкам, нетривиальным выводам, пониманию неочевидных зависимостей, глубина мышления.
● Работа с контекстом
Удержание, экономность использования, галлюцинации, способность проносить важные детали через компактизации.
● Следование инструкциям
… плюс способность их принимать во внимание все разом, внимание к мелочам, управляемость.
● Агентность
Автономное выполнение задач с эффективным использованием выданных инструментов (и создание своих на ходу), а также способность доводить работу до конца.
Способности
● Планирование
Анализ требований, их непротиворечивости и осуществимости, с граундингом на существующий проект, адекватная разбивка по этапам и задачам.
● Архитектура
Способность понимать, оперировать и следовать архитектурным концепциям и установленным границам, предлагать неконфликтующие изменения.
● Рефакторинг
Понимание типовых рефакторингов, code smells и способность делать аккуратные изменения в существующей кодовой базе, не ломая проект и не оставляя хвостов.
● Трейсинг (расследование)
Умение качественно «идти по следу», когда нужно раскопать какой-то баг, найти проблемы с безопасностью, провести code review.
Эксплуатация
● Инструментарий
Возможности и удобства, предоставляемые пользователю агента, кастомизация воркфлоу, автоматизация (SDK, App Server), набор интерфейсов (CLI / GUI / Web).
● Стабильность
Насколько стабилен и повторяем выдаваемый результат с т.з. качества на схожих задачах.
● Скорость
Тут как размышления, так и генерация токенов, и в целом скорость внесения изменений в проект.
● Экономность
Насколько много агент тратит токенов на успешное решение задачи и насколько это дорого выходит.
● Софт-скиллы?
Суровый ботан или восторженный подхалим? Ну нееет, это отдельная тема, как-нибудь потом 🙂
—
P.S. обзор сегодня.
Прошлые обзоры можно посмотреть по тегу: #review
Добавить комментарий