Критерии оценки ИИ-агентов Мы окончательно вошли в пост-бенчмарк эру, и формальные бенчи LLMагентов

Критерии оценки ИИ-агентов

Мы окончательно вошли в пост-бенчмарк эру, и формальные бенчи LLM/агентов дают всё меньше ценности.
Так что у меня выработались субъективные, вайб-метрики (пусть даже некоторые и выведены из численных/качественных показателей).

Методика простая: есть ряд отложенных типовых проектов/задач + повседневные рабочие задачи, которые я даю тестируемым агентам в параллель и сравниваю результаты.

Оцениваю я работу именно агентов, и используются только родные, вендорские обвязки (к примеру, Claude Code / Codex CLI).

Оценки по каждому из критериев от 1 до 10, и выставляются относительно лучшего агента из сравниваемых (т.е. 10 ≠ абсолют).

База

● Ризонинг
Способность к многоходовым логическим цепочкам, нетривиальным выводам, пониманию неочевидных зависимостей, глубина мышления.

● Работа с контекстом
Удержание, экономность использования, галлюцинации, способность проносить важные детали через компактизации.

● Следование инструкциям
… плюс способность их принимать во внимание все разом, внимание к мелочам, управляемость.

● Агентность
Автономное выполнение задач с эффективным использованием выданных инструментов (и создание своих на ходу), а также способность доводить работу до конца.

Способности

● Планирование
Анализ требований, их непротиворечивости и осуществимости, с граундингом на существующий проект, адекватная разбивка по этапам и задачам.

● Архитектура
Способность понимать, оперировать и следовать архитектурным концепциям и установленным границам, предлагать неконфликтующие изменения.

● Рефакторинг
Понимание типовых рефакторингов, code smells и способность делать аккуратные изменения в существующей кодовой базе, не ломая проект и не оставляя хвостов.

● Трейсинг (расследование)
Умение качественно «идти по следу», когда нужно раскопать какой-то баг, найти проблемы с безопасностью, провести code review.

Эксплуатация

● Инструментарий
Возможности и удобства, предоставляемые пользователю агента, кастомизация воркфлоу, автоматизация (SDK, App Server), набор интерфейсов (CLI / GUI / Web).

● Стабильность
Насколько стабилен и повторяем выдаваемый результат с т.з. качества на схожих задачах.

● Скорость
Тут как размышления, так и генерация токенов, и в целом скорость внесения изменений в проект.

● Экономность
Насколько много агент тратит токенов на успешное решение задачи и насколько это дорого выходит.

● Софт-скиллы?
Суровый ботан или восторженный подхалим? Ну нееет, это отдельная тема, как-нибудь потом 🙂

—

Прошлые обзоры можно посмотреть по тегу: #review

Критерии оценки ИИ-агентов Мы окончательно вошли в пост-бенчмарк эру, и формальные бенчи LLMагентов

Комментарии

Добавить комментарий Отменить ответ

Больше записей

AI, ML, DL engineer давай до свидания

Telegram и Instagram* работают в КНДР лучше, чем в России турист смотался в Пхеньян в феврале этого

РКН, когда понял, что интернет в КНДР ещё хуже Бэкдор

Россия заняла предпоследнее место в мире по свободе интернета и обогнала только Северную Корею у на