Разбор SOTA агента от Ильи Рис — победителя ERC3 Ну что, друзья как начался ваш год Надеюсь, что хо

Разбор SOTA агента от Ильи Рис — победителя ERC3

Ну что, друзья как начался ваш год? Надеюсь, что хорошо и что вы отдыхаете!
Пока все отдыхают, мы с Ильей собрались и записали бомбическое интервью об архитектуре его AI-агента, который недавно взял первое место в соревновании ERC-3 Рината Абдуллина среди агентов на базе опенсорс моделей. В итоге получился великолепный материал по Context Engineering в мультиагентных системах. Поэтому хочется отдельно сказать спасибо Илье за такую открытость. Напомню, кстати, что статья Ильи про архитектуру его RAG системы, наверное, является наиболее залайканым материалом по RAG на Хабре за все время (+161!).

Мне было особенно интересно разобрать именно решение Ильи, т. к. мне часто приходится общаться с энтерпрайзами и банками, а они очень уж любят открытые модели и почти не используют проприетарные.
В общем, без лишних слов — тот редкий случай, когда множество инсайтов обеспечены даже матерым агентоводам.

Запись интервью-разбора: https://youtu.be/3JYHMMw5WSU

Таймкоды:
00:00:02 Вступление. Илья Rice и его победа в бенчмарке агентов ERC-3
00:06:03 Что из себя представляет соревнование ERC-3: симуляция энтерпрайз среды
00:13:39 Open Source решение и инструмент визуализации трейсов
00:18:07 Архитектура решения: определение пользователя (WhoAmI) и прав доступа
00:24:14 Динамический системный промпт: как не засорять контекст
00:38:06 Хак с пагинацией: Wrapper для API инструментов
00:41:14 Структура ответа агента: State, Plan, Action, Function
00:44:02 Почему отказались от нативного Tool Calling в пользу Structured Output
00:51:13 Стоит ли верить публичным бенчмаркам?
00:55:45 Разбор реального кейса: задача по смене статуса проекта
01:03:30 Почему не использовали классический RAG
01:05:58 Динамическая подгрузка инструкций для инструментов
01:11:14 Валидатор (The Validator): отдельная LLM для проверки действий агента
01:21:43 Работа с контекстом: работа с ошибками агента
01:33:20 Техника Sliding Window: обрезка истории для экономии внимания модели
01:36:05 Store Benchmark: Оркестратор и специализированные субагенты
01:44:26 Выбор моделей: почему Open Source
01:45:41 Заключение

Исходный код агента Ильи: https://github.com/IlyaRice/Enterprise-RAG-Challenge-3-AI-Agents
Трейсы агента: https://ilyarice.github.io/Enterprise-RAG-Challenge-3-AI-Agents/
Чат с исходным кодом агента в CodeAlive: https://app.codealive.ai/public/chat/3geNycM—lLbA3vxL272vA

P. S. А уже в этот вторник 6-го января в 12:00 по Лондону, 13:00 по CET, 15:00 по МСК и 17:00 по Алматы состоится встреча с Ибрагимом — автором SWE-бенчмарка SWE-rebench и автором тг-канала @c0mmit. Добавляйте событие в календарь, чтобы не пропустить.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *