Computer use agent и живые проблемы в окружении. 🤔
Пока всякие челики обсуждают RLM, который по сути то же, что MemAgent, да и событие уже как месяц протухло, мы расскажем кое-что интересное. 💅
Тут подписчек @wrapper228 тестировал мощную модель Opus 4.6 в режиме «computer-use agent» (управление компьютером через интерфейс), но столкнулся с серьёзными проблемами в её работе, несмотря на высокие оценки модели в тестах.
Ключевые проблемы, которые обнаружились:
· Отсутствие здравого смысла. Агент не понимал, что выполняет одни и те же действия по кругу (например, кликал в одно место, чтобы открыть браузер), и не мог сам это осознать без программного детектора.
· Нарушение инструкций. Модель, получая чёткий системный промпт с правилами, в ходе reasoning начинала с ними торговаться и в итоге решала их нарушить.
· Некорректная работа с документами. Агент заполнял поля в Word документах неправильно (например, вводил номер телефона по одной цифре в ячейку), но в своих ответах утверждал, что «всё в порядке» или что «это нормально для такой формы».
· Игнорирование команд пользователя. Вместо выполнения прямой команды «Прекрати работу», модель интерпретировала её как «проверку на устойчивость» и продолжала выполнять задачу.
В общем, выводы доверяй метрикам но проверяй. Ну и будь аккуратен с UI-агентами. 👍
Оч советую прочитать фул разбор по ссылке в начале поста. Эндрю, молодец 🤗
Добавить комментарий