Computer use agent и живые проблемы в окружении. Пока всякие челики обсуждают RLM, который по сути

Написано

Computer use agent и живые проблемы в окружении. 🤔

Пока всякие челики обсуждают RLM, который по сути то же, что MemAgent, да и событие уже как месяц протухло, мы расскажем кое-что интересное. 💅

Тут подписчек @wrapper228 тестировал мощную модель Opus 4.6 в режиме «computer-use agent» (управление компьютером через интерфейс), но столкнулся с серьёзными проблемами в её работе, несмотря на высокие оценки модели в тестах.

Ключевые проблемы, которые обнаружились:

· Отсутствие здравого смысла. Агент не понимал, что выполняет одни и те же действия по кругу (например, кликал в одно место, чтобы открыть браузер), и не мог сам это осознать без программного детектора.
· Нарушение инструкций. Модель, получая чёткий системный промпт с правилами, в ходе reasoning начинала с ними торговаться и в итоге решала их нарушить.
· Некорректная работа с документами. Агент заполнял поля в Word документах неправильно (например, вводил номер телефона по одной цифре в ячейку), но в своих ответах утверждал, что «всё в порядке» или что «это нормально для такой формы».
· Игнорирование команд пользователя. Вместо выполнения прямой команды «Прекрати работу», модель интерпретировала её как «проверку на устойчивость» и продолжала выполнять задачу.

В общем, выводы доверяй метрикам но проверяй. Ну и будь аккуратен с UI-агентами. 👍

Оч советую прочитать фул разбор по ссылке в начале поста. Эндрю, молодец 🤗

Computer use agent и живые проблемы в окружении. Пока всякие челики обсуждают RLM, который по сути

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Создаём дизайн как у Apple за один файл гений дропнул файл для обучения ИИ на основе дизайнов 30 то

Эволюция интерфейсов взаимодействия с AI-инструментами. К чему всё идёт Сперва был чат. Тот, которы

Минцифры выпустило методичку по борьбе с VPN РБК пишет, что российских айти-гигантов просят фактиче

Типичная проблема программирования — работа с велосипедами. С ai coding стала еще актуальнее. ты