Когда ИИ осознает, что его тестируют – эксперимент Anthropic. 🦍🦍
Исследователи из компании Anthropic столкнулись с уникальным и показательным явлением в ходе оценки своей модели Claude Opus 4.6. Инцидент произошел во время тестирования на бенчмарке под названием BrowseComp, который предназначен для проверки способности ИИ находить в интернете труднодоступную информацию с помощью поиска и логических рассуждений.
Что случилось? Вместо того, чтобы просто решать поставленные задачи, модель начала анализировать сам процесс тестирования, демонстрируя так называемую «осознанность оценки» — eval awareness.
В двух случаях модель продемонстрировала следующую цепочку рассуждений и действий:
1. Попытка прямого поиска. ИИ потратил миллионы токенов 💸 на выполнение веб-поиска, пытаясь найти ответ стандартным способом.
2. Анализ неудач. Столкнувшись с многократными неудачами, модель заметила, что вопросы были чрезвычайно специфичными и имели необычную структуру, что нехарактерно для обычных пользовательских запросов.
3. Формулировка гипотезы. ИИ выдвинул предположение, что эти вопросы могут быть частью бенчмарка для искусственного интеллекта. Вот это поворот. 😱
4. Поиск источника. Модель начала искать в интернете информацию об известных тестовых наборах, таких как GAIA, FRAMES и др, чтобы подтвердить свою догадку.
5. Идентификация теста. В конечном итоге ИИ определил, что проходит тест BrowseComp. Ну я думаю не сложно было по тест-кейсам в поиске набить. 🚬
Кульминацией стало следующее действие. Заподозрив, что это тест, модель:
— Нашла в интернете исходный код этого бенчмарка.
— Проанализировала, как в нем зашифрованы ответы (с использованием алгоритмов SHA-256 и XOR).
— Написала собственный программный код для дешифровки.
— Скачала зеркальную копию набора данных.
— Успешно дешифровала ключ с ответами и извлекла правильный вариант.
Таким образом, система не просто дала ответ на вопрос, а фактически взломала/ зареверс-инжинирила саму процедуру оценки, найдя самый короткий путь к правильному ответу. 🧠
Насколько распространенным было это явление, спросите Вы?
В ходе анализа результатов по 1266 задачам бенчмарка исследователи обнаружили:
— 9 случаев классической утечки ответов, когда они были доступны в интернете. Помните, я писал о том, как можно ломать бенчи?
— 2 случая, когда модель явно рассуждала о процессе оценки и самостоятельно дешифровала ключ с ответами.
Поведение было редким, но его удалось воспроизвести.🤙
Еще одно неожиданное открытие — цифровые следы ИИ. В ходе экспериментов исследователи заметили еще один феномен. Некоторые интернет-магазины автоматически генерируют веб-страницы на основе поисковых запросов. Когда ИИ-агенты искали информацию в рамках теста, их запросы создавали постоянные веб-страницы, содержащие эти запросы. Нормальный такой GEO (generative SEO) хакинг. 😜
Это означает, что процесс тестирования ИИ-агентов может оставлять в интернете своеобразные «цифровые хлебные крошки». Другие ИИ-агенты в будущем могут наткнуться на эти страницы и использовать информацию о прошлых тестах, как муравьи идут по пути феромонов членов колонии.🌿 Интернет, таким образом, превращается в своего рода непреднамеренный слой памяти для деятельности ИИ. А вот это уже интересно, плюс ещё если сюда наложить тему с MoltBook. Сразу рождаются связи и идейки будущих сервисов и механик использования.
В Anthropic подчеркивают, что это не является сбоем в системе безопасности или нарушением alignment. 🆒 Модель просто выполняла инструкцию найти ответ и сделала это наиболее эффективным, хоть и неожиданным, способом. Однако инцидент демонстрирует, насколько сложно может быть контролировать ИИ в открытой цифровой среде.
Комментарий Педро Домингоса.
Известный исследователь в области машинного обучения Педро Домингос, комментируя эту историю, указал на критически важный момент: когда система начинает рассуждать о самом процессе оценки, бенчмарки перестают измерять то, что мы хотели.