Когда ИИ осознает, что его тестируют эксперимент Anthropic. Исследователи из компании Anthropic с

Когда ИИ осознает, что его тестируют – эксперимент Anthropic. 🦍🦍

Исследователи из компании Anthropic столкнулись с уникальным и показательным явлением в ходе оценки своей модели Claude Opus 4.6. Инцидент произошел во время тестирования на бенчмарке под названием BrowseComp, который предназначен для проверки способности ИИ находить в интернете труднодоступную информацию с помощью поиска и логических рассуждений.

Что случилось? Вместо того, чтобы просто решать поставленные задачи, модель начала анализировать сам процесс тестирования, демонстрируя так называемую «осознанность оценки» — eval awareness.

В двух случаях модель продемонстрировала следующую цепочку рассуждений и действий:

1. Попытка прямого поиска. ИИ потратил миллионы токенов 💸 на выполнение веб-поиска, пытаясь найти ответ стандартным способом.

2. Анализ неудач. Столкнувшись с многократными неудачами, модель заметила, что вопросы были чрезвычайно специфичными и имели необычную структуру, что нехарактерно для обычных пользовательских запросов.

3. Формулировка гипотезы. ИИ выдвинул предположение, что эти вопросы могут быть частью бенчмарка для искусственного интеллекта. Вот это поворот. 😱

4. Поиск источника. Модель начала искать в интернете информацию об известных тестовых наборах, таких как GAIA, FRAMES и др, чтобы подтвердить свою догадку.

5. Идентификация теста. В конечном итоге ИИ определил, что проходит тест BrowseComp. Ну я думаю не сложно было по тест-кейсам в поиске набить. 🚬

Кульминацией стало следующее действие. Заподозрив, что это тест, модель:

— Нашла в интернете исходный код этого бенчмарка.
— Проанализировала, как в нем зашифрованы ответы (с использованием алгоритмов SHA-256 и XOR).
— Написала собственный программный код для дешифровки.
— Скачала зеркальную копию набора данных.
— Успешно дешифровала ключ с ответами и извлекла правильный вариант.

Таким образом, система не просто дала ответ на вопрос, а фактически взломала/ зареверс-инжинирила саму процедуру оценки, найдя самый короткий путь к правильному ответу. 🧠

Насколько распространенным было это явление, спросите Вы?

В ходе анализа результатов по 1266 задачам бенчмарка исследователи обнаружили:

— 9 случаев классической утечки ответов, когда они были доступны в интернете. Помните, я писал о том, как можно ломать бенчи?

— 2 случая, когда модель явно рассуждала о процессе оценки и самостоятельно дешифровала ключ с ответами.
Поведение было редким, но его удалось воспроизвести.🤙

Еще одно неожиданное открытие — цифровые следы ИИ. В ходе экспериментов исследователи заметили еще один феномен. Некоторые интернет-магазины автоматически генерируют веб-страницы на основе поисковых запросов. Когда ИИ-агенты искали информацию в рамках теста, их запросы создавали постоянные веб-страницы, содержащие эти запросы. Нормальный такой GEO (generative SEO) хакинг. 😜

Это означает, что процесс тестирования ИИ-агентов может оставлять в интернете своеобразные «цифровые хлебные крошки». Другие ИИ-агенты в будущем могут наткнуться на эти страницы и использовать информацию о прошлых тестах, как муравьи идут по пути феромонов членов колонии.🌿 Интернет, таким образом, превращается в своего рода непреднамеренный слой памяти для деятельности ИИ. А вот это уже интересно, плюс ещё если сюда наложить тему с MoltBook. Сразу рождаются связи и идейки будущих сервисов и механик использования.

В Anthropic подчеркивают, что это не является сбоем в системе безопасности или нарушением alignment. 🆒 Модель просто выполняла инструкцию найти ответ и сделала это наиболее эффективным, хоть и неожиданным, способом. Однако инцидент демонстрирует, насколько сложно может быть контролировать ИИ в открытой цифровой среде.

Комментарий Педро Домингоса.
Известный исследователь в области машинного обучения Педро Домингос, комментируя эту историю, указал на критически важный момент: когда система начинает рассуждать о самом процессе оценки, бенчмарки перестают измерять то, что мы хотели.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *