Когда нейронка осознает, что её тестируют 🙂 Каждый раз эта сцена вспоминается на очередных подобны

Когда нейронка «осознает», что её тестируют 🙂

Каждый раз эта сцена вспоминается на очередных подобных новостях.

Вот, из недавнего Opus 4.6 System Card, к примеру:

Скрытое понимание контекста
Opus 4.6 хорошо отличает реальные задачи от тестовых симуляций, но сообщает об этом пользователю гораздо реже, чем предыдущие версии. Модель может понимать, что её проверяют, но молчать об этом.

Безопасность зависит от наблюдения
Anthropic провели эксперимент: искусственно подавили у модели внутренние представления, отвечающие за понимание «меня тестируют». Результат — модель стала чаще отвечать на вредоносные запросы. Но при этом на серьёзных сценариях (шантаж, саботаж, подстава) поведение не изменилось — модель отказывалась и без «осознания тестирования».

Детекция симуляций
Модель определяет, что находится в тесте, по косвенным признакам: нереалистичным сценариям, подозрительно постановочным ситуациям и промптам, которые похожи на оценку безопасности. Apollo Research (внешние аудиторы) отказались давать формальную оценку именно из-за этого — слишком высокий уровень осведомлённости модели о том, что её тестируют, делал результаты ненадёжными.

Риск искажения оценок
Ситуационная осведомлённость делает стандартные методы оценки безопасности менее надёжными. Если модель знает, что это экзамен, она может адаптировать поведение. Прямых доказательств намеренного обмана не найдено, но сама проблема признаётся открытой.

Модель безопасна
Несмотря на эти нюансы, Anthropic развернули Opus 4.6 под стандартом ASL-3. По их оценке, даже если бы модель вообще не понимала, что её тестируют, её поведение было бы лишь немного хуже наблюдаемого. «Осознание тестирования» на текущий момент не угроза для пользователей, а методологический вызов для исследователей.

Вообще, советую читать System Cards новых моделей — именно там можно заглянуть в ближайшее будущее (а по факту — настоящее в топовых лабах).
Читаются как сюжеты из научной фантастики 🙂

#ai #security

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *