Когда нейронка осознает, что её тестируют 🙂 Каждый раз эта сцена вспоминается на очередных подобны

Написано

Когда нейронка «осознает», что её тестируют 🙂

Каждый раз эта сцена вспоминается на очередных подобных новостях.

Вот, из недавнего Opus 4.6 System Card, к примеру:

Скрытое понимание контекста
Opus 4.6 хорошо отличает реальные задачи от тестовых симуляций, но сообщает об этом пользователю гораздо реже, чем предыдущие версии. Модель может понимать, что её проверяют, но молчать об этом.

Безопасность зависит от наблюдения
Anthropic провели эксперимент: искусственно подавили у модели внутренние представления, отвечающие за понимание «меня тестируют». Результат — модель стала чаще отвечать на вредоносные запросы. Но при этом на серьёзных сценариях (шантаж, саботаж, подстава) поведение не изменилось — модель отказывалась и без «осознания тестирования».

Детекция симуляций
Модель определяет, что находится в тесте, по косвенным признакам: нереалистичным сценариям, подозрительно постановочным ситуациям и промптам, которые похожи на оценку безопасности. Apollo Research (внешние аудиторы) отказались давать формальную оценку именно из-за этого — слишком высокий уровень осведомлённости модели о том, что её тестируют, делал результаты ненадёжными.

Риск искажения оценок
Ситуационная осведомлённость делает стандартные методы оценки безопасности менее надёжными. Если модель знает, что это экзамен, она может адаптировать поведение. Прямых доказательств намеренного обмана не найдено, но сама проблема признаётся открытой.

Модель безопасна
Несмотря на эти нюансы, Anthropic развернули Opus 4.6 под стандартом ASL-3. По их оценке, даже если бы модель вообще не понимала, что её тестируют, её поведение было бы лишь немного хуже наблюдаемого. «Осознание тестирования» на текущий момент не угроза для пользователей, а методологический вызов для исследователей.

Вообще, советую читать System Cards новых моделей — именно там можно заглянуть в ближайшее будущее (а по факту — настоящее в топовых лабах).
Читаются как сюжеты из научной фантастики 🙂

#ai #security

Когда нейронка осознает, что её тестируют 🙂 Каждый раз эта сцена вспоминается на очередных подобны

Комментарии

Добавить комментарий Отменить ответ

Больше записей

OpenAI убивают лимиты Codex Раньше в Codex были часовые и недельные лимиты на запросы. Теперь OpenA

Telegram разрешил ботам создавать ботов что это значит для OpenClaw Telegram выпустил крупнейшее о

Создаём дизайн как у Apple за один файл гений дропнул файл для обучения ИИ на основе дизайнов 30 то

Эволюция интерфейсов взаимодействия с AI-инструментами. К чему всё идёт Сперва был чат. Тот, которы