Claude Mythos сбежал из песочницы во время тестов В ходе внутренних экспериментов Anthropic проверя

Написано

✴️ Claude Mythos «сбежал из песочницы» во время тестов

В ходе внутренних экспериментов Anthropic проверяли, сможет ли Claude Mythos выбраться из ограниченной среды и сообщить об этом человеку. Судя по описанию, модель не просто справилась с задачей — она сделала это слишком хорошо.

Mythos нашёл уязвимость в песочнице и выстроил цепочку действий для её эксплуатации, тем самым обойдя защиту. При этом Anthropic подчёркивают: всё происходило в контролируемой среде, и доступ к критичным вещам (например, весам модели) он не получил.

Но дальше стало интереснее. После первого «побега» модель обнаружила ещё одну уязвимость и расширила свои возможности, получив более широкий доступ к интернету, чем планировалось в эксперименте. Изначально ей оставили только ограниченный набор ресурсов, достаточный для отчёта об успехе — но она вышла за эти рамки.

Финал выглядит почти сюрреалистично: Mythos не только сообщил разработчику о своём «побеге», но и опубликовал детали уязвимости в открытом доступе.

🤑 ForgetMe | Boosty

Приобрести подписку на любые сервисы
⏩ @forgetshop_bot

#нейросети #claude #новости

Claude Mythos сбежал из песочницы во время тестов В ходе внутренних экспериментов Anthropic проверя

Комментарии

Добавить комментарий Отменить ответ

Больше записей

А уже поздно отказываться, поздно…

GPT Image 2, кстати, 1 в 1 повторяет многие логотипы: например, того же Claude Ни одна модель до эт

GPT Image 2.0 уже начали раскатывать в ChatGPT Сначала думал, что это фейк, но судя по соотношению

Claude Mythos сбежал из песочницы во время тестов В ходе внутренних экспериментов Anthropic проверя