Всего через 3-4 часа после релиза Opus 4.7 (16 апреля) известный в комьюнити джейлбрейкер elder-plin

Всего через 3-4 часа после релиза Opus 4.7 (16 апреля) известный в комьюнити джейлбрейкер elder-plinius вытащил и слил на GitHub полный «скрытый» системный промпт 🤣

Этот слив расставил все точки над «i» и объяснил, почему многие кодеры вчера жаловались на «странное» поведение новой модели.

💻Что обнаружили внутри (Ключевые детали из промпта)
1. Жесточайшая паранойя (Кибербез-фильтры) Пользователи массово жаловались (@dylan_a: «Opus 4.7 постоянно останавливается посреди ответа, чтобы убедиться, что документ с бизнес-стратегией моего клиента — это не малварь»; @sh17va: «отказывается редактировать 40 строк кода»). В промпте нашли причину: Там прописан абсолютный ноль толерантности ко всему, что может быть похоже на взлом, вирусы или эксплойты (даже в «образовательных» целях). Модель не пытается понять контекст — если есть триггер-слова, она блокирует ответ. Anthropic явно «закрутили гайки», чтобы Opus 4.7 не смог вести себя как их секретная хакерская модель Mythos.

2. «Search-First Epistemic Gating» (Анти-Галлюцинации) В промпте есть жёсткое правило: для любых вопросов о фактах или событиях настоящего времени модель обязана использовать веб-поиск, а не доверять своим скрытым знаниям. То есть ей буквально запрещено «думать самой», если это касается свежих данных (cutoff дата базы — конец января 2026).

3. Копирайт-строгость Промпт заставляет Claude соблюдать жёсткие правила при цитировании из интернета: максимум 1 прямая цитата, не более 15 слов на источник, всё остальное модель обязана парафразировать своими словами.

Получается, что сама по себе LLM Opus 4.7 невероятно умна, но Anthropic надели на неё настолько тяжёлую броню ограничений и цензуры в системном промпте, что модель спотыкается о свои же «правила безопасности» при написании банального кода🤷‍♂️

Возможно даже тест по поиску иголки в стоге сена (на эффективность в длинном контексте) она провалила (см картинку) по этим же причинам.
Оказалось, что новая Opus 4.7 работает намного ХУЖЕ старой Opus 4.6.
На тексте в 256k токенов: старая 4.6 находила всё с точностью 91.9%, а новая 4.7 — всего 59.2%.
На тексте в 1M токенов: старая 4.6 выдавала 78.3%, а новая 4.7 упала до жалких 32.2%.

обсуждают тут https://x.com/elder_plinius/status/2044857095439421885
кому надо промпт тут (14.3k ⭐️)https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/Claude-Opus-4.7.txt

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *