Anthropic объяснила провал Opus 4.7 на MRCR После критики результатов Claude Opus 4.7 на MRCR Anthr

Написано

✴️ Anthropic объяснила провал Opus 4.7 на MRCR

После критики результатов Claude Opus 4.7 на MRCR Anthropic дали официальный ответ:
они осознанно уходят от этого бенчмарка.

Подробнее:
system card

Почему MRCR больше не важен

По словам команды:
🟡 тест строится на «ловушках» и отвлекающих фактах
🟡 такие сценарии почти не встречаются в реальном использовании
🟡 он измеряет скорее needle retrieval, а не полезное reasoning

Чем его заменяют

Вместо этого Anthropic делает ставку на GraphWalks — бенчмарк, где нужно:
🟡 ориентироваться в большом контексте
🟡 делать многошаговые переходы (как BFS в графе)
🟡 реально «думать», а не просто находить иголки в тексте

Результаты Opus 4.7:
🟡 58.6% (BFS, 256K–1M)
🟡 75.1% (parents)

На меньшем контексте (256K):
🟡 до 76.9% (BFS)
🟡 до 93.6% (parents)

Anthropic фактически говорит:

«мы оптимизируем не под тесты на поиск фактов, а под реальные задачи с длинным контекстом»

То есть падение в MRCR — это не баг (по их версии), а побочный эффект смены приоритетов

🤑 ForgetMe | Boosty

Приобрести подписку на любые сервисы
⏩ @forgetshop_bot

#нейросети #claude #новости

Anthropic объяснила провал Opus 4.7 на MRCR После критики результатов Claude Opus 4.7 на MRCR Anthr

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Универы РФ открыли второй фронт против VPN:

Пивное пузо миф, заявили эндокринологи. Врачи непоколебимы: пенное не вызывает никаких гормональных

Что новенького в Mastra и чем это вам может быть полезно если вы пилите агентов + анонс стрима. В и

Не опять, а снова обновы у Антропик, в этот раз Claude Design Я посмотрел: слева чат, справа канв