✴️ Anthropic объяснила провал Opus 4.7 на MRCR
После критики результатов Claude Opus 4.7 на MRCR Anthropic дали официальный ответ:
они осознанно уходят от этого бенчмарка.
Подробнее:
system card
Почему MRCR больше не важен
По словам команды:
🟡 тест строится на «ловушках» и отвлекающих фактах
🟡 такие сценарии почти не встречаются в реальном использовании
🟡 он измеряет скорее needle retrieval, а не полезное reasoning
Чем его заменяют
Вместо этого Anthropic делает ставку на GraphWalks — бенчмарк, где нужно:
🟡 ориентироваться в большом контексте
🟡 делать многошаговые переходы (как BFS в графе)
🟡 реально «думать», а не просто находить иголки в тексте
Результаты Opus 4.7:
🟡 58.6% (BFS, 256K–1M)
🟡 75.1% (parents)
На меньшем контексте (256K):
🟡 до 76.9% (BFS)
🟡 до 93.6% (parents)
Anthropic фактически говорит:
«мы оптимизируем не под тесты на поиск фактов, а под реальные задачи с длинным контекстом»
То есть падение в MRCR — это не баг (по их версии), а побочный эффект смены приоритетов

Добавить комментарий