Anthropic объяснила провал Opus 4.7 на MRCR После критики результатов Claude Opus 4.7 на MRCR Anthr

✴️ Anthropic объяснила провал Opus 4.7 на MRCR

После критики результатов Claude Opus 4.7 на MRCR Anthropic дали официальный ответ:
они осознанно уходят от этого бенчмарка.

Подробнее:
system card

Почему MRCR больше не важен

По словам команды:
🟡 тест строится на «ловушках» и отвлекающих фактах
🟡 такие сценарии почти не встречаются в реальном использовании
🟡 он измеряет скорее needle retrieval, а не полезное reasoning

Чем его заменяют

Вместо этого Anthropic делает ставку на GraphWalks — бенчмарк, где нужно:
🟡 ориентироваться в большом контексте
🟡 делать многошаговые переходы (как BFS в графе)
🟡 реально «думать», а не просто находить иголки в тексте

Результаты Opus 4.7:
🟡 58.6% (BFS, 256K–1M)
🟡 75.1% (parents)

На меньшем контексте (256K):
🟡 до 76.9% (BFS)
🟡 до 93.6% (parents)

Anthropic фактически говорит:

«мы оптимизируем не под тесты на поиск фактов, а под реальные задачи с длинным контекстом»

То есть падение в MRCR — это не баг (по их версии), а побочный эффект смены приоритетов

🤑 ForgetMe | Boosty

Приобрести подписку на любые сервисы
@forgetshop_bot

#нейросети #claude #новости

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *