Claude Opus 4.7 просел в тестах на длинный контекст Появились результаты бенчмарка MRCR v2 (8-игл)

Написано

✴️ Claude Opus 4.7 просел в тестах на длинный контекст

Появились результаты бенчмарка MRCR v2 (8-игл) — это тест, где модель должна найти и корректно использовать несколько скрытых фактов в длинном тексте, не путая их между собой.

И тут у Claude Opus 4.7 всё неожиданно плохо.

На длинном контексте:
🟡 256K
Opus 4.6 — 91.9%
Opus 4.7 — 59.2%
🟡 1M
Opus 4.6 — 78.3%
Opus 4.7 — 32.2%

🤑 ForgetMe | Boosty

Приобрести подписку на любые сервисы
⏩ @forgetshop_bot

#нейросети #claude #новости

Claude Opus 4.7 просел в тестах на длинный контекст Появились результаты бенчмарка MRCR v2 (8-игл)

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Протеиновый мармелад со вкусом ПОМОЙКИ сделали в России в линейке также есть сладости с ТУХЛЯТИНОЙ

Нейронки в медицине Часть 3 Не прошло и года (а нет, прошло). Дисклеймер: 1. Данный пост дополнен

Ребята, посмотрите, какую игру в Танки (Battle City) с NES создал GLM-5.1 на Pygame Промпт: Создай

Opus 4.7 самый неудачный релиз Anthropic Что в итоге мы получили от новинки по сравнению с 4.6: З