Anthropic занизили бенчмарки Opus 4.6 На сравнительной табличке бенчмарков Opus 4.7 результаты Opus

Написано

Anthropic занизили бенчмарки Opus 4.6

На сравнительной табличке бенчмарков Opus 4.7 результаты Opus 4.6 почти по всем тестам занижены примерно на 1% по сравнению с теми, что показывали при релизе самого 4.6. Сделано видимо для того, чтобы создавать ощущение большего отрыва новой модели. Вы чё творите там 🤦‍♀️🤦‍♀️🤦‍♀️

UPD: справедливости ради, внизу блог-поста Anthropic оставили сноску, которая поясняет эти различия (бенчмарки у 4.6 были пересчитаны через время)

Anthropic занизили бенчмарки Opus 4.6 На сравнительной табличке бенчмарков Opus 4.7 результаты Opus

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Универы РФ открыли второй фронт против VPN:

Пивное пузо миф, заявили эндокринологи. Врачи непоколебимы: пенное не вызывает никаких гормональных

Что новенького в Mastra и чем это вам может быть полезно если вы пилите агентов + анонс стрима. В и

Не опять, а снова обновы у Антропик, в этот раз Claude Design Я посмотрел: слева чат, справа канв