Anthropic занизили бенчмарки Opus 4.6 На сравнительной табличке бенчмарков Opus 4.7 результаты Opus

Anthropic занизили бенчмарки Opus 4.6

На сравнительной табличке бенчмарков Opus 4.7 результаты Opus 4.6 почти по всем тестам занижены примерно на 1% по сравнению с теми, что показывали при релизе самого 4.6. Сделано видимо для того, чтобы создавать ощущение большего отрыва новой модели. Вы чё творите там 🤦‍♀️🤦‍♀️🤦‍♀️

UPD: справедливости ради, внизу блог-поста Anthropic оставили сноску, которая поясняет эти различия (бенчмарки у 4.6 были пересчитаны через время)

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *