Anthropic занизили бенчмарки Opus 4.6
На сравнительной табличке бенчмарков Opus 4.7 результаты Opus 4.6 почти по всем тестам занижены примерно на 1% по сравнению с теми, что показывали при релизе самого 4.6. Сделано видимо для того, чтобы создавать ощущение большего отрыва новой модели. Вы чё творите там 🤦♀️🤦♀️🤦♀️
UPD: справедливости ради, внизу блог-поста Anthropic оставили сноску, которая поясняет эти различия (бенчмарки у 4.6 были пересчитаны через время)


Добавить комментарий