OpenAI выпустили статью, в которой официально похоронили SWE-bench Verified бенчмарк, по которому п

Написано

😔 OpenAI выпустили статью, в которой официально похоронили SWE-bench Verified — бенчмарк, по которому последние полтора года все мерялись, у кого модель лучше кодит

Проблемы в бенчмарке две:

Во-первых, сами тесты кривые. OpenAI проверили задачи, которые даже o3 не мог стабильно решить — оказалось, что в 59% из них баги в самих тестах. Где-то тесты требуют конкретное имя функции, которое нигде в условии не упоминается. Где-то задача описывает один баг, а тесты проверяют сразу три. То есть даже идеальное решение просто не пройдёт проверку

Во-вторых, утечка ответов в обучение. Все задачи SWE-bench взяты из открытых GitHub-репозиториев, а эти репозитории попадают в обучающие данные моделей. OpenAI натравили GPT-5 на GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash — и все три модели смогли воспроизвести точные патчи из бенчмарка. GPT-5.2 по одной строчке описания выдаёт дословный дифф. Opus 4.5 цитирует комментарии из кода слово в слово. Gemini 3 Flash вообще выдаёт полный патч с номерами строк, когда его просто просят вспомнить задачу по ID

Получается, рост результатов на SWE-bench Verified — это не «модели стали лучше кодить», а модели лучше запомнили ответы из тренировочной базы. За последние полгода прогресс был с 74.9% до 80.9%, и значительная часть этого роста — просто утечка данных. Достаточно посмотреть на Minimax M2.5: более 80% на SWE-bench, на уровне GPT-5.2, хотя Minimax откровенно ужасно кодит

OpenAI больше не дают результаты по этому бенчмарку и другим советуют тоже. Вместо него предлагают SWE-bench Pro, который пока меньше загрязнён, и в перспективе закрытые бенчмарки, где задачи пишутся приватно и не могут попасть в обучение

В целом рекомендую не смотреть слепо на циферки бенчмарков. Перед тем как делать выводы — загуглите или спросите у ИИ, что это за бенчмарк, как он устроен и как проводится, и сами уже решайте, проведён ли он корректно. Иначе рискуете сравнивать модели по циферкам, которые вообще ничего не значат

Теперь интересно, сколько компаний продолжат хвастаться результатами по мёртвому SWE-бенчмарку 🫠

OpenAI выпустили статью, в которой официально похоронили SWE-bench Verified бенчмарк, по которому п

Комментарии

Добавить комментарий Отменить ответ

Больше записей

OpenAI убивают лимиты Codex Раньше в Codex были часовые и недельные лимиты на запросы. Теперь OpenA

Telegram разрешил ботам создавать ботов что это значит для OpenClaw Telegram выпустил крупнейшее о

Создаём дизайн как у Apple за один файл гений дропнул файл для обучения ИИ на основе дизайнов 30 то

Эволюция интерфейсов взаимодействия с AI-инструментами. К чему всё идёт Сперва был чат. Тот, которы