😔 OpenAI выпустили статью, в которой официально похоронили SWE-bench Verified — бенчмарк, по которому последние полтора года все мерялись, у кого модель лучше кодит
Проблемы в бенчмарке две:
Во-первых, сами тесты кривые. OpenAI проверили задачи, которые даже o3 не мог стабильно решить — оказалось, что в 59% из них баги в самих тестах. Где-то тесты требуют конкретное имя функции, которое нигде в условии не упоминается. Где-то задача описывает один баг, а тесты проверяют сразу три. То есть даже идеальное решение просто не пройдёт проверку
Во-вторых, утечка ответов в обучение. Все задачи SWE-bench взяты из открытых GitHub-репозиториев, а эти репозитории попадают в обучающие данные моделей. OpenAI натравили GPT-5 на GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash — и все три модели смогли воспроизвести точные патчи из бенчмарка. GPT-5.2 по одной строчке описания выдаёт дословный дифф. Opus 4.5 цитирует комментарии из кода слово в слово. Gemini 3 Flash вообще выдаёт полный патч с номерами строк, когда его просто просят вспомнить задачу по ID
Получается, рост результатов на SWE-bench Verified — это не «модели стали лучше кодить», а модели лучше запомнили ответы из тренировочной базы. За последние полгода прогресс был с 74.9% до 80.9%, и значительная часть этого роста — просто утечка данных. Достаточно посмотреть на Minimax M2.5: более 80% на SWE-bench, на уровне GPT-5.2, хотя Minimax откровенно ужасно кодит
OpenAI больше не дают результаты по этому бенчмарку и другим советуют тоже. Вместо него предлагают SWE-bench Pro, который пока меньше загрязнён, и в перспективе закрытые бенчмарки, где задачи пишутся приватно и не могут попасть в обучение
В целом рекомендую не смотреть слепо на циферки бенчмарков. Перед тем как делать выводы — загуглите или спросите у ИИ, что это за бенчмарк, как он устроен и как проводится, и сами уже решайте, проведён ли он корректно. Иначе рискуете сравнивать модели по циферкам, которые вообще ничего не значат
Теперь интересно, сколько компаний продолжат хвастаться результатами по мёртвому SWE-бенчмарку 🫠
Добавить комментарий