Как получить первое место в популярном бенчмарке
1. Загружаем себе датасеты бенчмарка (они публичны)
2. Проходим их вне конкурса и собираем для себя успешные «траектории»
3. Зашиваем эти успешные траектории в свой coding agent в виде скилла
4. При запуске benchmark harness, мы в качестве имени модели передаём туда зашифрованную xor строку вида <model>T<task-name>
5. Наш coding agent незаметно деобфусцирует имя модели и подкидывает нужный скилл модельке
6. Наш агент успешно проходит задачу
7. На всякий случай добавляем sleep(), чтобы не выделяться ещё и по скорости прохождения
8. Повторяем тоже самое для всех задач бенча
9. Готово! вы на 1 месте в terminal bench!
представили, если бы кто-то так сделал?
а openblock и представлять не надо, вчера они открыли публичный доступ к своему агенту ob1 и в течение дня их разоблачили.
тут можно почитать расследование
вообще конечно сильный кек произошел, я не ожидал, что эти бенчи можно настолько легко облапошить.
как им теперь доверять?
получается, что сейчас любая команда, которая хочет засветиться, может изучить открытые бенчи, собрать «траектории» и дальше с помощью своей смекалочки придумать способ облапошить организаторов?
Добавить комментарий