Последние пару месяцев я плотно работал над этим релизом, и наконец-то мы выкатываем его в опенсорс!

Написано

📟 Встречайте SWE-rebench-V2: самый большой открытый, мультиязычный датасет для обучения кодовых агентов!

Вместе с командой Nebius AI R&D мы построили пайплайн для масштабного сбора задач из реальных GitHub репозиториев и теперь делимся всем с комьюнити. На текущий момент это самый большой и разнообразный открытый датасет подобных задач в мире.

Что внутри:
> 32 000+ задач — на базе реальных issue + готовый Docker-образ.
> 20 языков программирования. Некоторые языки (например, Lua или Clojure) вообще никогда раньше не были покрыты!
> 120 000+ дополнительных задач, собранных на базе реальных PR.
> Качество — задачи отфильтрованы и размечены с помощью ансамбля LLM. Также мы обогатили их метаданными и добавили интерфейсы, которые проверяются в тестах.

Вместе с датасетом мы дропаем техрепорт со всеми деталями нашего пайплайна и прогонами моделей.

📄 Статья и датасет

👾 Наш Discord (мы там онлайн, залетайте с фидбеком и вопросами).

✉️ Пост в X

Если есть любые мысли, идеи, предложения — приходите!

🔁 Буду благодарен за репост и пересылку!

Последние пару месяцев я плотно работал над этим релизом, и наконец-то мы выкатываем его в опенсорс!

Комментарии

Добавить комментарий Отменить ответ

Больше записей

Типичная проблема программирования — работа с велосипедами. С ai coding стала еще актуальнее. ты

Анонсируем наш новый инструмент Расширение Oh My Lama для браузера! Все модели с сайта доступны п

AI, ML, DL engineer давай до свидания

Telegram и Instagram* работают в КНДР лучше, чем в России турист смотался в Пхеньян в феврале этого