Серега @southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект!
Авторы: @southfreebird, @Olegbalakhnov и @zaringleb.
Ребята обучили и выложили в open-source VLA-модель на базе VLA-0 от Nvidia, только с backbone в 6 раз меньше (0.5B vs 3B в оригинальной работе), которая показывает success rate 94.1% на Libero benchmark (против 94.7% у оригинальной модели).
VLA (Vision-Language-Action) это модель, которая смотрит на картинку, понимает текстовую команду и сразу выдаёт действие для робота, типа «возьми кубик и положи справа».
Вообще порог входа в robotics ML всё ещё достаточно высокий, поэтому у ребят крутая цель: сделать в open-source воспроизводимые рецепты для файнтюна небольших моделей на небольшом количестве демонстраций.
Ссылка на блогпост и модель:
https://robot-learning-collective.github.io/vla-0-smol
Если интересно следить, ребята завели Discord:
https://discord.gg/XcZVY2kxj9
Ну и пишите, если будут вопросы!
Добавить комментарий