Серега @southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект!

Серега @southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект!

Авторы: @southfreebird, @Olegbalakhnov и @zaringleb.

Ребята обучили и выложили в open-source VLA-модель на базе VLA-0 от Nvidia, только с backbone в 6 раз меньше (0.5B vs 3B в оригинальной работе), которая показывает success rate 94.1% на Libero benchmark (против 94.7% у оригинальной модели).

VLA (Vision-Language-Action) это модель, которая смотрит на картинку, понимает текстовую команду и сразу выдаёт действие для робота, типа «возьми кубик и положи справа».

Вообще порог входа в robotics ML всё ещё достаточно высокий, поэтому у ребят крутая цель: сделать в open-source воспроизводимые рецепты для файнтюна небольших моделей на небольшом количестве демонстраций.

Ссылка на блогпост и модель:
https://robot-learning-collective.github.io/vla-0-smol

Если интересно следить, ребята завели Discord:
https://discord.gg/XcZVY2kxj9

Ну и пишите, если будут вопросы!

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *