Серега @southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект!

Написано

Авторы: @southfreebird, @Olegbalakhnov и @zaringleb.

Ребята обучили и выложили в open-source VLA-модель на базе VLA-0 от Nvidia, только с backbone в 6 раз меньше (0.5B vs 3B в оригинальной работе), которая показывает success rate 94.1% на Libero benchmark (против 94.7% у оригинальной модели).

VLA (Vision-Language-Action) это модель, которая смотрит на картинку, понимает текстовую команду и сразу выдаёт действие для робота, типа «возьми кубик и положи справа».

Вообще порог входа в robotics ML всё ещё достаточно высокий, поэтому у ребят крутая цель: сделать в open-source воспроизводимые рецепты для файнтюна небольших моделей на небольшом количестве демонстраций.

Ссылка на блогпост и модель:
https://robot-learning-collective.github.io/vla-0-smol

Если интересно следить, ребята завели Discord:
https://discord.gg/XcZVY2kxj9

Ну и пишите, если будут вопросы!

Серега @southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект!

Комментарии

Добавить комментарий Отменить ответ

Больше записей

А в чём прикол-то был Объясните

Ищем удалёнку за границей: в Твиттере собрали 11 лучших сайтов с вакансиями во всех сферах от айти

День анимешника отмечаем сегодня именно 11 апреля закрепилось как праздник любителей японских мульт

Убираем все следы ИИ из любого текста! Нашли сервис The AI Text Humanizer, который отредактирует тек