✴️ DeepMind представила модель D4RT
Команда Google DeepMind анонсировала D4RT (Dynamic 4D Reconstruction and Tracking) — унифицированную модель для 4D-реконструкции и трекинга сцен в пространстве и времени. Архитектура объединяет задачи восприятия геометрии и движения в единый эффективный фреймворк.
— Работает на базе архитектуры encoder-decoder Transformer.
— Использует гибкий механизм запросов для определения положения пикселей в 3D в любой момент времени.
— Скорость работы выросла до 300 раз по сравнению с аналогами.
— Обработка одной минуты видео занимает около 5 секунд на одном чипе TPU.
— Одновременно решает задачи трекинга точек, создания облака точек и оценки позы камеры.
— Эффективно разделяет движение объектов и самой камеры, справляясь с перекрытиями.
Технология предназначена для робототехники, AR-устройств и создания точных моделей мира.
Добавить комментарий