Когда награда важнее архитектуры — вырезки из интервью с ген.директором Convergent Research и ex. со

Когда награда важнее архитектуры — вырезки из интервью с ген.директором Convergent Research и ex. сотрудником DeepMind.

Ниже представлено резюме, ещё одного интересного интервью с Адамом Марблстоуном: «Чего фундаментального не хватает ИИ в понимании мозга?»

Адам Марблстоун, генеральный директор Convergent Research и бывший научный сотрудник Google DeepMind в области нейробиологии, в интервью обсуждает ключевые различия между человеческим мозгом и современными системами ИИ. Основной вопрос, на который пытаются ответить: почему мозг обучается невероятно эффективно на небольшом количестве данных, в то время как даже самые крупные модели ИИ требуют гигантских объемов информации и все равно не обладают человеческими возможностями?

Далее указаны основные идеи, затронутые в интервью:

1. Главная позиция. RL и «Секретный соус» мозга – это не архитектура, а сложные функции вознаграждения.

Марблстоун выдвигает центральный тезис: современное машинное обучение фокусируется на архитектуре сетей (например, трансформеры) и алгоритмах обучения (обратное распространение ошибки), но упускает из виду самый важный компонент – сложные, эволюционно выработанные аналоги «функции потерь» или «функции вознаграждения».

Сейчас мы имеем «простые цели для обучения ИИ» — современные LM учатся на математически простых задачах, таких как «предсказать следующее слово». Это универсально, как-то масштабируемо, но неэффективно.

На деле, мы имеем более сложные цели для мозга. Эволюция, методом проб и ошибок за миллионы лет, встроила в мозг (точнее, в геном) свои «код-скрипты», этакий сложный набор конкретных правил и учебных программ. Эти правила говорят разным частям мозга, чему и когда учиться в процессе развития. Например, врожденные механизмы, которые заставляют младенца обращать внимание на человеческие лица или испытывать эмоции стыда/гордости в социальных ситуациях, являются частью этой «встроенной учебной программы». А тут мы уже обращаемся к тому, что хранит наш геном.

2. Амортизированный вывод и то, что на самом деле хранит геном?

Тут мы пришли к глубокому вопросу, который задавал Илья Суцкевер: как геном, который физически не может содержать информацию обо всем богатстве человеческого опыта, кодирует абстрактные цели и желания (например, «добиваться статуса в племени»)?

Проблема: Эволюция не знала конкретно о социальных сетях, науке или бологах, но наш мозг учится стремиться к успеху, быть лучшим в выбранных областях.
Решение через «обучение с моделью»: Марблстоун ссылается на теорию Стива Бёрнса. Мозг можно условно разделить на две взаимосвязанные подсистемы:
1. «Рулевая» система: Более древние, инстинктивные части мозга лимбическая система, мозжечок, ствол мозга. Они содержат врожденные эвристики и базовые функции вознаграждения, например, распознавание угроз, базовые эмоции.
2. «Обучающаяся» система: В основном неокортекс — кора головного мозга, который строит сложную модель мира.
А также существует механизм связи. Кора головного мозга и связанные с ней области, например, миндалина, учатся предсказывать реакции «рулевой» системы. Так, нейроны, которые активируются при мысли о возможном неодобрении со стороны авторитетной фигуры, связываются с врожденными цепями, вызывающими стыд или тревогу. Таким образом, эволюция запрограммировала не конкретные цели, а процесс – механизм, который связывает обучающиеся представления о мире с врожденными базовыми ценностями.

3. Модельное и немодельное обучение как Model-based vs. Model-free RL в мозге.

Марблстоун объясняет, почему мозг, вероятно, не использует чистый «немодельный» подход, как в некоторых системах ИИ, а полагается на внутреннюю модель.

Немодельное обучение: Система запоминает, какие действия в каких состояниях приводят к вознаграждению, без понимания внутренних механизмов мира. Это похоже на выработку рефлекса.
Модельное обучение: Система строит внутреннюю симуляцию мира, чтобы планировать и оценивать последствия действий. Этакий поиск в глубину и ширину, мы не только получаем сию минутное удовольствие, но и смотрим к чему это приведёт в будущем.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *