Когда награда важнее архитектуры — вырезки из интервью с ген.директором Convergent Research и ex. сотрудником DeepMind.
Ниже представлено резюме, ещё одного интересного интервью с Адамом Марблстоуном: «Чего фундаментального не хватает ИИ в понимании мозга?»
Адам Марблстоун, генеральный директор Convergent Research и бывший научный сотрудник Google DeepMind в области нейробиологии, в интервью обсуждает ключевые различия между человеческим мозгом и современными системами ИИ. Основной вопрос, на который пытаются ответить: почему мозг обучается невероятно эффективно на небольшом количестве данных, в то время как даже самые крупные модели ИИ требуют гигантских объемов информации и все равно не обладают человеческими возможностями?
Далее указаны основные идеи, затронутые в интервью:
1. Главная позиция. RL и «Секретный соус» мозга – это не архитектура, а сложные функции вознаграждения.
Марблстоун выдвигает центральный тезис: современное машинное обучение фокусируется на архитектуре сетей (например, трансформеры) и алгоритмах обучения (обратное распространение ошибки), но упускает из виду самый важный компонент – сложные, эволюционно выработанные аналоги «функции потерь» или «функции вознаграждения».
Сейчас мы имеем «простые цели для обучения ИИ» — современные LM учатся на математически простых задачах, таких как «предсказать следующее слово». Это универсально, как-то масштабируемо, но неэффективно.
На деле, мы имеем более сложные цели для мозга. Эволюция, методом проб и ошибок за миллионы лет, встроила в мозг (точнее, в геном) свои «код-скрипты», этакий сложный набор конкретных правил и учебных программ. Эти правила говорят разным частям мозга, чему и когда учиться в процессе развития. Например, врожденные механизмы, которые заставляют младенца обращать внимание на человеческие лица или испытывать эмоции стыда/гордости в социальных ситуациях, являются частью этой «встроенной учебной программы». А тут мы уже обращаемся к тому, что хранит наш геном.
2. Амортизированный вывод и то, что на самом деле хранит геном?
Тут мы пришли к глубокому вопросу, который задавал Илья Суцкевер: как геном, который физически не может содержать информацию обо всем богатстве человеческого опыта, кодирует абстрактные цели и желания (например, «добиваться статуса в племени»)?
Проблема: Эволюция не знала конкретно о социальных сетях, науке или бологах, но наш мозг учится стремиться к успеху, быть лучшим в выбранных областях.
Решение через «обучение с моделью»: Марблстоун ссылается на теорию Стива Бёрнса. Мозг можно условно разделить на две взаимосвязанные подсистемы:
1. «Рулевая» система: Более древние, инстинктивные части мозга лимбическая система, мозжечок, ствол мозга. Они содержат врожденные эвристики и базовые функции вознаграждения, например, распознавание угроз, базовые эмоции.
2. «Обучающаяся» система: В основном неокортекс — кора головного мозга, который строит сложную модель мира.
А также существует механизм связи. Кора головного мозга и связанные с ней области, например, миндалина, учатся предсказывать реакции «рулевой» системы. Так, нейроны, которые активируются при мысли о возможном неодобрении со стороны авторитетной фигуры, связываются с врожденными цепями, вызывающими стыд или тревогу. Таким образом, эволюция запрограммировала не конкретные цели, а процесс – механизм, который связывает обучающиеся представления о мире с врожденными базовыми ценностями.
3. Модельное и немодельное обучение как Model-based vs. Model-free RL в мозге.
Марблстоун объясняет, почему мозг, вероятно, не использует чистый «немодельный» подход, как в некоторых системах ИИ, а полагается на внутреннюю модель.
Немодельное обучение: Система запоминает, какие действия в каких состояниях приводят к вознаграждению, без понимания внутренних механизмов мира. Это похоже на выработку рефлекса.
Модельное обучение: Система строит внутреннюю симуляцию мира, чтобы планировать и оценивать последствия действий. Этакий поиск в глубину и ширину, мы не только получаем сию минутное удовольствие, но и смотрим к чему это приведёт в будущем.
Добавить комментарий