Пивоваров И.О., Шумский С.А. МАРТИ 5.2 – математическая модель «себя в мире» как первая ступень ...
МАРТИ 5.2 – математическая модель «себя в мире» как первая ступень самосознания Пивоваров И.О., Шумский С.А. igorpivovarov@yandex.ru Следуя [1] мы выделяем в сознании несколько уровней феноменологического опыта: сенсорный, аффективный, когнитивный, агентивный и самосознание (awareness). Современные модели искусственного интеллекта, например глубокие искусственные нейронные сети (далее ИНС), получают на входе данные (например картинку или текст), которые можно считать моделью сенсорного опыта. Далее ИНС проводят вычислительную обработку этих данных, которую можно считать моделью когнитивного опыта. Наконец, некоторые ИНС умеют действовать как агенты в определенной среде, выполняя те или иные действия для достижения заданной цели. Такие действия можно считать моделью агентивного опыта. Однако, невозможно прямо отождествить никакую часть работы ИНС с самосознанием, поэтому сегодня обсуждения о том, есть ли самосознание у ИНС, являются в основном спекулятивными. Самосознание, в свою очередь, также можно разделить на несколько уровней. Но для того, чтобы осознать себя, необходимо провести границу между собой и окружающим миром. Поэтому, на наш взгляд, отделение себя от окружающего мира и является самым базовым уровнем самосознания. В этой работе мы представляем математическую модель машинного обучения (искусственного интеллекта) МАРТИ 5.2, которая умеет выделять себя в окружающем мире и эффективно использовать это выделение, реализуя целенаправленное поведение. МАРТИ – математическая модель мозга человека, построенная на архитектуре Deep Control Architecture [2], которая реализует неокортекс и базальные ганглии. Это асинхронная параллельная модель кортикальных колонок, управляемых стриатумом, который в каждый момент времени выбирает наилучшее возможное решение в данной ситуации [3]. МАРТИ – мультиагентная многослойная нейросимвольная модель, которая учится на базе обучения с подкреплением (reinforcement learning), учась достигать целей в незнакомой среде. Для тестирования МАРТИ мы используем открытый фреймворк Gymnasium [4], реализующий игры Атари. Для целей настоящей статьи были использованы игры Pong и Breakout. Эти игры являются сложными, с точки зрения обучения с подкреплением, так как вознаграждение (или штраф) дается не на каждом шаге, а лишь по окончании игры (sparse reward). На вход МАРТИ подается цифровой вектор признаков, описывающий полное текущее состояние среды и подкрепление: вознаграждение +1 за выигранную игру и штраф -1 за проигранную игру. Модель выдает в ответ действие, которое должно быть выполнено в среде (например, сдвинуть ракетку вправо или влево). Задача модели – максимизировать суммарное подкрепление. Для этого МАРТИ учится предсказывать следующее действие так, чтобы получить вознаграждение и не получить штраф. В отличие от предыдущей модели МАРТИ 4 [5], которая реализовала только агентское поведение, модель МАРТИ 5.2 умеет выделять «себя» в окружающем мире, что сильно повышает эффективность обучения и результаты модели. В настоящей статье мы не будем подробно описывать полную модель, а дадим лишь общие контуры и сосредоточимся на выделении «модели себя» и оперировании ею. Известно, что в мозге человека есть нейронные области двух типов – типа «ЧТО» и типа «ГДЕ» [6]. Базируясь на этом факте, МАРТИ создает на первом слое колонки двух типов: для обработки ситуации (описания полного состояния среды - ЧТО) и для обработки положения (отдельных координат отдельных объектов – ГДЕ). Причем, так как заранее неизвестно, какие компоненты во входной информации могут стать частью модели себя, МАРТИ изначально создает избыточное количество таких колонок на все возможные компоненты, из которых впоследствии остаются рабочие колонки положения, а остальные дезактивируются. Колонки ситуации получают на вход только информацию о текущей ситуации и предсказывают самый вероятный следующий символ. В отличии от них, колонки положения получают на вход еще и информацию о предыдущих действиях модели в среде и тоже предсказывают наиболее вероятный следующий символ. И параллельно вычисляют коэффициент PMI (Pointwise mutual information), показывающий степень влияния предыдущих действий на вероятность предсказания следующего символа. При превышении коэффициентом PMI заданного порога, считается выполненным условие саморепрезентативности и такая колонка положения далее считается рабочей. Таким образом, по истечении некоторого времени, выявляются колонки положения, которые намного точнее предсказывают некоторую координату, используя информацию о предыдущих действиях модели. Например, положение своей ракетки в игре сильно связано со своими предыдущими действиями, а вот положение ракетки противника – мало связано со своими действиями. Поэтому колонка, которая анализирует положение «своей» ракетки, намного точнее предсказывает ее следующее положение и становится рабочей. ...