Внутренняя мотивация (искусственный интеллект)

Внутренняя мотивация — механизм, в области искусственного интеллекта и робототехники, позволяющий искусственным агентам (включая роботов) проявлять поведенческие формы, такие как исследование среды и любознательность, которые изначально приносят внутреннее удовлетворение. Эти явления объединяются под тем же термином в психологии. В психологии внутренняя мотивация у человека понимается как стремление выполнять деятельность ради самого процесса — ради удовольствия или вызова.

Определение

Интеллектуальный агент считается действующим из внутренней мотивации, если именно содержательная информация либо опыт, получаемый в результате действия, служит мотивирующим фактором.

Содержательная информация в данном контексте измеряется в информационно-теоретическом смысле — через количественную оценку неопределённости. Характерной внутренней мотивацией является поиск необычных, удивительных ситуаций (исследование), в противовес внешним мотивациям — таким как поиск пищи (гомеостаз). Внешние мотивации обычно в искусственном интеллекте описываются как зависимые от задачи или целенаправленные.

Происхождение в психологии

Исследования внутренней мотивации в психологии и нейронауках начались в 1950-х годах, когда ряд психологов объяснял исследовательское поведение врождёнными побуждениями к манипуляции и исследованию среды, однако этот гомеостатический взгляд был раскритикован Уайтом. В качестве альтернативы Берлайн (англ. Berlyne) в 1960 году предложил объяснение через стремление к оптимальному балансу новизны и привычности. Фестингер (англ. Festinger) описывал различие между внутренним и внешним восприятием мира как диссонанс, который организмы стремятся снизить. Похожий подход в 1970-х высказывал Каган (англ. Kagan) как стремление уменьшить несовместимость между когнитивной структурой и опытом. В противовес идее оптимальной несогласованности Деси и Райан (англ. Deci, Ryan) в середине 1980-х выявили внутреннюю мотивацию, связанную с компетентностью и самоопределением.

Вычислительные модели

Важный ранний вклад в разработку формализмов искусственной любознательности внёс в начале 1990-х Юрген Шмидхубер (англ. Jürgen Schmidhuber); его подход развился в «формальную теорию креативности, удовольствия и внутренней мотивации».

Внутренняя мотивация часто исследуется в рамках вычислительного обучения с подкреплением (введённого Саттоном и Барто), где вознаграждения, определяющие поведение агента, выводятся из внутренних факторов, а не навязываются извне, и должны быть усвоены из окружающей среды. Само обучение с подкреплением не зависит от способа формирования награды: агент учится политике (стратегии действий) на основе распределений вознаграждений, возникающих в результате его действий и их последствий. Каждый подход к внутренней мотивации в этой схеме по сути является разным способом генерации функции вознаграждения агента.

Любознательность vs исследование

Агенты с внутренней мотивацией демонстрируют поведение, напоминающее любознательность или исследование. Проблематика исследования в ИИ и робототехнике подробно изучалась в моделях обучения с подкреплением, где агента побуждают максимально исследовать среду, чтобы уменьшить неопределённость о её динамике (обучение функции переходов) и способах достижения целей (обучение функции вознаграждения). Внутренняя мотивация, напротив, фокусирует агента на том, чтобы сначала исследовать аспекты среды, дающие больше информации, искать новизну. Недавние исследования, объединяющие счетчик посещённых состояний и внутреннюю мотивацию, показывают более быстрое обучение в играх.

Типы моделей

Пьер-Ив Удейе (англ. Pierre-Yves Oudeyer) и Каплан внесли значительный вклад в изучение внутренней мотивации. Они определяют внутреннюю мотивацию на основе теории Берлайна и делят методы реализации внутренней мотивации на три категории, повторяющие основные психологические корни: «модели на основе знания», «модели на основе компетентности» и «морфологические модели». Модели на основе знания далее делятся на «информационно-теоретические» и «прогностические». Балдасарре и Миролли приводят схожую типологию, разделяя модели на основанные на предсказаниях и на поиске новизны.

Информационно-теоретическая внутренняя мотивация

Количественная оценка прогнозирования и новизны для управления поведением обычно обеспечивается посредством информационно-теоретических моделей, где состояния агента и политика во времени описываются вероятностными распределениями над марковским процессом принятия решений, а цикл восприятия и действия трактуется как информационный канал. Эти подходы претендуют на биологическую реализуемость как часть байесовских подходов к деятельности мозга. Главная критика и сложность этих моделей — трудность вычисления вероятностных распределений в больших дискретных и непрерывных пространствах состояний. Тем не менее, значительный пласт работ посвящён моделированию информационного потока в сенсомоторном цикле, что приводит к де-факто функциям вознаграждения, связанным со снижением неопределённости, — наиболее заметно активный вывод, а также инфотаксис, предсказательная информация и эмпаурмент.

Модели на основе компетентности

Стилс предложил автотелический принцип, стремящийся формализовать понятие потока.

Модели достижения, принадлежности и власти

К другим внутренним мотивам, смоделированным вычислительно, относят стремление к достижению результата, принадлежности и власти. Эти мотивы могут реализовываться как функции вероятности успеха или стимула. В популяции агентов могут присутствовать особи с разными профилями стремления к достижению, принадлежности и власти, что позволяет моделировать разнообразие и объяснять различие в поведении при одних и тех же стимулах.

После достижения, принадлежности и власти

В более поздней вычислительной теории внутренней мотивации делается попытка объяснить широкий спектр психологических наблюдений, основанных на подобных мотивах. Эта модель выходит за пределы простых моделей достижения, принадлежности и власти, учитывая другие значимые человеческие мотивы. Эмпирические данные из психологии были воспроизведены и количественно описаны с помощью этой модели.

Обучение с внутренней мотивацией

Обучение с внутренней мотивацией (или обучением, обусловленным любознательностью) — активно развивающееся направление исследований искусственного интеллекта и развивающейся робототехники, цель которого — создание агентов, способных осваивать универсальные навыки или стратегии, предназначенные для повышения эффективности при внешних (экзогенных) заданиях, например, поиске ресурсов. Обучение с внутренней мотивацией рассматривается как способ автономного длительного обучения машин и открытого обучения у игровых персонажей. В частности, когда агент осваивает значимую абстрактную репрезентацию, понятие расстояния между двумя репрезентациями может служить мерой новизны и обеспечивать эффективное исследование среды. Несмотря на успехи глубокого обучения в отдельных областях (например, AlphaGo), многие специалисты (в частности, Гэри Маркус) отмечают, что способность к обобщению остаётся фундаментальной проблемой искусственного интеллекта. Обучение с внутренней мотивацией, хотя оно многообещающе в генерировании целей на основе структуры среды, без внешних задач, сталкивается с той же проблемой обобщения — как переиспользовать уже выученные стратегии, сжимать и хранить важные признаки в непрерывных или сложных пространствах состояний.

Литература

  • Oudeyer, Pierre-Yves. How can we define intrinsic motivation? // Proc. of the 8th Conf. on Epigenetic Robotics : [англ.] / Pierre-Yves Oudeyer, Frederic Kaplan. — 2008. — Vol. 5. — P. 29–31.
  • Baldassarre, Gianluca. Intrinsically Motivated Learning Systems: An Overview // Intrinsically Motivated Learning in Natural and Artificial Systems : [англ.] / Gianluca Baldassarre, Marco Mirolli. — Rome, Italy : Springer, 2013. — P. 1–14.
  • Schmidhuber, J (2010). “Formal theory of creativity, fun, and intrinsic motivation (1990–2010)”. IEEE Trans. Auton. Mental Dev. [англ.]. 2 (3): 230—247. Bibcode:2010ITAMD...2..230S. DOI:10.1109/TAMD.2010.2056368. S2CID 234198.
  • Berlyne, D.: Conflict, Arousal and Curiosity. McGraw-Hill, New York (1960).
  • Festinger, L.: A theory of cognitive dissonance. Evanston, Row, Peterson (1957).
  • Kagan, J.: Motives and development. Journal of Personality and Social Psychology 22, 51–66.
  • Deci, E.L., Ryan, R.M.: Intrinsic motivation and self-determination in human behavior. Plenum, New York (1985).
  • Barto, A., Singh, S., Chentanez, N.: Intrinsically motivated learning of hierarchical collections of skills. In: ICDL 2004. Proceedings of the 3rd International Conference on Development and Learning, Salk Institute, San Diego (2004).
  • Salge, C. Empowerment–An Introduction // Guided Self-Organization: Inception. Emergence, Complexity and Computation : [англ.] / C Salge, C Glackin, D Polani. — Springer, 2014. — Vol. 9. — P. 67–114. — ISBN 978-3-642-53733-2. — doi:10.1007/978-3-642-53734-9_4.
  • Barto, A.G.: Intrinsic motivation and reinforcement learning. In: Baldassarre, G., Mirolli, M. (eds.) Intrinsically Motivated Learning in Natural and Artificial Systems. Springer, Berlin (2012).
  • Steels, Luc: The autotelic principle. In: Iida, F., Pfeifer, R., Steels, L., Kuniyoshi, Y. (eds.) Embodied Artificial Intelligence. LNCS (LNAI), vol. 3139, pp. 231–242. Springer, Heidelberg (2004).
  • Ay, N., Bertschinger, N., Der, R., Güttler, F. and Olbrich, E. (2008), ‘Predictive information and explorative behavior of autonomous robots’, The European Physical Journal B 63(3), 329–339.
  • Vergassola, M., Villermaux, E., & Shraiman, B. I. (2007). ‘Infotaxis’ as a strategy for searching without gradients. Nature, 445(7126), 406–409. https://doi.org/10.1038/nature05464
  • Kaplan, F. and Oudeyer, P. (2004). Maximizing learning progress: an internal reward system for development. Embodied artificial intelligence, pages 629–629.
  • Singh, S., Barto, A. G., and Chentanez, N. (2005). Intrinsically motivated reinforcement learning. In Proceedings of the 18th Annual Conference on Neural Information Processing Systems (NIPS), Vancouver, B.C., Canada.
  • Csikszentmihalyi, M. (2000). Beyond boredom and anxiety. Jossey-Bass.
  • Lungarella, M., Metta, G., Pfeifer, R., and Sandini, G. (2003). Developmental robotics: a survey. Connect. Sci. 15, 151–190. doi: 10.1080/09540090310001655110
  • Barto, A. G. (2013). “Intrinsic motivation and reinforcement learning,” in Intrinsically Motivated Learning in Natural and Artificial Systems (Berlin; Heidelberg: Springer), 17–47
  • Martius, G., Der, R., and Ay, N. (2013). Information driven self-organization of complex robotic behaviors. PLOS ONE 8:e63400. doi: 10.1371/journal.pone.0063400
  • Mirolli, M., and Baldassarre, G. (2013). “Functions and mechanisms of intrinsic motivations,” in Intrinsically Motivated Learning in Natural and Artificial Systems, eds G. Baldassarre and M. Mirolli (Berlin; Heidelberg: Springer), 49–72
  • Santucci, V. G., Oudeyer, P. Y., Barto, A., & Baldassarre, G. (2020). Editorial: Intrinsically motivated open-ended learning in autonomous robots. Frontiers in Neurorobotics, 13(January), 2019–2021. https://doi.org/10.3389/fnbot.2019.00115
  • Sun, R., Bugrov, S, and Dai, D. (2022). A unified framework for interpreting a range of motivation-performance phenomena. Cognitive Systems Research, 71, 24–40.
  • Tao, Ruo Yu and Francois-Lavet, Vincent and Pineau, Joelle (2020). Novelty search in representational space for sample efficient exploration. Neural Information Processing Systems, 2020. https://arxiv.org/abs/2009.13579
  • Bellemare, M. G., Srinivasan, S., Ostrovski, G., Schaul, T., Saxton, D., & Munos, R. (2016). Unifying count-based exploration and intrinsic motivation. Advances in Neural Information Processing Systems, 1479–1487.