Внутренняя мотивация (искусственный интеллект)

Внутренняя мотивация — механизм, в области искусственного интеллекта и робототехники, позволяющий искусственным агентам (включая роботов) проявлять поведенческие формы, такие как исследование среды и любознательность, которые изначально приносят внутреннее удовлетворение. Эти явления объединяются под тем же термином в психологии. В психологии внутренняя мотивация у человека понимается как стремление выполнять деятельность ради самого процесса — ради удовольствия или вызова.

Интеллектуальный агент считается действующим из внутренней мотивации, если именно содержательная информация либо опыт, получаемый в результате действия, служит мотивирующим фактором.

Содержательная информация в данном контексте измеряется в информационно-теоретическом смысле — через количественную оценку неопределённости. Характерной внутренней мотивацией является поиск необычных, удивительных ситуаций (исследование), в противовес внешним мотивациям — таким как поиск пищи (гомеостаз). Внешние мотивации обычно в искусственном интеллекте описываются как зависимые от задачи или целенаправленные.

Исследования внутренней мотивации в психологии и нейронауках начались в 1950-х годах, когда ряд психологов объяснял исследовательское поведение врождёнными побуждениями к манипуляции и исследованию среды, однако этот гомеостатический взгляд был раскритикован Уайтом. В качестве альтернативы Берлайн (англ. Berlyne) в 1960 году предложил объяснение через стремление к оптимальному балансу новизны и привычности. Фестингер (англ. Festinger) описывал различие между внутренним и внешним восприятием мира как диссонанс, который организмы стремятся снизить. Похожий подход в 1970-х высказывал Каган (англ. Kagan) как стремление уменьшить несовместимость между когнитивной структурой и опытом. В противовес идее оптимальной несогласованности Деси и Райан (англ. Deci, Ryan) в середине 1980-х выявили внутреннюю мотивацию, связанную с компетентностью и самоопределением.

Важный ранний вклад в разработку формализмов искусственной любознательности внёс в начале 1990-х Юрген Шмидхубер (англ. Jürgen Schmidhuber); его подход развился в «формальную теорию креативности, удовольствия и внутренней мотивации».

Внутренняя мотивация часто исследуется в рамках вычислительного обучения с подкреплением (введённого Саттоном и Барто), где вознаграждения, определяющие поведение агента, выводятся из внутренних факторов, а не навязываются извне, и должны быть усвоены из окружающей среды. Само обучение с подкреплением не зависит от способа формирования награды: агент учится политике (стратегии действий) на основе распределений вознаграждений, возникающих в результате его действий и их последствий. Каждый подход к внутренней мотивации в этой схеме по сути является разным способом генерации функции вознаграждения агента.

Любознательность vs исследование

Агенты с внутренней мотивацией демонстрируют поведение, напоминающее любознательность или исследование. Проблематика исследования в ИИ и робототехнике подробно изучалась в моделях обучения с подкреплением, где агента побуждают максимально исследовать среду, чтобы уменьшить неопределённость о её динамике (обучение функции переходов) и способах достижения целей (обучение функции вознаграждения). Внутренняя мотивация, напротив, фокусирует агента на том, чтобы сначала исследовать аспекты среды, дающие больше информации, искать новизну. Недавние исследования, объединяющие счетчик посещённых состояний и внутреннюю мотивацию, показывают более быстрое обучение в играх.

Пьер-Ив Удейе (англ. Pierre-Yves Oudeyer) и Каплан внесли значительный вклад в изучение внутренней мотивации. Они определяют внутреннюю мотивацию на основе теории Берлайна и делят методы реализации внутренней мотивации на три категории, повторяющие основные психологические корни: «модели на основе знания», «модели на основе компетентности» и «морфологические модели». Модели на основе знания далее делятся на «информационно-теоретические» и «прогностические». Балдасарре и Миролли приводят схожую типологию, разделяя модели на основанные на предсказаниях и на поиске новизны.

Информационно-теоретическая внутренняя мотивация

Количественная оценка прогнозирования и новизны для управления поведением обычно обеспечивается посредством информационно-теоретических моделей, где состояния агента и политика во времени описываются вероятностными распределениями над марковским процессом принятия решений, а цикл восприятия и действия трактуется как информационный канал. Эти подходы претендуют на биологическую реализуемость как часть байесовских подходов к деятельности мозга. Главная критика и сложность этих моделей — трудность вычисления вероятностных распределений в больших дискретных и непрерывных пространствах состояний. Тем не менее, значительный пласт работ посвящён моделированию информационного потока в сенсомоторном цикле, что приводит к де-факто функциям вознаграждения, связанным со снижением неопределённости, — наиболее заметно активный вывод, а также инфотаксис, предсказательная информация и эмпаурмент.

Модели на основе компетентности

Стилс предложил автотелический принцип, стремящийся формализовать понятие потока.

Модели достижения, принадлежности и власти

К другим внутренним мотивам, смоделированным вычислительно, относят стремление к достижению результата, принадлежности и власти. Эти мотивы могут реализовываться как функции вероятности успеха или стимула. В популяции агентов могут присутствовать особи с разными профилями стремления к достижению, принадлежности и власти, что позволяет моделировать разнообразие и объяснять различие в поведении при одних и тех же стимулах.

После достижения, принадлежности и власти

В более поздней вычислительной теории внутренней мотивации делается попытка объяснить широкий спектр психологических наблюдений, основанных на подобных мотивах. Эта модель выходит за пределы простых моделей достижения, принадлежности и власти, учитывая другие значимые человеческие мотивы. Эмпирические данные из психологии были воспроизведены и количественно описаны с помощью этой модели.

Обучение с внутренней мотивацией (или обучением, обусловленным любознательностью) — активно развивающееся направление исследований искусственного интеллекта и развивающейся робототехники, цель которого — создание агентов, способных осваивать универсальные навыки или стратегии, предназначенные для повышения эффективности при внешних (экзогенных) заданиях, например, поиске ресурсов. Обучение с внутренней мотивацией рассматривается как способ автономного длительного обучения машин и открытого обучения у игровых персонажей. В частности, когда агент осваивает значимую абстрактную репрезентацию, понятие расстояния между двумя репрезентациями может служить мерой новизны и обеспечивать эффективное исследование среды. Несмотря на успехи глубокого обучения в отдельных областях (например, AlphaGo), многие специалисты (в частности, Гэри Маркус) отмечают, что способность к обобщению остаётся фундаментальной проблемой искусственного интеллекта. Обучение с внутренней мотивацией, хотя оно многообещающе в генерировании целей на основе структуры среды, без внешних задач, сталкивается с той же проблемой обобщения — как переиспользовать уже выученные стратегии, сжимать и хранить важные признаки в непрерывных или сложных пространствах состояний.

Oudeyer, Pierre-Yves. How can we define intrinsic motivation? // Proc. of the 8th Conf. on Epigenetic Robotics : [англ.] / Pierre-Yves Oudeyer, Frederic Kaplan. — 2008. — Vol. 5. — P. 29–31.

Baldassarre, Gianluca. Intrinsically Motivated Learning Systems: An Overview // Intrinsically Motivated Learning in Natural and Artificial Systems : [англ.] / Gianluca Baldassarre, Marco Mirolli. — Rome, Italy : Springer, 2013. — P. 1–14.

Schmidhuber, J (2010). “Formal theory of creativity, fun, and intrinsic motivation (1990–2010)”. IEEE Trans. Auton. Mental Dev. [англ.]. 2 (3): 230—247. Bibcode:2010ITAMD...2..230S. DOI:10.1109/TAMD.2010.2056368. S2CID 234198.

White, R. (1959). “Motivation reconsidered: The concept of competence”. Psychological Review [англ.]. 66 (5): 297—333. DOI:10.1037/h0040934. PMID 13844397. S2CID 37385966.

Berlyne, D.: Conflict, Arousal and Curiosity. McGraw-Hill, New York (1960).

Festinger, L.: A theory of cognitive dissonance. Evanston, Row, Peterson (1957).

Kagan, J.: Motives and development. Journal of Personality and Social Psychology 22, 51–66.

Deci, E.L., Ryan, R.M.: Intrinsic motivation and self-determination in human behavior. Plenum, New York (1985).

Barto, A., Singh, S., Chentanez, N.: Intrinsically motivated learning of hierarchical collections of skills. In: ICDL 2004. Proceedings of the 3rd International Conference on Development and Learning, Salk Institute, San Diego (2004).

Friston, Karl; Kilner, James; Harrison, Lee (2006). “A free energy principle for the brain” (PDF). Journal of Physiology-Paris [англ.]. Elsevier BV. 100 (1—3): 70—87. DOI:10.1016/j.jphysparis.2006.10.001. ISSN 0928-4257. PMID 17097864. S2CID 637885.

Salge, C. Empowerment–An Introduction // Guided Self-Organization: Inception. Emergence, Complexity and Computation : [англ.] / C Salge, C Glackin, D Polani. — Springer, 2014. — Vol. 9. — P. 67–114. — ISBN 978-3-642-53733-2. — doi:10.1007/978-3-642-53734-9_4.

Barto, A.G.: Intrinsic motivation and reinforcement learning. In: Baldassarre, G., Mirolli, M. (eds.) Intrinsically Motivated Learning in Natural and Artificial Systems. Springer, Berlin (2012).

Steels, Luc: The autotelic principle. In: Iida, F., Pfeifer, R., Steels, L., Kuniyoshi, Y. (eds.) Embodied Artificial Intelligence. LNCS (LNAI), vol. 3139, pp. 231–242. Springer, Heidelberg (2004).

Ay, N., Bertschinger, N., Der, R., Güttler, F. and Olbrich, E. (2008), ‘Predictive information and explorative behavior of autonomous robots’, The European Physical Journal B 63(3), 329–339.

Oudeyer, P. Y., & Kaplan, F. (2009). What is intrinsic motivation? A typology of computational approaches. Frontiers in Neurorobotics, 3(NOV). https://doi.org/10.3389/neuro.12.006.2007

Vergassola, M., Villermaux, E., & Shraiman, B. I. (2007). ‘Infotaxis’ as a strategy for searching without gradients. Nature, 445(7126), 406–409. https://doi.org/10.1038/nature05464

Kaplan, F. and Oudeyer, P. (2004). Maximizing learning progress: an internal reward system for development. Embodied artificial intelligence, pages 629–629.

Singh, S., Barto, A. G., and Chentanez, N. (2005). Intrinsically motivated reinforcement learning. In Proceedings of the 18th Annual Conference on Neural Information Processing Systems (NIPS), Vancouver, B.C., Canada.

Klyubin, A., Polani, D., and Nehaniv, C. (2008). Keep your options open: an information-based driving principle for sensorimotor systems. PLOS ONE, 3(12):e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018

Csikszentmihalyi, M. (2000). Beyond boredom and anxiety. Jossey-Bass.

Lungarella, M., Metta, G., Pfeifer, R., and Sandini, G. (2003). Developmental robotics: a survey. Connect. Sci. 15, 151–190. doi: 10.1080/09540090310001655110

Barto, A. G. (2013). “Intrinsic motivation and reinforcement learning,” in Intrinsically Motivated Learning in Natural and Artificial Systems (Berlin; Heidelberg: Springer), 17–47

Martius, G., Der, R., and Ay, N. (2013). Information driven self-organization of complex robotic behaviors. PLOS ONE 8:e63400. doi: 10.1371/journal.pone.0063400

Mirolli, M., and Baldassarre, G. (2013). “Functions and mechanisms of intrinsic motivations,” in Intrinsically Motivated Learning in Natural and Artificial Systems, eds G. Baldassarre and M. Mirolli (Berlin; Heidelberg: Springer), 49–72

Santucci, V. G., Oudeyer, P. Y., Barto, A., & Baldassarre, G. (2020). Editorial: Intrinsically motivated open-ended learning in autonomous robots. Frontiers in Neurorobotics, 13(January), 2019–2021. https://doi.org/10.3389/fnbot.2019.00115

Sun, R., Bugrov, S, and Dai, D. (2022). A unified framework for interpreting a range of motivation-performance phenomena. Cognitive Systems Research, 71, 24–40.

Tao, Ruo Yu and Francois-Lavet, Vincent and Pineau, Joelle (2020). Novelty search in representational space for sample efficient exploration. Neural Information Processing Systems, 2020. https://arxiv.org/abs/2009.13579

Bellemare, M. G., Srinivasan, S., Ostrovski, G., Schaul, T., Saxton, D., & Munos, R. (2016). Unifying count-based exploration and intrinsic motivation. Advances in Neural Information Processing Systems, 1479–1487.

Thrun, S. B. (1992). Efficient Exploration in Reinforcement Learning. https://doi.org/10.1007/978-1-4899-7687-1_244

Merrick, K. E., Maher, M-L (2009). Motivated Reinforcement Learning: Curious Characters for Multiuser Games. Springer-Verlag Berlin Heidelberg, https://doi.org/10.1007/978-3-540-89187-1.

Merrick, K. E. (2016). Computational Models of Motivation for Game-Playing Agents. Springer International Publishing, https://doi.org/10.1007/978-3-319-33459-2.

Внутренняя мотивация (искусственный интеллект)

Определение

Происхождение в психологии

Вычислительные модели

Любознательность vs исследование

Типы моделей

Информационно-теоретическая внутренняя мотивация

Модели на основе компетентности

Модели достижения, принадлежности и власти

После достижения, принадлежности и власти

Обучение с внутренней мотивацией

Литература