Эмпауэрмент (искусственный интеллект)

Эмпауэрмент — формализованная и количественная (через теорию информации) мера, отражающая потенциальную способность агента воздействовать на своё окружение. Агент, следующей политике максимизации эмпауэрмента, действует так, чтобы увеличить количество возможных будущих состояний (как правило, на ограниченном временном горизонте). Эмпауэрмент может выступать в качестве (псевдо)функции полезности, которая зависит только от информации, собранной в локальном окружении, и направляет действия агента не по внешне заданной цели, а исходя из собственных возможностей, тем самым реализуя внутреннюю мотивацию.

Формализм эмпауэрмента основывается на вероятностной модели, распространённой в искусственном интеллекте. Автономный агент действует в мире, получая сенсорную информацию и изменяя своё или состояние среды в цикле «восприятие—действие» (англ. perception-action loop). Состояния агента и действия моделируются случайными величинами ( $S:s\in {\mathcal {S}},A:a\in {\mathcal {A}}$ ), описываемыми во времени ( $t$ ). Выбор действия зависит от текущего состояния, а будущее состояние — от действия; таким образом, цикл восприятия—действия, развёрнутый во времени, формирует каузальную байесовскую сеть.

Эмпауэрмент ( ${\mathfrak {E}}$ ) определяется как пропускная способность ( $C$ ) управляющего канала агента и формализуется как максимально возможный поток информации между действиями агента и их последствиями через некоторое время. Эмпауэрмент можно рассматривать как потенциальную будущую способность агента воздействовать на среду, измеряемую по его сенсорным данным.

{\mathfrak {E}}:=C(A_{t}\longrightarrow S_{t+1})\equiv \max _{p(a_{t})}I(A_{t};S_{t+1})

В дискретной временной модели эмпауэрмент может вычисляться на заданное число шагов вперёд, что в литературе называется n-шаговым эмпауэрментом.

{\mathfrak {E}}(A_{t}^{n}\longrightarrow S_{t+n})=\max _{p(a_{t},...,a_{t+n-1})}I(A_{t},...,A_{t+n-1};S_{t+n})

Единица измерения эмпауэрмента зависит от основания логарифма; обычно используется основание 2, в таком случае единицей являются биты.

Контекстный эмпауэрмент

Вообще говоря, распределение действий, максимизирующее эмпауэрмент, различается для каждого состояния. Знание эмпауэрмента агента в конкретном состоянии полезно, например, для построения политики максимизации эмпауэрмента. Такое состояние-специфичное значение может быть определено с помощью формализма контекстного эмпауэрмента. $C$ — случайная величина, описывающая контекст (например, состояние).

{\mathfrak {E}}(A_{t}^{n}\longrightarrow S_{t+n}{\mid }C)=\sum _{c{\in }C}p(c){\mathfrak {E}}(A_{t}^{n}\longrightarrow S_{t+n}{\mid }C=c)

Максимизация эмпауэрмента может использоваться в качестве псевдофункции полезности, позволяя агенту проявлять интеллектуальное поведение без явного задания внешней цели — например, при балансировке шеста на тележке в условиях, когда задача не предъявлена агенту напрямую. Эмпауэрмент применялся в исследованиях коллективного поведения и непрерывных областей. Как и для байесовских методов в целом, вычисление эмпауэрмента становится вычислительно сложным по мере увеличения числа действий и временного горизонта, однако разработаны эффективные методы, позволяющие использовать его в задачах управления в реальном времени. Эмпауэрмент применялся для внутренне мотивированного обучения с подкреплением агентов в компьютерных играх, а также при управлении подводными автономными аппаратами.

Klyubin, A., Polani, D., & Nehaniv, C. (2005a). All else being equal be empowered. Advances in Artificial Life, стр. 744–753.
Klyubin, A., Polani, D., & Nehaniv, C. (2005b). Empowerment: A universal agent-centric measure of control. В: Evolutionary Computation, 2005. The 2005 IEEE Congress on, том 1, стр. 128–135. IEEE.
Klyubin, A., Polani, D., & Nehaniv, C. (2008). Keep your options open: an information-based driving principle for sensorimotor systems. PLOS ONE, 3(12):e4018. Klyubin, A.; Polani, D.; Nehaniv, C. (2008). “Keep your options open: an information-based driving principle for sensorimotor systems”. PLOS ONE [англ.]. 3 (12): e4018. DOI:10.1371/journal.pone.0004018. Дата обращения 2024-06-08.
Salge, C., Glackin, C., & Polani, D. (2014). Empowerment -- An Introduction. В: Prokopenko, M. (ed.) Guided Self-Organization: Inception. Emergence, Complexity and Computation, том 9, Springer, стр. 67–114. Salge, C. Empowerment -- An Introduction // Guided Self-Organization: Inception. Emergence, Complexity and Computation : [англ.] / C. Salge, C. Glackin, D. Polani. — Springer, 2014. — Vol. 9. — P. 67–114. — ISBN 978-3-642-53733-2. — doi:10.1007/978-3-642-53734-9_4.
Volpi, N. C., De Palma, D., Polani, D., & Indiveri, G. (2016). Computation of empowerment for an autonomous underwater vehicle. IFAC-PapersOnLine, 49(15), 81-87.
Mohamed, S., & Rezende, D. J. (2015). Variational information maximisation for intrinsically motivated reinforcement learning. arXiv preprint arXiv:1509.08731.
Jung, T., Polani, D., & Stone, P. (2011). Empowerment for continuous agent—environment systems. Adaptive Behavior, 19(1), 16-39.
Salge, C., Glackin, C., & Polani, D. (2013). Approximation of empowerment in the continuous domain. Advances in Complex Systems, 16(02n03), 1250079.
Capdepuy, P., Polani, D., & Nehaniv, C. L. (2007, апрель). Maximization of potential information flow as a universal utility for collective behaviour. В: 2007 IEEE Symposium on Artificial Life, стр. 207-213. IEEE.
Karl, M., Soelch, M., Becker-Ehmck, P., Benbouzid, D., van der Smagt, P., & Bayer, J. (2017). Unsupervised real-time control through variational empowerment. arXiv preprint arXiv:1710.05101.

Эмпауэрмент (искусственный интеллект)

Определение

Контекстный эмпауэрмент

Применение

Литература