Сэмплирование Томпсона

Сэмплирование Томпсона — это эвристика для выбора действий, предназначенная для решения дилеммы исследования-использования в задаче о многоруком бандите. Метод заключается в выборе действия, максимизирующего ожидаемое вознаграждение с учётом случайно выбранного апостериорного распределения веры.

Рассмотрим множество контекстов ${\mathcal {X}}$ , множество действий ${\mathcal {A}}$ и награды в $\mathbb {R}$ . Цель игрока — выполнять действия в различных контекстах таким образом, чтобы максимизировать накопленное вознаграждение. В каждом раунде игрок получает контекст $x\in {\mathcal {X}}$ , выбирает действие $a\in {\mathcal {A}}$ и получает награду $r\in \mathbb {R}$ , распределение которой зависит от выбранного контекста и действия.^[1]

Основные элементы сэмплирования Томпсона включают:

Функцию вероятности $P(r|\theta ,a,x)$ ;
Множество $\Theta$ параметров $\theta$ распределения $r$ ;
Априорное распределение $P(\theta )$ на эти параметры;
Совокупность прошлых наблюдений в виде троек ${\mathcal {D}}=\{(x;a;r)\}$ ;
Апостериорное распределение $P(\theta |{\mathcal {D}})\propto P({\mathcal {D}}|\theta )P(\theta )$ , где $P({\mathcal {D}}|\theta )$ — функция правдоподобия.

Сэмплирование Томпсона заключается в выборе действия $a^{\ast }\in {\mathcal {A}}$ с вероятностью того, что оно максимизирует ожидаемое вознаграждение; действие $a^{\ast }$ выбирается с вероятностью

\int \mathbb {I} \left[\mathbb {E} (r|a^{\ast },x,\theta )=\max _{a'}\mathbb {E} (r|a',x,\theta )\right]P(\theta |{\mathcal {D}})d\theta ,

где $\mathbb {I}$ — индикаторная функция.

На практике этот подход реализуется сэмплированием. В каждом раунде параметры $\theta ^{\ast }$ выбираются сэмплированием из апостериорного распределения $P(\theta |{\mathcal {D}})$ , и выбирается действие $a^{\ast }$ , максимизирующее $\mathbb {E} [r|\theta ^{\ast },a^{\ast },x]$ , то есть ожидаемое вознаграждение при данных сэмплированных параметрах, действии и текущем контексте. Концептуально это означает, что игрок случайным образом формирует свои представления в каждом раунде согласно апостериорному распределению и действует по ним оптимально. Во многих практических случаях вычисление и сэмплирование из апостериорного распределения затруднительно, поэтому сэмплирование Томпсона часто применяется совместно с приближенными методами сэмплирования.^[2]

Сэмплирование Томпсона было первоначально описано Томпсоном в 1933 году. Позднее оно было независимо повторно открыто неоднократно в контексте задачи о многоруком бандите. Первое доказательство сходимости для задачи многорукого бандита было представлено в 1997 году. Первое применение к марковским процессам принятия решений появилось в 2000 году. Связанный подход (баесовское правило управления) был опубликован в 2010 году. В том же году было показано, что сэмплирование Томпсона мгновенно самокорректируется. Результаты по асимптотической сходимости для контекстуальных бандитов появились в 2011 году. Сэмплирование Томпсона широко применяется во многих задачах онлайн-обучения, включая A/B-тестирование в проектировании веб-сайтов и интернет-рекламе, а также для ускоренного обучения при децентрализованном принятии решений. Для дуэльных бандитов, разновидности классических многоруких бандитов с обратной связью в виде парных сравнений, был предложен алгоритм Double Thompson Sampling (D-TS).

Стратегия сопоставления вероятностей

Стратегия сопоставления вероятностей — это способ принятия решений, при котором прогнозируемое членство в классе пропорционально базовой частоте класса. Например, если в обучающей выборке положительные примеры встречаются в 60% случаев, а отрицательные — в 40% случаев, наблюдатель, применяющий стратегию сопоставления вероятностей, для новых примеров будет выбирать метку «положительный» с 60% вероятностью и «отрицательный» с 40% вероятностью.

Баесовское правило управления

Обобщением сэмплирования Томпсона на произвольные динамические среды и причинные структуры является баесовское правило управления, которое оказалось оптимальным решением задачи адаптивного кодирования с действиями и наблюдениями. В таком формализме агент воспринимается как смесь над набором стратегий поведения. По мере взаимодействия агента с окружающей средой он изучает её причинные свойства и выбирает поведение, минимизирующее относительную энтропию по отношению к поведению с наилучшим предсказанием среды. Если эти поведения выбраны согласно принципу максимального ожидаемого выигрыша, то асимптотическое поведение баесовского правила управления совпадает с асимптотикой полностью рационального агента.

Постановка задачи следующая. Пусть $a_{1},a_{2},\ldots ,a_{T}$ — действия агента до момента времени $T$ , а $o_{1},o_{2},\ldots ,o_{T}$ — соответствующие наблюдения. Тогда действие $a_{T+1}$ выбирается с вероятностью:

P(a_{T+1}|{\hat {a}}_{1:T},o_{1:T}),

где обозначение ${\hat {a}}_{t}$ указывает, что $a_{t}$ является причинной интервенцией (см. Причинность), а не обычным наблюдением. Если агент делает апостериорные предположения $\theta \in \Theta$ о своих типах поведения, тогда баесовское правило управления принимает вид

P(a_{T+1}|{\hat {a}}_{1:T},o_{1:T})=\int _{\Theta }P(a_{T+1}|\theta ,{\hat {a}}_{1:T},o_{1:T})P(\theta |{\hat {a}}_{1:T},o_{1:T})\,d\theta ,

где $P(\theta |{\hat {a}}_{1:T},o_{1:T})$ — апостериорное распределение параметра $\theta$ по действиям $a_{1:T}$ и наблюдениям $o_{1:T}$ .

На практике баесовское управление реализуется так: на каждом временном шаге из апостериорного распределения $P(\theta |{\hat {a}}_{1:T},o_{1:T})$ , вычисленного по правилу Байеса только по (причинным) правдоподобиям наблюдений $o_{1},\ldots ,o_{T}$ (игнорируя правдоподобия действий $a_{1},\ldots ,a_{T}$ ), сэмплируется параметр $\theta ^{\ast }$ , после чего действие $a_{T+1}^{\ast }$ выбирается из распределения $P(a_{T+1}|\theta ^{\ast },{\hat {a}}_{1:T},o_{1:T})$ .

Алгоритмы верхней доверительной границы (UCB)

Сэмплирование Томпсона и алгоритмы верхней доверительной границы (UCB) обладают фундаментальным свойством, лежащим в основе их теоретических гарантий. Вкратце, оба метода направляют исследовательские усилия на варианты действий, которые могут быть оптимальными, то есть проявляют своего рода «оптимизм». Благодаря этой особенности можно переносить оценки регрета для UCB-алгоритмов на байесовский регрет для сэмплирования Томпсона и унифицировать анализ регрета для этих методов и широкого класса задач.

Thompson, William R. «On the likelihood that one unknown probability exceeds another in view of the evidence of two samples». // Biometrika, 25(3–4):285–294, 1933. Thompson, William R. (1933). “On the likelihood that one unknown probability exceeds another in view of the evidence of two samples” (PDF). Biometrika [англ.]. 25 (3–4): 285—294. Дата обращения 2024-06-19.

Thompson, W. R. (1935). On the theory of apportionment. // American Journal of Mathematics, 57(2), 450-456. Thompson, W. R. (1935). “On the theory of apportionment”. American Journal of Mathematics [англ.]. 57 (2): 450–456. Дата обращения 2024-06-19. |access-date= требует |url= (справка)

Wyatt J. Exploration and Inference in Learning from Reinforcement. Ph.D. thesis, Department of Artificial Intelligence, University of Edinburgh. March 1997.

Chapelle, Olivier, and Lihong Li. «An empirical evaluation of Thompson sampling.» Advances in neural information processing systems. 2011. An empirical evaluation of Thompson sampling (англ.). Advances in Neural Information Processing Systems. Дата обращения: 19 июня 2024.

May, B. C., Korda, N., Lee, A., Leslie, D. S. Optimistic Bayesian sampling in contextual-bandit problems. Technical report, Statistics Group, Department of Mathematics, University of Bristol, 2011.

Ortega, P. A; Braun, D. A. "A Minimum Relative Entropy Principle for Learning and Acting", Journal of Artificial Intelligence Research, 38, pages 475–511, 2010. Ortega, P. A.; Braun, D. A. (2010). “A Minimum Relative Entropy Principle for Learning and Acting”. Journal of Artificial Intelligence Research [англ.]. 38: 475—511. Дата обращения 2024-06-19.

Strens, M. J. A. "A Bayesian Framework for Reinforcement Learning", Proceedings of the Seventeenth International Conference on Machine Learning, Stanford University, California, June 29–July 2, 2000. A Bayesian Framework for Reinforcement Learning (англ.). ICML 2000. Дата обращения: 19 июня 2024.

Granmo, O.-C. "Solving Two-Armed Bernoulli Bandit Problems Using a Bayesian Learning Automaton", International Journal of Intelligent Computing and Cybernetics, 3 (2), 2010, 207-234.

Granmo, O. C.; Glimsdal, S. "Accelerated Bayesian learning for decentralized two-armed bandit based decision making with applications to the Goore Game". Applied Intelligence. 38(4): 479–488, 2012. Granmo, O.C.; Glimsdal, S. (2012). “Accelerated Bayesian learning for decentralized two-armed bandit based decision making with applications to the Goore Game”. Applied Intelligence [англ.]. 38 (4): 479—488. DOI:10.1007/s10489-012-0346-z. Дата обращения 2024-06-19. |access-date= требует |url= (справка)

Clarke, Ian. "Proportionate A/B testing", 22 сентября 2011. Proportionate A/B testing (англ.). Blog Locutus (22 сентября 2011). Дата обращения: 19 июня 2024.

Wu, Huasen; Liu, Xin; Srikant, R. Double Thompson Sampling for Dueling Bandits, 2016. Double Thompson Sampling for Dueling Bandits (англ.). arXiv (2016). Дата обращения: 19 июня 2024.

Russo, Daniel J.; Van Roy, Benjamin; Kazerouni, Abbas; Osband, Ian; Wen, Zheng. "A Tutorial on Thompson Sampling", Foundations and Trends in Machine Learning, 11(1), 2018, pp. 1–96. A Tutorial on Thompson Sampling (англ.). Foundations and Trends in Machine Learning (2018). Дата обращения: 19 июня 2024.

Russo, Daniel J.; Van Roy, Benjamin. "Learning to Optimize Via Posterior Sampling". Mathematics of Operations Research, 39(4):1221–1243, 2014. Russo, Daniel J.; Van Roy, Benjamin (2014). “Learning to Optimize Via Posterior Sampling”. Mathematics of Operations Research [англ.]. 39 (4): 1221—1243. arXiv:1301.2609. DOI:10.1287/moor.2014.0650. Дата обращения 2024-06-19. |access-date= требует |url= (справка)

Russo, Daniel J.; Van Roy, Benjamin. "Eluder Dimension and the Sample Complexity of Optimistic Exploration", Advances in Neural Information Processing Systems 26, 2013, pp. 2256–2264. Eluder Dimension and the Sample Complexity of Optimistic Exploration (англ.). Advances in Neural Information Processing Systems (2013). Дата обращения: 19 июня 2024.

Подробный учебник по сэмплированию Томпсона (англ.)

[1]

[2]

Сэмплирование Томпсона

Описание

История

Связь с другими подходами

Стратегия сопоставления вероятностей

Баесовское правило управления

Алгоритмы верхней доверительной границы (UCB)

Примечания

Литература

Ссылки

Категории