Байесовское программирование

Байесовское программирование (англ. Bayesian programming) — формальная система и методология задания вероятностных моделей и решения задач в условиях, когда необходимая информация доступна не полностью.

Эдвин Томпсон Джейнс предложил рассматривать вероятность не только как альтернативу, но и как расширение логики для рациональных рассуждений при неполной и неопределённой информации. В своей основополагающей книге «Probability Theory: The Logic of Science»^[1] он развил эту теорию и предложил мыслительный «робот» — не физический механизм, а машину вывода, автоматизирующую вероятностные рассуждения — своеобразный аналог для теории вероятности, а не для логики. Байесовское программирование^[2] реализует формально и практически такую машину вывода.

Байесовское программирование также рассматривается как формальная алгебраическая система для задания графических вероятностных моделей, таких как байесовские сети, динамические байесовские сети, фильтры Кальмана, скрытые марковские модели. На самом деле оно обобщает байесовские сети и обладает выразительной мощностью, эквивалентной фактор-графам.

Байесовская программа служит способом задания семейства вероятностных распределений.

Её основные компоненты перечислены ниже:

{\text{Program}}{\begin{cases}{\text{Description}}{\begin{cases}{\text{Specification}}(\pi ){\begin{cases}{\text{Variables}}\\{\text{Decomposition}}\\{\text{Forms}}\\\end{cases}}\\{\text{Identification (based on }}\delta )\end{cases}}\\{\text{Question}}\end{cases}}

Программа состоит из описания и вопроса.
Описание задаётся на основе спецификации ( $\pi$ ), определяемой программистом, и идентификации — алгоритма обучения по параметрам, не заданным спецификацией, с набором данных ( $\delta$ ).
Спецификация состоит из определённого набора переменных, декомпозиции и набора форм.
Формы — либо параметрические, либо вопросы к другим байесовским программам.
Вопрос определяет вероятностное распределение, которое следует вычислить.

Описание

Описание определяет способ эффективного вычисления совместного вероятностного распределения набора переменных $\{X_{1},X_{2},\cdots ,X_{N}\}$ для заданного набора экспериментальных данных $\delta$ и спецификации $\pi$ . Это совместное распределение обозначается $P(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}|\delta \wedge \pi )$ .

Чтобы зафиксировать априорные знания $\pi$ , необходимо:

Задать значимые переменные $\{X_{1},X_{2},\cdots ,X_{N}\}$ , над которыми строится совместное распределение.
Разложить совместное распределение на независимые или условные вероятности.
Указать тип (форму) каждого маргинального или условного распределения, например выбрав его из известных классов.

Декомпозиция

Пусть множество $\{X_{1},X_{2},\ldots ,X_{N}\}$ разбито на $K$ подмножеств, переменные которых $L_{1},\cdots ,L_{K}$ являются конъюнкциями переменных своих подмножеств. Рекурсивное применение теоремы Байеса:

{\begin{aligned}&P(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}|\delta \wedge \pi )\\=&P(L_{1}\wedge \cdots \wedge L_{K}|\delta \wedge \pi )\\=&P(L_{1}|\delta \wedge \pi )\times P(L_{2}|L_{1}\wedge \delta \wedge \pi )\times \cdots \\&\times P(L_{K}|L_{K-1}\wedge \cdots \wedge L_{1}\wedge \delta \wedge \pi )\end{aligned}}

Используя гипотезу условной независимости, можно ещё упростить выражение, определяя конъюнкцию $R_{k}$ и полагая:

P(L_{k}|L_{k-1}\wedge \cdots \wedge L_{1}\wedge \delta \wedge \pi )=P(L_{k}|R_{k}\wedge \delta \wedge \pi )

что даёт

{\begin{aligned}&P(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}|\delta \wedge \pi )\\=&P(L_{1}|\delta \wedge \pi )\times P(L_{2}|R_{2}\wedge \delta \wedge \pi )\times \cdots \\&\times P(L_{K}|R_{K}\wedge \delta \wedge \pi )\end{aligned}}

Такое разложение совместного распределения на произведение более простых называется декомпозицией, выведенной по цепному правилу.

Это гарантирует, что каждая переменная появляется в левой части условного выражения хотя бы один раз, что необходимо для математической корректности выводов.

Формы

Каждое распределение $P(L_{k}|R_{k}\wedge \delta \wedge \pi )$ далее связывается либо с параметрической формой $f_{\mu }(L_{k})$ (где $\mu$ — вектор параметров, возможно вычисляемых по $R_{k}$ и/или $\delta$ ), либо представляет собой вопрос к другой байесовской программе: $P(L_{k}|R_{k}\wedge \delta \wedge \pi )=P(L|R\wedge {\hat {\delta }}\wedge {\hat {\pi }})$ .

Параметры могут подбираться на основе данных $\delta$ (процесс обучения).

Важно, что байесовская программа может включать вопросы к другим байесовским программам, что позволяет строить иерархические модели по принципу подпрограмм.

Вопрос

Вопрос формализует задачу вычисления вероятностей для переменных, разделённых на три множества: исследуемые, известные и свободные.

Вопрос состоит в вычислении распределения:

P({\text{Searched}}|{\text{Known}}\wedge \delta \wedge \pi )

где под конкретизацией подразумевается подстановка конъюнкций известных переменных.

Вывод

Для совместного распределения $P(X_{1}\wedge \cdots \wedge X_{N}|\delta \wedge \pi )$ любой вопрос вычисляется так:

{\begin{aligned}&P({\text{Searched}}|{\text{Known}}\wedge \delta \wedge \pi )\\=&\sum _{\text{Free}}P({\text{Searched}}\wedge {\text{Free}}|{\text{Known}}\wedge \delta \wedge \pi )\\=&{\frac {\sum _{\text{Free}}P({\text{Searched}}\wedge {\text{Free}}\wedge {\text{Known}}|\delta \wedge \pi )}{P({\text{Known}}|\delta \wedge \pi )}}\\=&{\frac {1}{Z}}\sum _{\text{Free}}P({\text{Searched}}\wedge {\text{Free}}\wedge {\text{Known}}|\delta \wedge \pi )\end{aligned}}

где $Z$ — нормировочный множитель.

Для вычисления используются декомпозиции:

P({\text{Searched}}|{\text{Known}}\wedge \delta \wedge \pi )={\frac {1}{Z}}\sum _{\text{Free}}\left[\prod _{k=1}^{K}P(L_{i}|K_{i}\wedge \pi )\right]

что обычно существенно сокращает вычисления.

Байесовское обнаружение спама

В задаче фильтрации спама письма делятся на две категории: спам и не-спам. Классификация проводится по анализу набора слов (модель мешка слов). Классический байесовский фильтр обучается по действиям пользователя, подстраиваясь под индивидуальные критерии.

Переменные

$Spam$ — двоичная переменная (ложь — не спам, истина — спам).
$W_{0},W_{1},\ldots ,W_{N-1}$ — двоичные индикаторы наличия слов из словаря.