Ограниченная машина Больцмана

Ограниченная машина Больцмана (англ. restricted Boltzmann machine), сокращённо RBM — вид генеративной стохастической нейронной сети, которая определяет распределение вероятности на входных образцах данных.

Первая ограниченная машина Больцмана была построена в 1986 году Полом Смоленски под названием Harmonium^[1], но приобрела популярность только после изобретения Хинтоном быстрых алгоритмов обучения в середине 2000-х годов.

Такое название машина приобрела как модификация обычной машины Больцмана, в которой нейроны разделили на видимые и скрытые, а связи допустимы только между нейронами разного типа, таким способом ограничив связи. Значительно позже, в 2000-х годах, ограниченные машины Больцмана приобрели большую популярность и стали рассматриваться уже не как вариации машины Больцмана, а как особые компоненты в архитектуре сетей глубинного обучения. Объединение нескольких каскадов ограниченных машин Больцмана формирует глубокую сеть доверия, особый вид многослойных нейронных сетей, которые могут самообучаться без учителя при помощи алгоритма обратного распространения ошибки^[2].

Особенностью ограниченных машин Больцмана является возможность проходить обучение без учителя, но в определённых приложениях ограниченные машины Больцмана обучаются с учителем. Скрытый слой машины представляет собой глубокие признаки в данных, которые выявляются в процессе обучения (см. также Data mining).

Ограниченные машины Больцмана имеют широкий спектр применений — это задачи снижения размерности данных^[3], задачи классификации^[4], коллаборативная фильтрация^[5], выделение признаков (англ. feature learning)^[6] и тематическое моделирование^[7].

В ограниченной машине Больцмана нейроны образуют двудольный граф, с одной стороны графа находятся видимые нейроны (вход), а с другой стороны — скрытые, причём перекрёстные связи устанавливаются между каждым видимым и каждым скрытым нейроном. Такая система связей позволяет применить при обучении сети метод градиентного спуска с контрастивной дивергенцией^[8].

Ограниченная машина Больцмана базируется на бинарных элементах с распределением Бернулли, составляющие видимый $v_{i}$ и скрытый $h_{j}$ слои сети. Связи между слоями задаются с помощью матрицы весов $W=(w_{i,j})$ (размера m × n), а также смещений $a_{i}$ для видимого слоя и $b_{j}$ для скрытого слоя.

Вводится понятие энергии сети (v, h) как

E(v,h)=-\sum _{i}a_{i}v_{i}-\sum _{j}b_{j}h_{j}-\sum _{i}\sum _{j}v_{i}w_{i,j}h_{j},

или в матричной форме

E(v,h)=-a^{\mathrm {T} }v-b^{\mathrm {T} }h-v^{\mathrm {T} }Wh.

Подобной функцией энергии обладает также Сеть Хопфилда. Как и для обычной машины Больцмана, через энергию определяется вероятность распределения на векторах видимого и скрытого слоя^[9]:

P(v,h)={\frac {1}{Z}}e^{-E(v,h)},

где $Z$ — статсумма, определяемая как $\sum e^{-E(v,h)}$ для всех возможных сетей (иными словами, $Z$ — константа нормализации, которая гарантирует, что сумма всех вероятностей равна единице). Определение вероятности для отдельного входного вектора (маргинальное распределение) проводится аналогично через сумму конфигураций всевозможных скрытых слоёв^[9]:

P(v)={\frac {1}{Z}}\sum _{h}e^{-E(v,h)}.

По причине структуры сети как двудольного графа, отдельные элементы скрытого слоя независимы друг от друга и активируют видимый слой, и наоборот отдельные элементы видимого слоя независимы друг от друга и активируют скрытый слой^[8]. Для $m$ видимых элементов и для $n$ скрытых элементов условные вероятности v определяются через произведения вероятностей h:

P(v|h)=\prod _{i=1}^{m}P(v_{i}|h),

и наоборот условные вероятности h определяются через произведение вероятностей v:

P(h|v)=\prod _{j=1}^{n}P(h_{j}|v).

Конкретные вероятности активации для одного элемента определяются как

P(h_{j}=1|v)=\sigma \left(b_{j}+\sum _{i=1}^{m}w_{i,j}v_{i}\right)

и

P(v_{i}=1|h)=\sigma \left(a_{i}+\sum _{j=1}^{n}w_{i,j}h_{j}\right),

где $\sigma$ — логистическая функция для активации слоя.

Видимые слои могут иметь также мультиномиальное распределение, в то время как скрытые слои распределены по Бернулли. В случае мультиномиальности вместо логистической функции используется softmax:

P(v_{i}^{k}=1|h)={\frac {\exp(a_{i}^{k}+\Sigma _{j}W_{ij}^{k}h_{j})}{\Sigma _{k'=1}^{K}\exp(a_{i}^{k'}+\Sigma _{j}W_{ij}^{k'}h_{j})}},

где K — количество дискретных значений видимых элементов. Такое представление используется в задачах тематического моделирования^[7] и в рекомендательных системах^[5].

Связь с другими моделями

Ограниченная машина Больцмана представляет собой частный случай обычной машины Больцмана и марковской сети^[10]^[11]. Их графовая модель соответствует графовой модели факторного анализа^[12].

Целью обучения является максимизация вероятности системы с заданным набором образцов $V$ (матрицы, в которой каждая строка соответствует одному образцу видимого вектора $v$ ), определяемой как произведение вероятностей

\arg \max _{W}\prod _{v\in V}P(v),

или же, что одно и то же, максимизации логарифма произведения:^[10]^[11]

\arg \max _{W}\mathbb {E} [\log P(v)].

Для тренировки нейронной сети используется алгоритм контрастивной дивергенции (CD) с целью нахождения оптимальных весов матрицы $W$ , его предложил Джеффри Хинтон, первоначально для обучения моделей PoE («произведение экспертных оценок»)^[13]^[14]. Алгоритм использует семплирование по Гиббсу для организации процедуры градиентного спуска, аналогично методу обратного распространения ошибок для нейронных сетей.

В целом один шаг контрастивной дивергенции (CD-1) выглядит следующим образом:

Для одного образца данных v вычисляются вероятности скрытых элементов и применяется активация для скрытого слоя h для данного распределения вероятностей.
Вычисляется внешнее произведение (семплирование) для v и h, которое называют позитивным градиентом.
Через образец h проводится реконструкция образца видимого слоя v', а потом выполняется снова семплирование с активацией скрытого слоя h'. (Этот шаг называется Семплирование по Гиббсу.)
Далее вычисляется внешнее произведение, но уже векторов v' и h', которое называют негативным градиентом.
Матрица весов $W$ поправляется на разность позитивного и негативного градиента, помноженного на множитель, задающий скорость обучения: $\Delta W=\varepsilon (vh^{\mathsf {T}}-v'h'^{\mathsf {T}})$ .
Вносятся поправки в биасы a и b похожим способом: $\Delta a=\varepsilon (v-v')$ , $\Delta b=\varepsilon (h-h')$ .

Практические указания по реализации процесса обучения можно найти на личной странице Джеффри Хинтона^[9].

Introduction to Restricted Boltzmann Machines Архивная копия от 29 октября 2012 на Wayback Machine. Edwin Chen’s blog, July 18, 2011.
A Beginner’s Guide to Restricted Boltzmann Machines. Deeplearning4j Documentation
Understanding RBMs. Deeplearning4j Documentation, August 4, 2015.
Python implementation Архивная копия от 5 марта 2017 на Wayback Machine of Bernoulli RBM and tutorial Архивная копия от 5 марта 2017 на Wayback Machine
SimpleRBM Архивная копия от 10 июня 2018 на Wayback Machine is a very small RBM code (24kB) useful for you to learn about how RBMs learn.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG
Персоналии	Ричард Саттон Эндрю Барто

Ограниченная машина Больцмана

Структура сети

Связь с другими моделями

Алгоритм обучения

См. также

Ссылки

Литература

Категории