Дерево Чоу — Лю

undefined

Де́рево Чоу — Лю (в теории вероятностей и статистике) — это эффективный метод построения второго порядка аппроксимации совместного распределения вероятностей в виде произведения, впервые описанный в статье Чоу & Лю (1968).

Такая декомпозиция, как и в других байесовских сетях, может применяться как для сжатия данных, так и для инференции[1].

Представление Чоу — Лю

Метод Чоу — Лю позволяет представить совместное распределение вероятностей в виде произведения условных и маргинальных распределений второго порядка. Например, шестимерное распределение может быть аппроксимировано следующим образом:

где каждый новый множитель вводит ровно одну новую переменную, а произведение может быть представлено в виде дерева зависимостей первого порядка, как показано на рисунке. Алгоритм Чоу — Лю (описан ниже) определяет, какие именно условные вероятности использовать в данной аппроксимации. В общем случае, если существуют взаимодействия третьего и более высоких порядков, аппроксимация Чоу — Лю остаётся только аппроксимацией и не может полностью воспроизвести структуру исходного распределения. Пёрл (1988) приводит современный анализ дерева Чоу — Лю как байесовской сети.

Алгоритм Чоу — Лю

Чоу и Лю предложили метод отбора множителей второго порядка для аппроксимации, чтобы среди всех таких аппроксимаций (деревьев зависимостей первого порядка) полученная аппроксимация имела наименьшее расстояние Кульбака — Лейблера до реального распределения и была бы «ближайшей» с позиции информационной теории. Дивергенция Кульбака — Лейблера между аппроксимацией второго порядка и исходным распределением определяется как

где  — взаимная информация между переменной и её родителем , а  — совместная энтропия множества переменных . Так как слагаемые и не зависят от структуры дерева, качество аппроксимации полностью определяется суммой попарных взаимных информаций . Таким образом, если каждому ребру дерева приписать вес, равный взаимной информации между переменными в его концах, задача оптимальной аппроксимации второго порядка сводится к поиску максимального по весу дерева. Это выражение также иллюстрирует роль зависимостей: если зависимости отсутствуют и первое слагаемое отсутствует, то остаётся только аппроксимация на основе первых маргинальных распределений, а отличие между аппроксимацией и истинным распределением определяется «избыточностью», которую не удаётся учесть при предположении о независимости переменных. При включении зависимостей второго порядка удаётся учесть часть структуры и уменьшить расхождение аппроксимации с исходным распределением.

Чоу и Лю предложили простой алгоритм построения оптимального дерева: на каждом шаге алгоритм добавляет к дереву пару переменных с максимальной взаимной информацией. За подробностями см. оригинальную статью Чоу & Лю (1968). Более эффективный алгоритм для случая разреженных данных приведён в Мейла (1999).

Чоу и Вагнер позже доказали (см. Чоу & Вагнер (1973)), что обучение дерева Чоу — Лю является состоятельным, если выборки (наблюдения) получены независимо и одинаково распределёнными из распределения с древовидной структурой. Иными словами, вероятность построить ошибочное дерево стремится к нулю по мере роста объёма выборки. Главная идея доказательства — непрерывность взаимной информации по попарным маргинальным распределениям. В более поздних работах была оценена экспоненциальная скорость сходимости вероятности ошибки[2].

Обобщения дерева Чоу — Лю

Проблема, возникающая при отсутствии точной древовидной структуры второго порядка, может быть частично решена объединением плотно связанных подмножеств переменных в «узлы большего размера» для построения дерева Чоу — Лю с крупными узлами (Хуан, Кинг & Лю 2002), либо расширением жадного выбора максимальных по весу ветвей на нетривиальные структуры с несколькими родителями (Уильямсон 2000). (Похожие методы замещения и построения переменных встречаются в литературе по байесовским сетям, например, для работы с циклами (см. Пёрл (1988))

Обобщением дерева Чоу — Лю являются так называемые t-вишнёвые соединяющие деревья (англ. t-cherry junction trees). Доказано, что t-вишнёвые соединяющие деревья обеспечивают лучшую (или не хуже) аппроксимацию для дискретного многомерного распределения вероятностей по сравнению с деревом Чоу — Лю.

Третье t-вишнёвое соединяющее дерево описано в (Ковач & Сантаи 2010), а для общего -го порядка см. (Сантаи & Ковач 2010). Дерево Чоу — Лю соответствует второму t-вишнёвому соединяющему дереву.

Примечания

Литература

  • Чоу, C. K.; Лю, C. N. (1968). “Approximating discrete probability distributions with dependence trees”. IEEE Transactions on Information Theory [англ.]. IT-14 (3): 462—467. CiteSeerX 10.1.1.133.9772. DOI:10.1109/tit.1968.1054142.
  • Хуан, Каичжу. Constructing a large node Chow–Liu tree based on frequent itemsets // Proceedings of the 9th International Conference on Neural Information Processing (ICONIP'02) : [англ.] / Каичжу Хуан, Ирвин Кинг, Майкл Р. Лю. — 2002. — P. 498–502.
  • Пёрл, Джудеа. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference : [англ.]. — Morgan Kaufmann, 1988.
  • Уильямсон, Джон. Approximating discrete probability distributions with Bayesian networks // Proceedings of the International Conference on Artificial Intelligence in Science and Technology : [англ.]. — 2000. — P. 16–20.

Категории