Дерево Чоу — Лю
Де́рево Чоу — Лю (в теории вероятностей и статистике) — это эффективный метод построения второго порядка аппроксимации совместного распределения вероятностей в виде произведения, впервые описанный в статье Чоу & Лю (1968).
Такая декомпозиция, как и в других байесовских сетях, может применяться как для сжатия данных, так и для инференции[1].
Представление Чоу — Лю
Метод Чоу — Лю позволяет представить совместное распределение вероятностей в виде произведения условных и маргинальных распределений второго порядка. Например, шестимерное распределение может быть аппроксимировано следующим образом:
где каждый новый множитель вводит ровно одну новую переменную, а произведение может быть представлено в виде дерева зависимостей первого порядка, как показано на рисунке. Алгоритм Чоу — Лю (описан ниже) определяет, какие именно условные вероятности использовать в данной аппроксимации. В общем случае, если существуют взаимодействия третьего и более высоких порядков, аппроксимация Чоу — Лю остаётся только аппроксимацией и не может полностью воспроизвести структуру исходного распределения. Пёрл (1988) приводит современный анализ дерева Чоу — Лю как байесовской сети.
Алгоритм Чоу — Лю
Чоу и Лю предложили метод отбора множителей второго порядка для аппроксимации, чтобы среди всех таких аппроксимаций (деревьев зависимостей первого порядка) полученная аппроксимация имела наименьшее расстояние Кульбака — Лейблера до реального распределения и была бы «ближайшей» с позиции информационной теории. Дивергенция Кульбака — Лейблера между аппроксимацией второго порядка и исходным распределением определяется как
где — взаимная информация между переменной и её родителем , а — совместная энтропия множества переменных . Так как слагаемые и не зависят от структуры дерева, качество аппроксимации полностью определяется суммой попарных взаимных информаций . Таким образом, если каждому ребру дерева приписать вес, равный взаимной информации между переменными в его концах, задача оптимальной аппроксимации второго порядка сводится к поиску максимального по весу дерева. Это выражение также иллюстрирует роль зависимостей: если зависимости отсутствуют и первое слагаемое отсутствует, то остаётся только аппроксимация на основе первых маргинальных распределений, а отличие между аппроксимацией и истинным распределением определяется «избыточностью», которую не удаётся учесть при предположении о независимости переменных. При включении зависимостей второго порядка удаётся учесть часть структуры и уменьшить расхождение аппроксимации с исходным распределением.
Чоу и Лю предложили простой алгоритм построения оптимального дерева: на каждом шаге алгоритм добавляет к дереву пару переменных с максимальной взаимной информацией. За подробностями см. оригинальную статью Чоу & Лю (1968). Более эффективный алгоритм для случая разреженных данных приведён в Мейла (1999).
Чоу и Вагнер позже доказали (см. Чоу & Вагнер (1973)), что обучение дерева Чоу — Лю является состоятельным, если выборки (наблюдения) получены независимо и одинаково распределёнными из распределения с древовидной структурой. Иными словами, вероятность построить ошибочное дерево стремится к нулю по мере роста объёма выборки. Главная идея доказательства — непрерывность взаимной информации по попарным маргинальным распределениям. В более поздних работах была оценена экспоненциальная скорость сходимости вероятности ошибки[2].
Обобщения дерева Чоу — Лю
Проблема, возникающая при отсутствии точной древовидной структуры второго порядка, может быть частично решена объединением плотно связанных подмножеств переменных в «узлы большего размера» для построения дерева Чоу — Лю с крупными узлами (Хуан, Кинг & Лю 2002), либо расширением жадного выбора максимальных по весу ветвей на нетривиальные структуры с несколькими родителями (Уильямсон 2000). (Похожие методы замещения и построения переменных встречаются в литературе по байесовским сетям, например, для работы с циклами (см. Пёрл (1988))
Обобщением дерева Чоу — Лю являются так называемые t-вишнёвые соединяющие деревья (англ. t-cherry junction trees). Доказано, что t-вишнёвые соединяющие деревья обеспечивают лучшую (или не хуже) аппроксимацию для дискретного многомерного распределения вероятностей по сравнению с деревом Чоу — Лю.
Третье t-вишнёвое соединяющее дерево описано в (Ковач & Сантаи 2010), а для общего -го порядка см. (Сантаи & Ковач 2010). Дерево Чоу — Лю соответствует второму t-вишнёвому соединяющему дереву.
Примечания
Литература
- Чоу, C. K.; Лю, C. N. (1968). “Approximating discrete probability distributions with dependence trees”. IEEE Transactions on Information Theory [англ.]. IT-14 (3): 462—467. CiteSeerX 10.1.1.133.9772. DOI:10.1109/tit.1968.1054142.
- Хуан, Каичжу. Constructing a large node Chow–Liu tree based on frequent itemsets // Proceedings of the 9th International Conference on Neural Information Processing (ICONIP'02) : [англ.] / Каичжу Хуан, Ирвин Кинг, Майкл Р. Лю. — 2002. — P. 498–502.
- Пёрл, Джудеа. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference : [англ.]. — Morgan Kaufmann, 1988.
- Уильямсон, Джон. Approximating discrete probability distributions with Bayesian networks // Proceedings of the International Conference on Artificial Intelligence in Science and Technology : [англ.]. — 2000. — P. 16–20.
