Линейная функция правдоподобия

Линейная функция правдоподобия (англ. linear belief function) — это расширение теории Демпстера — Шафера функций правдоподобия на случай, когда интересующие переменные являются непрерывными. К таким переменным относятся, например, цены финансовых активов, результаты портфеля и другие исходные и результативные величины. Теория была изначально предложена Артуром Демпстером^[1] в контексте фильтра Калмана и впоследствии была доработана, уточнена и применена к задачам представления знаний в искусственном интеллекте и принятии решений в финансах и бухгалтерском учёте Липином Лю^[2].

Линейная функция правдоподобия предназначена для выражения нашей уверенности относительно местоположения истинного значения следующим образом: мы уверены, что истина находится на так называемой достоверной гиперплоскости, но не знаем её точное положение; по некоторым направлениям этой гиперплоскости мы считаем, что значение может быть где угодно от -∞ до +∞, и вероятность быть в конкретной точке описывается нормальным распределением; по другим направлениям наши знания вакуозны, то есть истинное значение где-то в диапазоне -∞ до +∞, но связанная с этим вероятность неизвестна. В общем случае функция правдоподобия определяется функцией массовой вероятности на классе фокальных элементов, которые могут иметь непустое пересечение. Линейная функция правдоподобия — это частный случай функции правдоподобия, в котором её фокальные элементы — это непересекающиеся параллельные подгиперплоскости на достоверной гиперплоскости, а функция масс распределена по ним согласно нормальному закону.

На основании такого геометрического описания, Шафер^[3] и Лю^[4] предложили две математических репрезентации линейной функции правдоподобия: в виде обобщённого скалярного произведения и линейного функционала в пространстве переменных, а также их двойственных представителей в гиперплоскости пространства выборки. Монней^[5] предложил альтернативную структуру — гауссовские подсказки. Хотя эти варианты строго математичны, они, как правило, неудобны для представления знаний в экспертных системах.

Линейная функция правдоподобия может представлять как логические, так и вероятностные знания для трёх типов переменных: детерминированных (например, наблюдаемых или управляемых), случайных (с нормальным распределением) и вакуозных (о которых отсутствует информация). Логические знания выражаются линейными уравнениями или, в геометрическом смысле, достоверной гиперплоскостью. Вероятностные знания выражаются нормальным распределением по всем параллельным фокальным элементам.

Допустим, X — это вектор из нескольких нормально распределённых переменных с матожиданием μ и ковариационной матрицей Σ. Тогда многомерное нормальное распределение может быть эквивалентно представлено в виде матрицы моментов:

M(X)=\left({\begin{array}{*{20}c}\mu \\\Sigma \end{array}}\right).

Если распределение невырожденное, то есть Σ имеет полный ранг и обратима, матрица моментов может быть полностью «просвипована»:

M({\vec {X}})=\left({\begin{array}{*{20}c}\mu \Sigma ^{-1}\\-\Sigma ^{-1}\end{array}}\right)

За исключением нормировочного множителя, эта форма полностью определяет функцию плотности нормального распределения для X, то есть $M({\vec {X}})$ задаёт распределение вероятности X в потенциальной форме.

Эти две простые матрицы позволяют описать три частных случая линейных функций правдоподобия. Во-первых, для обычного нормального распределения M(X) это и есть его описание. Во-вторых, если наблюдение по X дало значение μ, и неопределённости нет, то и дисперсия, и ковариация равны нулю, то есть Σ = 0, а прямое наблюдение выражается как:

M(X)=\left({\begin{array}{*{20}c}\mu \\0\end{array}}\right)

В-третьих, если база знаний абсолютно неинформативна относительно X, то в байесовской статистике такая ситуация проблемна — плотность не существует. В представлении линейных функций такую вакуозную функцию описывает нулевая матрица в виде:

M({\vec {X}})=\left[{\begin{array}{*{20}c}0\\0\end{array}}\right]

Такое «абсолютное незнание» можно понять как предел, при котором дисперсия стремится к ∞, тогда обратная ковариация Σ⁻¹ = 0, а $M({\vec {X}})$ обращается в нуль. Однако формально это не то же самое, что несобственное априорное распределение или нормальное распределение с бесконечной дисперсией: оно не соответствует ни одному уникальному распределению вероятности. Поэтому вакуозную линейную функцию разумнее трактовать как нейтральный элемент для операции объединения (см. ниже).

Для представления трёх оставшихся случаев требуется понятие частичного «свипа». В отличие от полного, частичный свип — это операция на подмножестве переменных. Пусть X и Y — два вектора нормальных переменных с объединённой матрицей моментов:

M(X,Y)=\left[{\begin{array}{*{20}c}{\begin{array}{*{20}c}\mu _{1}\\\Sigma _{11}\\\Sigma _{21}\end{array}}&{\begin{array}{*{20}c}\mu _{2}\\\Sigma _{12}\\\Sigma _{22}\end{array}}\end{array}}\right]

Частичный свип по X задаётся так:

M({\vec {X}},Y)=\left[{\begin{array}{*{20}c}{\begin{array}{*{20}c}\mu _{1}(\Sigma _{11})^{-1}\\-(\Sigma _{11})^{-1}\\\Sigma _{21}(\Sigma _{11})^{-1}\end{array}}&{\begin{array}{*{20}c}\mu _{2}-\mu _{1}(\Sigma _{11})^{-1}\Sigma _{12}\\(\Sigma _{11})^{-1}\Sigma _{12}\\\Sigma _{22}-\Sigma _{21}(\Sigma _{11})^{-1}\Sigma _{12}\end{array}}\end{array}}\right]

Если X одномерна, частичный свип заменяет дисперсию X на её отрицательный обратный элемент и умножает остальные элементы на этот обратный. Если X — вектор, то операция использует обратную ковариационную матрицу и соответствующие произведения. Последовательные частичные свипы по переменным из подмножества приводят к той же матрице, порядок их не важен; полный свип по всем переменным — это результат свипования каждой переменной.

Можно сделать два вывода. Во-первых, после частичного свипа по X, вектор средних и ковариационная матрица X превращаются в $\mu _{1}(\Sigma _{11})^{-1}$ и $-(\Sigma _{11})^{-1}$ , что совпадает с полным свипованием для краевой матрицы по X, и соответствующие элементы выражают маргинальное распределение X в потенциальной форме. Во-вторых, элементы $\mu _{2}-\mu _{1}(\Sigma _{11})^{-1}\Sigma _{12}$ и $\Sigma _{22}-\Sigma _{21}(\Sigma _{11})^{-1}\Sigma _{12}$ дают условное математическое ожидание и ковариационную матрицу Y при X = 0, а $(\Sigma _{11})^{-1}\Sigma _{12}$ — коэффициенты регрессии Y по X, то есть элементы, относящиеся к Y и пересечению X, Y, определяют условное распределение Y при X = 0.

Эта интерпретация делает частичный свип удобным методом для работы с многомерными нормальными распределениями и образует основу матричного представления случаев линейных функций правдоподобия — правильных функций, линейных уравнений и линейных регрессионных моделей.

Правильные линейные функции правдоподобия

Для переменных X и Y предположим, что имеется информация, оправдывающая нормальное распределение на Y, но отсутствуют мнения по X; кроме того, X и Y не полностью линейно связаны (корреляция < 1). Тогда это ситуация сочетания обычного нормального распределения по Y и вакуозной функции по X. Она описывается частично просвипованной матрицей:

M({\vec {X}},Y)=\left[{\begin{array}{*{20}c}{\begin{array}{*{20}c}0\\0\\0\end{array}}&{\begin{array}{*{20}c}\mu _{2}\\0\\\Sigma _{22}\\\end{array}}\end{array}}\right]

То есть полное незнание о X выражается через $\mu _{1}(\Sigma _{11})^{-1}=0$ и $-(\Sigma _{11})^{-1}=0$ . Корреляция Y и X стремится к нулю при стремлении дисперсии X к бесконечности, поэтому коэффициент регрессии и все соответствующие элементы тоже равны нулю.

Линейные уравнения

Пусть X и Y — строки, и выполнено Y = XA + b, где A и b — матрицы коэффициентов. Это представляется частично просвипованной матрицей:

M({\vec {X}},Y)=\left[{\begin{array}{*{20}c}{\begin{array}{*{20}c}0\\0\\A^{T}\end{array}}&{\begin{array}{*{20}c}b\\A\\0\end{array}}\end{array}}\right]

В этом случае, поскольку X — независимый аргумент, полное незнание о нём выражается как $\mu _{1}(\Sigma _{11})^{-1}=0$ , $-(\Sigma _{11})^{-1}=0$ . Для X = 0, Y однозначно определяется как b, то есть условное среднее Y есть b, условная дисперсия — 0, коэффициент регрессии — A.

Отметим, что структура знаний для линейного уравнения практически совпадает с таковой для правильной линейной функции, за исключением того, что в первом случае корреляция между X и Y считается совершенной. Это иллюстрирует разницу между частичным незнанием и линейным уравнением, заключающуюся в корреляции.

Линейные регрессионные модели

Линейная регрессионная модель — более общий и интересный случай. Пусть X и Y — векторы, Y = XA + b + E, где A и b — коэффициенты, E — независимый белый шум с E ~ N(0, Σ). Модель представляется частично просвипованной матрицей:

M({\vec {X}},Y)=\left[{\begin{array}{*{20}c}{\begin{array}{*{20}c}0\\0\\A^{T}\end{array}}&{\begin{array}{*{20}c}b\\A\\\Sigma \end{array}}\end{array}}\right]

Линейная регрессионная модель может рассматриваться как объединение знаний: одно описывается линейным уравнением по X, Y и E, другое — нормальным распределением шума E ~ N(0, Σ). Или, аналогично линейному уравнению: при X = 0, Y не обязательно равно b, но его условное среднее — b, условная дисперсия — Σ. Такой подход позволяет более эффективно представлять знания; переменная шума E в итоговой матрице не фигурирует, что упрощает использование.

Анализируя все шесть частных случаев, видно главное преимущество матричного представления моментов: оно объединяет разнообразные типы знаний — линейные уравнения, совместные и условные распределения, вакуозность — в единую структуру. Удобство этого подхода не только в задачах искусственного интеллекта, но и в статистике и инженерных вычислениях, поскольку позволяет рассматривать типовые компоненты статистики (наблюдения, распределения, несобственные априорные, регрессионные модели) не как отдельные сущности, а как проявления одной концепции.

В экспертных системах с линейными функциями правдоподобия для вывода применяются две основные операции: объединение и маргинализация. Объединение соответствует интеграции знаний, а маргинализация — их укрупнению или проекции. Процесс вывода заключается в том, что соответствующие куски знаний объединяются в единую базу, которая затем спроецирована на интересующую поддоменную область, где и решается задача вывода.

Маргинализация

Проекция линейной функции правдоподобия на подмножество переменных (маргинализация) в терминах матрицы моментов — это выделение подматрицы, соответствующей оставшимся переменным. Например, для совместного распределения M(X, Y), его проекция на Y задаётся как:

M^{\downarrow Y}(X,Y)=\left[{\begin{array}{*{20}c}\mu _{2}\\\Sigma _{22}\end{array}}\right]

Важно, чтобы исключаемая переменная не подвергалась свипованию (нет стрелки над переменной). Например, проекция $M({\vec {X}},Y)$ на Y приводит к:

M^{\downarrow Y}({\vec {X}},Y)=\left[{\begin{array}{*{20}c}\mu _{2}-\mu _{1}(\Sigma _{11})^{-1}\Sigma _{12}\\\Sigma _{22}-\Sigma _{21}(\Sigma _{11})^{-1}\Sigma _{12}\end{array}}\right]

что не совпадает с прямым маргинальным распределением по Y. Однако удаление любой переменной Y из частично просвипованной матрицы остаётся корректным и даёт нужную функцию по остальным переменным.

Если требуется удалить переменную, подвергнутую свипу, нужно применить обратную операцию — частичное или полное обратное свипование. Пусть $M({\vec {X}})$ — полностью просвипованная матрица моментов,

M({\vec {X}})=\left({\begin{array}{*{20}c}{\bar {\mu }}\\{\bar {\Sigma }}\\\end{array}}\right)

Тогда обратный полный свип восстанавливает исходную матрицу моментов M(X):

M(X)=\left({\begin{array}{*{20}c}{-{\bar {\mu }}{\bar {\Sigma }}^{-1}}\\{-{\bar {\Sigma }}^{-1}}\\\end{array}}\right)

Если матрица частично просвипована, например,

M({\vec {X}},Y)=\left[{\begin{array}{*{20}c}{\begin{array}{*{20}c}{{\bar {\mu }}_{1}}\\{{\bar {\Sigma }}_{11}}\\{{\bar {\Sigma }}_{21}}\\\end{array}}&{\begin{array}{*{20}c}{{\bar {\mu }}_{2}}\\{{\bar {\Sigma }}_{12}}\\{{\bar {\Sigma }}_{22}}\\\end{array}}\\\end{array}}\right]

то её обратный частичный свип по X определяется как:

M(X,Y)=\left[{\begin{array}{*{20}c}{\begin{array}{*{20}c}{-{\bar {\mu }}_{1}({\bar {\Sigma }}_{11})^{-1}}\\{-({\bar {\Sigma }}_{11})^{-1}}\\{-{\bar {\Sigma }}_{21}({\bar {\Sigma }}_{11})^{-1}}\\\end{array}}&{\begin{array}{*{20}c}{{\bar {\mu }}_{2}-{\bar {\mu }}_{1}({\bar {\Sigma }}_{11})^{-1}{\bar {\Sigma }}_{12}}\\{-({\bar {\Sigma }}_{11})^{-1}{\bar {\Sigma }}_{12}}\\{{\bar {\Sigma }}_{22}-{\bar {\Sigma }}_{21}({\bar {\Sigma }}_{11})^{-1}{\bar {\Sigma }}_{12}}\\\end{array}}\\\end{array}}\right]

Обратные свипы по сути аналогичны прямым, но некоторые множители в них имеют противоположный знак. Это взаимно обратные преобразования. Было показано, что последовательный прямой и обратный свип по одному и тому же набору переменных восстанавливает исходную матрицу моментов^[6]. Интуитивно, прямой свип факторизует совместное распределение в краевое и условное, а обратный перемножает их обратно.

Объединение

Согласно правилу Демпстера, объединение функций правдоподобия проводится как пересечение фокальных элементов и умножение соответствующих плотностей вероятности. Liping Liu применил это правило к линейным функциям правдоподобия и вывел формулу объединения через плотности вероятности. Позднее он доказал утверждение Артура Демпстера и выразил формулу как сумму двух полностью просвипованных матриц. Пусть $M_{1}({\vec {X}})=\left({\begin{array}{*{20}c}{{\bar {\mu }}_{1}}\\{{\bar {\Sigma }}_{1}}\\\end{array}}\right)$ и $M_{2}({\vec {X}})=\left({\begin{array}{*{20}c}{{\bar {\mu }}_{2}}\\{{\bar {\Sigma }}_{2}}\\\end{array}}\right)$ — две линейные функции правдоподобия по тем же переменным X. Их объединение даёт полностью просвипованную матрицу:

M({\vec {X}})=\left({\begin{array}{*{20}c}{{\bar {\mu }}_{1}+{\bar {\mu }}_{2}}\\{{\bar {\Sigma }}_{1}+{\bar {\Sigma }}_{2}}\\\end{array}}\right)

Эта формула часто используется для умножения двух нормальных распределений, а здесь служит определением объединения линейных функций правдоподобия, включающих обычные нормальные распределения как частный случай. Вакуозная функция (нулевая матрица) выступает нейтральным элементом объединения. Особые случаи: если матрицы разной размерности, одну или обе дополняют вакуозными строками по отсутствующим переменным, то есть задают незнание на новых переменных — напр., комбинируя M₁(X, Y) и M₂(X, Z), их приводят к M₁(X, Y, \vec Z) и M₂(X, \vec Y, Z). Идею вакуозного расширения предложил Конг^[7] в дискретном случае. Если переменная имеет нулевую дисперсию, её свип невозможен — можно временно подставить очень малое число ε, выполнить операции, а затем обратное свипование и устремить ε к нулю; такие элементы исчезнут из результата.

В общем, чтобы объединить две линейные функции, их матрицы моментов должны быть полностью просвипованы, однако разрешается прямое объединение полностью просвипованной и частично просвипованной матрицы, если все переменные первой уже просвипованы во второй. В частности, линейную регрессионную модель Y = XA + b + E удобно рассматривать как объединение знаний: одно задаётся уравнением для X, Y и E, а второе — нормальным распределением для E, E ~ N(0, Σ). Пусть $M_{1}({\vec {X}},{\vec {\rm {E}}},Y)=\left[{\begin{array}{*{20}c}0&0&b\\0&0&A\\0&0&I\\{A^{T}}&I&0\\\end{array}}\right]$ и $M_{2}({\vec {\rm {E}}})=\left[{\begin{array}{*{20}c}0\\{-\Sigma ^{-1}}\\\end{array}}\right]$ . Их можно объединить напрямую, не свипуя по Y. Итоговая частично просвипованная матрица:

M({\vec {X}},{\vec {\rm {E}}},Y)=\left[{\begin{array}{*{20}c}0&0&b\\0&0&A\\0&{-\Sigma ^{-1}}&I\\{A^{T}}&I&0\\\end{array}}\right]

При обратном свипе по E и исключении E из матрицы, получим представление регрессионной модели.

Рассмотрим, как используются различные типы переменных на примере аудита. Пусть требуется проверить конечное сальдо по счёту дебиторской задолженности (E). Как видно выше, E равно начальному сальдо (B) плюс продажи (S) за период, минус поступления наличности (C) по этим продажам, плюс остаток (R), отражающий незначительные возвраты и скидки. Эта логическая связь задаётся линейным уравнением:

E=B+S-C+R

Если аудитор полагает, что E и B в среднем составляют 100 тысяч долларов со стандартным отклонением 5 и ковариацией 15, эта информация описывается многомерным нормальным распределением. Если по историческим данным остаток R равен в среднем нулю при стандартном отклонении 0,5 тысячи долларов, его можно задать распределением R ~ N(0, 0.5²). Если поступления наличности C известны точно, можно представить это уравнением, например, C = 50 (тыс. долл.). Если аудитор не имеет информации о начальном сальдо, его незнание задаётся вакуозной линейной функцией. Если исторические данные показывают, что при известных поступлениях наличности (C) продажи S в среднем составляют 8C + 4, при стандартном отклонении 4 тысячи долларов, знания кодируются линейной регрессионной моделью S ~ N(4 + 8C, 16).

↑ A. P. Dempster, «Normal belief functions and the Kalman filter», в книге Data Analysis from Statistical Foundations, редактор A. K. M. E. Saleh, Nova Science Publishers, 2001, с. 65-84.
↑ Liu, Liping, Catherine Shenoy, and Prakash P. Shenoy, "Knowledge Representation and Integration for Portfolio Evaluation Using Linear Belief Functions, " IEEE Transactions on Systems, Man, and Cybernetics, Serie A, том 36 (4), 2006, с. 774—785.
↑ G. Shafer, «A note on Dempster’s Gaussian belief functions», School of Business, University of Kansas, Lawrence, KS, Technical Report, 1992.
↑ L. Liu, «A theory of Gaussian belief functions», International Journal of Approximate Reasoning, том 14, с. 95-126, 1996
↑ P. A. Monney, A Mathematical Theory of Arguments for Statistical Evidence. New York, NY: Springer, 2003.
↑ L. Liu, «Local Computation of Gaussian Belief Functions», International Journal of Approximate Reasoning, том 22, с. 217—248, 1999
↑ A. Kong, «Multivariate belief functions and graphical models», Department of Statistics, Harvard University, Cambridge, MA, 1986

A. P. Dempster. «Normal belief functions and the Kalman filter», в Data Analysis from Statistical Foundations, ред. A. K. M. E. Saleh. Nova Science Publishers, 2001, с. 65-84.
Liu, Liping, Catherine Shenoy, and Prakash P. Shenoy. «Knowledge Representation and Integration for Portfolio Evaluation Using Linear Belief Functions», IEEE Transactions on Systems, Man, and Cybernetics, Series A, том 36 (4), 2006, с. 774—785.
G. Shafer. «A note on Dempster’s Gaussian belief functions». School of Business, University of Kansas, Lawrence, KS, Technical Report, 1992.
L. Liu. «A theory of Gaussian belief functions», International Journal of Approximate Reasoning, том 14, с. 95-126, 1996.
P. A. Monney. A Mathematical Theory of Arguments for Statistical Evidence. New York, NY: Springer, 2003.
L. Liu. «Local Computation of Gaussian Belief Functions», International Journal of Approximate Reasoning, том 22, с. 217—248, 1999.
A. Kong. «Multivariate belief functions and graphical models». Department of Statistics, Harvard University, Cambridge, MA, 1986.

[1] A. P. Dempster, «Normal belief functions and the Kalman filter», в книге Data Analysis from Statistical Foundations, редактор A. K. M. E. Saleh, Nova Science Publishers, 2001, с. 65-84.

[2] Liu, Liping, Catherine Shenoy, and Prakash P. Shenoy, "Knowledge Representation and Integration for Portfolio Evaluation Using Linear Belief Functions, " IEEE Transactions on Systems, Man, and Cybernetics, Serie A, том 36 (4), 2006, с. 774—785.

[3] G. Shafer, «A note on Dempster’s Gaussian belief functions», School of Business, University of Kansas, Lawrence, KS, Technical Report, 1992.

[4] L. Liu, «A theory of Gaussian belief functions», International Journal of Approximate Reasoning, том 14, с. 95-126, 1996

[5] P. A. Monney, A Mathematical Theory of Arguments for Statistical Evidence. New York, NY: Springer, 2003.

[6] L. Liu, «Local Computation of Gaussian Belief Functions», International Journal of Approximate Reasoning, том 22, с. 217—248, 1999

[7] A. Kong, «Multivariate belief functions and graphical models», Department of Statistics, Harvard University, Cambridge, MA, 1986

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Линейная функция правдоподобия

Концепция

Представление знаний

Правильные линейные функции правдоподобия

Линейные уравнения

Линейные регрессионные модели

Операции над знаниями

Маргинализация

Объединение

Применение

Примечания

Литература

Категории