Исторический очерк о полигоне

В контексте развития статистического инструментария важно подчеркнуть: на начальном этапе полигон использовался лишь как описательный инструмент, чья задача сводилась к простой визуализации характера распределения данных без выхода за рамки первичного анализа.

Средние века

Первые попытки применения координатных систем для отображения количественных зависимостей связаны с работами Николая Орезмского (Nicolas Oresme, ок. 1320–1382). В своём главном труде на эту тему — «Трактате о конфигурации качеств и движений» (Tractatus de configurationibus qualitatum et motuum, ок. 1350 г.) — он заложил концептуальные основы графического представления переменных величин. Орезм использовал горизонтальную линию longitudo («долгота»), обозначающую протяжённость процесса (например, время), и вертикальные отрезки latitudo («широта»), отражающие интенсивность качества в конкретной точке (например, температуру или скорость). Фактически эти элементы стали прообразами современных осей абсцисс (X) и ординат (Y)^[1]. Орезм не анализировал статистические данные в современном смысле, он утверждал, что изменение интенсивности величины можно изобразить ломаной или кривой линией, а кроме того, «форма» полученной фигуры (треугольник, трапеция или сложный многоугольник) позволяет судить о свойствах самого процесса. Э. Жильсон указал, что Орезм фактически за три столетия до Декарта использовал двухмерную графическую систему для представления функциональной зависимости^[2].

По мысли Орема, все отношения между вещами представимы в виде отношений между геометрическими величинами, в частности, и отношения между качествами, ближайшим образом его занимающие. В качествах следует различать интенсивность и экстенсивность. Интенсивность качества, сосредоточенного в точке, изображается в виде отрезка прямой линии; соответственно отношение между двумя «точечными» интенсивностями мыслится как отношение между двумя линиями. Качества, далее, могут мыслиться распределенными по различным точкам предмета в одном измерении. Это — так называемые «линейные качества», которые, следовательно, изображаемы в виде двухмерных фигур (говоря современным языком, линии абсцисс соответствует экстенсивность качества, а ординатам — его интенсивность).

— Зубов, В.П. Трактат Николая Орема "О конфигурации качеств" // Н. Орем. О конфигурации качеств ; под ред. В. П. Зубова ; пер. с лат. — М. : Эдиториал УРСС, 2000.- С. 9.

Ранние картографические и табличные методы (XVI–XVII вв.)

В эпоху Великих географических открытий потребность в систематизации массовых данных возросла. Джон Граунт (1620–1674), лондонский торговец, в работе «Natural and Political Observations Made upon the Bills of Mortality» (1662)^[3] впервые систематически обработал данные о смертности в Лондоне, составив таблицы, которые фактически были дискретными рядами распределения. Граунт не использовал графики, однако его таблицы содержали все элементы, необходимые для построения полигона: значения признака (возрастные группы) и соответствующие им частоты (число смертей)^[4].

Эдмунд Галлей (1656–1742), знаменитый астроном, в 1693 году опубликовал таблицу смертности для города Бреслау, которая считается первой актуарной таблицей. Галлей предложил графическое представление зависимости дожития от возраста, что приближалось к идее полигона кумулятивных частот^[4]. Таким образом, хотя ни Граунт, ни Галлей не использовали полигон частот в его позднейшем формализованном виде, именно в их работах были заложены его ключевые предпосылки: представление массовых данных как упорядоченного ряда «значение — частота» и переход от чисто табличного описания к графическому отображению распределений. Граунт создал статистическую основу будущего полигона, а Галлей сделал важный шаг к его графической реализации, предвосхитив идею кумулятивного полигона (огивы).

Уильям Плейфер

Основоположником статистической графики является шотландский инженер и экономист Уильям Плейфер (1759–1823): он изобрёл и систематически применил линейные графики, столбчатые диаграммы, круговые диаграммы и диаграммы с областями. В книге «The Commercial and Political Atlas» (1786)^[5] он представил 43 графика, иллюстрирующих торговый баланс Англии с различными странами. Большинство этих графиков — линейные, отображающие изменение экономических показателей во времени. Один из графиков — столбчатая диаграмма — отображал структуру торговли Шотландии.

В работе «Statistical Breviary» (1801)^[6] Плейфер впервые использовал круговую диаграмму для показа пропорций территорий Турецкой империи. Плейфер установил принцип, лежащий в основе полигона: соединение точек с координатами «значение–величина» отрезками прямых для получения наглядного представления о закономерностях.

Иоганн Генрих Ламберт

Немецкий учёный-энциклопедист Иоганн Генрих Ламберт (1728–1777) в 1765 году опубликовал работу, в которой использовал линейные графики для отображения периодических колебаний температуры и влажности, а также изменения уровня почвенных вод. Ламберт, по-видимому, независимо от Плейфера пришёл к идее графического отображения количественных зависимостей с помощью координатных систем^[7]. Его графики, хотя и были посвящены физическим, а не статистическим данным, продемонстрировали возможности визуального анализа и повлияли на дальнейшее развитие графических методов.

Адольф Кетле

Ключевую роль в становлении статистического анализа распределений сыграл бельгийский математик, астроном и статистик Адольф Кетле (1796–1874). В труде Sur l'homme et le développement de ses facultés, ou Essai de physique sociale (1835)^[8] он систематически развивал концепцию «среднего человека» (l’homme moyen) и распространял закон ошибок, известный по астрономии, на антропометрические и социальные данные.^[9]^[10]^[11] Кетле сопоставлял эмпирические ряды распределения роста и других признаков с теоретической кривой ошибок, тем самым способствуя превращению формы распределения в предмет самостоятельного статистического анализа.^[12] Хотя в его собственных работах преобладали табличные и аналитические способы представления данных, именно они создали методологическую основу для последующего графического изображения распределений, в том числе в виде гистограмм и полигонов частот. Во второй половине XIX века такие графические методы получили широкое распространение.^[13]^[14] Подход Кетле оказал заметное влияние на Фрэнсиса Гальтона и Карла Пирсона, которые уже непосредственно развивали графические и математические методы анализа распределений.^[9]

Андре-Мишель Герри

Французский юрист и статистик Андре-Мишель Герри (1802–1866) в работе «Essai sur la statistique morale de la France» (1833) использовал разнообразные графические методы, включая тематические карты и диаграммы, для анализа преступности, образования и самоубийств. Герри, наряду с Кетле, считается одним из первых статистиков, начавших систематическое использование графиков в социальных науках^[15].

Флоренс Найтингейл

Флоренс Найтингейл (1820–1910), помимо своей сестринской деятельности, в 1858 году создала так называемые «розовые диаграммы» (coxcomb diagrams, или polar area diagrams), демонстрирующие причины смертности солдат в Крымской войне^[16]. Эти диаграммы представляли собой распределения частот по категориям и во времени, и, хотя они не были полигонами в строгом смысле, они продемонстрировали возможности графического представления статистических распределений для принятия управленческих решений^[17], ^[18].

Шарль Жозеф Минар

Будучи инженером, Шарль Жозеф Минар (1781–1870) столкнулся с необходимостью визуально обосновывать экономическую эффективность строительства каналов и железных дорог. Для этого он разработал метод «фигуративных карт», в которых ширина линий была строго пропорциональна отображаемому количеству (грузов, пассажиров или денег)^[19], ^[20]. Минар создал пространственные распределения частот — предшественников современных диаграмм потоков (flow maps). Он активно использовал площадные и линейные диаграммы для представления торговых данных, демографических показателей и грузопотоков Европы. Кроме того, он одним из первых начал применять круговые диаграммы У. Плейфера, размещая их непосредственно на географических картах для показа структуры потребления в разных регионах^[21].

В 1869 году была издана его работа «Фигуративная карта последовательных потерь в людях французской армии в Русской кампании 1812–1813 гг.». Эта карта представляла собой пример интеграции многомерных данных на двумерной плоскости. На одном чертеже Минару удалось объединить шесть переменных: географические координаты (широту и долготу), направление движения армии, численность войск, температуру воздуха во время отступления и хронологию событий^[22].

Фрэнсис Гальтон

Сэр Фрэнсис Гальтон (1822—1911) систематически использовал графические методы для анализа распределений. В работе «Natural Inheritance» (1889)^[23] он строил частотные таблицы, наносил точки на координатную плоскость и соединял их линиями, получая графики, фактически являвшиеся полигонами частот; с их помощью он сопоставлял распределения признаков у родителей и потомков. В 1875 году Гальтон ввёл понятие «огивы» (ogive) — кумулятивной кривой распределения, ординаты которой равны накопленным относительным частотам^[24]. Термин был заимствован из архитектуры (стрельчатая арка) и отражал характерную S-образную форму кривой^[25]. По существу, огива Гальтона представляла собой эмпирическое приближение к теоретической функции распределения $F(x)$ и использовалась для графического нахождения квантилей — медианы, квартилей и перцентилей^[26]. Работы Гальтона оказали непосредственное влияние на Карла Пирсона, который развил и формализовал графические методы анализа распределений.

Связь гистограммы и полигона

Английский математик и статистик Карл Пирсон (1857—1936), основатель первой в мире кафедры статистики (Университетский колледж Лондона, 1911) и журнала Biometrika (1901), сыграл ключевую роль в формализации связи между графическими методами представления данных и теоретическими распределениями.

В лекциях 1890-х годов и в серии статей «Contributions to the Mathematical Theory of Evolution» Пирсон чётко определил геометрическую связь между гистограммой и полигоном частот: полигон получается путём соединения отрезками прямых линий середин верхних оснований столбцов гистограммы.^[27]^[28]

Это утверждение, кажущееся сегодня очевидным, имело принципиальное значение: оно связало два разных способа графического представления данных в единую систему. Гистограмма показывает распределение через площади столбцов, полигон — через положение точек и соединяющую их ломаную. Оба графика несут одну и ту же информацию, но полигон оказался удобнее для перехода к теоретической кривой распределения.^[29]

Что такое плотность вероятности и зачем она нужна

Чтобы понять главный теоретический результат Пирсона, необходимо пояснить понятие плотности вероятности. Когда мы бросаем монету, случайная величина (результат броска) принимает одно из двух значений: «орёл» или «решка». Вероятность каждого исхода — число, которое можно указать точно (например, 0,5). Такие величины называются дискретными. Но многие величины — рост человека, температура воздуха, время ожидания автобуса — могут принимать любое значение из некоторого непрерывного промежутка. Рост может быть равен 170,0 см, или 170,01 см, или 170,001 см — значений бесконечно много. Для таких непрерывных случайных величин вероятность принять какое-то одно точное значение равна нулю. Бессмысленно спрашивать: «Какова вероятность, что рост человека равен ровно 170,000…0 см?» — ответ всегда будет ноль. Вместо этого для непрерывных величин имеет смысл спрашивать о вероятности попадания в интервал: «Какова вероятность, что рост человека — от 170 до 175 см?» Именно здесь возникает понятие плотности вероятности.

Плотность вероятности $f(x)$ — это функция, которая показывает, насколько «густо» сосредоточены значения случайной величины в окрестности точки $x$ . Чем выше значение $f(x)$ , тем больше наблюдений приходится на единицу длины оси в данной точке.

Вероятность попадания случайной величины $X$ в интервал от $a$ до $b$ равна площади под кривой плотности на этом интервале:

P(a\leqslant X\leqslant b)=\int _{a}^{b}f(x)\,dx.

А полная площадь под кривой плотности на всей числовой оси всегда равна единице:

\int _{-\infty }^{+\infty }f(x)\,dx=1.

Это означает, что случайная величина с вероятностью 1 примет какое-нибудь значение.^[30]^[31]

Наглядный пример: от таблицы к плотности

Допустим, мы измерили рост 1000 мужчин и распределили результаты по интервалам шириной $h=5$ см:

Интервал роста, см	Середина интервала	Число мужчин $n_{i}$	Относительная частота $w_{i}=n_{i}/n$	Плотность ${\hat {f}}=n_{i}/(n\cdot h)$
155—160	157,5	50	0,050	0,010
160—165	162,5	150	0,150	0,030
165—170	167,5	300	0,300	0,060
170—175	172,5	280	0,280	0,056
175—180	177,5	150	0,150	0,030
180—185	182,5	50	0,050	0,010
185—190	187,5	20	0,020	0,004

Последний столбец содержит оценку плотности вероятности. Значение 0,060 для интервала 165—170 см означает: на каждый сантиметр оси роста в этом диапазоне приходится примерно 0,060 (то есть 6 %) всех наблюдений.

Если по оси $X$ отложить середины интервалов, а по оси $Y$ — значения ${\hat {f}}$ , и соединить полученные точки отрезками, мы получим полигон плотности — ломаную линию, которая приближённо изображает теоретическую кривую плотности вероятности.

Почему нужно делить именно на n ⋅ h {\displaystyle n\cdot h} , а не просто на n {\displaystyle n}

Это принципиальный момент, который часто упускается в учебниках.

Относительная частота $w_{i}=n_{i}/n$ показывает долю наблюдений в данном интервале. Но эта величина зависит от ширины интервала: если интервал вдвое шире, в него попадёт приблизительно вдвое больше наблюдений, и $w_{i}$ вырастет. Поэтому относительные частоты нельзя напрямую сравнивать при разных значениях $h$ .

Плотность ${\hat {f}}(x_{i})=n_{i}/(n\cdot h)$ показывает концентрацию наблюдений на единицу длины оси. Эта величина уже не зависит от произвольного выбора ширины интервала (при достаточно большом $n$ ) и именно она стремится к теоретической плотности вероятности $f(x)$ .

Формально:

{\hat {f}}(x_{i})={\frac {n_{i}}{n\cdot h}}={\frac {w_{i}}{h}}.

Именно ${\hat {f}}(x_{i})$ , а не $n_{i}$ и не $w_{i}$ , является корректной эмпирической оценкой плотности.^[32]

Главный результат Пирсона: сходимость полигона к кривой плотности

Теперь можно сформулировать центральный теоретический результат. Представим, что мы увеличиваем объём выборки и одновременно уменьшаем ширину интервалов. При 100 наблюдениях и 8 интервалах полигон — грубая ломаная. При 1000 наблюдениях и 20 интервалах — более гладкая. При 10 000 наблюдениях и 50 интервалах — почти неотличимая от плавной кривой. Пирсон показал, что в пределе, когда число наблюдений неограниченно растёт ( $n\to \infty$ ), а ширина интервалов стремится к нулю ( $h\to 0$ ), полигон плотности сходится к теоретической кривой плотности вероятности:

\lim _{n\to \infty ,\;h\to 0}{\hat {f}}(x)=f(x),

где $f(x)$ — истинная плотность вероятности случайной величины.^[27]^[29]

Это означает, что ломаная линия полигона при увеличении данных и дроблении интервалов постепенно превращается в гладкую математическую кривую. Полигон, таким образом, является эмпирическим приближением к теоретической функции плотности — приближением, которое тем точнее, чем больше наблюдений и чем мельче интервалы.

Результат Пирсона принципиально изменил статус полигона в статистике. До Пирсона полигон воспринимался исключительно как инструмент описательной статистики: он просто показывал, как выглядят данные конкретной выборки. Никакого выхода за пределы этой выборки он не предполагал. После Пирсона полигон приобрёл новый смысл: это оценка теоретической кривой плотности, которой подчиняется случайная величина в генеральной совокупности. Глядя на форму полигона, статистик теперь мог задавать вопросы о законе распределения: является ли распределение нормальным? Или оно скошено? Или имеет несколько вершин? Тем самым полигон превратился из инструмента описания в инструмент статистического вывода — перехода от наблюдаемых данных к закономерностям генеральной совокупности.^[29]^[33]

Сам Пирсон обосновывал сходимость полигона к кривой плотности интуитивно и геометрически, без строгого математического доказательства. Формальное доказательство было получено значительно позже. В 1956 году Мюррей Розенблатт и, независимо от него, в 1962 году Эмануэль Парзен предложили более совершенный непараметрический метод оценки плотности, известный как ядерная оценка плотности (англ. Kernel Density Estimation, KDE) или метод окна Парзена — Розенблатта. Идея метода состоит в замене "жёстких" прямоугольных интервалов гистограммы "мягкими", гладкими ядерными функциями $K(\cdot )$ . Вместо того чтобы просто подсчитывать количество точек в заданном интервале, KDE строит оценку плотности ${\hat {f}}(x)$ как сумму вкладов от каждой точки наблюдения $x_{i}$ :

{\hat {f}}(x)={\frac {1}{nh}}\sum _{i=1}^{n}K\left({\frac {x-x_{i}}{h}}\right)

где $n$ — объём выборки, $h>0$ — параметр сглаживания, называемый шириной полосы (англ. bandwidth), а $K$ — ядерная функция, обычно симметричная и с интегралом, равным единице (например, Гауссова функция). Вклад каждой точки $x_{i}$ в общую оценку максимален вблизи самой точки и плавно убывает по мере удаления от неё, что позволяет строить гладкую и непрерывную кривую плотности. В отличие от гистограммы, результат KDE не зависит от начальной точки сетки интервалов и зачастую даёт более точное и наглядное представление об истинной плотности распределения, особенно для мультимодальных или асимметричных данных. Выбор ширины полосы h является критически важным и представляет собой компромисс между смещением и дисперсией оценки.

На графике: черные черточки внизу — это исходные точки данных $x_{i}$ , бледно-голубые кривые — это ядерные функции, в данном случае — гауссовы колокола, построенные вокруг каждой точки данных, красная жирная линия — это итоговая ядерная оценка плотности (KDE). Она получена простым суммированием высот всех голубых кривых в каждой точке. Там, где точки данных расположены густо (в районе 2 и 8), голубые холмики накладываются друг на друга, и красная кривая взмывает вверх, образуя два красивых гладких пика.

Сравнение гистограммы, полигона и кривой плотности

Объект	Тип графика	Что на оси Y	Зависит от h?	Гладкость
Гистограмма	Столбчатый	$n_{i}$ или $w_{i}$	Да	Нет (ступенчатая)
Полигон частот	Ломаная	${\hat {f}}(x_{i})=n_{i}/(nh)$	Да	Нет (ломаная)
Ядерная оценка	Гладкая кривая	${\hat {f}}(x)$	Да (параметр $h$ )	Да
Теоретическая плотность	Математическая функция	$f(x)$	Нет	Да

Таким образом, полигон занимает промежуточное положение между грубой ступенчатой гистограммой и точной теоретической кривой: он лучше гистограммы (непрерывен), но уступает ядерной оценке (кусочно-линеен). Пирсон первым осознал эту промежуточность и показал, что полигон — это мост между эмпирическими данными и теоретическим законом распределения.

Система кривых Пирсона

Логическим продолжением идеи о связи полигона и теоретической кривой стала разработанная Пирсоном система кривых Пирсона — семейство непрерывных распределений, предназначенных для аппроксимации эмпирических полигонов. В серии статей «Contributions to the Mathematical Theory of Evolution» (1893—1916) Пирсон предложил классификацию кривых на типы I—XII. В основе классификации лежало дифференциальное уравнение:

{\frac {d}{dx}}\ln f(x)={\frac {x-a}{b_{0}+b_{1}x+b_{2}x^{2}}},

где параметры $a,b_{0},b_{1},b_{2}$ определялись через моменты эмпирического распределения, вычисляемые по данным полигона.^[27]^[34]^[35]

Метод работал следующим образом: статистик строил полигон по данным выборки, вычислял по нему первые четыре момента ( $\mu _{1},\mu _{2},\mu _{3},\mu _{4}$ ), затем по этим моментам определял тип кривой Пирсона и находил её параметры. Тем самым полигон перестал быть только средством наглядного описания данных и превратился в отправную точку для подбора вероятностной модели — одна из центральных задач математической статистики.^[29]^[36]

Тип кривой Пирсона	Современное название	Характерная форма полигона
I	Бета-распределение	Асимметричная, ограниченная с двух сторон
II	Симметричное бета-распределение	Симметричная, ограниченная
III	Гамма-распределение	Асимметричная, ограниченная с одной стороны
IV	—	Асимметричная с тяжёлыми хвостами
VII	t-распределение Стьюдента	Симметричная с тяжёлыми хвостами

Критика и дальнейшее развитие

Метод моментов, использовавшийся Пирсоном для оценки параметров кривых по данным полигона, впоследствии подвергся критике со стороны Рональда Фишера, который в 1922 году показал, что метод максимального правдоподобия даёт более точные оценки параметров.^[37] Тем не менее система кривых Пирсона сохранила своё значение как стандартная классификация и была включена в фундаментальные руководства по статистике.^[38]^[39]

Итог

Вклад Карла Пирсона в историю полигона в следующем:

установил точную геометрическую связь между гистограммой и полигоном, объединив два метода визуализации в единую систему;
обосновал (хотя и без строгого доказательства) сходимость полигона к теоретической кривой плотности вероятности, превратив полигон из описательного инструмента в инструмент статистического вывода;
создал систему теоретических кривых, подбираемых к эмпирическим полигонам через моменты, тем самым сделав полигон отправной точкой для идентификации закона распределения.

Русская и советская статистическая школа

Александр Александрович Чупров (1874–1926), профессор Петербургского политехнического института, в фундаментальном труде «Очерки по теории статистики» (1910; 2-е изд. 1959)^[40] уделил значительное внимание графическому представлению рядов распределения. Чупров рассматривал полигон как «наглядное средство изображения вариации», подчёркивая его значение для предварительного (до математической обработки) анализа данных. Он отмечал, что «фигура многоугольника даёт возможность одним взглядом охватить весь характер распределения — его центральную тенденцию, рассеяние, симметрию или скошенность» (Чупров, 1910).

Андрей Андреевич Марков (1856–1922), известный прежде всего работами по теории вероятностей, в своём курсе «Исчисление вероятностей» (1900; многократно переиздавался) использовал графические представления распределений для иллюстрации закона больших чисел и центральной предельной теоремы.

В советский период систематическое изложение методов построения и интерпретации полигонов вошло в стандартные учебники по общей теории статистики. А. Я. Боярский (1906–1985) в серии учебников для экономических вузов детально описал методику построения полигонов для дискретных и интервальных рядов^[41]. В. Е. Адамов, С. Д. Ильенкова^[42] и другие авторы продолжили эту традицию в учебниках 1990–2000-х годов.

Немецкая статистическая школа

В немецкоязычной традиции графическое представление статистических данных развивалось в трудах Вильгельма Лексиса (Wilhelm Lexis, 1837–1914), Ладислауса Борткевича (Ladislaus Bortkiewicz, 1868–1931) и других учёных. Лексис в работе «Einleitung in die Theorie der Bevölkerungsstatistik» (1875) развивал табличные и схематические методы визуализации демографических процессов, включая прообраз современной Лексис-диаграммы для когортного анализа^[43]. Борткевич, ученик Лексиса и научный корреспондент А.А. Чупрова, в работе «Das Gesetz der kleinen Zahlen» (1898) использовал таблицы для сопоставления эмпирических частот с теоретическим распределением Пуассона на примере данных о гибели солдат прусской армии от ударов лошадиных копыт. Эта работа заложила основы графической проверки статистических гипотез для редких событий^[44].

Американская статистика

В США графические методы статистики получили мощный импульс благодаря деятельности Бюро переписей (U.S. Census Bureau) и развитию промышленной статистики. Уолтер Шухарт (Walter A. Shewhart, 1891–1967), работавший в Bell Telephone Laboratories, в монографии «Economic Control of Quality of Manufactured Product» (1931) использовал гистограммы для предварительного анализа распределения измерений, однако основным инструментом контроля стабильности процессов стали разработанные им контрольные карты. Шухарт показал, что форма распределения и поведение точек на контрольной карте позволяют различать «общие» (chance) и «особые» (assignable) причины вариации, что стало основой статистического управления качеством^[45].

Джон Тьюки

В 1970-е годы благодаря работам американского статистика Джона Тьюки и созданной им концепции разведочного анализа данных (EDA) отношение к графическим методам в математической статистике было переосмыслено. Тьюки показал, что визуальное изучение формы распределения с помощью полигонов, гистограмм и новых графических инструментов должно предшествовать любому формальному статистическому выводу, так как позволяет обнаружить скрытые структуры и аномалии в данных.^[46]

График 1 - нормальное распределение, данные симметрично сгруппированы вокруг среднего значения.

График 2: Двухпиковое (бимодальное) распределение. Полигон показывает две совершенно разные подгруппы: одна сконцентрирована около 30, другая — около 70.

График 3: Скошенное вправо. График мгновенно показывает, что большинство значений сгруппировано слева (маленькие значения), но есть длинный "хвост" из редких, но больших значений.

График 4: Распределение с выбросом. Основная масса данных плотно сгруппирована около 48, но есть одно экстремальное значение (200). Этот единственный выброс искусственно "раздул" стандартное отклонение и сдвинул среднее. Первым шагом любого анализа должна быть проверка этого выброса.

Бернард Силверман

Во второй половине XX века Бернард Силверман (род. 1952) показал, что полигон следует рассматривать не просто как наглядный график, а как один из простейших непараметрических способов оценки плотности вероятности.^[47]

Главная новизна работ Силвермана состояла в том, что он включил полигон частот в общую теорию оценивания плотности наряду с гистограммой и ядерными оценками. В такой трактовке полигон оказался промежуточным методом: он даёт более естественное и гладкое приближение к непрерывной плотности, чем ступенчатая гистограмма, но уступает ядерным оценкам по точности и устойчивости к выбору границ интервалов.^[48],^[49]

Тем самым Силверман изменил сам статус полигона в статистике: из вспомогательного средства описания данных он превратился в элемент строгой теории непараметрического статистического вывода. Кроме того, работы Силвермана способствовали широкому распространению методов оценивания плотности в прикладной статистике, поскольку он предложил практические правила выбора параметров сглаживания и изложил всю теорию в форме, доступной для исследователей из разных областей.^[50]

Оценка плотности вероятности полигоном частот (по Силверману)

По Силверману, процедура оценки плотности полигоном состоит из пяти этапов.

1. Разбить данные на интервалы шириной $h$ и подсчитать число наблюдений $n_{j}$ , попавших в каждый интервал.

2. Вычислить оценку плотности в середине каждого интервала:

{\hat {f}}_{j}={\frac {n_{j}}{n\cdot h}},

где $n$ — объём выборки, $h$ — ширина интервала. Деление на $n\cdot h$ (а не просто на $n$ ) необходимо для получения именно плотности — количества наблюдений, приходящихся на единицу длины оси.

3. Нанести на координатную плоскость точки $({\bar {x}}_{j},\;{\hat {f}}_{j})$ , где ${\bar {x}}_{j}$ — середина $j$ -го интервала, и соединить их отрезками прямых. Добавить нулевые точки слева и справа от крайних интервалов для замыкания полигона.

4. Получившаяся ломаная линия — полигон плотности — является кусочно-линейной непараметрической оценкой истинной плотности вероятности $f(x)$ .

5. При неограниченном увеличении объёма выборки и одновременном уменьшении ширины интервала эта оценка сходится к истинной плотности:

\lim _{n\to \infty ,\;h\to 0}{\hat {f}}_{\mathrm {poly} }(x)=f(x).

Источник: Silverman B. W. Density Estimation for Statistics and Data Analysis. — London : Chapman and Hall, 1986. — P. 14—20.

Дэвид Скотт

Американский математик Дэвид Скотт (David W. Scott) в 1985 году аналитически исследовал асимптотические свойства полигона частот. Скотт строго доказал, что по критерию среднеинтегральной квадратической ошибки (MISE) кусочно-линейный полигон сходится к истинной плотности вероятности значительно быстрее, чем ступенчатая гистограмма, занимая промежуточное положение между ней и ядерными оценками плотности.^[49],^[51].

Визуализация данных

В конце XX века, с развитием вычислительной техники и статистического программного обеспечения (такого как языки S и R, пакеты SPSS и SAS), построение полигонов частот было полностью автоматизировано. В работах Уильяма Кливленда по визуализации данных было показано, что машинная графика позволяет преодолеть главный недостаток классического полигона — зависимость от первоначального выбора ширины интервала: интерактивные среды позволили исследователям динамически изменять шаг группировки, наблюдая за изменениями формы непрерывной оценки распределения в реальном времени.^[52]

Адамов В. Е., Ильенкова С. Д., Сиротина Т. П., Смирнов С. А. Экономика и статистика фирм : учеб. для студентов экон. специальностей вузов / под ред. С. Д. Ильенковой. — 3-е изд., перераб. и доп.. — М.: Финансы и статистика, 2000. — 287 с. — 5000 экз. — ISBN 5-279-02189-X.
Боярский А. Я., Громыко Г. Л. Общая теория статистики. — М.: Изд-во МГУ, 1985. — 376 с. — 8000 экз.
Ван дер Варден Б. Л. Математическая статистика / пер. с нем. Л. Н. Большева; под ред. Н. В. Смирнова. — М.: Издательство иностранной литературы, 1960. — 436 с. — 4000 экз.
Гмурман В. Е. Теория вероятностей и математическая статистика : учебное пособие для бакалавров. — 12-е изд., стер.. — М.: Юрайт, 2014. — 478 с. — ISBN 978-5-9916-3461-8.
Канаев И. И. Фрэнсис Гальтон 1822–1911 : научно-биографическая серия. — М.: Наука, 1972. — 134 с. — 11 000 экз.
Колмогоров А. Н. Основные понятия теории вероятностей. — 2-е изд., перераб.. — М.: Наука, 1974. — 119 с. — 23 000 экз.
Орем Н. О конфигурации качеств / под ред. В. П. Зубова; пер. с лат.. — М.: Эдиториал УРСС, 2000. — 134 с. — ISBN 5-8360-0109-X.
Тьюки Д. У. Анализ результатов наблюдений : разведочный анализ / пер. с англ. А. Ф. Кушнира [и др.]. — М.: Мир, 1981. — 693 с. — 11 500 экз.
Чупров А. А. Очерки по теории статистики. — СПб.: Типография «Правда», 1910. — 443 с.
Ширяев А. Н. Вероятность. — М.: Наука, 1989. — 640 с. — 25 000 экз. — ISBN 5-02-013955-6.

Правообладателем данного материала является АНО «Интернет-энциклопедия «РУВИКИ».
Использование данного материала на других сайтах возможно только с согласия АНО «Интернет-энциклопедия «РУВИКИ».

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]