Одномерные данные (статистика)
Одномерные данные — термин, широко используемый в статистике для описания типа данных, состоящих из наблюдений только по одной характеристике или признаку. Простым примером одномерных данных могут служить зарплаты работников в промышленности[1]. Как и другие данные, одномерные данные могут быть визуализированы с помощью графиков, изображений или других аналитических инструментов после измерения, сбора, представления и анализа данных[2].
Типы данных
Некоторые одномерные данные состоят из чисел (например, рост 1,65 м или масса 70 кг), в то время как другие — нечисловые (например, цвета глаз: карий или голубой). Обычно для различения этих типов используют термины категориальные одномерные данные и числовые одномерные данные.
Категориальные одномерные данные состоят из нечисловых наблюдений, которые могут быть отнесены к категориям. Они включают метки или наименования, используемые для идентификации признака каждого элемента. Категориальные одномерные данные обычно используют либо номинальную, либо порядковую шкалу измерения[3].
Числовые одномерные данные состоят из наблюдений, представляющих собой числа. Они получаются с использованием либо интервальной, либо шкалы отношений. Этот тип одномерных данных можно дополнительно классифицировать на две подкатегории: дискретные и непрерывные[2] Числовые одномерные данные являются дискретными, если множество всех возможных значений конечно или счётно бесконечно. Дискретные одномерные данные обычно связаны с подсчётом (например, количество прочитанных человеком книг). Числовые одномерные данные являются непрерывными, если множество всех возможных значений представляет собой интервал чисел. Непрерывные одномерные данные обычно связаны с измерением (например, веса людей).
Анализ данных и приложения
Одномерный анализ — это самая простая форма анализа данных. Приставка уни- означает «один», то есть данные содержат только одну переменную. Одномерные данные требуют анализа каждой переменной отдельно. Данные собираются с целью ответа на вопрос, или, более конкретно, на исследовательский вопрос. Одномерные данные не отвечают на вопросы о взаимосвязях между переменными. Вместо этого они используются для описания одной характеристики или признака, который варьируется от наблюдения к наблюдению[4]. Обычно исследователь может преследовать две цели: первая — ответить на исследовательский вопрос с помощью описательного исследования, вторая — получить знания о том, как признак изменяется под индивидуальным воздействием переменной в регрессионном анализе. Существуют различные способы описания закономерностей, обнаруженных в одномерных данных, включая графические методы, меры центральной тенденции и меры изменчивости[5].
Как и другие формы статистики, анализ может быть инференциальным или описательным. Ключевой момент — рассматривается только одна переменная.
Одномерный анализ может давать ошибочные результаты в случаях, когда более уместен многомерный анализ.
Центральная тенденция — одна из наиболее распространённых числовых описательных мер. Она используется для оценки центрального положения одномерных данных путём вычисления среднего, медианы и моды[6]. Каждая из этих мер имеет свои преимущества и ограничения. Среднее значение учитывает все значения набора данных, но особенно чувствительно к влиянию выбросов. Медиана является лучшей мерой при наличии выбросов в данных. Моду легко определить.
Не обязательно ограничиваться только одной из этих мер центральной тенденции. Если анализируемые данные категориальные, то единственной применимой мерой центральной тенденции будет мода. Однако если данные числовые (порядковые или интервальные/отношения), то для описания данных можно использовать моду, медиану или среднее значение. Использование нескольких мер обеспечивает более точное описательное резюме центральной тенденции для одномерных данных[7].
Мера изменчивости или дисперсии (отклонения от среднего) набора одномерных данных может более полно раскрыть форму распределения данных. Она даёт информацию о разбросе значений данных. Меры изменчивости в сочетании с мерами центральной тенденции дают более полное представление о данных, чем только меры центральной тенденции[8]. Три наиболее часто используемые меры изменчивости — это размах, дисперсия и стандартное отклонение[9]. Применимость каждой меры зависит от типа данных, формы распределения и используемой меры центральной тенденции. Если данные категориальные, то меры изменчивости не применяются. Для числовых данных возможны все три меры. Если распределение данных симметрично, то обычно используют дисперсию и стандартное отклонение. Однако если данные асимметричны, то наиболее подходящей мерой изменчивости будет размах[3]
Описательная статистика описывает выборку или генеральную совокупность. Она может быть частью разведочного анализа данных.[10].
Выбор подходящей статистики зависит от уровня измерения. Для номинальных переменных достаточно таблицы частот и указания моды. Для порядковых переменных медиана может быть рассчитана как мера центральной тенденции, а размах (и его вариации) — как мера разброса. Для интервальных переменных к инструментарию добавляются арифметическое среднее и стандартное отклонение, а для шкалы отношений — геометрическое среднее и гармоническое среднее как меры центральной тенденции, а также коэффициент вариации как мера разброса.
Для интервальных и шкалы отношений данных дополнительными характеристиками являются асимметрия и эксцесс переменной.
Инференциальные методы позволяют делать выводы о генеральной совокупности на основе выборки[10]. Для номинальной переменной критерий согласия хи-квадрат (goodness of fit) может помочь определить, соответствует ли выборка некоторой популяции[11]. Для интервальных и шкалы отношений данных t-критерий для одной выборки позволяет проверить, совпадает ли среднее значение в выборке с предложенным числом (обычно 0). Другие доступные тесты положения включают знаковый критерий и критерий знаковых рангов Вилкоксона.
Графические методы
Наиболее часто используемые графические иллюстрации для одномерных данных:
Частота — это количество раз, когда число встречается. Частота наблюдения в статистике указывает, сколько раз наблюдение встречается в данных. Например, в следующем списке чисел {1, 2, 3, 4, 6, 9, 9, 8, 5, 1, 1, 9, 9, 0, 6, 9} частота числа 9 равна 5 (так как оно встречается 5 раз в этом наборе данных).
Столбчатая диаграмма — это график, состоящий из прямоугольных столбцов. Эти столбцы представляют собой число или процент наблюдений существующих категорий переменной. Длина или высота столбцов визуально отражает пропорциональные различия между категориями.
Гистограмма используется для оценки распределения данных, при этом частота значений распределяется по диапазонам, называемым интервалами[12].
Круговая диаграмма — это круг, разделённый на сектора, которые отражают относительные частоты или проценты элементов популяции или выборки, относящихся к разным категориям.
Распределения
— это тип распределения для одной случайной величины, описываемый либо функцией вероятности (pmf) для дискретного распределения, либо функцией плотности вероятности (pdf) для непрерывного распределения[13]. Не следует путать с многомерным распределением.
Примечания
- ↑ Kachigan, Sam Kash. Statistical analysis: an interdisciplinary introduction to univariate & multivariate methods. — New York : Radius Press, 1986. — ISBN 0-942154-99-1.
- ↑ 1 2 Lacke, Prem S. Mann; with the help of Christopher Jay. Introductory statistics.. — 7th. — Hoboken, NJ : John Wiley & Sons, 2010. — ISBN 978-0-470-44466-5.
- ↑ 1 2 Anderson, David R. Statistics For Business & Economics / David R. Anderson, Dennis J. Sweeney, Thomas A. Williams. — Tenth. — Cengage Learning. — P. 1018. — ISBN 978-0-324-80926-8.
- ↑ Univariate Data. study.com.
- ↑ Trochim, William Descriptive Statistics. Web Center for Social Research Methods. Дата обращения: 15 февраля 2017.
- ↑ O'Rourke, Norm. A step-by-step approach to using SAS for univariate & multivariate statistics / Norm O'Rourke, Larry Hatcher, Edward J. Stepanski. — 2nd. — New York : Wiley-Interscience, 2005. — ISBN 1-59047-417-1.
- ↑ Longnecker, R. Lyman Ott, Michael. An introduction to statistical methods and data analysis. — 6th ed., International. — Pacific Grove, Calif. : Brooks/Cole, 2009. — ISBN 978-0-495-10914-3.
- ↑ Meloun, Milan. Statistical Data Analysis A Practical Guide. / Milan Meloun, Jirí Militky. — New Delhi : Woodhead Pub Ltd, 2011. — ISBN 978-0-85709-109-3.
- ↑ Purves, David Freedman; Robert Pisani; Roger. Statistics. — 4. — New York [u.a.] : Norton, 2007. — ISBN 978-0-393-92972-0.
- ↑ 1 2 Everitt, Brian. The Cambridge Dictionary of Statistics. — Cambridge, UK New York : Cambridge University Press, 1998. — ISBN 0521593468.
- ↑ One-Way Chi-Square.
- ↑ Diez, David M. OpenIntro Statistics / David M. Diez, Christopher D. Barr, Mine Çetinkaya-Rundel. — 3rd. — OpenIntro, Inc., 2015. — P. 30. — ISBN 978-1-9434-5003-9.
- ↑ Samaniego, Francisco J. Stochastic modeling and mathematical statistics : a text for statisticians and quantitative scientists. — Boca Raton : CRC Press, 2014. — P. 167. — ISBN 978-1-4665-6046-8.


