Статистика оценки

Статистика оценки (оценочная статистика, англ. Estimation statistics) — подход к анализу данных, который включает в себя комбинацию из методов: размера эффекта, доверительных интервалов, планирования точности и метаанализа для планирования экспериментов, анализа данных и интерпретации результатов.^[1] Этот подход отличается от проверки значимости нулевой гипотезы (NHST), который считается менее информативным.^[2]^[3] Статистика оценки, или просто оценка, также известная как новая статистика,^[3] используется в области психологии, медицинских исследований, наук о жизни и в широком спектре других экспериментальных наук, где проверка значимости нулевой гипотезы всё ещё остается распространённым подходом,^[4] несмотря на то, что в течение последних нескольких десятилетий статистика оценки рекомендуется в качестве предпочтительного подхода.^[5]^[6]

Основная цель статистики оценки — сообщить размер эффекта (точечную оценку) вместе с его доверительным интервалом, который связан с точностью оценки.^[7] Доверительный интервал суммирует диапазон вероятных значений основного эффекта популяции. Сторонники статистики оценки предпочитают сообщать о размере эффекта с его доверительными интервалами вместо p-уровня значимости^[8] и считают, что статистика оценки должна заменить метод проверки значимости для анализа данных.^[9]

В физике давно используется метод средневзвешенных значений, аналогичный метаанализу.^[10]

История статистики оценки началась с разработки Якобом Коэном стандартизированной величины эффекта в 1960-х годах. Первые исследования с использованием оценочной статистики были впервые проведены Джином В. Глассом вместе с разработкой метода метаанализа в 1970-х годах.^[11] С тех пор методы статистики оценки были усовершенствованы Ларри Хеджесом, Майклом Боренштейном, Дугом Альтманом, Мартином Гарднером, Джеффом Каммингом и другими. Систематический обзор в сочетании с метаанализом — это смежный метод, который широко используется в медицинских исследованиях. Несмотря на широкое распространение метаанализа, подход статистики оценки до сих пор не используется на постоянной основе в главенствующих биомедицинских исследованиях.^[4]

В 1990-х редактор Кеннет Ротман запретил использование p-значений в журнале Epidemiology; авторы поддержали инициативу, но это не повлияло на их аналитическое мышление при проведении исследований.^[12]

В последнее время методы статистики оценки применяются в таких областях, как нейробиология, психология образования и психология.^[13]

В руководстве по публикациям Американской психологической ассоциации рекомендуется оценка (estimation), а не проверка (testing) гипотез.^[14] В документе «Единые требования к рукописям, представляемым в биомедицинские журналы» содержится аналогичная рекомендация: «Избегайте полагаться исключительно на статистическую проверку гипотез, такую как p-значения, которая не может передать важную информацию о величине эффекта».^[15]

В 2019 году журнал Общества нейробиологии eNeuro ввел политику, рекомендующую использовать графики статистики оценки в качестве предпочтительного метода для представления данных.^[16]

У многих тестов значимости есть аналог в статистике оценки.^[17] Почти в каждом случае результат теста (или его p-значение) можно просто заменить размером эффекта и оценкой точности. Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, вычислив среднюю разницу и ее 95 % доверительный интервал. Соответствующие методы могут использоваться для парного t-критерия и множественных сравнений. Точно так же для регрессионного анализа аналитик должен сообщить коэффициент детерминации (R²) и уравнение модели вместо p-значения модели.

Однако сторонники оценочной статистики рекомендуют анализировать и представлять данные с помощью визуализации данных в дополнение к цифровым расчетам.^[2]^[6]^[7] Примерами подходящей визуализации являются точечный график для регрессии и графики Гарднера-Альтмана для двух независимых групп.^[18] В то время как классические графики (например, гистограммы, ящики с усами и скрипичные графики) не отображают сравнение, графики статистики оценки добавляют вторую ось для четкой визуализации размера эффекта.^[19]

График Гарднера — Альтмана

График разности средних Гарднера — Альтмана был впервые описан Мартином Гарднером и Дугом Альтманом в 1986 г.^[18] Этот статистический график отображает данные из двух независимых групп.^[6] Также есть версия графика, подходящая для связанных выборок. Ключевые инструкции по составлению этой диаграммы следующие: (1) отобразить все наблюдаемые значения для обеих групп рядом; (2) поместить вторую ось справа, сместив её, чтобы показать шкалу разности средних; и (3) построить на графике разность средних с ее доверительным интервалом в виде маркера со значением погрешности.^[3] Графики Гарднера-Альтмана могут быть созданы с помощью специального кода с использованием пакетов Ggplot2, seaborn или DABEST; в качестве альтернативы аналитик может использовать удобное программное обеспечение, такое как приложение Estimation Stats.

График Камминга

Для нескольких групп Джефф Камминг ввел дополнительную панель для построения двух или более разностей средних и их доверительных интервалов, помещенных под первой панелью наблюдаемых значений^[3]: такое расположение позволяет легко сравнивать различия средних («дельты») по нескольким группам данных. Графики Камминга могут быть созданы с помощью пакетов ESCI, DABEST, или приложения Estimation Stats.

Другие методологии

Помимо разницы средних, существует множество других типов размера эффекта, со своими преимуществами относительно друг друга. Основные типы включают размеры эффекта типа Cohen’s d и коэффициент детерминации (R²) для регрессионного анализа. Для ненормальных распределений существует ряд более надежных способов расчета размеров эффекта, включая дельту Клиффа и статистику Колмогорова-Смирнова.

При проверке гипотез основной целью статистических вычислений является получение p-значения — вероятности увидеть полученный результат или более экстремальный результат, если предполагается, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), практикующему специалисту в области статистики рекомендуется отвергнуть нулевую гипотезу. Сторонники статистики оценки отвергают валидность подхода проверки гипотез^[3]^[7] по следующим причинам:

P-значения легко и часто неправильно интерпретируются. Например, p-значение часто ошибочно принимают за «вероятность того, что нулевая гипотеза верна»^[20].
Нулевая гипотеза всегда неверна для каждого набора наблюдений: всегда есть какой-то эффект, даже если он незначительный.^[21]
Проверка гипотез дает произвольно дихотомические ответы «да-нет», отбрасывая при этом важную информацию о величине эффекта.^[22]
Любое конкретное p-значение возникает в результате взаимодействия размера эффекта, размера выборки (при прочих равных, больший размер выборки дает меньшее p-значение) и ошибки выборки.^[23]
При низкой мощности симуляция данных показывает, что ошибка выборки делает p-значения чрезвычайно непостоянными.

Преимущества доверительных интервалов

Доверительные интервалы ведут себя предсказуемо. По определению, 95 % доверительные интервалы имеют 95 % шанс уловить среднее значение популяции (μ). Эта функция остается неизменной с увеличением размера выборки; что меняется, так это то, что интервал становится меньше (точнее). Кроме того, 95 % доверительные интервалы также являются 83 % интервалами прогноза: доверительный интервал одного эксперимента имеет 83 % вероятность захвата среднего значения любого будущего эксперимента.^[3] Таким образом, знание 95 % доверительных интервалов отдельного эксперимента дает аналитику правдоподобный диапазон для среднего значения совокупности и правдоподобные результаты любых последующих экспериментов по репликации.

Доказательная статистика

Психологические исследования восприятия статистики показывают, что интервалы оценки позволяют получить более точное восприятие данных, чем отчеты p-значений.^[24]

Планирование точности (Precision planning)

Точность оценки формально определяется как 1/дисперсия, и, как и мощность, которая увеличивается с увеличением размера выборки. Как и мощность, высокая точность трудозатратны. Заявки на грант на исследования в идеале должны включать анализ точности/затрат. Сторонники статистики оценки считают, что планирование точности должно заменить мощность, поскольку сама статистическая мощность концептуально связана с проверкой значимости.^[3]

↑ Ellis, Paul Effect size FAQ (неопр.). Дата обращения: 20 января 2021. Архивировано 26 января 2021 года.
↑ ¹ ² Cohen, Jacob The earth is round (p<.05) (неопр.). Дата обращения: 20 января 2021. Архивировано 11 октября 2017 года.
↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ Cumming, Geoff. Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. — New York : Routledge, 2012.
↑ ¹ ² Button, Katherine; John P. A. Ioannidis; Claire Mokrysz; Brian A. Nosek; Jonathan Flint; Emma S. J. Robinson; Marcus R. Munafò (2013). “Power failure: why small sample size undermines the reliability of neuroscience”. Nature Reviews Neuroscience. 14 (5): 365—76. DOI:10.1038/nrn3475. PMID 23571845.
↑ Altman, Douglas. Practical Statistics For Medical Research. — London : Chapman and Hall, 1991.
↑ ¹ ² ³ Statistics with Confidence / Douglas Altman. — London : Wiley-Blackwell, 2000.
↑ ¹ ² ³ Cohen, Jacob (1990). “What I have Learned (So Far)”. American Psychologist. 45 (12): 1304. DOI:10.1037/0003-066x.45.12.1304. Архивировано из оригинала 2021-01-21. Дата обращения 2021-01-20. Используется устаревший параметр |deadlink= (справка)
↑ Ellis, Paul Why can't I just judge my result by looking at the p value? (неопр.) (31 мая 2010). Дата обращения: 5 июня 2013. Архивировано 28 января 2021 года.
↑ Claridge-Chang, Adam; Assam, Pryseley N (2016). “Estimation statistics should replace significance testing”. Nature Methods. 13 (2): 108—109. DOI:10.1038/nmeth.3729. PMID 26820542. S2CID 205424566. Архивировано из оригинала 2021-01-22. Дата обращения 2021-01-20. Используется устаревший параметр |deadlink= (справка)
↑ Hedges, Larry (1987). “How hard is hard science, how soft is soft science”. American Psychologist. 42 (5): 443. CiteSeerX 10.1.1.408.2317. DOI:10.1037/0003-066x.42.5.443.
↑ Hunt, Morton. How science takes stock: the story of meta-analysis. — New York : The Russell Sage Foundation, 1997. — ISBN 978-0-87154-398-1.
↑ Fidler, Fiona (2004). “Editors Can Lead Researchers to Confidence Intervals, but Can't Make Them Think”. Psychological Science. 15 (2): 119—126. DOI:10.1111/j.0963-7214.2004.01502008.x. PMID 14738519. S2CID 21199094.
↑ Cumming, Geoff ESCI (Exploratory Software for Confidence Intervals) (неопр.). Дата обращения: 20 января 2021. Архивировано 29 декабря 2013 года.
↑ Publication Manual of the American Psychological Association, Sixth Edition (неопр.). Дата обращения: 17 мая 2013. Архивировано 5 марта 2013 года.
↑ Uniform Requirements for Manuscripts Submitted to Biomedical Journals (неопр.). Дата обращения: 17 мая 2013. Архивировано из оригинала 15 мая 2013 года.
↑ Changing the Way We Report, Interpret, and Discuss Our Results to Rebuild Trust in Our Research (неопр.). Дата обращения: 20 января 2021. Архивировано 22 января 2021 года.
↑ Cumming, Geoff. Introduction to the New Statistics: Estimation, Open Science, and Beyond / Geoff Cumming, Robert Calin-Jageman. — Routledge, 2016. — ISBN 978-1138825529.
↑ ¹ ² Gardner, M. J.; Altman, D. G. (1986-03-15). “Confidence intervals rather than P values: estimation rather than hypothesis testing”. British Medical Journal (Clinical Research Ed.). 292 (6522): 746—750. DOI:10.1136/bmj.292.6522.746. ISSN 0267-0623. PMC 1339793. PMID 3082422.
↑ Ho, Joses; Tumkaya; Aryal; Choi; Claridge-Chang (2018). “Moving beyond P values: Everyday data analysis with estimation plots”. bioRxiv: 377978. DOI:10.1101/377978. Архивировано из оригинала 2018-07-28. Дата обращения 2021-01-20. Используется устаревший параметр |deadlink= (справка)
↑ Baril G. L., Cannon J. T. What is the probability that null hypothesis testing is meaningless? (англ.). — 1995.
↑ Cohen, Jacob (1994). “The earth is round (p < .05)”. American Psychologist. 49 (12): 997—1003. DOI:10.1037/0003-066X.49.12.997.
↑ Ellis, Paul. The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. — Cambridge : Cambridge University Press, 2010.
↑ The Significance Test Controversy: A Reader / Denton E. Morrison, Ramon E. Henkel. — Aldine Transaction, 2006. — ISBN 978-0202308791.
↑ Beyth-Marom, R; Fidler, F.; Cumming, G. (2008). “Statistical cognition: Towards evidence-based practice in statistics and statistics education”. Statistics Education Research Journal. 7: 20—39.

[1] Ellis, Paul Effect size FAQ (неопр.). Дата обращения: 20 января 2021. Архивировано 26 января 2021 года.

[:0-2] ¹ ² Cohen, Jacob The earth is round (p<.05) (неопр.). Дата обращения: 20 января 2021. Архивировано 11 октября 2017 года.

[cumming-3] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ Cumming, Geoff. Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. — New York : Routledge, 2012.

[button-4] ¹ ² Button, Katherine; John P. A. Ioannidis; Claire Mokrysz; Brian A. Nosek; Jonathan Flint; Emma S. J. Robinson; Marcus R. Munafò (2013). “Power failure: why small sample size undermines the reliability of neuroscience”. Nature Reviews Neuroscience. 14 (5): 365—76. DOI:10.1038/nrn3475. PMID 23571845.

[5] Altman, Douglas. Practical Statistics For Medical Research. — London : Chapman and Hall, 1991.

[:1-6] ¹ ² ³ Statistics with Confidence / Douglas Altman. — London : Wiley-Blackwell, 2000.

[cohen-7] ¹ ² ³ Cohen, Jacob (1990). “What I have Learned (So Far)”. American Psychologist. 45 (12): 1304. DOI:10.1037/0003-066x.45.12.1304. Архивировано из оригинала 2021-01-21. Дата обращения 2021-01-20. Используется устаревший параметр |deadlink= (справка)

[8] Ellis, Paul Why can't I just judge my result by looking at the p value? (неопр.) (31 мая 2010). Дата обращения: 5 июня 2013. Архивировано 28 января 2021 года.

[9] Claridge-Chang, Adam; Assam, Pryseley N (2016). “Estimation statistics should replace significance testing”. Nature Methods. 13 (2): 108—109. DOI:10.1038/nmeth.3729. PMID 26820542. S2CID 205424566. Архивировано из оригинала 2021-01-22. Дата обращения 2021-01-20. Используется устаревший параметр |deadlink= (справка)

[10] Hedges, Larry (1987). “How hard is hard science, how soft is soft science”. American Psychologist. 42 (5): 443. CiteSeerX 10.1.1.408.2317. DOI:10.1037/0003-066x.42.5.443.

[11] Hunt, Morton. How science takes stock: the story of meta-analysis. — New York : The Russell Sage Foundation, 1997. — ISBN 978-0-87154-398-1.

[12] Fidler, Fiona (2004). “Editors Can Lead Researchers to Confidence Intervals, but Can't Make Them Think”. Psychological Science. 15 (2): 119—126. DOI:10.1111/j.0963-7214.2004.01502008.x. PMID 14738519. S2CID 21199094.

[13] Cumming, Geoff ESCI (Exploratory Software for Confidence Intervals) (неопр.). Дата обращения: 20 января 2021. Архивировано 29 декабря 2013 года.

[14] Publication Manual of the American Psychological Association, Sixth Edition (неопр.). Дата обращения: 17 мая 2013. Архивировано 5 марта 2013 года.

[15] Uniform Requirements for Manuscripts Submitted to Biomedical Journals (неопр.). Дата обращения: 17 мая 2013. Архивировано из оригинала 15 мая 2013 года.

[16] Changing the Way We Report, Interpret, and Discuss Our Results to Rebuild Trust in Our Research (неопр.). Дата обращения: 20 января 2021. Архивировано 22 января 2021 года.

[17] Cumming, Geoff. Introduction to the New Statistics: Estimation, Open Science, and Beyond / Geoff Cumming, Robert Calin-Jageman. — Routledge, 2016. — ISBN 978-1138825529.

[:2-18] ¹ ² Gardner, M. J.; Altman, D. G. (1986-03-15). “Confidence intervals rather than P values: estimation rather than hypothesis testing”. British Medical Journal (Clinical Research Ed.). 292 (6522): 746—750. DOI:10.1136/bmj.292.6522.746. ISSN 0267-0623. PMC 1339793. PMID 3082422.

[19] Ho, Joses; Tumkaya; Aryal; Choi; Claridge-Chang (2018). “Moving beyond P values: Everyday data analysis with estimation plots”. bioRxiv: 377978. DOI:10.1101/377978. Архивировано из оригинала 2018-07-28. Дата обращения 2021-01-20. Используется устаревший параметр |deadlink= (справка)

[20] Baril G. L., Cannon J. T. What is the probability that null hypothesis testing is meaningless? (англ.). — 1995.

[earth-21] Cohen, Jacob (1994). “The earth is round (p < .05)”. American Psychologist. 49 (12): 997—1003. DOI:10.1037/0003-066X.49.12.997.

[22] Ellis, Paul. The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. — Cambridge : Cambridge University Press, 2010.

[23] The Significance Test Controversy: A Reader / Denton E. Morrison, Ramon E. Henkel. — Aldine Transaction, 2006. — ISBN 978-0202308791.

[24] Beyth-Marom, R; Fidler, F.; Cumming, G. (2008). “Statistical cognition: Towards evidence-based practice in statistics and statistics education”. Statistics Education Research Journal. 7: 20—39.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

Статистика оценки

История

Методология

График Гарднера — Альтмана

График Камминга

Другие методологии

Недостатки в проверке гипотез

Преимущества статистики оценки

Преимущества доверительных интервалов

Доказательная статистика

Планирование точности (Precision planning)

Примечания

Категории