Выборка

Вы́борка или вы́борочная совоку́пность — часть генеральной совокупности элементов, которая охватывается экспериментом (наблюдением, опросом).

Характеристики выборки:

  • Качественная характеристика выборки — что именно мы выбираем и какие способы построения выборки мы для этого используем.
  • Количественная характеристика выборки — сколько случаев выбираем, другими словами объём выборки.

Выборка в математической статистике

Последовательность независимых случайных величин , соответствующих всем возможным результатам статистических экспериментов и имеющих одинаковый закон распределения вероятностей со случайной величиной , называется выборкой объёма , порождённой случайной величиной [1]. Если  — дискретная случайная величина, то выборкой объёма называется любое подмножество объектов генеральной совокупности объёма , выбранное равновероятно среди всех таких подмножеств[1].

Объём выборки

Объём выборки — число случаев, включённых в выборочную совокупность.

Выборки можно условно разделить на большие и малые, так как в математической статистике используются различные подходы в зависимости от объёма выборки. Считается, что выборки объёма больше 30 можно отнести к большим[2].

Зависимые и независимые выборки

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми. Примеры зависимых выборок:

  • пары близнецов,
  • два измерения какого-либо признака до и после экспериментального воздействия,
  • мужья и жёны
  • и т. п.

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми, например:

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев:

Репрезентативность

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной. Выборка будет репрезентативной при обследовании большой группы людей, если внутри этой группы есть представители разных подгрупп, только так можно сделать верные выводы.

Пример нерепрезентативной выборки

В США одним из наиболее известных исторических примеров нерепрезентативной выборки считается случай, происшедший во время президентских выборов в 1936 году[3]. Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, а также людям, выбранным по телефонным книгам всей страны и людям из регистрационных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом:

На действительных же выборах, как известно, победил Рузвельт, набрав более 60 % голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — так как им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счёт людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали ещё больше республиканцев: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и высшего класса (то есть большинство республиканцев, а не демократов).

Виды плана построения групп из выборок

Выделяют несколько основных видов плана построения групп[4]:

  1. Исследование с экспериментальной и контрольной группами, которые ставятся в разные условия.
    • Исследование с экспериментальной и контрольной группами с привлечением стратегии попарного отбора
  2. Исследование с использованием только одной группы — экспериментальной.
  3. Исследование с использованием смешанного (факторного) плана — все группы ставятся в разные условия.

Типы выборок

Выборки делятся на два типа:

  • вероятностные
  • невероятностные

Простая повторная выборка

Использование такой выборки основывается на предположении, что каждый респондент с равной долей вероятности может попасть в выборку. На основе списка генеральной совокупности составляются карточки с номерами респондентов. Они помещаются в колоду, перемешиваются и из них наугад вынимается карточка, записывается номер, потом возвращается обратно. Далее процедура повторяется столько раз, какой объём выборки нам необходим. Минус: повторение единиц отбора.

Процедура построения простой случайной выборки включает в себя следующие шаги:

1) необходимо получить полный список членов генеральной совокупности и пронумеровать этот список. Такой список, напомним, называется основой выборки;

2) определить предполагаемый объём выборки, то есть ожидаемое число опрошенных;

3) извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел. Эти случайные числа могут генерироваться компьютерной программой.

4) выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам

  • Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информации с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения:

1) нередко сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.

2) результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределённая по большой географической территории, что значительно увеличивает время и стоимость сбора данных.

3) результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.

4) в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объёме выборки.

Простая бесповторная выборка

Процедура построения выборки такая же, только карточки с номерами респондентов не возвращаются обратно в колоду.

  1. Систематическая вероятностная выборка. Является упрощённым вариантом простой вероятностной выборки. На основе списка генеральной совокупности через определённый интервал (К) отбираются респонденты. Величина К определяется случайно. Наиболее достоверный результат достигается при однородной генеральной совокупности, иначе возможны совпадение величины шага и каких-то внутренних циклических закономерностей выборки (смешение выборки). Минусы: такие же как и в простой вероятностной выборке.
  2. Серийная (гнездовая) выборка. Единицы отбора представляют собой статистические серии (семья, школа, бригада и т. п.). Отобранные элементы подвергаются сплошному обследованию. Отбор статистических единиц может быть организован по типу случайной или систематической выборки. Минус: Возможность большей однородности, чем в генеральной совокупности.
  3. Районированная выборка. В случае неоднородной генеральной совокупности, прежде, чем использовать вероятностную выборку с любой техникой отбора, рекомендуется разделить генеральную совокупность на однородные части, такая выборка называется районированной. Группами районирования могут выступать как естественные образования (например, районы города), так и любой признак, заложенный в основу исследования. Признак, на основе которого осуществляется разделение, называется признаком расслоения и районирования.
  4. «Удобная» выборка. Процедура «удобной» выборки состоит в установлении контактов с «удобными» единицами выборки — с группой студентов, спортивной командой, с друзьями и соседями. Если необходимо получить информацию о реакции людей на новую концепцию, такая выборка вполне обоснована. «Удобную» выборку часто используют для предварительного тестирования анкет.

Невероятностные выборки

Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям — доступности, типичности, равного представительства и т. д.

  1. Квотная выборка — выборка строится как модель, которая воспроизводит структуру генеральной совокупности в виде квот (пропорций) изучаемых признаков. Число элементов выборки с различным сочетанием изучаемых признаков определяется с таким расчётом, чтобы оно соответствовало их доле (пропорции) в генеральной совокупности. Так, например, если генеральная совокупность у нас представлена 5000 человек, из них 2000 женщин и 3000 мужчин, тогда в квотной выборке у нас будут 20 женщин и 30 мужчин, либо 200 женщин и 300 мужчин. Квотированные выборки чаще всего основываются на демографических критериях: пол, возраст, регион, доход, образование и прочих. Минусы: обычно такие выборки нерепрезентативны, так как нельзя учесть сразу несколько социальных параметров. Плюсы: легкодоступный материал.
  2. Метод снежного кома. Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т. д.)
  3. Стихийная выборка — выборка так называемого «первого встречного». Часто используется в теле- и радиоопросах. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром — активностью респондентов. Минусы: невозможно установить какую генеральную совокупность представляют опрошенные, и как следствие — невозможность определить репрезентативность.
  4. Маршрутный опрос — часто используется, если единицей изучения является семья. На карте населённого пункта, в котором будет производиться опрос, нумеруются все улицы. С помощью таблицы (генератора) случайных чисел отбираются большие числа. Каждое большое число рассматривается как состоящее из 3-х компонентов: номер улицы (2-3 первых числа), номер дома, номер квартиры. Например, число 14832: 14 — это номер улицы на карте, 8 — номер дома, 32 — номер квартиры.
  5. Районированная выборка с отбором типичных объектов. Если после районирования из каждой группы отбирается типичный объект, то есть объект, который по большинству изучаемых в исследовании характеристик приближается к средним показателям, такая выборка называется районированной с отбором типичных объектов.
  6. Модальная выборка.
  7. Экспертная выборка.
  8. Гетерогенная выборка.

Современные тенденции и методы

В социологических исследованиях 2020-х годов наметился сдвиг в сторону дистанционных методов сбора данных. Так, по данным анализа за 2022 год, в количественных исследованиях в России доминировали телефонные опросы (41 %) и онлайн-выборки (32 %), в то время как на долю традиционных личных опросов (face-to-face) пришлось менее четверти проектов[5].

Рост популярности онлайн-исследований привёл к развитию и систематизации специфических видов выборок. В научной литературе выделяются три основных типа онлайн-выборок[6]:

  • Панельная выборка — формируется из заранее созданной базы данных респондентов (онлайн-панели), которые дали согласие на регулярное участие в опросах[7].
  • Поточная выборка (англ. river sampling) — респонденты рекрутируются в режиме реального времени из различных интернет-источников (например, с помощью баннеров на сайтах) и перенаправляются для прохождения опроса.
  • Стихийная выборка — образуется из «первых встречных» респондентов, откликнувшихся на открытое приглашение к участию в исследовании (например, по ссылке в социальных сетях).

В области статистического контроля качества наблюдается тенденция к обновлению и гармонизации нормативной базы. С 1 января 2022 года в России введён в действие ГОСТ Р 50779.12-2021 «Статистические методы. Статистический контроль», устанавливающий правила отбора единиц продукции в выборку[8]. Также в 2022 году был принят ГОСТ Р ИСО 2859-2-2022, идентичный международному стандарту ISO 2859-2:2020 и регламентирующий процедуры выборочного контроля для отдельных партий продукции[9].

Стратегии построения групп

Отбор групп для их участия в психологическом эксперименте осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности[10].

Рандомизация

Рандомизация, или случайный отбор, используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов вуза, можно сложить бумажки с именами всех студентов вуза в шляпу, а затем достать из неё 100 бумажек — это будет случайным отбором (Гудвин Дж., с. 147)……

Попарный отбор

Попарный отбор — стратегия построения групп выборки, при котором группы испытуемых составляются из субъектов, эквивалентных по значимым для эксперимента побочным параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом — привлечением близнецовых пар (моно- и дизиготных).

Стратометрический отбор

Стратометрический отбор — рандомизация с выделением страт (или кластеров). При данном способе формирования выборки генеральная совокупность делится на группы (страты), обладающие определёнными характеристиками (пол, возраст, политические предпочтения, образование, уровень доходов и др.), и отбираются испытуемые с соответствующими характеристиками.

Приближённое моделирование

Приближённое моделирование — составление ограниченных выборок и обобщение выводов об этой выборке на более широкую популяцию. Например, при участии в исследовании студентов 2-го курса университета, данные этого исследования распространяются на «людей в возрасте от 17 до 21 года». Допустимость подобных обобщений крайне ограничена.

Приближённое моделирование — формирование модели, которая для чётко оговорённого класса систем (процессов) описывает его поведение (или нужные явления) с приемлемой точностью.

Примечания

Литература

  • Наследов А. Д. Математические методы психологического исследования. — СПб.: Речь, 2004.
  • Остапенко Р. И. Математические основы психологии. — Воронеж.: ВГПУ, 2010. — 76 c.
  • Ильясов Ф. Н. Репрезентативность результатов опроса в маркетинговом исследовании // Социологические исследования. — 2011. — № 3. — С. 112—116.
  • Ильясов Ф. Н. Обратная задача выборки и мотивация на рынке Форекс // Социальные исследования. — 2016. — № 2. — С. 49-59.
  • Ильясов Ф. Н. Алгоритмы формирования выборки социологического опроса // Социальные исследования. — 2017. — № 2. — С. 60-75.
  • Лебедев А. В., Фадеева Л. Н. Теория вероятностей и математическая статистика: Учебник для вузов. — 4-е изд. — М.: КноРус, 2018. — 476 с.
  • Valliant R., Dever J. A., Kreuter F. Practical Tools for Designing and Weighting Survey Samples. — 2nd ed. — Springer, 2018. — ISBN 978-3-319-93632-1.
  • Примаков В. Л. Панельная, поточная и стихийная онлайн-выборки в социологических исследованиях: методика построения и реализации // Социологический альманах. — 2019. — № 10. — С. 347—355.
  • Чуриков А. В. Основы построения выборки для социологических исследований. — М.: Институт Фонда «Общественное мнение», 2020. — 264 с.
  • Медведев П. С. Панели как стратегия формирования выборки в социологических и маркетинговых исследованиях // Социология. — 2020. — № 4. — С. 221—229.
  • Могильчак Е. Л. Методика социологического исследования. Выборочный метод: учебное пособие. — 2-е изд., испр. и доп. — М.: Юрайт, 2021. — 131 с.
  • Примаков В. Л. Особенности формирования онлайн-выборок в социологических исследованиях // Вестник Московского государственного лингвистического университета. Общественные науки. — 2021. — № 4 (845). — С. 166—176.
  • Бузина Т. В. (сост.) Статистика: учебное пособие. — СПб.: ПОЛИТЕХ-ПРЕСС, 2022. — 81 с.
  • Жигунова Г. В., Шарова Е. Н. Методология и методика социологического исследования: учебное пособие. — Красноярск: СибГУ им. М. Ф. Решетнёва, 2024. — 102 с.
  • Примаков В. Л. К вопросу о классификации методов формирования выборок в социологических исследованиях // Вестник Московского государственного лингвистического университета. Общественные науки. — 2024. — № 1 (854). — С. 153—159.

Ссылки