Лекция 3 Особенности подбора репрезентативной выборки

Особенности подбора

репрезентативной выборки

ЛЕКЦИЯ 3

Структурный состав выборки

ВЫБОРКА

РЕПРЕЗЕНТАТИВНАЯНЕРЕПРЕЗЕНТАТИВН

АЯ

ВЕРОЯТНОСТНАЯ ПРОСТАЯ (УДОБНАЯ)

СЛУЧАЙНАЯ

СТРАТИФИЦИРОВАННАЯ(РАССЛОЕННАЯ)

ГРУППОВАЯ (КЛАСТЕРНАЯ, ГНЕЗДОВАЯ)

ПРОСТАЯ (УДОБНАЯ) ВЫБОРКА

Если исследователь изучает конкретные особенности некоторой популяции на основании изучения ее части, то без использования вероятностной выборки он не может рассчитывать на ценные научные результаты.

Если же предметом исследования становятся закономерности протекания психических процессов, то просто предполагается, что такие закономерности будут одинаковыми у большинства людей. Например, Г. Эббингауз, проводивший эксперименты с границами кратковременной памяти, вполне разумно предположил, что выявленная им закономерность будет характерна для человеческой психики в целом, а не только для тех добровольцев, что приняли участие в его исследованиях. Выводы из эксперимента «Маленький Альберт», проведенного Дж. Уотсоном, касающиеся механизмов обусловливания и научения, разумно распространить по крайней мере на других детей.

Поскольку выявлением психологических механизмов и причинно-следственных связей занимается экспериментальная психология, можно сказать, что простые выборки – это наиболее частые выборки именно в экспериментальных исследованиях.

Правильное использование техник формирования выборки способствует повышению её репрезентативности!

1.1 СЛУЧАЙНАЯ ВЫБОРКА

Когда строится обычная случайная выборка, это означает, что исследователь даёт возможность каждому члену популяции попасть в выборку.

Случайная выборка имеет 2 недостатка. 1) Может случиться так, что та часть

популяции, из которой осуществляется выборка, существенно отличается от популяции в целом, (девушек больше, чем юношей; часть студентов гуманитарии, часть – технари, и т.д.).

2) Может проявиться в том случае, если формируется очень большая выборка (тогда список с членами популяции может превысить возможности исследователя выбирать из него фамилии случайным образом).

Для решения этих проблем служат стратифицированная (расслоенная) и групповая (кластерная, гнездовая) выборки.

1.2 СТРАТИФИЦИРОВАННАЯ (РАССЛОЕННАЯ) ВЫБОРКА

Выборка отображает соотношение важных групп (или «страт») популяции.

Пример, исследуем отношения студентов к гражданским бракам. Нам нужно, чтобы результаты учитывали гендерные различия. В этом случае выборка «расслаивается»: исследователь случайным способом производит два набора участников – отдельно из списка мужчин и отдельно из списка женщин. Количество участников разного пола, необходимое для выборки, будет определяться процентным соотношением этого признака в популяции. Например, в данном случае разумно набирать мужчин и женщин в равном соотношении, поскольку в популяции численность мужчин и численность женщин примерно равны.

Кроме гендерного признака, могут показаться важными и другие различия, например вероисповедание, наличие обоих родителей у студента, национальная принадлежность и т.д. Исследователь может расслаивать свою выборку на множество страт, но очевидно, что он должен где-то остановиться. Для расслоения выборки одни характеристики являются более важными, другие – менее. Исследователь должен разумно отнестись к численности подгрупп в соответствии с условиями и целями исследования.

1.3 ГРУППОВАЯ ВЫБОРКА (КЛАСТЕРНАЯ, ГНЕЗДОВАЯ) Если популяция настолько велика, что невозможно получить полный

список членов, или если этот список слишком велик, используется групповая выборка (иногда ее называют гнездовой или кластерной, а также многоступенчатой). В этом случае исследователь случайным образом выбирает группу людей (кластер), имеющих определенную особенность, не важную с точки зрения исследуемых переменных.

Например, исследователя интересует отношение жителей крупного города к качеству муниципальных детских садов и их достаточности. Всего в городе, допустим, 500 муниципальных детских садов. Первым шагом может быть исключение садов, которые имеют нечетный номер. Затем сады, расположенные на улицах, в названиях которых есть буква «А», тоже выбывают из нашего списка. Допустим, осталось 20 учреждений, или примерно 2000 семей. Это число, конечно, меньше, чем первоначальное, но даже 2000 семей требуют серьезного исследовательского обеспечения. Поэтому можно сделать окончательный выбор, воспользовавшись элементами расслоенной выборки. Если известно, что эти сады располагаются в разных районах города, можно использовать переменную «район города» для расслаивания выборки. И тогда случайным образом отобрав два сада в каждом из пяти районов города, получим для исследования 10 садов, которые обслуживают около 1000 семей. А это вполне приемлемое количество для исследования. Нужно сказать, что групповые выборки редко формируются в

психологических исследованиях, за исключением ситуаций национальных опросов или стандартизации того или иного теста.

1.5 ЗАВИСИМЫЕ И НЕЗАВИСИМЫЕ ВЫБОРКИ Зависимые выборки содержат результаты,

полученные на одной и той же группе испытуемых, но в разное время. Например, до и после стимульного воздействия. Количество объектов в этих выборках всегда одинаковое.

Независимые выборки содержат результаты исследования двух различных групп испытуемых. Например, это экспериментальная и контрольная группы. Допускается, чтобы количество объектов в них было различным.

Зависимые и независимые выборки называются также связанными и несвязанными.

Для иллюстрации можно предложить следующую схему (табл. 1).

Таблица 1Схематическое представление психологического

исследования Экспериментальная группа Контрольная группа

1. Начальный срез 2. Начальный срез

Стимульное воздействие есть Стимульного воздействия нет

3. Конечный срез 4. Конечный срез

Группы 1 и 3 являются зависимыми выборками. Также зависимыми являются выборки 2 и 4.

Перед началом исследования требуется сравнить выборки 1 и 2, чтобы удостовериться, что испытуемые имеют одинаковый исходный уровень. Эта процедура называется «оценка достоверности различий». Указанные группы 1 и 2 являются независимыми выборками.

На фазе заключительных срезов сравниваются показатели выборок 1 и 3, чтобы удостовериться, что был сдвиг каких-либо психологических параметров под влиянием стимульного воздействия. Эта процедура называется «оценка достоверности сдвига». Необходимо также убедиться в том, что сдвиг был вызван именно стимульным воздействием, а не влиянием другого неконтролируемого фактора. Для этого следует снова оценить достоверность сдвига, но уже в выборках 2 и 4.

Оценки достоверности различий и достоверности сдвигов определяются посредством использования специальных статистических критериев.

2 ОБЪЕМ ВЫБОРКИ

Существует еще одна характеристика выборки – ее объем, т.е. количество элементов генеральной совокупности, включенных в выборку. Ранее уже отмечалось, что большая выборка не значит выборка репрезентативная. Но правильно вычисленный объем выборки уменьшит ошибку измерения до пренебрежительно малой величины, т.е. усилит уверенность исследователя в возможности распространить результаты измерения на генеральную совокупность.

Не существует правила, по которому можно было бы определить единственно верный объем выборки для определенной генеральной совокупности. Обобщая, можно сказать, что объем выборки вычисляют, ориентируясь на несколько параметров: 1) задачи и методы исследования; 2) однородность необходимой генеральной совокупности; 3) вероятность ошибки, которую допускает для себя исследователь; 4) требуемая точность результатов (предельная ошибка репрезентативности выборки); 5) взаимное влияние этих показателей.

1) Задачи и методы исследования Это критерий, которым иногда можно ограничиться,

решая вопрос об объеме выборки. Так, например, факторный анализ наиболее адекватен, когда выборка составляет не менее 100 случаев(испытуемых, показателей). Анализ данных, полученных в номинальной шкале измерения, требует порядка 20 случаев на каждое возможное сочетание параметров выборки. Предположим, исследуется связь стремления к достижению социально-экономического статуса и пола студента. Каждая категория может быть представлена на нескольких «уровнях»: стремление к достижению — на трех уровнях (высокое, среднее, низкое), социально-экономический статус - на трех уровнях (высокий, средний, низкий) и пол — на двух «уровнях» (мужской и женский). Число возможных сочетаний 3×3×2=18. Из расчета 20 случаев на одно сочетание получаем:

18×20 = 360.

Для корреляционного или регрессионного анализа потребуется не менее 10 случаев на 1 переменную. Допустим, если необходимо узнать, как связаны боязнь неудачи, умственные способности и величина заработной платы (три переменные), то для вычисления коэффициентов корреляции и регрессии потребуется не менее 30 участников.

Вышеприведенные правила не являются строгими, т.е. не являются единственно верным результатом математического рассуждения. Они основаны на связи между взаимными изменениями ошибки измерения, точности результатов и объема выборки, установленных во множестве прежде проведенных исследований, и обобщают эту связь. Данные правила при их корректном использовании лишь обеспечат исследователю определенный уровень доверия к полученным результатам.

2) Однородность генеральной

совокупности Чем более однородна выборка, тем меньший

объем выборки будет достаточным для исследования.

Выражаясь более формально, дисперсия исследуемого признака в однородной совокупности меньше, чем в неоднородной. В сущности, увеличение выборки приводит к уменьшению дисперсии (хотя связь между объемом выборки и дисперсией не является линейной).

Пример: возьмем 10 выборок директоров школ из генеральной совокупности директоров школ большого города для исследования их отношения к Единому государственному экзамену. Пусть отношение к ЕГЭ оценивалось по 5-балльной шкале. Гипотетические результаты этого исследования и пояснения к ним показаны в табл. 2.

Таблица 2 Объем выборки директоров школи дисперсия ответов на вопрос об их отношении к ЕГЭ

Объем выборки Дисперсия 25 0,87

50 0,80

75 0,73

100 0,69

125 0,61

150 0,55

175 0,49

200 0,46

225 0,47

250 0.46

Комментарий. Сначала увеличение выборки приводило к уменьшению дисперсии (до выборки в 175 человек включительно). Затем увеличение выборки не влияло на дисперсию. Выделенные значения указывают на оптимальный объем выборки (200-250 человек) и ожидаемую дисперсию признака.На практике, однако, редко бывает так, что предыдущие исследования дают значение оптимального объема выборки на основе анализа дисперсии. Тем не менее, в отдельном эмпирическом исследовании анализ связи дисперсии и объема выборки может указать на недостаточность набранной выборки.

3) Вероятность ошибки (уровень статистической значимости) p.

Данный показатель говорит о степени нашей уверенности в полученном результате. Исторически сложилось так, что в психологии принято считать допустимой вероятность ошибиться в 5 случаях из 100 или меньше (<5%). Вероятность ошибки обозначают как р. Так что обычный низший уровень статистической значимости обозначается как р < 0,05. Кроме того, используются уровни р< 0,01 и р < 0,001.

Связь объема выборки с вероятностью ошибки хорошо видна из таблиц критических значений статистических критериев (t-Стьюдента, φ-Фишера, Колмогорова-Смирнова и др., которые имеются в любом учебнике по статистике). Можно заметить, что достижение одной и той же критической величины облегчается с увеличением числа случаев.

4) Предельная ошибка репрезентативности выборки («ошибка выборки») Эта статистическая величина (обозначается

греческой буквой «дельта» - Δ) показывает долю отклонения показателя, полученного в выборочной совокупности, от показателя, который получили бы, сделав измерение на всей генеральной совокупности. В принципе, можно заранее определить ту ошибку

выборки, на какую согласны, и то, какова будет принимаемая ошибка, задаст нам примерный объем выборки, который потребуется. Так, можно согласиться с тем, чтобы наш показатель (полученный на реальной выборке) отличался от «истинного» (если бы мы могли его получить на генеральной совокупности) в пределах ±4%. Чем большую ошибку выборки мы заранее принимаем, тем меньше может быть выборка. Обычно в социальных исследованиях допускается Δ от 1 до 10%. Существуют специальные таблицы, где

желательный объем выборки уже высчитан для той или иной предельной ошибки репрезентативности (табл. 3).

Таблица 3

Величина ошибки выборки в зависимости от ее объема

Данные этой таблицы говорят о том, что если, к примеру, берется выборка учителей школ города численностью 25 человек и измеряется их средний уровень конформности по соответствующему тесту, то показатель будет иметь погрешность ±20% по отношению к конформности в генеральной совокупности. Очевидно, что с увеличением объема выборки предельная ошибка репрезентативности уменьшается.

Объем выборки, если генеральная

совокупность>= 5000

25 45 100 123 156 204 400 625

Ошибка выборки при данном

объеме, (%)

20 15 10 9 8 7 5 4

5) Совместное использование вероятности ошибки и предельной ошибки репрезентативности выборки

Как ни запутанно это может звучать, но существует понятие «вероятности ошибки в ошибке выборки». Это означает, что можно ошибиться в допускаемой погрешности. На самом деле всегда есть риск ошибиться в прогнозе события, даже если этим событием является ошибка. Рассмотрим следующий пример, который покажет, как связаны эти два понятия: принимаемая погрешность и вероятность ошибиться в ней. Допустим, в предстоящую сессию вам – достаточно усердному студенту (студентке) – надо сдать шесть экзаменов. Предположим, что вы делаете два различных прогноза относительно своей успешности:

1) 6 экзаменов будут сданы на одни 5; 2) 6 экзаменов будут сданы на 4 и 5. В первом случае не допускается никакой погрешности

(«только пятерки»), а во втором случае допускается погрешность в 0,5 балла («среднее между пятеркой и четверкой»). Как вы считаете, какой прогноз более рискованный? Очевидно, первый, и именно потому, что он точнее. Так что чем точнее прогноз, тем больше риск, что будет допущена ошибка.

Причем в одном случае есть возможность пересдать, а в другом случае – нет. Количество возможностей для пересдачи – это объем выборки. Допускаемая погрешность – это предельная ошибка выборки. Уверенность в своем прогнозе – это вероятность ошибки. Посмотрим как меняются значения этих показателей относительно друг друга (табл. 4).

Таблица 4

Иллюстрация связи объема выборки,ошибки выборки и степени уверенности

Понятно, что если мы прогнозируем, что сдадим сессию на пятерки, вероятность того, что прогноз ошибочен, выше. Однако если при этом можно корректировать число попыток, то уменьшается вероятность ошибки за счет увеличения числа попыток. Теперь оказывается возможным прийти к одному и тому же объему выборки (числу попыток) разными способами: 3 попытки -оптимальный «объем выборки», если прогнозируем только пятерки с уверенностью 90%, пятерки и четверки — с уверенностью 95% и пятерки, четверки и тройки - с уверенностью 99%. Иными словами, увеличивая точность прогноза, придется снижать степень уверенности для сохранения того же самого объема выборки.

Прогноз Степень уверенности, %

90 95 99

Только 5 3 попытки 4 попытки 5 попыток

5 и 4 2 попытки 3 попытки 4 попытки

5, 4 и 3 1 попытка 2 попытки 3 попытки

6) Совместное использование ошибки репрезентативности выборки и дисперсии признака

В этой части допускается возможность вычислить объем выборки по формуле. Можно достаточно точно посчитать необходимый нам объем выборки, если известна, предположим из предыдущих исследований, дисперсия интересующего нас признака. Хотя ситуация, когда исследователь имеет представление о дисперсии из прошлых работ, встречается не часто, стоит рассмотреть и этот случай. Это сделает обзор способов расчета объема выборки более законченным, а читателя - более подготовленным.Современные статистические программы,

например STATISTICA позволят наиболее точно определить объем выборки для исследования. Специальные учебники по теории вероятности и математической статистике предоставят возможность выбрать как можно более подходящую для рассматриваемого случая формулу расчета объема выборки и ее погрешности.

Подводя итоги: Необходимость формирования выборки определяется невозможностью

участия в исследовании всех интересующих нас людей. Выборка должна по своим характеристикам максимально точно соответствовать характеристикам генеральной совокупности. Тогда эта выборка будет репрезентативна генеральной совокупности и результаты, которые получены в исследовании, проведенном на этой выборке, можно будет распространять на генеральную совокупность. Все подходы к формированию выборки можно разделить на две группы: вероятностные и невероятностные.

При формировании вероятностной выборки предоставляется шанс любому человеку из генеральной совокупности стать участником нашего исследования. Существует три вида вероятностной выборки: случайная, расслоенная и кластерная.

Если задачей исследования является описание особенностей популяции на основе ее части, то без вероятностной выборки качество исследования снизится. В большей части психологических исследований, однако, используется так называемая удобная выборка, являющаяся разновидностью невероятностной выборки. Связано это с тем, что целью исследования часто становится изучение связи между переменными, а не точное описание некоторой популяции. Исследователи просто предполагают, что психологические закономерности обязательно проявятся у всех членов этой популяции вне зависимости от того способа, каким формировалась выборка.

Объем выборки - это вторая после репрезентативности характеристика выборки. Объем выборки определяется численностью входящих в нее элементов.

Объем выборки зависит от целей и методов исследования, от гомогенности генеральной совокупности, от принимаемой исследователем погрешности выборки и от его уверенности в этой погрешности. Кроме того, некоторые из этих показателей могут взаимодействовать между собой, и тогда численность выборки рассчитывается на основе учета этого взаимодействия.

Education

Лекция 3 Особенности подбора репрезентативной выборки