ПСИХОДИАГНОСТИКА - cis.rosnou.rucis.rosnou.ru/UniversysDWNL/Library/BE23205E-A995-45A8-9216-550A1958A4... · за достаточный уровень значимости

РОССИЙСКИЙ НОВЫЙ УНИВЕРСИТЕТ ИНСТИТУТ ДИСТАНЦИОННОГО ОБУЧЕНИЯ

1350.02.01.1

ПСИХОДИАГНОСТИКА

МОДУЛЬ 2

ПСИХОМЕТРИЧЕСКИЕ ОСНОВЫ РАЗРАБОТКИ, АДАПТАЦИИ И ПРИМЕНЕНИЯ

ПСИХОДИАГНОСТИЧЕСКИХ МЕТОДИК

Москва 2003 РОССИЙСКИЙ НОВЫЙ УНИВЕРСИТЕТ

2

ИНСТИТУТ ДИСТАНЦИОННОГО ОБУЧЕНИЯ

1350.02.01.1 Рабочий учебник

Фамилия, имя, отчество ___________________ Факультет _______________________________ Номер договора ___________________________


МОДУЛЬ 2

ПСИХОМЕТРИЧЕСКИЕ ОСНОВЫ РАЗРАБОТКИ, АДАПТАЦИИ И ПРИМЕНЕНИЯ


Москва 2003

3

Разработано Сыромятниковым И.В., кандидатом психологических наук, доцентом

Рецензент:


Модуль 1. Психодиагностика как область науки и практическая

деятельность. Модуль 2. Психометрические основы разработки, адаптации и применения

психодиагностических методик. Модуль 3. Психодиагностика способностей и темперамента. Проективные

методы изучения личности. Модуль 4. Характер, мотивация, сознание: возможности и особенности

психодиагностики.

Рекомендовано Научно-методическим советом

Российского нового университета в качестве рабочего учебника для студентов.

Модуль 2

В пособии раскрываются основные понятия и задачи психометрии, правила разработки и стандартизации психодиагностических методик, содержание деятельности по анализу надежности, валидности психодиагностических методик.

Для студентов Российского нового университета

Модуль соответствует содержательной версии предмета № 1

1350.02.01.1

С Российский новый университет, 2003

4

СОДЕРЖАНИЕ

Стр. БАЗОВОЕ СОДЕРЖАНИЕ МОДУЛЯ ТЕМАТИЧЕСКИЙ ОБЗОР 1. Общее понятие об эффективности психодиагностических

методик

1.1. Психометрия и ее роль в обеспечении эффективности

психодиагностических методик

1.2. Основные характеристики эффективных

психологических методик

1.2.1. Валидность и ее виды

1.2.2. Надежность теста

1.2.3. Дискриминативность психодиагностической методики

1.2.4. Достоверность теста

2. Проблема измерения в психодиагностике

2.1. Теоретические аспекты психологических измерений

2.2. Типы измерительных шкал и их описание

2.2.1. Номинативная измерительная шкала

2.2.2. Порядковая измерительная шкала

2.2.3. Интервальная измерительная шкала

2.2.4. Измерительная шкала равных отношений

2.2.5. Другие шкалы

2.3. Практика психологических измерений

2.4. Конструирование шкалы как эталона измерения

3. Подбор и адаптация психологических методик

3.1. Требования к структуре и содержанию методик

3.2. Алгоритм подбора и адаптации методик

3.3. Проверка распределения признака

5

3.4. Стандартизация показателей

3.5. Этапы проектирования психодиагностической методики

и их содержание

4. Основные требования по созданию надежных психодиагнос-

тических методик

4.1. Правила отбора, формулировки и анализа заданий тестов

4.2. Проблемы конструирования личностных опросников

и правила составления их заданий

4.3. Проблемы конструирования тестов достижений

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ

ЛИТЕРАТУРА

ТЕРМИНОЛОГИЧЕСКИЙ СЛОВАРЬ

6

БАЗОВОЕ СОДЕРЖАНИЕ МОДУЛЯ

Общее понятие об эффективности психодиагностических методик.

Понятие о психометрии. Психометрия и ее роль в обеспечении

эффективности психодиагностических методик. Основные характеристики

эффективных психологических методик. Валидность и ее виды.

Надежность теста. Критерии надежности. Факторы нестабильности

процедуры измерения. Стандартная ошибка измерения. Источники

неудовлетворительной надежности теста. Виды надежности теста.

Дискриминативность психодиагностической методики. Достоверность

теста. Шкала лжи и ее функции.

Проблема измерения в психодиагностике. Теоретические аспекты

психологических измерений. Понятие измерения. Числовые системы и

шкалирование. Специфика измерения в психологии. Типы измерительных

шкал и их описание. Номинативная шкала. Порядковая измерительная

шкала. Интервальная измерительная шкала. Измерительная шкала равных

отношений. Другие шкалы. Практика психологических измерений.

Классификация методов психологических измерений. Проблемы,

связанные с использованием шкалирования. Конструирование шкалы как

эталона измерения. Поиск эталона измерения. Способы повышения

обоснованности измерения. Приемы контроля на устойчивость измерения.

Дробность методики.

Подбор и адаптация психологических методик. Требования к

структуре и содержанию методик. Алгоритм подбора и адаптации

методик. Учет основных принципов организации и проведения

психодиагностической деятельности при подборе методик. Основные

этапы адаптации теста. Проверка распределения признака. Понятие о

нормальном распределении. Основные параметры распределения.

Стандартизация показателей. Формы стандартизации. Определение норм

7

для теста. Правила формирования выборки стандартизации. Виды

преобразований первичных оценок. Этапы проектирования

психодиагностической методики и их содержание.

Основные требования по созданию надежных

психодиагностических методик. Правила отбора, формулировки и

анализа заданий тестов. Задания закрытого и открытого типа. Правила

выбора и упорядочивания заданий при испытаниях теста. Правила

формулирования заданий. Проблемы конструирования личностных

опросников и правила составления их заданий. Проблемы

конструирования тестов достижений. Психологика испытуемого и тестовая

искушенность.

8

ТЕМАТИЧЕСКИЙ ОБЗОР СОДЕРЖАНИЯ МОДУЛЯ

1.ОБЩЕЕ ПОНЯТИЕ ОБ ЭФФЕКТИВНОСТИ


1.1. Психометрия и ее роль в обеспечении эффективности

психодиагностических методик

Для психологии, как и для других наук о человеке, особое значение

имеет вопрос о качестве информации, получаемой в процессе применения

различных методов и средств. Это связано с тем, что источником

информации здесь является человек. Можно выделить два вида параметров

качества получаемой информации: объективные и субъективные.

Психометрия как раз и имеет дело с задачей обеспечения надежности

тех параметров, которые квалифицируются как «субъективные». Несмотря

на то, что ответы человека на вопросы теста или анкеты составляют

«субъективную» информацию, ее можно получить в максимально полной

и надежной форме, а можно и упустить многие важные моменты,

проистекающие из этой «субъективности». Для преодоления ошибок

такого рода и вводится ряд психометрических требований.

Данные требования в первую очередь касаются качества того

инструмента (теста, опросника), посредством которого собираются

данные: прежде всего точности, достоверности и адекватности методики

измерения, сопоставимости получаемых с ее помощью результатов.

Психологическая методика может быть охарактеризована как эффективная

при условии, что она удовлетворяет определенным требованиям.

Основные из них связаны с использованием шкалы интервалов, наличием

нормативных данных (либо критериев, установленных экспертами), а

также такими характеристиками методик, как их надежность, валидность,

дискриминативность,

9

Соответствие этим требованиям устанавливается путем применения

специальных математико-статистических процедур.

Понятие психометрии введено в 1734 году Христианом Вольфом, впервые

указавшим на возможность измерения в психологии. Одним из первых измерений в

психологии было измерение времени реакции, поэтому первоначально под

психометрией понималось измерение временных характеристик психических

процессов. Впоследствии, по мере развития психологического эксперимента,

строящегося по образцу естественных наук, к психометрии начинают относить все то,

что связано с количественным определением психических явлений. В 20–30-е годы ХХ

века благодаря развитию тестирования формируется и развивается особая область

психометрии, которая имеет дело с индивидуальными психологическими различиями –

дифференциальная психометрия. Дифференциальная психометрия

(дифференциальная психометрика) – область психометрии, определяющая и

обосновывающая требования к измерению индивидуально-психологических различий в

психологической диагностике. В настоящее время под психометрией (психометрикой)

понимается область психологии, связанная с теорией и практикой измерения

психических явлений. Психометрия обосновывает требования, которым должны

удовлетворять измерительные психодиагностические методы, обосновывает процедуры и

правила их разработки и применения.

1.2. Основные характеристики эффективных

психологических методик

1.2.1. Валидность и ее виды

Валидность (англ. valid – действительный, пригодный, имеющий

силу) – комплексная характеристика методики (теста), включающая

сведения об области исследуемых явлений и репрезентативности

диагностической процедуры по отношению к ним. Валидность

(обоснованность) инструмента – это его способность измерять именно те

характеристики объекта, которые и нужно измерить. Психолог, строя

какую-либо шкалу, должен быть уверен, что эта шкала измерит именно те

свойства (например, установок индивида), которые он намеревался

измерить. В наиболее простой и обшей формулировке валидность теста –

10

это «...понятие, указывающее нам, что тест измеряет и насколько хорошо

он это делает» (А. Анастази, 1982).

В стандартных требованиях к педагогическим и психологическим

тестам валидность определяется как комплекс сведений о том,

относительно каких групп психологических свойств личности могут быть

сделаны выводы, а также о степени их обоснованности на основании

конкретных тестовых оценок или других форм оценивания.

Валидность описывает также:

– конкретную направленность методики (для чего предназначена);

– область применения теста. Это характеристика методики,

указывающая на особенности контингента испытуемых, для которых

предназначен тест: возраст, уровень образования, социально-культурная

принадлежность и т.д., а также степень обоснованности выводов в

конкретных условиях использования теста.

Валидность методики измеряется:

– коэффициентом корреляции между результатами обследования и

объективными критериями внешнего проявления того или иного качества

(оценками по критерию валидизации);

– либо различными показателями в полярных группах по какому-то

измеряемому свойству.

Как видно из вышеизложенного, в понятие валидности входит

большое количество самой разнообразной информации о тесте. Различные

категории этих сведений и способы их получения образуют типы

валидности (см. схему 1).

11

Валидность

Конструктная

Критериальная

Содержательная

Факторная

Диагностическая (текущая,

конкурентная)

Лицевая (очевидная)

Конвергентная

Дискриминантная

Прогностическая (включает

инкрементную)

Согласующееся с теорией поведение переменной

Ретроспективная

Схема 1. Основные виды валидности

Конструктная валидность – характеристика теста, отражающая

степень репрезентации исследуемого психологического свойства

(конструкта) в результатах теста: чем больше результаты теста

соответствуют теоретической гипотезе о природе измеряемой переменной,

тем выше конструктная валидность теста.

Понятие конструктной валидности впервые было введено Ли

Кронбахом (Cronbach) и Ришаром Мейли (Meehl) в 1955 году. Данный тип

валидности характеризует степень теоретической обоснованности

методики.

Конкретным методом характеристики конструктной валидности

является сопоставление исследуемого теста с другими методиками,

конструктное содержание которых известно (показатель – коэффициент

корреляции).

При анализе конструктной валидности методики обычно

формулируется ряд гипотез о том, как будет коррелировать

12

разрабатываемый тест с широким кругом тестов, направленных на

конструкты, находящиеся в известной теоретически или предполагаемой

связи с исследуемыми. При этом конструктная валидность характеризуется

не только связями проверяемого теста с близкородственными

показателями, но и с теми, где, предположительно, значимых связей

наблюдаться не должно. Эти подходы определяются как конвергентная

(проверка степени близости прямой или обратной связи) и

дискриминантная (установление отсутствия связи) валидизации.

Статистический анализ структуры связей показателей исследуемого

теста с другими известными и латентными факторами позволяет

осуществить факторный анализ. Он также позволяет выявить факторный

состав и факторные нагрузки теста, представленные в его результатах.

Исключительная важность такой процедуры является основанием для

выделения ее в особый вид конструктной валидности – факторную

валидность.

Важным аспектом конструктной валидности является внутренняя

согласованность, отражающая то, насколько определенные пункты

(задания, вопросы), составляющие материал теста, подчинены основному

направлению теста как целого, ориентированы на изучение одних и тех же

конструктов. Анализ внутренней согласованности осуществляется путем

коррелирования ответа на каждое задание с общим результатом теста.1

Для обеспечения конструктной и содержательной валидности прежде

всего должны быть правильно отобраны все пункты-задания теста из

области заданий.

Область заданий – множество заданий, материал, подбираемый

исследователем и являющийся исходным для формирования теста. Чем

точнее и полнее выражают эти пункты реальное качество (свойство,

1 Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. – М., 1999. - с. 39.

13

конструкт), тем больше вероятность приближения результатов теста к

истинному показателю.

Истинный показатель может быть определен как показатель,

который получил бы конкретный испытуемый, если бы ему были

предъявлены все возможные задания из генеральной совокупности

заданий, релевантных реальному оцениваемому свойству.

Генеральная совокупность – множество элементов, объединенных

общей характеристикой, указывающей на их принадлежность к

определенной системе. Например: все возможные задания для выявления

измеряемой черты или свойства, или весь контингент испытуемых,

относящийся к определенной социальной, половозрастной, национальной

и т.п. категории.

Совокупность элементов (тестовых задач, испытуемых), являющая

частью генеральной совокупности, называется выборочной

совокупностью. Выборочная совокупность заданий теста должна в

наибольшей степени представлять генеральную совокупность заданий,

связанных с тестируемым качеством. Главная особенность выборочной

совокупности (и одновременно требование к ней) – это то, что она

репрезентативна по отношению к генеральной совокупности, хотя объем

ее меньше.

Критериальная валидность – комплекс характеристик, включающий

валидность текущую и прогностическую и отражающий соответствие

диагноза и прогноза определенному кругу критериев измеряемого явления.

Диагностическая валидность (конкурентная, текущая) –

характеристика теста, отражающая его способность различать испытуемых

на основании диагностического признака, являющегося объектом

исследования в данной методике.

Оценивается по корреляции результатов данного теста с результатами

других тестов, предназначенных для измерения той же самой переменной.

Если уже имеются эффективные тесты для измерения определенного

14

свойства, то связь с ними должна быть высока, и, наоборот, с тестами,

измеряющими совершенно другие свойства, оцениваемый тест не должен

иметь никакой корреляции.

Распространенным способом характеристики диагностической

эффективности методики является сравнение контрастных групп.

Контрастные группы – эмпирические выборки испытуемых,

различающиеся по определенному набору критериев. Метод подбора

контрастных групп является также распространенным средством

конструирования эмпирических опросников. Как правило, в контрастные

группы подбираются лица с максимальным и минимальным проявлением

критериальных признаков. Валидизация методики будет базироваться на

оценке степени устойчивости и величины различий между средними

показателями двух групп (контрастных по измеряемому признаку по

отношению к внешнему критерию – например, успеваемости).

Аналитико-синтетическая процедура установления уровня

значимости различий или сходств между выборками по изучаемым

показателям (переменным) называется достоверностью различия. Анализ

достоверности различий имеет практическое значение при оценке

статистической значимости разности выборочных средних величин в

сопоставляемых распределениях.

Как правило, непосредственному измерению разности средних

величин предшествует некоторое предположение исследователя о

характере распределения признака, либо о характере взаимосвязи двух

(или более) рядов распределений в различных выборках. Причем всегда

есть вероятность ошибки, обусловленная действием не учитываемых

переменных. Уровень значимости – понятие, отражающее степень

вероятности ошибочного вывода относительно статистической гипотезы о

распределении признака или взаимосвязи распределений в различных

выборках, проверяемой на основе выборочных данных. Показатель уровня

значимости обозначается и выражается в процентах и долях вероятности

15

ошибок. В психологических исследованиях за достаточный уровень

значимости обычно принимается α = 0,05, а для достаточно больших

выборок α = 0,1 (доля вероятности ошибок на выборке, в отличие от

результатов генеральной совокупности, составляет 95%).

При оценке статистической значимости разности выборочных

средних арифметических двух распределений первичных величин

применяется t-критерий Стьюдента, эмпирическое значение которого

вычисляется по формуле:

[ ],

21

2122 mm

MMt

+

−=

где М1, М2 – средние в сравниваемых выборках; m1, m2 – ошибки средних величин, вычисленные по формуле:

,2

2

nm

σ=

где n – объем выборки, σ – среднеквадратичное отклонение.

Разность средних считается статистически значимой, если t > t кр для

доверительной вероятности α = 0,05. Критическое значение критерия

Стьюдента (t кр) для каждой выборки определяется по таблицам с учетом

ее объема и числа степеней свободы

Для эффективного изучения конкурентной валидности существует

несколько правил:

– убедитесь, что выборка испытуемых отражает ту категорию лиц

(популяцию), для которой данный тест предназначен;

– убедитесь, что выборки достаточно велики для получения стати-

стически значимых корреляций, могущих быть затем использованными в

факторном анализе (минимальное количество испытуемых – 200 человек);

– используйте настолько широкое разнообразие других тестов данной

переменной, насколько это возможно, чтобы убедиться, что корреляция

получена благодаря близости групповых факторов, а не специфических;

– если используется факторный анализ, убедитесь, что получена простая

структура;

16

– при обсуждении результатов четко объясняйте, какие корреляции и

нагрузки факторов можно ожидать (что позволяет судить о

психологическом значении результатов)2.

Прогностическая валидность – информация о тесте, характе-

ризующая степень точности и обоснованности суждения о диагно-

стируемом психологическом качестве по его результату спустя опре-

деленное время после измерения. Чем выше тест может прогнозировать

критерий, тем выше его прогностическая валидность.

Прогностическая валидность (иногда употребляется термин

«предсказательная валидность») отражает временной интервал, на который

распространяется обоснование суждения об изменении диагностируемого

свойства.

Заключение об этом типе валидности может быть получено,

например, путем сравнения корреляции тестовых оценок в одной и той же

группе испытуемых спустя определенное время с некоторым критерием,

характеризующим измеряемое свойство (например, корреляция

показателей интеллекта одних и тех же испытуемых в 11 и 16 лет с

успеваемостью). Основной проблемой здесь является выделение критерия

предсказания (по отношению к которому производится оценка корреляции

тестовых оценок).

На прогностическую валидность методики наряду со свойствами

самого теста могут оказывать влияние модераторы – характеристики

контингента испытуемых, значимые для прогностической эффективности

методики (например, мотивация к данному виду деятельности, когда

изучаются способности человека к этой деятельности).

Валидность диагностическую и прогностическую нередко

объединяют в понятие эмпирической валидности. Здесь подчеркивается

общность подхода к их определению, который осуществляется путем

2 Пол Клайн. Справочное руководство по конструированию тестов. Введение в

психометрическое проектирование. Киев. 1994. С. 283

17

статистического коррелирования баллов (оценок) по тесту и показателей

по внешнему параметру, избранному в качестве валидизации критерия.

Компонентами прогностической валидности являются валидность

инкрементная (практическая ценность методики при проведении отбора)

и дифференциальная (способность методики дифференцировать

испытуемых по отдельным областям проявления исследуемых свойств).

Показатель инкрементной валидности указывает на роль теста в

улучшении отбора лиц для реальной деятельности, степень улучшения

результативности процедуры отбора по сравнению с традиционной,

основанной на анализе объективных сведений, документов, бесед, приеме

с испытательным сроком и т.д.

Дифференциальную валидность можно было бы показать (на

примере об академической успеваемости) сравнением ее корреляции с

различными академическими дисциплинами: значения корреляции должны

значительно различаться. Таким образом, для демонстрации диффе-

ренциальной валидности предполагается различие корреляций с разли-

чными аспектами данного критерия.

Содержательная валидность – один из основных типов вали-

дности, характеризующий степень репрезентативности содержания зада-

ний теста по отношению к измеряемой области.

Изучаемая деятельность носит, как правило, синтетический характер

и складывается из многих факторов. В целях создания адекватной модели

тестируемой деятельности требуется подбор в тест таких заданий, которые

бы охватывали главные (основные) аспекты изучаемого феномена в

правильной пропорции к изучаемой деятельности. Если можно показать,

что задания теста отражают все аспекты исследуемой области поведения,

то тест является валидным. Например, исследуя «речевую способность»,

необходимо вводить в тест задания не только на чтение, но и задания,

выявляющие навыки письма.

Основными этапами валидизации являются следующие:

18

– определение круга исследуемых свойств и видов деятельности;

– расчленение сложной способности или деятельности на элементы;

– разработка собственно модели тестовой деятельности на основе

наиболее важных элементов реальной деятельности;

– анализ степени соответствия разработанной модели реальной

деятельности, включая проверку представленности элементов в заданиях

теста и в реальной деятельности.

Практическими процедурами для определения содержательной

валидности являются следующие:

а) для тестов достижений:

– укажите точно категорию лиц, для которых этот тест

предназначен;

– определите навыки, подлежащие тестированию;

– передайте этот список экспертам в данной области (учителям и

т.п.) для проверки, нет ли упущений, для определения рангов значимости

каждого из навыков;

– преобразуйте этот список в перечень заданий, используя (когда это

возможно) равное количество заданий на каждый навык;

– представьте эти задания экспертам для проверки и оценки степени

их близости к реальным требованиям;

б) для других тестов:

– если существует литература с описаниями, просмотрите ее и

преобразуйте описания в особенности поведения;

– для каждой упомянутой особенности поведения сформулируйте

ряд заданий;

-– если литература с описаниями отсутствует, получите описания

поведения от грамотных специалистов: например, для изучения

зависимости инфантильных пациентов опросите их лечащих врачей и

медицинских сестер с целью получения описания зависимого поведения их

пациентов;

19

– преобразуйте полученные описания в задания (вопросы,

утверждения) для испытуемых;

– подвергните задания теста обычным процедурам конструирования

(см. раздел 4).

Существенным различием между содержательной и критериальной

валидностью является то, что экспертные оценки при анализе содержания

являются критерием самого теста, в то время как при критериальной

валидизации они относятся к испытуемым из выборки стандартизации.

Очевидная валидность (лицевая, внешняя) – представление о

тесте, сфере его применения, результативности и прогностической

ценности, которое возникает у испытуемого или другого лица, не

располагающего специальными сведениями о характере использования и

целях методики.

Говорят, что тест является валидным, если о нем складывается

впечатление, что он измеряет именно то, что подразумевается, особенно с

точки зрения испытуемых. Этот вид валидности никакого отношения не

имеет к истинной валидности и важен постольку, поскольку помогает

иногда установить сотрудничество с испытуемыми, считающих своим

правом отказаться от обследования по причине, если предлагаемая им

методика не обладает внешними признаками валидности.

Валидность методов и методик имеет не абсолютный, а

относительный характер, который состоит в ее отнесенности к тем

условиям, в которых оценивалась валидность тестов.

При проверке валидности тестов следует исходить из того, что

совершенно необходимо устанавливать ее, по крайней мере, на двух

группах, так как корреляция теста и внешнего критерия может быть

обусловлена специфичными для данной выборки факторами

(выборочными изменениями) и не иметь общего значения. Проведение

нескольких исследований с последующим анализом и обобщением данных

является не только предпочтительным, но и необходимым.

20

1.2.2. Надежность теста

Надежность теста – характеристика методики, отражающая

точность психодиагностических измерений, а также устойчивость

результатов теста к действию посторонних случайных факторов.

В качестве критериев надежности можно отметить следующие:

1) при повторном применении метода к тем же самым испыту-емым

в одних и тех же либо измененных условиях через определенный интервал

времени результаты обоих тестирований существенно не различаются

между собой. Под измененными имеется в виду следующие условия:

другой экспериментатор, состояние респондента и др.;

2) действия случайных посторонних факторов не оказывают сущест-

венного влияния на результаты тестирования. Такие посторонние

случайные факторы называют факторами нестабильности измерительной

процедуры.

Общий разброс (дисперсию) результатов произведенных измерений

можно представить как результат суммирование двух источников

разнообразия: самого измеряемого свойства и нестабильности

измерительной процедуры, обусловливающей наличие ошибки измерения.

К числу таких факторов следует отнести:

– разнообразие внешних материальных условий тестирования, у

разных испытуемых к другому (время суток, освещенность, температура в

помещении, наличие посторонних звуков, отвлекающих внимание и т.п.);

– динамичные внутренние факторы, по - разному действующие на

разных испытуемых в ходе тестирования (время так называемой

«врабатываемости» – выхода на стабильные показатели темпа и точности

действий после начала тестирования, скорость утомления и т.п.);

– информационно-социальные обстоятельства (различная динамика

в установлении контакта с психологом или лаборантом, проводящим

тестирование, возможное наличие других людей в помещении, наличие

21

предыдущего опыта знакомства с данным тестом, наличие какого-то

знания и отношения к тестам вообще и т.п.).

Разнообразие и изменчивость этих факторов обусловливают

появление у испытуемых непрогнозируемого по размерам и направлению

отклонения измеренного тестового балла от истинного тестового балла

(который можно было бы в принципе получить в идеальных условиях).

Средняя относительная величина этого отклонения определяется как

«стандартная ошибка измерения» (Se). Таким образом, стандартная

ошибка измерения – средняя относительная величина отклонения

тестового балла от истинного вследствие действия факторов, связанных с

изменчивостью самого измеряемого свойства и нестабильности

измерительной процедуры. Величина ошибки измерения указывает на

уровень неточности или ненадежности тестовой шкалы.

Ошибка измерения (Se) и надежность измерения (R), согласно

общепринятой психометрической теории, связаны следующей формулой:

2

2

1Sx

SeR −=

где Sx – дисперсия тестовых показателей

Источниками неудовлетворительной надежности также

являются3:

1. Субъективное оценивание. Субъективное оценивание является

общим источником ошибок. При таком оценивании допускаются различия

между результатами разных экспериментаторов и между результатами

работы одного и того же экспериментатора в разных случаях. Решением

этой проблемы будет использование только тех типов заданий, результаты

выполнения которых могут быть обработаны объективно. При

использовании таких типов заданий источником неудовлетворительной

надежности может стать только случайная ошибка при подсчетах.

3 Пол Клайн. Справочное руководство по конструированию тестов. Введение в психометрическое

проектирование. Киев. 1994. С. 283

22

2. Угадывание. Влияние угадывания испытуемыми правильного

ответа снижается с увеличением общего количества заданий теста.

3. Понятные задания. Использование понятных, недвусмысленных

заданий улучшает надежность тестов.

4. Величина теста. Чем длиннее тест, тем он надежнее. Для

удовлетворительной надежности достаточно 20 заданий.

5. Инструкции к тесту. Инструкции к тесту должны быть

недвусмысленными и понятными. При помощи инструкций можно легко

изменить уровень трудности заданий.

6. Неудовлетворительная ретестовая надежность. Ошибки, допус-

каемые при проведении повторного тестирования (изменения в условиях

тестирования, вариации в самочувствии испытуемых и пр.), обычно

являются источником неудовлетворительной ретестовой надежности.

7. Другие источники ошибок. Обычно к ним относят состояния испы-

туемых, которые могут являться причиной неудовлетворительной надеж-

ности теста.

Таким образом, тест называется надежным, если он является

внутренне согласованным, а также, если он дает одни и те же показатели

для каждого испытуемого при повторном тестировании. Исходя из этого,

выделяются следующие типы характеристик надежности: ретестовая

надежность, надежность параллельных форм, надежность частей теста. С

выделенными типами тесно связаны и способы определения надежности

теста.

Надежность при повторном обследовании испытуемых по

прошествии времени с помощью одного и того же теста называется

ретестовой надежностью. За индекс надежности принимается

коэффициент корреляции между результатами двух тестирований одной и

той же выборки испытуемых. Наименьшим удовлетворительным

значением для ретестовой надежности является 0,7.

Общая формула ретестового метода следующая:

23

ТЕСТ ИНТЕРВАЛ РЕТЕСТ

Временной интервал зависит от возраста (например, у маленьких

детей изменения могут произойти в течение одного месяца), а также

событий, происходящих с испытуемым в жизни.

Существует два пути вычисления ретестовой надежности: с приме-

нением одного и того же теста и с применением двух взаимоза-меняемых

форм данного теста одним и тем же испытуемым. Однако на практике

довольно трудно обеспечить идентичность характеристик задания.

Недостатком применения одного и того же теста является то, что

испытуемые помнят свои ответы (если тестирование проводят спустя

непродолжительное время). Если же тестирование провести через

значительное время, то это уже будут «не те» испытуемые. Полученная

высокая корреляция может быть результатом тренированности

испытуемого на заданиях подобного типа; низкая корреляция может быть

результатом происшедших изменений с испытуемым, а также может

свидетельствовать о ненадежности теста.

Надежность по внутренней согласованности – способ определения

надежности, опирающейся на оценку степени выраженности

интеркорреляционных связей между заданиями, составляющими тест. В

данном случае истинный показатель по тесту понимается как результат,

который получил бы испытуемый, если бы ему были предъявлены все

возможные задания, относящиеся к черте или свойству, являющемуся

объектом тестирования.

Внутренняя согласованность – это характеристика теста, указы-

вающая на степень однородности состава заданий с точки зрения

измеряемого качества. Степень внутренней согласованности измеряется

значением корреляции между всеми заданиями теста. Однородность, в

свою очередь, характеризует степень соответствия всех заданий

24

измеряемой черте или свойству (определяется как средняя корреляция

между заданиями теста).

Один из возможных вариантов измерения надежности теста по

внутренней согласованности представляет собой коррелирование

параллельных форм теста. Надежность параллельных форм –

характеристика надежности методики с помощью взаимозаменяемых форм

теста. Данные тесты должны быть разработаны с учетом одних и тех же

требований: иметь равное количество заданий, однотипное содержание,

форму заданий, инструкций и т.д.

Для выявления надежности параллельных (взаимозаменяемых) форм

проводится повторное тестирование выборки испытуемых параллельной

формой теста через минимальный интервал времени при одних и тех же

условиях. Общая формула следующая:

ТЕСТ А ИНТЕРВАЛ ТЕСТ А'

За индекс надежности принимается коэффициент корреляции между

результатами тестирования двумя параллельными формами теста.

Высокий коэффициент корреляции и большой интервал между двумя

испытаниями свидетельствуют о высокой надежности теста. Значение

происходящих изменений между двумя испытаниями не играют здесь

значительной роли (как в случае с ретестовым методом), однако возможно

негативное действие фактора научения, или переноса принципа решения

задач. Если промежуток времени между повторным тестированием

значительный, то сведения о надежности теста необходимо сопровождать

указанием на длительность временного интервала между двумя

предъявлениями теста, а также на произошедшие за это время в жизни

испытуемых события.

Надежность частей теста – характеристика надежности

психодиагностической методики, получаемая путем анализа устойчивости

25

результатов отдельных совокупностей тестовых задач или единичных

пунктов (заданий) теста. Наиболее простым и распространенным способом

определения надежности частей теста является метод расщепления, суть

которого заключается в выполнении испытуемым заданий двух

равноценных частей теста. Для оценки надежности методом расщепления

выбирают две эквивалентные по характеру и степени трудности группы

задач. Разделение объема заданий теста на сопоставимые части

достигается:

– распределением заданий на четные и нечетные;

– распределением пунктов по принципу близости или равенства

значений индексов трудности и дискриминативности;

– распределением задач по времени решения каждой из частей.

1.2.3. Дискриминативность психодиагностической методики

Дискриминативность – это способность отдельных заданий теста и

теста в целом дифференцировать обследуемых относительно

«максимального» и «минимального» результата теста.

Дискриминативность измеряется показателем дельта Фергюсона и

принимает максимальное значение при равномерном (прямоугольном)

распределении показателей (d =1).

Точность информации измеряется тем, насколько дробной шкалой

являются применяемые метрики, или другими словами, насколько

чувствителен инструмент. Таким образом, это степень приближения

результатов измерения к истинному значению измеряемой величины

Конечно, каждый исследователь должен стремиться получить

наиболее точные данные. Однако создание инструмента, обладающего

нужной степенью точности, в ряде случаев достаточно трудное дело.

Всегда необходимо решить, какая мера точности является допустимой.

При определении этой меры исследователь включает и весь арсенал своих

теоретических представлений об объекте.

26

При помощи тщательного конструирования теста можно

обеспечить соответствующий уровень дискриминативности, а это именно

то, в чем тесты значительно выигрывают по сравнению с другими

формами испытаний. Было обнаружено, что в оценке может быть

использовано около девяти градаций, а в опросах, вероятно, наиболее

эффективно использовать 3 (или пять) градации: ниже среднего, средний

уровень и выше среднего. Подобно этому шкалы ранжирования редко

содержат более девяти градаций. Это означает, что испытуемые

разбиваются в лучшем случае на девять групп.4

1.2.4. Достоверность теста

Особой разновидностью валидности является достоверность,

которая требует специальных усилий и процедур по ее обеспечению. Речь

идет о сознательных или бессознательных искажениях, которые вносит в

тестовые результаты сам испытуемый, руководствуясь в ходе теста особой

мотивацией, отличающейся от той, которая присуща ему в реальном

поведении.

Способность теста защищать информацию от мотивационных

искажений испытуемого и есть достоверность теста. Особенно остро эта

проблема стоит в случае тестов-опросников, которые допускают больше

свободы в выборе испытуемым любого варианта ответа.

Типичный прием обеспечения достоверности – наличие в тест-

опросниках шкал лжи. Шкала лжи – это шкала, состоящая из вопросов,

касающихся незначительных проступков, которые совершаются

большинством людей. Эти шкалы основываются главным образом на

феномене социальной желательности – стремлении испытуемых давать в

ходе тестирования социально одобряемую информацию.

4 Пол Клайн. Справочное руководство по конструированию тестов. Введение в

психометрическое проектирование. Киев. 1994.- 283 с.

27

Если испытуемый набрал по шкале лжи балл выше критического, то

его протокол объявляется недостоверным и ему предлагается либо

выполнить данный тест еще раз более откровенно, либо выполнить другой

тест. Многие более специфичные «ловушки», направленные на измерение

достоверности, часто входят как компонент в структуру конкретного теста.

Достоверность тестирования тесно связана со степенью

доверительности общения с психологом. Здесь принято различать две

диагностические ситуации: консультативную (ситуация клиента) и

аттестационную (ситуация экспертизы). В первом случае испытуемый

участвует в тестировании на добровольной основе и сам заинтересован

получить рекомендации по результатам тестирования (например, в

профконсультации). Во втором случае тестирование проводится по

инициативе педагога или администрации, психолога, родителей, т.е.

других лиц, и эти другие больше заинтересованы в результатах, чем сам

испытуемый.

Понятно, что в аттестационной ситуации вопрос о достоверности

особенно актуален. И опросники, не снабженные шкалами лжи,

использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента

могут быть использованы методики, на которые испытуемый заведомо

будет отвечать некорректно в ситуации экспертизы.

Как видно из обсуждения проблемы, все вышеперечисленные

требования к методикам взаимосвязаны между собой. Нарушение одного

требования сводит на нет и другое: скажем, данные могут быть

обоснованны, но не устойчивы. В психологическом исследовании такая

ситуация может возникнуть тогда, когда проводимое тестирование

оказалось ситуативным, т. е. время его проведения могло играть

определенную роль и в силу этого возник какой-то дополнительный

фактор, не проявляющийся в других ситуациях.

Другой пример, когда данные могут быть устойчивы, но не

обоснованны (если предположим, весь тест, вследствие слабого отбора

28

пунктов оказался смещенным, то одна и та же картина будет повторяться

на длительном отрезке времени, но картина-то будет ложной).

Многие исследователи отмечают, что все способы проверки

информации на надежность недостаточно совершенны. Кроме того,

Р.Пэнто и М. Гравитц, например, справедливо замечают, что работают эти

способы только в руках квалифицированного специалиста. В руках

неопытных исследователей проверка «дает неточные результаты, не

оправдывает заложенного труда и служит основой для несостоятельных

утверждений». Требования, которые считаются элементарными в

исследованиях других наук, в психологии обрастают рядом трудностей в

силу прежде всего специфического источника информации. Какие же

характерные черты такого источника, как человек,. осложняют ситуацию?5

Прежде чем стать источником информации человек должен понять

вопрос, инструкцию или любое другое требование психолога. Но люди

обладают различной способностью понимания. Следовательно, уже в этом

пункте исследователя поджидают различные неожиданности.

Далее, чтобы стать источником информации, человек должен

обладать ею, но ведь выборка испытуемых не строится с точки зрения

подбора тех, кто информацией обладает, и отвержения тех, кто ею не

обладает (ибо, чтобы выявить это различие между испытуемыми, опять-

таки надо проводить специальное исследование).

Следующее обстоятельство касается свойств человеческой памяти:

если человек понял вопрос, обладает информацией, он еще должен

вспомнить все то, что необходимо для полноты информации. Но качество

памяти вещь строго индивидуальная, и нет никаких гарантий, что в

выборке испытуемых они подобраны по принципу более или менее

одинаковой памяти.

5 Анастази А., Урбина С. Психологическое тестирование. – СПб.: Питер, 2001.

29

Есть еще одно важное обстоятельство: человек должен дать согла-

сие выдать информацию. Его мотивация в этом случае в опреде-ленной

степени может быть стимулирована инструкцией. и услови-ями

проведения исследования, но все эти обстоятельства не гарантируют

согласия испытуемых на сотрудничество с психологом.

2. ПРОБЛЕМА ИЗМЕРЕНИЯ В ПСИХОДИАГНОСТИКЕ

2.1. Теоретические аспекты психологических измерений

Под измерением понимается процедура, с помощью которой

измеряемый объект сравнивается с некоторым эталоном и получает

числовое выражение в определенном масштабе или шкале. Измерение –

это приписывание объектам числовых значений, отражающих меру

наличия свойства у данного объекта.

Общая концепция измерения впервые была в сформулирована Д.

Скоттом и П. Суппесом. Дальнейшее развитие она получила в работах П.

Суппеса и Дж. Зиннеса, Д. Льюса и Е. Галантера и др. В последнее время

общая теория измерений интенсивно развивается И. Пфанцаглем, а также

Д. Льюсом и Л. Неренсом.

Основным средством измерения выступают измерительные шкалы.

Понятие «измерительная шкала» было введено в психологию в 1950 году

С.С. Стивенсом.

Измерительные шкалы представляют собой метрические системы,

моделирующие исследуемый феномен путем замены прямых обозначений

изучаемых объектов некоторыми признаками, наличие или степень

выраженности которых представлена и оценивается испытуемыми в виде

числовых значений, графического изображения (фигуры, вертикальные

или горизонтальные линии) или в вербальной форме (например, в виде

суждений о степени выраженности признака).

30

Приписывание чисел (или других символов) объектам создает

шкалу. Создание шкалы возможно, поскольку существует изоморфизм

(подобие) формальных систем и систем действий, производимых над

реальными объектами. Таким образом, процессу измерения всегда

предшествует шкалирование – метод моделирования явлений с помощью

числовых систем. Числовые системы – это множество элементов с

реализованными в нем отношениями, существующими между элементами

(или свойствами) реальных объектов.

Существует два типа задач, решаемых с помощью шкалирования:

1) числовое отображение показателей распределения испытуемых

внутри группы, характеристика выборки с последующей статистической

обработкой;

2) отражение характеристик объекта путем установления их

числовых отношений по какому-либо явлению.

Процесс шкалирования состоит в конструировании шкалы по

определенным правилам и включает два этапа.

На первом этапе проводится создание эмпирической системы

проявлений исследуемых объектов и фиксация типов отношений между

ними. Второй этап – анализ данных, в зависимости от результатов

которого строится числовая система, составляющая основу одного из

видов шкал.

Специфика измерения в психологии состоит в том, что здесь

объектом выступает человек, отличающийся активным (а не пассивным, в

отличие от физических объектов) типом поведения в ситуации

диагностического обследования. Человек может изменять свои ответы,

контролировать реакции в зависимости от действия различных факторов,

как внешних, так и внутренних (например, смена настроения, стремление

выглядеть лучше, общее состояние и пр.). Предметом психологического

измерения выступают различные подсистемы психики и личности

человека.

31

Назовем три важнейших свойства психологических измерений.

1. Существование семейства шкал, допускающих различные группы

преобразований.

2. Сильное влияние процедуры измерения на значение измеряемой

величины.

3. Многомерность измеряемых психологических величин, т. е. сущест-

венная их зависимость от большого числа параметров.

В этой связи к измерительным средствам (шкалам), используемым в

целях психологического изучения людей, предъявляются особые

требования, связанные с их надежностью, точностью, валидностью. Общие

требования к разработке и применению диагностических средств, в основе

многих из которых лежат измерительные процедуры, как мы уже

отмечали, разрабатывает психометрия.

Основой психологических измерений является математическая

теория измерений – раздел математической психологии, интенсивно

развивающийся параллельно и в тесном взаимодействии с развитием

процедур психологического измерения (психометрией).

С математической точки зрения измерением называется операция

установления взаимно однозначного соответствия множества объектов и

символов (как частный случай – чисел). Символы (числа) приписываются

свойствам объектов по определенным правилам. Правила, на основании

которых числа приписываются свойствам объектов, определяют вид

шкалы измерения. Таким образом, числовая система является множеством

элементов с реализованными в нем отношениями (свойств объекта между

собой, с другими объектами и пр.) и служит моделью, в практическом

плане более удобной для работы с объектом.

Методы нольмерного шкалирования

Во многих психологических исследованиях возникает задача

определений единственного или специального значения психологической

переменной, аналогично, например, задаче нахождения экстремума

32

функции в математике. Такое специальное значение психологической

переменной называется порогом. Впервые в психологии эта проблема была

поставлена Э.Гербертом как задача определения порога сознания —

критической точки перехода от совершенно неосознанного до ясного

сознания. Основной вклад в создание процедур пороговых измерений был

сделан Г.Фехнером (1860), разработавшим первые методы пороговых

измерений. Последующее развитие экспериментальной психологии

показало, что порог является универсальной психологической характерис-

тикой, и пороговые измерения получили широкое распространение, особ-

енно в исследованиях познавательных процессов — восприятия, внимания,

памяти.

В терминах теории измерений определение порога есть нахождение

одного шкального значения или локализация точки на психологической

шкале. В формальном смысле нольмерное шкалирование — это

построение психологической шкалы, имеющей единственное значение и

нулевую размерность.

Поэтому все пороговые методы можно также рассматривать как

методы построения психологических шкал, а развитие методов

психологического шкалирования рассматривать, соответственно, как

разработку процедур, позволяющих постепенно увеличивать размерность

психологической шкалы. С этой точки зрения пороговые измерения

являются самым простым видом психологического шкалирования (так

называемое нольмерное шкалирование).

Методы одномерного шкалирования

Следующий шаг в развитии психологических измерений

ориентирован на разработку методов, позволяющих построить шкалу,

содержащую не одну единственную, а все значения интересующей нас

психологической переменой.

Первый вклад в создание этих процедур был сделан также Фехнером

(1860), разработавшим первую модель одномерного шкалирования. Но

33

основную детальную проработку процедур одномерного шкалирования

осуществил Терстоун (1927, 1929), а затем Стивенс и его сотрудники

(1937, 1955), разработавшие метод прямой оценки стимуляции. Далее эти

методы развивались в работах шведских психофизиков под сильным

влиянием Экмана (1965). Разработанные ими методы построения

«сильных» шкал дали возможность психологам быстро продвинуться в

решении многих психологических проблем, связанных с различными

областями познавательных процессов.

В отличие от операций прямого метрического измерения

психологических стимулов, операции установления порядка или

эквивалентности значительно проще и стабильнее. Существенным

достоинством порядкового шкалирования является возможность его

применения для измерений таких стимулов, которые в силу своей

сложности не поддаются жестким, метрическим измерениям. Именно

поэтому процедуры построения шкал порядка чрезвычайно

распространены в таких разделах психологии, как психодиагностика,

исследование эмоций, интеллекта и т.д.

Такие разные, но необходимые свойства разных измерительных

процедур привели к идее создания процедуры, которая позволяет строить

шкалу интервалов или отношений на основе оценок порядка или

эквивалентности. Такие шкалы можно назвать производными шкалами

интервалов или отношений в отличие от шкал первичных. Для первичных

шкал субъективные операции над объектами (их оценка или сравнение) и

числовые операции связаны друг с другом непосредственно, без всякой

промежуточной процедуры. Производная шкала методически имеет более

сложную структуру, она строится с помощью дополнительной процедуры

на базе первичной шкалы, и, естественно, что такая процедура имеет

смысл, только если производная шкала будет «сильнее» первичной.

«Сила» производной шкалы основывается на теоретических допущениях о

том, что исследуемые субъективные реакции обладают дополнительными

34

свойствами кроме тех, которые установлены эмпирическими операциями.

Иначе говоря, здесь предусматривается построение развитой модели

шкалирования.

Примером построения производной шкалы может служить модель

шкалирования Фехнера. В основе этой модели лежат эмпирические

процедуры, устанавливающие для стимулов отношение равенства и

порядка. Например, в случае применения метода «средней ошибки»

испытуемому предлагается, по сути дела, производить классификацию

(ответы «да–нет», «равны–не равны»), сравнивая переменный стимул со

стандартным. При многократном повторении этой процедуры значение

сравниваемого переменного стимула распределяется около значения

стандартного в некотором диапазоне неразличимости. Вводится

теоретическое предположение, что полученное таким образом

распределение имеет форму нормального распределения и величина

дисперсии этого распределения принимается за меру порогового различия

переменного и стандартного стимулов на субъективной шкале. Далее

делается допущение равенства таких мер во всех точках шкалы и,

следовательно, вводится единица измерения на шкале; точка абсолютного

порога принимается за нуль шкалы, и, таким образом, строится шкала

отношений.

Другая модель конструирования шкалы – модель шкалирования

Терстоуна – основана на процедурах попарного сравнения испытуемым

различных стимулов с точки зрения, например, их новизны,

привлекательности, значимости для него. Таким образом, появляется

возможность определить более или менее привлекательные

(предпочитаемые, значимые и пр.) стимулы, что позволяет проецировать

их иерархию на соответствующую шкалу.

2.2. Типы измерительных шкал и их описание

35

Шкала – это форма фиксации совокупности признаков изучаемого

объекта с упорядочиванием их в определенную числовую систему.

Применение шкал связывается с необходимостью качественной и

количественной оценки (с задачей последующего сравнения) опреде-

ленных признаков и переменных.

Признаки и переменные – это измеряемые психологические

явления. Такими явлениями могут быть уровень тревожности, показатель

интеллектуальной лабильности, интенсивность агрессивных реакций,

социометрический статус и множество других переменных, о которых

свидетельствуют особые индикаторы, внешне хорошо различимые

показатели измеряемого признака, например, время решения задачи,

количество допущенных ошибок, угол поворота корпуса в беседе,

показатель социометрического статуса.

Понятия признака и переменной могут использоваться как

взаимозаменяемые. Они являются наиболее общими. Иногда вместо них

используются понятия показателя или уровня, например, уровень

настойчивости, показатель вербального интеллекта и др. Понятия

показателя и уровня указывают на то, что признак может быть измерен

количественно, так как к ним применимы определения «высокий» или

«низкий» например, высокий уровень интеллекта, низкие показатели

тревожности и др.

Значения признака определяются (измеряются) при помощи

специальных шкал измерения. В психологических измерениях исполь-

зуются различные классификации типов шкал. Тип шкалы определяется

природой измеряемой величины.

Наиболее общая классификация измерительных шкал предложена

С.Стивенсом. В ее основу положен признак метрической детермини-

рованности. Согласно этому признаку шкалы делятся на метрические

(интервальные, шкалы отношений) и неметрические (номинативные,

шкалы порядка). Типы шкал обусловливаются видом функции f,

36

осуществляющей допустимые преобразования Ψ = f (ср). Если f — моно-

тонная функция, то соответствующая шкала является шкалой порядка;

если f — линейная функция, то соответствующая шкала — это шкала

интервалов; если f определяет преобразование подобия, то со-

ответствующая шкала — шкала отношений.

Кроме этих видов шкал ряд специалистов выделяют также

абсолютную шкалу и шкалу разностей.

2.2.1. Номинативная измерительная шкала

Номинативные шкалы (шкалы наименований от лат. nomen – имя,

название) – шкалы, устанавливающие соответствие признака тому или

иному классу. Название не измеряется количественно, оно лишь позволяет

отличить один объект от другого. Пример номинативной шкалы –

дихотомическая шкала, состоящая всего из двух ячеек, например:

«мужчина/женщина», «имеет братьев и сестер – единственный ребенок в

семье»; «иностранец – соотечественник»; «проголосовал ”за” –

проголосовал ”против”» и т.п. Признак, который изменяется по

дихотомической шкале наименований, называется альтернативным. Он

может принимать всего два значения.

Более сложный вариант номинативной шкалы – классификация из

трех и более ячеек, например: «экстрапунитивные – интрапунитивные –

импунитивные реакции» или «выбор кандидатуры А – кандидатуры Б –

кандидатуры В – кандидатуры Г», или «старший – средний – младший –

единственный ребенок в семье» и др.

Расклассифицировав все объекты, реакции или всех испытуемых по

ячейкам классификации, мы получаем возможность от наименований

перейти к числам, подсчитав количество наблюдений в каждой из ячеек.

Таким образом, номинативная шкала позволяет нам подсчитывать частоты

встречаемости разных «наименований», или значений признака, и затем

работать с этими частотами с помощью математических методов.

37

Возможными операциями с числами для номинативной шкалы

являются следующие (Е.В.Сидоренко):

– нахождение частот распределения по пунктам шкалы с по-мощью

процентирования или в натуральных единицах;

– поиск средней тенденции по модальной частоте (модальной

(Мо) называют группу с наибольшей численностью);

– установление взаимосвязи между рядами свойств, располо-

женных неупорядоченно (с этой целью составляются специальные

таблицы, посредством которых, помимо простой процентовки в них,

можно подсчитать критерий сопряженности признаков по Пирсону (χ2).

2.2.2. Порядковая измерительная шкала

Порядковая шкала – шкала, классифицирующая признаки по

принципу «больше – меньше». Здесь субъекты могут быть ранжированы,

например, по весу или росту. В порядковой шкале должно быть не менее

трех классов, например, «положительная реакция – нейтральная реакция –

отрицательная реакция» или «подходит для занятия вакантной должности

– подходит с оговорками – не подходит».

В порядковой шкале истинное расстояние между классами не

известно, а известно лишь то, что они образуют последовательность.

Например, классы «подходит для занятия вакантной должности» и

«подходит с оговорками» могут быть реально ближе друг к другу, чем

класс «подходит с оговорками» к классу «не подходит».

От классов легко перейти к числам, если мы условимся считать, что

низший класс получает ранг 1, средний класс – 2, а высший - ранг 3 или

наоборот. Например, мы можем легко оценить различия между двумя

выборками испытуемых по преобладанию у них более высоких или более

низких рангов или подсчитать коэффициент ранговой корреляции между

двумя переменными, измеренными в порядковой шкале, допустим, между

38

оценками профессиональной компетентности руководителя, данными ему

разными экспертами (Сидоренко, Суходольский).

Все психологические методы, использующие ранжирование,

построены на применении шкалы порядка. Если испытуемому

предлагается упорядочить 18 ценностей по степени их значимости для

него, проранжировать список личностных качеств социального работника

или 10 претендентов на эту должность по степени их профессиональной

пригодности, то во всех этих случаях испытуемый совершает так

называемое принудительное ранжирование, т.е. ранжирование, при

котором количество рангов соответствует количеству ранжируемых

субъектов или объектов (ценностей, качеств и т.п.).

Однако если у нас имеется всего 3 возможных класса и,

следовательно, 3 ранга, и при этом, скажем, 20 ранжируемых испытуемых,

то некоторые из них неизбежно получат одинаковые ранги. Все

многообразие жизни не может уместиться в 3 градации, поэтому в один и

тот же класс могут попасть люди, достаточно серьезно различающиеся

между собой.

С другой стороны, принудительное ранжирование может

искусственно преувеличивать различия между людьми. Кроме того,

данные, полученные в разных группах, могут изначально различаться по

уровню развития исследуемого качества, и испытуемый, получивший в

одной группе высший ранг, в другой получил бы всего лишь средний.

Выход из положения может быть найден, если задавать достаточно

дробную классификационную систему (скажем, из 10 классов) или

градаций признака. В сущности, подавляющее большинство

психологических методик, использующих экспертную оценку, построено

на измерении одним и тем же «аршином» из 10, 20 или даже 100 градаций

разных испытуемых в разных выборках.

39

Итак, единица измерения в шкале порядка – расстояние в один класс

или в один ранг, при этом расстояние между классами и рангами может

быть разным (оно нам не известно).

При операциях с числами порядковой шкалы необходимо пом-нить,

что интервалы в шкале не равны, поэтому числа обозначают лишь порядок

следования признаков. И операции с числами – это опе-рации с рангами,

но не с количественным выражением свойств в каждом пункте.

Числа поддаются монотонным преобразованиям: их можно заменять

другими с сохранением прежнего порядка (например, вместо

ранжирования от 1 до 5 можно упорядочить тот же ряд в числах от 2 до 10

или от (-1) до (+1). Отношения между рангами останутся неизменными).

Кроме этого, возможно использование модальных показателей, поиск

средней тенденции с помощью медианы (Ме), которая делит

ранжированный ряд пополам.

Наиболее сильный показатель для таких шкал – корреляции рангов

(по Спирмену – p или по Кендаллу – R). Ранговые корреляции указывают

на наличие или отсутствие функциональных связей в двух рядах

признаков, измеренных упорядоченными номинальными шкалами.6

2.2.3. Интервальная измерительная шкала

Интервальная шкала – это шкала, классифицирующая по прин-

ципу «больше на определенное количество единиц – меньше на опреде-

ленное количество единиц». Шкала представляет собой полностью упоря-

доченный ряд с измеренными интервалами между пунктами, причем

отсчет начинается с произвольно выбранной величины. Каждое из

возможных значений признака отстоит от другого на равном расстоянии.

Таким образом, в шкале интервалов нулевая точка отсчета может

6 Сидоренко Е.В. Методы математической обработки в психологии. СПб., 1996.

40

устанавливаться произвольно, а величины единиц и направление отсчета

могут определяться по избираемым константам.

Эквивалентные интервальные шкалы могут быть линейно

преобразованы друг в друга, что позволяет приводить результаты тести-

рования к общим шкалам и таким образом осуществлять сравнение

показателей. Более того, многие статистические процедуры предполагают

измерения по шкале интервалов.

Главная трудность при построении таких шкал – обоснование

равенства или разности дистанций между пунктами.

Можно предположить, что если мы измеряем время решения задачи

в секундах, то это уже явно шкала интервалов. Однако на самом деле это

не так, поскольку психологически различие в 20 секунд между

испытуемым А и Б может отнюдь не равно различию в 20 секунд между

испытуемыми Б и Г, если испытуемый А решил задачу за 2 секунды, Б – за

22, В – за 222, а Г – за 242. Выход может быть найден путем перевода

сырых баллов в единицы стандартного отклонения, при которых опреде-

ленная часть результатов будет попадать в тот или иной отрезок, прира-

вненный к различному уровню развития измеряемого свойства.

Для интервальной шкалы применимы линейные преобразования

чисел, переход от одной шкалы к шкале другой дробности пунктов или

точкой отсчета. Возможно вычисление коэффициента ранговой корре-

ляции, а также коэффициента парной корреляции по Пирсону (r).

2.2.4. Измерительная шкала равных отношений

Шкала равных отношений – шкала, классифицирующая объекты

или субъекты пропорционально степени выраженности измеряемого

свойства. В отличие от интервальной шкалы она имеет значимую нулевую

точку, которая не произвольна, а указывает на полное отсутствие

измеряемого свойства.

41

В шкалах отношений классы обозначаются числами, которые

пропорциональны друг другу (например, 2 так относится к 4, как 4 к 8).

Наличие нулевой точки – проблема для большинства

психологических переменных. Возможности человеческой психики столь

велики, что трудно себе представить абсолютный нуль в какой-либо

измеряемой психологической переменной. Абсолютная глупость и

абсолютная честность – понятия скорее житейской психологии. То же

относится и к установлению равных отношений: только метафора

обыденной речи допускает, чтобы Иванов был в 2 раза (3, 10, 100) умнее

Петрова или наоборот.

Абсолютный нуль, правда, может иметь место при подсчете

количества объектов или субъектов. Например, при выборе одной из 3

альтернатив испытуемые не выбрали альтернативу А ни разу,

альтернативу Б – 14 раз и альтернативу В – 28 раз. В этом случае мы

можем утверждать, что альтернативу В выбирают в два раза чаще, чем

альтернативу Б. Однако при этом измерено не психологическое свойство

человека, а соотношение выборов у 42 человек.7

По отношению к показателям частот можно применять все

арифметические операции: сложение, вычитание, деление и умножение.

Единица измерения в этой шкале отношений – 1 наблюдение, 1 выбор,

1 реакция и т.п.

2.2.5. Другие шкалы

Дихотомическая классификация часто рассматривается как вариант

шкалы наименований. Это верно, за исключением одного случая, когда мы

измеряем свойство, имеющее всего лишь два уровня выраженности: «есть–

Øнет», так называемое «точечное» свойство. Примеров таких свойств

много: наличие или отсутствие у испытуемого какой-либо наследственной

7 Сидоренко Е.В. Методы математической обработки в психологии. СПб., 1996.

42

болезни (дальтонизм, болезнь Дауна, гемофилия и др.), абсолютного слуха

и др. В этом случае исследователь имеет право проводить «оцифровку»

данных, присваивая каждому из типов цифру «1» или «Ø», и работать с

ними как со значениями шкалы интервалов.

В ряде пособий неверно утверждается, что шкала наименований

различает предметы по проявлению свойства, но не различает их по

уровню проявления этого свойства. Шкала наименований вообще не

основана на понятии «свойство» (которое вводится, лишь начиная со

шкалы порядка), а базируется на представлении о «типе» — множестве

эквивалентных объектов. Для того чтобы ввести понятие «свойство»,

требуется ввести отношения не между объектами, а между классами

(типами) эквивалентных объектов (которые, конечно, могут содержать

всего лишь один объект).

Шкала разностей, в отличие от шкалы отношений, не имеет

естественного нуля, но имеет естественную масштабную единицу

измерения. Ей соответствует аддитивная группа действительных чисел.

Классическим примером этой шкалы является историческая хронология.

Она сходна со шкалой интервалов. Разница лишь в том, что значения этой

шкалы нельзя умножать (делить) на константу. Поэтому считается, что

шкала разностей – единственная с точностью до сдвига. Некоторые ис-

следователи полагают, что Иисус Христос родился за четыре года до

общепринятого начала нашего христианского летосчисления. Сдвиг на

четыре года назад ничего не изменит в хронологии. Можно использовать

мусульманское летосчисление или же считать годы от сотворения мира –

кому как нравится.

В психологии шкала разностей используется в методиках парных

сравнений.

Абсолютная шкала является развитием шкалы отношений и

отличается от нее тем, что обладает естественной единицей измерения. В

этом ее сходство со шкалой разностей. Число решенных задач («сырой»

43

балл), если задачи эквивалентны, — одно из проявлений абсолютной

шкалы.

В психологии абсолютные шкалы не используются. Данные,

полученные с помощью абсолютной шкалы, не преобразуются, шкала

тождественна сама себе. Любые статистические меры допустимы.

В литературе, посвященной проблемам психологических измерений,

упоминаются и другие типы шкал: ординальная (порядковая) с

естественным началом, лог-интервальная, упорядоченная метрическая. О

свойствах порядковой шкалы с естественным началом упоминалось в

данном разделе.

Все написанное выше относится к одномерным шкалам. Шкалы

могут быть и многомерными: шкалируемый признак в этом случае имеет

ненулевые проекции на два (или более) соответствующих параметра.

Векторные свойства, в отличие от скалярных, являются многомерными.

2.3. Практика психологических измерений

Внешне процедура психологического измерения ничем не

отличается от процедуры психологического эксперимента. Более того, в

психологической исследовательской практике «измерение» и

«эксперимент» часто используются как синонимы. Однако при проведении

психологического эксперимента нас интересуют причинные связи между

переменными, а результатом психологического измерения является всего

лишь отнесение испытуемого либо оцениваемого им объекта к тому или

иному классу, точке шкалы или пространству признаков.

Методы психологических измерений.

В психологии используется множество конкретных измерительных

методик. Удобную классификацию психологических измерений дал

С.С. Паповян. Будем придерживаться ее в дальнейшем изложении.

Методы психологических измерений могут быть классифицированы

по различным основаниям:

44

1) процедуре сбора «сырых» данных;

2) предмету измерения;

3) виду используемой шкалы;

4) типу шкалируемого материала;

5) моделям шкалирования;

6) числу мерностей (одномерные и многомерные);

7) мощности метода сбора данных (мощные или слабые);

8) типу ответа индивида;

9) какими они являются: детерминистскими или вероятностными.

Для психолога-экспериментатора главными основаниями являются

процедура сбора данных и предмет измерения.

Чаще всего применяются следующие процедуры субъективного

шкалирования (как метода психологического измерения):

Метод ранжирования — процедура измерения, когда все объекты

представляются испытуемому одновременно, и он должен их упорядочить

по величине измеряемого признака.

Метод парных сравнений — процедура измерения, когда объекты

предъявляются испытуемому попарно (число предъявлений равно числу

сочетаний) и он оценивает сходства — различия между членами пар.

Метод абсолютной оценки — процедура измерения, когда объекты

(стимулы) предъявляются испытуемому по одному, и он дает оценку

объекта (стимула) в единицах предложенной шкалы.

Метод выбора — процедура измерения, когда испытуемому

предлагается несколько объектов (стимулов, высказываний и т.д.), из

которых он должен выбрать те, которые соответствуют заданному

критерию.

По предмету измерения все методики делятся на:

а) методики шкалирования индивидов;

б) методики шкалирования объектов;

в) методики совместного шкалирования объектов и индивидов.

45

Таким образом, в соответствии с приведенной классификацией,

психолог, во-первых, может измерять особенности поведения людей для

того, чтобы определить, чем один человек отличается от другого с точки

зрения выраженности тех или иных свойств, наличия того или иного

психического состояния или для отнесения его к определенному типу

личности. Измеряя особенности поведения, он определяет сходства или

различия людей. Психологическое измерение становится измерением

испытуемых.

Во-вторых, исследователь может использовать измерение как задачу

для испытуемого, в ходе выполнения которой последний измеряет (класси-

фицирует, ранжирует, оценивает и т.п.) внешние объекты: других людей,

стимулы или предметы внешнего мира. Часто эта процедура оказывается

измерением стимулов.

Методики шкалирования объектов (стимулов, высказываний и др.)

встраиваются в контекст экспериментальной или измерительной

процедуры. По своей сути они не являются задачей исследователя, а

представляют собой экспериментальную задачу испытуемого.

Исследователь использует эту задачу для выявления поведения

испытуемого (в данном случае — реакций, действий, вербальных оценок и

др.), чтобы знать особенности его психики. Поэтому нет оснований

причислять эти техники к методам психологического измерения

поведения, если под измерением понимать только задачу

экспериментатора.

При субъективном шкалировании испытуемый выполняет функции

измерительного прибора, а экспериментатор мало интересуется

особенностями «измеряемых» испытуемым объектов и исследует сам

«измерительный прибор».

В-третьих, существует процедура так называемого совместного

измерения стимулов и людей. При этом предполагается, что «стимулы» и

«испытуемые» могут быть расположены на одной оси. Поведение

46

испытуемого рассматривается как проявление взаимодействия личности и

ситуации.

В строгом смысле слова психологическим измерением можно

назвать лишь измерение поведения испытуемых, то есть измерение в

первом значении этого понятия.

Психологическое измерение стимулов является задачей, которую

выполняет не экспериментатор, а испытуемый в ходе обычного пси-

хологического или психофизического эксперимента. В этом случае

измерение используется только как методический прием наряду с другими

методами психологического исследования; испытуемый же исполняет роль

«измерительного прибора». Поскольку результаты таких измерений

интерпретируются на основе той же модели измерений, а обрабатываются

с применением тех же математических процедур, что и результаты

измерения поведения испытуемых, в психологии принято употреблять

понятие «психологическое измерение» в двух различных смыслах.

Наиболее существенные проблемы, связанные с использованием

шкалирования, заключаются в следующем:

– проблема поиска процедуры, устанавливающей соответствие

качественных параметров психологической переменной ее

количественным показателям на шкале;

– проблема многообразия проявлений психологического свойства,

пластичности его градаций и мономерность шкалы, предполагающей

«привязку» измеряемого свойства только к одной цифре, классу и пр.

(например, интеллигентный, умный, мужественный);

– проблема необходимости ограничения числа градаций шкалы и

«безграничность» реальных психических явлений.

2.4. Конструирование шкалы как эталона измерения

47

Поиск эталона измерения. Нахождение эталона измерения

осуществляется в четыре стадии, каждая из которых необходимая пред-

посылка надежности будущей шкалы.

1. Качественная классификация объектов (измеряемых свойств).

Собираясь, например, измерять структуру ценностных ориентаций

личности, мы прежде всего должны четко классифицировать типы

ориентаций, исходя из теоретической концепции и задач исследования.

Можно положить в основу классификации иерархию потребностей или

интересов, сфер деятельности, социальные функции ориентаций,

социальные ситуации, которые бы различались по степени свободы выбора

целей и средств деятельности и т.д.

2. Поиск протяженности выделенных в качественном анализе

свойств. Следует установить, обладают ли эти свойства прерывной или

непрерывной протяженностью? Можно ли их представить в виде

различных последовательных состояний измеряемого качества? Например,

определенная ценностная ориентация (материальный достаток, творчество

и т.п.) могут быть представлены как градации, отражающие ее

«протяженность»: «сильная – средняя – слабая ориентация», «устойчивая –

малоустойчивая – неустойчивая», «центральная – периферийная».

3. Установление эмпирических индикаторов или внешних призна-

ков тех свойств объекта, которые поддаются расположению в

континууме. Индикатор – это внешне хорошо различимый показатель

измеряемого признака. С его помощью устанавливается наличие или

отсутствие признака, его состояние. Например, высота ртутного столбика

термометра – индикатор температуры.

Простейший индикатор расположения какого-то объекта среди

других объектов – порядковое место, отмечаемое опрашиваемым в

заданном списке. Например, из 18 объектов он помечает объект М

порядковым номером «1». Этот номер – индикатор доминирования

48

объекта М. Объект N, помеченный порядковым номером «18», будет

располагаться в конце протяженности («подавленная ориентация на N»).

Сложнее найти индикатор для протяженности по критерию

«сильные», «средние», «слабые» ориентации. Один из возможных

вариантов таков.

Испытуемым предлагают три ситуации, в которых они принимают

решение о выборе «ценностного ориентира». Ситуации различаются по

степени свободы выбора «ценностного ориентира». Допустим, измерению

подлежат интересы к различным видам занятий в сфере досуга.

Предлагаются три одинаковых списка возможных занятий, число которых

в каждом списке 18.

В первой ситуации (широкий выбор диапазона) испытуемый имеет

право без ограничения указать любые занятия, которые ему нравятся. Во

второй ситуации (средний диапазон выбора) он оставляет в списке лишь

шесть наиболее важных для него занятий, в третьем случае (узкий

диапазон) – не более трех, для него особенно значимых.

Индикатор «сильной» ориентации – выбор данного занятия – имел

место во всех трех ситуациях; «средний» – выбор в первой и второй

ситуациях, «слабый» – выбор имел место только при широком диапазоне

принятия решения.

4. Уяснение того, все ли единицы, составляющие измеряемый

объект, укладываются в ранжируемый ряд, все ли они обладают

свойством занимать определенное место в континууме отношений по

принятым индикаторам.

В итоге описанных операций устанавливается эталон или шкала

измерения. Отношения между пунктами шкалы должны отображать

отношение свойств объекта в понятиях «равно», «больше», «меньше».

Способы проверки процедуры первичного измерения на

надежность. Понятие надежности измерения правомерно относить именно

к инструменту, с помощью которого производится измерение, но не к

49

самим данным, подлежащим измерению. В отношении данных, как и

заключительных выводов из обследования (исследования), правильнее

говорить, что они достоверны (или относительно достоверны) и потому,

что фиксированы надежным инструментом.

Надежность шкалы, как обобщающей характеристики инструмента

измерения, может быть рассмотрена в трех аспектах: обоснованность,

устойчивость, правильность.

Обоснованность (синоним валидности) шкалы заключается в том,

что с ее помощью целенаправленно измеряют вполне определенное

свойство или признак, не смешивая его с другими. Вполне справедливо

выделяют два существенно разных аспекта обоснованности: теоретический

и практический. Первый (теоретический) непосредственно связан с

содержательными предпосылками исследования и предполагает

установление значимых связей с широким классом ситуаций, предска-

зываемых теорией, второй требует доказательства надежной регистрации

данных в сравнительно узком секторе, в частном проявлении изучаемых

объектов. Если валидность эмпирическую через измерение обеспечивают,

то валидность теоретическую только проверяют, т.е. уточняют область

валидности методики, границы интерпретации получаемых материалов.

Чтобы повысить обоснованность измерения, используют ряд

технических приемов:

а) логические рассуждения на основе опыта и здравого смысла.

Логические рассуждения хотя и являются достаточно хорошим средством

повышения обоснованности, но не являются прямым доказательством

того, что мы измеряем искомое свойство.

б) тест по «эталонной группе». Смысл проверки – в сопоставлении

данных, полученных путем измерения по шкале, с достоверными

сведениями об объекте измерения. Так, шкала на отношение к

соблюдению норм права обосновывается опросом осужденных

правонарушителей в сравнении с «эталонной» группой законопослушных

50

граждан. Дихотомизация полярных групп по шкале должна совпадать с

фактической поляризацией эталонных групп в пределах допустимой

ошибки, величина которой зависит от задач исследования.

в) поиск независимого критерия как разновидность внешнего

контроля надежности для измерения того же самого объекта или свойства.

Если бы был возможен такой прибор, который объективно фиксировал

интенсивность мнений человека относительно опрашиваемых событий,

фактов, других людей и т.п., то данный прибор бы выступал в роли

независимого критерия, позволяющего сопоставлять с ним субъективные

мнения, ощущения, настроения человека.

В качестве независимого критерия зачастую выступают объективные

показатели эффективности деятельности и учебы: количество продукции,

наличие ошибок, средний балл по учебным предметам и т.п. (подробнее

изложено в разделе 4.2.).

г) использование метода судей для отбора пунктов шкалы.

Сомнения в обоснованности возникают уже на стадии первоначального

отбора пунктов шкалы. Численность судей (участвующих в отборе

пунктов: например, определении единиц измерения) зависит от меры

однородности или разнородности выборочной совокупности основного

обследования. Рекомендуется отбирать для судейства половину мужчин и

половину женщин.

д) совмещение нескольких показателей для регистрации опреде-

ленного одного свойства или построение индекса. Типы индексов крайне

разнообразны. Суть индексной обоснованности в том, что согласно гипо-

тезе, данному свойству находится множество его проявлений, для каждого

из которых формируют отдельную шкалу.

Затем измерения по частным шкалам либо суммируются, либо из них

образуют логические конструкции (например, логический квадрат).

Устойчивость измерения выражается в однозначности

информации, которую мы извлекаем с помощью данной процедуры.

51

Нередко устойчивость ошибочно отождествляют с надежностью проце-

дуры в целом. И хотя последняя зависит не только от устойчивости, но

также от обоснованности и правильности операций, подобное смешение не

случайно: проверка инструмента на устойчивость – важнейшее условие

повышения его надежности.

Приемы контроля на устойчивость:

а) Повторное измерение. Один и тот же объект (свойство)

измеряется дважды с двух-трехнедельным временным интервалом и с

помощью одинаковой процедуры. Шкала считается устойчивой, если

совпадения между первой и второй сериями измерений будут достаточно

высокими. Так, вычисляется общий процент совпадений ответов в первой

и второй сериях. Те пункты шкалы, в которых обнаружено несовпадение

даже у весьма «устойчивых» субъектов, должны быть переформу-

лированы.

Другим показателем полной устойчивости является мера сдвига,

оцененная как среднеарифметическая ошибка различения градаций шкалы.

Этот показатель означает, какую долю градации данной шкалы (в среднем)

все испытуемые как бы не улавливают, т.е. каковы истинные границы

различения градаций.

Например, уточним среднеарифметическую ошибку в различении

шкалы согласия-несогласия с каким-то суждением (пусть это будет

суждение о привлекательности некоторого занятия на досуге). Из 28

человек, участвующих в испытании 17 полностью повторяют свои оценки

данного занятия в обеих пробах (сумма по диагонали схемы: 7 + 6 + 4 =

17), а остальные 11 испытуемых дают разные ответы в двух пробах.

Ответы во второй пробе: Ответы в первой

пробе о занятиях на досуге привлекает не очень

не привлекает

всего

Данное занятие привлекательно (1)

7 3 - 10

52

Не очень привлекательно

4 6 1 11

Не привлекательно - 3 4 7 Всего 11 12 5 28

Для оценки искомой ошибки вычисляем отличия ответов

респондентов как сдвиги между II и I пробами, например, во II пробе из

тех, кто в I пробе ответил «занятие привлекательно», 3 человека сообщили,

что оно «не очень привлекательно», т.е. это разность (2 - 1). Теперь

суммируем все разности в ответах испытуемых и получим меру

среднеарифметической ошибки различения пунктов градации данной

шкалы:

градации 39,028

)32(1)23(4)21(3)12(5.. =

−+−+−+−=ошибкаарифмСр

Значит, среднеарифметический «сдвиг» в оценке по трехчленной

шкале составляет около 40% одного ее деления, т.е. менее половины

деления, что в общем можно признать удовлетворительным, хотя и не

идеальным.

Рассматривая устойчивость как воспроизводимость результатов

измерений, можно использовать и иные показатели ее меры наряду с

обычными расчетами корреляции итогов двух последовательных

измерений.

Какая же мера устойчивости удовлетворительна? Это зависит от

существа измеряемого свойства, его значимости для целей и задач

исследования. В принципе для немногочленной шкалы

среднеарифметическая ошибка различения градаций в 40% ее деления

невысока, а соответствующая мера устойчивости (100% - 40% = 60%)

вполне достаточна, ибо не перекрывает границы между двумя соседними

интервалами шкалы. Если бы неустойчивость составила не 40%, а 60%, т.е.

53

более половины деления шкалы, то ошибка была бы явно недопустима,

ибо в среднем испытуемые не различают соседние градации из трех.

Для многочленных шкал, например, из 10 градаций, ошибка в 60%

одного деления не слишком велика, так как перекрываются два деления из

10, т.е. не 2/3, а 0,2 общей «длины» шкалы. Если при обработке данных

градации укрупнить, объединяя две соседние, то ошибка минимизируется

до вполне уверенного уровня устойчивости.

Помимо показателей полной устойчивости шкалы возможны также

показатели ее относительной устойчивости. Они полезны при сравнении

разных шкал, например, для выбора из нескольких вариантов наиболее

правильной и точной шкалы или для того, чтобы сопоставить уровни

устойчивости измерения разных свойств, каждое из которых фиксируется

шкалами разного типа и разной степени дробности;

б) использование нескольких лиц для измерения одного свойства.

Случается, что шкала неустойчива потому, что ее пункты произвольно

интерпретируются самими исследователями. В особенности это

характерно для шкал качественной классификации объектов. В таких

(номинальных) шкалах группы объектов классифицируют с помощью

описания всех качественных признаков, по которым каждый объект

относится к определенному пункту шкалы – классу.

Предположим, что выделено несколько признаков для отнесения

определенной деятельности к разряду профессий определенного типа

(например, человек-знак). Чтобы выполнить эту операцию однозначно,

нужно убедиться, что признаки ясно различимы и при соотнесении видов

деятельности с пунктами шкалы не возникает путаницы.

В этом случае объект измеряют одновременно несколько (минимум

трое) лаборантов, использующих единую процедуру. Если данные,

полученные разными лаборантами, высоко согласуются, шкала

устойчивая, если нет – неустойчива, и мы начинаем искать другую, более

54

приемлемую размерную величину. Причина неустойчивости шкалы – в

плохом отборе индикаторов;

в) расщепление шкалы. Шкала делится на две половины. Если

окажется, что измерения по каждой из них совпадают, их можно

рассматривать как равноценные шкалы, суммировать данные и впредь

пользоваться одновременно обеими половинами, образующими теперь

единую и более надежную шкалу, чем каждая из ее составляющих.

Пример расщепления пункта шкалы:

Первоначальный вариант А. Специальность очень нравится

После расщепления а1. Считаю свою специальность лучше всех других а2. Моя специальность одна из лучших

Точность и правильность измерения зависят от степени устойчи-

вости измеряемого объекта или свойства, чувствительности эталона

измерения (дробности пунктов шкалы), отсутствия систематических оши-

бок измерения и, конечно, от устойчивости измерения.8

Дробность методики - чувствительность шкалы - прямо связана с

точностью измерения.

Шкалы в 10 делений измеряет точнее, чем в 5 или 3 деления. Но

дробность пунктов шкалы нельзя увеличивать беспредельно. Надо

установить оптимум, удовлетворяющий двум требованиям: максимум

градаций шкалы при условии высокой устойчивости результатов

измерения. Постепенно повышая дробность эталона измерения и

параллельно проверяя шкалу на устойчивость, мы найдем границу, за

8 Ядов В.А. Социологическое исследование. М.: Наука, 1987.

55

пределами которой дальнейшее повышение дробности влечет понижение

устойчивости измеряемого свойства.

Таким образом, достижение устойчивых данных при максимальной

дробности метрики повышает точность измерения. Оно будет

удовлетворительно точным, если абсолютная ошибка измерения не

превышает 0,5 деления шкалы. Вместе с тем, если ошибка вообще

отсутствует, то не исключено что шкала обладает заниженной

чувствительностью (особенно в случаях, когда мы предполагаем

достаточную вариабельность измеряемого свойства).

Но измерение может быть вполне точным и, вместе с тем,

неправильным, постоянно воспроизводя какую-то систематическую

ошибку, как это случается с испорченным термометром, в котором

ртутный столбик изначально был фиксирован на неверной исходной

отметке и постоянно завышает температуру, скажем на 0,8 градуса.

При квантификации психологических характеристик проблема

правильности, т.е. отсутствия уклонений от истинного значения измеря-

емого свойства, намного сложнее, ибо часто мы в принципе не способны

установить, каковы же истинные значения измеряемых свойств (скажем,

ценностных ориентаций).

Одна из возможных систематических ошибок – отсутствие

«разброса» информации по шкале вследствие того, что какие-то ее пункты

«не работают», т.е. не реагируют на определенное состояние измеряемого

свойства. Например, при опросе все ответы концентрируются в

позитивном или только в негативном полюсе шкалы.

Другой причиной неправильности может быть плохая различи-

тельная способность соседних пунктов шкалы высокой дробности (состо-

ящей, к примеру, из 20 и более градаций).

3. ПОДБОР И АДАПТАЦИЯ ПСИХОЛОГИЧЕСКИХ МЕТОДИК

56

3.1. Требования к структуре и содержанию методик

Структура методики включает следующие элементы:

– концепция, объясняющая механизм создания и действия теста, его

цель (прогноз профессиональной успешности, выявление индивидуальных

различий, консультация и т.д.), область применения (т.е. характеристика

методики, указывающая на особенности контингента испытуемых, для

которых предназначен тест, а также степень обоснованности выводов в

конкретных условиях использования теста);

– описание контингента, на котором проводилась разработка метода

(пол, возраст, образование, профессиональный опыт, должностное положе-

ние и пр.);

– инструкции для психолога в виде однозначного алгоритма (а также

инструкция испытуемому).

– стимульный материал (включает задания испытуемому,

представленные в текстовой, графической, вербальной и иной формах и

требующие совершения определенных действий, ответов, пояснений и

пр.);

– «ключ» с правильными ответами;

– нормативно-оценочные таблицы (тестовые шкалы);

– образцы регистрационных бланков;

– интерпретационные схемы и формулировки выводов по различным

результатам;

– статистические показатели надежности и валидности в заданной

области применения методики;

– средства контроля за достоверностью результатов.

Инструкция – это руководство по выполнению заданий теста,

предъявляемое испытуемому письменно, устно или с помощью

компьютера и направленное на создание адекватной мотивации, установки

субъекта на обследование. Инструкция помещается, как правило, на

57

первом листе. Инструкции направлены на объяснение смысла заданий и

порядка действий испытуемых.

Наряду с инструкцией испытуемому составляются также инструкции

экспериментатору. Инструкция не должна быть перегружена деталями и

подробностями. Формулировки не должны содержать двусмысленных

оттенков. Неадекватная инструкция может существенно повлиять на

очевидную валидность методики, сказаться на результативности

выполнения заданий теста. В ряде случаев перед инструкцией стоит задача

камуфлирования истинных целей обследования и показателей, на

диагностику которых ориентирован тест.

Материал теста (определяемый предметным содержанием и

формой заданий) может быть взят из социальной области или из

естественно-научных дисциплин, например, из физики. Тест может

измерять следующие характеристики:

– внешнее поведение или внутреннее состояние;

– свойства, черты, качества, процессы, состояния, образования или

особенности личности;

– сложная (комплексная) или простая характеристика личности;

– выраженность, частота или интенсивность проявления

психической характеристики.

В зависимости от предметной направленности может планироваться

разработка единичного теста, батареи, системы или набора тестов. В со-

ответствии с предметной направленностью выбирается соответствующий

стимульный материал.

Стимульно-инструктивная ситуация изменяется в зависимости от

ряда параметров:

а) форма задания (пунктов) теста: цифры, задачи, фигуры, картинки,

схемы, рисунки, буквы, символы, сюжеты, фрагменты, цвета, графики;

б) вопросительная форма или утверждения (может быть и сме-

шанный тип);

58

в) реакция или ее отсутствие. В общем требуется реакция на стимул.

Но это не всегда так, как, например, в тестах на чувствительность к боли;

г) ограниченность-неограниченность способов реагирования. В тест-

ировании не известны случаи неограниченного разнообразия ответов.

Предполагается, что испытуемые не будут жевать материал тестов, или

портить его. Однако ответы могут быть относительно свободными, как,

например, в проективных тестах, или с накладываемыми на них

ограничениями, как при измерении времени реакции;

д) наличие вариантов выбора решения или свободно продуцируемый

ответ. Примером первых являются ответы типа «правда-неправда», а

примером последних – описание рисунков ТАТ (теста тематической

апперцепции);

е) единичные или повторяющиеся ответы;

ж) последовательность ответов: упорядоченная или неупоряд-

оченная. Это относится к тому, до какой степени от испытуемых требуется

давать ответы в определенном порядке;

з) однородность или разнородность ответов. В некоторых тестах

требуются ответы одного и того же вида, а в других предусмотрены ответы

различных типов;

и) естественность темпа или ограниченность времени на ответы;

к) завершенность (окончательность) реакции или реагирование на

реакцию. Испытуемый реагирует либо на материал теста, либо на свою

собственную реакцию, например, тот или иной стимул как-либо оцени-

вается, вызывает ассоциации или воспоминания;

л) наличие явного или неявного смысла заданий. Некоторые тесты не

имеют никакого вне их лежащего значения, такие параметры, как

измеряющие время реакции. Однако в определенных тестах (там, где

интересуются мнением о чем-либо) это присутствует. Большинство видов

искажений и сложностей возникают именно в тех тестах, значение

которых неявно;

59

м) представление теста в виде отдельных заданий или целостное

представление. Этот параметр касается различий между тестами, состо-

ящими из отдельных заданий или из одного единственного;

н) Психологическая сущность действия, необходимого для

выполнения задания. Этот параметр учитывает, требуются ли для ответа

знания; мнение о чувствах, отношениях или опознание (распознание;

о) различие в мотивах приемлемости ситуации тестирования;

п) различия в свободе выхода из ситуации тестирования.

Задания психодиагностических методик должны удовлетворять

следующим общим требованиям:

– легкость запоминания;

– относительная новизна для испытуемых по способу решения и

содержанию;

– лаконичность;

– минимальная вероятность случайного решения;

– экономичность с точки зрения времени выполнения (для тестов

скорости время выполнения одного задания должно быть минимальным).9

Схема интерпретации результатов должна позволить составить

итоговое заключение психолога. При этом существуют три вида

заключений:

– описательное (психологическая характеристика обследуемого);

– консультационное (делается прогноз дальнейшего развития);

– оценочное (в виде балльной оценки изучаемого свойства).

3.2. Алгоритм подбора и адаптации методик

9 Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. – М., 1999. - с. 109.

60

Процедура подбора методик не может быть рассмотрена как

автономная задача, вне зависимости от тех требований, которым должна

удовлетворять психодиагностическая деятельность в целом. В этой связи

напомним, что основными принципами организации и проведения

психодиагностической деятельности являются:

– единство диагностики и коррекции, возможность получения

развивающего эффекта в процессе самого психодиагностического

обследования и построения на его основе различных развивающих

программ;

– валидность, надежность и прогностичность используемых методик;

– комплексное применение различных, взаимодополняющих друг

друга методик для изучения определенного свойства, явления;

– экономичность процедуры психодиагностического обследования,

простота и доступность обработки и анализа данных;

– соответствие выбранных методик психологическому характеру

деятельности испытуемых (школьной, вузовской, профессиональной и

пр.);

– формулирование результатов психодиагностического обследования

на «языке» потребителя;

– ориентация на возможность изменения, развития измеряемых

психологических качеств, периодическое психологическое обследование

испытуемых, постоянный сбор и анализ информации о проявлениях

индивидуально-психологических особенностей их личности в различных

сферах жизнедеятельности;

– сочетание обновления арсенала психодиагностических методик по

мере развития психологической науки и практики с применением методик

проверенных, хорошо зарекомендовавших себя по параметрам надежн-

ости, валидности и экономичности процедуры применения.

Бывают случаи, когда возникает необходимость адаптации методики

для использования ее в конкретных (измененных по сравнению с

61

первоначальными) условиях. Комплекс мероприятий, обеспечивающих

адекватность теста в новых условиях его применения, называется

адаптацией теста.

В отечественной психодиагностике особую актуальность

приобретает адаптация зарубежных тестов. Выделяются следующие

основные этапы адаптации теста:10

– анализ исходных теоретических положений автора теста;

– перевод теста и инструкций к нему на язык пользователя,

завершаемый экспертной оценкой соответствия оригиналу;

– проверка валидности и надежности теста, осуществляемая в

соответствии с психометрическими требованиями;

– стандартизация теста на соответствующих выборках.

Адаптация любого теста должна начинаться с глубокой

теоретической и методической проработки вопроса о применении теста к

отечественной популяции. Необходимо, прежде всего, проверить

гомогенность шкал и заданий теста, которые позволяют выяснить, все ли

задачи теста устойчиво измеряют одну и ту же характеристику личности.

Подлежит проверке степень информативности задач и вопросов в каждой

шкале и характер связей между шкалами и вопросами.

Вполне допустимым является при адаптации личностных

опросников проведение не внутренней, а внешней валидизации шкал.

Валидность вопросов и шкал при этом устанавливается преимущественно

по поведенческим проявлениям личности, хотя дополнительная проверка

шкал на гомогенность способствует повышению диагностической силы

теста.

Каждый психологический признак как результат измерения может

быть охарактеризован по параметрам точности, правильности, сходимости

и воспроизводимости измерения.

10 Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. – М., 1999. , С. 8.

62

Точность (надежность) измерения – качество, отражающее

близость результата измерения к истинному значению измеряемой

величины.

Правильность измерения – качество, отражающее близость к нулю

систематических погрешностей результатов измерения.

Сходность измерения – качество, отражающее близость друг к

другу результатов измерений, выполненных в одинаковых условиях.

Воспроизводимость измерения – качество, отражающее близость

друг к другу результатов измерений, выполненных в разных условиях.

Значительные препятствия для исследователя, адаптирующего

методику, связаны с социокультурными и языковыми различиями между

народами разных стран. Для однозначного понимания содержания теста

представителями различных стран очень важно найти эквиваленты слов,

выражений в другой культуре, учитывая коннотативные значения

языковых единиц и категорий. В связи с этим полная эмпирическая

адаптация теста не уступает по сложности разработке оригинальной

методики.

Рассмотрим основные этапы проверки методики на возможность

использования в готовом виде либо на необходимость ее адаптации. При

получении методик для практического использования от сторонних

организаций целесообразно придерживаться следующего алгоритма.

1) Проверить валидность методики на выборке, дающей статисти-

чески значимые результаты корреляции между тестовыми показателями и

оцениваемым критерием валидизации (успешность обучения, продукт-

ивность деятельности и пр.). Критерий валидизации – признак,

независимый от валидизируемого теста, хорошо (достаточно надежно,

полно) отражающий меру изучаемого качества (свойства, процесса). Если

результаты неудовлетворительные (коэффициент корреляции ниже 0,5 и

наращивание выборки не улучшает его), следует провести эмпирическую

валидизацию критерия (т.е. выявить наиболее репрезентативные для

63

исследуемой характеристики личности признаки поведения и деятельности

человека и включить их в виде заданий в методику), а также проверить по

полученным результатам внутреннюю согласованность заданий теста.

Возможно, что при исключении малоинформативных заданий искомая

валидность будет обнаружена.

2) Проверить соответствие тестовых норм. Только после решения

вопроса о валидности целесообразно расширять выборку и определять

надежность, а также эмпирическое распределение тестовых баллов. При

нормальном распределении можно приступать к расчетам тестовых норм

для своей популяции.

3) Проверить практическую эффективность методики. В этом случае

необходимо указать на статистически значимую связь результатов

диагностики с величиной социально значимого критерия (повышение

эффективности деятельности, успеваемости и т.п.).

4) Представить экспериментальный материал, описание теоретич-

еской концепции, инструкцию и методику на экспертизу в экспертный

совет.

При адаптации переводных тестов требуется серьезная эмпирическая

работа по проверке надежности и валидности в новых социально-

культурных условиях, она фактически соответствует по своему объекту

конструированию оригинальной методики.

Этапы эмпирико-статистической работы при исследовании

переводной зарубежной методики на отечественной выборке:

1) Провести, анализ внутренней валидности, внутренней согласов-

анности пунктов, из которых состоит тест, с общим результатом по тесту.

Анализ тем более необходим по тестовым шкалам, полученным с

помощью факторного анализа. По отношению к негомогенным шкалам

анализ внутренней согласованности позволяет осуществить необходимую

проверку информативности пунктов (процент правильных ответов и

64

трудность заданий должны соответствовать оригинальной авторской

версии).

2) Проверить надежность методом ретеста. Без сведений о рет-

естовой надежности тест не может быть использован для построения

психологического прогноза.

3) Провести анализ корреляций с релевантными внешними крит-

ериями, совпадающими с авторскими критериями.

4) Проверить тестовые нормы после проверки устойчивости получ-

енного распределения тестовых баллов.

5) Проверить воспроизводимость структуры связей между шкалами и

факторами (для многомерных опросников обязательно).

Сравнение авторских и реальных полученных результатов позволит

установить влияние культуры, образа жизни на психологический склад

личности, раскрыть актуальные детерминанты, обуславливающие

психологическое различие индивидов, что необходимо для разработки

научных методов воспитания и формирования личности.

Проблема адаптации переводного теста – это не только проблема

перевода (прямого и обратного), но и творческое воссоздание на русском

языке такого варианта, который сохранил бы оценочную способность,

присущую оригиналу.

3.3. Проверка распределения признака

Оценка распределения признака может потребоваться в случае

адаптации методики, а также при оценке ее валидности.

Распределением называется закономерность встречаемости приз-

нака и разных его значений. Статистическое распределение может иметь

графическое представление в виде полигона частот (ломаной линии,

соединяющей точки, соответствующие величинам частот, откладываемым

по оси ординат). Форма распределения является некоторой обобщенной

характеристикой выборки. Кривые распределения бывают одновершинные

65

и многовершинные. В психологических исследованиях чаще всего

ссылаются на нормальное распределение.

Нормальное распределение – вид распределения переменных,

характеризуемое тем, что крайние значения признака в нем ссылаются

достаточно редко, а значения, близкие к средней величине, достаточно

часто. Нормальным такое распределение называется потому, что оно очень

часто встречалось в естественно-научных исследованиях и казалось

«нормой» всякого массового проявления признаков. Это распределение

следует закону, открытому в разное время: Муавром в 1733 г. в Англии,

Гауссом в 1809 г. в Германии и Лапласом в 1812 г. во Франции. График

нормального распределения представляет симметричную унимодальную

колоколообразную кривую (верхняя часть колокола), осью которой

является вертикаль (ордината), проведенная через точку 0.

f (z) u 0,39 -3σ -2σ -1σ 0 1σ 2σ 3σ Z 68,26% 95,44% 99,72%

. Процентное распределение случаев под нормальной кривой

Для любого нормального распределения в пределах М + 1σ лежит

около 68%, в пределах М + 2σ – 95%, М + 3σ – 99,7% (М – среднее

арифметическое).

Параметры распределения -– это его числовые характеристики,

указывающие, где в «среднем» располагаются значения признака,

насколько эти значения изменчивы и наблюдается ли преимущественное

66

появление определенных значений признака. Характеристики

совокупности переменных (признаков), указывающие на наиболее

типичный, репрезентативный для изучаемой выборки результат,

называются мерами центральной тенденции. Практически наиболее

важными мерами центральной тенденции являются математическое

ожидание (или среднее арифметическое), мода, медиана.

а) Среднее арифметическое (М – оценка математического ожид-

ания) - это обобщающий показатель положения уровня центра

распределения. Он вычисляется по формуле:

,n

SxiMx ==

где хi – каждое наблюдаемое значение признака;

i – индекс, указывающий на порядковый номер данного значения

признака;

n – количество наблюдений;

S – знак суммирования.

б) Медиана (Ме) – центральное значение переменной: результат,

находящийся в середине последовательности показателей, если их

расположить в порядке возрастания или убывания.

в) Мода (Мо) – наиболее часто встречающийся результат (самая высокая

точка кривой распределения).

При выборе и интерпретации мер центральной тенденции

необходимо учитывать следующие особенности и правила использования

приведенных показателей.

1. При определении средних величин необходимо тщательное соб-

людение требований однородности переменных, репрезентативности и

достаточности объема выборки.

2. Расчету средних величин должна предшествовать предварительная

разбивка изучаемой совокупности на качественно однородные группы.

67

3. Медиана не зависит от величин и частот встречаемости в рамках

определенного множества переменных.

4. В малых совокупностях мода нестабильна и может сильно изме-

няться при единичных и незначительных вариациях переменных.

5. Каждое значение переменной влияет на величину средних. Если

одно какое-нибудь значение меняется на С единиц, среднее

арифметическое меняется в том же направлении на n

С единиц.

6. В унимодальных симметричных выборках среднее, медиана и

мода совпадают.

7. Являясь обобщенной характеристикой ряда, меры центральной

тенденции не позволяют учитывать его вариации. Наряду с мерами

центральной тенденции обязательно использование мер изменчивости.

Различные меры изменчивости распределения характеризуют

степень и характер вариации признаков.

Меры изменчивости – статистические показатели вариации

(разброса) признака (переменной) относительно среднего значения,

степени индивидуальных отклонений от центральной тенденции

распределения. Меры изменчивости позволяют судить о достоверности и

однородности полученной эмпирически совокупности данных,

существенности сходств и различий в распределении и сравниваемых

группах распределений, точности проведенных измерений. Среди прочих

показателей к ним относятся: размах распределения, дисперсия,

стандартное отклонение, показатели асимметрии и эксцесса.

Размах распределения - разность между самым высоким и самым

низким результатом.

Дисперсия (S, σ2) характеризует средний разброс значений по

выборке относительно среднего арифметического, возведенный в квадрат.

Расчет дисперсии применяют для выделения выборочной совокупности,

68

определения ошибки выборки, однородности изучаемой совокупности по

тому или иному признаку.

На практике, однако, чаще используют другой показатель –

стандартное отклонение (σ или sх)- показатель, представляющий собой

квадратный корень из несмещенной оценки дисперсии.

Дисперсия и стандартное отклонение (или среднее квадратичное

отклонение) имеют некоторые недостатки. Они недостаточно точно

характеризуют изменчивость признака, т.к. отражают абсолютный размер

отклонений. Это неудобно при сопоставлении распределений с различной

размерностью и значением признаков. Для устранения этого недостатка

абсолютные числа переводятся в относительные. Отношение стандартного

отклонения к средней, выраженное в процентах, называется

коэффициентом вариации V:

V = σ *100

х В тех случаях, когда какие-нибудь причины благоприятствуют более

частому появлению значений, которые выше или, наоборот, ниже

среднего, образуются асимметричные распределения. Показатель

асимметрии (А) может быть положительным или отрицательным. При

левосторонней, или положительной, асимметрии в распределении чаще

встречаются более низкие значения признака, а при правосторонней, или

отрицательной, более высокие.

В тех случаях, когда какие-нибудь причины способствуют

преимущественному появлению средних или близких к средним значений,

образуется распределение с положительным эксцессом (Е).

Если же в распределении преобладают крайние значения, причем

одновременно и более низкие, и более высокие, то такое распределение

характеризуется отрицательным эксцессом и в центре распределения

может образоваться впадина, превращающая его в двухвершинное.

В нормальных распределениях асимметрия равна нулю, эксцесс – трем.

69

Оценка типа распределения выступает в форме проверки

нормальности эмпирического распределения. Чтобы установить,

подчиняется ли эмпирическое распределение изучаемой случайной

величины нормальному закону, необходимо сопоставить сведения о

свойствах этой величины и условиях ее изучения, известные

исследователю, со свойствами функций нормального распределения. Это

сопоставление вначале является качественным, а затем осуществляется

специальными количественными методами. Основой качественного

сопоставления служит главное «физическое» условие появления

нормального распределения, а именно: действие на изучаемую случайную

величину большого числа преимущественно независимых и примерно

одинаковых случайных факторов. Если это условие, по мнению

исследователя, выполняется, можно ожидать, что исследуемая величина

распределена нормально.

Количественное сопоставление может включать ряд этапов.

Первый этап – сравнение отдельных свойств эмпирического

распределения со свойствами нормального закона. Это касается, прежде

всего, мер центральной тенденции (мода, медиана и среднее

арифметическое), асимметрии и эксцесса. Асимметрия и эксцесс

нормального распределения равны нулю. Если хотя бы один из этих двух

показателей проверяемого эмпирического распределения существенно

отклоняется от данного значения, это означает аномальность оцениваемого

распределения.

Второй этап проверки эмпирического распределения состоит в

построении теоретической функции, распределения по эмпирическому

ряду в предположении, что он подчиняется нормальному закону. Именно

это предположение и обосновывается при качественном и количественном

(на первом этапе) сопоставлении свойств. Вычисление теоретических

значений вероятностей, соответствующих эмпирическим частотам, в

общем случае осуществляется по таблицам функций распределения.

70

В предположении нормального закона обычно пользуются таблицами

функций Р (г). Вычисление вероятностей при такой процедуре

производится следующим образом. Значения случайной величины х пре-

образовываются в значения стандартного показателя. Сопоставление

заканчивается сравнением фактических (полученных в опыте) и

теоретических (вычисленных) вероятностей. Если различия малы или

отсутствуют, можно считать, что изучаемая случайная величина

распределена нормально. Для проверки нуль-гипотезы о нормальности

распределения можно воспользоваться критерием Х2 и другими методами

(универсальный критерий Колмогорова и др.).

Подтверждение нормального закона данного распределения будет

означать, что полученная эмпирическая кривая не требует нормализации;

распределение можно рассматривать как репрезентативное по отношению

к генеральной совокупности и на его основе определить репрезентативные

оценочные нормы. Если гипотеза не подтвердилась, то либо выборка мала

или не репрезентативна, либо данный тест не дает нормального

распределения результатов.

3.4. Стандартизация показателей

Стандартизация (от англ. standard – типовой, нормальный) –

унификация, регламентация, приведение к единым нормативам процедуры

и оценок теста.

Методику, отвечающую требованиям валидности, надежности и

дифференцированности, необходимо стандартизировать относительно

выборки, на которой ее будут применять. При этом объективность

психологической методики (теста) в целом означает, что первичные

показатели, их оценка и интерпретация не должны зависеть от поведения и

71

субъективных суждений экспериментатора. Добиться объективности

психологического теста можно при выполнении следующих условий:

1) единообразие процедуры проведения теста для получения сравн-

имых с нормой результатов;

2) единообразие оценки выполнения теста;

3) определение нормы выполнения теста для сопоставления с ними

показателей, полученных в результате обработки данных тестирования.

Различаются две формы стандартизации. Первая связана с

регламентацией процедуры обследования, унификацией инструкции,

бланков обследования, способов регистрации результатов, условий

проведения обследования, характеристик контингентов испытуемых.

Стандартизация психологического теста в данном случае включает

определение и учет следующих элементов диагностической ситуации:

1) Условия тестирования (помещение, освещение и другие внешние

факторы). Очевидно, что объем кратковременной памяти лучше измерять

(например, с помощью субтеста повторения цифровых рядов в тесте

Векслера), когда нет внешних раздражителей, таких как посторонние

звуки, голоса и т.д.

2) Содержание инструкции и особенности ее предъявления (тон

голоса, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое

слово должно предъявляться через определенный интервал времени в

секундах.

3) Наличие стандартного стимульного материала. Например,

достоверность полученных результатов существенно зависит от того,

предлагаются ли респонденту самодельные карты Г.Роршаха или

стандартные -– с определенной цветовой гаммой и цветовыми оттенками.

4) Временные ограничения выполнения данного теста. Например,

для выполнения теста Равена взрослому респонденту дается 20 минут.

5) Стандартный бланк для выполнения данного теста. Использование

стандартного бланка облегчает процедуру обработки.

72

6) Учет влияния ситуационных переменных на процесс и результат

тестирования. Под переменными подразумевается состояние испытуемого

(усталость, перенапряжение, тестовая тревожность – т.е. состояние,

обусловленное действием мотива экспертизы и т.д.), нестандартные

условия тестирования (плохое освещение, отсутствие вентиляции и др.),

прерывание тестирования.

7) Учет влияния поведения диагноста на процесс и результат

тестирования. Например, одобрительно-поощряющее поведение эксперим-

ентатора во время тестирования может восприниматься респондентом как

подсказка «правильного ответа» и др.

8) Учет влияния опыта респондента в тестировании. Естественно,

что респондент, который уже не в первый раз проходит процедуру

тестирования, преодолел чувство неизвестности и выработал определенное

отношение к тестовой ситуации. Например, если респондент уже выполнял

тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.

9) единообразие оценки выполнения теста: стандартной

интерпретации полученных результатов (это предполагает сравнение

полученных показателей с нормой выполнения этого теста для данного

возраста (например, в тестах интеллекта), пола и т.д..

Во втором случае стандартизация психологического теста состоит в

определении норм выполнения теста, а также преобразовании нормальной

(или искусственно нормализованной) шкалы оценок в новую шкалу,

основанную уже не на количественных эмпирических закономерностях, а

на его относительном месте в распределении результатов в выборке

испытуемых11.

Нормы разрабатываются для различных возрастов, профессий, пола

и пр. Наличие нормативных данных (норм) в стандартизованных методах

психодиагностики является их существенной характеристикой. Нормы

необходимы при интерпретации тестовых результатов (первичных

73

показателей) в качестве эталона, с которым сравниваются результаты

тестирования. Например, в тестах интеллекта получаемый первичный

показатель IQ соотносится с нормативным IQ (43, 44, 45 баллов в тесте

Равена). Если полученный IQ респондента выше нормативного, равен 60

баллам (в тесте Равена), можно говорить об уровне развития интеллекта

этого респондента как высоком. Если полученный IQ ниже, то низком;

если полученный IQ равен 43, 44 или 45 баллам, то среднем.

Определение норм для теста. На этапе создания теста формируется

некоторая группа испытуемых, на которой проводится данный тест.

Средний результат выполнения этого теста в данной группе принято

считать нормой. Средний результат – это не единственное число, а

диапазон значений (см. схему 2: зона средних значений – 43, 44, 45

баллов). Существуют определенные правила формирования такой группы

испытуемых, или, как ее иначе называют, выборки стандартизации – т.е.

выборки испытуемых, на которой определяются статистические нормы.

Правила формирования выборки стандартизации:

1) выборка стандартизации должна состоять из респондентов, на

которых в принципе ориентирован данный тест, то есть если создаваемый

тест ориентирован на детей (например, тест Амтхауэра), то и

стандартизация должна происходить на детях заданного возраста;

2) выборка стандартизации должна быть репрезентативной, то есть

представлять собой уменьшенную модель популяции по таким

параметрам, как возраст, пол, профессия, географическое распределение и

т.д. Под популяцией понимается, например, группа дошкольников 6-7 лет,

руководителей, подростков и т.д.

Распределение результатов, полученных при тестировании

испытуемых выборки стандартизации, можно изобразить с помощью

графика - кривой нормального распределения. Этот график показывает,

какие значения первичных показателей входят в зону средних значений (в

11 Анастази А. Психологическое тестирование.Т. II – М.: Педагогика, 1982. С. 75-88; 4.С. 121-126.

74

зону нормы), а какие выше и ниже нормы. Например, на рисунке

изображена кривая нормального распределения для теста «Прогрессивные

матрицы Равена».

норманиженормы

вышенормы

Кривая нормального распределения для теста «Прогрессивные матрицы Равена»

Оценки первичные («сырые» баллы) – оценки, полученные

испытуемым на начальном этапе обработки результатов тестовой

методики. Обычно это сведения о количестве правильно решенных задач,

числе попыток при их решении, реже – о времени выполнения заданий.

Получение первичных оценок – формализованная процедура,

заключающаяся обычно в подсчете совпадений с имеющимся кодом

(ключом). «Ключом» в психодиагностике называется набор весовых

коэффициентов для различных ответов;

Иной тип оценок – профильные оценки – способ представления

количественных результатов психодиагностической методики, при

котором оценки по отдельным группам заданий, субтестам с помощью

специальных приемов приводятся к соизмеримым единицам (единой

шкале оценок) и отображаются на графике. Соизмеримость оценок

достигается с помощью выравнивающих коэффициентов, унификации

75

первичных оценок, преобразования стандартизированных оценок в шкалу

с едиными значениями М и s.

Чаще всего в руководствах к тому или иному тесту можно встретить

выражения нормы не в виде сырых баллов, а в виде стандартных

производных показателей. То есть нормы к данному тесту могут быть

выражены в виде Т-баллов, децилей, процентилей, станайнов, стандартных

IQ и др. Перевод сырых значений (первичных показателей) в стандартные

(производные) делается для того, чтобы результаты, полученные по

разным тестам, можно было сравнивать между собой.

Дело в том, что первичные показатели по разным тестам нельзя

сравнивать между собой по причине того, что тесты имеют различное

внутреннее строение. Например, IQ, полученный с помощью теста

Векслера, нельзя сравнивать с IQ, полученным с помощью теста

Амтхауэра, так как эти тесты исследуют разные особенности интеллекта, и

IQ как суммарный показатель по субтестам складывается из показателей

разных по строению и содержанию субтестов.

Стандартизация первичных, или «сырых», психологических пока-

зателей по какой-либо из методик осуществляется их преобразованием в

стандартную шкалу. Производные показатели получаются путем матема-

тической обработки первичных показателей, а способ оценки результатов

теста конкретным испытуемым путем установления его места на

специальной шкале называется шкальными оценками. Шкала содержит

данные о внутригрупповых нормах выполнения данной методики в

выборке стандартизации.

Наиболее распространенными преобразованиями первичных оценок

являются центрирование и нормирование посредством среднеквадра-

тических отклонений.

Под центрированием понимается линейная трансформация величин

признака, при котором средняя величина распределения становится равной

нулю. Так, если при обследовании группы испытуемых с помощью вновь

76

разрабатываемого теста получено значение средней арифметической

равное 17 «сырых» баллов, то это величина может быть выбрана в качестве

центра отсчета шкалы, в обе стороны от которой симметрично

располагаются показатели х < хср и х > хср.

Процедура нормирования заключается в переходе к другому

масштабу (единицам) измерения, который осуществляется по формуле:

),()( λσ

fhn

xf =

где f (x) – теоретические частоты в эмпирической выборке, n –

число членов выборки стандартизации, h – ширина интервала

группирования данных в эмпирическом распределении, σ – стандартное

отклонение в выборке, f (λ) – функция нормирования значений xi.

В качестве функции нормирования обычно выступает z – показатель

(стандартный показатель), выражающий отклонение индивидуального

результата xi в единицах, пропорциональных стандартному отклонению

единичного нормального распределения.

Основными формами оценки результатов теста путем соотнесения с

групповыми данными являются процентили, стандартные показатели,

Т-показатели, станайны, стэны.

Процентиль – процентная доля индивидов из выборки

стандартизации, результат которых ниже данного первичного показателя.

Шкалу процентилей можно рассматривать как совокупность ранговых

градаций при числе рангов 100 и отсчете от 1-го ранга, соответствующего

самому низкому результату. 50-й процентиль (Р50) соответствует медиане

распределения результатов, Р>50 и Р<50 соответственно представляют

ранги результатов выше и ниже среднего уровня результата. Ранги Р1 и

Р100 получают соответственно самый низкий (но, отнюдь не нулевой) и

самый высокий результаты. Процентили показывают относительное

положение каждого испытуемого в нормальной выборке, но не величину

77

различий между результатами (например, разница в первичных

показателях, соответствующая интервалу Р70 – Р80, может составить

10 баллов, а различие в интервале рангов Р50 – Р60 – лишь 1-3 балла).

Более широкое распространение в психодиагностике имеют

стандартные показатели, рассчитываемые на основе линейного и

нелинейного преобразования первичных показателей, распределенных по

нормальному или близкому к нормальному закону. При таком подсчете

проводится z-преобразование оценок. Чтобы определить z-стандартный

показатель, определяют разность между индивидуальным первичным

результатом и средним значением для нормальной группы, а затем делят

эту разность на σ нормативной выборки. Полученная таким образом шкала

z имеет среднюю точку М = 0, отрицательные значения обозначают

результаты ниже среднего и убывают по мере удаления от нулевой точки;

положительные значения обозначают соответственно результаты выше

среднего. Единица измерения (масштаб) в шкале z равна 1σ стандартного

(единичного) нормального распределения. 12

Использование той или иной шкалы зависит от размаха

распределения первичных показателей. Например, если опросник содер-

жит 200 вопросов, то перевод «сырых» баллов в стэны будет являться

сильным «ужатием», что крайне неоправданно. Надо всегда стремиться в

соразмерности «сырых» и стандартных баллов.

Переход от одной шкалы к другой или разработка новых шкал

осуществляется через накопленную частоту или среднее арифметическое

(х) и стандартное отклонение (σ).

Простейшая линейная стандартизация тестового балла

производится по формуле

,Sx

XсрXZ

−=

12 Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. – М., 1999. С. 235.

78

где Z – стандартный балл на шкале Z (с центром 0 и отклонением

1σ), Х – сырой балл по тесту, Хср. – средний балл по выборке

стандартизации, Sx – стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый

балл в любую стандартную тестовую шкалу, принятую в

психодиагностике. Например, перевод в шкалу IQ переводится по

формуле:

IQ = Z 15 + 100.

Напомним, что в шкале IQ центр равен 100, а отклонение равно 15.

Если перевод требуется в шкалу «стенов» (от английского «standart ten» -–

стандартная десятка), то формула пересчета из шкалы Z выглядит так:

Sten = Z 2 + 5.5,

так как в шкале стенов центр равен 5.5, а отклонение равно 2.

Обобщенная формула перевода сырого балла в заданную стандартную

шкалу имеет вид:

Y = Z Ss + M ,

где Y – стандартный балл по произвольной шкале с центром М и

отклонением Ss.

Для серьезных профессиональных тестов вместо линейной

стандартизации используется более сложная процедура нелинейной

нормализации (форсированный переход к нормальному распределению). В

результате этой, более точной, процедуры тест, как правило, снабжается

«конверсионной таблицей» для перевода сырых баллов в стандартные

баллы по заданной шкале. В ней приводится полный перечень

соответствий между интервалами сырой шкалы и интервалами

стандартной.

79

Пример фрагмента конверсионной таблицы

для перевода сырых баллов в стены

Сырой балл

0-6 7-8 8-9 10-13

14-16

17-19

20-22

23-24

25 26-30

Стены 1 2 3 4 5 6 7 8 9 10

После того, как балл по тесту стандартизирован, можно выносить

диагностическое заключение. Общее правило таково: если стандартный

балл Y превышает единицу «верхней» (или «высокой») группы M+Ss, то

данному испытуемому приписывается повышенное значение измеренного

психического свойства. Например, про ученика говорят, что он является

определенно более дисциплинированным, чем средний ученик в

российской школе. Если же стандартный балл Y ниже границы «нижней»

(«низкой») группы M-Ss, то о данном испытуемом формулируется

заключение, соответствующее низкому полюсу измеряемого свойства.

Если мы имеем дело с биполярным (двухполюсным) психическим

свойством, например, «гибкость – ригидность», то для «высокой» группы

формулируется заключение как для «гибких» людей, а для «низкой»

группы – как для ригидных людей. Соответственно, средняя группа из

центрального интервала признается нейтральной, неполяризованной по

данному тестовому параметру.

Проверка репрезентативности тестовых норм осуществляется с

помощью анализа так называемого распределения частот тестовых баллов.

Одним из простейших методов является проверка нормальности этого

распределения. Более сложный и универсальный подход предполагает

сравнение двух распределений, построенных для двух случайных половин

выборки стандартизации. Если два этих распределения оказываются

практически тождественными, то можно говорить о репрезентативности

тестовых норм.

80

Введение понятия репрезентативности позволяет дать более строгое

определение того, что такое стандартизация теста. О стандар-тизации теста

в строгом смысле можно говорить, когда задана полная таблица

соответствия сырой шкалы и стандартной шкалы и содержание этой

таблицы обосновано статистической процедурой распределения тестовых

баллов на выборке стандартизации.

Кроме статистических тестовых норм в современных тестах часто

используются критериальные нормы. Они особенно важны для сферы

образования. При построении так называемого «теста по критерию» шкала

сырых тестовых баллов калибруется особыми реперными точками,

которые соответствуют уровням рассчитанной вероятности достижения

какого-то критерия (заданной эффективности деятельности).

Например, если оператор АЭС был точен в 45 из 48 процентов

заданий, то это может еще и не соответствовать требуемому уровню

критериальной «надежности оператора» (в данном случае «надежность» –

измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это

может считаться достаточным уровнем «надежности». Таким образом, при

построении диагностических заключений по критериальным тестам мы

интересуемся не степенью отклонения балла от центра шкалы, а

достижением или недостижением какого-то критического уровня на

шкале.13

Результаты, отличающиеся от нормального распределения,

переводят в стандартную шкалу через процент распределения. При этом их

количество должно быть достаточно большим (по крайней мере, больше

100).

Например, методику необходимо стандартизировать в 10-балльную

шкалу (от 0 до 10) со средним 5 и стандартным отклонением 2. Для этого

протестировали 300 человек.

13 Шмелев А.Г. Основы психодиагностики. Учебное пособие для студентов педвузов.

Москва – Ростов-на-Дону: «Феникс», 1996.

81

Расчет шкалы производится следующим образом: из всего массива

абсолютных показателей («сырых» баллов) выделяется 0,9% самых

лучших и 0,9% самых худших показателей и им присваиваются

соответственно баллы 10 и 0. Затем из оставшихся выделяется по 2,8%

лучших и худших результатов и соответственно присваиваются баллы 9 и

1 и т.д.

Перевод сырых показателей в стандартные баллы

(десятибалльная шкала)

Процент 0,9 2,8 6,6 12,1 17,4 19,8 17,4 12,1 6,6 2,8 0,9

Шкала 0 1 2 3 4 5 6 7 8 9 10

Для перевода сырых показателей в стандартизированные баллы

используют также сигмальную шкалу, когда высокому, среднему и

низкому уровням выраженности оцениваемого свойства соответствует

область значений, находящихся в интервалах больше или меньше Хср. + σ

(высокий и низкий уровни), а также в пределах этого интервала (средний

уровень).

3.5. Этапы проектирования психодиагностической методики

и их содержание

В случае, когда методика проектируется самостоятельно,

исследователь проходит все этапы, начиная с уяснения целей и области

применения теста, заканчивая ее адаптацией и последующей

модернизацией. Выделим и кратко охарактеризуем основные этапы

проектирования теста.

1. Определение цели применения теста.

В зависимости от цели тест применяется в шести случаях:

82

– для постановки психиатрического, психологического диагноза;

– для классификации специалистов;

– в дифференциальной психодиагностике при поиске и определении

индивидуальных различий между людьми;

– для расстановки и перестановки кадров;

– в ходе профориентационной работы;

– для подбора и профотбора кадров.

Примечания:

– чем важнее цель, тем чувствительнее должна быть методика;

– для практической диагностики в целях отбора и расстановки

кадров методика должна иметь нормативно-установленные стандарты;

– цель методики формулируется с учетом потребностей и реальных

возможностей специалистов;

– источниками формирования целей теста являются: прецеденты,

прогнозы специалистов, литературные источники, прошлый опыт,

социальный заказ, экспертные данные.

2. Определение сферы использования методики.

Выделяются следующие сферы, где могут использоваться методики:

образование, производство, оборона, транспорт, здраво-охранение,

социальное обеспечение, сферы услуг, наука, правосудие, государственная

безопасность, спорт, управление обществом, культура, искусство,

экология, воспитание. Одна и та же методика может иметь применение в

нескольких сферах.

3. Выбор конкретной сложности теста.

Полнота и сложность методики обусловлены наличием у

пользователя специальных психологических знаний, навыков и умений, а

также опыта психометрической и психодиагностической деятельности.

В зависимости от того, кто будет применять тест (методику) может,

быть два варианта сложности:

83

– для специалистов-психологов тест может быть с полной и сложной

интерпретацией результатов;

– для неспециалистов используется упрощенный вариант.

Упрощенный вариант предполагает однозначность трактовки результатов,

доступную неспециалисту.

Кроме того, необходимо предусмотреть конкретный уровень

трудности теста для испытуемых. Уровень трудности - это субъективная

сложность заданий теста для данной выборки. В статистическом плане

трудность заданий теста – это доля лиц (в процентах), решивших и

нерешивших задание теста. Индекс трудности задания вычисляется как

степень его решаемости относительно всей группы испытуемых. Задание

считается оптимальным, если его решили правильно около 50%

испытуемых.

Если задание решается почти всеми испытуемыми, то одним из

вариантов может быть сокращение времени на его решение. Если

наоборот, задание не решается большинством испытуемых, следует либо

переформулировать его, либо исключить из теста.

4. Определение особенностей диагностируемых популяций.

В этом плане должно быть учтено распределение выборки по

следующим параметрам: пол, образовательный уровнень и вид образо-

вание, владения языком, на котором составлена методика, наци-

ональность, вероисповедание, принадлежность к какой-либо профес-

сиональной группе, социальное происхождение, территория, на которой

проживает. В зависимости от состава популяции характер, форма и

содержание стимульного материала должно быть согласованы с

характеристикой популяции.

5. Определение предметной направленности теста.

Тест может измерять следующие характеристики:

– внешнее поведение или внутреннее состояние;

84

– свойства, черты, качества, процессы, состояния, образования или

особенности личности;

– сложная (комплексная) или простая характеристика личности;

– выраженность, частота или интенсивность проявления

психической характеристики.

В зависимости от предметной направленности может планироваться

разработка единичного теста, батареи, системы или набора тестов. В

соответствии с предметной направленностью выбирается

соответствующий стимульный материал.

6. Выбор и определение стимульного материала теста (текстовая,

графическая, вербальная и иная форма, требующая от испытуемого

совершения определенных действий, ответов и пояснений).

7. Отбор и оценивание заданий.

Тестовые задачи – отдельные задания (пункты) методики,

служащие в совокупности для моделирования исследуемой деятельности,

актуализации изучаемых психологических качеств, анализа установок и

отношений личности и т.д.

При составлении набора заданий наиболее типичным является

решение вопросов выбора трудности заданий теста, внутренней

согласованности, надежности частей и всей совокупности пунктов,

факторной нагрузки отдельных заданий и их комплексов, анализ широкого

спектра характеристик валидности выбираемых групп заданий теста.

Однородный и дискриминативный тест может быть получен путем

отбора заданий, имеющих высокую корреляцию с общим показателем и,

помимо этого, долю правильно ответивших (в соответствии с «ключом»)

испытуемых в пределах 80% – 20%.

Кроме этого задания теста должны удовлетворять следующим

требованиям:

– легкость запоминания;

85

– относительная новизна для испытуемых по способу решения и

содержанию;

– лаконичность;

– минимальная вероятность случайного решения;

– экономичность с точки зрения времени выполнения (для тестов

скорости время выполнения одного задания должно быть минимальным).14

8. Определение формы ответов на задания.

Могут быть использованы четыре формы ответов:

а) выражающие отношения согласия, неопределенности, отриц-

ания;

б) ответы как проекция актуальных, ретроспективных или

перспективных состояний испытуемого, его отношений на стимульный

материал;

в) как свободная интерпретация заданий или вопросов;

г) как выбор из вариантов ответов предпочитаемого. При состав-

лении заданий, необходимо помнить, что изменение формы ответа влияет

на валидность методики. Формы ответов должны быть стандартизированы,

где это возможно.

Параметры, лежащие в основе оценивания ответов.

1. Объективность или субъективность оценивания. Этот момент

касается в основном тех тестов, в которых используются задания на

самооценку. Будет ли ответ испытуемого оцениваться так, как это

предполагается инструкцией или каким-либо неизвестным для него

образом? Например, испытуемого просят высказать субъективное

отношение, дать оценку каким-либо действиям других людей, а на самом

деле оценивается общая тенденция давать негативную оценку.

14 Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. – М., 1999. С. 109.

86

2. Целостное поведение (весь организм) или физиологическая

реакция (часть организма). Типичной физиологической реакцией может

быть покраснение от смущения или тремор.

3. Измерение одного возможного ответа или классификация

разнообразных ответов (параметрическое оценивание или непараметр-

ическое). Параметрическими измеряются такие особенности ответа, как

время, количество ошибок, повторений. Непараметрическими раскры-

вается количество и разнообразие классов ответов. В этом смысле многие

тесты на креативность оцениваются непараметрическими.

4. Общее количество ответов или часть, соответствующая

некоторому критерию. Это пересекается с описанным выше третьим

парам-етром, поскольку различные оценки могут быть любой из

указанных здесь категорий.

5. Единый однородный показатель или разнотипные относи-тельные

показатели. Определить единый показатель можно только тогда, когда тест

оценивается в целом, как в случае личностных опросников. Разнотипные

относительные показатели могут определяться в следующих формах:

различия во времени выполнения первой и второй частей теста;

запоминание материала при обычных условиях и при отвлекающих

обстоятельствах.

6. Нормативное или личностное (испативное) оценивание.

Ипсативное оценивание основывается на показателе, допускающем

сравнение выраженности тех или иных психологических особенностей

относительно самого обследуемого (в отличие от нормативных, дающих

внешние сравнения относительно нормативной выборки).

Нормативное оценивание – подход к оценке и интерпретации

измеряемых тестом показателей, отражающих особенности личности или

поведения, путем сравнения индивидуальных результатов со

статистическими значениями нормативной выборки. Положительные

стороны нормативного оценивания: возможность ранжирования

87

испытуемых, относительная доступность интерпретации. Недостатки

связаны с эмпиричностью рассчитываемых показателей, определенной

условностью перенесения выборочных данных на индивидуальное

обследование.

9. Поиск, выделение и обоснование критериев валидизации

методики.

Концептуальная валидизация включает проверку теоретической

обоснованности конструктов (концептов) теста, сравнение их с уже

известными теориями, общепринятыми и общеизвестными положениями.

Один из вариантов валидизации, когда эксперты оценивают по 5-балльной

шкале каждое задание теста на предмет соотнесенности этих заданий с

теорией.

Валидизация эмпирическая – это выявление наиболее

репрезентативных для исследуемой характеристики личности признаков

поведения и деятельности человека.

В качестве критериев валидизации на практике обычно используют:

– объективные социально-демографические и биографические

данные (стаж, образование, профессия, прием или увольнение с работы);

– показатели успеваемости, чаще всего являющиеся критериальной

мерой тестов способности к обучению, достижений в отдельных

дисциплинах, тестов интеллекта;

– производственные показатели эффективности выполнения

отдельных видов профессиональной деятельности, имеющие наибольшее

значение при валидизации методик, используемых в профотборе и

профориентации;

– результаты реальной деятельности (рисование, моделирование,

музыка, составление рассказа и т.д.) при испытании тестов общих и

специальных способностей, тестов личности;

– врачебный диагноз и другие заключения специалиста;

– контрольные испытания знаний и умений;

88

– данные других методик и тестов, валидность которых считается

установленной.

Среди многообразия видов критериев валидизации можно выделить

две группы:

– объективные (относительно независимые от субъективных мнений,

оценок людей);

– субъективные критерии (оценки, суждения, заключения об объекте

исследования, сделанные экспертом, например, педагогом, руководителем,

психологом и т.п.).

В случае использования субъективных критериев индивидуальная

оценка и заключение экспертом делается на основе предложенной ему

оценочной шкалы. Объективность критерия валидизации достигается

увеличением числа экспертов. Кроме того, эксперты не должны быть

знакомы с информацией, полученной об испытуемых по другим

методикам (см. понятие «контаминация критерия»), так как знание

результата испытуемого по тесту может сказываться на оценке его успехов

в реальной деятельности.

Требования к критерию валидизации:

– устойчивость (т.е. не должен изменяться);

– надежность;

– адекватность (соответствие его содержания, формы исследуемой

характеристике);

– дифференцирующая способность критерия (способность с его

помощью отграничивать данную характеристику от тех, которые ею не

являются).

Примечания:

– критерий должен иметь нормальное распределение, описанное

кривой Гаусса;

– критериев может быть выделено много, но каждый валидизирует

тест отдельно;

89

– от точности определения внешнего критерия зависит валидность

теста.

Чем более сложным, комплексным является изучаемое психическое

явление, тем шире, обобщеннее, должен быть критерий. Например, при

обосновании теста на интеллект в качестве критерия валидизации может

выступать эффективность учебной, производственной, научной

деятельности; при валидизации методики для исследования экстраверсии-

интроверсии – экспертные оценки таких личностных характеристик, как

общительность, жизнерадостность, социальная ответственность и пр.

Последовательность поиска и выделения критериев:

– изучается максимально возможный перечень критериев в реальной

жизнедеятельности популяции, связанных с изучаемым свойством;

– выделяется из них наиболее практичный и репрезентативный;

– оценивается соответствие критерия требованиям его устойчи-

вости, надежности, адекватности, дифференцирующей способности;

– анализируется корреляция с выбранным критерием отдельного

теста, каждого теста в батарее и в целом батареи тестов (в зависимости от

корреляции каждого теста с внешним критерием определяется

корреляционная значимость каждого теста).

Использование экспертных оценок в качестве критерия валидизации

включает четыре возможных метода проведения процедуры валидизации.

а) Коллективная оценка. При коллективной оценке эксперты совм-

естно оценивают объект с помощью оценочной шкалы. Выбор оценочных

шкал чаще всего осуществляется по принципу наибольшего удобства для

эксперта. Условием коллективной оценки является выработка общего

компромиссного мнения. При таком способе оценивания результат весьма

зависим от личностных особенностей и характера группового

взаимодействия экспертов.

90

б) Метод средневзвешенной оценки. В данном случае каждый испы-

туемый оценивается несколькими экспертами независимо друг от друга.

Затем полученные оценки усредняются.

в) Метод ранжирования. Этот метод заключается в том, что неск-

олько экспертов независимо друг от друга или совместно распределяют

всех членов выборки на группы по степени выраженности оцениваемого

признака. Полученные ранговые места при независимом оценивании могут

быть также усреднены.

г) Метод парного сравнения. Здесь задача экспертов состоит в поп-

арной расстановке субъектов по позициям альтернативных признаков

(«общительный – замкнутый» или выраженность «большая – меньшая»),

предложенного для оценки качества. Показателем места, занимаемого

испытуемым в ряду других, служит общее число предпочтений этого

субъекта по сравнению с другими по данным всех экспертов. Этот

показатель может быть приведен к числу экспертов и числу сравниваемых

испытуемых и вычислен в процентах. Для расчета применяется формула

Дж. Гилфорда:

,1002Nn

NB

PR+

=

где В – число предпочтений, N – число экспертов, n – количество

сравниваемых объектов.

С выделением критерия валидизации тесно связан критериально-

ключевой принцип – принцип конструирования тестов на основе

обнаружения (эмпирического) психологических признаков, позволяющих

дифференцировать релевантные критериальные группы от контрольных.

То есть для включения в субтест (шкалу) отбираются лишь те задания,

которые, будучи тесно связаны с внешним критерием, хорошо

дифференцируют на группы испытуемых, например, с тем или иным

клиническим диагнозом и здоровых людей.

91

Другой принцип конструирования тестов на основе выявления

ограниченного, определяемого разработчиком круга факторов, носит

название факторно-аналитического принципа. В данном случае при

разработке теста корреляционному анализу подвергаются связи между

заданиями, и в тесте оставляют только те из них, которые коррелируют с

общим фактором.

10. Расчет временных параметров теста.

Для расчета временных параметров, следует уяснить:

– необходимо или нет ограничение по времени для испытуемых;

– учесть сложность и длину методики (количество заданий);

– учесть необходимые затраты на инструктирование, работу

испытуемых со стимульным материалом и обработку результатов;

– если тестирование проводится с использованием ЭВМ, то

осуществляются отдельные расчеты.

Расчет времени носит сугубо предварительный характер. После

экспериментальной работы временные параметры теста уточняются.

Обычно на работу с одним тестом должно уходить времени не более двух -

двух с половиной часов с перерывами.

11. Определение условий применения теста.

Определяются 2 группы условий:

а) организационные:

– учет квалификации экспериментатора (разработчик психоди-

агностической методики, пользователь-профессионал, пользователь-

неспециалист);

– отношения с испытуемыми (добровольные–обязательные, беспл-

атные – за оплату);

б) материально-технические:

– необходимость специально оборудованного помещения;

92

– компьютеризованный, бланковый или смешанный варианты

методики;

– необходимость аудио-, видеоаппаратуры;

– стандартные для всех испытуемых условия.

12. Формирование исследовательской выборки.

Наиболее важными здесь являются две процедуры:

– определение необходимого количества выборок (лучше 2-3);

– определение их количественных и качественных характеристик.

13. Компоновка и оформление бланков, буклетов со стимульным

материалом.

Последовательность работы:

– составление композиционной схемы;

– наполнение композиционной схемы стимульным материалом.

Примечание:

– стимульный материал должен быть оформлен в соответствии с

нормативными требованиями по форме, размеру, цвету, расположению.

Размеры всех знаков и стимулов должны при этом обеспечивать хорошее

восприятие без коррекции зрения.

14. Разработка ключей, инструкций и интерпретационных схем.

Схема интерпретации результатов должна позволить составить

итоговое заключение психолога. При этом существуют три вида

заключений:

– описательное (психологическая характеристика обследуемого);

– консультационное (делается прогноз дальнейшего развития);

– оценочное (в виде балльной оценки изучаемого свойства).

93

4. ОСНОВНЫЕ ТРЕБОВАНИЯ ПО СОЗДАНИЮ НАДЕЖНЫХ


4.1. Правила отбора, формулировки и анализа заданий тестов

Разработка заданий является важным элементом, обеспечивающим

надежность создаваемого теста. Все возможные формы заданий можно

свести в две группы: задания закрытого и открытого типа.

Задачи закрытого типа – тип тестовых задач, предусматривающий

различные варианты ответа на поставленный вопрос, задание. Из набора

предлагаемых вариантов испытуемый выбирает один или несколько

правильных, по его мнению, ответов.

Основными видами заданий закрытого типа, используемых в

большинстве тестов, являются:

– задания на аналогии (форма заданий тестов интеллекта, в которой

испытуемый должен выявить отношение аналогии между парами

элементов (слов, наименований, цифр, изображений и пр.);

– задания-последовательности (требуется на основе предвари-

тельного выделения сходства и различия объектов, отношений между

ними продлить стимульный ряд с числовым, графическим, вербальным и

т.п. материалом, т.е. завершить последовательность элементов);

– задания на исключение лишнего (форма заданий тестов интеллекта,

в которой испытуемый должен выявить общую закономерность для списка

элементов и устранить лишний для этой закономерности элемент, у

которого этой общей характеристики нет);

– задания с несколькими вариантами выбора (задание, состоящее из

двух частей: утверждение и варианты выбора, один из которых

правильный, а остальные, являющиеся дистракторами, нет.

Дистракторами называются альтернативные варианты ответов, не

являющиеся правильными, но внешне близкие к правильному решению.

94

Из данных вариантов испытуемые должны выбрать правильный ответ.

Преимуществами является возможность высокой надежности каждого

задания, легкость вычисления показателей. Недостаток – возможность

угадывания);

– альтернативные задания (форма задания, содержащего некоторое

утверждение, которое испытуемый должен оценить как истинное или

ложное и дать ответ «да» или «нет»). При их использовании необходимо

принимать во внимание возможность возникновения тенденции чаще

отвечать в положительном или отрицательном плане, тенденции к

невнимательному и поверхностному выполнению заданий. Для этого

целесообразно предусматривать дублирующие вопросы, чередование

заданий, требующих положительных и отрицательных ответов,

использование вопросов с двойным отрицанием и пр.;

– задания на восстановление соответствия (форма заданий, в

которых испытуемому предлагается восстановить соответствие между

элементами двух списков);

– задания с ограниченным ответом (форма заданий, в которых

испытуемые должны давать ответы, возможности формулирования

которых соответствующим образом ограничены: «Стандартное отклонение

измеряет ...»);

– задания с переструктурированием (требуется восстановление

правильной комбинации элементов какой-либо конструкции).

Задачи открытого типа – тип тестовых задач, предусматривающих

свободные ответы испытуемого, по существу задания без предлагаемых

вариантов ответов. Регламентируются лишь наиболее общие аспекты

формы ответа (вербальная или невербальная, ориентировочный объем

ответа, иногда – ориентировочное время). Наряду с положительными

моментами (разносторонность, развернутость информации), закрытым

задачам присущи и определенные недостатки:

95

– сложность (иногда невозможность) формализации ответов и их

оценки;

– неоднозначность, вызывающая затруднение в интерпретации;

– громоздкость процедуры и большие временные затраты на

обследование.

В психологической диагностике применяются различные виды

заданий открытого типа:

– задания со свободным ответом (форма заданий, в которых на

ответы не накладываются никакие ограничения, однако при корректной

формулировке заданий предполагается наличие только одного

правильного ответа. Например: «Что измеряется стандартным

отклонением?»);

– задачи дополнения (требуется продолжить утверждение или

изображение по предложенным начальным элементам, например, «Мой

отец…..», «Если бы я был руководителем…»);

– задачи свободного конструирования (устный или письменный

рассказ, интерпретация изображения, ситуации, техническое

конструирование и пр.).

Содержание заданий теста зависит от того, какие теоретические

положения являются определяющими для психолога в понимании природы

изучаемых явлений. Процедура их составления состоит в переводе

предварительно выделенных признаков изучаемого свойства на язык

заданий для испытуемого. При этом могут применяться как прямые, так и

косвенные вопросы-задания, направленные на предупреждение установки

на социально одобряемый ответ.

При принятии решения, какой тип задания использовать, следует

помнить о влиянии специфических факторов. Если тест состоит из заданий

одного типа, возникает опасность влияния некоторого специфического

фактора, связанного с этой частной формой задания.

96

Кроме этого, источником ошибок при тестировании часто является

утомление, которое наступает при работе с тестами, требующими

необходимых усилий по концентрации, сосредоточению внимания на

заданиях одного типа. В этом плане целесообразным будет включение в

тест заданий различного типа.

Существует несколько правил для выбора и упорядочивания

заданий при испытаниях теста:

1. Располагать задания каждого типа вместе. Это дает возможность

испытуемым приспособиться к данному типу заданий, а, следовательно,

достаточно понимания одной части инструкции для множества заданий.

2. Располагать задания в порядке трудности. Это предотвратит

случаи, когда слишком старательный испытуемый тратит все свое время

(или слишком много времени) на задания, которые он не может решить, и

таким образом лишает себя возможности попытаться выполнить другие, по

которым он мог бы получить баллы, а в результате все формы анализа

заданий будут неточными.

3. В рамках ограничений (1) и (2), располагать материал настолько

случайно (произвольно), насколько это возможно. Это снижает

монотонность и связанное с ней утомление.

4. Не комплектовать вместе такое количество заданий, что среднему

испытуемому для их выполнения требуется более полутора часов (для

взрослых). Для детей период сосредоточения в тестах способностей

должен быть более ограниченным.

5. Чтобы убедиться, сколько времени требуется на выполнение

заданий теста, дать указание испытуемым отмечать, какое задание теста

они выполняют в различные моменты времени в процессе тестирования.

6. Предотвращение случайного угадывания. Следует выбирать ту

форму заданий, которая сокращает вероятность случайного угадывания

правильных ответов настолько, насколько это возможно.

97

7. Отношения между заданиями. Необходимо следить за тем, чтобы

форма задания (варианты выбора или списки для восстановления

соответствий) не содержали в себе или не раскрывали ответы на другие

задания.

8. Если задания выглядят в равной степени эффективными,

выбирать тот тип заданий, который менее всего представлен.

Для того чтобы задание было эффективным (а, следовательно, и весь

тест), необходимо соблюдать следующие правила их формулировки.

1. Простота. Задание должно быть настолько простым, насколько

это возможно для его точного понимания. Нежелательно, чтобы на

результаты оказывали влияние уровень словарного запаса испытуемого

или его общие способности. Следует избегать употребления многозначных

понятий, редких значений слов, сленга, диалектизмов, узкоспециальных

терминов и формулировок.

2. В заданиях с несколькими вариантами выбора все дистракторы

(неверные варианты ответов) должны быть такими, чтобы каждый из них

мог привлечь внимание испытуемых, то есть быть «похожими» на

правильный ответ. Таким образом, при оценивании заданий каждый

дистрактор должен в идеале в равной мере использоваться всеми

испытуемыми, не выполнившими задание правильно. В то же время,

необходимо убедиться, что предложенные дистракторы не вводят в

заблуждение лучших испытуемых.

3. Только один вариант ответа из предложенного набора должен

соответствовать правильному ответу. Иногда различные взгляды на одну и

ту же проблему могут привести к непредусмотренному ответу, который

тоже будет правильным.

4. Ответ на один вопрос не должен давать ключа к ответам на

другие, то есть не следует использовать дистракторы из одного задания в

перечне других.

98

5. Избегайте тестировать тривиальное ввиду простоты его

обнаружения.

6. В основе каждой задачи (пункта), вопроса, набора суждений и т.д.

должна лежать одна мысль.

7. Необходимо избегать слишком коротких или слишком длинных

высказываний, использование которых ведет (в первом случае) к

появлению дополнительных вопросов, либо (во втором случае) к

затруднению понимания, удлинению времени обследования, утомлению

испытуемых;

8. Задачи должны быть реальными, отражать существующие

отношения, соответствовать времени, иметь конкретное содержание.

Проверка характеристик заданий базируется на экспертных оценках,

которые служат основанием для отбрасывания, исключения или

переформулирования заданий. Отобранные задания размещаются по

степени трудности, либо в случайном порядке (гомогенные тесты), либо

могут объединяться в блоки для измерения определенного фактора или

качества (гетерогенные тесты).

Для анализа заданий существенными являются два показателя:

а) доля испытуемых, давших ключевые (т.е. совпадающие с ключом)

ответы;

б) величина корреляции заданий с общим показателем.

Процедура анализа заданий состоит из следующих шагов:

1. Отобрать 27% лучших (группа Н) и 27% худших (группа L)

испытуемых по каждому тесту.

2. Для каждого задания подсчитать долю испытуемых из группы Н,

давших правильный (ключевой) ответ: Рн.

3. Сделать то же самое для группы L: P.

4. Для каждого задания посмотреть таблицы Фэна, которые для

каждой возможной комбинации Ph и Pl дают приближенную оценку Р и

коэффициента точечно-бисериальной корреляции r pbis (коэффициент

99

корреляции между заданием и общим показателем), – на пересечении

строк и столбцов: каждая строка соответствует значению Ph, а каждый

столбец – значению Pl.

В дальнейшем при отборе заданий необходимо ориентироваться на

следующие критерии:

– величина теста (не менее 20-30 заданий);

– по содержанию вопросы должны охватывать разнообразные

аспекты оцениваемого свойства;

– корреляция заданий с общим показателем не должна быть меньше

0,2;

– уровень трудности заданий (зависит от цели и характера теста и

должнен обеспечивать оптимальную дискриминативность заданий,

позволяющих выявлять различия между испытуемыми);

– коэффициент надежности должен быть не менее 0,7.

В ряде случаев значимым фактором, влияющим на результаты

тестирования, является так называемая тестовая искушенность. Тестовая

искушенность – индивидуальный опыт обследуемого, приобретенный в

ходе выполнения различных психологических тестов. По мнению

А.Анастази, преимущества человека, ранее участвующего в обследовании

перед новичком складываются из ранее преодоленного чувства

неизвестности, сформировавшейся уверенности в себе, сложившегося

отношения к тестовой ситуации, приобретенных навыков работы с

тестовыми заданиями, осознания исходности принципов решения задач в

определенных группах тестов, снижения мотива экспертизы и проявления

различного рода установок, снижающих достоверность получаемых

диагностических данных.

100

4.2. Проблемы конструирования личностных опросников и

правила составления их заданий

Как и в случае тестов, качество отдельных заданий (вопросов,

утверждений) является определяющим для всего опросника. При

разработке заданий для личностных опросников необходимо учитывать

следующие проблемы, которые, если их не обойти, неизбежно

приведут к низкой валидности тестов.

1. Установка на согласие. Это тенденция испытуемого соглашаться

с утверждениями или отвечать на вопросы «да» независимо от их

содержания. Чаще всего проявляется, когда вопросы неоднозначны или

неопределенны.

2. Установка на социально одобряемые ответы. Это тенденция

испытуемых отвечать на вопросы теста так, чтобы выглядеть «социально

положительным»: если возможен «социально желательный» ответ, то

весьма вероятно, что испытуемые будут его давать.

3. Установка на неопределенные или средние ответы. Если в

опроснике представлена средняя категория ответов, отражающая

нерешительность или неуверенность в ответе (например, «не уверен», «не

знаю», или «затрудняюсь ответить»), то многие испытуемые склонны к

ней прибегать, как к безопасному компромиссу.

4. Установка на «крайние» (расположенные по краям шкалы)

ответы. Эта установка может проявиться при использовании

многоэлементной рейтинговой шкалы. Некоторые испытуемые,

независимо от содержания вопросов, предпочитают выбирать крайние

ответы.

5. Очевидная валидность вопросов (утверждений). Несомненно, в

тестах личности необходима уверенность в том, что ответы на вопросы

могут рассматриваться как правдивые. Данные опросника

рассматриваются как данные Q и Q1. Данные из первого множества

рассматриваются так, как если бы они отражали поведение испытуемого,

101

данные из второго – как ответ на отдельный вопрос, ответ, который либо

нагружен некоторым фактором, либо нет, в зависимости от того, отражает

ли он поведение испытуемого.

6. Выборка из генеральной совокупности вопросов. В тестах

интеллекта и специальных способностей лингвистические задания нелегко

перепутать с математическими или какими-либо другими. Однако в

области особенностей личности и темперамента все гораздо сложнее. В

результате возникает проблема выбора адекватных заданий из генеральной

совокупности для обеспечения высокой валидности опросника.

7. Выборка из генеральной совокупности испытуемых.

В личностных тестах, в отличие от тестов, разрабатывающихся, например,

для испытуемых с той или иной патологией, в идеале нужны выборки из

общей популяции (т.е. всего населения страны), в которой встречаются все

возможные показатели. Такие выборки должны быть очень большими и их

обычно трудно получить.

8. Проблемы в установлении адекватного критерия валидности.

Например, если мы пытаемся измерить авторитаризм, то будем

вынуждены полагаться на рейтинги, поскольку нет никаких других

внешних мерил (в отличие, например, от школьных экзаменов в случае

диагностики способностей). Рейтинги – это неадекватный инструмент, а

если бы они подходили, тест был бы не нужен.

При составлении личностных опросников содержание вопросов

может быть следующим:

1. Фактическая информация о личности и социальном положении

опрашиваемого (лучше в конце).

2. Факты поведения в прошлом или настоящем (самого опраши-

ваемого или других); источники знания об этих фактах; мотивы,

побуждающие говорить об этих фактах.

3. Знания о чем-либо и их источники.

102

4. Мнения о фактах и отношениях; мотивы и нормы поведения

опрашиваемого.

5. Интенсивность мнений и отношений:

а) оценка интервьюером глубины чувства опрашиваемого по

интонации его ответов, репликам, мимике;

б) самооценка опрашиваемого относительно того, является ли его

оценка, мнение сильным или слабым;

в) самооценка опрашиваемого по «графическому термометру» или

числовой шкале.

Перечислим основные правила для формулирования заданий

опросников (П.Клайн).

1. Устраняйте возможность проникновения испытуемых в суть того,

что изучается с помощью данных заданий. Это делается не ради того,

чтобы ввести их в заблуждение, а потому, что если испытуемые

догадаются, что некоторое задание предназначено для измерения черты Х,

то ответы будут отражать их точку зрения по выраженности у себя этой

черты, а не реальное положение дел. Представления же некоторых

испытуемых о своей личности могут быть значительно искажены.

Идеальным было бы оценивать испытуемого по чертам, о которых он не

знает, задавая ему вопросы о том, что он знает хорошо.

2. Формулируйте понятные, недвусмысленные вопросы (утверж-

дения). Это важно для того, чтобы уменьшить погрешность, возникающую

из-за неверного понимания вопросов. Высокая надежность зависит, в

известной степени, от этого качества теста.

3. Задания должны отражать конкретные, а не общие аспекты

изучаемой области поведения. Так, задание вида: «Нравится ли вам

спорт?» – является слишком общим: термин «спорт» – неопределенный,

как и термин «нравится». Необходимо задать более конкретный вопрос:

«Вы играете регулярно в какую-либо спортивную игру?» или «Вы

регулярно следите за игрой вашей любимой спортивной команды?»,

103

«Следите ли вы за результатами скачек?». На эти вопросы, ответы на

которые вряд ли будут фальсифицировать или относительно которых

реальное поведение вряд ли изменится, испытуемые будут отвечать

одинаково, когда бы их ни тестировали.

4. В каждом задании следует задавать только один вопрос или

делать только одно утверждение.

Рассмотрим пример: «Думаю, следует заставить черных и

представителей других рас эмигрировать». Если это задание

предназначено для измерения расизма, то оно будет плохим. Есть расисты,

которые проводят резкие различия между черными и людьми других рас.

Другие считают всех, кто не является англо-саксами, не относящимися к

людям. Следовательно, некоторые расисты могут положительно ответить

на этот вопрос, тогда как другие – нет (только черных следует принуждать

к эмиграции). А, например, немцы, проживающие в Англии, опять-таки

ответят «нет», исходя из своей интерпретации понятия «другие расы».

Следовало бы дать другое утверждение, например: «Думаю, следует

заставить негров эмигрировать». Сейчас оно более понятно: в нем остался

только один вопрос.

5. Избегайте, насколько это возможно, слов, определяющих частоту

действий. Они обычно настолько субъективны, что вносят большую

неопределенность. Например: «Часто ли вам снятся сны?». Некоторые

испытуемые могут испытывать такое чувство, что видеть сон раз в месяц –

это часто, и ответят на вопрос положительно.

Другие могут возразить, что один сон за ночь – это не часто, потому

что исследования показали, что людям снятся три – четыре сна за ночь, и

ответят «нет». Вопрос, таким образом, становится бессмысленным. Ответы

указывают противоположное тому, что происходит на самом деле.

Улучшенный вопрос будет звучать так: «Снятся ли вам сны дважды

в неделю или чаще?».

104

6. Насколько возможно, избегайте терминов, выражающих чувства.

Вместо этого попытайтесь представить задание в контексте поведения.

Сообразительные, высокообразованные, точно выражающие свои мысли

испытуемые могут долго колебаться в выборе значения слова,

выражающего чувства, например, «нравится ли вам …»: «Да, им нравится

это, но, вероятно, «наслаждаться» будет чуточку точнее; «находить

удовольствие» - да, но...», - и т.д.

7. При помощи инструкций обеспечьте, чтобы испытуемые давали

первые приходящие на ум ответы. Не позволяйте испытуемым долго

размышлять над значением заданий. Эффективное задание личностного

теста, которое действительно имеет отношение к поведению испытуемого,

должно вызвать немедленную и точную реакцию. Как только испытуемый

начинает задумываться над вопросами, включаются не только защитные

процессы, но и сознательные искажения, такие, как желание произвести

впечатление, угодить экспериментатору, – все это отрицательно влияет на

результаты теста.

Многие задания могут не выдерживать критической оценки в

основном из-за не вполне оправданного желания психолога вложить

слишком много информации в краткую форму задания. Вот почему особое

значение при создании заданий теста придается понятности и

конкретности.

Кроме этого существуют следующие правила формулировки

вопросов:

1. Не спрашивать сразу о многом! Вопрос логически не должен

содержать два и более вопросов. Не должно быть, например, так: «Какие

изменения следует внести в наиболее важные, по Вашему мнению, формы

организации учебной деятельности слушателей?»

2. Избегать «ваучеров». В анкете должен использоваться язык

опpашиваемых, а не исследователей («Хотели бы Вы стать брокером или

дилером?»).

105

3. Спрашивать короче. С конца вопроса должно быть видно его

начало.

4. Ввести в вопрос, если нужно, пpедисловие к нему.

5. На абстрактный вопрос получите абстрактный ответ.

6. Не рекомендуются варианты ответов: либо большинство, либо ни

одного. Отрицательные и положительные варианты должны быть

уравновешены нейтральными, менее категоричными.

7. Снимайте установку на психологическую защиту! Не напоминай-

те о слабых местах прямо.

8. Снимайте установку на стереотипы.

9. Избегайте заезженных слов («мероприятия», «подвижки»).

10. Следует избегать внушения: «Не кажется ли Вам...», «Не

считаете ли Вы...».

11. Интерес должен расти постепенно! Не устраивайте дискуссию

первым же вопросом.

12. Сложное должно следовать за простым.

13. Интимное – в конце.

14. Последующее должно уточнять предыдущее.

15. Hа вопpосы «в лоб» могут быть получены ответы «по лбу». Чем

лучше пpоект анкеты, тем менее ясна его цель для читателя. Hаивные

откpытые вопpосы не дадут пpавильных ответов.

4.3. Проблемы конструирования тестов достижений

За внешней простотой тестов достижений, позволяющих оперативно

тестировать довольно широкий круг знаний и навыков человека в

различных областях, скрываются определенные технологические

особенности. Прежде всего качество этих тестов зависит от качества

отдельных заданий. Соблюдение определенных требований в связи с этим

позволяет тестировать не только декларативный уровень поверхностных

знаний, основанный лишь на ассоциативных связях «ключевых» слов, но и

106

более глубокий уровень реально ценных операциональных знаний,

позволяющий реально использовать полученные знания на практике.

Под операциональными знаниями понимаются знания,

позволяющие их носителю определенным образом действовать, т.е.

оперировать с объектами, применяя при этом умения (например, знание,

изложенное в форме алгоритма).

Неквалифицированные тестовые задания, апеллирующие, как

правило, к ассоциативному мышлению, которое удовлетворяется

поверхностным заучиванием связей между определенными ключевыми

словами, не достигают уровня собственно концептуального, или

операционального, мышления, которое оперирует глубокими логическими

связями между понятиями и правилами их применения к анализу реальных

объектов, фактов и событий.

Профессионально составленные тестовые задания также содержат

поверхностные ассоциативные связи, но – в качестве провокационных

мнимых правильных ответов-дистракторов.

Психологика испытуемого.

Под психологикой испытуемого понимается совокупность

представлений, правил оперирования ими и стратегий поведения, которые

конкретный испытуемый склонен проявлять в психологическом

эксперименте, в частности, в ходе психодиагностического обследования.

Наличие выбора возможных ответов провоцирует у испытуемых

угадывание правильного ответа на основе интуиции. Умелые разработчики

тестов, зная типовую психологику испытуемых, «ловят» невеж,

провоцируя выбор ложного ответа, обладающего внешней

правдоподобностью.

Психологику можно описать как совокупность рациональных и

иррациональных (основанных на приметах) стратегий поведения. К числу

типичных, мнимо разумных стратегий поиска правильного ответа

107

А.Г. Шмелев предлагает отнести15:

1. Стратегию ассоциативного правдоподобия.

2. Выбор «золотой середины». Так, если даны три числа (например,

возможные даты Куликовской битвы: 1380, 1390, 1480), то испытуемый

ожидает, что автор задания дает ему возможность сделать два типа ошибок

- «недооценка» и «переоценка» - и с меньшей вероятностью полагает, что

правильный ответ может быть крайним.

3. Выбор более развернутого и аргументированного ответа, учиты-

вающего частные случаи. Для того, чтобы запутать испытуемого, следует

маскировать правильный ответ под внешне простую формулировку, а

ложный ответ - под более развернутую.

4. Выбор более наукообразного ответа из иностранных и

малопонятных слов.

5. Выбор ответа, который напоминает что-то знакомое. Невежи

думают, что учителя хотя бы раз упоминали то, что звучит в формуле

возможного правильного ответа.

6. Выбор ответа, который соответствует общим ожиданиям.

Например, трудно предположить, что еще за несколько дней до

начала самой кровопролитной войны Сталин поддерживал с Гитлером

отношения стратегического партнерства. Пример вопроса:

«В какую страну экспортировал Советский Союз стратегическое

сырье для сталелитейной промышленности (никель, молибден) накануне

вторжения гитлеровской Германии в 1941 году?»

– в Великобританию?

– в США?

– в Германию?

При составлении заданий необходимо обеспечивать тематическую

репрезентативность теста. Задания не должны быть случайными или

15 Шмелев А.Г. Психометрические основы психодиагностики. В кн.: Общая

психодиагностика ред. А.А. Бодалев, В.В.Столин. М.: Изд-во Моск.ун-та, 1987. С. 53-112.

108

неравномерно разбросанными по карте знаний в данной предметной

области. Оригинальность задания должна достигаться за счет

использования оригинальной логической структуры для хорошо

известного и основополагающего вопроса, а не за счет избитой логической

структуры для вопроса совершенно экзотического, частного и не

имеющего фундаментального значения. Для того чтобы добиться

представительности набора заданий (варианта теста) по отношению к

тестируемой области, следует воспользоваться простым приемом –

составить план в виде таблиц:

Тема / тип Понятия Принципы Факты Задачи Тема 1 * * * Тема 2 * * Тема 3 * * *

На пересечении строк и столбцов в клеточках Х данной таблицы

надо проставить номера составленных заданий. Тогда можно будет

увидеть, какие темы освещены менее других и какие логико-

семантические типы заданий следует специально разработать и добавить

для определенных тем.

Кроме обеспечения тематической сбалансированности, в тесте

достижений следует предусмотреть, чтобы ни одно из заданий теста не

служило подсказкой для ответа на другое задание (Шмелев).

Трудность заданий.

Составитель заданий к тестам не должен забывать, что тестовые

задания по своей трудности есть нечто противоположное «олимпиадным»

заданиям. Если для олимпиад уместны трудные задания, позволяющие

дифференцировать прежде всего лучших от самых лучших, то для тестов

нужны элементарные задания, позволяющие скорее дифференцировать

109

неподготовленных (худших) от умеренно подготовленных

(«середнячков»).

Кроме того, следует учесть, что тесты даются с ограничением

времени: на 20 заданий отводить целесообразно не более 10 минут.

Лучший балл здесь показывает тот, кто уверенно и быстро применяет

базовые знания, кто способен показать хороший умственный темп,

высокую степень автоматизации основных навыков, «свернутость»

понятий и умственных операций. Хороший ориентир в том, какой

трудности должны быть тестовые задания, может быть сформулирован

так: «Без ограничений времени отличник должен уметь ответить на все 100

процентов тестовых заданий, но при ограничении времени отличник со

средним умственным темпом должен ответить только на 70-80 процентов

тестовых заданий».

Самый эффективный метод выяснения трудности заданий –

проведение пилотажного эксперимента. К этому эксперименту можно,

например, привлекать учеников из более старшего класса, для которых он

может стать хорошим поводом повторить материал и выяснить пробелы

перед экзаменами.

Скорость пилотирования теста и расчета трудности заданий

значительно возрастает, если учитель (психолог, проводящий

тестирование) располагает компьютерным классом и специальной

программой оперативного тестирования.

110

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

1. Что такое психометрия и каковы области ее применения?

2. Назовите основные типы шкал и дайте их краткую характеристику.

3. Что такое нормальное распределение?

4. В чем состоит сущность валидности?

5. Как измеряется надежность теста?

6. Как влияет выборка стандартизации на репрезентативность тестовых

норм?

7. Назовите основные варианты перевода сырых тестовых показателей в

стандартизированные.

8. Что такое стандартизация теста?

9. Чем характеризуется дискриминативность теста?

10. Что такое достоверность теста?

11. Что такое тестовые нормы?

12. В чем состоит разница между тестовыми нормами и «социокультурным

нормативом»?

13. Назовите основные типы заданий, используемых в различных тестах?

14. Какие требования предъявляются к выборке?

15. Какие требования существуют к формулировке заданий теста?

16. Назовите основные проблемы, возникающие при составлении

личностных опросников?

17.Назовите наиболее распространенные формы вопросов (утверждений)

для личностных опросников?

18. Какие стратегии характеризуют психологику испытуемого?

19. Как обеспечивается тематическая репрезентативность заданий в тестах

достижений?

20. Какие требования предъявляются к уровню трудности заданий в тестах

достижений?

21. Что в себя включает методическое руководство к тесту?

111

22. Какие основные шаги характеризуют процесс проектирования

психодиагностической методики?

23. В чем отличие ипсативного и нормативного оценивания?

24. Какие требования предъявляются к критерию валидизации?

25. Какие процедуры лежат в основе повышения надежности тестов и

личностных опросников?

112

ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ

Задание 1. Определите, какие из следующих утверждений являются

правильными.

А. Медиана – наиболее часто встречающийся результат.

Б. Мода – центральное значение переменной: результат, находя-

щийся в середине последовательности показателей, если их расположить в

порядке возрастания или убывания.

В. Верхним абсолютным порогом чувствительности называется

максимальная сила раздражителя, при которой еще возникает адекватное

действующему раздражителю ощущение.

Г. Факторный анализ – комплекс аналитических методов, позволя-

ющих выявить скрытые (латентные) признаки, а также причины их

возникновения и внутренние закономерности их взаимосвязи.

Д. Под центрированием понимается линейная трансформация вели-

чин признака, при котором средняя величина распределения становится

равной нулю.

Задание 2. Восстановите соответствие.

В левой части таблицы даны названия шкал, в правой – приводятся

их определения. Ваша задача – стрелками соединить название каждой из

шкал и соответствующее ему определение.

Название шкал

Определение шкалы

Номинативная

Шкала, классифицирующая объекты или субъекты пропорционально степени выраженности измеряемого свойства.

Порядковая

Шкала, классифицирующая объекты по названию.

Интервальная

шкала, классифицирующая по принципу «больше на определенное количество единиц – меньше на определенное количество единиц».

Шкала равных отношений

Шкала, классифицирующая по принципу «больше – меньше».

113

Задание 3. Заполните таблицу

По предмету измерения все методики делятся на:

а) методики шкалирования …………

б) методики шкалирования …………

в) методики совместного шкалирования …….

Задание 4. В числовом методе построения шкалы балльных оценок

испытуемому дается последовательность определенных чисел (баллов или

рангов), и испытуемый приписывает каждому стимулу соответствующее

число из ряда. Пример градаций такой шкалы, которую использовал

Гилфорд (1964) для получения балльных оценок аффективных

характеристик цветов и запахов, приводится в таблице в левой колонке.

Ваша задача расставить в правой колонке цифры напротив каждого

названия, чтобы эти цифры характеризовали нарастание степени

предпочтения запаха (цвета) от наименее (0) до наиболее (10)

предпочитаемого.

Невообразимо приятный

Умеренно приятный

Наиболее приятный

Чуть неприятный

Очень приятный

Умеренно неприятный

Очень неприятный

Невообразимо неприятный

114

Чуть-чуть приятный

Крайне неприятный

Безразличный

Задание 5. Определите основные типы шкал (по Стивенсу) Основные типы шкал (по

Стивенсу)

Задание 6. Определите последовательность.

В представленной таблице в левой колонке перечислены конкретные

действия, которые составляют общий алгоритм проектирования теста.

Ваша задача – в пустых клетках справа от каждого пункта проставить

цифру, определяющую место данного действия в общей

последовательности мероприятий по проектированию теста.

Название действия

Место действия в общей

последовательности Определить сферу использования методики. Найти, выделить и обосновать критерии

115

валидизации методики. Выбрать конкретную сложность теста. Определить цель применения теста. Определить предметную направленность теста. Определить особенности диагностируемых популяций.

Расчитать временные параметры теста. Определить форму ответов на задания (утверждения) теста.

Выбрать тип стимульного материала теста. Скомпоновать и оформить бланки, буклеты со стимульным материалом.

Разработать ключи, инструкции и интерпретационные схемы.

Сформировать исследовательскую выборку. Определить условия применения теста.

Задание 7. Определите, какое из показанных на рисунке распределений ближе всего к. нормальному распределению

б в г а

Задание 8. Восстановите схему, вставив соответствующие слова в пустующие блоки Комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.

Характеристика методики, указыва-ющая на особенности контингента испытуемых, для которых предназначен тест.

116

Характеристика методики, отража-ющая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов.

Задание 9. Восстановите схему, вставив соответствующие слова в

пустующие блоки

Надежность при повторном обследо-вании испытуемых по прошествии времени с помощью одного и того же теста.

Способ определения надежности, опи-рающейся на оценку степени выра-женности интеркорреляционных связей между заданиями, составля-ющими тест.

Характеристика теста, указывающая на степень однородности состава заданий с точки зрения измеряемого качества.

Задание 10. Используя материал рабочего учебника, вставьте

пропущенные слова в следующих утверждениях.

1. Более строго интерпретировать ответ испытуемых позволяют _______

вопросы в анкетах.

2. Формулировки в анкетах, нацеленные на получение запрограм-

мированной информации – это вопросы ____________.

117

3. Совокупность представлений, правил оперирования ими и стратегий

поведения, которые конкретный испытуемый склонен проявлять в

психологическом эксперименте, в частности, в ходе психоди-

агностического обследования называется ____________ .

4. Чувствительность шкалы, прямо связанная с точностью измерения – это

_________.

5. Внешне хорошо различимый показатель измеряемого признака – это

___________.

6. Индивидуальный опыт обследуемого, приобретенный в ходе выпол-

нения различных психологических тестов называется _____________.

7. Тип тестовых задач, предусматривающий различные варианты ответа на

поставленный вопрос, – это задачи _________.

8. Число элементов, включенных в выборочную совокупность, называется

_________.

9. Тип тестовых задач, предусматривающих свободные ответы

испытуемого по существу задания без предлагаемых вариантов ответов –

это задания ___________.

10. Комплекс мероприятий, обеспечивающих адекватность теста в новых

условиях его применения, называется ________.

118

ЛИТЕРАТУРА

Основная:

1. Анастази А., Урбина С. Психологическое тестирование. – СПб.:

Питер, 2001.

2. Пол Клайн. Справочное руководство по конструированию тестов.

Введение в психометрическое проектирование. Киев. 1994.

3. Шмелев А.Г. Психометрические основы психодиагностики. В кн.:

Общая психодиагностика ред. А.А. Бодалев, В.В.Столин). М.: Изд-во

Моск.ун-та, 1987.

Дополнительная:

1. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по

психологической диагностике. - СПб, Питер-Ком, 1999.

2. Ж.Годфруа. Что такое психология. В 2-х т., т.2, М.: Мир, 1992.

3. Дружинин В.Н. Экспериментальная психология. – СПб.: Питер,

2000.

4. Нормы профессиональной этики для разработчиков и

пользователей психодиагностических методик. Стандартные требования к

психологическим тестам. – Ярославль: Дебют, 1991.

5. Сидоренко Е.В. Методы математической обработки в психологии.

СПб., 1996.

6. Суходольский Г.В. Основы математической статистики для

психологов. Л.: ЛГУ, 1972.

7. Шмелев А.Г. Основы психодиагностики. Учебное пособие для

студентов педвузов. – Москва, Ростов-на-Дону: «Феникс», 1996.

8. Ядов В.А. Социологическое исследование. М.: Наука, 1987.

.

119

.

ТЕРМИНОЛОГИЧЕСКИЙ СЛОВАРЬ .Адаптация теста – комплекс мероприятий, обеспечивающих

адекватность теста в новых условиях его применения

Валидность (англ. valid - действительный, пригодный, имеющий силу) –

комплексная характеристика методики (теста), включающая сведения об

области исследуемых явлений и репрезентативности диагностической

процедуры по отношению к ним.

Внутренняя согласованность – это характеристика теста, указывающая

на степень однородности состава заданий с точки зрения измеряемого

качества.

Воспроизводимость измерения – качество, отражающее близость друг к

другу результатов измерений, выполненных в разных условиях.

Выборочная совокупность – совокупность элементов (тестовых задач, испытуемых), являющихся частью генеральной совокупности Генеральная совокупность – множество элементов, объединенных общей

характеристикой, указывающей на их принадлежность к определенной

системе.

Диагностическая валидность (конкурентная, текущая) –

характеристика теста, отражающая его способность различать испытуемых

на основании диагностического признака, являющегося объектом

исследования в данной методике.

Дискриминативность – это способность отдельных заданий теста и теста

в целом дифференцировать обследуемых относительно «максимального» и

«минимального» результата теста.

Дистракторы – альтернативные варианты ответов, не являющиеся

правильными, но внешне близкие к правильному

решениюДифференциальная психометрия (дифференциальная

психометрика) – область психометрии, определяющая и обосновывающая

120

требования к измерению индивидуально-психологических различий в

психологической диагностике.

Достоверность различия – аналитико-синтетическая процедура

установления уровня значимости различий или сходств между выборками

по изучаемым показателям (переменным).

Достоверность теста – способность теста защищать информацию от

мотивационных искажений испытуемого.

Дробность методики – чувствительность шкалы – прямо связана с

точностью измерения.

Задачи закрытого типа – тип тестовых задач, предусматривающий

различные варианты ответа на поставленный вопрос, задание.

Задачи открытого типа – тип тестовых задач, предусматривающих

свободные ответы испытуемого, по существу задания без предлагаемых

вариантов ответов.

Измерение – процедура, с помощью которой измеряемый объект

сравнивается с некоторым эталоном и получает числовое выражение в

определенном масштабе или шкале; это приписывание объектам числовых

значений, отражающих меру наличия свойства у данного объекта.

Измерительные шкалы – метрические системы, моделирующие

исследуемый феномен путем замены прямых обозначений изучаемых

объектов некоторыми признаками, наличие или степень выраженности

которых представлена и оценивается испытуемыми в виде числовых

значений, графического изображения (фигуры, вертикальные или

горизонтальные линии) или в вербальной форме (например, в виде

суждений о степени выраженности признака).

Инструкция – это руководство по выполнению заданий теста,

предъявляемое испытуемому письменно, устно или с помощью

компьютера и направленное на создание адекватной мотивации, установки

субъекта на обследование.

121

Интервальная шкала – это шкала, классифицирующая по принципу

«больше на определенное количество единиц – меньше на определенное

количество единиц».

Истинный показатель – показатель, который бы получил конкретный

испытуемый, если бы ему были предъявлены все возможные задания из

генеральной совокупности заданий, релевантных реальному оцениваемому

свойству.

Конструктная валидность – характеристика теста, отражающая степень

репрезентации исследуемого психологического свойства (конструкта) в

результатах теста: чем больше результаты теста соответствуют

теоретической гипотезе о природе измеряемой переменной, тем выше

конструктная валидность теста.

Контрастные группы – эмпирические выборки испытуемых,

различающиеся по определенному набору критериев.

Критериальная валидность – комплекс характеристик, включающий

валидность текущую и прогностическую и отражающий соответствие

диагноза и прогноза определенному кругу критериев измеряемого явления.

Критерий валидизации – признак, независимый от валидизируемого

теста, хорошо (достаточно надежно, полно) отражающий меру изучаемого

качества (свойства, процесса).

Математическая теория измерений – раздел математической

психологии, интенсивно развивающийся параллельно и в тесном

взаимодействии с развитием процедур психологического измерения

(психометрией).

Меры изменчивости – статистические показатели вариации (разброса)

признака (переменной) относительно среднего значения, степени

индивидуальных отклонений от центральной тенденции распределения.

Меры центральной тенденции – характеристики совокупности

переменных (признаков), указывающие на наиболее типичный,

репрезентативный для изучаемой выборки результат.

122

Метод абсолютной оценки – процедура измерения, когда объекты

(стимулы) предъявляются испытуемому по одному, и он дает оценку

объекта (стимула) в единицах предложенной шкалы.

Метод выбора – процедура измерения, когда испытуемому предлагается

несколько объектов (стимулов, высказываний и т.д.), из которых он

должен выбрать те, которые соответствуют заданному критерию.

Метод парных сравнений – процедура измерения, когда объекты

предъявляются испытуемому попарно (число предъявлений равно числу

сочетаний) и он оценивает сходства – различия между членами пар.

Метод ранжирования – процедура измерения, когда все объекты

представляются испытуемому одновременно, и он должен их упорядочить

по величине измеряемого признака.

Модераторы – характеристики контингента испытуемых, значимые для

прогностической эффективности методики (например, мотивация к

данному виду деятельности, когда изучаются способности человека к этой

деятельности).

Надежность параллельных форм – характеристика надежности методики

с помощью взаимозаменяемых форм теста.

Надежность по внутренней согласованности – способ определения

надежности, опирающейся на оценку степени выраженности

интеркорреляционных связей между заданиями, составляющими тест.

Надежность теста – характеристика методики, отражающая точность

психодиагностических измерений, а также устойчивость результатов теста

к действию посторонних случайных факторов.

Надежность частей теста – характеристика надежности

психодиагностической методики, получаемая путем анализа устойчивости

результатов отдельных совокупностей тестовых задач или единичных

пунктов (заданий) теста.

Нольмерное шкалирование – построение психологической шкалы,

имеющей единственное значение и нулевую размерность.

123

Номинативные шкалы (шкалы наименований от лат. nomen – имя,

название) – шкалы, устанавливающие соответствие признака тому или

иному классу.

Нормальное распределение – вид распределения переменных,

характеризуемое тем, что крайние значения признака в нем ссылаются

достаточно редко, а значения, близкие к средней величине - достаточно

часто.

Область заданий – множество заданий, материал, подбираемый

исследователем и являющийся исходным для формирования теста.

Область применения теста – характеристика методики, указывающая на

особенности контингента испытуемых, для которых предназначен тест.

Однородность – показатель, характеризующий степень соответствия всех

заданий измеряемой черте или свойству (определяется как средняя

корреляция между заданиями теста).

Оценки первичные («сырые» баллы) – оценки, полученные испытуемым

на начальном этапе обработки результатов тестовой методики.

Очевидная валидность (лицевая, внешняя) – представление о тесте,

сфере его применения, результативности и прогностической ценности,

которое возникает у испытуемого или другого лица, не располагающего

специальными сведениями о характере использования и целях методики.

Параметры распределения – это его числовые характеристики,

указывающие, где в «среднем» располагаются значения признака,

насколько эти значения изменчивы и наблюдается ли преимущественное

появление определенных значений признака.

Порядковая шкала – шкала, классифицирующая признаки по принципу

«больше - меньше».

Правильность измерения – качество, отражающее близость к нулю

систематических погрешностей результатов измерения.

124

Принудительное ранжирование – ранжирование, при котором

количество рангов соответствует количеству ранжируемых субъектов или

объектов (ценностей, качеств и т.п.).

Прогностическая валидность – информация о тесте, характеризующая

степень точности и обоснованности суждения о диагностируемом

психологическом качестве по его результату спустя определенное время

после измерения.

Профильные оценки – способ представления количественных

результатов психодиагностической методики, при котором оценки по

отдельным группам заданий, субтестам с помощью специальных приемов

приводятся к соизмеримым единицам (единой шкале оценок) и

отображаются на графике

Психологика испытуемого – совокупность представлений, правил

оперирования ими и стратегий поведения, которые конкретный

испытуемый склонен проявлять в психологическом эксперименте, в

частности, в ходе психодиагностического обследования.

Психометрия (психометрика) – область психологии, связанная с теорией и

практикой измерения психических явлений.

Распределение – закономерность встречаемости признака и разных его

значений.

Ретестовая надежность – надежность при повторном обследовании

испытуемых по прошествии времени с помощью одного и того же теста.

Содержательная валидность – один из основных типов валидности,

характеризующий степень репрезентативности содержания заданий теста

по отношению к измеряемой области.

Стандартизация (от англ. standard – типовой, нормальный) – унификация,

регламентация, приведение к единым нормативам процедуры и оценок

теста.

Стандартная ошибка измерения – средняя относительная величина

отклонения тестового балла от истинного вследствие действия факторов,

125

связанных с изменчивостью самого измеряемого свойства и

нестабильности измерительной процедуры.

Сходность измерения – качество, отражающее близость друг к другу

результатов измерений, выполненных в одинаковых условиях.

Тестовая искушенность – индивидуальный опыт обследуемого,

приобретенный в ходе выполнения различных психологических тестов.

Тестовые задачи – отдельные задания (пункты) методики, служащие в

совокупности для моделирования исследуемой деятельности,

актуализации изучаемых психологических качеств, анализа установок и

отношений личности и т.д.

Точность (надежность) измерения – качество, отражающее близость

результата измерения к истинному значению измеряемой величины.

Уровень значимости – понятие, отражающее степень вероятности

ошибочного вывода относительно статистической гипотезы о

распределении признака или взаимосвязи распределений в различных

выборках, проверяемой на основе выборочных данных.

Числовые системы – это множество элементов с реализованными в нем

отношениями, существующими между элементами (или свойствами)

реальных объектов.

Шкала лжи – это шкала, состоящая из вопросов, касающихся

незначительных проступков, которые совершаются большинством людей.

Шкала равных отношений – шкала, классифицирующая объекты или

субъектов пропорционально степени выраженности измеряемого свойства.

Шкалирование – метод моделирования явлений с помощью числовых

систем.

Шкальные оценки – производные показатели получаются путем

математической обработки первичных показателей, а способ оценки

результатов теста конкретным испытуемым путем установления его места

на специальной шкале.

Documents

ПСИХОДИАГНОСТИКА - cis.rosnou.rucis.rosnou.ru/UniversysDWNL/Library/BE23205E-A995-45A8-9216-550A1958A4... · за достаточный уровень значимости