32
Об оценке ошибки измерений 1

Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Об оценке ошибки измерений

1

Page 2: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Цель официальной статистики -

получить оценки неизвестных

значений количественных

характеристик целевой аудитории.

Оценки не равны фактическим

значениям из-за изменчивости ... и

систематических ошибок (стр.:32)

2

Измерение качества данных с помощью стандартного модуля

повторного опроса (Kleven & Berglund 2014)

Page 3: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Этапы опроса

Статистическая задачаОбщая задача

НаселениеСтруктураОбразец

Переменные

План составления таблиц

Метод измерения

Измерительный прибор

Сбор данных

Ввод кодированных данных

Редактирование

Обновление

Оценка/Составление таблиц

Анализ

Публикация

Качество, документация

Page 4: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Опросы в реальном мире

Какие могут быть минусы у выборочных опросов?

Случайная выборка исключает возможность систематической ошибки в выборке и позволяет контролировать изменчивость выборки, НО...

Выборка в реальном мире является более сложным сложным и менее надежным процессом, чем простой случайный выбор в аудитории или выбор, описанный в учебнике.

Доверительное суждение не отражает все источники ошибок

Page 5: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Опросы в реальном мире

Ошибки выборки и ошибки, не связанные с выборкой

Ошибки, не связанные с выборкой, присутствуют также в переписях.

Существует больше требований, чем хороших навыков в области статистики для уменьшения количества ошибок, не связанных с выборкой

Page 6: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Ошибки выборки

Допустимая погрешность статистики

Плохие методы выборки

Плохая основа для построения выборки

Page 7: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Ошибки, не связанные с выборкойОшибки обработки

Ошибки вследствие неполного охвата

Ошибка ответной реакции / ошибка измерения (систематическая и случайная)

Пропущенные данные

Page 8: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

8

Связь источников ошибок опроса (Alwin 2007)

Page 9: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Ошибки измерений

• Ошибки измерений - это ошибки, возникающие во время сбора данных, которые приводят к тому, что записанные значения переменных отличаются от фактических

• Их причины обычно классифицируются следующим образом:– Инструменты опроса: форма, анкета или

измерительное устройство, используемые для сбора данных, могут привести к записи неправильных значений.

– Респондент: респонденты могут сознательно или бессознательно предоставлять ошибочные данные;

– Интервьюер: интервьюеры могут влиять на ответы респондентов.

9

Page 10: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

• Ошибки измерений могут быть систематическими

или случайными.

– Случайные ошибки часто связаны с идеей репликации, т.е.

если процесс измерения повторяется несколько раз из той

же единицы в фиксированных условиях,

зарегистрированные измеренные значения будут

варьироваться в случайном порядке

– А систематические ошибки остаются неизменными.

10

Page 11: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Семь проблем, которые могут привести к

ошибкам измерений в опросе (Groves et al.,

2009).

(1) неспособность кодировать необходимую информацию,

(2) неверное толкование вопроса,

(3) забывание и другие проблемы с памятью,

(4) ошибочные суждения или проблемы с оценкой,

(5) проблемы с форматированием ответа,

(6) более или менее осознанное представление недостоверной информации,

(7) несоблюдение инструкций.

11

Page 12: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

• Легко описать различные источники в

процессе опроса, которые могут

привести к ошибкам измерения

• Гораздо сложнее количественно

измерить ошибки в статистике опросов.

12

Page 13: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

• Теория измерений в психологии, называемая психометрикой, разделяет ошибки измерения с точки зрения достоверностии надежности.

• Достоверность измерения относится к степени, в которой измерение достигает цели, для которой оно предназначено (Alwin, 2007: 22).– Достоверность (конструктивная достоверность) почти

невозможно измерить напрямую.

• Надежность заключается в согласованности измеряемых величин.– Дают ли респонденты согласованные ответы, когда один и тот

же вопрос повторяется в течение короткого промежутка времени?

13

Page 14: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

• Если вопрос надежный, респондент должен дать тот же ответ.– поскольку временной разрыв недлительный, можно исключить

возможность реального изменения.

• Одним из способов оценки надежности вопроса является анализ согласованности ответов путем повторных измерений. Это те измерения, которые проводятся согласно классической теории истинной оценки (CTST) (Alwin, 2007: 35).

• Истинная оценка неизвестна - и не может существовать в «реальности», только в модели. Однако, если повторные измерения надежны, можно предположить, что эти измерения отражают истинную оценку.

14

Page 15: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Достоверность и надежность

• Концепция достоверности относится к степени, в

которой измерение достигает цели, для которой оно

предназначено.

• Надежность заключается в согласованности

измерения– Низкая степень надежности показывает, что ответы более или менее

произвольны, и тогда это измерение не может быть достоверным.

Надежность - необходимое условие достоверности измерения.

15

Page 16: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

16

Достоверность и надежность

Page 17: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Некоторые методы и техники оценки ошибок измерений в опросах (на основе Biemer and Lyberg 2003: 261)

17

Page 18: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Измерение надежности путем повторного

опроса

Повторные опросы могут использоваться для оценки надежности при следующих предположениях:

(1) В период между двумя опросами не было никаких изменений в основной концепции.

(2) Все важные аспекты протокола измерений остаются неизменными. Основные условия опроса остаются неизменными.

(3) Отсутствует влияние первого измерения во вторых ответах, например, нет эффектов памяти. (Groves et al 2009:282).

18

Page 19: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Простой способ - выразить надежность по

первоначальным данным

• Прежде чем анализировать данные, определите

приемлемые изменения в ответах на основе знаний о

предмете, т.е. не только применяя технический метод

• Составьте перекрестную таблицу двух измерений

• проанализируйет структуру распределения в таблице

• рассчитайте коэффициент первоначального

соглашения

• рассчитайте коэффициенты приемлемых соглашений

19

Page 20: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Проект повторного опроса в «Европейском социальном

опросе»

20

Page 21: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Повторный порос для самостоятельного размещения в левой и правой

шкалах

21

Page 22: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

22

t2

0 Left 1 2 3 4 5 6 7 8 9

10 Right n

0 Left 6 1 0 0 0 1 0 0 0 0 0 8

1 1 4 0 1 0 0 0 0 0 0 0 6

2 0 3 9 5 0 0 0 0 0 1 0 18

3 1 0 10 50 6 2 2 0 0 0 0 71

t1 4 0 1 3 9 33 2 0 0 0 1 0 49

5 0 0 1 0 10 82 13 3 1 0 0 110

6 0 0 0 0 2 12 21 8 2 0 0 45

7 0 1 0 1 0 1 8 42 20 1 1 75

8 0 0 0 0 0 1 1 9 23 4 2 40

9 0 0 0 0 0 0 0 3 4 9 0 16

10 Right

0 0 0 0 0 1 0 0 2 1 5 9

n 8 10 23 66 51 103 46 65 52 17 8 449

t1: В политике люди иногда говорят о “левых” и “правых”. Используя эту карту, где бы вы разместили себя на

этой шкале, где 0 означает лево, а 10 - право? / t2 В политике люди иногда говорят о «левых» и «правых». Где

бы вы разместили себя на этой шкале? Отметьте одно.

“Приемлемый

коэффициент соглашения":

97 процентов

Коэффициент первоначальных соглашений: 63 процента

Page 23: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

t1 В политике люди иногда говорят о “левых” и “правых”. Используя эту карту, где бы вы разместили себя на

этой шкале, где 0 означает лево, а 10 - право? / t2 В политике люди иногда говорят о «левых» и «правых». Где

бы вы разместили себя на этой шкале? Отметьте одно.. Абсолютные числа

23

Коэффициент первоначальных соглашений: 57 процентов

“Приемлемый

коэффициент соглашения":

95 процентов

Page 24: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

24

Проект повторного опроса для удовлетворения

потребностей правительства

Page 25: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

t1 Дайте ответ, используя эту карточку, где 0 означает крайне неудовлетворенный, а 10 - весьма удовлетворенный.

Теперь, думая о правительстве Норвегии, насколько вы удовлетворены тем, как оно выполняет свою работу? / t2 Теперь,

думая о правительстве Норвегии, насколько вы удовлетворены тем, как оно выполняет свою работу? Отметьте одно.

25

“Приемлемый

коэффициент

соглашения":

92 процента

Коэффициент

первоначальных соглашений:

43 процента

Page 26: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

t1 Дайте ответ, используя эту карточку, где 0 означает крайне неудовлетворенный, а 10 - весьма

удовлетворенный. Теперь, думая о правительстве Норвегии, насколько вы удовлетворены тем, как оно

выполняет свою работу? / t2 Укажите, насколько вы согласны или не согласны с приведенными ниже

заявлениями. «Я доволен тем, как правительство выполняет свою работу». Отметьте один вариант.

26

1 Agree strongly 2 Agree

3 Neither agree nor

disagree 4

Disagree

5 Disagree strongly

0 Extremely Dissatisfied

1 0 1 3 4 9

1 0 1 0 4 4 9

2 0 1 2 8 5 16

3 0 0 18 33 2 53

4 1 2 27 20 0 50

5 0 7 67 16 2 92

6 0 19 53 9 2 83

7 0 48 31 4 0 83

8 2 35 7 1 0 45

9 2 4 1 1 0 8

10 Extremely Satisfied

0 2 0 1 0 3

6 119 207 100 19 451

“Приемлемый

коэффициент соглашения":

83 процента

Коэффициент

первоначальных соглашений:

зависит

Page 27: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Некоторые трудности при проведении

повторного опроса

• Дополнительные расходы

• Дополнительная нагрузка на респондентов

• Невозможно быть на 100% уверенным, что мы

зафиксируем «истинную» надежность, достоверность и

систематическую ошибку лишь после двух измерений

• Всегда будут существовать какие-то факторы, которые

мы не можем контролировать

– влияние контекста

– влияние интервьюера

– эффекты памяти

– прочее

27

Page 28: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

• Повторный опрос должен сочетать в себе методы качественного тестирования и количественные показатели качества вопросников– Может выявить проблемы в отдельных вопросах,

– А также может выявить, что некоторые проблемы, обнаруженные в когнитивных лабораториях, не являются реальными проблемами в статистике опроса

• Ключевые переменные в официальной статистике можно проверить в более широком смысле с помощью повторного опроса

• Коэффициенты первоначальных соглашений представляют собой важную описательную статистику– У них есть уникальное общее значение

– Простой способ сказать что-то о надежности, т.е. о качестве данных

28

Page 29: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

• Сложный статистический анализ может быть очень полезен

при оценке ошибок измерений, но зачастую более простой

статистический метод предпочтительнее более сложного.

• По словам Джона Уэберсакса: При прочих равных условиях

более простой статистический метод предпочтительнее

более сложного. Самые простые методы могут показать

гораздо больше данных о соглашениях, чем обычно

реализуется. По большей части передовые методы

дополняют, а не заменяют более простые методы(http://www.john-uebersax.com/stat/raw.htm)

29

Page 30: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Список литературыAlwin, D. (2007), Margins of Error, New York: Wiley

Amin, Alerk and Arnaud Wijnant 2012. Blaise On-the-Go: Using Blaise IS With Mobile Devices Paper presented at the IBUC 2012. 14th International Blaise Users Conference

Barton, A.J. Aksing the Embarrassing Question. In Public Opinion Quarterly, 1958, 22, 67-68

Biemer, P.P. & Lyberg, L.E. (2003). Introduction to Survey Quality. New York: Wiley.

Burton, Jonathan, Heather Laurie, and Peter Lynn (2006) “The Long-term Effectiveness of Refusal Conversion Procedures on Longitudinal Surveys” Journal of the Royal Statistical Society, Series A, Vol.169, Issue 3, 2006:459-478

Buskirk, T.D. and C. Andrus. 2012. Smart surveys for smartphone: exploring various approaches for conducting online mobile surveys via smartphones. Survey Practice. Available at: http://surveypractice.wordpress.com/2012/02/21/smart-surveys-for-smart-phones/.

Callegaro, M. 2010. Do you know which device your respondent has used to take your online survey? Survey Practice. Available at:http://surveypractice.wordpress.com/2010/12/08/device-respondent-has-used/.

Callegaro, M. and T. Macer. 2011. Designing surveys for mobile devices: pocket-sized surveys and yield powerful results. Short-course presented at the annual meeting of the American Association for Public Opinion Research, Phoenix, AZ.

Callegaro, M 2012. Coping with panelists taking surveys from devices other than a desktop/laptop. Methodological and questionnaire design considerations. Paper presented at the 6th Mess Workshop

Canell, C., and Kahn, R. (1968) «Interviewing» pp 526 – 595 in G. Lindzey and E Aronson (edsd), The Handbook of Social Psycology, Vol. 2, Addison-Wesley, Reading, MA

Couper, Mick P. 2008. Designing Effective Web Surveys. New York: Cambridge University Press

Couper, M. P. (2010). Visual design in online surveys: Learnings for the mobile world. Presented at the Mobile Research Conference 2010, London. Retrieved from http://www.mobileresearchconference.com/uploads/files/MRC2010_Couper_Keynote.pdf ,

Couper, Mick P. (2011) The future of modes of data collection. in Public Opinion Quarterly, Vol 75, No. 5, 2011, pp. 889-908

Couper, Mick P. 2012. Dealing with Mobile Web Surveys. Seminar held at Statistics Norway 15th October 2012.

Daas, P. and S. Ossen 2011: Report on methods preferred for the quality indicators of administrative data sources. Deliverable 4.2 BLUE-Enterprise and Trade Statistics. European Commission European Research Area, Seventh framework programme. http://www.blue-ets.istat.it/fileadmin/deliverables/Deliverable4.2.pdf

deLeeuw, Edith D.; Joop J. Hox & Don A. Dillman (eds.) (2008): International Handbook on Survey Methodology. Chapter 16: “Mixed-mode surveys: When and Why”. New York/London.

Deming, W. Edwards. 1944. ‘‘On Errors in Surveys.’’ American Sociological Review 9(4):359–69.

Dillman, D. A., & Bowker, D. K. (2001). The Web questionnaire challenge to survey methodologists. In U. D. Reips, & M. Bosnjak (Eds.), Dimensions of Internet science (pp. 159-178). Lengerich: Pabst Science Publishers.

30

Page 31: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Список литературыEurostat :ESS Handbook for Quality reports 2014 http://ec.europa.eu/eurostat/documents/64157/4373903/01-ESS-Handbook-for-Quality-Reports-2014.pdf/d6152567-a007-4949-

a169-251e0ac7c655

Eurostat: European Statistics Code of Practice - revised edition 2011

http://ec.europa.eu/eurostat/documents/3859598/5921861/KS-32-11-955-EN.PDF/5fa1ebc6-90bb-43fa-888f-dde032471e15

Eurostat: Quality Assurance Framework of the European Statistical System http://ec.europa.eu/eurostat/documents/3859598/5923349/QAF_2012-EN.PDF/fcdf3c44-8ab8-41b8-

9fd0-91bd1299e3ef?version=1.0

Groves, R.M., Fowler Jr., F.J., Couper, M., Lepkowski, J.M., Singer, E. and Tourrangeau, R. (2004). Survey Methodology. New York: Wiley.

Hendriks, Coen (2014) Improved input data quality from administrative sources through the use of quality indicators. European Conference on Quality in Official Statistics

(Q2014)

Kleven, Øyvin Ib Thomsen and Li-Chun Zhang (2012) On the Relationship Between Nonresponse and Measurement Error in Response Enhancement. The Norwegian Election

Survey System as a Case Study International Total Survey Error Workshop. September 2-4, 2012 Santpoort Noord, The Netherlands

Kleven, Øyvin, Trond Båshus, Hilde Degerdal, Rune Gløersen and Dag Gravem (2012b) How can we utilize apps and smart phone technology in future data collection. Seminar

on New Frontiers for Statistical Data Collection, Geneva, Switzerland, 31 October – 2 November 2012

Kleven, Øyvin and Frode Berglund (2014) Measuring data quality by the use of a routine re-interview module Experiences from the Norwegian European Social Survey.

European Conference on Quality in Official Statistics (Q2014)

Kreuter, F., Müller, G., and Trappmann, M (2010). Nonresponse and measurement error in employment research. Making use of adminstrative data. Public Opinion Quartely, 74,

880-906.

Kish, L. (1965). Survey sampling. New York: Wiley

Little, R.J.A. & Vartivarian, S. (2005). Does weighting for nonresponse increase the variance of survey means? Survey Methodol., 31, 161–168.

Litwin, Mark S (1995) How to measure survey reliability and validity. Sage Publikations

Luiten, Annemieke (ed.) (2014): WPIII Summary report. Deliverable from the ESSnet project Data Collection for Social Surveys using Multiple Methods (DCSS). Draft version

attached, final version to be published shortly at http://www.cros-portal.eu/content/data-collection

31

Page 32: Об оценке ошибки измерений · 2018-09-20 · • Повторный опрос должен сочетать в себе методы ... Designing Effective

Список литературы

Nordbotten, S. (2010):The Use of Administrative Data in Official Statistics – Past, Present, and Future – With Special Reference to the Nordic Countries, Official Statistics – Methodology and Applications in Honour of Daniel Thorburn, pp. 205-225.

Triplett, Timothy, Johnny Blair, Teresa Hamilton, and Yun Chiao Kang.“Initial Cooperators vs. Converted Refusers: Are There Response Behaviour Differences?” Proc. of the Survey Research Methods Section. August 4-8, 1996. American Statistical Association, 1996.

Payne, Stanley L. 1964. ‘‘Combination of SurveyMethods.’’ Journal of Marketing Research 1(2):61–62.

Peytchev, A.A. and C.A. Hill. 2010. Experiments in mobile web survey design: similarities to other modes and unique considerations. Social Science Computer Review 28: 319–335.

Saris, W.E & N. Gallhofer (2007) Design, evaluation and analysis of questionnaires for survey research. Hoboken: Wiley

Saris, Willem E, Jon A. Krosnick, Melanie Revilla and Eric M. Shaeffer (2010) “Comparing Questions with Agree/Disagree Response Options to Questions with Item-Specific Response Oprions” in Survey Research Methods vol 4. No1 61-79

Snijkers, Ger and Jaqui Jones (2013): “Business Survey Communication” passage 9.6.3.2 ‘Introducing Web Mixed-Mode Designs’. In Snijkers et al. (eds.) (2013): Designing and Conducting Business Surveys, p. 422-426.

Sudman, S., & Bradburn, N.M (1982). Asking questions. San Francisko: Jossey-Bass.

Sudman, Bradburn and Schwarz. Thinking About Answers. The Application of Cognitive Processes to Survey Methodology. San Francisco: Jossey-Bass Publishers. 1995

Statistics Norway. Strategy 2014–2017 Plans and reports 2014/8. http://www.ssb.no/en/omssb/styringsdokumenter/strategier/_attachment/194885?_ts=148a26c8108

Tourangeau, R., Rips, L.& Rasinski, K. (2000). The Psychology of Survey Response.Cambridge:Cambridge University Press.

United Nations Economic Commission for Europe (UNECE) The Generic Statistical Business Process Model

http://www1.unece.org/stat/platform/display/metis/The+Generic+Statistical+Business+Process+Model

Weisberg, H. (2005). The Total Survey Error Approach: A Guide to the New Science of Survey Research. The University Chicago Press.

Zhang, L.-C. (2012). Topics of statistical theory for register-based statistics and data integration. Statistica Neerlandica, vol. 66, pp. 41-63.

Zhang, Li-Chun, Ib Thomsen and Øyvin Kleven (2013) “On the Use of Auxiliary and Paradata for Dealing With Non-sampling Errors inHousehold Surveys” in International Statistical Review (2013)

32