36
A структура общей погрешности Двухфазная модель жизненного цикла для интегрированных статистических данных - Представление и измерение данных - Объекты первой фазы и единицы второй фазы - прогрессивный характер административных данных - [Большие данные альтернативные источники данных] Содержание ESTP 2017

A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

A структура общей погрешности

Двухфазная модель жизненного цикла

для интегрированных статистических данных

- Представление и измерение данных

- Объекты первой фазы и единицы второй фазы

- прогрессивный характер административных данных

- [Большие данные ⊂ альтернативные источники данных]

Содержание

ESTP 2017

Page 2: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

ЕДП Грузия

2018

Жизненный цикл интегрированных

статистических данных и источники

ошибок:

Структура общей ошибки

Page 3: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Структура общей исследовательской ошибки

(Groves 2004, Рис. 2.5)

Page 4: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Некоторые важные различия (I)

Статистические данные в функциональной (матричной) форме

• единица-переменная/поля - записи/идентификатор-аттрибут

• “представление” = список идентификаторов

“измерения” = векторные величины

Целевое население в сравнении с основной выборкой

• Нет популяции без единиц, нет единиц без популяции

например численность населения в сравнении с численностью домашних хозяйств

• Реестр предприятий или Регистр недвижимости для обзора деловой

деятельности

что есть что в обзоре ставок заработной платы?

Page 5: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

-Целевая популяция = личное потребление в домашних хозяйствах

-Функциональные данные (I):

-единица = домашнее хозяйство

переменная = личное потребление

- Функциональные данные (II):

единица = товарная/сервисная сделка и т. д.

переменная = частное домохозяйство

Вопрос: Ошибка вследствие неполного охвата или ошибка измерений?

ENP 2018

Пример: обзор расходов

Page 6: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Некоторые важные различия (II)Конструкт в сравнении с измерением

конструкт = интерес к теории

измерения = реализация того, что можно измерить

Пример: удовлетворенность сотрудников Статистической службой

• насколько вы удовлетворены по шкале 1 - 6?

• индекс удовлетворенности, объединяющий различные «измерения»?

Отношение может быть теоретическим, но факт измерим?

например, перевозки грузов в одиночку или взять одно такси на несколько человек и

разделить его оплату на всех

например, разбивка деятельности согласно статистическому стандарту

Page 7: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

УпражнениеРассмотрите административные данные или иным образом собранные данные об

образовании

Опишите функциональную форму различных входных данных:

1. перепись начальной/средней школы

например, один или два раза в год? ученик, возможно, переехал?

2. данные о высшем образовании

например, как совместить с переписью школы?

3. профессиональное развитие - например, этот курс учитывается где-нибудь?

4. свободное время взрослых - например, искусство, язык, рукоделие и т. д.?

5. Центральный регистр населения (ЦРН) - нет там образования?

Подумайте: имеет ли значение, какая статистика представляет интерес?

Page 8: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Двухфазный жизненный цикл(I):

данные первоисточника (Zhang, 2012)

ENP 2018

Page 9: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Адаптация для представления

административных данныхОбъект = 1-я фаза, единица с конкретным источником

• дубликаты потенциальных релевантных 2-х фазных единиц

пример: существует ли 1-я фаза для Регистра населения?

• различие «первичное-интегрированное» может быть зависимым от цели

пример: Входные регистры для переписи на основе регистров

Достижимая цель / достигнутая цель / наблюдаемая цель

• задержка/упущение/ошибка: регистрация человеком в сравнении с автоматической

регистрацией

• прогрессивность: ситуация Т зависит от того, когда вы смотрите

причины: задержки разных типов и «исправления»

• наблюдаемое множество: от достижимого к принятому/действует

ENP 2018

Page 10: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Адаптация для административных данных:

измеренияЦелевой концепт в сравнении с целевым измерением

предположительно, там должны были быть конструкт/цель, но...

Ошибка измерений в полученном измерении

• ошибки неизбежны, будь то регистрация человеком или автоматическая

регистрация.

• практически безошибочное измерение кажется возможным сейчас

Ошибка обработки в отредактированном измерении

• редактирование может быть ограничено/отсутствовать (в сравнении с проверками

при регистрации)

• редактирование может иметь мало значения для статистических целей - не

предназначено для этого

ENP 2018

Page 11: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Двухфазный интегрированный цикл (II):

вторичные интегрированные данные

ENP 2018

Page 12: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Преобразование объекта в единицу

Необходимо и важно

• обеспечивает сведение воедино записей или статистическое комбинирование

на второй фазе

• первая возможность проверки/подтверждения качества входных данных

В отношении потенциального использования: общие в сравнение со

специальными

Ошибки первой фазы, направленные по разным путям

• Ошибка вследствие неполного охвата на первой фазе ⇒ измерение на второй фазе

• Ошибка вследствие неполного охвата на первой фазе ⇒ представление на второй фазе

• Ошибка измерений на первой фазе ⇒ представление на второй фазе

• Ошибка измерений на первой фазе ⇒ измерение на второй фазе

Page 13: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Рамки: Базовый регистр и его пределы

Преимущества и т.д .; задержки и ошибки каждого

Ошибки вследствие неполного охват. Не во всех, ни в одной, во всех единицах

Центральный регистр населения (ЦРН)

Эмиграция/проживание/обучения за рубежом, иммиграции.

В большинстве стран нет Центрального регистра населения

Регистр недвижимости - жилье, здания, адреса

Ошибка вследствие неполного охвата жилья≥ здания ≥ адреса

Другие: подсовокупность вышеупомянутых; другие единицы

(товары/услуги/...)

Регистр предприятий

Несколько источников,

например:

Торгово-промышленная палата,

НДС, Работник

ENP 2018

Page 14: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Ошибки по кадрам: классификация

1. Ошибка вследствие неполного охвата

• избыточный охват: ошибки; дублирование

• Недостаточный охват: упущение, группирование

2. Ошибка идентификации (новая) ?

3. Ошибка единицы (новая?)

4. Ошибка классификации домена

например, промышленная группировка бизнес-единиц; район проживания

студентов

Ошибка контактной информации

Page 15: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Quantifying coverage and domain

classification errorPopulation Domain Frame Domain Missing

N/A 1 · · · H

1 N11 N10 · · · N1H M1

. . . . . · · · . . . .

H NH0 NH1 · · · NHH MH

Erroneous R0 R1 · · · RH

Page 16: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Micro-level heterogeneityUnit-specific (mis-) classification probabilities:

-For frame unit i, let

(p i1, p i2, ..., p iH , p i0) = E (δ i1,δi2, ...,δiH ,δi0)

where δih = 1 if the unit belongs to target population domain h

and 0 otherwise, incl. the case of h = 0 for erroneous frame unit.

-For target population element j , let

(qi1, qi2, ..., qiH , qi0) = E (δ1j ,δ2j , ...,δHj ,δ0j )

where δhj = 1 if the element belongs to frame domain h and 0 otherwise,

incl. the case of h = 0 for missing in the frame.

Page 17: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Alignment table: Unit ↔

IdentificationBase Unit

Person

Composite Unit Contact Information

Household Employer · · · Telephone · · ·

Adam Smith Smith-SO19xxx UoS · · · 123456

132415

· · ·

Eva Hanford Smith-SO19xxx Hospital-xxx · · · 324151 · · ·

Mark Smith Smith-SO19xxx Pupil-xxx — —

Alan Smith Smith-WC1Exxx Leeds-xxx · · · — · · ·

. Smith-WC1Exxx · · · · · ·

· · · Smith-WC1Exxx · · · · · ·

Sarah Sommers Sommers-L17xxx Google · · · 654312 · · ·

. . . .

Page 18: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Coverage error vs. unit error vs. alignment

errorUnit error: delineation among base units

e.g. 5 persons at one address: one child, 2 male & 2 female adults

alignment table based on e.g. family relationship, sex-age, etc.

unit = household; two scenarios:

a. (child, male-1, female-1), (male-2, female-2)

b. (child, male-1, female-1), (male-2), (female-2)

Possible conceptualisation as coverage error

(true = a, frame = b) ⇒ under-coverage of (male-2, female-2), as well as

over-coverage of (male-2) and (female-2)

Unit error may or may not be caused by alignment error

Page 19: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Quantifying alignment error: Aggregated level

(Ng,Mh) = no. type-g persons aligned with type-h households

Given alignment error: e.g. (Ng 1,Mh 1,Ng 0,Mh 0), where

(Ng 1,Mh 1) = no. correctly aligned units [or expectation of them]

(Ng0,Mh0) = no. incorrectly aligned units [or expectation of them]

Person

Classification

Household Classification

1 · · · h · · · H

1 (N1, M1) · · · (N1, Mh) · · · (N1, MH)

. . · · · . · · · .

g (Ng, M1) · · · (Ng, Mh) · · · (Ng, MH)

. . · · · . · · · .

G (NG, M1) · · · (NG, M1) · · · (NG, MH)

Page 20: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Alignment error illustrated: Micro levelReality

Dwelling ID Family ID Household ID Person ID Name Sex Age Income

H101 1 1 1 Astrid Female 72 y1

H102 2 2 2 Geir Male 35 y2

H102 2 2 3 Jenny Female 34 y3

H102 2 2 4 Markus Male 5 y4

H201 3 3 5 Knut Male 29 y5

H201 4 3 6 Lena Female 28 y6

H202 5 4 7 Ole Male 28 y7

Household Register

Dwelling ID Family ID Household ID* Person ID Name Sex Age Income

H101 1 1 1 Astrid Female 72 y1

H101 2 2 2 Geir Male 35 y2

H101 2 2 3 Jenny Female 34 y3

H101 2 2 4 Markus Male 5 y4

H101 3 3 5 Knut Male 29 y5

- 4 4 6 Lena Female 28 y6

- 5 4 7 Ole Male 28 y7

Page 21: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Introducing allocation

matrix (Zhang, 2011)

ENP 2018

Page 22: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Allocation matrix A and value matrix

X: AXExample 1: X = I = identity matrix

allocation (of base units) = AI = A

Example 2: X = 1 = unity vector

household size = A1 = (1,3,2,1,0,0,0)T

Example 3: X = y = values associated with base-units

household total = Ay = (y1, y2 + y3 + y4, y5 + y6, y7,0,0,0)T

household size = A1 = (1,3,2,1,0,0,0)T

household mean = diag[Diag+ (A1)−1 Diag+ (Ay)]

Page 23: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Allocation matrix A and value matrix

X: AX

Example 4: To obtain household age composition for 4 age groups:

(0-18, 18-30, 31-65, 66+), use dummy-index value matrix as follows

Page 24: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Harmonisation, re-classification & adjustment:

illust’d

Target variable = Job title

• International Standard Classification of Occupations at ILO

e.g. Professional (2) 3 Science etc. (21) 3 Statistician etc. (212)

• lack-of-standard at lower hierarchy

e.g. Professor, Reader, Lecturer, etc.

e.g. Analyst, Senior Analyst, Chief Analyst, etc. suppose

harmonised measure: e.g. category 1, 2, ... K

• re-classification of job titles in-source needed

build an operational catalogue of job titles over time

• adjustment needed if new titles not in catelogue

Page 25: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Progressive data: Definition

Reference time point of statistics = t

target population = U (t) value of interest = y (t)

Measurement time point = t + d, where d≥ 0. For unit i:

• value y i (t; t + d ) if observed and NA otherwise

• belongs to U(t; t + d) if Ii(t; t + d) = 1 and 0 otherwise

Progressive data if, for 𝑑 ≠ 𝑑′, we can have

I i(t; t + d) /= I i(t; t + dl) yi(t; t + d) ≠ yi (t; t + dl)and/o

r

NB. in case of non-progressive data, we have,

for all d,

Y i(t; d+ t) = yi(t)

an

d

U(t; t + d) = U

(t)

Page 26: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Illustration: Birth delays in IDBR (Hedlin et al., 2006)

ENP 2018

Page 27: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Illustration: Delays and corrections

in NEER

Norwegian Employee/Employer Register

(NEER)

Reference time point: Week 45 of 2008.First measurement time point: Week 47 of 2008. Second measurement time point: Week 13 of 2009.E: “employed”; N: “not employed” (Zhang and Fosen, 2012)

Entry Status (First, Second)

(E, E) (E, N) (N, E) (N, N)

Delayed - 7077

5

10321

1

-

Recurred 525

9

- - 289

6

No

Changes

206297

6

- - 128814

0

Total 206823

5

7077

5

10321

1

129103

6

Page 28: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

at = increase in employment rate due to

(N, E)

bt = decrease in employment rate due to

(E, N)

Illustration: Delays and corrections in

NEER over time

ENP 2018

Page 29: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Prediction framework based progressive

data (Zhang, 2014)

Birth delays = those we are not even

aware of

Page 30: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Упражнение

Page 31: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

4V = volume - объем, velocity - скорость, variety - разнообразие, veracity-

достоверность

• Объем: административные данные могут иметь также большие объемы

• Скорость: Нужна мгновенная официальная статистика?

• Разнообразие: Применима ли двухфазная модель?; достаточно ли

этого?

• Достоверность: Потребует ли это затрат?

Три типа ресурсов (Daas & Puts, 2014)

• человеческие: например социальные медиа, интернет

• сделки: например коммерческие, финансовые

• устройство считывания :наблюдение (например, трафик), услуги

(мобильные)

Большие объемы данных ⊂ альтернативные источники данных

ENP 2018

Page 32: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Новые приборы измерения•Определение уровня содержания холестерола в крови, кортизола в слюне, окружности талии

•Электронные напольные весы•(вес и процент жира)

• Акселерометры(физическая активность)

•Смартфоны•(использование времени,•поведение в поездках / мобильность)

•Навигация, Сенсоры,•Тахографы

Anders HolmbergИсточник: Marcel Das Tilburg university32

Page 33: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Статистическое управление Норвегии

и нетрадиционные источники

33

• Официальная статистика и большие

объемы данных

• Данные о потреблении электроэнергии

(умные счетчики)

• Операционные данные

• Данные платежной операции

• Кассовый аппарат/данные

сканирования

• Данные о членстве

• Вэбскрейпинг ("очистка сети")

• Данные мобильного телефона

Page 34: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Операционные

данные

34

Данные платежных операций из банков,

финансовых учреждений и других предприятий,

оказывающих платежные услуги, связанные с

электронными транзакциями, совершаемыми

физическими лицами и фирмами, с информацией

об уровне транзакции, сумме, типе транзакции,

дате, торговой фирме, MCC и др.

2016: 3 млрд транзакций

2016: 16 841 млрд. Норвежских крон в обороте

Данные транзакции продаж / данные сканера из

торговых сетей / Точка продаж, содержащие

подробную информацию о содержании

транзакций, таких как штрих-код на единицу

товара (GTIN), цена, дата, оборот, идентификатор

розничной торговли

ENP 2018

Page 35: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

Источники и концепции с использованием

данных транзакций

35

Данные о

торговой сделке

Домашнее

потребление

розничных

товаров

Данные о

банковских

транхакциях

Реестр членов

компании с

данными по

транззакциям

Распределение товаров

Пол, Возраст, География

Все розничные сделки с

картами и Giro

Приобретенные товары

ENP 2018

Page 36: A структура общей погрешности для ... · 2018-09-20 · и нетрадиционные источники 33 • Официальная статистика

References

[1] Daas P.J.H., Puts M.J.H., Buelens B. and van den Hurk P.A.M. (2013). Big Data and officialstatistics.

Paper presented at NTTS conference 2013.

[2] Daas, P. and Puts, M.J.H. (2014). Big Data as a source of statistical information.The Survey

Statistician, vol. 69, pp. 22-31.

[3] Daas, P. and Puts, M.J.H. (2014). Social Media Sentiment and Consumer Confidence.Statistics Paper Series, No. 5. European Central Bank.

[4] Groves, R.M., Fowler Jr., F.J., Couper, M., Lepkowski, J.M., Singer, E. and Tourrangeau,R. (2004).

Survey Methodology. New York: Wiley.

[5] Hedlin, D., Fenton, T., McDonald, J.W., Pont, M. and Wang, S. (2006). Estimating theundercoverage of a sampling frame due to reporting delays. Journal of Official Statistics, vol. 22,pp. 53-70.

[6] Zhang, L.-C. (2011). A unit-error theory for register-based household statistics. Journal of

Official Statis- tics, vol. 27, pp. 415-432.

[7] Zhang, L.-C. (2012). Topics of statistical theory for register-based statistics and data integration.Statistica Neerlandica, vol. 66, pp. 41-63.

[8] Zhang, L.-C. (2014). Data integration. The Survey Statistician, vol. 70, pp. 15-24.

[9] Zhang, L.-C. and Fosen, J. (2012). A modelling approach for uncertainty assessment ofregister-based small area statistics. Journal of the Indian Society of Agricultural Statistics, vol.66, pp. 91-104.

ENP 2018