Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
A структура общей погрешности
Двухфазная модель жизненного цикла
для интегрированных статистических данных
- Представление и измерение данных
- Объекты первой фазы и единицы второй фазы
- прогрессивный характер административных данных
- [Большие данные ⊂ альтернативные источники данных]
Содержание
ESTP 2017
ЕДП Грузия
2018
Жизненный цикл интегрированных
статистических данных и источники
ошибок:
Структура общей ошибки
Структура общей исследовательской ошибки
(Groves 2004, Рис. 2.5)
Некоторые важные различия (I)
Статистические данные в функциональной (матричной) форме
• единица-переменная/поля - записи/идентификатор-аттрибут
• “представление” = список идентификаторов
“измерения” = векторные величины
Целевое население в сравнении с основной выборкой
• Нет популяции без единиц, нет единиц без популяции
например численность населения в сравнении с численностью домашних хозяйств
• Реестр предприятий или Регистр недвижимости для обзора деловой
деятельности
что есть что в обзоре ставок заработной платы?
-Целевая популяция = личное потребление в домашних хозяйствах
-Функциональные данные (I):
-единица = домашнее хозяйство
переменная = личное потребление
- Функциональные данные (II):
единица = товарная/сервисная сделка и т. д.
переменная = частное домохозяйство
Вопрос: Ошибка вследствие неполного охвата или ошибка измерений?
ENP 2018
Пример: обзор расходов
Некоторые важные различия (II)Конструкт в сравнении с измерением
конструкт = интерес к теории
измерения = реализация того, что можно измерить
Пример: удовлетворенность сотрудников Статистической службой
• насколько вы удовлетворены по шкале 1 - 6?
• индекс удовлетворенности, объединяющий различные «измерения»?
Отношение может быть теоретическим, но факт измерим?
например, перевозки грузов в одиночку или взять одно такси на несколько человек и
разделить его оплату на всех
например, разбивка деятельности согласно статистическому стандарту
УпражнениеРассмотрите административные данные или иным образом собранные данные об
образовании
Опишите функциональную форму различных входных данных:
1. перепись начальной/средней школы
например, один или два раза в год? ученик, возможно, переехал?
2. данные о высшем образовании
например, как совместить с переписью школы?
3. профессиональное развитие - например, этот курс учитывается где-нибудь?
4. свободное время взрослых - например, искусство, язык, рукоделие и т. д.?
5. Центральный регистр населения (ЦРН) - нет там образования?
Подумайте: имеет ли значение, какая статистика представляет интерес?
Двухфазный жизненный цикл(I):
данные первоисточника (Zhang, 2012)
ENP 2018
Адаптация для представления
административных данныхОбъект = 1-я фаза, единица с конкретным источником
• дубликаты потенциальных релевантных 2-х фазных единиц
пример: существует ли 1-я фаза для Регистра населения?
• различие «первичное-интегрированное» может быть зависимым от цели
пример: Входные регистры для переписи на основе регистров
Достижимая цель / достигнутая цель / наблюдаемая цель
• задержка/упущение/ошибка: регистрация человеком в сравнении с автоматической
регистрацией
• прогрессивность: ситуация Т зависит от того, когда вы смотрите
причины: задержки разных типов и «исправления»
• наблюдаемое множество: от достижимого к принятому/действует
ENP 2018
Адаптация для административных данных:
измеренияЦелевой концепт в сравнении с целевым измерением
предположительно, там должны были быть конструкт/цель, но...
Ошибка измерений в полученном измерении
• ошибки неизбежны, будь то регистрация человеком или автоматическая
регистрация.
• практически безошибочное измерение кажется возможным сейчас
Ошибка обработки в отредактированном измерении
• редактирование может быть ограничено/отсутствовать (в сравнении с проверками
при регистрации)
• редактирование может иметь мало значения для статистических целей - не
предназначено для этого
ENP 2018
Двухфазный интегрированный цикл (II):
вторичные интегрированные данные
ENP 2018
Преобразование объекта в единицу
Необходимо и важно
• обеспечивает сведение воедино записей или статистическое комбинирование
на второй фазе
• первая возможность проверки/подтверждения качества входных данных
В отношении потенциального использования: общие в сравнение со
специальными
Ошибки первой фазы, направленные по разным путям
• Ошибка вследствие неполного охвата на первой фазе ⇒ измерение на второй фазе
• Ошибка вследствие неполного охвата на первой фазе ⇒ представление на второй фазе
• Ошибка измерений на первой фазе ⇒ представление на второй фазе
• Ошибка измерений на первой фазе ⇒ измерение на второй фазе
Рамки: Базовый регистр и его пределы
Преимущества и т.д .; задержки и ошибки каждого
Ошибки вследствие неполного охват. Не во всех, ни в одной, во всех единицах
Центральный регистр населения (ЦРН)
Эмиграция/проживание/обучения за рубежом, иммиграции.
В большинстве стран нет Центрального регистра населения
Регистр недвижимости - жилье, здания, адреса
Ошибка вследствие неполного охвата жилья≥ здания ≥ адреса
Другие: подсовокупность вышеупомянутых; другие единицы
(товары/услуги/...)
Регистр предприятий
Несколько источников,
например:
Торгово-промышленная палата,
НДС, Работник
ENP 2018
Ошибки по кадрам: классификация
1. Ошибка вследствие неполного охвата
• избыточный охват: ошибки; дублирование
• Недостаточный охват: упущение, группирование
2. Ошибка идентификации (новая) ?
3. Ошибка единицы (новая?)
4. Ошибка классификации домена
например, промышленная группировка бизнес-единиц; район проживания
студентов
Ошибка контактной информации
Quantifying coverage and domain
classification errorPopulation Domain Frame Domain Missing
N/A 1 · · · H
1 N11 N10 · · · N1H M1
. . . . . · · · . . . .
H NH0 NH1 · · · NHH MH
Erroneous R0 R1 · · · RH
Micro-level heterogeneityUnit-specific (mis-) classification probabilities:
-For frame unit i, let
(p i1, p i2, ..., p iH , p i0) = E (δ i1,δi2, ...,δiH ,δi0)
where δih = 1 if the unit belongs to target population domain h
and 0 otherwise, incl. the case of h = 0 for erroneous frame unit.
-For target population element j , let
(qi1, qi2, ..., qiH , qi0) = E (δ1j ,δ2j , ...,δHj ,δ0j )
where δhj = 1 if the element belongs to frame domain h and 0 otherwise,
incl. the case of h = 0 for missing in the frame.
Alignment table: Unit ↔
IdentificationBase Unit
Person
Composite Unit Contact Information
Household Employer · · · Telephone · · ·
Adam Smith Smith-SO19xxx UoS · · · 123456
132415
· · ·
Eva Hanford Smith-SO19xxx Hospital-xxx · · · 324151 · · ·
Mark Smith Smith-SO19xxx Pupil-xxx — —
Alan Smith Smith-WC1Exxx Leeds-xxx · · · — · · ·
. Smith-WC1Exxx · · · · · ·
· · · Smith-WC1Exxx · · · · · ·
Sarah Sommers Sommers-L17xxx Google · · · 654312 · · ·
. . . .
Coverage error vs. unit error vs. alignment
errorUnit error: delineation among base units
e.g. 5 persons at one address: one child, 2 male & 2 female adults
alignment table based on e.g. family relationship, sex-age, etc.
unit = household; two scenarios:
a. (child, male-1, female-1), (male-2, female-2)
b. (child, male-1, female-1), (male-2), (female-2)
Possible conceptualisation as coverage error
(true = a, frame = b) ⇒ under-coverage of (male-2, female-2), as well as
over-coverage of (male-2) and (female-2)
Unit error may or may not be caused by alignment error
Quantifying alignment error: Aggregated level
(Ng,Mh) = no. type-g persons aligned with type-h households
Given alignment error: e.g. (Ng 1,Mh 1,Ng 0,Mh 0), where
(Ng 1,Mh 1) = no. correctly aligned units [or expectation of them]
(Ng0,Mh0) = no. incorrectly aligned units [or expectation of them]
Person
Classification
Household Classification
1 · · · h · · · H
1 (N1, M1) · · · (N1, Mh) · · · (N1, MH)
. . · · · . · · · .
g (Ng, M1) · · · (Ng, Mh) · · · (Ng, MH)
. . · · · . · · · .
G (NG, M1) · · · (NG, M1) · · · (NG, MH)
Alignment error illustrated: Micro levelReality
Dwelling ID Family ID Household ID Person ID Name Sex Age Income
H101 1 1 1 Astrid Female 72 y1
H102 2 2 2 Geir Male 35 y2
H102 2 2 3 Jenny Female 34 y3
H102 2 2 4 Markus Male 5 y4
H201 3 3 5 Knut Male 29 y5
H201 4 3 6 Lena Female 28 y6
H202 5 4 7 Ole Male 28 y7
Household Register
Dwelling ID Family ID Household ID* Person ID Name Sex Age Income
H101 1 1 1 Astrid Female 72 y1
H101 2 2 2 Geir Male 35 y2
H101 2 2 3 Jenny Female 34 y3
H101 2 2 4 Markus Male 5 y4
H101 3 3 5 Knut Male 29 y5
- 4 4 6 Lena Female 28 y6
- 5 4 7 Ole Male 28 y7
Introducing allocation
matrix (Zhang, 2011)
ENP 2018
Allocation matrix A and value matrix
X: AXExample 1: X = I = identity matrix
allocation (of base units) = AI = A
Example 2: X = 1 = unity vector
household size = A1 = (1,3,2,1,0,0,0)T
Example 3: X = y = values associated with base-units
household total = Ay = (y1, y2 + y3 + y4, y5 + y6, y7,0,0,0)T
household size = A1 = (1,3,2,1,0,0,0)T
household mean = diag[Diag+ (A1)−1 Diag+ (Ay)]
Allocation matrix A and value matrix
X: AX
Example 4: To obtain household age composition for 4 age groups:
(0-18, 18-30, 31-65, 66+), use dummy-index value matrix as follows
Harmonisation, re-classification & adjustment:
illust’d
Target variable = Job title
• International Standard Classification of Occupations at ILO
e.g. Professional (2) 3 Science etc. (21) 3 Statistician etc. (212)
• lack-of-standard at lower hierarchy
e.g. Professor, Reader, Lecturer, etc.
e.g. Analyst, Senior Analyst, Chief Analyst, etc. suppose
harmonised measure: e.g. category 1, 2, ... K
• re-classification of job titles in-source needed
build an operational catalogue of job titles over time
• adjustment needed if new titles not in catelogue
Progressive data: Definition
Reference time point of statistics = t
target population = U (t) value of interest = y (t)
Measurement time point = t + d, where d≥ 0. For unit i:
• value y i (t; t + d ) if observed and NA otherwise
• belongs to U(t; t + d) if Ii(t; t + d) = 1 and 0 otherwise
Progressive data if, for 𝑑 ≠ 𝑑′, we can have
I i(t; t + d) /= I i(t; t + dl) yi(t; t + d) ≠ yi (t; t + dl)and/o
r
NB. in case of non-progressive data, we have,
for all d,
Y i(t; d+ t) = yi(t)
an
d
U(t; t + d) = U
(t)
Illustration: Birth delays in IDBR (Hedlin et al., 2006)
ENP 2018
Illustration: Delays and corrections
in NEER
Norwegian Employee/Employer Register
(NEER)
Reference time point: Week 45 of 2008.First measurement time point: Week 47 of 2008. Second measurement time point: Week 13 of 2009.E: “employed”; N: “not employed” (Zhang and Fosen, 2012)
Entry Status (First, Second)
(E, E) (E, N) (N, E) (N, N)
Delayed - 7077
5
10321
1
-
Recurred 525
9
- - 289
6
No
Changes
206297
6
- - 128814
0
Total 206823
5
7077
5
10321
1
129103
6
at = increase in employment rate due to
(N, E)
bt = decrease in employment rate due to
(E, N)
Illustration: Delays and corrections in
NEER over time
ENP 2018
Prediction framework based progressive
data (Zhang, 2014)
Birth delays = those we are not even
aware of
Упражнение
4V = volume - объем, velocity - скорость, variety - разнообразие, veracity-
достоверность
• Объем: административные данные могут иметь также большие объемы
• Скорость: Нужна мгновенная официальная статистика?
• Разнообразие: Применима ли двухфазная модель?; достаточно ли
этого?
• Достоверность: Потребует ли это затрат?
Три типа ресурсов (Daas & Puts, 2014)
• человеческие: например социальные медиа, интернет
• сделки: например коммерческие, финансовые
• устройство считывания :наблюдение (например, трафик), услуги
(мобильные)
Большие объемы данных ⊂ альтернативные источники данных
ENP 2018
Новые приборы измерения•Определение уровня содержания холестерола в крови, кортизола в слюне, окружности талии
•Электронные напольные весы•(вес и процент жира)
• Акселерометры(физическая активность)
•Смартфоны•(использование времени,•поведение в поездках / мобильность)
•Навигация, Сенсоры,•Тахографы
Anders HolmbergИсточник: Marcel Das Tilburg university32
Статистическое управление Норвегии
и нетрадиционные источники
33
• Официальная статистика и большие
объемы данных
• Данные о потреблении электроэнергии
(умные счетчики)
• Операционные данные
• Данные платежной операции
• Кассовый аппарат/данные
сканирования
• Данные о членстве
• Вэбскрейпинг ("очистка сети")
• Данные мобильного телефона
Операционные
данные
34
Данные платежных операций из банков,
финансовых учреждений и других предприятий,
оказывающих платежные услуги, связанные с
электронными транзакциями, совершаемыми
физическими лицами и фирмами, с информацией
об уровне транзакции, сумме, типе транзакции,
дате, торговой фирме, MCC и др.
2016: 3 млрд транзакций
2016: 16 841 млрд. Норвежских крон в обороте
Данные транзакции продаж / данные сканера из
торговых сетей / Точка продаж, содержащие
подробную информацию о содержании
транзакций, таких как штрих-код на единицу
товара (GTIN), цена, дата, оборот, идентификатор
розничной торговли
ENP 2018
Источники и концепции с использованием
данных транзакций
35
Данные о
торговой сделке
Домашнее
потребление
розничных
товаров
Данные о
банковских
транхакциях
Реестр членов
компании с
данными по
транззакциям
Распределение товаров
Пол, Возраст, География
Все розничные сделки с
картами и Giro
Приобретенные товары
ENP 2018
References
[1] Daas P.J.H., Puts M.J.H., Buelens B. and van den Hurk P.A.M. (2013). Big Data and officialstatistics.
Paper presented at NTTS conference 2013.
[2] Daas, P. and Puts, M.J.H. (2014). Big Data as a source of statistical information.The Survey
Statistician, vol. 69, pp. 22-31.
[3] Daas, P. and Puts, M.J.H. (2014). Social Media Sentiment and Consumer Confidence.Statistics Paper Series, No. 5. European Central Bank.
[4] Groves, R.M., Fowler Jr., F.J., Couper, M., Lepkowski, J.M., Singer, E. and Tourrangeau,R. (2004).
Survey Methodology. New York: Wiley.
[5] Hedlin, D., Fenton, T., McDonald, J.W., Pont, M. and Wang, S. (2006). Estimating theundercoverage of a sampling frame due to reporting delays. Journal of Official Statistics, vol. 22,pp. 53-70.
[6] Zhang, L.-C. (2011). A unit-error theory for register-based household statistics. Journal of
Official Statis- tics, vol. 27, pp. 415-432.
[7] Zhang, L.-C. (2012). Topics of statistical theory for register-based statistics and data integration.Statistica Neerlandica, vol. 66, pp. 41-63.
[8] Zhang, L.-C. (2014). Data integration. The Survey Statistician, vol. 70, pp. 15-24.
[9] Zhang, L.-C. and Fosen, J. (2012). A modelling approach for uncertainty assessment ofregister-based small area statistics. Journal of the Indian Society of Agricultural Statistics, vol.66, pp. 91-104.
ENP 2018