34
Лекция 1. Выборочное пространство Грауэр Л.В., Архипова О.А. CS center Санкт-Петербург, 2016 Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 1 / 34

Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Embed Size (px)

Citation preview

Page 1: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Лекция 1. Выборочное пространство

Грауэр Л.В., Архипова О.А.

CS center

Санкт-Петербург, 2016

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 1 / 34

Page 2: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Cодержание

Содержание

1 Выборка. Выборочное пространство

2 Эмпирическая вероятностная мера.

3 Теорема Гливенко-Кантелли.

4 Описательная статистика

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 2 / 34

Page 3: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Выборка. Выборочное пространство

Выборка. Выборочное пространство

Рассмотрим случайную величину ξ(ω) : Ω −→ Rвероятностное пространство значений случайной величины

(R,B(R),Pξ),где B(R) — сигма-алгебра борелевских множеств числовой прямой,Pξ — вероятностная мера такая, что

Pξ(−∞, x) = Fξ(x) = Pξ < x.

В многомерном случаеслучайный вектор (ξ1, . . . , ξm) : Ω −→ Rm,вероятностное пространство (Rm,B(Rm),Pξ)здесь Pξ — совместное распределение случайных величин:

Pξ(−∞, x1)× . . .× (−∞, xm) = Fξ(x1, . . . , xm).

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 3 / 34

Page 4: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Выборка. Выборочное пространство

Определение 1

Совокупность взаимно независимых реализаций случайной величины ξобразует выборку X[n] объема n:

X[n] = (X1, . . . ,Xn) ,

где Xi — числовая реализация случайной величины ξ в i-омэксперименте (i = 1, . . . , n).

Определение 2

Случайная величина ξ, реализации которой мы наблюдаем, частоназывается генеральной совокупностью.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 4 / 34

Page 5: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Выборка. Выборочное пространство

Функция распределения выборки:

FX[n](x1, . . . , xn) = Fξ(x1) . . .Fξ(xn),

где xi — числовая переменная, соответствующая i-ой координатной оси.Выборкам объема n соответствует выборочное пространство(

Rn,B(Rn),PX[n]

),

где вероятностная мера PX[n]взаимно однозначно соответствует FX[n]

.

При n→∞ рассмотрим бесконечномерное пространство:(R∞,B(R∞),PX[∞]

).

Элементарным событием в этом пространстве является бесконечнаячисловая последовательность (бесконечная выборка).(Rn,B(Rn),PX[n]

)является подпространством

(R∞,B(R∞),PX[∞]

),

соответствующим первым n координатам.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 5 / 34

Page 6: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Выборка. Выборочное пространство

Если ξ = (ξ1, . . . , ξm)T — случайный вектор, то фиксируются значениявсей совокупности, получаются взаимно независимые вектора

X1 =

X11

X21...

Xm1

, . . . ,Xn =

X1n

X2n...

Xmn

.

Аналогично скалярному случаю можно построить выборочноевероятностное пространство для выборок такого типа(

X n,B(X )⊗ . . .⊗ B(X ),PX[n]

), X = Rm.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 6 / 34

Page 7: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Эмпирическая вероятностная мера.

Эмпирическая вероятностная мера.

Пусть имеется генеральная совокупность ξ ивыборка X[n] = (X1, . . . , Xn).

Введем порядковые статистики:X(1) = min X1, . . . ,Xn — первая порядковая статистика,X(2) = min

X1, . . . ,Xn \X(1)

— вторая порядковая статистика,

X(3) = minX1, . . . ,Xn \

X(1),X(2)

— третья порядковая статистика,

. . .X(n) = max X1, . . . ,Xn — n-ая порядковая статистика.Очевидно, что X(1) 6 X(2) 6 . . . 6 X(n).Величины X(1), X(2), . . ., X(n) образуют вариационный ряд.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 7 / 34

Page 8: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Эмпирическая вероятностная мера.

Выборочная функция распределения

Определение 3Эмпирическим распределением назовем вероятностную меру,определенную следующим образом

P∗n(B) =ν(B)

n,

где B ∈ B(R), а ν(B) — количество элементов выборки, попавших в B .

Определение 4Эмпирической функцией распределения называется функция

F ∗n (x) = P∗n(−∞; x) =ν(−∞; x)

n, x ∈ R.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 8 / 34

Page 9: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Эмпирическая вероятностная мера.

Если предположить, что X(1) < X(2) < . . . < X(n), то можно определитьэмпирическую функцию распределения следующим образом:

F ∗n (x) =

0, если x 6 X(1);1n , если X(1) < x 6 X(2);2n , если X(2) < x 6 X(3);. . .kn , если X(k) < x 6 X(k+1);. . .

1, если x > X(n).

(1)

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 9 / 34

Page 10: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Эмпирическая вероятностная мера.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 10 / 34

Page 11: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Теорема Гливенко-Кантелли.

Теорема Гливенко-Кантелли. Теорема о предельномраспределении эмпирических вероятностей

Теорема 1

Для любого B ∈ B(R) выполняется:

P∗n(B)п.н.−−−−→

n−→∞Pξ(B). (2)

и для любого x ∈ R выполняется:

F ∗n (x)п.н.−−−−→

n−→∞Fξ(x). (3)

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 11 / 34

Page 12: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Теорема Гливенко-Кантелли.

ДоказательствоCправедливо равенство:

P∗n(B) =1

n

n∑k=1

IXk ∈ B.

IXk ∈ B =

1, с вероятностью PXk ∈ B = Pξ ∈ B = Pξ(B);0, с вероятностью 1− Pξ(B).

тогда EIXk ∈ B = Pξ(B),Учитывая усиленный закон больших чисел Колмогорова следует условие(2):

P∗n(B) =1

n

n∑k=1

IXk ∈ B п.н.−−−−→n−→∞

Pξ(B).

Для доказательства второго утверждения возьмем B = (−∞, x).

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 12 / 34

Page 13: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Теорема Гливенко-Кантелли.

Теорема 2 (Гливенко-Кантелли)

Пусть заданы функция распределения Fξ(x) и эмпирическая функцияраспределения F ∗n (x), тогда

supx∈R|F ∗n (x)− Fξ(x)| п.н.−−−−→

n−→∞0

Теорема 3

Для любого борелевского множества B ∈ B(R) выполняется:√n (P∗n(B)− Pξ(B))√Pξ(B)(1− Pξ(B))

d−−−−→n−→∞

ζ,

где ζ ∼ N(0, 1).

Замечание 1Теоремы 1, 2, 3 справедливы и в многомерном случае.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 13 / 34

Page 14: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Описательная статистика

В описательную статистику входятоценки числовых характеристик ξ, найденные поX[n] = (X1, . . . ,Xn)

всевозможные функции от выборки.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 14 / 34

Page 15: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Зачем нужна описательная статистика?

Выявить ошибки в данныхУвидеть структуру данныхНайти нарушения в статистических предположенияхСгенерировать гипотезы... Если вы не сделаете этого, у вас могут быть проблемы позже :(

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 15 / 34

Page 16: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Вариационный рядX(1) 6 X(2) 6 . . . 6 X(n)

Статистический ряд

xi X (1) X (2) . . . X (k)

ni n1 n2 . . . nkni/n n1/n n2/n . . . nk/n∑ij=1 nj/n n1/n

∑2j=1 nj/n . . . 1

Группированный статистический ряд

xi [a0, a1] (a1, a2] . . . (ak−1, ak ]

ni n1 n2 . . . nkni/n n1/n n2/n . . . nk/n

a0 = Xmin, ak = Xmax

Размах R = Xmax − Xmin, h = R/k

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 16 / 34

Page 17: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Для наглядного представления выборки применяют гистограмму иполигон частот.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 17 / 34

Page 18: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Гистограмма

Возьмем интервал (a, b), где a < X(1) и X(n) < b, разобьем этот интервална конечную совокупность непересекающихся промежутков:

a0 = a < a1 < a2 < . . . < ar = b,

(ai−1, ai ], i = 1, . . . , r .

Пусть ni — количество элементов выборки, попавших в полуинтервал(ai−1, ai ]. Тогда

n1 + n2 + . . .+ nr = n,

∆i = ai − ai−1,

hi =ni

∆in.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 18 / 34

Page 19: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Получаем гистограмму:

f ∗n (x) =

0, если x 6 a0;h1, если a0 < x 6 a1;. . .

hr , если ar−1 < x 6 ar ;0, если x > ar .

Гистограмма f ∗n (x) — эмпирический аналог плотности распределения.Если в знаменателе при вычислении hi убрать li , получится гистограммаотносительных частот, если, кроме того, в знаменателе убрать n, тополучится гистограмма частот ni . Часто при построении гистограммыполагают ∆i = ∆ = const.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 19 / 34

Page 20: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 20 / 34

Page 21: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Как выбрать K?

X[1000] ∈ N(5, 1)

r = 100 r=4

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 21 / 34

Page 22: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

r = [1 + 3.2 lg n] r =[1.72n1/3

]

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 22 / 34

Page 23: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 23 / 34

Page 24: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Boxplots

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 24 / 34

Page 25: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Выборочный начальный момент r -го порядка

a∗r =1

n

n∑i=1

X ri ,

если выборка представлена статистическим рядом, то

a∗r =1

n

k∑i=1

niXri ,

Выборочное среднее

X = a∗1 =1

n

n∑i=1

Xi

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 25 / 34

Page 26: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Выборочный центральный момент r -го порядка

a0∗r =1

n

n∑i=1

(Xi − X

)r,

если выборка представлена статистическим рядом, то

a0∗r =1

n

k∑i=1

ni(Xi − X

)r.

Выборочная дисперсия

D∗X[n] =1

n

k∑i=1

(Xi − X

)2.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 26 / 34

Page 27: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Выборочная квантиль xp порядка p — [np] + 1 элементX(1) 6 X(2) 6 . . . 6 X(n).

В описательной статистике используют ряд квантилей, имеющихспециальные названия

персентили (квантили порядков 0.01; 0.02;. . . ;0.99),децили (квантили порядков 0.1; 0.2;. . . ;0.9),квартили (квантили порядков 0.25; 0.5; 0.75).

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 27 / 34

Page 28: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Наиболее распространенными характеристиками положения являютсявыборочное среднее,выборочная медиана

x∗med =

X(k+1), n = 2k + 1X(k)+X(k+1)

2 , n = 2k

выборочная мода (модой называется элемент выборки, имеющийнаибольшую частоту).

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 28 / 34

Page 29: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Наиболее распространенными мерами рассеяния являютсяразмах (R = Xmax − Xmin),средний межквартильный размах (три квартили Q1,Q2,Q3 делятвариационный ряд на четыре части с равным числом элементов,тогда средний межквартильный размах равен (Q3 − Q1)/2),персентильный размах (персентильный размах равен разностиперсентилей P90 − P10),выборочная дисперсия;исправленная дисперсия s2 = nD∗X[n]/(n − 1)

среднее квадратическое отклонение s =√s2.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 29 / 34

Page 30: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 30 / 34

Page 31: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 31 / 34

Page 32: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

В качестве меры относительного разброса используют коэффициентвариации v = s/X ( Cv = v · 100%).

Для оценки формы распределения служаткоэффициент асимметрии Sk1 = µ∗3/s

3 икоэффициент эксцесса K = µ∗4/s

4 − 3,

Еще один показатель асимметрии вычисляется на основе квантилейSk2 = (Q3 − Q1 − 2Q2)/(Q3 − Q1).

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 32 / 34

Page 33: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

В случае многомерных случайных выборок помимо характеристикположения и рассеивания рассматривают выборочный коэффициенткорреляция (меру линейной связи).Рассмотрим на примере двумерного случайного вектора (ξ, η)T .Пусть выборка наблюдений объема n(

X1

Y1

), . . . ,

(Xn

Yn

),

тогда коэффициент выборочной корреляциии определяется по формуле

rξ,η =1n

∑ni=1 XiYi − X Y

sX sY

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 33 / 34

Page 34: Математическая статистика, весна 2016: Лекция 1. Описательная статистика

Описательная статистика

Графически двумерные выборки удобно представлять с помощьюдиаграмм рассеивания.

Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 34 / 34