Upload
cs-center
View
630
Download
2
Embed Size (px)
Citation preview
Лекция 1. Выборочное пространство
Грауэр Л.В., Архипова О.А.
CS center
Санкт-Петербург, 2016
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 1 / 34
Cодержание
Содержание
1 Выборка. Выборочное пространство
2 Эмпирическая вероятностная мера.
3 Теорема Гливенко-Кантелли.
4 Описательная статистика
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 2 / 34
Выборка. Выборочное пространство
Выборка. Выборочное пространство
Рассмотрим случайную величину ξ(ω) : Ω −→ Rвероятностное пространство значений случайной величины
(R,B(R),Pξ),где B(R) — сигма-алгебра борелевских множеств числовой прямой,Pξ — вероятностная мера такая, что
Pξ(−∞, x) = Fξ(x) = Pξ < x.
В многомерном случаеслучайный вектор (ξ1, . . . , ξm) : Ω −→ Rm,вероятностное пространство (Rm,B(Rm),Pξ)здесь Pξ — совместное распределение случайных величин:
Pξ(−∞, x1)× . . .× (−∞, xm) = Fξ(x1, . . . , xm).
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 3 / 34
Выборка. Выборочное пространство
Определение 1
Совокупность взаимно независимых реализаций случайной величины ξобразует выборку X[n] объема n:
X[n] = (X1, . . . ,Xn) ,
где Xi — числовая реализация случайной величины ξ в i-омэксперименте (i = 1, . . . , n).
Определение 2
Случайная величина ξ, реализации которой мы наблюдаем, частоназывается генеральной совокупностью.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 4 / 34
Выборка. Выборочное пространство
Функция распределения выборки:
FX[n](x1, . . . , xn) = Fξ(x1) . . .Fξ(xn),
где xi — числовая переменная, соответствующая i-ой координатной оси.Выборкам объема n соответствует выборочное пространство(
Rn,B(Rn),PX[n]
),
где вероятностная мера PX[n]взаимно однозначно соответствует FX[n]
.
При n→∞ рассмотрим бесконечномерное пространство:(R∞,B(R∞),PX[∞]
).
Элементарным событием в этом пространстве является бесконечнаячисловая последовательность (бесконечная выборка).(Rn,B(Rn),PX[n]
)является подпространством
(R∞,B(R∞),PX[∞]
),
соответствующим первым n координатам.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 5 / 34
Выборка. Выборочное пространство
Если ξ = (ξ1, . . . , ξm)T — случайный вектор, то фиксируются значениявсей совокупности, получаются взаимно независимые вектора
X1 =
X11
X21...
Xm1
, . . . ,Xn =
X1n
X2n...
Xmn
.
Аналогично скалярному случаю можно построить выборочноевероятностное пространство для выборок такого типа(
X n,B(X )⊗ . . .⊗ B(X ),PX[n]
), X = Rm.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 6 / 34
Эмпирическая вероятностная мера.
Эмпирическая вероятностная мера.
Пусть имеется генеральная совокупность ξ ивыборка X[n] = (X1, . . . , Xn).
Введем порядковые статистики:X(1) = min X1, . . . ,Xn — первая порядковая статистика,X(2) = min
X1, . . . ,Xn \X(1)
— вторая порядковая статистика,
X(3) = minX1, . . . ,Xn \
X(1),X(2)
— третья порядковая статистика,
. . .X(n) = max X1, . . . ,Xn — n-ая порядковая статистика.Очевидно, что X(1) 6 X(2) 6 . . . 6 X(n).Величины X(1), X(2), . . ., X(n) образуют вариационный ряд.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 7 / 34
Эмпирическая вероятностная мера.
Выборочная функция распределения
Определение 3Эмпирическим распределением назовем вероятностную меру,определенную следующим образом
P∗n(B) =ν(B)
n,
где B ∈ B(R), а ν(B) — количество элементов выборки, попавших в B .
Определение 4Эмпирической функцией распределения называется функция
F ∗n (x) = P∗n(−∞; x) =ν(−∞; x)
n, x ∈ R.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 8 / 34
Эмпирическая вероятностная мера.
Если предположить, что X(1) < X(2) < . . . < X(n), то можно определитьэмпирическую функцию распределения следующим образом:
F ∗n (x) =
0, если x 6 X(1);1n , если X(1) < x 6 X(2);2n , если X(2) < x 6 X(3);. . .kn , если X(k) < x 6 X(k+1);. . .
1, если x > X(n).
(1)
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 9 / 34
Эмпирическая вероятностная мера.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 10 / 34
Теорема Гливенко-Кантелли.
Теорема Гливенко-Кантелли. Теорема о предельномраспределении эмпирических вероятностей
Теорема 1
Для любого B ∈ B(R) выполняется:
P∗n(B)п.н.−−−−→
n−→∞Pξ(B). (2)
и для любого x ∈ R выполняется:
F ∗n (x)п.н.−−−−→
n−→∞Fξ(x). (3)
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 11 / 34
Теорема Гливенко-Кантелли.
ДоказательствоCправедливо равенство:
P∗n(B) =1
n
n∑k=1
IXk ∈ B.
IXk ∈ B =
1, с вероятностью PXk ∈ B = Pξ ∈ B = Pξ(B);0, с вероятностью 1− Pξ(B).
тогда EIXk ∈ B = Pξ(B),Учитывая усиленный закон больших чисел Колмогорова следует условие(2):
P∗n(B) =1
n
n∑k=1
IXk ∈ B п.н.−−−−→n−→∞
Pξ(B).
Для доказательства второго утверждения возьмем B = (−∞, x).
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 12 / 34
Теорема Гливенко-Кантелли.
Теорема 2 (Гливенко-Кантелли)
Пусть заданы функция распределения Fξ(x) и эмпирическая функцияраспределения F ∗n (x), тогда
supx∈R|F ∗n (x)− Fξ(x)| п.н.−−−−→
n−→∞0
Теорема 3
Для любого борелевского множества B ∈ B(R) выполняется:√n (P∗n(B)− Pξ(B))√Pξ(B)(1− Pξ(B))
d−−−−→n−→∞
ζ,
где ζ ∼ N(0, 1).
Замечание 1Теоремы 1, 2, 3 справедливы и в многомерном случае.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 13 / 34
Описательная статистика
Описательная статистика
В описательную статистику входятоценки числовых характеристик ξ, найденные поX[n] = (X1, . . . ,Xn)
всевозможные функции от выборки.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 14 / 34
Описательная статистика
Зачем нужна описательная статистика?
Выявить ошибки в данныхУвидеть структуру данныхНайти нарушения в статистических предположенияхСгенерировать гипотезы... Если вы не сделаете этого, у вас могут быть проблемы позже :(
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 15 / 34
Описательная статистика
Вариационный рядX(1) 6 X(2) 6 . . . 6 X(n)
Статистический ряд
xi X (1) X (2) . . . X (k)
ni n1 n2 . . . nkni/n n1/n n2/n . . . nk/n∑ij=1 nj/n n1/n
∑2j=1 nj/n . . . 1
Группированный статистический ряд
xi [a0, a1] (a1, a2] . . . (ak−1, ak ]
ni n1 n2 . . . nkni/n n1/n n2/n . . . nk/n
a0 = Xmin, ak = Xmax
Размах R = Xmax − Xmin, h = R/k
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 16 / 34
Описательная статистика
Для наглядного представления выборки применяют гистограмму иполигон частот.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 17 / 34
Описательная статистика
Гистограмма
Возьмем интервал (a, b), где a < X(1) и X(n) < b, разобьем этот интервална конечную совокупность непересекающихся промежутков:
a0 = a < a1 < a2 < . . . < ar = b,
(ai−1, ai ], i = 1, . . . , r .
Пусть ni — количество элементов выборки, попавших в полуинтервал(ai−1, ai ]. Тогда
n1 + n2 + . . .+ nr = n,
∆i = ai − ai−1,
hi =ni
∆in.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 18 / 34
Описательная статистика
Получаем гистограмму:
f ∗n (x) =
0, если x 6 a0;h1, если a0 < x 6 a1;. . .
hr , если ar−1 < x 6 ar ;0, если x > ar .
Гистограмма f ∗n (x) — эмпирический аналог плотности распределения.Если в знаменателе при вычислении hi убрать li , получится гистограммаотносительных частот, если, кроме того, в знаменателе убрать n, тополучится гистограмма частот ni . Часто при построении гистограммыполагают ∆i = ∆ = const.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 19 / 34
Описательная статистика
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 20 / 34
Описательная статистика
Как выбрать K?
X[1000] ∈ N(5, 1)
r = 100 r=4
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 21 / 34
Описательная статистика
r = [1 + 3.2 lg n] r =[1.72n1/3
]
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 22 / 34
Описательная статистика
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 23 / 34
Описательная статистика
Boxplots
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 24 / 34
Описательная статистика
Выборочный начальный момент r -го порядка
a∗r =1
n
n∑i=1
X ri ,
если выборка представлена статистическим рядом, то
a∗r =1
n
k∑i=1
niXri ,
Выборочное среднее
X = a∗1 =1
n
n∑i=1
Xi
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 25 / 34
Описательная статистика
Выборочный центральный момент r -го порядка
a0∗r =1
n
n∑i=1
(Xi − X
)r,
если выборка представлена статистическим рядом, то
a0∗r =1
n
k∑i=1
ni(Xi − X
)r.
Выборочная дисперсия
D∗X[n] =1
n
k∑i=1
(Xi − X
)2.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 26 / 34
Описательная статистика
Выборочная квантиль xp порядка p — [np] + 1 элементX(1) 6 X(2) 6 . . . 6 X(n).
В описательной статистике используют ряд квантилей, имеющихспециальные названия
персентили (квантили порядков 0.01; 0.02;. . . ;0.99),децили (квантили порядков 0.1; 0.2;. . . ;0.9),квартили (квантили порядков 0.25; 0.5; 0.75).
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 27 / 34
Описательная статистика
Наиболее распространенными характеристиками положения являютсявыборочное среднее,выборочная медиана
x∗med =
X(k+1), n = 2k + 1X(k)+X(k+1)
2 , n = 2k
выборочная мода (модой называется элемент выборки, имеющийнаибольшую частоту).
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 28 / 34
Описательная статистика
Наиболее распространенными мерами рассеяния являютсяразмах (R = Xmax − Xmin),средний межквартильный размах (три квартили Q1,Q2,Q3 делятвариационный ряд на четыре части с равным числом элементов,тогда средний межквартильный размах равен (Q3 − Q1)/2),персентильный размах (персентильный размах равен разностиперсентилей P90 − P10),выборочная дисперсия;исправленная дисперсия s2 = nD∗X[n]/(n − 1)
среднее квадратическое отклонение s =√s2.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 29 / 34
Описательная статистика
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 30 / 34
Описательная статистика
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 31 / 34
Описательная статистика
В качестве меры относительного разброса используют коэффициентвариации v = s/X ( Cv = v · 100%).
Для оценки формы распределения служаткоэффициент асимметрии Sk1 = µ∗3/s
3 икоэффициент эксцесса K = µ∗4/s
4 − 3,
Еще один показатель асимметрии вычисляется на основе квантилейSk2 = (Q3 − Q1 − 2Q2)/(Q3 − Q1).
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 32 / 34
Описательная статистика
В случае многомерных случайных выборок помимо характеристикположения и рассеивания рассматривают выборочный коэффициенткорреляция (меру линейной связи).Рассмотрим на примере двумерного случайного вектора (ξ, η)T .Пусть выборка наблюдений объема n(
X1
Y1
), . . . ,
(Xn
Yn
),
тогда коэффициент выборочной корреляциии определяется по формуле
rξ,η =1n
∑ni=1 XiYi − X Y
sX sY
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 33 / 34
Описательная статистика
Графически двумерные выборки удобно представлять с помощьюдиаграмм рассеивания.
Грауэр Л.В., Архипова О.А. (CSC) Лекция 1. Выборочное пространство Санкт-Петербург, 2016 34 / 34