22
{ выборка из генеральной совокупности - эмпирическая (выборочная) функция распределения – гистограмма – статистические оценки – точечные оценки параметров и их критерии – методы получения оценок параметров – метод моментов – метод наибольшего подобия }

Методы математической статистики

  • Upload
    clover

  • View
    75

  • Download
    6

Embed Size (px)

DESCRIPTION

Методы математической статистики. { выборка из генеральной совокупности - эмпирическая (выборочная) функция распределения – гистограмма – статистические оценки – точечные оценки параметров и их критерии – методы получения оценок параметров – метод моментов – метод наибольшего подобия }. - PowerPoint PPT Presentation

Citation preview

Page 1: Методы математической статистики

{ выборка из генеральной совокупности - эмпирическая (выборочная) функция распределения – гистограмма – статистические оценки – точечные оценки параметров и их критерии – методы получения оценок параметров – метод моментов – метод наибольшего подобия }

Page 2: Методы математической статистики

Задачи, решаемые математической статистикой, являются, в некотором смысле, обратными задачам теории вероятностей. В вероятностных задачах распределения случайных величин считаются известными. В статистических задачах само распределение считается неизвестным, и целью исследования является получение более или менее достоверной информации об этом распределении, собранной в результате наблюдений.

Основой статистического анализа являются данные, полученные экспериментатором в результате опыта, например, n повторных измерений некоторой неизвестной величины X {x1,x2,…,xn }, принимаемых случайной величиной . Это множество называется выборкой из генеральной совокупности всех значений случайной величины, а количество n – объемом выборки. Эти значения естественно считать реализацией набора из n независимых одинаково распределенных случайных величин с неизвестной функцией распределения F(x). Данные должны быть выбраны из генеральной совокупности случайным образом, их объем достаточно велик. В этом случае выборка называется репрезентативной (представвительной).

Page 3: Методы математической статистики

Вектор этих данных называют выборкой из генеральной совокупности данных. n - мерная случайная величина X (x1, x2, …, xn ) с независимыми одинаково распределенными компонентами xi , i = 1, 2, .., n называется независимой выборкой объема n неизвестного распределения F(x).

Часто встречается ситуация, когда экспериментатор имеет основания предполагать, что неизвестное распределение принадлежит некоторому семейству распределений F(x,) , зависящему от параметра . В этом случае проблема статистического анализа сводится к получению информации об этом неизвестном параметре.

Любая функция h = h ( x1, x2, ….., xn ) выборочных значений называется статистикой.

Page 4: Методы математической статистики

@ Для контроля качества в 40 пробах стали GS50 определялось содержание углерода X ( %С ) и прочность на разрыв z ( Н/мм ). Данные оформлены в виде таблицы чисел:

X : 0.3, 0.33, 0.37, 0.36, 0.31, 0.29, 0.34, 0.39, 0.37, 0.38, 0.35, 0.32, 0.39, 0.3, 0.32, 0.32, 0.38, 0.37, 0.38, 0.33, 0.37, 0.33, 0.34, 0.33, 0.3, 0.34, 0.36, 0.33, 0.34, 0.36, 0.29, 0.3, 0.33, 0.32, 0.32, 0.38, 0.37, 0.34, 0.35, 0.36 X = X ( x1, x2, …, x40 ) – выборка объемом n = 40

Z : 589, 614, 612, 572, 548, 537, 574, 570, 540, 575, 535, 593, 582, 538, 566, 562, 601, 587, 587, 614, 602, 544, 545, 562, 576, 596, 605, 575, 570, 550, 572, 555, 555, 518, 539, 557, 558, 587, 580, 560

Z = Z ( z1, z2,…, z40 ) – выборка объемом n = 40

Page 5: Методы математической статистики

Пусть X ( x1, x2, …, xn ) - независимая выборка неизвестного распределения F( x ) .

Теорема Гливенко: В пределе выборочная функция распределения равномерно сходится к теоретической.

Эмпирической (выборочной) функцией распределения называется функцияF*n (t) : R -> [ 0, 1 ] , вычисляемая по выборке X ( x1, x2, …, xn )  как отношение числа элементов выборки, не превосходящих t , к объему выборки:

F(t)

1

t

ntxi

tF in

|}:{|)(*

Rt

*n 1}0F(t)|(t)|F{P

sup

Page 6: Методы математической статистики

Определим функцию

График h(t) - гистограммаh(t)

xL R

Помимо эмпирических функций распределения, наглядное представление о неизвестном распределении можно получить при помощи гистограмм. Пусть X ( x1, x2, …, xn ) - независимая выборка неизвестного распределения F( x ) . Выберем два числа L и R , такими, чтобы все числа xi попали внутрь интервала ( L, R ] . Разобъем этот интервал его на конечное число меньших интервалов 1jjj rr Произведем группировку выборки, а именно, для каждого интервала разбиения j объединим в группу те xi  , которые попали в этот интервал. Пусть nj - число таких элементов выборки: k21jrrxjn j1jjj , . . . ,,|,)},(:{|

Rt0

k21jrrtn

nLt0

th 1jjj

,

,...,],(,

,

)(

j

Page 7: Методы математической статистики

@Построить гистограмму

34 35 36 37 38 39 40 41 42 43 44 45 46

x

h(x)

0.4

0.2

Вариационный ряд: 34 36 36 37 …38 38 38 ….. 38 …39 40 40 40 41 41 42 42 …44… 45 46

100n

Среднее значение

Разброс значений

Page 8: Методы математической статистики

Случайная величина X характеризуется рядом числовых параметров: математическим ожиданием, дисперсией, модой, медианой, моментами разных порядков и т.д. Это параметры генеральной совокупности. На основе выборочных данных можно получить статистические оценки этих параметров.

Для оценки математического ожидания применяется выборочное среднее

Для группированной выборки используется формула, в которой все mj значений выборки, попавшей в j - ый интервал, равны представителю этого интервала ( всего их k )

n

xm

n

1ii

x

~

n

mz

m

k

1jjj

x

~

Page 9: Методы математической статистики

Для оценки дисперсии по выборке используется формула

В случае группированной выборки

Оценка среднеквадратичного отклонения :

n

1i

2x

2ix mx

n1

1nn

D ~~

k

1j

2x

2jx mz

n1

1nn

D ~~

xx Dσ~~

Page 10: Методы математической статистики

Модой любой функция h (x) унимодального (одновершинного) распределения является элемент выборки, встречающийся с наибольшей частотой.

Оценкой медианы называют число, которое делит вариационный ряд на две части с равным числом элементов

Оценки начальных и центральных моментов k – го порядка вычисляются по формулам :

Форма распределения случайной величины характеризуется выборочными коэффициентами асимметрии и эксцесса

n nk k

k i k i xi 1 i 1

1 1ν x , μ (x m ) , k 1,2 , ...

n n

3σμ

E, σμ

A 4x

4x3

x

3x ~

~~~~~

Page 11: Методы математической статистики

@ Найти выборочное среднее и дисперсию для группированной выборки:

100n

Page 12: Методы математической статистики

Оценка называется несмещенной для функци от неизвестного параметра, если

Пусть – неизвестный параметр распределения случайной величины.

Какие оценки можно считать хорошими ?

Оценка называется эффективной, если при заданном объеме выборки она имеет наименьшую возможную дисперсию

Статистика , используемая в приближенном равенстве называется точечной оценкой неизвестного параметра по выборке

),....,x,x(xθθ n21

~~θθ~

θ),....,x,x(xθM n21 ~

min~

),....,x,x(xθD n21

Page 13: Методы математической статистики

Последовательность оценок (соответствующих увеличивающимся в объеме выборкам) называется состоятельной, если при росте объемов выборки статистика будет стремиться к истинному значению параметра

)(~ nθθ

1θ),....,x,x(xθP0n

n21

}|~

{|

nn21 θ),....,x,x(xθ

~то есть

Page 14: Методы математической статистики

@ Соответствует ли выборочное среднее отмеченным выше критериям ?

1. Оценка состоятельная, так как выполнены условия теоремы Чебышева

n

xm

n

1ii

~

2. Оценка несмещенная

Page 15: Методы математической статистики

@3. Оценка эффективная

n

xm

n

1ii

~

Page 16: Методы математической статистики

@

n

mxD

n

1i

2i

)~(~

Соответствует ли выборочная дисперсия отмеченным выше критериям ?

1. Оценка состоятельная, так как

Page 17: Методы математической статистики

@ 3. Оценка эффективная

2. Оценка смещенная !

Page 18: Методы математической статистики

Идея метода моментов заключается в приравнивании теоретических и эмпирических моментов.

Предполагается, что и - конечная величина. )( x,θF(x)Fζ ζMθ

)θ(ν)F(x,θxd(x)M 1θ

)~~ (θν(x)Fxdx

n1

m 1n

n

1ii

Решая это уравнение получим искомую оценку.

Если нужно оценить k параметров q1, q2, …. , qn , то нужно найти выражения для моментов k – го порядка, приравнять их соответствующим эмпирическим моментам, и решить полученную систему уравнений.

Преимущества метода: сравнительная простота. Метод часто не дает эффективных оценок .

Page 19: Методы математической статистики

При получении оценки естественно найти такое её значение, при котором вероятность реализации выборки x1, x2, …. , xn была бы максимальной.

Тогда вероятность при n независимых наблюдениях величины получить выборку x1, x2, … , xn равна

Пусть имеет дискретное распределение. Возможные значения параметровa1, a2, …., ak с соответствующими вероятностями P1 (), P2

(), …. Pk (), где – фиксированное значение параметра. P (x = ai ) = Pi

().Пусть в выборке x1, x2, … , xn значения aj встретились nj раз ( j = 1, 2, …, k ).

)(P)(P)(P)(PP(E) k321 nk

n3

n2

n1

E – одна из реализаций. Число способов этих реализаций :

!!!!!

k321 nnnnn

E

Page 20: Методы математической статистики

k321 nk

n3

n2

n1

k321

ppppnnnn

nP

!!!!!

),...,,,(!!!!

!n321

k321

xxxxLnnnn

nP

Функцией правдоподобия называют функцию L ( X, )

)()()()(),,,( k321 nk

n3

n2

n1n321 ppppxxxxL

Оценку параметра будем искать так, чтобы P = max или L ( X, ) = max .

0XL

),(

Удобнее брать 0XL

XL1XL

),(

),()),(ln(

Решая полученное уравнение или систему уравнений, если параметров больше одного, получим искомые оценки для .Преимущества метода: оценки получаются состоятельными, асимптотически эффективными. Оценки однако могут быть смещенными.

Page 21: Методы математической статистики

@ Пусть Xi , i = 1,2, … , n – выборка СВ с нормальным распределением. Найти оценки параметров m и D методом наибольшего правдоподобия.

Функция правдоподобия

Page 22: Методы математической статистики

@ Необходимое условие экстремума функции ln L :

Решение:

0m

L

)ln(

0σ(L)2

ln

n

xm

n

1ii

~n

mxn

1i

2i

2

)~(~