123
Какво е статистика? - Единствената математическа дисциплина за правене на индуктивни изводи. Популация Извадка Средна височина: µ = 176 Средна височина: µ = 176 + 2.1

Какво е статистика?

Embed Size (px)

DESCRIPTION

Извадка. Популация. Какво е статистика?. - Единствената математическа дисциплина за правене на индуктивни изводи. Средна височина: µ = 176. Средна височина: µ = 176 + 2.1. Вероятност. 0.33. 0.50. 0.25. 0.67. 0.50. 0.33. Събития. Числа. Събития: - PowerPoint PPT Presentation

Citation preview

Page 1: Какво е статистика?

Какво е статистика?- Единствената математическа дисциплина за правене на индуктивни изводи.

ПопулацияИзвадка

Средна височина:

µ = 176

Средна височина:

µ = 176 + 2.1

Page 2: Какво е статистика?

Вероятност

Събития Числа

0.33

0.50

0.250.67

0.500.33

Page 3: Какво е статистика?

Събития:

Когато избираме случайно двама човека от общо 20, попадаме на двамата най-високи от всичките 20. (вероятност p = 0.0026)

Когато избираме случайно двама човека от общо 20, единият на който попадаме, се оказва най-високия от всичките 20.(вероятност p = 0.05)

Когато избираме случайно двама човека от общо 20, получаваме, че средната им височина е 175.(вероятност p = 0.04)

Page 4: Какво е статистика?

Вероятностни функции

Средна височина от двама човека

Вероятност

За съжаление, ние не познаваме тази функция, можем само да гадаем за нея.

Page 5: Какво е статистика?

Познаваме само резултатът от нашата извадка (от двама човека):

175 см Средна височина от двама човека

Вероятност

Ако чрез други разсъждения сме предположили какво е разпределението, то резултатът от изследването ни дава представа доколко е правдоподобно предположението ни.

Page 6: Какво е статистика?

175 см

Предположението и резултатът от изследването са в синхрон

175 смПри направеното предположение, резултатът е малко вероятен

Page 7: Какво е статистика?

От къде идват предположенията?

- От предишни данни, теории и изследвания.

- От логически съображения.

- От теорията на вероятностите.

- Най-често – съчетавайки горните.

Page 8: Какво е статистика?

От теорията на вероятностите:

Средната стойност на измерваната величина за извадка с фиксиран обем се разпределя нормално.

Средна височина за извадка от 2 човека

вероятност

От предишни данни очакваме, че средната височина на всички хора е 175 см, а станд. откл. е 30 см.

175

Page 9: Какво е статистика?

Средна височина за извадка от 2 човека

вероятност

175

Резултат от нашето измерване

(средната на измерените двама човека)

153

Твърде невероятно е! Разумно е, да приемем, че средната височина на нашата популация от 20 човека е по-малка от 175 см.

Page 10: Какво е статистика?

Дотук разглеждахме само една променлива - височината

Горната процедура се нарича оценка на параметри.

Можем да оценяваме средна, дисперсия, размах и други по два начина:

1. Проверявайки хипотеза (напр. височината на популацията ни е 175 см.)

2. Намирайки доверителни интервали (напр. 95% ДИ за височината на популацията ни е (150 – 156 см))

Page 11: Какво е статистика?

Две променливи:

Измерваме височината и цвета на очите на хората.

височина170 180160

Забелязваме, че хората със светли очи се групират вдясно, а тези с тъмни очи – вляво.

Page 12: Какво е статистика?

Височината и цветът на очите корелират.

Това не ни говори нищо за каквато и да била причинно-следствена връзка!!!

Page 13: Какво е статистика?

Продължителен снежен период

Светли очи Висок ръст

Специфична генна комбинация

Page 14: Какво е статистика?

Общо правило:

След като сме установили корелационна връзка между две променливи, можем само да гадаем каква е причината за тази връзка!

Догатките откъде идва тази връзка ни водят към нови изследвания!

Page 15: Какво е статистика?

Нека сега измерваме височината и теглото на хората.

височина

тегло

Отново ще забележим, че височината и теглото корелират!

Page 16: Какво е статистика?

Обаче, имаме основания да предположим, че теглото зависи от височината, а не обратното.

Можем да издигнем това като наша хипотеза и да се опитаме да го проверим експериментално:

Хипотеза:

Хората с висок ръст имат по-голямо тегло от хората с нисък ръст.

Page 17: Какво е статистика?

За да проверим това, трябва:

1. Да дефинираме ясно какво значи висок ръст (над 190 см) и какво значи нисък ръст (под 160 см)

2. Да подберем случайно хора с висок ръст и хора с нисък ръст.

3. Да приложим методологията за проверка на равенството на средните за две независими извадки.

Page 18: Какво е статистика?

Как избрахме кои хора да наричаме ниски и кои високи?

Съвсем произволно!

Само по себе си това не е проблем, проблемът е, че губим много информация!

Измервахме височината по скала на отношенията, а използвахме само нейните рангови свойства.

Page 19: Какво е статистика?

Типове скали, по които се измерват променливите

• Номинална скала – класификация.

• Рангова скала – освен класификация, имаме и линейна наредба.

• Интервална скала - освен класификация и линейна наредба имаме единица на измерването.

• Скала на отношенията - освен класификация, линейна наредба и единица на измерването имаме и абсолютно начало.

Page 20: Какво е статистика?

Има и други класификации и под-типове:

• Дихотомна скала – Две стойности (напр. мъж-жена или висок-нисък).

• Дискретна скала – Краен брой стойности (напр. всички рангови скали са дискретни).

• Метрична скала – Общо наименование на интервалната скала и на скалата на отношенията.

Page 21: Какво е статистика?

При проверка на хипотези за една независима и една зависима

променлива досега:

Изучавахме статистическите методи, когато независимата променлива е измерена по дихотомна скала, а зависимата – по метрична скала.

Page 22: Какво е статистика?

дихотомна Дискретна (повече от 2 стойности)

метрична

дихотомна χ2 анализ

Дискретна (повече от 2 стойности)

χ2 анализ χ2 анализ

метрична t-тест Дисперсионен анализ

Регресионен анализ

независима

зависима

Проверки на хипотези за средните стойности:

Page 23: Какво е статистика?

При всичките тези видове анализи:

1. Определяме хипотезите Но и На.

2. Определяме хипотетизираната и оценената при изследването стойност на търсения параметър.

3. Определяме извадковото разпределението и стандартната грешка на нашата статистика при допусната Но.

4. Определяме критичната стойност на тестовата статистика при зададеното ниво на значимост.

5. Правим статистически извод.

Page 24: Какво е статистика?

t - тест

Имаме две групи от хора и искаме да разберем дали средната стойност на някаква променлива за едната група се различава от средната стойност на същата променлива за другата група.

Page 25: Какво е статистика?

Определяне на нулевата и алтернативната хипотези:

H0 : µ1 = µ2 Ha : µ1 ≠ µ2

Изследваният параметър:

µ1 - µ2, когато извадките са независими

d, когато извадките са свързани

Page 26: Какво е статистика?

Извадковото разпределение:

При независими извадки:

Разпределението на µ1 - µ2 е t-разпределение на Стюдънт с n-1 степени на свобода

При свързани извадки:

Разпределението на d е t-разпределение на Стюдънт с n1+n2-2 степени на свобода

Page 27: Какво е статистика?

Стандартно нормално разпределение

0

t-разпределение с 3 степени на свобода

t-разпределение с 12 степени на свобода

1. Всички t-разпределения са симетрични относно нулата.

2. Имат по-голямо разсейване от стандартното нормално.

3. Колкото повече растат степените на свобода, толкова повече съответното t-разпределение се приближава към стандартното нормално.

t-разпределение с ∞ степени на свобода

Page 28: Какво е статистика?

Остана да изучаваме:

1. Дисперсионен анализ

2. Регресионен анализ

3. χ2 анализ

4. Две независими и една зависими променливи

Няма да изучаваме:

5. Многомерен анализ – повече от една зависима променлива.

Page 29: Какво е статистика?

Едномерен дисперсионен анализ (ANOVA)

- Една независима променлива с няколко нива (фактор)

- Една зависима променлива, измервана поне по интервална скала

Page 30: Какво е статистика?

Възрастова група1

(до 20г.)

2

(20-30г.)

3

(30-40г.)

4

(40-50г.)

5

(50-60г.)

6

(над 60г.)

0

0

...

6

10

0

...

0

20

5

...

8

10

0

...

12

0

20

...

0

5

0

...

10

5.3 8.6 12.5 10.4 9.8 8.5

Възрастта фактор ли е за средния брой цигари, които хората пушат?

Page 31: Какво е статистика?

Как можем да подходим към тази задача?

Да сравним първа възрастова група с втора!

След това първа с трета, първа с четвърта и т.н.

1-2

1-3

.....

1-6

2-3

.....

2-6 5-6

Общо:

15 сравнения

Page 32: Какво е статистика?

Каква е вероятността за грешка от тип I?

Вероятността за грешка от тип I при първото сравнение е α (напр. нека α = 0.05).

Вероятността да не направим грешка от тип I при първото сравнение е 1 – α.

Вероятността да не направим грешка от тип I при второто сравнение също е 1 – α.

Вероятността да не направим грешка от тип I при първото и второто сравнения е (1 – α)2.

Page 33: Какво е статистика?

Вероятността да не направим грешка от тип I при всичките 15 сравнения е (1 – α)15.

Вероятността да направим грешка от тип I при някое от всичките 15 сравнения е 1 - (1 – α)15.

При α = 0.05 имаме:

Вероятността за грешка от първи тип е

1 – (1 – 0.05)15 = 0.5367

Page 34: Какво е статистика?

Когато от едно изследване се правят много изводи, вероятността за грешка нараства много.

Когато много изследвания водят до един и същи извод, вероятността за грешка намалява много.

Page 35: Какво е статистика?

Разсейване (дисперсия) и източници на дисперсия.

Измерваме теглото на един човек и получаваме 82 кг.

Измерваме теглото на друг човек и получаваме 63 кг.

Защо различните хора имат различно тегло?

Page 36: Какво е статистика?

Защото теглото се определя от много различни фактори!

тегло

полколичество храна

ДНК

Page 37: Какво е статистика?

Когато един фактор влияе върху дадена променлива, то факторът е източник на дисперсия на променливата.

Колкото по-силно влияе един фактор върху дадена променлива, толкова по-голяма част от дисперсията на променливата се обяснява чрез този фактор.

Ако можем напълно да обясним дисперсията на дадена променлива, то значи, че познаваме всички фактори, които ú влияят.

Page 38: Какво е статистика?

Възрастова група1

(до 20г.)

2

(20-30г.)

3

(30-40г.)

4

(40-50г.)

5

(50-60г.)

6

(над 60г.)

0

0

...

6

10

0

...

0

20

5

...

8

10

0

...

12

0

20

...

0

5

0

...

10

5.3 8.6 12.5 10.4 9.8 8.5

Факторът възрастова група поражда ли допълнителна дисперсия върху променливата брой цигари?

Page 39: Какво е статистика?

брой цигарисредна

Отклонение от средната за индивида А.

А

Отклонението от средната се дължи на всички фактори, които влияят на броя цигари.

Page 40: Какво е статистика?

Да вземем всички индивиди от възрастовата група на А:

Техния брой цигари също формира разпределение:

брой цигарисредна за групата на А

А

Отклонение от средната на групата.

Това отклонението от средната се дължи на всички останали фактори без възрастта.

Page 41: Какво е статистика?

............xkn...xk2xk1

xnx2x1

x2n...x22x21

x1n...x12x11

n...21

Нива на фактора

x

Обща средна

Отклонението на x11 e: (x11 - x) = (x11 – x1) + (x1 - x)

общо отклонение

вътрегрупово отклонение

междугрупово отклонение

Page 42: Какво е статистика?

Обща дисперсия s2 – дължи се на влиянието на всички фактори, които влияят върху броя изпушвани цигари. Освен това влияе и вероятностният процес на формиране на извадката (s2 не е истинската дисперсия, а само оценка за нея.).

Вътрегрупова дисперсия sw2 – дължи се на влиянието

на всички останали фактори без възрастовата група. Отново влияе и вероятностният процес на формиране на групите.

Междугрупова дисперсия sb2 – дължи се на

влиянието на всички фактори. Отново влияе и вероятностният процес на формиране на групите.

Page 43: Какво е статистика?

Междугруповата дисперсия sb2 отчита всичко което

отчита вътрегруповата дисперсия sw2 плюс

евентуалното влияние на фактора.

Следователно, ако факторът не влияе, очакваме:

sb2 ≈ sw

2

С други думи:

sb2

1sw

2 ≈

Page 44: Какво е статистика?

Как се намираха дисперсии?

n е броят на измерванията, а x е средната

s2 =Σ (xi - x)i=1

n

n -1

Page 45: Какво е статистика?

............

xnkk...xn22xn11

xnx2x1

x2k...x22x21

x1k...x12x11

k...21

Нива на фактора

Нека имаме k нива на фактора.

Нека в първата група имаме n1 измервания, във втората – n2,..., в последната - nk.

Page 46: Какво е статистика?

............

xnkk...xn22xn11

xnx2x1

x2k...x22x21

x1k...x12x11

k...21

Нива на фактора

MSw = Σ Σ(xij – xj)2

j=1

k

n - k

i=1

nj

j

i

MSb = Σ nj(xj – x)2

j=1

k

k - 1

Page 47: Какво е статистика?

MSw = Σ Σ(xij – xj)2

j=1

k

n - k

i=1

nj

F =MSb

MSw

Ако факторът не влияе, то F ще бъде близко до 1.

MSb = Σ nj(xj – x)2

j=1

k

k - 1

Page 48: Какво е статистика?

Проверка на хипотези чрез дисперсионен анализ

Page 49: Какво е статистика?

Отразява ли се социалният статус на резултатите от тест за тревожност при студенти от 3-ти курс?

Социална категория

ниска средна висока

8

7

6

12

17

22

11

17

6

21

20

14

9

Page 50: Какво е статистика?

План на изследването:

1. Определяме хипотезите Но и На.

2. Определяме хипотетизираната и оценената при изследването стойност на параметъра.

3. Определяме разпределението на нашата статистика при допусната Но.

4. Определяме критичната стойност при зададеното ниво на значимост.

5. Правим статистически извод.

Page 51: Какво е статистика?

1. Определяме хипотезите Но и На.

H0: μ1 = μ2 = μ3

H1: Поне две μi се различават.

Page 52: Какво е статистика?

2. Определяме хипотетизираната и оценената при изследването стойност на търсения параметър.

Параметърът е F

Хипотетизираната стойност: F = 1

Оценената стойност (статистика):

F =MSb

MSw

=

Σ nj(xj – x)2

j=1

k

k - 1

Σ Σ(xij – xj)2

j=1

k

n - k

i=1

nj

Page 53: Какво е статистика?

Социална категория

ниска средна висока

8

7

6

12

17

22

11

17

6

21

20

14

9

x1 = 10 x2 = 14 x3 = 16

k = 3

n = 13

n1 = 5

n2 = 4

n3 = 4

x = 13

Page 54: Какво е статистика?

xij xj (xij – xj)2

8

7

6

12

17

22

11

17

6

21

20

14

9

10

10

10

10

10

14

14

14

14

16

16

16

16

4

9

16

4

49

64

9

9

64

25

16

4

49

Σ Σ(xij – xj)2 = 322j=1

k

i=1

nj

Σ Σ(xij – xj)2

j=1

k

n - k

i=1

nj

MSw = = 32.2

Page 55: Какво е статистика?

xj x (xij – xj)2

10

14

16

13

13

13

9

1

9

F =MSb

MSw

= 1.32

Σ nj(xj – x)2

j=1

k

= 85

MSb = = 42.5Σ nj(xj – x)2

j=1

k

k - 1

Page 56: Какво е статистика?

2. Определяме хипотетизираната и оценената при изследването стойност на търсения параметър.

Хипотетизираната стойност: F = 1

Оценената стойност:

F =MSb

MSw

= 1.32

Page 57: Какво е статистика?

3. Определяме разпределението на нашата статистика при допусната Но.

Ако направим второ изследване, ще получим друга стойност за F. При трето изследване – трета стойност и т.н.

Поради вероятностния характер на формиране на извадката F има някакво разпределение.

Използвайки теорията на вероятностите, можем да намерим това разпределение.

Page 58: Какво е статистика?

F – разпределения на Фишер

Page 59: Какво е статистика?

10 2

F(3,4)

F(3,20)

F(2,4)

Page 60: Какво е статистика?

F – разпределенията на Фишер:

Имат по два параметъра – степени на свобода съответно в числителя и в знаменателя.

F(df1,df2) или F(m,n)

Приемат само положителни стойности.

Средното им е равно на n/(n-2).

Когато m и n растат, разсейването на F(m,n) намалява.

Page 61: Какво е статистика?

3. Определяме разпределението на нашата статистика при допусната Но.

Нашата статистика F =MSb

MSw

има разпределение F (k-1, n-k).

Тук k е броят на групите (нивата на фактора), а

n е броят на всички измервания.

Page 62: Какво е статистика?

F =MSb

MSw

=

Σ nj(xj – x)2

j=1

k

k - 1

Σ Σ(xij – xj)2

j=1

k

n - k

i=1

nj

има разпределение F (k-1, n-k)

В нашия случай k=3, n=13 (, следователно тестовото разпределение е F(2, 10).

Page 63: Какво е статистика?

4. Определяме критичната стойност при зададеното ниво на значимост (нека α.=0.05)

3.5874

3.7083

3.8625

...

3

...

...

...

...

...

3.9823

4.8443

11

4.1028

4.9646

10

4.2565

5.1174

9 .........

2 1df2/df1

F(2, 10)

Критичната стойност на нашата статистика е 4.1

Page 64: Какво е статистика?

0 1 2 3 4

FкрОценена стойност

0.05

Page 65: Какво е статистика?

ANOVA таблица

Източник SS df MS F Fкр

Междугрупова 85 2 42.5 1.32 4.1

Вътрегрупова 322 10 32.2

Обща 407 12

Page 66: Какво е статистика?

5. Правим статистически изводи.

Не можем да отхвърлим хипотезата, че социалният статус не влияе върху тревожността на студентите!

Page 67: Какво е статистика?

Еднофакторен дисперсионен анализ:

1. Подреждаме данните в подходяща таблица – колоните са нивата на фактора, във всяка клетка е стойността на зависимата променлива за едно лице.

2. Изчисляваме си: n, k, всички nj, всички xj, x, всички (xij – xj)2, всички (xj – x)2, MSb, MSw и F.

3. Проверяваме в таблицата критичната стойност на F(k-1,n-k) при зададеното ниво на значимост (α=0.05, ако не е изрично споменато друго).

4. Сравнявме F с Fкр. Ако F > Fкр, отхвърляме нулевата хипотеза и правим извода, че факторът влияе върху зависимата променлива.

Page 68: Какво е статистика?

Основни допускания на ANOVA:

1. Измерванията са независими и са извлечени случайно от популацията.

2. Зависимата променлива трябва да се измерва по метрична скала (интервална или на отношенията).

3. Подпопулациите, съответстващи на нивата на фактора, трябва да са нормално разпределени.

4. Необходима е хомогенност на дисперсиите, т.е., дисперсиите в подпопулациите да са равни.

Page 69: Какво е статистика?

Задача:Следващите данни са за 5 различни групи ученици, които са обучавани да подхождат към специален проблем по различни схеми. След края на обучението всеки ученик е тестван по скала от 0 до 10. Баловете са:

Група 1 Група 2 Група 3 Група 4 Група 53.2 3.0 7.2 3.1 5.3

4.1 3.9 7.1 2.8 4.3

5.3 5.2 8.2 2.4 4.7

6.7 6.4 6.8 5.2

5.8 5.1 6.7

3.9 3.7

4.4 4.4

Page 70: Какво е статистика?

1. Определяме хипотезите Но и На.

H0: μ1 = μ2 = μ3= μ4 = μ5

H1: Поне две μi се различават.

Page 71: Какво е статистика?

Група 1 Група 2 Група 3 Група 4 Група 5

3.2 3.0 7.2 3.1 5.3

4.1 3.9 7.1 2.8 4.3

5.3 5.2 8.2 2.4 4.7

6.7 6.4 6.8 5.2

5.8 5.1 6.7

3.9 3.7

4.4 4.4

T1 = 3.2+4.1+5.3+6.7+5.8+3.9+4.4 = 33.4

k = 5

n1 = 7

n2 = 7

n3 = 4

n4 = 3

n5 = 5

n = 26

T2 = 3.0+3.9+5.2+6.4+5.1+3.7+4.4 = 31.7

T3 = 7.2+7.1+8.2+6.8 = 29.3

T4 = 3.1+2.8+2.4 = 8.3

T5 = 5.3+4.3+4.7+5.2+6.7 = 26.2

T = 33.4+31.7+29.3+8.3+26.2 = 128.9

Page 72: Какво е статистика?

SSb = Σnj(xj – x) = Σ (Tj2/nj) – T2/n =

j=1 j=1

k k

= (33.42/7 + 31.72/7 + 29.32/4 + 8.32/3 + 26.22/5) – 128.92/26 = 159.37+143.56+214.62+22.96+137.29 – 639.05 =

677.80 – 639.05 = 38.75

= (3.22+ 4.12+ 5.32+ 6.72+ 4.82+ 3.92+ 4.42+ 3.02+ 3.92+ 5.22+ 6.42+ 5.12+ 3.72+ 4.42+ 7.22+ 7.12+ 8.22+ 6.82+ 3.12+ 2.82+ 2.42+ 5.32+ 4.32+ 4.72+ 5.22+ 6.72) – 677.80 =

699.05 – 677.80 = 21.25

SSw = ΣΣ(xij - xj)2 = ΣΣxij2 – Σ(Tj

2/nj) =j=1i=1 j=1 i=1

k knj nj

j=1

k

Page 73: Какво е статистика?

ANOVA таблица:

Източник SS df MS F Fкр

Междугрупова 38.75 4 9.69 9.59 2.84

Вътрегрупова 21.25 21 1.01

Обща 49.40 25

Page 74: Какво е статистика?

H0 се отхвърля!

Видът на обучението влияе върху резултата от крайния тест!

Но кой от петте метода за обучение е най-добрия?

Page 75: Какво е статистика?

Методи за множествени сравненияPost hoc тестове

Page 76: Какво е статистика?

Група 1 Група 2 Група 3 Група 4 Група 5

3.2 3.0 7.2 3.1 5.3

4.1 3.9 7.1 2.8 4.3

5.3 5.2 8.2 2.4 4.7

6.7 6.4 6.8 5.2

5.8 5.1 6.7

3.9 3.7

4.4 4.4

xj 4.77 4.53 7.33 2.77 5.24

nj 7 7 4 3 5

Метод на Шефе

Page 77: Какво е статистика?

Група 1 Група 2 Група 3 Група 4 Група 5

xj 4.77 4.53 7.33 2.77 5.24

nj 7 7 4 3 5

Можем да формулираме разнообразни нулеви хипотези:

Резултатите на група 3 не се различават от тези на група 4.

Резултатите на група 3 не се различават от тези на другите програми.

В общия случай нулевата хипотеза е:

H0: ΣCiμi = 0, където ΣCi = 0 са някакви константи, които си избираме ние.

i=1 i=1

k k

Page 78: Какво е статистика?

Група 1 Група 2 Група 3 Група 4 Група 5

xj 4.77 4.53 7.33 2.77 5.24

nj 7 7 4 3 5

Различават ли се резултатите на група 3 от тези на група 4?

H0: 0.μ1 + 0.μ2 + 1.μ3 + (-1).μ4 + 0.μ5 = 0

Коефициентите пред всички групи, които не ни интересуват, са нули. На останалите сумата трябва да е нула.

Page 79: Какво е статистика?

Тестова статистика за метода на Шефе:

F = (ΣCjxj)2

j=1

k

(MSw) (ΣCj2/nj)j=1

k

Критичната стойност не е тази от таблицата на F-разпределението.

Критичната стойност е тази, която се използва от ANOVA (която е в таблицата), умножена по k-1.

Page 80: Какво е статистика?

Група 1 Група 2 Група 3 Група 4 Група 5

xj 4.77 4.53 7.33 2.77 5.24

nj 7 7 4 3 5

Различават ли се резултатите на група 3 от тези на група 4?

H0: 0.μ1 + 0.μ2 + 1.μ3 + (-1).μ4 + 0.μ5 = 0

F = (7.33 – 2.77)2

1.01.(1/4 +1/3)= 20.79 / 0.59 = 35.24

Fкр = 2.84 умножено по 4 = 11.36

H0 се отхвърля! Група 3 се различава от Група 4!

Page 81: Какво е статистика?

Група 1 Група 2 Група 3 Група 4 Група 5

xj 4.77 4.53 7.33 2.77 5.24

nj 7 7 4 3 5

Различава ли се група 3 от другите четири групи?

H0: (-1).μ1 + (-1).μ2 + 4.μ3 + (-1).μ4 + (-1).μ5 = 0

Fкр = 11.36

H0 не се отхвърля! Група 3 може и да не се различава от другите групи!

F = (-4.77 – 4.53 + (4).7.33 – 2.77 -5.24)2

1.01.(1/7 + 1/7 + 16/4 + 1/3 + 1/5)= 2.47

Page 82: Какво е статистика?

Метод на Тюки

Page 83: Какво е статистика?

Група 1 Група 2 Група 3 Група 4 Група 5

xj 4.77 4.53 7.33 2.77 5.24

nj 7 7 7 7 7

Прилича изцяло на t-теста.

Как да се предпазим от нарастването на грешката?

Q =xi - xj

MSw

nj√

Тестова статистика:

Page 84: Какво е статистика?

Q =xi - xj

√MSw/n

има разпределение на Стюдентизирания размах (Q-разпределение), а не t-разпределение на Стюдънт!

Q-разпределениятя зависят от два параметъра: броя на сравняваните средни (k) и степените на свобода, свързани с MSw

Page 85: Какво е статистика?

Различават ли се резултатите на група 3 от тези на група 4?

Група 1 Група 2 Група 3 Група 4 Група 5

xj 4.77 4.53 7.33 2.77 5.24

nj 7 7 7 7 7

MSw = 1.01

Q =xi - xj

√MSw/n=

7.33 – 2.77

√1.01/7= 12

От таблицата намираме критичната стойност за Q-разпределението при 5 средни и 30 степени на свобода за MSw: 4.10

Резултатите на група 3 се различават от тези на група 4!

Page 86: Какво е статистика?

Метод на Стюдънт-Нюман-Колс

Използва същата тестова статистика:

Q =xi - xj

√MSw/n

обаче използва по-малки критични стойности за съседни средни, отколкото за отдалечени средни.

Page 87: Какво е статистика?

Група 4 Група 2 Група 1 Група 5 Група 3

xj 2.77 4.53 4.77 5.24 7.33

xi - xj x2–x4=1.76 x1–x4=2.00

x1–x2=0.24

x5–x4=2.47

x5–x2=0.71

x5–x1=0.47

x3–x4=4.56

x3–x2=2.80

x3–x1=2.56

x3–x5=2.09

4.63 5.27

0.63

6.50

1.87

1.24

12.00

7.37

6.74

5.50

Qкр за 30 ст. на св. при

α=0.05

2.89 3.49

2.89

3.85

3.49

2.89

4.10

3.85

3.49

2.89

Q =

xi - xj

√MSw/n

Page 88: Какво е статистика?

Група 4 Група 2 Група 1 Група 5 Група 3

xj 2.77 4.53 4.77 5.24 7.33

xi - xj x2–x4=1.76 x1–x4=2.00

x1–x2=0.24

x5–x4=2.47

x5–x2=0.71

x5–x1=0.47

x3–x4=4.56

x3–x2=2.80

x3–x1=2.56

x3–x5=2.09

4.63* 5.27*

0.63

6.50*

1.87

1.24

12.00*

7.37*

6.74*

5.50*

Qкр за 30 ст. на св. при

α=0.05

2.89 3.49

2.89

3.85

3.49

2.89

4.10

3.85

3.49

2.89

Q =

xi - xj

√MSw/n

Page 89: Какво е статистика?

Предимства и недостатъци:

Метод на Шефе:+ Неравен брой измервания в група,+ Комбинации от групи,- Има малка мощност.

Метод на Тюки:+ Прости изчисления,= Има средна мощност,- Трябват равни групи.

Метод на Стюдънт-Нюман-Колс:+ Има голяма мощност,- Трябват равни групи,- Изчисленията са повече.

Page 90: Какво е статистика?

Фактор с k нива

Зависима променлива (метрична скала)

Дисперсионен анализ

Факторът не влияе

Факторът влияе

или

Равен брой измервания в група

Метод на Тюки

S-N-K-метод

Неравен брой измервания в група

Метод на Шефе

Page 91: Какво е статистика?

Може да не се интересуваме от най-общия въпрос дали факторът влияе, а само от конкретни предварително зададени въпроси.

Например: При фактор с четири нива ни интересува:

1. μ1 = μ4;

2. μ2 = μ3;

3. μ1 + μ4 = μ2 + μ3 ;

Page 92: Какво е статистика?

Предварително планирани тестове

Използват се не след дисперсионния анализ, а вместо него!

Какво е предимството?

Знаем точния брой на хипотезите, които ще проверяваме, следователно можем да изчислим точно колко ще се увеличи вероятността за грешка от I род.

Page 93: Какво е статистика?

Най-прост вариант:

Ще проверяваме три хипотези по метода на Шефе:

1. μ1 = μ4;

2. μ2 = μ3;

3. μ1 + μ4 = μ2 + μ3 ;

Ако не умножаваме критичната стойност по k-1, то вероятността за обща грешка от І род при α = 0.05 е

1 - (1 - α)3 = 0.14

Page 94: Какво е статистика?

Ако фиксираме α = 0.017, то вероятността за общата грешка ще стане 0.05

Ако искаме общата грешка да е 0.05, то трябва:

1 - (1 - α)3 = 0.05, или α = 0.017

Все още е твърде ниска стойността на α!

Page 95: Какво е статистика?

Да разгледаме само първите две хипотези:

1. μ1 = μ4;2. μ2 = μ3.

Можем вместо едно изследване с 4 групи да направим две независими изследвания с по две нива на фактора.

Съответно, два пъти ще приложим t-тест и няма да се тревожим за общата грешка.

Page 96: Какво е статистика?

Планирани ортогонални контрасти

Да си припомним формулирането на нулевата хипотеза при метода на Шефе:

H0: C1μ1 + C2μ2 + ...+ Ckμk = 0, където

C1 + C2 + ...+ Ck = 0

Page 97: Какво е статистика?

Дефиниция 1:

Сумата C1μ1 + C2μ2 + ...+ Ckμk,

където C1 + C2 + ...+ Ck = 0, се нарича контраст.

Дефиниция 2:

При равен брой измервания в група два контраста

C11μ1 + C12μ2 + ...+ C1kμk и

C21μ1 + C22μ2 + ...+ C2kμk се наричат ортогонални, ако

C11 C21 + C12 C22 + ...+ C1k C2k = 0.

Page 98: Какво е статистика?

Два контрасти са ортогонални, когато използват непокриващи се части информация, за да проверят своите хипотези.

Например, контраститеμ1 – μ2 = 0 и μ3 – μ4 = 0 са ортогонални.

При ортогонални контрасти не е нужно да намаляваме грешката при всеки отделен тест, за да компенсираме натрупването на обща грешка!

Page 99: Какво е статистика?

Ортогонални ли са следните контрасти?

1μ1 + (-1)μ4 = 0

1μ2 + (-1)μ3 = 0

1μ1 + (-1)μ2 + (-1)μ3 + 1 μ4 = 0

Те съответстват на следните нулеви хипотези:

1. μ1 = μ4;

2. μ2 = μ3;

3. μ1 + μ4 = μ2 + μ3 ;

Page 100: Какво е статистика?

Когато сме задали предварително нулеви хипотези, формулирани като ортогонални контрасти (най-много k-1 броя хипотези):

Не правим дисперсионен анализ ANOVA.

Прилагаме директно тестовата статистика от метода на Шефе.

Критичната стойност намираме от таблицата за F(1, n-k) но без да я умножаваме по k-1.

Page 101: Какво е статистика?

Степени на свободаИграем с противник на ези-тура. Ако се падне ези, аз плащам 10 лв. на противника си. Ако се падни тура, обратно, противникът ми плаща 10 лв.

Каква е очакваната ми печалба от играта?

Е = ½ * 10 + ½ * (- 10) = 0

Външен рекламодател добавя следното условие:

Всеки път, когато аз спечеля, той ще ми дава по едно плюшено мече.

Каква е очакваната ми печалба от играта?

Page 102: Какво е статистика?

Има три възможни изхода:

1) Печеля 10 лв. от противника си;

2) Губя 10 лв. от противника си;

3) Печеля плюшено мече от рекламодателя.

Е =

10лв. + (- 10лв.) +

3=

1

3

Page 103: Какво е статистика?

Има два възможни изхода:

1) Печеля 10 лв. от противника си и плюшено мече от рекламодателя;

2) Губя 10 лв. от противника си;

Е =

(- 10лв.) + (10лв. +

2=

1

2

)

Плюшенето мече не е независимо от другите две “печалби”!

В сумата участват всички възможни печалби, но делим само на броя независими изхода.

Page 104: Какво е статистика?

A

B

O

Какво е средното отклонение на точките A и B от фиксирания център O?

d = (a + b) / 2

ab

Page 105: Какво е статистика?

Ако имаме три точки?

A

B

OC

d = (a + b + c) / 3

ab

c

Page 106: Какво е статистика?

Ами ако имаме три точки, но не знаем къде е центъра?

A

B

CD

ab

c

d = (a + b + c) / 3

Най-простия възможен вариант: да предположим, че една от точките (точката D) е центъра:

Не взимаме впредвид отклонението на D!

Page 107: Какво е статистика?

Ако изберем друг център, ще трябва да вземем впредвид всички отклонения, но резултата трябва да е съизмерим с предишния!

A

B

CD

d = (a + (b1 + b2 ) + c) / 3

ab1

cb2

Page 108: Какво е статистика?

Едновременно контролиране на две независими променливи

Page 109: Какво е статистика?

Изследовател се интересува от влиянието на продължителността на обучението по една програма за постигане на физическа гъвкавост сред студентите – мъже и жени. Изследователят избира случайно 24 мъже и 24 жени. Случайно разделя всяка от двете групи на по три подгрупи, съответстващи на три възможни комплекса упражнения, първият от които трае 1 седмица, вторият – 2 седмици, третият – 3 седмици. В края на трениравъчната програма всеки от попадналите в извадката се подлага на тест за гъвкавост и резултатите се записват в таблица:

1 седмица 2 седмици 3 седмици

Жени 32 22 28 25 28 24 26 27 36 42 46 43

27 19 23 21 31 25 33 25 47 35 39 40

мъже 18 20 16 24 27 27 25 26 24 33 26 32

22 25 19 31 31 25 32 24 27 25 30 29

Page 110: Какво е статистика?

Двуфакторен експеримент

Продължителност на програмата

Пол

Гъвкавост

Независими променливи Зависима променлива

Page 111: Какво е статистика?

Ако продължителността на програмата влияе върху гъвкавостта, то очакваме средните стойности да изглеждат така:

гъвкавост

продължителност1 2 3

гъвкавост

продължителност1 2 3

или така:

Page 112: Какво е статистика?

Ако продължителността на програмата не влияе върху гъвкавостта, то очакваме средните стойности да изглеждат така:

гъвкавост

продължителност1 2 3

Всеки друг вид на графиката, различен от приблизително права, хоризонтално линия, означава влияние на продължителността върху гъвкавосттал

Page 113: Какво е статистика?

гъвкавост

продължителност1 2 3

Да нанесем данните за мъжете и за жените с различни по цвят линии:

жени

мъже

Такава графика означава, че има влияние на пола върху гъвкавостта.

Page 114: Какво е статистика?

Ако червената и синята линии приблизително съвпадат, значи няма влияние на пола върху гъвкавостта.

Обаче:

Подобна графика също означава липса на влияние на пола върху гъвкавостта!

гъвкавост

продължителност1 2 3

жени

мъже

Page 115: Какво е статистика?

Подобна графика също означава липса на влияние на продължителността върху гъвкавостта!

гъвкавост

продължителност1 2 3

жени

мъже

Нито пола, нито продължителността влияят самостоятелно, но между двата фактора има взаимодействие!

Взаимодействие между факторите няма, когато двете линии са почти успоредни!

Page 116: Какво е статистика?

Разбиване на дисперсията при двуфакторен дисперсионен анализ

Дисперсия, дължаща се на пола

Дисперсия, дължаща се на продължителността

Дисперсия, дължаща се на вэаимодействието между двата фактора

Дисперсия, дължаща се на междуличностовите различия и всички други фактори

Page 117: Какво е статистика?

Ако изследвахме влиянието само на пола:

Дисперсия, дължаща се на пола

Дисперсия, дължаща се на междуличностовите различия и всички други фактори

Необяснената дисперсия щеше да е по-голяма и по-трудно щяхме да отхвърлим нулевата хипотеза!

Page 118: Какво е статистика?

Ако вземем впредвид и двете променливи, ще направим повече на брой изводи с малка вероятност за грешка от II род.

Защо няма да нараства грешката от първи род?

Защото разполагаме с повече информация!

Можем ли да продължаваме до безкрайност и да изследваме едновременно огромен брой фактори?

Не, защото, както ще видим, с добавянето на нови фактори намаляват степените на свобода.

Page 119: Какво е статистика?

Изчисления, необходими за двуфакторен дисперсионен

анализ

Page 120: Какво е статистика?

1 седмица 2 седмици 3 седмици

жени 32 22 28 25 28 24 26 27 36 42 46 43

27 19 23 21 31 25 33 25 47 35 39 40

мъже 18 20 16 24 27 27 25 26 24 33 26 32

22 25 19 31 31 25 32 24 27 25 30 29

Средно за 1 седмица:

x.1 = 23.25

Средно за жените:

x1. = 31

Средно за жените, тренирали 1 седмица:

x11 = 24.63

Общото средно е x = 28.38

(xkij – x) = (xkij - xij) + (xi. - x) + (x.j - x) + (xij – xi. – x.j + x)

Page 121: Какво е статистика?

ΣΣΣ(xkij - x)2 =j=1

c

i=1

r

k=1

n

= ΣΣΣ(xkij - xij)2 +i=1

r

j=1

c

k=1

n

+ ncΣ(xi. - x)2 +i=1

r

+ nrΣ(x.j - x)2 +j=1

c

+ nΣΣ(xij - xi. - x.j + x)2

j=1

c

i=1

r

Обща сума от квадратите SSt

N -1 степени на свобода

Сума от квадратите вътре в клетките SSw

rc(n-1) степени на свободаСума от квадратите за редовете SSr

r -1 степени на свободаСума от квадратите за колоните SSc

c - 1 степени на свобода

Сума от квадратите от взаимодействията SSrc

(r -1)(c -1) степени на свобода

Page 122: Какво е статистика?

Източник на дисперсия SS k MS F Fкс

Редове (пол) 330.75 1 330.75 22.36 4.07

Колони (продължителност) 1065.50 2 532.75 36.02 3.22

Взаимодействие 350.00 2 175.00 11.83 3.22

Вътре в клетките 621.00 42 14.79

Общо 2367.25 47

Таблица на двуфакторния ANOVA:

Page 123: Какво е статистика?

Изследовател се интересува дали студентите с нисък успех и тези с висок успех от последната учебна година показват различни постижения при три различни обучителни подхода. Данните са следните (n = 4 измервания във всяка клетка):

Метод на обучение

Успех директивен комбиниран свободен ОбщоВисок 55.4 59.6 63.0 59.3Нисък 45.2 41.3 38.3 41.6Общо 50.3 50.3 50.7

Източник на дисперсия SS k MS F Fкс

Успех -- -- 1176.84 -- --

Метод 8.466 -- -- 0.08 --

Взаимодействие 412.842 -- -- -- --

Вътре в клетките 923.796 -- --

Общо -- --