43
Занятие Занятие 4 4 Дисперсионный анализ Дисперсионный анализ ANOVA ANOVA (продолжение) (продолжение)

Занятие 4

Embed Size (px)

DESCRIPTION

Занятие 4. Дисперсионный анализ ANOVA (продолжение). Сложная «омнибусная» гипотеза АНОВЫ:. Похожа на стрельбу из дробовика: не нужно особенно точно целиться, непонятно, какая дробинка попала в какую мишень – какая из маленьких гипотез не верна. - PowerPoint PPT Presentation

Citation preview

Page 1: Занятие  4

Занятие Занятие 44

Дисперсионный анализ Дисперсионный анализ ANOVAANOVA

(продолжение)(продолжение)

Page 2: Занятие  4

Сложная «омнибусная» гипотеза АНОВЫ:

kH ...: 43210

Похожа на стрельбу из дробовика: не нужно особенно точно целиться, непонятно, какая дробинка попала в какую мишень – какая из маленьких гипотез не верна.

Что делать, если мы изначально хотим проверить не все эти гипотезы? Хотим выстрелить из винтовки в строго определённую мишень?

Page 3: Занятие  4

A priori Tests (ANOVA)A priori Tests (ANOVA) = = Planned comparisonsPlanned comparisons

Вся мощность теста направляется на одну гипотезу, остальные игнорируются.

Важно: то, какую гипотезу тестировать, выбирают ЗАРАНЕЕЗАРАНЕЕ, до проведения какого-либо анализа! В идеале – ещё при постановке исследования.

Процедура тестирования – почти как t-критерий Стьюдента.

Page 4: Занятие  4

A priori TestsОбычно используются для тестирования комплексных (а не парных) гипотез.

Dr. J разработал новую диету и собирается протестировать её эффективность. Из 20 добровольцевгруппа 1 (n=5) соблюдает новую диету;группа 2 (n=5) занимается на тренажёре;группа 3 (n=5) занимается аэробикой;группа 4 (n=5) бегает по утрам.

Page 5: Занятие  4

Зависимая переменная – число грамм, на которое изменилась масса тела добровольцев за 3 месяца.

Можно было бы провести ANOVA затем апостериорный тест, но нас интересует лишь сравнение диеты Dr. J с разными видами физических упражнений.

A priori Tests

Page 6: Занятие  4

3: 432

10

H

03

1

3

1

3

1: 43210 H

«Контраст» = «сравнение» (contrast, comparison) – линейная комбинация средних значений.Коэффициенты сравнения – константы, на которые умножены средние. В сумме = нулю:

Из наших 4-х групп рассчитываем

A priori Tests

44332211 CCCC

0 jC

Page 7: Занятие  4

Статистика = параметр выборки – параметр популяциистандартная ошибка параметра выборки

A priori Tests

Статистика = выборочное сравнение

стандартная ошибка выборочного сравнения

03

1

3

1

3

1: 43210 H

Она имеет t-распределение – почти как двухвыборочный критерий Стьюдента

03

1

3

1

3

1: 43211 H

Page 8: Занятие  4

Ещё один пример:У нас 4 группы тигров, их кормили: овощами; фруктами; рыбой; мясом.Вопрос: отличалась ли масса тигров, питавшихся животной и растительной едой?

22: 4321

0

H

A priori Tests

Page 9: Занятие  4

Planned comparisons

Page 10: Занятие  4

мы отвергаем Н0.Масса тигров, питавшихся растительной и животной едой, различалась

Page 11: Занятие  4

Planned comparisons:

МОЩНОСТЬ такого теста ВЫШЕ, чем последовательное использование АНОВЫ и методов множественного сравнения!

A priori Tests

Page 12: Занятие  4

Repeated measures ANOVARepeated measures ANOVAСравнение связанных групп

Преподаватель решил узнать, как у его студентов продолжительность занятий зависит от дня недели (он поделил время на 15-минутные блоки).

Page 13: Занятие  4

Repeated measures ANOVA

Представим, что эти группы независимы и проведём ANOVA. Различия между ними недостоверны. Почему?Из-за большой внутригрупповой изменчивости?

Студенты по усердию сильно различаются между собой!\

Как элиминировать межиндивидуальные различия (between-subjects effect)?

Page 14: Занятие  4

Repeated measures ANOVAВычесть из каждого измерения среднее значение для каждого студента!

Вот теперь измерения стали независимы («исправленные»), и дальше можно сравнить их ANOVA

(от обычной ANOVA отличается число степеней свободы внутри измерений – ) )1)(1( nkdfw

Page 15: Занятие  4

Repeated measures ANOVA

43210 : HН1: нулевая гипотеза не верна

F =оценка дисперсии между между группами

оценка дисперсии внутривнутри группW

B

MS

MSF

Обычная ANOVA:

Repeated measures ANOVA:

F =оценка дисперсии между измерениями

«ошибка»

Изменчивость:1. Между измерениями;2. Между особями (получается из средних значений для особей);

3. «ошибка» (внутри «исправленных» измерений) – error, residual

err

B

MS

MSF

Page 16: Занятие  4

Repeated measures ANOVA

Теперь Н0 будет отвергнута, т.е., преподаватель сможет утверждать, что усердие его учеников зависит от дня недели.

Мощность дисперсионного анализа для повторных измерений выше, чем обыкновенного дисперсионного анализа (в случае связанных выборок).

Page 17: Занятие  4

Другой пример: к тиграм-самцам пришёл новый служитель, а потом – новая уборщица. И возможно, они стали по-другому питаться. Мы хотим узнать, менялась ли их масса.

Мы анализируем влияние служителяслужителя на массу тигров-самцовмассу тигров-самцов.Зависимая переменнаяЗависимая переменная – масса.Но:Но: для каждой особи по 3 измерения (3 столбика в таблице).

Repeated measures ANOVA

Page 18: Занятие  4

Каждый тигр ТРИ раза участвует в наблюдениях.

ДО СЛУЖ УБОР

1 тигр 356 363 2002 тигр 351 361 1823 тигр 353 358 1934 тигр 355 356 1945 тигр 354 359 1846 тигр 355 355 173

3210 : H

F =оценка дисперсии между измерениями

«ошибка»

Page 19: Занятие  4

В Statistica каждый столбик измерений называется dependent variable

Page 20: Занятие  4

между наблюдениями

Отвергаем Н0: Масса тигров в среднем достоверно изменялась после прихода нового служителя и новой уборщицы.

«ошибка» - внутри «исправленных» наблюдений

изменчивость между особями

Page 21: Занятие  4

Repeated measures ANOVA

Page 22: Занятие  4

Repeated measures ANOVA

Отвергаем Н0: Масса тигров в среднем достоверно изменилась после прихода нового служителя и новой уборщицы.

А теперь можно провести апостериорный (post-hoc) тест!И выяснить, кто и как повлиял на массу тигров.

Page 23: Занятие  4

Main effect ANOVA(Two-way, multi-way designs)

Мы изучали земляных белок из Африки. Ловили их, взвешивали, измеряли зубы, голову. Определяли пол, возраст.А теперь хотим знать, как разные факторы влияют на размер и вес белок.

Фактор 1: пол.Фактор 2: возраст.Зависимая переменная: масса тела.

Page 24: Занятие  4

Main effect ANOVA:

1. Мы исследуем действие на выборку ДВУХ (трёх, четырёх) категориальных факторов (independent

variables).2. Факторы НЕЗАВИСИМЫ.3. Зависимая переменная ОДНА.

Page 25: Занятие  4

Main effect ANOVA

Получилось 6 групп белок – 6 ячеек (cells) в таблице.

Заметим, что во ВСЕХ ячейках должны выполняться условия соответствия нормальному распределению и равенства дисперсий.

1 год 2 года ≥3 года

самцы 440

438

429

502

602

892

868

855

866

932

1575

849

759

1602

1327

самки 308

328

326

326

325

737

798,5

876

810

861

1000,5

901

958

1032

883

Page 26: Занятие  4

Main effect ANOVAМы тестируем 2 эффекта – пола и возраста белок: main effect for rows main effect for columns.

2 нулевые гипотезы, которые тестируются одновременно!

3210

0

:

:

C

R

H

H femalesmales

1 2 ≥3

Ма

сса

тел

а

самки самцы

Примерный вид графического представления:

Ма

сса

тел

а

Page 27: Занятие  4

Ещё пример:Мы хотим изучить влияние питания на вес зверьков, отдельно для самцов и самок.Зависимая переменная – масса тела.Фактор 1Фактор 1 (независимая переменная) – пол (1. самки; 2. самцы)Фактор 2Фактор 2 – тип еды (1. овощи; 2. фрукты; 3. мясо)

Main effect ANOVA

Page 28: Занятие  4

Снова тигры

Page 29: Занятие  4

Тип еды оказывал достоверное влияние на массу тигров; пол – не оказывал достоверного влияния на массу.

Page 30: Занятие  4

Factorial ANOVA

Мы изучали земляных белок из Африки. Ловили их, взвешивали, измеряли зубы, голову. Определяли пол, возраст; хотим знать, как разные факторы влияют на массу белок.

У нас МНОГО факторов, и они могут быть СВЯЗАНЫ.

1. Мы исследуем действие на выборку ДВУХ (трёх, четырёх) категориальных факторов (independent

variables).2. Факторы НЕЗАВИСИМЫ.3. Зависимая переменная ОДНА.

Page 31: Занятие  4

1 год 2 года ≥3 года

самцы 440

438

429

502

602

892

868

855

866

932

1575

849

759

1602

1327

самки 308

328

326

326

325

737

798,5

876

810

861

1000,5

901

958

1032

883

У нас ТРИ нулевых гипотезы:

0:0 GcolumnrowRowColumnRCH

среднее в ячейке

среднее в столбце

среднее в строке

общее среднее

и для каждой ячейки таблички:

это гипотеза о наличии связи между факторами (она состоит у нас из 6-и гипотез, по числу ячеек)

3210

0

:

:

C

R

H

H femalesmales

Factorial ANOVA

Page 32: Занятие  4

мас

са

возраст

1 2 3

самцысамки

мас

са

возраст

1 2 3

самцысамки

и пол, и возраст влияют на массу;взаимодействия факторов НЕТ

возраст влияет на массу, пол – нет;взаимодействие ЕСТЬ

если линии на рисунке ПАРАЛЛЕЛЬНЫ, взаимодействия факторов НЕТ.если НЕ ПАРАЛЛЕЛЬНЫ, взаимодействие ЕСТЬ.

Factorial ANOVA

(насколько они параллельны, решает ANOVA)

Page 33: Занятие  4

Factorial ANOVA

Для каждой из гипотез рассчитывается своё значение F-статистики.

Средняя по ячейкам внутригрупповая изменчивость

Изменчивость между строками

Изменчивость между столбцами

«взаимодействие» факторов

Наличие взаимодействия факторов: например, изменение массы тела с возрастов отличается у самцов и самок

Page 34: Занятие  4

Factorial ANOVAВозможные варианты графиков для таблицы 2х3 (пример про 3 типа лечения у опытных и неопытных врачей):

Оба эффекта недостоверны, но есть взаимодействие факторов

Page 35: Занятие  4

эффекты не достоверны, взаимодействия нет

1 эффект достоверен, взаимодействия нет

2 эффекта достоверны, взаимодействия нет

1 эффект достоверен, взаимодействие есть

Page 36: Занятие  4

1 эффект достоверен, взаимодействия нет

1 эффект достоверен, взаимодействие есть

Factorial ANOVA

Page 37: Занятие  4

даже здесь линии пересекаются

Page 38: Занятие  4
Page 39: Занятие  4

первые две гипотезы мы отвергаем: и пол, и возраст влияют на массу белок.третью не отвергаем: взаимодействия факторов НЕТ!

Page 40: Занятие  4

Factorial ANOVA

Page 41: Занятие  4

Multivariate factorial ANOVA

У нас есть НЕСКОЛЬКО ЗАВИСИМЫХ переменных, или мы провели несколько повторных измерений, и проверяем действие НЕСКОЛЬКИХ ФАКТОРОВ.

Повторные измерения: 1. масса до служителя; 2. со служителем; 3. с новой уборщицей.

фактор 1: полфактор 2: цвет

Page 42: Занятие  4
Page 43: Занятие  4