75
Многомерный статистический анализ

Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Многомерныйстатистический анализ

Page 2: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Многмерный статистическийанализ■ Зачем он нужен?

� При тестировании моделей■ Необходимо исключить влияние некоторыхпоказателей

■ Установить наличие совместного действияфакторов

■ Установить наличие скрытых связей

� При исследовательском анализ данных■ Снизить размерность используемых данных■ Сегментировать данные

Page 3: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Разработка данных (DataMining)■ Относительно новый подход, появлениекоторого связано с накоплениембольших объемов данных вкомпьютеризированной форме (datawarehouses)

■ Нахождение внутреннихзакономерностей в данных, а нетестирование статистических гипотез

Page 4: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Разработка данных (DataMining)■ Наиболее популярные методы

� OLAP (On-Line Analytical Data Processing) -построение многомерных таблиц

� Нейронные сети (neuronal networks)� Сегментирование данных (древовидноемоделирование - classification trees)

■ Более распространенные методы� Факторный анализ� Корреспондентский анализ

Page 5: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Разработка данных (DataMining)■ Требуют очень больших массивовданных� не менее десяти наблюдений на переменнуюв факторном анализе (но более станаблюдений)

� не менее десяти наблюдений на связь принейросетевом моделировании

■ В общем сотни, лучше тысячинаблюдений

Page 6: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Тестирование моделей

Page 7: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Необходимо определить типзависимой переменной■ Качественная

■ Количественная

Page 8: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Количественная зависимаяпеременная■ Общая линейная модель (GLM)

� Какие независимые переменные участвуютв анализе?

■ Только качественные - MANOVA■ Количественные и качественные - MANCOVA■ Только количественные - MLR

Page 9: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANOVA

■ Многофакторный дисперсионный анализ(не путать с факторным анализом!)

■ Изучение влияния несколькихкачественных факторов и их сочетанийна значения количественныхпеременных

■ На самом деле, сравнение среднихзначений в таблицах

Page 10: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANOVA

■ Ответит на вопросы:� Одинаковы ли средние всех 12 групп� Ести ли различия между средними групп,образованными фактором A, B или C по отдельности

� Имеется ли суммарное влияние факторов A, B и С

Page 11: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANOVA

Page 12: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANOVA

Page 13: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANOVA

Page 14: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANOVA

Page 15: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MLR

■ Множественный линейныйрегресионный анализ

■ Оценка зависимости количественнойпеременной от одной или болееколичественных переменных

Page 16: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MLR (основы)

Диаграмма рассеяния + регрессионная линияпытаемся провести ее так, чтобы расстояния от неедо наблюдаемых точек на графике были минимальными

Page 17: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MLR

Page 18: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MLR (анализ остатков)■ Остатки - это значения, которые не могут бытьобъяснены независимой переменной

■ Если у нас несколько переменных, мы берем первую,рассчитываем остатки и повторяем анализу уже наостатках (исключив влияние первой переменной) и т.д.

■ Поэтому коэффициенты, получаемые в результатерегрессионного анализа показывают независимоенезависимоевлияние переменных

■ Если модель адекватна, остатки будут распределеныпо нормальному закону и разброс, соответственно,будет не очень сильным

Page 19: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MLR (анализ остатков)

Page 20: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MLR (анализ остатков)

Page 21: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MLR (модели)

■ Полная (включаются все переменные)■ Пошаговый отбор переменных (stepwise)

� Forward� Backward

Page 22: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANCOVA

■ Многофакторный дисперсионный анализс ковариантами� Комбинация из множественного линейногорегрессионного анализа и дисперсионногоанализа. Этапы

■ Построение модели с учетом толькоколичественных переменных при помощи MLR

■ Дисперсионный анализ на остатках

Page 23: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANCOVA

Page 24: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANCOVA

После коррекции по значениям переменныхVNP и AGE эффект FAM*ED исчез (насамом деле, это эффект VNP)

Без коррекциипо VNP

Page 25: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANCOVA

■ Наиболее общая форма анализа данных,однако в системе Statistica всоответствующем модуле невозможновыполнять MLR

■ SAS позволяет выполнять все видыанализа в одном модуле

Page 26: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANCOVA (SAS)

Page 27: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANCOVA (SAS)

Page 28: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANCOVA (SAS)

Page 29: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

MANCOVA (SAS)

Page 30: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Качественная зависимаяпеременная■ Независимые переменные

� Качественные■ Стратифицированный анализ Mantel-Haenszel■ Логлинейный анализ

� Качественные и количественные■ Логистическая регрессия

� Количественные■ Дискриминантный анализ

Page 31: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Связь нескольких качественныхпеременных с качественной

■ Метод Mantel-Haenszel� Используется в рамках т.н. стратифицированногоанализа (например, влияние курение на частотуразвития ИМ с учетом пола, возраста - 5-летниегруппы, социального статуса

� Часто используется в мультицентровыхисследованиях

� Может использоваться для анализа выживаемости(год дожития - отдельная переменная)

Page 32: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Метод Mantel-Haenszel■ Выбираем пару базовых переменных (например, ИМ икурение)

■ Строим отдельные четырехпольные таблицы длякаждого уровня остальных факторов:

∑∑

=

i

ii

i

ii

MH

NCB

NDA

OR

)()5.0|)((|

)1()(

)(

22

22211

11

xVarxEx

NNCRCRxVar

NCRxE

Ax

ii

iiii

i

ii

i

−−=

−••••=

•=

=

∑∑

χ

Page 33: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Метод Mantel-HaenszelВ системе Statistica можно использовать только дляданных по выживаемости (требуется времена дожития)В SAS для любых таблиц

Page 34: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Метод Mantel-Haenszel (SAS)

Page 35: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Метод Mantel-Haenszel (SAS)

Page 36: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логлинейный анализ

■ Аналог дисперсионного анализа длямногомерных таблиц

■ Анализируется совместное влияниенескольких переменных на частоты вмногомерной таблице

■ Если модель соответствует данным (fit),то переменные не влияют на частоты втаблице - модель можно подогнать знаятолько краевые частоты (R1, R2, C1, C2)

Page 37: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логлинейный анализ

Page 38: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логлинейный анализ

Page 39: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логлинейный анализ

Page 40: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логлинейный анализ

Page 41: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логлинейный анализ

Page 42: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логлинейный анализ (SAS)

Page 43: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логлинейный анализ (SAS)■ На самом деле необходимо проанализировать несколькомоделей:1. �Независимую� (LOGLIN A B C)2. «С исключением верхнего уровня» (LOGLIN A B C B*C)3. «С двойными взаимодействиями (LOGLIN A B C A*B A*C B*C)4. «Полную» (LOGLIN A|B|C)

■ Записать остатки (LIKLEHOOD RATIO)■ Посчитать выигрыш при усложнении модели (хи2 и df)

Page 44: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логлинейный анализ (SAS)

■ Составить таблицумодель df LR p dChi DeltaDF1 4 10.61 0.03132 3 1.31 0.7258 9.30 13 1 0.19 0.6568 1.12 14 0 0 0 0.19 1

■ Видно, что наибольший выигрыш припереходе от модели 1 к модели 2, всеостальные хи2 не достоверны

■ Значит выбираем модель 2

Page 45: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логлинейный анализ (SAS)

Мы можем оценить эффекты. Например, коэффициент для А -0,6.Беря антилогарифм (e-0.6=0,55) имеем, что значений первого уровняА почти в 2 раза меньше, чем второго. Глядя на 4 строку, можносказать, что С1 значительно больше при В1, и т.д.

Page 46: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логистическая регрессия■ На самом деле, наиболее общий случай (болееобщий, чем логлинейный анализ), правдаоптимизирована для работы с бинарнымизависимыми переменными

■ Может принимать для анализа каккачественные, так и количественныепеременные

■ В принципе, если логлинейный анализ аналогANOVA, то логистическая регрессия - аналогANCOVA (в SAS можно даже использоватьодну и ту же процедуру)

Page 47: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логистическая регрессия

Page 48: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логистическая регрессия

■ При проведении логистического регрессионногоанализа качественные переменные с более чем двумяуровнями должны быть превращены в т.н. dummyпеременные (пустышки) с двумя уровнями. Например,образование с 3 будет превращено в 2 переменных,например высшее (есть/нет) и ниже среднего (да/нет).

Page 49: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логистическая регрессия

Page 50: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логистическая регрессия■ Для качественных бинарных показателей мы можемвзять OR прямо из таблицы (это будет OR,откорректированный на влияние других факторовриска)

■ Для количественных показателей необходимо взятьрегресионный коэффициент (estimate), умножить егона стандартное отклонение для этого показателя ивзять от произведения антилогарифм.

■ Например, для возраста в описанном ранее примереestimate=0,008, SD=5,4. СоответственноOR=e0,008*5,4=1,04

Page 51: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логистическая регрессия (SAS)

■ Можно использовать несколько процедур -CATMOD и LOGISTIC. Первая может такжеиспользоваться для мультиноминальных (небинарных) типов анализа

■ CATMOD очень требовательна к памяти

Page 52: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Логистическая регрессия (SAS)

Page 53: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Дискриминантный анализ

■ Методика создания классифицирующихправил

■ Пытается создать серию уравнений,которые позволили бы правильноклассифицировать группы

■ В принципе, является аналогом ANOVA,но только «перевернутым» (ростпозволяет отличить мужчин от женщин)

Page 54: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Особый случай - анализвыживаемости■ Нечто среднее между анализом качественных иколичественных показателей (качественныйпоказатель - цензурирование, количественный - времяпод наблюдением)

■ Основа унивариантного анализа - построение таблицдожития (life tables) и кривых дожития (Kaplan-Meier)

■ Многомерные методики� Только качественные независимые переменные

■ Стратифицированный анализ Mantel-Haenszel■ Коррекция кривых дожития

� Качественные и количественные независимые переменные■ Моделирование выживаемости (Weibull и др.)■ Модель пропорционального риска (Cox)

Page 55: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Снижение размерности■ Количественные переменные

� Анализ главных компонент� Факторный анализ� Многомерное шкалирование� Иерархический кластерный анализ

■ Качественные переменные� Корреспондентский анализ

■ Объединение наблюдений� Кластерный анализ

Page 56: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Факторный анализ

■ Вместе с анализом главных компонент -основной метод снижения расзмерности

■ Пытается найти новые переменные, которыебы комбинировали в себе несколько старых(рост, измеренный в метрах, футах и локтях)

■ Отличие от метода главных компонент -отсутствие �уникальных� факторов - факторов,представленных одной переменной

■ Единицей анализа является корреляционнаяматрица

Page 57: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Факторный анализ

■ Выделяют неколько вариантов� Стандартный (R) - факторный анализ переменных� Обратный (Q) - факторный анализ наблюдений� Временной (T) - факторный анализ временныхтенденций (у разных людей по одной переменной)

� Обратный временной (S) - факторный анализнаблюдений в зависимости от времени

� Одного наблюдения (О) - факторный анализвременных тенденций по разным показателям уодного субъекта

Page 58: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Факторный анализ

■ Требует не менее 10 (5) наблюдений накаждую включенную в анализ переменную, нообщее число наблюдений должно быть больше100

■ Факторный анализ отличается откомпонентного тем, что находится вдиагональных элементах корреляционнойматрицы (1 в компонентном, иное число -максимальное значение r в строке, множ.Коэффициент корреляции и т.п. - в факторном)

Page 59: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Факторный анализ

Page 60: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Факторный анализ■ Методы определения числа факторов

� Критерий Кайзера (собственное значение фактора -Eigenvalue больше 1)

� Критерий Жоффе (Eigenvalue>0.7)� Процент объясненной дисперсии (90% и более)� Scree plot

Page 61: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Факторный анализ

Вращение факторов - Varimax или Oblimin - необходимо дляинтерпретируемости результатов - простая структура

Page 62: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Факторный анализ

Page 63: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Факторный анализ (SAS)

Page 64: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Факторный анализ (SAS)

Page 65: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Многомерное шкалирование

■ Метод анализа матрицы дистанций� Истинные дистанции� Коэффициенты корреляции (1-r)� Другие индексы

■ Аналог географической карты

Page 66: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Многомерное шкалирование

Page 67: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Многомерное шкалирование

Page 68: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Кластерный анализ

■ Может использоваться для сниженияразмерности/классификации переменных(иерархический анализ)

■ Может использоваться для объединениянаблюдений на основании рядапоказателей (групп - кластеров-пациентов) k-means

Page 69: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Кластерный анализ

Page 70: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Кластерный анализ

Page 71: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Кластерный анализ (k-means)

■ Необходимо заранее решить, какоеколичество кластеров следует выделить

■ Работает как ANOVA наоборот:� наблюдения объединяются таким образом,чтобы расстояния между группами (междусредними групп) были максимальными

� поэтому группы почти всегда будутстатистически достоверно отличаться повключенным параметрам

Page 72: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Кластерный анализ (k-means)

Page 73: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Корреспондентский анализ

■ Аналог факторного анализа длякачественных переменных

■ Результаты также сходны смногомерным шкалированием

■ Был разработан для лингвистическогоанализа

Page 74: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Корреспондентский анализ

Page 75: Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Корреспондентский анализ