Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые

Многомерныйстатистический анализ

Многмерный статистическийанализ■ Зачем он нужен?

� При тестировании моделей■ Необходимо исключить влияние некоторыхпоказателей

■ Установить наличие совместного действияфакторов

■ Установить наличие скрытых связей

� При исследовательском анализ данных■ Снизить размерность используемых данных■ Сегментировать данные

Разработка данных (DataMining)■ Относительно новый подход, появлениекоторого связано с накоплениембольших объемов данных вкомпьютеризированной форме (datawarehouses)

■ Нахождение внутреннихзакономерностей в данных, а нетестирование статистических гипотез

Разработка данных (DataMining)■ Наиболее популярные методы

� OLAP (On-Line Analytical Data Processing) -построение многомерных таблиц

� Нейронные сети (neuronal networks)� Сегментирование данных (древовидноемоделирование - classification trees)

■ Более распространенные методы� Факторный анализ� Корреспондентский анализ

Разработка данных (DataMining)■ Требуют очень больших массивовданных� не менее десяти наблюдений на переменнуюв факторном анализе (но более станаблюдений)

� не менее десяти наблюдений на связь принейросетевом моделировании

■ В общем сотни, лучше тысячинаблюдений

Тестирование моделей

Необходимо определить типзависимой переменной■ Качественная

■ Количественная

Количественная зависимаяпеременная■ Общая линейная модель (GLM)

� Какие независимые переменные участвуютв анализе?

■ Только качественные - MANOVA■ Количественные и качественные - MANCOVA■ Только количественные - MLR

MANOVA

■ Многофакторный дисперсионный анализ(не путать с факторным анализом!)

■ Изучение влияния несколькихкачественных факторов и их сочетанийна значения количественныхпеременных

■ На самом деле, сравнение среднихзначений в таблицах

MANOVA

■ Ответит на вопросы:� Одинаковы ли средние всех 12 групп� Ести ли различия между средними групп,образованными фактором A, B или C по отдельности

� Имеется ли суммарное влияние факторов A, B и С

MANOVA

MANOVA

MANOVA

MANOVA

MLR

■ Множественный линейныйрегресионный анализ

■ Оценка зависимости количественнойпеременной от одной или болееколичественных переменных

MLR (основы)

Диаграмма рассеяния + регрессионная линияпытаемся провести ее так, чтобы расстояния от неедо наблюдаемых точек на графике были минимальными

MLR

MLR (анализ остатков)■ Остатки - это значения, которые не могут бытьобъяснены независимой переменной

■ Если у нас несколько переменных, мы берем первую,рассчитываем остатки и повторяем анализу уже наостатках (исключив влияние первой переменной) и т.д.

■ Поэтому коэффициенты, получаемые в результатерегрессионного анализа показывают независимоенезависимоевлияние переменных

■ Если модель адекватна, остатки будут распределеныпо нормальному закону и разброс, соответственно,будет не очень сильным

MLR (анализ остатков)

MLR (анализ остатков)

MLR (модели)

■ Полная (включаются все переменные)■ Пошаговый отбор переменных (stepwise)

� Forward� Backward

MANCOVA

■ Многофакторный дисперсионный анализс ковариантами� Комбинация из множественного линейногорегрессионного анализа и дисперсионногоанализа. Этапы

■ Построение модели с учетом толькоколичественных переменных при помощи MLR

■ Дисперсионный анализ на остатках

MANCOVA

MANCOVA

После коррекции по значениям переменныхVNP и AGE эффект FAM*ED исчез (насамом деле, это эффект VNP)

Без коррекциипо VNP

MANCOVA

■ Наиболее общая форма анализа данных,однако в системе Statistica всоответствующем модуле невозможновыполнять MLR

■ SAS позволяет выполнять все видыанализа в одном модуле

MANCOVA (SAS)

MANCOVA (SAS)

MANCOVA (SAS)

MANCOVA (SAS)

Качественная зависимаяпеременная■ Независимые переменные

� Качественные■ Стратифицированный анализ Mantel-Haenszel■ Логлинейный анализ

� Качественные и количественные■ Логистическая регрессия

� Количественные■ Дискриминантный анализ

Связь нескольких качественныхпеременных с качественной

■ Метод Mantel-Haenszel� Используется в рамках т.н. стратифицированногоанализа (например, влияние курение на частотуразвития ИМ с учетом пола, возраста - 5-летниегруппы, социального статуса

� Часто используется в мультицентровыхисследованиях

� Может использоваться для анализа выживаемости(год дожития - отдельная переменная)

Метод Mantel-Haenszel■ Выбираем пару базовых переменных (например, ИМ икурение)

■ Строим отдельные четырехпольные таблицы длякаждого уровня остальных факторов:

∑∑

•

•

=

i

ii

i

ii

MH

NCB

NDA

OR

)()5.0|)((|

)1()(

)(

22

22211

11

xVarxEx

NNCRCRxVar

NCRxE

Ax

ii

iiii

i

ii

i

−−=

−••••=

•=

=

∑

∑∑

χ

Метод Mantel-HaenszelВ системе Statistica можно использовать только дляданных по выживаемости (требуется времена дожития)В SAS для любых таблиц

Метод Mantel-Haenszel (SAS)

Метод Mantel-Haenszel (SAS)

Логлинейный анализ

■ Аналог дисперсионного анализа длямногомерных таблиц

■ Анализируется совместное влияниенескольких переменных на частоты вмногомерной таблице

■ Если модель соответствует данным (fit),то переменные не влияют на частоты втаблице - модель можно подогнать знаятолько краевые частоты (R1, R2, C1, C2)






Логлинейный анализ (SAS)

Логлинейный анализ (SAS)■ На самом деле необходимо проанализировать несколькомоделей:1. �Независимую� (LOGLIN A B C)2. «С исключением верхнего уровня» (LOGLIN A B C B*C)3. «С двойными взаимодействиями (LOGLIN A B C A*B A*C B*C)4. «Полную» (LOGLIN A|B|C)

■ Записать остатки (LIKLEHOOD RATIO)■ Посчитать выигрыш при усложнении модели (хи2 и df)


■ Составить таблицумодель df LR p dChi DeltaDF1 4 10.61 0.03132 3 1.31 0.7258 9.30 13 1 0.19 0.6568 1.12 14 0 0 0 0.19 1

■ Видно, что наибольший выигрыш припереходе от модели 1 к модели 2, всеостальные хи2 не достоверны

■ Значит выбираем модель 2


Мы можем оценить эффекты. Например, коэффициент для А -0,6.Беря антилогарифм (e-0.6=0,55) имеем, что значений первого уровняА почти в 2 раза меньше, чем второго. Глядя на 4 строку, можносказать, что С1 значительно больше при В1, и т.д.

Логистическая регрессия■ На самом деле, наиболее общий случай (болееобщий, чем логлинейный анализ), правдаоптимизирована для работы с бинарнымизависимыми переменными

■ Может принимать для анализа каккачественные, так и количественныепеременные

■ В принципе, если логлинейный анализ аналогANOVA, то логистическая регрессия - аналогANCOVA (в SAS можно даже использоватьодну и ту же процедуру)

Логистическая регрессия


■ При проведении логистического регрессионногоанализа качественные переменные с более чем двумяуровнями должны быть превращены в т.н. dummyпеременные (пустышки) с двумя уровнями. Например,образование с 3 будет превращено в 2 переменных,например высшее (есть/нет) и ниже среднего (да/нет).


Логистическая регрессия■ Для качественных бинарных показателей мы можемвзять OR прямо из таблицы (это будет OR,откорректированный на влияние других факторовриска)

■ Для количественных показателей необходимо взятьрегресионный коэффициент (estimate), умножить егона стандартное отклонение для этого показателя ивзять от произведения антилогарифм.

■ Например, для возраста в описанном ранее примереestimate=0,008, SD=5,4. СоответственноOR=e0,008*5,4=1,04

Логистическая регрессия (SAS)

■ Можно использовать несколько процедур -CATMOD и LOGISTIC. Первая может такжеиспользоваться для мультиноминальных (небинарных) типов анализа

■ CATMOD очень требовательна к памяти

Логистическая регрессия (SAS)

Дискриминантный анализ

■ Методика создания классифицирующихправил

■ Пытается создать серию уравнений,которые позволили бы правильноклассифицировать группы

■ В принципе, является аналогом ANOVA,но только «перевернутым» (ростпозволяет отличить мужчин от женщин)

Особый случай - анализвыживаемости■ Нечто среднее между анализом качественных иколичественных показателей (качественныйпоказатель - цензурирование, количественный - времяпод наблюдением)

■ Основа унивариантного анализа - построение таблицдожития (life tables) и кривых дожития (Kaplan-Meier)

■ Многомерные методики� Только качественные независимые переменные

■ Стратифицированный анализ Mantel-Haenszel■ Коррекция кривых дожития

� Качественные и количественные независимые переменные■ Моделирование выживаемости (Weibull и др.)■ Модель пропорционального риска (Cox)

Снижение размерности■ Количественные переменные

� Анализ главных компонент� Факторный анализ� Многомерное шкалирование� Иерархический кластерный анализ

■ Качественные переменные� Корреспондентский анализ

■ Объединение наблюдений� Кластерный анализ

Факторный анализ

■ Вместе с анализом главных компонент -основной метод снижения расзмерности

■ Пытается найти новые переменные, которыебы комбинировали в себе несколько старых(рост, измеренный в метрах, футах и локтях)

■ Отличие от метода главных компонент -отсутствие �уникальных� факторов - факторов,представленных одной переменной

■ Единицей анализа является корреляционнаяматрица


■ Выделяют неколько вариантов� Стандартный (R) - факторный анализ переменных� Обратный (Q) - факторный анализ наблюдений� Временной (T) - факторный анализ временныхтенденций (у разных людей по одной переменной)

� Обратный временной (S) - факторный анализнаблюдений в зависимости от времени

� Одного наблюдения (О) - факторный анализвременных тенденций по разным показателям уодного субъекта


■ Требует не менее 10 (5) наблюдений накаждую включенную в анализ переменную, нообщее число наблюдений должно быть больше100

■ Факторный анализ отличается откомпонентного тем, что находится вдиагональных элементах корреляционнойматрицы (1 в компонентном, иное число -максимальное значение r в строке, множ.Коэффициент корреляции и т.п. - в факторном)


Факторный анализ■ Методы определения числа факторов

� Критерий Кайзера (собственное значение фактора -Eigenvalue больше 1)

� Критерий Жоффе (Eigenvalue>0.7)� Процент объясненной дисперсии (90% и более)� Scree plot


Вращение факторов - Varimax или Oblimin - необходимо дляинтерпретируемости результатов - простая структура


Факторный анализ (SAS)

Факторный анализ (SAS)

Многомерное шкалирование

■ Метод анализа матрицы дистанций� Истинные дистанции� Коэффициенты корреляции (1-r)� Другие индексы

■ Аналог географической карты



Кластерный анализ

■ Может использоваться для сниженияразмерности/классификации переменных(иерархический анализ)

■ Может использоваться для объединениянаблюдений на основании рядапоказателей (групп - кластеров-пациентов) k-means



Кластерный анализ (k-means)

■ Необходимо заранее решить, какоеколичество кластеров следует выделить

■ Работает как ANOVA наоборот:� наблюдения объединяются таким образом,чтобы расстояния между группами (междусредними групп) были максимальными

� поэтому группы почти всегда будутстатистически достоверно отличаться повключенным параметрам

Кластерный анализ (k-means)

Корреспондентский анализ

■ Аналог факторного анализа длякачественных переменных

■ Результаты также сходны смногомерным шкалированием

■ Был разработан для лингвистическогоанализа



Documents

Многомерный статистический анализsuper7/18011-19001/18831.pdfmlr (анализ остатков) Остатки - это значения, которые