121
Софийски Университет Св.Климент Охридски Факултет по математика и информатика Вероятности, Операционни изследвания и Статистика доц. ДИМИТЪР Л. ВЪНДЕВ Записки по Приложна статистика 1 СОФИЯ, юни, 2002

Записки по приложна статистика 1

Embed Size (px)

DESCRIPTION

Записки по приложна статистика.диц. Димитър Вундев

Citation preview

Page 1: Записки по приложна статистика 1

Софийски Университет Св.Климент ОхридскиФакултет по математика и информатика

Вероятности, Операционни изследвания и Статистика

доц. ДИМИТЪР Л. ВЪНДЕВ

Запискипо

Приложна статистика 1

СОФИЯ, юни, 2002

Page 2: Записки по приложна статистика 1

Съдържание

Съдържание 2

Предговор 6

1 Данни и тяхното представяне 71.1 Произход на данните . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.1 Изчерпателни данни . . . . . . . . . . . . . . . . . . . . . . . . . . 81.1.2 Извадки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.1.3 Планиране на експеримента . . . . . . . . . . . . . . . . . . . . . 81.1.4 Временни редове . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2 Числови и нечислови данни . . . . . . . . . . . . . . . . . . . . . . . . . 91.2.1 Скали на измерване . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3 Кондензиране на данните . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3.1 Таблици и групиране . . . . . . . . . . . . . . . . . . . . . . . . . 101.3.2 Описателни статистики . . . . . . . . . . . . . . . . . . . . . . . . 101.3.3 Графични методи . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4 Математически модел . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4.1 Гливенко – Кантели . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Прости статистически методи 162.1 Данни . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2 Тест на знаците . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3 Статистически оценки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.4 Доверителен интервал за медиана . . . . . . . . . . . . . . . . . . . . . . 202.5 Тест на Ман-Уитни или Уилкоксън . . . . . . . . . . . . . . . . . . . . . 202.6 Изводи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Нормално разпределение в Rn 233.1 Нормално Разпределение . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 χ2 разпределение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Теорема на Кокрън . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.4 Примери . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 Математическата статистика 284.1 Изводи и хипотези . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.1.1 Лема на Нейман-Пирсън . . . . . . . . . . . . . . . . . . . . . . . 28

2

Page 3: Записки по приложна статистика 1

Съдържание 3

4.1.2 Критерий за проверка на хипотеза . . . . . . . . . . . . . . . . . 294.1.3 Равномерно най-мощен критерий . . . . . . . . . . . . . . . . . . 30

4.2 Доверителни интервали . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.3 Статистики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.4 Асимптотика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5 Тестове на Стюдент и Фишер 355.1 Дисперсия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355.2 Фишер . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.2.1 Критерий на Фишер за независими извадки . . . . . . . . . . . . 365.3 Стюдент . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.3.1 Доверителен интервал за м.о. µ . . . . . . . . . . . . . . . . . . . 375.3.2 Критерий на Стюдент . . . . . . . . . . . . . . . . . . . . . . . . . 385.3.3 Критерий на Стюдент за независими извадки . . . . . . . . . . . 38

6 χ2 и честотни таблици 406.1 Съгласуваност на разпределения . . . . . . . . . . . . . . . . . . . . . . 406.2 Двумерни честотни таблици . . . . . . . . . . . . . . . . . . . . . . . . . 41

6.2.1 χ2-статистика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416.2.2 The Case of Luddersby Hall . . . . . . . . . . . . . . . . . . . . . . 42

6.3 Логлинейни модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

7 Регресионен анализ 457.1 Задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457.2 Проста регресия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467.3 Линейни модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477.4 Многомерна линейна регресия . . . . . . . . . . . . . . . . . . . . . . . . 48

8 Хипотези в регресията 508.1 Коефициент на детерминация . . . . . . . . . . . . . . . . . . . . . . . . 508.2 Равенство на нула . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518.3 Прогнозирана стойност . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518.4 Адекватност . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

9 Стъпкова регресия 539.1 Интерактивни процедури . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

9.1.1 Стъпкова регресия в СТАТЛАБ . . . . . . . . . . . . . . . . . . . 539.1.2 МСТАТ-16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

9.2 Автоматична процедура . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579.3 SWEEP оператор . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

9.3.1 Теорема . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589.3.2 Тълкуване . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Page 4: Записки по приложна статистика 1

4 Съдържание

10 Полиномна регресия 6010.1 Населението на САЩ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6010.2 Ортогонални полиноми . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6210.3 Оптимална степен . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

11 Корелационна матрица 6611.1 Проблеми с X ′X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6611.2 Пресмятане на R и примери . . . . . . . . . . . . . . . . . . . . . . . . . 68

11.2.1 Мащабиране . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6811.2.2 Плаващо средно . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6911.2.3 Загубени стойности . . . . . . . . . . . . . . . . . . . . . . . . . . 69

11.3 Методи за корекция . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7011.3.1 Метод на Marquardt . . . . . . . . . . . . . . . . . . . . . . . . . . 7111.3.2 Главни компоненти . . . . . . . . . . . . . . . . . . . . . . . . . . 71

12 Анализ на остатъците 7312.1 Разпределение на остатъците . . . . . . . . . . . . . . . . . . . . . . . . . 7312.2 Видове остатъци . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7412.3 Групиране . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

13 Факторен анализ 7713.1 Обзор . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

13.1.1 Главни компоненти . . . . . . . . . . . . . . . . . . . . . . . . . . 7713.1.2 Вариамаксна трансформация . . . . . . . . . . . . . . . . . . . . 78

13.2 Теория . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7913.2.1 Корелационна матрица . . . . . . . . . . . . . . . . . . . . . . . . 7913.2.2 Метод на главните компоненти . . . . . . . . . . . . . . . . . . . 7913.2.3 Въртения на факторите . . . . . . . . . . . . . . . . . . . . . . . . 81

13.3 Пример . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

14 Дисперсионен и ковариационен анализи 8514.1 Понятия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8514.2 Основен модел . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8614.3 Множествени сравнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

14.3.1 Метод на Тюки . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8814.3.2 Метод на Шефе . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

14.4 Двуфакторен анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9014.5 Примери . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9014.6 Ковариационен анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

15 Дискриминантен анализ 9415.1 Основни понятия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9415.2 Вероятностна формулировка . . . . . . . . . . . . . . . . . . . . . . . . . 96

15.2.1 Бейсов подход . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9615.2.2 Класификационни правила . . . . . . . . . . . . . . . . . . . . . . 9615.2.3 Априорни вероятности. Модели . . . . . . . . . . . . . . . . . . . 97

Page 5: Записки по приложна статистика 1

Съдържание 5

15.3 Стъпков дискриминантен анализ . . . . . . . . . . . . . . . . . . . . . . 97

16 Клъстерен анализ и многомерно скалиране 9816.1 Иерархичен клъстерен анализ . . . . . . . . . . . . . . . . . . . . . . . . 98

16.1.1 Променливи и наблюдения . . . . . . . . . . . . . . . . . . . . . . 10116.2 Клъстерен анализ на средни . . . . . . . . . . . . . . . . . . . . . . . . . 101

16.2.1 Метод на пълните разстояния . . . . . . . . . . . . . . . . . . . . 10116.2.2 Метод на средните разстояния . . . . . . . . . . . . . . . . . . . . 102

16.3 Многомерно скалиране MDS . . . . . . . . . . . . . . . . . . . . . . . . . 102

17 Оценка на плътности 10417.1 Криви на Пирсън . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10417.2 Изглаждане на хистограми . . . . . . . . . . . . . . . . . . . . . . . . . . 10517.3 Ядра на Розенблат - Парзен . . . . . . . . . . . . . . . . . . . . . . . . . 105

A Примерни данни 107

B Таблици 112

Означения 116Списък а ллюстрациите . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118Списък а аблиците . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

Литература 120

Page 6: Записки по приложна статистика 1

6 Съдържание

ПредговорТези няколко лекции са предназначени за студентите от специалности информа-

тика и приложна математика към ФМИ. Тъй като тези студенти не са имали въз-можност да слушат лекциите ми по (математическа) статистика, много от темитетам ще бъдат повторени.

Записките имат за задача да дадат известна представа за модерните методи заанализ на данни. В голяма степен те са базирани на книжката (Въндев и Матеев1988), която обаче трудно може да се намери.

Всяка глава (лекция) е снабдена и с вспомагателна литература за допълнителноизучаване при наличие на необходимост и допълнителен интерес. Много от приме-рите са изработвани с пакета Statistica, който в момента е най-разпространен.

Авторът се извинява за многото непълноти и грешки и ще бъде много признателенна всеки, който си направи труда да му ги укаже.

Page 7: Записки по приложна статистика 1

Глава 1

Данни и тяхното представяне

Ще се опитаме да определим проблемите, с които се занимава приложната статис-тика. Отчасти това са проблеми на всяко приложение на научните постижения впрактиката.

Науката е призвана да помага на хората да решават по-добре задачите, коитовъзникват пред тях.

Под тези хубави думи за съжаление стои едно голямо недоразумение - кое е по-хубаво се определя по един начин в сферата на научните оценки, и по друг в сфератана приложенията.

Тъй като тези лекции са предназначени за студенти - математици, а и аз имамдонякъде такова образование и мислене, ще се опитам да поставя проблемите в рам-ките на математиката. Това означава, че ще игнорираме по-голямата част от тях -тези, на които няма логичен отговор.

Думата статистика произлиза от латинския корен stata означаващ държава. Вчастност, statist това е държавен служител. Събирането на данни за населението (сцел ”осъвременяване” на данъците) е било важна държавна работа от както същес-твува държавата. Известни са такива записи за всички изследвани цивилизации вминалото. И сега всяка държава поддържа съответния орган, който е длъжен дая снабдява с такава информация. В България това е Националният статистическиинститут (НСИ), в САЩ - Central Statistical Office.

1.1 Произход на даннитеОсновно понятие в статистиката е понятието генерална съвкупност или популация.

Определение 1.1 Генерална съвкупност наричаме множеството от обекти наизследване.

За едно изследване на НСИ това могат да бъдат:

• всички държавни учреждения в България;• домакинствата в планинските райони;• семействата без деца;

7

Page 8: Записки по приложна статистика 1

8 Глава 1. Данни и тяхното представяне

• всички жители на страната и т.н.

За един орнитолог, който също използува методите на статистиката, това е по-пулацията от щъркели, например. За преподавателя по статистика - това могат дабъдат студентите от неговия курс.

1.1.1 Изчерпателни данни

Наричаме изчерпателни данни, които напълно описват дадено явление. Такива санапример данните получени при едно преброяване на населението в ЦСИ. За геолога,интересуващ се от съдържанието на желязо в Кремиковското находище, това ще есамото находище разделено на някакви малки обеми.

За съжаление такива данни рядко са достъпни, пък и струват прекалено скъпо.Когато не е възможно такова изследване и данните за интересуващото ни явление неса достъпни. Така че генералната съвкупност става абстрактно множество от обектипредставляващо цел на нашето изследване.

1.1.2 Извадки

Основна цел е по даден непълен обем данни да се направи някакво правдоподобнозаключение за генералната съвкупност като цяло.

В практиката често се работи с т.нар. извадка, част от генералната съвкупност.По този начин, търсените характеристики на генералната съвкупност се оценяват поданните от извадката.

Определение 1.2 Извадка наричаме подмножеството от обекти на генералнатасъвкупност, достъпно за премерване.

Извадките биват систематични, случайни или подходящи за целите на изследва-нето комбинации от двата метода.

Например, една систематична извадка на дадено находище предполага сондажиразположени равномерно по площта му.

От друга страна при случайната извадка се предполага, че шанса на всеки обектот генералната съвкупност да попадне в извадката е равен - всички обекти са рав-ноправни и изборът е напълно случаен. Далеч не винаги е възможно да си избирамес кой от двата метода да конструираме извадката.

Когато обемът на извадката е сравним с този на генералната съвкупност, се налагада различаваме и извадки с връщане и без връщане.

1.1.3 Планиране на експеримента

В селското стопанство и техниката често възниква задачата да максимизираме до-бива или оптимизираме даден производствен процес.

Това става с помощта на така наречения планиран (селскостопански) експери-мент. Избираме няколко полета, засяваме ги с различни сортове пшеница и ги торимс различни видове тор. Така ще подберем подходящата за нашите цели комбинация

Page 9: Записки по приложна статистика 1

1.2. Числови и нечислови данни 9

(сорт и тор). Как обаче да избегнем влиянието на различните видове почва и можеби природни условия? Как да намалим максимално броя на експерименталните по-лета за и без това скъпия и продължителен опит? На това ни учи планирането наексперимента. Математическа наука - част от математическата статистика.

Както се вижда, едва ли можем да гледаме на резултатите от такъв опит като наизвадка от нещо.

1.1.4 Временни редове

Често нашите наблюдения са над някакво явление или процес, който се променя въввремето. Това може да бъде курса на долара в поредни дни или средната температурана въздуха в София.

Наблюдението и тук не е извадка. Въпреки това, както ще видим по нататък,теорията на случайните процеси ни дава достатъчни математически средства да ана-лизираме такива данни и правим (понякога разумни) прогнози.

1.2 Числови и нечислови данни

Информацията, която представляват данните обикновено се различава по това каксе записва - понякога това са числа: размери, тегло, бройки и т.н. Друг път това санечислови характеристики като цвят, форма, вид химическо вещество и т.н. Ясно е,че даже и да кодираме с числа подобни данни, при тяхното изучаване и представянетрябва да се отчита тяхната нечислова природа.

1.2.1 Скали на измерване

Данните (наблюденията), с които разполагаме, касаят определени признаци на обек-тите, които изследваме. Например ако искаме да направим изследване за среднатависочина на мъжете и жените в България, ще искаме да разполагаме с измервания нависочината на представители от двата пола. Конкретните измервания представляватнаблюденията, признакът е височината, а обектите с които работим са представите-лите от двата пола.

Съществуват различни типове признаци. В горния пример, признаците са от чис-лов тип – височината се измерва с число. Има и нечислови признаци, които се наричатоще категории.

Обикновено числовите признаци са податливи на анализ. Изследването на нечис-лови признаци има редица специфични особености.

Категориите могат да бъдат ненаредени – например, цвят или наредени – напри-мер, оценка - слаб, среден, добър...

Page 10: Записки по приложна статистика 1

10 Глава 1. Данни и тяхното представяне

Висше

?

Полувисше

�� @@R

Средно Средно специално

@@R ��

Основно

?

Начално

?

Няма

Има и по-сложни ситуации, Ако, например, раз-гледаме нечисловия признак "образование", товръзката между различните видове образованиеможе да бъде визуализирана както на Фиг. 1.1.В разглеждания пример ситуацията е сравни-телно добра, понеже върху множеството от раз-личните варианти за образование почти има-ме пълна наредба. Често обаче имаме работасъс случаи, в които частичната наредба обхва-ща много по-малка част от наблюдаваните приз-наци на обектите. Но дори и за ситуации катопоказаната, където стойностите на признацитеса почти наредени, практически не разполага-ме със статистически методи специализирани заработа с подобни обекти.

Фиг. 1.1: Образование

1.3 Кондензиране на даннитеИнформацията, която се съдържа в милионите числа трябва да бъде представена вобозрима форма, така че всеки да си представи основните качества на множествотообекти. Ще разгледаме накратко следните методи за кондензиране.

• Таблици и групиране;• Числови характеристики;• Графично представяне.

Главна роля в това кондензиране на ин-формация има графичното представяне.То е ефектно и в минимална степен принего се губи информация.

1.3.1 Таблици и групиране

ПРИЗНАЦИпр.1 . . . пр.k

Н №1 1.32 . . . 546А №2 5.46 . . . 564БЛЮД . . . . . . . . . . . .ЕНИЯ №n 4.89 . . . 489

Таблица 1.1: n наблюдениявърху k признака

Обикновено данните, с които разполагаме могат дасе онагледят в таблица по този начин.Когато наблюденията са много, това става с окруп-няване - сумиране и групиране.Прекрасни примери за това могат да се видят в кни-гата (Поповъ 1916) или във всеки статистически го-дишник издаван от НСИ.

1.3.2 Описателни статистики

Категорни данни

Нека отначало се занимаем с един нечислов признак - например пол. Ясно е, чецялата информация за пола в едно множество от n изследвани обекта е разделянето

Page 11: Записки по приложна статистика 1

1.3. Кондензиране на данните 11

на обема това число на две слагаеми n1 и n2, съответно, броят на обектите от мъжкии женски пол.

Така агрегираната числова информация за наблюденията на нечислов признак сk стойности е наборът от честоти (пропорции) на поява:

p1 =n1

n, p1 =

n1

n, . . . , p1 =

n1

n.

Когато разгледаме нечислов признак на един случайно избран обект от генерал-ната съвкупност, то той съгласно предположенията ни за равнопоставеност на обек-тите в извадката би трябвало да попадне в дадена категория с вероятност равна напропорцията на обектите в тази категория от генералната съвкупност. Ако съвкуп-ността е голяма (или извадката ни е с връщане), то броят на обектите от извадкатаni с признак от категория i би трябвало да се окаже биномно разпределен с B(n, pi).

Това е и първият намек за необходимостта от изучаване и прилагане на стохас-тични (вероятностни) методи в статистиката

Количествени данни

За не много на брой количествени данни е прието да се използува така наречениявариационен ред. Освен това, той е много удобен и за теоретични изследвания, кактоще видим по-нататък.

Определение 1.3 Наредените по големина стойности на x1, x2, . . . , xn се наричатвариационен ред x(1) ≤ x(2) ≤ · · · ≤ x(n), а елементите на реда — порядкови ста-тистики.

Така първата порядкова статистика x(1) = minI(xi), а последната x(n) = maxI(xi).Интуитивное ясно, че информацията за генералната съвкупност, която се съдържа в извадка-та, е представена изцяло във вариационния ред. Същата информация може да сепредстави и в следната форма.

Определение 1.4 Извадъчна функция на разпределение наричаме функцията:

Fn(x) =

0 x < x(1)kn

x(k−1) ≤ x < x(k)

1 x(n) ≤ x

Фиг. 1.2: Извадъчна ф.р.В приложната статистика често се използуват следните дескриптивни (описател-

ни) статистики:

Page 12: Записки по приложна статистика 1

12 Глава 1. Данни и тяхното представяне

• средна стойност: x = 1n

∑ni=1 xi.

• дисперсия: D = 1n

∑ni=1(xi − x)2.

Те лесно се изразяват чрез извадъчната функция на разпределение:

x = µ1 =

∫ ∞

−∞xdFn(x), µ2 =

1

n

n∑i=1

x2i =

∫ ∞

∞x2dFn(x),

D = µ2(n)− µ1(n)2.

Функциите µi наричаме извадъчни моменти. От теоремата на Гливенко-Кантелиследва, че когато са изпълнени предположенията на стохастичния модел извадъчнитемоменти µk са ”състоятелни” оценки на моментите на сл.в. E ξk, т.е. те клонят къмтях при увеличаване на обема на извадката.

Същото твърдение важи и за други характеристики на извадъчното разпределе-ние - квантили, медиана и т.н. Всички такива функции на извадъчното разпределениенаричаме дескриптивни статистики. Например, порядковата статистика x(k) клоникъм квантила qα, ако k/n → α.

Определение 1.5 Медиана се определя като решение на уравнението: F (µ) = 1/2.Медианана извадка (извадъчна медиана) е наблюдението, което разделя вариационния ред надве равни части (когато обемът е четен се взима средното на двете централнинаблюдения).

Медианата описва положението на средата на разпределението върху числова-та ос. В случая на големи отклонения от нормалност или при наличие на твърдеотдалечени, съмнителни наблюдения, това е предпочитана оценка за ”средата” наразпределението.

В много случаи се използува и положението на други характерни точки от разп-ределението.

Определение 1.6 Извадъчен квантил qα с ниво α на дадена извадка с ф.р. Fn сеопределя като приближено решение на уравнението: Fn(qα) = α.

Така медианата µ = q1/2.

1.3.3 Графични методи

Хистограмата е основният вид за представяне на информацията за наблюдения върхучислов признак.

Page 13: Записки по приложна статистика 1

1.3. Кондензиране на данните 13

Тя се строи по просто правило. Избират се обик-новено не много на брой (5 - 20) еднакво големиприлежащи интервала покриващи множествотоот стойности на наблюдавания признак. Ако ин-тервалът [xmin, xmax] се раздели на k еднаквичасти с ширина h, т.е. h = xmax − xmin

kи за всеки

интервал се преброят попаданията на стойнос-тите, то полученото число n се нарича честотана срещане. Последната, нормирана спрямо об-щият брой на данните N , е известна като отно-сителна честота на срещане fi = ni

N, където с i е

означен номера на интервала.Фиг. 1.3: Хистограма

При графично маркиране на fi с помощта на стълбчета, с височина стойносттана fi и ширина h, се получава хистограма, която служи за описание на изследванатасъвкупност от данни (фиг.1.3).

0

50

100

150

200

10 15 20 25 30 35

Също така много удобна е така наречената ку-мулативна хистограма (фиг. 1.4). Тя се строи понатрупаните данни и позволява лесен отговорна въпроси от вида:

Фиг. 1.4: Кумулативна представяне- каква е частта от наблюденията, попаднали под дадена граница;- кое е числото под което са половината наблюдения – т.н. медиана.

Ni

Pb

Ag

Cu

Когато изследваме нечислови признаци, най -подходящото представяне е като процентно съ-държание, например на гласовете подадени заразличните партии в едно гласуване. Това можеда се направи и с хистограма, но не е прието,тъй като разместването на стълбовете отговаря-щи на различните типове обекти променя общи-ят вид на рисунката. Затова се използуват таканаречените секторни диаграми, баници или тор-ти (piechart).

Фиг. 1.5: Баница

Отделните сектори отговарят по лице на пропорциите на различните типове ипонякога са разноцветни.

Page 14: Записки по приложна статистика 1

14 Глава 1. Данни и тяхното представяне

Често нашите наблюдения са над някакво явле-ние или процес, който се променя във времето.Това може да бъде курса на долара в пореднидни или средната температура на въздуха в Со-фия. В случая това са разстоянията в 1000 мили,изминати от самолетите на Обединеното Крал-ство за един месец в периода от 1963 до 1970г.

Фиг. 1.6: Временен редОт тези базисни картинки се строят множество по-сложни агрегирани картин-

ки, които могат да се видят в учебника по приложна статистика (StatSoft 1998) нафирмата, създала пакета STATISTICA. Приета е следната (спорна) класификация:

• 2D (обектите може да се маркират)

– Бар, Баница, Бокс (за честоти или стойности)– Хистограми, Линии (с или без модел)– Вероятностни - P − P , Q−Q,– Диаграми на разсейване, Вороной

• 3D

– XYZ - разсейване на три променливи– Последователно натрупани или наложени– Тернарни за смеси с отклик (числов или категорен)

• Многомерни и комбинирани

– nD (Икони за всяко наблюдение)– Категорни (2D, 3D за различни категории)– Матрични (за много променливи)

1.4 Математически моделНека сега предположим, че нашите данни са получени от случайна извадка с краенобем от огромна (безкрайна) генерална съвкупност. Тогава на отделното наблюдениес номер i ние можем да гледаме като на стойност на случайната величина ξi, а заслучайните величини да предполагаме, че са независими и еднакво разпределени.

Ако те имат разпределение изразявано с някаква хипотетична функция на разп-ределение F (x), то можем да запишем

Fn(x) =1

n

n∑i=1

I(ξi < x), I(ξi < x) =

{1 ξi < x0 ξi ≥ x

Така лесно получаваме че

EFn(x) = F (x), DFn(x) = F (x)(1− F (x))/n −→n→∞

0.

Следователно, Fn(x)p−→ F (x) за всяко фиксирано x (вж.фиг.1.2). От закона на

големите числа следва повече, а именно че Fn(x)п.с.−→ F (x).

Предположението и твърдението остават в сила и за крайна генерална съвкуп-ност, стига извадката да е с връщане на премерения обект в генералната съвкупност.

Page 15: Записки по приложна статистика 1

1.4. Математически модел 15

1.4.1 Гливенко – Кантели

Верно е обаче още по - силната

Теорема 1.1 (Гливенко – Кантели)

P( limn→∞

supx|Fn(x)− F (x)| = 0) = 1 (1.1)

Доказателство: Първо да отбележим, че без намаление на общността можем дасчитаме F (x) строго растяща функция.

Ще докажем теоремата при допълнителното ограничение, че тя няма скокове- т.е. е непрекъсната. Тогава тя притежава обратна функция F−1(u), определенана интервала (0,1). Сега твърдението на теоремата може да се препише в следнатаформа:

Dn = supx|Fn(x)− F (x)| = sup

0<u<1|Gn(u)− u| п.с.−→ 0,

където Gn(u) = Fn(F−1(u)).

��

��

��

���

��

��

��

���

��

��

��

���

��

��

ui ui+1

Да фиксираме ε = 1/r и разделим интервала(0,1) на r равни части (подинтервали).На фигура 1.7 е показан един подинтервал. Судебелена линия е отбелязана ”целевата” функ-ция u. Границите на интервалите да означим сui = i/r.

Фиг. 1.7: ПодинтервалТъй като във всяка от точките ui Gn(ui) клони п.с. към ui, можем да подберем

N така, че ∀n > N да е изпълнено неравенството:

P(supi|Gn(ui)− ui| > ε) < ε.

Сега остава да отбележим, че Gn е монотонна, и ако в краищата на интервала|Gn(ui)− ui| ≤ ε, то вътре в интервала |Gn(u)− u| ≤ 2ε.

Така получаваме:

P(supu|Gn(u)− u| > 2ε) < ε, ∀n > N.

Това означава, че редицата Dnп.с.−→ 0. �

Page 16: Записки по приложна статистика 1

Глава 2

Прости статистически методи

Идеята на тази лекция е да илюстрира някои прости статистически разсъждения.Въз основа на данните ще правим заключения за неизвестните параметри (или другикачества) на генералната съвкупност.

Основната идея на математическата статистика е разглеждане на наблюденията(и различни функции от тях) като сл.в. Това безусловно налага използуването начисто вероятностни методи на разсъждение.

Статистическите изводи са строят обикновено по един от следните 3 различниначина:

• Проверка на статистически хипотези;• Статистически оценки на параметри;• Доверителни интервали за неизвестните параметри на генералната съвкупност.

В тази тема ще разгледаме няколко примера на възможно най- прости вероят-ностни разсъждения в статистиката. Тези примери не се нуждаят от особено силнипредположения и, съответно, не притежават други добри качества освен простотатаси.

2.1 Данни

Данните в тази тема бяха генерирани в МАТЛАБ с следните команди:

x=rand(100,1); y=0.1+0.1*randn(100,1);x=sort(x); XX=[x,x+y,y]; XX

Получените данни от първата колона на матрицата XX са дадени в следната мат-рица:

Променлива Before

16

Page 17: Записки по приложна статистика 1

2.2. Тест на знаците 171 2 3 4 5 6 7 8 9 10

0 ,00990 ,01180 ,01530 ,01850 ,01960 ,05790 ,06480 ,13650 ,13890 ,150901 ,17300 ,17630 ,18970 ,19340 ,19870 ,19880 ,19910 ,20260 ,20280 ,231102 ,25230 ,27140 ,27220 ,28440 ,28970 ,29870 ,30280 ,30460 ,30930 ,341203 ,34200 ,35290 ,37040 ,37840 ,37950 ,40570 ,41030 ,41860 ,42890 ,444704 ,44490 ,44510 ,45650 ,46600 ,46920 ,48600 ,49660 ,50280 ,52260 ,525205 ,53410 ,54170 ,54660 ,56810 ,59360 ,60380 ,60680 ,61540 ,62130 ,644906 ,66020 ,66140 ,67210 ,68130 ,68220 ,69460 ,69790 ,70270 ,70950 ,727107 ,73730 ,73820 ,74680 ,76210 ,79190 ,79480 ,81320 ,81800 ,82140 ,821608 ,83180 ,83810 ,83850 ,84620 ,85370 ,86000 ,87570 ,88010 ,89130 ,893609 ,89390 ,89980 ,91690 ,92180 ,93180 ,93550 ,95010 ,95680 ,97970 ,98830

2.2 Тест на знаците

Нека е дадена една извадка от генерална съв-купност и са премерени по два еднотипни па-раметъра за всяко наблюдение: x1, x2, . . . , xn иy1, y2, . . . , yn. Такива наблюдения се наричат сд-воени или повторни, т.е. на всяко xi съответст-вува yi.

Фиг. 2.1: x и y

Такава ситуация възниква често в практиката.Например, когато мерим някаква характеристи-ка върху едни и същи обекти преди и след въз-действието с някакъв химикал или състояниетона болни преди и след лечението с определенолекарство.

Фиг. 2.2: Преди и след

На фигурите 2.1 и 2.2 не се вижда отчетлива разлика на измерванията преди ислед.

Фигура 7.1 показва изразена зависимост междувлиянията преди и после. От тези фигури обачене можем да направим заключение за наличиетона влияние на лекарството.

Фиг. 2.3: y = f(x)

Page 18: Записки по приложна статистика 1

18 Глава 2. Прости статистически методи

Да си поставим задачата да отговорим на въпро-са за наличието (или не) на съществена разликамежду двете измервания (преди и след даванетона лекарство, например). За целта да разгледа-ме разликата y − x.

Фиг. 2.4: y − x

На фигура 2.4 се забелязва изместване на разпределението надясно от 0. Изглеж-да, че лекарството влияе положително - увеличава стойността на измерването.

За да проверим тази наша хипотеза да построим математически модел. Да раз-гледаме статистиката (функция от наблюденията) Z = #{i : yi > xi}) - броят наположителните разлики между наблюденията ”след” и ”преди”.

Нека лекарството не оказва съществено влияние. Тогава за всеки случаен кон-кретно избран пациент вероятността неговото измерване y да е по-голямо от x битрябвало да бъде равна на 1/2. Нека свържем с такова измерване сл.в. ξ приемащастойности 1 (когато y > x) и 0 (в противен случай). Тъй като в математическатастатистика се предполага, че извадката е от безкрайна съвкупност и резултатите отизмерване на отделните обекти в извадката са независими, получаваме че статис-тиката Z е сума на n (броят на елементите в извадката) независими сл.в., т.е. имабиномно разпределение B(n, 1/2), ако хипотезата е верна.

Задаваме си малка вероятност α равна, например, на 0.05. Ще определим кри-тична за нашата хипотеза област W , така че P(W ) = α. Критична - това означава,че ако статистиката попадне в нея, ще отхвърлим хипотезата.

Сега нека се спрем на целта на нашето лекарство - например, да повиши стой-ността на изследвания параметър. Ако то наистина действува, би трябвало P(ξ =1) > 1/2. Значи и в извадката би трябвало да има повече позитивни резултати - Zби трябвало да нарастне.

-�

Следователно, критичната за нашата хипотезаобласт W ще бъде локализирана в дясната частна биномното разпределение:

W = {Zn : Zn ≥ i},

P(W ) =n∑

k=i

b(n, k, 0.5) ≤ α.

Фиг. 2.5: Определяне на W

Остава да намерим i. При големи стойности на n може се използува интегралнататеорема на Муавър - Лаплас. Това ни дава лесна възможност да намерим необходи-мото i. Имаме:

Page 19: Записки по приложна статистика 1

2.3. Статистически оценки 19

Φ(i− .5n

.5√

(n)) = 1− α

i− .5n

.5√

(n)= Φ−1(1− α)

Така, ако броят на наблюденията с положителен знак Z > 0.5(n + 1.68)], би тряб-вало да отхвърлим хипотезата, че в двете измервания няма разлика. Вероятносттада сбъркаме при такова твърдение е малка - α = 0.05.

За нашия случай имаме Z = 86. Критичната стойност за ниво на грешката 0.05 е0.5(100 + 1.68

√(100) = 58.4. Спокойно отхвърляме хипотезата.

Ако извикаме МАТЛАБ да сметнем вероятностната стойност ( P-value) на ста-тистиката даже ще получим единица.

m=50;s=5; p=normcdf(86,m,s)p = 1.0000

2.3 Статистически оценки

Както видяхме в предната тема най-естествено е да подменим във формулата из-разяваща стойността на някакъв параметър чрез функцията на разпределение тазифункция с извадъчната.

θ = G(F ) =⇒ θ = G(Fn)

Този метод се нарича метод на моментите. За данните от таблица 2.1 получавамеследните оценки:

Descriptive Statistics (drug.sta) Variable: BEFOREConfid. Confid.

Valid N Mean -95,000% +95,000% Median100 ,528567 ,472660 ,584474 ,529650

Lower Upper QuartileMinimum Maximum Quartile Quartile Range,009900 ,988300 ,294200 ,793350 ,499150

StandardStd.Dev. Error,281756 ,028176

Std.Err. Std.Err.Skewness Skewness Kurtosis Kurtosis-,137807 ,241380 -1,15289 ,478331

Page 20: Записки по приложна статистика 1

20 Глава 2. Прости статистически методи

2.4 Доверителен интервал за медиана

Нека си поставим за цел по n наблюдавани стой-ности да кажем нещо за неизвестната медианаµ на това разпределение. Да означим с ξ(1) ≤ξ(2) ≤ · · · ≤ ξ(n) наредените по големина стой-ности на наблюденията (сл.в.).

Фиг. 2.6:

Теорема 2.1 За всяко i < n/2

P(ξ(i) ≤ µ ≤ ξ(n−i+1)) = 1− 2(1

2)n

i−1∑k=0

(n

k

)(2.1)

Доказателство: Имаме равенствата:

P (ξ(i) ≤ µ ≤ ξ(n−i+1)) = 1− P (µ < ξ(i))− P (ξ(n−i+1) < µ)

P (µ < ξ(i)) = P (ξ(n−i+1) < µ) = (12)n∑i−1

k=0

(nk

),

от които следва търсената формула. Вторият ред е всъщност изразяване на веро-ятността като сума от Биномни вероятности. Наистина, при n-те експеримента по -малко от i са успешни, т.е. под медианата. �

Така като заместим във формулата (2.1) стойностите на наблюденията, ние по-лучаваме доверителен интервал за неизвестната медиана.

x(i) ≤ µ ≤ x(n−i+1)

Вероятността в дясно на формула (2.1) се нарича ниво на доверие, например,0.95. При големи стойности на n е затруднително пресмятането на суми от биномникоефициенти. Тогава се използува интегралната теорема на Муавър - Лаплас. Товани дава лесна възможност да намерим необходимото i. Така при ниво на доверие 0.95получаваме: i = [.5(n−1.96

√n)] Например, при n = 100 получаваме, че неизвестната

медиана с вероятност 0.95 се намира между 40 и 61 членове на вариационния ред.Ако приложим този тест към числата от таблица 2.1 ще получим интервала:

, 44470 ≤ µ ≤, 66020

2.5 Тест на Ман-Уитни или УилкоксънНека са дадени две независими извадки от различни съвкупности x1, x2, . . . , xnx иy1, y2, . . . , yny възможно с различен обем. Проверяваме хипотезата, че двете съвкуп-ности са еднакви — с еднакви медиани H0 : µx = µy — срещу алтернативата, чеедната медиана е по - голяма от другата: H1 : µx > µy.

Page 21: Записки по приложна статистика 1

2.5. Тест на Ман-Уитни или Уилкоксън 21

Въвеждаме статистиката

Ux =nx∑i=1

ny∑j=1

δij, (2.2)

където

δij =

1 xi > yj;12

xi = yj;0 xi < yj.

Аналогично се пресмята Uy, при това се оказва, че

Ux + Uy = n1n2.

Когато искаме да проверим хипотезата H0 очевидно доверителната област ще имавида:

W = {U1−α ≤ Ux}

Стойностите на U1−α се подбират така, че вероятността за грешка да бъде малка:

P (W ) = α.

При малки min(nx, ny) < 20 стойностите на U1−α се вземат от специална таблица,а при големи min(nx, ny) се използува асимптотичното нормално разпределение натази статистика.

Теорема 2.2 Ако е изпълнена хипотезата за еднаквост на разпределенията и теса непрекъснати, то са верни следните формули

EUx =nxny

2, D (Ux) =

nxny(nx + ny + 1)

12.

Доказателство: Да разгледаме сл.в. δij. Те са еднакво разпределени, но не са неза-висими. Имаме

E δij = 1/2.

Значи EUx = nxny

2. За да пресметнем дисперсията да означим с γij = δij − E δij

центрираните величини. Забелязваме, че

D (Ux) = E (Ux − EUx)2 = E (

∑ij

E γij)2 =

=∑ij

E γ2ij + 2

∑ij

∑kl

E γijγkl.

Втората сума ще разделим на 4 части. Като отчетем еднаквата разпределеностна сл.в. γij, получаваме:

• (съвпадат и двата индекса) E γijγij = (1/2+1/2)1/4 = 1/4 защото P(γij = 0) = 0(1/4 след скобите е стойността на сл.в.);

• (не съвпадат и двата индекса) E γijγkl = 0 защото са независими;

Page 22: Записки по приложна статистика 1

22 Глава 2. Прости статистически методи

• (съвпадат индексите от първата извадка) E γijγil = 1/3(1/4−1/4+1/4) = 1/12.защото в обединената извадка елемент от X е или по-малък от или между илипо-голям отдва елемента на Y с вероятност 1/3 (1/4 в скобите е стойността на сл.в.);;

• (съвпадат индексите от втората извадка) E γijγkj = 1/3(1/4−1/4+1/4) = 1/12.по същата причина за елемент от Y ,

Така като преброим елементите на всяка от сумите получаваме:

D (Ux) =nxny

4+

nxny(ny − 1) + nynx(nx − 1)

12=

nxny(nx + ny + 1)

12.�

2.6 ИзводиНаучихме, че

• понятието статистическа хипотеза всъщност е предположение за някакъв кон-кретен вероятностен модел;

• трябва да можем да определим разпределението на статистиката, която ни ин-тересува;

• построяване на доверителен интервал и критична за хипотезата област си при-личат;

• вероятностната стойност (P-value) на статистиката замества критичната стой-ност;

• симулацията може да бъде полезна.

Page 23: Записки по приложна статистика 1

Глава 3

Нормално разпределение в Rn

Тази лекция съдържа факти от теория на вероятностите, необходими за строготообосноваване на многомерните статистически процедури. Резултатите ще бъдат из-ложени тук като следствия от свойствата на нормалното разпределение.

Сведенията от тази лекция могат да бъдат намерени без особени затруднения въввсяка книга по математическа статистика или теория на вероятностите.

3.1 Нормално РазпределениеОпределение 3.1 Плътността на стандартното нормално разпределение в Rn

има вида:

ϕ(x) =1

(2π)n/2e−x′x/2, (3.1)

От определението се вижда, че тази плътностзависи само от ‖x‖2 = x′x =

∑ni=1 x2

i . и, следо-вателно,

Фиг. 3.1: N(0,I) в R2

• е инвариантна относно всякакви ортогонални трансформации — те запазватнормата и имат якобиян равен на 1;

• тя може да се представи като произведение на n едномерни стандартни нор-мални плътности:

ϕ(x) =n∏

i=1

1

2πe−x2

i /2.

До края на тази лекция ще предполагаме, че случайната величина ξ има стан-дартно нормално разпределение в Rn.

23

Page 24: Записки по приложна статистика 1

24 Глава 3. Нормално разпределение в RN

Плътността на многомерното нормално разпределение от по - общ вид N(m, C) вRn има вида:

φ(x, m,C) =1

(2π)n2 (det(C))

12

e−(x−m)′C−1(x−m)/2, (3.2)

6

-0 1 2 3 4 5 6

1

2

3

където x ∈ Rn, m ∈ Rn е средната стойност,а C – ковариационната матрица.На фиг.3.2 е показана линия на постоянно нивона двумерна гаусова плътност (x − m)′C−1(x −m) = const – тя е елипса.

Фиг. 3.2: Линия на нивоИ тук както в едномерния случай имаме връзка между параметрите на закона и

моментите на сл.в.

Теорема 3.1 Ако η ∈ N(m,C), то

Eη = m, E(η −m)(η −m)′ = C.

Теоремата може да се докаже с проста смяна на променливите или като следствиена следната по - обща теорема.

Теорема 3.2 Случайната величина η = Tξ + a, където T е неизроден линеен опе-ратор от Rn в Rk(n ≥ k), има разпределение N(a, TT ′) в Rk.

От тази теорема следва, че

• всички маргинални разпределения (или проекции в произволна размерност) санормални.

• произволна линейна функция от (зависими или независисми) нормални сл.в. енормална сл.в.;

• условните разпределения (при линейни ограничения от типа на равенството)са гаусови.

Доказателство: Ще разгледаме само случая η = Tξ. В случая операторът T сепредставя просто като матрица с k ≤ n реда и n колони и трябва да притежавапълен ранг k. Това означава, че нейните редове са линейно независими вектори вRn. Нека означим с S подпространството от линейните им комбинации. То очевидноима размерност k. Нека допълним редовете на T с m = n− k ортогонални помеждуси и на S единични вектори и означим така получената матрица с T .

T =

∥∥∥∥ TE

∥∥∥∥ =

∥∥∥∥∥∥∥∥∥∥∥∥∥∥

t11 t12 . . . t1n

t21 t22 . . . t2n

. . . . . . . . . . . .tk1 tk2 . . . tkn

e11 e12 . . . e1n

. . . . . . . . . . . .em1 em2 . . . emn

∥∥∥∥∥∥∥∥∥∥∥∥∥∥.

Page 25: Записки по приложна статистика 1

3.2. χ2 разпределение 25

Имаме TE ′ = ET ′ = 0 и EE ′ = I в Rk.Тогава по формулата за смяна на променливите η = T ξ ще има разпределение с

плътност:f(x) =

1

(2π)n/2det(T )e−

12x′(T T ′)−1x.

Но det(T ) = det(T ) и матрицата T T ′ е блочно диагонална:

T T ′ =

∥∥∥∥ TT ′ TE ′

ET ′ EE ′

∥∥∥∥ =

∥∥∥∥ TT ′ 00 I

∥∥∥∥ .

Такава е и нейната обратна.Следователно, разпределението се разпада в произведение на две плътности:

f(x) = f1(x1)f2(x2) =1

(2π)k2 det(T )

e−12x′1(TT ′)−1x1

1

(2π)n−k

2

e−12x′2x2 .

Тук разлагането x = {x1, x2}(= x1 + x2) представя вектора в неговите проекции(координати) в подпространството S и неговото ортогонално допълнение. От туклесно следва твърдението на теоремата. �

3.2 χ2 разпределение

Определение 3.2 Случайната величина χ2n = ξ′ξ има разпределение χ2(n) с n сте-

пени на свобода и плътност:

0.00

0.05

0.10

0.15

0.20

0.0 2.0 4.0 6.0 8.0 10.0 12.0 14.0

n = 4

��

n = 6n = 8

f(x, n) = C(n)xn/2−1e−x2 .

Тук C(n) = (12)n/2/Γ(n

2) е нормираща константа.

Фиг. 3.3: χ2

Веднага се вижда, че това е Гама-разпределение Γ(n2, 1

2) и изводът на тази фор-

мула може да се направи по индукция от n = 1 и възпроизводящите свойства наГама-разпределението: Γ(a, λ) + Γ(b, λ) = Γ(a + b, λ).

Средната стойност на χ2n = ξ′ξ е очевидно n, а дисперсията лесно се пресмята и е

равна на 2n. От следната проста лема непосредствено се вижда, че разпределениетоχ2

n = ξ′ξ не може да се получи от друга квадратична форма на n гаусови сл.в., освентривиалната.

Лема 3.1 Нека ξi, i = 1, ..., n са независими сл.в. с еднаква дисперсия и λi, i = 1, ..., nса такива, че

∑ni=1 λi = 1. Тогава сл.в. η =

∑ni=1 λiξi има минимална дисперсия,

когато λi = 1/n, i = 1, 2, ..., n.

Page 26: Записки по приложна статистика 1

26 Глава 3. Нормално разпределение в RN

Доказателство: Да предположим, че D(ξi) = 1. Тогава D(η) =∑n

i=1 λ2i . В сила е

обаче неравенството:

(n∑

i=1

λi)2 ≤ n

n∑i=1

λ2i .

При това, равенство се достига тогава и само тогава, когато λi = C. �

Лема 3.2 Ако дадена квадратична форма Q има ранг q и сл.в. ξ′Qξ има разпреде-ление е χ2

q, то Q е проектор.

Доказателство: Да напомним, че проекторите са неотрицателно - определени опе-ратори (т.е. са самоспрегнати P ′ = P ), а освен това са и идемпотенти (P 2 = P ). Товазначи, че собствените им числа могат да бъдат само 0 или 1. Естествено, броят наненулевите собствени числа е равен на ранга.

За доказателството е достатъчно да сравним дисперсиите на двете разпределенияи да се възползуваме от лема 3.1. Ние обаче ще го изведем директно — така щепресметнем и дисперсията на χ2

q разпределение.Действително, Q е неотрицателно определена и значи може да се представи като

Q = UDU ′, където U е ортогонална матрица, а D - диагонална. Тогава сл.в. ξ′Qξ иξ′Dξ имат едно и също χ2(q) разпределение.

D (ξ′Dξ) = E [(n∑

i=1

di(ξ2 − 1))2] = 2

∑d2

i ≥ 2n.

Тъй като tr(Q) =∑n

i=1 di = n = tr(I), последното неравенство става равенство самокогато di = 1,i = 1, 2, ..., n. �

3.3 Теорема на Кокрън

Теорема 3.3 Теорема на Кокрън. Нека Q,R, S са неотрицателно определениматрици с рангове q, r, s съответно, Q = R + S и случайната величина ξ′Qξ имаразпределение χ2(q). Случайните величини ξ′Rξ и ξ′Sξ са независими и имат разп-ределения χ2(r) и χ2(s) тогава и само тогава, когато q = r + s.

Доказателство: Първо да отбележим, че съгласно лема 3.2 матрицата Q е проектори можем да се ограничим в пространство с размерност q, когато Q = I.

Достатъчност. Имаме: I = R + S = U(DR + DS)U ′. Следователно, I = DR + DS.Ако q = r + s, то DR и DS имат съотвения брой ненулеви елементи, значи R и Sса проектори и RS = SR = 0. За доказателството на независимостта използувамеравенството: ‖Qx‖2 = ‖x‖2 = ‖Rx‖2 + ‖Sx‖2 за всяко x и x′R′Rx = ‖Rx‖2 = x′Rx.Остава да приложим теорема 3.2 за операторите R и S и определението на Хи-квадрат разпределение.

Необходимост. Равенството q = r + s следва директно от лема 3.2. �

Page 27: Записки по приложна статистика 1

3.4. Примери 27

3.4 ПримериПример 3.1 Независимост на x = 1/n

∑xi и S2 =

∑(xi − x)2

Доказателство: Наистина, това е частен случай от теоремата на Кокрън

ξ′ξ = ξ′Bξ + ξ′(I −B)ξ = nξ2 + S2, B =

∥∥∥∥∥∥∥∥1/n 1/n . . . 1/n1/n 1/n . . . 1/n. . . . . . . . . . . .1/n 1/n . . . 1/n

∥∥∥∥∥∥∥∥ .

Но тогава и съответните квадратични форми са породени от ортогонални проектори.Т.е. Bξy(I −B)ξ. �

Пример 3.2 Условно математическо очакване и коефициент на корелация.

Нека случайната величина ξ ∈ R2 и има разпределение N(m, S). Тогава условнотоматематическо очакване и коефициентът на корелация се получават по формулите:

E (ξ2‖ξ1) = aξ1 + b, r(ξ1, ξ2) = a/S22,

където b = m2 − am1, a = S12(S22/S11)1/2. С Sij сме означили елементите на ковари-

ационната матрица на двумерната сл.в. ξ. В частност S22 = σ2(ξ2).Проверете тези формули.

Page 28: Записки по приложна статистика 1

Глава 4

Математическата статистика

В тази лекция ще се спрем само на модели за проста независима извадка, когатонаблюденията се интерпретират като независими сл.в. с еднакво разпределение. Встатистиката обикновено се предполага, че това разпределение е неизвестно.

Когато разпределението е неизвестно с точност до определянето на някои пара-метри, методите на статистиката се наричат параметрични. В противен случай теса непараметрични. Ще си поставим следните цели:

• да дадем идея за статистическите изводи и хипотези;

• да поставим задачите на точковото оценяване;

• да уеднаквим понятията си за доверителен интервал и проверка на статисти-ческа хипотеза;

• да напомним някои стари и дадем някои нови примери.

4.1 Статистически изводи и хипотези

Статистическите изводи са заключения за различни свойства на генералната съв-купност направени въз основа на наблюденията и различни предположения за гене-ралната съвкупност. Така ако предположенията са верни, нашите твърдения ставатфункции на извадката, т.е. придобиват случаен характер — стават сл. в. Тъй катотвърденията приемат две ”стойности” — истина и неистина, задачата всъщност е данамерим вероятността едно заключение да бъде верно.

Най-популярната и коректна форма за построяване на статистически извод е ста-тистическата хипотеза. Много често имаме основания да предположим за неизвест-ното разпределение на генералната съвкупност, че то притежава плътност f(x).

4.1.1 Лема на Нейман-Пирсън

За основен инструмент ни служи следната знаменита лема.

28

Page 29: Записки по приложна статистика 1

4.1. Изводи и хипотези 29

Лема 4.1 Нека са дадени две плътности f0(x), f1(x). Тогава решението на разпре-делителната задача:

supW

∫W

f1(x)dx при фиксирано α =

∫W

f0(x)dx

се дава от условието W = {x : f1(x) ≥ cf0(x)} при подходящо подбрано c.

'&

$%

'&

$%

A

C

B

Доказателство: Нека W = {x : f1(x) ≥ cf0(x)}и α =

∫W

f0(x)dx. Нека W ′ е такова, че α =∫W ′ f0(x)dx.

A = W \W ′, B = W ′ \W , C = WW ′

Да разгледаме разликата:Фиг. 4.1: Нейман-Пирсън∫

W

f1(x)dx−∫

W ′f1(x)dx =

∫A

f1(x)dx−∫

Bf1(x)dx ≥∫

A

cf0(x)dx−∫

B

cf0(x)dx = c(∫

Wf0(x)dx−

∫W ′ f0(x)dx) = 0.�

4.1.2 Критерий за проверка на хипотеза

Лемата на Нейман - Пирсън се използува по следния начин. Искаме да проверимхипотезата H0, че наблюдението има плътност f0(x) срещу контра хипотезата илиалтернативата H1, че то има плътност f1(x). Решението, което ще вземем съответное, че хипотезата ни H0 е вярна или не. Тъй като взимаме решението въз основа нанаблюдение, то областтта, в която попада при отхвърляне на хипотезата наричамекритична и означаваме с W .

Естествено си задаваме критичното ниво α =∫

Wf0(x)dx, което всъщност пред-

ставлява вероятността да отхвърлим вярна хипотеза, като малко число – например0.05.

-�-3 -2 -1 0 1 2 3

f0(x) f1(x)

Числото α наричаме грешка от първи род, а чис-лото 1 − α - ниво на доверие. На фиг. 4.2 защ-рихованата площ под кривата е равна на α. Тукалтернативата f1 е отдясно на основното раз-пределение и критичната област е съответно вдясната част на основното разпределение f0. Ес-тествено, ако f1 беше отляво, критичната областщеше да бъде на ляво.

Фиг. 4.2: Едностранен критерийВъзможна е и обратната грешка β– грешка от втори род – да приемем хипотезата,

когато тя не е вярна. Естествено е нашето желание да търсим критичната си областтака, че запазвайки α д а минимизираме β. Лемата на Нейман - Пирсън ни давасредство лесно да строим оптимални критични области. Тя може да се използува иза произволни функции от наблюденията.

Page 30: Записки по приложна статистика 1

30 Глава 4. Математическата статистика

Числото 1− β се нарича мощност на критерия (критичната област) и е различноза всяка конкретна алтернатива.

6

-�-3 -2 -1 1 2 3

.05

.1

.15

Когато алтернативата е със значително по - го-ляма дисперсия, съгласно лемата на Нейман -Пирсън ще получим двустранна критична об-ласт. Същата област ще се получи и, когато ”ня-маме алтернатива”.

Фиг. 4.3: Двустранен критерий

Пример 4.1 Нека H0 : ξ ∈ N(0, 1), а H1 : ξ ∈ N(1, 1). Нека сме направили n наблю-дения. Намерете оптималната критична област.

Решение. Векторното наблюдение x ще има за плътности и при двете хипотезимногомерната нормална плътност с единична ковариационна матрица, но различнисредни стойности. От лемата 4.1 следва, че оптималната критична област има вида:∑

(xi − 0)2 + c ≥∑

(xi − 1)2

x =1

n

∑xi ≥ c.

Определяме константата c от уравнението 1 − α = Φ(c√

n). До същия извод щяхмеда стигнем ако бяхме използували направо статистиката средна стойност и нейноторазпределение. �

Пример 4.2 Нека H0 : ξ ∈ N(0, 1), а H1 : ξ ∈ N(0, σ2). Нека сме направили nнаблюдения.

Намерете оптималния критерий за всяка от алтернативите: σ > 1, σ < 1.

4.1.3 Равномерно най-мощен критерий

Когато нямаме възможност да изберем разумна проста алтернатива построяванетона критерий (критична област) с максимална мощност е затруднително. В някоислучаи, обаче, това става лесно. В пример 4.1 се вижда, че за всички алтернативи(със средна стойност по - висока от 0) решението ще бъде същото.

Определение 4.1 Казваме, че критерият е равномерно най-мощен за дадено мно-жество алтернативи, ако той е оптимален за всяка алтернатива поотделно.

Така на фигура 4.2 е показан критерий, който е равномерно най - мощен за всички”десни” алтернативи.

Пример 4.3 Нека H0 : ξ ∈ N(0, 1), а H1 : ξ ∈ N(θ, 1), θ - неизвестен параметърс произволен знак. Нека сме направили n наблюдения. Не съществува равномернонай - мощен критерий за това множество алтернативи.

Докажете го.

Page 31: Записки по приложна статистика 1

4.2. Доверителни интервали 31

4.2 Доверителни области и интервали

От горните примери се вижда, че в крайна сметка и двата разгледани критерия сеизразяват чрез функции от наблюденията на извадката — прието е всички такивафункции да се наричат статистики. Много често имаме основания да предположимза неизвестното разпределение на генералната съвкупност, че то притежава плътностf(x, θ), зависеща от неизвестен параметър θ. Такава форма на представяне на нашитеаприорни познания ще наричаме параметрична.

Тогава възниква необходимостта да направим статистически изводи за този па-раметър. Едно естествено заключение за числов параметър би било твърдение запринадлежността на неизвестния параметър към някоя област или интервал. Нари-чаме такава област доверителна, а вероятността на твърдението – ниво на доверие.

Тъй като областта е функция на наблюденията, тя става случайна. Ясно е, чеколкото по - широка е тя, толкова по - вероятно е да покрие неизвестния параметър,т.е. нашето твърдение за него да се окаже вярно.

Естествено би било да поискаме и тук някаква оптималност — например, областтада има минимален обем при фиксирано ниво на доверие. Когато говорим за едноме-рен параметър, се интересуваме от доверителни интервали с минимална дължина.

В такава постановка задачата много прилича на лемата на Нейман - Пирсън.Първоначално ще построим доверителна област за наблюдението, така че тя да имаминимален обем. В последствие (при подходящи условия) тя ще се превърне в дове-рителна област за параметъра.

Лема 4.2 Нека е дадена плътността f(x). Тогава решението на разпределителна-та задача:

infU

∫U

dx при фиксирано α =

∫U

f(x)dx

се дава от условието U = {x : f(x) ≥ c} при подходящо подбрано c.

Доказателство: Абсолютно същото като на оригиналната лема.�

6

-�-3 -2 -1 1 2 3

.05

.1

.15

Нека сега решаваме задачата в случая, когатоf(x, θ) = f(x−θ) — т.е. разпределението е извес-тно с точност до неизвестен параметър на лока-ция.От лемата следва, че в едномерния случай,когато имаме унимодално разпределение, тряб-ва да построим доверителния интервал така, чеплътността да бъде равна в двата края.

Фиг. 4.4: Доверителен интервалОбикновено това е достатъчно за проверка на оптималността (минималната дъл-

жина) на така построения доверителен интервал.

Пример 4.4 Нека ξ ∈ N(θ, 1). Нека сме направили n наблюдения. Намерете опти-мална доверителна област за θ.

Page 32: Записки по приложна статистика 1

32 Глава 4. Математическата статистика

Решение 1. Векторното наблюдение x ще има за плътности многомерната нор-мална плътност cne

− 12‖x−θe‖2 . От лемата 4.2 следва, че оптималната доверителна об-

ласт за x има вида:n∑

i=1

(xi − θ)2 ≤ c.

Тъй като статистиката∑n

i=1(xi − θ)2 има Хи-квадрат разпределение с n степени насвобода, определяме константата от уравнението 1 − α = χn(c). Но при зададенинаблюдения това е твърдение за θ. �

Сега нека разгледаме внимателно това решение. Имаме равенството:

n∑i=1

(xi − θ)2 =n∑

i=1

(xi − x)2 + n(x− θ)2.

Така нашата доверителна област зависи главно от статистиката x и всъщност е си-метричен около x интервал относно θ.

4.3 Статистики

Така във всички разгледани до сега примери ние стигнахме до изучаването на статис-тики, които са свързани с определени параметри на разпределението в генералнатасъвкупност. Като сл.в. те притежават разпределение и при правилни предположениямогат да се смятат някои характеристики на тези разпределения. Тъй като в момен-та говорим за неизвестни параметри, естествено е да наречем статистиките оценки .За да избегнем безмислената оценка θ, ще разглеждаме като оценки на неизвестнияпараметър само такива функции на наблюденията, в аналитичния израз на които неучаствува този неизвестен параметър.

Ще се върнем отново към пример 4.4.Решение 2. Статистиката x има разпределение N(θ, 1

n). Доверителна област за

x може да бъде‖x− θ‖ < z/n1/2

Тук z се определя от уравнението Φ(x) − Φ(−x) = 1 − α и се нарича двустраненквантил на нормалното разпределение за критично ниво α. Така построения дове-рителен интервал удовлетворява равенството: φ(x) = φ(−x), което следва от лема4.2 и е с минимална дължина. �

Двете решения, които предложихме, са очевидно различни. Кое от тях е по -добро и как да търсим възможно най - добрите оценки и строим най - правдопо-добни твърдения ни учи т.н. теория на оценяване на параметри, която е разгледанаподробно в лекциите по статистика.

Да разгледаме още един пример.

Пример 4.5 Оценка на радиоактивността. Нека ξ е експоненциално разпределена.Нека сме направили n наблюдения. Намерете горна доверителна граница за неиз-вестния параметър λ с ниво на доверие γ.

Page 33: Записки по приложна статистика 1

4.4. Асимптотика 33

Решение. Да разгледаме статистиката T =∑n

i=1 ξi. Тя има т.н. разпределение наЕрланг:

f(x) =λnxne−λx

(n− 1)!, (4.1)

което е частен случай на Гама разпределението. Следователно, статистиката 2λT щеима χ2 разпределение с 2n степени на свобода. Значи

γ = P(2λT < qγ) = P(λ <qγ

2T).

4.4 Асимптотика

Много от статистиките представляват суми от прости функции на наблюденията -такива са, например, извадъчните моменти. Тогава по ЦГТ те имат асимптотичнонормално разпределение. За да използуваме това разпределение е достатъчно дапознаваме само два параметъра м.о. и стандартно отклонение.

В случая, когато статистиката се разглежда като оценка на неизвестен параметърна генералната съвкупност, обикновено тя се подбира така, че да е неизместена:

E θ(ξ) = θ

От друга страна за много от статистиките сме в състояние да оценим дисперсията.За това могат да се използуват както теоретични, така и извадъчни методи.

Значи при достатъчен брой наблюдения ние лесно можем да строим доверителниинтервали и проверяваме хипотези с използуване на тази асимптотика.

Пример 4.6 Проверете хипотезата за равенство на 0 на асиметрията и ексцесас използуване на данните от следната таблица произведена от STATISTICA.

Descriptive Statistics (drug.sta) Variable: BEFOREStd.Err. Std.Err.

Skewness Skewness Kurtosis Kurtosis-,137807 ,241380 -1,15289 ,478331

Решение:За асиметрията:x = .137807/, 241380 = 0.5709, Φ(x)− Φ(−x) = 0.4319.Не можем да отхвърлим хипотезата.За ексцеса:x = 1, 15289/, 478331 = 2.4102, Φ(x)− Φ(−x) = 0.9841.Можем да отхвърлим хипотезата с вероятност за грешка 0.02.

Пример 4.7 Постройте двустранни асимптотични 95 процентни доверителниинтервали за асиметрията и ексцеса по същите данни.

Page 34: Записки по приложна статистика 1

34 Глава 4. Математическата статистика

Решение:Тъй като 95 процентния двустранен квантил на стандартното нормално разпределе-ние е z = 1.96, получаваме:За асиметрията:

As ∈ (−.137807− 1.96 ∗ 0.241380,−.137807 + 1.96 ∗ 0.241380)

-0.6109 <As<0.3353 .

Съдържа 0 и не можем да отхвърлим хипотезата с вероятност за грешка 0.05.За ексцеса:

Ex ∈ (−1.15289− 1.96 ∗ 0.478331,−1.15289 + 1.96 ∗ 0.478331)

-2.0904 <Ex<-0.2154

Не съдържа 0 и можем да отхвърлим хипотезата с вероятност за грешка 0.05.

Page 35: Записки по приложна статистика 1

Глава 5

Тестове на Стюдент и Фишер

Тук ще дадем рецептите на няколко най-популярни статистически извода, базиранина разпределенията свързани с нормалното. Ще разгледаме определени статистики,доверителни интервали за неизвестните параметри и хипотези свързани с тях

5.1 Доверителен интервал за дисперсияЩе започнем с дисперсията.

Пример 5.1 Нека ξ ∈ N(µ, σ2). Нека сме направили n наблюдения. Намерете оп-тимална доверителна област за σ2.

Решение:Статистиката S2 =

∑ni=1(xi − µ)2 има разпределение σ2χ2

n.От лемата следва, че до-верителна област с минимална дължина за S2 се дава от равенството:

P(ql ≤S2

σ2≤ qu) = 1− α.

Тук квантилите на χ2-разпределението ql, qu се определят от уравненията

F (ql) + 1− F (qu) = α, f(ql) = f(qu),

където F и f са съответно функцията на разпределение и плътността на χ2-разпределениес n степени на свобода.

S2

qu

≤ σ2 ≤ S2

ql

. (5.1)

Когато м.о. µ е неизвестно, се използува статистиката:

S2(x) =n∑

i=1

(xi − x)2, (5.2)

която не зависи от µ и има разпределение σ2χ2n−1. Останалото е същото.

Да отбележим, че на практика така определения интервал (с минимална дължи-на) се използува рядко. По-често се приравняват вероятностите на двете опашки:F (ql) = 1− F (qu) = α/2. Така квантилите се вземат направо от таблицата B.1.

Така, ако си зададем ниво на доверие .95 и броят на нашите наблюдения е 15, щеизползуваме числата ql = 5.63 и qu = 26.12 от реда за 14 степени на свобода.

35

Page 36: Записки по приложна статистика 1

36 Глава 5. Тестове на Стюдент и Фишер

5.2 Разпределение на Фишер

Определение 5.1 Разпределение на Фишер - Снедекор с r и s степени на свободаима частното:

0.0

0.2

0.4

0.6

0.8

0.0 1.0 2.0 3.0 4.0

r = 5, s = 9

������

r =10, s = 6fr,s =

χ2r/r

χ2s/s

,

където χ2r, χ

2s са независими сл.в. с χ2 разпреде-

ление.

Фиг. 5.1: ФишерРазпределението на Фишер Fr,s има плътност:

C(r, s)xr/2−1(1 + rx/s)−(r+s)/2, x > 0,

където C(r, s) е нормираща константа.Докажете го като използувате връзката между Гама, Бета и F - разпределение:

b(2a, 2b) = χ2a

χ2a+χ2

b.

5.2.1 Критерий на Фишер за независими извадки

Нека проверим хипотезата за равенство на дисперсии на две различни генералнисъвкупности (г.с.) с нормално разпределение на основата на независими извадки оттях с размери n1 и n2 съответно. Ще предположим, че средните на двете г.с. санеизвестни. Да образуваме статистиките:

S2(x) =

n1∑i=1

(xi − x)2, S2(y) =

n2∑i=1

(yi − y)2. (5.3)

Съгласно теоремата на Кокрън всяка от тези статистики има Хи-квадрат разпре-деление, умножено със съответната σ2. При това те са независими.Ако за нулеваизберем хипотезата: H0 : σ(x) = σ(y), то съгласно определение 5.1 частното:

f =S2(x)/(n1 − 1)

S2(y)/(n2 − 1)=

s2(x)

s2(y)

ще има разпределение на Фишер с (n1−1) и (n2−1) степени на свобода съответно.Такас използуването на тази статистика можем да проверяваме нулевата хипотеза срещуразлични алтернативи:

• За алтернативите H1 : σ(x) > σ(y) (или H1 : σ(x) < σ(y)) критерият ще бъдеравномерно най - мощен. Критичната област е W = {f > z}; F (z) = 1− α.

Page 37: Записки по приложна статистика 1

5.3. Стюдент 37

• За алтернативата H1 : σ(x) 6= σ(y) не съществува равномерно най - мощенкритерий. На практика се използува следната процедура. Извадката с по-малкаизвадъчна дисперсия s2 се означава с y. Критичната област отново е W = {f >z}; F (z) = 1−α. Така става възможно използуването на таблици за квантилитесамо от горната половина на F разпределението.

Можем да обобщим теста на Фишер и със помощта на следното твърдение, коетое директно следствие от теоремата на Кокрън

Теорема 5.1 Нека P, Q са два проектора в Rn такива, че PQ = QP = 0 и ξ естандартна нормална в Rn. Тогава частното f = (ξ′Qξ)/(ξ′Pξ) има разпределениена Фишер с dim(Q) и dim(P ) степени на свобода.

Като следствие от тази теорема получаваме

Теорема 5.2 Нека P, Q са два проектора (матрици) в Rn такива, че PQ = QP = Pи P 6= Q и ξ е стандартна нормална в Rn. Тогава частното f = (ξ′(Q−P )ξ)/(ξ′Pξ)има разпределение на Фишер с dim(Q)− dim(P ) и dim(P ) степени на свобода.

5.3 Разпределение на СтюдентОпределение 5.2 Разпределение на Стюдент T (n) с n степени на свобода имачастното:

0.0

0.1

0.2

0.3

0.4

-6.0 -4.0 -2.0 0.0 2.0 4.0 6.0

T, n = 3N(0,1)

tn =ξ

(χ2n/n)1/2

,

където ξ, χ2s са независими сл.в. с N(0, 1) и χ2(n)

разпределение с n степени на свобода съответно.Плътността е

Cn(1 + x2/n)−(n+1)/2.

Фиг. 5.2: СтюдентДокажете го чрез връзката между T и F разпределения: (tn)2 = f1,n.От закона за

големите числа следва, че граничното разпределение на tn при n →∞ е N(0, 1).

5.3.1 Доверителен интервал за м.о. µ

Нека ξ ∈ N(µ, σ2). Нека сме направили n наблюдения. Да намерим оптимална дове-рителна област за µ. Тук втория параметър σ се смята за неизвестен.

Статистикатаt = n1/2(x− µ)/s (5.4)

има T -разпределение с (n− 1) степени на свобода и това разпределение не зависи отσ. Тук s2(x) = S2(x)/(n− 1).

Page 38: Записки по приложна статистика 1

38 Глава 5. Тестове на Стюдент и Фишер

От лемата на Нейман-Пирсън следва, че оптималната доверителна област за x е

{‖x− µ‖ < zs/n1/2}.

Тук z се определя от уравнението F (z) − F (−z) = 1 − α и се нарича двустраненквантил на T -разпределение с n − 1 степени на свобода за критично ниво α. Такапостроения доверителен интервал е с минимална дължина.

5.3.2 Критерий на Стюдент

Нека пак предположим, че наблюденията са от N(µ, σ2). Статистиката t ще има Tразпределение независимо от σ. Ако за нулева изберем хипотезата: H0 : µ = 0, то товани дава възможност да проверяваме нулевата хипотеза срещу различни алтернативи:

• За алтернативата H1 : µ > 0 (или H1 : µ < 0) критерият ще бъде равномернонай - мощен. Критичната област е W = {t > z}; F (z) = 1− α.

• За алтернативата H1 : µ 6= 0 не съществува равномерно най - мощен критерий.Критичната област е W = {‖t‖ > z}; F (z) = 1− α/2.

При голям брой на наблюденията (n > 100) разпределението на Стюдент клоникъм стандартно нормално, така че се упростява пресмятането на квантила.

5.3.3 Критерий на Стюдент за независими извадки

Нека са ни дадени независими извадки x1, x2, . . . , xn и y1, y2, . . . , ym от независиминаблюдения, съответно, на ξ1 ∈ N(µ1, σ1) и ξ2 ∈ N(µ2, σ2). Задачата е по тези наб-людения да проверим хипотезата, че двете генерални съвкупности съвпадат. T.e.µ1 = µ2 и σ1 = σ2. Решението правим в две стъпки:

А. Равенство на дисперсиите

1. От начало се прилага теста на Фишер за проверка на равенството на дветедисперсии (виж.5.2.1). Разпределението на Фишер не зависи от стойностите нанеизвестните м.о. на двете популации.

2. При отхвърляне на нулевата хипотеза H0 : σ1 = σ2 задачата е решена - дветепопулации се приемат за различни.

3. Ако обаче нямаме основания да я отхвърлим, преминаваме към проверката заравенство на м.о.

Б. Равенство на математическите очакванияДа разгледаме хипотезата H0 : µ1 = µ2 срещу алтернативата H0 : µ1 6= µ2 приусловие, че σ1 = σ2 = σ. Да разгледаме обединената оценка на дисперсията σ2:

s2 =1

n + m− 2(S2(x) + S2(y)) (5.5)

Page 39: Записки по приложна статистика 1

5.3. Стюдент 39

Тя е неизместена и разпределението на (n+m− 2)s2/σ2 е очевидно χ2n+m−2.От друга

страна сл.в.

x− y ∈ N(µ1 − µ2, σ2(

1

n+

1

m)).

Двете сл.в. са независими и, следователно, при изпълнена H0 : µ1 = µ2 статисти-ката:

t = (nm

n + m)1/2 x− y

s(5.6)

ще има разпределение Tn+m−2. Това ни дава възможност, както и по-горе да си про-веряваме нулевата хипотеза при различни алтернативи.

Така на втората стъпка окончателно ще можем да отговорим за равенството надвете популации.

Със същия критерий може да се проверява и равенство само на м.о. на две г.с.Но формулите за пресмятане на съответната статистика се различават, когато неприемаме за равни дисперсиите им.

Page 40: Записки по приложна статистика 1

Глава 6

χ2 и честотни таблици

В много случаи данните се сумират в така наречените честотни таблици. Нека завсеки обект (наблюдение) си отбелязваме проявата на някакви признаци. Ако приз-наците са два можем да сумираме наблюденията си в таблица. Когато човек отвориедин статистически годишник, този начин за представяне на обекти е първото с коетоще се запознае. Критерият χ2, всъщност е съвкупност от статистически процедуриосновани на свойствата на χ2 разпределението. В тази лекция ще се запознаем сдвата най-популярни в практиката χ2-критерии

• за съгласуваност на разпределения;

• за проверка на независимостта в честотни таблици.

6.1 Съгласуваност на разпределения

В много случаи данните са представени във вид на хистограма или са групиранив определени категории – така, например, те се дават в статистическия годишникна Република България. За да можем и за такива данни да проверяваме съгласие сдадено теоретично разпределение се използува т.н. χ2-критерий.

Нека ни е зададена някаква теоретична плът-ност p(x) и имаме за задача да проверим съг-ласуваността й с извадката. Нека разполагаме сn наблюдения. Разделяме множеството от стой-ности на сл.в. (или носителя на плътността) наk интервала Hi, така че pi =

∫Hi

p(x)dx > 0 иnpi > 5.

Фиг. 6.1:Това изискване е важно. Понякога се налага някои интервали да се обединяват за

да може то да се удовлетвори. Съществува и вариант, когато интервалите се избиратрaвновероятни, т.е. pi = pj. Нека означим с ni броя на наблюденията попаднали в Hi.

40

Page 41: Записки по приложна статистика 1

6.2. Двумерни честотни таблици 41

Пресмятаме статистиката

h =k∑

i=1

(npi − ni)2

npi

. (6.1)

Теорема 6.1 (Пирсън) Статистиката h има асимптотично (при n → ∞) разп-ределение χ2 с k − 1 степени на свобода.

Доказателство: Строгото доказателство е твърде трудоемко. Затова тук ще пока-жем само идеята. Всяко от събираемите в (6.1) представлява квадрата на центриранаасимптотично нормална сл.в. Действително, npi = Eni. За съжаление, тези величи-ни са зависими –

∑ni = n. Оказва се, че условното разпределение на случаен гаусов

вектор ξ ∈ N(0, I) в Rn при условие (ξ, 1) = 0 е същото като асимптотичното съв-местно разпределение на сл.в. ni, съответно центрирани и нормирани. �

Същият критерий може с успех да се използува и при сравняването на две неза-висими извадки.

6.2 Двумерни честотни таблициАнализът на честотните таблици е една от най-популярните процедури в анализаданни. Най доброто в тази област е представено в книгата (Agresti 1990). В тозислучай има няколко статистики, за които могат да се пресмятат точни разпределенияпри изпълнена хипотеза за независимост на двата признака. Най-популярна, обаче е

6.2.1 χ2-статистика

Нека ни е зададена двумерна честотна таблица ni,j. За всяка клетка (i, j) предпо-лагаме, че обектът попада в нея с вероятност pi,j. Тъй като имаме всичко n обекта,получаваме че разпределението на всяко от сл.в. ni,j е биномно, но те са зависими.

Да си формулираме задачата в термини на проверка на статистическата хипотеза:

H0 : двата наблюдавани признака са независими

срещу алтернативата:H1 : признаците са зависими.

Прието е проверката на такава хипотеза да се прави с χ2-статистика.Ако признаците бяха независими, би трябвало вероятност pi,j да е произведение

от двете маргинални вероятности: p′i = (∑

k pi,k) и p′′j = (∑

k pk,j).Следователно, χ2-разстоянието между актуално наблюдаваните честоти ni,j/n и

”теоретичните” вероятности p′i.p′′j би трябвало да отразява отклонението от незави-

симост.Така получаваме две извадъчни разпределения. За проверка на съгласуваността

между тях можем да използуваме това разстояние.

Определение 6.1 Нека първият признак има k, а вторият – m категории. χ2-статистиката се определя така:

Page 42: Записки по приложна статистика 1

42 Глава 6. χ2 и честотни таблици

h =k∑

i=1

m∑j=1

(np′ip′′j − ni,j)

2

np′ip′′j

=k∑

i=1

m∑j=1

(n′in′′j /n− ni,j)

2

n′in′′j /n

. (6.2)

Тук сме означили: n′i = (∑

j ni,j) и n′′j = (∑

i ni,j).

0.00

0.05

0.10

0.15

0.20

0.0 2.0 4.0 6.0 8.0 10.0 12.0 14.0

n = 4

��

n = 6n = 8

При изпълнена хипотеза H0, тя има асимпто-тично (при голямо n) разпределение χ2 с (k −1)(m − 1) степени на свобода. Когато хипотеза-та е нарушена би трябвало нейните стойности данарастнат. Така критерият е с дясна критичнаобласт.

Фиг. 6.2: χ2

0

1

0 1 2 3 4 5

EE

В частния случай с таблица 2х2, получаваме χ2

с 1 степен на свобода.

Фиг. 6.3: χ21

6.2.2 The Case of Luddersby Hall

Ще илюстрираме концепцията със следния пример.

Пример 6.1 Един ден студентите от едно общежитие в Англия масово започна-ли да повръщат. Медицинските анализи на фекалиите им показали у много от тяхналичието на бактерии салмонела. Възникнало подозрение за яденето от предна-та вечеря. Сумарните данни на всичките 104 студента били записани в следнататаблица.

Свинско Зелен фасул Торта с лимонПовръща 39 33 63Носител 14 4 17Здрави 9 5 7

Смисълът й е следният. Всеки студент може да попадне в само един ред: повръ-ща, носител – не повръща, но има бактерии, и здрав – нито е повръщал, нито имабактерии. По стълбове ситуацията е по-сложна. Всеки студент е ял или Свинско илиЗелен фасул, но повечето са хапнали и десерт. Пита се, можем ли по тези данни даоткрием причината за инфекцията.

Ще разделим задачата на следните подзадачи, като разгледаме поотделно тритевъзможни блюда:

1. свинско,2. зелен фасул,3. десерт.За всяко от тях ние можем да извлечем от горната таблица под-таблица, в ко-

ято да запишем информацията за 4-те различни категории студенти {ял, не ял} ×

Page 43: Записки по приложна статистика 1

6.3. Логлинейни модели 43

{болен, здрав}. За болни ще смятаме студентите, които повръщат и тези които иматбактерии.Така получаваме следните три под-таблички:

СвинскоЯл Не ял Всичко

болни 53 37 90здрави 9 5 14Всичко 62 42 104

ФасулЯл Не ял Всичко

болни 37 53 90здрави 5 9 14Всичко 42 62 104

ТортаЯл Не ял Всичко

болни 80 10 90здрави 7 7 14Всичко 87 17 104

Първо ще забележим, че първата и втората таблици ще произведат една и същастатистика и, следователно, не е необходимо да пресмятаме и двете поотделно.

Ще трябва да работим с χ2 разпределение с 1 степен на свобода. Неговата плът-ност е дадена на фигурата, а 0.95 квантила му е равен 3.84. Така, когато статистикатаh, пресметната по формула (6.2), надхвърли критичната стойност 3.84 би трябвалода отхвърлим нулевата хипотеза.

За първата (и втората) таблички стойността на статистиката h е равна на 0.1466.Следователно не можем да отхвърлим нулевата хипотеза. Това значи, че вида наконсумираното първо блюдо не влияе на заразеността.

За третата табличка обаче, стойността на статистиката h е равна на 13.3994. Сле-дователно трябва да отхвърлим хипотезата за независимост. Тъй като пропорциятана заболелите е по-висока при ялите торта, следва да заключим, че тортата е билаизточник на инфекцията.

6.3 Логлинейни моделиКогато разглеждаме повече от два признака, става невъзможно представянето наданните в една таблица, а от там и по-трудно те да бъдат анализирани. В двумернияслучай логлинейния модел за наблюдаваната честота f(i, j) може да бъде записантака:

log F (i, j) = m + α log p(i) + β log q(j) + ε(i, j), (6.3)

тук с i (и j) сме означили нивата на първия (и втория) фактори, а p(i) (с q(j) )маргиналните им разпределения.

Когато факторите са независими P (i, j) = p(i)q(j), ще имаме, че параметритеполучават стойностите:

m = 0, α = 1, β = 1.

Когато обаче в процеса на апроксимация на модела (6.3) получим други стойнос-ти, това ни дава възможност да направим заключение за определен тип зависимостмежду тях.

Page 44: Записки по приложна статистика 1

44 Глава 6. χ2 и честотни таблици

Когато таблицата е многомерна са възможни множество модели за нейното опи-сание:

log Fijk.. = m + α1 log fi... + α2 log f.j... (6.4)+β12 log fij... + β13logfi.k... + β23logf.jk... + . . . (6.5)

+γ123 log fijk... + . . . (6.6)(6.7)

Тук с Fijk.. сме означили очакваните (моделирани), а с fijk.. - наблюдавани честоти.В основата на оценката на параметрите на модела стои принципът на максимално

правдоподобие. И в този случай той се свежда до метод на най-малките квадрати.Приносът на всяка клетка в общия функционал на максимално правдоподобие е:

cijk.. = 2 ∗ fijk.. ∗ log(fijk../Fijk..). (6.8)

По ред причини наблюдения за някои клетки може и да не са възможни (такива клет-ки се наричат структурни нули) и те разбира се не участвуват в правдоподобието.Множеството от всички нормални клетки да означим с Z. Тогава

LL(m,α, β, γ, ..., f) =∑

ijk...∈Z

cijk.. (6.9)

е функционала, който трябва да максимизираме по възможните стойности на пара-метрите {m, α, β, γ, ...}. Съгласно асимптотичните свойства на максималното прав-доподобие exp LL трябва да има χ2 разпределение при верен модел. И тук, кактопри линейната регресия това ни дава средство да сравняваме (с помощта принципана отношение на правдоподобия) различни модели стига те да са включени един вдруг.

Page 45: Записки по приложна статистика 1

Глава 7

Регресионен анализ

Тази статистическа процедура е най - старата и, може би, най - популярната. Терми-нът ”регресия” е въведен от английския антрополог Ф.Галтон във връзка с откритатаот него тенденция синовете на родители с ръст по - висок от нормалния, да имат ръстпо - близо до средната стойност. Този факт Галтон нарекъл ”regression to mediocrity”.Едва ли има по неподходящо название за този метод.

7.1 Основни задачи

Регресионният анализ намира най - често приложение за изследване на причинно -следствени връзки между количествени променливи. Той ни позволява да проверя-ваме хипотези за наличието на такава връзка и да я оценяваме количествено.

Изложеното в тази лекция е незначителна част от теорията, посветена на линей-ната регресия и пояснява донякъде само това, което е заложено в най - проститерегресионни процедури. На интересуващия се читател горещо препоръчваме класи-ческите книги (Себер 1976) и (Дрейпер и Смит 1973).

Нека наблюдаваните променливи са много и една от тях е натоварена с по -особено смислово съдържание. Отделената променлива ще наричаме зависима илиотклик. Останалите – независими или предиктори. Поставяме си следните въпроси:

1. Дали стойностите на отклика се влияят или зависят от останалите променливи?

2. Каква е функционалната връзка между стойностите на променливите (т.е. можели да се избере модел на зависимостта и оценят параметрите му)?

3. Доколко получената връзка отговаря на действителността (или доколко моде-лът е адекватен)?

4. Какво можем да очакваме от отклика при зададени нови стойности на предик-торите (задача за прогноз)?

Ние ще изведем всички свойства на линейната регресия от общите свойства нагаусовото разпределение. Болшинството статистически програми работят по тези

45

Page 46: Записки по приложна статистика 1

46 Глава 7. Регресионен анализ

формули, изведени в предположение за гаусово разпределение на грешката. Прак-тиката, обаче, показва, че това ограничение далеч не винаги е правдоподобно, пък ирезултатите получени с него – не винаги удовлетворителни.

7.2 Проста линейна регресияНека отначало за илюстрация да въведем само един предиктор и един отклик. Сдруги думи наблюдавали сме само две променливи и предполагаме, че стойноститена едната (отклика) в голяма степен се определят от другата (предиктора):

За модел на наблюденията имаме:

yi = axi + b + εi, εi ∈ N(0, σ2) (7.1)

i = 1, ..., n. Нека погледнем как се решават от-делните задачи.

Фиг. 7.1: Проста регресияПърво да построим оценка по метода на максималното правдоподобие. Трябва да

максимизираме логаритъма на правдоподобието:

LL(y, a, b, σ) = −n

2ln(2π)− n ln(σ)− 1

2σ2

n∑i=1

(yi − axi − b)2

Първо забелязваме, че максимума по σ се получава при

σ2 =1

n

n∑i=1

(yi − axi − b)2, и maxσ

LL(y, a, b, σ) = −(σ)2n (7.2)

Значи максимизирането на правдоподобието е еквивалентно на минимизиране насумата от квадратите на остатъците:

mina,b

SSr =n∑

i=1

(yi − axi − b)2,

което е довело до знаменитото название метод на най-малките квадрати, дадено отК.Ф.Гаус.Така получаваме оценките:

a =

∑ni=1(yi − y)(xi − x)∑n

i=1(xi − x)2, и b = y − ax. (7.3)

Да изразим оценките като функции от сл.в. на модела (да заместим в тях yi =axi + b + εi):

a = a +

∑ni=1 εi(xi − x)∑ni=1(xi − x)2

, и b = b + ε + (a− a)x. (7.4)

Така получихме, че оценките са

Page 47: Записки по приложна статистика 1

7.3. Линейни модели 47

• неизместени - E a = a, E b = b ;

• линейни функции от гаусовия вектор ε и, следователно, са също гаусово разп-ределени.

• при определени условия върху предикторите ( x = 0) те стават независими.

Това ни дава възможност да строим лесно доверителни интервали и проверявамехипотези за параметрите на модела:

a− zασ(a) < a < a + zασ(a), и b− zασ(b) < b < a + zασ(b). (7.5)

Достатъчно е да познаваме дисперсиите на оценките σ(a), σ(b). От израза (7.4), катопредположим за простота, че x = 0, получаваме

σ2(a) =σ2∑n

i=1(xi − x)2, и σ2(b) =

σ2

n. (7.6)

7.3 Линейни модели с гаусова грешка

В цялата лекция нататък ще предполагаме, че ε ∈ N(0, σ2I), т.е. че грешките отнаблюденията са независими, еднакво разпределени гаусови сл.в. с нулева средна.За наблюденията y ще предполагаме,че е изпълнен следният модел:

y = z + ε. (7.7)

За неизвестното z = E y се предполага, че z ∈ Z — линейно подпространство на Rn

с размерност k. Това на пръв поглед странно предположение се оказва много удобноот теоретична гледна точка — всички линейни модели лесно се вписват в него.

В долната теорема са сумирани свойствата на оценките, които следват от гаусо-вото разпределение на ε.

Теорема 7.1 За модела (7.7) са изпълнени свойствата:

а. максимално-правдоподобните оценки на z и σ2 се получават по метода на най- малките квадрати:

y = argminz∈Y

‖z − y‖2;

σ2 =1

n‖y − y‖2;

б. оценките y и y − y са независими.

в. оценката y има изродено върху Z разпределение N(0Z , σ2IZ).

г. статистиката ‖y − y‖2 има разпределение σ2χ2(n− k);

Page 48: Записки по приложна статистика 1

48 Глава 7. Регресионен анализ

Доказателство: Всички твърдения са пряко следствие от определенията на макси-мално - правдоподобните оценки в гаусовия случай. �

Ако се наложи да предположим различни дисперсии за наблюденията, напри-мер, ε ∈ N(0, σ2W ), то в горните твърдения просто трябва да заменим скаларнотопроизведение и нормата:

x′y = x′W−1y, ‖x‖2 = x′W−1x.

Тогава твърденията на теоремата и всички последващи твърдения остават без изме-нение.

В практиката често възниква необходимостта от сравняване на различни модели.Едно средство за това ни дава следната теорема от нормалната теория.

Ще означим с HZ линейния проектор върху подпространството Z: HZ(y) = y.

Теорема 7.2 Нека се налага да проверим хипотезата

H0 : z ∈ Z0 срещу хипотезата H1 : z ∈ Z1\Z0,

където Z0 ⊂ Z1 са линейни подпространства на Rn с различни размерности k < mсъответно. Тогава критичната област се определя от неравенството:

fm−k,n−m =‖y1 − y0‖2/(m− k)

‖y − y1‖2/(n−m)> F1−α, (7.8)

като статистиката fm−k,n−m, при изпълнена H0, има разпределение на Фишер сm − k и n − m степени на свобода, а F1−α е квантил на това разпределение. С yi

сме означили проекциите на y върху Zi, (i = 0, 1).

Доказателство: Формата на областта следва от принципа за отношение на правдо-подобия:

λ(y) =

supz∈Z0,σ

L(y − z, σ)

supz∈Z1,σ

L(y − z, σ)= (

‖y − y1‖‖y − y0‖

)n.

Проверката на неравенството λ(y) > c е еквивалентна на критичната област опреде-лена от неравенството (7.8). Твърдението за разпределението е пряко следствие оттеоремата на Кокрън. �

Когато към модела (7.7) добавяме предположения за параметризация на Z, по-лучаваме различните форми на, т.н. в литературата, общ линеен модел с гаусовагрешка. Някои от тях ще разгледаме в следващите лекции.

7.4 Многомерна линейна регресияНека изследваният модел е от вида

y = Xa + e, (7.9)

където y, e ∈ Rn, a ∈ Rm, X ∈ Rn × Rm, грешките e ∈ N(0, σ2I). Тук y и X санаблюденията, а σ2 и a са неизвестни.

Page 49: Записки по приложна статистика 1

7.4. Многомерна линейна регресия 49

Теорема 7.3 (Гаус - Марков) Ако X има пълен ранг m, оценката за неизвестнитепараметри a по метода на най - малките квадрати е

a = (X ′X)−1X ′y (7.10)cov(a) = σ2(X ′X)−1 (7.11)

Оценката a е неизместена, ефективна и съвпада с оценката по метода на макси-мално правдоподобие.

Доказателство: Методът на най - малките квадрати в случая ни учи да търсимминимум на ‖y − Xa‖2, което съвпада с твърдение a. на теорема 7.1 и, следова-телно, решенията на двата метода съвпадат. Подпространството Z = Xa е линейнакомбинация на колоните на X. Тогава проекторът HZ има вида HZ = X(X ′X)−1X ′.Оценката a за a е просто решение на уравнението y = Xa,т.е. съвпада с равенството(7.10). Това решение съществува и е единствено поради пълния ранг на X.

Като заместим y в (7.10) получаваме

a = a + (X ′X)−1X ′ε,

което влече неизместеността на a. От същото представяне следва и представянетона cov(a) в (7.11). �От теорема 7.1 веднага получаваме, че неизместена оценка на σ2

ще получим по формулата:

σ2 =1

n− k‖y −Xa‖2. (7.12)

Тази оценка, обаче, не е максимално правдоподобна.

Page 50: Записки по приложна статистика 1

Глава 8

Хипотези в регресията

В тази лекция ще експлоатираме безпощадно теоремата за сравняване на различнимодели и ще конструираме множество популярни хипотези в линейната регресия.В някои частни случаи конструираните доверителни области (поради естествените”широки” алтернативни хипотези) ще станат и доверителни интервали за неизвест-ните параметри.

8.1 Коефициент на детерминацияКоефициент на детерминация или проверка на наличието на линейна връзка междуX и y.

Нека разгледаме сега регресионен модел със свободен член:

y = Xa + b~1 + e, (8.1)

където b е ”нов” неизвестен параметър, а~1 е n-мерен вектор от единици. Да се опитамеда проверим наличието на линейна връзка между X и y.

Нека е вярна хипотезата Ho : a = 0. Естествената контра хипотеза е H1 : a 6= 0.Следователно, Z0 има размерност k = 1, а Z1 е с размерност m = dim(a) + 1. Оттеоремата получаваме, че критичната област за проверка на хипотезата H0 : z ∈ Z0

срещу хипотезата H1 : z ∈ Z1\Z0 се определя от неравенството:

F =‖y1 − y0‖2/(m− 1)

‖y − y1‖2/(n−m)> F1−α,

като при изпълнена H0 статистиката F ∈ F (m− 1, n−m).В приложната статистика съответните суми от квадрати имат популярни наиме-

нования, разкриващи тяхната роля в тази проверка:

SSR = ‖y − y1‖2 =n∑

i=1

(yi − yi)2 - Sum of Squares of Residuals

SSM = ‖y1 − y0‖2 =n∑

i=1

(yi − y)2 - Sum of Squares due to the Model

50

Page 51: Записки по приложна статистика 1

8.2. Равенство на нула 51

ЧастнотоR2 =

SSM

SSM + SSR

се нарича коефициент на детерминация и има смисъла на коефициент на корелация— колкото по - близко е до единицата, толкова по ”детерминиран” е моделът.

8.2 Проверка за равенство на нула на някой от кое-фициентите

Нека е вярна хипотезата H0 : a1 = 0. Естествената контра хипотеза е H1 : a1 6= 0.Следователно, Z0 има размерност k = dim(a)− 1, а Z1 - размерност m = dim(a). Оттеорема 7.2 получаваме, че оптималната критична област за проверка H0 : z ∈ Z0

срещу хипотезата H1 : z ∈ Z1\Z0 се определя от неравенството:

F =‖y1 − y0‖2

‖y − y1‖2/(n−m)> F1−α,

като при изпълнена H0 статистиката F ∈ F (1, n − m).Но това е квадрат на t-разпределение, от където получаваме, че статистиките

ti =

√(n−m)ai

σ((X ′X)−1ii )1/2

(8.2)

имат разпределение на Стюдент с n−m степени на свобода при изпълнена хипотезаH0 : ai = 0. Естествено, със същото разпределение се пресмятат и доверителните ин-тервали около оценките за неизвестните параметри (при изпълнена H1). Това следваот неизместеността им и от това, че оценките на параметрите не зависят от оценкатана дисперсията.

Изведете строго разпределението на статистиките (8.2).

8.3 Доверителен интервал за прогноза

За произволни стойности x на предикторите от областта, за която е верен модела(8.1), случайната величина y = x′a + b е неизместена оценка за Ex(y) и

Dx(y) = σ2(1

n+ (x− X)′(X ′X)−1(x− X)). (8.3)

Тук с X сме означили вектора 1nX ′E и E е (n × m) матрица от единици, а с X

сме означили матрицата от центрирани данни (с извадена средна стойност). Следо-вателно, грешката на прогнозираната стойност на конкретното наблюдение ще бъде

σ2y(x) = σ2(1 +

1

n+ (x− X)′(X ′X)−1(x− X)). (8.4)

Проверете уравнения (8.3) и (8.4).

Page 52: Записки по приложна статистика 1

52 Глава 8. Хипотези в регресията

6

-0 1 2 3 4 5 6

1

2

3

������������������

На фигурата е нарисувана апроксимиращатаправа при простия линеен модел y = ax + b + ε.С двете параболи са отбелязани доверителни-те граници за наблюдаваната стойност съгласноформула (8.4). С аналогична форма, но значи-телно по - тесен е коридорът за модела – фор-мула (8.3). Така се вижда колко опасни (и поня-кога безсмислени) могат да бъдат прогнози задалечното бъдеще, основани на тенденция, наб-людавана в краен интервал от време.

Фиг. 8.1: Проста линейна регресия

8.4 Проверка на адекватността на моделаПроверката за адекватност на модела в регресионния анализ е възможна само в дваслучая: ако е известна σ2 или ако разполагаме с независима от SSR и от параметритена модела нейна оценка.

В първия случай можем да пресметнем статистиката SSR, която има разпределе-ние σ2χ2 със степени на свобода n−m, ако моделът е адекватен, и отместено надясноразпределение при неадекватен модел. Така проверката е лесна – критичната областсе определя от неравенството:

SSR > σ2χ21−α.

Във втория случай, когато не знаем σ2, се налага да използуваме някоя нейнаоценка.

Най-популярния начин за получаване на независима оценка за σ2 е да се провеж-дат повторни наблюдения при фиксирани стойности на предикторите. При такиванаблюдения сумата SSR също се разлага на две независими събираеми, от които секонструира статистика, която има разпределение на Фишер, в случай че моделът еадекватен. Обикновено тази задача се решава със средствата на еднофакторния дис-персионен анализ. Отделните експериментални точки x се разглеждат като нива нафактор (групираща променлива). За всяко x имаме по nx наблюдения yi(x). Имамеравенството:

SSR =∑

x

(yi(x)− y(x))2 +∑

x

nx(y(x)− y(x))2 = SSI + SSM. (8.5)

Първата сума не зависи от модела, а втората има разпределение σ2χ2 със съответенброй степени на свобода, ако моделът е адекватен, и отместено надясно разпределе-ние при неадекватен модел. Така критичната област ще се определи от неравенството:

SSM/k

SSI/j> F1−α, j = n−m− k, k =

∑x

(nx − 1).

Опишете подпространствата Z0 и Z1 в този случай и изведете уравнение (8.5).Постройте критичната област.

Page 53: Записки по приложна статистика 1

Глава 9

Стъпкова регресия

В тази тема ще се спрем на един от най-популярните методи за избор на модел. Щеразгледаме

• интерактивни методи на примера на СТАТЛАБ и МСТАТ16;• автоматични методи на примера на Statistica;• математически основи (sweep operator);

9.1 Интерактивни процедури

Стъпкова регресия е една от основните процедури на регресионния анализ предназ-начена за избор на модела. Ще я илюстрираме с старият български пакет СТАТЛАБ(Въндев и Матеев 1988), предназначен за 8-битови компютри. За съжаление не поз-навам друг пакет позволяващ подобна степен на интерактивност.

9.1.1 Стъпкова регресия в СТАТЛАБ

Регресионната процедура в СТАТЛАБ е проектирана така, че максимално да се об-лекчи преминаването от модел в модел и избора на най-добрия. В пресмятания-та са реализирани известните алгоритми за стъпкова регресия (вж.(Jennrich 1977)).Използуването на вътрешно-груповата ковариационна матрица дава възможност завключване в регресионния модел на групиращи променливи по естествен начин (ко-вариационен анализ).

Ще илюстрираме проблемите по избор на регресионен модел със следния

Пример 9.1 Данните за престъпността с Правец.

Изборът на подходящ линеен модел става върху следният екран:

53

Page 54: Записки по приложна статистика 1

54 Глава 9. Стъпкова регресия

В първата колонка се намира показалец. Той сепридвижва нагоре-надолу, както обикновено сА и Z. С клавиша <CR> променяме състояни-ето в модела на променливата, срещу която епоказалеца:

Фиг. 9.1: Екранът на Правец

• ако променливата е включена в модела, то тя ще бъде извадена;• ако променливата е извън модела (и не е отклик), то тя ще бъде включена като

предиктор;• ако това е отклик, то квадратчето се премества надолу на следващата промен-

лива, не включена в модела и тя става зависима (отклик).

Отгоре на екрана е отделен един ред, в който е дадена оценка за остатъчнатагрешка на модела R.S.E и съответната вероятност на критерия F . Когато тази веро-ятност е по-ниска от, например, 0.95 е съмнително, че избраните променливи изобщовлияят на отклика, т.e. няма основание да се отхвърли хипотезата, че всичките кое-фициенти в модела са едновременно 0.

Първоначално, когато в модела няма включени променливи, R.S.E. е оцененатастандартна грешка на зависимата променлива. Тази оценка се прави по данните самона тази променлива с отчитане на груповата им принадлежност. Изчислително тя еквадратен корен от съответния диагонален елемент на използваната ковариационнаматрица.

По долу за всяка променлива е отделен един ред, като реда на отклика е маркиранс бяло квадратче и върху него няма друга информация освен името на променливата.

Променливите, влезли в модела, се виждат лесно, тъй като числата до именатаим са дадени в бяло поле (форма INVERSE), а освен това тези редове съдържат подве числа. Първото (маркирано) число е стандартизираният регресионен коефициент(той съвпада с регресионния коефициент, ако отклика и предикторите са стандар-тизирани). Тези коефициенти имат предимството, че по тяхната величина можемда съдим за степента на влияние на съответния предиктор върху отклика и те сабезразмерни.

Второто число е вероятността, една разпределена по Стюдент случайна вели-чина да не надхвърля t-статистиката на съответния коефициент. Тази вероятност,доколкото тя е свързана с критерия на Стюдент и T - разпределението, ще нари-чаме T -вероятност на съответния коефициент. Ако тя е по-малка от .95, участиетона предиктора в регресионното уравнение е съмнително и програмата ще подскажевъв втората колонка на реда със знака ”<” да бъде изключен. Ако обратно, тя епо-голяма от .95, то с ниво на доверие .95 може да се отхвърли хипотезата, че кое-

Page 55: Записки по приложна статистика 1

9.1. Интерактивни процедури 55

фициентът е равен на нула. Това означава, че участието на съответният предикторв модела е съществено.

Макар че в СТАТЛАБ е фиксирано това най-популярно ниво на доверие 0.95 ито се използува за изработване на "подсказванията", нищо не пречи да се зафиксираотнапред някое друго ниво на доверие и работи постоянно с него. Съществено е, дане се променя в процеса на работа с данните.

Друга съществена забележка е, че далеч не винаги отхвърлянето на предиктор снезначима T -вероятност води до съществено подобряване на модела. По-обоснованаби била проверката на частния коефициент на корелация на този предиктор с отк-лика, но СТАТЛАБ не притежава тази възможност.

След имената на променливите, които не са предиктори, е показан квадрата намножествените им коефициенти на корелация R с предикторите - променливите,влезли в модела. Естествено е, да се опитваме да ”добавим” към модела онези про-менливи, които притежават минимален коефициент на множествена корелация R.Това осигурява ниска степен на зависимост между предикторите и, като следствие,малка грешка на оценените коефициенти на регресионния модел. Ако не се при-държаме към това правило, може да се окаже, че предикторите са толкова силнокорелирани, че тяхната извадъчна ковариационна матрица е почти изродена. Товаявление се нарича мулти-колинеарност и на борбата с него е посветена голяма част отлитературата по приложен регресионен анализ. В този случай грешките на оценкитенарастват в такава степен, че ги обесмислят (става дума както за изчислителните,така и за статистическите - оценената ковариационна матрица на коефициентите).

По този начин можем да се включват и изключват променливи в модела и дасе променя отклика. При избора на подходящ модел се ръководим преди всичко отR.S.E - по-добър модел съответствува на по-малък R.S.E.

Целесъобразно е в модела да се включват променливи с минимален R, т.e. най-слабо зависещи от вече включените. Предиктори с относително малък коефициентили с ниска T-вероятност могат да бъдат извадени от модела. Като правило тезидве действия водят до намаляване на R.S.E. и се подсказват от СТАТЛАБ във втораколонка съответно с ”<” за изваждане и ”>” за включване в модела.

Показаният по-горе екран отразява състояниена модела, което не се подобрява повече свключване и изключване на променливите. Етозащо завършваме - натискаме ОСВ и на екранасе показва уравнението на модела.Вече имамевъзможност да видим и свободния член на рег-ресионното уравнение и истинските коефициен-ти.

Фиг. 9.2: Окончателен моделС възможностите на Правец повече не беше възможно.

9.1.2 МСТАТ-16

В края на 80-те години от същия колектив (Vandev, Dimitrov, Isa, Kaishev, Kovachev,Mateev, and Petrov 1989) бе реализирана версия на пакета за 16-битов компютър.

Page 56: Записки по приложна статистика 1

56 Глава 9. Стъпкова регресия

Тук екранът е вече по-голям (80 символа на ред) и беше възможно на него да бъдеизведена значително повече информация.

Фиг. 9.3: Регресия в МСТАТ

За променливата отклик се показват:

• свободния член и стандартната му грешка;• оценката на σ за модела;• P -стойността на хипотезата, че всички коефициенти (освен свободния член) са

0.

За предикторите (променливи в модела)са показани:

• коефициента в модела уравнение;• стандартизирания коефициент;• P (F − to− remove) - P -стойността на хипотезата, че коефициентът е 0 - обик-

новено се изключват от модела променливите с минимална вероятност (< .95).Това точно същата T -вероятност, която видяхме в СТАТЛАБ.

За кандидатите за предиктори са показани:

• коефициентът на частична корелация с отклика;• коефициентът на множествена корелация с предикторите;• P (F−to−enter) P -стойността на хипотезата, че коефициентът е 0 (T -вероятността),

ако променливата стане предиктор (обикновено се включват в модела канди-датите с максимална вероятност > .95).

Променливите в тези два прозореца са наредени по вероятностите си.При наличие на групираща променлива, в най-десния прозорец се показват стой-

ностите и. Промяната им довежда до преизчисляване на свободния член и неговатастандартна грешка.

Управлението се извършва с клавиши - (премества се осветеното поле) по екранаи действия се извършват с натискане на клавиши

Page 57: Записки по приложна статистика 1

9.2. Автоматична процедура 57

• <Enter> за предприемане на действие (както в СТАТЛАБ),• <F1> за помощ и препоръка,• <Esc> за напускане и запазване на модела.

9.2 Автоматична процедураВ стандартните статистически програми Statistica, SPSS, BMDP, Minitab и др. стъп-ковата регресия е автоматична, неинтерактивна процедура. Например, в Statistica(след избора на отклик, независими променливи и начин за пресмятане на ковариа-ционната матрица) се избира един от методите:

• стандартна регресия,• напред (forward stepwise),• назад (backward stepwise).

И двата стъпкови метода се нуждаят от задаване на граници на P (F − to−enter)и P (F − to− remove). Тъй като смисълът на проверките е един и същ, е естествено,границите Pr, Pe да бъдат наредени:

P (F − to− remove) < Pr < Pe < P (F − to− enter). (9.1)

Променливата се въвежда, когато е изпълнено дясното неравенство, и изважда отмодела, когато е изпълнено лявото.

От съображения за ”икономия”, или не знам защо, вместо неравенствата 9.1 сеизползуват ”еквивалентните”:

F − to− remove < Fr < Fe < F − to− enter (9.2)

и вместо критичните вероятности потребителят трябва да въведе границите (критич-ните стойности) Fr, Fe. Помислете, защо неравенствата 9.1 и 9.2 не са еквивалентни.

В пакета BMDP стойностите по подразбиране са Fr = 3.9, Fe = 4.0.В Statistica - Fr = 1, Fe = 2 и се запомнят от пакета до следващото му изпълнение

независимо с какви данни работите.

9.3 SWEEP операторТози метод е описан най-пълно в статията (Jennrich 1977), посветена на стъпковарегресия в сборника от статии (Einslein, Ralston, and Wilf 1977). В всички пакети,описани по-горе, изчисленията се извършват на основата на този оператор.

Определение 9.1 Нека A е квадратна матрица с елементи ai,j . Означаваме с Sk

следното преобразование:

Sk =

ak,k := −1/ak,k

ai,k := ai,k/ak,k

ak,j := ak,j/ak,k

ai,j := ai,j − ai,kak,j/ak,k

(9.3)

Page 58: Записки по приложна статистика 1

58 Глава 9. Стъпкова регресия

Обратното преобразование S−1k се задава с формулите:

S−1k =

ak,k := −1/ak,k

ai,k := −ai,k/ak,k

ak,j := −ak,j/ak,k

ai,j := −ai,j − ai,kak,j/ak,k

(9.4)

Както се вижда от определението и операторът Sk и неговият обратен са приложимисамо когато съответният диагонален елемент akk на матрицата A е ненулев.

9.3.1 Теорема

Нека първо сумираме по-очевидните свойства на операторите Sk.

• SkS−1k = S−1

k Sk = I,

• SkSj = SjSk.

Сега ще докажем една лема за свойството на ”размяна”, което тези операторипритежават.

Лема 9.1 Нека U = (u1, u2, . . . , um) и V = (v1, v2, . . . , vm) са матрици с еднаквиразмерности и A е квадратна матрица, такава че V = UA. Да означим

• A = SkA (предполагаме, че това е възможно),

• V се получава от V със замяна на k-тата колона: vk = −uk;

• U се получава от U със замяна на k-тата колона: uk = vk;

Тогава V = UA.

Доказателство: За всяко j е изпълнено равенството: vj =∑n

i=1 uiaij.Следователно, при j = k имаме uk = a−1

kk (vk −∑

i6=k uiaik) и получаваме

vk = −uk = −a−1kk (vk −

∑i6=k

uiaik) =

= akkuk +∑i6=k

uiaik =n∑

i=1

uiaik.

Аналогично, при j 6= k

vj = vj =∑i6=k

uiaij + ukakj =∑i6=k

uiaij + a−1kk (vk −

∑i6=k

uiaik)akj

= ukakj +∑i6=k

ui(ai,j − ai,kak,j/ak,k) =n∑

i=1

uiaij.

Page 59: Записки по приложна статистика 1

9.3. SWEEP оператор 59

Теорема 9.1 Нека матрицата A е зададена блочно

A =

(A11 A12

A21 A22

)и операторът Sk е приложен към първите k номера. Тогава резултатът може дабъде записан във вида:

A =

(−A−1

11 A−111 A12

A21A−111 A22 − A21A

−111 A12

)Доказателство: Нека разгледаме тривиалното равенство: A = IA и го препишем вблочен вид (аналогично на лемата V = UA):(

A11 A12

A21 A22

)=

(I11 00 I22

)(A11 A12

A21 A22

).

Като приложим сега операторите към първите k диагонални елементи (естественоако това е възможно) на A11, получаваме A. Благодарение на лема 9.1 можем дазапишем останалите елементи на равенството V = UA:(

−I11 A12

0 A22

)=

(A11 0A21 I22

)(A11 A12

A21 A22

).

Като извършим блочното умножение лесно получаваме равенствата:

−I11 = A11A11, A12 = A11A12,

0 = A21A11 + A21, A22 = A21A12 + A22.

Сега остава само да ги решим, което е тривиално. �

9.3.2 Тълкуване

Нека ни е зададена матрицата Z от n наблюдения над m параметъра и ние сме яцентрирали, така че e′Z = 0. Нека разделим матрицата Z = (X, Y ) на две: X -матрица с първите k колони и с Y - матрица с останалите m − k и се интересувамеот решението на регресионната задача: Y = XB + E.

Нека сме приложили SWEEP към първите k диагонални елемента на крос-продуктматрицата R = Z ′Z. Естествено е резултатът S(R) пак да запишем в блочно диаго-нален вид:

R =

(X ′X X ′YY ′X Y ′Y

), S(R) =

(−(X ′X)−1 B

B′ C

).

Нека изтълкуваме смисъла на елементите на матрицата S(R).

B = (X ′X)−1X ′Y, C = Y ′Y − Y ′X(X ′X)−1X ′Y

Значи в B са регресионните коефициенти, а в C остатъчните суми от квадрати(или ковариации). С една дума в матрицата S(R) се съдържа цялата необходимаинформация за модела.

Page 60: Записки по приложна статистика 1

Глава 10

Полиномна регресия

Това е една много популярна форма на линейната регресия, при която за регресионенмодел се използуват полиноми. При нея се прибягва, когато нямаме априорни позна-ния за аналитичната форма на модела. На долните картинки са показани типичниданни от този случай.

В тази лекция си поставяме следните цели

• да въведем полиномната регресия;• на примера на ортогоналните полиноми да покажем изчислителните и статис-

тически удобства на метода на ортогонализацията;• да разгледаме един популярен пример с данни.

10.1 Населението на САЩЩе разгледаме един пример. Числата75.995 91.972 105.711 123.203 131.669 150.697 179.323 203.212 226.505,са публикувани от Американския статистически институт и представляват населе-нието (в милиони хора) на САЩ за периода от 1900 до 1980 г. Нека си поставимза задача да прогнозираме населението за две последователни десетилетия напред –1990 и 2000. Като базисен ще разгледаме модела (10.1). Ясно е, че ще трябва да сеограничим с n ≤ 8, тъй като разполагаме с 9 наблюдения и последния полином ставаинтерполиращ.

Полиномният модел може да се запише във формата:

yi = a0 + a1xi + a2x2i + · · ·+ anx

ni + εi. (10.1)

Доказахме в предните лекции, че най - доброто решение за апроксимация на моделаспрямо данните е методът на най - малките квадрати (МНК).

Оценката X ′Xa = X ′y се получава като решение на системата уравнения:∑yi = a0n + a1

∑xi + a2

∑x2

i +, . . . , +an

∑xn

i∑xiyi = a0

∑xi + a1

∑x2

i + a2

∑x3

i +, . . . , +an

∑xn+1

i

. . .∑xn

i yi = a0

∑xn

i + a1

∑xn+1

i + a2

∑xn+2

i +, . . . , +an

∑xn+n

i .

60

Page 61: Записки по приложна статистика 1

10.1. Населението на САЩ 61

-

6

b bb bb b

bb

b-

6

bb bbb b bb b

b bb b bbb

b b bb

Фиг. 10.1: Криволинейни данни

За конкретния случай матрицата X показана на таблица 10.1 и се вижда, че епочти изродена.

1 0 0 0 0 0 0 0 01 1 1 1 1 1 1 1 11 2 4 8 16 32 64 128 2561 3 9 27 81 243 729 2187 65611 4 16 64 256 1024 4096 16384 655361 5 25 125 625 3125 15625 78125 3906251 6 36 216 1296 7776 46656 279936 16796161 7 49 343 2401 16807 117649 823543 57648011 8 64 512 4096 32768 262144 2097152 16777216

Таблица 10.1: Матрица X на полиномна регресия

Приготвянето на такава матрица изисква пресмятането на твърде голям бройсуми. Още по-ужасно изглежда X ′X, даже ако забравим последните няколко коло-ни, т.е. разглеждаме полином от по - ниска степен. Затова по - лесно е решениетосистемата Xa = y, например, чрез използуването на (Singular Value Decomposition).Именно по този начин в демонстрационната програма census.m на системата MAT-LAB се решава този пример.

0

50

100

150

200

250

300

350

0 2 4 6 8 10

o o o o o oo o o

!!!!!!!!!!!!!

EEEEE

На фигурата 10.2 са представени оригиналнитеданни, заедно с няколко регресионни полинома– от степени 1,2,6,8. Най-очевидно е несъответ-ствието на прогнозираната стойност за полино-ма от 8 степен, който предсказва изчезване нацялото население на САЩ преди 2000 г. Прес-мятанията са вършени с двойна точност така,че на резултатите от изчисленията може да севярва.

Фиг. 10.2: Населението на САЩ 1900 - 1980

Page 62: Записки по приложна статистика 1

62 Глава 10. Полиномна регресия

На долните таблици ще видим най - същественото от тези числени сметки. Глав-ната цел, обаче е да въведем математическия апарат, който ще ни помогне да изберем”оптималния” от тези полиноми.

10.2 Ортогонални полиномиПолиномите от произволна степен образуват линейно пространство. Нека разгледамевърху това пространство скаларно произведение зададено във формата:

(P, Q) =N∑

i=1

P (xi)Q(xi).

Тук с N голямо сме означили броя на данните.

Определение 10.1 Казваме, че два полинома са ортогонални (P⊥Q), ако (P, Q) =0.

Теорема 10.1 Ще построим конструктивно редица от ортогонални полиноми:P0(x) = 1, P1(x) = x − x, а всички останали (при n < N) със следната рекурен-тна формула:

Pn(x) = (x− αn)Pn−1(x) + βnPn−2(x). (10.2)

Доказателство: Да отбележим, че (P0, P1) = 0. Ще покажем първо, как може да сеопределят числата αn, βn.

0 = (Pn, Pn−1) = (xPn−1, Pn−1)− αn(Pn−1, Pn−1)

0 = (Pn, Pn−2) = (xPn−1, Pn−2) + βn(Pn−2, Pn−2)

Да отбележим, че от индукцията следва формулата:

(xPn−1, Pn−2) = (Pn−1, xPn−2) = (Pn−1, Pn−1).

От тук получаваме равенствата:

αn =

∑ni=1 xiP

2n−1(xi)∑n

i=1 P 2n−1(xi)

(10.3)

βn = −∑n

i=1 P 2n−1(xi)∑n

i=1 P 2n−2(xi)

(10.4)

Сега ще покажем, че така получения полином е ортогонален и на всички полиномис по - ниска степен (j < n− 2):

(Pn, Pj) = (xPn−1, Pj) = (Pn−1, xPj) = (Pn−1, Pj+1) = 0.�

Така построената редица има смисъл, разбира се, докато степента на полинома емалка по сравнение с броя на данните N . Не е трудно да се провери, че Pj, j ≥ N − 1има за корени числата xi.

Page 63: Записки по приложна статистика 1

10.3. Оптимална степен 63

Сега моделът (10.1) може да се препише във формата:

yi = b0P0 + b1xi + b2P2(xi) + · · ·+ bnPn(xi) + εi. (10.5)

Матрицата X ′X за този модел е диагонална и съдържа числата dii =∑

P 2i−1(xi).

За нашия случай матрицата от стойности на ортогоналните полиноми върху дан-ните е дадена на таблица 10.2.

P0 P1 P2 P3 P4 P5 P6 P7 P81 -4 9.3333 -16.8 24.0000 -26.6667 21.8182 -11.7483 3.13291 -3 2.3333 8.4 -36.0000 73.3333 -92.7273 70.4895 -25.06291 -2 -2.6667 15.6 -18.8571 -26.6667 120.0000 -164.4755 87.72031 -1 -5.6667 10.8 15.4286 -60.0000 5.4545 164.4755 -175.44061 0 -6.6667 -0.0 30.8571 0.0000 -109.0909 -0.0000 219.30071 1 -5.6667 -10.8 15.4286 60.0000 5.4545 -164.4755 -175.44061 2 -2.6667 -15.6 -18.8571 26.6667 120.0000 164.4755 87.72031 3 2.3333 -8.4 -36.0000 -73.3333 -92.7273 -70.4895 -25.06291 4 9.3333 16.8 24.0000 26.6667 21.8182 11.7483 3.1329

Таблица 10.2: Стойности на ортогоналните полиноми

Коефициентите на ортогоналните полиноми са показани в таблица 10.3 (редоветеса степени на полинома (0 - 8 ), на диагонала е коефициентът пред максималнатастепен):

1.-4. 1.

9.333 - 8. 1.-16.8 36.2 -12. 1.24.0 -124.57 79.5714 -16. 1.

-26.666 372.88 -393.33 139.44 -20. 1.21.818 -1077.82 1664.91 -894.55 215.91 -24. 1.

-11.748 3277.01 -6623.468 4848.16 -1701.53 309.077 -28. 1.3.132 -10953.08 26423.99 -24217.85 11220.28 -2889.6 419.067 -32. 1.

Таблица 10.3: Коефициенти на ортогоналните полиноми

Коефициентите на разлагането на отклика bk по този нов базис са дадени в таб-лица 10.4.

10.3 Оптимална степенНека се опитаме да намерим ”най - добрия” регресионен полином. Ще построимредицата от подпространства Zi, i = 0, 1, 2, . . . , n.

Подпространството Zi ще съответствува на полином от степен i и неговата раз-мерност е i + 1.

Ясно е, че проверката на хипотезата H0 : θ ∈ Zn−1 срещу сложната алтернативаH1 : θ ∈ Zn \ Zn−1 е еквивалентна на проверката an = 0 в модела (10.1) или напроверката bn = 0 в модела (10.5), когато, обаче този модел е верен.

Това налага да търсим ”верната” степен, започвайки отгоре – от максималнатавъзможна степен. Това е n = N − 2. За щастие изчислителните формули в модела(10.5) са изключително прости. За да ги изведем, нека въведем норма ‖P‖2 = (P, P )и означим с Pk = Pk/‖Pk‖, k = 0, 1, 2, . . . , N − 1 ортонормираните полиноми.

Тогава N – мерното векторно пространство на наблюденията (y ∈ RN) се предста-вя в нова координатна система с вектори – стойностите на ортогоналните полиноми:

y =N−1∑k=0

bkPk, bk = (y, Pk) (10.6)

‖y‖2 =N∑

i=1

y2i =

N−1∑k=0

b2k. (10.7)

Page 64: Записки по приложна статистика 1

64 Глава 10. Полиномна регресия

Последното равенство е всъщност равенството на Парсевал:

‖y‖2 =N∑

i=1

x2i ,

където xi са координатите на вектора x в който и да е ортонормиран базис.При това връзката между коефициентите е тривиална:

bk = ‖Pk‖bk. (10.8)

От равенства (10.6-10.8) следват търсените формули:

bk =

∑Ni=1 yiPk(xi)∑Ni=1 P 2

k (xi), σ2(bk) =

σ2∑Ni=1 P 2

k (xi), (10.9)

σ2 =1

N − n− 1

N−1∑k=n+1

b2k =

1

N − n− 1

N−1∑k=n+1

b2k

N∑i=1

P 2k (xi). (10.10)

Тъй като частното:

fn =b2n

1/(N − n− 1)∑N−1

k=n+1 b2k

=(N − n− 1)b2

n

∑Ni=1 P 2

n(xi)∑N−1k=n+1 b2

k

∑Ni=1 P 2

k (xi)

съгласно теорема за проекторите има F - разпределение с 1 и N − n− 1 степени насвобода, правилото за проверка се свежда до намиране на минималното n, за коетое изпълнено неравенството:

fn > Fкр.(1, N − n− 1).

В таблица 10.4 са изведени данните, необходими за намирането на ”оптималния”полином за нашия пример.

bk b2k F-value Df F0.95

P0 143.143 184409.3 61.525 1 8 5.32P1 18.508 20552.7 287.8528 1 7 5.59P2 1.04582 336.87 18.358 1 6 5.98P3 .104426 15.546 0.81392 1 5 6.60P4 -.07695 34.838 2.52819 1 4 7.70P5 -.02555 13.575 0.97661 1 3 10.13P6 .00955 5.373 0.479701 1 2 18.51P7 .01277 19.31 6.23907 1 1 161.45P8 -.00495 3.095

Таблица 10.4: Оптимална степен

В последната колона за удобство са поставени критичните стойности за съответнотоF -разпределение.Вижда се, че максималната статистически значима степен е 2.

От същата таблица се вижда също, че никаква статистическа проверка не е въз-можна за интерполационния полином от 8 степен.

Page 65: Записки по приложна статистика 1

10.3. Оптимална степен 65

С указаните данни изобщо не е възможна проверка на адекватността на регреси-онния модел (даже и с оптималния полином от втора степен), така че използуванетому за прогноза едва ли е оправдано.

Числата от последната колона са взети от таблица на квантилите на F -разпреде-ление. Те се използуват за да се сравнят с тях стойностите на съответните статистики,дадени в колона 3.

Когато става въпрос за програми, пресмятането на квантили е обикновено по -трудно от пресмятането на ф.р. Затова обикновено е автоматизирано пресмятанетона вероятността: αn = P(ξ < fn), (ξ е сл.в. със съответното разпределение, а fn -стойността на статистиката).

Тя носи названието F - probability и така лесно можем да проверим за даде-но ниво на доверие (например, α = 0.95) дали съответната хипотеза се отхвърля.Правилото за избор на оптимална степен съответно става:

n = min{k : αk ≤ α} − 1.

Page 66: Записки по приложна статистика 1

Глава 11

Корелационна матрица

Както видяхме в предните лекции посветени на регресията, един от главните из-числителни проблеми на регресията е лошата обусловеност на матрицата (X ′X).Проблемът не е само изчислителен, но е статистически, тъй като обратната на тазиматрица влиза в всички оценки на дисперсията. Ще разгледаме:

• проблемите с матрицата (X ′X);• начините за пресмятане на корелационна матрица;• начините за корекция (хребетова регресия).

11.1 Проблеми с X ′X

Нека изследваният модел е от вида

y = Xa + ε, (11.1)

където y, ε ∈ Rn, a ∈ Rm, X ∈ Rn × Rm, грешките ε ∈ N(0, σ2I). Тук y и X санаблюденията, а σ2 и a са неизвестни. Съгласно теоремата на Гаус-Марков оценкатасе получава във формата:

a = (X ′X)−1X ′y (11.2)cov(a) = σ2(X ′X)−1 (11.3)

σ2 =1

n−m‖y −Xa‖2. (11.4)

Ако векторът ε има нормално разпределение, то неизместената оценка по методана най-малките квадрати a за вектора a има минимална дисперсия за класа на всичкинеизместени оценки на този вектор.

При отсъствие на предположението за нормалност на вектора ε, то тази оцен-ка има минимална дисперсия за стеснения клас на линейните неизместени оценки.Оттук следва, че оценката aj на параметъра aj ще има минимална дисперсия засъответния клас оценки, но това изобщо не означава, че самата дисперсия ще бъдемалка.

66

Page 67: Записки по приложна статистика 1

11.1. Проблеми с X ′X 67

По-точно, ако матрицата X′X е близка до изродена, така че най-малкото и собс-

твено число, например λp−1, е близко до нула, то "пълната дисперсия"

p−1∑j=0

var[aj] = σ2 tr[(X′X)−1] = σ2

p−1∑j=0

λ−1j > σ2λ−1

p−1

може да се окаже твърде голяма за практически цели. (Тук сумирането е от 0 доp − 1, за да се отчете наличието на константа в модела, при запазване на броя напараметрите p.)

Освен това, че при малки собствени числа на матрицата X′X има чисто изчис-

лителни трудности при обръщането и, проблеми възникват и при работа с ковариа-ционната матрица на вектора на оценките cov(a) = (X

′X)−1σ2.

Например ако искаме да построим доверителен интервал за a, конструирането мустава по следния начин:

(a− a)′(X

′X)−1(a− a)σ2 < Qα,χ2

p,

където Qα,χ2p

е α-процентният квантил на χ2 разпределение с p степени на свобода.Горният израз задава доверителна елипса за стойностите на параметъра a с ниво

на съгласие α (т.е. с вероятност (1−α) векторът на параметрите a се покрива от тазиелипса). Ако обаче матрицата (X

′X)−1 е "лоша"в смисъл, че някои от собствените

и числа са малки, то елипсоидът може да бъде сплеснат. При това положение можеда се получи ситуация, за която самата доверителна област не е твърде голяма зафиксирано ниво на съгласие, но въпреки всичко границите за отделните параметриса големи.

В такава ситуация можем да направим некоректното заключение, че оцененитепараметри са незначими, макар че истинският проблем е от изчислителен характер.Геометрична илюстрация на това за случая в R2 е дадена на фиг.11.1.

Фиг. 11.1: Доверителна елипса за различни стойности на собствените числа наматрицата Σ = (X

′X)−1

Page 68: Записки по приложна статистика 1

68 Глава 11. Корелационна матрица

11.2 Пресмятане на R и примериТук ще се спрем на възприетите в програмите методи за пресмятане на крос-продукти корелационна матрица.

11.2.1 Мащабиране

Първото необходимо действие (и така са написани всички статистически програми)е центрирането и стандартизирането на данните X и Y . Тогава матрицата (X ′X)става корелационна - с единици по диагонала. Нейното поведение става значителнопо предсказуемо. Освен това записването на регресионния модел (със свободен член)става в пространство с единица по-ниска размерност.

Една от причините за лошата обусловеност на матрицата (X ′X) може да бъде то-ва, че в различните стълбове на X са записани числа с различна размерност. Когатомоделът е със свободен член (intercept), обикновено първата колонка на X се състоисамо от единици. Това допълнително увеличава вероятността за израждане.

Изходът е в предварително правилно мащабиране на колоните на X с трансфор-мацията xij = (xij − xj)/σj. Така получената матрица, обаче може да има ”нулеви”колони. Такъв е случая със свободния член – съответната колона се нулира.

Нека отстраним всички такива колони и означим получената матрица с X. Сегамоделът може да се запише еквивалентно във формата:

y = Xb + e, (11.5)

Преходът от едните към другите параметри е очевиден и няма да се спирамена него тук. Да отбележим, че сега матрицата R = X ′X формално става почти”корелационна” - с n− 1 по диагонала и остава положително полу-определена.

Като мярка за степента на близост до изродеността е възприето да се използуваотношението h на минималното към максималното собствени числа - наречено числона обусловеност.

Пример 11.1 Лоша матрица. Да разгледаме простия полиномен модел:

yi = a0 + a1i + a2i2 + a3i

3 + ei, i = 1, 2, . . . , 9.

Да пресметнем двете матрици X ′X и R и степента им на изроденост.

X ′X =

9 45 285 2025

45 285 2025 15333285 2025 15333 120825

2025 15333 120825 978405

, h = 1.3015e− 007

Резултатът е получен със следната ”програма” на MATLAB:

e0=ones(9,1); e1=[1:9]’; e2=e1.*e1; e3=e1.*e2;x=[e0,e1,e2,e3]; ss=x’*x;[u,d,v]=svd(ss); h=d(4,4)/d(1,1)

Page 69: Записки по приложна статистика 1

11.2. Пресмятане на R и примери 69

Продължаваме със следните ”изчисления” пак на MATLAB:

y=x-e0*mean(x); y=y(:,2:4);tx=y./(e0*std(y));ss=tx’*tx; [u,d,v]=svd(ss); h=d(3,3)/d(1,1)

Получаваме следния резултат:

(n− 1) ∗R =

8.0000 7.8022 7.43927.8022 8.0000 7.89897.4392 7.8989 8.0000

, h = 2.1932e− 004 (11.6)

Резултатът е убедителен - с просто скалиране на променливите подобрихме с 3порядъка обусловеността на матрицата X ′X. Матрицата, изписана в равенство (11.6),е само пропорционална на корелационната, но това не оказва влияние на нейнатаобусловеност.

11.2.2 Плаващо средно

Този метод е особено подходящ за пресмятане на средна стойност и крос-продуктматрица при масиви с огромен размер. Независимо от натрупването на грешки повреме на пресмятанията, той дава добри резултати. Даже прекъсвания на входнияпоток информация не повреждат вече получените резултати.Използува се в пакетаBMDP (Dixon 1981). Всяко наблюдение се задава с вектор x(i) и тегло w(i). Обикно-вено w(i) = 1. В паметта се поддържат:

• сумата от теглата w;• текущия вектор на плаващите средни x;• текуща крос-продукт матрица s.

В началото всички тези променливи се нулират. Една стъпка на алгоритъма се задавасъс следната програма:

w = w+w(i)d = x(i)-xx = x + d/ws = s + w*d*(x(i)-x)’

11.2.3 Загубени стойности

На практика често се срещат непълни данни. В определени позиции на матрицатаX отсъствуват по различни причини премерените величини. Прието е тези позициида се наричат загубени (missing values). Нека положим Kj = {k : xk,j не е загубенонаблюдение}. Ако няма загубени стойности, то и Kj = {1, 2, . . . , n}.

Средните стойности xj, например, пресмятаме по формулата:

xj =1

#(Kj)

∑k∈Kj

xk,j, (11.7)

Page 70: Записки по приложна статистика 1

70 Глава 11. Корелационна матрица

Извадъчната корелационна матрица се пресмята, най-общо казано, по формулата:

ri,j =

∑k∈Ki,j

(xki − xi)(xk,j − xj)√∑k∈Ki

(xk,i − xi)2∑

k∈Kj(xk,j − xj)2

,

където Ki,j са подходящо избрани подмножества на множеството от възможни наб-людения. Ако няма загубени стойности Ki,j = {1, 2, . . . , n}.

В Statistica се предприемат специални мерки при пресмятането и, когато в дан-ните се срещат загубени стойности.

• (casewise) изключват се от пресмятанията всички наблюдения, в които има за-губени стойности (K :=

⋂m Km, Kj := K, Ki,j := K);

• (pairwise) смятане по двойки (Ki,j := Ki

⋂Kj);

• (substitution by means) заместване със средна.

Първата възможност може (и трябва) да се използува при наличие на достатъченброй пълни наблюдения. Тя осигурява ”правилна” корелационна матрица - положи-телно определена. Към втората и (особено третата) прибягваме в противен случай.

Да отбележим, че професионалните пакети като BMDP (Dixon 1981) предлагатспециални програми за ”възстановяване” на загубените стойности базирани в товачисло и на регресионен анализ.

11.3 Методи за корекция

Когато, след всички предприети по-горе мерки, не сме в състояние да получим ”доб-ра” корелационна матрица за предикторите, т.е. тя е почти изродена, а всички пре-диктори ни трябват за интерпретацията на регресионния модел, преминаваме къмхребетова регресия.

В следващите сметки винаги ще предполагаме, че работим с корелационна мат-рица R = (X ′X), т.е. данните са центрирани и нормирани. Първо да отбележим, чематрицата R може да бъде представена във формата

R = UDU ′, D =

d1 0 · · · 00 d2 · · · 0· · ·0 0 · · · dm

(11.8)

Ковариационната матрица на оценката има вида:

cov(a) = σ2(X′X)

−1= σ2R−1.

Средно квадратичната грешка на стандартната оценка е (R−1 = UD−1U ′):

E ‖a− a‖2 = tr(cov(a)) = σ2

m∑i=1

1

di

(11.9)

Page 71: Записки по приложна статистика 1

11.3. Методи за корекция 71

За да намалим тази грешка вместо стандартната a = R−1X ′Y , да разгледаме новаоценка: a = R−X ′Y . Матрицата R− ще определим по-късно. За тази нова оценкаимаме:

E a = R−X ′E (Xa + E) = R−Ra,

cov(a) = σ2R−RR−. (11.10)

Сега за средно квадратичната грешка получаваме:

E ‖a− a‖2 = tr(cov(a)) + ‖E a− a‖2

= σ2 tr(R−RR−) + ‖(R−R− I)a‖2. (11.11)

За определянето на подходяща матрица R− се използуват два метода.

11.3.1 Метод на Marquardt

Нека R− = (R + εI)−1, където I е единичната матрица, a ε е подходящо подбранаконстанта. Нека пресметнем нейната средно квадратична грешка съгласно формула(11.11).

E ‖a− a‖2 = σ2 tr(R−RR−) + ‖(R−R− I)a‖2 =

= σ2

m∑i=1

di

(di + ε)2+ ε2‖R−a‖2. (11.12)

Тук използувахме, че

R−R− I = (R + εI)−1(R + εI)− (R + εI)−1ε− I = −εR−

Така подбирайки ε във формула (11.12) можем да постигнем значително намале-ние на грешката по сравнение с формула (11.9). Да отбележим, че ‖R−a‖2 ≤ ‖R−1a‖2,което е фиксирано число макар и неизвестно.

Методът на Marquardt така, както беше показан тук, всъщност е частен случайна по-общия метод на Levenberg-Marquardt. Последният е модификация на метода наНютон-Гаус. Повече подробности за тези методи и приложенията им в регресионнияанализ могат да бъдат намерени в (Демиденко 1989).

11.3.2 Главни компоненти

Казано накратко, анализът на главните компоненти включва математически про-цедури, трансформиращи известен брой (евентуално) корелирани променливи в по-малко на брой некорелирани променливи, наречени главни компоненти.

Главните компоненти се подреждат според степента, с която описват поведени-ето на първоначалните променливи – първите главни компоненти са с най-голямозначение, всеки следващ обяснява все по-малка част от "неописаните"зависимости.

Традиционно методът на главните компоненти се прилага при описването на зави-симостите присъстващи в ковариационна матрица (за повече подробности вж. главаФакторен анализ).

Page 72: Записки по приложна статистика 1

72 Глава 11. Корелационна матрица

Друг проблем, който налага използуването на този метод е подобрената интерп-ретация на регресионния модел подобна на тази във факторния анализ - откликътсе представя като функция от нови изкуствени променливи - фактори.

Нека сега зафиксираме някое k < n и определим матрицата R− по следния начин:

R− =

d−11 0 0 · · · 0 0 0 · · · 00 d−1

2 0 · · · 0 0 0 · · · 0· · ·0 0 0 · · · 0 d−1

k 0 · · · 00 0 0 · · · 0 0 0 · · · 0· · ·0 0 0 · · · 0 0 0 · · · 0

.

Нека пресметнем средно квадратична грешка на оценката a = R−X ′Y съгласноформула (11.11).

E ‖a− a‖2 = σ2 tr(R−RR−) + ‖(R−R− I)a‖2 =

= σ2

k∑i=1

1

di

+ ‖ − UDn−kU′a‖2. (11.13)

Тук матрицата Dn−k е диагонална с (n− k) единици накрая в диагонала.И пак, като подбираме k можем така да балансираме двете грешки във формула

(11.13), че сумата им да бъде значително по-малка от тази на формула (11.9).

Page 73: Записки по приложна статистика 1

Глава 12

Анализ на остатъците

В тази тема ще се спрем на един от най-популярните методи за проверка на моделав многомерната регресия. Ще разгледаме

• методите за проверка на хипотезата за разпределението на грешката;• методи за откриване на несъстоятелни наблюдения;• проверка за наличие на различни модели в данните.

Най-добрата книга по въпроса е на (Attkinson 1990), много полезна информацияи примери могат да бъдат намерени в (Кокс и Снелл 1984) и (Дрейпер и Смит 1973).

12.1 Разпределение на остатъците

Тук ще се опитаме да сумираме свойствата на модела, които следват от представя-нето (X = (x1, x2, . . . , xn)′):

Y = Xa + E, Y = HY, H = X(X ′X)−1X ′. (12.1)

При това за простота ще смятаме, че матрицата от данни е центрирана: e′X =0, e′Y = 0.

Тъй като остатъците се определят като: R = Y − Y получаваме:

Y = HY = H(Xa + E) = Xa + HE

R = Y − Y = (I −H)Y = (I −H)E

Тъй като матрицата H е проектор, то и I − H е такъв. Значи при верен моделте имат гаусово разпределение, но в подпространство на Rn с размерност n− 1−m,където m = rang(X).

73

Page 74: Записки по приложна статистика 1

74 Глава 12. Анализ на остатъците

Проверка за нормалност

На хистограмата, при значителен брой наблю-дения лесно се забелязват както отклонения отнормалността, така и наличие на големи остатъ-ци. Могат да се приложи и χ2-тест за нормал-ност.

Фиг. 12.1: Хистограма на остатъцитеВероятно това е най-възприетата и лесна про-верка. Нормалната хартия има и вариант с отс-транен тренд, който е още по-показателен. Теж-ки опашки се проявяват в S образно изменение,а обратното S се получава при разпределениеблизко до равномерното.

Фиг. 12.2: Нормална хартия

Статистика на Дърбин - Уотсън

Проверка за наличие на друга, не обусловена от модела зависимост, например, зна-чима автокорелация.

Durbin-Watson d (coxsnell.sta)serial correlation of residuals

Durbin- SerialWatson d Corr.

Estimate 1.807608 .086171

Таблица 12.1: Durbin-Watson

12.2 Видове остатъци

Анализирането на остатъците е сред най-важните и използувани методи за откриванена несъстоятелни наблюдения. Обикновено това са наблюдения с рязко отклоняващисе стойности било в някои от предикторите, било в отклика.

Причините за поява на такива наблюдения може да са различни:

• грешка при записване на стойността,

• наблюдението е от друга група.

Page 75: Записки по приложна статистика 1

12.2. Видове остатъци 75

Във всеки случай те не се съгласуват с модела. За да разгледаме влиянието наотделните наблюдения да означим с hii, i = 1, 2, . . . , n диагоналните елементи на H.Тогава:

hii = x′i(X′X)−1xi.

При нарастване на броя на наблюденията естествено hii → 0.От друга страна да си спомним как се оценява дисперсията на конкретно наблю-

дение y в точката x и я приложим за оригиналните наблюдения:

σ2i = σ2(1 +

1

n+ hii). (12.2)

къдетоσ2 = RMS =

1

n−m− 1‖Y − Y ‖2 =

=1

n−m− 1‖(I −H)E‖2 d

=σ2

n−m− 1

n−m−1∑i=1

ξ2i .

Да си спомним, че ei ∈ N(0, σ2) и ξi ∈ N(0, 1).Прието е, освен обикновените остатъци ri, да се изучават следните диагностични

величини:

• стандартизирани остатъци - ri/σi

• jack-knive остатъци - пресметнати по модел от който е изключено конкретнотоi-то наблюдение;

• разстояния на Махалонобис на предикторите от центъра -

m2i = nx′i(X

′X)−1xi = nhii;

• разстояния на Cook - друга функция от hii, отразяваща влиянието на наблю-дението върху коефициентите на регресията.

Така, ако всичко е наред с нашите наблюдения,

• остатъците от всички видове трябва да изглеждат добре на хистограмата;• разстоянията на Махалонобис mi не трябва да стават прекалено големи.• разстоянията на Cook също не трябва да надхвърлят определени стойности.

За данните с престъпността, обаче нещата не изглеждат така добре. Остатъцитеот всички категории са добре разпределени, но

Разстоянията на Махалонобис mi са прекаленоголеми. При това ясно се вижда двугърбо разп-ределение, което се дължи вероятно на южнитещати - 17 на брой. Променливата S не е вклю-чена.

Фиг. 12.3: Махалонобис

Page 76: Записки по приложна статистика 1

76 Глава 12. Анализ на остатъците

Ако се погрижим тя да участвува сред предик-торите, получаваме съвсем друга картинка.

Фиг. 12.4: МахалонобисРазстоянията на Cook показват наличието на 1-2 наблюдения прекалено силно влияещи на мо-дела

Фиг. 12.5: Cook’s

12.3 ГрупиранеРисунката 12.3 ни навежда на мисълта, че ще трябва да разглеждаме по отделносеверни и южни щати. Ако се опитаме да строим независими регресионни модели задвете групи наблюдения ще се окаже, че не разполагаме с достатъчно данни.

Прието е, модели в които се включват едновременно категорни и количестве-ни предиктори да се групират под названието ковариационен анализ. С тях ще сезапознаем в темата за Дисперсионен анализ. За съжаление, обаче в регресионнатапрограма на пакета Statistica това не е възможно.

Page 77: Записки по приложна статистика 1

Глава 13

Факторен анализ

Факторният анализ е възникнал като задача при обработката на данни от психо-социологични анкети. При тези проучвания обикновено се предполага, че изслед-ваното явление се описва с неизвестен (малък) брой фактори, които не можем даизмерваме директно. Вместо тях можем да наблюдаваме голям брой променливи,които са функции от тях (за простота тези функции обикновено се приемат за ли-нейни).

13.1 Обзор

Търси се представяне на данните във формата:

X = FL + E. (13.1)

Основните задачи на факторния анализ са:

1. Да се определи броят на факторите, достатъчни за описание на явлението (втората размерност на матрицата F );

2. Да се намерят факторите. Това означава да се изчислят коефициентите налинейните функции L, представящи променливите (посредством факторите) истойностите за така определените фактори върху отделните обекти F .

3. Да се интерпретират получените резултати в термини на предметната област наданните. Разбира се, тази задача трябва да се решава съвместно от статистики съответен специалист.

Такава ситуация не е изключение. В статистическите изследвания се получават ра-зумни резултати само при тясно сътрудничество между специалистите от двете об-ласти.

13.1.1 Главни компоненти

Предложеният от Хотелинг (Харман 1972) метод на главните компоненти позволявада определим доколко определен брой фактори описват явлението, т.e. донякъде да

77

Page 78: Записки по приложна статистика 1

78 Глава 13. Факторен анализ

решим задача 1. Той има и това достойнство, че същевременно решава и вторатазадача. Фактически в този метод тя се решава преди първата.

Главните компоненти съответствуват на осите на елипсоида на разсейване на точ-ките, представящи обектите (данните), в пространството на наблюдаваните промен-ливи. Техният брой е равен на броя на променливите. Главните компоненти могатда бъдат разглеждани като фактори, т.e. като нови променливи, които изцяло опис-ват извадката и са независими. Тази независимост позволява да представим общатадисперсия на извадката като сума от дисперсиите на новите променливи. Отстра-нявайки част от факторите, тези които имат незначителна дисперсия (разсейване)можем да дадем задоволително описание на свойствата на извадката с намален бройнови променливи.

13.1.2 Вариамаксна трансформация

Така избраните фактори са линейни функции на оригиналните променливи, но етрудно да бъдат интерпретирани. За по-лесно решаване на задача 3 - намиране наудобни за интерпретация фактори, съществуват редица други методи. Един от най-прилаганите е така наречената вариамаксна трансформация. За да изложим идеятай ни е необходима малко терминология.

Във факторния анализ са приети следните названия:

• Факторни тегла се наричат коефициентите на разлагане на оригиналните про-менливи по факторите - L.

• Факторни стойности се наричат оценените стойности на факторите за всяконаблюдение - F .

• Общност - това е относителната дисперсия на всяка променлива в новото й опи-сание. Т.e. общностите показват доколко стойностите на конкретната промен-лива могат да бъдат предсказвани или възстановени от факторните стойности.

Идеята на варимакс - трансформацията е така да бъдат променени факторите, чете да запазят добрите си свойства (пълнотата на описание на извадката като цяло)и да получат по-добри интерпретативни качества. Преразпределят се факторнитетегла като големите нарастват, а малките намаляват, което води до това, че всекифактор се обяснява от по-малко на брой променливи. Разбира се, за това се плаща.Факторите вече не са така независими. Променят се общностите на променливите.

За да навлезем в кухнята на факторния анализ трябва да поясним какво разби-раме под термина разсейване на извадката. Ако си представим наблюденията катооблак от точки в пространството, то естествена характеристика на този облак бихабили неговата форма и размер. Те се отразяват до известна степен в ковариационнатаматрица. Естествено е, че тази характеристика не би трябвало да зависи от коорди-натните системи, в които са правени измерванията. Единствената инвариантна в тозисмисъл статистика е корелационната матрица.

Точно тя е и обект на класическия факторен анализ. (Методика А). Пълнатадисперсия на извадката не се използува от тази методика.

Съществуват обаче редица варианти на факторния анализ, които използуват дру-ги аналогични матрици, като интерпретацията е естествено различна. Използува се

Page 79: Записки по приложна статистика 1

13.2. Теория 79

факта, че изчислителните му процедури се нуждаят съществено само от свойствотосиметричност на корелационната матрица.

Интересен пример за използуване на факторния анализ е така наречената "ме-тодика В". Тя се състои в замяна на редовете и стълбовете в матрицата от данни -т.e. разглеждане на наблюденията като променливи. Получените от такава матрица"корелации"говорят за близостта на наблюденията, а факторите определят групи отблизки обекти. Естествено е използуването на тази методика, когато имаме голямброй променливи и неголям брой наблюдения.

Друга възможност се появява с наличието на групиращи променливи. Тогаваизползуването на съответните аналози на корелацията дава възможност за редицанови интерпретации на получените променливи. Например, използуването на вът-решно групови корелации отразява разсейването на данните, след като е отстраненовлиянието на групиращите променливи. Факторите в този случай описват променли-ви, които са центрирани с груповите средни. Когато пък използуваме между груповикорелации, всъщност описваме разсейването точно на тези групови средни стойностии по този начин влиянието на групиращите променливи.

Тези особености определят интерпретацията на получените с факторния анализрезултати. Накрая ще подчертаем, че процедурата на факторния анализ не е на-пълно формализирана от статистическа гледна точка. Все още няма статистическикритерий за проверка на правилността на получените решения. Единствен критерийза адекватност на получените модели е тяхната практическа използваемост.

13.2 Теория

13.2.1 Корелационна матрица

Корелационната (или ковариационна) матрица на случаен нормален вектор в m -мерното пространство е симетрична и неотрицателно определена. Следователно тяможе да бъде представена в т.н. спектрална форма:

S =m∑

i=1

aieie′i (13.2)

Тук числата {a1, a2, . . . , am} се наричат собствени числа, а векторите {ei, i =1, 2, ...m} - собствени вектори, защото удовлетворяват уравнението:

Sei = aiei (13.3)

Те са ортогонални, с единична норма и образуват базис в m-мерното евклидово прос-транство. Представянето (13.2) е единствено, ако сред собствените числа a(.) нямаеднакви.

13.2.2 Метод на главните компоненти

Хотелинг е показал, че решението на задача 2., формулирана в първия параграф,при фиксирано k се дава от подпространството, образувано от първите k собствени

Page 80: Записки по приложна статистика 1

80 Глава 13. Факторен анализ

вектора. Действително, ако разгледаме цялото разсейване на извадката - числотоS2 =

∑||xi||2 (предполагаме центрираност на данните), то естествено е да търсим

това подпространство H с размерност k (за фиксирано k, 1 ≤ k ≤ m), за коетоексперименталните точки биха се преместили минимално при своето проектиране Pвърху него. Тогава най-малко би се изменила и дисперсията S2, което се вижда оттъждеството:

S2 =∑

||xi||2 =∑

||Pxi||2 +∑

||xi − Pxi||2

Изборът на броя на факторите k в представянето на информацията за извадката,обикновено се прави от изискването възможно най-пълно да бъде представено общо-то разсейване на извадката ((Ян и Вале 1974), стр.102):

n∑i=1

||Pxi||2 ≥ .95n∑

i=1

||xi||2 (13.4)

Друг, също често срещан критерий на практика, е избора само на собственитевектори със собствени стойности, които са по-големи от единица. Наистина, когатоизползуваме корелационна матрица

∑ai = trR = m . Той се нарича критерий на

Кайзер. Всъщност, само окончателните резултати могат да оправдаят правилнияизбор на k.

Когато броят на факторите е избран, решението получено по метода на главнитекомпоненти може да бъде записано така 13.1:

X = FL + E. (13.5)

Тук X ∈ Rn×m е матрицата на центрираните и нормирани наблюдения, F ∈ Rn×k - сафакторните стойности, L ∈ Rk×m - са факторните тегла, а E ∈ Rn×m - грешките. Ре-шението дава минимум на функционала trE ′E. Наистина, нека разгледаме следнотопредставяне на матрицата X = UDV , обикновено се нарича svd или singular valuedecomposition. Тук U ∈ Rn×n и V ∈ Rm×m са ортогонални, а D ∈ Rn×m - ”диагонална”с неотрицателни елементи (di,i ≥ di+1,i+1).

Тогава имаме следното представяне на ковариационната матрица

X ′X = V ′D′U ′UDV = V ′D′DV =m∑

i=1

d2i,iviv

′i, (13.6)

Така като фиксираме k и означим с ()k операцията ”орязване”на първите k стълбана една матрица, получаваме F = n−1/2(UD)k, L′ = (V ′)k. Числата d2

i,i/n са диспер-сиите на факторите, a

∑ki=1 l2i,j са така наречените общности на променливите. Те

обясняват каква част от тяхната дисперсия е обяснена с така подбраните фактори.Матрицата L ∈ Rk×m се нарича понякога ”сурова” и много често се представя в

нормиран вид - стълбовете и се нормират с квадратен корен на общностите. Товаоблекчава интерпретацията.

Page 81: Записки по приложна статистика 1

13.3. Пример 81

13.2.3 Въртения на факторите

Сред многото методи, облекчаващи интерпретацията на факторите, може би най-популярен е методът на варимакс - трансформацията ((Ян и Вале 1974), стр.122).Той се състои в максимизиране на функционала:

minK

V ar(KL) = minK

k∑i=1

σ2(i), (13.7)

по всевъзможния избор на факторите във вече фиксираното подпространство H. Тукσ2(i) означава "дисперсията"на (нормираните с общностите или сурови) факторнитегла, a K ∈ Rk×k e ортогонална матрица. Теглата на даден фактор са записани поредове в L.

Когато максимизираме дисперсията по променливи (по стълбове) на тези тегла,съответния метод се нарича квартимакс. Той също може да се прилага към сурови-те или нормирани тегла. Съществуват варианти на едновременна максимизация напретеглена сума на двата функционала.

• биквартимакс - двата функционала са с равно тегло;• еквимакс - варимакс функционалът е с тегло k/2.

Тъй като цел на всички тези методи е подобряване на интерпретацията, оправ-данието за избор на един или друг е чисто субективното впечатление от изводите.

Сериозно математическо изложение на факторния анализ може да се намери в(Харман 1972), а ред математико - статистически критерии в (Г.П.Климов 1975),стр.228 - 240. От приложна гледна точка процедурите му са изложени в (Ян и Вале1974).

13.3 ПримерЩе използуваме данни, описани подробно в П1.1. Тези данни са събирани с целизследване на нивото на престъпност (променлива R). ето защо тя би следвало да сеизследва като функция на останалите променливи, които характеризират донякъденаблюдаваните обекти (щати).

С помощта на факторния анализ ще потърсим по-компактно описание на щатите.Това описание може да се използува после и в регресионния анализ за изучаване навлиянието на така установените фактори върху престъпността. По тези причинипроменливата R засега ще бъде изключена от данните. Променливата S (севернищати - 0, южни - 1) е естествено да се разглежда като групираща.

Междугруповата корелация се използува, когато броят на групите е голям и сеинтересуваме от влиянието на групиращите променливи. Ковариационни матрицивъв факторния анализ се използуват главно в методика B или когато променливитеса измерени в еднакви скали.

Ще изследваме последователно и двете смислени възможности - с или без гру-пиращата променлива. Нека първо изпълним ГЛАВНИ КОМПОНЕНТИ - намирамесобствените вектори и собствени числа на избраната матрица. Следва да определим

Page 82: Записки по приложна статистика 1

82 Глава 13. Факторен анализ

БРОЙ НА ФАКТОРИТЕ . Виждаме, че само първите четири главни компонента сас по-големи от единица собствени стойности и изчерпват 85% от общото разсейване.

Eigenvalues (coxsnell.sta)Extraction: Principal components

% total Cumul. Cumul.Eigenval Variance Eigenval %

1 5,651763 43,47510 5,65176 43,475102 2,520225 19,38635 8,17199 62,861453 1,905915 14,66089 10,07790 77,522344 ,975680 7,50523 11,05358 85,02757

Таблица 13.1: Брой на факторите

Както се вижда, добавянето на пети фактор няма да подобри съществено описаниетона данните. Избраните четири фактора подлагаме на ВАРИМАКС трансформация.Резултатът - факторната матрица изглежда така:

Factor Loadings (Varimax normalized) (coxsnell.sta)Extraction: Principal components

Factor 1 Factor 2 Factor 3 Factor 4AGE -,754775 -,335004 -,216132 ,131880ED ,714933 ,301968 -,165533 ,456024EX0 ,271013 ,936232 ,025773 ,071201EX1 ,286739 ,930553 ,014500 ,058661LF ,301987 ,057314 -,422428 ,676215M ,143431 -,083612 ,208971 ,923847N -,026020 ,686080 ,067863 -,42640NW -,911532 ,071407 -,015773 -,15538U1 ,148925 -,116386 ,933160 ,163664U2 -,064235 ,215195 ,913280 -,16023W ,674558 ,649078 ,011219 ,145555X -,805650 -,431225 ,032204 -,11271S -,847109 -,132825 ,011559 -,25299Expl.Var 4,027817 3,116707 2,008122 1,90093Prp.Totl ,309832 ,239747 ,154471 ,146226

Таблица 13.2: Факторни тегла

Подобен резултат получаваме и като използуваме общата корелационна матрица(без включена S).

Page 83: Записки по приложна статистика 1

13.3. Пример 83

Factor Loadings (Varimax normalized)(coxsnell.sta)Extraction: Principal components

Factor 1 Factor 2 Factor 3 Factor 4AGE -,311928 ,096624 -,207659 -,779254ED ,267644 ,491360 -,159864 ,717398EX0 ,921361 ,089664 ,026148 ,302728EX1 ,913643 ,076772 ,014232 ,321696LF ,065698 ,717774 -,404737 ,227964M -,105279 ,920085 ,230250 ,114229N ,720774 -,397862 ,061881 -,035906NW ,097894 -,195179 -,012646 -,898593U1 -,116102 ,149181 ,936299 ,131003U2 ,219377 -,180263 ,910103 -,045086W ,616907 ,177462 ,009573 ,705527X -,398354 -,146393 ,036147 -,822760Expl.Var 2,997946 1,930522 1,996722 3,384701Prp.Totl ,249829 ,160877 ,166393 ,282058

Таблица 13.3: Факторни тегла

без S

Нека сравним тези две факторни матрици. Зацелта да отбележим в таблиците големите (по-големи от .65) факторни тегла. Веднага се виж-да, че факторите (колоните) са разместени, ноостаналите разлики между двете матрици санезначителни. С други думи, групирането по се-верни и южни щати не оказва влияние на нап-равлението на факторите, а само променя дис-персиите им.

Фиг. 13.1: Фактор2

Да се опитаме да направим интерпретация на така получените фактори, като сепридържаме към номерацията в матрицата в таблица 13.2.

В първия фактор (който така силно зависи от стойностите на S) освен тазипроменлива участвуват възрастта, ниския образователно ниво, съотношението бели-черни, ниския доход и високата степен на социално неравенство (AGE, ED, NW, X, W, S). Всичко това може би отразява положението на цветното население в САЩ,което е концентрирано в южните щати. Нека го наречем "север-юг" (N/S). Във таб-лица 13.3 той е попаднал на последно място, но това е грешка на програмата - битрябвало факторите да са наредени по големината на дисперсията си.

Page 84: Записки по приложна статистика 1

84 Глава 13. Факторен анализ

Вторият фактор свързва с големи тегла разхо-дите за полиция, населението, отчасти и сред-ният доход (EX0, EX1, N , W). Имаме извест-но основание да свържем този фактор с усилия-та полагани от управлението на щата в борбатас расовите проблеми, престъпността и изобщоподдържането на реда. Естествено е тези усилияда са пропорционални на средния доход и да сеотразяват главно от полицейските разходи. Не-ка го наречем условно по името на най-силнатапроменлива ”полиция” (POLICE).

Фиг. 13.2: Фактор3Третият фактор обединява двата вида безработица (U1, U2 ). Нека го наречем

”безработица” (UNEMPLOIMENT).Последният, четвърти фактор обединява броят на младите мъже, трудовата им

активност и донякъде образователното ниво (M, LF , ED). Като че ли този фак-тор отразява активността на мъжете в живота, трудовия потенциал на щата, нонегативно зависи от броя на населението. Да го наречем активност (ACTIVITY) иотбележим, че тя се проявява предимно при щатите с малко население.

По този начин създадохме четири нови (изкус-твени) променливи и можем да пресметнем тех-ните стойности за различните щати с цел по-нататъшно изследване. Това правим с помощ-та на матрицата F ФАКТОРНИ СТОЙНОСТИ.Трябва да я запазим във нов файл. Ще запазимзаедно с тези 4 фактора и променливите R и S,за да можем по лесно да интерпретираме резул-татите.

Фиг. 13.3: Фактор4

Page 85: Записки по приложна статистика 1

Глава 14

Дисперсионен и ковариационенанализи

Дисперсионният анализ е част от статистиката, изучаваща влиянието на една илиняколко групиращи променливи върху една количествена. Както и в регресията, еприето тази зависима променлива да се нарича отклик. Предикторите, обаче тук сенаричат фактори. В основата на дисперсионния анализ лежи възможността суматаот квадрати на отклонения на отклика SSY да бъде разложена на няколко незави-сими суми от квадрати, като по този начин става възможна проверката на различнихипотези за влияние на факторите върху отклика.

14.1 Понятия

В дисперсионния анализ е възприето групиращата променлива да се нарича ”фак-тор”, стойностите й - ”нива” на фактора, а отклоненията на средните стойности нагрупата от общата средна - ”ефекти”. Така с всяко ниво на фактора е свързан единефект. Ако групите са определени от една групираща променлива, казваме, че сеизвършва ”еднофакторен” анализ. Когато факторите са няколко, определянето нагрупите е по - сложно. Анализът се нарича ”многофакторен”.

При двуфакторния анализ, например, се разглеждат, както прости ефекти, свър-зани с влиянието на всеки фактор поотделно, така и смесени ефекти. Двете групи-ращи променливи определят толкова групи, колкото е произведението от броя нанивата на двата фактора. Толкова са на брой и смесените ефекти, които отразяватсъвместното влияние на факторите върху отклика. Ако се окаже, че такова съвмес-тно влияние отсъствува, т.е. съвместните влияния са малки, следва да се проверяватза значимост простите ефекти.

Основната задача, която се решава с помощта на дисперсионния анализ, може дасе формулира най - просто така: да се провери хипотезата дали съвпадат среднитестойности на отклика в няколко различни групи от наблюдения. Ако тази хипотезасе отхвърли, необходимо е да се оценят различните средни стойности за всяка група.В този случай се казва, че търсим фиксирани ефекти или разглеждаме модел I.

Друг подход в дисперсионния анализ е оценката на така наречените случайни

85

Page 86: Записки по приложна статистика 1

86 Глава 14. Дисперсионен и ковариационен анализи

ефекти или модел II. Приема се, че факторът определя ефекти, които са независими,нормално разпределени, със средни стойности нула и дисперсия, една и съща завсички нива на фактора. Хипотезите, които се проверяват при използуване на такъвмодел се отнасят до стойността на тази дисперсия. Въпреки че хипотезите за дватамодела са различни, статистиките, с които те се проверяват понякога съвпадат -например, при един фактор.

При повече фактори нещата се усложняват неимоверно. Ограниченото място непозволява подробното им излагане. При желание читателят може да се запознаеподробно с тях в (Шеффе 1963) и по - популярно в (Афифи и Айзен 1982). Прието ерезултатите от дисперсионния анализ да се представят в така наречените таблици надисперсионния анализ. В тези таблици за всеки прост или смесен ефект се представясъответната сума от квадрати на отклоненията заедно със степените си на свобода.Така, сравнявайки в определен ред нормираните суми от квадрати с критерия наФишер, може да се получи представа за влиянието на ефектите.

Най-голяма популярност дисперсионният анализ е придобил в областта на селс-костопанския експеримент. С негова помощ се изучава влиянието на различни видоветорове и почви върху добива при различни природни условия и под въздействиетона редица ненаблюдаеми фактори. Това приложение на дисперсионния анализ в об-ласт, където отделно взетия експеримент е скъп и продължителен, още при самотому възникване е поставило пред математиците задачата за оптимизиране на броя напровежданите експерименти.

Една голяма част от литературата по дисперсионен анализ е посветена на плани-рането. В решаването на този проблем са привлечени много математически резултатиот други области на математиката, а за експериментаторите се публикуват сборни-ци от планове удовлетворяващи щирок кръг изисквания, произвеждат се програмнисистеми генериращи такива планове и т.н. В много случаи прилагането на диспер-сионния анализ е еквивалентно на прилагането на регресионния (например, когатовсички групиращи променливи - фактори притежават само по две нива), но дажеи в този случай поради вложените в себе си възможности да изучава съвместнотовлияние на факторите той с лекота отговаря на въпроса, кои фактори и в каквакомбинация влияят на отклика.

Често се използуват думите дисперсионен анализ и за редица тестове, провежданикато част от други статистически процедури (вж.например, проверка на адекватностна регресионен модел) и то с пълно основание.

14.2 Основен модел

Математическата литература по дисперсионен анализ е почти необозрима. Това седължи главно на факта, че в основата му лежи планирането на многофакторниексперименти, тяхното оптимизиране за задачите поставени от експериментатора.Тук ние ще приведем само елементарните формули за еднофакторен експеримент.Анализът на двуфакторен експеримент, даже и с равен брой наблюдения в клетка,се разклонява в зависимост от типа на ефектите - фиксирани и случайни, прости исмесени и т.н. Класическата книга (Шеффе 1963) би представлявала полезно пособие

Page 87: Записки по приложна статистика 1

14.2. Основен модел 87

за едно сериозно навлизане в тази област.Моделът на еднофакторния дисперсионен анализ с фиксирани ефекти се записва

като регресионен модел по следния начин:

y = Zµ + e

yij = m + ai + εij. (14.1)

Тук с ai сме означили ефектите - влиянията съответствуващи на нивата на факто-ра, а грешките с ε - независими случайни величини с разпределение N(0, σ2). Индек-сите i описват възможните нива на фактора, а j - наблюденията в рамките на еднофиксирано ниво. Ясно е, че ако се опитаме да поставим като предиктори изкуственивектори състоящи се от нули и единици, тази задача би съвпаднала напълно със за-дачата на регресионния анализ. Съществува обаче проблем в нейното решаване, тъйкато рангът на получената матрица е по - малък от необходимия. Затова се налагат(повече или по - малко естествени) ограничения върху оценяваните параметри. Вслучая това е ограничението ∑

i

ai = 0. (14.2)

Сега вече сме в състояние да извършим оценяване на параметрите на този моделпо метода на най - малките квадрати и, (при положение, че имаме достатъчно наб-людения за всяко ниво на фактора) да проверим, например, хипотезата H0 : a = 0.

Съответното разлагане на SSy в този случай изглежда така∑i

∑j

(yij − y..)2 =

∑i

∑j

(yi. − y..)2 +

∑i

∑j

(yij − yi.)2, (14.3)

или SSy = SSm + SSr. С точки вместо индекси (по традиция в дисперсионнияанализ) са означават усреднявания по съответните индекси.

Тук SSr е остатъчната сума от квадрати, а SSm отговаря за влиянието на фак-тора върху отклика. При изпълнена хипотеза H0 : α = 0 двете събираеми са пропор-ционални на Хи-квадрат със степени на свобода съответно N −M и M − 1 (с M смеозначили броя на непразните нива на фактора, а с N – общия брой наблюдения). Fстатистиката строим по естествената формула

F = (SSm/(M − 1))/(SSr/(N −M)) (14.4)

и отхвърляме хипотезата, ако тя надхвърли критичната стойност на съответноторазпределение на Фишер.

Естествено и тук могат да бъдат избрани по-сложни алтернативи от тривиалната– пълен модел. Такава може да бъде например хипотезата: H1 : a1 = −a2. Притакава проверка ролите на SSm и SSr се заемат от други суми от квадрати. Такивапомощни алтернативи се наричат контрасти.

Page 88: Записки по приложна статистика 1

88 Глава 14. Дисперсионен и ковариационен анализи

14.3 Множествени сравненияВ много случаи ни е необходимо да направим едновременно заключение за много отпараметрите наведнаж. Можем да използуваме следното знаменито неравенство наБонферони:

P(∩Ii) ≥∏

P(Ii). (14.5)

Така, ако Ii са доверителни интервали за M зависими параметъра ai с ниво на до-верие 1 − α/M , то ∩Ii е съвместен доверителен интервал за всичките параметри сгарантирано ниво на доверие 1 − α. Тези доверителни интервали обаче са твърденеточни (големи). Затова в тази секция ще разгледаме два метода за построяване насъвместни доверителни интервали особено подходящи за линейни модели.

14.3.1 Метод на Тюки

Да разгледаме, например модела (14.1). Да си поставим следните задачи:

1. Да намерим доверителни интервали Ii за параметрите βi = m + ai, такива, че

P(∩i{βi ∈ Ii}) ≥ 1− α, (14.6)

2. Да намерим доверителни интервали Ii,j за параметрите ai − aj, такива, че

P(∩i<j{ai − aj ∈ Ii,j}) ≥ 1− α. (14.7)

Ще започнем решението на задача 1 със следната постановка. Нека броят нанивата на фактора е фиксиран M и броят на наблюдения за всяко ниво – еднакъвk. Търси се константа C такава, че да е изпълнено следното равенство:

P(∩i{|βi − yi,.| < Cs}) ≥ 1− α, (14.8)

където s2 = SSr/(n − 1)k е естествената неизместена оценка на дисперсията σ2.Имаме SSr/σ ∈ χ2

M(k−1).Оценките на βi са независими и независими в съвкупност от s. Следователно

P(∩i{|βi − yi,.| < Cs}) = P(maxi

(|βi − yi,.|) < Cs)

= P(maxi

(k−1/2|βi − yi,.|

σ) < Ck−1/2 s

σ) = P(

maxi |ξi|η

< Ck−1/2),

където ξi ∈ N(0, 1) са независими, а M(k − 1)η2 ∈ χ2M(k−1).

Това разпределение зависи само от два параметъра (k,M) и несложно може да сетабулира. Пресмятаме от там търсената стойност на C за зададеното ниво на довериеα и така получаваме точен съвместен доверителен интервал:

∩Ii = ∩{yi,. − Cs, yi,. + Cs}.

Page 89: Записки по приложна статистика 1

14.3. Множествени сравнения 89

Втората задача решаваме аналогично:

P(∩i<j{|ai − yi,. − aj + yj,.| < Cs}) =

= P(maxi<j

(|βi − yi,. − βj|+ yj,.) < Cs)

= P(maxi<j |ξi − ξj|

η< Ck−1/2).

Сега интервалите за проверка имат вида:

Ii,j = {yi,. − yj,. − Cs, yi,. − yj,. + Cs}. (14.9)

Двете разпределения, които се използуват в метода на Тюки са табулирани имогат да се намерят, например в (Hartley and Pearson 1966).

14.3.2 Метод на Шефе

При сравненията по двойки използувахме разликите βi − βj. Понякога се налага дасе сравняват групи параметри. Например, при обработката на почва по 4 различниначина при 2 от тях внасяме азотен тор, а при другите 2 не внасяме. Ясно е, че бихмемогли да оценим например контраста (функцията):

φ = 1/2(β1 + β2)− 1/2(β3 + β4).

Когато обаче отнапред не знаем къде да търсим разликата, трябва да разполагамесъс средство за оценка на значимостта на всички линейни функции от параметрите.Такова средство ни дава метода на Шефе. Той е основан на следното геометричнотъждество:

||x|| = supc

c′x

||c||.

Нека разгледаме един контраст c = {c1, c2, ..., cM}′ за параметрите a. Да напом-ним, че

∑ci = 0 и означим y = c′a = c′β. Тогава

supc

y − y

||c||= sup

c

c′(a− a)

||c||= ||a− a||.

Оценките на βi в разглеждания модел са независими и независими в съвкупностот s. Поради линейното условие върху a имаме

k||a− a||2/σ2

е Хи-квадрат с M − 1 степени на свобода. Следователно

f = k||a− a||2/(M − 1)s2

има F разпределение с M − 1 и M(k − 1) степени на свобода.Така за всички контрасти y получаваме съвместни доверителни интервали:

Ia = {y − C1/2s||c||, y + C1/2s||c||}, (14.10)

където C = (M − 1)f1−αk.

Page 90: Записки по приложна статистика 1

90 Глава 14. Дисперсионен и ковариационен анализи

14.4 Двуфакторен анализ

Тук вече можем да избираме измежду няколко възможни модела:

y = m + αi + βj + γij - y = m + αi + βj����

AAAU y = m + αi

���

y = m + βj

AAU

y = m

Фиг. 14.1: Връзки между моделите

Стрелките показват естествените връзки между моделите, а също и пътя, по кой-то строим и сравняваме нашите хипотези. Прието е, както при полиномната регресия,да започваме от най - сложния модел.Нека разгледаме за пример два такива моделасвързани със стрелка:

Z1 : y = m + αi + βj + γij,

Z2 : y = m + αi + βj;

и за яснота да означим с k и m броя на нивата на факторите: (i = 1, 2, . . . , k, j =1, 2, . . . ,m).

Броят на оценяваните параметри в модела Z1 е равен фактически на броя наклетките определени от всевъзможните комбинации от нива на двата фактора: km.За втория модел този брой е k + m− 1.За да можем да използуваме линейния модели теоремата за проекциите трябва да е изпълнено неравенството: km > k + m − 1.Това е винаги така, стига да е изпълнено 2 ≤ k,m.

14.5 Примери

Тук ще разгледаме няколко примера с реални данни заимствани от книгата (Dunnand Clark 1974).

Пример 14.1 Пример за еднофакторен дисперсионен анализ.

Целта е да се изучи влиянието на четири типа тор върху добива. За целта 24 еднаквипо форма и площ полета са засети с една и съща култура. В дисперсионния анализсе казва, че факторът тор има 4 нива. По случаен начин експериментаторът избралтипът торене върху всяко от полетата, така всеки тип торене се среща 6 пъти. Те-зи данни трябва да бъдат въведени като две променливи - първата количествена -ДОБИВ и втората - групираща ТОР. Матрицата от данни трябва да изглежда така:

Page 91: Записки по приложна статистика 1

14.5. Примери 91

ДОБИВ ТОР ДОБИВ ТОР ДОБИВ ТОР ДОБИВ ТОР99 1 96 2 63 3 79 440 1 84 2 57 3 92 461 1 82 2 81 3 91 472 1 104 2 59 3 87 476 1 99 2 64 3 78 484 1 570 2 396 3 498 4

Таблица 14.1:

Данни за торенето - ANOVA1

Така въведени данните могат вече да бъдат подложени на дисперсионен анализ.Получаваме следната таблица на дисперсионен анализ:

Anova 1 TableSOURCE OF SUM OF D.F. MEANVARIATION SQUARES SQUARE

TREATMENT 2940 3 980RESIDUAL 3272 20 163.6

TOTAL 6212 23COMPUTED

F= 5.99022 P= .995613

Стойността на F статистиката, както и вероятността P са твърде големи и позво-ляват с висока степен на доверие да отхвърлим хипотезата, че факторът торене невлияе на добива.

Пример 14.2 Двуфакторен дисперсионен анализ

Ще разгледаме още един пример от (Dunn and Clark 1974) показан на таблица 14.2.В него се изучава добива на ръж като функция от типа на семената и торенето. Втози случай торенето се избира по три възможни начина: ниско, средно и високо, исе използуват два типа семена. Експериментаторът и в този случай е разполагал с24 полета и за всяка от шестте възможни комбинации тор - семе е избрал случайнопо 4 полета. Естествено е да разглеждаме фиксирани ефекти.

ТИП НА НИВО НА ТОРЕНЕСЕМЕНАТА НИСКО СРЕДНО ВИСОКО1 14.3 18.1 17.6

14.5 17.6 18.211.5 17.1 18.913.6 17.6 18.2

2 12.6 16.5 15.711.2 12.8 17.611 8.3 16.712.1 9.1 16.6

Таблица 14.2: Данни за добива при

различно торене и семена

Тези данни трябва да се представят в следната форма. Като променливи се оп-ределят: откликът ДОБИВ, и фактори (или групиращи променливи) СЕМЕ и ТОР,като последните съответно се кодират. Началото на получената матрица данни щеизглежда така:

Page 92: Записки по приложна статистика 1

92 Глава 14. Дисперсионен и ковариационен анализи

ДОБИВ СЕМЕ ТОР ДОБИВ СЕМЕ ТОР14.3 1 1 . . . . . . . . .18.1 1 2 . . . . . . . . .17.6 1 3 . . . . . . . . .

Получаваме дисперсионна таблица на двуфакторния дисперсионен анализ - таб-лица 14.3.

Anova 2 TableSOURCE OF SUM OF D.F. MEANVARIATION SQUARES SQUARE

A 77.4004 1 77.4004B 99.8725 2 49.9362

A B 44.1058 2 22.0529RESIDUAL 21.9975 18 1.22208

TOTAL 243.376 23Fixed

FA FB FAB63.3348 40.8615 18.0453.999999 .999999 .999949

RandomFA FB

3.50975 2.26438.798127 .693663

Таблица 14.3: ANOVA2 -таблица

От тази таблица заключаваме, че съществува изразено взаимодействие междуторенето и типа на семената при влиянието им върху добива -FAB = 18.0453, авероятността .999949 говори, че хипотезата за незначимост на смесените ефекти сеотхвърля. След като смесените ефекти на двата фактора са значими, не бива дапроверяваме поотделно хипотезите за простите ефекти. Може веднага да се приеме,че влиянието на типа на семената и торенето като цяло върху добива е съществено.

Тъй като този пример не е особено поучителен, не илюстрира пълните възмож-ности на процедурата, ще разгледаме още един пример от областта на психологията.

Пример 14.3 Данните за скоростта на реакцията на човек при подаване на свет-линен (A, C) и звуков (B, D) сигнали.

Изучават се два типа реакция: при A и B - реакцията е проста, а при C и D -с избор. Естествено е, да разглеждаме две групиращи променливи. Първата описватипа на сигнала (светлинен или звуков), а втората - условията на експеримента (с илибез избор). За да въведем данните в паметта, трябва да ги прекодираме аналогичнона предния пример. За тези данни таблицата на двуфакторния анализ изглеждаиначе:

Page 93: Записки по приложна статистика 1

14.6. Ковариационен анализ 93

Anova 2 TableSOURCE OF SUM OF D.F. MEANVARIATION SQUARES SQUARE

A 123932. 1 123932.B 5206.24 1 5206.24

A B 62.1323 1 62.1323RESIDUAL 24495.7 64 382.746

TOTAL 153696. 67Fixed

FA FB FAB323.797 13.6023 .162332

1 .999531 .311639RandomFA FB

1994.65 83.7929.985748 .930728

Тук вече взаимодействието между факторите отсъствува - статистиката FAB енезначима. По-отделно обаче, влиянието и на двата фактора е значимо и не може дабъде пренебрегнато.

14.6 Ковариационен анализНека разгледаме сега пак регресионния модел със свободен член. Ще включим вмодела групираща променлива и нека тя да е една. Ще представим наблюдениятавърху нея в матрицата Z. Сега моделът приема следната форма:

y = Zµ + Xa + e (14.11)

Групиращата променлива приема стойности от 1 до G. Матрицата Z е с размер-ност (n×G), като всеки ред е индикатор (съдържа нули и една единица) за групата,на която принадлежи съответното наблюдение. Сега броят на параметрите е вечеm+G и разбира се, трябва да бъде изпълнено неравенството m+G < N . С µ сме оз-начили вектора от параметри (с размерност G), отразяващ влиянието на стойносттана групиращата променлива за дадено наблюдение. Този модел е обект на така наре-чения ковариационен анализ (виж (Шеффе 1963)), където се предполага зависимости на вектора a от стойността на групиращата променлива.

При G = 1 моделът се свежда към класическа линейна регресия със свободенчлен. При G > 1 формулите за пресмятане претърпяват незначителни изменения.При a = 0 параметрите µ очевидно са ”вътрешно-груповите”м.о. с естествени сиоценки. За да се запази това им качество и при ненулево a, във всички формули погоре матрицата X ′X/n трябва да се замести с вътрешно-груповата ковариационнаматрица Vi и числото n да се замести с n−G.

Page 94: Записки по приложна статистика 1

Глава 15

Дискриминантен анализ

Тук ще представим една процедура от многомерния анализ на данни базирана навероятностен модел. Другото название на процедури от този тип е разпознаване наобрази.

15.1 Основни понятия

Тази статистическа процедура се използува, когато се нуждаем от ”прогнозиране”стойностите на групираща променлива. Понякога това се нарича класификация илиразпознаване на образи. Нека нашата извадка е нееднородна или с други думи, сесъстои от няколко групи наблюдения с различни вероятностни характеристики. Цел-та ни е да се научим от тази извадка, по зададени параметри на дадено наблюдение,да определим принадлежността му към класа, от който произлиза.

В първата си част, фазата на обучение, процедурата на дискриминантния анализобработва тази информация с цел да я кондензира в тъй наречените решаващи пра-вила. Когато те са получени, естествено е те да бъдат изпробвани върху обектитеот обучаващата извадка или върху други обекти с известен клас. При положение,че тези обекти (или поне достатъчно голям процент от тях) бъдат класифицираниправилно, можем да очакваме, че разпознаващите правила са добри и коректно щеработят и за обекти от неизвестен клас.

Разбира се, конкретното прилагане на различните методики на дискриминантнияанализ има ред тънкости. Тук ще се спрем по - подробно на най - разпространенатапроцедура за стъпков линеен дискриминантен анализ. Тя притежава ред недостатъ-ци, но и някои преимущества - в частност дава прости решаващи правила.

В линейния дискриминантен анализ се строят линейни дискриминантни функ-ции от предикторите. За всеки клас има точно една такава функция. Правилото закласификация изглежда така:

Наблюдението се класифицира към класа с максимална дискриминантна функ-ция.

94

Page 95: Записки по приложна статистика 1

15.1. Основни понятия 95

А

Б

В Г

Областта от стойности на предикторите, при по-падане в която наблюденията се класифицираткъм даден клас, е изпъкнал многоъгълник (въз-можно отворен). Тя се нарича класификацион-но множество на класа. При два предиктора и 4класа класификационните множества биха мог-ли да изглеждат по указания начин. На фигура-та с големи букви са отбелязани груповите сред-ни.

Фиг. 15.1: Класификационни области

Когато класовете са ясно разграничени, не е трудно те да бъдат отделени. Ко-гато обаче те се пресичат, въпросът за оптимален (с най - малко грешки) избор накласификационни правила е сложен и изисква допълнителна априорна информация.

Линейният дискриминантен анализ предполага, че разпределенията на количес-твените променливи (предикторите) вътре в класовете са нормални и се различаватсамо по средните си стойности. Тогава процедурата произвежда оптимални решава-щи правила. Разбира се, тя може да се използува и при случайна (по групиращатапроменлива) извадка, но появата на празен клас е недопустима.

Когато броят на количествените променливи е по - голям, за простотата на ре-шаващите правила е съществено да се отберат за предиктори само тези променливи,които носят важната за разделянето информация. В това помага статистиката наМахалонобис. Тя позволява да се провери хипотезата за съвпадане на груповитесредни на предикторите като цяло. За простота и тук, вместо критичната областза статистиката, се използува вероятността съответно разпределената случайна ве-личина да не надхвърли стойността на статистиката. Тази вероятност расте докатопроменливите допринасят за по - доброто разделяне на класовете и започва да нама-лява, когато предикторите станат твърде много. Естествено, добро разделяне можеда се очаква, само когато хипотезата се отхвърля с висока вероятност.

Нека вече са избрани най - добрите променливи за предиктори. Това още неозначава, че са построени класификационните множества. Да напомним, че основнацел на дискриминантния анализ е да се получи правило за причисляване на едноново наблюдение към даден клас. За това наблюдение може да съществува априорнаинформация за неговата възможна принадлежност към класовете. Прието е такаваинформация да бъде формулирана в термини на априорни вероятности, които санеобходими за определяне на оптимални класификационни правила.

Ако такава информация не съществува, естествено е априорните вероятности накласовете да се приемат за равни. Когато пък извадката е случайна и новото наб-людение се избира по същия начин, може те да се приемат за пропорционални наобема на класовете в обучаващата извадка.

Изборът на априорните вероятности фиксира оптимални дискриминантни фун-кции и класификационни правила. Не е удобно обаче, за всяко ново наблюдение дасе въвеждат априорни вероятности. Това е свързано и със значителни изчислител-ни трудности, особено когато броят на класовете е голям. Един възможен начин зазаобикаляне на това неудобство е представянето на класовете с помощта на няколко

Page 96: Записки по приложна статистика 1

96 Глава 15. Дискриминантен анализ

групиращи променливи. Такова представяне съответствува и на редица практическизадачи. Ако са известни стойностите на поне една от групиращите променливи, товае съществена априорна информация - фиксирането на тази променлива е еквивален-тно на задаването на нулева априорна вероятност за поне половината от класовете.

15.2 Вероятностна формулировка

15.2.1 Бейсов подход

Нека допуснем, че са известни вероятностите {p(g)}, груповите средни {m(g)} и вът-решно - груповата ковариационна матрица

C(g) = C, (g = 1, 2, . . . , G)

Тогава по формулата на Бейс, апостериорната вероятност за класификация вкласа g на наблюдението (x, .) ще бъде

q(g) = c.p(g).f(x, m(g), C). (15.1)

Тук f е плътността на нормалното разпределение със средна стойност m(g) иковариационна матрица C, а c е нормираща константа (такава, че

∑q(g) = 1).

15.2.2 Класификационни правила

Съгласно принципа за максимално правдоподобие, класифицира се по правилото:

g = max h : q(h). (15.2)

Класификационните правила могат да бъдат записани във вида:

p(g).f(x, m(g), C) ≥ p(h).f(x, m(h), C), (h = 1, 2, . . . , G). (15.3)

След логаритмуване и съкращаване, получаваме:

b(g)′x + a(g) ≥ b(h)′x + a(h), (h = 1, 2, . . . , G), (15.4)

Векторът b(g) и числото a(g) се получават по формулите:

b(h) = m(h)′C−1, a(h) = logp(h)−m(h)′C−1m(h). (15.5)

Оттук се вижда, че в неравенствата (15.4) участвуват линейни функции относно про-менливите и това обстоятелство е дало името на линейния дискриминантен анализ.

Page 97: Записки по приложна статистика 1

15.3. Стъпков дискриминантен анализ 97

15.2.3 Априорни вероятности. Модели

За оценка на априорните вероятности {p(g)} можем да използуваме най - добрите имоценки {n(g)/N} при случайна извадка или друга априорна информация. За оценкана {m(g)} и C се използуват вътрешно - груповите средни и обединената извадъчнавътрешно - групова ковариация.

Когато групиращите променливи са повече от една, броят на класовете G нарас-тва. Вероятността за поява на празни клетки (n(g) = 0) при случайна извадка сограничен обем рязко се увеличава. Затруднява се и оценката за {m(g)}. В такиваслучаи се препоръчва използуването на оценки, получени от линеен модел, като сенаправят съответните проверки с методите на дисперсионния анализ. Съответно, щесе промени и оценката за C. Аналогично, за оценяване на честотите n(g) могат да сеприлагат тъй наречените логаритмично - линейни (log - linear) модели.

15.3 Стъпков дискриминантен анализАналогично на стъпковия регресионен анализ и тук е възприета концепцията заизбор на подходящ набор от количествени променливи, с които да построим моде-ла. Единственото средство, което ни трябва са аналозите на P(F-to-enter) и P(F-to-remove). Те се строят аналогично на регресията, но ролята на сумите от квадратииграят- вътрешно - груповата ковариационна матрица- между - груповата ковариационна матрица.

Както и в едномерния случай, така и в многомерния е верно следното равенство:∑i

∑j

(xij − x)(xij − x)′ =∑i

∑j

(xij − xi)(xij − xi)′ +∑

i

ni(xi − x)(xi − x)′

SS = SSin + SSmod. (15.6)

Матрицата SSin се тълкува като ”сума от квадрати”, отговаряща на разсейване-то на данните около техните локални средни и с нейна помощ се строи оценка завътрешно - груповата ковариационна матрица C:

C =1

N −G + 1SSin.

Лесно се вижда, че по диагонала на матричното равенство (15.6) стои добре из-вестното ни разлагане на сумата от квадрати в дисперсионния анализ.

Матрицата SSin се тълкува като ”сума от квадрати”, отговаряща на разсейва-нето на груповите средни и с нейна помощ се строи оценка за между - груповатаковариационна матрица Cmg:

Cmg =1

G− 1SSmg.

Page 98: Записки по приложна статистика 1

Глава 16

Клъстерен анализ и многомерноскалиране

Това е една от най-популярните процедури на анализа на данни. Терминът е из-ползуван за първи път от (Tryon, 1939) и всъщност зад него се разбират много раз-лични класификационни техники. Пълен обзор на най-използуваните алгоритми има(Hartigan 1975).

Думата клъстер означава група от близко лежащи обекти. Цел на клъстернияанализ е разкриване на евентуално скрита групировка на обектите. Обекти на клъс-терния анализ могат да бъдат както наблюденията, така и променливите. Достатъчное между съответните обекти да е зададено някакво разстояние или мярка за близост(сходство). Така например за променливите това може да бъде корелационната мат-рица.

Многомерното скалиране е метод за представяне на наблюдаваните обекти ка-то точки в пространство с понижена размерност, така че разстоянията между тяхпо възможност да се запазят. Той намира широко приложение в социалните науки,психологията и статистиката. И при тази процедура е достатъчно между съответ-ните обекти да е зададено някакво разстояние. Множество алгоритми са описани в(Torgerson 1958),(Cox and Cox 1994).

16.1 Иерархичен клъстерен анализИерархичния клъстерен анализ съдържа ред процедури, които се базират на пос-ледователното обединяване на най-близките клъстери. В началото всеки обект серазглежда като клъстер, състоящ се от един елемент и, следователно, разполагамес n клъстера.

На всяка стъпка процедурата намира двата най-близки клъстера и ги обединявав един. Т.е. броят на клъстерите намалява с единица.

Всички агломеративни процедури като резултат произвеждат (хоризонтална иливертикална) дендрограма (вж.фиг.16.1):

98

Page 99: Записки по приложна статистика 1

16.1. Иерархичен клъстерен анализ 99

120

Фиг. 16.1: Две еквивалентни дендрограми

Ден-

дрограмата е граф - дърво, в което всеки възел отразява една стъпка от процеса наобединяване. т.е. той носи и допълнителната информация за величината на разсто-янието между двата клъстера в момента на обединение.

Нека означим с I и J два клъстера и множествата индекси на обекти от тях. Видо-вете стратегии за обединяване на клъстери се базират на следните видове разстояниямежду клъстерите:

1. Проста връзка - single link (nearest neighbor).

d(I, J) = mini∈I,j∈J

di,j.

2. Пълна връзка - complete link (furthest neighbor).

d(I, J) = maxi∈I,j∈J

di,j.

3. Средно разстояние - Unweighted pair-group average.

d(I, J) =1

|I|+ |J |∑

i∈I,j∈J

di,j.

4. Средно претеглено разстояние - Weighted pair-group average. За това разс-тояние вече е необходима информация за обектите. Тук се използува същоторазстояние, но при решенията се използуват и размерите и центроидите наклъстерите.

Следния пример е взет от учебника на пакета ((Dixon 1981)).

Пример 16.1 Данните на здравните индикатори за 11 страни са дадени в 16.1.Това са относителен брой на

1. (DDNT) - лекари и зъболекари;

2. (PHRM) - аптекари;

3. (NURS) - сестри;

4. (HOSPB) - болнични легла;

5. (ANIM) - процент на животинска мазнина в храната;

6. (STRCH) - процент на нишесте в храната;

Page 100: Записки по приложна статистика 1

100 Глава 16. Клъстерен анализ и многомерно скалиране

7. (LIFEXP) - продължителност на живот.

DDNT PHRM NURS HOSPB ANIM STRCH LFEXP1 Algeria 129 023 350 3392 21 57 352 Iran 329 107 290 1113 24 60 513 Iraq 241 081 235 1898 28 57 544 Jordan 284 096 241 1712 25 49 525 Lebanon 933 191 564 4071 35 50 606 Libia 338 041 612 3215 24 55 577 Morocco 094 026 233 1516 21 57 538 Syria 254 070 140 1163 13 69 529 Tunizia 114 339 248 2967 21 57 5310 Tyrkey 412 057 306 1738 16 71 5511 UAR 483 131 454 2225 15 73 54

Таблица 1.Здравни индикатори

За разстояние между отделните случаи да вземем Евклидовото разстояние меж-ду стандартизираните данни. Таблица 2 съдържа горната триъгълна част на такаполучените разстояния:

A dissimilarity matrix for 11 objects2 3 4 5 6 7 8 9 10 11

1 3.97 3.84 3.82 6.83 4.07 3.52 4.40 2.99 4.30 4.752 1.39 1.57 5.33 3.49 2.07 2.45 2.59 2.32 2.833 1.21 5.10 3.11 1.73 3.01 1.85 2.78 3.544 5.08 3.31 2.00 3.30 2.19 3.29 3.885 4.44 6.48 7.10 5.82 6.09 5.336 3.36 4.65 2.77 3.51 3.597 2.37 1.50 2.50 3.828 2.91 2.50 2.909 2.68 3.6210 1.88

Таблица 2 Разстояния

Като приложим клъстерен анализ (например с пакета Statistica), стратегия singlelink ще получим лявата дендрограма на фиг.??.

При внимателно сравнение на двете дендрограми се вижда, че те представят еднаи съща клъстерна процедура. В какво е разликата? Например, обектите 8 и 2 са по-близки от 11 и 7. Също така обектите 3 и 2 са по-близки от 2 и 4. С други думи средмножеството дендрограми (представящи една и съща агломерация) съществува една,за която обектите са наредени така върху оста x, че сумата от разстоянията междудва съседни обекта да е минимална. Съществува такава пермутация π : i → (i), че

n∑i=2

d(i−1),(i) → min

Page 101: Записки по приложна статистика 1

16.2. Клъстерен анализ на средни 101

.Така поставена задачата много пролича на класическата задача за търговския

пътник - намиране на най - късото разстояние за обхождане на няколко града. Тукобаче има и съществени разлики. Първо отсъствува един преход - този към началото:d(n),1. Второ минимума се взима не по всичките n! пермутации, а само по тези 2n−2,които запазват типа на дендрограмата - редът на обединяване на обектите. Във всекислучай тази задача може да се разглежда като едно решение на задача за скалиране,както ще видим по-нататък.

16.1.1 Променливи и наблюдения

Това е метод за едновременно разглеждане както на променливите, така и на наб-люденията. Той може да се използува само ако притежаваме пълната матрица X, ане само матриците на приликите. По идеология много прилича на Biplot или дуалноскалиране.

За по-подробна информация вж. (Hartigan 1975)

16.2 Клъстерен анализ на средниНека сега си поставим задачата да разделим множеството от всички обекти 1, 2, . . . , nна фиксиран брой k непресичащи се клъстери. Да означим множеството от клъстерис K. Нека I, J ∈ K са два клъстера и означим по същия начин и множествата индексина обекти от тях. Тогава

d(I, J) =∑

i∈I,j∈J

di,j,

е естествено да се тълкува като разстоянието между два клъстера, а d(I, I) - каторазстоянието вътре в клъстера I. За всеки обект i, да означим с I(i) клъстера, койтого съдържа.

16.2.1 Метод на пълните разстояния

Нека си поставим задачата да минимизираме сумата от всички вътрешно - клъстер-ни разстояния A или, което е същото, да максимизираме сумата от всички междуклъстерни разстояния B. Наистина A + B =

∑i<j di,j.

Нека разгледаме един обект i ∈ I(i). Да проверим кога има смисъл да го прехвър-лим в клъстера J 6= I, т.е. кога това ще увеличи B (и намали A). Очевидно, трябваd(i, I(i)) > d(i, J). Наистина, при преминаването на i в J сумата B ще нарастне сd(i, I(i)) и ще намалее с d(i, J). Така получаваме необходими и достатъчни условияза оптимална клъстеризация на k клъстера:

∀i : d(i, I(i)) ≤ minJ 6=I

d(i, J). (16.1)

В доклада си (Akoka 1992) авторът предлага естествен алгоритъм за решаване натази задача и доказва, че той достига абсолютния минимум на A.

Page 102: Записки по приложна статистика 1

102 Глава 16. Клъстерен анализ и многомерно скалиране

16.2.2 Метод на средните разстояния

В повечето програми се използува аналогичен алгоритъм, т.н. K-means clustering, вкойто обаче се разглеждат не сумарни, а средни разстояния:

d(i, J) =1

J

∑j∈J

d(i, j), или d(i, J) = ||xi − xJ ||. (16.2)

На този метод може да се гледа като метод за максимизиране на F -статистикатана критерия за проверка на хипотезата за еднаквост на k средни стойности.

16.3 Многомерно скалиране MDS

Многомерното скалиране е метод за представяне на наблюдаваните обекти като точ-ки в пространство с понижена размерност, така че разстоянията между тях по въз-можност да се запазят. Той намира широко приложение в социалните науки, психо-логията и статистиката.

Да предположим,че имаме n обекта в множеството O със различия {δrs} междуобектите r и s, определени на O × O. Целта на метричното MDS е да се намеримножество от точки в Евклидовото пространство E представящи обектите така, черазстоянията между точките {drs} да са drs ≈ f (δrs). Тук f е непрекъсната моно-тонна функция, възможно зависеща от параметри.

По (Cox and Cox 1994) нека φ е произволно преобразование от O в E. Така даозначим φ (r) = xr (r ∈ O, xr ∈ E), X = {xr : r ∈ O} образа и с drs разстояниетомежду xr и xs.

(Schoenberg 1935) описва метод за реконструиране на евклидовите координати xr

в p-мерно Евклидово пространство E от зададените разстояния drs = (xr − xs)T (xr − xs).

Тъй като решението е неопределено, можем до сложим средната стойност в на-чалото на координатната система.

∑nr=1 xri = 0, i = 1, · · · , p. Така получаваме:

d2rs = xT

r xr + xTs xs − 2xT

r xs

1

n

n∑r=1

d2rs =

1

n

n∑r=1

xTr xr + xT

s xs

1

n

n∑s=1

d2rs = xT

r xr +1

n

n∑s=1

xTs xs

1

n2

n∑r=1

n∑s=1

d2rs =

2

n

n∑r=1

xTr xr.

Така получаваме:

xTr xr = −1

2

(d2

rs −1

n

n∑r=1

d2rs −

1

n

n∑s=1

d2rs +

1

n2

n∑r=1

n∑s=1

d2rs

). (16.3)

Page 103: Записки по приложна статистика 1

16.3. Многомерно скалиране MDS 103

Да означим A ={−1

2d2

rs

}и H = In − 1

2eeT , където e = (1, · · · , 1)T . Така, от (16.3)

получаваме XXT = HAH и rank(XXT

)= rank (X) = p. Ако XXT положително

полу-определена с ранг p, то матрицата X може да бъде намерена от разложениетоXXT = V ΛV T , където Λ = diag (λ1, · · · , λn) е диагоналната матрица от собственитестойности λi; i = 1, · · · , n и V са собствените вектори.

Затова проекциите на точките xr, r = 1, · · · , n върху осите се намират лесно X =

V1Λ121 . Тук естествено се използуват само ненулевите собствени стойности.Основната постановка, сега наричана класическо скалиране е дадена в

(Young and Hauseholder 1938) и по-късно и независимо преоткрита от (Gower 1966).Нека пак означим с ∆ матрицата от разстоянията между обектите. Тогава тази кла-сическа постановка води до следната минимизационна задача:

minX

tr(J(∆(q) −D(q)(X))J)2 (16.4)

Тук ∆(q) = (δqi,j)1≤i,j≤n е матрицата от q-тите степени на входните разстояния,

Тук D(q) = (dqi,j)1≤i,j≤n е матрицата от q-тите степени на Евклидовите разстояния

между представителите (редовете на матрицата X ∈ Rn×k. С J = In − 1n1n×n сме

означили центриращата матрица. Аналитично решение на тази задача е дадено в(Mathar 1985).

Представянето (16.4) страда от недостатъка че апроксимира по-добре корелаци-ите от колкото разстоянията между обектите. Затова по-късно се разглеждат новидва метода.

minX

tr(∆(2) −D(2)(X))2, (16.5)

minX

∑i,j

wi,j(δi,j − di,j(X))2. (16.6)

(16.5) се нарича squared distance scaling, а (16.6) - least square scaling. С wi,j смеозначили неотрицателни тегла. При wi,j = 0 съответните разстояния може да отсъс-твуват, което прави този метод най-удобен.

Общ недостатък на всички изброени методи е, че те не гарантират запазванетона съотношенията на наредба между сходствата. От това че δi,j ≥ δk,l не следва, чеdi,j ≥ dk,l за получената конфигурация.

Затова на практика по-често се използуват алгоритми, които минимизират фун-кционалите ( 16.4 - 16.6) при това допълнително ограничение. Особено място тукзаема алгоритъма на (Kruskal 1964), реализиран в най-популярните програми. Тойминимизира функционала (16.6) като постепенно наглася една случайно генерирананачална конфигурация.

Page 104: Записки по приложна статистика 1

Глава 17

Оценка на плътности

Както видяхме в предишните лекции много важни за статистическите изводи са ка-чествата на изследваната плътност на разпределение. В тази лекция ще разгледаменакратко най-разпространените методи за непараметрична оценка на плътности. Ду-мата непараметрична използуваме за да подчертаем, че няма да използуваме някоеизвестно семейство разпределения като, например, гаусовото или Гама разпределе-нията. За такива семейства задачата се свежда до оценка на неизвестните параметрипо данните и се решава с методите на точково оценяване.

17.1 Криви на Пирсън

Кривите на Пирсън са всъщност пак семейство от разпределения, но с 4 параме-търа. Методът се основава на семейството от плътности удовлетворяващи следнотодиференциално уравнение:

dp(x)

dx=

x− a

b0 + b1x + b2x2p(x) (17.1)

В зависимост от типа на корените a1 ≤ a2 на полинома в знаменателя P (x) = b0+b1x+b2x

2, получаваме 12 различни типа плътности. Всичките са унимодални. В таблица17.1 ще покажем най-важните 7 типа. Останалите 5 се получават като частни случаиот тях.

Коефициентите в уравнението (17.1) се определят еднозначно от първите 4 момен-та на разпределението. Това дава възможност, замествайки теоретичните с извадъч-ните моменти и решавайки уравнението, да получим смислена оценка на плътността,тъй като тези първи четири момента - м.о., дисперсията, асиметрията и ексцеса - дос-та прилично описват формата на гладко унимодално разпределение.

Хубавото на кривите на Пирсън е, че сред тях са и повечето използувани в тео-рията на статистиката разпределения: гаусовото, Гама, Бета, Фишер, Стюдент, рав-номерно и др.

Подробно описание на типовете криви на Пирсън и методите за оценка на пара-метрите им може да се намери у (Поллард 1982), (Митропольский 1964)

104

Page 105: Записки по приложна статистика 1

17.2. Изглаждане на хистограми 105Тип Параметри Плътност Ограничения Пример

b1 = b2 = 0 ce12

(x+a)2b0 b0 < 0 Нормално

I b2 > 0, a1 6= a2 c(1 + xa1

)p1 (1− xa2

)p2 −a1 < x < a2,−1 < p1, p2 Бета

II b2 > 0,−a1 = a2 = α c(1− x2

α2 )p |x| < a, p > −1/2 Равномерно

III b2 = 0, b1 6= 0 c(1 + xa

)pe−µx −a < x < ∞, 0 < µ,−1 < p Гама, χ2

IV b2 6= 0, P (x) > 0 c(1 + x2

a2 )pe−µarctg( x

a)

0 < a, 0 < µ, p < −1/2

V P (x) = c(x − α)2 cx−peax 0 < x, 0 < a, 1 < p от тип III

VI b2 > 0, a1 6= a2 c(1 + xa1

)p1 (1− xa2

)p2 a2 < x,−1 < p2, p1 + p2 < −1 Фишер

VII b1 = 0, b0b2 > 0 c(1 + xa

)−p p > 1/2 Стюдент

Таблица 17.1: Криви на Пирсън

0102030405060

10 15 20 25 30 35

,,������

CCCCCBBBB

Фиг. 17.1: Изгладена хистограма

17.2 Изглаждане на хистограми

Когато апроксимирането с 4 параметъра не е достатъчно, се прибягва до истинскинепараметрични методи. Най-лесно това става чрез подходящо изглаждане на хис-тограмата или извадъчната функция на разпределение.

Най-лесно е простото свързване на средите на стълбчетата на хистограмата. Закрайните стълбове се прави отстъп с по половин интервал. Естествено по-гладка кри-ва би се получила при ”свързване” с помощта на така наречените сплайн - функции.Това са криви, които във всеки интервал са полиноми, но така се слепват в краища-та, че обеспечават освен равенство на стойностите си, равенство и на производнитеси. Най-разпространени са кубичните сплайни.

17.3 Ядра на Розенблат - Парзен

Page 106: Записки по приложна статистика 1

106 Глава 17. Оценка на плътности

Да означим с {x1, x2, . . . , xn} независимите наблюдения на сл.в. с плътност f(x).Непараметричните ядрени оценки се задават във формата:

fn(x) =1

nhn

n∑i=1

K(xi − x

hn

), (17.2)

където K(x) е подходящо избрана фиксирана гладка плътност, наричана ядро: K(x) ≥0, K(−x) = K(x),

∫K(x)dx = 1,

∫x2K(x)dx = 1.

∫K2(x)dx < ∞. Често се използу-

ва гаусово ядро. Редицата от константи hn трябва да клони към нула, но така чеnhn →∞.

Всички анализи на асимптотичното поведение на оценката fn във фиксирана точ-ка x0 се основават на развитието в ред на Тейлор на плътността f около тази точка:

f(x) = f(x0) +k∑

i=1

f (i)(x0)

i!(x− x0)

i + o(|x− x0|k) (17.3)

Разбира се, то има смисъл, ако съществуват производните на неизвестната плътностf до ред k в точката x0. Като поставим x−x0 = yhn и използуваме (17.3), получаваме,че изместването Bn на оценката е

Bn = E fn(x0)− f(x0) =

∫K(y)(f(x0 + y ∗ hn)− f(x0))dy =

f ′(x0)hn

∫yK(y)dy + f ′′(x0)

h2n

2

∫y2K(y)dy + · · · = O(h2

n)

От друга страна дисперсията на тази оценка (като сума на независими сл.в.) можеда се оцени така:

Dn = D (fn(x0)) =f(x0)

nhn

∫K2(y)dy + o(

1

nhn

) = O(1

nhn

)

Така като използуваме равенството

E (fn(x0)− f(x0))2 = Dn + B2

n = O(1

nhn

) + O(h4n), (17.4)

получаваме, че асимптотично оптимален избор за константата hn се получава приhn = cn−1/5.

Page 107: Записки по приложна статистика 1

Приложение A

Примерни данни

В това приложение ще приведем данните и техните описания, използувани за илюс-трация на статистическите методи.

Пример A.1 П1.1. Данни за престъпността в 47 щата на САЩ (Кокс и Снелл1984), стр. 183 - 185

Данните са от отчет за престъпността, съставен от ФБР и се отнасят за 1960 кален-дарна година. Те съдържат следните 14 променливи за 47 щата:

R - брой регистрирани от полицията правонарушения на 1 млн. жители;AGE - мъже (на 1000) на възраст от 14 до 24 години;S - 1 за южен щат и 0 за северен;ED - 10 пъти средния брой години на обучение за лицата на възраст

над 25 години;EX0 - разходи за полицията за 1960 г. на глава от населението;EX1 - разходи за полицията за 1959 г. на глава от населението;LF - работещи мъже (на 1000) на възраст от 14 до 24 г.;M - брой мъже на 1000 жени;N - население на щата в 100 хил.;NW - брой цветнокожи на 1000 д.;U1 - безработни мъже (на 1000) в градовете от 14 до 24 г.;U2 - безработни мъже (на 1000) в градовете от 35 до 39 г.;W - благосъстояние измерено като медиана на средния доход (в 10 дол.);X - брой на семействата (на 1000) с доход под половината на медианния.

107

Page 108: Записки по приложна статистика 1

108 Приложение A. Примерни данниR AGE S ED EX0 EX1 LF M N NW U1 U2 W X

791 151 1 91 58 56 510 950 33 301 108 41 394 2611635 143 0 113 103 95 583 1012 13 102 96 36 557 194578 142 1 89 45 44 533 969 18 219 94 33 318 250

1969 136 0 121 149 141 577 994 157 80 102 39 673 1671234 141 0 121 109 101 591 985 18 30 91 20 578 174682 121 0 110 118 115 547 964 25 44 84 29 689 126963 127 1 111 82 79 519 982 4 139 97 38 620 168

1555 131 1 109 115 109 542 969 50 179 79 35 472 206856 157 1 90 65 62 553 955 39 286 81 28 421 239705 140 0 118 71 68 632 1029 7 15 100 24 526 174

1674 124 0 105 121 116 580 966 101 106 77 35 657 170849 134 0 108 75 71 595 972 47 59 83 31 580 172511 128 0 113 67 60 624 972 28 10 77 25 507 206664 135 0 117 62 61 595 986 22 46 77 27 529 190798 152 1 87 57 53 530 986 30 72 92 43 405 264946 142 1 88 81 77 497 956 33 321 116 47 427 247539 143 0 110 66 63 537 977 10 6 114 35 487 166929 135 1 104 123 115 537 978 31 170 89 34 631 165750 130 0 116 128 128 536 934 51 24 78 34 627 135

1225 125 0 108 113 105 567 985 78 94 130 58 626 166742 126 0 108 74 67 602 984 34 12 102 33 557 195439 157 1 89 47 44 512 962 22 423 97 34 288 276

1216 132 0 96 87 83 564 953 43 92 83 32 513 227968 131 0 116 78 73 574 1038 7 36 142 42 540 176523 130 0 116 63 57 641 984 14 26 70 21 486 196

1996 131 0 121 160 143 631 1071 3 77 102 41 674 152342 135 0 109 69 71 540 965 6 4 80 22 564 139

1216 152 0 112 82 76 571 1018 10 79 103 28 537 2151043 119 0 107 166 157 521 938 168 89 92 36 637 154696 166 1 89 58 54 521 973 46 254 72 26 396 237373 140 0 93 55 54 535 1045 6 20 135 40 453 200754 125 0 109 90 81 586 964 97 82 105 43 617 163

1072 147 1 104 63 64 560 972 23 95 76 24 462 233923 126 0 118 97 97 542 990 18 21 102 35 589 166653 123 0 102 97 87 526 948 113 76 124 50 572 158

1272 150 0 100 109 98 531 964 9 24 87 38 559 153831 177 1 87 58 56 638 974 24 349 76 28 382 254566 133 0 104 51 47 599 1024 7 40 99 27 425 225826 149 1 88 61 54 515 953 36 165 86 35 395 251

1151 145 1 104 82 74 560 981 96 126 88 31 488 228880 148 0 122 72 66 601 998 9 19 84 20 590 144542 141 0 109 56 54 523 968 4 2 107 37 489 170823 162 1 99 75 70 522 996 40 208 73 27 496 224

1030 136 0 121 95 96 574 1012 29 36 111 37 622 162455 139 1 88 46 41 480 968 19 49 135 53 457 249508 126 0 104 106 97 599 989 40 24 78 25 593 171849 130 0 121 90 91 623 1049 3 22 113 40 588 160

Пример A.2 Еднофакторен дисперсионен анализ (вж.(Dunn and Clark 1974))

Един експериментатор желае да изучи влиянието на различни торове върху до-бива. За целта той избира 24 еднакви по форма и площ полета и ги засява със своятакултура. Върху полетата той ще изпита 4 вида торене:

1. 2. 3. 4.Никакво торене, K2O + N K2O + P2O5 N + P2O5

Получените данни за добива изглеждат така:

тор 1 2 3 4 5 61. 99 40 61 72 76 842. 96 84 82 104 99 5703. 63 57 81 59 64 3964. 79 92 91 87 78 498

Пример A.3 Двуфакторен дисперсионен анализ (вж. (Dunn and Clark 1974))

Тук се изучава добива на ръж като функция от типа на семената и торенето. Втози случай торенето се избира по три възможни начина: ниско, средно и високо, исе използуват два типа семена. Експериментаторът и в този случай е разполагал с24 полета и за всяка от шестте възможни комбинации тор - семе е избрал случайнопо 4 полета. Полученият добив е записан в следната таблица:

Page 109: Записки по приложна статистика 1

109

Тип на Ниво на торенесемената Ниско Средно Високо1. 14.3 18.1 17.6

14.5 17.6 18.211.5 17.1 18.913.6 17.6 18.2

2. 12.6 16.5 15.711.2 12.8 17.6

11 8.3 16.712.1 9.1 16.6

Пример A.4 Двуфакторен дисперсионен анализ (вж.(Готтсданкер 1982), стр.46и стр.265)

Изследва се скоростта на реакцията на човек при подаване на светлинен (A,C) извуков (B,D) сигнали. Откликът (скоростта на реакцията) се мери в милисекунди.При A и B избор няма и реакцията е ”проста”. B и D описват реакция с ”избор” -условията на експеримента са такива, че изпитваният трябва да избере между дватипа светлинен и звуков сигнали.

Х A B C D1 223 181 304 2722 184 194 268 2643 209 173 272 2564 183 153 262 2695 180 168 283 2856 168 176 265 2477 215 163 286 2508 172 152 257 2459 200 155 279 25110 191 156 275 26111 197 178 268 25012 188 160 254 22813 174 164 245 25714 176 169 253 21415 155 155 235 24216 115 122 260 22217 163 144 246 234

Пример A.5 Спектрален анализ вж.(Кендалл 1981), стр. 18.

Разстоянията в 1000 мили, изминати от самолетите на Обединеното Кралство за единмесец в периода от 1963 до 1970 г.

Page 110: Записки по приложна статистика 1

110 Приложение A. Примерни данни

1963 1964 1965 1966 1967 1968 1969 1970яну 6827 7269 8350 8186 8334 8639 9491 10840фев 6178 6775 7829 7444 7899 8772 8919 10436март 7084 7819 8829 8484 9994 10894 11607 13589апр 8162 8371 9948 9864 10078 10455 8852 13402май 8462 9069 10638 10252 10801 11179 12537 13103юни 9644 10248 11253 12282 12950 10588 14759 14933юли 10466 11030 11424 11637 12222 10794 13667 14147авг 10748 10882 11391 11578 12246 12770 13731 14057септ 9963 10333 10665 12417 13281 13812 15110 16234окт 8194 9109 9396 9637 10366 10857 12185 12389ноем 6848 7685 7775 8094 8730 9290 10645 11595дек 7027 7602 7933 9280 9614 10925 12161 12772

Пример A.6 Крос-спектрален анализ

Австралийският ентомолог А.Николсон е провел обширни изследвания (от 1950 г.)върху популации на мухата Lucilia cuprina при различни условия. Тук привеждамечаст от негови наблюдения (експеримент L97), взети от (D.R.Brillinger, J.Guckenkeimer,P.Guttorp, and G.Oster 1980), pp.65–90.

Данните са за популация, която е била при едни и същи условия (контролни наб-людения). Първият временен ред са наличните яйца, вторият - особите достигнализряла възраст, а третият - брой на умрелите насекоми. Общият брой насекоми мо-же да получим, ако към общия брой от предното наблюдение добавим достигналитезряла възраст и извадим умрелите. В началния момент общият брой е 948. Наблю-денията са правени през ден.

Продължителността на отделните фази на развитие на насекомото са: яйце - от12 до 24 часа, ларва - 5 до 10 дни, пашкул - 6 до 8 дни, развитие на насекомото - 4дни, живот на възрастно насекомо - 1 до 35 дни.

Page 111: Записки по приложна статистика 1

111EGGS EMERGING DEATHS EGGS EMERGING DEATHS

1. 0 948 0 65. 3234 326 332. 0 4 10 66. 1574 729 243. 0 0 31 67. 7445 1072 604. 0 0 53 68. 2019 1747 1655. 2149 0 57 69. 672 3794 14046. 4627 0 125 70. 0 2576 27887. 4523 0 172 71. 0 2220 24278. 6030 0 107 72. 0 3248 23859. 2684 0 149 73. 0 4808 352110. 3373 0 102 74. 33 1052 412311. 446 1763 108 75. 26 1270 218612. 133 4487 53 76. 32 95 133513. 17 1830 2091 77. 0 3 98114. 56 7952 5005 78. 321 0 51015. 58 1953 4264 79. 230 0 52116. 0 2419 3056 80. 392 18 21317. 6 1966 2266 81. 253 10 15218. 25 132 1930 82. 324 19 10619 30 36 1550 83. 1369 27 6320. 0 16 1025 84. 1252 120 2021. 0 85 211 85. 977 435 1722. 548 17 331 86. 1336 298 3423. 461 0 391 87. 1450 247 5124. 1638 5 163 88. 2520 456 7725. 1524 41 175 89. 3057 897 23026. 2338 10 97 90. 302 1459 43627. 1473 0 60 91. 166 721 54028. 3287 494 34 92. 20 1258 109229. 1367 424 27 93. 27 1045 97930. 617 1541 49 94. 70 2300 112731. 936 1317 61 95. 4 1782 129432. 112 2016 1160 96. 38 1252 172633. 91 1496 1504 97. 5 232 209334. 0 2898 1992 98. 48 53 113235. 0 855 1884 99. 115 23 74836. 0 469 1859 100. 364 50 19937. 1 925 1291 101. 1034 30 20138. 47 522 1211 102. 1295 39 17239. 8 55 727 103. 2383 0 14440. 0 45 425 104. 2435 33 18841. 77 0 364 105. 2535 113 4742. 598 0 238 106. 1701 383 9443. 6814 0 146 107. 1601 928 5144. 1537 5 77 108. 580 1201 3545. 1296 45 47 109. 460 2175 57046. 451 2 35 110. 363 1668 92047. 1863 47 39 111. 0 2980 160948. 2408 5205 14 112. 106 1872 206449. 358 1496 82 113. 80 1228 287650. 847 1957 3189 114. 0 461 169251. 14 855 2309 115. 303 660 146252. 0 501 1536 116. 755 165 95353. 62 1771 1075 117. 536 16 44754. 4 1607 1033 118. 602 106 52455. 39 674 1007 119. 688 78 31156. 0 197 1791 120. 1244 0 7557. 0 700 1486 121. 1662 247 15758. 107 0 581 122. 5050 623 17959. 172 16 205 123. 926 479 16360. 828 43 216 124. 3011 775 17561. 1216 0 183 125. 1461 678 47962. 2109 37 146 126. 526 1078 52463. 3460 0 82 127. 107 1504 91664. 2438 105 71 128. 136 4771 1081

Пример A.7 Нелинейна регресия вж.(Химмельблау 1973), стр. 432.

За реакцията на хидриране в проточен реактор са получени следните данни:

x 20 30 35 40 50 55 60y .0680 .0858 .0939 .0999 .1130 .1162 .1190

Тук x е пълното налягане в г/см2, а y е скоростта на реакцията в гмол/ч.

Page 112: Записки по приложна статистика 1

Приложение B

Таблици

Таблица B.1: Хи-квадрат разпределение (квантили)df/p .005 .01 .025 .05 .10 .90 .95 .975 .99 .9951 .00004 .00016 .00098 .0039 .0158 2.71 3.84 5.02 6.63 7.882 .0100 .0201 .0506 .1026 .2107 4.61 5.99 7.38 9.21 10.603 .0717 .115 .216 .352 .584 6.25 7.81 9.35 11.34 12.844 .207 .297 .484 .711 1.064 7.78 9.49 11.14 13.28 14.865 .412 .554 .831 1.15 1.61 9.24 11.07 12.83 15.09 16.756 .676 .872 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.557 .989 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.288 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.969 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.5910 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.1911 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.73 26.7612 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.3013 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.8214 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.3215 4.6 5.23 6.26 7.26 8.55 22.31 25 27.49 30.58 32.8016 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.2718 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.1620 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.0024 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.5630 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.6740 20.71 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.7760 35.53 37.48 40.48 43.19 46.46 74.40 79.08 83.30 88.38 91.95120 83.85 86.92 91.58 95.70 100.62 140.23 146.57 152.21 158.95 163.64

112

Page 113: Записки по приложна статистика 1

113

Таблица B.2: Нормално разпределениеz .00 .01 .02 .03 .04 .05 .06 .07 .08 .09.0 .5000 .5040 .5080 .5120 .5160 .5190 .5239 .5279 .5319 .5359.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7157 .7549.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852.8 .7881 .7910 .7939 .7969 .7995 .8023 .8051 .8078 .8106 .8133.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .83891.0 .8413 .8438 .8461 .8485 .8508 .8513 .8554 .8577 .8529 .86211.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .88301.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .90151.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .91771.4 .9192 .9207 .9222 .9236 .9215 .9265 .9279 .9292 .9306 .93191.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9492 .94411.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .95451.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .96331.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .97061.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .97672.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .98172.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .98572.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .98902.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .99162.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .99362.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .99522.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .99642.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .99742.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .99812.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .99863.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .99903.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .99933.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .99953.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .99973.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998

Page 114: Записки по приложна статистика 1

114 Приложение B. Таблици

Таблица B.3: Разпределение на Стюдент (двустранни квантили).60 .70 .80 .90 .95 .975 .99 .995

1 .325 .727 1.367 3.078 6.314 12.706 31.821 63.6572 .289 .617 1.061 1.886 2.920 4.303 6.965 9.9253 .277 .584 .978 1.638 2.353 3.182 4.541 5.8414 .271 .569 .941 1.533 2.132 2.776 3.747 4.6045 .267 .559 .920 1.476 2.015 2.571 3.365 4.0326 .265 .553 .906 1.440 1.943 2.447 3.143 3.7077 .263 .549 .896 1.415 1.895 2.365 2.998 3.4998 .262 .546 .889 1.397 1.860 2.306 2.896 3.3559 .261 .543 .883 1.383 1.833 2.262 2.821 3.25010 .260 .542 .879 1.372 1.812 2.228 2.764 3.16911 .260 .540 .876 1.363 1.796 2.201 2.718 3.10612 .259 .539 .873 1.356 1.782 2.179 2.681 3.05513 .259 .538 .870 1.350 1.771 2.160 2.650 3.01214 .258 .537 .868 1.345 1.761 2.145 2.624 2.97715 .258 .536 .866 1.341 1.753 2.131 2.602 2.94716 .258 .535 .865 1.337 1.746 2.120 2.583 2.92117 .257 .534 .863 1.333 1.740 2.110 2.567 2.89818 .257 .534 .862 1.330 1.734 2.101 2.552 2.87819 .257 .533 .861 1.328 1.729 2.093 2.539 2.86120 .257 .533 .860 1.325 1.725 2.086 2.528 2.84521 .257 .532 .859 1.323 1.721 2.080 2.518 2.83122 .256 .532 .858 1.321 1.717 2.074 2.508 2.81923 .256 .532 .858 1.319 1.714 2.069 2.500 2.80724 .256 .531 .857 1.316 1.708 2.060 2.485 2.78725 .256 .531 .856 1.316 1.708 2.060 2.485 2.78726 .256 .531 .856 1.315 1.706 2.056 2.479 2.77927 .256 .531 .855 1.314 1.703 2.052 2.473 2.77128 .256 .530 .855 1.313 1.701 2.048 2.467 2.76329 .256 .530 .854 1.310 1.697 2.042 2.457 2.75030 .256 .530 .854 1.310 1.697 2.042 2.457 2.75040 .255 .529 .851 1.303 1.684 2.021 2.423 2.70460 .254 .527 .848 1.296 1.671 2.000 2.390 2.660120 .254 .526 .845 1.289 1.658 1.980 2.358 2.617∞ .253 .524 .842 1.282 1.645 1.960 2.326 2.576

Page 115: Записки по приложна статистика 1

115

Таблица B.4: Квантили на разпределение на Фишер (p = .95)df1 df2=1 2 3 4 5 6 7 8 91 161.4476 18.5128 10.1280 7.7086 6.6079 5.9874 5.5914 5.3177 5.11742 199.5000 19.0000 9.5521 6.9443 5.7861 5.1433 4.7374 4.4590 4.25653 215.7073 19.1643 9.2766 6.5914 5.4095 4.7571 4.3468 4.0662 3.86254 224.5832 19.2468 9.1172 6.3882 5.1922 4.5337 4.1203 3.8379 3.63315 230.1619 19.2964 9.0135 6.2561 5.0503 4.3874 3.9715 3.6875 3.48176 233.9860 19.3295 8.9406 6.1631 4.9503 4.2839 3.8660 3.5806 3.37387 236.7684 19.3532 8.8867 6.0942 4.8759 4.2067 3.7870 3.5005 3.29278 238.8827 19.3710 8.8452 6.0410 4.8183 4.1468 3.7257 3.4381 3.22969 240.5433 19.3848 8.8123 5.9988 4.7725 4.0990 3.6767 3.3881 3.178910 241.8817 19.3959 8.7855 5.9644 4.7351 4.0600 3.6365 3.3472 3.137311 242.9835 19.4050 8.7633 5.9358 4.7040 4.0274 3.6030 3.3130 3.102512 243.9060 19.4125 8.7446 5.9117 4.6777 3.9999 3.5747 3.2839 3.072913 244.6898 19.4189 8.7287 5.8911 4.6552 3.9764 3.5503 3.2590 3.047514 245.3640 19.4244 8.7149 5.8733 4.6358 3.9559 3.5292 3.2374 3.025515 245.9499 19.4291 8.7029 5.8578 4.6188 3.9381 3.5107 3.2184 3.006120 248.0131 19.4458 8.6602 5.8025 4.5581 3.8742 3.4445 3.1503 2.936540 251.1432 19.4707 8.5944 5.7170 4.4638 3.7743 3.3404 3.0428 2.825980 252.7237 19.4832 8.5607 5.6730 4.4150 3.7223 3.2860 2.9862 2.7675df1 df2=10 11 12 13 14 15 20 40 801 4.9646 4.8443 4.7472 4.6672 4.6001 4.5431 4.3512 4.0847 3.96042 4.1028 3.9823 3.8853 3.8056 3.7389 3.6823 3.4928 3.2317 3.11083 3.7083 3.5874 3.4903 3.4105 3.3439 3.2874 3.0984 2.8387 2.71884 3.4780 3.3567 3.2592 3.1791 3.1122 3.0556 2.8661 2.6060 2.48595 3.3258 3.2039 3.1059 3.0254 2.9582 2.9013 2.7109 2.4495 2.32876 3.2172 3.0946 2.9961 2.9153 2.8477 2.7905 2.5990 2.3359 2.21427 3.1355 3.0123 2.9134 2.8321 2.7642 2.7066 2.5140 2.2490 2.12638 3.0717 2.9480 2.8486 2.7669 2.6987 2.6408 2.4471 2.1802 2.05649 3.0204 2.8962 2.7964 2.7144 2.6458 2.5876 2.3928 2.1240 1.999110 2.9782 2.8536 2.7534 2.6710 2.6022 2.5437 2.3479 2.0772 1.951211 2.9430 2.8179 2.7173 2.6347 2.5655 2.5068 2.3100 2.0376 1.910512 2.9130 2.7876 2.6866 2.6037 2.5342 2.4753 2.2776 2.0035 1.875313 2.8872 2.7614 2.6602 2.5769 2.5073 2.4481 2.2495 1.9738 1.844514 2.8647 2.7386 2.6371 2.5536 2.4837 2.4244 2.2250 1.9476 1.817415 2.8450 2.7186 2.6169 2.5331 2.4630 2.4034 2.2033 1.9245 1.793220 2.7740 2.6464 2.5436 2.4589 2.3879 2.3275 2.1242 1.8389 1.703240 2.6609 2.5309 2.4259 2.3392 2.2664 2.2043 1.9938 1.6928 1.544980 2.6008 2.4692 2.3628 2.2747 2.2006 2.1373 1.9217 1.6077 1.4477

Квантили на всякакви разпределения, както и таблици, се произвеждат лесно спомощта на MATLAB. Например, показаните квантили на разпределение на Фишербяха пресметнати със следната програма:

p=.95;x=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,20,40,80];for i=1:18; for j=1:18; X=x(i);Y=x(j);XX(i,j)=finv(p,X,Y);end;end

Page 116: Записки по приложна статистика 1

116 Приложение B. Таблици

Означения

A, B, . . . , Z - множества,събития.(елементи на A) или матрици.

P(.), Pθ(.) - Вероятност определена на Aξ, η, . . . , ζ - случайни величини (сл.в.)A⋂

B - сечение на множествата A и B;сбъдват се и двете събития.

A⋃

B - обединение на множествата A и B;сбъдва се поне едното събитие.

A + B - обединение на несъвместими събития;сума на матрици.

AB - сечение на множествата A и B;призведение на матрици.

AyB, ξy η - независими събития и сл.в.E ,D - Математическо очакване (м.о.) и дисперсия.R - реалната числова права.R+ - неотрицателните реални числа.Rn - n-мерно евклидово пространство.x = (x1, . . . , xn)′ - n-мерен вектор (точка в) Rn.||x|| - норма на x ∈ Rn.x′y - скаларно произведение на вектори.x - (1/n)

∑ni=1 xi

s2(x) - (1/(n− 1))∑n

i=1(xi − x)2

п.с. - почти сигурно, с вероятност 1f(x, θ) - функция на правдоподобие,

плътност на наблюдавана сл.в.LL(x, θ) - log f(x, θ).

Page 117: Записки по приложна статистика 1

Списък на иллюстрациите

1.1 Образование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.2 Извадъчна ф.р. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3 Хистограма . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.4 Кумулативна представяне . . . . . . . . . . . . . . . . . . . . . . . . . . 131.5 Баница . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.6 Временен ред . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.7 Подинтервал . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1 x и y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Преди и след . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3 y = f(x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.4 y − x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.5 Определяне на W . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1 N(0,I) в R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Линия на ниво . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3 χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1 Нейман-Пирсън . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.2 Едностранен критерий . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.3 Двустранен критерий . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.4 Доверителен интервал . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.1 Фишер . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.2 Стюдент . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406.2 χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426.3 χ2

1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

7.1 Проста регресия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

8.1 Проста линейна регресия . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

9.1 Екранът на Правец . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549.2 Окончателен модел . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

117

Page 118: Записки по приложна статистика 1

118 Списък на иллюстрациите

10.1 Криволинейни данни . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6110.2 Населението на САЩ 1900 - 1980 . . . . . . . . . . . . . . . . . . . . . 61

12.1 Хистограма на остатъците . . . . . . . . . . . . . . . . . . . . . . . . . . 7412.2 Нормална хартия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7412.3 Махалонобис . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7512.4 Махалонобис . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7612.5 Cook’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

13.1 Фактор2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8313.2 Фактор3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8413.3 Фактор4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

15.1 Класификационни области . . . . . . . . . . . . . . . . . . . . . . . . . . 95

16.1 Две еквивалентни дендрограми . . . . . . . . . . . . . . . . . . . . . . . 99

17.1 Изгладена хистограма . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Page 119: Записки по приложна статистика 1

Списък на таблиците

1.1 n наблюдения върху k признака . . . . . . . . . . . . . . . . . . . . . . 10

9.3 Регресия в МСТАТ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

10.1 Матрица X на полиномна регресия . . . . . . . . . . . . . . . . . . . . . 6110.2 Стойности на ортогоналните полиноми . . . . . . . . . . . . . . . . . . 6310.3 Коефициенти на ортогоналните полиноми . . . . . . . . . . . . . . . . . 6310.4 Оптимална степен . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

11.1 Доверителна елипса за различни стойности на собствените числа наматрицата Σ = (X

′X)−1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

12.1 Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

13.1 Брой на факторите . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8213.2 Факторни тегла . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8213.3 Факторни тегла без S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

14.1 Връзки между моделите . . . . . . . . . . . . . . . . . . . . . . . . . . . 9014.1 Данни за торенето - ANOVA1 . . . . . . . . . . . . . . . . . . . . . . . . 9014.2 Данни за добива при различно торене и семена . . . . . . . . . . . . . . 9114.3 ANOVA2 -таблица . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

17.1 Криви на Пирсън . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

B.1 Хи-квадрат разпределение (квантили) . . . . . . . . . . . . . . . . . . . 112B.2 Нормално разпределение . . . . . . . . . . . . . . . . . . . . . . . . . . . 112B.3 Разпределение на Стюдент (двустранни квантили) . . . . . . . . . . . . 113B.4 Квантили на разпределение на Фишер (p = .95) . . . . . . . . . . . . . 114

119

Page 120: Записки по приложна статистика 1

Литература

Agresti, A. (1990). Categorical Data Analysis. Wiley. 6.2

Akoka, J. (1992). A new algorithm for generation of clusters. In G. L. C. Serge Joly(Ed.), Distancia 92. Universite de Rennes 2. 16.2.1

Attkinson (1990). Residual Plots and Regression Diagnostics. UK: Oxford. 12

Cox, T. and M. Cox (1994). Multidimensianal Scaling. N.Y.: Chapman & Hall. 16,16.3

Dixon, J. (Ed.) (1981). BMDP Statistical Software - 81. Los Angeles: University ofCalifornia. 11.2.2, 11.2.3, 16.1

D.R.Brillinger, J.Guckenkeimer, P.Guttorp, and G.Oster (1980). Empirical modellingof population time series data: The case of age and density dependent vital rates.In G. Oster (Ed.), Some Mathematical Questions in Biology, Providence, RhodeIsland. AMS. A

Dunn, O. and V. Clark (1974). Applied Statistics. Analysis of variance and regression.John Wiley & S.Inc. 14.5, 14.5, A.2, A.3

Einslein, K., A. Ralston, and H. S. Wilf (Eds.) (1977). Statistical Methods for DigitalComputers. New York: John Wiley & Sons. 9.3, B

Gower, J. (1966). Some distance properties of latent roots and vector methods used inmultivariate analysis. Biometrika 53, 325 – 338. 16.3

Hartigan, J. (1975). Clustering Algorithms. Joh Wiley. 16, 16.1.1

Hartley, H. and E. Pearson (1966). Biometricca Tables for Statisticians. vol.I, 3rdEdition, 1966 vol.II, 1973. Cambridge: Cambridge University Press. 14.3.1

Jennrich, R. I. (1977). Stepwise regression. See Einslein, Ralston, and Wilf (1977), pp.58–75. 9.1.1, 9.3

Kruskal, J. (1964). Nonmetric multidimensional scaling: A numerical method.Psychometrika 29, 115 – 129. 16.3

Mathar, R. (1985). The best eucledian fit to to a given distance matrix in prescribeddimensions. Linear Algebra Applic. 67, 1 – 6. 16.3

Schoenberg, I. (1935). Remarks to Mourice Frechet’s article "Sur la Definitionaxiomatique d’une classe d’espaces vectoriels distances applicables vectoriellementsur l’espace de Hillbert"

. Ann.Math. 36, 724 – 732. 16.3

120

Page 121: Записки по приложна статистика 1

Литература 121

StatSoft, I. (1998). STATISTICA for Windows [Computer program manual]. StatSoft,Inc., 2300 East 14th Street, Tulsa, OK 74104: Tulsa, OK. 1.3.3

Torgerson, W. (1958). Theory and Method of Scaling. New York: John Wiley & Sons.16

Vandev, D., E. Dimitrov, S. Isa, V. Kaishev, B. Kovachev, P. Mateev, and P. Petrov(1989). A program package for multivarate statistical analysis. STATLAB. MSTAT- 16. Sofia: SPS. 9.1.2

Young, G. and A. Hauseholder (1938). Discussion of a set of points in terms of theirmutual distances. Psychometrika 3, 19 – 22. 16.3

Афифи, А. и С. Айзен (1982). Статистический анализ. Подход с использованиемЭВМ. Москва: Мир. 14.1

Въндев, Д. и П. Матеев (1988). Статистика с Правец 82. София: Наука и Искус-тво. (document), 9.1

Готтсданкер, Р. (1982). Основы психологического эксперимента. Москва: МГУ. A.4

Г.П.Климов (1975). Приложна математическа статистика. София: Наука и из-куство. 13.2.3

Демиденко, Е. З. (1989). Оптимизация и регрессия. М.: Наука, Гл. ред. физ.-мат.лит. 11.3.1

Дрейпер, Н. и Г. Смит (1973). Прикладной регресионный анализ. Москва: Статис-тика. 7.1, 12

Кендалл, М. (1981). Временные ряды. Москва: Финансы и статистика. A.5

Кокс, Д. и Э. Снелл (1984). Прикладная статистика. Принципы и примеры. Мос-ква: Мир. 12, A.1

Митропольский (1964). Техника статистических вычислений. Москва: Наука.17.1

Поллард, Д. (1982). Справочник по вычислительным методам статистики. Мос-ква: Финансы и статистика. 17.1

Поповъ, К. (1916). Стопанска България през 1911 г. Статистически изследвания.София: Държавна печатница. 1.3.1

Себер, Д. (1976). Линейный регресионный анализ. Москва: Мир. 7.1

Харман, Г. (1972). Современный факторный анализ. Москва: Статистика. 13.1.1,13.2.3

Химмельблау, Д. (1973). Анализ процессов статистическими методами. Москва:Мир. A.7

Шеффе, Г. (1963). Дисперсионный анализ. Москва: ГИЗ Физ.Мат.Лит. 14.1, 14.2,14.6

Ян, В. и Х. Вале (1974). Факторният анализ и неговото приложение. София:Техника. 13.2.2, 13.2.3, 13.2.3