16
 Statistika: 5. Linearna regresija @aneta Popeska 92 5. Linearna regresija 5.1 Voved ^estopati vo praksa se sretnuvame so merewa na pove}e obele`ja na isti edinki od populacijata. Vakvi merewa naj~esto se pravat za da se proveri kako promenite na odredeni obele`ja (nezavisni promenlivi) vlijaat na promenite na obele`jeto od interes (zavisna promenliva). Na primer kako na potro{uva~kata na elektri~na energija vo doma}instvoto vo tekot na eden mesec vlijae prose~nata nadvore{na temperatura. Za da ja ispitame zavisnosta na potro{uva~kata potrebno e da se snabdime so podatoci za prose~nata nadvore{na temperatura. Promenlivata {to e predmet na na{ata studija (potro{uva~kata na elektri~na energija) se narekuva zavisna promenliva . Promenlivata koja mo`eme da ja kontrolirame na izvesen na~in ili nejzinite vrednosti da gi birame na proizvolen na~in velime deka pretstavuva nezavisnata promenliva (nadvore{nata temperatura). Ovaa promenliva gi objasnuva ili vlijae na promenite na drugata promenliva. Voobi~aeno e zavisnata promeliva da se ozna~uva so Y a nezavisnata so X. Dokolku pak na merewata na zavisnata promenliva vlijaat pove}e nezavisni promenlivi gi ozna~uvame so  X 1  , X 2  , …, X k . Zada~ata e da se napravi matemati~ki model koj }e ja izrazi Y kako funkcija od nezavisnite promenlivi vrz baza na podatoci odnosno merewa na Y  za konkretni vrednosti na  X 1  , X 2  , …, X k . Me|utoa treba da se ima predvid deka pri realni situacii ne mo`eme da zboruvame za deterministi~ka zavisnost, tuku na merewata ~esto vlijaat i slu~ajni faktori koi ne mo`at da se kontroliraat od istra`uva~ot. Statisti~kite modelite koi se koristat za povrzuvawe na zavisna promenliva Y so nezavisnite promenlivi  X 1  ,X 2  , …, X k se nare~eni  modeli na regresija.  Op{tiot oblik na ovie modeli e ε + = ) ,..., , ( 2 1 k  X  X  X  f Y  Kade Y  e slu~ajna promenliva, ) ,..., , ( 2 1 k  X  X  X  f  e deterministi~kata komponenta, a ε e slu~ajnata komponenta. Poprecizno, ona {to go opredeluva deterministi~kata komponenta e vsu{nost matemati~koto o~ekuvawe na slu~ajnata promenliva Y ili regresioniot model mo`eme da go zapi{eme so ) ,..., , ( ) ( 2 1 k  X  X  X  f Y  E  = . Modelite koi go izrazuvaat matemati~koto o~ekuvawe na slu~ajnata promenliva Y  za dadeni vrednosti na nezavisnite promenlivi  X 1 =   x 1  , X 2

linearna regresija

Embed Size (px)

Citation preview

Statistika: 5. Linearna regresija 5. Linearna regresija 5.1 Voved ^estopati vo praksa se sretnuvame so merewa na pove}e obele`ja na isti edinki od populacijata. Vakvi merewa naj~esto se pravat za da se proveri kako promenite na odredeni obele`ja (nezavisni promenlivi) vlijaat na promenite na obele`jeto od interes (zavisna promenliva). Na primer kako na potro{uva~kata na elektri~na energija vo doma}instvoto vo tekot na eden mesec vlijae prose~nata nadvore{na temperatura. Za da ja ispitame zavisnosta na potro{uva~kata potrebno e da se snabdime so podatoci za prose~nata nadvore{na temperatura. Promenlivata {to e predmet na na{ata studija (potro{uva~kata na elektri~na energija) se narekuva zavisna promenliva. Promenlivata koja mo`eme da ja kontrolirame na izvesen na~in ili nejzinite vrednosti da gi birame na proizvolen na~in velime deka pretstavuva nezavisnata promenliva (nadvore{nata temperatura). Ovaa promenliva gi objasnuva ili vlijae na promenite na drugata promenliva. Voobi~aeno e zavisnata promeliva da se ozna~uva so Y a nezavisnata so X. Dokolku pak na merewata na zavisnata promenliva vlijaat pove}e nezavisni promenlivi gi ozna~uvame so X1, X2, , Xk. Zada~ata e da se napravi matemati~ki model koj }e ja izrazi Y kako funkcija od nezavisnite promenlivi vrz baza na podatoci odnosno merewa na Y za konkretni vrednosti na X1, X2, , Xk. Me|utoa treba da se ima predvid deka pri realni situacii ne mo`eme da zboruvame za deterministi~ka zavisnost, tuku na merewata ~esto vlijaat i slu~ajni faktori koi ne mo`at da se kontroliraat od istra`uva~ot. Statisti~kite modelite koi se koristat za povrzuvawe na zavisna promenliva Y so nezavisnite promenlivi X1,X2, , Xk se nare~eni modeli na regresija. Op{tiot oblik na ovie modeli e Y = f ( X 1 , X 2 ,..., X k ) + Kade Y e slu~ajna promenliva, f ( X 1 , X 2 ,..., X k ) e deterministi~kata komponenta, a e slu~ajnata komponenta. Poprecizno, ona {to go opredeluva deterministi~kata komponenta e vsu{nost matemati~koto o~ekuvawe na slu~ajnata promenliva Y ili regresioniot model mo`eme da go zapi{eme so E (Y ) = f ( X 1 , X 2 ,..., X k ) . Modelite koi go izrazuvaat matemati~koto o~ekuvawe na slu~ajnata promenliva Y za dadeni vrednosti na nezavisnite promenlivi X1= x1 , X2

@aneta Popeska

92

Statistika: 5. Linearna regresija

=x2, , Xk=xk kako linearna funkcija od mno`estvo nepoznati parametri se poznati kako linearni modeli.5.2 Prosta linearna regresija Modelot na prosta linearna regresija E (Y ) = 0 + 1 X go povrzuva Y so edna nezavisna promenliva X i ja dava pretpostavkata deka matemati~koto o~ekuvawe na Y, E (Y ) , za dadena vrednost na X grafi~ki e prava linija. Modelite za pove}ekratna regresija se sli~ni so prostite linearni regresioni modeli osven {to tie sodr`at pove}e ~lenovi i mo`e da se iskoristat za predlo`uvawe na vrski poslo`eni od pravoliniskite. Na primer, pretpostavuvame deka srednoto vreme E (Y ) potrebno za da se izvr{i podato~no procesirawe na daden komjuter se zgolemuva so zgolemuvaweto na kompjuterskata upotreba i vrskata e krivoliniska. Namesto pravoliniski model E ( y ) = 0 + 1 x1 , mo`eme da koristime kvadraten model

E ( y ) = 0 + 1 x1 + 2 x12kade x1 e promenliva koja ja meri kompjuterskata upotreba. Kvadratniot model ~esto se tretra kako vtoro-stepen model i grafi~ki e parabola (sl. 1.1), nasproti pravoliniskiot ili prvo-stepen model.

sl. 1.1

Ako srednoto vreme E (Y ) potrebno za podato~no procesirawe e povrzano i so goleminata na rabotata x2, toga{ mo`eme da go vklu~ime i x2 vo modelot. Grafikot na E ( y ) kako funkcija od x1 i x2 e povr{ina vrz (x1, x2)-ramninata. Na primer, prvo-stepeniot model

E ( y ) = 0 + 1 x1 + 2 x 2pretstavuva ramnina nad (x1, x2)-ramninata (sl. 1.2)

@aneta Popeska

93

Statistika: 5. Linearna regresija

sl. 1.2 Za na{iot primer (i za pove}e prakti~ni primeni) bi o~ekuvale krivina vo povr{inata i bi koristele vtoro-stepen model2 E ( y ) = 0 + 1 x1 + 2 x 2 + 3 x1 x 2 + 4 x12 + 5 x 2 Grafikot na tipi~na vtoro-stepena povr{ina e kako na sl. 1.3

sl. 1.3 Site modeli napi{ani dosega se nare~eni obop{teni linearni modeli bidej}i E (Y ) e linearna funkcija od nepoznatite parametri 0 ,

1 , 2 , . ModelotE (Y ) = 0 e 1x

@aneta Popeska

94

Statistika: 5. Linearna regresija ne e linearen model bidej}i E (Y ) ne e linearna funkcija od nepoznatite parametri 0 i 1 . Me|utoa vo konkretniot slu~aj so logartmirawe od dvete stani mo`eme da go svedeme na linearen model. Nezavisnite promenlivi koi {to ja merat kompjuterskata upotreba (x1) i goleminata na rabotata (x2) se kvantitativni promenlivi t.e. merat iznos ili kvantitet od ne{to. Isto taka mo`eme da vneseme i kvalitativni nezavisni promenlivi vo modelot. Na primer, pretpostavuvame deka srednoto vreme potrebno za procesirawe e povrzano so denot vo nedelata koga e izvr{eno procesiraweto. Kvalitativnata nezavisna promenliva, den vo nedelata, mo`e da se vnese vo modelot koristej}i indeksni promenlivi koi vnesuvaat soodveten parametar vo modelot. Izbirot na soodveten regresionen model za posebna situacuja e mnogu va`no. Zatoa prvo grafi~ki da se prika`at rezulatatite odnosno to~kite koi odgovaraat na izmereni vrednosti ( yi , xi ), i = 1,..., n na sekoja individua i potoa da se dodadat brojnite karakteristiki. Da se bara op{t oblik ili izgled i otstapuvawa od ovoj oblik. Koga op{tiot izgled e dosta regularen da se najde matemati~ki model so koj istiot najdobro bi se opi{al. Dokolku stanuva zbor za samo dve promenlivi, vrednostite na nezavisnata promenliva obi~no se nanesuvaat na horizontalnata oska, a vrednostite na zavisnata promeliva na vertikalnata oska. Sekoja individua e prika`ana kako to~ka vo ramninata ~ii koordinati se soodevetnite vrednosti na nezavisnata i zavisnata promenliva. Na primer na sledniot grafik se prika`ani pominati kilometri vo zavisnost od ja~inata na avtomobilot.50

40

30

20

Miles per Gallon

10

0 0 100 200 300

Horsepower

@aneta Popeska

95

Statistika: 5. Linearna regresija

Na sledniot grafik e prika`ano vremeto na zabrzuvawe do 100 km vo zavisnost od ja~inata na avtomobilot.30

Time to Accelerate from 0 to 60 mph (sec)

20

10

0 0 100 200 300

Horsepower

Vo dijagramot na podatocite se bara op{t izgled i zana~ajni otstapuvawa od ovoj izgled. Na primer prviot grafik na primerot ima eksponencijalen oblik. Pritoa zabele`uvamr deka so zgolemuvawe na kowskite snagi se namaluva potro{uva~kata. Vtoriot pak grafik ima pravoloniski izgled i pritoa povtorno so zgolemuvawe na kowskite sili se namaluva vremeto na zabrzuvawe.

Vo po~etokot }e go razgledame slu~ajot na prosta linearna regresija, odnosno koga zavisnata promenliva Y zavisi od edna nezavisna promenliva X i pretpostavenata vrska e linearna, odnosno 1. Pretpostavki za modelot

Otkako }e go izbravme deterministi~kiot del od regresioniot model t.e. model za E (Y ) , dodavame komponenta kako nadomestok za slu~ajna gre{ka

Y = E (Y ) +

@aneta Popeska

96

Statistika: 5. Linearna regresija Za da mo`eme da pretstavime formuli za ocenki na nepoznatite parametri, morame da go napi{eme E (Y ) vo standardna forma. Neka

E (Y ) = 0 + 1 Xe deterministi~ka komponenta od modelot. Za slu~ajnata komponentata barame da gi zadovoluva slednite pretpostavki: Pretpostavka 1. Matemati~koto o~ekuvawe na e 0 t.e. E ( ) = 0 . Ova podrazbira deka o~ekuvaweto na Y e ekvivalentno so deterministi~kata komponenta na modelot t.e. E (Y ) = 0 + 1 X ; Pretpostavka 2. Za site vrednosti na nezavisnata promenliva X disperzijata na e konstantna, 2 ; Pretpostavka 3. Slu~ajnata gre{ka ima normalna raspredelba, odnosno ~N(0, 2); Pretpostavka 4. verojatnosna smisla). Slu~ajnite gre{ki se nezavisni (vo

Spored dosega ka`anoto, ako (Y1 , Y2 ,..., Yn ) e slu~aen primerok od obele`jeto Y, toga{

Yi = 0 + 1 X + i

dodeka modelot na podatocite e

y i = 0 + 1 xi + i

2. Ocenuvawe na parametrite a i b: Za da go odbereme najsoodvetniot model za mno`estvo podatoci, morame da gi ocenime nepoznatite parametri 0 i 1 na modelot od mno`estvoto nabquduvani vrednosti (yi,, xi) i = 1, 2, ..., n. Dokolku pretpostavime deka y1, y2,, yn se nezavisni realizacii na slu~ajniot primerok (Y1 , Y2 ,..., Yn ) od obele`jeto Y koe ima normalna raspredelba N(E(Y),2), kade E (Y ) = 0 + na maksimalna podobnost.

1 X mo`e da se primeni metod

Funkcijata na podobnost na slu~ajniot primerok e

@aneta Popeska

97

Statistika: 5. Linearna regresija

(6)

L( y1 , y 2 ,..., y n ; a, b) = f ( yi ) = i =1 i =1

n

n

exp[

1 22

( yi 0 1 xi ) 2 ]

22

=

exp[ =

1 2 2

( y i 0 1 xi ) (2 ) n / 2i =1 n

n

]

dobivaat so Maksimalno podobni ocenki za 0 i 1 se logaritmirawe, diferencirawe po parametrite, izedna~uvawe na dobienoto so 0, i re{avawe na soodvetnite ravenki. Ravenkite dobieni na toj na~in, posle soodvetni alebarski uprostuvawa , se slednive : (7)

( y i 0 1 xi ) = 0i =1 n

n

( y i 0 1 xi b ) xi = 0i =1

Ako ne se napravat pretpostavki za raspredelbata Y, se koristi metod na najmali kvadrati, koj se sveduva na barawe na ocenuva~i za nepoznatite parametri koi ja minimiziraat sumata na kvadrarite na gre{kiye pri merewata.

3. Metod na najmali kvadrati Pretpostavenata vrska e linearna, odnosno E (Y ) = 0 + 1 X ili Y = 0 +

1 X + , kade ~N(0, 2);

@aneta Popeska

98

Statistika: 5. Linearna regresija

Regresiona prava po metod na najmali kvadrati na Y po X e prava koja go pravi zbirot na kvadratite na vertikalnite rastojanija na to~kite od podatocite od dijagramot do pretpostavenata prava {to e mo`no pomal. Edna od pri~inite za popularnosta na ovoj metod e toa {to postavuvaweto na prava na ovoj na~in ima mnogu lesno i ednostavno re{enie. Bidej}i modelot na podatocite e

zaradi poednostavno zapi{uvawe da gi vovedeme slednite oznaki, b = 0 , a = 1

y i = 0 + 1 xi + i

i = 1,..., n ,

Vertikalnoto rastojanie pome|u nabquduvanata vrednost na Y, yi i pretpostavenata vrednost y ( xi ) = b + axi e tokmu i. Zna~i za da ocenime pravata na regresija po metod na najmali kvadrati treba vrz baza na primerokot da najdeme ocenuva~i za a i b koi sumata

S (a, b) = i2 = ( y i y ( xi )) 2 = ( y i b axi ) 2i =1 i =1 i =1

n

n

n

}e primi najmala mo`na vrednost. Zna~i barame vrednosti za a i b za koi funkcijata od dve promenlivi S(a,b) ima lokalen minimum. Za da gi opredelime a i b treba da go re{ime sistemot ravenki

S (a, b) =0 a

( y i b axi ) 2odnosnoi =1

n

a ( y i b axi ) 2n

=0

S (a, b) i =1 =0 =0 b b Ako diferencirame sootvetno po a i b go dobivame sistemot

(y

n

(yi =1

i =1 n

i

b axi ) = 0

i

b axi ) xi = 0

@aneta Popeska

99

Statistika: 5. Linearna regresija koj go transformirame vo

y i b1 a x i = 0 xi yi b xi a xi2 = 0i =1 i =1 i =1 i =1 n i =1 i =1 n n

n

n

n

{to mo`e da se zapi{e vo oblik

bn + a x i = y ii =1 i =1

n

n

b xi + a xi2 = xi y ii =1 i =1 i =1

n

n

n

Voveduvaj}i gi soodvetno oznakite za prose~nite vrednosti gi dobivame takanare~enite normalni ravenki

b + ax = ybx + a

(1)2 i

xi =1

n

n

=

1 n xi y i n i =1

(2)

Za re{enija toga{ dobivame2 = ( y i )( xi ) ( xi )( xi y i ) i b n xi2 ( xi ) 2

a=

n xi y i ( xi )( y i ) n xi2 ( xi ) 2

So voveduvawe na slednite oznaki:

n xi n n 2 i =1 , 2 SS x = ( xi x ) = xi n i =1 i =1 n yi n n 2 SS y = ( yi y ) 2 = yi i =1 n i =1 i =12

2

i

SS xy

n n xi yi n n i =1 i =1 2 = ( xi x )( yi y ) = xi yi n i =1 i =1

Re{enijata mo`at da se zapi{at vo oblik

@aneta Popeska

100

Statistika: 5. Linearna regresija

a = 1 =

SS xy SS x

b = 0 = y axToga{ procenetata prava glasi y = ax + b i istata mo`e da se koristi za predviduvawe na vrednosti za obele`jeto Y od poznati vrednosti na obele`jeto X. 4. Interpretacija na rezultatite Ako yi e nabquduvanata vrednost na promenlivata Y, a y e prose~nata vrednost na nabquduvanite yi, i=1, . . . , n, razlikata yi - y se narekuva vkupno otstapuvawe na podatokot od prosekot. Ako y i e vrednosta na podatokot dobiena od pravata na regresija, razlikata y i - y se narekuva objasneto otstapuvawe (ili otstapuvawe {to se dol`i na modelot) i poka`uva za kolku se namaluva vkupnoto otstapuvawe koga }e se postavi regresionata prava na podatocite. Na krajot, razlikata yi - y i se narekuva neobjasneto otstapuvawe, odnosno del od vkupnoto varirawe koj ne e objasnet so voveduvaweto na regresionata prava. Spored toa vkupnoto otstapuvawe na podatokot od prosekot mo`eme da go pretstavime kako zbir na objasneto i neobjasneto otstapuvawe: ( yi y ) = ( yi y ) + ( yi yi ) Ako ovie otstapuvawa gi presmetame za site podatoci gi kvadrirame i sobereme dobivame deka va`i slednata ravenka

(yi

i

y ) 2 = ( yi y ) 2 + ( yi yi ) 2i i

vkupna suma na kvadrati

objasneta suma na kvadrati

neobjasneta suma na kvadrati

Pritoa vkupnata suma na kvadrati (SST) e merka na rasejuvaweto na nabquduvanite vrednosti na Y okolu nivniot prosek (ili (n-1) po disperzijata na primerokot), objasnetata suma na kvadrati (SSR) go meri delot od vkupnoto varirawe koj e vo vrska so linarnata zavisnost na nabquduvanite vrednosti na X i Y ili suma na kvadrati koja se dol`i na linearnata regresija, neobjasnetata suma na kvadrati go meri rasejuvaweto na nabquduvanite vrednosti na Y okolu pravata na regresija i obi~no se narekuva suma na kvadrati na gre{ki ili suma na kvadrati na ostatoci

@aneta Popeska

101

Statistika: 5. Linearna regresija (SSE). Tokmu ovaa vrednost se minimizira koga se dobiva pravata na regresija. Spored toa mo`eme da ja zapi{ime slednata ravenka SST = SSR + SSE. Brojot R2=SSR/SST se narekuva koeficient na determiniranost i ja meri ja~inata na sovpa|aweto na pravata na regresija so podatocite. Ovoj broj ima vrednost pome|u 0 i 1 i kolku e poblisku do 1 tolku e podobro sovpa|aweto, odnosno tolku podobar e regresioniot model. Testiraweto na zna~ajnosta na R2 se pravi so F-statistika. Pred da go prifatime ili odbieme modelot potrebno e da napravime testirawe na hipotezata H0 : 0 = 0 nasproti HA : 0 0 i H0 : 1 = 0 nasproti HA : 1 0. Zatoa e potrebno da gi opredelime svojstvata na ocenuva~ite na nepoznatite parametri. 5. Svojstva na ocenuva~i na najmali kvadrati Za polesno da gi vidime svojstvata na ocenuva~ite so metod na najmali kvadrati }e gi vovedime slednite matri~ni oznaki. Ako regresioniot model e (8)

E (Yi ) = 0 + 1 X i ,

i = 1, 2, ..., n

So voveduvawe na slednite vektor koloni i matrici y1 r y y = 2 M yn

=

r

0 1

1 x1 1 x 2 X = M M 1 xn

1 r = 2 M n

Koristej}i ja ovaa notacija, (8) mo`e da bide izrazena vo kompaktnata matri~na forma (9)(10)

r r E( Y ) = X odnosno r r r y = X +

Sumata na kvadratite na gre{ki e

i2 = [ yi ( 0 + 1 xi )]2i =1 i =1

n

n

@aneta Popeska

102

Statistika: 5. Linearna regresija Istata vo matri~en oblik mo`eme da ja zapi{ime so

i =1

n

2 i

= ' = ( y X )' ( y X ) ,

r r

r

r

r

r

kade y se nabquduvanite vrednosti na slu~ajniot primerok (vektor) Y , i kade prviot vektor ili matrica ja ozna~uva nejzinata transponirana. Ako diferencirame po nepoznatite parametri i parcijalnite izvodi gi izedna~ime so nula, normalnite ravenki (1) i (2) mo`eme da go pretstavime so slednata matri~na ravenka(1) t.e.

r

r

r r ( y X ) ' X = 0

r r y' X ' X ' X = 0 ' X ' X = y' X r r

ili

Transponirawe od dvete strani }e dade

r r X ' X = X ' y .

Pod pretpostavka deka matricata re{enie za (3)

e dadeno so formulatar

r

X 'X

e nesingularna, baranoto

= ( X ' X ) 1 X ' y

r

r r Ovde e konkreten vektor, no koga y se zameni so slu~ajniot vektor r r Y ovaa formula go definira slu~ajniot vektor . Prednosta na matri~nite metodi e toa {to ovozmo`uvaat lesno sogleduvawe na svojstvata na ocenuva~ite na najmali kvadrati. Od r r dobienata formula = ( X ' X ) 1 X ' Y se gleda deka i e proizvod od i-ot r red na ( X ' X ) 1 X ' i Y . Sleduva deka, za i=1, 2, i e linearne funkcuja od n normalno raspredeleni slu~ajni promenlivi Y1, Y2, , Yn , ottuka i

ima normalna raspredelba. Svojstvata na ocenuva~ite na najmali kvadrati }e gi izrazime vo forma na nekolku teoremi.

@aneta Popeska

103

Statistika: 5. Linearna regresija

Teorema 1. Ocenuva~ite dadeni so (3) se nepristrasen ocenuva~ za i

1 .Dokaz : Imeno

0

r r r E ( ) = E ( X ' X ) 1 X 'Y = ( X ' X ) 1 X ' EYr Poslednoto ravenstvo sleduva od faktot deka , kako eden ocenuva~ r na , e linearna kombinacija od slu~ajnite promenlivi Y1, Y2, , Yn , i negovata o~ekuvana vrednost e rezultat na istata linearna kombinacija od o~ekuvanite vrednosti od tie slu~ajni promenlivi. Od (9) sleduva dekar r r E ( ) = ( X ' X ) 1 X ' X =

Teorema 2. Ako Y1, Y2, , Yn se nekorelirani i imaat ista disperzija

, disperziite na 0 i 1 se dadeni so2

2 2 2 ) = xi i D ( ) = . D( 0 1 n SS x SS x

Druga va`na osobina na ocenuva~i na najmali kvadrati e toa {to tie imaat minimalna disperzija me|u site nepristrasni ocenuva~i. Toa zna~i deka V ( i ) V ( i ) , i=1,2 kade i e nepristrasen ocenuva~ za i . So korstewe na mtri~nata notacija sumata na kvadrati na gre{ki mo`e da se zapi{e so

r r r r r SSE = ( yi yi ) 2 = Y 'Y ' X 'Yn i =1

6.

Ocenuvawe na 2, varijansa na

Vo pove}eto prakti~ni situacii, varijansata 2 na slu~ajnata gre{ka e nepoznata i }e mora da se oceni vrz baza na primerokot. Ocenuva~ na 2 , varijansa na kaj prostata linearna regresija e

S2 =

SSE . n2

@aneta Popeska

104

Statistika: 5. Linearna regresija Raspredelbata na S2 e povrzana so Hi kvadratna raspredelba t.e. Teorema 3 : Statistikata

2 =

SSE

2

=

( n 2) S 2

2

ima Hi - kvadratna raspredelba so = (n k 1) stepeni na sloboda. So koristewe na ovaa teorema se poka`uva deka S2 e nepristrasen ocenuva~ za 2 t.e.

2 2 2 E(S ) = E E( 2 ) = n2 n22

kade E ( ) = = (n 2) . Zatoa2

2 2 E(S ) = n 2 ( n 2) = 2

i zaklu~uvame deka S2 e nepristrasen ocenuva~ za 2 .

Spored toa raspredelbite na 0 i 1 se2 2 2 ~ N , xi , ~ N , . 0 0 n SS x 1 1 SS x

Imaj}i go ova predvid mo`e da se dobijat intervalite na doverba i da se testiraat hipotezite H0 : 0 = 0 nasproti HA : 0 0 i H0 : 1 = 0 nasproti HA : 1 0 Za testirawe na hipotezite se dobivaat test statistikite

to =

0 S 0

=

0 S

n

SS x xi2

i

t1 =

1 S 1

=

1 S

SS x

so po n-2 stepeni na sloboda.

@aneta Popeska

105

Statistika: 5. Linearna regresija 7. Koeficient na korelacija So testirawe na parametarot 1 mo`eme da donesime odreden zaklu~ok za linearnata povrzanost na Y i X. Druga merka za linearnata povrzanost e Pirsonoviot koeficient na korelacija

r=

1 xi x yi n i s x s y

SS xy y = = R2 , SS x SS y

pri {to R2 odgovara na koeficientot na determiniranost kaj regresioniot model.

Zatoa ne e ni~udno {to i dvata parametri se povrzani, imeno 1 = r

SSY . SS X

Koga stanuva zbor za dvodimenzionalna raspredelba, pokraj parametrite X, Y, X, Y se javuva i parametarot koj se narekuva koeficient na korelacija i ja meri ja~inata na linearnata povrzanost na X i Y. Ovo broj e sekoga{ pome|u 1 i -1. Ako =1 zna~i deka postoi perfektna linearna zavisnost i so rastewe na ednata promenliva raste i drugata promenliva. Ako pak =-1 zna~i deka postoi perfektna linearna zavisnost no so rastewe na ednata promenliva opa|a drugata promenliva. Ocenuva~ na koeficientot na korelacija vrz baza na primerokot od paraovi na nabquduvani vrednosti e Pirsonov koeficient na korelacija r. Kolku e ovoj broj poblisku do 1 ili -1 tolku e pogolema ja~inata na linearnata vrska. Za testirawe na zna~ajnosta na koeficientot na korelacija, odnosno H0 : = 0 nasproti HA : 0 pri pretpostavkata deka promenlivite X i Y imaat zaedni~ka dvodimenzionalna normalna raspredelba se koristi test statistikata

t=

r n2 1 r2

koja ima t raspredelba so n-2 stepeni na sloboda.

Da napomeneme deka postoewe na korelaciona vrska ( visok koeficien na korelacija ) ne zna~i i pri~inska povrzanost na nabquduvanite promenlivi. Ako pak koeficientot na korelacija e relativno mal, ne zna~i deka promenlivite ne se povrzani, tuku samo deka ne postoi linearna povrzanost, odnosno pome|u niv mo`ebi postoi drug vid na funkcionalna povrzanost.

7.

Koristew ena modelite za ocenuvawe i predviduvawe

@aneta Popeska

106

Statistika: 5. Linearna regresija {tom sme zadovolni za izbraniot model mo`eme istiot da go koristime za procenka na prosekot na merewata za promenlivata Y koi bi gi dobile za vrednosti na promenlivata X koi ne se primerokot. Pritoa ako xp e konkretna vrednost na promenlivata X, va`at slednite svojstva

1. Standardnata devijacija na ocenuva~ot y za E(Y) vo to~kata xp iznesuva2 1 (x p x) . y = + n SS x

Spored toa intervalot na doverba za E(Y) za X=xp e daden so2 1 (x p x) , kde t ima n-2 stepeni na sloboda. y t / 2 S + n SS x

Zabele{ka: Ravenkata na pravata na regresija mo`e da se koristi za predviduvawe na vrednosti na E(Y) za nemereni vrednosti na promenlivata X koi se vo rangot ili blisku do minimalnata ili maksimalnata nabquduvana vrednost na X.

@aneta Popeska

107