53
UNIVERZA V MARIBORU FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO Oddelek za matematiko in racunalnitvo Diplomsko delo REGRESIJSKA ANALIZA Mentor: Kandidatka: dr. Dominik Benkovic Andreja Korenjak docent Maribor, 2010

REGRESIJSKA ANALIZA · 2017. 11. 27. · V diplomskem delu je predstavljena regresijska analiza s poudarkom na linearni ... dardna napaka modela, tabela analize variance, determinacijski

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • UNIVERZA V MARIBORUFAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO

    Oddelek za matematiko in raµcunalnitvo

    Diplomsko delo

    REGRESIJSKA ANALIZA

    Mentor: Kandidatka:dr. Dominik Benkoviµc Andreja Korenjakdocent

    Maribor, 2010

  • Zahvala

    Najprej se iskreno zahvaljujem svojemu oµcetu, ki mi je omogoµcil tudij, sestrama,fantu, prijateljem in ostalim sorodnikom, ki so me na poti tudija spodbujali in mistali ob strani. Zahvala gre tudi mentorju doc. dr. Dominiku Benkoviµcu za njegovenasvete in pomoµc pri izdelavi diplomskega dela.Posebna zahvala gre moji mami, ki mi je prav tako omogoµcila tudij, me vse do

    konca 4.letnika tudija usmerjala, spodbujala in brez katere ne bi prispela tako daleµckot sem.

  • UNIVERZA V MARIBORU

    FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO

    Oddelek za matematiko in raµcunalnitvo

    Izjava

    Podpisana Andreja Korenjak, rojena 22.10.1984, tudentka Fakultete za naravoslovjein matematiko Univerze v Mariboru, smer enopredmetna pedagoka matematika,izjavljam, da je diplomsko delo z naslovom

    REGRESIJSKA ANALIZA

    pri mentorju doc. dr. Dominiku Benkoviµcu avtorsko delo. V diplomskem delu souporabljeni viri in literatura korektno navedeni; teksti niso prepisani brez navedbeavtorjev.

    Maribor, junij 2010

  • Program diplomskega dela: Regresijska analiza

    V diplomskem delu naj bo predstavljen osnovni regresijski model pri bivariatni sta-tistiµcni analizi in veµcrazseµzen regresijski model pri multivariatni statistiµcni analiziter njuna uporaba v statistiki. Sama teorija naj bo podkrepljena z zgledi.

    Osnovni vir:

    � G. McPherson, Applying and Interpreting Statistcs, Springer Texts in Statis-tics, 2001.

    doc. dr. Dominik Benkoviµc

    4

  • KORENJAK, A. : Regresijska analiza.

    Diplomsko delo, Univerza v Mariboru, Fakulteta za naravoslovje in ma-tematiko, Oddelek za matematiko in raµcunalnitvo, 2010.

    Izvleµcek

    V diplomskem delu je predstavljena regresijska analiza s poudarkom na linearniregresiji in veµckratni regresiji.Na zaµcetku sta v poglavju osnovni pojmi opisani korelacijska analiza in anali-

    za variance, ki sta pomembni za razumevanje diplomskega dela. V nadaljevanju jepredstavljen regresijski model. Nato sta v osrednjem delu predstavljeni dve poglavji:linearna regresija in veµckratna regresija. V prvem je opisana metoda najmanjihkvadratov, ki je pomembna za pridobivanje ocen regresijskih parametrov. Pred-stavljen je tudi model in preverjanje podatkov, ter osnovni statistiµcni podatki (stan-dardna napaka modela, tabela analize variance, determinacijski koecient, statistikiF in T , ki sta pomembni za testiranje niµcelnih hipotez). V drugem je predstav-ljen postopek, kako priti do ocen parametrov, ter model in preverjanje podatkov.Obe poglavji sta podprti z zgledi, za katere je bil pri obdelavi podatkov uporabljenstatistiµcni program SPSS. V nadaljevanju so opisani praktiµcni premisleki v regresij-ski analizi z izbiro regresijske enaµcbe, eksperimentalnimi cilji in selektivno metodo.Nato je predstavljena e uporaba regresijske analize, ki temelji na obliki regresijskeenaµcbe ter na ocenjevanju in napovedovanju. Na koncu je z zgledoma predstavljenae nelinearna regresija.

    Kljuµcne besede: linearna regresija, veµckratna regresija, nelinearna regresija, ana-liza variance.

    Math. Subj. Class. (2010): 62J05, 62J10.

    5

  • KORENJAK, A.: Regression analysis.

    Graduation Thesis, University of Maribor, Faculty of Natural Sciencesand Mathematics, Department of Mathematics and Computer Science,2010.

    Abstract

    The graduation thesis presents regression analysis with emphasis on linear re-gression and multiple regression.The rst chapter describes basic concepts of the correlation analysis and analysis

    of variance, which are important for understanding the thesis. Further, a regressionmodel is presented. The central part of the thesis consists of two chapters: lin-ear regression and multiple regression. The rst one describes the method of leastsquares, which is important for obtaining estimates of regression parameters. Amodel is presented including a verication of data and basic statistics (standarderror of the model, table analysis of variance, coe¢ cient of determination, F andT statistics, which are important for testing the null hypothesis). In the secondone we describe a method for obtaining estimates of parameters, and design andverication of data. In both sections many examples are given, which were obtainedusing statistical data processing program SPSS. Next, some practical arguments inregression analysis are described including the choice of regression equation, theexperimental objectives and selective method. We also present applications of re-gression analysis based on a form of regression equation, and also on evaluation andprediction. Finally, we give two examples presenting nonlinear regression.

    Key words: linear regression, multiple regression, nonlinear regression, analysis ofvariance.

    Math. Subj. Class. (2010): 62J05, 62J10.

    6

  • Kazalo

    Izvleµcek 5

    Abstract 6

    1 Uvod 8

    2 Osnovni pojmi 9

    2.1 Korelacijska analiza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.2 Analiza variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    3 Regresijski modeli 18

    4 Linearna regresija 20

    5 Veµckratna regresija 30

    6 Uporabni premisleki v regresijski analizi 40

    7 Uporaba regresijske analize 43

    8 Nelinearna regresija 47

    Literatura 52

    7

  • Poglavje 1

    Uvod

    Dandanes je statistika znanost, s katero razvijamo svoje znanje z uporabo izkustvenihpodatkov. Razvila se je predvsem uporabna statistika na podroµcjih razliµcnih znan-stvenih panog. Te pri obdelavi, analizi podatkov uporabljajo statistiµcne metode.Ena izmed teh metod je ravno regresijska analiza, ki je predstavljena v tem diplom-skem delu.V diplomskem delu si bomo pogledali regresijsko analizo. Na zaµcetku bomo

    naredili kratek pregled nad korelacijsko analizo in analizo variance, saj je znanje tehpomembno za razumevanje regresijske analize. S poglavjem o regresijskih modelihbomo vstopili v µcetrto in peto poglavje, ki predstavljata bistvo te diplomske naloge.V poglavju linearna regresija bomo obravnavali regresijski model, s katerim lahkoopiemo funkcijo v ravnini, kateri se pribliµzujejo pari merjenja. Za ta model bomos pomoµcjo metode najmanjih kvadratov poiskali ocene parametrov. Pogledali sibomo tudi model in preverjanje podatkov ter osnovne statistiµcne podatke v regre-sijski analizi. Sledil bo zgled, pri katerem bomo za obdelavo podatkov uporabilistatistiµcni program SPSS. Nadaljevali bomo s poglavjem o veµckratni regresiji, kjerbomo iskali hiperravnino, ki se bo najbolje prilegala rezultatommerjenja. Tudi tukajsi bomo pogledali, kako poiµcemo najbolje ocene za parametre ter model in prever-janje podatkov. Sledila bosta uporabna zgleda, na katerih si bomo pogledali ocen-jeno hiperravnino, koliko odstotkov variabilnosti spremenljivke Y je pojasnjenih intestirali bomo niµcelne hipoteze za posamezne parametre. Naslednji poglavji o prak-tiµcnih premislekih in uporabi regresijske analize bosta bolj teoretiµcni. Tukaj si bomopogledali izbiro regresijske enaµcbe, eksperimentalne cilje, selektivno metodo, oblikoregresijske enaµcbe ter ocenjevanje in napovedovanje. Na koncu sledi e poglavjeo nelinearni regresiji, saj se lahko zgodi, da se izmerjeni podatki najbolj prilegajokakni nelinearni funkciji (npr. polinomski, logaritemski,...).Regresijska analiza je torej pomembna za opis zveze med eno ali veµc neodvisnimi

    spremenljivkami in odvisno spremenljivko z ustreznim regresijskim modelom.

    8

  • Poglavje 2

    Osnovni pojmi

    V tem poglavju si bomo pogledali korelacijsko analizo in analizo variance.

    2.1 Korelacijska analiza

    Korelacijska analiza ali analiza kovariance prouµcuje povezanost dveh statistiµcnihspremenljivk X in Y na populaciji, ki sta dvostransko odvisna pojava. To pomeni,da nobene od njiju nimamo za odvisno ali pa neodvisno spremenljivko.

    Denicija 2.1 Mero medsebojne povezanosti oziroma koreliranosti dveh nakljuµcnihspremenljivk X in Y imenujemo kovarianca in je denirana kot

    K(X; Y ) = E(XY )� E(X)E(Y ):

    Za kovarianco velja:

    � µCe je K(X; Y ) > 0, sta spremenljivki X in Y pozitivno povezani,

    � µCe je K(X; Y ) = 0, sta spremenljivki X in Y nekorelirani oziroma nepovezani,

    � µCe je K(X; Y ) < 0, sta spremenljivki X in Y negativno povezani.

    Mera za linearno povezanost nakljuµcnih spremenljivk je korelacijski koecient, ki jedeniran:

    Denicija 2.2 Korelacijski koecient nakljuµcnih spremenljivk X in Y je denirankot

    r(X;Y ) =K(X; Y )

    �(X)�(Y ):

    9

  • Lastnosti korelacijskega koecienta so naslednje:

    � �1 � r(X; Y ) � 1,

    � nakljuµcni spremenljivki X in Y sta nekorelirani natanko tedaj, ko je r(X;Y ) =0 oziroma E(XY ) = E(X)E(Y ),

    � µce je r(X; Y ) 6= 0 sta X in Y korelirani,

    � µce je r(X; Y ) = �1, potem med spremenljivkama X in Y obstaja linearnafunkcijska zveza Y = a+ bX (a in b sta realni konstanti),

    � µce je r(X; Y ) 6= �1, potem med spremenljivkama X in Y ni samo linearnepovezave.

    Za jasnejo predstavo si poglejmo sliko, ki nam prikazuje spreminjanje vrednostikorelacijskega koecienta v odvisnosti od razprenosti toµck okrog regresijske premice,katere pomen bomo spoznali v nadaljevanju. Korelacijski koecient bo na slikioznaµcen z ryx (spodnja slika je iz vira [5]).

    Cenilka za korelacijski koecient je statistika

    R =

    nXi=1

    (xi � x)(yi � y)snXi=1

    (xi � x)2nXi=1

    (yi � y)2oziroma

    =

    Pni=1 xiyi � nxyvuut nX

    i=1

    x2i � nx2!

    nXi=1

    y2i � ny2! ,

    10

  • kjer je x =Pn

    i=1 xi vzorµcno povpreµcje statistiµcne spremenljivke X in y =Pn

    i=1 yi

    vzorµcno povpreµcje statistiµcne spremenljivke Y . CenilkaR dobimo po metodi momen-tov iz formulacije za r (X; Y ), kadar populacijske momente nadomestimo z vzorµcni-mi. Na tem mestu vpeljimo oznake Cxy =

    Pni=1(xi� x)(yi� y), Sxy = Cxy= (n� 1),

    C2x =Pn

    i=1(xi � x)2, C2y =Pn

    i=1(yi � y)2, S2x = C2x= (n� 1) vzorµcni standardniodklon za X in S2y = C

    2y= (n� 1) vzorµcni standardni odklon za X. Sedaj lahko

    zapiemo statistiko R v skrajani obliki:

    R =CxyCxCy

    ali R =SxySxSy

    .

    Zgled 1: Imejmo tabelo podatkov za spremeljivko X, ki nam predstavlja starostvoznika in Y , ki nam predstavlja prekoraµceno hitrost v km=h. S temi podatki bomoizraµcunali vzorµcno kovarianco Sxy in vzorµcni korelacijski koecient R. Imamo vzorecza 20 voznikov. Podatki so predstavljeni v spodnji tabeli in v razsevnem diagramu.

    Starost voznika Prekoraµcena hitrost Starost voznika Prekoraµcena hitrost36 5 43 1119 18 26 2722 29 33 2755 14 45 1043 9 19 2621 33 20 3428 17 44 2861 10 37 1551 15 26 2221 18 50 10

    11

  • S pomoµcjo programa SPSS dobimo vzorµcne podatke �x = 35, �y = 18:9, Sx = 13:35,Sy = 8:75. Vzorµcna kovarianca je Sxy = �75:895 in vzorµcni korelacijski koecient vnaem primeru znaa

    R =SxySxSy

    = �0:65,

    kar kaµze na srednjo negativno povezanost obeh spremenljivk, kar opazimo µze narazsevnem diagramu. Pomen tega pa je, da so mlaji vozniki pogosteji kriteljiprekoraµcitve hitrosti kot stareji vozniki.

    Zgled 2: Vzemimo dvorazseµzno normalno porazdelitevN(a; b; �; �; �), kjer sta a; b 2R, �; � > 0 in � je v naem primeru korelacijski koecient. Za to dvorazseµznonormalno porazdelitev velja, da ima gostoto porazdelitve

    p(x; y) =1

    2���p1� �2

    e� 12(1��2) ((

    x�a�)2�2�x�a

    �y�b�+( y�b

    �)2):

    Obe robni porazdelitvi sta normalni X � N (a; �) in Y � N (b; �). Da je parameter� res korelacijski koecient, dokaµzemo s pomoµcjo izpeljane formule za r(X; Y ) :

    r(X; Y ) =

    Z 1�1

    Z 1�1

    x� a�

    y � b�p(x; y)dxdy:

    Z nekaj raµcunanja in uvedbo novih spremenljivk dobimo enakost � = r(X; Y ).

    2.2 Analiza variance

    Pri analizi variance se prouµcuje, kako ena ali veµc neodvisnih spremenljivk vpliva nanakljuµcno odvisno spremenljivko Y . Neodvisne spremenljivke imenujemo tudi fak-torji. Pri opravljanju istega poskusa v pogojih, ki jih ne spreminjamo, v rezultatuposkusa opazimo variacije (spremembe) ali odstopanja. Ker vzroki niso znani in sonekontrolirani, lahko spremembe pripiemo nakljuµcnim vplivom, ki jih imenujemotudi nakljuµcna odstopanja. Npr.: vzemimo primer raziskovanja hektarskega donosapenice. Na ta donos vplivajo razliµcni faktorji kot so: razliµcne sorte penice, razliµcninaµcini gnojenja njiv, obdelave zemlje, klima, µcas sejanja,... µCe v poskusu razisko-vanja enega ali veµc pogojev oziroma faktorjev spreminjamo, dobimo odstopanja odpovpreµcja. Ravno zaradi tega je nastala analiza, ki preuµci ali so odstopanja zaradisprememb razliµcnih faktorjev ali pa so le sluµcajna, in kateri faktorji vplivajo navariacijo. Ta analiza se imenuje analiza variance. Zato glede na tevilo faktorjev, kijih spreminjamo oziroma, ki vplivajo na nakljuµcno spremenljivko Y , loµcimo enojnoanalizo variance in dvojno analizo variance.

    12

  • Enojna analiza variance

    Imejmo vzorec velikosti n. Ta vzorec nakljuµcno razdelimo v p razredov, ki semed seboj loµcijo po enem faktorju. Torej imamo p neodvisnih spremenljivk

    Y1; � � � ; Yp,

    ki naj bodo normalno porazdeljene in naj imajo vse enako neznano disperzijo �2.Njihova matematiµcna upanja pa naj bodo �1; :::; �p, ki so tudi neznana. Izmer-jeni podatki za posamezni razred nakljuµcnih spremenljivk naj bodo nakljuµcne spre-menljivke: za prvo spremenljivko Y1 : Y11; Y12; :::; Y1n1 ; za drugo spremenljivkoY2 : Y21; Y22; :::; Y2n2 in podobno za zadnjo spremenljviko Yp : Yp1; Yp2; :::; Ypnp : Ve-likosti posameznih vzorcev so po vrsti torej n1; n2; :::; np. Predpostavimo tudi, da sovse spremenljivke Yij med seboj neodvisne.Vpeljimo povpreµcje matematiµcnih upanj tako

    � =1

    n

    pXi=1

    ni�i

    in zapiimo identiteto

    Yij = �+ (�i � �) + (Yij � �i) (i = 1; :::; p; j = 1; :::; ni)

    ter oznaµcimo z �i � � = �i in z Yij � �i = Eij. Ker je po deniciji tevila �pXi=1

    ni�i = 0

    in so nakljuµcne spremenljivke Eij neodvisne in porazdeljene po zakonu N (0; �),lahko zgornjo identiteto zapiemo z modelom

    Yij = �+ �i + Eij (i = 1; :::; p; j = 1; :::; ni),

    kjer so �i vplivi posameznih razredov faktorja in Eij vzorµcna odstopanja modela.Pri analizi variance je naloga testiranje hipoteze H0(�1 = �2 = ::: = �p) proti

    hipotezi, da je vsaj eno razredno povpreµcje razliµcno. Nao hipotezo lahko zapiemotudi takoleH0(�1 = �2 = ::: = �p = 0). Zato moramo doloµciti statistiko za testiranjehipoteze. Izraµcunati moramo povpreµcje za posamezni razred

    Y i =1

    ni

    niXj=1

    Yij

    13

  • in skupno povpreµcje vseh vzorcev

    Y =1

    n

    pXi=1

    niXj=1

    Yij.

    Sedaj tvorimo vsote kvadratov razlik in jih oznaµcimo s V K:

    � skupno vsoto kvadratov

    SV K =

    pXi=1

    niXj=1

    (Yij � Y )2,

    � vsoto kvadratov med razredi

    V KM =

    pXi=1

    ni(Y i � Y )2,

    � vsoto kvadratov nepojasnjenih odstopanj (znotraj razredov)

    V KN =

    pXi=1

    niXj=1

    (Yij � Y i)2.

    Po preprostih enaµcbah lahko izraµcunamo e povpreµcne kvadrate:

    PKM =V KM

    p� 1 (povpreµcni kvadrat med razredi)

    inPKN =

    V KN

    n� p (povpreµcni kvadrat znotraj razredov).

    Testna statistika se izraµcuna po formuli

    F =PKM

    PKN:

    Zapiemo lahko tabelo analize variance, ki ji kraje pravimo tudi tabela ANOVA(iz angleµcine Analysis of Variance):

    VV VK PS PK StatistikaFaktor V KM p� 1 PKM FSluµcaj V KN n� p PKNSkupaj SV K n� 1

    :

    Kjer uporabljene kratice pomenijo: VV vir variance, VK vsota kvadratov, PS pro-stostne stopnje in PK povpreµcne kvadrate.V primeru, ko je hipoteza H0 pravilna, je statistika F porazdeljena po Fisher-

    jevem zakonu F (p � 1; n � p). Hipotezo H0 zavrnemo takrat, ko pri dani stopnjiznaµcilnosti � velja F = F�, kjer je F� kritiµcna vrednost F statistike.

    14

  • Dvojna analiza variance

    Pri dvojni analizi variance obravnavamo vpliv dveh faktorjevA inB na nakljuµcnospremenljivko Y . Faktor A naj bo razporejen v a razredov in faktor B pa v brazredov. Tako dobimo ab nakljuµcnih spremenljivk Yij, 1 � i � a, 1 � j � b. Sedajpredpostavimo, da so spremenljivke Yij neodvisne in normalno porazdeljene z enakodisperzijo �2. Vzorec izmerjenih podatkov naj bo tak, da ima vsaka spremenljivkaYij c komponent: Xij1; :::; Xijc. Tako imamo n = abc med seboj neodvisnih innormalno porazdeljenih nakljuµcnih spremenljivk

    Yijk (i = 1; :::; a; j = 1; :::; b; k = 1; :::; c)

    z enako disperzijo �2 in matematiµcnimi upanji E(Yijk) = �+�i+�j + ij; za katerevelja

    aXi=1

    �i =bXj=1

    �j = 0

    aXi=1

    ij = 0 (j = 1; : : : ; b)

    bXj=1

    ij = 0 (i = 1; : : : ; a):

    Zapiemo lahko identiteto ozirome model za spremenljivke Yijk:

    Yijk = �+ �i + �j + ij + Eijk,

    kjer �i predstavlja vpliv razredov faktorja A, �j vpliv razredov faktoja B, ij vplivinterakcije med A in B, ter Eijk pa vzorµcna odstopanja od modelov. Ker imamopri dvojni analizi variance vpliv dveh faktorjev in e interakcije med njima, moramoizraµcunati tri statistike za testiranje hipotez. Spet si najprej izraµcunamo povpreµcjeza posamezne razrede Y ij, povpreµcje za razrede faktorja A: Y i�, povpreµcje za razredefaktorja B: Y �j in skupno povpreµcje Y :

    Y ij =1

    c

    cXk=1

    Yijk, Y i� =1

    bc

    bXj=1

    cXk=1

    Yijk,

    Y �j =1

    ac

    aXi=1

    cXk=1

    Yijk, Y =1

    abc

    aXi=1

    bXj=1

    cXk=1

    Yijk.

    15

  • Ko imamo izraµcunana ta povpreµcja, lahko izraµcunamo vsote kvadratov:

    � skupna vsota kvadratov

    SV K =

    aXi=1

    bXj=1

    cXk=1

    (Yijk � Y )2,

    � vsota kvadratov vpliva faktorja A

    VKA = bcaXi=1

    (Y i� � Y )2,

    � vsota kvadratov vpliva faktorja B

    VKB = ac

    bXj=1

    (Y �j � Y )2,

    � vsota kvadratov vpliva interakcije med faktorjema A in B

    VKAB = caXi=1

    bXj=1

    (Y ij � Y i� � Y �j + Y )2,

    � vsota kvadratov nepojasnjenih odstopanj

    V KN =aXi=1

    bXj=1

    cXk=1

    (Yijk � Y ij)2.

    Tabela analize variance je sedaj takna:

    VV VK PS PK StatistikaFaktor A VKA a� 1 PKA FAFaktor B VKB b� 1 PKB FB

    Interakcija AB VKAB (a� 1)(b� 1) PKAB FABSluµcaj V KN ab(c� 1) PKNSkupaj SV K abc� 1

    Kjer tudi tukaj uporabljene kratice pomenijo: VV vir variance, VK vsota kvadratov,PS prostostne stopnje in PK povpreµcne kvadrate. Povpreµcni kvadrati se izraµcunajopo enaµcbah:

    PKA =V KA

    a� 1 , PKB =V KB

    b� 1 ,

    PKAB =V KAB

    (a� 1)(b� 1) , PKN =V KN

    ab(n� 1) .

    16

  • Testne statistike pa izraµcunamo z enaµcbami:

    FA =PKA

    PKN, FB =

    PKB

    PKN, FAB =

    PKAB

    PKN.

    Pri tem so testne statistike: testna statistika FA je porazdeljena po Fischerjevemzakonu F (a� 1; ab (c� 1)) in je namenjena testiranju niµcelne hipoteze HA0 za vplivfaktorjaA, testna statistika FB je porazdeljena po Fisherjevem zakonu F (b� 1; ab (c� 1))in je namenjena testiranju niµcelne hipoteze HB0 za vpliv faktorja B, ter testna sta-tistika FAB, je porazdeljena po Fisherjevem zakonu F ((a� 1) (b� 1) ; ab (c� 1)) inje namenjena testiranju niµcelne hipoteze HAB0 za vpliv interakcije med faktorjemaA in B.Glede zavrnitve niµcelnih hipotez lahko reµcemo:

    � hipotezo HA0 zavrnemo takrat, ko pri dani stopnji znaµcilnosti � velja FA = F�,kjer je F� (a� 1; ab (c� 1)) kritiµcna vrednost FA statistike,

    � hipotezo HB0 zavrnemo takrat, ko pri dani stopnji znaµcilnosti � velja FB = F�,kjer je F� (b� 1; ab (c� 1)) kritiµcna vrednost FB statistike,

    � hipotezo HAB0 zavrnemo takrat, ko pri dani stopnji znaµcilnosti � velja FAB =F�, kjer je F� ((a� 1)(b� 1); ab (c� 1)) kritiµcna vrednost FAB statistike.

    V primeru, da niµcelno hipotezo zavrnemo, takrat lahko trdimo, da je vpliv faktorjaA, vpliv faktorja B oziroma vpliv interakcije med faktorjema A in B na odvisnospremenljivko Y statistiµcno znaµcilen.

    17

  • Poglavje 3

    Regresijski modeli

    Regresijska analiza prouµcuje odnos med dvema nakljuµcnima spremenljivkama, insicer, med odvisno spremenljivko in eno ali veµc neodvisnimi (pojasnjevalnimi) spre-menljivkami. Ta odnos se prouµcuje tako, da se uporablja regresijski model, ki jeusmerjen tako, da se vrednosti ene ali veµcih pojasnjevalnih spremenljivk uporabljajoza napovedovanje vrednosti odvisne spremenljivke.

    Regresijski modeli

    Naj bo (X; Y ) nakljuµcni vektor spremenljivk X in Y . Zanima nas, kako jeporazdeljena spremenljivka Y ob pogoju, da spremenljivka X zavzame vrednost x(piemo Y jX = x). Funkcijo f(x) = E(Y jX = x) imenujemo regresija ali pogojnopovpreµcje spremenljivke Y gledeX. V primeru, kadar imamo nakljuµcni vektor (X; Y )porazdeljen normalno N(a; b; �; �; �), je regresijska funkcija oblike E(Y jX = x) =b+� �

    �(x�a), kar seveda predstavlja premico y = b0+ b1x ( b0 = b� ��a� in b1 =

    ���),

    ki ji pravimo regresijska premica. Parameter b1 se imenuje tudi regresijski koecient,b0 pa regresijska konstanta.Sedaj si poglejmo regresijski model. Regresijski model ima tiri osnovne ele-

    mente: enaµcbe, hipoteze, vzorµcne predpostavke in porazdelitvene predpostavke.

    Enaµcbe regresijskega modela: Naj ima nakljuµcna pojasnjevalna spremenljivka Xvrednosti x1; :::; xn, ki so med seboj razliµcne in naj bodo njihove realizacije nakljuµcnespremenljivke y1; :::; yn, ki predstavljajo nakljuµcno spremenljivko Y . Zanimala nasbo vrednost nakljuµcne spremenljivke Y . Ker te vrednosti pri doloµcenem xi ne bomoµzno doloµciti samo z regresijsko funkcijo, saj bodo prisotni nakljuµcni vplivi, bomovrednosti nakljuµcne spremenljivke Y dobili s pomoµcjo regresijskega modela.Odnos med spremenljivkama X in Y lahko predstavimo z ustreznim modelom

    yi = f(xi) + ei (i = 1; :::; n),

    18

  • kjer je f(xi) regresijska funkcija in e1; :::; en neodvisne nakljuµcne spremenljivke ozi-roma vplivi z matematiµcnim upanjem E(ei) = 0 in varianco V (ei) = �2. Kadarimamo le eno pojasnjevalno spremenljivko, takrat govorimo o enodimenzionalnemoziroma enostavnem regresijskem modelu. V primeru, ko pa imamo veµc kot enopojasnjevalno spremenljivko, je reµc o veµcdimenzionalnem regresijskem modelu.

    Hipoteze: Hipoteze v regresijski analizi so opredeljene na podlagi koecientov regre-sije v regresijski funkciji.

    Vzorµcne predpostavke: Vµcasih se pojavi problem, da ne moremo izmeriti cele po-pulacije, saj lahko ima populacija preveµc elementov. Zato meritve opravimo le namajhnem delu populacije, ki ga imenujemo vzorec. Upotevati moramo, da je vzorecreprezentativen, kar pomeni, da mora biti izbran nepristransko in mora biti dovoljvelik. Vzorec lahko izbiramo v dveh oblikah. Prva je ta, da se z nakljuµcnim izboromvzorµcnih µclenov s pari meritev za vsak vzorµcni µclen zagotovijo vrednosti za x in y.Druga pa je ta, da je vnaprej doloµcena vrednost za x z domnevo, da je i-ti µclenvzorca (i = 1; :::; n) nakljuµcno izbran iz vseh vzorµcnih µclenov, ki imajo vrednost xiza x.

    Porazdelitvene predpostavke: Veµcina aplikacij temelji na predpostavki, da so nastopa-joµce spremenljivke normalno porazdeljene.

    19

  • Poglavje 4

    Linearna regresija

    O linearni regresiji govorimo takrat, kadar regresijska funkcija predstavlja regresij-sko premico. Imejmo spet nakljuµcni vektor (X;Y ) neodvisne pojasnjevalne spre-menljivke X in odvisne spremenljivke Y . Vrednosti spremenljivke X so x1; :::; xnin njihove realizacije y1; :::; yn pripadajo spremenljivki Y . Mnoµzico parov merjenja(x1; y1), (x2; y2),...,(xn; yn) lahko predstavimo v ravnini kot razsevni diagram. µCedobljene toµcke v ravnini aproksimirajo premici, je ustrezen regresijski model oblike:

    Y = b0 + b1X + E

    oziromayi = b0 + b1xi + ei (i = 1; :::; n; n > 2).

    Problem regresijske analize je doloµciti dobre ocene parametrov v regresijskem mo-delu. Ocene parametrov bomo oznaµcevali s streico, npr. bb0 naj bo ocena parametrab0. V regresijski analizi se uporabljata dve metodi za ocenjevanje parametrov. Tosta metoda najmanjih kvadratov in metoda najveµcje verjetnosti. Za ocenjevanjeparametrov si bomo pogledali metodo najmanjih kvadratov, kako se dobita oceniza bb0 in bb1:Metoda najmanjih kvadratov

    Ta metoda izbere parametra bb0 in bb1 tako, da je vsota kvadratov napak modelanajmanja

    nXi=1

    e2i naj bo minimum.

    To lahko zapiemo tudi tako

    F (bb0;bb1) = nXi=1

    (yi �bb0 �bb1xi)2 naj bo minimum.20

  • Imamo funkcijo dveh spremenljivk bb0 in bb1 in zato za doloµcitev ekstrema funkcijepotrebujemo parcialna odvoda po obeh spremenljivkah in ju nato enaµcimo z 0:

    @F

    @bb0 =nXi=1

    (�2)hyi �

    �bb0 +bb1xi�i = 0in

    @F

    @bb1 =nXi=1

    (�2)hyi �

    �bb0 +bb1xi�i xi = 0:Izraza preoblikujemo in dobimo sistem normalnih enaµcb, iz katerih dobimo vrednostiza neznanki bb0 in bb1:

    bb0n+bb1 nXi=1

    xi =

    nXi=1

    yi

    bb0 nXi=1

    +bb1 nXi=1

    x2i =nXi=1

    xiyi:

    Reitev tega sistema sta oceni bb0 in bb1:bb0 =

    nXi=1

    x2i

    nXi=1

    yi �nXi=1

    xi

    nXi=1

    xiyi

    nnXi=1

    x2i � (nXi=1

    xi)2

    bb1 = nnXi=1

    xiyi �nXi=1

    xi

    nXi=1

    yi

    nnXi=1

    x2i � (nXi=1

    xi)2:

    µCe enaµcbo bb0n+bb1 nXi=1

    xi =nXi=1

    yi ,

    delimo z n dobimo bb0 +bb1Pni=1 xin

    =

    Pni=1 yin

    kar lahko zapiemo tudi kot bb0 +bb1x = y:

    21

  • Sedaj si poglejmo nam µze znane oznake, s katerimi bomo zapisali oceni za parametra:

    C2x =

    nXi=1

    (xi � x)2 =nXi=1

    x2i �1

    n

    nXi=1

    xi

    !2

    C2y =

    nXi=1

    (yi � y)2 =nXi=1

    y2i �1

    n

    nXi=1

    yi

    !2

    Cxy =

    nXi=1

    (xi � x)(yi � y) =nXi=1

    xiyi �1

    n

    nXi=1

    xi

    ! nXi=1

    yi

    !:

    Sedaj lahko zapiemo oceno za bb1:bb1 = Cxy

    C2x=RSySx

    .

    Zaradi zgoraj zapisane enakosti bb0 +bb1x = y je ocena za bb0:bb0 = y �bb1xi.

    Torej napovedana vrednost byi pri danem xi je oblike byi = bb0 +bb1xi.Model in preverjanje podatkov

    Orodja za modele in preverjanje podatkov so:

    Razsevni diagram

    µCe je le ena pojasnjevalna spremenljivka, je razsevni diagram potrebno vednoskonstruirati. Potrebna so naslednja preverjanja: (i) µce je predlagana linearna re-gresijska enaµcba, je potrebno preveriti ali so toµcke linearno usmerjene in (ii) dokazmorebitne napake v podatkih.

    Graµcni prikaz opremljen s standardiziranimi vrednostmi o-stankov (residualov)

    µCe je regresijska enaµcba ustrezna in se variabilnost odvisne spremenljivke nespreminja s spremembo vrednosti neodvisne spremenljivke, ne bi smelo biti nobenegadokaza za vzorec na graµcnem prikazu standardiziranih ostankov v primerjavi zustreznimi vrednostmi.

    22

  • Graµcni prikaz ostankov v primerjavi z ustreznimi vrednostmi nam lahko poda(spodnji sliki sta iz vira [6]):

    � dokaz o nepravilni usmerjeni premici

    � dokaz o neenaki varianci

    Standardizirani ostanki

    Ta mnoµzica standardiziranih ostankov je koristna za dopolnitev zgoraj navedenihpostopkov. µCe je napaka v podatkih odkrita v enem ali veµc graµcnih prikazih, ki u-streza standardiziranim ostankom, ima tipiµcno velike razseµznosti. To se lahko izkaµzeza koristni kazalec kritelja vrednosti v mnoµzici podatkov. µCe so napake v podatkih,je pomembno vrednosti popraviti ali zbrisati preden se nadaljuje z ustreznim mode-lom.

    23

  • Osnovni statistiµcni podatki v regresijski analizi

    Osnovne informacije pri uporabi linearne regresijske analize so:

    Ocena standardne napake modela

    To je nepristranska ocena napake regresijskega modela in jo oznaµcujemo z Se injo zapiemo na naslednji naµcin:

    Se =

    vuut 1n� 2

    nXi=1

    hyi �

    �bb0 +bb1xi�i2 =rV KNn� 2 ;

    kjer je n velikost vzorca in V KN vsota kvadratov nepojasnjenih odstopanj.

    Ocene regresijskih parametrov

    Vsaka ocena regresijskega parametra je oznaµcena s streico. Zato je ocena para-metra b kar bb. Standardna napaka ocene parametra b pa je sb. Na splona vpraanjao parametru v linearni regresijski enaµcbi, je lahko odgovor s konstrukcijo intervalazaupanja za parameter. Najpogosteje je cilj testa domneva bi = 0, kjer je bi koe-cient pri xi v regresijski enaµcbi. Sprejeta predpostavka pomeni, da vkljuµcitev izrazabixi v regresijsko enaµcbo ne izbolja pojasnjevalne moµci regresijske enaµcbe. Preizkuste hipoteze lahko temelji na dveh statistikah: na primerjavi modelov z uporaboF-testa s pomoµcjo analize variance in s T-testom.Izkaµze se, da je statistika

    T =(bbi � bi)sbi

    � S (n� 2) :

    porazdeljena po Studentovem zakonu z n � 2 prostostnimi stopnjami. Kadar paje velikost vzorca veµcja od 30 pa lahko T-statistiko dobro aproksimiramo s stan-dardizirano normalno porazdelitvijo N (0; 1). Kadar preverjamo niµcelne hipoteze zaposamezne parametre pri dani stopnji znaµcilnosti �, lahko dobimo, da je vrednostT statistike veµcja od kritiµcne vrednosti t�, ki jo razberemo iz Studentove tabele.Takrat niµcelno hipotezo zavrnemo.Na podlagi T-statistike lahko izraµcunamo interval zaupanja za bi na naslednji

    naµcin

    95% interval zaupanja:hbbi � t0:05(n� 2)sbi, bbi + t0:05(n� 2)sbii ,

    100(1� �)% interval zaupanja:hbbi � t�(n� 2)sbi,bbi + t�(n� 2)sbii .

    Vrednost za t� dobimo s pomoµcjo tabele Studentove porazdelitve za verjetnost � instopnjo prostosti n� 1.

    24

  • Tabela analize variance

    S pomoµcjo tabele analize variance oziroma ANOVE testiramo ustreznost regre-sijskega modela Y = b0+ b1X +E oziroma yi = b0+ b1xi+ ei (i = 1; :::; n; n > 2).Poglejmo si skico regresijskega problema (slika je povzeta po viru [7]):

    Na sliki imamo drugaµcne oznake za parametre, ocene parametrov in nakljuµcnevplive kot v naem modelu. Poglejmo si, kaj predstavljajo oznake na sliki za namodel: a = b1, b = b0, "i = ei, ba = bb1 in bb = bb0.Problem, ki ga opisuje slika se nanaa na toµcko (xi; yi) v razsevnem diagramu.

    Vrednost ei nam prikazuje kolikna so odstopanja toµcke (xi; yi) od regresijske premicey = b0+b1x , medtem ko je bei = yi�byi ostanek in nam predstavlja odstopanje toµcke(xi; yi) od predvidene vrednosti byi na ocenjeni regresijski premici by = bb0 +bb1x.Poglejmo si na model Y = b0 + b1X + E. Varianco V (Y ) spremenljivke Y

    imenujemo skupna varianca, za katero se ocena pri izbrani toµcki (xi; yi) izraµcuna po

    µze znani formuli: S2y =1n�1

    Pni=1(yi�y)2: To skupno varianco V (Y ) lahko zapiemo

    kot vsoto dveh varianc V (Y ) = V (b0+b1X)+V (E), in sicer pojasnjene variance, kinam pove odvisnost od neodvisne spremenljivke X in nepojasnjene variance, ki nammeri variabilnost nepojasnjenih vplivov. Vir variance pri analizi variance je lahkoregresija (statistiµcna spremenljivka b0+ b1X) ali pa ostanki ali residuali (statistiµcnaspremenljivka E). Izraµcunamo ju takole:

    V (b0 + b1X) =1

    n� 1

    nXi=1

    (by � y)2 = S2xy inV (E) =

    1

    n� 1

    nXi=1

    (yi � by)2:Vse to lahko zapiemo z analizo variance:

    SV K = V KM + V KN;

    25

  • kjer je V KM pojasnjen del variance in V KN nepojasnjen del variance. TabelaANOVE je takne oblike:

    VV VK PS PK StatistikaRegresija V KM 1 PKM FResiduali V KN n� 2 PKNSkupaj SV K n� 1

    Kadar je niµcelna hipoteza pravilna oziroma resniµcna, takrat ni linearne povezanostimed odvisno in neodvisno spremenljivko in zato lahko reµcemo, da linearni modelni ustrezen. Ko pa pri dani stopnji znaµcilnosti � velja, da je statistika F veµcja odkritiµcne vrednosti F�(1; n� 2), takrat niµcelno hipotezo, da so vsi koecienti enaki 0zavrnemo.

    Denicija 4.1 Koecient, s katerim merimo linearno povezavo doloµceno z regre-sijsko premico med neodvisno spremenljivko X in odvisno spremenljivko Y , imenu-jemo determinacijski koecient ali koecient doloµcenosti in ga deniramo kotkoliµcnik pojasnjene variance s skupno varianco

    D = R2 =S2xyS2y:

    Koecient doloµcenosti lahko zapiemo tudi kot: D = V KMSVK . Velja tudi, da je0 � D � 1. V primeru, ko je D = 1, je napaka modela E = 0 in bo med spre-menljivkama X in Y popolna povezava v obliki linearne funkcije. Ko pa je D = 0;takrat med spremenljivkama ni linearne odvisnosti. V situaciji, ko je 0 < D < 1, staspremenljivki X in Y linearno povezani, in sicer, µce je D veµcji in s tem blizu 1, sebo izbrana linearna funkcija bolje prilegala podatkom in obratno, µce je D majhen,takrat se izbrana funkcija ne bo dobro prilegala podatkom in ne bo dober model zadane podatke.

    Zgled

    V tem primeru si bomo pogledali, kako uspenost posameznika pri matematikiv gimnaziji vpliva na njegovo uspenost pri tudiju matematike na univerzi. Torej,namen te tudije je, da se preuµci uporabnost srednjeolskih ocen iz matematike(kar predstavlja neodvisno spremenljivko X) kot napovednik prvega letnika uni-verzitetne matematiµcne uspenosti (kar predstavlja odvisno spremenljivko Y ). V tanamen imamo podane podatke za 50 tudentov in njihovo matematiµcno uspenostv gimnaziji in na univerzi. Podatki so predstavljeni v tabeli.Samo statistiµcno regresijsko analizo smo opravili s pomoµcjo statistiµcnega raµcu-

    nalnikega programa SPSS. Pri tem so priloµzeni tudi izpisi rezultatov iz programaSPSS.

    26

  • Tabela podatkov:

    tudent Gimnazija Univerza tudent Gimnazija Univerza1 143 55 26 130 382 148 66 27 116 463 119 45 28 137 574 118 41 29 158 705 119 24 30 147 386 125 28 31 84 67 93 31 32 142 358 158 80 33 115 169 137 50 34 131 1910 106 14 35 151 3911 128 35 36 143 4912 119 61 37 143 6413 132 41 38 135 3314 165 72 39 118 3315 143 65 40 119 4716 145 65 41 149 6217 119 20 42 136 5718 145 73 43 149 6019 149 54 44 162 4120 151 35 45 109 3021 153 74 46 143 5922 143 76 47 171 8723 145 62 48 111 3224 123 40 49 147 5525 124 41 50 124 32

    Izpis raµcunalnikega programa SPSS:

    27

  • Iz prve tabele lahko razberemo rezultate o modelu. Cenilka korelacijskega koe-cienta je v naem primeru R = 0:738, kar pomeni, da sta spremenljivki pozitivnolinearno povezani. Razberemo tudi determinacijski koecient, ki jeD = 0:55 in stan-dardno napako modela, ki je 12:74. Vidimo, da je z danim regresijskim modelompojasnjenih 55% variabilnosti spremenljivke Y .

    Iz tabele analize variance razberemo vrednosti za vsote kvadratov: V KN =7784:8, V KM = 9328, SV K = 17112:8, prostostne stopnje, povpreµcne kvadrate:PKM = 9328, PKN = 162:2 in testne statistike F = 57:5, ki je porazdeljena pozakonu F (1; 48). Preizkusimo hipotezo, da gimnazijska uspenost pri matematikinima napovedne moµci, torej, da je b0 = b1 = 0. Izraµcunamo si kritiµcno vrednoststatistike F (1; 48) pri stopnji znaµcilnosti � = 0:05 in dobimo, da je F0:05 pribliµzno4. Torej je F > F� in zato lahko hipotezo zavrnemo. Smatramo, da je regresijskimodel ustrezen.

    Podatke predstavljene v tabeli lahko prikaµzemo s pomoµcjo razprenega graµcnegaprikaza ali razsevnega diagrama. S pomoµcjo SPSS ta graf nariemo in vanj vriemoustrezno regresijsko premico, katere ocene koecientov smo izraµcunali prav tako spomoµcjo tega programa. Ustrezna regresijska premica je oblike by = �54:8 + 0:76x.Razsevni diagram podatkov z vrisano regresijsko premico:

    28

  • Izpis regresijskih koecientov:

    V tabeli koecientov so predstavljene ocene parametrov b0 in b1: bb0 = �54:8, bb1 =0:76 in standardni napaki parametrov: sb0 = 13:55, sb1 = 0:1. Izraµcunamo tudi 95%interval zaupanja za bi. Interval zaupanja za b0 je [�82;�27:53] in za b1 [0:56; 0:96].Sedaj si poglejmo e testiranje niµcelnih hipotez za posamezna parametra: H0 (b0 = 0)in H0 (b1 = 0). Ti dve niµcelni hipotezi bomo testirali s pomoµcjo T-statistike, katererezultate imamo v tabeli v stolpcu z oznako t. Pri stopnji znaµcilnosti � = 0:05 jevrednost t�(n � 2) = t0:05(48)

    := 2:01. Niµcelni hipotezi za posamezna parametra

    H0 (b0 = 0) in H0 (b1 = 0) zavrnemo, saj sta obe T-statistiki po absolutni vrednostiveµcji od kritiµcne vrednosti t�.

    29

  • Poglavje 5

    Veµckratna regresija

    Kadar je nakljuµcna spremenljivka Y odvisna od veµc kot ene pojasnjevalne spre-menljivke X, takrat govorimo o veµckratni oziroma multipli regresiji. Torej, µce sirazloµzimo s preprostim primerom. Na dobiµckonosnost posamezne trgovine lahkovpliva veµc dejavnikov: povrina trgovine, tevilo zaposlenih, starost poslovodja,izkunje poslovodja v letih, kraj kjer se nahaja trgovina in tevilo konkurentov na is-tem obmoµcju. Vsi ti dejavniki predstavljajo pojasnjevalne spremenljivke, s kateriminapovemo vrednost odvisne spremenljivke Y , ki predstavlja dobiµcek.Pri tej obliki regresije uporabljamo veµcdimenzionalni model v obliki linearne

    funkcije. Imejmo podanih n vzorµcnih podatkov ter k neodvisnih spremenljivk X1,X2, . . . , Xk. Tedaj je model oblike

    Y = b0 + b1X1 + b2X2 + :::+ bkXk + E

    oziroma

    yi = b0 + b1xi1 + b2xi2 + :::+ bkxik + ei (i = 1; :::; n; n > k),

    kjer je ei napaka modela in normalno porazdeljena nakljuµcna spremenljivka z mate-matiµcnim upanjem E(ei) = 0 in varianco V (ei) = 0. Regresijska funkcija je oblike

    f(xik) = b0 + b1xi1 + b2xi2 + :::+ bkxik, za i = 1; :::; n in n > k:

    Ta funkcija nam doloµca hiperravnino v k + 1 razseµznem prostoru. Koecientib0; b1; :::; bk so regresijski koecienti, za katere doloµcimo ocene iz danih vzorµcnihpodatkov tako, da bo napaka modela najmanja.Kot smo zgoraj µze navedli imejmo za k neodvisnih spremenljivk in za odvisno

    30

  • spremenljivko n vzorµcnih podatkov:

    x11; x12; :::; x1k; y1;

    x21; x22; :::; x2k; y2;

    ...

    xn1; xn2; :::; xnk; yn;

    in nato lahko s pomoµcjo zgornjega modela zapiemo enaµcbe

    y1 = b0 + b1x11 + b2x12 + :::+ bkx1k + e1;

    y2 = b0 + b1x21 + b2x22 + :::+ bkx2k + e2;

    ...

    yn = b0 + b1xn1 + b2xn2 + :::+ bkxnk + en:

    Napake e1; :::; en niso medsebojno povezane, kar pomeni, da je kovarianca enaka 0.Ocenebb0;bb1:::;bbk za parametre b0; b1; :::; bk bomo dobili s pomoµcjo metode najmanjihkvadratov. Torej, poiskati moramo minimum funkcije F (bb0;bb1; :::;bbk), ki je funkcijak + 1 spremenljivk

    F (bb0;bb1:::;bbk) = nXi=1

    [yi � (bb0 +bb1xi1 + :::+bbkxik)]2 ! min .Do ocen bb0; :::;bbk pridemo tako, da poiµcemo ekstreme funkcije. Najprej si izraµcu-namo parcialne odvode po bb0; :::;bbk in jih nato enaµcimo z 0.

    @F

    @bb0 = (�2)nXi=1

    [yi � (bb0 +bb1xi1 + :::+bbkxik)] = 0@F

    @bb1 = (�2)xi1nXi=1

    [yi � (bb0 +bb1xi1 + :::+bbkxik)] = 0...

    @F

    @bbk = (�2)xiknXi=1

    [yi � (bb0 +bb1xi1 + :::+bbkxik)] = 0:Na tem mestu vpeljimo okrajave, ki nam dajo preglednejo pisanjeX

    x1 =nXi=1

    xi1; :::;X

    xk =nXi=1

    xik;

    Xx1x2 =

    nXi=1

    xi1xi2; :::;X

    xpxq =nXi=1

    xipxiq (p; q = 1; :::; k)

    Xy =

    nXi=1

    yi; :::;X

    xky =nXi=1

    xikyi

    31

  • Tako lahko zapiemo linearni sistem v naslednji obliki

    bb0 � n+bb1 �X x1 + :::+bbk �X xk =X ybb0 �X x1 +bb1 �X x21 + :::+bbk �X x1xk =X x1y...bb0 �X xk +bb1 �X xkx1 + :::+bbk �X x2k =X xky:

    Pri obravnavanju si bomo pomagali z matriµcnim zapisom. V ta namen bomo vpeljalimatriko X vhodnih podatkov za neodvisne (pojasnjevalne) spremenljivke, ki bovelikosti n� (k + 1)

    X =

    266641 x11 x12 � � � x1k1 x21 x22 � � � x2k...

    ......

    ...1 xn1 xn2 � � � xnk

    37775 ;matriko Y izhodnih podatkov za odvisno spremenljivko velikosti n � 1, matriko bBza ocene koecientov multiple regresije velikosti (k + 1) � 1, matriko B za pravekoeciente multiple regresije velikosti (k + 1) � 1 in matriko E za napake modelavelikosti n� 1:

    Y =

    26664y1y2...yn

    37775 ; bB =26664bb0bb1...bbk

    37775 ; B =26664b0b1...bk

    37775 ; E =26664e1e2...en

    37775 :Sedaj lahko zapiemo linearni model takole:26664

    y1y2...yn

    37775 =266641 x11 x12 � � � x1k1 x21 x22 � � � x2k...

    ......

    ...1 xn1 xn2 � � � xnk

    37775 �26664b0b1...bk

    37775+26664e1e2...en

    37775kar je ekvivalentno enaµcbi Y = XB + E.Izkaµze se [4], da ocene koecientov veµckratne regresije dobimo tako, da si izraµcu-

    namo matriko bB po naslednji enaµcbi:bB = (XTX)�1XTY;

    kjer je matrika XT transponirana matrika matrike X, a matrika (XTX)�1 pa jeinverzna matrika matrike (XTX).

    Torej, µce na kratko povzamemo. Pri linearni regresiji z enodimenzionalnimmode-lom smo govorili o linearni povezanosti odvisne spremenljivke Y in le ene neodvisne

    32

  • spremenljivke X. Nak je bil v tem primeru 1 in vse se je dogajalo v ravnini, sajsta bili nakljuµcni spremenljivki elementa R2. Lahko bi tudi zapisali (X;Y ) 2 R2.Ukvarjali smo se z razprenim graµcnim prikazom mnoµzice toµck (xi; yi) in regresijskopremico y = b0 + b1x, ki se je prilegala mnoµzici teh toµck (slika je iz vira [2]).

    Kadar se ukvarjamo s povezanostjo odvisne spremenljivke Y in z veµc kot enoneodvisnimi spremenljivkami, recimo k, X1; :::; Xk; takrat govorimo o veµcratni re-gresiji. Sedaj se spremeni tudi prostor, kjer lahko predstavimo mnoµzico izmerjenihtoµck. Ta mnoµzica toµck je v tem primeru (X1; X2; :::; Xk; Y ) � Rk+1. Preprostprimer veµckratne regresije je, ko imamo dve neodvisni spremenljivki in odvisno spre-menljivko. Takrat lahko mnoµzico toµck merjenj predstavimo v prostoruR3 ali drugaµcezapisano (X1; X2; Y ) � R3. Naa naloga je, da poiµcemo takno funkcijo, ki bi senajbolje prilegala vsem toµckam v prostoru in ta funkcija je y = b0+ b1x1+ b2x2, karpa je seveda ravnina.

    Model in preverjanje podatkov

    Ocena standardne napake modela

    Standardno oceno napake modela pri veµckratni regresiji izraµcunamo na naslednjinaµcin:

    Se =

    sY TY � bBTXTYn� k � 1 =

    rV KN

    n� k � 1 ,

    kjer je n velikost vzorca, k tevilo ocenjenih parametrov, V KN vsota nakljuµcnihvplivov in matrike Y T , bBT in XT so transponirane matrike matrik Y , bB, in X.

    Ocena regresijskih parametrov

    Tudi pri veµckratni regresiji testiramo regresijske parametre s pomoµcjo F-statistikein s pomoµcjo T-statistike. Vrednost F-statistike razberemo iz tabele ANOVA in seizraµcuna kot

    F =PKM

    PKN:

    33

  • Vrednost T-statistike pri veµckratni regresiji izraµcunamo tako:

    T =(bbi � bi)Se �

    pjciij

    =(bbi � bi)

    Se �q

    njciijn�k�1

    za i = 0; 1; 2; :::; k.

    To je vrednost T-statistike z n� k� 1 prostostnimi stopnjami. V formuli oznaka ciipomeni element v i-ti vrstici in i-tem stolpcu inverzne matrike (XTX)�1. Tudi tukajlahko dobimo interval zaupanja za parametre regresijske hiperravnine s pomoµcjonepristranske ocene napake regresijskega modela Se, ki je enak

    100(1��)% interval zaupanja:hbbi � t�

    2;n�k�1 � Se �

    pjciij,bbi + t�

    2;n�k�1 � Se �

    pjciiji

    za i = 0; 1; 2; :::; k.

    Koecient doloµcenosti

    Koecient doloµcenosti pri veµckratni regresiji izraµcunamo na enak naµcin kot smoga pri osnovni linearni regresiji:

    D = R2 =V KM

    SVK:

    S pomoµcjo njega lahko F-statistiko izraµcunamo tudi na naµcin

    F =n� k � 1

    k

    R2

    1�R2 .

    Zgled 1

    Pogledali si bomo primer, kateri dejavniki vplivajo na dobiµckonosnost posameznetrgovine. Zanimala nas bo linearna odvisnost med odvisno spremenljivko Y , kipredstavlja dobiµckonosnost posamezne trgovine in neodvisnimi spremenljivkami, kiso naslednje: povrina trgovine xi1 (v m2), tevilo zaposlenih v trgovini xi2, starostposlovodja xi3, izkunje poslovodja xi4 (v letih), socialno-ekonomsko razvrµcanje xi5(temelji na standardni lestvici) in tevilo konkurentov na istem obmoµcju xi6. V tanamen je bila narejena raziskava za 30 trgovin. Podatki so predstavljeni v tabeli.

    34

  • Tabela podatkov:

    i yi xi1 xi2 xi3 xi4 xi5 xi6 i yi xi1 xi2 xi3 xi4 xi5 xi6

    1 22 278 5 29 1 6 2 16 111 3903 13 38 5 3 52 10 1814 10 30 1 3 1 17 99 2281 12 42 7 5 33 25 207 7 36 2 5 1 18 103 1244 9 43 6 5 14 47 2074 11 33 3 5 1 19 130 2618 15 47 6 6 25 66 181 8 34 5 1 4 20 123 1892 12 40 7 3 16 71 181 8 34 5 2 3 21 143 1218 9 38 7 2 17 46 1063 11 41 4 7 1 22 149 3240 17 46 9 1 48 37 2696 13 38 5 8 5 23 132 2851 15 44 7 7 59 89 441 8 39 4 6 0 24 106 4873 16 45 8 5 510 88 1607 12 43 5 2 2 25 124 3862 18 50 9 3 311 123 1322 10 36 5 3 0 26 97 2488 12 45 5 4 212 106 1089 10 33 5 5 1 27 171 3292 16 49 10 6 313 107 2540 13 40 6 8 2 28 115 2722 15 47 9 4 314 82 3162 15 47 7 2 3 29 142 4406 19 54 9 6 515 105 2773 15 44 6 3 4 30 194 4199 15 50 10 10 3

    Korelacijska matrika:

    Korelacijska matrika nam prikazuje, kako so med seboj korelirane posameznespremenljivke. To koreliranost merimo s korelacijskim koecientom. µCe si pogledamopovezanost med socialno-ekonomskim razvrµcanjem trgovine in med dobiµckom, opa-

    35

  • zimo, da sta spremenljivki slabo korelirani, saj je korelacijski koecient neznaten inznaa le 0:098. Pravtako sta slabo korelirani konkurenca in dobiµcek.

    Izpis programa SPSS za veµckratno linearno regresijo:

    Model veµckratne analize je oblike:

    yi = b0 + b1xi1 + b2xi2 + b3xi3 + b4xi4 + b5xi5 + b6xi6 + ei (i = 1; :::; 30):

    Program SPSS nam izraµcuna ocene bb0;bb1:::;bb6 za parametre b0; b1; :::; b6 in njihovestandardne napake sb0 ; sb1 ; :::; sb6: b0 = 33:18; b1 = 0:01; b2 = �3:25; b3 = �0:25; b4 =18:88; b5 = 0:395; b6 = �6:81; sb0 = 38:59; sb1 = 0:01; sb2 = 3:83; sb3 = 1:51; sb4 =3:26; sb5 = 1:96 in sb6 = 3:42. Ocenjena hiperravnina bo torej oblike:

    by = 33:184 + 0:009x1 � 3:248x2 � 0:246x3 + 18:88x4 + 0:395x5 � 6:813x6:Sedaj lahko testiramo hipotezo, da so vsi koecienti ob neodvisnih spremenljivkahenaki 0. Test bomo izvedli pri stopnji znaµcilnosti � = 0:05. Torej, H0 : b0 = b1 =b2 = b3 = b4 = b5 = b6 = 0. Niµcelno hipotezo zavrnemo, µce velja F > F�;k;n�k�1. Iztabele ANOVA lahko razberemo, da je F = 16:081. Vrednost F�;k;n�k�1 = F0:05;6;23pa razberemo iz tabele Fisher-Snedecor in dobimo F0:05;6;23 = 2:528.

    36

  • Ker je F > F0:05;6;23; niµcelno hipotezo zavrnemo, kar pomeni, da izbrane spre-menljivke vplivajo na vrednost odvisne spremenljivke. Izvedemo lahko tudi T-test zatestiranje niµcelnih hipotez za posamezne parametre oziroma koeciente: H0 (b0 = 0),H0 (b1 = 0), H0 (b2 = 0), H0 (b3 = 0), H0 (b4 = 0), H0 (b5 = 0) in H0 (b6 = 0). Teniµcelne hipoteze bomo testirali s pomoµcjo T-statistike, katere rezultate imamo vtabeli v stolpcu z oznako t. Pri stopnji znaµcilnosti � = 0:05 je vrednost t�(n�k�1) =t0:05(23) t 2:07. Zavrnemo le niµcelno hipotezo H0(b4 = 0); saj je T-statistika veµcjaod kritiµcne vrednosti t�. Ostalih niµcelnih hipotez ne zavrnemo, saj je signikancapri vseh veµcja od stopnje znaµcilnosti in je tveganje zavrnitve niµcelnih hipotez prev-eliko. Izraµcunali smo tudi determinacijski koecient in standardno napako modela:cenilka korelacijskega koecienta je v naem primeru R = 0:899, determinacijskikoecient je D = 0:81 in standardna napaka modela je 21:65. Vidimo, da je z danimregresijskim modelom pojasnjenih 81% variabilnosti spremenljivke Y .

    Zgled 2

    Zgled, ki si ga bomo pogledali je uporaben v µzelezarnah. Zanimala nas bo lin-earna odvisnost med odvisno spremenljivko Y , ki predstavlja vsebnost µzeleza v µzlin-dri (v odstotkih) in neodvisnimi spremenljivkami, ki so naslednje: µcas vpihovanjazraka v peµc xi1 (v sekundah), prisotnost fosforja na zaµcetku vpihovanja xi2 (v ti-soµcinkah %) in temperatura sarµze na zaµcetku vpihovanja xi3 (v �C � 1500�C). V tanamen je bila narejena raziskava za 25 merjenj v nakljuµcno izbranih sarµzah. Podatkiso predstavljeni v naslednji tabeli:

    i yi xi1 xi2 xi3 i yi xi1 xi2 xi3

    1 6; 5 5; 1 2; 71 4; 4 14 1; 25 5; 3 2; 91 7; 92 7; 2 6; 5 2; 50 4; 5 15 1; 25 9; 3 3; 31 8; 93 9; 0 2; 9 1; 36 5; 0 16 1; 26 1; 1 3; 50 7; 84 9; 3 4; 5 1; 60 8; 3 17 1; 26 7; 3 7; 00 8; 35 9; 5 4; 9 1; 50 6; 9 18 1; 27 5; 2 1; 55 6; 46 1; 01 4; 7 2; 56 6; 8 19 1; 32 8; 7 2; 25 7; 37 1; 04 3; 0 2; 05 7; 1 20 1; 35 4; 6 1; 40 5; 98 1; 05 3; 2 1; 51 6; 3 21 1; 37 7; 3 2; 05 7; 99 1; 12 5; 7 1; 15 6; 7 22 1; 37 7; 8 1; 50 6; 910 1; 14 1; 0 2; 50 8; 3 23 1; 38 1; 1 2; 70 8; 611 1; 15 6; 2 1; 80 6; 6 24 1; 56 4; 4 1; 20 8; 712 1; 21 7; 9 7; 00 4; 2 25 1; 57 7; 6 1; 90 6; 513 1; 24 7; 7 1; 85 5; 6

    Model veµckratne analize bo tokrat oblike:

    yi = b0 + b1xi1 + b2xi2 + b3xi3 + ei (i = 1; :::; 25):

    37

  • S pomoµcjo programa SPSS si spet izraµcunamo µzeljene podatke in jih prikaµzemo vnaslednjih tabelah:

    Ocenebb0;bb1;bb2;bb3 za parametre b0; b1; b2; b3 in njihove standardne napake sb0, sb1, sb2 ,sb3: b0 = 9:29; b1 = �0:17; b2 = �0:36; b3 = �0:7; sb0 = 3:57; sb1 = 0:26; sb2 = 0:4 insb3 = 0:43. Ocenjena hiperravnina bo torej oblike:

    by = 9:29� 0:17x1 � 0:36x2 � 0; 7x3:Sedaj lahko testiramo hipotezo, da so vsi koecienti ob neodvisnih spremenljivkahenaki 0. Test bomo izvedli pri stopnji znaµcilnosti � = 0:05. Torej, H0 : b0 = b1 =b2 = b3 = 0. Niµcelno hipotezo zavrnemo, µce velja F > F�;k;n�k�1. Iz tabele ANOVAlahko razberemo, da je F = 1:284. Vrednost F�;k;n�k�1 = F0:05;3;21 pa razberemoiz tabele Fisher-Snedecor in dobimo F0:05;3;21 = 3:07. Ker je F < F0:05;6;23; niµcelnehipoteze ne zavrnemo, kar pomeni, da izbrane spremenljivke nimajo vpliva na vred-nost odvisne spremenljivke. Izvedemo lahko tudi T-test za testiranje niµcelnih hipotezza posamezne parametre oziroma koeciente: H0 (b0 = 0), H0 (b1 = 0), H0 (b2 = 0)in H0 (b3 = 0). Te niµcelne hipoteze bomo testirali s pomoµcjo T-statistike, katererezultate imamo v tabeli v stolpcu z oznako t. Pri stopnji znaµcilnosti � = 0:05 je

    38

  • vrednost t�(n � k � 1) = t0:05(21):= 2:08. Zavrnemo le hipotezo H0 (b0 = 0). Os-

    talih niµcelnih hipotez ne zavrnemo. Izraµcunali smo tudi determinacijski koecientin standardno napako modela: cenilka korelacijskega koecienta je v naem primeruR = 0:394, determinacijski koecient je D = 0:155 in standardna napaka modela je2:88. Vidimo, da je z danim regresijskim modelom pojasnjenih le 16% variabilnostispremenljivke Y . Ker je determinacijski koecient zelo majhen, lahko reµcemo, daregresijska hiperravnina ne podaja odvisnosti med µzelezom v µzlindri (v odstotkih) inizbranimi neodvisnimi spremenljivkami. Vse to bi lahko potrdili µze prej s korelacijskotabelo z izraµcunanim korelacijskim koecientom med odvisno spremenljivko in vsemineodvisnimi spremenljivkami. Opazimo, da je povezava med njimi zelo slaba.

    Korelacijska matrika:

    39

  • Poglavje 6

    Uporabni premisleki v regresijskianalizi

    Izbira regresijske enaµcbe

    Izbira ustreznega matematiµcnega izraza za model regresijske enaµcbe je odvisna od:

    � hipoteze eksperimentatorja,

    � znanstvene teorije,

    � pregleda regresijskih premic v preteklih tudijah,

    � pregleda regresijskih premic v trenutni tudiji,

    � prevzemanje preprostega obrazca (npr. linearna ali preprosta ukrivljena relacija).

    Izbira pravilne oblike regresijske enaµcbe je precejnjega pomena, saj so to enaµcbe,ki se uporabljajo za napovedovanje in ocene regresijskih koecientov. Ni pravil zaopredelitev najbolje izbire za obliko regresijske enaµcbe pri danih eksperimentalnihsituacijah. Uporabljajo se le splone smernice predlaganega obrazca, ki je neodvisenod trenutne mnoµzice podatkov, kadar je seveda to mogoµce. Nespametno je, da setrenutna mnoµzica podatkov, ki se uporablja kot osnova za matematiµcni obrazec re-gresijske enaµcbe, uporablja tudi za preverjanje sprejemljivosti predlaganega obrazca.Zato lahko vµcasih nakljuµcno mnoµzico podatkov razdelimo v dve grupi ali skupini.Prva se nato uporablja za predlaganje obrazca regresijske enaµcbe, a druga pa je zapreverjanje sprejemljivosti tega obrazca.

    40

  • Eksperimentalni cilji

    Eksperimentalni cilji so naslednji:

    � Vpraanja o obliki regresijske enaµcbe

    Ali je kakna zveza med neodvisno in odvisno spremenljivko?µCe zveze ni, je regresijska enaµcba kar konstanta. Kadar imamo eno neodvisno

    spremenljivko, nam razpren graµcni prikaz odvisne spremenljivke v primerjavi zneodvisno spremenljivko omogoµca hiter in preprost naµcin preverjanje zveze medspremenljivkama.

    Ali je domnevni obrazec za regresijsko enaµcbo ustrezen za dane podatke?Statistiµcna naloga v tem primeru je, da se primerja ustreznost domnevne enaµcbe

    za podatke z ustreznejo splono enaµcbo. Npr., ko se predpostavlja enostavna lin-earna regresijska enaµcba tj. f(x) = b0 + b1x, se obiµcajno domneva, da je alterna-tivna enaµcba preprosta kvadratna enaµcba f(x) = b0+ b1x+ b2x2. µCe v tem primerukvadratna enaµcba zagotovi bolje prileganje kot linearna, se domneva linearne re-gresije zavrne.

    Katera je najpreprosteja oblika regresijske enaµcbe, ki ustreza podatkom?Osnovni cilj je vzpostaviti regresijsko enaµcbo, ki natanµcno predvidi vrednosti

    odvisne spremenljivke iz µze znanih vrednosti ene ali veµcih neodvisnih spremenljivk.Zato so na voljo tudi metode, ki sistematiµcno preuµcijo zvezo med odvisno in neod-visno spremenljivko.

    � Vpraanja o parametrih regresijske enaµcbe

    To so vpraanja o regresijskih koecientih. Obstajajo lahko koristne ocene testi-ranja hipotez o regresijskih koecientih, kar e posebej velja za enostavno linearnoregresijo.

    � Primerjava regresijske enaµcbe med skupinami

    Tukaj gre za preuµcevanje domnev, da:-so regresijske premice enake za vse skupine,-imajo regresijske premice enak naklon,-imajo regresijske premice enak del premice med dvema toµckama.

    Pri takih primerjavah uporabljamo analizo variance.

    41

  • � Napoved in ocenjevanje

    Pomembna uporaba regresijske analize je zagotavljanje enaµcbe za napoved vrednostiodvisne spremenljivke iz znanih vrednosti neodvisnih spremenljivk.

    Selektivna matoda

    Pri teh praktiµcnih premislekih je dobro omeniti najpogosteje uporabljeno metodo,in sicer selektivno metodo, ki temelji na naslednjih pogojih:

    � regresijska enaµcba je linearna,

    � domnevna porazdelitev je normalna - Gaussova porazdelitev,

    � porazdelitev nakljuµcnih komponent je neodvisna in enakomerna.

    Nelinearne regresijske enaµcbe imajo pomembno vlogo na mnogih specializiranihpodroµcjih uporabe. Obstajajo raµcunalnike razliµcice in pomembna vpraanja zaparametrizacijo enaµcb, da je potrebno pri nelinearnih enaµcbah upotevati regresij-sko analizo. Posploeni linearni modeli omogoµcajo raziritev regresijskih metod napomembna podroµcja uporabe, kjer je potrebna porazdelitev, ki ni normalna. Tevkljuµcujejo:

    � Logistiµcno regresijo, ki se uporablja, kadar je odvisna spremenljivka binarna(odvisna spremenljivka je torej lahko uspeh in neuspeh). Namen je raziskatinaµcin , za katerega so moµznosti za uspeh povezane z eno ali veµc neodvisnimispremenljivkami.

    � tudije, v katerih je odvisna spremenljivka bodisi tevilo neodvisnih dogod-kov, ki se pojavljajo v doloµcenem µcasovnem obdobju, ali µcas med dogodkineodvisnih dogodkov.

    42

  • Poglavje 7

    Uporaba regresijske analize

    Oblika regresijske enaµcbe

    Ker ni na voljo formalnega preizkusa o ustreznosti regresijske enaµcbe za danepodatke, imamo eno od dveh naslednjih situacij:

    1. Ocena ustrezne enaµcbe, ki je predlagana neodvisno od trenutne mnoµzicepodatkov

    Predlagano regresijsko enaµcbo je mogoµce obravnavati kot omejeno obliko boljsplone regresijske enaµcbe. Moµzna sta dva pristopa.

    � Enostavno vizualno preverjanje sprejemljivosti predlagane regresijske enaµcbelahko izvedemo z ustrezno enaµcbo za obravnavo podatkov in z graµcnim prika-zom ustreznih vrednosti v primerjavi z ostanki. µCe je regresijska enaµcba us-trezna, ne sme biti usmerjena v graµcni prikaz.

    � µCe je predlagana enaµcba bolj splona enaµcba, lahko test konstruiramo s primer-javo ustreznega cilja v bolj sploni obliki.

    2. Izbira ustrezne regresijske enaµcbe

    V mnogih raziskavah, kjer uporabljajo metode regresijske analize, ni predhod-nega priµcakovanja o obliki regresijske enaµcbe. O izbiri ustrezne regresijske enaµcbeobstaja veliko literature, vendar so konµcni rezultati razprave pomanjkljivo enos-tavni. Vse to izhaja iz dejstva, da mnoµzica podatkov zagotovi predloge regresijskeenaµcbe, ki bi ustrezala podatkom in da se ti predlogi preuµcijo, kateri od njih so splohrazumni. Kjer je seveda to mogoµce, je priporoµcljivo, da se podatke razdeli na dveenako veliki skupini, prvo skupino, ki se uporablja za predlaganje regresijskih enaµcbin drugo skupino za oceno vrednosti izbire regresijske enaµcbe. Moramo se zavedati,

    43

  • da za uporabo ene mnoµzice podatkov obe fazi lahko privedeta do napaµcne izbire alineuµcinkovitosti regresijske enaµcbe. Predlogi, ki jih bomo sedaj navedli po korakih,so moµzne poti slediti najboljemu iskanju ali dobremu zbiranju regresijskih enaµcb zadano mnoµzico podatkov:

    � Korak 1: Eksperimentalni cilji. Ugotoviti, ali je glavni namen preuµcevanja: (i)zagotoviti enaµcbo za uporabo pri napovedovanju odgovorov; ali (ii) razumetinaµcin, kako neodvisne spremenljivke vplivajo na odvisno.

    � Korak 2: Izbira neodvisnih (pojasnjevalnih) spremenljivk. Kadar gre za obrav-navo tevilnih neodvisnih spremenljivk, te izkljuµcujejo tiste spremenljivke, kiso ocenjene kot obrobne vrednosti ali ki vkljuµcujejo informacije vsebovane µzev drugih spremenljivkah. Prizadevati si moramo za zmanjanje tevila spre-menljivk, ki so kombinacije spremenljivk. Prepriµcati se moramo tudi, da sobile izkljuµcene nepomembne spremenljivke.

    � Korak 3: Preverjanje podatkov. V primeru, ko je napaka v podatkih, lahkopride do resnih posledic pri izbiri regresijske enaµcbe. Prvo moramo preveritinajveµcje in najmanje vrednosti za vse spremenljivke. Praktiµcna reitev, kise nam ponuja je, da ugibamo verjetno mnoµzico pomembnih neodvisnih spre-menljivk ustrezne veµckratne regresijske enaµcbe na podlagi teh spremenljivk inda uporabljamo model in tehniko preverjanja podatkov, ki iµce dokaze o na-paµcnih podatkih. Zraven tega je pomembno, ko se dokonµcno izbere ena ali veµcregresijskih enaµcb, je potrebno znova uporabiti postopek modela preverjanjapodatkov.

    � Korak 4: Predhodni pregled (razmiljanje). V tem koraku si skonstruiramorazpren graµcni prikaz odvisnosti odvisne spremenljivke z neodvisno spre-menljivko. µCe obstajajo dokazi o nelinearni premici, takrat preuµcimo moµznostpreoblikovanja vrednosti neodvisne spremenljivke na novo lestvico merjenj.

    � Korak 5: Raµcunalniki razlogi. Obstaja veliko raµcunalnikih postopkov, daima predlagana izbrana podmnoµzica neodvisnih spremenljivk za predpostavkoveµckratno linearno regresijsko enaµcbo. Vse to je odvisno od uporabe statis-tiµcnega raµcunalnikega paketa.

    S tem smo s koraki zakljuµcili.

    44

  • Obstajajo tudi trije kriteriji, ki jih lahko doloµcimo pri iskanju najbolje linearneenaµcbe:

    � Strategija sistematiµcnega preuµcevanja regresijskih enaµcb.

    Statistiµcni raµcunalniki paketi nam ponavadi ponujajo veµc strategij. Najboljsplona izbira je postopna (stepwise) procedura oziroma postopek, ki se zaµcne znamestitvijo najboljega napovedovalca posamezne spremenljivke, nato v naslednjihkorakih z dodajanjem nadaljnih spremenljivk za izboljanje napovedne moµci ali zodstranjevanjem spremenljivk, ki ne prispevajo k napovedni moµci. Postopek senadaljuje, dokler ni veµc mogoµce nadalje dodajati ali odstranjevati spremenljivk.

    � Kriterij izbire.

    Najpogosteje se uporablja kriterij izbire. Pri postopkih izbire je najbolje do-dati takno spremenljivko, ki povzroµci najveµcje zmanjanje v povpreµcnih kvadratih.Ta kriterij ima tudi slabo stran, saj ne upoteva posledice izbire napaµcnega mo-dela. µCe je cilj izbrati regresijsko enaµcbo, ki zagotavlja najboljega napovedovalcaodvisne spremenljivke, potem obstaja moµznost uporabe kriterija razvitega v ta na-men. Tukey-evo pravilo je preprosto in je dobra izbira. Navaja, da je najboljaregresijska enaµcba tista, ki ima najmanjo vrednost koliµcnika ostanka povreµcnegakvadrata z ustreznim preostankom prostostne stopnje.

    � Ustavitev pravila

    Ko so uporabljene zaporedne strategije, je potrebno imeti pravilo, po kateremse lahko sprejme odloµcitev in ki je potrebno za nadaljno iskanje. Da se sprejme od-loµcitev, ali vkljuµcitev spremenljivke bistveno izbolja prileganje regresijske enaµcbe,se obiµcajno zanesemo na F-statistiko. Trije dejavniki zdruµzeni skupaj naredijo teo-retiµcno podlago, da izbira kritiµcne vrednosti F-statistike ni nemogoµca. Prvi jesplona nedostopnost nepristranske cenilke �2 za imenovanje F-statistike. Drugije dejstvo, da se uporabljajo isti podatki tako za izbiro kot testiranje enaµcb. Tretjije pa veµckratna primerjava problema: razliµcni testi niso neodvisni.

    45

  • Ocena in napovedovanje

    Pomembno podroµcje uporabe regresijske analize je napovedovanje vrednosti od-visne spremenljivke Y pri znanih vrednosti neodvisnih (pojasnjevalnih) spremenljivkX. Pojavita se dve vrsti problemov, ki se imenujeta ocenjevanje in napovedovanje.

    � Ocenjevanje

    Regresijska funkcija z enaµcbo f(x) = b0 + b1x nam pojasnjuje razmerje medneodvisno spremenljivko in odvisno spremenljivko. Ocena f(x) pri x = x0 je ocenapovpreµcnega odgovora v podmnoµzici populacije, ki ugotavljajo vrednost x0 za spre-menljivko X. Ker je f(x0) parameter populacije, obstaja tudi moµznost za uporab-ljanje metode konstruiranja intervalov zaupanja in testiranje hipoteze o f(x0).

    � Napovedovanje

    Problem, kadar uporabimo izraz napovedanje, je oceniti vrednost y0 iz µze znanevrednosti x0. Najprej predpostavimo statistiµcni model, da je y0 vsota dveh kom-ponent: regresijske komponente f (x0) in nepojasnjene komponente e0. Ker je e0nakljuµcna spremenljivka, y0 ni parameter, ki ga je potrebno oceniti. Pristop sprejetv oceni y0 nadomestimo s priµcakovano vrednostjo e0, katera je po deniciji enakaniµc. Zato je ocena y0 enaka z najboljo oceno f(x). Pri tem se moramo zavedati,da je natanµcnost, s katero je mogoµce oceniti y0 manja od natanµcnosti, s katero selahko oceni f (x), saj je potrebno upotevati nadomestila za spremenljivost e0.

    � Statistiµcne metode

    Pogledali si bomo statistiµcne metode potrebne za ocenjevanje in napovedovanje,ko je uporabljena preprosta linearna regresijska enaµcba. Dana je vrednost x0 neod-visne spremenljivke X in najbolja ocena f(x) = b0 + b1x naj bo denirana postatistiki [f(x0) = bb0 + bb1x0. µCe preprosta regresijska enaµcba temelji na vredno-stih odvisne spremenljivke Y : y1; y2; :::; yn, kjer je yi = f (xi) + ei (i = 1; 2; :::; n)in so e1; e2; :::; en neodvisne spremenljivke porazdeljene N (0; �2), potem je [f(x0)porazdeljena N (f (x0) ; �2e (x0)) ;kjer je

    �2e (x0) = �2

    �1

    n+

    (x0 � x)2Pni=1(xi � x)2

    �:

    V praksi je vrednost nepristranske cenilke �2 znana in jo je treba nadomestiti zoceno. Enostavna varianca ocenjevalca je denirana z formulo

    s2e (x0) = s2

    �1

    n+

    (x0 � x)2Pni=1(xi � x)2

    �;

    kjer je s2 ostanek povpreµcnih kvadratov iz tabele ANOVA, ki temelji na ustreznemmodelu. Napoved vrednosti y = f(x) + e zahteva oceni f(x) in e.

    46

  • Poglavje 8

    Nelinearna regresija

    Vµcasih lahko pridemo do primera, da se domneva linearne regresije zavrne in da jeprimerneji nelinearni model regresije. Takrat govorimo o nelinearni regresiji. Torej,v tem primeru je zveza med neodvisno spremenljivko X in odvisno spremenljivko Ylahko polinomska in takrat je regresijski model oblike:

    yi = b0 + b1xi + b2x2i + :::+ bkx

    ki + ei (i = 1; :::; n) in k > 1; n > k + 1;

    kjer je ei napaka modela in normalno porazdeljena nakljuµcna spremenljivka z mate-matiµcnim upanjem E(ei) = 0 in varianco V (ei) = 0.Zveza med spremenljivkama X in Y je lahko npr. kvadratna in takrat je model

    oblikeyi = b0 + b1xi + b2x

    2i + ei:

    V tem primeru parametre b0; b1 in b2 poiµcemo po metodi najmanjih kvadratovtako, da minimiziramo funkcijo

    f(b0; b1; b2) =

    nXi=1

    (yi � b0 � b1xi � b2x2i )2:

    S parcialnim odvajanjem nato dobimo naslednji normalen sistem enaµcb

    nb0 + b1X

    xi + b2X

    x2i =X

    yi

    b0X

    xi + b1X

    x2i + b2X

    x3i =X

    xiyi

    b0X

    x2i + b1X

    x3i + b2X

    x4i =X

    x2i yi

    Ta sistem enaµcb reimo s pomoµcjo linearizacije problema. V naem primeru lahkovpeljemo novo spremenljivko zi = x2i in dobimo linearni sistem z veµc neodvisnimispremenljivkami.

    47

  • Zgled 1

    Predpostavimo, da smo pri petih merjenjih dveh odvisnih spremenljivk X in Ydobili naslednje podatke:

    xi yi

    0 41 22 14 26 5

    :

    Rezultate meritev si s toµckami predstavimo v pravokotnem koordinatnem sistemu:

    Opazimo, da linearna funkcija ni primerna za prilagajanje tem toµckam grafa. Vzetimoramo nelinearno funkcijo, ki se bo najbolje prilagajala tem toµckam v naem ko-ordinatnem sistemu. Na prvo misel nam pade, da bi za funkcijo, ki se bi najboljeprilegala tem naim parom merjenja vzeli kar kvadratno funkcijo kot regresijskofunkcijo. Kot vidimo na naslednji sliki je ta izbira ustrezna.

    48

  • V SPSS si lahko izraµcunamo vse vrednosti te kvadratne regresije tako kot prilinearni regresiji in dobimo naslednje izraµcune.

    49

  • Ustrezen kvadratni regresijski model bo sedaj oblike:

    yi = b0 + b1xi + b2x2i + ei:

    Ocene parametrov so naslednje: bb0 = 3:82;bb1 = �2:05 in bb2 = 0:38. Zato je ocenjenaregresijska funkcija by = 3:82� 2:05x+ 0:38x2:Tudi tukaj lahko testiramo hipotezo, da so vsi koecienti enaki 0. Test bomo izvedlipri stopnji znaµcilnosti � = 0:05. Torej, H0 : b0 = b1 = b2 = 0. Niµcelno hipotezozavrnemo, µce velja F > F�. Iz tabele ANOVA lahko razberemo, da je F = 45:047.Vrednost F0:05(1; 2)

    := 18:5, kar pomeni, da niµcelno hipotezo zavrnemo. S pomoµcjo

    T-statistike lahko testiramo niµcelne hipoteze H0 (b0 = 0) ;H0 (b1 = 0) in H0 (b2 = 0).Niµcelne hipoteze zavrnemo, saj je signikanca pri vseh manja od stopnje znaµcilnosti0:05. Koecient determinacije je 0:978, kar pomeni, da je z danim regresijskimmodelom pojasnjenih 97:8% variabilnosti spremenljivke Y . S tem tudi vidimo, dase funkcija dobro prilagaja podatkom. µCe bi vzeli za regresijski model linearni modelbi dobili naslednji rezultat za model

    in tukaj vidimo, da je koecient determinacije 0:125. To pomeni, da bi z modelomlahko pojasnili le 12:5% variabilnosti spremenljivke Y .

    Zgled 2

    Kot primer nelinearne regresije lahko navedemo rast strokov graha. Tukaj imamopovpreµcno dolµzino stroka graha (ML) v odvisnosti od µcasa (t), ki se pribliµzuje funkcijisigmoide z enaµcbo

    ML =b0

    1 + e(b1�b2t);

    kjer so b0; b1 in b2 parametri, katerih vrednosti so znane. Funkcija je prikazana na

    50

  • spodnji sliki (slika je iz vira [6]):

    Parametri opredeljeni v funkciji so uporabni za deniranje naslednjih lastnosti:

    � maksimalna dolµzina stroka graha (b0),

    � maksimalna doseµzena stopnja rasti ( b0b24 ), in

    � µcas, v katerem je doseµzena najveµcja stopnja rasti ( b1b2 ).

    Regresijska analiza se ukvarja z zagotavljanjem ocen parametrov in s tem tudiocen karakteristik oziroma znaµcilnosti eksperimentalnih interesov. Analiza tegaprimera se lahko uporablja za zagotavljanje primerjave med znaµcilnostimi posameznihvrst ali za primerjavo pod drugaµcnimi pogoji rasti.

    51

  • Literatura

    [1] B. Brvar, Statistika, Fakulteta za varnostne vede, Ljubljana 2007.

    [2] M. Hladnik, Verjetnost in statistika, FE in FRI, Ljubljana 2002.

    [3] R. Jamnik, Matematiµcna statistika, DZS, Ljubljana 1980.

    [4] J. Jesenko in M. Jesenko, Multivariatne statistiµcne metode, Moderna organi-zacija, Kranj 2007.

    [5] A. Kristan, Statistika, Visoka ekonomska - komercialna ola, Maribor 1986.

    [6] G. McPherson, Applying and Interpreting Statistics, Springer-Texst in Statistics2001.

    [7] µZ. Paue, Uvod u matematiµcku statistiku, kolska knjiga, Zagreb 1993.

    52

  • UNIVERZA V MARIBORU

    FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO

    Oddelek za matematiko in raµcunalnitvo

    DIPLOMSKO DELO

    Andreja Korenjak

    Maribor, 2010