Upload
jelena-djordjevic
View
113
Download
6
Embed Size (px)
Citation preview
Regresija i korelacija
Goran Trajković
novembar, 2010. godine
Regresija i korelacija
Regresijom i korelacijom analizira se povezanost (asocijacija, odnos) dve ili više varijabli
Korelacija podrazumeva analizu jačine i smera povezanosti
Regresija podrazumeva analizu oblika i smera povezanosti i analizuu smislu nezavisnih/zavisnih (prediktor/ishod) varijabli sa ciljem predikcije. U regresionom modelu poznavanje vrednosti nezavisnih varijabli omogućava predikciju vrednosti zavisnih varijabli.Uopšte uzev, kad god postoji značajna korelacije između dve varijable može se vrednost jedne varijable iskoristiti za predikciju vrednosti druge varijable
Karakteristike povezanostiSmer povezanosti•Pozitivan•Negativan
Jačina povezanosti•Deterministička (funkcionalna) povezanost•Stohastička (statistička) povezanost
Oblik povezanosti•Linearan•Nelinearan
Zavisno od broja varijabli:•Jednostruka (prosta) povezanost•Višestruka (multipla) povezanost
Za sva obeležja, čiji se odnos analizira metodama regresije i korelacije, treba simultano posedovati podatke sa istih statističkih jedinica
Dijagram rasturanjaPozitivna linearna
povezanost(r = 0.65)
Negativna linearna povezanost(r = -0,68)
Nemapovezanosti
(r = 0.00)
Krivolinijskapovezanost
Svaka tačka na dijagramu rasturanja predstavlja par podataka sa jedne statističke jedinice.Dijagram rasturanja sugeriše oblik odnosa dve varijable.Linearni odnos dve varijable postoji ako je prava linija provučena kroz sredinu tačaka na dijagramu rasturanja najprihvatljivija za date opservacije. Koeficijent korelacije je mera bliskosti tačaka i prave linije
Pearsonov koeficijent linearne korelacije
SDxy – kovarijansa, SDx i SDy – standardne devijacije varijabl x i y
Testiranje hipoteze da li postoji povezanost dve varijable:H0: ρ = 0, H1: ρ ≠ 0
Nulta hipotezu testira se t-testom:
za broj stepena slobode DF = n – 2
yx
xy
SDSDSD
r =
yxnxy
SDxy −= ∑ 22
xnx
SDx −= ∑ 22
yny
SDy −= ∑
212
rnrt−−
=
•Bezdimenzionalna veličina tj. nema jedinicu mere.•Vrednosti koeficijenta linearne korelacije kreću se uopsegu od –1 do 1.
•U procesu izračunavanja varijable označene kao x i y mogu zamenitimesta bez uticaja na konačnu vrednost koeficijenta korelacije.
•Smer povezanosti:•Vrednosti od 0 do 1 ukazuju na pozitivnu povezanost. Porast jedne varijable praćen je porastom druge varijable.•Vrednosti od –1 do 0 ukazuju na negativnu povezanost. Porast jedne varijable praćen je padom druge varijable.
•r2 – koeficijent determinacije. Predstavlja proporciju zajedničkog varijabiliteta dve varijable
Osobine Pearsonovog koeficijenta linearnekorelacije
Koeficijent Jačina povezanosti (interpretacija je ista i zanegativne korelacije vrednosti koeficijenta korelacije)
≥0.70 Jaka povezanost0.30 – 0.69 Osrednja povezanost<0.30 Slaba povezanostOko 0.0 Nema linearne povezanosti (ne isključuje
postojanje nelinearnog oblika povezanosti)
Interpretacija Pearsonovog koeficijentalinearne korelacije
Primer:Za dvanaest ispitanika muškog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina.
130351213563111404510145419160708180517155556185735150754170713165592125391
Sistolna TA
StarostID
Dijagram rasturanja starosti i sistolne tenzije
80
100
120
140
160
180
200
30 40 50 60 70 80Starost (godine)
Sist
olna
TA
(mm
Hg)
105640286250404231840677Σ
455016900122513035850518225396913563630019600202514045594521025168114541
1120025600490016070918032400260118051852524025302515555
135053422553291857311250225005625150751207028900504117071
973527225348116559487515625152112539
x·yy2x2yx
4.5612677
=== ∑n
xxv 3.153
121840
=== ∑n
yyv
Postoji statistički značajna pozitivna osrednja povezanost starosti i sistolne TA (r = 0.605, t = 2.4, DF =10, p ≤ 0.05).Koeficijent determinacije = 0.366
6.134.561240423 22
2
=−=−= ∑ xnx
SDxv
5.183.15312
286250 222
=−=−= ∑ yny
SDyv
78.1523.1534.5612
105640=⋅−=−= ∑ yx
nxy
SDxyvv
605.05.186.13
78.152=
⋅==
yx
xy
SDSDSD
r
404.2605.01212605.0 2 =−
−=t
Model jednostruke (proste) linearne regresije
Regresiona jednačina
bxay +=ˆočekivana vrednost zavisne varijable (ishodna varijabla)
nezavisna varijabla, eksplanator, prediktor
odsečak na ordinati (konstanta). Odgovara prosečnoj ocenjenoj vrednosti zavisne varijable kada je vrednost nezavisne varijablejednaka nuli.
nagib u regresionom modelu. Odgovara prosečnoj promeni očekivane vrednosti zavisne varijable za jediničnu promenu nezavisne varijable.
a, b – regresioni koeficijenti
b
axy
Regresiona linija
a a
Δy
Δx
b = Δy / Δx
xx
y y
bxay +=ˆ
Metod najmanjih kvadrata
a, b su određeni metodom najmanjih kvadrata na taj način da je suma kvadrata vertikalnih odsupanja tačaka od linije regresije najmanja
x
y
Ocena nagiba u regresionom modelu:
Ocena konstante u regresionom modelu:
2x
xy
SDSD
b =
xbya vv −=
Ocena regresionih koeficijenata
Regresiona jednačina:
bxay +=
Pretpostavke za primenu regresionog modela
•Odnos varijabli mora biti linearan•Podaci su numerički ili ordinalni•Opservacije su nezavisne (jedna opservacija po jedinici analize)•Raspodela skorova Y varijable bi trebala da bude normalna za sve vrednosti X varijable•Varijabilitet skorova Y varijable bi trebao da bude konstantan za sve vrednosti X varijable
Evaluacija regresionog modela
Tabela analize varijanseTotalni varijabilitet zavisne (Y) varijable je podeljen na komponente:•Varijabilitet objašnjen regresijom•Rezidualni (neobjašnjeni) varijabilitet
R2 – Proporcija varijanse zavisne varijable koja je objašnjena nezavisnom varijablom
Standardna greška regresije
Predikcija pomoću regresionog modela –interpolacija i ekstrapolacija
Interpolacija – predviđanje unutar opsega varijable xEkstrapolacija – predviđanje van opsega varijable x
Položaj regresione linije može se odrediti izračunavanjem vrednosti zavisne varijable za dve proizvoljno uzete vrednosti nezavisne varijable
Ocena nagiba u regresionom modelu:
Ocena konstante u regresionom modelu:
823.074.18578.152
2 ===x
xy
SDSD
b
93.10642.56823.03.153 =⋅−=−= xbya vv
Ocena regresionih koeficijenata
Regresiona jednačina:
xbxay ⋅+=+= 823.093.106
Prognozirana vrednost sistolne TA za starost od 77 godina iznosi:
3.17077823.093.106 =⋅+=+= bxay
80
100
120
140
160
180
200
30 40 50 60 70 80
Starost (godine)
Sis
toln
a TA
(mm
Hg
Druge mere povezanosti
Spearman ρ (rs) – Koeficijent korelacije za podatke saordinalne skale merenja. Neparametarski koeficijent korelacije.
Point-biserial koeficijent korelacije – Korelacija podataka saintervalne (ili omerne) skale merenja i dihotomnih podataka.
Phi koeficijent – Mera povezanosti kada su podaci obevarijable dihotomni.
Neparametarski metod za ocenu jačine povezanosti koji se primenjuje kada:•Podaci za najmanje jednu varijablu dati su u vidu ordinalnih podataka ili rangova•Najmanje jedna varijabla nema normalnu raspodelu•Odnos između varijabli nije linearan
Spearmanov koeficijent korelacije rangova
•Dodeliti rang vrednostima x varijable vodeći računa da rangiranje počne od najmanjeg do najvećeg podatka u rastućem nizu ili obrnuto. Podacima sa istim vrednostima obeležja dodeljuje se tzv. vezani rang (prosečna vrednost rangova koji pripadaju tim podacima)•Isto to učiniti i sa varijablom y•Izračunati vrednosti koeficijenta korelacije rangova pomoću formule:
Izračunavanje Spearmanovog koeficijentakorelacije rangova
( )16
1 2
2
−−= ∑
nnd
r iS
d – razlika rangova, n – broj jedinica analize
Spearmanov koeficijent korelacije rangovaTestiranje hipoteze da li postoji povezanost dve varijable
Hipoteze: H0: ρ = 0, H1: ρ ≠ 0
Ako je broj jedinica analize ≥ 10 nulta hipotezu se testira t-testom za broj stepena slobode DF = n – 2:
212
SS r
nrt−−
=
Ako je broj jedinica analize ≤ 9, empirijske vrednosti testa se upoređuju sa kritičnim tabličnim vrednostima za odgovarajući broj parova podataka i nivo značajnosti
Primer: Za deset bolesnika date su skorovi na Hamiltonovoj skali depresivnosti i vrednosti sistolne arterijske tenzije. Da li postojipovezanost depresije i sistolne arterijske tenzije? Testirati za nivoznačajnosti 0.05.
35
9.57137
9.537
Rx
16.516.018.015.514.016.517.015.014.518.5
Sistolna TA (kPa)
6.55941
6.5832
10
Ry
87.00Σ
12.25190.00200.25269.00230.0017
12.25191.0023
42.25261.00199.0023
d2HAMD skor
( ) ( ) 473.0110100.8761
16
1 22
2
=−
⋅−=
−−= ∑
nnd
r iS
518.1473.01210473.0
12
22 =−
−=
−−
=S
S rnrt
Vrednost koeficijenta korelacije rangova je:
Testiranje nulte hipoteze t-testom:
Ne postoji statistički značajna povezanost između skorova na HAMD i sistolne TA (rS = 0.473, t = 1.52, DF =8, p > 0.05).
Primer: Za 10 trudnica data je telesna masa na pocetku trudnoće i telesna masa novorođenčadi. Da li postoji povezanost ova dva obeležja? Testirati za nivo značajnosti 0.05.
72.251.5280010705
2.574971
2.57
Rx
3000
29003700320036003100280033003400
tm novorođenčeta
4
310695
1.578
Ry
112.00Σ
4.0062
0.25594.00631.00601.00679.00630.2557
12.25590.0063
d2tm napocetkutrudnoće
( ) ( ) 321.011010
112611
61 22
2
=−
⋅−=
−−= ∑
nnd
r iS
959.0321.01210321.0
12
22 =−
−=
−−
=S
S rnrt
Vrednost koeficijenta korelacije rangova je:
Testiranje nulte hipoteze t-testom:
Ne postoji statistički značajna povezanost telesne mase trudnicana početku trudnoće i telesne mase novorođenčadi (rS = 0.32, t=0.96, DF =8, p > 0.05).