27
Regresija i korelacija Goran Trajković novembar, 2010. godine

Korelacija i Regresija

Embed Size (px)

Citation preview

Page 1: Korelacija i Regresija

Regresija i korelacija

Goran Trajković

novembar, 2010. godine

Page 2: Korelacija i Regresija

Regresija i korelacija

Regresijom i korelacijom analizira se povezanost (asocijacija, odnos) dve ili više varijabli

Korelacija podrazumeva analizu jačine i smera povezanosti

Regresija podrazumeva analizu oblika i smera povezanosti i analizuu smislu nezavisnih/zavisnih (prediktor/ishod) varijabli sa ciljem predikcije. U regresionom modelu poznavanje vrednosti nezavisnih varijabli omogućava predikciju vrednosti zavisnih varijabli.Uopšte uzev, kad god postoji značajna korelacije između dve varijable može se vrednost jedne varijable iskoristiti za predikciju vrednosti druge varijable

Page 3: Korelacija i Regresija

Karakteristike povezanostiSmer povezanosti•Pozitivan•Negativan

Jačina povezanosti•Deterministička (funkcionalna) povezanost•Stohastička (statistička) povezanost

Oblik povezanosti•Linearan•Nelinearan

Zavisno od broja varijabli:•Jednostruka (prosta) povezanost•Višestruka (multipla) povezanost

Za sva obeležja, čiji se odnos analizira metodama regresije i korelacije, treba simultano posedovati podatke sa istih statističkih jedinica

Page 4: Korelacija i Regresija

Dijagram rasturanjaPozitivna linearna

povezanost(r = 0.65)

Negativna linearna povezanost(r = -0,68)

Nemapovezanosti

(r = 0.00)

Krivolinijskapovezanost

Svaka tačka na dijagramu rasturanja predstavlja par podataka sa jedne statističke jedinice.Dijagram rasturanja sugeriše oblik odnosa dve varijable.Linearni odnos dve varijable postoji ako je prava linija provučena kroz sredinu tačaka na dijagramu rasturanja najprihvatljivija za date opservacije. Koeficijent korelacije je mera bliskosti tačaka i prave linije

Page 5: Korelacija i Regresija

Pearsonov koeficijent linearne korelacije

SDxy – kovarijansa, SDx i SDy – standardne devijacije varijabl x i y

Testiranje hipoteze da li postoji povezanost dve varijable:H0: ρ = 0, H1: ρ ≠ 0

Nulta hipotezu testira se t-testom:

za broj stepena slobode DF = n – 2

yx

xy

SDSDSD

r =

yxnxy

SDxy −= ∑ 22

xnx

SDx −= ∑ 22

yny

SDy −= ∑

212

rnrt−−

=

Page 6: Korelacija i Regresija

•Bezdimenzionalna veličina tj. nema jedinicu mere.•Vrednosti koeficijenta linearne korelacije kreću se uopsegu od –1 do 1.

•U procesu izračunavanja varijable označene kao x i y mogu zamenitimesta bez uticaja na konačnu vrednost koeficijenta korelacije.

•Smer povezanosti:•Vrednosti od 0 do 1 ukazuju na pozitivnu povezanost. Porast jedne varijable praćen je porastom druge varijable.•Vrednosti od –1 do 0 ukazuju na negativnu povezanost. Porast jedne varijable praćen je padom druge varijable.

•r2 – koeficijent determinacije. Predstavlja proporciju zajedničkog varijabiliteta dve varijable

Osobine Pearsonovog koeficijenta linearnekorelacije

Page 7: Korelacija i Regresija

Koeficijent Jačina povezanosti (interpretacija je ista i zanegativne korelacije vrednosti koeficijenta korelacije)

≥0.70 Jaka povezanost0.30 – 0.69 Osrednja povezanost<0.30 Slaba povezanostOko 0.0 Nema linearne povezanosti (ne isključuje

postojanje nelinearnog oblika povezanosti)

Interpretacija Pearsonovog koeficijentalinearne korelacije

Page 8: Korelacija i Regresija

Primer:Za dvanaest ispitanika muškog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina.

130351213563111404510145419160708180517155556185735150754170713165592125391

Sistolna TA

StarostID

Dijagram rasturanja starosti i sistolne tenzije

80

100

120

140

160

180

200

30 40 50 60 70 80Starost (godine)

Sist

olna

TA

(mm

Hg)

Page 9: Korelacija i Regresija

105640286250404231840677Σ

455016900122513035850518225396913563630019600202514045594521025168114541

1120025600490016070918032400260118051852524025302515555

135053422553291857311250225005625150751207028900504117071

973527225348116559487515625152112539

x·yy2x2yx

4.5612677

=== ∑n

xxv 3.153

121840

=== ∑n

yyv

Page 10: Korelacija i Regresija

Postoji statistički značajna pozitivna osrednja povezanost starosti i sistolne TA (r = 0.605, t = 2.4, DF =10, p ≤ 0.05).Koeficijent determinacije = 0.366

6.134.561240423 22

2

=−=−= ∑ xnx

SDxv

5.183.15312

286250 222

=−=−= ∑ yny

SDyv

78.1523.1534.5612

105640=⋅−=−= ∑ yx

nxy

SDxyvv

605.05.186.13

78.152=

⋅==

yx

xy

SDSDSD

r

404.2605.01212605.0 2 =−

−=t

Page 11: Korelacija i Regresija

Model jednostruke (proste) linearne regresije

Regresiona jednačina

bxay +=ˆočekivana vrednost zavisne varijable (ishodna varijabla)

nezavisna varijabla, eksplanator, prediktor

odsečak na ordinati (konstanta). Odgovara prosečnoj ocenjenoj vrednosti zavisne varijable kada je vrednost nezavisne varijablejednaka nuli.

nagib u regresionom modelu. Odgovara prosečnoj promeni očekivane vrednosti zavisne varijable za jediničnu promenu nezavisne varijable.

a, b – regresioni koeficijenti

b

axy

Page 12: Korelacija i Regresija

Regresiona linija

a a

Δy

Δx

b = Δy / Δx

xx

y y

bxay +=ˆ

Page 13: Korelacija i Regresija

Metod najmanjih kvadrata

a, b su određeni metodom najmanjih kvadrata na taj način da je suma kvadrata vertikalnih odsupanja tačaka od linije regresije najmanja

x

y

Page 14: Korelacija i Regresija

Ocena nagiba u regresionom modelu:

Ocena konstante u regresionom modelu:

2x

xy

SDSD

b =

xbya vv −=

Ocena regresionih koeficijenata

Regresiona jednačina:

bxay +=

Page 15: Korelacija i Regresija

Pretpostavke za primenu regresionog modela

•Odnos varijabli mora biti linearan•Podaci su numerički ili ordinalni•Opservacije su nezavisne (jedna opservacija po jedinici analize)•Raspodela skorova Y varijable bi trebala da bude normalna za sve vrednosti X varijable•Varijabilitet skorova Y varijable bi trebao da bude konstantan za sve vrednosti X varijable

Page 16: Korelacija i Regresija

Evaluacija regresionog modela

Tabela analize varijanseTotalni varijabilitet zavisne (Y) varijable je podeljen na komponente:•Varijabilitet objašnjen regresijom•Rezidualni (neobjašnjeni) varijabilitet

R2 – Proporcija varijanse zavisne varijable koja je objašnjena nezavisnom varijablom

Standardna greška regresije

Page 17: Korelacija i Regresija

Predikcija pomoću regresionog modela –interpolacija i ekstrapolacija

Interpolacija – predviđanje unutar opsega varijable xEkstrapolacija – predviđanje van opsega varijable x

Položaj regresione linije može se odrediti izračunavanjem vrednosti zavisne varijable za dve proizvoljno uzete vrednosti nezavisne varijable

Page 18: Korelacija i Regresija

Ocena nagiba u regresionom modelu:

Ocena konstante u regresionom modelu:

823.074.18578.152

2 ===x

xy

SDSD

b

93.10642.56823.03.153 =⋅−=−= xbya vv

Ocena regresionih koeficijenata

Regresiona jednačina:

xbxay ⋅+=+= 823.093.106

Page 19: Korelacija i Regresija

Prognozirana vrednost sistolne TA za starost od 77 godina iznosi:

3.17077823.093.106 =⋅+=+= bxay

80

100

120

140

160

180

200

30 40 50 60 70 80

Starost (godine)

Sis

toln

a TA

(mm

Hg

Page 20: Korelacija i Regresija

Druge mere povezanosti

Spearman ρ (rs) – Koeficijent korelacije za podatke saordinalne skale merenja. Neparametarski koeficijent korelacije.

Point-biserial koeficijent korelacije – Korelacija podataka saintervalne (ili omerne) skale merenja i dihotomnih podataka.

Phi koeficijent – Mera povezanosti kada su podaci obevarijable dihotomni.

Page 21: Korelacija i Regresija

Neparametarski metod za ocenu jačine povezanosti koji se primenjuje kada:•Podaci za najmanje jednu varijablu dati su u vidu ordinalnih podataka ili rangova•Najmanje jedna varijabla nema normalnu raspodelu•Odnos između varijabli nije linearan

Spearmanov koeficijent korelacije rangova

Page 22: Korelacija i Regresija

•Dodeliti rang vrednostima x varijable vodeći računa da rangiranje počne od najmanjeg do najvećeg podatka u rastućem nizu ili obrnuto. Podacima sa istim vrednostima obeležja dodeljuje se tzv. vezani rang (prosečna vrednost rangova koji pripadaju tim podacima)•Isto to učiniti i sa varijablom y•Izračunati vrednosti koeficijenta korelacije rangova pomoću formule:

Izračunavanje Spearmanovog koeficijentakorelacije rangova

( )16

1 2

2

−−= ∑

nnd

r iS

d – razlika rangova, n – broj jedinica analize

Page 23: Korelacija i Regresija

Spearmanov koeficijent korelacije rangovaTestiranje hipoteze da li postoji povezanost dve varijable

Hipoteze: H0: ρ = 0, H1: ρ ≠ 0

Ako je broj jedinica analize ≥ 10 nulta hipotezu se testira t-testom za broj stepena slobode DF = n – 2:

212

SS r

nrt−−

=

Ako je broj jedinica analize ≤ 9, empirijske vrednosti testa se upoređuju sa kritičnim tabličnim vrednostima za odgovarajući broj parova podataka i nivo značajnosti

Page 24: Korelacija i Regresija

Primer: Za deset bolesnika date su skorovi na Hamiltonovoj skali depresivnosti i vrednosti sistolne arterijske tenzije. Da li postojipovezanost depresije i sistolne arterijske tenzije? Testirati za nivoznačajnosti 0.05.

35

9.57137

9.537

Rx

16.516.018.015.514.016.517.015.014.518.5

Sistolna TA (kPa)

6.55941

6.5832

10

Ry

87.00Σ

12.25190.00200.25269.00230.0017

12.25191.0023

42.25261.00199.0023

d2HAMD skor

Page 25: Korelacija i Regresija

( ) ( ) 473.0110100.8761

16

1 22

2

=−

⋅−=

−−= ∑

nnd

r iS

518.1473.01210473.0

12

22 =−

−=

−−

=S

S rnrt

Vrednost koeficijenta korelacije rangova je:

Testiranje nulte hipoteze t-testom:

Ne postoji statistički značajna povezanost između skorova na HAMD i sistolne TA (rS = 0.473, t = 1.52, DF =8, p > 0.05).

Page 26: Korelacija i Regresija

Primer: Za 10 trudnica data je telesna masa na pocetku trudnoće i telesna masa novorođenčadi. Da li postoji povezanost ova dva obeležja? Testirati za nivo značajnosti 0.05.

72.251.5280010705

2.574971

2.57

Rx

3000

29003700320036003100280033003400

tm novorođenčeta

4

310695

1.578

Ry

112.00Σ

4.0062

0.25594.00631.00601.00679.00630.2557

12.25590.0063

d2tm napocetkutrudnoće

Page 27: Korelacija i Regresija

( ) ( ) 321.011010

112611

61 22

2

=−

⋅−=

−−= ∑

nnd

r iS

959.0321.01210321.0

12

22 =−

−=

−−

=S

S rnrt

Vrednost koeficijenta korelacije rangova je:

Testiranje nulte hipoteze t-testom:

Ne postoji statistički značajna povezanost telesne mase trudnicana početku trudnoće i telesne mase novorođenčadi (rS = 0.32, t=0.96, DF =8, p > 0.05).