OSNOVE STATISTIKE 2 - fmf.uni-lj.sismrekar/Statistika-drugi del.pdf · OSNOVE STATISTIKE 2.del FKKTFKKT‐kemijski tehnologitehnologi 1letnik1.letnik 2010 Miran Černe

OSNOVE STATISTIKEOSNOVE STATISTIKE2.del

FKKT‐kemijski tehnologi 1 letnikFKKT‐kemijski tehnologi 1.letnik

20102010

Miran Černe

MERE LINEARNE ODVISNOSTIMERE LINEARNE ODVISNOSTI

Za intervalni statistični spremenljivki bomo vpeljali mere njune linearne odvisnosti.p j j

• KOVARIANCA: Naj bosta X in Y intervalnistatistični spremenljivki na isti statistični množicistatistični spremenljivki na isti statistični množiciz N elementi. Spremenljika X naj ima vrednosti

l kx1,x2,...,xN in spremenljivka Y naj ima vrednostiy1,y2,...,yN. Naj bosta in njuni povprečnix y1 2 Nvrednosti.

y

Tedaj se njuna kovarianca glasi:

COV(X Y) =( )( )

N

j jx x y y− −∑COV(X,Y) = 1j j

N

∑

Zakaj je to mera linearne odvisnosti statističnih spremenljivk X in Y ?spremenljivk X in Y ?

Če sta X in Y močno linearno odvisni spremenljivki, b k d bt.j. Y ≈ a X + b , potem za njuno kovarianco dobimo

vrednosted ost

a σ2(X)( )

• Če sta X in Y močno pozitivno linearno odvisni (a>0) je njuna kovarianca “močno” pozitivna(a>0), je njuna kovarianca močno pozitivna.

‐ko je xj‐ pozitivno število, je tudi yj‐ pozitivno št il i t “ lik ” iti ih št il j “ č ”

x yštevilo in vsota “veliko” pozitivnih števil je “močno” pozitivna.Č č l d• Če sta X in Y močno negativno linearno odvisni (a<0), je njuna kovarianca “močno” negativna.

‐ko je xj‐ negativno število , je tudi yj‐ negativno število in vsota “veliko” negativnih števil je “močno”

yx

negativna.• Če pa X in Y nista linearno odvisni, se zdi, da se členi v vsoti za kovarianco odštevajo in vsota je “bližje” 0, kot v prejšnjih primerih.

Zgled: Izračunajmo kovarianco za množici podatkov:

X) 1,475616 2,023828 3,838456 4,611971 5,131717 6,335841 7,677096 8,848525 9,702592 10,91907 11,08242 12,09369 13,92795 14,5224 15,78299 16,71286 17,05027 17,37885 19,65718 20,70894 , , , , ,21,12557 22,00823 23,95943 24,74859 25,84091 26,77276 27,38948 28,90513 29,33939 30,458526,77276 27,38948 28,90513 29,33939 30,4585

Y) 1,517662 2,195559 3,150433 4,735985 5,82588 6 061236 7 260428 8 346499 9 340551 10 50986,061236 7,260428 8,346499 9,340551 10,5098 11,74202 12,13735 13,48112 14,93904 15,38828 16 8019 1 9 91 1 8 161 19 00 6 20 1 1216,8019 17,97917 17,85161 19,50056 20,51712 21,66606 22,71492 23,73351 24,26439 25,16746 26,51828 27,50525 28,33544 29,21302 30,72098

• V tem primeru dobimo naslednji razsevni fikgrafikon

35

Močna pozitivna linearna odvisnost

25

30

35

15

20Y

5

10

In kovarianco:

0

0 5 10 15 20 25 30 35

X

In kovarianco:

COV(X,Y) = 75,33588 (pozitivna!)

Če pa vzamemo podatke, ki imajo močno ti li d i t i fiknegativno linearno odvisnost – razsevni grafikon

oblike: Močna negativna linearna odvisnost

25

30

35

15

20

25Y

5

10

0

0 5 10 15 20 25 30 35

X

Dobimo kovarinaco: COV(X,Y)= ‐74,3718 (negativna!)

• Pri podatkih, kjer linearne odvisnosti ne ič k jpričakujemo:

100

120

Neodvisni spremenljivki

60

80

100Y

20

40

0

0 5 10 15 20 25 30 35

X

Kovarianca je COV(X,Y) = ‐11,5698

Kljub temu, da kovarianca nosi informacijo o linearni odvisnosti dveh statističnih spremenljivk pa ta informacija še zdaleč ni popolna. Namreč, p j p p ,večja vrednost kovariance še ne pomeni, da sta spremenljivki močneje linearno povezani Kotspremenljivki močneje linearno povezani. Kot zgled si lahko ogledamo dve šibko pozitivno li d i i lji kilinearno odvisni spremenljivki.

• Zgled:Šibk i i d i i lji ki

50

60

Šibko pozitivno odvisni spremenljivki

40

50

20

30Y

0

10

0 5 10 15 20 25 30 35

Kovarianca je COV(X,Y)= 86,6734

X

j ( , ) ,

Taki primeri povedo, da moramo spremenljivki Čustrezno normalizirazi. Če imata spremenljivki sami

veliko varianco, le ta vpliva na velikost njune kovariance. Zato vpeljemo

KORELACIJSKI KOEFICIENTKORELACIJSKI KOEFICIENT

ali tudi

PEARSONOV KOEFICIENT KORELACIJE

po britanskem statistiku Karlu Pearsonu Definiran jepo britanskem statistiku Karlu Pearsonu. Definiran je

kot kvocient

ρ = COV(X,Y)/σXσY

• Vrednosti korelacijskega koeficienta so vedno med

‐1 in 1!

• Če je vrednost korelacijskega koeficienta ‐1, imataČe je vrednost korelacijskega koeficienta 1, imata spremenljivki negativno linearno odvisnost.

Č j d k l ij k k fi i 1 i• Če je vrednost korelacijskega koeficienta 1, imata spremenljivki pozitivno linearno odvisnost.

• Če je vrednost korelacijskega koeficienta 0, med spremenljivkama ni linearne odvisnostispremenljivkama ni linearne odvisnosti.

• Zgled: Za podatke, ki smo jih že srečali

)X) 1,475616 2,023828 3,838456 4,611971 5,131717 6,335841 7,677096 8,848525 9,702592 10,91907 11,08242 12,09369 13,92795 14,5224 15,78299 16,71286 17,05027 17,37885 19,65718 20,70894 21,12557 22,00823 23,95943 24,74859 25,84091 26,77276 27,38948 28,90513 29,33939 30,4585 , , , , ,

Y) 1,517662 2,195559 3,150433 4,735985 5,82588 6 061236 7 260428 8 346499 9 340551 10 50986,061236 7,260428 8,346499 9,340551 10,5098 11,74202 12,13735 13,48112 14,93904 15,38828 16 8019 17 97917 17 85161 19 50056 20 5171216,8019 17,97917 17,85161 19,50056 20,51712 21,66606 22,71492 23,73351 24,26439 25,16746 26 51828 27 50525 28 33544 29 21302 30 7209826,51828 27,50525 28,33544 29,21302 30,72098

z razsevnim grafikonom:

35


25

30

35

15

20Y

5

10

0

0 5 10 15 20 25 30 35

X

dobimo ρ = 0,998694 (blizu 1!)

• Zgled: za podatke z razsevnim grafikonom

30

35

Močna negativna linearna odvisnost

20

25

30

10

15

Y

0

5

0 5 10 15 20 25 30 35

dobimo ρ = 0 99916 (blizu 1!)

X

dobimo ρ = ‐0,99916 (blizu ‐1!)

• Zgled: Za šibko linearno odvisne podatke dobimo:dobimo:

60


40

50

20

30Y

0

10

20

0

0 5 10 15 20 25 30 35

X

• Korelacijski koeficient je ρ = 0,762955

• Zgled: Dve neodvisni spremenljivki

120


60

80

100

Y

20

40

60Y

0

20

0 5 10 15 20 25 30 35

X

• Korelacijski koeficient je ρ = ‐0,04712 (blizu 0!)

X

j j ρ , ( )

• Zgled:P ik d j i i ij (3 k l k ij)

100

120

Prikaz zveze med vajami in teorijo (3.kolokvij)

80

100ija

40

60

Teor

0

20

0 20 40 60 80 100 120

• Tokrat je korelacijski koeficient ρ = 0 59336

Vaje

• Tokrat je korelacijski koeficient ρ = 0,59336

• Zelo močna pozitivna linearna korelacija: ρ>0,9

• Močna pozitivna linearna korelacija: 0,7<ρ<0,9

• Srednja pozitivna linearna korelacija: 0 5<ρ<0 7• Srednja pozitivna linearna korelacija: 0,5<ρ<0,7

• Nizka pozitivna linearna korelacija: 0,3<ρ<0,5

• Ni korelacije: ‐0,3<ρ<0,3

• Nizka negativna linearna korelacija: 0 5<ρ< 0 3• Nizka negativna linearna korelacija: ‐0,5<ρ<‐0,3

• Srednja negativna linearna korelacija: ‐0,7<ρ<‐0,5

• Močna negativna linearna korelacija: ‐0,9<ρ<‐0,7

Z l č ti li k l ij < 0 9• Zelo močna negativna linearna korelacija: ρ<‐0,9

REGRESIJSKA PREMICA(LINEARNA REGRESIJA)

Č• Če za dve intervalni statistični spremenljivki X in Y slutimo oz. celo vemo, da sta nekoliko linearno odvisni, skušamo najti premico, ki dane podatke “najboljše” aproksimiradane podatke najboljše aproksimira. Odločimo se za premico

βy = α + β x,

ki podatke najboljše aproksimira v smisluki podatke najboljše aproksimira v smislu metode najmanjših kvadratov.

• Iščemo torej premico y = α + β x, oziroma iščemo k fi i t i β k t lj d j tkoeficienta α in β za katero velja, da je vsota kvadratov napak

2( )N

y xα β∑1

( )i iy xα β− −∑

minimalna! Pri tem je β REGRESIJSKI KOEFICIENTminimalna! Pri tem je β REGRESIJSKI KOEFICIENT in pove za koliko merskih enot se v povprečju spremeni vrednost Y‐a, če se vrednost X‐a poveča za eno mersko enoto.

• Kako pridemo do koeficientov α in β? Ko iščemo k t f k ij l t d bi t čk h kjekstreme funkcije, le te dobimo v točkah, kjer so odvodi enaki 0! Zato odvajamo izraz

N2( )

N

i iy xα β− −∑ljik h α i β t d blj i či

1

po spremenljikah α in β ter dobljene izraze enačimo z 0. Dobimo:

• po odvajanju na α:

2 ( ) 0N

y xα β− − =∑1

2 ( ) 0i iy xα β− − =∑

• ter po odvajanju na βN

12 ( ) 0i i iy x xα β− − =∑

Od tod dobimo: 0y xα β− − =y β2

1 1 1( ) ( ) ( ) 0

i

N N N

i i iy x x xα β− − =∑ ∑ ∑1 1 1

• Zadnjo enačbo lahko preoblikujemo. Še prej pa iti l d ji imoramo opaziti naslednji povezavi:

N N2 2

22 1 1

( )N N

i ix x x−∑ ∑2 1 1X x

N Nσ = = −

ter( )( )

N N

∑ ∑1 1

( )( )( , )

i i i ix x y y x yCOV X Y xy

N N

− −= = −∑ ∑

N N

• Od tod dobimo enačbi:

y xα β= +y β2

N N

x y x∑ ∑1 1

i i ix y xxα β= +

∑ ∑x

N Nα β+

in nato 2

( , )COV X Yβσ

=

ter Xσ

βy xα β= −

• Zgled:M č i i li d i

y = 0 998x + 0 0025

35


y = 0,998x + 0,0025

25

30

15

20

Y

10

15

0

5

0 5 10 15 20 25 30 35

X

• Zgled:

Močna negativna linearna odvisnost

30

35

20

25

Y

y = ‐1,0015x + 31,034

10

15

0

5

0 5 10 15 20 25 30 35

X

• Zgled:Šibk i i d i i lji ki

60


40

50

y = 1,1831x + 9,990330Y

10

20

0

0 5 10 15 20 25 30 35

X

• Zgled:

120


100

0

60

80

Y

y = ‐0,1547x + 63,842

40

60

0

20

0

0 5 10 15 20 25 30 35

X

• Zgled:

120

Prikaz zveze med vajami in teorijo

100

60

80

orija

y = 0,5744x + 2,8084

40

60

Teo

20

0

0 20 40 60 80 100 120

Vaje

• Zgled: Korelaciijski koeficient je 0.

250

Kvadratična odvisnost

200

150

Y

y = 82 667

100

y = 82,667

50

0

‐20 ‐15 ‐10 ‐5 0 5 10 15 20

X

Oglejmo si še zadnjega od glavnih statističnih koeficientov povezanih z linearno odvisnostjokoeficientov, povezanih z linearno odvisnostjo dveh statističnih spremenljivk oz. linearno regresijo To jeregresijo. To je

DETERMINACIJSKI KOEFICIENT ρ2, katerega vrednost izračunamo kot kvadrat korelacijskega koeficienta ρ.Ykorelacijskega koeficienta ρ.

Pomen determinacijskega koeficienta je jb lj id i l d j

Y

najbolje razviden iz naslednje povezave:

ρ2 = Varianca( =α+βX) / Varianca(Y)Y

Vrednost determinacijskega koeficienta je t j j d i ki bi j i ltorej razmerje med varianco, ki bi jo imela spremenljivka , ki bi bila s spremenljivko XYlinearno povezana s premico, ki jo dobimo z metodo najmanjših kvadratov in variancometodo najmanjših kvadratov, in varianco spremenljivke Y. Determinacijski koeficient torej pove kolikšen delež celotne variancetorej pove kolikšen delež celotne variance spremenljivke Y je pojasnjen z regresijsko premico. Ker je kvadrat korelacijskega koeficienta, nam, seveda, tudi nekaj pove o linearni odvisnosti spremenljivk X in Y.

Izpeljimo povezavo med determinacijskim k fi i t i i i i YYkoeficientom in variancami in Y:

1. Najprej izračunajmo aritmetično sredino Y

jp j jspremenljivke . To jeY

N N

1 1( )

N N

iiy xx y

α βα β

+= = = + =∑ ∑

y

P i d j č j bili d

yN N

βy

Pri zadnjem enačaju smo uporabili eno od dveh enačb, ki določata koeficienta α in β.

Povprečji sta torej enaki!

2. Sedaj izračunamo varianco . Vemo:YN N2 2

2 22 1 1( )

N N

iiy xy y

α βσ

+∑ ∑1 1

Yy y

N Nσ = − = − =

N2

22 2 12

N

ixβ β

∑2 2 12 x y

Nα αβ β= + + − =

Upoštevajmo še in dobimoy xα β= +N

2222 2 21

2

( , )( )

N

i

X

xCOV X Yx

Nβ β σ= − = =∑

2( ) XXN

β βσ

Pri tem smo upoštevali še drugo formulo, ki d j k fi i t i βnam podaja koeficienta α in β:

( )COV X Y2

( , )

X

COV X Yβσ

=

Torej imamo:22

2 ( , ) YCOV X Y σρ = =j

2 2 2X Y Y

ρσ σ σ

= =

In to smo želeli pokazati.In to smo želeli pokazati.

Za konec si oglejmo še nekaj zgledov.

Zgled:Zgled:

y = x

25

Popolna linearna odvisnost

y xR² = 1

20

10

15

Y

5

10

0

0 5 10 15 20 25

X

• Zgled:

25

Napaka v merjenju ?

y = 0,7286x + 3,8R² = 0,5456

20

15

Y

5

10

0

0 5 10 15 20 250 5 10 15 20 25

X

• Zgled:

500

Koeficienti niso vse!

y = 21x ‐ 77

400

y 21x 77R² = 0,9435

300

100

200Y

0

100

0 5 10 15 20 25

‐100

0 5 10 15 20 25

X

Documents

OSNOVE STATISTIKE 2 - fmf.uni-lj.sismrekar/Statistika-drugi del.pdf · OSNOVE STATISTIKE 2.del FKKTFKKT‐kemijski tehnologitehnologi 1letnik1.letnik 2010 Miran Černe