Upload
others
View
14
Download
1
Embed Size (px)
Citation preview
OSNOVE STATISTIKEOSNOVE STATISTIKE2.del
FKKT‐kemijski tehnologi 1 letnikFKKT‐kemijski tehnologi 1.letnik
20102010
Miran Černe
MERE LINEARNE ODVISNOSTIMERE LINEARNE ODVISNOSTI
Za intervalni statistični spremenljivki bomo vpeljali mere njune linearne odvisnosti.p j j
• KOVARIANCA: Naj bosta X in Y intervalnistatistični spremenljivki na isti statistični množicistatistični spremenljivki na isti statistični množiciz N elementi. Spremenljika X naj ima vrednosti
l kx1,x2,...,xN in spremenljivka Y naj ima vrednostiy1,y2,...,yN. Naj bosta in njuni povprečnix y1 2 Nvrednosti.
y
Tedaj se njuna kovarianca glasi:
COV(X Y) =( )( )
N
j jx x y y− −∑COV(X,Y) = 1j j
N
∑
Zakaj je to mera linearne odvisnosti statističnih spremenljivk X in Y ?spremenljivk X in Y ?
Če sta X in Y močno linearno odvisni spremenljivki, b k d bt.j. Y ≈ a X + b , potem za njuno kovarianco dobimo
vrednosted ost
a σ2(X)( )
• Če sta X in Y močno pozitivno linearno odvisni (a>0) je njuna kovarianca “močno” pozitivna(a>0), je njuna kovarianca močno pozitivna.
‐ko je xj‐ pozitivno število, je tudi yj‐ pozitivno št il i t “ lik ” iti ih št il j “ č ”
x yštevilo in vsota “veliko” pozitivnih števil je “močno” pozitivna.Č č l d• Če sta X in Y močno negativno linearno odvisni (a<0), je njuna kovarianca “močno” negativna.
‐ko je xj‐ negativno število , je tudi yj‐ negativno število in vsota “veliko” negativnih števil je “močno”
yx
negativna.• Če pa X in Y nista linearno odvisni, se zdi, da se členi v vsoti za kovarianco odštevajo in vsota je “bližje” 0, kot v prejšnjih primerih.
Zgled: Izračunajmo kovarianco za množici podatkov:
X) 1,475616 2,023828 3,838456 4,611971 5,131717 6,335841 7,677096 8,848525 9,702592 10,91907 11,08242 12,09369 13,92795 14,5224 15,78299 16,71286 17,05027 17,37885 19,65718 20,70894 , , , , ,21,12557 22,00823 23,95943 24,74859 25,84091 26,77276 27,38948 28,90513 29,33939 30,458526,77276 27,38948 28,90513 29,33939 30,4585
Y) 1,517662 2,195559 3,150433 4,735985 5,82588 6 061236 7 260428 8 346499 9 340551 10 50986,061236 7,260428 8,346499 9,340551 10,5098 11,74202 12,13735 13,48112 14,93904 15,38828 16 8019 1 9 91 1 8 161 19 00 6 20 1 1216,8019 17,97917 17,85161 19,50056 20,51712 21,66606 22,71492 23,73351 24,26439 25,16746 26,51828 27,50525 28,33544 29,21302 30,72098
• V tem primeru dobimo naslednji razsevni fikgrafikon
35
Močna pozitivna linearna odvisnost
25
30
35
15
20Y
5
10
In kovarianco:
0
0 5 10 15 20 25 30 35
X
In kovarianco:
COV(X,Y) = 75,33588 (pozitivna!)
Če pa vzamemo podatke, ki imajo močno ti li d i t i fiknegativno linearno odvisnost – razsevni grafikon
oblike: Močna negativna linearna odvisnost
25
30
35
15
20
25Y
5
10
0
0 5 10 15 20 25 30 35
X
Dobimo kovarinaco: COV(X,Y)= ‐74,3718 (negativna!)
• Pri podatkih, kjer linearne odvisnosti ne ič k jpričakujemo:
100
120
Neodvisni spremenljivki
60
80
100Y
20
40
0
0 5 10 15 20 25 30 35
X
Kovarianca je COV(X,Y) = ‐11,5698
Kljub temu, da kovarianca nosi informacijo o linearni odvisnosti dveh statističnih spremenljivk pa ta informacija še zdaleč ni popolna. Namreč, p j p p ,večja vrednost kovariance še ne pomeni, da sta spremenljivki močneje linearno povezani Kotspremenljivki močneje linearno povezani. Kot zgled si lahko ogledamo dve šibko pozitivno li d i i lji kilinearno odvisni spremenljivki.
• Zgled:Šibk i i d i i lji ki
50
60
Šibko pozitivno odvisni spremenljivki
40
50
20
30Y
0
10
0 5 10 15 20 25 30 35
Kovarianca je COV(X,Y)= 86,6734
X
j ( , ) ,
Taki primeri povedo, da moramo spremenljivki Čustrezno normalizirazi. Če imata spremenljivki sami
veliko varianco, le ta vpliva na velikost njune kovariance. Zato vpeljemo
KORELACIJSKI KOEFICIENTKORELACIJSKI KOEFICIENT
ali tudi
PEARSONOV KOEFICIENT KORELACIJE
po britanskem statistiku Karlu Pearsonu Definiran jepo britanskem statistiku Karlu Pearsonu. Definiran je
kot kvocient
ρ = COV(X,Y)/σXσY
• Vrednosti korelacijskega koeficienta so vedno med
‐1 in 1!
• Če je vrednost korelacijskega koeficienta ‐1, imataČe je vrednost korelacijskega koeficienta 1, imata spremenljivki negativno linearno odvisnost.
Č j d k l ij k k fi i 1 i• Če je vrednost korelacijskega koeficienta 1, imata spremenljivki pozitivno linearno odvisnost.
• Če je vrednost korelacijskega koeficienta 0, med spremenljivkama ni linearne odvisnostispremenljivkama ni linearne odvisnosti.
• Zgled: Za podatke, ki smo jih že srečali
)X) 1,475616 2,023828 3,838456 4,611971 5,131717 6,335841 7,677096 8,848525 9,702592 10,91907 11,08242 12,09369 13,92795 14,5224 15,78299 16,71286 17,05027 17,37885 19,65718 20,70894 21,12557 22,00823 23,95943 24,74859 25,84091 26,77276 27,38948 28,90513 29,33939 30,4585 , , , , ,
Y) 1,517662 2,195559 3,150433 4,735985 5,82588 6 061236 7 260428 8 346499 9 340551 10 50986,061236 7,260428 8,346499 9,340551 10,5098 11,74202 12,13735 13,48112 14,93904 15,38828 16 8019 17 97917 17 85161 19 50056 20 5171216,8019 17,97917 17,85161 19,50056 20,51712 21,66606 22,71492 23,73351 24,26439 25,16746 26 51828 27 50525 28 33544 29 21302 30 7209826,51828 27,50525 28,33544 29,21302 30,72098
z razsevnim grafikonom:
35
Močna pozitivna linearna odvisnost
25
30
35
15
20Y
5
10
0
0 5 10 15 20 25 30 35
X
dobimo ρ = 0,998694 (blizu 1!)
• Zgled: za podatke z razsevnim grafikonom
30
35
Močna negativna linearna odvisnost
20
25
30
10
15
Y
0
5
0 5 10 15 20 25 30 35
dobimo ρ = 0 99916 (blizu 1!)
X
dobimo ρ = ‐0,99916 (blizu ‐1!)
• Zgled: Za šibko linearno odvisne podatke dobimo:dobimo:
60
Šibko pozitivno odvisni spremenljivki
40
50
20
30Y
0
10
20
0
0 5 10 15 20 25 30 35
X
• Korelacijski koeficient je ρ = 0,762955
• Zgled: Dve neodvisni spremenljivki
120
Neodvisni spremenljivki
60
80
100
Y
20
40
60Y
0
20
0 5 10 15 20 25 30 35
X
• Korelacijski koeficient je ρ = ‐0,04712 (blizu 0!)
X
j j ρ , ( )
• Zgled:P ik d j i i ij (3 k l k ij)
100
120
Prikaz zveze med vajami in teorijo (3.kolokvij)
80
100ija
40
60
Teor
0
20
0 20 40 60 80 100 120
• Tokrat je korelacijski koeficient ρ = 0 59336
Vaje
• Tokrat je korelacijski koeficient ρ = 0,59336
• Zelo močna pozitivna linearna korelacija: ρ>0,9
• Močna pozitivna linearna korelacija: 0,7<ρ<0,9
• Srednja pozitivna linearna korelacija: 0 5<ρ<0 7• Srednja pozitivna linearna korelacija: 0,5<ρ<0,7
• Nizka pozitivna linearna korelacija: 0,3<ρ<0,5
• Ni korelacije: ‐0,3<ρ<0,3
• Nizka negativna linearna korelacija: 0 5<ρ< 0 3• Nizka negativna linearna korelacija: ‐0,5<ρ<‐0,3
• Srednja negativna linearna korelacija: ‐0,7<ρ<‐0,5
• Močna negativna linearna korelacija: ‐0,9<ρ<‐0,7
Z l č ti li k l ij < 0 9• Zelo močna negativna linearna korelacija: ρ<‐0,9
REGRESIJSKA PREMICA(LINEARNA REGRESIJA)
Č• Če za dve intervalni statistični spremenljivki X in Y slutimo oz. celo vemo, da sta nekoliko linearno odvisni, skušamo najti premico, ki dane podatke “najboljše” aproksimiradane podatke najboljše aproksimira. Odločimo se za premico
βy = α + β x,
ki podatke najboljše aproksimira v smisluki podatke najboljše aproksimira v smislu metode najmanjših kvadratov.
• Iščemo torej premico y = α + β x, oziroma iščemo k fi i t i β k t lj d j tkoeficienta α in β za katero velja, da je vsota kvadratov napak
2( )N
y xα β∑1
( )i iy xα β− −∑
minimalna! Pri tem je β REGRESIJSKI KOEFICIENTminimalna! Pri tem je β REGRESIJSKI KOEFICIENT in pove za koliko merskih enot se v povprečju spremeni vrednost Y‐a, če se vrednost X‐a poveča za eno mersko enoto.
• Kako pridemo do koeficientov α in β? Ko iščemo k t f k ij l t d bi t čk h kjekstreme funkcije, le te dobimo v točkah, kjer so odvodi enaki 0! Zato odvajamo izraz
N2( )
N
i iy xα β− −∑ljik h α i β t d blj i či
1
po spremenljikah α in β ter dobljene izraze enačimo z 0. Dobimo:
• po odvajanju na α:
2 ( ) 0N
y xα β− − =∑1
2 ( ) 0i iy xα β− − =∑
• ter po odvajanju na βN
12 ( ) 0i i iy x xα β− − =∑
Od tod dobimo: 0y xα β− − =y β2
1 1 1( ) ( ) ( ) 0
i
N N N
i i iy x x xα β− − =∑ ∑ ∑1 1 1
• Zadnjo enačbo lahko preoblikujemo. Še prej pa iti l d ji imoramo opaziti naslednji povezavi:
N N2 2
22 1 1
( )N N
i ix x x−∑ ∑2 1 1X x
N Nσ = = −
ter( )( )
N N
∑ ∑1 1
( )( )( , )
i i i ix x y y x yCOV X Y xy
N N
− −= = −∑ ∑
N N
• Od tod dobimo enačbi:
y xα β= +y β2
N N
x y x∑ ∑1 1
i i ix y xxα β= +
∑ ∑x
N Nα β+
in nato 2
( , )COV X Yβσ
=
ter Xσ
βy xα β= −
• Zgled:M č i i li d i
y = 0 998x + 0 0025
35
Močna pozitivna linearna odvisnost
y = 0,998x + 0,0025
25
30
15
20
Y
10
15
0
5
0 5 10 15 20 25 30 35
X
• Zgled:
Močna negativna linearna odvisnost
30
35
20
25
Y
y = ‐1,0015x + 31,034
10
15
0
5
0 5 10 15 20 25 30 35
X
• Zgled:Šibk i i d i i lji ki
60
Šibko pozitivno odvisni spremenljivki
40
50
y = 1,1831x + 9,990330Y
10
20
0
0 5 10 15 20 25 30 35
X
• Zgled:
120
Neodvisni spremenljivki
100
0
60
80
Y
y = ‐0,1547x + 63,842
40
60
0
20
0
0 5 10 15 20 25 30 35
X
• Zgled:
120
Prikaz zveze med vajami in teorijo
100
60
80
orija
y = 0,5744x + 2,8084
40
60
Teo
20
0
0 20 40 60 80 100 120
Vaje
• Zgled: Korelaciijski koeficient je 0.
250
Kvadratična odvisnost
200
150
Y
y = 82 667
100
y = 82,667
50
0
‐20 ‐15 ‐10 ‐5 0 5 10 15 20
X
Oglejmo si še zadnjega od glavnih statističnih koeficientov povezanih z linearno odvisnostjokoeficientov, povezanih z linearno odvisnostjo dveh statističnih spremenljivk oz. linearno regresijo To jeregresijo. To je
DETERMINACIJSKI KOEFICIENT ρ2, katerega vrednost izračunamo kot kvadrat korelacijskega koeficienta ρ.Ykorelacijskega koeficienta ρ.
Pomen determinacijskega koeficienta je jb lj id i l d j
Y
najbolje razviden iz naslednje povezave:
ρ2 = Varianca( =α+βX) / Varianca(Y)Y
Vrednost determinacijskega koeficienta je t j j d i ki bi j i ltorej razmerje med varianco, ki bi jo imela spremenljivka , ki bi bila s spremenljivko XYlinearno povezana s premico, ki jo dobimo z metodo najmanjših kvadratov in variancometodo najmanjših kvadratov, in varianco spremenljivke Y. Determinacijski koeficient torej pove kolikšen delež celotne variancetorej pove kolikšen delež celotne variance spremenljivke Y je pojasnjen z regresijsko premico. Ker je kvadrat korelacijskega koeficienta, nam, seveda, tudi nekaj pove o linearni odvisnosti spremenljivk X in Y.
Izpeljimo povezavo med determinacijskim k fi i t i i i i YYkoeficientom in variancami in Y:
1. Najprej izračunajmo aritmetično sredino Y
jp j jspremenljivke . To jeY
N N
1 1( )
N N
iiy xx y
α βα β
+= = = + =∑ ∑
y
P i d j č j bili d
yN N
βy
Pri zadnjem enačaju smo uporabili eno od dveh enačb, ki določata koeficienta α in β.
Povprečji sta torej enaki!
2. Sedaj izračunamo varianco . Vemo:YN N2 2
2 22 1 1( )
N N
iiy xy y
α βσ
+∑ ∑1 1
Yy y
N Nσ = − = − =
N2
22 2 12
N
ixβ β
∑2 2 12 x y
Nα αβ β= + + − =
Upoštevajmo še in dobimoy xα β= +N
2222 2 21
2
( , )( )
N
i
X
xCOV X Yx
Nβ β σ= − = =∑
2( ) XXN
β βσ
Pri tem smo upoštevali še drugo formulo, ki d j k fi i t i βnam podaja koeficienta α in β:
( )COV X Y2
( , )
X
COV X Yβσ
=
Torej imamo:22
2 ( , ) YCOV X Y σρ = =j
2 2 2X Y Y
ρσ σ σ
= =
In to smo želeli pokazati.In to smo želeli pokazati.
Za konec si oglejmo še nekaj zgledov.
Zgled:Zgled:
y = x
25
Popolna linearna odvisnost
y xR² = 1
20
10
15
Y
5
10
0
0 5 10 15 20 25
X
• Zgled:
25
Napaka v merjenju ?
y = 0,7286x + 3,8R² = 0,5456
20
15
Y
5
10
0
0 5 10 15 20 250 5 10 15 20 25
X
• Zgled:
500
Koeficienti niso vse!
y = 21x ‐ 77
400
y 21x 77R² = 0,9435
300
100
200Y
0
100
0 5 10 15 20 25
‐100
0 5 10 15 20 25
X