Upload
margo
View
35
Download
3
Embed Size (px)
DESCRIPTION
Beskrivande statistik för två beroende slumpvariabler. Vi har som ex observerat X = antal kvadrat-meter och Y = hyrans storlek på 20 lägenheter. För att illustrera hur dessa två variabler hör ihop ritar vi ett spridningsdiagram (scatter plot). - PowerPoint PPT Presentation
Citation preview
1
Beskrivande statistik för två beroende slumpvariabler
Vi har som ex observerat X = antal kvadrat-meter och Y = hyrans storlek på 20 lägenheter.
För att illustrera hur dessa två variabler hör ihop ritar vi ett spridningsdiagram (scatter plot)
12011010090807060504030
7000
6000
5000
4000
3000
2000
Kv-meter
Hyr
a
2
I grafen ser vi ett positivt beroende mellan
variablerna. Stora värden på x medför stora värden på y.
Ex på samband• Antal rum ----- yta på lägenhet• Utbildningsnivå ----- lönenivå• Hastighet ----- bromssträcka• Valreseultat ----- antal pos löften• Tillgång till vaccin ----- antal sjuka• Befolkningstäthet ----- brottslighet • Attityd ------ kön• Blodtryck ----- ålder • Höjd över havet ----- temperatur
3
Anta att vi har n observationer på två s.v. X och Y. Skrivs
Med hjälp av dessa n observationer kan vi beräkna sen sk korrelations-koefficienten r som är ett mått på hur starkt två variabler hänger ihop.
-1<r<1
nn yxyxyx ,,,,,, 2211
n
y
n
x
n
yx
yx
xy
yyxx
yyxxr
2222
22
4
Ex: 10 obs på flickors
x = vikt, y = längd
x 63 52 72 57 63 54 49 57 61 51
y 165 161 170 163 169 164 161 161 165 162
757065605550
170
168
166
164
162
160
vikt
längd
Scatterplot of längd vs vikt
5
Vi räknar ut r
95194162511615216563 xy
1641162161165
579515263
y
x
269383162161165
339635152632222
2222
y
x
882,026938333963
95194
101641
10579
101641579
22
r
6
Korrelationskoefficienten har egentligen
sammansättningen
Måttet på beroende ligger alltså i täljaren och så standardiserar vi med stickprovsstandardavvikelserna för x och y för att få ett tal som är lättolkat.
Det finns en teoretisk korrelation mellan slumpvariabler som vi kallar (rå), men först
yx
nyyxx
ssyyxx
yyxxr
1
22
7
Vi sammanställer
Datamaterial
Medelvärde
Stickprovsvarians
Stickprovsstandaravvikelse s
Korrelationskoefficient r
Teori
Väntevärde E[X]
Varians Var[X]
Standardavvikelse
Korrelation
x2s
][XVar
9
läses; Kovariansen mellan
slumpvariablerna X och Y.
Kovariansen mäter det linjära beroendet mellan X och Y.
Den standardiserade kovariansen är korrelationen Kovariansen beräknas via
där
],[ YXKov
][][][],[ YEXEYXEYXKov
),(][ yxxypYXE
10
Vi tittar återigen på ex med lägenheterna X = antal rum i en lägenhet
X och Y är beroende, dvs de är relaterade till varann
50m ytan om 0
50m ytan om 12
2
Y
X
1 2 3 p(y)
0
Y
1
0,45 0,05 0
0,05 0,25 0,20
0,50
0,50
p(x) 0,50 0,30 0,20 1,00
11
Detta värde är svårtolkat. Är 0,3 stort eller litet?
7,12,033,025,01)(][ xxpXE
5,05,015,00)(][ yypYE
15,120,01325,01205,011
00305,00245,001),(][
yxxypXYE
3,05,07,115,1],[ YXKov
12
Beräkna
Detta är enklare att förstå. Vi har ganska stark positiv korrelation.
][][
],[
YVarXVar
YXKov
22 ][][][ XEXEXVar
5,32,033,025,01][ 2222 XE
61,07,15,3][ 2 XVar
5,05,015,00][ 222 YE
25,05,05,0][ 2 YVar
768,025,061,0
3,0
13
Kap 4,5
En linjär kombination mellan två slumpvariabler ser ut som
där a,b,c är konstanter
Vi ska främst studera specialfallet X+Y och summan av n st s.v.
Först tittar vi på hur man kan finna sannolikhetsfördelningen för X+Y via ett ex
cbYaX
14
Vid ett lotteri kan en lott ge vinst på 0, 20 och 100kr. Låt
oss dra två lotter. Vinstchansen är lika vid de båda dragningarna
X= vinsten på 1:a lotten
Y= vinsten på 2:a lotten X och Y är oberoende
X
0 20 100 p(y)
0
Y 20
100
0,5625 0,18 0,0075
0,18 0,0576 0,0024
0,0075 0,0024 0,0001
0,75
0,24
0,01
p(x) 0,75 0,24 0,01 1,00
15
Bestäm sannolikhetsfördelningen för totala vinsten
S=X+Y= totala vinsten på två lotter
ex
p(20)=0,18+0,18
p(120)=0,0024+0,0024
s 0 20 40 100 120 200
p(s) 0,5625 0,36 0,0576 0,015 0,0048 0,0001