Beskrivande statistik för två beroende slumpvariabler

Preview:

DESCRIPTION

Beskrivande statistik för två beroende slumpvariabler. Vi har som ex observerat X = antal kvadrat-meter och Y = hyrans storlek på 20 lägenheter. För att illustrera hur dessa två variabler hör ihop ritar vi ett spridningsdiagram (scatter plot). - PowerPoint PPT Presentation

Citation preview

1

Beskrivande statistik för två beroende slumpvariabler

Vi har som ex observerat X = antal kvadrat-meter och Y = hyrans storlek på 20 lägenheter.

För att illustrera hur dessa två variabler hör ihop ritar vi ett spridningsdiagram (scatter plot)

12011010090807060504030

7000

6000

5000

4000

3000

2000

Kv-meter

Hyr

a

2

I grafen ser vi ett positivt beroende mellan

variablerna. Stora värden på x medför stora värden på y.

Ex på samband• Antal rum ----- yta på lägenhet• Utbildningsnivå ----- lönenivå• Hastighet ----- bromssträcka• Valreseultat ----- antal pos löften• Tillgång till vaccin ----- antal sjuka• Befolkningstäthet ----- brottslighet • Attityd ------ kön• Blodtryck ----- ålder • Höjd över havet ----- temperatur

3

Anta att vi har n observationer på två s.v. X och Y. Skrivs

Med hjälp av dessa n observationer kan vi beräkna sen sk korrelations-koefficienten r som är ett mått på hur starkt två variabler hänger ihop.

-1<r<1

nn yxyxyx ,,,,,, 2211

n

y

n

x

n

yx

yx

xy

yyxx

yyxxr

2222

22

4

Ex: 10 obs på flickors

x = vikt, y = längd

x 63 52 72 57 63 54 49 57 61 51

y 165 161 170 163 169 164 161 161 165 162

757065605550

170

168

166

164

162

160

vikt

längd

Scatterplot of längd vs vikt

5

Vi räknar ut r

95194162511615216563 xy

1641162161165

579515263

y

x

269383162161165

339635152632222

2222

y

x

882,026938333963

95194

101641

10579

101641579

22

r

6

Korrelationskoefficienten har egentligen

sammansättningen

Måttet på beroende ligger alltså i täljaren och så standardiserar vi med stickprovsstandardavvikelserna för x och y för att få ett tal som är lättolkat.

Det finns en teoretisk korrelation mellan slumpvariabler som vi kallar (rå), men först

yx

nyyxx

ssyyxx

yyxxr

1

22

7

Vi sammanställer

Datamaterial

Medelvärde

Stickprovsvarians

Stickprovsstandaravvikelse s

Korrelationskoefficient r

Teori

Väntevärde E[X]

Varians Var[X]

Standardavvikelse

Korrelation

x2s

][XVar

8

Kap4,4 Teoretisk korrelation

yx

nyyxx

ssyyxx

yyxxr

1

22

][][

],[

YVarXVar

YXKov

11

9

läses; Kovariansen mellan

slumpvariablerna X och Y.

Kovariansen mäter det linjära beroendet mellan X och Y.

Den standardiserade kovariansen är korrelationen Kovariansen beräknas via

där

],[ YXKov

][][][],[ YEXEYXEYXKov

),(][ yxxypYXE

10

Vi tittar återigen på ex med lägenheterna X = antal rum i en lägenhet

X och Y är beroende, dvs de är relaterade till varann

50m ytan om 0

50m ytan om 12

2

Y

X

1 2 3 p(y)

0

Y

1

0,45 0,05 0

0,05 0,25 0,20

0,50

0,50

p(x) 0,50 0,30 0,20 1,00

11

Detta värde är svårtolkat. Är 0,3 stort eller litet?

7,12,033,025,01)(][ xxpXE

5,05,015,00)(][ yypYE

15,120,01325,01205,011

00305,00245,001),(][

yxxypXYE

3,05,07,115,1],[ YXKov

12

Beräkna

Detta är enklare att förstå. Vi har ganska stark positiv korrelation.

][][

],[

YVarXVar

YXKov

22 ][][][ XEXEXVar

5,32,033,025,01][ 2222 XE

61,07,15,3][ 2 XVar

5,05,015,00][ 222 YE

25,05,05,0][ 2 YVar

768,025,061,0

3,0

13

Kap 4,5

En linjär kombination mellan två slumpvariabler ser ut som

där a,b,c är konstanter

Vi ska främst studera specialfallet X+Y och summan av n st s.v.

Först tittar vi på hur man kan finna sannolikhetsfördelningen för X+Y via ett ex

cbYaX

14

Vid ett lotteri kan en lott ge vinst på 0, 20 och 100kr. Låt

oss dra två lotter. Vinstchansen är lika vid de båda dragningarna

X= vinsten på 1:a lotten

Y= vinsten på 2:a lotten X och Y är oberoende

X

0 20 100 p(y)

0

Y 20

100

0,5625 0,18 0,0075

0,18 0,0576 0,0024

0,0075 0,0024 0,0001

0,75

0,24

0,01

p(x) 0,75 0,24 0,01 1,00

15

Bestäm sannolikhetsfördelningen för totala vinsten

S=X+Y= totala vinsten på två lotter

ex

p(20)=0,18+0,18

p(120)=0,0024+0,0024

s 0 20 40 100 120 200

p(s) 0,5625 0,36 0,0576 0,015 0,0048 0,0001

16

Anta nu lite mer allmänt att vi har n st s.v. som vill

tar summan på.

Om dessa n s.v. är oberoende så gäller

Där

in XXXXS 21

2][

][

nSVar

nSE

ni

XVar

XE

i

i

,,2,1

][

][2

Recommended