16
1 Beskrivande statistik för två beroende slumpvariabler Vi har som ex observerat X = antal kvadrat-meter och Y = hyrans storlek på 20 lägenheter. För att illustrera hur dessa två variabler hör ihop ritar vi ett spridningsdiagram (scatter plot) 120 110 100 90 80 70 60 50 40 30 7000 6000 5000 4000 3000 2000 Kv-m eter Hyra

Beskrivande statistik för två beroende slumpvariabler

  • Upload
    margo

  • View
    35

  • Download
    3

Embed Size (px)

DESCRIPTION

Beskrivande statistik för två beroende slumpvariabler. Vi har som ex observerat X = antal kvadrat-meter och Y = hyrans storlek på 20 lägenheter. För att illustrera hur dessa två variabler hör ihop ritar vi ett spridningsdiagram (scatter plot). - PowerPoint PPT Presentation

Citation preview

1

Beskrivande statistik för två beroende slumpvariabler

Vi har som ex observerat X = antal kvadrat-meter och Y = hyrans storlek på 20 lägenheter.

För att illustrera hur dessa två variabler hör ihop ritar vi ett spridningsdiagram (scatter plot)

12011010090807060504030

7000

6000

5000

4000

3000

2000

Kv-meter

Hyr

a

2

I grafen ser vi ett positivt beroende mellan

variablerna. Stora värden på x medför stora värden på y.

Ex på samband• Antal rum ----- yta på lägenhet• Utbildningsnivå ----- lönenivå• Hastighet ----- bromssträcka• Valreseultat ----- antal pos löften• Tillgång till vaccin ----- antal sjuka• Befolkningstäthet ----- brottslighet • Attityd ------ kön• Blodtryck ----- ålder • Höjd över havet ----- temperatur

3

Anta att vi har n observationer på två s.v. X och Y. Skrivs

Med hjälp av dessa n observationer kan vi beräkna sen sk korrelations-koefficienten r som är ett mått på hur starkt två variabler hänger ihop.

-1<r<1

nn yxyxyx ,,,,,, 2211

n

y

n

x

n

yx

yx

xy

yyxx

yyxxr

2222

22

4

Ex: 10 obs på flickors

x = vikt, y = längd

x 63 52 72 57 63 54 49 57 61 51

y 165 161 170 163 169 164 161 161 165 162

757065605550

170

168

166

164

162

160

vikt

längd

Scatterplot of längd vs vikt

5

Vi räknar ut r

95194162511615216563 xy

1641162161165

579515263

y

x

269383162161165

339635152632222

2222

y

x

882,026938333963

95194

101641

10579

101641579

22

r

6

Korrelationskoefficienten har egentligen

sammansättningen

Måttet på beroende ligger alltså i täljaren och så standardiserar vi med stickprovsstandardavvikelserna för x och y för att få ett tal som är lättolkat.

Det finns en teoretisk korrelation mellan slumpvariabler som vi kallar (rå), men först

yx

nyyxx

ssyyxx

yyxxr

1

22

7

Vi sammanställer

Datamaterial

Medelvärde

Stickprovsvarians

Stickprovsstandaravvikelse s

Korrelationskoefficient r

Teori

Väntevärde E[X]

Varians Var[X]

Standardavvikelse

Korrelation

x2s

][XVar

8

Kap4,4 Teoretisk korrelation

yx

nyyxx

ssyyxx

yyxxr

1

22

][][

],[

YVarXVar

YXKov

11

9

läses; Kovariansen mellan

slumpvariablerna X och Y.

Kovariansen mäter det linjära beroendet mellan X och Y.

Den standardiserade kovariansen är korrelationen Kovariansen beräknas via

där

],[ YXKov

][][][],[ YEXEYXEYXKov

),(][ yxxypYXE

10

Vi tittar återigen på ex med lägenheterna X = antal rum i en lägenhet

X och Y är beroende, dvs de är relaterade till varann

50m ytan om 0

50m ytan om 12

2

Y

X

1 2 3 p(y)

0

Y

1

0,45 0,05 0

0,05 0,25 0,20

0,50

0,50

p(x) 0,50 0,30 0,20 1,00

11

Detta värde är svårtolkat. Är 0,3 stort eller litet?

7,12,033,025,01)(][ xxpXE

5,05,015,00)(][ yypYE

15,120,01325,01205,011

00305,00245,001),(][

yxxypXYE

3,05,07,115,1],[ YXKov

12

Beräkna

Detta är enklare att förstå. Vi har ganska stark positiv korrelation.

][][

],[

YVarXVar

YXKov

22 ][][][ XEXEXVar

5,32,033,025,01][ 2222 XE

61,07,15,3][ 2 XVar

5,05,015,00][ 222 YE

25,05,05,0][ 2 YVar

768,025,061,0

3,0

13

Kap 4,5

En linjär kombination mellan två slumpvariabler ser ut som

där a,b,c är konstanter

Vi ska främst studera specialfallet X+Y och summan av n st s.v.

Först tittar vi på hur man kan finna sannolikhetsfördelningen för X+Y via ett ex

cbYaX

14

Vid ett lotteri kan en lott ge vinst på 0, 20 och 100kr. Låt

oss dra två lotter. Vinstchansen är lika vid de båda dragningarna

X= vinsten på 1:a lotten

Y= vinsten på 2:a lotten X och Y är oberoende

X

0 20 100 p(y)

0

Y 20

100

0,5625 0,18 0,0075

0,18 0,0576 0,0024

0,0075 0,0024 0,0001

0,75

0,24

0,01

p(x) 0,75 0,24 0,01 1,00

15

Bestäm sannolikhetsfördelningen för totala vinsten

S=X+Y= totala vinsten på två lotter

ex

p(20)=0,18+0,18

p(120)=0,0024+0,0024

s 0 20 40 100 120 200

p(s) 0,5625 0,36 0,0576 0,015 0,0048 0,0001

16

Anta nu lite mer allmänt att vi har n st s.v. som vill

tar summan på.

Om dessa n s.v. är oberoende så gäller

Där

in XXXXS 21

2][

][

nSVar

nSE

ni

XVar

XE

i

i

,,2,1

][

][2