35
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Statistik Lektion 2

Embed Size (px)

DESCRIPTION

Statistik Lektion 2. Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen. S. A. B. A ∩ B. 1, 2. 3. 4, 5. 6. Repetition. Udfaldsrum S Hændelse A ⊆ S Simpel hændelse O i Regler: 0 ≤ P(A) ≤ 1 - PowerPoint PPT Presentation

Citation preview

StatistikLektion 2

Betinget sandsynlighed

Bayes’ regel

Diskrete stokastiske variable

Middelværdi og varians for diskret SV

Binomialfordelingen

Repetition

Udfaldsrum S Hændelse A ⊆ S Simpel hændelse Oi

Regler: 0 ≤ P(A) ≤ 1 P(A) = Σ P(Oi) P(S) = 1

6

A ∩ B1, 2 4, 5

A BS

3

Regler: P(∅) = 0 P(A⋃B) = P(A) + P(B) -

P(A⋂B) P(A) = 1 - P(A)

Lov om Total Sandsynlighed Lov om total sandsynlighed:

Vha. B kan vi opdele A i to disjunkte dele.

)BP(AB)P(AP(A)

AB

_B

lecture 1 4

E1 , … , Ek er en disjunkte og udtømmende hændelser i S

Lov om total sandsynlighed

E3

E2

E4 E5

E6

E1

A

S

Lov om total sandsynlighed:

k

iiEAPAP

1

)()(

Betinget sandsynlighed

0

BPBP

BAPA|BP når

0

APAP

BAPB|AP når

Definition: Den betingede sandsynlighed P(A|B) er sandsynligheden for hændelsen A, givet at vi ved at hændelsen B allerede er indtruffet:

Det gælder også når vi ombytter A og B

Betinget sandsynlighed - intuition Antag alle udfald er lige sandsynlige, dvs.

N = antal udfald i udfalds rum NA = antal udfald i hændelse A

Hvad er sandsynligheden for A givet at B er indtruffet?

A BS

NNAP A)(

∙∙∙

∙∙∙

∙∙

∙∙

)(

)()|(

BP

BAP

NN

NN

N

NBAP

B

BA

B

BA

Betinget sandsynlighed - Eksempel

I arbejde Arbejdsløs Total

Mand 460 40 500

Kvinde 140 260 400

Total 600 300 900

Eksempel:Køns-fordeling af arbejdsløse/ikke-arbejdsløse med studentereksamen i en lille by

%7.7630

23

600

460

900/600

900/460

)arbejdei(P

)arbejdei&mand(P)arbejdei|mand(P

13.3%152

30040

300/90040/900

øs)P(arbejdsl)arbejdsløs&P(mand

)arbejdsløsP(mand|

Multiplikationsregel

Betinget sandsynlighed

Af betingede sandsynlighed følger multiplikationsreglen :

Eksempel: Konsulent på jagt efter job A og job B. Sandsynligheden for at få job A er P(A) = 0.45. Givet at han får job A er sandsynligheden for at få job B P(B|A) = 0.9. Spørgsmål: Hvad er sandsynligheden for at konsulent får

både job A og job B? Svar:

)(

)()|(

BP

BAPBAP

)()|()()|()( APABPBPBAPBAP

405.045.09.0)()|()( APABPBAP

Uafhængighed

Konsekvenser: Hvis A og B er statistisk uafhængige hændelser

Fortolkning af P(B|A) = P(B): Selvom vi ved at A er indtruffet, ændrer det ikke på sandsynligheden for B.

)()()( BPAPBAP

)()(

)()(

)(

)()|( AP

BP

BPAP

BP

BAPBAP

)()|( BPABP

Definition: To hændelser A og B er statistisk uafhængige, hvis og kun hvis

Tjek for uafhængighed

Dvs. de to hændelser “Mand” og “I arbejde” er afhængige

Eksempel:

%7.76900/600

900/460)arbejdei|mand(P

55.6%500/900P(mand)

I arbejde Arbejdsløs Total

Mand 460 40 500

Kvinde 140 260 400

Total 600 300 900

Spørgsmål: Er hændelserne ”Mand” og ”I arbejde” uafhængige?

Bayes’ sætning

Defintion: Hvis A og B er hændelser, da siger Bayes’ sætning:

under antagelse af P(A)>0.

)()|()(|

)()|()()|(

BPBAPBPBAP

BPBAP

AP

BPBAPB|AP

Sætningen følger umiddelbart af at kombinere betinget sandsynlighed med multiplikationsreglen og lov om total sandsynlighed.

Bayes’ sætning (udvidet)

Defintion: Hvis E1, E2, …, EK er disjunkte og udtømmende hændelser i S, så siger Bayes’ sætning

under antagelse af P(A)>0.

)()|()()|(

)()|(

)()|(

11 KK

ii

iii

EPEAPEPEAP

EPEAP

AP

EPEAP|AEP

Bayes’ sætning: Test for sjælden sygdom En test for en sjælden sygdom, der rammer 0,1% af

befolkningen (P( I )=0,001), er upræcis. Lad i det følgende:

Sandsynligheden for at testen er positiv når man er syg:

Sandsynligheden for at testen er positiv, når man er rask:

Hvad er så sandsynligheden for at man er syg, givet at testen var positiv?

92.)( IZP

test negativ og test positiv

syg ikke og syg

ZZ

II

04.0)( IZP

)( ZIP

lektion 2 14

Stokastisk variabel

Definition: En stokastisk variabel X er en funktion defineret på S, der antager værdier på den reelle akse

I et eksperiment kan man ofte knytte en talværdi til hvert udfald

X: S RReelle talMulige udfald

R

S

X(s)s

lektion 2 15

Stokastiske variable

Eksempler:

Stokastisk variable Type

Antallet af øjne ved kast med en terning diskretSummen ved kast af to terninger diskretAntallet af børn i en familie diskretAlder af en førstegangsfødende kvinde diskretTid det tager at løbe fem km kontinuertMængde af sukker i en sodavand kontinuertHøjde af mænd kontinuert

tælle

måle

Diskret: antager et endeligt antal værdier eller et uendeligt men tælleligt antal værdier.

Kontinuert: antager værdier i en mængde af reelle tal.

Definition: Lad X : S R være en diskret stokastisk variabel.

Funktionen P(x) er en sandsynlighedsfunktion for X, hvis

1. P(x) 0 for alle x

2.

3. P(X = x) = P(x),

hvor P(X = x) er sandsynligheden for de udfald sS : X(s) = x.

lektion 2 16

Sandsynlighedsfunktion

x

xP 1)(

Sandsynlighedsfunktion: Eksempel

Lad den stokastiske variabel X være antallet af solgte sandwich i løbet af en time.

Sandsynlighedsfunktionen der hører til X er

x P(x) 0 0.11 0.22 0.43 0.3

1.0

0.0 1.0 2.0 3.0

0.0

0.1

0.2

0.3

0.4

0:3

p

Kumulativ fordelingsfunktion

xi

iPxXPxF )( )()(

Definition: Den kumulative fordelingsfunktion, F(x), for en diskret stokastisk variabel X er:

x P(x) F(x) 0 0.1 0.11 0.2 0.32 0.4 0.73 0.3 1.0

1.0

Kumulative fordelingsfunktions for antallet af solgte sandwich:

-1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

-1:4

c(0,

cum

sum

(p),

1)

0.4

Eksempel - fortsat

x P(x) F(x) 0 0.1 0.11 0.2

0.32 0.4

0.73 0.3 1.0

1.0

)2(XP

)2(XP

)21( XP

Definition: Antag X er en diskret stokastisk variabel med sandsynlighedsfunktion P(x). Da er Middelværdien for X er givet ved:

Middelværdi

Dvs. summen af hver mulig værdi af X ganget med den tilsvarende sandsynlighed – et vægtet gennemsnit.

Bemærk! Middelværdien for en stokastisk variabel kaldes også den forventede værdi.

x

xxPXE )()(

Middelværdi - Eksempel

x P(x) xP(x) 0 0.1 0.01 0.2

0.22 0.4

0.83 0.3 0.9

1.0 1.9Konklusion:

Dvs. middelværdien af den stokastiske variabel er 1.9

Det forventede antal solgte sandwich er 1.9…

3

0

9.1)()(x

xxPXE

Varians for diskret stokastisk variabelDefinition: Antag at X er en diskret stokastisk variabel med sandsynlighedsfunktion P(x). Da er variansen for X givet ved

Ækvivalent er variansen givet ved

)()(])[()( 222 xPxXEXVx

2

2222 )()()]([)()(

xx

xxPxPxXEXEXV

x x2 P(x) xP(x) x2P(x) 0 0 0.1 0.0 0.01 1 0.2 0.2 0.22 4 0.4 0.8 1.63 9 0.3 0.9 2.7

1.0 1.9 4.5

Varians: Eksempel

2

2222 )()()]([)()(xx

xxPxPxXEXEXV

Regneregler for middelværdi og varians Hvis X er en diskret stokastisk variabel, da er

middelværdien for en funktion h(X) givet ved

Regneregler for en lineær funktion af X : Lad Y = aX + b. Da er Y også en stokastisk variabel.

x

xPxhXhE )()(

xVabaXVYV

bXaEbaXEYE2

Eksempel

Håndboldspiller er på resultatkontrakt! Pr kamp får han 10000kr plus 1500kr pr mål.

Lad X være den stokastiske variabel, der svarer til antal mål scoret i èn kamp.

Det vides at E[X] = 4.6 V[X] = 5.2

Hvad er den forventede udbetaling pr kamp? Variansen? Løn for en kamp: Y = 10000 + 1500 X E[B] = V[B] =

Binomial fordelingBinomial-fordelingen er resultatet af et Binomialt

eksperiment: Det Binomiale eksperiment består af et fast antal (n)

forsøg. I hvert forsøg er der to mulige udfald, succes og

fiasko. P(”succes”)=p, dvs. sandsynligheden for succes er

den samme i hvert forsøg. (Ligeledes for P(”fiasko”)=1-p)

Forsøgene er uafhængige Antallet af succeser følger da en binomial fordeling

Binomial fordeling - Eksempler Kast med en mønt n gange. S=(krone (succes), plat (fiasko)). Hvis fair mønt p=0,5. Sandsynligheden er konstant og forsøgene er uafhængige, da et møntkasts udfald ikke påvirker udfaldet af det næste kast

Træk et kort n gange. S=(”spar (succes)”, ”andet (fiasko)”). P(spar)=0,25 er konstant, hvis vi lægger kortet tilbage i bunken igen, ellers ikke. Uafhængige.Bemærk! Uden tilbagelægning vil P(nummer 2 spar, hvis nummer 1 er en spar)= 12/51 og dermed ikke konstant sandsynlighed

Sandsynlighed for Sekvens Vi udfører n = 5 uafhængige Bernoulli forsøg, hver med

sandsynlighed p for succes. Lad ’S’ betegne succes og ’F’ betegne fiasko. Hvad er sandsynligheden for sekvensen af udfald

Svar:

hvor x er antallet af succeser. Bemærk: Sandsynligheden afhænger kun af antal succer -

ikke hvornår i sekvenser de kommer.

SSFSF

xnx ppppppppp

FXPSXPFXPSXPSXP

FXSXFXSXSXP

)1()1()1()1(

)()()()()(

),,,,(

23

54321

54321

Uafhængighed

Sandsynlighed for 3 Succeser I 5 Forsøg Vi har stadig n = 5 uafhængige forsøg som før. Der er 25 = 32 mulige sekvenser af succeser og fiaskoer.

Alle sekvenser med 3 succeser

FFSSS FSFSS FSSFS FSSSF SFFSS SFSF SFSSF SSFFS SSFSF SSSFF

Totalt 10 måder at får x = 3 succeser i n = 5 forsøg.

Sandsynlighed for x=3 succeser er23 )1(10)3( ppXP

Antal sekvenser med 3 succeser

Sandsynligheden for en given sekvens med 3 succeser

Antal Sekvenser

Antag vi udfører n forsøg. Hvor mange forskellige sekvenser med x succeser findes

der? Svar:

hvor [”n fakultet”]

Eksempel: n = 5 forsøg og x = 3 succeser.

)!(!

!

xnx

n

x

nC n

x

nn 4321!

102

20

21

54

21321

54321

)!35(!3

!553

C

Binomial-koefficienten

Definition: En diskret stokastisk variable X siges at følge en binomial fordeling med antalsparameter n og sandsynlighedsparameter p, hvis sandsynlighedsfunktionen for X er givet ved

Binomial fordelingen

nxppxnx

nxP xnx ,...,2,1,0)1(

)!(!

!)( )(

for

Notation: X ~ B(n,p) ”X følger en binomial-fordeling med…”

Egenskaber:

Middelværdi: m = E[X] = np

Varians: s2 = V[X] = np(1-p)

Formen På Binomial-fordelingen

Binomial-fordelingen bliver mere symmetrisk, når n øges og p → 0.5

p = 0.1 p = 0.5p = 0.3

n = 4

n = 10

n = 20

Binomialfordelingen i RAntal X ~ B(10,0.2)

Vi kan udregne P(X=7) vha. kommandoendbinom(x=7,size=10,prob=0.2)

Vi kan plotte sandsynlighedsfunktionenplot(0:10, dbinom(x=0:10,size=10,prob=0.2),type="h")

0 2 4 6 8 10

0.0

00.1

00.2

00.3

0

Binomialfordelingen i RAntal X ~ B(10,0.2)

Vi kan den kumulerede sandsynlighed F(7) = P(X7) vha. kommandoen

pbinom(q=7,size=10,prob=0.2)

Vi kan plotte den kumulerede sandsynlighed vha. kommandoenplot(0:10,

pbinom(q=0:10,size=10,prob=0.2),type="s")

0 2 4 6 8 10

0.2

0.4

0.6

0.8

1.0

Binomialfordelingen i RAntal X ~ B(10,0.2)

Vi kan simulere 100 realisationer af X vha. kommandoenx = rbinom(n=100,size=10,prob=0.2)

Vi kan plotte resultat fx. som et histogramhist(x,breaks=seq(-0.5,7.5,by=1),freq=F)lines(0:10,

dbinom(x=0:10,size=10,prob=0.2),type="h")Histogram of x

0 2 4 6

0.0

00.1

00.2

00.3

0

Linjerne angiver sandsynligheds-funktionen for B(10,0.2)