Upload
andrew-james
View
45
Download
4
Embed Size (px)
DESCRIPTION
Statistik Lektion 2. Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen. S. A. B. A ∩ B. 1, 2. 3. 4, 5. 6. Repetition. Udfaldsrum S Hændelse A ⊆ S Simpel hændelse O i Regler: 0 ≤ P(A) ≤ 1 - PowerPoint PPT Presentation
Citation preview
StatistikLektion 2
Betinget sandsynlighed
Bayes’ regel
Diskrete stokastiske variable
Middelværdi og varians for diskret SV
Binomialfordelingen
Repetition
Udfaldsrum S Hændelse A ⊆ S Simpel hændelse Oi
Regler: 0 ≤ P(A) ≤ 1 P(A) = Σ P(Oi) P(S) = 1
6
A ∩ B1, 2 4, 5
A BS
3
Regler: P(∅) = 0 P(A⋃B) = P(A) + P(B) -
P(A⋂B) P(A) = 1 - P(A)
Lov om Total Sandsynlighed Lov om total sandsynlighed:
Vha. B kan vi opdele A i to disjunkte dele.
)BP(AB)P(AP(A)
AB
_B
lecture 1 4
E1 , … , Ek er en disjunkte og udtømmende hændelser i S
Lov om total sandsynlighed
E3
E2
E4 E5
E6
E1
A
S
Lov om total sandsynlighed:
k
iiEAPAP
1
)()(
Betinget sandsynlighed
0
BPBP
BAPA|BP når
0
APAP
BAPB|AP når
Definition: Den betingede sandsynlighed P(A|B) er sandsynligheden for hændelsen A, givet at vi ved at hændelsen B allerede er indtruffet:
Det gælder også når vi ombytter A og B
Betinget sandsynlighed - intuition Antag alle udfald er lige sandsynlige, dvs.
N = antal udfald i udfalds rum NA = antal udfald i hændelse A
Hvad er sandsynligheden for A givet at B er indtruffet?
A BS
NNAP A)(
∙∙∙
∙∙∙
∙
∙∙
∙∙
∙
∙
∙
)(
)()|(
BP
BAP
NN
NN
N
NBAP
B
BA
B
BA
Betinget sandsynlighed - Eksempel
I arbejde Arbejdsløs Total
Mand 460 40 500
Kvinde 140 260 400
Total 600 300 900
Eksempel:Køns-fordeling af arbejdsløse/ikke-arbejdsløse med studentereksamen i en lille by
%7.7630
23
600
460
900/600
900/460
)arbejdei(P
)arbejdei&mand(P)arbejdei|mand(P
13.3%152
30040
300/90040/900
øs)P(arbejdsl)arbejdsløs&P(mand
)arbejdsløsP(mand|
Multiplikationsregel
Betinget sandsynlighed
Af betingede sandsynlighed følger multiplikationsreglen :
Eksempel: Konsulent på jagt efter job A og job B. Sandsynligheden for at få job A er P(A) = 0.45. Givet at han får job A er sandsynligheden for at få job B P(B|A) = 0.9. Spørgsmål: Hvad er sandsynligheden for at konsulent får
både job A og job B? Svar:
)(
)()|(
BP
BAPBAP
)()|()()|()( APABPBPBAPBAP
405.045.09.0)()|()( APABPBAP
Uafhængighed
Konsekvenser: Hvis A og B er statistisk uafhængige hændelser
Fortolkning af P(B|A) = P(B): Selvom vi ved at A er indtruffet, ændrer det ikke på sandsynligheden for B.
)()()( BPAPBAP
)()(
)()(
)(
)()|( AP
BP
BPAP
BP
BAPBAP
)()|( BPABP
Definition: To hændelser A og B er statistisk uafhængige, hvis og kun hvis
Tjek for uafhængighed
Dvs. de to hændelser “Mand” og “I arbejde” er afhængige
Eksempel:
%7.76900/600
900/460)arbejdei|mand(P
55.6%500/900P(mand)
I arbejde Arbejdsløs Total
Mand 460 40 500
Kvinde 140 260 400
Total 600 300 900
Spørgsmål: Er hændelserne ”Mand” og ”I arbejde” uafhængige?
Bayes’ sætning
Defintion: Hvis A og B er hændelser, da siger Bayes’ sætning:
under antagelse af P(A)>0.
)()|()(|
)()|()()|(
BPBAPBPBAP
BPBAP
AP
BPBAPB|AP
Sætningen følger umiddelbart af at kombinere betinget sandsynlighed med multiplikationsreglen og lov om total sandsynlighed.
Bayes’ sætning (udvidet)
Defintion: Hvis E1, E2, …, EK er disjunkte og udtømmende hændelser i S, så siger Bayes’ sætning
under antagelse af P(A)>0.
)()|()()|(
)()|(
)()|(
11 KK
ii
iii
EPEAPEPEAP
EPEAP
AP
EPEAP|AEP
Bayes’ sætning: Test for sjælden sygdom En test for en sjælden sygdom, der rammer 0,1% af
befolkningen (P( I )=0,001), er upræcis. Lad i det følgende:
Sandsynligheden for at testen er positiv når man er syg:
Sandsynligheden for at testen er positiv, når man er rask:
Hvad er så sandsynligheden for at man er syg, givet at testen var positiv?
92.)( IZP
test negativ og test positiv
syg ikke og syg
ZZ
II
04.0)( IZP
)( ZIP
lektion 2 14
Stokastisk variabel
Definition: En stokastisk variabel X er en funktion defineret på S, der antager værdier på den reelle akse
I et eksperiment kan man ofte knytte en talværdi til hvert udfald
X: S RReelle talMulige udfald
R
S
X(s)s
lektion 2 15
Stokastiske variable
Eksempler:
Stokastisk variable Type
Antallet af øjne ved kast med en terning diskretSummen ved kast af to terninger diskretAntallet af børn i en familie diskretAlder af en førstegangsfødende kvinde diskretTid det tager at løbe fem km kontinuertMængde af sukker i en sodavand kontinuertHøjde af mænd kontinuert
tælle
måle
Diskret: antager et endeligt antal værdier eller et uendeligt men tælleligt antal værdier.
Kontinuert: antager værdier i en mængde af reelle tal.
Definition: Lad X : S R være en diskret stokastisk variabel.
Funktionen P(x) er en sandsynlighedsfunktion for X, hvis
1. P(x) 0 for alle x
2.
3. P(X = x) = P(x),
hvor P(X = x) er sandsynligheden for de udfald sS : X(s) = x.
lektion 2 16
Sandsynlighedsfunktion
x
xP 1)(
Sandsynlighedsfunktion: Eksempel
Lad den stokastiske variabel X være antallet af solgte sandwich i løbet af en time.
Sandsynlighedsfunktionen der hører til X er
x P(x) 0 0.11 0.22 0.43 0.3
1.0
0.0 1.0 2.0 3.0
0.0
0.1
0.2
0.3
0.4
0:3
p
Kumulativ fordelingsfunktion
xi
iPxXPxF )( )()(
Definition: Den kumulative fordelingsfunktion, F(x), for en diskret stokastisk variabel X er:
x P(x) F(x) 0 0.1 0.11 0.2 0.32 0.4 0.73 0.3 1.0
1.0
Kumulative fordelingsfunktions for antallet af solgte sandwich:
-1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
-1:4
c(0,
cum
sum
(p),
1)
0.4
Definition: Antag X er en diskret stokastisk variabel med sandsynlighedsfunktion P(x). Da er Middelværdien for X er givet ved:
Middelværdi
Dvs. summen af hver mulig værdi af X ganget med den tilsvarende sandsynlighed – et vægtet gennemsnit.
Bemærk! Middelværdien for en stokastisk variabel kaldes også den forventede værdi.
x
xxPXE )()(
Middelværdi - Eksempel
x P(x) xP(x) 0 0.1 0.01 0.2
0.22 0.4
0.83 0.3 0.9
1.0 1.9Konklusion:
Dvs. middelværdien af den stokastiske variabel er 1.9
Det forventede antal solgte sandwich er 1.9…
3
0
9.1)()(x
xxPXE
Varians for diskret stokastisk variabelDefinition: Antag at X er en diskret stokastisk variabel med sandsynlighedsfunktion P(x). Da er variansen for X givet ved
Ækvivalent er variansen givet ved
)()(])[()( 222 xPxXEXVx
2
2222 )()()]([)()(
xx
xxPxPxXEXEXV
x x2 P(x) xP(x) x2P(x) 0 0 0.1 0.0 0.01 1 0.2 0.2 0.22 4 0.4 0.8 1.63 9 0.3 0.9 2.7
1.0 1.9 4.5
Varians: Eksempel
2
2222 )()()]([)()(xx
xxPxPxXEXEXV
Regneregler for middelværdi og varians Hvis X er en diskret stokastisk variabel, da er
middelværdien for en funktion h(X) givet ved
Regneregler for en lineær funktion af X : Lad Y = aX + b. Da er Y også en stokastisk variabel.
x
xPxhXhE )()(
xVabaXVYV
bXaEbaXEYE2
Eksempel
Håndboldspiller er på resultatkontrakt! Pr kamp får han 10000kr plus 1500kr pr mål.
Lad X være den stokastiske variabel, der svarer til antal mål scoret i èn kamp.
Det vides at E[X] = 4.6 V[X] = 5.2
Hvad er den forventede udbetaling pr kamp? Variansen? Løn for en kamp: Y = 10000 + 1500 X E[B] = V[B] =
Binomial fordelingBinomial-fordelingen er resultatet af et Binomialt
eksperiment: Det Binomiale eksperiment består af et fast antal (n)
forsøg. I hvert forsøg er der to mulige udfald, succes og
fiasko. P(”succes”)=p, dvs. sandsynligheden for succes er
den samme i hvert forsøg. (Ligeledes for P(”fiasko”)=1-p)
Forsøgene er uafhængige Antallet af succeser følger da en binomial fordeling
Binomial fordeling - Eksempler Kast med en mønt n gange. S=(krone (succes), plat (fiasko)). Hvis fair mønt p=0,5. Sandsynligheden er konstant og forsøgene er uafhængige, da et møntkasts udfald ikke påvirker udfaldet af det næste kast
Træk et kort n gange. S=(”spar (succes)”, ”andet (fiasko)”). P(spar)=0,25 er konstant, hvis vi lægger kortet tilbage i bunken igen, ellers ikke. Uafhængige.Bemærk! Uden tilbagelægning vil P(nummer 2 spar, hvis nummer 1 er en spar)= 12/51 og dermed ikke konstant sandsynlighed
Sandsynlighed for Sekvens Vi udfører n = 5 uafhængige Bernoulli forsøg, hver med
sandsynlighed p for succes. Lad ’S’ betegne succes og ’F’ betegne fiasko. Hvad er sandsynligheden for sekvensen af udfald
Svar:
hvor x er antallet af succeser. Bemærk: Sandsynligheden afhænger kun af antal succer -
ikke hvornår i sekvenser de kommer.
SSFSF
xnx ppppppppp
FXPSXPFXPSXPSXP
FXSXFXSXSXP
)1()1()1()1(
)()()()()(
),,,,(
23
54321
54321
Uafhængighed
Sandsynlighed for 3 Succeser I 5 Forsøg Vi har stadig n = 5 uafhængige forsøg som før. Der er 25 = 32 mulige sekvenser af succeser og fiaskoer.
Alle sekvenser med 3 succeser
FFSSS FSFSS FSSFS FSSSF SFFSS SFSF SFSSF SSFFS SSFSF SSSFF
Totalt 10 måder at får x = 3 succeser i n = 5 forsøg.
Sandsynlighed for x=3 succeser er23 )1(10)3( ppXP
Antal sekvenser med 3 succeser
Sandsynligheden for en given sekvens med 3 succeser
Antal Sekvenser
Antag vi udfører n forsøg. Hvor mange forskellige sekvenser med x succeser findes
der? Svar:
hvor [”n fakultet”]
Eksempel: n = 5 forsøg og x = 3 succeser.
)!(!
!
xnx
n
x
nC n
x
nn 4321!
102
20
21
54
21321
54321
)!35(!3
!553
C
Binomial-koefficienten
Definition: En diskret stokastisk variable X siges at følge en binomial fordeling med antalsparameter n og sandsynlighedsparameter p, hvis sandsynlighedsfunktionen for X er givet ved
Binomial fordelingen
nxppxnx
nxP xnx ,...,2,1,0)1(
)!(!
!)( )(
for
Notation: X ~ B(n,p) ”X følger en binomial-fordeling med…”
Egenskaber:
Middelværdi: m = E[X] = np
Varians: s2 = V[X] = np(1-p)
Formen På Binomial-fordelingen
Binomial-fordelingen bliver mere symmetrisk, når n øges og p → 0.5
p = 0.1 p = 0.5p = 0.3
n = 4
n = 10
n = 20
Binomialfordelingen i RAntal X ~ B(10,0.2)
Vi kan udregne P(X=7) vha. kommandoendbinom(x=7,size=10,prob=0.2)
Vi kan plotte sandsynlighedsfunktionenplot(0:10, dbinom(x=0:10,size=10,prob=0.2),type="h")
0 2 4 6 8 10
0.0
00.1
00.2
00.3
0
Binomialfordelingen i RAntal X ~ B(10,0.2)
Vi kan den kumulerede sandsynlighed F(7) = P(X7) vha. kommandoen
pbinom(q=7,size=10,prob=0.2)
Vi kan plotte den kumulerede sandsynlighed vha. kommandoenplot(0:10,
pbinom(q=0:10,size=10,prob=0.2),type="s")
0 2 4 6 8 10
0.2
0.4
0.6
0.8
1.0
Binomialfordelingen i RAntal X ~ B(10,0.2)
Vi kan simulere 100 realisationer af X vha. kommandoenx = rbinom(n=100,size=10,prob=0.2)
Vi kan plotte resultat fx. som et histogramhist(x,breaks=seq(-0.5,7.5,by=1),freq=F)lines(0:10,
dbinom(x=0:10,size=10,prob=0.2),type="h")Histogram of x
0 2 4 6
0.0
00.1
00.2
00.3
0
Linjerne angiver sandsynligheds-funktionen for B(10,0.2)