Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Kapittel 8 og 9Ett- og toutvalgs estimering;statistisk inferens, forventningsretthet,punktestimat, intervallestimat og prediksjonsintervall ,estimere forventningsverdi, differanse, andel ogvarians,standardfeil, sannsynlighetsmaksimering
TMA4245 V2007: Eirik Mowww.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
2
Statistisk inferens
— Fra innsamling, bearbeiding, analyse og fortolkning avnumeriske data og målinger: trekke slutninger utover detman har observert.
— Vi ønsker å si noe generelt om en populasjon basert på etinnsamlet tilfeldig utvalg fra populasjonen.
— Bakgrunn: vår kunnskap i sannsynlighetsregning.
Populasjon Utvalg
Sannsynlighetsregning
Statistisk inferens
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
3
Tilfeldig utvalg [8.1]
DEF 8.1: En populasjon er mengden av observasjoner som viønsker å studere, dvs. alle observasjoner det er mulig ågjøre. (Dersom elementene i populasjonen har fordelingf (x), kaller boka det en f (x)-populasjon.)
DEF 8.2: En utvalg er en delmengde av en populasjon.
Representativt utvalg: elementene som velges ut må ikke barerepresentere en delmengde av populasjonen som alle haren spesiell egenskap, de må kunne være “representanter”for hele populasjonen.
Uendelig populasjon: vi skal jobbe som om populasjonen vår er uendeligstor!
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
4
U.i.f
DEF 8.3: La X1, X2, ..., Xn være n uavhengige stokastiske variable,hver med den samme sannsynlighetsfordeling f (x). Videfinerer at X1, X2, ..., Xn er et tilfeldig utvalg av størrelsen fra f (x)-populasjonen og skriver den simultanesannsynlighetsfordelingen som
f (x1, x2, ..., xn) = f (x1)f (x2) · · · f (xn)
U.i.f: et tilfeldig utvalg (som over) blir da et sett med uavhengigeidentisk fordelte (u.i.f.) observasjoner.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
5
Heat flow data
— Data fra NIST/SEMATECH e-Handbook of Statistical Methods
— Viser “heat flow meter calibration and stability analysis. Theresponse variable is a calibration factor.” n = 195.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
6
BoksplottMin. 1st Qu. Median Mean 3rd Qu. Max.
9.197 9.246 9.262 9.261 9.276 9.328
9.20
9.22
9.24
9.26
9.28
9.30
9.32
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
7
Stamme- og bladdiagramLO: 9.196848
3 920. | 67
921* |
8 921. | 56899
11 922* | 011
16 922. | 55569
23 923* | 0011234
34 923. | 55678888999
46 924* | 001122234444
57 924. | 56667788888
73 925* | 0112222223333334
90 925. | 55556666777888899
(20) 926* | 00011111122233444444
85 926. | 5566777777888888999
66 927* | 000111123444
54 927. | 5555555677778889
38 928* | 001123444
29 928. | 556677888
20 929* | 011224
14 929. | 5799
10 930* | 0013
6 930. | 568
3 931* | 0
931. |
2 932* | 0
HI: 9.327973
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
8
Histogram
Histogram of heatflow
heatflow
Den
sity
9.20 9.25 9.30
05
1015
Histogram of heatflow
heatflow
Den
sity
9.20 9.22 9.24 9.26 9.28 9.30 9.32
05
1015
20
Histogram of heatflow
heatflow
Den
sity
9.20 9.22 9.24 9.26 9.28 9.30 9.32
05
1015
20
Histogram of heatflow
heatflow
Den
sity
9.20 9.22 9.24 9.26 9.28 9.30 9.32
05
1015
20
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
9
Normalplott— Empirisk kumulativ fordeling er F̂(x) = antall observasjoner mindre eller lik xn .
— Hvis data er normalfordelt ville vi forvente at F̂ (x) ligner på den kumulative fordelingsfunksjonen tilnormalfordelingen.
9.20 9.22 9.24 9.26 9.28 9.30 9.32
0.0
0.2
0.4
0.6
0.8
1.0
sort(heatflow)
FF
emp
9.20 9.22 9.24 9.26 9.28 9.30 9.32
0.0
0.2
0.4
0.6
0.8
1.0
sort(heatflow)F
Fem
p
— Hver observasjon er et punkt i diagrammet.
— Så justerer vi skalaen på y-aksen slik at det blir en lineær sammenheng når dataene er normalfordelte (brukeinvers funksjon til kumulativ fordeling).
— Noen bytter om på aksene.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
10
Normal QQ-plott
−3 −2 −1 0 1 2 3
9.20
9.22
9.24
9.26
9.28
9.30
9.32
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
11
Normal QQ-plott
Figurer fra NIST/SEMATECH e-Handbook of Statistical Methods,
http://www.itl.nist.gov/div898/handbook/
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
12
Estimering og hypotesetesting
Fenomen Defekte produkter i industriellprosess
Mengden melk i melkekartong
Hva vil vi vite? ESTIMERING: Hva er andelen de-fekte?
HYPOTESETESTING: Er det 1 litermelk i en 1 liters melkekartong?
Populasjon Alle produkter i prosessen. Alle melkekartonger levert.
Utføre eksperiment Undersøke produkt, er det defekteller ikke?
Undersøke melkekartong, hvor myemelk inneholder den?
Samler inn data uavhengig, repre-sentativt?
Sjekker n artikler og lar X være an-tall defekte. Vi finner x defekte.
Sjekker n melkekartonger, målerfor hver melkekartong X=”mengdenmelk”.
Stokastisk variabel med fordeling X er binomisk fordelt med n forsøkog ukjent sannsynlighet for defekt p.
X er normalfordelt med ukjent for-ventning µ og ukjent varians σ2.
Vi får: Finne beste anslag for p og et inter-vall der vi har stor tillit til at p ligger(konfidensintervall).
Finne beste anslag av µ og σ2, ogbruke anslagene (med grad av tillit)til å si hvor sikre vi er på at det er 1liter melk i melkekartongen.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
13
TMA4240/TMA4245 Statistikk:Læringsmål
— 2005/2006:Emnet skal gi en innføring i grunnleggende begreper og metoder istatistikk.
— 2006/2007:Emnet skal gi studentene et grunnlag i sannsynlighetsregning ogstatistisk inferens, som gjør dem i stand til å gjenkjenne enklestatistiske standardsituasjoner innen teknologi og naturvitenskap, ogvite hvordan disse best kan analyseres. Videre skal studentenekunne forstå de viktigste begrepene innen statistikk ogsannsynlighetsregning, og kjenne til terminologien slik at de kankommunisere med en fagstatistiker i mer kompliserte situasjoner.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
14
Estimering— Mål: finne “sannheten” om et fenomen i en populasjon.
— “Sannheten” knytter vi til en ukjent parameter, θ, i en valgt fordeling.
— Vi trekker et tilfeldig utvalg fra populasjonen; X1, X2, ..., Xn (u.i.f.).
— En estimator gir et anslag for den ukjente parameteren og er enfunksjon av stokastiske variabler, θ̂ = θ̂(X1, X2, ..., Xn).
— Hvilke egenskaper bør en god estimator ha?• Estimatoren bør være forventningsrett, dvs. E(θ̂) = θ.• Estimatoren bør ha minst mulig varians, Var(θ̂), og variansen
bør avta når antall observasjoner, n, øker.
— Hvordan kan vi finne estimatorer?• ved intuisjon,• ved matematisk metode.
— Sannsynlighetsmaksimeringsestimatoren (SME) finner det anslagetsom gjør at de observasjonene vi har gjort (utvalget) har maksimalrimelighet!
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
15
Forventingsrett estimatorDEF 9.1: En observator θ̂ er en forventningsrett estimator for
parameteren θ hvis
E(θ̂) = θ.
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
fx1
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
16
E(S2), s 232
nX
i=1
(Xi − X̄)2
=
nX
i=1
(Xi − µ + µ − X̄)2
=
nX
i=1
[(Xi − µ) − (X̄ − µ)]2
=
nX
i=1
(Xi − µ)2− 2(X̄ − µ)
nX
i=1
(Xi − µ) + n(X̄ − µ)2
=n
X
i=1
(Xi − µ)2− 2(X̄ − µ)n(X̄ − µ) + n(X̄ − µ)2
=n
X
i=1
(Xi − µ)2− n(X̄ − µ)2
E(S2) = E[1
n − 1
nX
i=1
(Xi − X̄)2] =
1
n − 1{E[
nX
i=1
(Xi − µ)2]− E [n(X̄ − µ)2 ]}
=1
n − 1[
nX
i=1
Var(Xi ) − nVar(X̄)] =1
n − 1[
nX
i=1
σ2− n
σ2
n]
=1
n − 1(nσ2 − σ2) = σ2
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
17
Mest effektive estimatorDEF 9.2: Hvis vi ser på alle mulige forventningsrette
estimatorene for en parameter θ, kaller vi den medminst varians for den mest effektive estimatoren tilθ.
−4 −2 0 2 4
0.0
0.2
0.4
0.6
0.8
fx3
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
18
Eksamen, juni 2004, 1c
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
19
Fordeling til gjennomsnittet, X̄
— Hvis X1, X2, . . . , Xn er uavhengige stokastiske variable, gjelder
E(n∑
i=1
aiXi) =n∑
i=1
aiE(Xi)
Var(n∑
i=1
aiXi) =n∑
i=1
a2i Var(Xi)
— Fra kapittel 7: Hvis X1, X2, . . . , Xn i tillegg er normalfordelte, vila1X1 + a2X2 + · · · anXn også være normalfordelt medforventning og varians som ovenfor.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
20
Fordeling til gjennomsnittet X̄ [8.5]
TEO 8.2: Sentralgrenseteoremet La X1, X2, ..., Xn være et tilfeldigutvalg fra en fordeling med forventning µ og variansσ2. Da har vi at sannsynlighetsfordelingen til
Z =X̄ − µσ/√
n
går mot standard normalfordelingen, n(z; 0, 1), nårn →∞.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
21
Sentralgrenseteoremet
Figure fra Devore.www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
22
SME [9.15]
DEF 9.6: Gitt uavhengige observasjoner x1, x2, . . . , xn fra ensannsynlighetstetthet (i det kontinuerlige tilfellet) elleren punktsannsynlighet (i det diskrete tilfellet) f (x ; θ).Da er sannsynlighetsmaksimeringsestimatoren(SME) for θ verdien som maksimererrimelighetsfunksjonen
L(x1, x2, . . . , xn, θ) = f (x1; θ) · f (x2; θ) · · · f (xn; θ).
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
Figur fra http://www.weibull.com/LifeDataWeb/maximum_likelihood_estimation.htm
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
24
SME for µ i normalfordelingen
— Tilfeldig utvalg, X1, X2, ..., Xn u.i.f normal n(x ; µ, σ).
— Husker mulige estimator for µ er X̄ . Hva er SME?
— Rimelighetsfunksjonen og logaritmen til rimelighetsfunksjonen::
L(x1, x2, ...xn, µ, σ2) =n∏
i=1
1√2πσ
e−1
2σ2(xi−µ)
2
=1
(2π)n/2(σ2)n/2e−
12σ2
Pni=1(xi−µ)
2
ln L(x1, x2, ...xn, µ, σ2) = −n2
ln(2π) − n2
ln σ2 − 12σ2
n∑
i=1
(xi − µ)2
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
25
SME for µ i normalfordelingen
— Derivere mhp µ:
∂ ln L(x1, x2, ...xn, µ, σ2)∂µ
=1σ2
n∑
i=1
(xi − µ)
— Finne µ̂ ved å sette ∂ ln L∂µ = 0:1σ2
∑ni=1(xi − µ̂) = 0.
µ̂ =1n
n∑
i=1
Xi = X̄
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
26
SME for σ2 i normalfordelingen— Husker mulig estimator for σ2 er S2. Hva er SME?
— Har logaritmen til rimelighetsfunksjonen, og vet at µ̂ = X̄ .
ln L(x1, x2, ...xn, µ, σ2) = −n
2ln(2π) − n
2ln σ2 − 1
2σ2
n∑
i=1
(xi − µ)2
— Derivere mhp σ2:∂ ln L(x1, x2, ...xn, µ, σ2)
∂σ2= − n
2σ2+
12(σ2)2
n∑
i=1
(xi − µ)2
— Finne σ̂2 ved å sette ∂ ln L∂(σ2)
= 0. Setter inn estimatet x̄ for µ.
− n2σ̂2
+1
2(σ̂2)2
n∑
i=1
(xi − x̄)2 = 0
−n + 1σ̂2
n∑
i=1
(xi − x̄)2 = 0 dvs. σ̂2 =1n
n∑
i=1
(Xi − X̄ )2
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
27
SME: steg1. Ønsker estimator for parameter θ, basert på
2. tilfeldig utvalg fra populasjon beskrevet ved kjent parametriskfordeling f (x ; θ).
3. Rimelighetsfunksjonen;
L(x1, x2, . . . , xn, θ) = f (x1; θ)f (x2; θ) · · · f (xn; θ).
4. Skal maksimere rimelighetsfunksjonen, lettere å jobbe med dennaturlige logaritmen til rimelighetsfunksjonen
l(x1, x2, . . . , xn, θ) = ln L(x1, x2, . . . , xn, θ)
5. Deriverer logaritmen til rimelighetsfunksjonen med hensyn på θ.
6. Setter den deriverte lik 0 og løser ut for θ. Dette blir vårsannsynlighetsmaksimeringsestimator for θ.(Kan også sjekke at dette er maksimum– og ikke minimum– ved åderivere en gang til og se at denne 2.deriverte er negativ.)
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
28
Estimering— Mål: finne “sannheten” om et fenomen i en populasjon.
— “Sannheten” knytter vi til en ukjent parameter, θ, i en valgt fordeling.
— Vi trekker et tilfeldig utvalg fra populasjonen; X1, X2, ..., Xn (u.i.f.).
— En estimator gir et anslag for den ukjente parameteren og er enfunksjon av stokastiske variabler, θ̂ = θ̂(X1, X2, ..., Xn).
— Estimatoren bør være forventningsrett, dvs. E(θ̂) = θ.
— Estimatoren bør ha minst mulig varians, Var(θ̂), og variansen børavta når antall observasjoner, n, øker.
— Sannsynlighetsmaksimeringsestimatoren (SME) finner det anslagetsom gjør at de observasjonene vi har gjort (utvalget) har maksimalrimelighet!
— I tillegg til punktestimatet kan vi lage et 95% konfidensintervall der vihar 95% tillit til at den sanne parameteren ligger.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
29
Data fra DNA microarrays
— Studere effekt av trening på hjertet: måler forholdet mellomgenuttrykk for rotter trent i 48 timer og rotter som ikke har trent.
— 14000 gener studert, vi ser på genet: UI-R-A0-ar-f-11-0-UI medbeskrivelse ESTs Highly similar to INTERFERON REGULATORY FACTOR 3 [M.musculus]
— Kan anta at en transformasjon av genuttrykksforholdet for trenete ogutrenete rotter er normalfordelt.
• Positivt tall: genet er mer aktivt for trente enn for utrente rotter• Nær 0: genet er like aktivt for trente og utrente rotter.• Negativt tall: genet er mindre aktivt for trente enn for utrente
rotter.
— Observasjoner fra 12 par av trenete og utrente rotter:1.96 1.56 1.27 2.37 1.45 1.45 0.93 1.40 1.85 1.18 1.68 1.41
— µ̂ = x̄ = 1.54
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
30
Konfidensintervall for µmed σ kjent
— Hvis x̄ er gjennomsnittet av et tilfeldig utvalg av størrelse n fra enpopulasjon med kjent varians σ2, så er et (1-α)100%konfidensintervall for µ
x̄ − z α2
σ√n
< µ < x̄ + z α2
σ√n
hvor z α2
er verdien i standard normalfordelingen som har areal α2 tilhøyre, dvs. P(Z > z α
2) = α2 .
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
31
Konfidensintervall for µmed σ kjent
x̄ − zα2
σ√n
< µ < x̄ + zα2
σ√n
1 − α
α 2 α 2
− zα 2 0 zα 2
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
32
Intervallestimering med rottedata
— Antar målinger er normalfordelte.
— Observasjoner fra 12 par av trenete og utrente rotter:1.96 1.56 1.27 2.37 1.45 1.45 0.93 1.40 1.85 1.18 1.68 1.41
— 95% konfidensintervall for µ nå σ2 er kjent (antar σ2=0.1):
x̄ − z α2
σ√n
< µ < x̄ + z α2
σ√n
— Rottedata: µ̂ = x̄ = 1.54, n=12, z0.025 = 1.96, 95% konfidensintervallfor µ er [1.36, 1.72].
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
33
Intervallestimering med rottedata
— Hvis vi ikke kjenner σ2 kan vi estimere den med S2, og får 95%konfidensintervall for µ nå σ2 er ukjent:
x̄ − t α2 ,(n−1)
s√n
< µ < x̄ + t α2 ,(n−1)
s√n
— Rottedata: S2=0.146, t0.025,11 = 2.201, 95% konfidensintervall for µer da [1.30, 1.78].
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
34
Kvantiler N og t2.5%: N=black, t.15=blue, t.10=red
−1.96 1.96
−2.23 2.23−2.13 2.13
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
35
Konfidensintervall for µmed σ ukjent
— Hvis x̄ er gjennomsnittet og s er estimert standardavvik av et tilfeldigutvalg av størrelse n fra en populasjon med ukjent varians σ2, så eret (1-α)100% konfidensintervall for µ
x̄ − t α2 ,(n−1)
s√n
< µ < x̄ + t α2 ,(n−1)
s√n
hvor t α2 ,(n−1)
er verdien i t-fordelingen med n − 1 frihetsgrader somhar areal α2 til høyre, dvs. P(T > t α2 ,(n−1)) =
α2 .
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
36
Konfidensintervall for µmed σ ukjent
x̄ − tα2 ,(n−1)
s√n
< µ < x̄ + tα2 ,(n−1)
s√n
1 − α
α 2 α 2
− tα 2 0 tα 2
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
37
Test nasjonen
— Lørdag 27. november 2004 ble TV-programmet “Test nasjonen”sendt på NRK1. Deltakere i studium svarte på spørsmål og fikktildelt en IQ-score.
— Testen var laget slik at man forventet at IQ-score til en tilfeldig valgtperson skulle være normalfordelt med forventningsverdi 100 ogstandardavvik 15.
— Deltakerne var delt inn i ulike grupper (av rundt 40 deltakere).
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
38
Test nasjonen (forts)Følgende gjennomsnittsscore be oppnådd:
Sekretærer 88Reality-deltakere 94Kjendiser 98Svensker 99Kroppsbyggere 100Finansfolk 101Journalister 102
— Er deltakerne valgt ut tilfeldig fra populasjonen bestående av Norgesbefolkning i gitte gruppe?
— Vi antar at det er kjent at σ = 15, og at hver gruppe bestod av 40deltakere. Lag 95% konfidensintervaller for de ulike gruppene.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
39
Ett normalfordelt utvalg:punkt- og intervallestimering
— Eksempler: melkekartonger, genuttrykk, høyde, betongstyrke, IQ.
— X1, X2, ..., Xn er et tilfeldig utvalg fra en populasjon som beskrives aven normalfordeling med forventning µ og varians σ2.
— µ̂ = X = 1n∑n
i=1 Xi estimator for µ (intuitiv og SME).
— E(X ) = µ, Var(X ) = σ2
n .
— Hvis σ2 er ukjent er S2 = 1n−1∑n
i=1(Xi − X)2 estimator for σ2(forventningsrett, men ikke SME).
— (1− α)100% konfidensintervall for µ når σ2 er kjent:
[x − z α2
σ√n
, x + z α2
σ√n
]
— (1− α)100% konfidensintervall for µ når σ2 er ukjent?
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
40
T og t-fordeling
COR: La X1, X2, ..., Xn være uavhengige stokastiske variablersom alle er normalfordelte med samme forventning µ ogsamme standardavvik σ. La
X̄ =1n
n∑
i=1
Xi og S2 =1
n − 1
n∑
i=1
(Xi − X̄ )2
Da er den stokastiske variablen
T =X̄ − µS/√
n
t-fordelt med ν = (n − 1) frihetsgrader.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
41
W. S. Gosset alias Student
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
42
Historisk: Student-t fordelingen— W.S. Gosset (1876-1937) was employed by the Guinness Brewing
Company of Dublin.
— Sample sizes available for experimentation in brewing werenecessarily small, and Gosset knew that a correct way of dealingwith small samples was needed.
— He consulted Karl Pearson (1857-1936) of Universiy College inLondon about the problem. Pearson told him the current state ofknowledge was unsatisfactory.
— The following year Gosset undertook a course of study underPearson. An outcome of his study was the publication in 1908 ofGosset’s paper on "The Probable Error of a Mean," which introduceda form of what later became known as Student’s t-distribution.
— Gosset’s paper was published under the pseudonym "Student."
— The modern form of Student’s t-distribution was derived by R.A.Fisher and first published in 1925.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
43
t-fordelingen
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
44
DEF: t-fordelingTEO 8.5: La Z være en standard normalfordelt stokastisk variabel og
V være en kjikvadrat-fordelt stokastisk variabel med νfrihetsgrader. Hvis Z og V er uavhengige, er fordelingen tilden stokastiske variablen T
T =Z√V/ν
gitt ved sannsynlighetstettheten
h(t) =Γ[(ν + 1)/2]Γ(ν/2)
√πν
(1 +t2
ν)−(ν+1)/2
for −∞ < t < ∞. Denne fordelingen har navnet (Student)t−fordelingen med ν frihetsgrader.
— E(T ) = 0 hvis ν ≥ 2.— Var(T ) = νν−2 hvis ν ≥ 3.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
45
Fordelingen til S2
— Resultat: V = (n−1)S2
σ2=
∑ni=1 Z
2i − Z̄ 2 er kjikvadrat-fordelt med
ν = n − 1 frihetsgrader. Fordi:
i) X1, ..., Xn u.i.f. normal, E(Xi ) = µ og Var(Xi) = σ2.
ii) Zi =Xi−µ
σ er standard normalfordelt, og Z̄ =X̄−µ
σ√
ner
standard normalfordelt.
iii) Z 2i =(
Xi−µσ
)2er kjikvadrat-fordelt med 1 frihetsgrad.
Z̄ 2 =(
X̄−µσ√
n
)2er kjikvadrat-fordelt med 1 frihetsgrad.
iv)∑n
i=1 Z2i er kjikvadratfordelt med n frihetsgrader.
v) (n − 1)S2 =∑n
i=1(Xi − X̄ )2 =∑n
i=1(Xi − µ)2 − n(X̄ − µ)2,og dermed V = (n−1)S
2
σ2=
∑ni=1 Z
2i − Z̄ 2
vi)∑n
i=1 Z2i og Z̄
2 er uavhengige.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
46
Prediksjonsintervall for fremtidigobservasjon, normalfordeling
— For en normalfordeling med ukjent forventningsverdi µ, menkjent varians σ2, er et (1-α)100% prediksjonsintervall for enfremtidig observasjon x0 gitt som
x − zα2σ
√1 +
1n
< x0 < x + zα2 σ
√1 +
1n
hvor zα2
er verdien i normal-fordelingen som har areal α2 tilhøyre, dvs. P(Z > zα
2) = α2 .
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
47
Prediksjonsintervall for fremtidigobservasjon, normalfordeling
— For en normalfordeling med ukjent forventningsverdi µ, ogukjent varians σ2, er et (1-α)100% prediksjonsintervall for enfremtidig observasjon x0 gitt som
x − tα2 ,(n−1)
s
√1 +
1n
< x0 < x + tα2 ,(n−1)
s
√1 +
1n
hvor tα2 ,(n−1)
er verdien i t-fordelingen med n − 1 frihetsgradersom har areal α2 til høyre, dvs. P(T > tα2 ,(n−1)) =
α
2 , og
s2 =∑n
i=1(xi − x)2
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
48
To utvalg: eksempler
— Betong: to ulike oppskrifter, A og B, skal sammenlignes. Hvor storforskjell er det i styrken (“crushing strength”) for betong fra oppskriftA og fra oppskrift B?
— Sykdom: tester ut ny blodtrykksmedisin. Hvor mye bedre er den ennnåværende markedsledende blodtrykksmedisin?
— Kosthold: hvor stor vektreduksjon vil man oppleve ved å følge DrFedon Lindbergs kostråd i et halvt år? (balanse i blodsukker, lavglykemisk indeks)
— Bildekk: to typer dekk, A og B, skal sammenlignes mhp slitasje. Kanenten sette både A og B-dekk på hver bil eller noen biler med A ognoen biler med B.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
49
To utvalg: statistisk situasjon
— Ønsker å sammenligne to populasjoner basert på et u.i.f.utvalg fra hver populasjon.
— Studerer en egenskap som kan sies å være normalfordelt ihver populasjon,
— og ønsker å anslå differansen mellom forveningsverdien i de topopulasjonene
— og et intervall der vi har stor tillit til at den sanne differansen iforventningsverdiene ligger.
— Sammenligningene kan være parvise eller ikke parvise.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
50
To utvalg: Bensinforbruk
Problemstilling:
— Vil sammenligne to biltyper A og B mhp bensinforbruk.
— Utvalg 1: XAi :#km/liter for bil nummer i, type A.
— Utvalg 2: XBj :#km/liter for bil nummer j, type B.
— Anta at XAi er normalfordelt med ukjent µA og kjent σA =√
2km/liter.
— Anta at XBi er normalfordelt med ukjent µB og kjent σB =√
3 km/liter.
Observasjoner:
— nA = 12 målinger på bil A, med gjennomsnitt x̄A = 10 km/liter.
— nB = 10 målinger på bil B, med gjennomsnitt x̄B = 8 km/liter.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
51
To utvalg: estimatorer— XA1 , X
A2 , ..., X
AnA er et tilfeldig utvalg fra en populasjon som beskrives
av en normalfordeling med forventning µA og varians σ2A.
— XB1 , XB2 , ..., X
BnB er et tilfeldig utvalg fra en populasjon som beskrives
av en normalfordeling med forventning µB og varians σ2B .
— Estimator for µA − µB:µ̂A − µ̂B = XA − XB = 1nA
∑nAi=1 X
Ai − 1nB
∑nBj=1 X
Bj (intuitiv og SME).
— X A − X B er normalfordelt medE(X A − X B) = µA − µB
Var(X A − X B) =σ2AnA
+σ2BnB
— Hvis σA og σB er kjente så er Z standard normalfordelt.
Z =(XA − XB )− (µA − µB )
s
σ2A
nA+
σ2B
nB
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
52
To utvalg: konfidensintervall forµA − µB når σ2A og σ2B er kjente
— Hvis XA og X B er gjennomsnittene til to tilfeldig utvalg av størrelsenA og nB fra populasjoner med kjent varians σ2A og σ
2B , så er et
(1-α)100% konfidensintervall for µA − µB
(xA − xB)− z α2
√σ2AnA
+σ2BnB
< (µA − µB) <
(xA − xB) + z α2
√σ2AnA
+σ2BnB
hvor z α2
er verdien i standard normalfordelingen som har areal α2 tilhøyre, dvs. P(Z > z α
2) = α2 .
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
53
To utvalg: Bensinforbruk
95% konfidensintervall for µA − µB .
— Punktestimator: µ̂A − µ̂B = X A − X B .
— Punktestimat: x̄A − x̄B = 2 km/liter.
— 95% konfidensintervall: α = 0.05, z α2
= z0.025 = 1.96,
[2− 1.96√
212
+310
, 2 + 1.96
√212
+310
] = [0.66, 3.34]
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
54
To utvalg: σ2A = σ2B, men ukjente
— Hvis σ2A 6= σ2B lager vi
S2A =1
nA − 1
nA∑
i=1
(XAi − X A)2 og S2B =1
nB − 1
nB∑
j=1
(XBj − X B)2
— Hvis vi vet at σ2A = σ2B = σ
2 så kan vi lage en estimator S2p (pooled)basert på summen av kvadratavvikene i de to utvalgene:
S2p =1
nA + nB − 2[
nA∑
i=1
(XAi − X A)2 +nB∑
j=1
(XBj − XB)2]
=(nA − 1)S2A + (nB − 1)S2B
nA + nB − 2
der X A = 1nA∑nA
i=1 XAi og X B =
1nB
∑nBj=1 X
Bj . ’
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
55
To utvalg: konfidensintervall— (1− α)100% konfidensintervall for µA − µB :
• når σ2A og σ2B er kjent:
[(xA − xB)± z α2
√σ2AnA
+σ2BnB
]
• når σ2A = σ2B = σ2, men ukjente:
[(xA − xB)± t α2 ,(nA+nB−2)sp
√1nA
+1nB
]
• når σ2A og σ2B er ukjente (ikke like):
[(xA − xB)± t α2 ,ν
√s2AnA
+s2BnB
]
derν =
(s2A/nA + s2B/nB)
2
[(s2A/nA)2/(nA − 1)] + [(s
2B/nB)
2/(nB − 1)]
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
56
Konfidensintervall for µA − µBfor parvise observasjoner
— Hvis d og sd er gjennomsnittet og standardavviket til normalfordeltedifferanser av n par av tilfeldige observasjoner, så er et (1-α)100%konfidensintervall for µD = µA − µB
d − t α2 ,(n−1)
sd√n
< µD < d + t α2 ,(n−1)sd√
n
hvor t α2 ,(n−1)
er verdien i t-fordelingen med n − 1 frihetsgrader somhar areal α2 til høyre, dvs. P(T > t α2 ,(n−1)) =
α2 .
— Ser at dette er i tråd med ett utvalg, konfidensintervall for µ:
x − t α2 ,(n−1)
s√n
< µ < x + t α2 ,(n−1)
s√n
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
57
Eksempel: Dekkslitasje— Vil sammenligne slitasje til to typer bildekk, A og B.
1. Utstyr nA tilfeldig valgte biler med dekk av type A, og nB tilfeldigvalgte biler med dekk av type B.• XAi , i = 1, . . . , nA er slitasje (gj.snitt over 4 dekk) for
A-dekk-bilene.• XBj , j = 1, . . . , nB er slitasje (gj.snitt over 4 dekk) for
B-dekk-bilene.• XA1 , XA2 , . . . , XAnA , X
B1 , X
B2 , . . . , X
BnB alle uavhengige.
2. Utstyr n tilfeldig valgte biler med to dekk av type A og to av type B.• XAi , i = 1, . . . , n er slitasje til type A-dekk (gj.snitt over to dekk).• XBi , i = 1, . . . , n er slitasje til de n tilhørende parene av type
B-dekk (gj.snitt over to dekk).• XAi og XBi er ikke uavhengige, typisk positivt korrelert.• Parene (XA1 , XB1 ), (XA2 , XB2 ), . . . , (XAn , XBn ) er uavhengige.
Hvilken strategi er best?
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
58
Eksempel: Dekkslitasje (forts.)Valgte strategi 2: parvise observasjoner.
— n = 15 forsøk med observerte verdier for Di = XAi − XBi :di : 1.5 , -0.5 , 0.0 , 0.8 , 1.2 , 1.2 , 0.9 , -0.3 , 1.3 , 0.2 , -0.7 , 0.7 , 2.6, -0.3 , 2.2.
— Anta DA, DB, . . . , Dn u.i.f, Di ∼ n(d ; µD , σD), der µD og σD er ukjente.— Punktestimator for µD : µ̂D = D̄, estimat d̄ = 0.72.
— Punktestimator for σ2D : σ̂2D = S
2D =
1n−1
∑ni=1(Di − D̄)2, estimat
s2d = 0.97.
— 95% konfidensintervall for µD = E(Di ): α = 0.05,t α
2 ,n−1 = t0.025,14 = 2.145,
[d̄ ± t α2 ,(n−1)
sd√n
] = [0.72± 2.145√
0.97√15
]
= [0.18, 1.26]
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
59
Norske hoppdommere og Janne Ahonen
— Treneren til Janne Ahonen gikk (før OL) ut i pressen og menteat norske hoppdommere konsekvent gir Janne Ahonen laverestilkarakterer enn andre dommere.
— Norsk Regnesentral kikket på tallene fra sesongene2004-2006 (t.o.m. OL) og fant at de var enig med Ahonenstrener.
— Lenke til artikkel fra Forskning.no og mer og mer informasjonom gjennomsnittskarakterer finnes fra fagets hjemmeside.
— Vi ser på tall fra 36 hopprenn, gjennomsnittlig karakter tilAhonen fra norske dommere og fra internasjonale dommere(ikke norske og finske)
— Hvordan skal vi regne på dette?
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
61
Ahonen: to uavhengige utvalg
— XA1 , XA2 , ..., X
AnA er et tilfeldig utvalg fra en populasjon av stilkarakterer
til Ahonen fra norske dommere. Antar normalfordelt med forventningµA og varians σ2A = σ
2.
— XB1 , XB2 , ..., X
BnB er et tilfeldig utvalg fra en populasjon av stilkarakterer
til Ahonen fra internasjonale dommere (ikke norske og finske). Antarnormalfordelt med forventning µB og varians σ2B = σ
2.
— Antar A-utvalget er uavhengig av B-utvalget!
— Lik, men ukjent varians: Estimator S2p .
— Konfidensintervall
[(xA − xB)± t α2 ,(nA+nB−2)sp
√1nA
+1nB
]
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
63
Konfidensintervall for µA − µBfor parvise observasjoner
— Hvis d og sd er gjennomsnittet og standardavviket til normalfordeltedifferanser av n par av tilfeldige observasjoner, så er et (1-α)100%konfidensintervall for µD = µA − µB
d − t α2 ,(n−1)
sd√n
< µD < d + t α2 ,(n−1)sd√
n
hvor t α2 ,(n−1)
er verdien i t-fordelingen med n − 1 frihetsgrader somhar areal α2 til høyre, dvs. P(T > t α2 ,(n−1)) =
α2 .
— Ser at dette er i tråd med ett utvalg, konfidensintervall for µ:
x − t α2 ,(n−1)
s√n
< µ < x + t α2 ,(n−1)
s√n
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
64
Studenter og bilkjøring— Følgende tabell er tatt fra “TMA4245 spørreundersøkelsen”.
— Her angir n antall studenter i utvalget som hadde sertifikat, og xantall studenter som svarte at de er “bedre enn gjennomsnittet avNorges befolkning” til å kjøre bil.
n x xnMenn 102 50 0.49
Kvinner 37 9 0.24Alle 139 59 0.42
— a) Finn punktestimat og 99% konfidensintervall for andelen avstudenter som synes sine kjøreegenskaper er “bedre enngjennomsnittet”.
— b) Finn punktestimat og 99% konfidensintervall for differensenmellom andelen av mannlige studenter og kvinnlige studenter somsynes sine kjøreegenskaper er “bedre enn gjennomsnittet”.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
65
Estimering av andel: ett utvalg
— X er antall suksesser i et binomisk forsøk med parametereantallet n og andelen p. Vi vil estimere p. (n er kjent.)
— Estimator p̂ = Xn (intuitiv og SME), øving B3).
— E(p̂) = p og Var(p̂) = p(1−p)n .
— Tilnærmet (1− α)100% konfidensintervall for p(normaltilnærming):
[p̂ ± zα2
√p̂(1− p̂)
n]
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
66
Estimering av andel: to utvalg— XA er antall suksesser i et binomisk forsøk med parametere antallet
nA og andelen pA.
— XB er antall suksesser i et binomisk forsøk med parametere antalletnB og andelen pB.
— Vi vil estimere pA − pB .— Estimator p̂A − p̂B = XAnA −
XBnB
.
— E(p̂A − p̂B) = pA − pB og— Var(p̂A − p̂B) = pA(1−pA)nA +
pB(1−pB)nB
.
— Tilnærmet (1− α)100% konfidensintervall for pA − pB(normaltilnærming):
[(p̂A − p̂B)± z α2
√p̂A(1− p̂A)
nA+
p̂B(1− p̂B)nB
]
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
68
9.12: Konfidensintervall for varians— La X1, X2, ..., Xn være et tilfeldig utvalg fra en populasjon som
beskrives av en normalfordeling med forventning µ og varians σ2.
— S2 = 1n−1∑n
i=1(Xi − X̄)2 er en estimator for σ2 (forventningsrett, menikke SME).
— Størrelsen V = (n−1)S2
σ2er kjikvadrat-fordelt med n − 1 frihetsgrader.
1 − α
α 2α 2
0 χ2(1 − α 2) ν χ2α 2
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007
69
9.12: Konfidensintervall for varians
— Et (1− α)100% konfidensintervall for σ2 er
(n − 1)S2
χ2α2 ,(n−1)
< σ2 <(n − 1)S2
χ21−α2 ,(n−1)
hvor χ2α2 ,(n−1)
er verdien i kjikvadrat-fordelingen med n − 1frihetsgrader som har areal α2 til høyre, dvs.P(V > χ2α
2 ,(n−1)) = α2 , og χ
21−α2 ,(n−1)
er verdien i
kjikvadrat-fordelingen med n − 1 frihetsgrader som har areal α2til venstre, dvs. P(V < χ21−α2 ,(n−1)
) = α2 .
— Oppgave: se på Eksamen August 2003, oppgave 1.
www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007