Tilfeldig utvalg [8.1] Statistisk inferens U.i - NTNU...TMA4245 V2007: Eirik Mo [email protected] (utarbeidetav Mette Langaas), TMA4245 V2 007 2 Statistisk inferens Fra innsamling, bearbeiding,

Kapittel 8 og 9Ett- og toutvalgs estimering;statistisk inferens, forventningsretthet,punktestimat, intervallestimat og prediksjonsintervall ,estimere forventningsverdi, differanse, andel ogvarians,standardfeil, sannsynlighetsmaksimering

TMA4245 V2007: Eirik Mowww.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

2

Statistisk inferens

— Fra innsamling, bearbeiding, analyse og fortolkning avnumeriske data og målinger: trekke slutninger utover detman har observert.

— Vi ønsker å si noe generelt om en populasjon basert på etinnsamlet tilfeldig utvalg fra populasjonen.

— Bakgrunn: vår kunnskap i sannsynlighetsregning.

Populasjon Utvalg

Sannsynlighetsregning

Statistisk inferens

www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

3

Tilfeldig utvalg [8.1]

DEF 8.1: En populasjon er mengden av observasjoner som viønsker å studere, dvs. alle observasjoner det er mulig ågjøre. (Dersom elementene i populasjonen har fordelingf (x), kaller boka det en f (x)-populasjon.)

DEF 8.2: En utvalg er en delmengde av en populasjon.

Representativt utvalg: elementene som velges ut må ikke barerepresentere en delmengde av populasjonen som alle haren spesiell egenskap, de må kunne være “representanter”for hele populasjonen.

Uendelig populasjon: vi skal jobbe som om populasjonen vår er uendeligstor!


4

U.i.f

DEF 8.3: La X1, X2, ..., Xn være n uavhengige stokastiske variable,hver med den samme sannsynlighetsfordeling f (x). Videfinerer at X1, X2, ..., Xn er et tilfeldig utvalg av størrelsen fra f (x)-populasjonen og skriver den simultanesannsynlighetsfordelingen som

f (x1, x2, ..., xn) = f (x1)f (x2) · · · f (xn)

U.i.f: et tilfeldig utvalg (som over) blir da et sett med uavhengigeidentisk fordelte (u.i.f.) observasjoner.


5

Heat flow data

— Data fra NIST/SEMATECH e-Handbook of Statistical Methods

— Viser “heat flow meter calibration and stability analysis. Theresponse variable is a calibration factor.” n = 195.


6

BoksplottMin. 1st Qu. Median Mean 3rd Qu. Max.

9.197 9.246 9.262 9.261 9.276 9.328

9.20

9.22

9.24

9.26

9.28

9.30

9.32


7

Stamme- og bladdiagramLO: 9.196848

3 920. | 67

921* |

8 921. | 56899

11 922* | 011

16 922. | 55569

23 923* | 0011234

34 923. | 55678888999

46 924* | 001122234444

57 924. | 56667788888

73 925* | 0112222223333334

90 925. | 55556666777888899

(20) 926* | 00011111122233444444

85 926. | 5566777777888888999

66 927* | 000111123444

54 927. | 5555555677778889

38 928* | 001123444

29 928. | 556677888

20 929* | 011224

14 929. | 5799

10 930* | 0013

6 930. | 568

3 931* | 0

931. |

2 932* | 0

HI: 9.327973


8

Histogram

Histogram of heatflow

heatflow

Den

sity

9.20 9.25 9.30

05

1015


heatflow

Den

sity

9.20 9.22 9.24 9.26 9.28 9.30 9.32

05

1015

20


heatflow

Den

sity

9.20 9.22 9.24 9.26 9.28 9.30 9.32

05

1015

20


heatflow

Den

sity

9.20 9.22 9.24 9.26 9.28 9.30 9.32

05

1015

20


9

Normalplott— Empirisk kumulativ fordeling er F̂(x) = antall observasjoner mindre eller lik xn .

— Hvis data er normalfordelt ville vi forvente at F̂ (x) ligner på den kumulative fordelingsfunksjonen tilnormalfordelingen.

9.20 9.22 9.24 9.26 9.28 9.30 9.32

0.0

0.2

0.4

0.6

0.8

1.0

sort(heatflow)

FF

emp

9.20 9.22 9.24 9.26 9.28 9.30 9.32

0.0

0.2

0.4

0.6

0.8

1.0

sort(heatflow)F

Fem

p

— Hver observasjon er et punkt i diagrammet.

— Så justerer vi skalaen på y-aksen slik at det blir en lineær sammenheng når dataene er normalfordelte (brukeinvers funksjon til kumulativ fordeling).

— Noen bytter om på aksene.


10

Normal QQ-plott

−3 −2 −1 0 1 2 3

9.20

9.22

9.24

9.26

9.28

9.30

9.32

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s


11

Normal QQ-plott

Figurer fra NIST/SEMATECH e-Handbook of Statistical Methods,

http://www.itl.nist.gov/div898/handbook/


12

Estimering og hypotesetesting

Fenomen Defekte produkter i industriellprosess

Mengden melk i melkekartong

Hva vil vi vite? ESTIMERING: Hva er andelen de-fekte?

HYPOTESETESTING: Er det 1 litermelk i en 1 liters melkekartong?

Populasjon Alle produkter i prosessen. Alle melkekartonger levert.

Utføre eksperiment Undersøke produkt, er det defekteller ikke?

Undersøke melkekartong, hvor myemelk inneholder den?

Samler inn data uavhengig, repre-sentativt?

Sjekker n artikler og lar X være an-tall defekte. Vi finner x defekte.

Sjekker n melkekartonger, målerfor hver melkekartong X=”mengdenmelk”.

Stokastisk variabel med fordeling X er binomisk fordelt med n forsøkog ukjent sannsynlighet for defekt p.

X er normalfordelt med ukjent for-ventning µ og ukjent varians σ2.

Vi får: Finne beste anslag for p og et inter-vall der vi har stor tillit til at p ligger(konfidensintervall).

Finne beste anslag av µ og σ2, ogbruke anslagene (med grad av tillit)til å si hvor sikre vi er på at det er 1liter melk i melkekartongen.


13

TMA4240/TMA4245 Statistikk:Læringsmål

— 2005/2006:Emnet skal gi en innføring i grunnleggende begreper og metoder istatistikk.

— 2006/2007:Emnet skal gi studentene et grunnlag i sannsynlighetsregning ogstatistisk inferens, som gjør dem i stand til å gjenkjenne enklestatistiske standardsituasjoner innen teknologi og naturvitenskap, ogvite hvordan disse best kan analyseres. Videre skal studentenekunne forstå de viktigste begrepene innen statistikk ogsannsynlighetsregning, og kjenne til terminologien slik at de kankommunisere med en fagstatistiker i mer kompliserte situasjoner.


14

Estimering— Mål: finne “sannheten” om et fenomen i en populasjon.

— “Sannheten” knytter vi til en ukjent parameter, θ, i en valgt fordeling.

— Vi trekker et tilfeldig utvalg fra populasjonen; X1, X2, ..., Xn (u.i.f.).

— En estimator gir et anslag for den ukjente parameteren og er enfunksjon av stokastiske variabler, θ̂ = θ̂(X1, X2, ..., Xn).

— Hvilke egenskaper bør en god estimator ha?• Estimatoren bør være forventningsrett, dvs. E(θ̂) = θ.• Estimatoren bør ha minst mulig varians, Var(θ̂), og variansen

bør avta når antall observasjoner, n, øker.

— Hvordan kan vi finne estimatorer?• ved intuisjon,• ved matematisk metode.

— Sannsynlighetsmaksimeringsestimatoren (SME) finner det anslagetsom gjør at de observasjonene vi har gjort (utvalget) har maksimalrimelighet!


15

Forventingsrett estimatorDEF 9.1: En observator θ̂ er en forventningsrett estimator for

parameteren θ hvis

E(θ̂) = θ.

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

fx1


16

E(S2), s 232

nX

i=1

(Xi − X̄)2

=

nX

i=1

(Xi − µ + µ − X̄)2

=

nX

i=1

[(Xi − µ) − (X̄ − µ)]2

=

nX

i=1

(Xi − µ)2− 2(X̄ − µ)

nX

i=1

(Xi − µ) + n(X̄ − µ)2

=n

X

i=1

(Xi − µ)2− 2(X̄ − µ)n(X̄ − µ) + n(X̄ − µ)2

=n

X

i=1

(Xi − µ)2− n(X̄ − µ)2

E(S2) = E[1

n − 1

nX

i=1

(Xi − X̄)2] =

1

n − 1{E[

nX

i=1

(Xi − µ)2]− E [n(X̄ − µ)2 ]}

=1

n − 1[

nX

i=1

Var(Xi ) − nVar(X̄)] =1

n − 1[

nX

i=1

σ2− n

σ2

n]

=1

n − 1(nσ2 − σ2) = σ2


17

Mest effektive estimatorDEF 9.2: Hvis vi ser på alle mulige forventningsrette

estimatorene for en parameter θ, kaller vi den medminst varians for den mest effektive estimatoren tilθ.

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

fx3


18

Eksamen, juni 2004, 1c


19

Fordeling til gjennomsnittet, X̄

— Hvis X1, X2, . . . , Xn er uavhengige stokastiske variable, gjelder

E(n∑

i=1

aiXi) =n∑

i=1

aiE(Xi)

Var(n∑

i=1

aiXi) =n∑

i=1

a2i Var(Xi)

— Fra kapittel 7: Hvis X1, X2, . . . , Xn i tillegg er normalfordelte, vila1X1 + a2X2 + · · · anXn også være normalfordelt medforventning og varians som ovenfor.


20

Fordeling til gjennomsnittet X̄ [8.5]

TEO 8.2: Sentralgrenseteoremet La X1, X2, ..., Xn være et tilfeldigutvalg fra en fordeling med forventning µ og variansσ2. Da har vi at sannsynlighetsfordelingen til

Z =X̄ − µσ/√

n

går mot standard normalfordelingen, n(z; 0, 1), nårn →∞.


21

Sentralgrenseteoremet

Figure fra Devore.www.ntnu.no [email protected] (utarbeidet av Mette Langaas), TMA4245 V2007

22

SME [9.15]

DEF 9.6: Gitt uavhengige observasjoner x1, x2, . . . , xn fra ensannsynlighetstetthet (i det kontinuerlige tilfellet) elleren punktsannsynlighet (i det diskrete tilfellet) f (x ; θ).Da er sannsynlighetsmaksimeringsestimatoren(SME) for θ verdien som maksimererrimelighetsfunksjonen

L(x1, x2, . . . , xn, θ) = f (x1; θ) · f (x2; θ) · · · f (xn; θ).


Figur fra http://www.weibull.com/LifeDataWeb/maximum_likelihood_estimation.htm


24

SME for µ i normalfordelingen

— Tilfeldig utvalg, X1, X2, ..., Xn u.i.f normal n(x ; µ, σ).

— Husker mulige estimator for µ er X̄ . Hva er SME?

— Rimelighetsfunksjonen og logaritmen til rimelighetsfunksjonen::

L(x1, x2, ...xn, µ, σ2) =n∏

i=1

1√2πσ

e−1

2σ2(xi−µ)

2

=1

(2π)n/2(σ2)n/2e−

12σ2

Pni=1(xi−µ)

2

ln L(x1, x2, ...xn, µ, σ2) = −n2

ln(2π) − n2

ln σ2 − 12σ2

n∑

i=1

(xi − µ)2


25

SME for µ i normalfordelingen

— Derivere mhp µ:

∂ ln L(x1, x2, ...xn, µ, σ2)∂µ

=1σ2

n∑

i=1

(xi − µ)

— Finne µ̂ ved å sette ∂ ln L∂µ = 0:1σ2

∑ni=1(xi − µ̂) = 0.

µ̂ =1n

n∑

i=1

Xi = X̄


26

SME for σ2 i normalfordelingen— Husker mulig estimator for σ2 er S2. Hva er SME?

— Har logaritmen til rimelighetsfunksjonen, og vet at µ̂ = X̄ .

ln L(x1, x2, ...xn, µ, σ2) = −n

2ln(2π) − n

2ln σ2 − 1

2σ2

n∑

i=1

(xi − µ)2

— Derivere mhp σ2:∂ ln L(x1, x2, ...xn, µ, σ2)

∂σ2= − n

2σ2+

12(σ2)2

n∑

i=1

(xi − µ)2

— Finne σ̂2 ved å sette ∂ ln L∂(σ2)

= 0. Setter inn estimatet x̄ for µ.

− n2σ̂2

+1

2(σ̂2)2

n∑

i=1

(xi − x̄)2 = 0

−n + 1σ̂2

n∑

i=1

(xi − x̄)2 = 0 dvs. σ̂2 =1n

n∑

i=1

(Xi − X̄ )2


27

SME: steg1. Ønsker estimator for parameter θ, basert på

2. tilfeldig utvalg fra populasjon beskrevet ved kjent parametriskfordeling f (x ; θ).

3. Rimelighetsfunksjonen;

L(x1, x2, . . . , xn, θ) = f (x1; θ)f (x2; θ) · · · f (xn; θ).

4. Skal maksimere rimelighetsfunksjonen, lettere å jobbe med dennaturlige logaritmen til rimelighetsfunksjonen

l(x1, x2, . . . , xn, θ) = ln L(x1, x2, . . . , xn, θ)

5. Deriverer logaritmen til rimelighetsfunksjonen med hensyn på θ.

6. Setter den deriverte lik 0 og løser ut for θ. Dette blir vårsannsynlighetsmaksimeringsestimator for θ.(Kan også sjekke at dette er maksimum– og ikke minimum– ved åderivere en gang til og se at denne 2.deriverte er negativ.)


28

Estimering— Mål: finne “sannheten” om et fenomen i en populasjon.

— “Sannheten” knytter vi til en ukjent parameter, θ, i en valgt fordeling.

— Vi trekker et tilfeldig utvalg fra populasjonen; X1, X2, ..., Xn (u.i.f.).

— En estimator gir et anslag for den ukjente parameteren og er enfunksjon av stokastiske variabler, θ̂ = θ̂(X1, X2, ..., Xn).

— Estimatoren bør være forventningsrett, dvs. E(θ̂) = θ.

— Estimatoren bør ha minst mulig varians, Var(θ̂), og variansen børavta når antall observasjoner, n, øker.

— Sannsynlighetsmaksimeringsestimatoren (SME) finner det anslagetsom gjør at de observasjonene vi har gjort (utvalget) har maksimalrimelighet!

— I tillegg til punktestimatet kan vi lage et 95% konfidensintervall der vihar 95% tillit til at den sanne parameteren ligger.


29

Data fra DNA microarrays

— Studere effekt av trening på hjertet: måler forholdet mellomgenuttrykk for rotter trent i 48 timer og rotter som ikke har trent.

— 14000 gener studert, vi ser på genet: UI-R-A0-ar-f-11-0-UI medbeskrivelse ESTs Highly similar to INTERFERON REGULATORY FACTOR 3 [M.musculus]

— Kan anta at en transformasjon av genuttrykksforholdet for trenete ogutrenete rotter er normalfordelt.

• Positivt tall: genet er mer aktivt for trente enn for utrente rotter• Nær 0: genet er like aktivt for trente og utrente rotter.• Negativt tall: genet er mindre aktivt for trente enn for utrente

rotter.

— Observasjoner fra 12 par av trenete og utrente rotter:1.96 1.56 1.27 2.37 1.45 1.45 0.93 1.40 1.85 1.18 1.68 1.41

— µ̂ = x̄ = 1.54


30

Konfidensintervall for µmed σ kjent

— Hvis x̄ er gjennomsnittet av et tilfeldig utvalg av størrelse n fra enpopulasjon med kjent varians σ2, så er et (1-α)100%konfidensintervall for µ

x̄ − z α2

σ√n

< µ < x̄ + z α2

σ√n

hvor z α2

er verdien i standard normalfordelingen som har areal α2 tilhøyre, dvs. P(Z > z α

2) = α2 .


31

Konfidensintervall for µmed σ kjent

x̄ − zα2

σ√n

< µ < x̄ + zα2

σ√n

1 − α

α 2 α 2

− zα 2 0 zα 2


32

Intervallestimering med rottedata

— Antar målinger er normalfordelte.

— Observasjoner fra 12 par av trenete og utrente rotter:1.96 1.56 1.27 2.37 1.45 1.45 0.93 1.40 1.85 1.18 1.68 1.41

— 95% konfidensintervall for µ nå σ2 er kjent (antar σ2=0.1):

x̄ − z α2

σ√n

< µ < x̄ + z α2

σ√n

— Rottedata: µ̂ = x̄ = 1.54, n=12, z0.025 = 1.96, 95% konfidensintervallfor µ er [1.36, 1.72].


33

Intervallestimering med rottedata

— Hvis vi ikke kjenner σ2 kan vi estimere den med S2, og får 95%konfidensintervall for µ nå σ2 er ukjent:

x̄ − t α2 ,(n−1)

s√n

< µ < x̄ + t α2 ,(n−1)

s√n

— Rottedata: S2=0.146, t0.025,11 = 2.201, 95% konfidensintervall for µer da [1.30, 1.78].


34

Kvantiler N og t2.5%: N=black, t.15=blue, t.10=red

−1.96 1.96

−2.23 2.23−2.13 2.13


35

Konfidensintervall for µmed σ ukjent

— Hvis x̄ er gjennomsnittet og s er estimert standardavvik av et tilfeldigutvalg av størrelse n fra en populasjon med ukjent varians σ2, så eret (1-α)100% konfidensintervall for µ

x̄ − t α2 ,(n−1)

s√n

< µ < x̄ + t α2 ,(n−1)

s√n

hvor t α2 ,(n−1)

er verdien i t-fordelingen med n − 1 frihetsgrader somhar areal α2 til høyre, dvs. P(T > t α2 ,(n−1)) =

α2 .


36

Konfidensintervall for µmed σ ukjent

x̄ − tα2 ,(n−1)

s√n

< µ < x̄ + tα2 ,(n−1)

s√n

1 − α

α 2 α 2

− tα 2 0 tα 2


37

Test nasjonen

— Lørdag 27. november 2004 ble TV-programmet “Test nasjonen”sendt på NRK1. Deltakere i studium svarte på spørsmål og fikktildelt en IQ-score.

— Testen var laget slik at man forventet at IQ-score til en tilfeldig valgtperson skulle være normalfordelt med forventningsverdi 100 ogstandardavvik 15.

— Deltakerne var delt inn i ulike grupper (av rundt 40 deltakere).


38

Test nasjonen (forts)Følgende gjennomsnittsscore be oppnådd:

Sekretærer 88Reality-deltakere 94Kjendiser 98Svensker 99Kroppsbyggere 100Finansfolk 101Journalister 102

— Er deltakerne valgt ut tilfeldig fra populasjonen bestående av Norgesbefolkning i gitte gruppe?

— Vi antar at det er kjent at σ = 15, og at hver gruppe bestod av 40deltakere. Lag 95% konfidensintervaller for de ulike gruppene.


39

Ett normalfordelt utvalg:punkt- og intervallestimering

— Eksempler: melkekartonger, genuttrykk, høyde, betongstyrke, IQ.

— X1, X2, ..., Xn er et tilfeldig utvalg fra en populasjon som beskrives aven normalfordeling med forventning µ og varians σ2.

— µ̂ = X = 1n∑n

i=1 Xi estimator for µ (intuitiv og SME).

— E(X ) = µ, Var(X ) = σ2

n .

— Hvis σ2 er ukjent er S2 = 1n−1∑n

i=1(Xi − X)2 estimator for σ2(forventningsrett, men ikke SME).

— (1− α)100% konfidensintervall for µ når σ2 er kjent:

[x − z α2

σ√n

, x + z α2

σ√n

]

— (1− α)100% konfidensintervall for µ når σ2 er ukjent?


40

T og t-fordeling

COR: La X1, X2, ..., Xn være uavhengige stokastiske variablersom alle er normalfordelte med samme forventning µ ogsamme standardavvik σ. La

X̄ =1n

n∑

i=1

Xi og S2 =1

n − 1

n∑

i=1

(Xi − X̄ )2

Da er den stokastiske variablen

T =X̄ − µS/√

n

t-fordelt med ν = (n − 1) frihetsgrader.


41

W. S. Gosset alias Student


42

Historisk: Student-t fordelingen— W.S. Gosset (1876-1937) was employed by the Guinness Brewing

Company of Dublin.

— Sample sizes available for experimentation in brewing werenecessarily small, and Gosset knew that a correct way of dealingwith small samples was needed.

— He consulted Karl Pearson (1857-1936) of Universiy College inLondon about the problem. Pearson told him the current state ofknowledge was unsatisfactory.

— The following year Gosset undertook a course of study underPearson. An outcome of his study was the publication in 1908 ofGosset’s paper on "The Probable Error of a Mean," which introduceda form of what later became known as Student’s t-distribution.

— Gosset’s paper was published under the pseudonym "Student."

— The modern form of Student’s t-distribution was derived by R.A.Fisher and first published in 1925.


43

t-fordelingen


44

DEF: t-fordelingTEO 8.5: La Z være en standard normalfordelt stokastisk variabel og

V være en kjikvadrat-fordelt stokastisk variabel med νfrihetsgrader. Hvis Z og V er uavhengige, er fordelingen tilden stokastiske variablen T

T =Z√V/ν

gitt ved sannsynlighetstettheten

h(t) =Γ[(ν + 1)/2]Γ(ν/2)

√πν

(1 +t2

ν)−(ν+1)/2

for −∞ < t < ∞. Denne fordelingen har navnet (Student)t−fordelingen med ν frihetsgrader.

— E(T ) = 0 hvis ν ≥ 2.— Var(T ) = νν−2 hvis ν ≥ 3.


45

Fordelingen til S2

— Resultat: V = (n−1)S2

σ2=

∑ni=1 Z

2i − Z̄ 2 er kjikvadrat-fordelt med

ν = n − 1 frihetsgrader. Fordi:

i) X1, ..., Xn u.i.f. normal, E(Xi ) = µ og Var(Xi) = σ2.

ii) Zi =Xi−µ

σ er standard normalfordelt, og Z̄ =X̄−µ

σ√

ner

standard normalfordelt.

iii) Z 2i =(

Xi−µσ

)2er kjikvadrat-fordelt med 1 frihetsgrad.

Z̄ 2 =(

X̄−µσ√

n

)2er kjikvadrat-fordelt med 1 frihetsgrad.

iv)∑n

i=1 Z2i er kjikvadratfordelt med n frihetsgrader.

v) (n − 1)S2 =∑n

i=1(Xi − X̄ )2 =∑n

i=1(Xi − µ)2 − n(X̄ − µ)2,og dermed V = (n−1)S

2

σ2=

∑ni=1 Z

2i − Z̄ 2

vi)∑n

i=1 Z2i og Z̄

2 er uavhengige.


46

Prediksjonsintervall for fremtidigobservasjon, normalfordeling

— For en normalfordeling med ukjent forventningsverdi µ, menkjent varians σ2, er et (1-α)100% prediksjonsintervall for enfremtidig observasjon x0 gitt som

x − zα2σ

√1 +

1n

< x0 < x + zα2 σ

√1 +

1n

hvor zα2

er verdien i normal-fordelingen som har areal α2 tilhøyre, dvs. P(Z > zα

2) = α2 .


47

Prediksjonsintervall for fremtidigobservasjon, normalfordeling

— For en normalfordeling med ukjent forventningsverdi µ, ogukjent varians σ2, er et (1-α)100% prediksjonsintervall for enfremtidig observasjon x0 gitt som

x − tα2 ,(n−1)

s

√1 +

1n

< x0 < x + tα2 ,(n−1)

s

√1 +

1n

hvor tα2 ,(n−1)

er verdien i t-fordelingen med n − 1 frihetsgradersom har areal α2 til høyre, dvs. P(T > tα2 ,(n−1)) =

α

2 , og

s2 =∑n

i=1(xi − x)2


48

To utvalg: eksempler

— Betong: to ulike oppskrifter, A og B, skal sammenlignes. Hvor storforskjell er det i styrken (“crushing strength”) for betong fra oppskriftA og fra oppskrift B?

— Sykdom: tester ut ny blodtrykksmedisin. Hvor mye bedre er den ennnåværende markedsledende blodtrykksmedisin?

— Kosthold: hvor stor vektreduksjon vil man oppleve ved å følge DrFedon Lindbergs kostråd i et halvt år? (balanse i blodsukker, lavglykemisk indeks)

— Bildekk: to typer dekk, A og B, skal sammenlignes mhp slitasje. Kanenten sette både A og B-dekk på hver bil eller noen biler med A ognoen biler med B.


49

To utvalg: statistisk situasjon

— Ønsker å sammenligne to populasjoner basert på et u.i.f.utvalg fra hver populasjon.

— Studerer en egenskap som kan sies å være normalfordelt ihver populasjon,

— og ønsker å anslå differansen mellom forveningsverdien i de topopulasjonene

— og et intervall der vi har stor tillit til at den sanne differansen iforventningsverdiene ligger.

— Sammenligningene kan være parvise eller ikke parvise.


50

To utvalg: Bensinforbruk

Problemstilling:

— Vil sammenligne to biltyper A og B mhp bensinforbruk.

— Utvalg 1: XAi :#km/liter for bil nummer i, type A.

— Utvalg 2: XBj :#km/liter for bil nummer j, type B.

— Anta at XAi er normalfordelt med ukjent µA og kjent σA =√

2km/liter.

— Anta at XBi er normalfordelt med ukjent µB og kjent σB =√

3 km/liter.

Observasjoner:

— nA = 12 målinger på bil A, med gjennomsnitt x̄A = 10 km/liter.

— nB = 10 målinger på bil B, med gjennomsnitt x̄B = 8 km/liter.


51

To utvalg: estimatorer— XA1 , X

A2 , ..., X

AnA er et tilfeldig utvalg fra en populasjon som beskrives

av en normalfordeling med forventning µA og varians σ2A.

— XB1 , XB2 , ..., X

BnB er et tilfeldig utvalg fra en populasjon som beskrives

av en normalfordeling med forventning µB og varians σ2B .

— Estimator for µA − µB:µ̂A − µ̂B = XA − XB = 1nA

∑nAi=1 X

Ai − 1nB

∑nBj=1 X

Bj (intuitiv og SME).

— X A − X B er normalfordelt medE(X A − X B) = µA − µB

Var(X A − X B) =σ2AnA

+σ2BnB

— Hvis σA og σB er kjente så er Z standard normalfordelt.

Z =(XA − XB )− (µA − µB )

s

σ2A

nA+

σ2B

nB


52

To utvalg: konfidensintervall forµA − µB når σ2A og σ2B er kjente

— Hvis XA og X B er gjennomsnittene til to tilfeldig utvalg av størrelsenA og nB fra populasjoner med kjent varians σ2A og σ

2B , så er et

(1-α)100% konfidensintervall for µA − µB

(xA − xB)− z α2

√σ2AnA

+σ2BnB

< (µA − µB) <

(xA − xB) + z α2

√σ2AnA

+σ2BnB

hvor z α2

er verdien i standard normalfordelingen som har areal α2 tilhøyre, dvs. P(Z > z α

2) = α2 .


53

To utvalg: Bensinforbruk

95% konfidensintervall for µA − µB .

— Punktestimator: µ̂A − µ̂B = X A − X B .

— Punktestimat: x̄A − x̄B = 2 km/liter.

— 95% konfidensintervall: α = 0.05, z α2

= z0.025 = 1.96,

[2− 1.96√

212

+310

, 2 + 1.96

√212

+310

] = [0.66, 3.34]


54

To utvalg: σ2A = σ2B, men ukjente

— Hvis σ2A 6= σ2B lager vi

S2A =1

nA − 1

nA∑

i=1

(XAi − X A)2 og S2B =1

nB − 1

nB∑

j=1

(XBj − X B)2

— Hvis vi vet at σ2A = σ2B = σ

2 så kan vi lage en estimator S2p (pooled)basert på summen av kvadratavvikene i de to utvalgene:

S2p =1

nA + nB − 2[

nA∑

i=1

(XAi − X A)2 +nB∑

j=1

(XBj − XB)2]

=(nA − 1)S2A + (nB − 1)S2B

nA + nB − 2

der X A = 1nA∑nA

i=1 XAi og X B =

1nB

∑nBj=1 X

Bj . ’


55

To utvalg: konfidensintervall— (1− α)100% konfidensintervall for µA − µB :

• når σ2A og σ2B er kjent:

[(xA − xB)± z α2

√σ2AnA

+σ2BnB

]

• når σ2A = σ2B = σ2, men ukjente:

[(xA − xB)± t α2 ,(nA+nB−2)sp

√1nA

+1nB

]

• når σ2A og σ2B er ukjente (ikke like):

[(xA − xB)± t α2 ,ν

√s2AnA

+s2BnB

]

derν =

(s2A/nA + s2B/nB)

2

[(s2A/nA)2/(nA − 1)] + [(s

2B/nB)

2/(nB − 1)]


56

Konfidensintervall for µA − µBfor parvise observasjoner

— Hvis d og sd er gjennomsnittet og standardavviket til normalfordeltedifferanser av n par av tilfeldige observasjoner, så er et (1-α)100%konfidensintervall for µD = µA − µB

d − t α2 ,(n−1)

sd√n

< µD < d + t α2 ,(n−1)sd√

n

hvor t α2 ,(n−1)


α2 .

— Ser at dette er i tråd med ett utvalg, konfidensintervall for µ:

x − t α2 ,(n−1)

s√n

< µ < x + t α2 ,(n−1)

s√n


57

Eksempel: Dekkslitasje— Vil sammenligne slitasje til to typer bildekk, A og B.

1. Utstyr nA tilfeldig valgte biler med dekk av type A, og nB tilfeldigvalgte biler med dekk av type B.• XAi , i = 1, . . . , nA er slitasje (gj.snitt over 4 dekk) for

A-dekk-bilene.• XBj , j = 1, . . . , nB er slitasje (gj.snitt over 4 dekk) for

B-dekk-bilene.• XA1 , XA2 , . . . , XAnA , X

B1 , X

B2 , . . . , X

BnB alle uavhengige.

2. Utstyr n tilfeldig valgte biler med to dekk av type A og to av type B.• XAi , i = 1, . . . , n er slitasje til type A-dekk (gj.snitt over to dekk).• XBi , i = 1, . . . , n er slitasje til de n tilhørende parene av type

B-dekk (gj.snitt over to dekk).• XAi og XBi er ikke uavhengige, typisk positivt korrelert.• Parene (XA1 , XB1 ), (XA2 , XB2 ), . . . , (XAn , XBn ) er uavhengige.

Hvilken strategi er best?


58

Eksempel: Dekkslitasje (forts.)Valgte strategi 2: parvise observasjoner.

— n = 15 forsøk med observerte verdier for Di = XAi − XBi :di : 1.5 , -0.5 , 0.0 , 0.8 , 1.2 , 1.2 , 0.9 , -0.3 , 1.3 , 0.2 , -0.7 , 0.7 , 2.6, -0.3 , 2.2.

— Anta DA, DB, . . . , Dn u.i.f, Di ∼ n(d ; µD , σD), der µD og σD er ukjente.— Punktestimator for µD : µ̂D = D̄, estimat d̄ = 0.72.

— Punktestimator for σ2D : σ̂2D = S

2D =

1n−1

∑ni=1(Di − D̄)2, estimat

s2d = 0.97.

— 95% konfidensintervall for µD = E(Di ): α = 0.05,t α

2 ,n−1 = t0.025,14 = 2.145,

[d̄ ± t α2 ,(n−1)

sd√n

] = [0.72± 2.145√

0.97√15

]

= [0.18, 1.26]


59

Norske hoppdommere og Janne Ahonen

— Treneren til Janne Ahonen gikk (før OL) ut i pressen og menteat norske hoppdommere konsekvent gir Janne Ahonen laverestilkarakterer enn andre dommere.

— Norsk Regnesentral kikket på tallene fra sesongene2004-2006 (t.o.m. OL) og fant at de var enig med Ahonenstrener.

— Lenke til artikkel fra Forskning.no og mer og mer informasjonom gjennomsnittskarakterer finnes fra fagets hjemmeside.

— Vi ser på tall fra 36 hopprenn, gjennomsnittlig karakter tilAhonen fra norske dommere og fra internasjonale dommere(ikke norske og finske)

— Hvordan skal vi regne på dette?



61

Ahonen: to uavhengige utvalg

— XA1 , XA2 , ..., X

AnA er et tilfeldig utvalg fra en populasjon av stilkarakterer

til Ahonen fra norske dommere. Antar normalfordelt med forventningµA og varians σ2A = σ

2.

— XB1 , XB2 , ..., X

BnB er et tilfeldig utvalg fra en populasjon av stilkarakterer

til Ahonen fra internasjonale dommere (ikke norske og finske). Antarnormalfordelt med forventning µB og varians σ2B = σ

2.

— Antar A-utvalget er uavhengig av B-utvalget!

— Lik, men ukjent varians: Estimator S2p .

— Konfidensintervall

[(xA − xB)± t α2 ,(nA+nB−2)sp

√1nA

+1nB

]



63

Konfidensintervall for µA − µBfor parvise observasjoner

— Hvis d og sd er gjennomsnittet og standardavviket til normalfordeltedifferanser av n par av tilfeldige observasjoner, så er et (1-α)100%konfidensintervall for µD = µA − µB

d − t α2 ,(n−1)

sd√n

< µD < d + t α2 ,(n−1)sd√

n

hvor t α2 ,(n−1)


α2 .

— Ser at dette er i tråd med ett utvalg, konfidensintervall for µ:

x − t α2 ,(n−1)

s√n

< µ < x + t α2 ,(n−1)

s√n


64

Studenter og bilkjøring— Følgende tabell er tatt fra “TMA4245 spørreundersøkelsen”.

— Her angir n antall studenter i utvalget som hadde sertifikat, og xantall studenter som svarte at de er “bedre enn gjennomsnittet avNorges befolkning” til å kjøre bil.

n x xnMenn 102 50 0.49

Kvinner 37 9 0.24Alle 139 59 0.42

— a) Finn punktestimat og 99% konfidensintervall for andelen avstudenter som synes sine kjøreegenskaper er “bedre enngjennomsnittet”.

— b) Finn punktestimat og 99% konfidensintervall for differensenmellom andelen av mannlige studenter og kvinnlige studenter somsynes sine kjøreegenskaper er “bedre enn gjennomsnittet”.


65

Estimering av andel: ett utvalg

— X er antall suksesser i et binomisk forsøk med parametereantallet n og andelen p. Vi vil estimere p. (n er kjent.)

— Estimator p̂ = Xn (intuitiv og SME), øving B3).

— E(p̂) = p og Var(p̂) = p(1−p)n .

— Tilnærmet (1− α)100% konfidensintervall for p(normaltilnærming):

[p̂ ± zα2

√p̂(1− p̂)

n]


66

Estimering av andel: to utvalg— XA er antall suksesser i et binomisk forsøk med parametere antallet

nA og andelen pA.

— XB er antall suksesser i et binomisk forsøk med parametere antalletnB og andelen pB.

— Vi vil estimere pA − pB .— Estimator p̂A − p̂B = XAnA −

XBnB

.

— E(p̂A − p̂B) = pA − pB og— Var(p̂A − p̂B) = pA(1−pA)nA +

pB(1−pB)nB

.

— Tilnærmet (1− α)100% konfidensintervall for pA − pB(normaltilnærming):

[(p̂A − p̂B)± z α2

√p̂A(1− p̂A)

nA+

p̂B(1− p̂B)nB

]



68

9.12: Konfidensintervall for varians— La X1, X2, ..., Xn være et tilfeldig utvalg fra en populasjon som

beskrives av en normalfordeling med forventning µ og varians σ2.

— S2 = 1n−1∑n

i=1(Xi − X̄)2 er en estimator for σ2 (forventningsrett, menikke SME).

— Størrelsen V = (n−1)S2

σ2er kjikvadrat-fordelt med n − 1 frihetsgrader.

1 − α

α 2α 2

0 χ2(1 − α 2) ν χ2α 2


69

9.12: Konfidensintervall for varians

— Et (1− α)100% konfidensintervall for σ2 er

(n − 1)S2

χ2α2 ,(n−1)

< σ2 <(n − 1)S2

χ21−α2 ,(n−1)

hvor χ2α2 ,(n−1)

er verdien i kjikvadrat-fordelingen med n − 1frihetsgrader som har areal α2 til høyre, dvs.P(V > χ2α

2 ,(n−1)) = α2 , og χ

21−α2 ,(n−1)

er verdien i

kjikvadrat-fordelingen med n − 1 frihetsgrader som har areal α2til venstre, dvs. P(V < χ21−α2 ,(n−1)

) = α2 .

— Oppgave: se på Eksamen August 2003, oppgave 1.


Documents

Tilfeldig utvalg [8.1] Statistisk inferens U.i - NTNU...TMA4245 V2007: Eirik Mo [email protected] (utarbeidetav Mette Langaas), TMA4245 V2 007 2 Statistisk inferens Fra innsamling, bearbeiding,