Upload
talulah-taylor
View
21
Download
1
Embed Size (px)
DESCRIPTION
VERJETNOST IN STATISTIKA. PRESKUŠANJE STATISTIČNIH DOMNEV. primerjamo dve domnevi: H 0 : ničelna domneva in H 1 : alternativna domneva ( npr. H 0 trdi, da porazdelitev ustreza zakonu P(2), H 1 pa, da ustreza zakonu P(3.5)). PRESKU ŠANJE STATISTIČNIH DOMNEV. - PowerPoint PPT Presentation
Citation preview
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
1
PRESKUŠANJE STATISTIČNIH DOMNEV
Statistična domneva je trditev o porazdelitvenem zakonu slučajne spremeljivke, ki jo želimo potrditi ali ovreči na podlagi vrednosti, ki jih zavzame na nekem vzorcu.
parametrične domneve (trditve o parametrih znanega porazdelitvenega zakona, npr. Poissonovo porazdeljena spremenljivka ima povrečje a)
neparametrične domneve(trditve o naravi porazdelitvenega zakona, npr. spremenljivka je normalno porazdeljena)
Domneva je enostavna, če v celoti določa porazdelitev (tip in parametre), sicer pa je sestavljena.
(npr. če H0 trdi, da je porazdelitev Poissonova z neznanim parametrom - H1 pa, da ni Poissonova, sta obe sestavljeni)
Omejili se bomo na osnovne primere parametričnih domnev, ko je vsaj ničelna domneva enostavna.
primerjamo dve domnevi:
H0: ničelna domneva in H1: alternativna domneva
(npr. H0 trdi, da porazdelitev ustreza zakonu P(2), H1 pa, da ustreza zakonu P(3.5))
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
2
Leta 2003 je bilo v Sloveniji 17321 živorojenih otrok, od tega 8930 dečkov in 8391 deklic. Zanima nas, ali je to v nasprotju z domnevo, da je rojstvo dečka enako verjetno kot rojstvo deklice.
Izberemo majhno število (npr. 0.05 ali 0.01) in poiščemo kritično vrednost c, da je pri pogoju p=0.5 verjetnost P(X > c)=.
Za slučajno spremenljivko X vzamemo število rojstev dečkov. X je porazdeljena binomsko b(n,p). H0 je enostavna domneva p=0.5, H1 je sestavljena domneva p > 0.5.
Če je število dečkov večje od c, potem H0 zavrnemo, v nasprotnem primeru pa je ne zavrnemo. Binomsko porazdelitev b(17321,0.5) aproksimiramo z N(8660.5, 65.80), in vzamemo =0.05.
0 050 05 0 05
0 050 05 0 05
1 8660 51 1 0 05
2 65 808660 5 8
8768660 5
0 45 1 6565 80 65 8
50
.
.
..
. .
c .P(X c ) P(X c ) Φ .
.c . c .
Φ . . . .
c .
Ker je dejanska vrednost (8930) večja od c0.05, ničelno domnevo zavrnemo.
Pri 1% značilnosti preskusa dobimo c0.01=8813.5, torej domnevo zavrnemo tudi pri ostrejšem preskusu.
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
3
Enostavna parametrična domneva u=u0 ima tri alternativne parametrične domneve:
u > u0
u < u0
u ≠ u0
Za prvo in drugo alternativo pravimo, da sta enostranski, za tretjo pa, da je dvostranska.
u0 c
sprejmemo zavrnemo
c u0
zavrnemo sprejmemo
c1 u0 c2
zavrnemo sprejmemo zavrnemo
Pri preskušanju trdnosti nekega materiala je smiselna enostranska alternativa, saj nas ne moti, če je le-ta trdnejši kot pričakujemo. Pri preskušanju odstopov velikosti vijaka glede na matico pa raje oblikujemo dvostransko alternativo.
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
4
Z porazdeljena po N(0,1) - kako določimo c?
11 1 2
2α α α α
αα P( Z c ) P( Z c ) Φ c Φ c
1 11 1
2 2α α α αα P(Z c ) P(Z c ) Φ c Φ c - α
1 1
2 2α α αα P(Z c ) Φ c Φ c α
Podobno ravnamo pri drugih preskusih. Pri t-testu tvorimo in upoštevamo, da je T porazdeljen po zakonu S(n-1).
Kritične vrednosti za dvostranski poskus pri značilnosti so v (n-1)-vivrstici in stolpcu, ki ustreza .
Kritične vrednosti za enostranski poskusa pa so v stolpcu, ki ustreza .
X - aT n
s
2
α
dvostranski preskus:
enostranski preskus:
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
5
Povprečje 10 meritev gostote neke snovi nam je dalo 1.35 g/cm3, čeprav bi teoretično pričakovali gostoto 1.2 g/cm3. Na podlagi izkušenj vemo, da je pri tovrstnem merjenju standardna napaka =0.25g/cm3. Ali na podlagi tega lahko zavrnemo H0( =1.2 g/cm3)? Značilnost preskusa naj bo 5%.
1.) H1( ≠1.2) (dvostranski preskus)
1 35 1 210 1 89
0 25
X - ρ . .Z n .
σ .
0 05 0 050 475 1 96. .Φ c . c . Ničelne domneve ne zavrnemo.(testna vrednost je manjša od kritične)
2.) H1( > 1.2) (enostranski preskus)
0 05 0 050 45 1 65. .Φ c . c . Ničelno domnevo zavrnemo.(testna vrednost je večja od kritične)
Pri sestavljeni alternativi lahko manj verjetni del alternative zmanjša možnost za izključitev ničelne domneve.
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
6
Splošni problem: kako ugotovimo, ali je vzorec X1,...,Xn v skladu z domnevo, da je opazovana populacija porazdeljena po nekem zakonu F(x) ?
Lotimo se ga takole (Pearsonov 2 – test, Goodness of Fit):
1. Realno os razdelimo na intervale I1,...,IK tako, da vsak vsebuje vsaj 5 elementov vzorca. Število vzorcev na intervalu Ik označimo z bk.
2. Ob privzetku, da je porazdelitev populacije F(x) izračunamo teoretično število vzorcev na intervalu Ik in ga označimo z ek.
220
1
( )Kk k
k k
b eχ
e
3. Izračunamo deviacijo
Dejstvo: 0
2 je porazdeljena po zakonu 2(K-1).
4. Za izbrano stopnjo značilnosti določimo 2 iz enačbe P( 2
≥ 2 )=.
Domnevo zavrnemo, če je 0
2 ≥ 2
.
Kovanec vržemo 50 krat in 29-krat dobimo cifro. Ali lahko sklepamo, da je popačen?
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
7
V našem primeru postavimo grb=0, cifra=1 in intervala I1=(-∞,0.5] in I1=(0.5,+∞).
Dobimo: b0=21, b1=29, e0=e1=25 in 0
2 = 16/25+16/25=1.28
Za 2(1) in pri stopnji značilnosti =5% je mejna vrednost 2 =3.841, zato
domneve, da je kovanec pošten ne zavrnemo.
Koliko cifer bi morali dobiti pri 50 metih, da bi lahko na 5% stopnji značilnosti zavrnili domnevo o poštenosti kocke?
Odstop označimo z a in rešimo a2/25+a2/25 > 3.841, kar nam da a ≥ 7. To pomeni, da bi pri 32 cifrah ali več zavrnili domnevo o poštenosti kocke.
Na stopnji značilnosti 1% pa bi jo zavrnili šele pri 35 cifrah ali več.
G. Mendel je pri enem svojih znamenitih poskusov dobil 355 rumenih in 123 zelenih grahov. Ali je to v skladu z domnevo, da je razmerje med rumenimi in zelenimi 3:1?
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
8
Odvisna vzorca Bolnik Število dodatnih ur spanja
X (zdravilo A) Y (zdravilo B) 1 1.9 0.7 2 0.8 -1.6 3 1.1 -0.2 4 0.1 -1.2 5 -0.1 -0.1 6 4.4 3.4 7 5.5 3.7 8 1.6 0.8 9 4.6 0.0
10 3.4 2.0
Na bolnikih so preskušali vpliv dveh zdravil (A in B) proti nespečnosti. Ali lahko na podlagi podatka o dodatnem številu ur spanja sklepamo o tem, da je eno zdravilo bolj učinkovito od drugega?
Privzemimo, da imamo rezultate vpliva obeh zdravil na istih bolnikih. Tedaj naredimo parni t-test.(Če bi imeli rezultate na različnih bolnikih, bi morali uporabiti šibkejši neparni t-test.)
Tvorimo razliko Z=X-Y.
Primerjamo H0(a=0) proti H1(a≠0).
Z Z2
1.2 1.44 2.4 5.76 1.3 1.69 1.3 1.69 0.0 0.00 1.0 1.00 1.8 3.24 0.8 0.64 4.6 21.16 1.4 1.96
15.8 38.58
2
1.58
1 51, 1.23
Z
s . s
1.58 010 4.06
1.23t
0.025 2.26 4.06t
Pri 95% stopnji zaupanja domneve, da sta zdravili enakovredni zavrnemo.
Dejstvo: porazdeljena je po Studentovem zakonu S(n-1).
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
9
X Y1,07 3,351,11 3,501,23 3,691,24 3,701,24 3,771,26 3,801,30 3,981,35 4,011,41 4,121,42 4,121,44 4,201,48 4,281,57 4,411,57 4,441,61 4,601,63 4,581,69 4,701,75 4,781,75 4,831,79 4,90
LINEARNA REGRESIJA
S pomočjo metode najmanjših kvadratov lahko določimo premico, ki se najbolje prilega dani množici točk v ravnini.
Statistično pa so vrednosti Y podvržene naključnim vplivom, zato je le do določene mere verjetno, da so izračunani koeficienti regresijske premice a+bX blizu dejanskih.
Velja: (1) Interval zaupanja za smerni koeficient premice je
kjer je t mejna vrednost na stopnji zaupanja pri porazdelitvi S(n-2).
(2) r(X,Y)2 je število, ki pove, kolikšen delež razpršenosti spremenljivke Y je pojasnjen z razpršenostjo X.
2 2( ) ( ),
( ) ( )2 2
c cD Y D Yb b b b
D X D Xn n
MATEMATIKA 2
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV
10
X Y1,07 3,351,11 3,501,23 3,691,24 3,701,24 3,771,26 3,801,30 3,981,35 4,011,41 4,121,42 4,121,44 4,201,48 4,281,57 4,411,57 4,441,61 4,601,63 4,581,69 4,701,75 4,781,75 4,831,79 4,90
2
( , )
( )
( ) ( )
=
xy x y K X Yb
D Xx x x
a y b x E Y b E X
( ) 1.445 ( ) 0.0454( ) 4.188 ( ) 0.202
( ) 6.149 ( , ) 0.0955
E X D XE Y D Y
E XY K X Y
1.147 2.103 a b
Interval zaupanja za smerni koeficient je [2.103-0.0412 t ,2.103+0.0412 t ]
Za =5% dobimo pri S(18) mejno vrednost t=2.101 in pripadajoči interval [2.016,2.190]
Za r(X,Y)2 pa dobimo 0.99, torej je vsa varianca Y posledica variance X