Statisticki_testovi

Embed Size (px)

Citation preview

  • 7/27/2019 Statisticki_testovi

    1/39

    Testiranje statistickih hipotezaMaterijali za nastavu iz Statistike

    Kristina Krulic Himmelreich i Ksenija Smoljak

    2012/13

    1/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    2/39

    Uvod

    Osnovna zadaca Statistike je na temelju uzorka ocijeniti kakvu razdiobuima promatrano (populacijsko) statisticko obiljezje X.

    svaka pretpostavka koja se odnosi na tu razdiobu je (statisticka)

    hipotezaprovjera istinitosti te hipoteze je testiranje (statisticki test)

    hipotezu koju testiramo zovemo nulta hipoteza ili nul-hipoteza iobiljezavamo s H0

    alternativnu hipotezu obiljezavamo s H1

    2/39

    http://find/http://goback/
  • 7/27/2019 Statisticki_testovi

    3/39

    Uvod

    Vrste statistickih testova:

    parametarski - testiramo hipotezu koja se odnosi na parametarpretpostavljene razdiobe

    neparametarski - testiramo hipotezu koja se odnosi na tippretpostavljene razdiobe

    Hipoteza je:

    jednostavna ako jednoznacno odreduje razdiobu statistickog

    obiljezja Xslozena ako jednoznacno ne odreduje razdiobu statistickog obiljezja X

    3/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    4/39

    Uvod

    Na temelju uzorka trebamo donijeti odluku o prihvacanju iliodbacivanju nulte hipoteze.

    Niti jedan statisticki zakljucak o populaciji na bazi uzorka nijestopostotno siguran, tako i prihvacnje neke hipoteze na temeljuuzorka ne znaci da je ta hipoteza tocna.

    Umjesto hipotezu prihvacamo ispravnije je reci na osnovi uzorkane postoji razlog za odbacivanje hipoteze.

    4/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    5/39

    Uvod

    Prilikom donosenja odluke o istinitosti hipoteze postoje dvije vrstemogucih pogresaka :pogreska 1. vrste: odbacili smo nultu hipotezu ako je ona istinitapogreska 2. vrste: prihvatili smo nultu hipotezu ako je ona neistinita.

    Moguce situacije su prikazane tablicom:

    H0 je tocna H0 je netocna

    prihvacamo H0

    pogreska 2. vrste

    odbacujemo H0 pogreska 1. vrste

    5/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    6/39

    Uvod

    Vjerojatnosti tih pogresaka oznacavamo s: = P(pogreska 1. vrste)= P(odbacujemo H0 | H0 tocna) i = P(pogreska 2. vrste)= P(prihvacamo H0 | H0 netocna).Sljedeca tablica prikazuje vjerojatnosti mogucih situacija

    H0 je tocna H0 je netocna

    prihvacamo H0 1 odbacujemo H0 1

    je nivo signifikantnosti ili razina znacajnosti, a 1-=P(odbacujemoH0 | H0 netocna) snaga testa.

    6/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    7/39

    Uvod

    Za testiranje hipoteze treba:

    (1 ) Definirati H0 i H1 ;

    (2) Definirati test-statistiku na osnovi cijih vrijednosti se donose odluke;

    (3) Za zadanu razinu znacajnosti odrediti kriticno podrucje - skup

    svih mogucih vrijednosti test-statistike za koje se odbacuje nultahipoteza u korist alternativne;

    (4) Ispitati da li se vrijednost test-statistike izracunate iz uzorka nalazi ukriticnom podrocju;

    (5) Zakljuciti: Ako je izracunata vrijednost test-statistike u kriticnompodruju hipoteza H0 se odbacuje u korist alternativne hipoteze H1. Usuprotnom se H0 prihvaca, tj. na osnovi uzorka hipotezu ne mozemoodbaciti.

    7/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    8/39

    Testovi o parametrima normalne razdiobe N(, 2)

    Neka je nepoznati parametar o kojemu ovisi pretpostavljena razdioba.Ako je nulta hipoteza H0 : = 0 (U pravilu, za nul-hipoteze se uzimajujednostavne hipoteze.), tada su moguce alternativne hipoteze :(i) H1 : = 0, (ii) H1 : > 0, (iii) H1 : < 0,

    Nulta hipoteza H0 : = 0, 2 poznato:Test statistika Alternativna hipoteza Kriticno podrucje

    H1 : = 0 C0 = , z2

    ]

    [z2

    , Z = X

    n

    Z N(0, 1) H1 : > 0 C0 = [z, H1 : < 0 C0 = , z]

    8/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    9/39

    Parametarski testovi

    Nulta hipoteza H0 : = 0, 2 nije poznato:

    Test statistika Alternativna hipoteza Kriticno podrucje

    H1

    : =

    0C0

    =

    ,

    t2

    ][t2

    ,T = X

    Sn

    T t(n 1) H1 : > 0 C0 = [t,

    H1 : < 0 C0 =

    ,

    t]

    9/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    10/39

    Zadaci

    Zadatak

    Promatramo obiljezje X koje ima normalnu razdiobu N(, 100). Naslucajan nacin odabran je uzorak od 105 elemenata. Uz razinu znacajnosti = 0.01 testirajte hipotezu H0 : 0 = 30 prema hipotezi H1 : 1 = 38.

    10/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    11/39

    Zadaci

    Zadatak

    Prema standardima prosjecan broj nedostataka po 1m2 tkanine ne smijebiti veci od 5. Na slucajan nacin odabrano je 100m2 tkanine i na njimaizbrojan broj nedostataka. Dobiveni su rezultati:

    broj nedostataka 1 2 3 4 5 6 7 8 9 10

    broj m2 tkanine 15 12 15 22 15 8 5 3 3 2

    Ako znamo da broj nedostataka na tkanini ima normalnu razdiobu s

    varijancom jednakom 4, uz razinu znacajnosti = 0.01 testirajte hipotezuda ova vrsta tkanine zadovoljava uvjete standarda.

    11/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    12/39

    Zadaci

    Zadatak

    Proizvodac tvrdi da je dimenzija serijski radenog proizvoda 35mm.Mjerenjem 20 slucajno odabranih proizvoda dobiveni su rezultati:

    dimenzija (mm) 34.8 34.9 35.0 35.1 35.3broj proizvoda 2 3 4 6 5

    Uz razinu znacajnosti = 0.05 testirajte hipotezu H0 : = 35 uzalternativnu hipotezu H1 :

    = 35 (pretpostavljamo da promatrana

    dimenzija ima normalnu razdiobu te je varijanca nepoznata).

    12/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    13/39

    Zadaci

    Zadatak

    Tvornica tvrdi da je prosjecan vijek trajanja proizvoda iz te tvornice 21.5

    sati. Na slucajnom uzorku od 6 proizvoda iz te tvornice laboratorijskimmjerenjima vijeka trajanja dobivene su vrijednosti od 19, 18, 22, 20, 16, 25sati. S razinom znacajosti = 0.05, testirajte da li dobiveni uzorakindicira kraci prosjecan vijek trajanja proizvoda.

    13/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    14/39

    Test o proporciji

    Bez obzira kakvu razdiobu ima statisticko obiljezje, sredina X, za dovoljnovelike uzorke, ima priblizno normalnu razdiobu. Promatramo statistickoobiljezje koje ima binomnu razdiobu : X B(n, p).Koristimo test- statistiku:

    Z = X p0p0(1 p0)n N(0, 1).

    Nulta hipoteza Alternativna hipoteza Kriticno podrucje

    H1 : p

    = p0 C0 =

    ,

    z

    2][z2 , H0 : p = p0

    H1 : p > p0 C0 = [z, H1 : p < p0 C0 = , z]

    14/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    15/39

    Zadaci

    Zadatak

    Proizvodac tvrdi da njegove posiljke sadrze najvise 5% neispravnih

    proizvoda. Uzet je slucajni uzorak od 300 komada iz jedne posiljke i bilo je16 neispravnih. Da li mozemo prihvatiti tvrdnju proizvodaca uz razinuznacajnosti 0.05?

    15/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    16/39

    Usporedba ocekivanja dviju normalno distribuiranihpopulacija (t-test)

    Promatramo statisticko obiljezje X na dvije razlicite populacije. Uz topretpostavimo da u obje populacije promatrano obiljezje ima normalnurazdiobu. Ako s X1 i X2 oznacimo obiljezje na prvoj, odnosno drugojpopulaciji, onda su pretpostavke:

    X1 N(1, 21) i X2 N(2,

    22).

    Neka su realizirani uzorci uzeti iz prve, odnosno druge populacije opsegan1 i n2 redom. Testiramo hipotezu

    H0 : 1 = 2

    u odnosu na jednu od alternativnih:

    H1 : 1 = 2, H1 : 1 > 2, H1 : 1 < 2.

    16/39

    U db ki j d ij l di ib i ih

    http://find/
  • 7/27/2019 Statisticki_testovi

    17/39

    Usporedba ocekivanja dviju normalno distribuiranihpopulacija (t-test)

    Nulta hipoteza H0 : 1 = 2, 21 i

    22 poznato:

    Test statistika Alternativna Kriticno podrucje

    hipotezaH1 : 1 = 2 C0 = , z

    2]

    Z = X1X221

    n1+22

    n2

    [z2

    ,

    Z

    N(0, 1) H1 : 1 > 2 C0 = [z,

    H1 : 1 < 2 C0 = , z]

    17/39

    U db ki j d ij l di ib i ih

    http://find/http://goback/
  • 7/27/2019 Statisticki_testovi

    18/39

    Usporedba ocekivanja dviju normalno distribuiranihpopulacija (t-test)

    Nulta hipoteza H0 : 1 = 2, 21 =

    22 =

    2 nije poznato:

    Test statistika:T = X1X2

    S

    1n1+ 1

    n2

    S2 =(n11)S2

    1

    +(n21)S2

    2n1+n22T t(n1 + n2 2)

    Alternativna Kriticno podrucjehipoteza

    H1

    : 1

    = 2

    C0

    =

    ,

    t2

    (n1

    + n2

    2)][t

    2(n1 + n2 2),

    H1 : 1 > 2 C0 = [t(n1 + n2 2), H1 : 1 < 2 C0 = , t(n1 + n2 2)]

    18/39

    http://find/http://goback/
  • 7/27/2019 Statisticki_testovi

    19/39

    U db ij i d ij l di t ib i ih

  • 7/27/2019 Statisticki_testovi

    20/39

    Usporedba varijanci dviju normalno distribuiranihpopulacija (F-test)

    Test statistika je:

    F =S21S22

    koja ima F (Fisherovu) razdiobu s n1 1, n2 1 stupnjeva slobode.Nulta hipoteza H0 :

    21 =

    22:

    Alternativna hipoteza Kriticno podrucje

    H1 : 21 = 22 C0 = 0, f12 (n1 1, n2 1)]

    [f

    2 (n1 1, n2 1), H1 :

    21 >

    22 C0 = [f(n1 1, n2 1),

    20/39

    Z d i

    http://find/
  • 7/27/2019 Statisticki_testovi

    21/39

    Zadaci

    Zadatak

    Pomocu dvije razlicite metode mjerena je jedna te ista velicina. Rezultatimjerenja dani su u tablici:

    1. metoda 9.4 10.0 9.8 10.2

    2. metoda 10.4 9.7 10.0 10.3

    Moze li se uz = 0.1 zakljuciti da obje metode daju istu tocnost?

    21/39

    Zadaci

    http://find/
  • 7/27/2019 Statisticki_testovi

    22/39

    Zadaci

    Zadatak

    Iz dva cetvrta razreda neke skole izabrano je na slucajan nacin po 10ucenika i izmjerena je njihova masa (masa je normalno distribuirana), a

    podaci su dani u tablici. Uz razinu znacajnosti 0.02 testirajte hipotezu dasu varijance jednake

    4.a 57 60 63 59 62 60 58 56 54 62

    4.b 58 62 60 56 63 58 61 57 53 61

    22/39

    Zadaci

    http://find/
  • 7/27/2019 Statisticki_testovi

    23/39

    Zadaci

    Zadatak

    Psiholog je testirao dvije grupe ucenika. Grupu A od 7 ucenika i grupu Bod 6 ucenika. Broj bodova je:

    A grupa 70 75 80 80 85 90 85

    B grupa 75 90 95 100 80 85

    Da li se uz razinu znacajnosti 0.1 moze smatrati da je uspjeh u obje grupeisti?

    23/39

    2 test

    http://find/
  • 7/27/2019 Statisticki_testovi

    24/39

    -test

    2 -test

    jedan od prvih statistickih testova

    predlozio ga je K. Pearson 1900. godine, pa je poznat i pod nazivomPearsonov test

    neparametarski test

    pomocu 2-testa testiramo nultu hipotezu da obiljezje X imaodredenu (teorijsku) razdiobu protiv alternativne da nema tu razdiobu

    pomocu 2-testa ispitujemo nezavisnost dva statisticka obiljezja, kao i

    homogenost populacija

    24/39

    2 test

    http://find/
  • 7/27/2019 Statisticki_testovi

    25/39

    -test

    Za sve navedeno test-statistika je (opcenito):

    H =

    k

    i=1

    (fi fti)2fti

    gdje su fi eksperimentalne, a fti teorijske frekvencije.

    Ako je za neki i ocekivana (teorijska) frekvencija fti < 5 zdruzimo tajrazred sa susjednim(a) razredom(ima) tako da novodobiveni razred

    zadovoljava uvjet da mu je ocekivana frekvencija barem 5.

    25/39

    2 -test

    http://find/
  • 7/27/2019 Statisticki_testovi

    26/39

    -test

    Uz pretpostavku da je H0 tocna hipoteza za velike n (n ) vrijedi

    H 2(r l 1)

    gdje 2(r l 1) oznacava 2razdiobu s (r l 1) stupnjeva slobodeciju vrijednost citamo iz tablica.

    r je (konacan) broj razreda u uzorku

    l broj nepoznatih parametara.

    26/39

    2 -test

    http://find/
  • 7/27/2019 Statisticki_testovi

    27/39

    -test

    Za zadanu pogresku prve vrste , kriticno podrucje odredujemo iz uvjeta

    P(H > 2(r l 1)|H0) = .

    Dakle, kriticno podrucje je:

    C0 = [2

    (r l 1),

    Ako s h oznacimo vrijednost test statistike izracunate iz uzorka, ondanultu hipotezu odbacujemo ako

    h C0 tj. h 2(r l 1).

    27/39

    Zadaci

    http://find/
  • 7/27/2019 Statisticki_testovi

    28/39

    Zadaci

    Zadatak

    Proizvodac tvrdi da je 5% njegovih proizvoda prve klase, 92% druge i 3%trece klase. U slucajnom uzorku od 500 proizvoda nadeno je 40 proizvodaprve, 432 druge i 28 trece klase. Uz razinu znacajnosti 0.05, testirajtehipotezu da je proizvodac u pravu.

    Zadatak

    Iz intervala [0, 1] generirano je 200 slucajnih brojeva koji su razvrstani u 5podintervala:

    interval [0, 0.2) [0.2, 0.4) [0.4, 0.6) [0.6, 0.8) [0.8, 1]

    broj br. 32 44 38 42 44

    Da li su frekvencije ravnomjerno rasporedene po intervalima uz razinuznacajnosti = 0.01 i = 0.05?

    28/39

    Zadaci

    http://find/
  • 7/27/2019 Statisticki_testovi

    29/39

    Zadaci

    Zadatak

    Kocka se baca 90 puta. Rezultati su dani u tablici:

    Broj na kocki 1 2 3 4 5 6Broj pojavljivanja 15 13 16 20 14 12

    Da li je kocka ispravna uz razinu znacajnosti = 0.05?

    29/39

    Zadaci

    http://find/
  • 7/27/2019 Statisticki_testovi

    30/39

    Zadaci

    Zadatak

    U cilju ispitivanja nekog svojstva pamucnih vlakana mjerena je njihovaduljina i dobiveni su sljedeci rezultati:

    duljina (u cm) 2-4 4-6 6-8 8-10 10-12

    broj vlakana 10 47 63 30 20

    Testirati hipotezu o normalnoj distribuciji uz razinu znacajnosti 0.05.

    30/39

    Zadaci

    http://find/
  • 7/27/2019 Statisticki_testovi

    31/39

    Zadaci

    Zadatak

    Anketirano je 100 radnika neke tvornice o udaljenosti od kuce do posla. Srazinom znacajnosti 0.05, testirajte hipotezu da se radi o uzorku izpopulacije s normalnom distribucijom.

    udalj [0, 2 [2, 4 [4, 6 [6, 8 [8, 10 [10, 12 [12, 14br rad 5 10 20 33 18 10 4

    31/39

    Zadaci

    http://find/
  • 7/27/2019 Statisticki_testovi

    32/39

    Zadatak

    U jednom trgovackom centru 200 puta je registriran broj kupaca u 10sekundi.

    Dobiveni su rezultati:broj kupaca 0 1 2 3 4

    broj mjerenja 109 65 22 3 1

    Testirajte hipotezu da se radi o Poissonovoj razdiobi s vjerojatnoscu 0.9.

    32/39

    Zadaci

    http://find/
  • 7/27/2019 Statisticki_testovi

    33/39

    Zadatak

    Provjerite da li se empirijska razdioba dana tablicom:

    xi 0 1 2 3 4fi 116 56 22 14 2

    podudara s Poissonovom razdiobom, s pouzdanoscu 95%.

    33/39

    2 - test nezavisnosti dviju varijabli

    http://find/
  • 7/27/2019 Statisticki_testovi

    34/39

    j j

    Neka je (X1, Y1), (X2, Y2), . . . (Xn, Yn) slucajni uzorak zadvodimenzionalno diskretno statisticko obiljezje (X, Y) i neka je pritom:Skup vrijednosti obiljezja X :

    R(X) = {a1, . . . , ar};

    Skup vrijednosti obiljezja Y :

    R(Y) = {b1, . . . , bs};

    Skup vrijednosti obiljezja (X, Y) :

    R[(X, Y)] = {(ai, bj) : 1 i r, 1 j s}.

    34/39

    2 - test nezavisnosti dviju varijabli

    http://find/
  • 7/27/2019 Statisticki_testovi

    35/39

    j j

    fij : frekvencija od (ai, bj) u uzorkufi : (marginalna) frekvencija od ai u uzorkugj : (marginalna) frekvencija od bj u uzorkuVrijedi:

    fi =s

    j=1

    fij, gj =r

    i=1

    fij

    Oznacimo:

    pij = P(X = ai, Y = bj)

    pi = P(X = ai)qj = P(X = bj)

    35/39

    2 - test nezavisnosti dviju varijabli

    http://find/
  • 7/27/2019 Statisticki_testovi

    36/39

    Kontingencijska frekvencijska tablica:

    X

    Y b1 b2 . . . bs

    a1 f11 f12 . . . f1s f1a2 f21 f22 . . . f2s f2...

    ......

    ......

    ...ar fr1 fr2 . . . frs fr

    g1 g2 . . . gs n

    36/39

    2 - test nezavisnosti dviju varijabli

    http://find/
  • 7/27/2019 Statisticki_testovi

    37/39

    Hipoteze su:H0: X i Y su nezavisna obiljezja i

    H1: X i Y su zavisna obiljezja, tj.H0: pij = pi qj za sve i i j, aH1: postoje i,j takvi da pij = pi qjUz pretpostavku da je H0 tocna hipoteza , procjene za pi i qj su:

    pi = fin

    , qj = gjn

    Ocekivane (teorijske) vrijednosti ftij od fij uz H0 su:

    ftij

    = n pi qj = n

    fi

    n gj

    n=

    fi gjn

    Test-statistika je:

    H =r

    i=1s

    j=1(fij ftij)2

    ftij

    37/39

    http://find/
  • 7/27/2019 Statisticki_testovi

    38/39

    Zadaci

  • 7/27/2019 Statisticki_testovi

    39/39

    ZadatakU cilju ispitivanja uspjesnosti na kolokvijima iz statistike interesira nas da liprolaznost na drugom kolokviju ovisi o prolaznosti na prvom kolokviju! Zaslucajno odabranih 120 studenata dobiveni su podaci dani u tablici.

    Mozete li na osnovu ovih podataka zakljuciti da uspjeh na drugomkolokviju ovisi o uspjehu na prvom kolokviju, uz razinu znacajnosti 0.01?

    Kolokvij Polozili Pali

    1. 45 25 70

    2. 20 30 50 65 55 120

    39/39

    http://find/