37
STATISTIKA ANALIZA VARINCE 16.3.2011 Doc.dr. Tadeja Kraner Šumenjak

STATISTIKA ANALIZA VARINCE 16.3 · 2011. 6. 7. · ANALIZA VARINCE 16.3.2011 ... Ponovitev 1. skupina 2. skupina 3. skupina 4. skupina 1 892 849 795 925 2 871 885 872 908 3 812 910

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

  • STATISTIKA

    ANALIZA VARINCE

    16.3.2011

    Doc.dr. Tadeja Kraner Šumenjak

  • 2

    ANALIZA VARIANCE

    Proučuje, kako ena ali več neodvisnih

    spremenljivk (faktorjev) vpliva na slučajno

    odvisno spremenljivko Y, ki meri izid poskusa.

    Odgovori na vprašanje: Ali so odstopanja zaradi

    vpliva različnih faktorjev ali pa so slučajna?

  • Variabilnost izida poskusa povzročajo

    Proučevani dejavniki

    Kontrolirani moteči dejavniki

    Nekontrolirani moteči dejavniki. Ta del

    variabilnosti ostane nepojasnjen. Imenujemo ga

    OSTANEK ali EKSPERIMENTALNA NAPAKA

  • Primer

    V vsaki skupini živali so potomci drugega očeta.

    Zanimajo nas dnevni prirastki mas v posameznih

    skupinah v določenem starostnem obdobju. Če potomci

    določenega očeta hitreje pridobivajo na masi, so

    primernejši za vzrejo. Pri meritvah smo dobili dnevne

    prirastke mas (v gramih), ki so prikazani v preglednici:

  • Ponovitev 1. skupina 2. skupina 3. skupina 4. skupina

    1 892 849 795 925

    2 871 885 872 908

    3 812 910 817 917

    4 923 795 903 1000

    5 869 932 841 881

    6 894 898

    7 937

    Skupaj 4367 6202 4228 5529

    Povprečje skupine 873,5 886,0 845,6 921,5

  • Če glede na velikost aritmetičnih sredin,

    sklepamo, da biki četrte skupine najhitreje

    pridobivajo na masi, lahko pridemo do napačnih

    zaključkov.

    Poleg genetskih lastnosti namreč na pridobivanje

    mase vplivajo tudi drugi dejavniki kot so prebolele

    bolezni, vplivi okolja in drugi. Zato moramo za

    primerjavo aritmetičnih sredin uporabiti metodo,

    ki bo izločila slučajne vplive.

  • Pri analizi variance skušamo sprejeti eno izmed

    hipotez:

    H1: najmanj dve aritmetični sredini nista enaki.

    H0: M1 = M2 = M3 = … = Mk

  • Rešitev

    K=2 naredimo t-test za neodvisne vzorce

    K=3 tri parne primerjave (pogojno)H0: M1 = M2H0: M1 = M3H0: M2 = M3

    K>3 ne smemo narediti vse parne primerjave, ker so medsebojno odvisne. To bi imelo za posledico, da bi zavrnili več H0, kot bi jih smeli pri predpisani vrednosti α.

    K≥3 ANOVA

    OPOMBA: pri K=2 tudi lahko uporabljamo ANOVO, vendar je t-

    preizkus enostavnejši

  • •Y naj bo slučajna spremenljivka, ki meri izid poskusa.

    •Yi naj opisuje izid pri i-tem obravnavanju (obravnavanja so

    lahko različne sorte, gostote setve)

    •Yi~N(Mi,σ)

    •Za analizo variance mora biti izpolnjena predpostavka o

    homogenosti varianc, torej standardni odklon populacije je za

    vsa obravnavanja enak (LEVENOV TEST).

    •Zagotovljena mora biti medsebojna neodvisnost obravnavanj.

    •Mi si bomo ogledali le primer, ko je število ponovitev pri vseh

    obravnavanjih enako.

    ENOSMERNA ANALIZA VARIANCE

    (SLUČAJNE SKUPINE)

  • k

    i

    n

    j

    iij

    k

    i

    i

    k

    i

    n

    j

    ij xxxxnxxQ1 1

    22

    1

    0

    1 1

    200

    )()()(

    Skupna vsota kvadratov

    Merjena z vsoto kvadratov

    odklonov opazovanih

    vrednosti od aritmetične

    sredine

    Vsota kvadratov

    pojasnjena z

    obravnavanji

    (Zaradi razlik med

    obravnavanji)

    Nepojasnjena

    variabilnost

    Ostanek,

    napaka

    0 0 je število skupin je število ponovitev n=kk n n

    Različni viri variiranjai

    skupno povprečje

    x povprečje za i-to skupino

    x

    Q = Qn+Qg

  • 2

    1 1

    01

    k

    i

    n

    j

    ijxn

    C

    k

    i

    n

    j

    ij

    k

    i

    n

    j

    k

    i

    n

    j

    ijij

    k

    i

    n

    j

    ij Cxxn

    xxxQ1 1

    2

    2

    1 1 1 1

    2

    1 1

    200 00 1

    )(

    Cxn

    xxnQk

    i

    k

    i

    n

    j

    ijig

    2

    1 1 10

    2

    0

    01)(

    Vpeljimo parameter C, ki je definiran kot:

    Nato izračunamo skupno vsoto kvadratov odstopanj od

    skupne aritmetične sredine. Ta je:

    Vsota kvadratov odstopanj aritmetičnih sredin

    skupin od skupne aritmetične sredine pa je:

  • Vir variabilnosti

    Vsota

    kvadrato

    v

    Število

    prostostnih

    stopenj

    Srednji

    kvadriran

    odklon

    F

    Fkritični

    OBRAVNAVANJE

    (med obravnavanji)

    Qg

    k - 1

    2

    gs 2

    2

    n

    g

    s

    s

    tabelirana

    vrednost

    NAPAKA

    (znotraj

    obravnavanj)

    Qn

    n - k

    2

    ns

    Skupaj

    Q

    n - 1

    Povprečje vsote kvadratov dobimo:

    kn

    Qs

    k

    Qs

    nn

    g

    g

    2

    2

    1

  • Izkaže se, da je v primeru, ko je ničelna hipoteza

    pravilna kvocient

    2

    2

    n

    g

    s

    sF

    je porazdeljen po Fisherjevi F(k1, Nk) porazdelitvi.

    Ničelno hipotezo, ki pravi, da so aritmetične sredine

    posameznih skupin enake lahko zavrnemo, če je gornji

    izraz večji od tabelirane vrednosti F - porazdelitve pri

    izbrani stopnji tveganja. Rečemo, da so razlike

    statistično značilne.

  • Zap.

    številka

    1.

    pasma

    2.

    pasma

    3.

    pasma

    1 36,6 31,0 35,9

    2 36,1 27,0 33,6

    3 36,1 26,8 36,4

    4 38,3 31,3 35,8

    5 36,6 29,0 35,2

    6 39,2 30,5 29,2

    Pri merjenju debeline hrbtnega sala treh pasem svinj

    smo dobili naslednje rezultate (v mm)

    Ali je debelina sala odvisna od pasme?

  • Ponovitev Sorta A Sorta

    B

    Sorta

    C

    Sorta

    D

    1 33 27 37 11

    2 25 43 17 48

    3 20 36 28 14

    4 19 20 40 23

    5 42 22 26 36

    V poljedelskem poskusu smo preverjali štiri

    sorte krompirja in ugotavljali višino pridelka (v

    tonah)

    Ali je pridelek krompirja glede na posamezne

    sorte statistično različen?

  • Sum of

    Squares df

    Mean

    Square F Sig.

    Between

    Groups191,654 2 95,827 22,181 ,000

    Within

    Groups64,803 15 4,320

    Total 256,458 17

    Sum of

    Squares df Mean Square F Sig.

    Between Groups 36,150 3 12,050 ,094 ,962

    Within Groups 2050,400 16 128,150

    Total 2086,550 19

  • 17

    Primer

  • 18

    Primer 2

  • 19

    R.MEAD-NASVET

    Potrebno število enot n v poskusu:

    10 20df

    df za ostanek

    (napaka)

    Več kot 20 ni potrebno,

    10 je premalo.

  • PREIZKUSI MNOGOTERIH

    PRIMERJAV

    Med povprečnimi vrednostmi obstajajo statistično

    značilne razlike. ANALIZO VARIANCE

    NADALJUJEMO:

    -PREIZKUSI MNOGOTERIH PRIMERJAV

    (LSD, Tukey,Duncan)

    -NAČRTOVANE PRIMERJAVE KONTRASTI

  • ENOSMERNA ANALIZA VARIANCE

    (SLUČAJNI BLOKI)

    Skupine

    (t)

    1 2 … j … b Skupaj Pov.

    1

    2

    :

    i

    :

    t

    x11

    x21

    xi1

    xt1

    x12

    x22

    xi2

    xt2

    … x1j

    x2j

    xij

    xtj

    … x1b

    x2b

    xib

    xtb

    x10

    x20

    xi0

    xt0

    Skupaj x01 x02 … x0j … x0b

    Pov.

    Bloki

  • 00

    00

    0

    0

    22 200

    1 1 1 1

    2

    00

    2

    0

    1

    B

    2

    skupno povprečje

    x skupna vsota

    povprečje skupin 1,2,...,

    povprečje blokov j 1,2,...,

    ; je korekcijski člen

    Q

    i

    j

    t b t b

    ij ij

    i j i j

    b

    j

    j

    i

    g

    x

    x i t

    x b

    xQ x x C

    bt

    xC bt n C

    bt

    x

    Ct

    x

    Q

    0

    1

    t

    i

    n B g

    Cb

    Q Q Q Q

  • B

    g

    Vir variabil. Vsota kv. Pros. st. Srednji kv. odklon F

    BLOKI Q -1

    OBRAVN. Q -1

    b

    kg g

    n

    nn

    Q Q ( 1)( 1)

    k-1 Q ( 1)

    QNAPAKA Q ( -1)( -1)

    ( -1)( -1)

    SKUPAJ Q -1

    b t

    k

    b tb t

    bt

  • Testiramo ničelno domnevo, da so aritmetične

    sredine po obravnavanjih enake.

    Izračunan F je porazdeljen po Fisherjevi F(k1,

    (B-1)(K-1)) porazdelitvi.

    Ničelno hipotezo, ki pravi, da so aritmetične

    sredine posameznih skupin enake lahko

    zavrnemo, če je gornji izraz večji od tabelirane

    vrednosti F - porazdelitve pri izbrani stopnji

    tveganja. Rečemo, da so razlike statistično

    značilne.

  • 25

    H1

    5

    H4

    4

    H3

    4,3

    H2

    4,8

    H2

    5

    H3

    4,2

    H1

    5,7

    H4

    4,9

    H3

    5

    H1

    4,6

    H4

    4,1

    H2

    4,5

    H4

    5

    H2

    4,6

    H1

    5,2

    H3

    4

    H4

    4,4

    H2

    5,4

    H3

    4,2

    H1

    5,3

    Postavitev NAKLJUČNI BLOK

    Primerjava pridelkov zrnja (t/ha, 14% vlaga) štirih hibridov koruze, v petih

    ponovitvah (Vir: Hadživuković, 1989).

    I

    II

    III

    IV

    V

  • 1 2 3 4 5 sum pov

    1 5 5,7 4,6 5,2 5,3 25,8 5,16

    2 4,8 5 4,5 4,6 5,4 24,3 4,86

    3 4,3 4,2 5 4 4,2 21,7 4,34

    4 4 4,9 4,1 5 4,4 22,4 4,48

    sum 18,1 19,8 18,2 18,8 19,3 94,2

    pov 4,525 4,95 4,55 4,7 4,825 4,71

  • 00

    00

    2

    1 1

    2 2

    00

    2

    0 2 2 2 2 21

    B

    2

    2 2 2 20

    1

    4,71

    x =94,2

    448,34 443,682 4,658

    (94,2)443,682

    20

    (18,1 19,8 18,2 18,8 19,3 )Q 443,682 444,205 443,682 0,523

    4

    (25,8 24,3 21,7 22,4

    t b

    ij

    i j

    b

    j

    j

    t

    i

    ig

    x

    Q x C

    xC

    bt

    x

    Ct

    x

    Q Cb

    )

    443,682 2,0745

    2,06n B gQ Q Q Q

  • Vir variabil. Vsota kv. Pros. st. Srednji kv. odklon F

    BLOKI 0,523 4

    OBRAVN. 2,074 3 0,6913 4,026

    NAPAKA 2,06 12 0,1717

    SKUPAJ 4,658 19

    Ničelno domnevo zavrnemo. Pri 5% tveganju lahko trdimo, da

    ima hibrid statistično značilen vpliv na pridelek.

  • 29

    Potek dela:

    1. zapis podatkov v Excel-ovo tabelo (neodvisne spremenljivke; hibrid, ponovitev in

    odvisna spremenljivka; pridelek)

  • 30

    2. tabelo (neposredno) prenesemo v statistični program SPSS,

    STATISTIX, STATGRAPH....

  • 31

    2. tabelo (neposredno) prenesemo v statistični program SPSS,

    STATISTIX, STATGRAPH....

  • 32

    3. naredimo (ustrezno) analizo variance ANOVA

  • 33

  • 34

  • 35

    3. naredimo (ustrezno) analizo variance ANOVA :

    Interpretiranje rezultatov: GLEJ P-vrednost!!

    P blok ne interpretiramo

    P hibrid 0,05 s 5%-nim tveganjem oz. 95% zanesljivostjo lahko trdimo,

    da ima hibrid statistično značilen vpliv na pridelek (*)

    Po domače: ni vseeno kateri hibrid sejemo!

    ,034

  • 36

    Namen: ugotoviti vpliv dodatne svetlobe na nesnost kokoši v zimskem času.

    Obravnavanja:- K kontrola

    -PDan podaljšani dan (14 ur)

    -Blisk (K+1 krat 20 sek bliskavice na noč)

    Poskusni material:

    4 kurniki

    v vsakem 3 kletke

    v vsaki kletki po šest kokoši

    Poskusna zasnova: slučajni bloki (en kurnik je blok). Narediti moramo

    slučajni izbor za vsak kurnik posebej.

    Izid: skupno število jajc na kletko v času od 1. decembra do 22. februarja

    Še en primer:

  • 37

    kurnik K Pdan Blisk

    1 330 372 359

    2 288 340 337

    3 295 343 373

    4 313 341 302

    Tabela: Skupno število jajc na kletko po obravnavanjih in blokih.