26
Hii-ruut testist I osa

Loeng - Statistiline seos · Protsent (%) 0 10 20 30 40 50 10 Biomeetria bioloogidele 2010, Märt, Möls Näide 3 – seos pideva tunnuse ja nominaalse tunnuse vahel 140 150 160 170

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • Hii-ruut testist I osa

  • 2 Biomeetria bioloogidele 2010, Märt, Möls

  • 3 Biomeetria bioloogidele 2010, Märt, Möls

    Hii-ruut statistik:

    Nullhüpoteesi kehtides (teooria poolt väljapakutud tõenäosused on õiged) on hii-ruut statistiku jaotuseks hii-ruut jaotus (vabadusastmete arvuga df = k - 1 ).

  • 4 Biomeetria bioloogidele 2010, Märt, Möls

    Hii-ruut jaotuse kriitilised väärtused (nn. täiendkvantiilid)

  • 5 Biomeetria bioloogidele 2010, Märt, Möls

    Näide Heterosügootsete vanemate (Aa x Aa) järglased teooria (pi) vaatlus (ni) oodatav (Ni) AA 0,25 12 25 Aa 0,5 62 50 aa 0,25 26 25

    68,925

    242

    25

    1

    50

    144

    25

    169

    25

    )2526(

    50

    )5062(

    25

    )2512( 2222 ==++=−

    +−

    +−

    =χ Seda on liiga palju: 9,68>>5,991, seega me ei usu, et nullhüpotees saaks kehtida. Oleme tõestanud, et antud lookus ei pärandu Mendeliaalselt (osad AA-genotüübiga looted hukkuvad varases nooruses või pole osad vanemad tegelikult heterosügootsed või...)

  • 6 Biomeetria bioloogidele 2010, Märt, Möls

    Statistiline seos osa II

  • 7 Biomeetria bioloogidele 2010, Märt, Möls

    Statistiline seos

    Ühtede muutujate/katsetingimuste/tunnuste väärtuste muutmisel muutub ka meid huvitava tunnuse või näitaja jaotus.

    Näide: Koheselt peale munemist inkubaatorisse paigutatud linnumunast koorub linnupoeg tõenäosusega 0,9; kui aga oodata 8 päeva peale munemist ja alles siis muna inkubaatorisse paigutada, koorub temast linnulaps vaid tõenäosusega 0,75 – seega on tunnuste „ooteperioodi pikkus“ ja „koorumisedukus“ (koorub/ei kooru) vahel statistiline seos. NB! Statistiline seos on sümmeetriline – kui on seos tunnuste X ja Y vahel, siis eksisteerib ka seos tunnuste Y ja X vahel!

  • 8 Biomeetria bioloogidele 2010, Märt, Möls

    Näiteid 1 – seos kahe binaarse tunnuse vahel

    suitsetab ei suitseta

    Naistudengid

    Protsent (%

    )

    020

    40

    60

    80

    100

    suitsetab ei suitseta

    Meestudengid

    Protsent (%

    )

    020

    40

    60

    80

    100

    või

    naised mehed

    Seos suitsetamise ja soo vahel

    Protsent (%

    )

    020

    40

    60

    80

    100

  • 9 Biomeetria bioloogidele 2010, Märt, Möls

    Näiteid 2

    naised mehed

    Protsent (%

    )

    020

    40

    60

    80

    100

    õlletarbimine nädalas

    13+ pudelit5-12 pudelit1-4 pudelitalla pudeliei joo

    Õlle tarbimine ja sugu

    ei joo alla pudeli 1-4 pudelit 5-12 pudelit 13+ pudelit

    Naised

    Protsent (%

    )

    010

    20

    30

    40

    50

    ei joo alla pudeli 1-4 pudelit 5-12 pudelit 13+ pudelit

    Mehed

    Protsent (%

    )

    010

    20

    30

    40

    50

  • 10 Biomeetria bioloogidele 2010, Märt, Möls

    Näide 3 – seos pideva tunnuse ja nominaalse tunnuse vahel

    140 150 160 170 180 190 200 210

    0.00

    0.02

    0.04

    0.06

    Pikkuse ja soo vaheline seos, esitatud tihedusfunktsioonide abil

    Pikkus (cm)

    tihedus f(x)

    Mehed

    Naised

    140 150 160 170 180 190 200 210

    0.0

    0.4

    0.8

    Pikkus (cm)

    Meeste osakaal

  • 11 Biomeetria bioloogidele 2010, Märt, Möls

    0 2 4 6 8 10

    510

    15

    20

    25

    30

    35

    x

    y

    0 2 4 6 8 10

    510

    15

    20

    25

    30

    35

    x

    y

    Seos kahe pideva juhusliku suuruse vahel

  • 12 Biomeetria bioloogidele 2010, Märt, Möls

    0 2 4 6 8 10

    05

    10

    15

    20

    x

    y

    0 2 4 6 8 10

    05

    10

    15

    20

    x

    y

    Seos kahe pideva juhusliku suuruse vahel II

  • 13 Biomeetria bioloogidele 2010, Märt, Möls

    Kas seos on tegelik või näiline (valimi juhuslikkus petab meid)?

    0 1

    0.0

    0.4

    0.8

    0 1

    0.0

    0.4

    0.8

    0 1

    0.0

    0.4

    0.8

    0 1

    0.0

    0.4

    0.8

    Tegelikult seos puudub. Valimi suurus n=20

  • 14 Biomeetria bioloogidele 2010, Märt, Möls

    Statistiline seos kahe mittearvulise tunnuse vahel (sagedustabelis): Hii-ruut test. Näide

    kas esineb seos tudengi tervisehinnangu ja tema soo vahel? Tabel (arstiteaduskonna 2. kursus aastatel 2001-2005): hinnang tervisele sugu v.hea hea keskmine/halb kokku

    naine 83 (13%) 404 (62%) 161(25%) 648 (100%)

    mees 35 (18%) 105 (55%) 50 (26%) 190 (100%)

    Mida tähendab seose olemasolu kahe tunnuse vahel? Siin: seos on olemas, kui erinevast soost inimeste tervisehinnangute jaotus on erinev.

  • 15 Biomeetria bioloogidele 2010, Märt, Möls

    Küsime: milline oleks oodatud tervisehinnangute jaotus, kui hinnang tervisele ei sõltuks soost? (Nullhüpoteesiks on siin, et tervisehinnangu jaotus tabeli igas veerus on sama.)

    Vaatame, milline on tervisehinnangute jaotus valimis kokku:

    tervis (%)

    v.hea hea keskmine/halb

    118(14%) 509 (61%) 211 (25%)

    Nullhüpoteesi täidetuse korral peaks see jaotus olema sama nii meestel kui naistel. Seega 14% naistest ja sama suur osa, ehk siis samuti 14% meestest, peaks arvama, et nende tervis on väga hea, 61% nii meestest kui naistest, et nende tervis on hea, jne.

  • 16 Biomeetria bioloogidele 2010, Märt, Möls

    Leiame, kui palju see teeks arvuliselt. Vaadeldud ja eeldatav (sulgudes) tervisehinnangute jaotus meestel ja naistel, kui hinnang ei sõltuks tudengi soost:

    tervis

    sugu v.hea hea keskmine/halb

    naine 83 (91) 404 (394) 161 (163)

    mees 35 (27) 105 (115) 50 ( 48)

  • 17 Biomeetria bioloogidele 2010, Märt, Möls

    Saame kasutada χ2-testi:

    ( )∑

    −=

    ij

    ijij

    N

    Nn2

    Leitud statistik on χ2- jaotusega, vabadusastmete arvuga

    df = (r - 1) × (v − 1) = r v – r - v + 1,

    kus r on ridade ja v veergude arv uuritavas tabelis.

    Meie näites: χ2 = (83 − 91)2/91 + (404 − 394)2/394 +. . .+ (50 − 48)2/48 = 4,6 Vabadusastmete arvuks on siin 2 ja seega ei saa antud juhul seose olemasolu tostada (χ2-statistiku kriitiline väärtus df = 2 korral on 5,99; olulisustõenäosuseks tuleb p = 0,10)

  • 18 Biomeetria bioloogidele 2010, Märt, Möls

    Põhjuslik seos – prognoosimine vs toimuva mõjutamine

    „Kured läinud, kurjad ilmad“

    ei tarbi alla 1 1-4 5-12 13 või enam

    150

    160

    170

    180

    190

    200

    tudengite pikkus ja õlletarbimine

    õlle tarbimine, pudelit nädalas

    pikkus

  • 19 Biomeetria bioloogidele 2010, Märt, Möls

    Statistiline seos (association): antibiootikumi saanud beebid surevad tõenäolisemalt kui antibiootikume mittesaanud imikud

    Haiged imikud Terved

    antibiootikum Ei saa ravi

    Väga madal suremus

    Madal suremus

  • 20 Biomeetria bioloogidele 2010, Märt, Möls

    Põhjuslik seos (causal relationship): kui me ei annaks antibiootikume neile beebidele, kellele me tavaliselt anname antibiootikume, siis

    imikute suremistõenäosus suureneb (veelgi).

    Haiged imikud Terved

    Ei saa ravi Ei saa ravi

    Väga madal suremus

    Suur suremus

  • 21 Biomeetria bioloogidele 2010, Märt, Möls

    Põhjuslik seos (Causal relationship)

    Counterfactuals (kontrafaktid) Jaan suitsetas ja suri noorena. Kui Jaan poleks suitsetanud, poleks ta noorena surnud. Järelikult põhjustas suitsetamine Jaani surma.

  • 22 Biomeetria bioloogidele 2010, Märt, Möls

    Enamike seoste taga on nn segavad faktorid

    Ravi A Ravi B Sugu: 30% naised 80% naised Genotüüp DQB1*0302 1% 25% Keskmine paranemisaeg Ravi A korral 7,2 päeva 12,2 päeva

    Segav faktor

    Ravi Ravitulemus

  • 23 Biomeetria bioloogidele 2010, Märt, Möls

    Vanus surmahetkel, inimgrupp 1 (suitsetades)

    vanus

    0 20 40 60 80 100 120

    Vanus surmahetkel, inimgrupp 2 (suitsetades)

    vanus

    0 20 40 60 80 100 120

  • 24 Biomeetria bioloogidele 2010, Märt, Möls

    Vanus surmahetkel, inimgrupp 1 (suitsetades)

    vanus

    0 20 40 60 80 100 120

    Vanus surmahetkel, inimgrupp 2 (suitsetades)

    vanus

    0 20 40 60 80 100 120

    Vanus surmahetkel, inimgrupp 2 (suitsetamisest loobudes)

    vanus

    0 20 40 60 80 100 120

    Vaadeldud

    Võrdleme

  • 25 Biomeetria bioloogidele 2010, Märt, Möls

    Randomiseerimine tagab võrreldavad grupid

    Ravi A Ravi B Sugu: 63% naised 63% naised Genotüüp DQB1*0302 11% 11%

    Keskmine paranemisaeg Ravi A korral 7,2 päeva 7,2 päeva

    Segav faktor

    Ravi Ravitulemus

    randomiseerimine

  • 26 Biomeetria bioloogidele 2010, Märt, Möls

    Kureteooria – teaduslikult tõestatud! Summary

    Data from Berlin (Germany) show a significant correlation between the increase in the stork population around the city and the increase in deliveries outside city hospitals (out-of-hospital deliveries). However, there is no correlation between deliveries in hospital buildings (clinical deliveries) and the stork population. New evidence for the Theory of the Stork. Thomas Höfer, Hildegard Przyrembel, Silvia Verleger. Paediatric & Perinatal Epidemiology. Volume 18 Page 88 - January 2004