11
1 Andmeanalüüs molekulaarbioloogias LOMR.10.007 1. loeng Andmed, tunnused, tunnuste tüübid ja tunnuse jaotuse iseloomustamine Prof Maido Remm Märt Möls [email protected] Töökorraldus Hinne Hinne kujuneb kontrolltööde (40%) ja eksami (60%) punktidest. Kontrolltööd (4x10 punkti) Iga loengu (välja arvatud esimene loeng) lõpus toimub kontrolltöö antud loengu teemal. Kontrolltööd baseeruvad koduseks lugemiseks antud raamatu peatükkidel! Kontrolltöö edukaks sooritamiseks peate seega need peatükid kodus läbi lugema ja läbi mõtlema! Raamatuid ja arvuteid võib kasutada, kuid töö tegemise aeg on limiteeritud (ca 5 küsimust 15 minuti jooksul), nii et materjal peab teil olema enne läbi töötatud ja läbi mõeldud. Eelkõige kontrollitakse loengust ja peatükkidest arusaamist, mitte faktide teadmist. Peate näitama, et olete teemaga tutvunud ja sellest ka aru saanud. Õppematerialid Harvey Motulsky Intuitive Biostatistics (2010, 1995) Järgmiseks korraks lugeda leheküljed 3-52 (1995.a. raamatu järgi). Kursuse kodulehekülg: http://www.ms.ut.ee/mart/AMB/ Töökorraldus Teisipäeviti toimuvad praktikumid. Paluks kaasa võtta sülearvutid, millele võiks juba olla paigaldatud R (tarkvara, mida hakkame kasutama praktikumides statistilise analüüsi tegemiseks). R on vabavara mida saab maha laadida järgmiselt võrgulehelt: http://www.r-project.org

374s molekulaarbioloogias MM loeng1ver2.ppt) · 2014. 2. 11. · 1. loeng Andmed, tunnused, tunnuste tüübid ja tunnuse jaotuse iseloomustamine Prof Maido Remm Märt Möls [email protected]

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • 1

    Andmeanalüüs molekulaarbioloogiasLOMR.10.007

    1. loeng

    Andmed, tunnused, tunnuste tüübid ja tunnuse jaotuse iseloomustamine

    Prof Maido RemmMärt Mö[email protected]

    Töökorraldus

    HinneHinne kujuneb kontrolltööde (40%) ja eksami

    (60%) punktidest.

    Kontrolltööd (4x10 punkti)Iga loengu (välja arvatud esimene loeng) lõpus toimub kontrolltöö antud loengu

    teemal. Kontrolltööd baseeruvad koduseks lugemiseks antud raamatu peatükkidel!

    Kontrolltöö edukaks sooritamiseks peate seega need peatükid kodus läbi lugema ja läbi mõtlema!

    Raamatuid ja arvuteid võib kasutada, kuid töö tegemise aeg on limiteeritud (ca 5 küsimust 15 minuti jooksul), nii et materjal peab teil olema enne läbi töötatud ja läbi mõeldud.

    Eelkõige kontrollitakse loengust ja peatükkidest arusaamist, mitte faktide teadmist. Peate näitama, et olete teemaga tutvunud ja sellest ka aru saanud.

    Õppematerialid

    Harvey Motulsky Intuitive Biostatistics (2010, 1995)

    Järgmiseks korraks lugeda leheküljed 3-52 (1995.a. raamatu järgi).

    Kursuse kodulehekülg:http://www.ms.ut.ee/mart/AMB/

    Töökorraldus

    Teisipäeviti toimuvad praktikumid. Paluks kaasa võtta sülearvutid, millele võiks juba olla paigaldatud R (tarkvara, mida hakkame kasutama praktikumides statistilise analüüsi tegemiseks).

    R on vabavara mida saab maha laadida järgmiselt võrgulehelt:

    http://www.r-project.org

  • 2

    Näide 1

    Loteriiga peavõidu saamine (näiteks Eestis müüdava Eurojackpoti piletiga) on äärmiselt vähetõenäoline sündmus.

    Väike on ka tõenäosus sattuda autoga sõites hukkunutega lõppevasse liiklusõnnetusse.

    Kui pika tee peaksite autoga läbima, et tõenäosus iseennast või kedagi teist surnuks sõita oleks samasuur kui lotovõidu saamise tõenäosus?

    Vastus: 930m = 0,93 km (2013.a. andmed, Eesti)

    Anna vahemik, kus arvad 90% kindlusega paiknevat õige vastuse:

    1. Millal (eestlased?) vallutasid Sigtuna?

    2. Mitu inimest elab Haapsalus (rahvaloenduse andmetel, 31.dets 2011)?

    3. Mitu üliõpilast oli LOTEs 2012. aastal?

    4. Mitu professorit töötas Tartu Ülikoolis 2012. aastal?

    5. Mitu geenidoonorit oli TÜ geenivaramus 7.veebruaril 2014.aastal?

    6. Mitu Petrogradis elavat eestlast osales 26. märtsil 1917.a meeleavaldusel Petrogradis (nõuti Põhja-Liivima ühendamist Eestimaa kubermanguga)?

    7. Kui suur on soolekepikese (Ecoli O157:H7) genoom (Mb)?

    8. Kui palju õpilasi läks Eesti suurimasse kooli 2013. aastal?

    9. Kui pikk on inimese 1. kormosoomis paiknev DNA-ahel (millimeetrites)?

    10. Mitu last oli “Postimehe” asutajal Johann Voldemar Jannsenil?

    1187

    10 2512417

    193

    51 535

    40 000

    5,4 Mb

    85mm 7 last

    1779

  • 3

    Teaduslikele küsimustele vastamine

    Enamusel juhtudel vajame teaduslikele küsimustele vastamiseks statistika abi. Miks?

    – Inimese aju ei ole harjunud mõtlema tõenäosustest.

    – Inimese aju teeb otsuseid enamasti liiga kiiresti, enesekindlalt ja üleliia optimistlikult.

    – Inimaju on harjunud nägema mustreid: ta näeb ja leiab mustreid ka sealt, kus neid pole.

    Tunnuse jaotusTunnuse võimalike väärtuste ja nende

    esinemistõenäosuste kirjeldamine

    tga tga taa taa taa taa taa taa taa taa tga tga taa taa taa taa tga taa tga taa taa taa taa tga taa tga taa taa taa taa taa taa taa taa tga taa taa taa taa taa taa tga tga tga taa ...

    Sagedustabel

    lõpukoodon sagedus

    taa 2706

    tag 326

    tga 1258

    Tunnuse jaotusTunnuse võimalike väärtuste ja nende

    esinemistõenäosuste kirjeldamine

    tga tga taa taa taa taa taa taa taa taa tga tga taa taa taa taa tga taa tga taa taa taa taa tga taa tga taa taa taa taa taa taa taa taa tga taa taa taa taa taa taa tga tga tga taa ...

    Jaotustabel (osakaalud)

    lõpukoodon osakaal

    taa 63,1%tag 7,6%tga 29,3%

    taa

    tag tga

    Kakuke -ringdiagramm

    taa

    tag

    tga

    Tulpdiagramm

    0

    500

    1000

    1500

    2000

    2500

    taa

    tag

    tga

    Tulpdiagramm

    Pro

    tsen

    t (%

    )

    0

    10

    20

    30

    40

    50

    60

    taa

    tag

    tga

    Tulpdiagramm

    Pro

    tsen

    t (%

    )

    0

    10

    20

    30

    40

    50

    60

  • 4

    Pideva tunnuse jaotus(Halb näide – ära nii tee!)

    188

    197

    179

    171

    189

    176

    190.2

    181

    193

    177

    168

    172

    194

    176.2

    170

    191.5

    199

    180

    201

    178

    182

    186

    190

    189.1

    192

    183

    175

    184

    174

    173

    184.5

    185

    183.5

    181.5

    187

    198

    191

    182.7

    Meestudengite pikkused

    0

    2

    4

    6

    8

    10

    Pideva tunnuse jaotusSagedustabel

    Vahemik sagedus

    (165,170] 6

    (170,175] 21

    (175,180] 36

    (180,185] 41

    (185,190] 28

    (190,195] 11

    (195,200] 4

    (200,205] 1

    Histogramm

    pikkus

    Sage

    du

    s

    170 180 190 200

    01

    02

    03

    04

    0

    Tunnuse tüübid

    • Pidev tunnus (pikkus, kaal, vanus, ...)

    • Diskreetne tunnus (käte arv, hammaste arv, ...)

    • Järjestustunnus (väga hea/hea/keskmine/halb/väga halb – tüüpi tunnus)

    • Nominaalne tunnus (rahvus, alguskoodon, ...)

    Muutuja tüüp on (teataval määral) uurija enda otsustada

    Inimese pikkus mõõdetuna näiteks cm või mm on pidev tunnus

    Neidsamu mõõdetud pikkuseid võime aga jagada pikkadeks, keskmisteks ja lühikesteks –tulemuseks saame järjestustunnuse;

    järjestustunnuse analüüsimiseks saab aga peaaegu alati kasutada ka nominaalse tunnuse analüüsimiseks sobivaid meetodeid.

    Me kaotame osa vaatlustes olemasolevast informatsioonist, kui otsustame teisendada ta järjestustunnuseks (pikk/keskmine/lühike), kuid mõnikord saame vastu võimaluse kasutada lihtsamaid analüüsimeetodeid või saame oma tulemusi esitada kergemini, vähem taustadeadmiseid nõudval viisil.

  • 5

    Statistikud

    Vaatluste (andmete) põhjal arvutatavad näitajad, mis peaksid iseloomustama uuritava tunnuse jaotust või jaotuse mõnda tähelepanuväärset aspekti.

    Statistikuks on näiteks keskmine:

    ∑=

    =n

    i

    ix

    nx

    1

    1 ( )

    9

    2576435

    1

    =

    ++++=x

    Mediaan

    Väärtus, millest suuremaid ja väiksemaid väärtuseid esineb samapalju:

    3 4 6 7 25

    2 3 4 6 7 25

    1 2 2 2 2 3 25

    mediaan

    Mediaan

    (4+6)/2=5

    mediaan

    Mood

    10 20 30 40 50

    Tunnus Z

    keskmine

    mediaan mood

    Multimodaalsete jaotuste näiteid

  • 6

    Multimodaalsete jaotuste näiteid Multimodaalsete jaotuste näiteid

    Väärtuste varieeruvuse kirjeldamine

    • Miinimum ja maksimum– Mitu jalga on inimesel?

    – Olemasolevate vaatluste miinimum on (peaaegu) alati liiga suur ja olemasolevate vaatluste maksimum liiga väike...

    – Reaalses andmestikus näitavad enamasti sisestus- või mõõtmisvigu, mutante, ...

    0-6

    Kvantiilid

    Definitsioon: Uuritava tunnuse α-kvantiil on tunnuse väärtus, millest väiksemate väärtuste osakaal on α.

    Näiteks 0,1-kvantiil on väärtus, millest väiksemate väärtuste osakaal on 0,1 ehk 10%.

    Enimkasutatavad: mediaan (0,5-kvantiil)

    detsiilid (0,1; 0,2; ...-kvantiil) ,

    kvartiilid (0,25; 0,75-kvantiil).

  • 7

    Dispersioon

    -3-2

    -10

    12

    3

    Mõõtmisvead

    õtm

    isvi

    ga

    Aparaat 1 Aparaat 2

    x1 = 0 x2 = 0mediaan(x1) = 0 mediaan(x2) = 0

    min=-2,2 min=-2,2max=2,4 max=2,4

    Dispersioon

    ∑=

    −=−n

    i

    ixx

    nxx

    1

    )(1

    )(

    Keskmine erinevus keskmisest?

    -3-2

    -10

    12

    3

    Mõõtmisvead

    õtm

    isvi

    ga

    Aparaat 1 Aparaat 2

    x1 = 0 x2 = 0mediaan(x1) = 0 mediaan(x2) = 0

    min=-2,2 min=-2,2max=2,4 max=2,4

    =0

    Keskmine ruuterinevus keskmisest?

    ∑=

    −=n

    i

    ixx

    n 1

    2)(1

    dispersioon

    ( ) ∑=

    −−

    ==n

    i

    ixxx

    nsxs

    1

    222)(

    1

    1)(

    Standardhälve

    Ruutjuur dispersioonist, s

    Kahe standardhälbe kaugusele keskmisest jäävad garanteeritult ¾ vaatlustest (enamasti ~95%)

    Kolme standardhälbe kaugusele keskmisest jäävad garanteeritult 8/9 vaatlustest (enamasti ~99,7%)

  • 8

    -3-2

    -10

    12

    3

    Mõõtmisvead

    õtm

    isvi

    ga

    Aparaat 1 Aparaat 2

    x1 = 0 x2 = 0mediaan(x1) = 0 mediaan(x2) = 0min=-2,2 min=-2,2max=2,4 max=2,4

    s=1,3 s=0,5

    Joonised

    Karp-vurrud diagramm (boxplot)

    Näitab:

    • mediaani (keskmine paks joon);

    • alumist ja ülemist kvartiili (karbikese alumine ja ülemine piir);

    • miinimumi ja maksimumi;

    12

    34

    56

    78

    Joonised

    Karp-vurrud diagramm (boxplot)

    Näitab:

    • mediaani (keskmine paks joon);

    • alumist ja ülemist kvartiili (karbikese alumine ja ülemine piir);

    • Kui miinimum või maksimum jäävad liiga kaugele, siis vahel ei viitsita vurrude joonistamiseks karbist sedavõrd kaugele vantsida ja tehakse nad veidi lähemale ☺. 1

    23

    45

    67

    8

    Tihedusfunktsioon

    10 12 14 16 18 20

    0.0

    00

    .05

    0.1

    00

    .15

    0.2

    0

    tunnus

    f(x)

  • 9

    Tihedusfunktsioon

    8 9 10 11 12 13

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    x

    f(x)

    Kui suur osa uuritava tunnuse väärtustest jääb vahemikku 10..11?

    Tihedusfunktsioon

    150 160 170 180 190

    0.0

    00.0

    10

    .02

    0.0

    30

    .04

    0.0

    50

    .06

    Naistudengite pikkused (Tartu Ülikool)

    Pikkus (cm)

    tihe

    dus

    S=0,012

    S=0,234

    Tihedusfunktsioon

    150 160 170 180 190

    0.0

    00.0

    10

    .02

    0.0

    30

    .04

    0.0

    50

    .06

    Naistudengite pikkused (Tartu Ülikool)

    Pikkus (cm)

    tihe

    dus

    ....

    .....

    =

    =

    xs

    x

    Tihedusfunktsioon ja histogramm

    10 12 14 16 18 20

    0.0

    00

    .05

    0.1

    00

    .15

    0.2

    0

    Tihedusfunktsioon

    Mõõtmistulemus

    tihe

    dus

    histogramm

    Mõõtmistulemus

    sag

    ed

    us

    10 15 20

    05

    00

    10

    00

    15

    00

  • 10

    Tihedusfunktsioon ja histogramm

    10 12 14 16 18 20

    0.0

    00

    .05

    0.1

    00

    .15

    0.2

    0

    Tihedusfunktsioon

    Mõõtmistulemus

    tihe

    dus

    histogramm

    Mõõtmistulemustih

    ed

    us

    10 15 20

    0.0

    00

    .05

    0.1

    00

    .15

    0.2

    0

    Tihedusfunktsioon ja histogramm

    histogramm

    Mõõtmistulemus

    tihe

    dus

    10 15 20

    0.0

    00

    .05

    0.1

    00

    .15

    0.2

    0

    Tihedusfunktsioon ja histogramm

    histogramm

    Mõõtmistulemus

    tihe

    dus

    5 10 15 20 25

    0.0

    00

    .05

    0.1

    00

    .15

    0.2

    0

    Hiigelsuur valim

    Tihedusfunktsiooni üks võimalik interpretatsioon

    Tihedusfunktsioon näitab, milline näeks välja histogramm siis, kui teeksime lõpmatult palju vaatluseid ja joonistaksime histogrammile ka äärmiselt palju tulpasid.

  • 11

    Objekt-tunnus maatriks Objekt-tunnus maatriks

    Aeg Rott Tootlus Tulemus

    12:23 1 - 123

    12:34 2 - 128

    12:36 3 - 132

    12:40 1 + 128

    12:42 4 - 119

    12:44 2 + 132

    .................................

    Objekt-tunnus maatriks

    Rott Enne Pärast

    1 123 128

    2 128 132

    3 132 ...

    4 119 ...

    ... ...

    Aeg Rott Tootlus Tulemus12:23 1 - 12312:34 2 - 12812:36 3 - 13212:40 1 + 12812:42 4 - 11912:44 2 + 132

    .................................

    Kokkuvõte: mida peaksite teadma

    • Objekt-tunnus maatriks

    • Tunnuste tüübid (pidev/diskreetne/järjestustunnus/nominaalne tunnus)

    • Põhistatistikud: keskmine, mediaan, mood, dispersioon, standardhälve, kvantiilid

    • Jaotuse visualiseerimine ja jooniste interpreteerimine: histogramm, tihedusfunktsioon, karp-vurrud diagramm