Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
Andmeanalüüs molekulaarbioloogiasLOMR.10.007
1. loeng
Andmed, tunnused, tunnuste tüübid ja tunnuse jaotuse iseloomustamine
Prof Maido RemmMärt Mö[email protected]
Töökorraldus
HinneHinne kujuneb kontrolltööde (40%) ja eksami
(60%) punktidest.
Kontrolltööd (4x10 punkti)Iga loengu (välja arvatud esimene loeng) lõpus toimub kontrolltöö antud loengu
teemal. Kontrolltööd baseeruvad koduseks lugemiseks antud raamatu peatükkidel!
Kontrolltöö edukaks sooritamiseks peate seega need peatükid kodus läbi lugema ja läbi mõtlema!
Raamatuid ja arvuteid võib kasutada, kuid töö tegemise aeg on limiteeritud (ca 5 küsimust 15 minuti jooksul), nii et materjal peab teil olema enne läbi töötatud ja läbi mõeldud.
Eelkõige kontrollitakse loengust ja peatükkidest arusaamist, mitte faktide teadmist. Peate näitama, et olete teemaga tutvunud ja sellest ka aru saanud.
Õppematerialid
Harvey Motulsky Intuitive Biostatistics (2010, 1995)
Järgmiseks korraks lugeda leheküljed 3-52 (1995.a. raamatu järgi).
Kursuse kodulehekülg:http://www.ms.ut.ee/mart/AMB/
Töökorraldus
Teisipäeviti toimuvad praktikumid. Paluks kaasa võtta sülearvutid, millele võiks juba olla paigaldatud R (tarkvara, mida hakkame kasutama praktikumides statistilise analüüsi tegemiseks).
R on vabavara mida saab maha laadida järgmiselt võrgulehelt:
http://www.r-project.org
2
Näide 1
Loteriiga peavõidu saamine (näiteks Eestis müüdava Eurojackpoti piletiga) on äärmiselt vähetõenäoline sündmus.
Väike on ka tõenäosus sattuda autoga sõites hukkunutega lõppevasse liiklusõnnetusse.
Kui pika tee peaksite autoga läbima, et tõenäosus iseennast või kedagi teist surnuks sõita oleks samasuur kui lotovõidu saamise tõenäosus?
Vastus: 930m = 0,93 km (2013.a. andmed, Eesti)
Anna vahemik, kus arvad 90% kindlusega paiknevat õige vastuse:
1. Millal (eestlased?) vallutasid Sigtuna?
2. Mitu inimest elab Haapsalus (rahvaloenduse andmetel, 31.dets 2011)?
3. Mitu üliõpilast oli LOTEs 2012. aastal?
4. Mitu professorit töötas Tartu Ülikoolis 2012. aastal?
5. Mitu geenidoonorit oli TÜ geenivaramus 7.veebruaril 2014.aastal?
6. Mitu Petrogradis elavat eestlast osales 26. märtsil 1917.a meeleavaldusel Petrogradis (nõuti Põhja-Liivima ühendamist Eestimaa kubermanguga)?
7. Kui suur on soolekepikese (Ecoli O157:H7) genoom (Mb)?
8. Kui palju õpilasi läks Eesti suurimasse kooli 2013. aastal?
9. Kui pikk on inimese 1. kormosoomis paiknev DNA-ahel (millimeetrites)?
10. Mitu last oli “Postimehe” asutajal Johann Voldemar Jannsenil?
1187
10 2512417
193
51 535
40 000
5,4 Mb
85mm 7 last
1779
3
Teaduslikele küsimustele vastamine
Enamusel juhtudel vajame teaduslikele küsimustele vastamiseks statistika abi. Miks?
– Inimese aju ei ole harjunud mõtlema tõenäosustest.
– Inimese aju teeb otsuseid enamasti liiga kiiresti, enesekindlalt ja üleliia optimistlikult.
– Inimaju on harjunud nägema mustreid: ta näeb ja leiab mustreid ka sealt, kus neid pole.
Tunnuse jaotusTunnuse võimalike väärtuste ja nende
esinemistõenäosuste kirjeldamine
tga tga taa taa taa taa taa taa taa taa tga tga taa taa taa taa tga taa tga taa taa taa taa tga taa tga taa taa taa taa taa taa taa taa tga taa taa taa taa taa taa tga tga tga taa ...
Sagedustabel
lõpukoodon sagedus
taa 2706
tag 326
tga 1258
Tunnuse jaotusTunnuse võimalike väärtuste ja nende
esinemistõenäosuste kirjeldamine
tga tga taa taa taa taa taa taa taa taa tga tga taa taa taa taa tga taa tga taa taa taa taa tga taa tga taa taa taa taa taa taa taa taa tga taa taa taa taa taa taa tga tga tga taa ...
Jaotustabel (osakaalud)
lõpukoodon osakaal
taa 63,1%tag 7,6%tga 29,3%
taa
tag tga
Kakuke -ringdiagramm
taa
tag
tga
Tulpdiagramm
0
500
1000
1500
2000
2500
taa
tag
tga
Tulpdiagramm
Pro
tsen
t (%
)
0
10
20
30
40
50
60
taa
tag
tga
Tulpdiagramm
Pro
tsen
t (%
)
0
10
20
30
40
50
60
4
Pideva tunnuse jaotus(Halb näide – ära nii tee!)
188
197
179
171
189
176
190.2
181
193
177
168
172
194
176.2
170
191.5
199
180
201
178
182
186
190
189.1
192
183
175
184
174
173
184.5
185
183.5
181.5
187
198
191
182.7
Meestudengite pikkused
0
2
4
6
8
10
Pideva tunnuse jaotusSagedustabel
Vahemik sagedus
(165,170] 6
(170,175] 21
(175,180] 36
(180,185] 41
(185,190] 28
(190,195] 11
(195,200] 4
(200,205] 1
Histogramm
pikkus
Sage
du
s
170 180 190 200
01
02
03
04
0
Tunnuse tüübid
• Pidev tunnus (pikkus, kaal, vanus, ...)
• Diskreetne tunnus (käte arv, hammaste arv, ...)
• Järjestustunnus (väga hea/hea/keskmine/halb/väga halb – tüüpi tunnus)
• Nominaalne tunnus (rahvus, alguskoodon, ...)
Muutuja tüüp on (teataval määral) uurija enda otsustada
Inimese pikkus mõõdetuna näiteks cm või mm on pidev tunnus
Neidsamu mõõdetud pikkuseid võime aga jagada pikkadeks, keskmisteks ja lühikesteks –tulemuseks saame järjestustunnuse;
järjestustunnuse analüüsimiseks saab aga peaaegu alati kasutada ka nominaalse tunnuse analüüsimiseks sobivaid meetodeid.
Me kaotame osa vaatlustes olemasolevast informatsioonist, kui otsustame teisendada ta järjestustunnuseks (pikk/keskmine/lühike), kuid mõnikord saame vastu võimaluse kasutada lihtsamaid analüüsimeetodeid või saame oma tulemusi esitada kergemini, vähem taustadeadmiseid nõudval viisil.
5
Statistikud
Vaatluste (andmete) põhjal arvutatavad näitajad, mis peaksid iseloomustama uuritava tunnuse jaotust või jaotuse mõnda tähelepanuväärset aspekti.
Statistikuks on näiteks keskmine:
∑=
=n
i
ix
nx
1
1 ( )
9
2576435
1
=
++++=x
Mediaan
Väärtus, millest suuremaid ja väiksemaid väärtuseid esineb samapalju:
3 4 6 7 25
2 3 4 6 7 25
1 2 2 2 2 3 25
mediaan
Mediaan
(4+6)/2=5
mediaan
Mood
10 20 30 40 50
Tunnus Z
keskmine
mediaan mood
Multimodaalsete jaotuste näiteid
6
Multimodaalsete jaotuste näiteid Multimodaalsete jaotuste näiteid
Väärtuste varieeruvuse kirjeldamine
• Miinimum ja maksimum– Mitu jalga on inimesel?
– Olemasolevate vaatluste miinimum on (peaaegu) alati liiga suur ja olemasolevate vaatluste maksimum liiga väike...
– Reaalses andmestikus näitavad enamasti sisestus- või mõõtmisvigu, mutante, ...
0-6
Kvantiilid
Definitsioon: Uuritava tunnuse α-kvantiil on tunnuse väärtus, millest väiksemate väärtuste osakaal on α.
Näiteks 0,1-kvantiil on väärtus, millest väiksemate väärtuste osakaal on 0,1 ehk 10%.
Enimkasutatavad: mediaan (0,5-kvantiil)
detsiilid (0,1; 0,2; ...-kvantiil) ,
kvartiilid (0,25; 0,75-kvantiil).
7
Dispersioon
-3-2
-10
12
3
Mõõtmisvead
Mõ
õtm
isvi
ga
Aparaat 1 Aparaat 2
x1 = 0 x2 = 0mediaan(x1) = 0 mediaan(x2) = 0
min=-2,2 min=-2,2max=2,4 max=2,4
Dispersioon
∑=
−=−n
i
ixx
nxx
1
)(1
)(
Keskmine erinevus keskmisest?
-3-2
-10
12
3
Mõõtmisvead
Mõ
õtm
isvi
ga
Aparaat 1 Aparaat 2
x1 = 0 x2 = 0mediaan(x1) = 0 mediaan(x2) = 0
min=-2,2 min=-2,2max=2,4 max=2,4
=0
Keskmine ruuterinevus keskmisest?
∑=
−=n
i
ixx
n 1
2)(1
dispersioon
( ) ∑=
−−
==n
i
ixxx
nsxs
1
222)(
1
1)(
Standardhälve
Ruutjuur dispersioonist, s
Kahe standardhälbe kaugusele keskmisest jäävad garanteeritult ¾ vaatlustest (enamasti ~95%)
Kolme standardhälbe kaugusele keskmisest jäävad garanteeritult 8/9 vaatlustest (enamasti ~99,7%)
8
-3-2
-10
12
3
Mõõtmisvead
Mõ
õtm
isvi
ga
Aparaat 1 Aparaat 2
x1 = 0 x2 = 0mediaan(x1) = 0 mediaan(x2) = 0min=-2,2 min=-2,2max=2,4 max=2,4
s=1,3 s=0,5
Joonised
Karp-vurrud diagramm (boxplot)
Näitab:
• mediaani (keskmine paks joon);
• alumist ja ülemist kvartiili (karbikese alumine ja ülemine piir);
• miinimumi ja maksimumi;
12
34
56
78
Joonised
Karp-vurrud diagramm (boxplot)
Näitab:
• mediaani (keskmine paks joon);
• alumist ja ülemist kvartiili (karbikese alumine ja ülemine piir);
• Kui miinimum või maksimum jäävad liiga kaugele, siis vahel ei viitsita vurrude joonistamiseks karbist sedavõrd kaugele vantsida ja tehakse nad veidi lähemale ☺. 1
23
45
67
8
Tihedusfunktsioon
10 12 14 16 18 20
0.0
00
.05
0.1
00
.15
0.2
0
tunnus
f(x)
9
Tihedusfunktsioon
8 9 10 11 12 13
0.0
0.1
0.2
0.3
0.4
0.5
0.6
x
f(x)
Kui suur osa uuritava tunnuse väärtustest jääb vahemikku 10..11?
Tihedusfunktsioon
150 160 170 180 190
0.0
00.0
10
.02
0.0
30
.04
0.0
50
.06
Naistudengite pikkused (Tartu Ülikool)
Pikkus (cm)
tihe
dus
S=0,012
S=0,234
Tihedusfunktsioon
150 160 170 180 190
0.0
00.0
10
.02
0.0
30
.04
0.0
50
.06
Naistudengite pikkused (Tartu Ülikool)
Pikkus (cm)
tihe
dus
....
.....
=
=
xs
x
Tihedusfunktsioon ja histogramm
10 12 14 16 18 20
0.0
00
.05
0.1
00
.15
0.2
0
Tihedusfunktsioon
Mõõtmistulemus
tihe
dus
histogramm
Mõõtmistulemus
sag
ed
us
10 15 20
05
00
10
00
15
00
10
Tihedusfunktsioon ja histogramm
10 12 14 16 18 20
0.0
00
.05
0.1
00
.15
0.2
0
Tihedusfunktsioon
Mõõtmistulemus
tihe
dus
histogramm
Mõõtmistulemustih
ed
us
10 15 20
0.0
00
.05
0.1
00
.15
0.2
0
Tihedusfunktsioon ja histogramm
histogramm
Mõõtmistulemus
tihe
dus
10 15 20
0.0
00
.05
0.1
00
.15
0.2
0
Tihedusfunktsioon ja histogramm
histogramm
Mõõtmistulemus
tihe
dus
5 10 15 20 25
0.0
00
.05
0.1
00
.15
0.2
0
Hiigelsuur valim
Tihedusfunktsiooni üks võimalik interpretatsioon
Tihedusfunktsioon näitab, milline näeks välja histogramm siis, kui teeksime lõpmatult palju vaatluseid ja joonistaksime histogrammile ka äärmiselt palju tulpasid.
11
Objekt-tunnus maatriks Objekt-tunnus maatriks
Aeg Rott Tootlus Tulemus
12:23 1 - 123
12:34 2 - 128
12:36 3 - 132
12:40 1 + 128
12:42 4 - 119
12:44 2 + 132
.................................
Objekt-tunnus maatriks
Rott Enne Pärast
1 123 128
2 128 132
3 132 ...
4 119 ...
... ...
Aeg Rott Tootlus Tulemus12:23 1 - 12312:34 2 - 12812:36 3 - 13212:40 1 + 12812:42 4 - 11912:44 2 + 132
.................................
Kokkuvõte: mida peaksite teadma
• Objekt-tunnus maatriks
• Tunnuste tüübid (pidev/diskreetne/järjestustunnus/nominaalne tunnus)
• Põhistatistikud: keskmine, mediaan, mood, dispersioon, standardhälve, kvantiilid
• Jaotuse visualiseerimine ja jooniste interpreteerimine: histogramm, tihedusfunktsioon, karp-vurrud diagramm