44
Katseandmete analüüs Statistika – piiratud vastutusega esitus, matemaatikat minimaalselt. Loengud kaks nädalat – tekstid on, aga mõte ikka T kell 16.15 K kell 10.15 R kell 16.15 - T 15. oktoobril kontrolltöö! – hakka kohe õppima! -praktikumid (pooltes vaja käia), kodutöö: Marko Mägi: [email protected] - loengud uuesti algusega 5. novembril - 2 kodutööd, eksam, 5 EAP (10%, 15%, 15%, 60%) http://www.ut.ee/~tammarut/stat.htm [email protected]

Katseandmete analüüs S tatistika – piiratud vastutusega esitus , matemaatikat minimaalselt

  • Upload
    macha

  • View
    84

  • Download
    0

Embed Size (px)

DESCRIPTION

Katseandmete analüüs S tatistika – piiratud vastutusega esitus , matemaatikat minimaalselt. Loengud kaks nädalat – tekstid on, aga mõte ikka T kell 16.15 K kell 10.15 R kell 16.15 - T 15. oktoobril kontrolltöö! – hakka kohe õppima! - PowerPoint PPT Presentation

Citation preview

Page 1: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Katseandmete analüüs

Statistika – piiratud vastutusega esitus, matemaatikat minimaalselt.Loengud kaks nädalat – tekstid on, aga mõte ikka T kell 16.15

K kell 10.15 R kell 16.15 - T 15. oktoobril kontrolltöö! – hakka kohe õppima!-praktikumid (pooltes vaja käia), kodutöö:

Marko Mägi: [email protected]

- loengud uuesti algusega 5. novembril- 2 kodutööd, eksam, 5 EAP (10%, 15%, 15%, 60%)

http://www.ut.ee/~tammarut/[email protected]

Page 2: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Miks statistikat just eriti bioloogias vaja on?

…. purk väävelhapet on purk väävelhapet,

Page 3: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Miks statistikat just eriti bioloogias vaja on?

…. purk väävelhapet on purk väävelhapet, …. hiir ei ole lihtsalt hiir, ta on “see” hiir.

Page 4: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Miks statistikat just eriti bioloogias vaja on?

…. purk väävelhapet on purk väävelhapet, …. hiir ei ole lihtsalt hiir, ta on “see” hiir.

-objektid pole täpselt ühesugused, individuaalne omapära- isendid, nende osad, populatsioonid.

Väita tahame aga midagi objektide klassi kohta üldiselt.

Statistika ongi selleks, et individuaalsuse müra tagant see üles leida, mida kogu hulga kohta väita võib.

Mis teha?

Kõiki kahjuks uurida ei saa,uurime valimit (sample) – mida suurem, seda parem.

Üldkogum.

Page 5: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Valimi ja üldkogumi kirjeldamine

Pidev muutuja vs diskreetne (kategooriline) muutuja, objekt ja vaatlus,

vaatlused moodustavad jaotuse.

Lihtsaim: kaheväärtuseline jaotus

Pidev tunnus: histogramm,tihedusfunktsioon on abstraktsioon.

- empiiriline vs teoreetiline jaotus.

Normaaljaotus,- paljud tegurid mõjutavad;- tegelt täpselt pole olemas, kuid paljud asjad ligilähedaselt normaaljaotusega

Page 6: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Pideva jaotuse kirjeldamine.

Mitmesugused jaotuse keskkohta iseloomustavad suurused:

(Valimi)keskmine (üldkogumi keskväärtus) – aritmeetiline keskmine;

Mediaan suuremaid ja väiksemaid väärtusi on võrdselt;

Mood kõige enamatel.

Sümmeetrilise jaotuse korral langevad ühte.

Näide: sissetuleku jaotus.

Page 7: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Hajuvusstatistikud - mitmeid erinevaid,väitele “on hajuvam” võib anda mitmeid erinevaid

matemaatilisi interpretatsioone.

dispersioon (variance)

2 2

1

( ) /x Ni

i

N

s x x Nii

N2 2

11

( ) / ( )

suure puhul pole vahet;paha: dimensionaalsus pole sama;

Miks hea:- aditiivsus, ehk saab komponentideks jagada (tabel).

valimi põhjal antud hinnang üldkogumi dispersioonile:

Page 8: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Kala pikkus seisab koos pea, keha ja saba pikkusest.

- väärtused annavad väärtuse kokku. - dispersioonid annavad dispersiooni kokku,

- niipalju varieeruvusest selle, niipalju teise arvele.

kala pea keha saba kokku 1 3 8 4 15 2 4 7 4 15 3 5 10 4 19 4 6 7 4 17 5 7 8 4 19 disp 2 1.2 0 3,2 % 62,5% 37,5% 0 100%

Page 9: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Standardhälve (standard deviation, SD) on ruutjuur dispersioonist.

- mitu korda varieeruvus suurem?- ± SD 68%, vabalt võib piirest väljas olla;

Variatsioonikoefitsient (coefficient of variation, CV)

Kvantiilid ehk fraktiilid jagavad jaotust teatud suurusega osadeks, 25% ja 75% kvantiilid - kvartiilid.

Normaaljaotuse puhul SD-l kvantiili sisu, üldjuhul mitte.

Väärtused ei sõltu süstemaatiliselt valimi suurusest.

Page 10: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Sarnased, kuid sisuliselt erinevad näitajad iseloomustavad meie teadmiste täpsust üldkogumi keskmisest.

Standardviga (standard error, SE) ehk valimi keskväärtuse standardhälve arvutatakse SD/ruutjuur-n.

Sõltub dispersioonist ja valimi suurusest.

Usaldusintervall (confidence interval of the mean) on SE-ga analoogiline suurus - väljaspool seda intervalli oleks üldkogumi keskmise olemine imelik, 95% tavaliselt, ± SE 68% usaldusintervall

Page 11: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Pane tähele:

SE ja usaldusintervallid iseloomustavad meie teadmist populatsiooni keskmisest, nad ei ole mõeldud

kirjeldama hajuvust üldkogumis,

valimi kasvades läheneb SE nullile.

Page 12: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

1 2 30

1

2

3

vaa

tlusi

2 2

1

( ) /x Ni

i

N

Dispersioon valimis:

s x x Nii

N2 2

11

( ) / ( )

Hinnang üldkogumi dispersioonile:

Hinnang üldkogumi standardhälbele SD: ruutjuur dispersioonist.

Variatsioonikoefitsient: standardhälve jagatud keskmisega.

Standardviga SE: SD/ruutjuur-n.

kala pikkus, m

Page 13: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

1 2 30

1

2

3

vaa

tlusi

Keskmine 2,

hälbed: -1, 1, 0, 0

ruudud: 1, 1, 0, 0

ruutude summa: 2

dispersioon = ruutude summa/ vaatluste arvuga = 0,5

hinnang üldkogumi dispersioonile = 2/(4-1) = 0,66

standardhälve = 0,816

CV: 40,8%, SE=0.408

2 2

1

( ) /x Ni

i

N

s x x Nii

N2 2

11

( ) / ( )

Page 14: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Hajuvusstatikute esitamine

- ± märgi abil enamasti,- joonisel error bar’ide kujul, alati ära mainida, millega tegu.

SE error barid pildi erinevustest ja olulisusest

Ebasümmeetriliste puhul kvantiile

Eriti kui:

0,2 0,1 0,1 0,1 0,9 0,8 saame 0.36±0.37,

Kvantiilidega koos mediaan.

Page 15: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Box plot kui mitut korraga.

Mis mis kirja!

Tavalised tulpdiagrammid kui oluline on suhteline erinevus.

Keerulisemad

- asümmeetrilisus (skewness). Pikk saba paremale - positiivne.

- järsakus (kurtosis) - terava tipuga positiivne.

Page 16: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Statistiline test

- näeme seost või erinevust valimis;- kas võime väita, et see on olemas ka üldkogumis;- valimi põhjal üldkogumi kohta; - alati polegi valim?- valim reaalne või hüpoteetiline.

Statistiline olulisus (significance)

p mõõdab tõenäosust saada vaadeldav olukord juhul, kui üldkogumis seost ei ole - puhtjuhuslikult siis;

Page 17: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Statistiline olulisus väljendab tõenäosust saada (valimi võtmise käigus üldkogumist) vähemalt nii suure erinevusega või vähemalt nii tugeva seosega valim juhul, kui üldkogumis seda seost või erinevust tegelikult ei ole.

Teeme (arvuti)mängu ja uurime!

- mängime läbi olukorra, kus seost tegelt pole.

Page 18: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

p-väärtus väljendab, kui tõenäone on saada nähtavolukord (seos või erinevus) juhuslikult,

p-väärtus ei näita, kui tõenäone on, et seos on saadudjuhuslikult.

Page 19: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Pane hästi tähele, et p ei mõõda seose tugevust!

Statistiline olulisus sõltub:

- seose tugevusest; - juhusliku varieeruvuse hulgast;- valimi suurusest.

Pane veel tähele, et erinevuse puudumist üldkogumis ei saa tõestada, pigem ei tea, mispidi on.

Looduses ei ole olulisi ja mitteolulisi seoseid, p ei iseloomusta mitte seost vaid meie teadmist temast!

Page 20: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Vabadusaste (degree of freedom, df) on statistiliste testide juures üldiselt ette tulev arusaamatu mõiste.

süsteemi vabadusaste, kui mitme sõltumatu arvuga on süsteem täielikult kirjeldatav. Nii on kolmnurgal kolm vabadusastet.

Andmestik on täielikult kirjeldatav, kui teame mudelit (mida siis sinna sobitame, näiteks regressioonsirget) ja teame iga vaatluse hälvet

- kummalgi omad vabadusastmed;

- neist sõltub, kas mudeli sobivus on juhuslik, seepst oluline.

Page 21: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Statistiliste testide tüüpe on väga palju, iga olukorra jaoks oma,statistika valdamine rakendustasemel tähendabki oskust õigettesti valida ja tulemusi õigesti interpreteerida.

Testi valimisel – esimene asi: kas muutuja on pidev või diskreetne?

Pidev - arvuliselt väljendatav pideval skaalal.Diskreetne = kategooriline, klassifitseeriv, klass-muutuja.

Kõigepealtsõltuv pidev;sõltumatu diskreetne.

t-testkaks rühma - kas enne meid olemas või ise tekitame

Page 22: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Arvutatakse t-statistik, mis on seda suurem, - mida suurem on valimite keskmiste vahe;- mida suurem on valim;- mida väiksem on dispersioon valimites.

t järgi p tabeli alusel,

sest otse arvutada ei saa,vabadusastmed hälvete vabadusastmed df=n1+n2-2,

mudeli omad alati 1 ja pole vaja esitada.

tx x

sn np

1 2

1 2

1 1

Page 23: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Esitame nii:

“Küla- ja Metsajärve ahvenate pikkustes oli erinevus(t=2,17; df=34 ; p=0,025)”

või ka

“Toidutaimel ei olnud mõju röövikute kasvukiirusele (t=0,17; df=52 ; p=0,37)”

Page 24: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

p = 0,045

“... 4,5% tõenäosus saada selline või suurem erinevus valimisseolukorras, kus üldkogumis seda tegelikult pole.”

EI TOHI ÖELDA

“... 4,5% on tõenäosus, et seos on saadud juhuslikult”.

P > 0,05 …. tõlgendus?

Page 25: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Arvutame ühe näite:

1 2 30

1

2

3

vaa

tlusi

2 3 40

1

2

3

vaa

tlusi

tx x

sn np

1 2

1 2

1 1

sn s n s

n np2 1

22 2

2

1 2

1 1

2

( ) ( )

kus

... aga siin näites s2=0,667

t = 1/ (0,816 (1/4+1/4)) = = 1/(0,816*0.707) = 1,73

df= 6 p>0.1

df=n1+n2-2

Page 26: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

1 2 30

1

2

3

vaa

tlusi

2 3 40

1

2

3

vaa

tlusi

t = 1,73 p = 0,13

Page 27: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

3 4 50

1

2

3

vaatlusi

p = 0,013t = 3,46

enne olit = 1,73 p = 0,13

1 2 30

1

2

3

vaa

tlusi

Page 28: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

1 2 30

1

2

3

vaa

tlusi

3 4 50

1

2

3

vaa

tlusi

p = 0,013t = 3,46

Page 29: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

0 1 2 3 40

1

2

3

vaa

tlusi

2 3 4 5 60

1

2

3

vaa

tlusi

t = 1,73 p = 0,13

enne olit = 3,46 p = 0,013

Page 30: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

1 2 30

1

2

3

4

5

vaa

tlusi

2 3 40

1

2

3

4

5

vaa

tlusi

t = 1,73 p = 0,13

Page 31: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

1 2 30

1

2

3

4

5

vaa

tlusi

2 3 40

1

2

3

4

5

vaa

tlusi

t = 2,65 p = 0,019

enne olit = 1,73 p = 0,13

Page 32: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Ühefaktoriline dispersioonanalüüs

(analysis of variance, ANOVA)

nagu t-test aga rühmi rohkem kui kaks.

Miks mitte palju t-teste?

- sest hulga võrdluste korral on tõenäone, et saame mõned testid juhuslikult oluliseks ja hindame erinevusi (mõju) üle.

Page 33: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Põhineb dispersiooni komponentideks lahutamisel - rühmade keskmiste dispersioon ja üksikvaatluste dispersioon ümber rühmade keskmiste (jääkhajuvus),

kas rühmade keskmiste dispersioon on seletatav juhusega ehk siis üksikvaatluste dispersiooniga?

- 2

0

+2

+1

- 2

0

+2

+1

- 2

0

+2

+1

Jääk:

Page 34: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Formaliseeritakse F-statistiku arvutamisega.

F=MSmodel/MSerror

MS=SS/df, mean square ehk keskruut.

See SS on sum of squares ehk hälvete ruutude summa

F põhjal leiame p, sealjuures df olulised

siin juba kahed df-d: mudeli ja hälvete df-d

mudeli omad: k-1; hälvete omad: n-k

Page 35: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

- 2

0

+2

+1- 2

0

+2

+1

- 2

0

+2

+1- 2

0

+2

+1

1

2

3

4

SS model = SS(1, 2, 3, 4)*5 = 25SS error = SS( +1,+2,-1,-2, 0, +1,+2,-1,-2, 0,+1,+2,-1,-2, 0, +1,+2,-1,-2, 0) = 40

MS model= SS model /3 = 8,33MS error = SS error /16 = 2,5

F = 8,33/2,5 = 3,33; p = 0,046

-1

-1

-1

-1

Page 36: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Determinatsioonikordaja R2 =SSmodel/SStotal,mudel kirjeldab ehk seletab parasjagu niipalju

muutlikkusest – accounts for …. % of variance;manipulatsiooni mõju iseloomustaja;

Kirjutame: “toidutaime liigil oli mõju nukukaalule (F3,16 = 3,33, p=0,046)”, ka R2

The ANOVA Procedure

Dependent Variable: pikk

Sum of Source DF Squares Mean Square F Value Pr > F

Model 3 25.00000000 8.33333333 3.33 0.0461

Error 16 40.00000000 2.50000000

Corrected Total 19 65.00000000

R-Square Coeff Var Root MSE pikk Mean

0.384615 63.24555 1.581139 2.500000

Source DF Anova SS Mean Square F Value Pr > F

ry 3 25.00000000 8.33333333 3.33 0.0461

The ANOVA Procedure

Page 37: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

1 2 30

1

2

3

vaa

tlusi

1 2 30

1

2

3

vaa

tlusi

1 2 30

1

2

3

vaa

tlusi

R2 = 0p = 1

Page 38: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

2 3 40

1

2

3

vaa

tlusi

3 4 50

1

2

3

vaa

tlusi

4 5 60

1

2

3

vaa

tlusi

R2 = 0,57p = 0,022

Page 39: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

3 4 5 6 70

1

2

3

vaa

tlusi

2 3 4 5 60

1

2

3

vaa

tlusi

1 2 3 4 50

1

2

3

vaa

tlusi

R2 = 0,25p = 0,27

Page 40: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

30

1

2

3

4

5

vaa

tlusi

40

1

2

3

4

5

vaa

tlusi

50

1

2

3

4

5

vaa

tlusi

R2 = 1p = .... määramata

Page 41: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Natuke terminoloogiat:

ühefaktoriline dispersioonanalüüs - ühe faktori järgi rühmad;

ANOVA on tasakaaluline, kui kõikides rühmades on samapalju objekte;

vaadeldud väärtus = ennustatud väärtus + jääk

- 2

0

+2

+1 Kahe rühma puhul saab ka ikka teha

Page 42: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Aga ANOVA’l (ka t-testil) on eeldused:

-rühmade sisesed jaotused normaalsed ja võrdse dispersiooniga

rühma sees ja mitte kokku!

Testida saab, aga ei pruugi olla kõige targem, analüüs robustne.Tee midagi, kui

- ilmne jama- süstemaatiline jama.

Teisendused, mitteparameetrilised meetodid, t-testi puhul ka erivariant ebavõrdsete dispersioonide jaoks

Page 43: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Muutujate teisendamine- sõltuv muutuja asendatakse mingi funktsiooniga temast,

kui niisama pole normaaljaotust, siis teisendatult võib olla.

Tavalisim: logaritmimine, kui pika sabaga paremale.

0

5

10

15

20

25

30

35

vaa

tlusi

0

5

10

15

20

25

30

35

vaa

tlusi

Vaja midagi liita, kui nulle või negatiivseid.Liita ka siis kui “tugevust” vaja reguleerida.

Muud: ruutjuur, ruutu tõstmine

Page 44: Katseandmete analüüs S tatistika –  piiratud vastutusega esitus , matemaatikat minimaalselt

Mitteparameetrilised meetodid

-jaotusi ei saa sümmeetriliseks miski teisendusega,- siiski - võimsus väiksem;- vähem informatsiooni annab.

-Mann-Whitney U-test (ehk Kruskal-Wallise testi - viimane nimi juhuks, kui võrreldavaid rühmi on rohkem kui kaks)

- mediaanitest

Või ka siis kui järjestustunnus.