82
Doc. dr. sc. Ozren Polašek Osnove (i još malo više) statistike www.illustrationsof.com

P01_statistika_uvod

  • Upload
    psih004

  • View
    15

  • Download
    0

Embed Size (px)

DESCRIPTION

p

Citation preview

Page 1: P01_statistika_uvod

Doc. dr. sc. Ozren Polašek

Osnove (i još malo više) statistike

www.illustrationsof.com

Page 2: P01_statistika_uvod

© Lucasfilm

Page 3: P01_statistika_uvod

Statistika je disciplina i struka koja se bavi shvaćanjem varijabilnosti podataka, na temelju prikupljanja i analize podataka

Page 4: P01_statistika_uvod

Prikupljanje podataka

Svrha – opisati neku pojavu u populacijiKako – obuhvatiti cijelu populaciju?

http://www.samepoint.com

Page 5: P01_statistika_uvod

Temeljne pretpostavke

Cilj: istražiti nešto u uzorku a zatim zaključivati o populaciji

UzorkovanjePrikladno (namjerno)(loše)Jedna ustanova (loše)Konsekutivno (malo bolje)Slučajni odabir (najbolje)

http://www.samepoint.com

Page 6: P01_statistika_uvod

Mjerenje

Preciznost i validnost mjerenja (prosjek mjerenja odgovara stvarnom prosjeku)

Page 7: P01_statistika_uvod

Podjele…

Statistika DeskriptivnaAnalitička/inferencijalna

ParametrijskaNeparametrijska

Page 8: P01_statistika_uvod

Oblici mjerenja i varijabli

Tip mjerenja Obilježja varijable Primjer Opisna statistika

Razina informati-

vnosti

KategorijskeNominalne

Neuređene kategorije

Spol, krvna grupa

Broj, proporcija

Niska

Ordinalne Uređene kategorije

Ocjene, skala boli

Medijani Srednja

Kontinuirane (numeričke)

Uređene kategorije s

jednakim intervalima

Visina, težina

Srednja vrijednost,

medijan

Visoka

Page 9: P01_statistika_uvod

Osnovni pojmovi (deskriptivna statistika)

Srednja vrijednost (zbroj/broj)Standardna devijacija

Raspon (min-max)(Per)centila (100’)Medijan (50%)Interkvartilni raspon (75’-25’)

1

)( 2

n

xxs

ii

Page 10: P01_statistika_uvod

Srednja vrijednost

Medijan(50’)

75’25’

Page 11: P01_statistika_uvod

Testiranje hipoteze

P vrijednost (eng. probability - vjerojatnost)

Govori o tome kolika je vjerojatnost da je rezultat točan, tj. da nije točan

Manja od 0,05 (ili 0,01) – govori o tome da je vjerojatnost za neki događaj manja od 5% slučajnog rezultata

Page 12: P01_statistika_uvod

Testiranje hipoteze

P vrijednostManja od 0,05 (ili 0,01)

P<0,05P NS.P=0,021P<0,001P=3,45*10-5

Odabir statističkog testa ovisno o istraživačkom pitanju, obilježjima analiziranih varijabli i strukturi istraživanja

Page 13: P01_statistika_uvod

Asking a statistician to help after the experiment has been completed is like talking to a pathologist. It is then that the statistician can tell you what the project died of.

Sir Ronald Aylmer Fisher (1890-1962)

http://en.wikipedia.org/wiki/Ronald_Fisher

Page 14: P01_statistika_uvod

TIP PODATKA

Kvalitativni(kategorijski)

1 neovisna varijabla

2 ili više neovisnih varijabli

Kvantitativni

Povezanost

Razlika

2 skupine

Više skupina

Neparametrijske

Parametrijske

2 ili više ovisnih varijabli

Goodness of fit x 2

Hi kvadrat (x 2)

1 prediktor

Više prediktora

Kontinuirana varijabla

Rangovi

Multipla regresija

Spearman r

Pearson r

Regresija

neovisne

ovisne

t test

Mann-Whitney

t test za povezane uzorke

Wilcoxon

neovisne

ovisne

One-way ANOVA

Kruskal-Wallis

ANOVA za ponavljane uzorke

Friedman

McNemar test

Testiranje hipoteze

Page 15: P01_statistika_uvod

Parametrijske metode

Temelje se na parametrima iz uzorka/populacije

Zahtijevaju normalnu raspodjelu podataka

Page 16: P01_statistika_uvod

Normalna raspodjela podataka

“Gaussova”eng. bell shapedSrednja

vrijednost ista kao i medijan

Standardna devijacija određuje širinu

Page 17: P01_statistika_uvod
Page 18: P01_statistika_uvod
Page 19: P01_statistika_uvod
Page 20: P01_statistika_uvod

Testiranje normalnosti

“Okometrijski”Korištenjem posebnih grafičkih prikazaKorištenjem statističkih testova

Kolmogorov-Smirnov test (>50)Shapiro-Wilk test (<50)

Page 21: P01_statistika_uvod

Kada koristiti parametrijske metode?

Normalna raspodjela podatakaMjerenja moraju biti neovisna (npr. 10

ispitanika sa 10 mjerenja istog svojstva na svakome od njih NIJE 100 neovisnih mjerenja)

Mjerenja se zasnivaju na populaciji koja ima normalnu raspodjelu istraživanog svojstva

Svi skupine u uzorku moraju imati istu varijancu

Page 22: P01_statistika_uvod

Zašto uopće gledati raspodjelu?

Zato što o raspodjeli podataka ovisi metoda i tijek analize

Normalna raspodjela omogućuje upotrebu parametrijskih metoda analize

Odstupanje od normalne raspodjele onemogućuje upotrebu parametrijskih metoda

Analiza raspodjele omogućuje uočavanje mogućih pogrešaka u podacima

Page 23: P01_statistika_uvod

Deskriptivna statistika

Prikaz mjera središnje tendencijePrikaz mjera varijabilnosti podatakaUVIJEK ZAJEDNO!Normalna raspodjela: srednja

vrijednost±standardna devijacijaRaspodjela podataka koja odstupa od

normalne: medijan i (1) raspon, (2) najmanja i najveća vrijednost i (3) interkvartilni raspon

Page 24: P01_statistika_uvod

Medijan i mjere varijabilnosti

Medijan (raspon) max-min56,0 (75,0)

Medijan (raspon) min i max56,0 (18,0-93,0)

Medijan (interkvartilni raspon; 75’-25’)56,0 (24,0)

Page 25: P01_statistika_uvod

Kolcic I, Polasek O, Mihalj H, Gombac E, Kraljevic V, Kraljevic I, Krakar G. Research involvement, specialty choice, and emigration preferences of final year medical students in Croatia. Croatian Medical Journal 2005;46(1):88-95.

Page 26: P01_statistika_uvod

Polasek O, Kolcic I, Smoljanovic A, Stojanovic D, Grgic M, Ebling B, Klaric M, Milas J, Puntaric D. Demonstrating reduced environmental and genetic diversity in human isolates by analysis of blood lipid levels. Croatian Medical Journal. 2006;47(4):649-55.

Page 27: P01_statistika_uvod

Polasek O, Petrovecki M, Primorac D, Petrovecki M. Fellowship outcomes and factors associated with scientific successfulness of junior researchers in Croatia. Drustvena istrazivanja 2007, 6 (92):1127-1150.

Page 28: P01_statistika_uvod

Polasek O, Mavrinac M, Jovic A, Kolcic I, Ramic S, Ivankovic D, Petrovečki M. Undergraduate grade point average is a poor predictor of scientific productivity later in career. Higher Education, In Press

Page 29: P01_statistika_uvod

Odabir statističkog testa

2 nepovezane skupine: t-test (engl. independent samples t-test)

2 povezane skupine: t-test za povezane uzorke (engl. dependent samples t-test)

Više od dva neovisna uzorka: F-test ili ANOVA (analysis of variance)+post-hoc test

Više od dva ovisna uzorka: faktorska ANOVA i AUC

Page 30: P01_statistika_uvod

t-test za neovisne uzorke

1908 William Sealy GossetOsmislio je novi test za

kontrolu kvalitete piva u pivovari Guinness

Objavio rezultate u časopisu Biometrika, ali nije mogao koristiti svoje ime zbog očuvanja poslovne tajne

© Guinness

Page 31: P01_statistika_uvod

t-test za ovisne uzorke

Podaci koji su povezaniNpr. dužina lijeve i desne očne jabučiceInterpretacija ista kao i t-test za neovisne

uzorke

Page 32: P01_statistika_uvod

ANOVA

Analysis of varianceViše nepovezanih skupinaMeđutim, sam test nije dovoljan (P<0,001)Post-hoc test – usporedba svake skupine

sa svakom

12

3ANOVA P<0,001

12

3 Post-hoc1 vs. 2 P=0,6211 vs. 3 P=0,0032 vs. 3 P<0,001

Page 33: P01_statistika_uvod

TIP PODATKA

Kvalitativni(kategorijski)

1 neovisna varijabla

2 neovisne varijable

Kvantitativni

Povezanost

Razlika

2 skupine

Više skupina

Neparametrijske

Parametrijske

2 ovisne varijable

Goodness of fit x 2

Hi kvadrat (x 2)

1 prediktor

Više prediktora

Kontinuirana varijabla

Rangovi

Multipla regresija

Spearman rs

Pearson r

Regresija

neovisne

ovisne

t test

Mann-Whitney U

t test za povezane uzorke

Wilcoxon

neovisne

ovisne

One-way ANOVA

Kruskal-Wallis H

ANOVA za ponavljane uzorke

Friedman

McNemar test

Testiranje hipoteze

Page 34: P01_statistika_uvod

Parametrijska korelacija

Povezanost dvije kontinuirane numeričke varijable koje obilježava normalnu raspodjelu podataka

Koeficijent korelacije (r)Govori o snazi povezanosti, a kreće se od -1,0

do 1,0Koeficijent korelacije r=0 ukazuje na

nepostojanje korelacije

Page 35: P01_statistika_uvod

Pearsonov test korelacije

Parametrijski model korelacijeZasniva se na testiranju snage

povezanosti dvije varijableUvijek prikazujte graf rasapa (scatterplot)

na kojem se vidi priroda korelacijeKorelacija mora biti linearna

Page 36: P01_statistika_uvod

r=0,32

Page 37: P01_statistika_uvod

TIP PODATKA

Kvalitativni(kategorijski)

1 neovisna varijabla

2 neovisne varijable

Kvantitativni

Povezanost

Razlika

2 skupine

Više skupina

Neparametrijske

Parametrijske

2 ovisne varijable

Goodness of fit x 2

Hi kvadrat (x 2)

1 prediktor

Više prediktora

Kontinuirana varijabla

Rangovi

Multipla regresija

Spearman rs

Pearson r

Regresija

neovisne

ovisne

t test

Mann-Whitney U

t test za povezane uzorke

Wilcoxon

neovisne

ovisne

One-way ANOVA

Kruskal-Wallis H

ANOVA za ponavljane uzorke

Friedman

McNemar test

Testiranje hipoteze

Page 38: P01_statistika_uvod

GIGO

Garbage in, garbage outNiti najbolja statistička obrada neće

popraviti loš dizajn istraživanja, unos podataka ili loše istraživačko pitanje

Page 39: P01_statistika_uvod

Regresija: krvni tlak i prihodi

Postoji jasna i očita povezanost krvnog tlaka i razine prihoda, na način da u uzorku ispitanici sa najvišim primanjima imaju najviši krvni tlak

Objašnjenje?

Page 40: P01_statistika_uvod

Tko ima visoke prihode?

StarijiMuškarciVišeg stupnja obrazovanja*

Page 41: P01_statistika_uvod

Regresija

Povezanost više (prediktorskih) varijabli sa jednom ciljnom (ovisnom) varijablom

Npr. utjecaj spola i dobi na visinu krvnog tlaka

Istovremeni prikaz utjecaja više varijabli na jednu

Epidemiološki rečeno, ovo su varijable zbunjivanja (engl. confounding)

Kako se riješiti ovog učinka?

Page 42: P01_statistika_uvod

Kako ukloniti zbunjivanje (confounding)?

StratifikacijaStandardizacijaSparivanje (engl. mathcing)SelekcijaRandomizacija*Regresija

Page 43: P01_statistika_uvod

Oblici regresijske analize

Linearna i multipla linearnaLogističkaCox (hazard model)Ordinalna

Page 44: P01_statistika_uvod

Pretpostavke korištenja linearne regresije

Ciljna varijabla ima normalu raspodjeluPrediktorske varijable imaju normalnu

raspodjeluPrediktorske varijable ne mogu biti

ordinalne ili kategorijske (samo binarne i kontinuirane normalne)

Page 45: P01_statistika_uvod

Logistička regresija

Ciljna varijabla je binarna (npr. zdrav-bolestan, živ-mrtav, …)

Mjeri utjecaj pojedine klase prediktorske varijable na ishod

Page 46: P01_statistika_uvod

TIP PODATKA

Kvalitativni(kategorijski)

1 neovisna varijabla

2 neovisne varijable

Kvantitativni

Povezanost

Razlika

2 skupine

Više skupina

Neparametrijske

Parametrijske

2 ovisne varijable

Goodness of fit x 2

Hi kvadrat (x 2)

1 prediktor

Više prediktora

Kontinuirana varijabla

Rangovi

Multipla regresija

Spearman rs

Pearson r

Regresija

neovisne

ovisne

t test

Mann-Whitney U

t test za povezane uzorke

Wilcoxon

neovisne

ovisne

One-way ANOVA

Kruskal-Wallis H

ANOVA za ponavljane uzorke

Friedman

McNemar test

Testiranje hipoteze

Page 47: P01_statistika_uvod

Srednja vrijednost 138.3

Std. Devijacija 24.1

Medijan 135.0

Min 69.0

Max 230.0

Raspon 161.0

Interkvartilni raspon 32.0

Page 48: P01_statistika_uvod

Srednja vrijednost 5.69

Std. Devijacija 1.48

Medjian 5.40

Min 2.30

Max 17.40

Raspon 15.10

Interkvartilni raspon 1.10

Page 49: P01_statistika_uvod
Page 50: P01_statistika_uvod

Srednja vrijednost

Medijan(50’)

Page 51: P01_statistika_uvod

Tip podatka / očekivana raspodjela

VisinaProsjek ocjenaStarost u godinamaRazina inzulina u serumuTežinaBilirubin u mokraći

Page 52: P01_statistika_uvod

Prosjek ocjena

Ocjene od 1-5 su brojčaneMeđutim, one su diskretne, nisu

kontinuiraneOvaj tip podatka nikako ne može imati

normalnu raspodjelu

Page 53: P01_statistika_uvod

Neparametrijske metode

Analitičke metode koje se ne zasnivaju na pretpostavci raspodjele podataka

NEMA srednje vrijednosti i standardne devijacije

Podaci su po svojoj prirodi nominalni ili ordinalni

Veličina uzorka je mala (npr. 20 ispitanika) – šansa za pogrešku tipa I

Page 54: P01_statistika_uvod

Prednost NP metoda

Mogućnost analize raznolikih uzoraka (engl. outliers)

Analiza se svodi na rang podataka ne na stvarne vrijednosti

Page 55: P01_statistika_uvod

Kada obavezno NP metode?

Mali uzorci (N<30)Varijable koje nemaju normalnu

raspodjelu (npr. enzimi, biokemijski pokazatelji, krvni tlak, …)

Ordinalne varijable (ocjene, starost u godinama, …)

Page 56: P01_statistika_uvod

Zašto ne koristiti NP metode?

Otežana interpretacija (medijan i raspon)Ponekad nemoguće pokazati razliku dvije

varijable (iste vrijednosti medijana)Smanjena statistička snaga testa i

povećana šansa za pogreške

Page 57: P01_statistika_uvod

Pogreške u analizi

Pogreška tipa I: lažno pozitivni rezultatOdbijanje nul-hipoteze kada je ona stvarno istina, tj.

prikazivanje rezultata kao statistički značajan kada on uistinu nije

Pogreška tipa II: promašaj stvarnog učinkaPogreška koja nastaje jer se ne odbacuje nul-hipoteza

kada je ona lažna, tj. odbacivanje stvarnog rezultata i proglašavanje neznačajnim

Page 58: P01_statistika_uvod

Neparametrijske metode

2 neovisna uzorka – Mann-Whitney (t-test)

2 povezana uzorka – Wilcoxon (t-test PU)Više od dva neovisna uzorka – Kruskal-

Wallis (ANOVA)Više od dva povezana uzorka – Friedman

(faktorska ANOVA)

Page 59: P01_statistika_uvod

Usporedba P i NP metoda

Moguće je izračunati rezultata i P i NP metoda za neki uzorak i usporediti značajnosti

Oba uzorka isto – jednostavnoProblem – P i NP rezultati se razlikuju

Page 60: P01_statistika_uvod

TIP PODATKA

Kvalitativni(kategorijski)

1 neovisna varijabla

2 neovisne varijable

Kvantitativni

Povezanost

Razlika

2 skupine

Više skupina

Neparametrijske

Parametrijske

2 ovisne varijable

Goodness of fit x 2

Hi kvadrat (x 2)

1 prediktor

Više prediktora

Kontinuirana varijabla

Rangovi

Multipla regresija

Spearman rs

Pearson r

Regresija

neovisne

ovisne

t test

Mann-Whitney U

t test za povezane uzorke

Wilcoxon

neovisne

ovisne

One-way ANOVA

Kruskal-Wallis H

ANOVA za ponavljane uzorke

Friedman

McNemar test

Testiranje hipoteze

Page 61: P01_statistika_uvod

Neparametrijska korelacija

Korelacija dvije kvantitativne kontinuirane varijable koje nisu povezane linearno ili nemaju normalnu raspodjelu podataka

Ordinalne varijableSpearmanov rank testIsti pokazatelji kao i Pearsonov test (r,P)

Page 62: P01_statistika_uvod
Page 63: P01_statistika_uvod

Što s raspodjelom podataka?

Parametrijske metode?Neparametrijske metode?Regresija?Transformacija podataka – računska

operacija s podacima koja rezultira promjenom raspodjele podataka

Page 64: P01_statistika_uvod

Oblici transformacije podataka

Logaritamska transformacija

[log(x)]

Kvadratična transformacija

(x2)

Page 65: P01_statistika_uvod

Carothers AD, Rudan I, Kolcic I, Polasek O, Hayward C, Wright AF, Campbell H, Teague P, Hastie ND, Weber JL. Estimating human inbreeding coefficients: comparison of genealogical and marker heterozygosity approaches. Annals of Human Genetics 2006;70(5):666-76.

Page 66: P01_statistika_uvod

Oblici transformacija

LogaritamskaKvadratičnaKorjenskaInverznaLogit (proporcije)

Page 67: P01_statistika_uvod

Rang-normalnost transformacija

Transformacija koja rangira sve uzorke (slaže po redu), a zatim njihove rangove zamjenjuje za vrijednosti dobivene iz izračuna normalne raspodjele podataka na temelju parametara uzorka

Page 68: P01_statistika_uvod

Rang-normalnost transformacija

Prije Poslije

Page 69: P01_statistika_uvod

Sistolički krvni tlak

Page 70: P01_statistika_uvod

TIP PODATKA

Kvalitativni(kategorijski)

1 neovisna varijabla

2 neovisne varijable

Kvantitativni

Povezanost

Razlika

2 skupine

Više skupina

Neparametrijske

Parametrijske

2 ovisne varijable

Goodness of fit x 2

Hi kvadrat (x 2)

1 prediktor

Više prediktora

Kontinuirana varijabla

Rangovi

Multipla regresija

Spearman rs

Pearson r

Regresija

neovisne

ovisne

t test

Mann-Whitney U

t test za povezane uzorke

Wilcoxon

neovisne

ovisne

One-way ANOVA

Kruskal-Wallis H

ANOVA za ponavljane uzorke

Friedman

McNemar test

Testiranje hipoteze

Page 71: P01_statistika_uvod
Page 72: P01_statistika_uvod

Hi-kvadrat test

Jedan od najjednostavnijih statističkih testova

Jako često se koristiVeliki broj neparametrijskih testova svodi

se na hi-kvadrat

Page 73: P01_statistika_uvod

Hi-kvadrat - pažnja

Primjenjiv samo na kategorijskim podacima

Primjeri?Ocjene Stupanj fizičke aktivnostiBoja očijuSpolne razlikeSocioekonomski status

Page 74: P01_statistika_uvod

Hi-kvadrat

Temelji se na usporedbi očekivanih i opaženih frekvencija

Za mali broj uzoraka (manji od 5 u 20% ili više polja tablice kontingencije) potrebno je koristiti Fisherov egzaktni test

Page 75: P01_statistika_uvod

McNemar

Alternativa hi-kvadrata za povezane varijable

Kategorijske varijable koje su povezanePripadnost političkoj stranci prije i nakon izboraIshod liječenja u cross-over pokusu

Page 76: P01_statistika_uvod

TIP PODATKA

Kvalitativni(kategorijski)

1 neovisna varijabla

2 neovisne varijable

Kvantitativni

Povezanost

Razlika

2 skupine

Više skupina

Neparametrijske

Parametrijske

2 ovisne varijable

Goodness of fit x 2

Hi kvadrat (x 2)

1 prediktor

Više prediktora

Kontinuirana varijabla

Rangovi

Multipla regresija

Spearman rs

Pearson r

Regresija

neovisne

ovisne

t test

Mann-Whitney U

t test za povezane uzorke

Wilcoxon

neovisne

ovisne

One-way ANOVA

Kruskal-Wallis H

ANOVA za ponavljane uzorke

Friedman

McNemar test

Testiranje hipoteze

Page 77: P01_statistika_uvod

Primjer (1/2)

Prosječna plaća u Republici Hrvatskoj iznosi 4.450 Kn

U gradu Zagrebu 5.097 Kn

Page 78: P01_statistika_uvod

4,450 Kn

Page 79: P01_statistika_uvod
Page 80: P01_statistika_uvod

4,450 Kn

Page 81: P01_statistika_uvod

Primjer (2/2)

U razdoblju od 1995-2005 godine u Vinkovcima je zabilježeno 1102 slučaja alergijskog rinitisa i astme. Srednja dob svih ispitanika bila je 24,3±11,6 godina. Odnos spolova bio je podjednak, 50,3% uzorka bili su muškarci.

Page 82: P01_statistika_uvod