Upload
neko-plus
View
216
Download
4
Embed Size (px)
DESCRIPTION
Statistickozakljucivanjeimodelovanje
Citation preview
Statistika u istraStatistika u istraživačkom procesu živačkom procesu – statističko zaključivanje i – statističko zaključivanje i
statističko modelovanjestatističko modelovanje
Goran TrajkovićGoran Trajković
januarjanuar, 201, 20133. godine. godine
Ciljna populacija
Uzoračka populacija
Uzorak
Statistički zaključak o populaciji sa određenim stepenom
nesigurnosti
Analiza
StatistiStatističko zaključivanječko zaključivanje
Donošenje zaključka o populaciji na osnovu opservacija Donošenje zaključka o populaciji na osnovu opservacija iz uzorka. Zaključak je probabilističke prirode, jer se iz uzorka. Zaključak je probabilističke prirode, jer se donosi na osnovu uzoračkih podataka, i praćen je donosi na osnovu uzoračkih podataka, i praćen je izvesnim stepnom nesigurnostiizvesnim stepnom nesigurnosti
Uzoračka statistika(uzorački statistik)
Statistička Statistička meramera
Parametri Parametri osnovnog osnovnog
skupaskupa
Uzoračke Uzoračke statistikestatistike
AritmetiAritmetička čka sredinasredina xx
VarijansaVarijansa 22 sdsd22
Standardna Standardna devijacijadevijacija ssdd
ProporcijaProporcija pp
Parametri osnovnog skupa i uzoračke statistike
1. Parametar – statistička mera date varijable u populaciji2. Uzoračka statistika – statistička mera date varijable u uzorku
OOcena vrednosti parametra cena vrednosti parametra u populaciji (npr. u populaciji (npr. aritmetička sredina ili proporcija)aritmetička sredina ili proporcija)
Testiranje Testiranje hipotezahipoteza – testiranje pretpostavke o – testiranje pretpostavke o vrednosti parametravrednosti parametra
DvDvaa tipa statističkog zaključivanjatipa statističkog zaključivanja
Ocena parametra (ocenjivanje)
Proces korišćenja informacija iz uzorka u cilju donošenja zaključka o vrednosti populacionog parametra. Ocena može biti data u obliku jedne vrednosti (tačkasta ocena) ili u obliku intervala poverenja.
Interval poverenja – interval unutar kojeg se sa definisanom verovatnoćom (nivo poverenja, koeficijent poverenja) nalazi nepoznati parametar. Npr. za koeficijent poverenja of 95% može se očekivati da će se nepozanti parametar sa verovatnoćom od 0.95 nalaziti u datom intervalu poverenja, odnosno da će u ponovljenom uzorkovanju 95% intervala sadržati parametar. Definisana verovatnoća se odnosi na interval poverenja, a ne na sam parametar. Granice inervala poverenja nazivaju granicama poverenja.
Izračunavanje granica poverenja
Granice intervala poverenja na osnovu podataka iz velikih uzoraka izračunavaju se, za koeficijent pouzdanosti od 95%, po formuli:
Statistik 1.96SE
Ili, drugačije napisano:Statistik - 1.96 SE Parametar Statistik + 1.96 SE
a za koeficijent pouzdanosti od 99%, po formuli:
Statistik 2.58SE
Ili, drugačije napisano:Statistik - 2.58 SE Parametar Statistik + 2.58 SE
Preciznost i širina intervala poverenja
Preciznost intervala poverenja jednaka je polovini njegove širine, npr. za velike uzorke i koeficijent pouzdanosti od 95% iznosiće 1.96SE
Veća širina intervala poverenja podrazumeva njegovu manju preciznost
Širina intervala poverenja (i preciznost) zavise od:1. Izabranog nivoa poverenja. 99% interval poverenja je širi
od 95% intervala poverenja2. Veličine uzorka. Sa povećanjem uzorka smanjuje se širina
intervala poverenja3. Varijabiliteta podataka. Sa povećanjem varijabiliteta raste i
širina intervala poverenja
Širok i neprecizan interval poverenja nastaje zbog visokog koeficijenta poverenja, malog uzorka i velike varijabilnosti.
z – kritična vrednost iz tablice normalne raspodele (1.96 za 95% interval poverenja, 2.58 za 99% interval poverenja)t – vrednost iz tablice t raspodele za odgovarajući broj stepena slobode (DF) i nivo poverenjasd – standardna devijacijan – veličina uzorka – aritmetička sredina u populaciji
Interval poverenja aritmetičke sredine
x – aritmetička sredina uzorka
n
sdzx
n
sdzx
n
sdtx
n
sdtx
Za velike uzorke (n>30)
Za male uzorke (n30)
1.4 1.46.8 1.96 6.8 1.96
140 140
Primer:Na uzorku od 140 bolesnika aritmet. sredina glikemije iznosi 6.8 mmol/L, a standardna devijacija 1.4 mmol/L. Odrediti 95% i 99% intervale poverenja aritmetičke sredine glikemije za tu populaciju bolesnika.
6.57 mmol/L 7.03 mmol/L
95% interval poverenja:
99% interval poverenja:
1.4 1.46.8 2.575 6.8 2.575
140 140
6.49 7.10
p – proporcija posmatranog događaja u uzorkuz – kritična vrednost iz tablice normalne raspodele (1.96 za 95% interval poverenja, 2.58 za 99% interval poverenja)n – veličina uzorka – proporcija posmatranog događaja u populaciji
Interval poverenja proporcije
n
ppzp
n
ppzp
11
0.30 1 0.30 0.30 1 0.300.30 1.96 0.30 1.96
155 155
Primer:Na uzorku od 155 učenika u jednoj opštini nađena je anemija kod 47 učenika. Odrediti intervale poverenja u kome se sa verovatnoćama 0.95 i 0.99 nalazi proporcija učenika sa anemijom u toj opštini.
0.23 0.37
95% interval poverenja:
99% interval poverenja:
0.30 1 0.30 0.30 1 0.300.30 2.575 0.30 2.575
155 155
0.21 0.39
Proporcija u uzorku:47
0.30155
p
•Pretpostavka o svetu oko nas•Pretpostavka koju je moguće testirati i odbaciti•Prepostavka koja je unapred navedena kao verovatna istina, a koju istraživač ima nameru da testira na osnovu podataka
Istraživačka hipoteza može imati fomu očekivanja, verovanja, dedukcije ili sumnje. Pokretač je istraživanja i zahteva aktuelno dokazivanje. Istraživačku hipotezu prevodimo u statističke hipoteze kako bi mogle biti testirane statističkim tehnikama.
Hipoteza
•Statistička hipoteza je pretpostavka ili tvrđenje o jednoj ili više populacija (pretpostavka o vrednostima parametara u populaciji).
Uvek se formulišu dve hipoteze - nulta i alternativna:
•Nulta hipoteza (H0) je tvrđenje o tačnoj vrednosti parametra u populaciji
•Alternativna hipoteza (HA ili H1) ili istraživačka hipoteza je tvrđenje da je vrednost parametra u populaciji različita od tvrđenja u nultoj hipotezi
Statistička hipoteza
•Nulta i alternativna hipoteza su komplementarne. Samo jedna je tačna.
•U postupku testiranja hipoteza testira se samo nulta hipoteza.
•Moguće odluke na osnovu statističke analize uzoračkih podataka su: (1) prihvatanje H0
i odbacivanje H1, ili (2) odbacivanje H0
i prihvatanje H1
Testiranje hipoteza – komplementarnost nulte i alternativne hipoteze
Dvosmeno i jednosmerno testiranje hipoteza
Dvosmerni test – test u kojem je alternativna hipoteza dvosmerna (nije direktivna) odnosno ima oblik tvrđenja da je jedan populacioni parametar ili veći ili manji od drugog:
H0: μ1 = μ2 H1: μ1 ≠ μ2
Jednosmerni test – test u kojem je alternativna hipoteza jednosmerna (direktivna je) odnosno ima oblik tvrđenja da je jedan populacioni parametar veći ili manji od drugog:
H1: μ1 > μ2
H1: μ1 < μ2
Testiranje hipoteza – matrica statističkog odlučivanja
U prirodiU prirodi
Naš zaključakNaš zaključak
Nulta hipoteza Nulta hipoteza tačnatačna
Nulta hipoteza Nulta hipoteza pogrešnapogrešna
Prihvatamo nultu Prihvatamo nultu hipotezuhipotezu 1- 1-
greška -greška -
greška drugogreška drugogg tipatipa
Odbacujemo Odbacujemo nultu hipotezunultu hipotezu
greška -greška -
greška prvog greška prvog tipatipa
1- 1-
Greška prvog tipa – odbacivanje tačne nulte hipoteze.Greška drugog tipa – neodbacivanje pogrešne nulte hipoteze.Istovremeno se može napraviti samo jedan tip greške.Greška prvog tipa se neposedno kontroliše izborom nivoa značajnostii.Greške prvog i drugog tipa su zavisne. Smanjenje verovatnoće greške prvog tipa dovodi do povećanja verovatnoće greške drugog tipa, i obrnuto.Povećanje uzorka uopšteno smanjuje verovatnoću oba tipa grešaka.Verovatnoća greške drugog tipa se smanjuje sa povećanjem razlike aritmetičkih sredina (kada se testira razlika aritmetičkih sredina).Snaga ili moć (1-) statističkog testa je verovatnoća odbacivanja nulte hipoteze kada je alternativna hipoteza tačna.
Greške u testiranju hipoteza
Nivo značajnosti i p-vrednost
( nivo, nivo značajnosti) - maksimalno dozvoljena greška prvog tipa. U procesu testiranja hipoteza običajeno se bira nivo značajnosti od 0.05.
p-vrednost (opservirani nivo značajnosti, verovatnoća značajnosti) – verovatnoća da se, pod pretpostavkom tačne nulte hipoteze, na osnovu slučajnosti opserviraju rezultati koji su jednaki ili ekstremniji od aktuelno opserviranih. Ako je p-vrednost manja od nivoa značajnosti (p0.05), odbacuje se nulta hipoteza i dobijeni rezultati označava se statistički značajnim.
1. Formulisati H0 i H1
2. Odabrati nivo značajnosti ( nivo)3. Odabrati dvosmerno ili jednosmerno testiranje zavisno
od formulacije alternativne hipoteze4. Odabrati statistički test i izračunati statistiku testa
(empirijska vrednost).5. Odrediti oblast odbacivanja – teorijska (granična,
kritična) vrednost.6. Uporediti empirijsku i teorijsku vrednost test statistike.
Odbaciti H0 i prihvatiti H1 ako je statistika testa u regionu odbacivanja (p ). Prihvatiti H0 ako statistika testa nije u regionu odbacivanja (p > ).
Koraci u testiranju hipoteza
Primer:Formiran je uzorak od 90 ispitanika iz opšte populacije. Za svakog ispitanika dobijen je podatak o statusu pušenja (pušač ili nepušač), i podatak da li je ispitanik bolovao od akutne respiratorne infekcije u toku poslednje zime. Postavljena je nulta hipoteza da su status pušenja i oboljevanja od akutne respiratorne infekcije nezavisne varijable, odnosno da nema asocijacije između njih.
Akutna respiratorna Akutna respiratorna infekcijainfekcija
DaDa NeNe SvegaSvega
PuPuššenjeenjeDaDa 2222 1717 3939
NeNe 1616 3535 5151
UkupnoUkupno 3838 5252 9090
Pušenje i oboljevanja od akutne respiratorne infekcije u zimskom periodu nisu nezavisne variajble. Između njih postoji statistički značajna asocijacija (hi-kvadrat=4.70, DF=1, p=0.030, koeficijent kontingencije=0.22).
xx11 xx1122 xx22 xx22
22
1515 225225 1616 256256
1717 289289 1414 196196
2020 400400 1717 289289
1414 196196 1515 225225
1919 361361 1818 324324
1717 289289 1717 289289
1818 324324 1616 256256
1919 361361
139139 24452445 113113 18351835
Primer:Dve grupe lečene su različitim tretmanima. Sedimentacija eritrocita (mm/h) je:prva grupa: 15, 17, 20, 14, 19, 17, 18, 19druga grupa: 16, 14, 17, 15, 18, 17, 16Da li je razlika značajna? Testirati na nivou značajnosti 0.05.
11
1
13917.38 mm/h
8
xx
n
2 2 2
1
2445 8 17.382.07
1 8 1
x n xsd
n
2 2 2
2
1835 7 16.141.35
1 7 1
x n xsd
n
2 2
17.38 16.14=1.35,
(8 1) 2.07 (7 1) 1.35 1 1
8 7 2 8 7
DF=8 7 2 13
t
Kritična vrednost u tablici t raspodele za DF = 13, nivo značajnosti 0.05 i dvosmerno testiranje je 2.160. Statistika testa (1.35) je manja od kritične vrednosti. Ne odbacuje se nulta hipoteza.Zaključak:Razlika nije statistički značajna (t=1.35, DF=13, p>0.05)
22
2
11316.14 mm/h
7
xx
n
MModelodel
Model je uproModel je uprošćeno predstavljanje realne pojavešćeno predstavljanje realne pojave Modelom su reprodukovani samo neki aspekti Modelom su reprodukovani samo neki aspekti
realne pojaverealne pojave Dobar model bi trebalo da objašnjava pojavu što je Dobar model bi trebalo da objašnjava pojavu što je
moguće vernije, ali ne bi trebalo da bude previše moguće vernije, ali ne bi trebalo da bude previše komplikovan, time što bi se pokušala komplikovan, time što bi se pokušala reproodukcija svakog detalja, jer to može da reproodukcija svakog detalja, jer to može da ometa razumevanjeometa razumevanje
Model nam pomaže u razumevanju realne pojave Model nam pomaže u razumevanju realne pojave na uprošćen, brži i jeftiniji načinna uprošćen, brži i jeftiniji način
Statistički Statistički modelmodel Statističkim modelom predstavljamo pojave koje Statističkim modelom predstavljamo pojave koje
sadrže slučajnostisadrže slučajnosti Statistički modeli su statistiStatistički modeli su statističkečke formulacije ili formulacije ili
analize, u uslovima moguće primene sa datim analize, u uslovima moguće primene sa datim podacima, koji se koriste za proveru pretpostavki i podacima, koji se koriste za proveru pretpostavki i parametara u analizi. Primeri statističkih modela parametara u analizi. Primeri statističkih modela su npr. linearni model i binomni modelsu npr. linearni model i binomni model
Statistički model počinje pretpostavkom o odnosu Statistički model počinje pretpostavkom o odnosu dve varijable u ispitivanoj populaciji i ocenom dve varijable u ispitivanoj populaciji i ocenom populacionih parametara na osnovu uzoračkih populacionih parametara na osnovu uzoračkih podataka. Bez pretpostavljenog modela analiza podataka. Bez pretpostavljenog modela analiza nije moguća.nije moguća.
Modelom se opisuje struktura podataka na takav Modelom se opisuje struktura podataka na takav način da omogući razumevanje pretpostavljenog način da omogući razumevanje pretpostavljenog procesa koji je generisao podatkeprocesa koji je generisao podatke
Izbor modela je od presudnog značaja za analizu. Izbor modela je od presudnog značaja za analizu. Planiranje istraživanja obuhvata i pretpostavke o Planiranje istraživanja obuhvata i pretpostavke o modelu koji je moguće primeniti što može biti modelu koji je moguće primeniti što može biti promenjeno posle eksploracije podatakapromenjeno posle eksploracije podataka
Varijable u statističkom modeluVarijable u statističkom modelu Statistički modeli se koriste da opišu ponašanje jedne ili Statistički modeli se koriste da opišu ponašanje jedne ili
više varijabli, pri čemu se neke od njih posmatraju kao više varijabli, pri čemu se neke od njih posmatraju kao varijable eksplanatori (nezavisne varijable), a neke kao varijable eksplanatori (nezavisne varijable), a neke kao rezultujuće varijable (zavisne varijable). Modelom se rezultujuće varijable (zavisne varijable). Modelom se opisuje kako ponašanje rezultujuće varijable zavisi od opisuje kako ponašanje rezultujuće varijable zavisi od varijable eksplanatoravarijable eksplanatora
Eksplanatorna varijabla moEksplanatorna varijabla može biti npr. tretman u že biti npr. tretman u studijama intervencije ili faktor povezan sa pojavom studijama intervencije ili faktor povezan sa pojavom neke bolesti u etiološkim studijamaneke bolesti u etiološkim studijama
Statistički model omogućava predikciju rezultujuće Statistički model omogućava predikciju rezultujuće varijable na osnovu ponavanja vrednosti eksplanatorne varijable na osnovu ponavanja vrednosti eksplanatorne varijablevarijable
U statistički model je, zbog stohastičkog odnosa U statistički model je, zbog stohastičkog odnosa varijabli, uvek uključena i greška modelavarijabli, uvek uključena i greška modela
Statistički model je moguće unaprediti sa ciljem boljeg Statistički model je moguće unaprediti sa ciljem boljeg razumevanja procesa i bolje predikcijerazumevanja procesa i bolje predikcije
Izbor modelaIzbor modela
Izbor modela zavisi od:Izbor modela zavisi od: Naučnog razumevanja, npr. proverene teorije Naučnog razumevanja, npr. proverene teorije
na osnovu koje se mogu predvideti očekivanjana osnovu koje se mogu predvideti očekivanja Prethodnog iskustva sa sličnim podacimaPrethodnog iskustva sa sličnim podacima Eksploracije podatakaEksploracije podataka Dijagnostičkih informacija o aktuelno izabranom Dijagnostičkih informacija o aktuelno izabranom
modelumodelu
Pretpostavke modelaPretpostavke modelaNajčešće preptostavke statističkih modela:Najčešće preptostavke statističkih modela:1.1. Normalnost raspodele ili normalnost raspodele grešaka. Normalnost raspodele ili normalnost raspodele grešaka.
Važnija je kod malih uzoraka jer sa porastom veličine Važnija je kod malih uzoraka jer sa porastom veličine uzorka raspodela aritmetičkih sredina teži normalnoj uzorka raspodela aritmetičkih sredina teži normalnoj raspodeli bez obzira na raspodelu u populaciji raspodeli bez obzira na raspodelu u populaciji (Centralna granična teorema)(Centralna granična teorema)
2.2. Nezavisnost – opservacije su nezavisne ako se na Nezavisnost – opservacije su nezavisne ako se na osnovu vrednosti jedne ne može prevideti vrednost osnovu vrednosti jedne ne može prevideti vrednost druge opservacije. Ova pretpostavka je narušena ako druge opservacije. Ova pretpostavka je narušena ako postoje klasteri podataka. Unutar klastera postoji postoje klasteri podataka. Unutar klastera postoji povezanost/korelacija podataka. Klasterovanje se može povezanost/korelacija podataka. Klasterovanje se može sprečiti randomizacijom u ekeperimentu ili slučajnim sprečiti randomizacijom u ekeperimentu ili slučajnim uzorkovanjem u opservacionim istraživanjimauzorkovanjem u opservacionim istraživanjima
3.3. Homogenost varijansi – varijansa rezultujuće varijable Homogenost varijansi – varijansa rezultujuće varijable je jednaka za sve vrednosti varijable eksplanatoraje jednaka za sve vrednosti varijable eksplanatora
Valjanost modelaValjanost modela1.1. Provera o ispunjenosti pretpostavki modelaProvera o ispunjenosti pretpostavki modela
2.2. Provera u kojoj meri ocene modela mogu biti pod Provera u kojoj meri ocene modela mogu biti pod uticajem malog broja uticajnih opservacija kao uticajem malog broja uticajnih opservacija kao što su npr. ekstremne vrednostišto su npr. ekstremne vrednosti
3.3. Provera odnosa broja varijabli eksplanatora i Provera odnosa broja varijabli eksplanatora i broja opservacija. Uopšteno, broj opservacija broja opservacija. Uopšteno, broj opservacija mora biti najmanje deset puta veći od broja mora biti najmanje deset puta veći od broja varijabli eksplanatora. Za svaku kvalitativnu varijabli eksplanatora. Za svaku kvalitativnu varijablu broj kategorija umanjen za jedan uzima varijablu broj kategorija umanjen za jedan uzima se kao broj varijabli eksplanatorase kao broj varijabli eksplanatora
Formulacija statističkog modelaFormulacija statističkog modela
Mnogi modeli imaju oblik:
Y = Y = μμ + + εε
gde je Y - gde je Y - Opservirana vrednost, Opservirana vrednost, μμ - Predikcija - Predikcija modela.modela.
εε - Statistička greška (rezidual)- Statistička greška (rezidual)
Razlika opservirane vrednosti i predikcije jeste Razlika opservirane vrednosti i predikcije jeste rezidual.rezidual.
Primer:Za dvanaest ispitanica ženskog pola data je starost i vrednosti sistolne tenzije. Ispitati povezanost ova dva obeležja. Prognozirati sistolnu TA za starost od 77 godina.
IDID StarostStarost Sistolna Sistolna TATA
11 3939 125125
22 5959 165165
33 7171 170170
44 7575 150150
55 7373 185185
66 5555 155155
77 5151 180180
88 7070 160160
99 4141 145145
1010 4545 140140
1111 6363 135135
1212 3535 130130
Dijagram rasturanja starosti i sistolne tenzije
80
100
120
140
160
180
200
30 40 50 60 70 80
Starost (godine)
Sis
toln
a T
A (
mm
Hg)