Upload
annot
View
72
Download
1
Embed Size (px)
DESCRIPTION
Valentina Mladinov. Osnove statističke obrade I dio. SADRŽAJ. I dio Što je statistika i čime se bavi? Reprezentativni uzorak Vjerojatnost Srednja vrijednost II dio Mjere disperzije Normalna i druge raspodjele Statistička značajnost. STATISTIKA. - PowerPoint PPT Presentation
Citation preview
Valentina MladinovValentina Mladinov
Osnove statističke obradeOsnove statističke obrade
I dioI dio
SADRŽAJSADRŽAJI dioI dio
Što je statistika i čime se bavi?Što je statistika i čime se bavi?
Reprezentativni uzorakReprezentativni uzorak
VjerojatnostVjerojatnost
Srednja vrijednostSrednja vrijednost
II dioII dio
Mjere disperzijeMjere disperzije
Normalna i druge raspodjeleNormalna i druge raspodjele
Statistička značajnostStatistička značajnost
STATISTIKASTATISTIKA
Začeci u praktičnom pitanju – vjerojatnost pogotka/dobitka u igrama na sreću
- Girolamo Cardano (1560) – “Knjiga o igrama kockom”
Galileo Galilei (1620) – “Razmišljanja o igrama kockom”
Blaise Pascal (oko 1655)
Statistički način mišljenja jednog će dana
za svakodnevni život građana postati jednako neophodan
kao znanje čitanja i pisanja
H.G.Wells (1866-1946)
TEORIJA VJEROJATNOSTITEORIJA VJEROJATNOSTI
- Bavi se slučajnim događajimaBavi se slučajnim događajima- KONTINUUM 0 – 1KONTINUUM 0 – 1
0 –0 – APSOLUTNA NEMOGUĆNOSTAPSOLUTNA NEMOGUĆNOST
0.5 –0.5 – JEDNAKA MOGUĆNOST ZA JEDNAKA MOGUĆNOST ZA OBA ISHODAOBA ISHODA
1.01.0 APSOLUTNA SIGURNOSTAPSOLUTNA SIGURNOST
STATISTIKASTATISTIKA
= grana primjenjene matematike koja se= grana primjenjene matematike koja se
bavi bavi prikupljanjemprikupljanjem, , obradomobradom, ,
interpretacijominterpretacijom i i prezentacijom prezentacijom podataka podataka
= obrada brojčanih podataka radi jasnijeg = obrada brojčanih podataka radi jasnijeg prikazivanja prikazivanja
(Boris Petz)(Boris Petz)
STATISTIKASTATISTIKA
DESKRIPTIVNA STATISTIKADESKRIPTIVNA STATISTIKA: :
- bavi se opisavanjem prikupljenih podataka dobivenihbavi se opisavanjem prikupljenih podataka dobivenih
prilikom ispitivanja ili mjerenjaprilikom ispitivanja ili mjerenja- sređivanje i sažimanje podataka kako bi bili što preglednijisređivanje i sažimanje podataka kako bi bili što pregledniji- (npr. aritmetička sredina; standardna devijacija)(npr. aritmetička sredina; standardna devijacija)
? Koje je prosječno vrijeme inkubacije gripe XYZ ? ? Koje je prosječno vrijeme inkubacije gripe XYZ ?
? Koliko je veliki varijabilitet ?? Koliko je veliki varijabilitet ?
? Gdje se pojedini rezultat nalazi u odnosu na sve ostale rezultate ?? Gdje se pojedini rezultat nalazi u odnosu na sve ostale rezultate ?
? Kako se određena pojava raspoređuje u prirodi (oblik distribucije) ?? Kako se određena pojava raspoređuje u prirodi (oblik distribucije) ?
INFERENCIJALNA STATISTIKAINFERENCIJALNA STATISTIKA: :
- služi analizi uzoraka i pronalaženju pravilnosti ilisluži analizi uzoraka i pronalaženju pravilnosti ili
razlika unutar ili među uzorcimarazlika unutar ili među uzorcima- omogućuje nam stvaranje zaključaka (smijemo li generalizirati izomogućuje nam stvaranje zaključaka (smijemo li generalizirati iz
konkretnog uzorka na opću zakonitost)konkretnog uzorka na opću zakonitost)
- - (npr. hipoteza, otkrivanje veza među varijablama, modeliranje (npr. hipoteza, otkrivanje veza među varijablama, modeliranje odnosa ili sličnih postupaka poput analize varijance, faktorskeodnosa ili sličnih postupaka poput analize varijance, faktorske
analize... )analize... )
! REPREZENTATIVNOST UZORKA! REPREZENTATIVNOST UZORKA
UZORAK - POPULACIJAUZORAK - POPULACIJA
Najčešće nismo u mogućnosti ispitati/mjeritiNajčešće nismo u mogućnosti ispitati/mjeriti
neku pojavu na populaciji (često je neku pojavu na populaciji (često je
populacija beskonačna)populacija beskonačna)
→ → ispitujemo UZORAK, koji mora biti ispitujemo UZORAK, koji mora biti reprezentativanreprezentativan
REPREZENTATIVNI UZORAKREPREZENTATIVNI UZORAK
- Uzorak mora dobro odražavati populaciju Uzorak mora dobro odražavati populaciju (u njemu moraju biti zastupljene sve (u njemu moraju biti zastupljene sve karakteristike populacije)karakteristike populacije)
- Reprezentativnost uzorka ovisi o:Reprezentativnost uzorka ovisi o:
- veličini uzorka- veličini uzorka
- odabir uzorka (najčešće: slučajni)- odabir uzorka (najčešće: slučajni)
- varijabilnost pojave- varijabilnost pojave
VELIČINA UZORKA OVISI O:VELIČINA UZORKA OVISI O:
1. ŽELJENOJ PRECIZNOSTI REZULTATA1. ŽELJENOJ PRECIZNOSTI REZULTATA
(veća preciznost (veća preciznost → veći uzorak)→ veći uzorak)
2. VARIJABILNOSTI POJAVE2. VARIJABILNOSTI POJAVE
(veći varijabilitet (veći varijabilitet → veći uzorak)→ veći uzorak)
3. FREKVENCIJI POJAVE3. FREKVENCIJI POJAVE
(rjeđa pojava (rjeđa pojava → veći uzorak)→ veći uzorak)
VJEROJATNOSTVJEROJATNOST
Za zaključivanje izZa zaključivanje iz
uzorka na populaciju uzorka na populaciju
presudna je uloga presudna je uloga
TEORIJE TEORIJE
VJEROJATNOSTIVJEROJATNOSTI
SREDNJE VRIJEDNOSTISREDNJE VRIJEDNOSTI
1.1. MedijanMedijan
2.2. ModMod
3.3. Aritmetička sredina Aritmetička sredina
Medijan (centralna vrijednost)Medijan (centralna vrijednost)
(C) je vrijednost koja se u nizu rezultata (C) je vrijednost koja se u nizu rezultata poredanih po veličini poredanih po veličini nalazi točno u sredininalazi točno u sredini
Primjer: Primjer: Rezultati mjerenja su:Rezultati mjerenja su:
7 9 4 7 8 7 10 6 6 9 8 7 9 4 7 8 7 10 6 6 9 8
Poredani po veličini: Poredani po veličini:
4 6 6 7 7 7 8 8 9 9 104 6 6 7 7 7 8 8 9 9 10
Položaj Položaj C = (N + 1) / 2C = (N + 1) / 2
C = (N + 1) / 2C = (N + 1) / 2
- Ako je broj rezultata paran, računamo Ako je broj rezultata paran, računamo aritmetičku sredinu dva srednja rezultataaritmetičku sredinu dva srednja rezultata
- Medijan se koristi kad imamo i neke Medijan se koristi kad imamo i neke ekstremne ekstremne rezlutate rezlutate pa aritmetička sredina ne daje pravu pa aritmetička sredina ne daje pravu slikusliku
Medijan (centralna vrijednost)Medijan (centralna vrijednost)
Modalna (dominantna) vrijednostModalna (dominantna) vrijednost
(D) je ona vrijednost koja je u nizu rezultata (D) je ona vrijednost koja je u nizu rezultata
najčešćanajčešća (ima najveću frekvenciju) (ima najveću frekvenciju)
- prednost: na nju utječe samo frekvencija prednost: na nju utječe samo frekvencija
rezultata rezultata
- Mod se ne može odrediti ako ne postoje - Mod se ne može odrediti ako ne postoje najmanje 2 jednake vrijednosti varijable.najmanje 2 jednake vrijednosti varijable.
Aritmetička sredinaAritmetička sredinan
XnXXXX
...321 n
XnXXXX
...321
- Suma svih rezultata podijeli se s brojem rezultata
- Nema ju smisla računati ako imamo ekstremne rezultate
Harmonijska sredinaHarmonijska sredina
- Računa se u onim situacijama kada obilježja elemenata Računa se u onim situacijama kada obilježja elemenata jednog skupa stoje jednog skupa stoje u recipročnom odnosu u recipročnom odnosu s obilježjem s obilježjem elemenata nekog drugog skupaelemenata nekog drugog skupa
Primjer: prosječni km/sat, prosječni broj slova u minuti...
Geometrijska sredinaGeometrijska sredina
- Primjenjuje se u Primjenjuje se u analizi vremenskih nizovaanalizi vremenskih nizova- Pomoću nje izračunava se prosječna Pomoću nje izračunava se prosječna
stopa promjene pojavestopa promjene pojave
Primjer: koliko je puta prosječno populacija ljudi u nekom mjestu porasla?
MJERE DISPERZIJEMJERE DISPERZIJE
- Srednje vrijednosti nam opisuju skup koji smo Srednje vrijednosti nam opisuju skup koji smo izmjerili ali nisu dovoljneizmjerili ali nisu dovoljne
- Vrijednosti (rezultati) variraju u zavisnosti od Vrijednosti (rezultati) variraju u zavisnosti od mnogo faktora mnogo faktora i i slučajnih utjecajaslučajnih utjecaja
- Npr. dva skupa mogu imati iste aritmetičke Npr. dva skupa mogu imati iste aritmetičke sredine ali različite distribucijesredine ali različite distribucije
- Da bismo mogli zaključivati o distribuciji pojave, Da bismo mogli zaključivati o distribuciji pojave, a time i o populaciji, trebaju nam a time i o populaciji, trebaju nam mjere disperzije mjere disperzije (raspršenja)(raspršenja)
Mozgalice....Mozgalice....
Zabrinjavajući podaci…Zabrinjavajući podaci…
““Od 1970, postotak ljudi u dobi od 18 do 34 Od 1970, postotak ljudi u dobi od 18 do 34
godine koji žive kod kuće sa svojimgodine koji žive kod kuće sa svojim
roditeljima narastao je 48%, roditeljima narastao je 48%,
od 12.5 milijuna na 18.6 milijuna” od 12.5 milijuna na 18.6 milijuna”
(Izvor: USA(Izvor: USA Today)Today)
?
Najopasnije zanimanje u HrvatskojNajopasnije zanimanje u Hrvatskoj
“…“…u Hrvatskoj je najnesigurnije raditi u u Hrvatskoj je najnesigurnije raditi u građevinarstvu. Naime, prema podacima građevinarstvu. Naime, prema podacima Inspektorata za prošlu godinu, Inspektorata za prošlu godinu, od ukupno 39 od ukupno 39 smrtnih slučajeva kao posljedica ozljeđivanja smrtnih slučajeva kao posljedica ozljeđivanja na radu, čak je 17 bilo u građevinarstvuna radu, čak je 17 bilo u građevinarstvu.”.”
Izvor: Izvor: http://www.tportal.hr/vijesti/hrvatska/80924/Gradevinar-http://www.tportal.hr/vijesti/hrvatska/80924/Gradevinar-najopasnije-zanimanje-u-Hrvatskoj.htmlnajopasnije-zanimanje-u-Hrvatskoj.html
?
Čudotvorne kreme…Čudotvorne kreme…
?
Grubi marketing…Grubi marketing…
?
II dioII dio
MJERE DISPERZIJEMJERE DISPERZIJE
- Kada računamo neku srednju vrijednost, želimo Kada računamo neku srednju vrijednost, želimo da nam ona predstavlja / reprezentira sve naše da nam ona predstavlja / reprezentira sve naše rezultaterezultate
- Srednju vrijednost možemo računati samo ako Srednju vrijednost možemo računati samo ako nam se rezultati skupljaju (grupiraju) oko neke nam se rezultati skupljaju (grupiraju) oko neke srednje vrijednostisrednje vrijednosti
→ → Sama srednja vrijednost nam nije dovoljna, Sama srednja vrijednost nam nije dovoljna, moramo znati i kako se grupiraju rezultati moramo znati i kako se grupiraju rezultati oko te srednje vrijednostioko te srednje vrijednosti
MJERE DISPERZIJEMJERE DISPERZIJE
1.1. RasponRaspon
2.2. Srednje odstupanjeSrednje odstupanje
3.3. Standardna devijacijaStandardna devijacija
4.4. Koeficijent varijabilnostiKoeficijent varijabilnosti
Raspon
= razlika između najvećeg i najmanjeg rezultata
- vrlo nesigurna mjera: obično je to veći, što je veći broj mjerenja
Srednje odstupanje
= prosječna veličina odstupanja pojedinačnih rezultata, bez obzira na smjer odstupanja
srednje odstupanje = srednje odstupanje = | Xi | Xi ––X | X | / N / N
- može se računati uz aritmetičku sredinu, medijan i mod (nedovoljan za složenija računanja)
Varijanca / Standardna devijacija
- Aritmetička sredina je težište rezultata, tj. vrijednost od koje suma odstupanja iznad i ispod nje uvijek iznosi nula
- Kada bismo računali prosječno odstupanje a da vodimo računa o predznaku, onda bismo uvijek dobili nulu
- Predznake izbjegnemo tako da ih kvadriramo
Varijanca / Standardna devijacija
= zbrojimo kvadrirana odstupanja i izračunamo im aritmetičku sredinu
- Varijanca = prosječna suma kvadriranih odstupanja
- Korijen iz varijance puno se lakše definira i prikazuje = STANDARDNA DEVIJACIJA
STANDARDNA DEVIJACIJA
= drugi korijen izvarijance
= drugi korijen iz prosječne sumekvadriranih odstupanja
- govori nam koliko dobro aritmetička sredinareprezentira uzorak
Koeficijent varijabilnosti
- pokazuje nam koliki postotak vrijednosti aritmetičke sredine iznosi vrijednost standardne devijacije
- Služi nam za uspoređivanje varijabilnosti različitih pojava
- (npr. u kojem svojstvu neka grupa varira
više, a u kojem manje, ili usporedba između 2 različite grupe u istom svojstvu
NORMALNA DISTRIBUCIJANORMALNA DISTRIBUCIJA
Normalna distribucija = Gaussova krivulja= zvonasta krivulja
video
NORMALNA DISTRIBUCIJANORMALNA DISTRIBUCIJA
→ → rezultanta istodobnog djelovanja velikog rezultanta istodobnog djelovanja velikog broja faktora koji djeluju u različitim broja faktora koji djeluju u različitim smjerovima po slučaju i najčešće se smjerovima po slučaju i najčešće se poništavajuponištavaju
UVJETI za dobivanje normalne UVJETI za dobivanje normalne distribucijedistribucije
(1)(1) Da se pojava koju mjerimo raspoređuje Da se pojava koju mjerimo raspoređuje po normalnoj krivuljipo normalnoj krivulji
(2)(2) Da imamo veliki broj rezultata (mjerenja)Da imamo veliki broj rezultata (mjerenja)
(3)(3) Da su sva mjerenja standardiziranaDa su sva mjerenja standardizirana
(4)(4) Skupina na kojoj obavljamo mjerenja Skupina na kojoj obavljamo mjerenja mora biti homogena po svim svojstvima i mora biti homogena po svim svojstvima i heterogena samo za ono svojstvo koje heterogena samo za ono svojstvo koje mjerimomjerimo
NORMALNA DISTRIBUCIJANORMALNA DISTRIBUCIJA
Poznavanje aritmetičke sredine i standardne devijacije potpuno nam definira raspodjelu rezultata
- znamo na koji dio standardne devijacije pada određeni rezultat, tj. možemo točno odrediti položaj pojedinca u grupi
-(z-vrijednosti)
NORMALNA DISTRIBUCIJANORMALNA DISTRIBUCIJA
KORELACIJA