Vukovic ViS

  • View
    137

  • Download
    0

Embed Size (px)

DESCRIPTION

ViS

Transcript

  • Ivica Vukovi, Biljeke uz predavanja iz kolegija Vjerojatnost i statistika (iskljuivo za internu uporabu)

    1

    1. DESKRIPTIVNA STATISTIKA 1.1. OSNOVNI POJMOVI 1.2. ARITMETIKA SREDINA 1.3. MEDIJAN, MOD, RASPON I KVARTILI 1.4. VARIJANCIJA I STANDARDNO ODSTUPANJE 1.5. KOEFICIJENT KORELACIJE

    1.1. OSNOVNI POJMOVI

    Rije statistika dolazi od lat. status stanje. U 19. stoljeu Ivan Maurani je rabio termin dravopisje, a Bogoslav ulek dravopis.

    U Klaievom Velikom rjeniku stranih rijei1 statistika se definira kao znanost koja prouava koliinske promjene u razvitku ljudskog drutva, narodnog gospodarstva i koja se obavi obraivanjem rezultata tih prouavanja u znanstvene i praktine svrhe. Hrvatska enciklopedija statistiku definira kao znanstvenu metodu koja se bavi prikupljanjem, ureivanjem, analizom i tumaenjem podataka i donoenjem zakljuaka o pojavama i procesima koje ti podatci predouju.2 Poetci statistike obino se veu uz popise puanstva u drevnoj Kini, uz popise koje spominje povjesniar Herodot, popise prvoroenih kod Skita ili Darijeve popise u staroj Perziji. U doba Karla Velikog nainjen je zbornik za vojne i porezne svrhe Bereviarium fiscalium.

    U 17. stoljeu javlja se nunost statistikog prouavanja drutva. Za poetak statistike kao znanosti mnogi uzimaju godinu 1622. kad je izala knjiga J. Graunta Prirodna i politika promatranja zakona smrtnosti, koji je prouavao listine umrlih i roenih grada Londona. Znaajan doprinos statistici dali su E. Halley, W. Petty, F. Galton, K. Pearson, R. Fisher.

    Uvedimo nekoliko osnovnih pojmova koje emo rabiti u sljedeem poglavlju. Populacija je skup svih jedinica ili entiteta koje se razmatraju. Pod jedinicom ili entitetom razumijevamo ono to se moe pojedinano opisati i razmatrati.

    Tako populacija mogu initi svi glasai na izborima (ako nas zanimaju izbori), svi mukarci (ako nas zanimaju antropometrijske osobine glede konfekcijske veliine), svi studenti (ako nas zanimaju ocjene ili duljina studija), svi proizvodi neke tvrtke, ako nas zanimaju svojstva tih proizvoda).

    Obino promatramo neko statistiku znaajku: visina, masa, plaa, ocjena, struna sprema, politika naklonost,... Znaajka je, dakle, svojstvo koje pomae u prepoznavanju ili razlikovanju jedinica dane populacije.

    1 B. Klai, Veliki rjenik stranih rijei, Zagreb, Zora, 1972., str. 1241. 2 Hrvatska enciklopedija, sv. 10., str. 228.

  • IVICA VUKOVI, VJEROJATNOST I STATISTIKA

    2

    Najee ne promatramo cijelu populaciju (jer to obino nije mogue ili je skupo) ve svojstva populacije procjenjujemo na osnovi svojstava nekoliko lanova te populacije. Tako dolazimo do pojma uzorka.

    Uzorak je sluajno odabrani podskup populacije. Uz uzorak se prirodno vee sljedee pitanje. Koliko je opravdano na osnovi uzorka zakljuivati o cijeloj populaciji? To je pitanje kojim se bavi Matematika statistika, znanstvena disciplina koja iz poznavanja odreenih svojstava uzorka donosi zakljuke o svojstvima cjelokupne populacije. Matematika statistika daje metode kojima se ovi problemi egzaktno rjeavaju. Teorija vjerojatnosti je teorijska osnova matematike statistike. Deskriptivna statistika se bavi obradbom dobivenih rezultata. Ona opisuje metode i postupke za egzaktno prouavanje statistikih podataka. Pod tim razumijevamo sreivanje, prikazivanje i interpretiranje statistikih podataka.

    U prirodnim i tehnikim znanostima esta je potreba za mjerenjem odreenih fizikalnih veliina. Rezultati tih mjerenja izraavaju se brojevima pa se govori o brojanim ili numerikim podatcima.

    Promatramo jednu veliinu X. Rezultat jednog mjerenja jest jedan realan broj x. Viestruko ponavljanje mjerenja veliine X dovodi do konanog niza realnih brojeva x1, x2, x3, ...., xn. Niz od n ponovljenih mjerenja dovodi do niza od n rezultata. U ovom kontekst veliina X se naziva statistika znaajka ili statistiko obiljeje. Dobiveni niz brojeva x1, x2, x3, ...., xn nazivamo statistikim podatcima o promatranoj statistikoj znaajki X. Pretpostavimo da statistika znaajka poprima vrijednosti iz nekog diskretnog skupa A. Tada kaemo da je X diskretna znaajka. Mjerenjem se kao rezultati dobivaju elementi skupa A pa za svaki x A uoavamo broj f, broj pojavljivanja u nizu od n mjerenja (opaanja) znaajke X. Tada broj f {0, 1, 2, 3, ...} nazivamo estoa ili frekvencija. estoa podijeljena s ukupnim brojem mjerenja naziva se relativna estoa ili relativna

    frekvencija i piemo = fpn

    .

    esto su podatci dobiveni mjerenjem napisani redoslijedom koji oteava predodbu. Jasnije je ako se rezultate mjerenja zapie u rastuem ili padajuem redoslijedu. Obino su podatci poredani po veliini: 1 2 rx x x< <

  • IVICA VUKOVI, VJEROJATNOST I STATISTIKA

    3

    Zbroj relativnih estoa je 1. Naime, 1 2 1 2

    1 2 1r rrf f f f f f np p p n n n n n

    + + ++ + + = + + + = = ="" " . Primjer 1. Neka je X ocjena na ispitu iz matematike na jednom uilitu. Skup svih moguih vrijednosti od X je A = {1, 2, 3, 4, 5}. Dakle, X je diskretna statistika znaajka. Promotrimo sada jedan niz statistikih podataka: 1, 2, 4, 3, 5, 4, 3, 2, 4, 3. Radi bolje preglednosti zapiimo podatke po veliini: 1, 2, 2, 3, 3, 3, 4, 4, 4, 5. Niz ima ukupno 10 lanova. Piemo n = 10. Zapiimo tablicu frekvencije i relativne frekvencije pojedinih vrijednosti znaajke X:

    ix vrijednost obiljeja X

    if estoa

    ip relativna estoa

    1 1 1 0,110 = 2 2 2 0,210 = 3 3 3 0,310 = 4 3 3 0,310 = 5 1 1 0,110 =

    Na temelju ovakvog tablinog zapisa statistikih podataka izrauju se grafiki prikazi. Na apscisnu os pravokutnog koordinatnog sustava u ravnini nanosimo vrijednosti znaajke X, a kao ordinate odgovarajue frekvencije ili relativne frekvencije. Tako dobivamo grafikon frekvencija odnosno relativnih frekvencija. Spajanjem tako dobivenih toaka dobiva se odgovarajui poligon frekvencija.

    1 2 3 4 5

    1

    2

    3

    x

    y

    grafikon frekvencija

    1 2 3 4 5

    1

    2

    3

    x

    y

    poligon frekvencija

  • IVICA VUKOVI, VJEROJATNOST I STATISTIKA

    4

    1 2 3 4 5

    x

    y

    0,10,20,3

    grafikon relativnih frekvencija

    1 2 3 4 5

    x

    y

    0,10,20,3

    poligon relativnih frekvencija

    Prikaimo ovaj niz podataka histogramom. Openito je histogram frekvencija grafiki prikaz frekvencija koji se sastoji od skupa pravokutnika to se meusobno dodiruju i svaki ima jednaku osnovu, a plotina je razmjerna estoi podatka. Na analogan nain definiramo histogram relativnih frekvencija.

    0

    1

    2

    3

    4

    1 2 3 4 5

    Histogram frekvencija

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    1 2 3 4 5

    Histogram relativnih frekvencija

    Ukupna plotina svih pravokutnika u histogramu relativnih frekvencija je 1. Kaemo da je tablicom frekvencija i grafikonom frekvencija (odnosno relativnih frekvencija) zadana razdioba frekvencija u danom nizu statistikih podataka. Funkcija :f A R definirana pravilom pridruivanja ( )i if x f= , i = 1, 2, ..., r, naziva se funkcija frekvencija. Na slian nain definira se i funkcija relativnih frekvencija :p A R , gdje je ( )i ip x p= , i = 1, 2, ..., r. Funkcija K kumulativnih frekvencija definirana je izrazom:

    ( )i

    ix x

    K x f

    = , x R . Funkcija F kumulativnih relativnih frekvencija definirana je izrazom:

    ( )i

    ix x

    F x p

    = , x R .

  • IVICA VUKOVI, VJEROJATNOST I STATISTIKA

    5

    Graf funkcije kumulativnih relativnih frekvencija iz naega primjera:

    1 2 3 4 5

    x

    y

    0,1

    0,2

    0,6

    0,3

    0,9

    1,0

    0,8

    0,7

    0,5

    0,4

    Za dani niz 1x , 2x , ..., nx statistikih podataka o nekom obiljeju X nainimo pregledni prikaz pomou odgovarajue tablice frekvencija. Najprije definiramo razrede. Razredi su prikladno odabrani uzastopni i meusobno disjunktni podintervali na koje je podijeljen ukupni interval niza podataka znaajke X. irine pojedinih razreda u naelu su po volji odabrane. Njihov izbor nije uvjetovan nekim opim teorijskim razultatima ve praktinim potrebama preglednosti tablice i mogunosti uoavanja bitnih svojstava. Granice razreda su vrijednosti koje odreuju gornju i donju granicu razreda. Pri odreivanju razreda valja odrediti koja od dviju granica razreda pripada tome razredu. Ukoliko je to mogue, nijedna granica razreda ne bi s etrebala podudarati s nekom vrijednosti u razredu. Aritmetiku sredinu gornje i donje granice razreda nazivamo sreditem razreda. irina razreda je razlika izmeu gornje i donje granice razreda. Redovito se ipak radi o razredima jednake irine i broj r razreda bira se u ovisnosti o broju n podataka u danom nizu. Obino se za broj razreda r uzima vrijednosti od 5% do 10% od n pri emu je r 30. Druga preporuka je da broj razreda bude oko n . Primjer 2. Neka visina studenata statistika znaajka X. Promatrajmo niz od 25 podataka: 163, 159, 165, 167, 168, 168, 171, 172, 172, 173, 174, 174, 175, 175, 176, 177, 178, 178, 178, 179, 180, 183, 184, 187, 188 Najmanji element u nizu je min 159x = , a najvei max 188x = . Podatke emo razvrstati u r = 5 razreda. irina pojedinog razreda d jednaka je razlici gornje i donje granice razreda.

  • IVICA VUKOVI, VJEROJATNOST I STATISTIKA

    6

    Odreujemo je po formuli max minx xd r= , s tim da se rezultat zaokruuje na vei broj. U

    naem je primjeru irina razreda max min 188 159 29 5,8 65 5 5x xd = = = = .

    Frekvencija razreda je broj podataka u danom nizu koji pripadaju tom razredu. Relativnu frekvenciju razreda raunamo tako da frekvenciju razreda podijelimo ukupnim brojem podataka n. Razredi su sljedei intervali: [158,5; 164,5], [164,5; 170,5], [170,5; 176,5], [176,5; 182,5], [182,5; 188,5] Razredu [158,5; 164,5] pripadaju pod