46
STATISTIKA 3. predavanje Doc.dr. Tadeja Kraner Šumenjak

STATISTIKA 3. predavanjefkbv.um.si/images/stories/matematika/3pred-stat.pdf · 2012. 3. 30. · STATISTIKA 3. predavanje Doc.dr. Tadeja Kraner Šumenjak. SREDNJE VREDNOSTI(MERE CENTRALNE

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

  • STATISTIKA

    3. predavanje

    Doc.dr. Tadeja Kraner Šumenjak

  • SREDNJE VREDNOSTI(MERE CENTRALNE

    TENDENCE)

    V tem delu bomo iskali eno samo vrednost, ki bi

    bila najboljši predstavnik množice vseh vrednosti

    neke spremenljivke na opazovani populaciji.

    Lastnosti spremenljivk, da se gostijo okrog neke

    vrednosti imenujemo centralna tendenca.

    Merimo jo s srednjimi vrednostimi:

    mediana - Me

    modus - Mo

    aritmetična sredina - M

    geometrijska sredina- G

    harmonična sredina-H

  • MERE VARIABILNOSTI

    V nadaljevanju bomo merili razpršenost ali

    disperzijo posameznih vrednosti spremenljivke od

    mere centralne tendence:

    variacijski razmik - R

    kvartilni odklon- Q

    povprečni absolutni odklon - AD

    standardni odklon -

    varianca- 2

  • RELATIVNE MERE VARIABILNOSTI

    Koeficient variabilnosti – KV%

  • MOMENTI, MERE ASIMETRIJE IN

    SPLOŠČENOSTI

    Centralni momenti

    Koeficient asimetrije

    Koeficient sploščenosti

  • ARITMETIČNA SREDINA

    Aritmetična sredina je najpogosteje uporabljana

    srednja vrednost. Izračunamo jo tako, da vsoto

    vseh vrednosti enot v statistični množici delimo s

    številom enot. Aritmetično sredino M

    izračunamo s pomočjo obrazca:

    N

    i

    iN xN

    xxxxN

    M1

    321

    1)(

    1

  • PRIMER

    Če ima populacija naslednje vrednosti enot:

    izračunamo njihovo aritmetično sredino tako:

    34 25 29 31 28 25 33 32 23 29

    MN

    x ii n

    N

    1 1

    1034 25 29 31 28 25 33 32 23 29

    289

    1028 9( ) ,

  • V primeru, da imamo opravka z grupiranimi

    podatki, vzamemo za reprezentanta enot v

    razredu sredino razreda in izračunamo

    aritmetično sredino s pomočjo obrazca:

    Tu smo upoštevali, da je vsota vseh frekvenc

    posameznih razredov enaka številu enot v

    populaciji. Torej je:

    Mf x

    f Nf x

    k k

    k

    k k

    1

    kfN

  • PRIMER

    Masa piščancev

    (g)

    Število piščancev -

    fk

    xk fkxk

    nad 1700 do 1800 98

    nad1800 do 1900 296

    nad 1900 do 2000 523

    nad 2000 do 2100 434

    nad 2100 do 2200 211

    nad 2200 do 2300 88

    Skupaj 1650

    Za dano frekvenčno porazdelitev izračunajte

    aritmetično sredino.

  • Masa piščancev (g) Število piščancev - fk xk fkxk

    nad 1700 do 1800 98 1750 171500

    nad1800 do 1900 296 1850 547600

    nad 1900 do 2000 523 1950 1019850

    nad 2000 do 2100 434 2050 889700

    nad 2100 do 2200 211 2150 453650

    nad 2200 do 2300 88 2250 198000

    Skupaj 1650 3280300

    MN

    f xk k 1 3280300

    16501988 06,

  • Oglejmo si, katere so lastnosti aritmetične sredine. Ugotovimo

    lahko, da je vsota odklonov od aritmetične sredine enaka nič.

    Dokaz:

    ( )M x M x N M NN

    x N M N Mii

    N

    i

    N

    ii

    N

    ii

    N

    1 1 1 1

    10

    Vsota kvadratov odklonov individualnih vrednosti od poljubnega

    števila a je minimalna, če je to število M.

    Dokaz:

    2

    1

    1 1

    1

    ( ) ( ) iščemo minimum te funkcije

    ( ) 2( ) 2 ( )

    ( ) 0 ( ) 0

    N

    i

    i

    N N

    i i

    i i

    N

    i

    i

    f a a x

    f a a x a x

    f a a x a M

  • MODUS

    Modus (gostiščnica) Mo prikazuje tisto

    vrednost, okoli katere so vrednosti populacije

    najbolj goste. Modus je torej najpogostejša

    vrednost v populaciji. Modus lahko računamo le,

    če imamo razmeroma obsežne populacije. Pri

    majhnih rezultat ni vedno smiseln.

    V posebnih primerih se zgodi, da spremenljivka

    nima nobenega modusa, ali pa ima več modusov.

  • PRIMER

    Za 16 družin imamo podatke o številu otrok v

    družini.

    1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5, 6, 7, 7, 10.

    Mo1=2

    Mo2=3

    Največ opazovanih družin ima 2 ali pa 3 otroke.

  • HARMONIČNA SREDINA

    Harmonična sredina ali harmonično povprečje je

    srednja vrednost, ki je enaka recipročni vrednosti

    aritmetične sredine izračunane iz recipročnih

    vrednosti:

    Nxxx

    NH

    1...

    11

    21

  • PRIMER

    Peljemo se na izlet iz Celja na Primorsko in nazaj.

    Pot je v eno smer dolga 160 kilometrov. Proti

    Primorski se peljemo s hitrostjo 90 km/h, nazaj s

    hitrostjo 130 km/h. Izračunajmo povprečno hitrost

    vožnje v obe smeri.

  • Seveda ni dovolj, da upoštevamo le obe hitrosti in

    izračunamo njuno povprečje ter dobimo 110 km/h. To ni

    pravilno razmišljanje, saj smo se dlje časa vozili z nižjo od

    obeh hitrosti in je zato tudi povprečna hitrost bližje 90

    km/h kot pa 130 km/h.

    Uporabimo obrazec za izračun harmonične sredine in

    dobimo

    V obe smeri smo vozili s povprečno hitrostjo približno 106

    km/h.

    36,106

    130

    1

    90

    1

    2

    H

  • GEOMETRIJSKA SREDINA

    V posebnih primerih, kadar iščemo srednje

    vrednosti za statistične podatke izražene z

    odstotki, (verižnimi) indeksi, koeficienti rasti itd.,

    uporabljamo geometrijsko sredino ali

    geometrijsko povprečje.

    To je tista srednja vrednost, ki je enaka N-temu

    korenu iz produkta N pozitivnih vrednosti:

    NNxxxG ...21

  • VARIACIJSKI RAZMIK

    To je najenostavnejša, pa tudi najbolj problematična mera variacije. Dobimo jo tako, da od največje vrednosti spremenljivke odštejemo najmanjšo vrednost. Torej je

    R = xmax - xmin

    V primeru, da ima en element populacije zelo majhno vrednost spremenljivke drugi pa zelo veliko, je variacijski razmik zelo velik (vpliva osamelec). Ob tem pa lahko velika večina vrednosti leži tesno ob aritmetični sredini. To mero zato uporabljamo le izjemoma.

  • KVARTILNI ODKLON

    Kvartilni odklon je definiran kot

    Na kvartilni odklon ne vplivajo skrajne, običajno

    netipične, vrednosti statistične spremenljivke. Zato

    je kvartilni odklon primernejše merilo

    variabilnosti kot variacijski razmik.

    )(2

    113 QQQ

  • POVPREČNI ABSOLUTNI ODKLON OD

    ARITMETIČNE SREDINE

    Z odkloni posameznih vrednosti od ustrezne

    sredine merimo jakost posamičnih vplivov.

    Vendar, če vzamemo kot sredino aritmetično

    sredino dobimo, da je to povprečje enako nič, saj

    je

    ( )M x i

    i

    N

    1

    0

    Zato vzamemo kot merilo variabilnosti

    povprečje absolutnih odklonov:

    N

    i

    iM MxN

    AD1

    1

  • VARIANCA IN STANDARDNI ODKLON

    Varianca je povprečje kvadratov odklonov od aritmetične sredine. Podana je z obrazcem:

    Ker srečujemo varianco pri mnogih statističnih analizah, je to najpomembnejša mera variabilnosti. Ker je enota mere kvadrat enote mere osnovne spremenljivke, uporabljamo običajno kvadratni koren variance:

    ki ga imenujemo standardni odklon.

    N

    i

    i MxN 1

    22 )(1

    2

  • 2 2

    1

    2 2

    1

    1 12

    N

    x MN

    x x M Mii

    N

    i i

    i

    N

    ( ) ( )

    2 2

    1 1

    21 2 1

    N

    xM

    Nx

    NN Mi

    i

    N

    i

    i

    N

    MN

    x ii

    N

    1

    1

    2 2

    1

    2 21 2

    N

    x M Mii

    N

    2

    1

    22 1 MxN

    N

    i

    i

    Preoblikujmo izraz za varianco:

  • VZORČNI STANDARDNI ODKLON IN

    VARIANCA

    Če imamo podatke iz vzorca in ne iz celotne

    populacije, izračunamo t.i. vzorčno varianco

    Dokaz, da je bolj primerno deliti z (n-1) kot n

    posreduje matematična statistika.

    Vzorčna varianca je le ocena za populacijsko

    varianco, rečemo ji nepristranska ocena

    variance.

    vzorcasredina aaritmeti čr

    vzorcuenot v število

    )(1

    1 2

    1

    2

    x

    n

    xxn

    sN

    i

    i

  • vzorcasredina aaritmeti čr

    vzorcuenot v število

    1)(

    1

    1 2

    1

    22

    x

    n

    n

    nxx

    ns

    N

    i

    i

    Izpeljemo formulo, ki jo bomo uporabljali:

  • PRIMER

    Za primer izračunajmo varianco in standardni

    odklon za pridelke krompirja z desetih poskusnih

    parcel (t/ha).

    Pridelek (x)

    27

    43

    36

    20

    22

    37

    17

    28

    40

    26

    296

  • PRIMER

    Ocene 6 študentov pri izpitu so: 84, 91, 72, 68, 87

    in 78 procentov. Aritmetična sredina je 80

    procentov. Izračunajmo oceno variance.

  • Varianco in standardni odklon lahko izračunamo

    tudi iz grupiranih podatkov. V tem primeru je

    obrazec za izračun tak:

    2 2 21

    N

    f x Mk k

    frekvenca

    razreda sredina

    razreda

  • Denimo, da smo opazovali pridelek jabolk na

    drevesih z zelo vitkim vretenom in pri tem dobili

    frekvenčno porazdelitev prikazano v preglednici.

    Izračunajmo aritmetično sredino, varianco in

    standardni odklon.

    Masa plodov Število dreves - fk

    nad 7,4 do 8,0 11

    nad 8,0 do 8,6 32

    nad 8,6 do 9,2 56

    nad 9,2 do 9,8 24

    nad 9,8 do 10,4 7

    Skupaj 130

  • Mere variacije, ki smo jih pravkar opisali lahko le

    redkokdaj direktno medsebojno primerjamo, čeprav so

    pojavi lahko vsebinsko povezani. Če na primer

    primerjamo dve skupini piščancev, ki smo jih v enakih

    življenjskih pogojih različno krmili in izračunali v prvi

    populaciji

    M1 = 2100 g in 1 = 100 g

    v drugi populaciji pa

    M1 = 1950 g in 1 = 80 g

    se bomo zelo težko odločili, katera populacija je

    variabilnejša.

  • Da lahko primerjamo variabilnosti različnih

    populacij, moramo vpeljati relativno mere variacije.

    Koeficient variabilnosti v procentih je definiran:

    Ugotovi, katera populacija iz prejšnjega diapozitiva

    je variabilnejša?

    KVM

    % 100

  • Momenti, mere asimetrije in sploščenosti

    Izraz r = 1, 2, 3, ....

    imenujemo centralni moment stopnje r.

    Centralni moment prve stopnje je podan z izrazom

    1

    1( )

    Nr

    r i

    i

    x MN

    1

    1

    1( ).

    N

    i

    i

    x MN

    Je enak 0.

  • Centralni moment druge stopnje (varianca) je podan z izrazom

    Centralni moment tretje stopnje je podan z izrazom

    2 2

    2

    1

    1( ) .

    N

    i

    i

    x MN

    3 3 2 3

    3

    1 1

    1 1( ) 3 .

    N N

    i i

    i i

    x M x M MN N

  • Da se dokazati, da je centralni moment tretje stopnje enak 0,

    če je porazdelitev simetrična, pozitiven, če je asimetrična v

    desno in negativen, če je porazdelitev asimetrična v levo.

    simetrične asimetrične v levo asimetrične v desno

    3 0 3 0 3 0

  • MERE ASIMETRIJE

    Predznak in velikost tretjega momenta sta

    odvisna od asimetričnosti frekvenčne

    porazdelitve. Zato bi lahko vzeli centralni

    moment tretje stopnje za mero asimetrije. Ker pa

    je tretji moment odvisen tudi od variabilnosti, le-

    to izločimo tako, da vzamemo za merilo

    asimetrije izraz:

    13

    2

    2

    3

    3 13

    2

    3

    3

    3 Skewness

  • PRIMER

    Izračunajte za spodnje podatke Skewness.

    Pridelek

    (x)

    27

    43

    36

    20

    22

    37

    17

    28

    40

    26

    296

  • MERE SPLOŠČENOSTI

    Sploščenost merimo:

    42 2

    2 2 3

    Za normalno porazdelitev

    je enak 3.

    2

    Kurtosis

    Koeficient

    sploščenosti s

    centralnimi momenti

    0 koničasta

  • PRIMER

    Izračunajte za spodnje podatke Kurtosis.

    Pridelek

    (x)

    27

    43

    36

    20

    22

    37

    17

    28

    40

    26

    296

  • Koeficient asimetrije

    s centralnimi

    momenti

    0 as. v desno

    Koeficient

    sploščenosti s

    centralnimi momenti

    0 koničasta

  • Poglejmo si še enkrat frekvenčno porazdelitev za število zaposlenih

    po podjetjih

  • V praksi se pokaže, da se nekatere oblike

    frekvenčnih porazdelitev pogosteje pojavljajo kot

    druge. Tako zelo pogosto srečamo frekvenčne

    porazdelitve, ki so prikazane na sliki:

  • simetrične asimetrične v levo asimetrične v desno

    unimodalne bimodalne polimodalne

    sploščene koničaste

  • ODNOSI MED POSAMEZNIMI SREDINAMI

    Med aritmetično sredino, mediano in modusom

    opazimo določene stalne odnose. Za simetrične

    unimodalne porazdelitve velja, da je

    M = Me = Mo

    Torej so vse tri srednje vrednosti v tem primeru

    enake. Za unimodalne porazdelitve, ki so

    asimetrične v desno veljajo odnosi

    M > Me > Mo.

  • za porazdelitve, ki so asimetrične v levo pa

    M < Me < Mo.

  • KOEFICIENT ASIMETRIJE

    Na osnovi oddaljenosti od aritmetične sredine imamo dva

    koeficienta asimetrije. Pri prvem vzamemo za osnovo

    oddaljenost modusa od aritmetične sredine:

    Pri drugem koeficientu pa vzamemo za osnovo oddaljenost

    mediane od aritmetične sredine:

    MoxKAMo

    KAx Me

    Me 3 ( )

  • Koeficienta asimetrije na osnovi oddaljenosti od

    aritmetične sredine lažje in hitreje izračunamo kot

    koeficient na osnovi tretjega momenta in ju zato

    uporabljamo v primerih, ko nimamo na voljo

    računalnika z ustreznim programom.

    Pri primerjavi dane krivulje z normalno se držimo

    naslednjega:

    .0 ali 0

    ,0 ali 0

    ,0 ali 0

    MeMo

    MeMo

    MeMo

    KAKA

    KAKA

    KAKA asimetrična v desno

    simetrična

    asimetrična v levo

  • Za mero sploščenosti lahko vzamemo tudi razmerje

    med kvartilnim in decilnim razmikom. Ustrezen

    koeficient sploščenosti je enak:

    KSQ Q

    D D

    1 9 3 1

    9 1

    ,

    Tako določen koeficient sploščenosti je za normalne

    porazdelitve enak 1, za koničaste porazdelitve je

    manjši od ena za sploščene pa večji od ena.

    Tudi ta koeficient lažje izračunamo kot koeficient na

    osnovi četrtega momenta in ga uporabljamo

    namesto mere na osnovi četrtega momenta, če

    nimamo na voljo računalnika.

    KOEFICIENT SPLOŠČENOSTI