43
STATISTIKA 3. predavanje Doc.dr. Tadeja Kraner Šumenjak

STATISTIKA 3. predavanjefkbv.um.si/images/stories/matematika/4predstat.pdf · 2012. 4. 10. · 0 2 4 6 8 10 12 14 16 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 x) Normalna

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • STATISTIKA

    3. predavanje

    Doc.dr. Tadeja Kraner Šumenjak

  • Slučajna spremenljivka

    Slučajna spremenljivka X je količina, ki dobi v

    vsakem poskusu neko vrednost, ta pa je odvisna

    od slučaja. Slučajna spremenljivka je določena z

    dvema podatkoma:

    -z zalogo vrednosti,

    -s porazdelitvenim zakonom.

  • Zaloga vrednosti slučajne spremenljivke

    Zaloga vrednosti slučajne spremenljivke X so

    vrednosti, ki jih X more zavzeti. Glede na zalogo

    vrednosti ločimo:

    -diskretne: te imajo končno ali števno neskončno

    zalogo vrednosti

    -nediskretne: te imajo neštevno zalogo vrednosti.

    Med njimi so najpomembnejše zvezne slučajne

    spremenljivke.

  • Porazdelitveni zakon

    Porazdelitveni zakon je predpis, ki pove, s kako

    verjetnostjo zavzame slučajna spremenljivka X vrednosti

    iz zaloge vrednosti.

    Najbolj splošna oblika porazdelitvenega zakona je

    porazdelitvena funkcija F, ki je definirina takole:

    Pri danem x je vrednost funkcije F(x) enaka verjetnosti P,

    da slučajna spremenljivka X zavzame vrednosti, ki so

    manjše ali enake x.

    ( ) ( )F x P X x

  • Lastnosti porazdelitvene funkcije

    ( ) 0

    ( ) 1

    F je naraščajoča

    ( ) 1- ( )

    F

    F

    P X x F x

  • Za zapis diskretne slučajne spremenljivke uporabljamo

    shemo:

    1 2 3

    1 2 3

    , , , ...:

    , , , ...

    Pri čemer velja:

    ( )

    0 1

    1

    i i

    i

    i

    i

    x x xX

    p p p

    P X x p

    p

    p

  • Primer

    Mečemo kocko, izid meta je 1,2,3,4,5,6 pripadajoče verjetnosti so

    1/6. Porazdelitvena shema slučajne spremenljivke X je:

    1, 2, 3, 4, 5, 6

    : .1 1 1 1 1 1, , , , ,

    6 6 6 6 6 6

    X

  • Porazdelitev s porazdelitveno funkcijo F(x) je

    zvezna, če obstaja taka funkcija p(x), da je

    Funkcijo p(x) imenujemo gostota verjetnosti.

    ( ) ( ) ( )

    x

    F x P X x p t dt

  • Lastnosti funkcije p(x)

    ( ) 0

    ( ) 1

    Graf funkcije ( ) je nad abcisno osjo, ploščina pod njim pa je enaka 1.

    ( ) ( )

    Ploščina lika, ki ga omejujeta abcisi in ter gostota verjetnosti ( ),

    geometrijsko upod

    b

    a

    p x

    p x dx

    p x

    P a X b p t dt

    a b p x

    ablja iskano verjetnost.

  • NORMALNA PORAZDELITEV

    Normalna porazdelitev je oblika frekvenčne

    porazdelitve zvezne slučajne spremenljivke,

    ki se v statistiki najpogosteje pojavlja. Srečamo jo

    pri velikem številu empiričnih pojavov kot so na

    primer višina živali iste pasme, ki rastejo v istem

    življenjskem okolju, mase plodov itd.

    Gostoto verjetnosti je prvi zapisal francoski

    matematik A. de Moivre (1733).

    Leta 1809 C.F. Gauss proučeval porazdelitev

    odmerkov neke količine, če na izmerke vplivajo le

    slučajni vplivi. Verjetnostna porazdelitev

    odmerkov je znana pod imenom normalna ali

    Gaussova krivulja.

  • Normalna porazdelitev je unimodalna in

    simetrična. Gostoto verjetnosti normalne

    porazdelitve opišemo z enačbo:

    21

    21( )2

    x M

    p x e

  • Normalna porazdelitev je enolično določena, če

    poznamo aritmetično sredino M in standardni

    odklon . Zato zapišemo normalno porazdelitev tudi

    kot N(M, ). Za M = 8 in = 2 je normalna

    porazdelitev prikazana na sliki :

    0 2 4 6 8 10 12 14 160

    0.02

    0.04

    0.06

    0.08

    0.1

    0.12

    0.14

    0.16

    0.18

    0.2

    x

    g(x

    )

    Normalna porazdelitev ima vrh pri aritmetični

    sredini x=M (maksimum). Okoli te točke je gostota

    relativne frekvence največja. Z oddaljenostjo od

    aritmetične sredine pa pada.

  • Oglejmo si še, kako se spreminja krivulja

    porazdelitve, če spreminjamo standardni odklon. Na

    sliki so narisane gostote porazdelitev treh normalnih

    porazdelitev, ki imajo isto aritmetično sredino in

    različne standardne odklone.

  • Čim večji je standardni odklon, tem bolj je

    sploščen zvon.

    Torej, čeprav se torej pojavi normalno

    distribuirajo, so njihove normalne krivulje lahko

    ne samo locirane na različnih mestih abcise,

    ampak so lahko tudi bolj ali manj sploščene.

  • Z naraščanjem standardnega odklona se krivulja širi

    in znižuje. Površina pod krivuljo predstavlja celotno

    populacijo in je enaka 1. Delež enot, ki so manjše od

    neke vrednosti (kvantila) x0 je enaka površini pod

    krivuljo od - do x0.

    Za število enot, ki so manjše od 7, pri normalni

    porazdelitvi z M = 8 in = 2 je ta površina

    prikazana na zgornji sliki.

    0 2 4 6 8 10 12 14 160

    0.02

    0.04

    0.06

    0.08

    0.1

    0.12

    0.14

    0.16

    0.18

    0.2

    x

    g(x

    )

    x

    dxxgxF )()(

  • Za vsako normalno porazdelitev velja, da leži

    na intervalih:

    (M , M + ) 68,3 % populacije

    (M 2 , M + 2 ) 95,5 % populacije

    (M 3 , M + 3 ) 99,7 % populacije.

  • Denimo, da imamo statistično spremenljivko, ki jo

    lahko modeliramo z ustrezno matematično funkcijo

    in to funkcijo narišemo v verjetnostni skali. Dejstvo,

    da imamo ustrezno verjetnostno porazdelitev,

    omogoča, da lahko povemo o spremenljivki več.

  • Ilustrirajmo to na primeru. Proučujmo dolžino listov nekega drevesa.

    Grafični prikaz frekvenčne porazdelitve nakazuje, da lahko histogramu

    priredimo gladko krivuljo. Če to funkcijo narišemo v verjetnosti skali (na y

    osi so verjetnosti). Sedaj lahko izračunamo, kolikšen odstotek listov v

    celotni populaciji tega drevesa ima dolžino med 2 in 4 cm.

  • Standardizirana normalna porazdelitev

    Vsako normalno porazdelitev lahko prevedemo v standardizirano

    normalno porazdelitev. Če je X ( , ), je slučajna spremenljivka ,

    -

    porazdeljena po standardizirani normalni porazdelitvi Z (0,1).

    N M Z

    X MZ

    N

    IZREK

  • Izrek pove, da za poznavanje vseh normalnih porazdelitev

    zadošča poznavanje N(0,1).

    Izračunavanje verjetnosti za N(0,1) z določenim integralom

    nadomeščajo statistične tabele, ki so podane na različne

    načine.

    V tabeli II (Obrazci, Nemec J.) je za izbrano vrednost z

    (z>0) podana verjetnost p:

    2

    2

    0 0

    1( ) (0 ) ( )

    2

    z z t

    H z P Z z p t dt e dt

  • Primer

    0,51 ( ) 0,195

    1,00 ( ) 0,3413

    1,96 ( ) 0,4750

    2,58 ( ) 0,4951

    z H z

    z H z

    z H z

    z H z

    Verjetnost, da spremenljivka zavzame

    vrednost iz intervala [0,z], kjer je z≥0.

  • Funkcijo razširimo še na negativna števila s

    predpisom

    Potem je verjetnost, da Z zavzame vrednosti z intervala

    [a,b] enaka

    Npr. kolikšen delež populacije ima telesno višino, ki je

    porazdeljena normalno N(172,6), med 166 in 178

    centimetri. Slučajna spremenljivka

    je porazdeljena standardizirano normalno.

    )(zH

    ( ) ( ).H z H z

    ).()( aHbH

    6

    172XZ

  • Torej je

    Potem je verjetnost, da Z zavzame vrednosti z

    intervala [-1,1] enaka

    Iz tabele II odčitamo vrednost funkcije H(1)=0,3413.

    Torej je ta delež 0,6823, oziroma 68,23%.

    16

    172178178

    16

    172166166

    22

    11

    ZX

    ZX

    ).1(2))1(()1()1()1( HHHHH

  • pozitivna števila:

    ( ) 0,5 ( )

    ( ) 0,5 ( )

    negativna števila:

    ( ) 0,5 ( ) 0,5 ( )

    ( ) 0,5 ( ) 0,5 ( )

    P Z z H z

    P Z z H z

    P Z z H z H z

    P Z z H z H z

  • Primer

    Vzemimo, da se jabolka po teži distribuirajo

    normalno s srednjo težo 10 dag in standardnim

    odklonom 2 dkg.

    Kolikšna je verjetnost, da bo naključno izbrano

    jabolko težje od 13 dag?

    V katerih mejah je 90,45 % vseh jabolk?

    Koliko mora biti težko jabolko, da bo spadalo v 2%

    najtežjih?

  • VZORČENJE

  • 27

    IZBIRA POSKUSNIH ENOT

    Glede na število opazovanih enot ločimo:

    o popolno opazovanje (veliko denarja, časa, dobro

    organizacijo). Npr. popis prebivalcev, tekoča registracija

    rojstev, smrti…Statistične tehnike, kjer iz vzorca sklepamo na populacije niso

    smiselne!

    o delno opazovanje, iz populacije vzamemo vzorec (del populacije), ki ga

    proučujemo. Ker sklepanje temelji na nepopolni informaciji, so sklepi bolj ali

    manj verjetni.

  • Število vzorcev, ki jih lahko dobimo iz populacije je ogromno.

    Vsi vzorci velikosti n, ki jih dobimo iz populacije velikosti N, tvorijo populacijo vzorcev velikosti n. To je hipotetična populacija, ki je zelo pomembna za matematično statistiko.

    Število vzorcev, ki jih lahko dobimo je odvisno, če enote vračamo v populacijo ali ne. Ločimo:

    -vzorce s ponavljanjem

    -vzorce brez ponavljanja

  • Izbrano enoto vrnemo v populacijo:

    -1

    Izbrane enote ne vrnemo:

    N n

    n

    N

    n

    Pri izračunu smo upoštevali, da so vzorci, ki

    vsebujejo iste enote v drugačnem vrstnem

    redu, enaki.

    Kombinacije brez

    ponavljanja.

    Kombinacije s

    ponavljanjem.

  • 30

    Glede na način izbire enot ločimo dve vrsti

    vzorcev:

    neslučajni vzorci: izbira temelji na

    neslučajni izbiri enot, na izbiri najlažje

    dosegljivih.

    slučajni vzorci: izbira temelji na

    določenem verjetnostnem zakonu.

  • 31

    Preden začnemo z vzorčenjem, moramo razmisliti,

    kako naj izbiramo enote iz populacije?

    Koliko enot naj bo v vzorcu?

    ODGOVOR posreduje matematična statistika,

    vendar le za slučajne vzorce.

  • 32

    DVE VRSTI SLUČAJNEGA VZORČENJA

    Enostavno slučajno

    vzorčenje

    Sistematično vzorčenje

    Stratificirano

    vzorčenje

    Kvotno vzorčenje

    Večstopenjsko

    vzorčenje

    Slučajno vzorčenje brez

    omejitev

    Slučajno vzorčenje z

    omejitvami

  • 33

    ENOSTAVNO SLUČAJNO VZORČENJE

    Pri enostavnem slučajnem vzorčenju velja, da

    ima vsaka za vzorčenje razpoložljiva enota

    populacije na vsakem koraku vzorčenja enako

    verjetnost, da je izbrana v vzorec.

    Izbira enot temelji na uporabi generatorja

    slučajnih števil. Izvedbe so različne: tabele

    slučajnih števil, loterija, računalnik.

  • 34

    PRIMER

    V populaciji je 855 enot. Za enostavni slučajni vzorec potrebujemo

    100 različnih enot. Funkcija RANDOM na kalkulatorju generira

    slučajna števila na intervalu [0,1).

    Npr., na kalkulatorju dobljeno slučajno število je 0,119. Potem je:

    S=INT(855∙0,119)+1=102

    Funkcija INT decimalnemu številu odreže

    vse decimalke. Izbrana je enota z oznako 102.

  • 35

    SISTEMATIČNO VZORČENJE

    Izvedba enostavnega slučajnega vzorčenja na terenu je pogosto

    težka. Npr. enostavna slučajna izbira dreves v velikem

    sadovnjaku je tehnično zahtevno in zamudno delo.

    Zato pogosto enostavno slučajno vzorčenje nadomestimo s

    sistematičnim vzorčenjem. Najprej izračunamo korak K od ene

    izbrane enote do druge:

    vzorcuenot v število je

    populaciji enot v število je

    )(

    n

    N

    n

    NROUNDK

    Zaokroži na celo št.

  • 36

    Iz okvira vzorčenja izberemo vsako K-to enoto.

    Element slučajnosti vpeljemo s slučajno izbiro

    prve izbrane enote.

    Sistematično vzorčenje lahko povzroči, da dobimo

    v vzorec nekaj enot preveč oz. nekaj enot

    premalo, odvisno od zaokrožanja pri izračunu

    koraka (če zaokrožimo navzdol, jih dobimo

    preveč).

    V obeh primerih sistematično vzorčenje

    ponovimo (glej primer).

  • 37

    PRIMER

    V okviru vzorčenja je 500 enot, ki imajo oznake 1 do 500. Za vzorec potrebujemo 60 enot. Korak je

    Izbrali bomo vsako osmo enoto iz okvira vzorčenja. S slučajno izbiro enot z

    oznakami 1,2,3,4,5,6,7,8 določimo, kje začnemo. Recimo, da je slučajna izbira

    dala 2. Izbrane so enote: 2,10,18,…

    V vzorec smo dobili 63 enot, torej tri preveč. Naredimo nov okvir vzorčenja.

    Izbrane enote označimo od 1 do 63. Sedaj bomo izmed 63 enot 3 izločili.

    Izračunamo korak:

    .8)60

    500(ROUNDK

    .21)3

    63(ROUNDK

  • 38

    Slučajna izbira enot z oznakami 1 do 21 je dala 5. Torej iz okvira

    izločimo: 5, 26,47. Preostalih 60 enot je namenjenih za vzorec.

  • 39

    STRATIFICIRANO VZORČENJE

    V določenih primerih enostavno slučajno vzorčenje ni najbolj

    primerno. Recimo, da pri polnoletnih proučujemo priljubljenost

    moderne glasbe. Starost vpliva na poslušanje, zato je moteč

    dejavnik.

    S slučajno izbiro bi lahko dobili vzorec, v katerem bi bil delež

    starejših bistveno večji.

    Smiselno populacijo razdeliti na dva dela, na mlajše in na

    starejše, in iz vsakega dela izbrati vzorec primerne velikosti.

  • 40

    Če je populacija heterogena, jo razdelimo na homogene delne

    populacije, ki jih imenujemo stratumi. Stratume opredelimo

    glede na moteče dejavnike.

    Npr. pri analizi javnega mnenja so smiselni stratumi: starost,

    spol, kraj bivanja…

    Za vsak stratum potrebujemo okvir vzorčenja. Število enot , ki jih

    izberemo iz posameznega stratuma, je najpogosteje

    proporcionalno velikosti stratuma.

  • 41

    PRIMER

    Vzemimo, da imamo osnovno statistično množico 10000 krav, od

    tega 5000 krav svetlo lisaste pasme, 2000 krav rjave pasme in

    3000 krav frizijske pasme.

    Če bi iz omenjene množice izbirali vzorec 100 krav, bi morali v

    vzorec izbrati 50 krav svetlo lisaste pasme, 20 krav rjave pasme

    in 30 krav frizijske pasme. Izbor iz posameznega stratusa pa

    opravimo na enak način, kot smo ga opisali pri enostavnem

    slučajnem vzorcu.

  • 42

    KVOTNO VZORČENJE

    Neslučajna alternativa stratificiranemu vzorčenju je kvotno

    vzorčenje. Uporabimo ga takrat, ko nimamo okvira vzorčenja za

    stratume, znane pa so kvote po stratumih.

    Če smo neko lastnost osnovne množice že zadovoljili, ne smemo

    več izbirati enot s to lastnostjo. Čeprav izbor kvotnega vzorca ni

    povsem slučajen, daje pri raziskavah javnega mnenja dobre

    rezultate.

  • 43

    VEČSTOPENJSKO VZORČENJE

    Če ni dosegljiv okvir vzorčenja, lahko to rešimo z vzorčenjem v več stopnjah.

    Recimo, da proučujemo populacijo gimnazijcev v določenem šolskem letu. Spisek gimnazijcev ni dostopen, dostopen pa je spisek gimnazij. Le ta predstavlja okvir vzorčenja v prvi stopnji. Z enostavnim slučajnim vzorcem iz vseh gimnazij izberemo določeno število gimnazij. Za vsako izbrano gimnazijo, dobimo spisek dijakov. S slučajno izbiro izberemo določeno število dijakov v gimnazijah, ki so bile izbrane. Opisano je dvostopenjsko vzorčenje.