curs statistica 2

  • Upload
    miki70

  • View
    233

  • Download
    1

Embed Size (px)

Citation preview

  • 8/19/2019 curs statistica 2

    1/37

    Indicatorii tendinţei centrale

    - Indicatorii medii de poziţie -

    Duminică, 1 Martie 2009

  • 8/19/2019 curs statistica 2

    2/37

    Mediana (Me) (1)

    Avantaj: Spre deosebire de medii, Me nu este aşade influenţată de apariţia valorilor extreme

    Mod de calcul:

    1. Se ordonează crescător seria de date

    2. Se calculează poziţia (locul) Medianei

    3.  În funcţie de forma datelor disponibile vom avea:

    [ ]1)(21

    +=   ∑  inlocMe

  • 8/19/2019 curs statistica 2

    3/37

    Mediana (Me) (2)

    Pentru un şir simplu de valori: – cu un număr impar de termeni

    Me este valoarea de rang locMe dinşirul ob

    ţinut la

    pasul 2

     – cu un număr par de termeni Nu există un termen central. Me se calculează ca o

    medie aritmetică simplă a termenilor centrali

  • 8/19/2019 curs statistica 2

    4/37

    Mediana (Me) (3)

    Pentru o serie de frecvenţe:3. Se calculează frecvenţe cumulate crescător (Fi) :

    Fiofer 

    ă r ăspunsul la întrebarea: “Câte cazuri ale

    variabilei xi sunt cel mult egale cu varianta curentă?”

    4. Mediana este prima variantă pentru care esteadevărată relaţia:

    locMeF i  ≥

  • 8/19/2019 curs statistica 2

    5/37

    Mediana (Me) (4)

    Pentru o serie de date grupate pe intervale:3. Se calculează frecvenţe cumulate crescător (Fi) :

    Fi ofer ă r ăspunsul la întrebarea: “Câte cazuri ale variabilei xi 

    sunt cel mult egale cu limita superioar ă a intervalului curent?”4. Se alege intervalul ce conţine mediana ca fiind primul

    interval pentru care este valabilă relaţia:

    5. În interiorul intervalului ce conţine mediana, formula decalcul este:

    locMeF i  ≥

     Me

    i

    n

    F locMek  x Me   10

    −−+=

  • 8/19/2019 curs statistica 2

    6/37

    Mediana (5)

    Mediana face parte din indicatorii cuantilici

     Alţi indicatori cuantilici sunt:

     – cuartilele (împart o serie de date în 4) – decilele (împart o serie de date în 10)

     – percentilele (procentilele) (împart o serie de date

     în 100)

  • 8/19/2019 curs statistica 2

    7/37

    Valoarea modală (Mo)

    Definiţie: Valoarea modală este valoarea cufrecvenţă maximă de apariţie

    Avantaje: – Poate fi calculată pentru variabile calitative

    (exprimate prin cuvinte) (de ex.: culoarea ochilor,culoarea părului, starea civilă etc.)

     –   Şansele ca rezultatul să fie o valoare existentă înrealitate sunt mult mai mari decât la medii

  • 8/19/2019 curs statistica 2

    8/37

    Valoarea modală (Mo) (2)

    200Total

    510

    109

    208

    377

    466

    385

    204

    123

    72

    51

    niNota

    05

    10

    15

    20

    25

    30

    3540

    45

    50

    1 2 3 4 5 6 7 8 9 10

    Nota

           S      t     u      d     e     n      t      i

    Mo

    Serie de date unimodală

  • 8/19/2019 curs statistica 2

    9/37

    0

    5

    10

    15

    20

    25

    3035

    40

    45

    1 2 3 4 5 6 7 8 9 10

    Nota

           S      t     u      d     e     n      t      i

    Valoarea modală (Mo) (3)

    200Total

    1110

    279

    418

    257

    76

    145

    354223

    132

    51

    niNota

    Mo2

    Serie de date bimodală

    Mo1

  • 8/19/2019 curs statistica 2

    10/37

    Valoarea modală (Mo) (4)

    Pentru o serie de date grupate pe intervale:1. Se alege intervalul modal ca fiind intervalul cu

    frecvenţa maximă

    2.  În interiorul intervalului modal, valoarea modală se determină cu ajutorul formulei:

    21

    10

    Δ+Δ

    Δ+=   k  x Mo

  • 8/19/2019 curs statistica 2

    11/37

    Valoarea modală (Mo) (5)

    150Total

    13Văduv

    12Divor ţat

    55Necăsătorit

    70Casătorit

    niStarea civilă

    Valoarea modală este varianta:“căsătorit”

  • 8/19/2019 curs statistica 2

    12/37

    Relaţia de ordine între , Me şi Mo x

    Pentru o serie cel mult uşor asimetrică este valabilă relaţia:

    )(3   Me x Mo x   −≅−

  • 8/19/2019 curs statistica 2

    13/37

    Indicatorii variaţiei (împr ăştierii)

  • 8/19/2019 curs statistica 2

    14/37

  • 8/19/2019 curs statistica 2

    15/37

    Indicatorii sintetici ai variaţiei (2)

    Dispersia sau momentul centrat de ordin 2

    Defini ţ ie: Media aritmetică a pătratelor abaterilor individuale faţă demedie (di)

    Pentru un şir simplu de valori: Pentru o serie de frecvenţe sau pentru oserie de date grupate pe intervale de

    grupare:

    Din considerente de interpretare vom lăsa dispersia f ăr ă unitate demăsur ă.

    ( )

    n

     x xi∑   −=2

    2σ   ( )

    ∑   ⋅−=

    i

    ii

    n

    n x x  2

    2σ 

    Formula alternativă de calcul a dispersiei:222

     x x p −=σ 

  • 8/19/2019 curs statistica 2

    16/37

    Indicatorii sintetici ai variaţiei (3)

    Abaterea standard sau abaterea medie pătratică

    Defini ţ ie: Rădăcina pătrată a dispersiei

     Abaterea medie pătratică are ca unitate de măsur ă, unitatea de măsur ă a variabilei analizate.

    2σ σ  =Proprietate: De obicei, între abaterea medie pătratică şi abaterea medieliniar ă există următoarea relaţie:

    σ 5

    4

    ≅d 

  • 8/19/2019 curs statistica 2

    17/37

    Indicatorii sintetici ai variaţiei (4)

    Coeficientul de variaţie sau de omogenitateDefini ţ ie: Este o exprimare în cifre relative (vezi indicatorii simpli ai

     împr ăştierii) a abaterii standard

    Propriet ăţ i: [ ]100 xCV   σ 

    =• de obicei CV ia valori în intervalul [0;100]

    • valori mici (apropiate de limita inferioar ă) ale indicatorului indică o serie

    omogenă (media, mediana, valoarea modală sunt reprezentative)• valori mari (apropiate de limita superioar ă) ale indicatorului arată o serieeterogenă (neomogenă) (media, mediana, valoarea modală suntnereprezentative)

    • pentru a considera o serie omogenă

    , teoria recomandă

    , ca valoareaCV sa fie cel mult 30-35%

  • 8/19/2019 curs statistica 2

    18/37

    Caz particular pentru dispersie

    Dispersia variabilei de tip binar 

    =

    +

    ⋅−+⋅−=

     M  N 

     M  p N  p  22

    2   )0()1(σ    =⎟

     ⎠

     ⎞⎜

    ⎝ 

    ⎛ 

    +

    +⎟

     ⎠

     ⎞⎜

    ⎝ 

    ⎛ 

    +   M  N 

     M  p

     M  N 

     N q

      22

    =+=   q p pq   22 =+   )(   q p pq   = pq   )1(   p p   −

    Dispersia maximă a variabilei de tip binar este 0,25

  • 8/19/2019 curs statistica 2

    19/37

    Studiul formei funcţiilor de repartiţie (1)

    Asimetria

    3

    8

    13

    18

    23

    28

    33

    38

    43

    2 3 4 5 6 7 8 9 10

    Nota

           S      t     u

          d     e     n      t      i

    1) Metode simple de analiză a asimetriei

    a) metoda vizuală

    3

    8

    13

    18

    23

    28

    33

    38

    43

    2 3 4 5 6 7 8 9 10

    Nota

           S      t

         u      d     e     n      t      i

    3

    8

    13

    18

    23

    28

    33

    38

    43

    2 3 4 5 6 7 8 9 10

    Nota

           S      t     u

          d     e     n      t      i

    serie simetrică serie asimetrică spre stânga serie asimetrică spre dreapta

  • 8/19/2019 curs statistica 2

    20/37

    Asimetria (2)

     xb) metoda compar ării indicatorilor tendinţei centrale ( , Me şi Mo)

    3

    8

    13

    18

    23

    28

    33

    38

    43

    2 3 4 5 6 7 8 9 10

    Nota

           S      t     u      d     e     n      t      i

    Mo

    Me

     x

  • 8/19/2019 curs statistica 2

    21/37

    3

    8

    13

    18

    23

    28

    33

    38

    43

    2 3 4 5 6 7 8 9 10

    Nota

           S      t     u      d     e     n      t      i

    Asimetria (3)

     xb) metoda compar ării indicatorilor tendinţei centrale ( , Me şi Mo)

    Mo Me x

  • 8/19/2019 curs statistica 2

    22/37

    3

    8

    13

    18

    23

    28

    33

    38

    43

    2 3 4 5 6 7 8 9 10

    Nota

           S      t     u      d     e     n      t      i

    Asimetria (4)

     xb) metoda compar ării indicatorilor tendinţei centrale ( , Me şi Mo)

    MoMe x

  • 8/19/2019 curs statistica 2

    23/37

    Asimetria (5)

    2) Metode analitice de abordare

    Coeficienţii de asimetrie ai lui Pearson

    σ  Mo xC as

    −=

    Proprietăţi şi interpretare:

    • interval de valori [-1;+1 ]

    • semnul arată direcţia asimetriei

    • valori mici (apropiate de 0) indică o asimetrie de mică intensitate

    • valori mari (apropiate de ±1)indică o asimetrie cu intensitatefoarte mare

    ( )σ  Me xC as −= 3

    Proprietăţi şi interpretare:

    • interval de valori [-3;+3 ]

    • semnul arată direcţia asimetriei

    • valori mici (apropiate de 0) indică o asimetrie de mică intensitate

    • valori mari (apropiate de ±3)indică o asimetrie cu intensitatefoarte mare

  • 8/19/2019 curs statistica 2

    24/37

    Asimetria (6)

    Coeficientul lui Bowley

    ( ) ( )( ) ( )1223

    1223

    qqqq

    qqqqC as

    −+−

    −−−=

    Proprietăţi şi interpretare:

    • interval de valori [-1;+1 ]

    • semnul arată direcţia asimetriei

    • valori mici (apropiate de 0) indică o asimetrie de mică intensitate

    • valori mari (apropiate de ±1)indică o asimetrie cu intensitate

    foarte mare

    Coeficienţii lui Pearson (continuare)

    ( )

    ∑∑   −

    ==i

    ii

    n

    n x x  2

    2

    2   σ μ 

    ( )

    ∑∑   −

    =i

    ii

    n

    n x x  3

    3μ 

    3

    2

    2

    31

    μ 

    μ  β   ==asC 

    unde:

    (momentul centrat de ordin 2)

    (momentul centrat de ordin 3)

  • 8/19/2019 curs statistica 2

    25/37

    Boltirea (1)

    0

    5

    10

    15

    20

    25

    30

    35

    40

    45

    50

    1 2 3 4 5 6 7 8 9 10

    Nota

           S      t     u      d     e     n

          t      i

    0

    5

    10

    15

    20

    25

    30

    35

    40

    45

    50

    1 2 3 4 5 6 7 8 9 10

    Nota

           S      t     u      d     e     n

          t      i

    1) Metoda vizuală

    serie mezocurtică serie leptocurtică serie platicurtică

    0

    5

    10

    15

    20

    25

    30

    35

    40

    45

    50

    1 2 3 4 5 6 7 8 9 10

    Nota

           S      t     u      d     e     n      t

          i

    γ

  • 8/19/2019 curs statistica 2

    26/37

    Interpretare:

    =0 (repartiţie mezocurtică)

    >0 (repartiţie leptocurtică)3 (repartiţie leptocurtică)

    β 2

  • 8/19/2019 curs statistica 2

    27/37

    Sondajul statistic

  • 8/19/2019 curs statistica 2

    28/37

    Terminologie (1)

    n

     X 

     X 

    n

    i

    i∑==   1• Media de eşantion (de selecţie) – estimator 

    pentru media populaţiei investigate• Dispersia populaţiei investigate

    • Dispersia de eşantion (de selecţie) – estimator pentrudispersia populaţiei investigate

    • Media populaţiei investigate N 

     X 

     X 

     N 

    i

    i∑==   10

     N 

     X  X  N 

    i

    i∑=

    =   1

    2

    02

    )(

    σ 

    1

    )(1

    2

    2

    =∑=

    n

     X  X 

    n

    i

    i

    • Interval de încredere – dublă inegalitate probabilistă ceapare în urma inferenţei statistice

      x x   X  X  X    Δ+

  • 8/19/2019 curs statistica 2

    29/37

    Motivaţii

    • Rapiditatea – informaţiile sunt obţinute mult mai rapid

    • Rezultate mai exacte – deşi pare paradoxal este un fapt

    evident

    • Cerinţe speciale – sunt situaţii în care aplicarea metodeiexhaustive este imposibilă din punct de vedere practic

    • Costurile – informaţia este obţinută cu eforturifinanciar-logistice mult mai reduse

  • 8/19/2019 curs statistica 2

    30/37

    Delimitări conceptuale

    •Anchetele sau sondajele nealeatoare

    • Sondajele probabiliste

    - se bazează mai mult pe considerente subiective, deci sunt discutabileşi în consecinţă sunt mai puţin riguroase- nu utilizează probabilităţi în extragerea unităţilor  şi ca urmare precizia

    estimatorilor nu poate fi determinată- utilizarea lor este justificată mai mult din cauza unor constrângeri bugetare

    sau atunci când sondajele aleatoare nu pot fi aplicate

    -sunt definite prin aceea că alocă fiecărei unităţi din populaţie o probabilitateegală şi nenulă de a apar ţine eşantionului

    -au avantajul că permit studierea şi calcularea preciziei estimatorilor  şi au uncaracter  ştiinţific riguros

  • 8/19/2019 curs statistica 2

    31/37

    Principalele tipuri de sondajeprobabiliste (aleatoare)

    • Sondajul stratificat (SS) – populaţia statistică este împăr ţită înprealabil (utilizând diverse criterii) în mai multe straturi. Din fiecarestrat se extrage un eşantion. Reuniunea acestor eşantioaneformează eşantionul final

    • Sondajul aleator simplu (SAS) – din populaţia statistică studiată se extrage un eşantion de dimensiunea dorită utilizând ometodă aleatoare.

    • Sondajul de serii/ de grupe/ cluster – populaţia statistică studiată este împăr ţită în serii/ grupe/ clustere (de exemplu: o populaţie destudenţi este împăr ţită în grupe). Se extrage apoi, în mod aleator, unanumit număr de grupe/ clustere astfel create. Toate unităţile

    statistice din grupele selectate formează eşantionul ce va fi ulteriorinvestigat.

  • 8/19/2019 curs statistica 2

    32/37

    Principalele tipuri de sondajeneprobabiliste

    • Eşantioanele de voluntari – se folosesc mai ales încercetările medicale• Eşantionarea dirijată – se foloseşte de obicei în cercetări

    prealabile asupra populaţiei studiate• Eşantionarea prin metoda cotelor  – se foloseşte în analizelesocio-economice baza de sondaj nu este disponibilă

    • Eşantionarea la întâmplare – se foloseşte pentru

    populaţii omogene

    Eşantionul este selectat, în acest caz, nealeator şievidenţiem:

    • Eşantionarea prin metoda itinerariilor 

  • 8/19/2019 curs statistica 2

    33/37

    Extragerea aleatoare a eşantionului

     – procedeul “Loto”

    Tipuri de selecţie:- cu revenire (vezi tragerea loto “Noroc”)

    - f ăr ă revenire (vezi tragerea loto 6 din 49)

    Număr eşantioane:Nn

    n

     N C 

    Metode de selecţie:

     – tabele cu numere aleatoare

     – mecanică sau sistematică

     – utilizând produse softwarede specialitate

  • 8/19/2019 curs statistica 2

    34/37

    Despre erorile ce apar în cazulcercetărilor statistice

    • Erorile de observare (de înregistrare)

    • Erorile de eşantionare

    - erori datorate dificultăţilor de vocabular (limbaj prea savant, folosireaunor cuvinte cu sens incert etc.)

    - erori datorate neînţelegerii corecte a întrebărilor (de exemplu: diferenţa între venit total şi venit salarial)

    - erori datorate solicitării memoriei

    - sistematice – apar în urma încălcării regulilor teoretice ale sondajelor 

    - întâmplătoare – specifice cercetărilor prin sondaj

    • Erorile datorate non-r ăspunsurilor 

    - erori datorate lipsei sincerităţii în furnizarea informaţiilor 

    - erori cauzate de anchetatori.

  • 8/19/2019 curs statistica 2

    35/37

    Erorile specifice cercetărilor selective

    α 

     xμ 

     xΔ

    1. Eroarea datorată inferenţei statistice probabiliste (Z)

    2. Eroarea medie de reprezentativitate ( ).

    •Mediile de selecţie se distribuie normal. Media mediilor deselecţie este chiar media populaţiei investigate.•Urmare a distribuţiei normale, în funcţie de nivelul de

    probabilitate stabilit, valoarea lui Z se culege din tabele.• Folosind programul Excel: =NORMSINV( )

    • volumul eşantionului

    Depinde de:

    • dispersia populaţiei investigate• tipul de selecţie folosit (cu revenire/ f ăr ă revenire)

    • metoda de eşantionare folosită (SAS, SS, cluster etc.)

    3. Eroarea limită sau maxim admisibilă  ( ) Z  x x   ⋅=Δ   μ  Întotdeanuna între cele trei tipuri de erori există relaţia:

  • 8/19/2019 curs statistica 2

    36/37

    Sondajul aleator simplu cu revenire

     Z  x x   ⋅=Δ   μ  x x   X  X  X    Δ+

  • 8/19/2019 curs statistica 2

    37/37

    Sondajul aleator simplu f ăr ă revenire

     Z  x x   ⋅=Δ   μ  x x   X  X  X    Δ+