Curs2 3 4 Serii Univariate 2016

Embed Size (px)

Citation preview

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    1/33

     

    - anul universitar 2015-2016-

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    2/33

    Programa analitică

    1.   Noţiuni introductive2.   Analiza unei serii statistice unidimensionale, folosind

    metode grafice   şi numerice (variabile numerice sau,

    dispersiei   şi indicatori ai formei;   variabile nenumericesau calitative).

    3.   Analiza unei serii statistice bidimensionale.

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    3/33

    Programa analitică5.   Probabilităţi şi distribuţii teoretice6.   Estimarea parametrilor unei populaţii7.   Testarea statistică8.   Indicatori ai seriilor de timp.

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    4/33

    2. Analiza unei serii statisticeunidimensionale

    2.1. Variabile cantitative

    A.   Variabilă discretă

     A.1. Prezentarea seriei (distribu ţ iei) statistice

    -   seria simplă X:(xi), cu i=1,m , când n1=n2= … =ni.

    -   seria cu frecvenţe diferite X : , când ni≠n j.

     X : , cu f  i=ni /n.

     

     

     

     

    i

    i

    n

     x

     

      

     

    i

    i

     f 

     x

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    5/33

    • Frecven ţ e absolute cumulate crescător (N i )sau descrescător (N i )

    - exprimă num

    ărul de unit 

    ăţ i statistice cumulate “pân

    ă

     la”sau “peste” nivelul considerat al caracteristicii, adicăvalori ≤ xi, respectiv ≥ xi.

    ∑=

    −   =+↓↓=i

    h

    hiii   nn N  N 1

    1

    ∑=

    +   =+↑↑=m

    ih

    hiii   nn N  N  1

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    6/33

    • Frecven ţ e relative cumulate crescător (F i   )

    sau descrescător (F i   )

    - exprimă   ponderea unit ăţ ilor statistice   cumulate “pânăla” sau “peste” nivelul considerat al caracteristicii, adicăvalori ≤ xi, respectiv ≥ xi.

    ∑=

    −   =+↓↓=i

    h

    hiii   f  f F F 1

    1

    ∑=

    +   =+↑↑=m

    ih

    hiii   f  f F F  1

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    7/33

     A.2. Analiza seriei folosind metode numerice

    Presupune calculul indicatorilor statisticii descriptive,cunoscuţi   şi sub denumirea de caracteristici numerice aleunei distribuţii.

    A.2.1. Indicatori ai tendinţei centrale (mărimi medii)

    a. Definire:

    -   mediile sunt acele valori în jurul cărora se repartizeazăunităţile unei populaţii.

    -   cele mai importante mărimi medii sunt media aritmetică,modul şi mediana.

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    8/33

     A.2. Analiza seriei folosind metode numerice

    b. Media aritmetică   ( )

    -   Media aritmetică  este valoarea pe care am observa-o dacăunităţile statistice ar înregistra aceleaşi valori ale variabilei(dacă   nu ar exista variaţii ale valorilor înregistrate de

     x

    unităţile statistice).

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    9/33

    Mod de calcul în cazul seriilor simple   şi seriilor cu frecvenţediferite (variabilă discretă).

      Media simplă:

      Media ponderată.n

     x

     x   ii∑

    =

    sau

    Observa ţ ie:Media aritmetică este sensibilă la prezenţa valorilor extreme(outliers).

    ⋅∑=

    ii

    ii

    i

    n

    n x

     x   ii

    i   f  x x   ⋅∑=

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    10/33

    Cele mai importante proprietăţi ale mediei aritmetice:

    1. Media unei distribuţii este o valoare internă:xmin≤  ≤xmax. x

    2. Media este o mărime normală: suma abaterilor valorilorindividuale ale unei variabile X  de la media lor este egală cuzero.

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    11/33

    c. Modul (Mo)

      este valoarea variabilei cea mai frecvent observată   într-odistribuţie, adică   valoarea xi   care corespunde frecvenţeimaxime (nimax).

    Observa ie:

      modul poate fi aflat doar în cazul seriilor cu frecvenţediferite.   o distribuţie poate avea una, două   sau mai multe valori

    modale (serii unimodale, bimodale sau plurimodale).

     Interpretare:   Cele mai multe unităţi înregistrează   valoareamodală.

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    12/33

    d. Mediana (Me)

    -   este acea valoare a variabilei unei serii ordonate, crescător saudescrescător, până   la care   şi peste care sunt distribuite înnumăr egal unităţile colectivităţii: jumătate din unităţi (50%)

    au valori mai mici decât mediana, iar jumătate (50%) au valorimai mari decât mediana.

    -   corespunde locului unităţii mediane calculate astfel:

    2

    1nU  Me   +=

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    13/33

    Aflarea medianei se face diferit în funcţie de tipul seriei:

    1. Serii simple:

    -   număr impar de termeni.-   număr par de termeni.

    2. Serii cu frecven ţ e diferite

    -   se calculează unitatea mediană (U  Me).-   se calculează -   se află prima valoare

    -   valoarea xi corespunzătoare acesteia este Me.

    Observa ţ ie:

    mediana nu este influenţată de valorile extreme.

    ↓i N  Me

    i   U  N   ↓≥

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    14/33

     f. Quartilele

    -   sunt valori ale variabilei care împart volumul eşantionului în 4 părţiegale.

    -   reprezentare grafică şi mod de calcul ( Q1 , Q2 , Q3).

    g. Decile

    -   sunt valori ale variabilei care împart volumul eşantionului în 10 părţiegale.

    -   decila unu (D1) şi decila 9 (D

    9).

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    15/33

    A.2.2. Indicatori ai dispersiei (variaţiei)

    Definire:

    -   dispersia exprimă  gradul de variaţie a valorilor individualeale unei variabile faţă de nivelul mediu.

    -   a recierea fenomenului de dis ersie al unei distribu ii

    permite identificarea gradului de reprezentativitate a medieiunei distribuţii.

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    16/33

    Indicatori sintetici ai dispersiei:

    1. Abaterea medie liniară

     ∑   ⋅−

    =i

    i

    i   n x x

    d  x x

    d    ii∑   −

    = ,

      arată cu cât variază, în medie, valorile xi ale variabilei faţăde nivelul mediu al distribuţiei, în sens pozitiv şi negativ.

    i

    in

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    17/33

    2. Varianţa

    , respectiv   ∑∑   ⋅−

    =

    i

    i

    i

    i

    i

    n

    n x x

    s

    2

    2

    )(

    n

     x x

    s   ii∑   −

    =

    2

    2

    )(

    Varianţa este întotdeauna pozitivă, nu are unitate demăsură şi nu se interpretează.

    Prin ridicarea la pătrat a abaterilor valorilor xi faţă

    de medie creşte “influenţa” valorilor extremeasupra nivelului varianţei.

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    18/33

    3. Abaterea standard (s)   arată cu cât variază, în medie, valorile xi ale variabilei faţă

    de nivelul mediu al distribuţiei, în sens pozitiv şi negativ.   se calculează ca radical din varianţă.

      se exprimă în aceeaşi unitate de măsură cu cea a variabilei.

    ,

    )(  2

    n

     x x

    s   ii∑   −

    =

    ∑   ⋅−=

    i

    i

    i

    i

    i

    n

    n x x

    s

    2)(

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    19/33

    4. Coeficientul de variaţie (v)

      se exprimă în procente.

    100s

    v   ⋅=

      valori ridicate ale acestui coeficient (v>50%) arată   odistribuţie eterogenă, care se caracterizează   printr-ovariaţie mare a valorilor xi faţă de nivelul mediu şi o medienereprezentativă.

      este sensibil faţă de valoarea mediei: cu cât media este maiapropiată de zero, cu atât coeficientul de variaţie este maidificil de folosit (tinde spre infinit).

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    20/33

    5. Intervalul interquartilic

     I Q=Q3-Q1.- cuprinde 50% din volumul eşantionului.

      În mod sintetic, cele mai importante caracteristici numericeale unei distribuţii pot fi “cuplate” astfel:

      media - abaterea standard - coeficientul de variaţie;

      mediana - intervalul interquartilic.

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    21/33

    A.2.3. Indicatori ai formei

    1.   Asimetria:

    - reprezintă o deviere de la forma simetrică a unei distribuţii.

     

    -   pe cale grafică: curba frecvenţelor, diagrama box-plot.-   pe cale numerică: - prin calculul indicatorilor de asimetrie

    (Skewness).

    Coeficientul de asimetrie Fisher: , cu33

    1s

    γ    =n

     x xi

    i

    3

    3

    )(∑   −= µ 

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    22/33

     Rela ţ ii între cele trei mărimi medii

    Arată forma unei distribuţii:

    1.   Când distribuţia este simetrică. Me Mo x   ==

    2.   Când distribuţia este asimetrică ladreapta (asimetrie pozitivă).

    3.   Când distribuţia este asimetrică   la

    stânga (asimetrie negativă).

     Mo Me x   >>

     Mo Me x  

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    23/33

    2. Boltirea

    -   este definită   prin compararea distribuţiei empirice cudistribuţia normală   din punctul de vedere al variaţieivariabilei X   i a frecven ei n .

    Boltirea poate fi apreciată:–   pe cale grafică: curba frecvenţelor.

    -   numeric: prin calculul indicatorilor boltirii (kurtosis).

    Coeficientul de boltire Fisher :

    , cu33 44

    2

    2

    4

    2   −=−=s µ 

     µ γ  

    n

     x xi

    i

    4

    4

    )(∑   −= µ 

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    24/33

     A.3. Analiza seriei folosind metode grafice

    a.   Poligonul frecven ţ elor:

    -   construirea acestuia presupune găsirea locului geometric alpunctelor Ai   de coordonate ( xi ,ni) sau ( xi ,f i)   şi unireaacestora prin segmente de dreaptă.

    -   aprox meaz orma une s r u .b.   Histogramac. Curba frecven ţ elor 

    -   presupune ajustarea printr-o linie curbă, continuă   a

    histogramei.-   aproximează mai bine forma de distribuţie a colectivităţii

    după variabila considerată, comparativ cu histograma.

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    25/33

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    26/33

    d. Reprezentarea diagramei “box-plot” sau “box-and-whiskers”

      Forma diagramei ( D1 , Q1 , Q2 , Q3, D9);

    - permite aprecierea nivelului mediu ( Me), dispersiei   şiasimetriei unei distribuţiei;

    - facilitează   compararea mai multor distribuţii (prin

    reprezentarea simultană a diagramelor).

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    27/33

     Diagrama box-plot 

    Analysis weighted by NRSTUD

    NOTA

    11109876543

    1

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    28/33

      identificarea valorilor extreme şi analiza influenţei lor asupra

    rezultatelor statistice (diagrama box-plot).

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    29/33

    Indicatorii statisticii descriptive în Excel

    Column1

    Mean 8.6Standard Error 0.347735

    Median 8

    Mode 10

    Standard Deviation 1.904622Sample Variance 3.627586

    Kurtosis -0.14315

    Skewness -0.40554

    Range 8Minimum 4

    Maximum 12

    Sum 258

    Count 30

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    30/33

    B. Variabilă continuă B.1. Prezentarea seriei statistice

    -   gruparea unităţilor statistice este realizată   pe intervale devariaţie.

    Observa ie:

    -   Gruparea pe intervale de variaţie duce la pierderea unei părţia informaţiei iniţiale.

     B.2. Prelucrarea seriei statistice folosind metode graficea. Histograma

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    31/33

    b. Poligonul frecvenţelor

    c. Curba frecvenţelor

     . .

    - se calculează   în mod identic, prin “discretizarea” variabilei(calculul mijlocului intervalelor de variaţie).

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    32/33

    2. Analiza unei serii univariate

    2.2. Variabilă calitativă

    I. Tipuri de variabile

     A. Varia ile nominaleB. Variabile ordinale

  • 8/17/2019 Curs2 3 4 Serii Univariate 2016

    33/33

    II. Indicatori specifici si reprezentare grafică

    a) Variabile nominale:

    • Pentru a reprezenta structura pe categorii la nivelul unuieşantion se calculează frecvenţe relative.• Reprezentarea frecvenţelor pentru un eşantion se realizează

    folosind diagramele: Bar Chart  sau Pie Chart ..

    b) Variabile ordinale:• Reprezentarea frecvenţelor pentru un eşantion se realizează

    folosind diagramele: Bar Chart  sau Pie Chart .• Frecvenţe absolute şi relative.• Indicatori specifici: modul şi quartilele.