St1 04 Stat Descr Indic Sint

Embed Size (px)

Citation preview

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    1/47

    Statistica descriptivIndicatori sintetici ai

    distribuiilor statistice

    M. Popa

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    2/47

    Statistica descriptiv - obiective

    Cum se prezint valorile unei distribuii? Ct de apropiate sunt unele de altele? Ct de diferite sunt unele de altele?

    Exist valori care reprezint ntreagadistribuie?

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    3/47

    Categorii de indicatori

    Indicatori ai tendinei centrale valori tipice, reprezentative, care descriu

    distribuia n ntregul ei

    Indicatori aimprtierii descriu caracteristica de mprtiere a

    valorilor distribuiei

    Indicatori ai formei distribuiei se refer la forma curbei de reprezentaregrafic a distribuiei

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    4/47

    Indicatori ai tendinei centrale

    modul mediana

    media

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    5/47

    Modul (Mo)

    Definiie: valoarea clasa de interval

    expresia ce mai direct a valorii tipice(reprezentative)

    se afl prin alctuirea tabelei de frecvene (simplesau grupate) i este valoarea (clasa) creia icorespunde frecvena absolut cea mai ridicat.

    distribuii unimodale (583254 Mo=5) distribuii bimodale (5832254 Mo=5; =2) distribuii multimodale (58832254 Mo=5; =2; =8)

    cu frecvena cea mai mare

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    6/47

    MEDIANA (Me)

    valoarea din mijlocul unei distribuii are 50% dintre valori deasupra ei i 50% dintre valori dedesubtul ei

    corespunde valorii de 50% pe coloana

    frc%. percentila?... decila?.... quartila?

    distribuie cu numr impar de valori Me este chiar valoarea respectiv.

    distribuie par Me se calculeaz ca medie a valorilor din

    mijlocul distribuiei

    5,8,3,2,5,4, 2,3,4,5,5,8 Me=4,5G. Fechner

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    7/47

    MEDIA ARITMETIC (m)

    Notaii uzuale: (miu) media populaiei m media eantionului

    Calcul pentru frecvene simple (583254)

    Calcul pentru frecvene grupate (55833332244)

    50,46

    26

    6

    452385

    N

    Xm

    90,311

    43

    22412

    2*42*24*31*82*5)*(

    f

    fXm

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    8/47

    Modul, Mediana i Media vizeazacelai lucru, tendina central

    i totuiN=151 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    60 45 22 20 16 16 16 15 14 14 14 12 12 12 12

    media=20

    X/N=300/15

    X=300

    mediana=15

    (N+1)/2=8

    modul=12

    (valoarea cea mai frecvent)

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    9/47

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    10/47

    Proprietile mediei aritmetice

    Adugarea\scderea unei constante la fiecarevaloare a distribuiei, mrete\scade media cuacea valoare

    nmulirea\mprirea fiecrei valori a distribuiei

    cu o constant, multiplic\divide media cu aceaconstant Suma abaterii valorilor de la medie este

    ntotdeauna egal cu zero

    Suma ptratului abaterilor de la medie va fintotdeauna mai mic dect suma ptratelorabaterilor n raport cu oricare alt punct aldistribuiei

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    11/47

    Proprietile mediei

    variabila constant + * abateri

    medie

    5 2 7 10 0,50

    8 2 10 16 3,503 2 5 6 -1,50

    2 2 4 4 -2,50

    5 2 7 10 0,50

    4 2 6 8 -0,50

    m=4.5 m=6.5 m=9 suma=0

    media=?

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    12/47

    Valori nedeterminate i clasedeschise

    Valorile nedeterminate valori a cror mrime nu decurge din procesul de

    msurare, n acelai mod n care rezult oricarevaloare a seriei

    Exemplu: testul de asociere verbal (10 sec)

    Clase (categorii) deschise categorii care au una dintre limite liber

    Exemplu: te igri fumezi zil ic? (30 sau maimult).

    n astfel de cazuri se utilizeaz mediana

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    13/47

    MODUL

    - Uor de calculat (nesemnificativ n prezent);- Poate fi utilizat pentru orice tip de scal;- Este singurul indicator pentru scale nominale;-

    - Corespunde unui scor real al distribuiei;

    MEDIANA

    - Poate fi utilizat pe scale ordinale i deinterval\raport;

    - Poate fi utilizat i pe distribuii de frecven cuclase deschise sau scoruri nedeterminate la

    marginile distribuiei;

    MEDIA

    - Reflect valorile ntregii distribuii;-Are multe proprieti statistice dezirabile;-Adecvat pentru utilizare n statistici avansate;

    Avantajele indicatorilor tendinei centrale

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    14/47

    MODUL

    -n general, nesigur, mai ales n cazul eantioanelor mici,cnd se poate modifica dramatic la o modificare minor a

    unei valori;- Poate fi greit interpretat. Se identific total cu un scoranume, fr a spune nimic despre celelalte valori;- Nu poate fi utilizat n statistici infereniale;

    MEDIANA

    - Poate s nu corespund unei valori reale (N par);- Nu reflect valorile distribuiei (un scor extrem se poatemodifica, fr a afecta Me);- Este mai puin sigur n extrapolarea de la eantion lapopulaie;-

    Greu de utilizat n statistici avansate

    MEDIA

    - De obicei nu corespunde unei valori reale;

    - Nu este tocmai adecvat pentru scale ordinale;- Conduce la interpretri greite pe distribuii asimetrice- Poate fi puternic afectat de scorurile extreme;

    Dezavantajele indicatorilor tendinei centrale

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    15/47

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    16/47

    Valori extreme (excesive) ale

    distribuiei valori excesive, neobinuit de mari sau de

    mici fa de celelalte valori ale uneidistribuii

    Identificare metoda grafic Box-and-Whisker-Plot(Box-

    Plot)

    autor Tukey

    Limita de sus poate urca pn la 133,5

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    17/47

    114

    101

    H=114-101=13

    Percentila 75 (114)

    Percentila 25 (101)

    Mediana

    (Q2)

    142 valoare extrem

    135 valoare extrem114+1.5x13=133.5

    101-1.5x13=81.5

    Limita de sus poate urca pn la 133,5Cea mai apropiat valoare este 125

    Limita de jos este 81.5

    Trasm la 86

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    18/47

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    19/47

    grupa

    10987654321

    Raspco

    recteexameniunie

    30

    25

    20

    15

    10

    5

    0

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    20/47

    Gender

    mf

    SUM

    (it_

    01toit_22)

    125

    100

    75

    50

    25

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    21/47

    Tratarea valorilor extreme Stabilirea naturii valorilor extreme:

    erori de nregistrare (tastare); erori de msurare; rezultate influenate de anomalii ale condiiilor

    experimentale.

    eantionul a fost extras dintr-o populaie asimetric valorile respective fac parte din alt populaie de

    valori

    eantion prea mic Tratarea lor pe una din cile posibile:

    eliminare (dac sunt erori necorectabile); corectare (dac este posibil); utilizarea mediei 5%tr im , transformare (extragerea radicalului din toate valorile

    distribuiei, logaritmarea distribuiei, etc.)

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    22/47

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    23/47

    Indicatori sintetici ai mprtierii

    msoar gradul de diversificare a valorilor

    m1=30 m2=40

    nainte

    dupa mprtierea

    scorului la un testde rezisten lastres, nainte idup un programde psihoterapie

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    24/47

    Tipuri de indicatori

    1. Amplitudinea absolut2. Amplitudinea relativ3. Abaterea quartil (cvartil, intercvartil)4. Abaterea semi-interquartil5. Abaterea medie

    6. Dispersia (variana)7. Abaterea standard

    8. Coeficientul de variaie

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    25/47

    Amplitudinea absolut (R)

    diferena dintre valoarea maxim ivaloarea minim a unei distribuii

    indic n mod absolut plaja de valori ntre

    care se ntinde distribuia. poate fi influenat de o singur valoare

    aflat la extremitatea distribuiei

    R=Xmax-Xmin=7-1=61,2,3,4,5,6,7

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    26/47

    Amplitudinea relativ (R%)

    raportul procentual dintre amplitudine imedie

    util cnd cunoatem plaja teoretic de

    variaie a valorilor

    100*%m

    RR %150100*

    46% R

    1,2,3,4,5,6,7

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    27/47

    Distribuia A are o amplitudinemai mare dar i o variabilitatemai mare dect distribuia B

    Amplitudinile distribuiilor Ai B sunt identice, dardistribuia A are mai multvariabilitate.

    Imprecizia amplitudinii

    Abaterea quartil (cvartil

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    28/47

    Abaterea quartil (cvartil,intercvartil) (RQ)

    diferena dintre quartila 3 i quartila 1 este distana dintre limita superioar i cea

    inferioar a casetei Box-Plot(valoarea H)

    13 QQR

    Q

    Abaterea semi-interquartil

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    29/47

    Abaterea semi-interquartil(RSQ)

    distana unui un scor tipic fa de amplitudineantregii distribuii

    este abaterea quartil mprit la 2

    ntr -o distribuie perfect simetric RSQ=Q2=Me RSQ nu este afectat de valorile aberante indicator robust al mprtierii

    2

    13 QQRSQ

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    30/47

    Abaterea medie (d)

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    31/47

    Abaterea medie (d)

    X Xim

    5 (54.5) = .5

    8 (84.5) = 3.5

    3 (34.5) = -1.5

    2 (2

    4.5) = -2.5

    5 (54.5) = .5

    4 (44.5) = -.5

    X = 27 (Xi-m) = 0

    N = 6

    m = 4.5

    abatereavalorii

    abatereamedie

    ntotdeauna d=0

    dar...

    5.1||

    N

    mXd

    i

    Dispersia

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    32/47

    Dispersia

    (variana, abaterea medie ptratic)

    Notaii uzuale: s2 (eantion)

    2

    (populaie) Se calculeaz ca sum a abaterilor de

    la medie ridicate la ptrat

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    33/47

    orecia i dicatorilor mprtierii

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    34/47

    calculai pe tru ea tioa e

    N

    mXs

    i

    2

    )(

    1

    )( 22

    N

    mXs

    i

    dispersia abaterea standard

    1

    )( 2

    N

    mXs

    i

    Abaterea standard nu este definit pentru (n-1), ci pentru n Dar... suma abaterilor de la medie este ntotdeauna 0 ... dac tim n-1 abateri, o cunoatem pe ultima ... doar primele n-1 abateri pot varia liber. ...(n-1) sunt definite ca grade de libertate

    Proprietile abaterii standard

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    35/47

    Proprietile abaterii standard

    1. Dac se adaug/scade o constant lafiecare valoare a unei distribuii, abatereastandard nu este afectat

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    36/47

    Proprietile abaterii standard

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    37/47

    Proprietile abaterii standard3.Abaterea standard

    fa de medie estemai mic dectabaterea standardfa de orice altvaloare a unei

    distribuii

    X (Xim) (X

    i5)2

    5 (54.5) = .5 (5-5)2=0

    8 (84.5) = 3.5 (8-5)2=9

    3 (34.5) = -1.5 (3-5)2=4

    2 (2

    4.5) = -2.5 (2-5)2=9

    5 (54.5) = .5 (5-5)2=0

    4 (44.5) = -.5 (4-5)2=1

    X = 27 (Xi-m) = 0 (X-5)2 =23N = 6

    m = 4.5

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    38/47

    Coeficientul de variaie (cv)

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    39/47

    Coeficientul de variaie (cv)

    abaterea medie i abaterea standard se exprim nunitile de msur ale variabilei de referin ca urmare, nu pot fi comparate n mod direct, pentru

    variabile diferite

    100*m

    scv

    cv poate fi calculat numai pe scale deraport (origine n 0)

    cv 30%, mprtierea este mare imedia are o reprezentativitate redus

    Alegerea indicatorului mprtierii

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    40/47

    Alegerea indicatorului mprtierii

    Abaterea standard este cea mai utilizat pentruscale de msurare interval/raport. Realizeazcea mai bun combinaie ntre calitatea estimriii posibilitatea de a fundamenta inferene

    statistice. Amplitudinea este un indicator nesigur i care

    nici nu poate fi calculat n cazul scalelornominale

    Pe distribuii cu valori nedeterminate sau cuintervale deschise, se alege abatereainterquartil (semi-interquartil).

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    41/47

    Indicatori ai formei distribuiei

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    42/47

    Indicatori ai formei distribuiei

    simetrie (skewness)simetric asimetric negativ asimetric pozitiv

    Skewness 0 negativ pozitiv

    Efectul asimetriei asupra mediei

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    43/47

    Efectul asimetriei asupra mediei

    3, 4, 5, 5, 6, 7 Modul: 5 Mediana: 5

    Media: 5 3, 4, 5, 5, 6, 7, 17

    Modul: 5 Mediana: 5 Media: 6.7

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    44/47

    Medie

    MedianaMod

    MedianMedie

    Mod Mod Medie

    Median

    Distribuie: simetric asimetric negativ asimetric pozitiv

    Indicatori ai formei distribuiei

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    45/47

    Indicatori ai formei distribuiei

    boltire (kurtosis)

    leptocurtica

    mezocurtica

    platicurtica

    Kurtosis pozitiv

    Kurtosis 0

    Kurtosis negativ

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    46/47

  • 8/12/2019 St1 04 Stat Descr Indic Sint

    47/47