47
Statistica descriptivă Indicatori sintetici ai distribuţiilor statistice M. Popa

St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Statistica descriptivăIndicatori sintetici ai

distribuţiilor statistice

M. Popa

Page 2: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Statistica descriptivă - obiective

• Cum se prezintă valorile unei distribuţii?– Cât de apropiate sunt unele de altele?– Cât de diferite sunt unele de altele?

• Există valori care reprezintă întreaga distribuţie?

Page 3: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Categorii de indicatori

• Indicatori ai tendinţei centrale– valori tipice, reprezentative, care descriu

distribuţia în întregul ei

• Indicatori ai împrăştierii– descriu caracteristica de împrăştiere a

valorilor distribuţiei

• Indicatori ai formei distribuţiei– se referă la forma curbei de reprezentare

grafică a distribuţiei

Page 4: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Indicatori ai tendinţei centrale

• modul• mediana• media

Page 5: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Modul (Mo)

• Definiţie:– valoarea – clasa de interval

• expresia ce mai directă a valorii tipice (reprezentative)

• se află prin alcătuirea tabelei de frecvenţe (simple sau grupate) şi este valoarea (clasa) căreia îi corespunde frecvenţa absolută cea mai ridicată.

• distribuţii unimodale (583254 Mo=5)

• distribuţii bimodale (5832254 Mo=5; =2)

• distribuţii multimodale (58832254 Mo=5; =2; =8)

cu frecvenţa cea mai mare

Page 6: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

MEDIANA (Me)• valoarea din mijlocul unei distribuţii

– are 50% dintre valori deasupra ei – şi 50% dintre valori dedesubtul ei

• corespunde valorii de 50% pe coloana frc%. – percentila?... decila?.... quartila?

• distribuţie cu număr impar de valori – Me este chiar valoarea respectivă.

• distribuţie pară– Me se calculează ca medie a valorilor din

mijlocul distribuţiei

• 5,8,3,2,5,4, → 2,3,4,5,5,8 → Me=4,5G. Fechner

Page 7: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

MEDIA ARITMETICĂ (m)

• Notaţii uzuale: – µ (miu) → media populaţiei– m → media unui eşantion

• Calcul frecvenţe simple (583254)

• Calcul frecvenţe grupate (55833332244)

50,46

26

6

452385==

+++++==

∑N

Xm

90,311

43

22412

2*42*24*31*82*5)*(==

++++

++++==

∑∑

f

fXm

Page 8: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Modul, Mediana și Media vizează același lucru, tendința centrală;

;și totuși;

N=151 2 3 4 5 6 7 8 9 10 11 12 13 14 15

60 45 22 20 16 16 16 15 14 14 14 12 12 12 12

media=20 ΣX/N=300/15

ΣX=300

mediana=15 (N+1)/2=8

modul=12(valoarea cea mai frecventă)

Page 9: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul
Page 10: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Proprietăţile mediei aritmetice

• Adăugarea\scăderea unei constante la fiecare valoare a distribuţiei, măreşte\scade media cu acea valoare

• Înmulţirea\împărţirea fiecărei valori a distribuţiei cu o constantă, multiplică\divide media cu acea constantă

• Suma abaterii valorilor de la medie este întotdeauna egală cu zero

• Suma pătratului abaterilor de la medie va fi întotdeauna mai mică decât suma pătratelor abaterilor în raport cu oricare alt punct al distribuţiei

Page 11: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Proprietățile mediei

variabila constantă plus produsabateri

medie

5 2 7 10 0,50

8 2 10 16 3,50

3 2 5 6 -1,50

2 2 4 4 -2,50

5 2 7 10 0,50

4 2 6 8 -0,50

m=4.5 m=6.5 m=9suma=0

media=?

Page 12: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Valori nedeterminate şi clase deschise

• Valorile „nedeterminate” – valori a căror mărime nu decurge din procesul de

măsurare, în acelaşi mod în care rezultă oricare valoare a seriei

– Exemplu: testul de asociere verbală (10 sec)

• Clase (categorii) deschise– categorii care au una dintre limite „liberă”– Exemplu: Câte ţigări fumezi zilnic? („30 sau mai

mult”).

• În astfel de cazuri se utilizează mediana

Page 13: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

MODUL

- Uşor de calculat (nesemnificativ în prezent);- Poate fi utilizat pentru orice tip de scală;- Este singurul indicator pentru scale nominale;-- Corespunde unui scor real al distribuţiei;

MEDIANA

- Poate fi utilizată pe scale ordinale şi de interval\raport;- Poate fi utilizată şi pe distribuţii de frecvenţă cu clase deschise sau scoruri nedeterminate la marginile distribuţiei;

MEDIA

- Reflectă valorile întregii distribuţii;- Are multe proprietăţi statistice dezirabile;- Adecvată pentru utilizare în statistici avansate;

Avantajele indicatorilor tendinţei centrale

Page 14: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

MODUL

- În general, nesigur, mai ales în cazul eşantioanelor mici, când se poate modifica dramatic la o modificare minoră a unei valori;- Poate fi greşit interpretat. Se identifică total cu un scor anume, fără a spune nimic despre celelalte valori; - Nu poate fi utilizat în statistici inferenţiale;

MEDIANA

- Poate să nu corespundă unei valori reale (N par);- Nu reflectă valorile distribuţiei (un scor extrem se poate modifica, fără a afecta Me);- Este mai puţin sigură în extrapolarea de la eşantion la populaţie; - Greu de utilizat în statistici avansate

MEDIA

- De obicei nu corespunde unei valori reale;- Nu este tocmai adecvată pentru scale ordinale;- Conduce la interpretări greşite pe distribuţii asimetrice- Poate fi puternic afectată de scorurile extreme;

Dezavantajele indicatorilor tendinţei centrale

Page 15: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul
Page 16: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Valori extreme (excesive) ale distribuţiei

• valori excesive, neobişnuit de mari sau de mici faţă de celelalte valori ale unei distribuţii

• Identificare– metoda grafică Box-and-Whisker-Plot (Box-

Plot)– autor Tukey

Page 17: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

114

101

H=114-101=13

Percentila 75 (114)

Percentila 25 (101)

Mediana(Q2)

142 valoare extremă

135 valoare extremă114+1.5x13=133.5

101-1.5x13=81.5

Limita de sus poate urca până la 133,5Cea mai apropiată valoare este 125

Limita de jos este 81.5Trasăm la 86

Page 18: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul
Page 19: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

grupa10987654321

Ras

p co

rect

e ex

amen

iuni

e30

25

20

15

10

5

0

Page 20: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Gendermf

SU

M (

it_0

1 to

it_

22)

125

100

75

50

25

Page 21: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Tratarea valorilor extreme• Stabilirea naturii valorilor extreme:

– erori de înregistrare (tastare); – erori de măsurare; – rezultate influenţate de anomalii ale condiţiilor

experimentale.– eşantionul a fost extras dintr-o populaţie asimetrică– valorile respective fac parte din altă populaţie de

valori– eşantion prea mic

• Tratarea lor pe una din căile posibile: – eliminare (dacă sunt erori necorectabile); – corectare (dacă este posibil);– utilizarea mediei 5%trim,

– transformare (extragerea radicalului din toate valorile distribuţiei, logaritmarea distribuţiei, etc.)

Page 22: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul
Page 23: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Indicatori sintetici ai împrăştierii

• măsoară gradul de diversificare a valorilor

m1=30 m2=40

înainte

dupa• împrăştierea scorului la un test de rezistenţă la stres, înainte şi după un program de psihoterapie

Page 24: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Tipuri de indicatori

1. Amplitudinea absolută 2. Amplitudinea relativă3. Abaterea quartilă (cvartilă, intercvartilă) 4. Abaterea semi-interquartilă 5. Abaterea medie 6. Dispersia (varianţa)7. Abaterea standard8. Coeficientul de variaţie

Page 25: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Amplitudinea absolută (R)

• diferenţa dintre valoarea maximă şi valoarea minimă a unei distribuţii

• indică în mod absolut plaja de valori între care se întinde distribuţia.

• poate fi influenţată de o singură valoare aflată la extremitatea distribuţiei

R=Xmax-Xmin=7-1=61,2,3,4,5,6,7

Page 26: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Amplitudinea relativă (R%)

• raportul procentual dintre amplitudine şi medie

• utilă când cunoaştem plaja teoretică de variaţie a valorilor

100*%m

RR = %150100*

4

6% ==R

1,2,3,4,5,6,7

Page 27: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Distribuţia A are o amplitudine mai mare dar şi o variabilitate mai mare decât distribuţia B

Amplitudinile distribuţiilor A şi B sunt identice, dar distribuţia A are mai multă variabilitate.

Imprecizia amplitudinii

Page 28: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Abaterea quartilă (cvartilă, intercvartilă) (RQ)

• diferenţa dintre quartila 3 şi quartila 1 • este distanţa dintre limita superioară şi cea

inferioară a casetei Box-Plot (valoarea H)

13 QQRQ −=

Page 29: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Abaterea semi-interquartilă (RSQ)

• distanţa unui un scor „tipic” faţă de amplitudinea întregii distribuţii

• este abaterea quartilă împărţită la 2• într-o distribuţie perfect simetrică RSQ=Q2=Me • RSQ nu este afectată de valorile aberante

– indicator „robust” al împrăştierii

2

13 QQRSQ

−=

Page 30: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul
Page 31: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Abaterea medie (d)

X Xi – m

5 (5 – 4.5) = .5

8 (8 – 4.5) = 3.5

3 (3 – 4.5) = -1.5

2 (2 – 4.5) = -2.5

5 (5 – 4.5) = .5

4 (4 – 4.5) = -.5

ΣX = 27 Σ(Xi-m) = 0

N = 6

m = 4.5

abaterea valorii

abaterea medie

Întotdeauna d=0

dar...

5.1||=

−=∑

N

mXd

i

Page 32: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Dispersia (varianţa, abaterea medie pătratică)

• Notaţii uzuale: – s2 (eşantion)– σ2 (populaţie)

• Se calculează ca sumă a abaterilor de la medie ridicate la pătrat

Page 33: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

X (Xi – m) (Xi – m) 2

5 (5 – 4.5) = .5 .25

8 (8 – 4.5) = 3.5 12.25

3 (3 – 4.5) = -1.5 2.25

2 (2 – 4.5) = -2.5 6.25

5 (5 – 4.5) = .5 .25

4 (4 – 4.5) = -.5 .25

ΣX =

27

Σ(Xi-m) = 0 Σ(X-m)2 =

21.5

N = 6

m = 4.5

Dispersia (varianţa) s2 (eşantion) σ2 (populaţie)

N

mXs

i∑ −=

2

2)(

58.36

5,212 ==s

Page 34: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Abaterea standards (eşantion); σ (populaţie), SD (APA); ab.std.

• se calculează prin extragerea radicalului din expresia dispersiei N

mXs

i∑ −=

2)(

89,16

5,21==s

Page 35: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Corecţia indicatorilor împrăştierii

calculaţi pentru eşantioane

N

mXs

i∑ −=

2

2)(

N

mXs

i∑ −=

2)(

1

)( 2

2

−=∑

N

mXs

i

dispersia abaterea standard

1

)( 2

−=∑

N

mXs

i

� Abaterea standard nu este definită pentru (n-1), ci pentru “n”� Dar... suma abaterilor de la medie este întotdeauna 0� ... dacă ştim n-1 abateri, o cunoaştem pe ultima� ... doar primele n-1 abateri pot varia “liber”.� ...(n-1) sunt definite ca “grade de libertate”

Page 36: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Proprietăţile abaterii standard

1. Dacă se adaugă/scade o constantă la fiecare valoare a unei distribuţii, abaterea standard nu este afectată

Page 37: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Proprietăţile abaterii standard

2. Dacă se multiplică/divide fiecare valoare a unei distribuţii cu o constantă, abaterea standard se multiplică/divide cu acea constantă

Page 38: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Proprietăţile abaterii standard3. Abaterea standard

faţă de medie este mai mică decât abaterea standard faţă de orice altă valoare a unei distribuţii

X (Xi – m) (Xi – 5)2

5 (5 – 4.5) = .5 (5-5)2=0

8 (8 – 4.5) = 3.5 (8-5)2=9

3 (3 – 4.5) = -1.5 (3-5)2=4

2 (2 – 4.5) = -2.5 (2-5)2=9

5 (5 – 4.5) = .5 (5-5)2=0

4 (4 – 4.5) = -.5 (4-5)2=1

ΣX = 27 Σ(Xi-m) = 0 ΣΣΣΣ(X-5)2 =23

N = 6

m = 4.5

Page 39: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul
Page 40: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Coeficientul de variaţie (cv)• abaterea medie şi abaterea standard se exprimă în

unităţile de măsură ale variabilei de referinţă • ca urmare, nu pot fi comparate în mod direct, pentru

variabile diferite

100*m

scv =

� cv poate fi calculat numai pe scale de raport (origine în 0)

� cv<15%, împrăştierea este mică şi, deci, media este reprezentativă

� cv este între 15%-30%, împrăştierea este mijlocie şi media este suficient de reprezentativă

� cv > 30%, împrăştierea este mare şi media are o reprezentativitate redusă

Page 41: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Alegerea indicatorului împrăştierii

• Abaterea standard este cea mai utilizată pentru scale de măsurare interval/raport. Realizează cea mai bună combinaţie între calitatea estimării şi posibilitatea de a fundamenta inferenţe statistice.

• Amplitudinea este un indicator nesigur şi care nici nu poate fi calculat în cazul scalelor nominale

• Pe distribuţii cu valori nedeterminate sau cu intervale deschise, se alege abaterea interquartilă (semi-interquartilă).

Page 42: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul
Page 43: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Indicatori ai formei distribuţiei

• simetrie (skewness)simetrică asimetrică negativ asimetrică pozitiv

Skewness 0 negativ pozitiv

Page 44: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Efectul asimetriei asupra mediei

• 3, 4, 5, 5, 6, 7– Modul: 5– Mediana: 5– Media: 5

• 3, 4, 5, 5, 6, 7, 17– Modul: 5– Mediana: 5– Media: 6.7

Page 45: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

MedieMediana

Mod

Mediană Medie

Mod Mod MedieMediană

Distribuţie: simetrică asimetrică negativ asimetrică pozitiv

Page 46: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

Indicatori ai formei distribuţiei

• boltire (kurtosis)

leptocurtica

mezocurtica

platicurtica

Kurtosis pozitiv

Kurtosis 0

Kurtosis negativ

Page 47: St1 04 Stat descr indic sint.ppt - WordPress.com · Categorii de indicatori • Indicatori ai tendinţei centrale –valori tipice, reprezentative, care descriu distribuţia în întregul

La revedere, pe săptămâna viitoare;