View
0
Download
0
Category
Preview:
Citation preview
Statistica descriptivăIndicatori sintetici ai
distribuţiilor statistice
M. Popa
Statistica descriptivă - obiective
• Cum se prezintă valorile unei distribuţii?– Cât de apropiate sunt unele de altele?– Cât de diferite sunt unele de altele?
• Există valori care reprezintă întreaga distribuţie?
Categorii de indicatori
• Indicatori ai tendinţei centrale– valori tipice, reprezentative, care descriu
distribuţia în întregul ei
• Indicatori ai împrăştierii– descriu caracteristica de împrăştiere a
valorilor distribuţiei
• Indicatori ai formei distribuţiei– se referă la forma curbei de reprezentare
grafică a distribuţiei
Indicatori ai tendinţei centrale
• modul• mediana• media
Modul (Mo)
• Definiţie:– valoarea – clasa de interval
• expresia ce mai directă a valorii tipice (reprezentative)
• se află prin alcătuirea tabelei de frecvenţe (simple sau grupate) şi este valoarea (clasa) căreia îi corespunde frecvenţa absolută cea mai ridicată.
• distribuţii unimodale (583254 Mo=5)
• distribuţii bimodale (5832254 Mo=5; =2)
• distribuţii multimodale (58832254 Mo=5; =2; =8)
cu frecvenţa cea mai mare
MEDIANA (Me)• valoarea din mijlocul unei distribuţii
– are 50% dintre valori deasupra ei – şi 50% dintre valori dedesubtul ei
• corespunde valorii de 50% pe coloana frc%. – percentila?... decila?.... quartila?
• distribuţie cu număr impar de valori – Me este chiar valoarea respectivă.
• distribuţie pară– Me se calculează ca medie a valorilor din
mijlocul distribuţiei
• 5,8,3,2,5,4, → 2,3,4,5,5,8 → Me=4,5G. Fechner
MEDIA ARITMETICĂ (m)
• Notaţii uzuale: – µ (miu) → media populaţiei– m → media unui eşantion
• Calcul frecvenţe simple (583254)
• Calcul frecvenţe grupate (55833332244)
50,46
26
6
452385==
+++++==
∑N
Xm
90,311
43
22412
2*42*24*31*82*5)*(==
++++
++++==
∑∑
f
fXm
Modul, Mediana și Media vizează același lucru, tendința centrală;
;și totuși;
N=151 2 3 4 5 6 7 8 9 10 11 12 13 14 15
60 45 22 20 16 16 16 15 14 14 14 12 12 12 12
media=20 ΣX/N=300/15
ΣX=300
mediana=15 (N+1)/2=8
modul=12(valoarea cea mai frecventă)
Proprietăţile mediei aritmetice
• Adăugarea\scăderea unei constante la fiecare valoare a distribuţiei, măreşte\scade media cu acea valoare
• Înmulţirea\împărţirea fiecărei valori a distribuţiei cu o constantă, multiplică\divide media cu acea constantă
• Suma abaterii valorilor de la medie este întotdeauna egală cu zero
• Suma pătratului abaterilor de la medie va fi întotdeauna mai mică decât suma pătratelor abaterilor în raport cu oricare alt punct al distribuţiei
Proprietățile mediei
variabila constantă plus produsabateri
medie
5 2 7 10 0,50
8 2 10 16 3,50
3 2 5 6 -1,50
2 2 4 4 -2,50
5 2 7 10 0,50
4 2 6 8 -0,50
m=4.5 m=6.5 m=9suma=0
media=?
Valori nedeterminate şi clase deschise
• Valorile „nedeterminate” – valori a căror mărime nu decurge din procesul de
măsurare, în acelaşi mod în care rezultă oricare valoare a seriei
– Exemplu: testul de asociere verbală (10 sec)
• Clase (categorii) deschise– categorii care au una dintre limite „liberă”– Exemplu: Câte ţigări fumezi zilnic? („30 sau mai
mult”).
• În astfel de cazuri se utilizează mediana
MODUL
- Uşor de calculat (nesemnificativ în prezent);- Poate fi utilizat pentru orice tip de scală;- Este singurul indicator pentru scale nominale;-- Corespunde unui scor real al distribuţiei;
MEDIANA
- Poate fi utilizată pe scale ordinale şi de interval\raport;- Poate fi utilizată şi pe distribuţii de frecvenţă cu clase deschise sau scoruri nedeterminate la marginile distribuţiei;
MEDIA
- Reflectă valorile întregii distribuţii;- Are multe proprietăţi statistice dezirabile;- Adecvată pentru utilizare în statistici avansate;
Avantajele indicatorilor tendinţei centrale
MODUL
- În general, nesigur, mai ales în cazul eşantioanelor mici, când se poate modifica dramatic la o modificare minoră a unei valori;- Poate fi greşit interpretat. Se identifică total cu un scor anume, fără a spune nimic despre celelalte valori; - Nu poate fi utilizat în statistici inferenţiale;
MEDIANA
- Poate să nu corespundă unei valori reale (N par);- Nu reflectă valorile distribuţiei (un scor extrem se poate modifica, fără a afecta Me);- Este mai puţin sigură în extrapolarea de la eşantion la populaţie; - Greu de utilizat în statistici avansate
MEDIA
- De obicei nu corespunde unei valori reale;- Nu este tocmai adecvată pentru scale ordinale;- Conduce la interpretări greşite pe distribuţii asimetrice- Poate fi puternic afectată de scorurile extreme;
Dezavantajele indicatorilor tendinţei centrale
Valori extreme (excesive) ale distribuţiei
• valori excesive, neobişnuit de mari sau de mici faţă de celelalte valori ale unei distribuţii
• Identificare– metoda grafică Box-and-Whisker-Plot (Box-
Plot)– autor Tukey
114
101
H=114-101=13
Percentila 75 (114)
Percentila 25 (101)
Mediana(Q2)
142 valoare extremă
135 valoare extremă114+1.5x13=133.5
101-1.5x13=81.5
Limita de sus poate urca până la 133,5Cea mai apropiată valoare este 125
Limita de jos este 81.5Trasăm la 86
grupa10987654321
Ras
p co
rect
e ex
amen
iuni
e30
25
20
15
10
5
0
Gendermf
SU
M (
it_0
1 to
it_
22)
125
100
75
50
25
Tratarea valorilor extreme• Stabilirea naturii valorilor extreme:
– erori de înregistrare (tastare); – erori de măsurare; – rezultate influenţate de anomalii ale condiţiilor
experimentale.– eşantionul a fost extras dintr-o populaţie asimetrică– valorile respective fac parte din altă populaţie de
valori– eşantion prea mic
• Tratarea lor pe una din căile posibile: – eliminare (dacă sunt erori necorectabile); – corectare (dacă este posibil);– utilizarea mediei 5%trim,
– transformare (extragerea radicalului din toate valorile distribuţiei, logaritmarea distribuţiei, etc.)
Indicatori sintetici ai împrăştierii
• măsoară gradul de diversificare a valorilor
m1=30 m2=40
înainte
dupa• împrăştierea scorului la un test de rezistenţă la stres, înainte şi după un program de psihoterapie
Tipuri de indicatori
1. Amplitudinea absolută 2. Amplitudinea relativă3. Abaterea quartilă (cvartilă, intercvartilă) 4. Abaterea semi-interquartilă 5. Abaterea medie 6. Dispersia (varianţa)7. Abaterea standard8. Coeficientul de variaţie
Amplitudinea absolută (R)
• diferenţa dintre valoarea maximă şi valoarea minimă a unei distribuţii
• indică în mod absolut plaja de valori între care se întinde distribuţia.
• poate fi influenţată de o singură valoare aflată la extremitatea distribuţiei
R=Xmax-Xmin=7-1=61,2,3,4,5,6,7
Amplitudinea relativă (R%)
• raportul procentual dintre amplitudine şi medie
• utilă când cunoaştem plaja teoretică de variaţie a valorilor
100*%m
RR = %150100*
4
6% ==R
1,2,3,4,5,6,7
Distribuţia A are o amplitudine mai mare dar şi o variabilitate mai mare decât distribuţia B
Amplitudinile distribuţiilor A şi B sunt identice, dar distribuţia A are mai multă variabilitate.
Imprecizia amplitudinii
Abaterea quartilă (cvartilă, intercvartilă) (RQ)
• diferenţa dintre quartila 3 şi quartila 1 • este distanţa dintre limita superioară şi cea
inferioară a casetei Box-Plot (valoarea H)
13 QQRQ −=
Abaterea semi-interquartilă (RSQ)
• distanţa unui un scor „tipic” faţă de amplitudinea întregii distribuţii
• este abaterea quartilă împărţită la 2• într-o distribuţie perfect simetrică RSQ=Q2=Me • RSQ nu este afectată de valorile aberante
– indicator „robust” al împrăştierii
2
13 QQRSQ
−=
Abaterea medie (d)
X Xi – m
5 (5 – 4.5) = .5
8 (8 – 4.5) = 3.5
3 (3 – 4.5) = -1.5
2 (2 – 4.5) = -2.5
5 (5 – 4.5) = .5
4 (4 – 4.5) = -.5
ΣX = 27 Σ(Xi-m) = 0
N = 6
m = 4.5
abaterea valorii
abaterea medie
Întotdeauna d=0
dar...
5.1||=
−=∑
N
mXd
i
Dispersia (varianţa, abaterea medie pătratică)
• Notaţii uzuale: – s2 (eşantion)– σ2 (populaţie)
• Se calculează ca sumă a abaterilor de la medie ridicate la pătrat
X (Xi – m) (Xi – m) 2
5 (5 – 4.5) = .5 .25
8 (8 – 4.5) = 3.5 12.25
3 (3 – 4.5) = -1.5 2.25
2 (2 – 4.5) = -2.5 6.25
5 (5 – 4.5) = .5 .25
4 (4 – 4.5) = -.5 .25
ΣX =
27
Σ(Xi-m) = 0 Σ(X-m)2 =
21.5
N = 6
m = 4.5
Dispersia (varianţa) s2 (eşantion) σ2 (populaţie)
N
mXs
i∑ −=
2
2)(
58.36
5,212 ==s
Abaterea standards (eşantion); σ (populaţie), SD (APA); ab.std.
• se calculează prin extragerea radicalului din expresia dispersiei N
mXs
i∑ −=
2)(
89,16
5,21==s
Corecţia indicatorilor împrăştierii
calculaţi pentru eşantioane
N
mXs
i∑ −=
2
2)(
N
mXs
i∑ −=
2)(
1
)( 2
2
−
−=∑
N
mXs
i
dispersia abaterea standard
1
)( 2
−
−=∑
N
mXs
i
� Abaterea standard nu este definită pentru (n-1), ci pentru “n”� Dar... suma abaterilor de la medie este întotdeauna 0� ... dacă ştim n-1 abateri, o cunoaştem pe ultima� ... doar primele n-1 abateri pot varia “liber”.� ...(n-1) sunt definite ca “grade de libertate”
Proprietăţile abaterii standard
1. Dacă se adaugă/scade o constantă la fiecare valoare a unei distribuţii, abaterea standard nu este afectată
Proprietăţile abaterii standard
2. Dacă se multiplică/divide fiecare valoare a unei distribuţii cu o constantă, abaterea standard se multiplică/divide cu acea constantă
Proprietăţile abaterii standard3. Abaterea standard
faţă de medie este mai mică decât abaterea standard faţă de orice altă valoare a unei distribuţii
X (Xi – m) (Xi – 5)2
5 (5 – 4.5) = .5 (5-5)2=0
8 (8 – 4.5) = 3.5 (8-5)2=9
3 (3 – 4.5) = -1.5 (3-5)2=4
2 (2 – 4.5) = -2.5 (2-5)2=9
5 (5 – 4.5) = .5 (5-5)2=0
4 (4 – 4.5) = -.5 (4-5)2=1
ΣX = 27 Σ(Xi-m) = 0 ΣΣΣΣ(X-5)2 =23
N = 6
m = 4.5
Coeficientul de variaţie (cv)• abaterea medie şi abaterea standard se exprimă în
unităţile de măsură ale variabilei de referinţă • ca urmare, nu pot fi comparate în mod direct, pentru
variabile diferite
100*m
scv =
� cv poate fi calculat numai pe scale de raport (origine în 0)
� cv<15%, împrăştierea este mică şi, deci, media este reprezentativă
� cv este între 15%-30%, împrăştierea este mijlocie şi media este suficient de reprezentativă
� cv > 30%, împrăştierea este mare şi media are o reprezentativitate redusă
Alegerea indicatorului împrăştierii
• Abaterea standard este cea mai utilizată pentru scale de măsurare interval/raport. Realizează cea mai bună combinaţie între calitatea estimării şi posibilitatea de a fundamenta inferenţe statistice.
• Amplitudinea este un indicator nesigur şi care nici nu poate fi calculat în cazul scalelor nominale
• Pe distribuţii cu valori nedeterminate sau cu intervale deschise, se alege abaterea interquartilă (semi-interquartilă).
Indicatori ai formei distribuţiei
• simetrie (skewness)simetrică asimetrică negativ asimetrică pozitiv
Skewness 0 negativ pozitiv
Efectul asimetriei asupra mediei
• 3, 4, 5, 5, 6, 7– Modul: 5– Mediana: 5– Media: 5
• 3, 4, 5, 5, 6, 7, 17– Modul: 5– Mediana: 5– Media: 6.7
MedieMediana
Mod
Mediană Medie
Mod Mod MedieMediană
Distribuţie: simetrică asimetrică negativ asimetrică pozitiv
Indicatori ai formei distribuţiei
• boltire (kurtosis)
leptocurtica
mezocurtica
platicurtica
Kurtosis pozitiv
Kurtosis 0
Kurtosis negativ
La revedere, pe săptămâna viitoare;
Recommended