Upload
linasiscanu6356
View
1
Download
0
Embed Size (px)
DESCRIPTION
corelatia
Citation preview
Statistic i aplicaii n tiinele sociale
42
Capitolul 5
CORELAIA STATISTIC
5.1 Conceptul de asociere statistic
n la acest capitol au fost tratate proceduri i statistici univariate ca aspecte referitoare la distribuia de frecvene a unei variabile, tendina central i variabilitatea. n acest capitol vom prezenta
elemente de lume bivariat, n care interesul va fi focalizat pe examinarea simultan a dou variabile.
Se gsesc performanele pe care le nregistreaz studenii la examenul de licen ntr-un anumit raport cu rezultatele obinute la examenul de admitere n facultate? Ce relaie exist ntre cheltuielile pe copil i realizrile academice ale acestuia? Aceste ntrebri i multe altele care se pot pune n aceeai manier au n vedere modul n care valorile unei variabile X merg cu valorile celeilalte variabile Y. Se asociaz valori sczute ale statusului socioeconomic cu valori sczute ale coeficienilor IQ i invers, valori ridicate ale statusului socioeconomic cu valori ridicate ale coeficienilor IQ?
Cu alte cuvinte, sunt variabilele acestui exemplu variate sau covariate? La ntrebrile expuse nu se poate rspunde folosind informaii univariate, sau altfel exprimat, nu se poate spune ceva legat de asocierea dintre dou variabile doar prin simpla examinare a dou distribuii de frecvene, a dou medii sau variane. Pentru acest scop trebuie folosite metodele bivariate.
Coeficientul de corelaie este o statistic bivariat care msoar gradul de asociere liniar dintre dou variabile cantitative i se bucur de o mare popularitate n tiinele comportamentale. n cadrul acestui capitol vom acorda o atenie special unei msuri particulare de asociere. Este vorba de coeficientul de corelaie Pearson.
P
Statistic i aplicaii n tiinele sociale
43
5.2 Reprezentarea grafic a asocierii
Orice problem de corelaie ncepe cu un set de perechi de scoruri. Aceste perechi ar putea fi: cunotinele educaionale ale prinilor i cunotinele educaionale ale urmailor sau scorurile self-esteem i evalurile de popularitate i exemplele ar putea continua. ntotdeauna vor fi implicate dou grupuri ca n primul exemplu sau dou seturi de msurtori ca n cel de-al doilea exemplu i, ntotdeauna, datele statistice constau din scoruri pereche. Dac scorurile nu sunt dispuse n perechi, asocierea nu poate fi examinat i n consecin coeficientul de corelaie nu poate fi evaluat.
n tabelul de mai jos sunt prezentate scorurile unui numr de 10 studeni referitoare la raionamentele spaiale i abilitile matematice. Se poate vorbi de asociere ntre aceste dou variabile?
Studentul Raionament spaial
(scoruri) X
Abilitate matematic (scoruri)
Y 1 20 30 2 24 29 3 50 58 4 80 84 5 70 79 6 55 62 7 46 50 8 23 48 9 98 98
10 92 94 8,55X 2,63Y
Analiznd perechile de scoruri, cu siguran c nu vom putea spune nimic
despre existena unei asocieri ntre cele dou variabile. Se asociaz scoruri mici ale variabilei X cu scoruri mici ale variabilei Y i invers? Este dificil de spus doar inspectnd datele din tabel. Apelnd ns la analiza grafic, putem da cu uurin un rspuns la aceste ntrebri. Pentru reprezentarea grafic se utilizeaz dou axe de lungimi egale, cte una pentru fiecare variabil. Pe axa orizontal sunt reprezentate scorurile nregistrate la testul de raionament spaial iar pe ordonat, scorurile nregistrate la testul de abilitate matematic. Fiecare punct din graficul de mai jos reprezint cele dou scoruri simultane ale unui student. De exemplu studentul 4 a obinut scorurile X = 80 i Y = 84.
Statistic i aplicaii n tiinele sociale
44
Reprezentarea grafic a unui set de perechi de date, ca n acest exemplu, constituie o etap a muncii de evaluare a corelaiei dintre dou variabile.
Fig. nr. 5.1 Reprezentarea norului de puncte
5.2.1 Asocierea
n primul rnd, reprezentarea grafic a setului de valori relev prezena asocierii ntre dou variabile. Cu ct este mai puternic relaia dintre dou variabile, cu att punctele de pe grafic tind s se distribuie de-a lungul unei linii imaginare. Reprezentarea grafic a norului de puncte din graficul de mai sus sugereaz faptul c n general valorile variabilei X merg la fel cu cele ale variabilei Y. n figurile nr. 5.2 b i d sunt prezentate forme particulare ale norului de puncte. Dac nu exist asociere ntre variabile, punctele din nor se distribuie aleator ca n figura nr. 5.2 a. Dac asocierea dintre variabile este perfect, atunci punctele graficului se distribuie n ntregime pe o linie imaginar (figura nr. 5.2 c i d). De regul, n practica psihologic asemenea asocieri perfecte nu exist.
0
20
40
60
80
100
120
0 20 40 60 80 100 120
Abi
litat
e m
atem
atic (
Y)
Raionament spaial (X)
Statistic i aplicaii n tiinele sociale
45
Fig. nr. 5.2 Graficele diferitelor distribuii bivariate
5.2.2 Direcia
Dac exist asociere ntre dou variabile atunci reprezentarea grafic a norului de puncte va oferi informaii legate de direcia asocierii. n msura n care norul de puncte se distribuie pe direcia stnga-jos, dreapta-sus, atunci distribuia norului de puncte sugereaz o direcie pozitiv a asocierii (figura nr. 5.2 b i c). Distribuia norului de puncte pe direcia stnga-sus, dreapta-jos pune n eviden o direcie negativ a asocierii (figura nr. 5.2 d i e). Direcia legturii este independent de tria (intensitatea) ei. De exemplu figura nr. 5.2 c i d reflect legturi la fel de puternice, dar care difer prin direcia lor.
5.2.3 Nonliniaritatea
Figura nr. 5.1 sugereaz faptul c asocierea dintre raionamentele spaiale i abilitile matematice este una de tip liniar. Dar acest lucru nu nseamn c norul de puncte se distribuie dup o linie dreapt. O legtur statistic se spune c este de tip liniar dac o linie dreapt reprezint fidel distribuia norului de puncte. Legturi de tip liniar sunt prezentate n figura nr. 5.2 b, c, d i e. Legturile care nu sunt liniare sunt curbilinii de tipul celor indicate n figura nr. 5.2 f i g.
Exist cel puin un motiv serios de evaluare grafic a nonliniaritii. Este vorba de coeficientul de corelaie Pearson, care conform definiiei poate oferi
Statistic i aplicaii n tiinele sociale
46
semnificaie statistic doar n msura n care reflect o asociere liniar ntre variabile. Aadar, demersul de a calcula coeficieni Pearson n investigarea asocierilor neliniare este total eronat.
5.3 Covariana
Graficele distribuiilor bivariate sunt ntr-adevr informative, dar nu i suficiente. nainte de a introduce noiunea de covarian trebuie s avem n vedere faptul c atenia noastr este concentrat asupra msurrii legturilor liniare. Din fericire, o mare majoritate a legturilor statistice din cmpul tiinelor comportamentale sunt liniare, iar peste 90 % din coeficienii de corelaie calculai sunt coeficieni Pearson. Totui, trebuie reinut faptul c este ntotdeauna important s analizm graficele norilor de puncte pentru a ne asigura de prezena liniaritii.
Relaia de calcul a covarianei este:
nYYXX
Cov , unde n este numrul perechilor de observaii.
Paii necesari calculrii covarianei sunt: Pasul 1: Evaluarea mediilor X i Y ; Pasul 2: Evaluarea abaterilor XX , respectiv YY ; Pasul 3: Evaluarea sumei YYXX ; Pasul 4: mprirea sumei obinute la numrul perechilor de observaii. Exemplu: Scorurile nregistrate de ctre un grup de patru persoane la testul de
evaluare a ateniei distributive (X) i la testul de atenie concentrat (Y), precum i calculul covarianei scorurilor sunt prezentate n tabelul de mai jos:
Subiect X Y XX YY YYXX 1 4 5 2 1,5 3 2 5 7 1 0,5 0,5 3 7 9 1 2,5 2,5 4 8 5 2 1,5 3
n = 4 6X
5,6Y
5,0
42
2
Cov
YYXX
Statistic i aplicaii n tiinele sociale
47
5.3.1 Logica covarianei
Ca msur a asocierii, cum lucreaz covariana? Vom trata acest subiect prin a explica ce nseamn faptul c dou variabile sunt pozitiv asociate. Cnd exist o asociere pozitiv ntre dou variabile, scorurile situate deasupra mediei variabilei X tind s fie asociate cu scorurile plasate deasupra mediei variabilei Y i invers, scorurile inferioare mediei variabilei X tind s fie nsoite de scoruri inferioare mediei variabilei Y. Din acest motiv, abaterea scorurilor constituie o important component a covarianei. Figura nr. 5.3 este mprit n patru cadrane prin dou linii corespunztoare mediilor celor dou variabile X i Y . n cadranul I abaterile XX , respectiv YY sunt pozitive i aa
va fi i produsul lor. n cadranul II produsul YYXX este negativ datorit abaterilor XX . n cadranul III, ntruct ambele scoruri se situeaz sub nivelul mediilor, produsul YYXX va fi pozitiv. n cadranul IV, scorurile variabilei Y fiind plasate sub medie, produsul abaterilor este negativ. ntruct n este ntotdeauna pozitiv, rezult c semnul covarianei depinde de semnul numrtorului YYXX . n general, cu ct se vor concentra mai multe puncte n cele dou cadrane (fie I i III, fie II i IV), cu att vor exista mai multe produse X X Y Y de acelai semn fa de celelalte de semn contrar. Cu ct este mai mare suma X X Y Y , cu att este mai mare covariana.
0
20
40
60
80
100
120
0 20 40 60 80 100 120
Abi
litat
e mat
emat
ic (
Y)
Raionament spaial (X)
I(+)II(-)
III(+) IV(-)
55,8
63,2
Fig. nr. 5.3 Semnul produselor n cele patru cadrane
Statistic i aplicaii n tiinele sociale
48
Analiznd graficul de mai sus se constat c absolut toate punctele din nor se distribuie n cadranele I i III i prin urmare, ne ateptm ca i mrimea covarianei s fie mare. Pentru calculul ei, folosim tabelul de mai jos:
Studentul Raionamentul
spaial (scoruri)
Abilitate matematic
(scoruri) XX YY
X X Y Y
1 20 30 35,8 33,2 1.188,56 2 24 29 31,8 34,2 1.087,56 3 50 58 5,8 5,2 30,16 4 80 84 24,2 20,8 503,36 5 70 79 14,2 15,8 224,36 6 55 62 0,8 1,2 0,96 7 46 50 9,8 13,2 129,36 8 23 48 32,8 15,2 498,56 9 98 98 42,2 34,8 1.468,56
10 92 94 36,2 30,8 1.114,96 Total 6.246,4
64,62410
4,6246 Cov ntruct Cov = +624,64, rezult c raionamentul spaial i abilitatea
matematic sunt asociate pozitiv. Aadar, covariana ofer informaii despre direcia asocierii prin semnul acesteia.
S analizm n continuare trei distribuii bivariate A, B i C prezentate n tabelele de mai jos.
Distribuia bivariat A asociere perfect pozitiv
Subiect X Y X X Y Y X X Y Y 1 22 30 10 10 100 2 18 26 6 6 36 3 14 22 2 2 4 4 10 18 2 2 4 5 6 14 6 6 36 6 2 10 10 10 100 12X
6,831Xs
20Y 6,831Ys
280X X Y Y 280 46, 6
6C ov
Statistic i aplicaii n tiinele sociale
49
Distribuia bivariat B asociere perfect negativ
Subiect X Y X X Y Y X X Y Y 1 22 10 10 10 100 2 18 14 6 6 36 3 14 18 2 2 4 4 10 22 2 2 4 5 6 26 6 6 36 6 2 30 10 10 100 12X
6,831Xs
20Y 6,831Ys
280X X Y Y 280 46,66
Cov
Distribuia bivariat C lips de asociere
Subiect X Y X X Y Y X X Y Y
1 22 30 10 10 100 2 22 10 10 10 100 3 12 20 0 0 0 4 12 20 0 0 0 5 2 30 10 10 100 6 2 10 10 10 100 12X
8,165Xs 20Y
8,165Ys 0X X Y Y
0Cov Urmrind distribuia bivariat A, se constat c toate produsele
X X Y Y sunt pozitive. n schimb, n distribuia B produsele sunt n ntregime negative. Efectul cifrelor este acela c cele dou distribuii au aceeai valoare absolut a covarianei, dar semnul este opus: +46,(6) i 46,(6). n distribuia bivariat C unde nu exist asociere ntre variabile, covariana este nul. Calculele fcute nu spun ns nimic despre tria asocierii. Acest lucru se datoreaz faptului c mrimea covarianei este dependent de scalele metrice ale variabilelor implicate. S ne ntoarcem la distribuia A i s multiplicm fiecare valoare a variabilei Y cu 10. Aceast operaie nu va altera legtura dintre X i Y, ele continund s fie perfect asociate. ns covariana va fi de 10 ori mai mare! n aceste condiii covariana este un indicator dificil de interpretat.
Revenind la exemplul cu asocierea dintre raionamentele spaiale i abilitile matematice, ce am putea spune despre mrimea covarianei
Statistic i aplicaii n tiinele sociale
50
(= 624,64)? Este mare? Este mic? Mai mult, covarianele nu sunt uor de comparat. Chiar dac mrimea covarianei de 624,64 este mai mare dect 46,(6), nu putem trage concluzia c n primul caz asocierea este mai puternic dect n al doilea caz.
5.4 Coeficientul de corelaie Pearson
n eforturile de gsire a unei soluii pentru evaluarea triei asocierii dintre dou variabile s-a constatat c efectele dependenei covarianei de scalele metrice dispar dac covariana se mparte la produsul celor dou abateri standard. Mrimea rezultat este cunoscutul coeficient de corelaie Pearson, pentru care formula de calcul este:
YXYX ss
Covsns
YYXXr
Pentru distribuiile bivariate A i B valorile coeficienilor de corelaie sunt:
1831,6831,6)6(,46
1831,6831,6)6(,46
B
A
r
r
PROPRIETILE COEFICIENTULUI PEARSON
1. semnul coeficientului indic direcia asocierii (semnul pozitiv pentru
asocierea pozitiv i semnul negativ pentru asocierea negativ); 2. lipsa asocierii ntre dou variabile este semnalat de prezena unui
coeficient de corelaie nul (ca n cazul distribuiei bivariate C); 3. asocierea perfect ntre dou variabile conduce la un coeficient de
corelaie egal cu +1 sau 1; 4. asocierile de intensitate intermediar conduc la obinerea unor r-uri
cuprinse ntre 0 i 1, respectiv 0 i 1. n figura nr. 5.4 sunt prezentate grafice care pun n eviden diferite grade
de asociere.
Statistic i aplicaii n tiinele sociale
51
Fig. nr. 5.4 Grafice pentru diferite grade de corelaie
5.4.1 O alt relaie de calcul pentru coeficientul de corelaie
Pearson
Coeficientul Pearson poate fi calculat utiliznd doar scorurile brute. Relaia de calcul n acest caz este:
n
YY
n
XX
nYX
XYr
2
2
2
2
Formula de calcul de mai sus elimin necesitatea evalurii diferenelor XX , respectiv YY . Pentru distribuia bivariat A, calculul
coeficientului Pearson, folosind ultima relaie de calcul, presupune dispunerea operaiilor n maniera indicat de tabelul de mai jos.
Statistic i aplicaii n tiinele sociale
52
Calcule necesare evalurii coeficientului Pearson Subiect X Y X2 Y2 XY
1 22 30 484 900 660 2 18 26 324 676 468 3 14 22 196 484 308 4 10 18 100 324 180 5 6 14 36 196 84 6 2 10 4 100 20
Total 72 120 1144 2680 1720
16
1202680
672
1144
6120721720
222
2
2
2
n
YY
n
XX
nYX
XYr
5.5 Corelaie i cauzalitate
De la bun nceput trebuie spus urmtorul lucru: corelaia nu implic neaprat cauzalitate. Cnd un experimentator variaz dozajul unui drog i gsete o variaie corespondent n rspunsul fiziologic, concluzia argumentat este c diferena de dozaj a cauzat diferena de rspuns. Putem vorbi n acest caz de un raport de cauzalitate. Dar, n absena unor experimente controlate n care participanii sunt repartizai aleator la diferite grupuri de tratamente, invocarea cauzalitii se poate face cu riscuri foarte mari. Exist n principiu trei posibile explicaii, altele dect ntmplarea cnd putem vorbi de corelaie ntre X i Y:
1. X cauzeaz Y; 2. Y cauzeaz X; 3. un al treilea factor Z sau un complex de factori cauzeaz att X, ct i Y.
Statistic i aplicaii n tiinele sociale
53
Fig. nr. 5.5 Posibile motive pentru invocarea corelaiei dintre X i Y
De exemplu, s-a constatat c ntre entuziasmul profesorilor (X) i realizrile studenilor (Y) exist corelaie. nseamn oare acest lucru c entuziasmul este ntreinut de succesele studenilor (YX) sau invers (XY)? Un simplu calcul de corelaie nu poate susine aceast afirmaie. Mai mult, poate exista un al treilea factor Z, cum ar fi nivelul de sprijin al comunitii pentru educaie, care s susin att entuziasmul profesorilor, ct i succesele studenilor. n general o simpl evaluare numeric a corelaiei nu nseamn n mod necesar faptul c exist o legtur de cauzalitate ntre cele dou variabile. Oricine vorbete de cauzalitate trebuie s o argumenteze logic dincolo de orice demonstraie statistic de asociere.
Exist proceduri statistice sofisticate cum ar fi corelaia parial, regresia multipl etc. care ncearc s depeasc impedimentele cauzate de limitrile coeficientului de corelaie. ns orict de sofisticate ar fi analizele statistice, argumentarea logic a cauzei i efectului trebuie s rmn ntotdeauna o prioritate.
5.6 Liniaritatea i coeficientul Pearson
Exist civa factori majori care influeneaz mrimea lui r i de care trebuie s se in seama n interpretarea rezultatelor obinute. Cel mai important dintre ei se refer la liniaritate.
Nimeni nu trebuie s uite c r reflect mrimea i direcia asocierii liniare dintre dou variabile. Dac o distribuie bivariat se abate de la liniaritate, r va subestima legtura dintre variabile.
Statistic i aplicaii n tiinele sociale
54
Fig. nr. 5.6 Efectul nonliniaritii asupra coeficientului Pearson
De exemplu, figura nr. 5.6 a i b descrie pn la un anumit punct aceeai
trie a legturii dintre variabilele X i Y. Constatm ns c n figura nr. 5.6 b liniaritatea este compromis de la un anumit nivel al variabilei X, iar acest lucru contribuie la obinerea a dou valori diferite pentru coeficientul Pearson (0,85 i 0,54). n figura nr. 5.6 c care descrie o legtur perfect curbilinie, coeficientul de corelaie este 0. Semnific oare aceast valoare c nu exist asociere ntre variabile? Rspunsul este categoric NU! Mai mult, exist chiar o asociere puternic! ns nu liniar! Concluzia este c nu trebuie confundat absena asocierii liniare cu absena asocierii.
5.7 r2: Proporia varianei comune
S presupunem c am obinut un r de 0,5 ntre rezultatele obinute de
ctre candidaii admii la admiterea n nvmntul superior i rezultatele obinute la examenul de licen de ctre aceiai subieci. r-ul rezultat ne indic faptul c unele tipuri variaii ale rezultatelor obinute la admitere se asociaz cu aceleai tipuri de variaii ale rezultatelor obinute la examenul de licen. Acest lucru nseamn c rezultatele covariaz ntre ele. ns cu toate acestea, putem spune c suntem departe de a vorbi despre o covarian perfect. Reprezentarea grafic a rezultatelor va scoate n eviden multe excepii individuale, n sensul c rezultate mari la examenul de admitere sunt nsoite de rezultate mici la examenul de licen i invers. ns pentru covariaii se poate spune c exist o baz explicativ comun, i anume nivelul de pregtire dobndit n primii 12 ani de coal. Pe de alt parte, n toate excepiile ntlnite, variaia rezultatelor de la examenul de admitere nu poate explica
Statistic i aplicaii n tiinele sociale
55
toat variaia rezultatelor nregistrat la examenul de licen. Problema care se pune este ct de mult variaia rezultatelor nregistrat la examenul de admitere se regsete n variaia rezultatelor nregistrat la examenul de licen. Cu alte cuvinte, ce proporie de varian nregistrat n rezultatele de la admitere i licen este varian comun.
Coeficientul de determinare r2 d proporia de varian comun mprit ntre cele dou variabile. n exemplul prezentat r2 = 0,502 = 0,25, ceea ce arat c 25 % din variana nregistrat la examenul de licen se regsete n variana nregistrat la examenul de admitere. Calculul diferenei 1 r2 scoate n eviden faptul c 75 % din variana nregistrat ntr-o variabil este asociat cu factori nerelevai n cealalt variabil. Aceast diferen este cunoscut sub numele de coeficient de nedeterminare.
Dac reprezentm variana fiecrei variabile printr-un cerc, atunci suprapunerea lor va corespunde proporiei de varian comun. n cazul n care r2 = 0, nu va exista suprapunere ntre cercuri (figura nr. 5.7 a). Pentru r2 = 0,25, suprapunerea va fi de 25 % (figura nr. 5.7 b) n timp ce pentru r2 = 1, suprapunerea este total (figura nr. 5.7 c).
Fig. nr. 5.7 Reprezentarea lui r2 i variana comun
Probleme propuse:
1. Prezentai un exemplu de asociere direct, un exemplu de asociere invers i un exemplu de asociere nul. Care este raiunea manifestrii asocierilor nule?
Statistic i aplicaii n tiinele sociale
56
2. Calculai coeficientul Pearson pentru urmtoarele perechi de valori de date: X Y 12 2512 2613 2514 2313 2415 2616 2715 2717 2816 2616 2917 2716 2815 2917 2917 3118 3018 3219 3317 3118 3419 3417 3417 3518 3616 3419 3719 3720 3819 3720 3819 3821 3819 3721 3921 3922 4021 4020 3920 3821 40
Statistic i aplicaii n tiinele sociale
57
3. Dai exemple de perechi de variabile care prezint: a) Asociere pozitiv b) Asociere negativ c) Asociere nule (independente)
4. De ce este important analiza norului de puncte? 5. Analizai norul de puncte generat de urmtoarele perechi de valori
X Y 11 12 9 8 8 10 6 7 4 4 3 6 1 2
a) Ce direcie de asociere sugereaz norul de puncte? b) Exist abateri de la liniaritate? c) Estimai dac este posibil coeficientul r d) Interpretai r contextul coeficientului de determinare e) Utiliznd aceste date, mprii fiecare valoare X la 10, construii
norul de puncte i analizai relaia dintre X/10 i Y f) Calculai coeficientul r ntre X/10 i Y. Comparai cu
coeficientul r calculat anterior 6. Analizai norul de puncte generat de urmtoarele perechi de valori
X Y 100 210 98 208 98 208 96 206 94 204 93 203 91 201 91 201 91 201 91 201 90 200 90 200 90 200 89 199
Statistic i aplicaii n tiinele sociale
58
X Y 89 199 89 199 87 197 86 196 85 195 83 193 83 193 82 192 80 190 79 189 77 187
a) Ce direcie de asociere sugereaz norul de puncte? b) Exist abateri de la liniaritate? c) Estimai dac este posibil coeficientul r d) Interpretai r contextul coeficientului de determinare e) Utiliznd aceste date, mprii fiecare valoare X la 10, construii
norul de puncte i analizai relaia dintre X/10 i Y f) Calculai coeficientul r ntre X/10 i Y. Comparai cu coeficientul
r calculat anterior 7. Cov(X, Y) = 55, SX = 8, SY = 11. Calculai r. 8. r = 0,36, SX = 8, SY = 7. Calculai Cov(X, Y). 9. Apreciai afirmaia: Un coeficient r mic nseamn o asociere redus
ntre dou variabile.