corelatia

Embed Size (px)

DESCRIPTION

corelatia

Citation preview

  • Statistic i aplicaii n tiinele sociale

    42

    Capitolul 5

    CORELAIA STATISTIC

    5.1 Conceptul de asociere statistic

    n la acest capitol au fost tratate proceduri i statistici univariate ca aspecte referitoare la distribuia de frecvene a unei variabile, tendina central i variabilitatea. n acest capitol vom prezenta

    elemente de lume bivariat, n care interesul va fi focalizat pe examinarea simultan a dou variabile.

    Se gsesc performanele pe care le nregistreaz studenii la examenul de licen ntr-un anumit raport cu rezultatele obinute la examenul de admitere n facultate? Ce relaie exist ntre cheltuielile pe copil i realizrile academice ale acestuia? Aceste ntrebri i multe altele care se pot pune n aceeai manier au n vedere modul n care valorile unei variabile X merg cu valorile celeilalte variabile Y. Se asociaz valori sczute ale statusului socioeconomic cu valori sczute ale coeficienilor IQ i invers, valori ridicate ale statusului socioeconomic cu valori ridicate ale coeficienilor IQ?

    Cu alte cuvinte, sunt variabilele acestui exemplu variate sau covariate? La ntrebrile expuse nu se poate rspunde folosind informaii univariate, sau altfel exprimat, nu se poate spune ceva legat de asocierea dintre dou variabile doar prin simpla examinare a dou distribuii de frecvene, a dou medii sau variane. Pentru acest scop trebuie folosite metodele bivariate.

    Coeficientul de corelaie este o statistic bivariat care msoar gradul de asociere liniar dintre dou variabile cantitative i se bucur de o mare popularitate n tiinele comportamentale. n cadrul acestui capitol vom acorda o atenie special unei msuri particulare de asociere. Este vorba de coeficientul de corelaie Pearson.

    P

  • Statistic i aplicaii n tiinele sociale

    43

    5.2 Reprezentarea grafic a asocierii

    Orice problem de corelaie ncepe cu un set de perechi de scoruri. Aceste perechi ar putea fi: cunotinele educaionale ale prinilor i cunotinele educaionale ale urmailor sau scorurile self-esteem i evalurile de popularitate i exemplele ar putea continua. ntotdeauna vor fi implicate dou grupuri ca n primul exemplu sau dou seturi de msurtori ca n cel de-al doilea exemplu i, ntotdeauna, datele statistice constau din scoruri pereche. Dac scorurile nu sunt dispuse n perechi, asocierea nu poate fi examinat i n consecin coeficientul de corelaie nu poate fi evaluat.

    n tabelul de mai jos sunt prezentate scorurile unui numr de 10 studeni referitoare la raionamentele spaiale i abilitile matematice. Se poate vorbi de asociere ntre aceste dou variabile?

    Studentul Raionament spaial

    (scoruri) X

    Abilitate matematic (scoruri)

    Y 1 20 30 2 24 29 3 50 58 4 80 84 5 70 79 6 55 62 7 46 50 8 23 48 9 98 98

    10 92 94 8,55X 2,63Y

    Analiznd perechile de scoruri, cu siguran c nu vom putea spune nimic

    despre existena unei asocieri ntre cele dou variabile. Se asociaz scoruri mici ale variabilei X cu scoruri mici ale variabilei Y i invers? Este dificil de spus doar inspectnd datele din tabel. Apelnd ns la analiza grafic, putem da cu uurin un rspuns la aceste ntrebri. Pentru reprezentarea grafic se utilizeaz dou axe de lungimi egale, cte una pentru fiecare variabil. Pe axa orizontal sunt reprezentate scorurile nregistrate la testul de raionament spaial iar pe ordonat, scorurile nregistrate la testul de abilitate matematic. Fiecare punct din graficul de mai jos reprezint cele dou scoruri simultane ale unui student. De exemplu studentul 4 a obinut scorurile X = 80 i Y = 84.

  • Statistic i aplicaii n tiinele sociale

    44

    Reprezentarea grafic a unui set de perechi de date, ca n acest exemplu, constituie o etap a muncii de evaluare a corelaiei dintre dou variabile.

    Fig. nr. 5.1 Reprezentarea norului de puncte

    5.2.1 Asocierea

    n primul rnd, reprezentarea grafic a setului de valori relev prezena asocierii ntre dou variabile. Cu ct este mai puternic relaia dintre dou variabile, cu att punctele de pe grafic tind s se distribuie de-a lungul unei linii imaginare. Reprezentarea grafic a norului de puncte din graficul de mai sus sugereaz faptul c n general valorile variabilei X merg la fel cu cele ale variabilei Y. n figurile nr. 5.2 b i d sunt prezentate forme particulare ale norului de puncte. Dac nu exist asociere ntre variabile, punctele din nor se distribuie aleator ca n figura nr. 5.2 a. Dac asocierea dintre variabile este perfect, atunci punctele graficului se distribuie n ntregime pe o linie imaginar (figura nr. 5.2 c i d). De regul, n practica psihologic asemenea asocieri perfecte nu exist.

    0

    20

    40

    60

    80

    100

    120

    0 20 40 60 80 100 120

    Abi

    litat

    e m

    atem

    atic (

    Y)

    Raionament spaial (X)

  • Statistic i aplicaii n tiinele sociale

    45

    Fig. nr. 5.2 Graficele diferitelor distribuii bivariate

    5.2.2 Direcia

    Dac exist asociere ntre dou variabile atunci reprezentarea grafic a norului de puncte va oferi informaii legate de direcia asocierii. n msura n care norul de puncte se distribuie pe direcia stnga-jos, dreapta-sus, atunci distribuia norului de puncte sugereaz o direcie pozitiv a asocierii (figura nr. 5.2 b i c). Distribuia norului de puncte pe direcia stnga-sus, dreapta-jos pune n eviden o direcie negativ a asocierii (figura nr. 5.2 d i e). Direcia legturii este independent de tria (intensitatea) ei. De exemplu figura nr. 5.2 c i d reflect legturi la fel de puternice, dar care difer prin direcia lor.

    5.2.3 Nonliniaritatea

    Figura nr. 5.1 sugereaz faptul c asocierea dintre raionamentele spaiale i abilitile matematice este una de tip liniar. Dar acest lucru nu nseamn c norul de puncte se distribuie dup o linie dreapt. O legtur statistic se spune c este de tip liniar dac o linie dreapt reprezint fidel distribuia norului de puncte. Legturi de tip liniar sunt prezentate n figura nr. 5.2 b, c, d i e. Legturile care nu sunt liniare sunt curbilinii de tipul celor indicate n figura nr. 5.2 f i g.

    Exist cel puin un motiv serios de evaluare grafic a nonliniaritii. Este vorba de coeficientul de corelaie Pearson, care conform definiiei poate oferi

  • Statistic i aplicaii n tiinele sociale

    46

    semnificaie statistic doar n msura n care reflect o asociere liniar ntre variabile. Aadar, demersul de a calcula coeficieni Pearson n investigarea asocierilor neliniare este total eronat.

    5.3 Covariana

    Graficele distribuiilor bivariate sunt ntr-adevr informative, dar nu i suficiente. nainte de a introduce noiunea de covarian trebuie s avem n vedere faptul c atenia noastr este concentrat asupra msurrii legturilor liniare. Din fericire, o mare majoritate a legturilor statistice din cmpul tiinelor comportamentale sunt liniare, iar peste 90 % din coeficienii de corelaie calculai sunt coeficieni Pearson. Totui, trebuie reinut faptul c este ntotdeauna important s analizm graficele norilor de puncte pentru a ne asigura de prezena liniaritii.

    Relaia de calcul a covarianei este:

    nYYXX

    Cov , unde n este numrul perechilor de observaii.

    Paii necesari calculrii covarianei sunt: Pasul 1: Evaluarea mediilor X i Y ; Pasul 2: Evaluarea abaterilor XX , respectiv YY ; Pasul 3: Evaluarea sumei YYXX ; Pasul 4: mprirea sumei obinute la numrul perechilor de observaii. Exemplu: Scorurile nregistrate de ctre un grup de patru persoane la testul de

    evaluare a ateniei distributive (X) i la testul de atenie concentrat (Y), precum i calculul covarianei scorurilor sunt prezentate n tabelul de mai jos:

    Subiect X Y XX YY YYXX 1 4 5 2 1,5 3 2 5 7 1 0,5 0,5 3 7 9 1 2,5 2,5 4 8 5 2 1,5 3

    n = 4 6X

    5,6Y

    5,0

    42

    2

    Cov

    YYXX

  • Statistic i aplicaii n tiinele sociale

    47

    5.3.1 Logica covarianei

    Ca msur a asocierii, cum lucreaz covariana? Vom trata acest subiect prin a explica ce nseamn faptul c dou variabile sunt pozitiv asociate. Cnd exist o asociere pozitiv ntre dou variabile, scorurile situate deasupra mediei variabilei X tind s fie asociate cu scorurile plasate deasupra mediei variabilei Y i invers, scorurile inferioare mediei variabilei X tind s fie nsoite de scoruri inferioare mediei variabilei Y. Din acest motiv, abaterea scorurilor constituie o important component a covarianei. Figura nr. 5.3 este mprit n patru cadrane prin dou linii corespunztoare mediilor celor dou variabile X i Y . n cadranul I abaterile XX , respectiv YY sunt pozitive i aa

    va fi i produsul lor. n cadranul II produsul YYXX este negativ datorit abaterilor XX . n cadranul III, ntruct ambele scoruri se situeaz sub nivelul mediilor, produsul YYXX va fi pozitiv. n cadranul IV, scorurile variabilei Y fiind plasate sub medie, produsul abaterilor este negativ. ntruct n este ntotdeauna pozitiv, rezult c semnul covarianei depinde de semnul numrtorului YYXX . n general, cu ct se vor concentra mai multe puncte n cele dou cadrane (fie I i III, fie II i IV), cu att vor exista mai multe produse X X Y Y de acelai semn fa de celelalte de semn contrar. Cu ct este mai mare suma X X Y Y , cu att este mai mare covariana.

    0

    20

    40

    60

    80

    100

    120

    0 20 40 60 80 100 120

    Abi

    litat

    e mat

    emat

    ic (

    Y)

    Raionament spaial (X)

    I(+)II(-)

    III(+) IV(-)

    55,8

    63,2

    Fig. nr. 5.3 Semnul produselor n cele patru cadrane

  • Statistic i aplicaii n tiinele sociale

    48

    Analiznd graficul de mai sus se constat c absolut toate punctele din nor se distribuie n cadranele I i III i prin urmare, ne ateptm ca i mrimea covarianei s fie mare. Pentru calculul ei, folosim tabelul de mai jos:

    Studentul Raionamentul

    spaial (scoruri)

    Abilitate matematic

    (scoruri) XX YY

    X X Y Y

    1 20 30 35,8 33,2 1.188,56 2 24 29 31,8 34,2 1.087,56 3 50 58 5,8 5,2 30,16 4 80 84 24,2 20,8 503,36 5 70 79 14,2 15,8 224,36 6 55 62 0,8 1,2 0,96 7 46 50 9,8 13,2 129,36 8 23 48 32,8 15,2 498,56 9 98 98 42,2 34,8 1.468,56

    10 92 94 36,2 30,8 1.114,96 Total 6.246,4

    64,62410

    4,6246 Cov ntruct Cov = +624,64, rezult c raionamentul spaial i abilitatea

    matematic sunt asociate pozitiv. Aadar, covariana ofer informaii despre direcia asocierii prin semnul acesteia.

    S analizm n continuare trei distribuii bivariate A, B i C prezentate n tabelele de mai jos.

    Distribuia bivariat A asociere perfect pozitiv

    Subiect X Y X X Y Y X X Y Y 1 22 30 10 10 100 2 18 26 6 6 36 3 14 22 2 2 4 4 10 18 2 2 4 5 6 14 6 6 36 6 2 10 10 10 100 12X

    6,831Xs

    20Y 6,831Ys

    280X X Y Y 280 46, 6

    6C ov

  • Statistic i aplicaii n tiinele sociale

    49

    Distribuia bivariat B asociere perfect negativ

    Subiect X Y X X Y Y X X Y Y 1 22 10 10 10 100 2 18 14 6 6 36 3 14 18 2 2 4 4 10 22 2 2 4 5 6 26 6 6 36 6 2 30 10 10 100 12X

    6,831Xs

    20Y 6,831Ys

    280X X Y Y 280 46,66

    Cov

    Distribuia bivariat C lips de asociere

    Subiect X Y X X Y Y X X Y Y

    1 22 30 10 10 100 2 22 10 10 10 100 3 12 20 0 0 0 4 12 20 0 0 0 5 2 30 10 10 100 6 2 10 10 10 100 12X

    8,165Xs 20Y

    8,165Ys 0X X Y Y

    0Cov Urmrind distribuia bivariat A, se constat c toate produsele

    X X Y Y sunt pozitive. n schimb, n distribuia B produsele sunt n ntregime negative. Efectul cifrelor este acela c cele dou distribuii au aceeai valoare absolut a covarianei, dar semnul este opus: +46,(6) i 46,(6). n distribuia bivariat C unde nu exist asociere ntre variabile, covariana este nul. Calculele fcute nu spun ns nimic despre tria asocierii. Acest lucru se datoreaz faptului c mrimea covarianei este dependent de scalele metrice ale variabilelor implicate. S ne ntoarcem la distribuia A i s multiplicm fiecare valoare a variabilei Y cu 10. Aceast operaie nu va altera legtura dintre X i Y, ele continund s fie perfect asociate. ns covariana va fi de 10 ori mai mare! n aceste condiii covariana este un indicator dificil de interpretat.

    Revenind la exemplul cu asocierea dintre raionamentele spaiale i abilitile matematice, ce am putea spune despre mrimea covarianei

  • Statistic i aplicaii n tiinele sociale

    50

    (= 624,64)? Este mare? Este mic? Mai mult, covarianele nu sunt uor de comparat. Chiar dac mrimea covarianei de 624,64 este mai mare dect 46,(6), nu putem trage concluzia c n primul caz asocierea este mai puternic dect n al doilea caz.

    5.4 Coeficientul de corelaie Pearson

    n eforturile de gsire a unei soluii pentru evaluarea triei asocierii dintre dou variabile s-a constatat c efectele dependenei covarianei de scalele metrice dispar dac covariana se mparte la produsul celor dou abateri standard. Mrimea rezultat este cunoscutul coeficient de corelaie Pearson, pentru care formula de calcul este:

    YXYX ss

    Covsns

    YYXXr

    Pentru distribuiile bivariate A i B valorile coeficienilor de corelaie sunt:

    1831,6831,6)6(,46

    1831,6831,6)6(,46

    B

    A

    r

    r

    PROPRIETILE COEFICIENTULUI PEARSON

    1. semnul coeficientului indic direcia asocierii (semnul pozitiv pentru

    asocierea pozitiv i semnul negativ pentru asocierea negativ); 2. lipsa asocierii ntre dou variabile este semnalat de prezena unui

    coeficient de corelaie nul (ca n cazul distribuiei bivariate C); 3. asocierea perfect ntre dou variabile conduce la un coeficient de

    corelaie egal cu +1 sau 1; 4. asocierile de intensitate intermediar conduc la obinerea unor r-uri

    cuprinse ntre 0 i 1, respectiv 0 i 1. n figura nr. 5.4 sunt prezentate grafice care pun n eviden diferite grade

    de asociere.

  • Statistic i aplicaii n tiinele sociale

    51

    Fig. nr. 5.4 Grafice pentru diferite grade de corelaie

    5.4.1 O alt relaie de calcul pentru coeficientul de corelaie

    Pearson

    Coeficientul Pearson poate fi calculat utiliznd doar scorurile brute. Relaia de calcul n acest caz este:

    n

    YY

    n

    XX

    nYX

    XYr

    2

    2

    2

    2

    Formula de calcul de mai sus elimin necesitatea evalurii diferenelor XX , respectiv YY . Pentru distribuia bivariat A, calculul

    coeficientului Pearson, folosind ultima relaie de calcul, presupune dispunerea operaiilor n maniera indicat de tabelul de mai jos.

  • Statistic i aplicaii n tiinele sociale

    52

    Calcule necesare evalurii coeficientului Pearson Subiect X Y X2 Y2 XY

    1 22 30 484 900 660 2 18 26 324 676 468 3 14 22 196 484 308 4 10 18 100 324 180 5 6 14 36 196 84 6 2 10 4 100 20

    Total 72 120 1144 2680 1720

    16

    1202680

    672

    1144

    6120721720

    222

    2

    2

    2

    n

    YY

    n

    XX

    nYX

    XYr

    5.5 Corelaie i cauzalitate

    De la bun nceput trebuie spus urmtorul lucru: corelaia nu implic neaprat cauzalitate. Cnd un experimentator variaz dozajul unui drog i gsete o variaie corespondent n rspunsul fiziologic, concluzia argumentat este c diferena de dozaj a cauzat diferena de rspuns. Putem vorbi n acest caz de un raport de cauzalitate. Dar, n absena unor experimente controlate n care participanii sunt repartizai aleator la diferite grupuri de tratamente, invocarea cauzalitii se poate face cu riscuri foarte mari. Exist n principiu trei posibile explicaii, altele dect ntmplarea cnd putem vorbi de corelaie ntre X i Y:

    1. X cauzeaz Y; 2. Y cauzeaz X; 3. un al treilea factor Z sau un complex de factori cauzeaz att X, ct i Y.

  • Statistic i aplicaii n tiinele sociale

    53

    Fig. nr. 5.5 Posibile motive pentru invocarea corelaiei dintre X i Y

    De exemplu, s-a constatat c ntre entuziasmul profesorilor (X) i realizrile studenilor (Y) exist corelaie. nseamn oare acest lucru c entuziasmul este ntreinut de succesele studenilor (YX) sau invers (XY)? Un simplu calcul de corelaie nu poate susine aceast afirmaie. Mai mult, poate exista un al treilea factor Z, cum ar fi nivelul de sprijin al comunitii pentru educaie, care s susin att entuziasmul profesorilor, ct i succesele studenilor. n general o simpl evaluare numeric a corelaiei nu nseamn n mod necesar faptul c exist o legtur de cauzalitate ntre cele dou variabile. Oricine vorbete de cauzalitate trebuie s o argumenteze logic dincolo de orice demonstraie statistic de asociere.

    Exist proceduri statistice sofisticate cum ar fi corelaia parial, regresia multipl etc. care ncearc s depeasc impedimentele cauzate de limitrile coeficientului de corelaie. ns orict de sofisticate ar fi analizele statistice, argumentarea logic a cauzei i efectului trebuie s rmn ntotdeauna o prioritate.

    5.6 Liniaritatea i coeficientul Pearson

    Exist civa factori majori care influeneaz mrimea lui r i de care trebuie s se in seama n interpretarea rezultatelor obinute. Cel mai important dintre ei se refer la liniaritate.

    Nimeni nu trebuie s uite c r reflect mrimea i direcia asocierii liniare dintre dou variabile. Dac o distribuie bivariat se abate de la liniaritate, r va subestima legtura dintre variabile.

  • Statistic i aplicaii n tiinele sociale

    54

    Fig. nr. 5.6 Efectul nonliniaritii asupra coeficientului Pearson

    De exemplu, figura nr. 5.6 a i b descrie pn la un anumit punct aceeai

    trie a legturii dintre variabilele X i Y. Constatm ns c n figura nr. 5.6 b liniaritatea este compromis de la un anumit nivel al variabilei X, iar acest lucru contribuie la obinerea a dou valori diferite pentru coeficientul Pearson (0,85 i 0,54). n figura nr. 5.6 c care descrie o legtur perfect curbilinie, coeficientul de corelaie este 0. Semnific oare aceast valoare c nu exist asociere ntre variabile? Rspunsul este categoric NU! Mai mult, exist chiar o asociere puternic! ns nu liniar! Concluzia este c nu trebuie confundat absena asocierii liniare cu absena asocierii.

    5.7 r2: Proporia varianei comune

    S presupunem c am obinut un r de 0,5 ntre rezultatele obinute de

    ctre candidaii admii la admiterea n nvmntul superior i rezultatele obinute la examenul de licen de ctre aceiai subieci. r-ul rezultat ne indic faptul c unele tipuri variaii ale rezultatelor obinute la admitere se asociaz cu aceleai tipuri de variaii ale rezultatelor obinute la examenul de licen. Acest lucru nseamn c rezultatele covariaz ntre ele. ns cu toate acestea, putem spune c suntem departe de a vorbi despre o covarian perfect. Reprezentarea grafic a rezultatelor va scoate n eviden multe excepii individuale, n sensul c rezultate mari la examenul de admitere sunt nsoite de rezultate mici la examenul de licen i invers. ns pentru covariaii se poate spune c exist o baz explicativ comun, i anume nivelul de pregtire dobndit n primii 12 ani de coal. Pe de alt parte, n toate excepiile ntlnite, variaia rezultatelor de la examenul de admitere nu poate explica

  • Statistic i aplicaii n tiinele sociale

    55

    toat variaia rezultatelor nregistrat la examenul de licen. Problema care se pune este ct de mult variaia rezultatelor nregistrat la examenul de admitere se regsete n variaia rezultatelor nregistrat la examenul de licen. Cu alte cuvinte, ce proporie de varian nregistrat n rezultatele de la admitere i licen este varian comun.

    Coeficientul de determinare r2 d proporia de varian comun mprit ntre cele dou variabile. n exemplul prezentat r2 = 0,502 = 0,25, ceea ce arat c 25 % din variana nregistrat la examenul de licen se regsete n variana nregistrat la examenul de admitere. Calculul diferenei 1 r2 scoate n eviden faptul c 75 % din variana nregistrat ntr-o variabil este asociat cu factori nerelevai n cealalt variabil. Aceast diferen este cunoscut sub numele de coeficient de nedeterminare.

    Dac reprezentm variana fiecrei variabile printr-un cerc, atunci suprapunerea lor va corespunde proporiei de varian comun. n cazul n care r2 = 0, nu va exista suprapunere ntre cercuri (figura nr. 5.7 a). Pentru r2 = 0,25, suprapunerea va fi de 25 % (figura nr. 5.7 b) n timp ce pentru r2 = 1, suprapunerea este total (figura nr. 5.7 c).

    Fig. nr. 5.7 Reprezentarea lui r2 i variana comun

    Probleme propuse:

    1. Prezentai un exemplu de asociere direct, un exemplu de asociere invers i un exemplu de asociere nul. Care este raiunea manifestrii asocierilor nule?

  • Statistic i aplicaii n tiinele sociale

    56

    2. Calculai coeficientul Pearson pentru urmtoarele perechi de valori de date: X Y 12 2512 2613 2514 2313 2415 2616 2715 2717 2816 2616 2917 2716 2815 2917 2917 3118 3018 3219 3317 3118 3419 3417 3417 3518 3616 3419 3719 3720 3819 3720 3819 3821 3819 3721 3921 3922 4021 4020 3920 3821 40

  • Statistic i aplicaii n tiinele sociale

    57

    3. Dai exemple de perechi de variabile care prezint: a) Asociere pozitiv b) Asociere negativ c) Asociere nule (independente)

    4. De ce este important analiza norului de puncte? 5. Analizai norul de puncte generat de urmtoarele perechi de valori

    X Y 11 12 9 8 8 10 6 7 4 4 3 6 1 2

    a) Ce direcie de asociere sugereaz norul de puncte? b) Exist abateri de la liniaritate? c) Estimai dac este posibil coeficientul r d) Interpretai r contextul coeficientului de determinare e) Utiliznd aceste date, mprii fiecare valoare X la 10, construii

    norul de puncte i analizai relaia dintre X/10 i Y f) Calculai coeficientul r ntre X/10 i Y. Comparai cu

    coeficientul r calculat anterior 6. Analizai norul de puncte generat de urmtoarele perechi de valori

    X Y 100 210 98 208 98 208 96 206 94 204 93 203 91 201 91 201 91 201 91 201 90 200 90 200 90 200 89 199

  • Statistic i aplicaii n tiinele sociale

    58

    X Y 89 199 89 199 87 197 86 196 85 195 83 193 83 193 82 192 80 190 79 189 77 187

    a) Ce direcie de asociere sugereaz norul de puncte? b) Exist abateri de la liniaritate? c) Estimai dac este posibil coeficientul r d) Interpretai r contextul coeficientului de determinare e) Utiliznd aceste date, mprii fiecare valoare X la 10, construii

    norul de puncte i analizai relaia dintre X/10 i Y f) Calculai coeficientul r ntre X/10 i Y. Comparai cu coeficientul

    r calculat anterior 7. Cov(X, Y) = 55, SX = 8, SY = 11. Calculai r. 8. r = 0,36, SX = 8, SY = 7. Calculai Cov(X, Y). 9. Apreciai afirmaia: Un coeficient r mic nseamn o asociere redus

    ntre dou variabile.