35
Aplicații computerizate ale datelor

Cursul 3 Corelatia Si Regresia Liniara

Embed Size (px)

Citation preview

Page 1: Cursul 3 Corelatia Si Regresia Liniara

Aplicații computerizate ale datelor

Page 2: Cursul 3 Corelatia Si Regresia Liniara

Exemple de studii corelaţionale:

Există vreo legătură între scorurile la testele de inteligenţă şi performanţa şcolară?

Există asociere între înălţime şi greutate?

Există asociere între inteligenţa părinţilor şi inteligenţa copiilor?

Există o relaţie între numărul orelor de studiu la statistică şi punctajul obţinut la evaluări?

Page 3: Cursul 3 Corelatia Si Regresia Liniara

Corelaţia nu implică o cauzalitate

Page 4: Cursul 3 Corelatia Si Regresia Liniara

Ce fel de date au fost colectate?Care sunt condiţiile de aplicare?

• Date numerice

• Variabile măsurate pe scale de interval sau de raport

• Variabile normal distribuite

• Numărul de subiecţi este mai mare de 30

• Absenţa outlierilor sau a valorilor extreme

• Relaţia dintre variabile este liniară

• Norul de puncte indică homoscedasticitate

Page 5: Cursul 3 Corelatia Si Regresia Liniara

Folosim corelaţia Spearman, atunci când…

• Cel puţin una dintre variabile este măsurată pe scală ordinală

• Cel puţin una dintre variabile nu este normal distribuită

• Numărul de subiecţi este mai mic de 30

Page 6: Cursul 3 Corelatia Si Regresia Liniara
Page 7: Cursul 3 Corelatia Si Regresia Liniara

7) Cum interpretăm asocierea dintre două variabile?

Coeficient de corelatie

Indică puterea asocierii

Indică direcția sau relația (pozitivă sau negativă)

r = +.37

Page 8: Cursul 3 Corelatia Si Regresia Liniara

Corelația pozitivă arată relaţia de directă proporţionalitate între cele două variabile: cu cât creşte x, cu atât creşte şi Y.

Corelația negativă arată relaţia de inversă proporţionalitate: cu cît creşte X, cu atât scade Y.

Coeficient de corelație Interpretare 0.0-0.1 Foarte mic, negliabil0.1-0.3 Mic, minor0.3-0.5 Moderat, mediu0.5-0.7 Mare, ridicat0.7-0.9 Foarte mare, foarte ridicat0.9-1 Aproape perfect

Page 9: Cursul 3 Corelatia Si Regresia Liniara

Coeficient de corelație (r)

Prag de semnificație (p)

Număr de participanți (N)

Page 10: Cursul 3 Corelatia Si Regresia Liniara

Norul de puncte ca modalitate a a testa normalitatea distribuției

• Norul de puncte evidențiază patternul de organizare a datelor, fiind și o modalitate de a testa normalitatea distribuției.

• Atunci când normalitatea este încălcată, norul de puncte tinde să fie asimetric la unul dintre capete (Tabachnick, & Fidell, 2007).

• Forma norului de puncte ne oferă detalii şi despre variabilitatea datelor. Cu cât variabilitatea creşte, cu atât corelaţia scade.

• Variabilitatea scăzută se obţine în cazul datelor omogene, leptocurtice, asimetrice pozitiv sau negativ.

• De asemenea, norul de puncte este o modalitate eficientă de a depista outlierii bivarați sau valorile aberante.

Page 11: Cursul 3 Corelatia Si Regresia Liniara

Norul de puncte ca modalitate a a testa normalitatea distribuției

Page 12: Cursul 3 Corelatia Si Regresia Liniara

Intensitatea asocierii dintre variabile – coeficientul de determinare

Page 13: Cursul 3 Corelatia Si Regresia Liniara

r 2 x 100 –coeficientul de determinare

- procentul din dispersia variabilei depndente explicat evoluția variabilei independente (cât

de mare este influența variabilei

independente asupra celei

dependente)

Page 14: Cursul 3 Corelatia Si Regresia Liniara

Cauzele care pot afecta precizia unui coeficient de corelaţie

• Presupunerea că între x şi y există coliniaritate, adică faptul că norului de puncte ce materializează corelaţia i-ar putea fi ajustată o linie dreaptă numită linia de regresie a lui y în raport cu x.

• Distribuţiile atipice care, prezintă valori atipice la extremele seriei de variaţie

• Erorile de introducere a datelor

• Erorile de eşantionare: cu cât omogenitatea grupului este mai mare, cu atât corelaţia descreşte

• Erorile de măsurătoare sau de tastare

Page 15: Cursul 3 Corelatia Si Regresia Liniara

Corelația și mărimea eșantionului• O corelație slabă poate fi semnificativă statistic dacă

eșantionul este mare → cu cât creşte numărul de subiecţi, creşte variabilitatea eşantionului → scăderea coeficientului de corelaţie dar → creşte semnificaţia statistică. Este greşit să afirmăm că am obţinut o corelaţie slabă din cauza numărului mic de subiecţi!!!

• D.p.d.v teoretic și corelațiile slabe pot fi importante• Exemplu: un grup de cercetători a demonstrat că între

consumul aspirinei şi atacul de cord există o corelație de -.034, ceea ce înseamnă că folosirea aspirinei explică doar 1% din variația apariției atacului de cord, → adică dintr-un grup de 20.000 persoane care nu consumau aspirină, 72 făceau atac de cord !!!

Page 16: Cursul 3 Corelatia Si Regresia Liniara

Corelația parțială

• Relaţia dintre două variabile este afectată de o a treia variabilă. Acest lucru este evident în cazul unor relaţii false sau a unor relaţii de moderare.

Page 17: Cursul 3 Corelatia Si Regresia Liniara

Relaţii false între două variabileC

X

Y X

C

Y

Exemplul 1: Zilele ploioase duc la o dispoziție afectivă negativă.In realitate, există alţi factori precum presiunea atmosferică, gradul de luminozitate pot influenţa dispoziţia afectivă, nu ploaia propriu-zis. Exemplul 2: Persoanele mai scunde au părul mai lung. Dacă avem în vedere variabila gen care corelează atât cu lungimea părului cât şi cu înălţimea, obţinem un alt rezultat. Femeile au păr mai lung şi sunt mai scunde, iar relaţia dintre X şi Y devine nesemnificativă, dacă ţinem cont de gen.

Page 18: Cursul 3 Corelatia Si Regresia Liniara

Relaţie între X şi Y moderată de a treia variabilă

X

C

Y

Exemplul 3: Relația dintre timpul stat la soare şi nivelul de bronzare.Dacă avem în vedere variabila tip de ten, rezultatele sunt diferite.

Page 19: Cursul 3 Corelatia Si Regresia Liniara

Relaţia între X şi Y mediată de a treia variabilă

X C Y

Exemplul 4: Relația dintre motivația pentru învățare şi performanțele şcolare este mediată de strategiile de învățare.Motivaţia pentru învăţare duce la alegerea unor strategii mai eficiente care, la rândul lor, duc la rezultate şcolare ridicate.

Page 20: Cursul 3 Corelatia Si Regresia Liniara

Paşi SPSS pentru calculul corelaţiei parţiale

Page 21: Cursul 3 Corelatia Si Regresia Liniara

Paşi SPSS pentru calculul corelaţiei parţiale

Page 22: Cursul 3 Corelatia Si Regresia Liniara
Page 23: Cursul 3 Corelatia Si Regresia Liniara

1. există o corelație bivariată (Pearson) puternică semnificativă statistic între reprezentări spațiale și calcul aritmetic.

2. ! QI corelează semnificativ cu ambele variabile!

3. In partea a doua a tabelului (Controlling for QI) observăm că de această dată corelația dintre Reprezentarea spațială și calculul aritmetic devine nesemnificativă legătura dintre cele două variabile nu era decât efectul influenței pe care o exercita inteligența asupra lor.

(Marian Popa, 2009, Statistică psihologică – nivel intermediar, note de curs).

• Dacă relația dintre Reprezentarea spațială și Calculul aritmetic ar fi rămas semnificativă, în condițiile în care influența QI este eliminată, am fi putut vorbi despre existența uni corelații parțiale.

Page 24: Cursul 3 Corelatia Si Regresia Liniara

Regresia liniară

Page 25: Cursul 3 Corelatia Si Regresia Liniara

Regresia liniară• frecvent utilizată în cercetarea psihologică – pentru validarea unor modele teoretice– pentru scopuri practice, precum selecția.

ExempluCunoscând nivelul inteligenței unui elev, putem prezice

performanța sa şcolară. • permite să estimăm rezultatele viitoare pe baza unor

indicatori din prezent

• Variabila ale cărei valori dorim să le prezicem, se numeşte criteriu,

• Variabila ale cărei valori le utilizăm pentru a prezice valorile criteriului, se numeşte predictor

Page 26: Cursul 3 Corelatia Si Regresia Liniara

Regresia liniară• pleacă de la premisa unei corelaţii puternice între predictor

şi criteriu

• Măsura în care norul de puncte descrie o relaţie liniară între variabile poate fi ilustrată prin trasarea unei drepte prin acest nor de puncte care conturează patternul norului de puncte şi care se numeşte linie de regresie

• Regresia liniară simplă - există un singur predictor (variabila independentă) şi un singur criteriu (variabila dependentă)

• Regresia multiliniară sau multiplă presupune mai multe surse de variaţie, ecuaţia de regresie include mai mulţi factori ce intervin cu ponderi diferite în predicţia criteriului.

Page 27: Cursul 3 Corelatia Si Regresia Liniara

Ecuația de regresie

Page 28: Cursul 3 Corelatia Si Regresia Liniara

Ecuația de regresie

Page 29: Cursul 3 Corelatia Si Regresia Liniara

Linia de regresie

Page 30: Cursul 3 Corelatia Si Regresia Liniara

Regresia liniară multiplă

• Regresia liniară multiplă presupune folosirea mai multor predictori.

• Ecuaţia de regresie este următoarea:

Y = B0 + B1·X1 + B2·X2 + ... + Bn·Xn

Page 31: Cursul 3 Corelatia Si Regresia Liniara

Condiţii de aplicare pentru regresia liniară

simplă şi multiplă 1. Variabila dependentă (VD) și variabila independentă (VI)

să fie variabile cantitative normal distribuite.

2. Relaţia dintre VD şi VI să fie liniară (scatterplot - matrix).

3. Erorile (reziduurile) să fie normal distribuite (histogramă sau Kolmogorov-Smirnov).

4. Evitarea multicoliniarităţii (corelaţii mari 0,50 – 0,60 între oricare două VI).

5. Evitare cazurilor extreme şi a cazurilor influente (inspectarea tabelului Residuals statitics).

6. Evitarea homoscedasticităţii : reziduurile vor avea aceeaşi varianţă pentru fiecare nivel al variabilelor predictor (VI).

Page 32: Cursul 3 Corelatia Si Regresia Liniara

Calculul regresiei liniare simple (Pasul 1)

Page 33: Cursul 3 Corelatia Si Regresia Liniara

Calculul regresiei liniare simple (Pasul 2)

Page 34: Cursul 3 Corelatia Si Regresia Liniara
Page 35: Cursul 3 Corelatia Si Regresia Liniara

• Primul tabel arată variabilele din modelul de predicție.

• Al doilea tabel, Model Summary, oferă coeficientul de corelație dintre variabila dependentă și variabila independentă (R – coeficientul de corelație multiplă, pentru regresia multiliniară), coeficientul de determinare (R2) care arată procentul de variație al variabilei criteriu explicat de variabila predictor.

• Al treilea tabel, ANOVA, testul F arată în ce măsură există diferențe semnificative statistic între estimările oferite pe baza ecuației de regresie implicate în comparație cu estimările bazate pe valoarea mediei (Sava, 2004). Pentru un model eficient, F este semnificativ statistic.

• Al patrulea tabel, Coefficients, conține coeficienții standardizați și nestandardizați de regresie și valoarea constantei. Testul t de pe ultima coloană arată dacă fiecare coeficient de regresie este semnificativ diferit de 0. Pragul de semnificație mai mic de 0,05 arată că predictorul ales este un predictor semnificativ.