Biostatistica MG - Cursul 5

Preview:

Citation preview

Recapitulare - Tipuri de date • Date numerice – vârsta, greutatea, talia, hemoglobina, tensiunea

arterială, calcemia, glicemia, colesterolul, transaminazele etc. valori continue sau discrete numere întregi sau zecimale

• Date ordinale – stadiul evolutiv, gravitatea, starea la externare, gradul de rudenie etc. codurile folosite au o ordine

• Date nominale – codul bolii, grupa sanguină, consistenţa ficatului, culoarea urinei etc. codurile folosite NU au o ordine

• Date alfanumerice – nume, prenume, adresă, loc de muncă, descrierea bolii etc. în general texte sau alte simboluri

Graficul Histogramă Poligonul frecvenţelor

Tipuri de distribuţii

Distribuţie puternic asimetrică Distribuţie asimetrică

Distribuţie simetrică Distribuţie uşor asimetrică

Curba Gauss - curba repartiţiei NORMALE

• Unul din cazurile cele mai importante este acela când repartiţia datelor respectă densitatea ideală - aşa numita repartiţie Gauss sau normală

Curba Gauss

Curba Gauss Coeficientul de inteligenţă

Media=100, Deviaţia standard=15

Cursul 5 Corelaţia statistică

UNIVERSITATEA DE MEDICINĂ ŞI FARMACIE

DIN CRAIOVA

SUMAR

• Noţiunea de corelaţie statistică • Graficul Scatter

• Coeficientul de corelaţie Pearson - r • Interpretarea coeficientului de corelaţie

Karl Pearson (1856-1936) Francis Galton (1822-1911)

Corelaţia - Definiţie • Este un termen general folosit pentru a defini

interdependenţa sau legătura dintre variabilele observate în populaţii statistice.

• Apare uneori cu un înţeles foarte larg, acoperind orice legătură statistică fie între variabile cantitative, fie între variabile calitative, fie între ambele tipuri de variabile.

• În sens restrâns este o măsură a gradului de legătură statistică dintre variabilele cantitative, sub numele de „coeficient de corelaţie”.

• Cel mai des folosit este coeficientul de corelaţie r al lui Pearson (coeficient de corelaţie liniară), care măsoară gradul de legătură între variabile.

Graficul Scatter modalitate de vizualizare a relaţiei dintre 2 parametri

• Selectarea datelor • Meniul INSERT • Opţiunea Chart…

Graficul de tip scatter oferă informaţii privind Corelaţia

Omogenitatea Simetria

datelor reprezentate şi analizate

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

VSH

2 or

e

VSH 1 ora

Corelaţia dintre valorile VSH la 1 oră şi 2 ore la pacienţi cu diferite afecţiuni hepato-renale

50

60

70

80

90

100

110

120

130

140

150

80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240

TA d

iast

olic

ă

TA sistolică

Corelaţia dintre TA sistolică si diastolică la pacienţi cu diferite afecţiuni hepato-renale

2.5

3.0

3.5

4.0

4.5

5.0

5.5

115 120 125 130 135 140 145 150

K se

ric

Na seric

Corelaţia dintre sodiul şi potasiul seric la pacienţi cu diferite afecţiuni hepato-renale

Coeficientul de corelaţie • Pentru două serii de date distribuite gaussian, cel

mai sintetic indicator al corelaţiei este coeficientul de corelaţie r al lui Pearson r = RAPORTUL DINTRE COVARIAŢIA SERIILOR ŞI

PRODUSUL DEVIAŢIILOR LOR STANDARD

sau

unde X=x1, x2,…,xn şi Y=y1, y2, ..,yn sunt valorile măsurate, iar

X̅ , Y ̅ sunt mediile de eşantionare ale seriilor respective.

Coeficientul de corelaţie

• Coeficientul de corelaţie r are valori cuprinse între -1 şi 1.

• Pătratul coeficientului de corelaţie, notat r2, reprezintă coeficientul de determinare între cei doi parametri şi are valori între 0 şi 1.

• Putem calcula intervalul de încredere de 95% pentru coeficientul de corelaţie Pearson - se consideră că r este semnificativ atunci când intervalul de încredere nu conţine valoarea 0.

Interpretare

-1 …………………………….0……………………………….1

Corelaţie perfectă inversă-negativă

Corelaţie perfectă directă-pozitivă

Corelaţie nulă inexistentă

Semnul + sau – arată tipul (direcţia) relaţiei Valoarea numerică arată intensitatea relaţiei

Interpretare

• În cazul unui coeficient de corelaţie pozitiv (ex. r = 0,5) avem o corelaţie directă - cele două variabile corelate variază în acelaşi sens (când una creşte, şi cealaltă creşte, respectiv când una scade, şi cealaltă scade).

• În cazul unui coeficient de corelaţie negativ (ex. r = -0,5) avem o corelaţie inversă, cele două variabile corelate variază în sens contrar (când una creşte, cealaltă scade).

IMC=greutate(kg)/ înălţime2(m)

y = 0.208x + 12.245 r = 0.670

15

20

25

30

35

40

45

50

40 60 80 100 120 140 160

IMC

Greutate

Corelaţia dintre greutate si IMC

y = -0.1173x + 48.37 r = - 0.239

15

20

25

30

35

40

45

50

135 145 155 165 175 185 195 205

IMC

Înalţime

Corelaţia dintre înalţime si IMC

Interpretarea rapidă a coeficientului r

r є [0; 0.2] → corelaţie foarte slabă, inexistentă

r є [0.2; 0.4] → corelaţie slabă

r є [0.4; 0.6] → corelaţie rezonabilă

r є [0.6; 0.8] → corelaţie înalta

r є [0.8; 1] → corelaţie foarte înaltă - relaţie foarte strînsă între variabile sau eroare de calcul

Exemple – seturi de date şi valori r

Dacă valoarea absolută a coeficientului de corelaţie este slabă (aproape de 0), nu trebuie să se conchidă neapărat că nu există legătură statistică între cele două variabile - legătura poate să existe, dar nu este liniară.

OBSERVAŢII

• Pentru date care nu au o distribuţie gaussiană, dar care se pot ordona, fără a avea un număr mare de valori egale intre ele, putem folosi coeficientul ρ (rho) Spearman, obţinut prin testul neparametric Spearman de corelaţie a rangurilor.

• În cazul datelor ale căror ranguri egale depăşeşte 25% din numărul lor este indicate folosirea testului τ (tau) al lui Kendall.

Teste statistice • Testele statistice verifică veridicitatea unor ipoteze - inferenţe statistice

ipoteza H0 (sau ipoteza de nul): datele nu prezintă legături între ele, sunt independente / valorile comparate nu diferă între ele

ipoteza H1 (sau ipoteza alternativă): datele prezintă legături între ele, sunt dependente/ valorile comparate diferă între ele

• Rezultatul p al testului, furnizat ca un număr între 0 şi 1, reprezintă probabilitate de a face o eroare dacă respingem ipoteza H0 a testului.

• Dacă p este mai mic decât pragul de semnificaţie α ales – de obicei α=0,05 - respingem ipoteza H0 şi admitem că este adevărată ipoteza H1.

• Interpretarea valorilor p se face la majoritatea testelor statistice astfel: p < 0.05, legătura statistică este semnificativă (S, încredere 95%). p < 0.01, legătura statistică este semnificativă (S, încredere 99%). p < 0.001, legătura statistică este înalt semnificativă (HS, încredere 99.9%). p > 0.05, legătura statistică este nesemnificativă (NS).

Semnificaţie statistică • Pentru a vedea daca valoarea lui r este semnificativă

statistic, deci dacă cei doi parametri sunt corelaţi, se poate calcula parametrul t, care, conform distribuţiei Student, se poate transforma într-o valoare care arată probabilitatea de eroare - p, considerând că avem N-2 grade de libertate (degrees of freedom - df , N = numărul de perechi de valori).

p < 0,05 - corelaţie semnificativă statistic între parametrii analizaţi

MS Excel ----- p=TDIST(t,df,nr_direcţii _ critice)

ATENŢIE! • Ecuaţia de regresie este relaţia matematică care exprimă

dependenţa dintre două sau mai multe variabile. • Frecvent se foloseşte ecuaţia de regresie liniară =

dreapta de regresie: y = a·x +b

unde y este variabila dependentă iar x este variabila independentă.

Parametrul a (panta dreptei de regresie = „slope”) este denumit „coeficient de regresie”

– nu trebuie confundat cu „coeficientul de corelaţie”!!

• Trebuie aleasă ecuaţia de regresie care să descrie cu cea mai mică eroare relaţia dintre variabile

• Estimarea parametrilor a („slope”) şi b („intercept”) se face uzual prin „metoda celor mai mici pătrate”

y = 1.217 x + 10.456 r = 0.965

0

20

40

60

80

100

120

0 10 20 30 40 50 60 70 80 90 100

VSH

2 or

e

VSH 1 ora

Corelaţia dintre valorile VSH la 1 oră şi 2 ore la pacienţi cu diferite afecţiuni hepato-renale

Întrebări

Recommended