Biostatistica MG - Cursul 5

Recapitulare - Tipuri de date • Date numerice – vârsta, greutatea, talia, hemoglobina, tensiunea

arterială, calcemia, glicemia, colesterolul, transaminazele etc. valori continue sau discrete numere întregi sau zecimale

• Date ordinale – stadiul evolutiv, gravitatea, starea la externare, gradul de rudenie etc. codurile folosite au o ordine

• Date nominale – codul bolii, grupa sanguină, consistenţa ficatului, culoarea urinei etc. codurile folosite NU au o ordine

• Date alfanumerice – nume, prenume, adresă, loc de muncă, descrierea bolii etc. în general texte sau alte simboluri

Graficul Histogramă Poligonul frecvenţelor

Tipuri de distribuţii

Distribuţie puternic asimetrică Distribuţie asimetrică

Distribuţie simetrică Distribuţie uşor asimetrică

Curba Gauss - curba repartiţiei NORMALE

• Unul din cazurile cele mai importante este acela când repartiţia datelor respectă densitatea ideală - aşa numita repartiţie Gauss sau normală

Curba Gauss

Curba Gauss Coeficientul de inteligenţă

Media=100, Deviaţia standard=15

Cursul 5 Corelaţia statistică

UNIVERSITATEA DE MEDICINĂ ŞI FARMACIE

DIN CRAIOVA

• Noţiunea de corelaţie statistică • Graficul Scatter

• Coeficientul de corelaţie Pearson - r • Interpretarea coeficientului de corelaţie

Karl Pearson (1856-1936) Francis Galton (1822-1911)

Corelaţia - Definiţie • Este un termen general folosit pentru a defini

interdependenţa sau legătura dintre variabilele observate în populaţii statistice.

• Apare uneori cu un înţeles foarte larg, acoperind orice legătură statistică fie între variabile cantitative, fie între variabile calitative, fie între ambele tipuri de variabile.

• În sens restrâns este o măsură a gradului de legătură statistică dintre variabilele cantitative, sub numele de „coeficient de corelaţie”.

• Cel mai des folosit este coeficientul de corelaţie r al lui Pearson (coeficient de corelaţie liniară), care măsoară gradul de legătură între variabile.

Graficul Scatter modalitate de vizualizare a relaţiei dintre 2 parametri

• Selectarea datelor • Meniul INSERT • Opţiunea Chart…

Graficul de tip scatter oferă informaţii privind Corelaţia

Omogenitatea Simetria

datelor reprezentate şi analizate

0 10 20 30 40 50 60 70 80 90 100

VSH 1 ora

Corelaţia dintre valorile VSH la 1 oră şi 2 ore la pacienţi cu diferite afecţiuni hepato-renale

80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240

TA sistolică

Corelaţia dintre TA sistolică si diastolică la pacienţi cu diferite afecţiuni hepato-renale

115 120 125 130 135 140 145 150

Na seric

Corelaţia dintre sodiul şi potasiul seric la pacienţi cu diferite afecţiuni hepato-renale

Coeficientul de corelaţie • Pentru două serii de date distribuite gaussian, cel

mai sintetic indicator al corelaţiei este coeficientul de corelaţie r al lui Pearson r = RAPORTUL DINTRE COVARIAŢIA SERIILOR ŞI

PRODUSUL DEVIAŢIILOR LOR STANDARD

unde X=x1, x2,…,xn şi Y=y1, y2, ..,yn sunt valorile măsurate, iar

X̅ , Y ̅ sunt mediile de eşantionare ale seriilor respective.

Coeficientul de corelaţie

• Coeficientul de corelaţie r are valori cuprinse între -1 şi 1.

• Pătratul coeficientului de corelaţie, notat r2, reprezintă coeficientul de determinare între cei doi parametri şi are valori între 0 şi 1.

• Putem calcula intervalul de încredere de 95% pentru coeficientul de corelaţie Pearson - se consideră că r este semnificativ atunci când intervalul de încredere nu conţine valoarea 0.

Interpretare

-1 …………………………….0……………………………….1

Corelaţie perfectă inversă-negativă

Corelaţie perfectă directă-pozitivă

Corelaţie nulă inexistentă

Semnul + sau – arată tipul (direcţia) relaţiei Valoarea numerică arată intensitatea relaţiei

Interpretare

• În cazul unui coeficient de corelaţie pozitiv (ex. r = 0,5) avem o corelaţie directă - cele două variabile corelate variază în acelaşi sens (când una creşte, şi cealaltă creşte, respectiv când una scade, şi cealaltă scade).

• În cazul unui coeficient de corelaţie negativ (ex. r = -0,5) avem o corelaţie inversă, cele două variabile corelate variază în sens contrar (când una creşte, cealaltă scade).

IMC=greutate(kg)/ înălţime2(m)

y = 0.208x + 12.245 r = 0.670

40 60 80 100 120 140 160

Greutate

Corelaţia dintre greutate si IMC

y = -0.1173x + 48.37 r = - 0.239

135 145 155 165 175 185 195 205

Înalţime

Corelaţia dintre înalţime si IMC

Interpretarea rapidă a coeficientului r

r є [0; 0.2] → corelaţie foarte slabă, inexistentă

r є [0.2; 0.4] → corelaţie slabă

r є [0.4; 0.6] → corelaţie rezonabilă

r є [0.6; 0.8] → corelaţie înalta

r є [0.8; 1] → corelaţie foarte înaltă - relaţie foarte strînsă între variabile sau eroare de calcul

Exemple – seturi de date şi valori r

Dacă valoarea absolută a coeficientului de corelaţie este slabă (aproape de 0), nu trebuie să se conchidă neapărat că nu există legătură statistică între cele două variabile - legătura poate să existe, dar nu este liniară.

OBSERVAŢII

• Pentru date care nu au o distribuţie gaussiană, dar care se pot ordona, fără a avea un număr mare de valori egale intre ele, putem folosi coeficientul ρ (rho) Spearman, obţinut prin testul neparametric Spearman de corelaţie a rangurilor.

• În cazul datelor ale căror ranguri egale depăşeşte 25% din numărul lor este indicate folosirea testului τ (tau) al lui Kendall.

Teste statistice • Testele statistice verifică veridicitatea unor ipoteze - inferenţe statistice

ipoteza H0 (sau ipoteza de nul): datele nu prezintă legături între ele, sunt independente / valorile comparate nu diferă între ele

ipoteza H1 (sau ipoteza alternativă): datele prezintă legături între ele, sunt dependente/ valorile comparate diferă între ele

• Rezultatul p al testului, furnizat ca un număr între 0 şi 1, reprezintă probabilitate de a face o eroare dacă respingem ipoteza H0 a testului.

• Dacă p este mai mic decât pragul de semnificaţie α ales – de obicei α=0,05 - respingem ipoteza H0 şi admitem că este adevărată ipoteza H1.

• Interpretarea valorilor p se face la majoritatea testelor statistice astfel: p < 0.05, legătura statistică este semnificativă (S, încredere 95%). p < 0.01, legătura statistică este semnificativă (S, încredere 99%). p < 0.001, legătura statistică este înalt semnificativă (HS, încredere 99.9%). p > 0.05, legătura statistică este nesemnificativă (NS).

Semnificaţie statistică • Pentru a vedea daca valoarea lui r este semnificativă

statistic, deci dacă cei doi parametri sunt corelaţi, se poate calcula parametrul t, care, conform distribuţiei Student, se poate transforma într-o valoare care arată probabilitatea de eroare - p, considerând că avem N-2 grade de libertate (degrees of freedom - df , N = numărul de perechi de valori).

p < 0,05 - corelaţie semnificativă statistic între parametrii analizaţi

MS Excel ----- p=TDIST(t,df,nr_direcţii _ critice)

ATENŢIE! • Ecuaţia de regresie este relaţia matematică care exprimă

dependenţa dintre două sau mai multe variabile. • Frecvent se foloseşte ecuaţia de regresie liniară =

dreapta de regresie: y = a·x +b

unde y este variabila dependentă iar x este variabila independentă.

Parametrul a (panta dreptei de regresie = „slope”) este denumit „coeficient de regresie”

– nu trebuie confundat cu „coeficientul de corelaţie”!!

• Trebuie aleasă ecuaţia de regresie care să descrie cu cea mai mică eroare relaţia dintre variabile

• Estimarea parametrilor a („slope”) şi b („intercept”) se face uzual prin „metoda celor mai mici pătrate”

y = 1.217 x + 10.456 r = 0.965

0 10 20 30 40 50 60 70 80 90 100

VSH 1 ora

Corelaţia dintre valorile VSH la 1 oră şi 2 ore la pacienţi cu diferite afecţiuni hepato-renale

Întrebări

Biostatistica MG - Cursul 5

Documents

Introduzione al corso di Bioinformatica e Biostatistica AA ...m.docente.unife.it/andrea.benazzo/materiale-didattico/1-bb... · Introduzione al corso di Bioinformatica e Biostatistica

articol biostatistica

CURSUL AL VII-LEA 1. Eşantion - umfcv.ro MG - Cursul VII.pdf · CURSUL AL VII-LEA 1. Eşantion. ... bineînţeles un simplu joc de cuvinte şi nu trebuie luat în serios atunci când

Cursuri 3 si 4 biostatistica

CURSUL AL VI-LEA 1. Introducere MG - Cursul VI.pdf · Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc

Biostatistica 2015

Cursul 3_Dobanda Si Cursul de Schimb

Cursul 1,Cursul 2,Cursul 3

Informatica Medicala Si Biostatistica

Referat - Biostatistica

Biostatistica Finala Teste

Biostatistica Rus

Biostatistica MG - Cursul 4 - Histograma + grafice

CARTE BIOSTATISTICA

Biostatistica Medicala

Bioinformatica e Biostatistica - 2011/12 Modulo di Biostatistica · 2012-03-25 · Bioinformatica e Biostatistica - 2011/12 Modulo di Biostatistica Alessandra Micheletti Dipartimento

Cursul 6 - umfcv.ro MG - Cursul 6 - Tabele de... · Sensibilitatea şi Specificitatea

Cursul 10 Socul - pathophysiology.umft.ropathophysiology.umft.ro/data/media/ro/program/mg/cursul-10-socul.pdf · Exceptie: socul cardiogen din infarctul miocardic acut (IM): eliberarea

CURSUL 9 Fiziopatologia insuficienţei renale acute şi cronicepathophysiology.umft.ro/data/media/ro/program/mg/curs_09_fiziopato... · - medicamente nefrotoxice: antibiotice aminoglicozidice

elemente de biostatistica