133
TEORIA PROBABILITĂŢILOR 7 ELEMENTE DE BIOSTATISTICĂ ANALIZA STATISTICĂ A DATELOR BIOLOGICE

Informatica Statistica Curs

Embed Size (px)

DESCRIPTION

Informatica statistica

Citation preview

Page 1: Informatica Statistica Curs

TEORIA PROBABILITĂŢILOR

7

ELEMENTE DE BIOSTATISTICĂ

ANALIZA STATISTICĂ A DATELOR BIOLOGICE

Page 2: Informatica Statistica Curs

BIOSTATISTICA

8

1. BIOSTATISTICA

1.1. INTRODUCERE

Statistica matematică rămâne cea mai adecvată şi exactă metodă de interpretare a

fenomenelor de masă, cu posibile legături cauzale, multifactoriale, unde legitatea se

manifestă şi se poate observa prin rezultanta unui număr mare de fapte luate în studiu.

Ca ştiinţă matematică, statistica îşi desăvârşeşte sensul şi prin biostatistică cu

aplicaţii în domenii ca: Medicină, Biologie, Farmacie, Agricultură, Ecologie.

Biostatistica poate fi definită ca fiind formată din metodele probabilistice utilizate

pentru culegerea, descrierea, analiza, interpretarea şi prezentarea datelor medicale sau

biologice în general. Aceasta este cunoscută şi cu numele de biometrie şi s-a desprins

ca subramură a statisticii, odată cu dezvoltarea tehnicilor de studiu a datelor de natură

biologică.

Biostatistica este o ramură a informaticii medicale sau a bioinformaticii,

integrându-se perfect zonei ştiinţifice de prelucrare a informaţiei.

Din punct de vedere al medicului sau farmacistului, această ştiinţă trebuie

înţeleasă nu ca un aparat matematic greoi plin de proprietăţi, teoreme şi demonstraţii,

ci trebuie văzută partea sa practică, utilă pentru realizarea şi interpretarea rezultatelor

obţinute în urma analizelor. În acest sens, computerul ne ajută din plin prin programele

existente (unele chiar oferite gratuit: EpiInfo 3.3.2-2005), astfel încât calculul

formulelor matematice utilizate în biostatistică devine uşor de realizat, problema reală

a utilizatorului fiind doar alegerea protocolului corect de studiu şi interpretarea

pertinentă a rezultatelor obţinute.

1.2. TIPURI DE VARIABILE

Informaţia existentă este materializată prin caracteristici definite şi utilizate în

studiile statistice.

Variabila este o caracteristică sau un atribut măsurabil, care diferă de la subiect la

subiect printr-o variaţie intrinsecă, putându-şi modifica valoarea în timp şi/sau spaţiu

sub influenţa diferiţilor factori. Dacă nu ar exista această dispersie sau variaţie a

datelor, atunci şi rezultatul experienţelor, fenomenelor sau proceselor ar fi determinist

fiind exprimat într-o formă punctuală iar aplicaţia statistică nu ar avea sens.

Există două tipuri de variabile (date) ce definesc natura informaţiei: cantitative şi

respectiv, calitative.

Page 3: Informatica Statistica Curs

BIOSTATISTICA

9

Datele de tip calitativ mai sunt cunoscute şi cu numele de variabile categoriale

sau atributive. Valorile acestora variază ca sortiment, categorie sau clasă, nu după

magnitudine sau mărime. Practic, nu putem realiza o ordonare între valorile existente.

De exemplu, putem cere fiecărui om dintr-un grup, să-şi exprime părerea asupra

celei mai frumoase culori dintr-o paletă dată. Evident, nu putem găsi o relaţie de genul

roşu este mai mic decât albastru (rugăm a nu se face apel aici la lungimea de undă sau

frecvenţa specifică culorii respective). Poate un exemplu mai grăitor ar fi sexul unui

nou născut sau tipurile de religii existente, sau de ce nu, partidele politice .

Pentru a măsura o variabilă de tip categorial se folosesc scale nominale. Acestea

vor defini grupurile sau categoriile existente prin asignarea unor nume. Nefiind

informaţie de tip cantitativ este imposibil de realizat ordonarea acestora. De interes

practic şi posibil de studiat sunt frecvenţele de apariţie a categoriilor definite

(anticipăm aici şi menţionăm că modul1 sau indicatorul statistic valoare modală poate

prezenta interes în acest caz).

Exemple: afilierea politică, preferinţa religioasă, culoarea ochilor, starea civilă etc.

Datele sau variabilele de tip cantitativ se caracterizează prin variaţie în

magnitudine, de la element la element. Astfel, acestea pot fi ordonate, încât relaţii de

genul mai mic sau mai mare au sens în acest context. După fineţea pasului de evaluare

a relaţiei mai mare sau mai mic, putem împărţi variabilele cantitative în discrete şi

continue.

O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi: numărul de

note de 10 la examenul de admitere, sau numărul de nou născuţi într-o zi la o

maternitate.

O variabilă de tip continuu poate lua orice valoare dintr-un interval definit. Spre

exemplu temperatura, valoarea presiunii arteriale, sau înălţimea unei persoane au valori

de tip continuu. Evident, precizia de măsurare depinde de utilitatea informaţiei, astfel

încât putem afirma că valoarea măsurată cu o exactitate de o zecimală este suficientă în

exprimarea temperaturii, folosind scara Celsius de măsură.

Variabilele de tip cantitativ folosesc trei scale (scări) de măsură: ordinală, interval

şi raport.

Scala de tip ordinal prezintă în plus faţă de scala nominală caracteristica de

ordonare a claselor de grupare a datelor. Cu toate acestea, este greu sau imposibil de

specificat dimensiunea distanţei sau diferenţei dintre clase. De exemplu, este imposibil

de cuantificat diferenţa dintre clasele (depinde de cel ce apreciază): foarte frumos,

frumos, acceptabil, urât. Dar logic ordinea lor este clară.

Scala de tip interval conţine trăsăturile unei scale ordinale şi în plus, diferenţele

dintre clasele scalei pot fi specificate. O unitate a intervalului scalei are aceeaşi

interpretare, indiferent de clasa căreia îi aparţine. Cu toate acestea, raportul este

imposibil de interpretat. Nu există punctul de referinţă 0 în cadrul acestei scale de

măsură. Acesta a fost ales doar arbitrar, după o anumită logică empirică. De exemplu,

în scala Celsius de temperatură, nivelul de 0 a fost definit empiric, ca punctul de îngheţ

1 Modul este valoarea din şir de frecvenţă maximă (sau valoarea întâlnită cel mai des).

Page 4: Informatica Statistica Curs

BIOSTATISTICA

10

al apei pure. Şi scala Fahrenheit de măsură este un bun exemplu. Dacă temperaturile

măsurate sunt 300C, respectiv 60

0C nu putem afirma că temperatura de 60 este dublul

celei de 30. Raportul nu poate fi corect interpretat. Iată, 300C înseamnă 86

0F, iar 60

0C

înseamnă 1400F. Raportul de 21 nu se menţine şi în scara Fahrenheit, cu toate că

temperaturile sunt aceleaşi.

Scala de tip raport are în plus faţă de scala interval, definirea concretă a originii

sistemului de măsură, astfel încât raportul are sens şi se poate interpreta. Scara Kelvin

este un exemplu corect în acest sens.

Dacă este să reprezentăm grafic tipurile de scale de măsură, acestea ar arăta ca în

figura 2.2 1.

Figura 2.2 1 - Scale de măsură pentru variabile.

Interpretarea este în sensul următor: oricând o variabilă ce poate fi măsurată pe o

scară ordinală poate fi tratată ca o variabilă de scală nominală, dar informaţia va fi

pierdută şi astfel avem şanse să fim deficitari în concluziile obţinute.

După legătura existentă între variabile, acestea se împart în dependente, respectiv

independente.

Variabile independente (sau factori) sunt de obicei în cadrul experimentului

manipulate de cercetător. Prin modificarea valorilor acestora, ca urmare a legăturilor

existente, se modifică şi variabilele dependente .

De exemplu doza folosită pentru aplicarea unui anumit tratament este variabila

independentă iar efectul severităţii maladiei este cea dependentă. Ca observaţie finală

în acest exemplu, variabila independentă este aceea ce se poate modifica de specialist,

doctor, farmacist, iar variabila dependentă este efectul sau rezultatul urmărit.

1.3. VARIABILITATEA DATELOR MEDICALE

Prin natura lor datele medicale prezintă o variaţie intrinsecă, biologică ce implică

pentru analiză un studiu specific care face apel la teoria probabilităţilor. Pe lângă

această variaţie există şi modificări ale valorilor reale măsurate, datorate erorilor

generate de metoda metrologică aplicată, cât şi a impreciziei observatorilor.

Variaţia biologică prezintă interes şi este studiată, iar celelalte variaţii sunt erori ce

trebuie minimizate.

Scala

nominală

Scala

ordinală

Scala

interval

Scala raport

Page 5: Informatica Statistica Curs

BIOSTATISTICA

11

Datorită legăturilor interne şi externe, există în continuare variaţii de tip intra-

respectiv inter- grupuri.

Figura 2.3 1 - Surse de variaţie a datelor medicale.

Variaţiile datorate erorilor de măsură sunt caracterizate de inexactitate şi de

precizie. Întâlnite şi ca sinonime, acestea diferă semnificativ în teoria metrologică.

Inexactitatea este datorată incapacităţii de a măsura perfect o anumită mărime.

Aceasta nu se datorează erorii aparatului de măsură, ci depinde de factori perturbatori,

cum ar fi: modificări de temperatură, ale câmpului electric sau ale câmpului magnetic

de exemplu.

Precizia se referă la fidelitatea măsurătorii. Aceasta depinde de sensibilitatea

(fidelitatea) aparatului de măsură. Prin repetarea măsurătorii se va obţine (de dorit)

aceeaşi valoare. Precizia se măsoară în numărul de zecimale corecte pe care le obţinem

printr-o anumită măsurătoare.

1.4. REPREZENTAREA DATELOR STATISTICE

Datele culese experimental urmează a fi analizate conform metodelor statisticii.

Datele se culeg în general dintr-o populaţie statistică sau colectivitate statistică.

Elementele populaţiei sunt numite unităţi statistice sau indivizi. La un anumit moment

ne interesează o trăsătură comună a indivizilor, numită variabilă sau caracteristică.

În general, informaţiile ce se culeg sunt numai de la o parte din indivizi, nu din

întreaga populaţie. Aceasta este o cercetare selectivă. Astfel de indivizi formează

eşantionul sau selecţia de lucru.

O formă simplă de a obţine informaţii referitoare la populaţie din datele de pe

eşantioane este oferită de metodele statisticii descriptive. Aceasta implică culegerea

datelor, prezentarea lor sub formă de tabele, întocmirea unor reprezentări grafice şi

Variabilitate

totală

Analitică sau

metrologică

Biologică

Instrumentală De observator Individuală

Intra-

Intra-

Inter-

Inter-

Intra- Inter-

Page 6: Informatica Statistica Curs

BIOSTATISTICA

12

calculul indicatorilor statistici (astfel se extrag primele informaţii). Crearea tabelelor şi

a graficelor ajută la o interpretare mai uşoară a datelor.

Presupunem că avem şirul de date notat: x1, x2, …, xn. Acestea sunt culese în

ordinea realizării experimentale. Tabelul datelor primare reprezintă aceste date în

ordinea culegerii lor.

Este evident că acest tabel conţine o masă dezordonată de valori. Interpretarea lor

este greoaie, de aceea se creează al doilea tip de tabel, anume, tabelul datelor ordonate.

Acesta din urmă oferă mai multă informaţie, mai ales prin ordonarea datelor, dar este

încă greu de interpretat, în special la cantităţi mari de date. O nouă îmbunătăţire este

necesară.

Pentru a evidenţia caracteristicile variabilelor de studiu, se creează un alt tip de

tabel, cu datele grupate în intervale de clasă.

Gruparea termenilor

Pentru a reprezenta datele sub o formă mai restrânsă se foloseşte gruparea

acestora. Aceasta înseamnă crearea unui tabel cu două coloane pentru fiecare variabilă

de interes. În prima coloană se trece intervalul variabilei de studiu, iar în a doua se

trece numărul de apariţii în acel interval.

Intervalele trebuie să fie disjuncte şi consecutive, astfel încât de la valoarea

minimă până la valoarea maximă să fie acoperită toată plaja de valori.

Numărul indivizilor ce aparţin unui anumit interval (sau clasă) formează frecvenţa

absolută a intervalului, notată a1, a2, …, am (unde m este numărul de clase care nu

poate fi decât mai mic sau egal cu n, numărul de indivizi).

Avem relaţia:

m

jj na

1

, unde :

aj – frecvenţa absolută a clasei j.

m – numărul de clase.

n – numărul de indivizi.

Frecvenţa relativă fi se obţine raportând frecvenţa absolută ai la numărul de

indivizi, notat cu n.

n

af

jj şi avem relaţia: 1

11

n

n

n

af

m

j

jm

jj .

Tabelul 2.4 1 - Tabelul datelor primare

x1 x2 x3 x4 x5

x6 x7 x8 x9 x10

x11 x12 x13 x14 x15

x16 x17 x18 x19 x20

Page 7: Informatica Statistica Curs

BIOSTATISTICA

13

Frecvenţa cumulată este numărul de indivizi cumulaţi până la o anumită valoare

a variabilei de studiu.

La rândul ei frecvenţa cumulată poate fi absolută şi relativă. Pentru frecvenţele

cumulate se folosesc de obicei la notaţie litere mari.

Tabelul 2.4 2 – Exemplu generic de grupare a pacienţilor după vârstă.

Vârsta Frecvenţa

absolută (ai)

Frecvenţa

relativă (fi)

Frecvenţa

relativă

cumulată (Ai)

Frecvenţa

absolută

cumulată (Fi)

0 – 5 15 0,138 0,138 15

5 – 10 17 0,157 0,295 32

10 – 15 20 0,185 0,48 52

15 – 20 16 0,148 0,628 68

20 – 25 19 0,175 0,803 87

25 – 30 21 0,194 1 108

suma 108 1

Numărul intervalelor de grupare se poate calcula cu relaţia lui H.A. Sturgers :

)ln(322,31 nk , unde:

k – numărul de intervale (se ia partea întreagă).

n – numărul datelor de studiu.

Se poate folosi şi relaţia H.B. Mann şi A. Wald pentru n > 100 :

5

1

14

14

nk (se ia partea întreagă).

Intervalele de grupare au dimensiuni egale cu excepţia eventuală a celor extreme,

care de obicei au dimensiuni mai mari pentru a acoperi plaja de valori.

Dacă dimensiunea eşantionului este mai mică decât 25, atunci nu se aplică

împărţirea pe clase.

Reprezentarea datelor prin diagrame

Graficele se creează prin reprezentarea proporţională cu valorile numerice, a

formelor de bare, linii, sectoare de cerc sau chiar puncte aflate în anumite sisteme de

coordonate. Forma graficelor scoate în evidenţă proprietăţi care se observă greu din

prezentarea tabelară. Diagramele nu dovedesc o legitate sau o relaţie, dar scot în

evidenţă posibile trăsături sau sugerează caracteristici ce trebuie apoi verificate.

Histograma

Este reprezentarea sub formă grafică, a unor dreptunghiuri cu înălţimea

proporţională cu frecvenţa, iar cu baza egală cu dimensiunea intervalului de grupare.

Există histograme ale frecvenţelor absolute, relative şi cumulate.

Page 8: Informatica Statistica Curs

BIOSTATISTICA

14

Exemplu

Figura 2.4 1 – Histograma frecvenţelor absolute.

Figura 2.4 2 – Histograma frecvenţelor absolute cumulate.

Diagrama cu linii

În locul barelor folosite la histogramă se pot trasa linii verticale ce trec prin

punctele definite de valoarea frecvenţelor reprezentate.

Poligonul frecvenţelor

Este asemănător histogramei. Se trasează punctele corespunzătoare centrului

intervalului şi frecvenţei dorite, apoi se unesc prin linii aceste puncte.

Exemple

15 1720

25

1518

19

0

5

10

15

20

25

30

Interval varsta

Diagrama cu linii

1517

20

25

1518

19

0

5

10

15

20

25

30

Interval varsta

Poligonul frecventelor

Page 9: Informatica Statistica Curs

BIOSTATISTICA

15

Figura 2.4. 3. Figura 2.4. 4.

Diagrama Tukey (cunoscută şi sub numele de „stem and leaf” – tulpină şi

frunză)

Histograma prezintă grafic distribuţia de frecvenţă. Prin gruparea datelor şi

crearea de clase se are în vedere o caracterizare totală a datelor pe categorii. Astfel, se

pierde o parte din informaţie şi reconstrucţia datelor după histogramă este imposibilă

(este posibilă doar dacă s-ar reprezenta element cu element).

Diagrama de tip Tukey prezintă în plus faţă de o histogramă, posibilitatea de a

reconstitui datele şi de a vedea componenţa (densitatea) elementelor în cadrul unei

clase. Din punct de vedere al prezentării, această diagramă este mai puţin aspectuoasă,

căci reprezintă numere suprapuse pentru fiecare categorie în parte.

Exemplu

Presupunem că avem de reprezentat diagrama Tukey pentru setul de date grupate

pe clase:

Tabelul 2.4 3 - Diagrama Tukey

Clasa Valori Frecvenţă Diagrama Tukey

1 10; 10; 10,6 3 10. 006

2 11; 11,3; 11,3; 11,5 4 11. 0335

3 12; 12,2; 12,3; 12,3; 12,8; 12,8 6 12. 023388

4 13,3; 13,7 2 13. 37

5 14,5 1 14. 5

Construcţia diagramei porneşte de la a scrie numărul întreg ce defineşte limita

inferioară a clasei. Astfel avem: 5 clase de la 10 la 10,9, apoi de la 11 la 11,9 etc.

Primul număr din ultima coloană este aşadar 10 pentru prima clasă, 11 pentru a doua şi

aşa mai departe până la ultima clasă.

Urmează apoi un punct despărţitor şi pentru fiecare valoare prezentă se trece

partea zecimală. Astfel, pentru prima clasă avem de două ori valoarea 10 şi vom trece

doi de zero. Avem în ordine crescătoare valoarea 10,6, vom trece astfel valoarea finală

6.

Se observă clar influenţa fiecărui element în diagramă cu posibilitatea reconstruirii

datelor eşantionului de studiu.

Graficul de tip Box-and-Whiskers

Este o metodă ce prezintă în mod compact forma distribuţiei unui set de date. Se

foloseşte cu succes în compararea şi determinarea simetriei repartiţiei definite de un lot

de date (box – cutie, whiskers – mustăţi).

Page 10: Informatica Statistica Curs

BIOSTATISTICA

16

Figura 2.4 5.

Pentru realizarea graficului se calculează anumiţi indicatori statistici ce reprezintă

cele 5 limite ale figurii din dreapta (folosim noţiunile de mediană, cuartile şi cuantile

definite pentru cazul discret în capitolul următor).

Mediana este valoarea din cadrul şirului ordonat care se află la jumătatea acestuia.

Aceasta împarte setul de date in două grupe egale şi este reprezentată în grafic de linia

notată cu 3.

Limitele 2, respectiv 4 reprezintă valorile cuartilelor. Acestea împart distribuţia

de frecvenţă în patru părţi egale. Astfel în total sunt 3 ca număr. Cuartila a doua este

chiar mediana. Intervalul intercuartilic este definit de distanţa dintre limitele 2 şi 4.

Între acestea se află 50% din setul de date.

Extremele 1, respectiv 5 sunt determinate de - cuantile. De obicei se alege

%10 (decile). Astfel, nivelul 5 din grafic va prezenta cuantila pentru care 10%

din date sunt sub această valoare, iar nivelul 1 din grafic va reprezenta valoarea pentru

care 90% din date sunt sub acesta.

Graficul este relevant prin faptul că scoate în evidenţă nivelul de simetrie al

distribuţiei. Dacă distribuţia nu este simetrică, mediana nu se va afla la mijlocul

dreptunghiului (în cele mai multe cazuri). Mai mult, laturile din afara dreptunghiului

nu vor fi de dimensiuni egale.

Această simetrie este bine să fie verificată, chiar prin teste specifice, deoarece

dacă setul de date este provenit dintr-o distribuţie normală (Gauss-Laplace), atunci

proprietăţi şi metode statistice proprii pot fi utilizate în analiza datelor.

Diagrame de structură

Reprezintă forme grafice construite cu ajutorul dreptunghiurilor sau al sectoarelor

de cerc, care arată proporţia în cadrul eşantionului a anumitor variabile.

1517

20

25

19

18

15

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%Dreptunghi de structura

13

17

20

25

15

18

19

Cerc de structura

Lot 1 Lot 2 Lot 3

Variabila

studiată 1

2

3 4

5

Page 11: Informatica Statistica Curs

BIOSTATISTICA

17

Figura 2.4 6. Figura 2.4 7.

Sunt situaţii în care se doreşte reprezentarea grafică a unui eşantion după mai

multe caracteristici. Se poate apela la spaţiul tridimensional (dacă avem doar trei

dimensiuni) şi prin proiecţia în spaţiul bidimensional se obţine graficul dorit.

Iată un exemplu în care în spaţiul bidimensional se reprezintă mai mult de două

informaţii pe acelaşi grafic. Piramida vârstelor este reprezentarea grafică a distribuţiei

populaţiei pe vârstă, sex şi de asemenea se reprezintă şi proporţia populaţiei active.

-30 -20 -10 0 10 20 30

Femei Barbati mii persoane

1984

1972

1960

1948

1936

1924

An

na

ste

re

Piramida varstelorpopulatie

activa

Figura 2.4 8 - Reprezentarea pe acelaşi grafic a mai multor caracteristici.

Axa XX` se împarte prin origine în două subgrupe reprezentând sexul persoanelor.

Valorile negative se interpretează în modul, deci valoare absolută, sensul axei

reprezentând sexul.

Axa YY` reprezintă anul de naştere sau anul de studiu.

Populaţia activă este şi ea reprezentată prin suprafaţa semitransparentă, suprapusă

peste populaţia totală la un anumit moment.

1.5. INDICATORI STATISTICI

Extragerea de informaţii dintr-un set de date se realizează în prima etapă prin

calculul indicatorilor statistici, realizând o formă descriptivă a cunoştinţelor. Tot în

această fază de lucru, reprezentarea repartiţiei de frecvenţe poate aduce informaţii

suplimentare asupra tipului de distribuţie urmat de datele de examinare.

În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se observă o

tendinţă de variaţie cu două aspecte: 1 – de localizare (de poziţie), 2 – de împrăştiere

(de variaţie).

Analiza cantitativă care să permită evaluări şi comparaţii din punct de vedere al

localizării sau al împrăştierii datelor se poate efectua numai cu ajutorul indicatorilor

statistici. Aceştia exprimă numeric pe baza valorilor de studiu, fie localizarea, fie

variaţia datelor.

Page 12: Informatica Statistica Curs

BIOSTATISTICA

18

Indicatori de localizare sau de poziţie

Prin determinarea acestora, se indică valoarea spre care tind să se grupeze datele

reale. Sunt mai multe tipuri de indicatori de poziţie, care diferă ca mod de calcul şi de

asemenea, funcţie de caz şi în valoare.

Media aritmetică (simplă)

Este indicatorul de bază al tendinţei de localizare. Considerăm şirul de date x1, x2,

…,xn. Media aritmetică se notează cu X sau M(x).

Formula de calcul: n

x

n

xxxx

n

ii

n

121 ...

.

Media aritmetică ponderată

Dacă avem frecvenţele absolute a1, a2, … , am corespunzătoare valorilor x1, x2,

…., xm), atunci media se poate calcula conform formulei:

n

xa

aaa

xaxaxax

m

jjj

m

mm

1

21

2211

...

.....,

sau, folosind frecvenţele relative fj,

j

m

jjj

m

j

j

m

jjj

xfxn

a

n

xa

x

11

1.

Media aritmetică ponderată şi media aritmetică simplă reprezintă acelaşi indicator.

Evident pentru un şir de date valoarea mediei aritmetice este aceeaşi indiferent de

metoda de calcul. Totuşi în practică se poate greşi dacă se calculează media folosind

numai valorile unice din cadrul şirului. Trebuie acordată o atenţie deosebită în

exprimarea frecvenţei de apariţie a valorilor unice.

Exemplu Dacă avem şirul format din elementele {x1, x2, x3, x3, x4, x5} se poate greşi dacă

media se calculează cu formula: 5

54321 xxxxxX

(deoarece x3 apare de

două ori).

Media armonică

Se utilizează în calculul valorii medii pentru mai multe mărimi relative (este mai

potrivită decât valoarea medie simplă).

Valoarea reciprocă (inversă) a mediei armonice este media reciprocelor valorilor

din lot. Pentru şirul de valori x1, x2, x3, … , xn se notează cu MH media armonică.

Formula de calcul este :

Page 13: Informatica Statistica Curs

BIOSTATISTICA

19

n

i iH xnM 1

111,

n

i in

H

x

n

n

xxx

M

121

11...

11

1, cu condiţia 0ix .

Considerând frecvenţele absolute ai obţinem următoarea formulă de calcul a

mediei armonice ponderate:

m

j j

jn

i i

H

x

a

n

x

nM

11

1.

Notând cu fi frecvenţele relative obţinem:

m

j j

jm

j j

jm

j j

jH

x

f

x

n

a

x

a

nM

1

1

1

11.

O formulă echivalentă este:

n

ii

i

n

ii

H

Xx

X

M

1'

1

1.

Xi reprezintă valorile absolute, '

ix sunt valorile relative, n volumul eşantionului.

Exemplu

Mortalitatea în 5 localităţi este de 8‰, 9‰, 9,5‰, 10‰, respectiv 7‰. Numărul

de locuitori este 4000, 6000, 4300, 5000, respectiv 6340.

00047,8

...60009

14000

8

1

...60004000

HN .

Este un indicator de localizare mai bun decât media aritmetică pentru acest caz.

Se foloseşte rar, fiind util în special în cadrul distribuţiilor în formă de J.

Media cronologică

Este utilizată pentru seriile care au variaţii în timp (lunare, semestriale sau anuale).

Formula de calcul: 1

2...

2 121

n

XXX

X

M

nn

C .

Exemplu Numărul de gravide aflate în evidenţă la început de an a fost de 106. La

sfârşitul celor 4 trimestre au fost 111, 125, 131 şi 84. O aproximare mai bună a mediei

pe trimestre este: 11515

284131125111

2106

CM .

Page 14: Informatica Statistica Curs

BIOSTATISTICA

20

Media geometrică

Se utilizează în calculul coeficienţilor de creştere medie a valorilor unei serii

cronologice logaritmice, sau a seriilor cu creştere progresivă cu raţie crescătoare. De

exemplu, se foloseşte în calculul ritmului mediu de creştere anuală sau în dinamica

sporului natural al populaţiei.

Media geometrică a unui şir de valori x1, x2, … , xn se notează de obicei cu MG şi

se calculează cu formula:

n i

n

i

nnG xxxxxM

1

321 ... .

Prin înmulţirea numerelor se poate ajunge uşor la valori foarte mari. Pentru a nu

depăşi valoarea maximă admisă de computer, se poate folosi următorul artificiu

matematic:

i

n

ii

nG xx

nn

xxxM lglg

1lg......lglglg

1

21

se calculează media

logaritmului de xi.

Reamintim şi formula de trecere dintr-o bază a logaritmului în alta:

ac

bcb

alog

loglog (ce este utilă în astfel de calcule).

Media pătratică

Fie şirul de valori x1, x2, x3, …, xn. Media pătratică se notează MP şi se calculează

cu formula:

21

2

xn

x

M

n

ii

P

, radicalul din media pătratelor valorilor.

Mediana

Notăm valorile unui şir cu x1, x2, x3, …, xn. Suplimentar, acest şir trebuie să fie

ordonat. Valoarea ce ocupă locul central (independentă de tipul de ordonare

crescătoare sau descrescătoare) se numeşte mediană şi se notează cu Me. Dacă şirul are

un număr impar de valori, adică n = 2k+1, avem :

2

11 nk xxMe .

Dacă şirul are un număr par de valori, deci n=2k, calculăm mediana cu formula:

22

2/22/1

nnkk

xxxxMe .

Mediana (indicator robust) este mai puţin influenţată de valorile extreme decât

media şi este mai stabilă la fluctuaţiile de selecţie.

Page 15: Informatica Statistica Curs

BIOSTATISTICA

21

Se utilizează în serii de date de volum mare cu valori apropiate, deci colectivităţi

omogene.

Modul (modulul sau dominanta)

Fie şirul format din elementele x1, x2, x3, … , xn. Valoarea xi corespunzătoare

frecvenţei celei mai mari poartă numele de mod. Repartiţia poate avea mai multe

maxime, dar de obicei doar unul este global, celelalte fiind locale. Dacă există un

singur maxim repartiţia se numeşte unimodală, cu două maxime se va numi bimodală,

iar cu mai multe maxime este numită polimodală sau multimodală.

Figura 2.5 1 – Tipuri de repartiţii (x-valoare variabilă, y-densitatea de

probabilitate).

Sunt situaţii în care datele sunt grupate pe clase. În acest caz intervalul

corespunzător frecvenţei maxime se numeşte interval modal sau clasă modală. Modul

se notează cu Mo.

Metoda de determinare a modului pentru un set de date împărţite pe clase se va

descrie în continuare. În figura de mai jos, sunt reprezentate trei intervale de grupare ce

cuprind frecvenţa maximă.

Figura 2.5 2 - Metoda deducerii modului.

Deoarece frecvenţa intervalului determinat de L1, L2 este mai mare decât frecvenţa

intervalului determinat de L3, L4 este normal ca poziţia modului să fie mai apropiată de

Unimodală Bimodală Multimodală

L1 L2 M0 L3 L4

A E

B F C

D

f

X

L

f2 f1

0

a b

Page 16: Informatica Statistica Curs

BIOSTATISTICA

22

primul interval. Evident, intervalul modal este L2, L3. M0 se află la intersecţia dreptelor

BD şi AC.

Triunghiul CEF este asemenea cu triunghiul CAB (deoarece FE este paralelă

cu BA şi vârful C este comun). Avem raportul de asemănare:

FE

bfba

b

ba

FE

f

11 . (1)

BEF este asemenea cu triunghiul BDC

FE

afba

a

ba

FE

f

22 . (2)

Din relaţiile (1) şi (2) scoatem valoarea a+b şi egalăm rezultatele:

afbfFE

af

FE

bfba

21

21 . (3)

Dar LLLba 23 . (4)

( L reprezintă lungimea intervalului de clasă).

Din (3) rezultă af

fb

1

2 şi înlocuind în (4) avem:

21

1

1

2

ff

fLaLa

f

fa

. (5)

Valoarea modală este:

21

122

ff

fLLaLMo

. (6)

Valoarea centrală

Reprezintă media extremelor şirului de date studiat.

2

minmax XXXc

.

Dacă valorile din şirul de date sunt grupate pe clase, formula de calcul devine:

2

.sup.inf clasaclasa XXXc

.

Este uşor de observat că valoarea centrală este puternic dependentă de extreme şi

nu de valorile tuturor datelor.

Proprietăţile caracteristicilor de localizare

Putem enumera următoarele proprietăţi specifice caracteristicilor de localizare:

Mediile aritmetică şi pătratică sunt influenţate de valorile mari ale şirului.

Mediile geometrică şi armonică sunt mai puternic influenţate de valorile mici

ale şirului.

Page 17: Informatica Statistica Curs

BIOSTATISTICA

23

Mediana nu este influenţată de valorile extreme.

Valoarea centrală nu depinde de toate valorile şirului de date, ci numai de cele

extreme.

Relaţie existentă între medii este: PGH MXMM .

Cel mai des indicator de localizare folosit este media aritmetică.

Indicatori de variaţie

Valorile medii descriu informaţia într-o formă integrată, exprimând tendinţa de

localizare a datelor prin neprezentarea cunoştinţelor înglobate în lot despre variaţia

existentă. Indicatorii de localizare redau doar o singură trăsătură comună întregii

colectivităţi. Se simte nevoia definirii unor noi indicatori statistici care să evidenţieze şi

alte aspecte ale populaţiei studiate.

Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare numerică a

împrăştierii datelor. Variaţia luată în considerare se poate raporta chiar la valoarea

medie calculată.

Dispersia (varianţa)

Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor faţă de

valoarea medie a şirului de date. Se notează cu 2 sau D[x]. Are următoarea formulă

de calcul (pentru volumul n al eşantionului de valori mari, n>30):

n

xx

n

xxxxxx

n

ii

n

1

222

22

12 ..... .

Dacă avem valorile x1, x2, x3, …, xn cu frecvenţele absolute a1, a2, …, am, atunci

formula de calcul devine:

m

mm

aaa

xxaxxaxxa

....

.....

21

2222

2112

n

xxa

a

xxam

iii

m

ii

m

iii

1

2

1

1

2

.

Considerând frecvenţele relative fi, obţinem:

m

i

m

iiii

i

m

iii

xxfxxn

a

n

xxa

1 1

221

2

2 .

Sunt cazuri în care dispersia trebuie estimată dintr-un eşantion de date. Dacă

volumul eşantionului este mai mic decât 30, atunci se aplică o corecţie formulei de

Page 18: Informatica Statistica Curs

BIOSTATISTICA

24

calcul. În acest caz ajustarea este în sensul că nu se împarte la n ci la n-1 (numit şi

numărul gradelor de libertate).

111

21

2

1

2

2

n

n

n

n

n

xx

n

xxn

ii

n

ii

estimat .

Abaterea pătratică medie (deviaţia standard)

Prin extragerea rădăcinii pătrate din dispersie se obţine abaterea pătratică medie.

Astfel, deviaţia standard şi indicatorii de localizare se exprimă cu aceleaşi unităţi de

măsură.

n

xx

xD

n

ii

1

2

][ .

Ţinând cont de frecvenţele absolute şi relative pe intervale avem:

m

iii

m

ii

i

m

iii

xxfxxn

a

n

xxa

1

2

1

21

2

.

Putem dezvolta expresia dispersiei în continuare:

.21

2

1

2

1

1

2

1

2

11

2

1

2

n

x

xn

x

xn

n

x

n

xx

n

x

n

xx

n

i

n

iin

ii

n

i

n

ii

n

ii

n

ii

Ştiind că 2

1

21P

n

ii Mx

n

, xn

xn

ii

1 ,

221

2

1xxn

nn

xn

i

,

dispersia devine:

22222 2 xMxxM PP .

Abaterea pătratică este rădăcina pătratică din diferenţa dintre pătratul mediei

pătratice şi pătratul mediei aritmetice.

Page 19: Informatica Statistica Curs

BIOSTATISTICA

25

Amplitudinea

Este definită ca diferenţa valorilor extreme ale şirului de date studiat şi se notează

cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin .

În cazul grupării datelor pe clase se defineşte şi noţiunea de amplitudine a clasei,

notată cu wi (corespunzător clasei i). Această mărime este egală cu diferenţa dintre

valorile extreme ale clasei respective. Cu cât este mai mică valoarea sa cu atât lotul

este mai omogen.

Aspecte negative ale amplitudinii :

- depinde de eşantion, având variaţii pentru fiecare eşantion în parte ,

- nu ţine seama de tipul repartiţie.

Intervalul intercuartilic

Cuartilele (sau cvartilele) împart datele în 4 clase de frecvenţe egale cu 25%.

Astfel, sunt necesare 3 valori Q1, Q2, Q3 care reprezintă cuartilele. Presupunem că

avem o distribuţie a frecvenţelor parametrului x (discret), conform graficului din figura

2.5 3.

Suma frecvenţelor până la limita determinată de Q1 este egală cu suma

frecvenţelor dintre Q1 şi Q2, de asemenea egală cu suma frecvenţelor dintre Q2 şi Q3 şi

în final, egală cu suma frecvenţelor de după Q3. Dacă repartiţia ar fi fost de tip

continuu, această sumă ar fi integrala determinată de limitele notate Qi.

Intervalul cuartilic se defineşte ca fiind diferenţa dintre Q3 şi Q1 (ultima şi prima

cuartilă). Q1 se numeşte cuartilă inferioară sau mică, Q3 se numeşte cuartila

superioară sau mare. Prin urmare, intervalul intercuartilic va fi:

Iq = Q3 – Q1.

Observaţie Cuartila Q2 este tocmai mediana Me.

Se defineşte coeficientul de variaţie intercuartilică ca fiind raportul :

e

q

M

I

Q

QQq

2

13 .

Page 20: Informatica Statistica Curs

BIOSTATISTICA

26

Figura 2.5 3 - Cuartilele.

Coeficientul de variaţie

Abaterea pătratică medie se interpretează prin compararea cu media valorilor

studiate. Dacă avem o medie de 100 şi o abatere pătratică standard 5 , atunci avem

mici variaţii, dar dacă avem aceeaşi abatere la o medie de 10, atunci variaţia este foarte

mare. În concluzie, este necesară raportarea abaterii pătratice la valoarea mediei, pentru

a exprima corect împrăştierea datelor. Se defineşte coeficientul de variaţie:

xCx

.

Acest coeficient este o măsură relativă a variaţiei datelor faţă de medie. Astfel,

indiferent de medie, seturile de date, chiar de natură diferită, pot fi comparate folosind

coeficientul de variaţie.

Momente

Momentele ajută la determinarea anumitor caracteristici legate de forma (alură)

repartiţiilor, care nu pot fi determinate doar cu indicatorii statistici de localizare sau

variaţie.

Momentele centrate de ordin k (k1):

Se definesc momentele centrate de ordin k în raport cu originea arbitrară A, ca

fiind exprimate prin formula:

n

i

k

i

A

k Axn

m1

1.

Page 21: Informatica Statistica Curs

BIOSTATISTICA

27

Exprimăm formula în funcţie de frecvenţele absolute ai, respectiv frecvenţele

relative fi şi obţinem:

m

j

kij

m

j

kij

m

jj

m

j

kij

Ak Axf

n

Axa

a

Axa

m1

1

1

1.

Dacă originea aleasă este tocmai media aritmetică, atunci momentul centrat de

ordin k se va calcula cu formula :

n

i

kik xx

nm

1

1 - momentul centrat de ordin k în raport cu media

aritmetică.

În cazul notaţiei momentelor centrate în raport cu media aritmetică nu se mai

afişează în partea superioară a lui m originea de centrare.

Momentul centrat de ordin 2 în raport cu media aritmetică este tocmai dispersia:

2

1

22

1

n

ii xx

nm .

Momentul absolut de ordin k (k1):

Din formula momentului centrat de ordin k în raport cu referinţa A se poate

deduce momentul absolut. Dacă A=0 se obţine momentul absolut:

m

j

kjj

m

j

kjj

n

i

kik xfxa

nx

nm

111

` 11, unde:

ai – frecvenţa absolută; fi – frecvenţa relativă; m – numărul de clase;

n – numărul de elemente.

Pentru k=1 se obţine: xxn

mn

i

i 1

`

1

1, adică momentul absolut de ordin 1, care

este egal cu media aritmetică.

Proprietăţi ale momentelor:

1. Momentul centrat de ordin 1 cu originea în media aritmetică este 0 (suma

algebrică a abaterilor individuale faţă de medie este egală cu 0).

Demonstraţie

Metoda 1:

Page 22: Informatica Statistica Curs

BIOSTATISTICA

28

0111

)(1

11 11

xxxnn

xxn

xn

xxn

mn

i

n

i

n

iii .

2. Momentul minim centrat de ordin 2 are originea în media aritmetică (media

abaterilor pătratice are valoare minimă când aceasta este calculată în raport cu media

aritmetică).

Demonstraţie

Momentul centrat de ordin doi este :

n

ii

A Axn

m1

22 )(

1.

Facem un artificiu de calcul, adăugând şi scăzând valoarea medie.

.)(1

)()(2

)(1

])()[(1

1

2

1

1

22

12

n

i

n

ii

n

ii

n

ii

A

xAn

xxn

xA

xxn

xAxxn

m

Conform proprietăţii (1) avem: 0)(1

11

mxxn

n

ii . Astfel, paranteza a

doua are valoarea 0. În continuare obţinem:

.)(

)(1

)(1

)(1

2

1

22

1

2

1

22

pozitivtermenm

xAn

mxAn

xxn

mn

i

n

i

n

ii

A

Din ultima formulă tragem concluzia că oricare ar fi A, momentul centrat de ordin

2 cu originea în A este egal cu momentul centrat cu originea în media aritmetică, la

care se adaugă un termen pozitiv. De aici deducem că momentul centrat de ordin 2 cu

originea în media aritmetică este minimul momentului centrat de ordin 2.

Se pot stabili diferite relaţii între momentele absolute şi cele centrate în raport cu

media aritmetică. Iată un exemplu:

m

ii

m

iii

m

iii

m

iii xfxfxxfxxfm

1

2

11

2

1

22 2)(

.

1

22`

1`22

1

1

2`1

`1

`1

`2

mmm

fDar

fmmmm

n

ii

n

ii

Page 23: Informatica Statistica Curs

BIOSTATISTICA

29

Asimetrie (skewness)

O distribuţie este considerată simetrică, dacă de o parte şi de alta a mediei,

frecvenţele au aceleaşi valori.

Notăm cu f(xi) – frecvenţa; m – media

Simetria în raport cu media există, dacă pentru oricare R avem

relaţia: )()( mfmf .

În continuare, putem caracteriza asimetria în funcţie de poziţionarea mediei faţă

de modul:

1 – Avem asimetrie la dreapta, dacă Mox (figura 2.5 4).

2 – Avem asimetrie la stânga, dacă Mox (figura 2.5 5).

Figura 2.5 4. Pentru a obţine o măsură a asimetriei, statisticianul englez Karl Pearson a definit

indicatorul relativ de asimetrie (acest indicator este adimensional, fiind astfel util

pentru a compara distribuţiile între ele):

MoxSk

.

O altă formulă echivalentă de calcul este: n

xx

S

n

i

i

k

1

2

pentru n mare.

Dacă n are valori mici se corectează formula astfel: 1

1

2

n

xx

S

n

i

i

k

.

Asimetrie la dreapta

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52

Mo M(x)

Page 24: Informatica Statistica Curs

BIOSTATISTICA

30

Figura 2.5 5.

Cazuri posibile:

1 – Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta.

2 – Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga.

3 – Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0).

În general, o distribuţie care are valoarea Sk diferită de 0 cu mai mult de ±1,

denotă o diferenţă semnificativă faţă de distribuţia normală.

În limba engleză cuvântul consacrat este skewness, folosit în programele de

statistică medicală.

Boltirea (excesul, kurtosis)

Acest indicator compară distribuţia dată cu cea normală sau gausiană (descrisă în

capitolul Repartiţii continue). Statisticianul englez Karl Pearson a definit de asemenea

coeficientul de boltire:

4

4

22

42

m

m

m .

Pentru o distribuţie normală 32 normal .

Din punct de vedere al boltirii avem următoarea clasificare, reprezentată grafic

mai jos:

32 .

Figura 2.5 6.

Asimetrie la stânga

1 4 7 10 13 16 19 22 25 28 31 34 37 40

M(x) Mo

Repartiţie aplatizată sau platicurtică

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Page 25: Informatica Statistica Curs

BIOSTATISTICA

31

32 .

Figura 2.5 7.

32 .

Figura 2.5 8.

Pentru descrierea boltirii se poate folosi şi coeficientul Fisher, ce măsoară excesul

faţă de distribuţia normală. Acesta se calculează cu formula:

334

4

22

m

, echivalentă cu:

3

4

1

2

2

n

xxn

ii

. Pentru valori

mici ale volumului eşantionului se împarte la n-1 în loc de n.

Avem următoarele modalităţi de caracterizare a distribuţiilor:

Mezocurtică 0,3 22 .

Leptocurtică 0,3 22 .

Platicurtică 0,3 22 .

(Forma distribuţiilor este sugerată de etimologia cuvintelor: ,,platus” în limba

greacă semnifică ,,lat”, ,,leptos” – ,,subţire”, ,,mesos” - ,,mijlociu”, ,,kurtosis” –

,,cocoaşă”).

Repartiţie medie sau mezocurtică

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Repartiţie ascuţită sau leptocurtică

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Page 26: Informatica Statistica Curs

BIOSTATISTICA

32

1.6. INTERVALE DE ÎNCREDERE (CONFIDENŢĂ)

Introducere

În cazul realizării experimentelor de un număr repetat de ori se obţine un număr

finit de evenimente. Observaţiile ce se fac asupra populaţiei pot fi totale (dacă se

studiază toate evenimentele, sau toţi indivizii - exhaustiv) sau parţiale (dacă se

studiază doar un eşantion din total).

Cercetarea unitară a întregii populaţii în multe situaţii este greu de realizat, poate

chiar impracticabilă. O situaţie complementară este aceea în care numărul datelor

experimentale este mic. Bazându-ne pe aceste informaţii trebuie deduse caracteristici

generale asupra fenomenului sau obiectivului de studiu.

Eşantionul este considerat mic dacă volumul său are un număr de elemente până

în 30 şi mare dacă numărul de elemente depăşeşte valoarea 30. Acest prag este necesar

pentru a aproxima cât mai bine modificările ce apar în tipul distribuţiei datelor şi ca

urmare un volum mare al eşantionului va avea implicaţii pozitive în rezultatele finale.

Astfel, funcţie de numărul de valori disponibile, se aplică diferite teste, iar precizia

estimărilor este cu atât mai bună cu cât avem mai multe date de studiu.

Scopul principal în cadrul culegerii datelor constă în a obţine cu un efort minim

(volum minim de date) un volum maxim de informaţii.

Estimarea constă în operaţia de determinare a parametrilor populaţiei pe baza

eşantionului studiat. Datorită lipsei de informaţie generată de cercetarea uneori

neunitară cât şi datorită dispersiei parametrilor doriţi, se poate deduce cu o anumită

probabilitate (de obicei acceptată la valoarea de 95% în domeniul medical), un anumit

interval de încredere în care se află parametrul studiat.

Obiectivul final al unui experiment constă, în majoritatea cazurilor, în a măsura

valoarea unui parametru. Valoarea măsurată (izolată de altfel) nu poate fi considerată

satisfăcătoare sau valoare de referinţă dacă nu se fac şi precizări referitoare la domeniul

de variaţie precum şi la probabilitatea corespunzătoare.

În cadrul estimării parametrilor unei populaţii, valoarea calculată este de fapt o

variabilă aleatoare legată de eşantionul studiat. Cu cât avem mai multe eşantioane, cu

atât avem mai multe valori ale parametrului care urmează a fi calculat.

Rolul inferenţelor statistice constă în a determina din informaţiile din eşantion

concluzii pertinente asupra întregii populaţii. Chiar dacă teoretic putem imagina un

număr mare de eşantioane extrase, aplicând metodele statisticii, se pot afla limitele de

variaţie ale mediei (ca exemplu de indicator analizat) doar dintr-un singur eşantion de

studiu.

Media, acest indicator statistic de importanţă majoră, este în centrul temei de

estimare sau evaluare. Această estimare ajută nu numai la caracterizarea unei populaţii,

ci şi la compararea diferitelor loturi analizate (este important de menţionat că media

poate reprezenta şi frecvenţa de apariţie a unui eveniment – conform legi numerelor

mari).

Intervalul de estimare a parametrului respectiv se deduce din formula de calcul a

probabilităţii:

Page 27: Informatica Statistica Curs

BIOSTATISTICA

33

2

1

)()(ateaProbabilit 21

x

x

dxxfxXxP , unde f(x) - este densitatea

de probabilitate (cazul continuu).

x1 , x2 - sunt limitele intervalului ca variabila aleatoare X să ia valori în

intervalul astfel definit, cu o anumită probabilitate.

Reprezentând grafic funcţia densitate de probabilitate obţinem intervalul de

încredere cu nivelul de semnificaţie , desenat în figura 2.6 1.

f(x)

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-4 -3 -2 -1 0 1 2 3 4

21

Intervalul de încredere

x1 x2

Figura 2.6 1 - Interval de încredere.

Intervalul de variaţie pentru variabila aleatoare studiată şi pentru o anumită

probabilitate (95% standard) se numeşte şi interval de confidenţă sau de încredere.

1- - este nivelul de încredere (se mai notează cu ).

- este riscul sau nivelul de semnificaţie (=1+2). În general putem avea un

risc stânga 1, respectiv dreapta 2, cu suma egală cu . Pentru un interval simetric

bilateral avem = /2 + /2, deci riscul se împarte simetric.

În concluzie, riscul poate fi plasat simetric sau asimetric faţă de media dorită spre

a fi estimată.

Intervalul de încredere pentru media unei variabile aleatoare de tip

continuu repartizată normal

Metoda de lucru pleacă generic de la ideea de a studia variabila aleatoare creată

din media eşantioanelor extrase din populaţia ţintă. Teoretic, putem extrage un număr

enorm de eşantioane dintr-o populaţie. Aceste eşantioane pot avea dimensiuni diferite,

iar media lor respectă un anumit tip de distribuţie.

Există în statistică teorema limită centrală (rezultat fundamental), care afirmă că

independent de tipul de distribuţie al datelor din populaţie, media eşantioanelor

extrase creează un lot de date care urmează o repartiţie de tip Gauss-Laplace (cu

condiţia să avem selecţie aleatoare simplă).

Page 28: Informatica Statistica Curs

BIOSTATISTICA

34

Graficul de mai jos exprimă vizual ideea demonstrată prin teorema limită centrală.

Figura 2.6 2 - Crearea distribuţiei mediilor eşantioanelor.

Vom da un exemplu de determinare a distribuţiei mediilor eşantioanelor dintr-o

populaţie care nu este repartizată normal, tocmai pentru a observa forma gausiană

urmată de eşantionul mediilor.

Presupunem că avem o populaţie repartizată liniar constant pe intervalul [0, 1].

Vom extrage 100 eşantioane de dimensiune 5, apoi 15 şi în final, de dimensiune 30.

Pentru fiecare din cele 100 de eşantioane se calculează media, apoi se realizează

histograma frecvenţelor absolute.

Acestea sunt reprezentate grafic în figurile următoare.

Histograma datelor din populaţia ţintă

121130

117 113121

128140

147

121 124

0

20

40

60

80

100

120

140

160

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More

Figura 2.6 3. Repartiţia liniară a datelor studiate.

Populaţia de

studiu

L1

L2

Li

Ln

L7

Eşantion (lot)

extras

Lot Medie

1 M1

2 M2

3 M3

…. …

45 M45

46 M46

….. ….

n Mn

Distribuţia mediilor este

de tip (Gauss Laplace)

Page 29: Informatica Statistica Curs

BIOSTATISTICA

35

S-a folosit pentru exemplificare un eşantion de 1264 de date liniar distribuite. Se

observă conturarea unei drepte aproximativ paralelă cu axa abscisei (figura 2.6 3).

Histograma mediilor

(eşantion din 5 elemente)

0

10

20

30

40

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More

Figura 2.6 4 - Forma repartiţiei este asemănătoare tipului Gauss-Laplace

(dispersia datelor este mare).

Histograma mediilor

(eşantion din 15 elemente)

0

10

20

30

40

50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Mor

e

Figura 2.6 5 – Forma (alură) repartiţiei este apropiată de tipul

Gauss-Laplace cu dispersie medie.

Histograma mediilor

(eşantion din 30 elemente)

05

1015202530

0.12

50.

2

0.27

50.

35

0.42

50.

5

0.57

50.

65

0.72

50.

8

0.87

50.

95

Figura 2.6 6 - Repartiţie este normală cu dispersie mică. Din ultimele trei grafice se poate observa forma normală a distribuţiei mediei

eşantioanelor. De asemenea, se conturează o scădere a dispersiei mediilor odată cu

creşterea volumului eşantionului.

Teorema limită centrală

Indiferent de tipul distribuţiei populaţiei, media eşantioanelor tinde către

distribuţia Gauss Laplace şi este cu atât mai apropiată de aceasta, cu cât volumul

eşantionului creşte (un volum mai mare decât 30 implică erori mici).

Page 30: Informatica Statistica Curs

BIOSTATISTICA

36

Observaţii

1 – Dacă distribuţia populaţiei este normală, atunci în mod sigur distribuţia

mediilor eşantioanelor este normală şi pentru valori mici ale eşantionului.

2 – Media valorilor medii ale eşantioanelor este media populaţie. Aceasta arată că

nu există eroare de deplasare. Matematic putem scrie: ),...,( 21 nXXXM .

3 – Deviaţia standard a mediilor eşantioanelor este de radical din n ori mai mică

decât deviaţia standard a întregii populaţii. Avem astfel: nX

, n reprezintă

volumul eşantionului.

Funcţie de ipoteza pe care o avem de verificat, metoda de calcul se modifică,

fiind dedicată naturii experimentului. Din acest motiv, intervalul de încredere pentru

medie este tratat pe cazuri diferite, în funcţie de informaţia deţinută. Pentru valori mici

ale eşantionului cât şi pentru situaţia în care nu se cunoaşte dispersia, o aproximare de

tip Student a distribuţiei este mai bună.

Cazul 1 – Valoarea dispersiei este cunoscută.

Considerăm o variabilă aleatoare repartizată normal N(,2) pentru care dorim să

estimăm intervalul de încredere pentru valoarea mediei. Avem un set de date de volum

n şi notăm media calculată din datele eşantionului cu X , iar media populaţiei (de

obicei necunoscută) cu .

Evident, dacă am putea analiza întreaga populaţie, atunci media calculată ar avea

valoarea de încredere 100% iar calculul intervalului de variaţie nu ar avea sens,

X .

Vom considera ca eficientă probabilitatea de estimare de 95%, ceea ce înseamnă

pentru o repartiţie normală redusă un interval simetric cuprins între 96,11

Z ,

respectiv 96,12

Z (conform figurii 2.6 7 şi a valorilor tabelate în anexa A ).

Din formula de calcul a probabilităţii avem:

195,096,196,1 ZP . (1)

Se poate demonstra (după cum am amintit deja) că dacă avem mai multe

eşantioane dintr-o populaţie normală, media de selecţie este o variabilă aleatoare

repartizată normal N(,2/n). Pentru a o centra şi normaliza vom aplica formula (se

scade media şi se raportează la dispersie):

n

xz

/

. (2)

Din prima şi a doua formulă putem scrie:

96,1/

96,1

n

x

. (3)

Dezvoltând în continuare formula 3 obţinem:

n

xn

x

96,196,1

Page 31: Informatica Statistica Curs

BIOSTATISTICA

37

n

x

96,1 . (4)

n

- se numeşte eroare standard (de eşantion de volum n).

În cazul general, pentru un risc simetric formula (4) devine:

n

zx

2/ . (5)

Z/2 este abscisa densităţii de probabilitate f(x) pentru un nivel de semnificaţie /2

(valori tabelate în anexe). Dacă riscul este bilateral dar nu simetric avem următoarea

formulă dedusă din (1):

2121

1

Z

n

xZZZZP

nZx

nZx

21. (6)

Graficul intervalului de încredere pentru repartiţie normală este prezentat mai jos.

Figura 2.6 7 - Interval de încredere pentru repartiţie normală.

În cazul folosirii unui interval de încredere unilateral formulele de calcul pentru

estimare de tip mai mică, respectiv mai mare decât o anumită valoare sunt:

Page 32: Informatica Statistica Curs

BIOSTATISTICA

38

f(z)

1

M[z]=0 Z

interval de incredere

Interval unilateral la dreapta:

1

nZxP .

Figura 2.6 8 - Interval de încredere unilateral dreapta.

Interval unilateral la stânga:

.1

nZxP

Figura 2.6 9 - Interval de încredere unilateral stânga.

Cazul 2 – Valoarea dispersiei este necunoscută.

Considerăm variabila aleatoare X repartizată normal N(,2) cu media şi dispersia

necunoscute. Dacă avem un eşantion de volum n atunci, cu parametrii deduşi din

eşantion (media şi dispersia), se poate crea o repartiţie Student (sau ,,t”) cu formula:

n

S

Xt

2

, cu 1 n grade de libertate.

S - reprezintă dispersia corectată şi se calculează cu formula:

1

1

2

2

n

xx

S

n

i

i

.

Asemănător cazului anterior, pentru risc bilateral simetric avem formula de calcul:

12/,2/, tnS

xtP

n

Stx

n

Stx 2/,2/, . (7)

O scriere compactă a formulei (7) este următoarea : n

Stx 2/, .

Page 33: Informatica Statistica Curs

BIOSTATISTICA

39

Pentru risc unilateral avem:

1 – Risc unilateral stânga: n

StX , .

2 – Risc unilateral dreapta: n

StX , .

Intervalul de încredere determinat prin metoda neparametrică „bootstrap”

Tehnica bootstrap este descrisă detaliat în capitolul ce prezintă eşantionarea. Este

explicată metoda de generare de eşantioane chiar din lotul sursă, folosind alegeri de tip

aleator (metoda Monte Carlo). Reamintim cele două trăsături ale acestei tehnici:

- Eşantioanele bootstrap sunt generate din lotul de studiu.

- Eşantionarea este realizată cu înlocuire şi drept urmare, poate apare acelaşi

element de mai multe ori în noile selecţii.

Metoda bootstrap aplicată pentru determinarea intervalului de confidenţă pentru

medie poate fi prezentată prin următorii paşi:

1 – se generează conform tehnicii cunoscute n eşantioane.

2 – se calculează media pentru fiecare eşantion generat.

3 – se ordonează crescător mediile calculate.

4 – se determină ordinea din şir a mediilor ce reprezintă limitele intervalului

pentru nivelul de confidenţă stabilit.

Exemplu

Presupunem ca generăm 120 eşantioane şi ne interesează intervalul de confidenţă

90% pentru medie. Primii trei paşi prezentaţi se realizează relativ uşor, după care

determinăm ordinea din cadrul şirului pentru limitele minimă, respectiv maximă a

intervalului.

Pentru 90% confidenţă rezultă elementele de pe poziţia 5%, respectiv 95%. Pentru

un volum de dimensiune n, calculăm n*5/100, respectiv n*95/100.

În cazul nostru avem: 120*5/100=6, respectiv 120*95/100=114.

Astfel, din şirul ordonat crescător se citesc limita inferioară de pe poziţia 6,

respectiv limita superioară de pe poziţia 114.

Intervalul de încredere pentru diferenţa a două medii

Presupunem că avem două variabile aleatoare independente notate X1, respectiv

X2, repartizate normal 2

111 , N şi 2

222 ,N . În cazul general se pot sau nu

cunoaşte dispersiile populaţiilor, dar sigur se pot afla estimările lor, după datele din

eşantion. Pentru a determina intervalul de încredere pentru diferenţa mediilor se ştie că

21 XX are o repartiţie normală cu media 21 şi dispersia

2

2

21

2

1

2 nn , unde n1 respectiv n2 reprezintă volumele eşantioanelor.

Dacă lucrăm cu un interval de încredere bilateral simetric şi cunoaştem dispersiile

populaţiilor construim statistica repartizată normal:

Page 34: Informatica Statistica Curs

BIOSTATISTICA

40

2

2

2

1

2

1

2121

nn

xxZ

cu repartiţia N(0,1).

Din formula de calcul a probabilităţii obţinem:

2/

2

22

1

21

2121

2/2/2/ 1

Z

nn

xx

ZZZZP

.

Sub formă compactă, putem scrie:

2

2

2

1

2

12/2121

nnZxx

.

Dacă nu se cunosc dispersiile, acestea se vor estima din datele eşantioanelor. Se

poate calcula statistica repartizată Student:

2

2

2

1

2

1

2121

n

S

n

S

xxt

, cu

1

22

i

i

iin

nS şi 221 nn grade

de libertate. În final diferenţa mediilor estimată este :

2

2

2

1

2

12/,2121

n

S

n

Stxx .

Intervalul de încredere pentru proporţia unei variabile aleatoare

Suntem în situaţia estimării intervalul de confidenţă pentru o proporţie. Proporţia

poate fi asemănată cu o medie, iar metodele de lucru pot fi transpuse în acest context.

Evident, ca în cazurile deja prezentate, nu putem studia în totalitate populaţia şi apelăm

la informaţia cuprinsă într-un eşantion. Calculăm proporţia dedusă din lot şi aflăm

limitele intervalului de variaţie a mediei.

Problema se repetă şi asemănător determinării intervalului de variaţie a mediei,

putem considera generic, un set format din mai multe eşantioane pentru care calculăm

şi studiem proporţia de realizare a unui anumit eveniment de interes.

În situaţia în care loturile sunt consistente în informaţie, deci conţin date în număr

suficient de mare pentru a păstra proprietăţile populaţiei, distribuţia mediilor este de tip

Gauss-Laplace şi putem calcula relativ uşor limitele de confidenţă.

Se pleacă de la formula generală ce exprimă probabilitatea pentru o distribuţie

normală.

Notăm: P – probabilitatea, p – proporţia din eşantion, – proporţia reală a

populaţiei, -nivelul semnificaţiei ce este de obicei 5%.

Page 35: Informatica Statistica Curs

BIOSTATISTICA

41

Pentru o repartiţie normală şi pentru o semnificaţie definită, limitele notate z1

respectiv z2 se determină din formula:

121 zZzP . Pentru un interval simetric z2 = –z1.

Media proporţiilor este repartizată normal si are abaterea standard . Aceasta

poate fi aproximată cu formula: n

pp

1 .

Trebuie să normalizăm variabila aleatoare proporţie, deci trebuie să scădem

valoarea p măsurată din eşantion şi să împărţim la dispersie. Obţinem astfel variabila

normalizată:

pZ

.

Aceasta trebuie sa fie cuprinsă între limitele 2/1 zz respectiv

2/1 zz , pentru nivel de semnificaţie simetric.

Calculăm astfel intervalul: 21 zZz 2/2/

z

pz

.

Obţinem : 2/2/ zpzp .

Introducând detaliat valoarea dispersiei avem limitele: n

ppzp

12/

Aceste limite creează un interval cunoscut cu numele de intervalul Wald – după

numele matematicianului care a propus metoda de calcul.

În acest domeniu, determinat cu datele eşantionului cât şi cu semnificaţia cerută,

se plasează cu încrederea 1- proporţia reală a populaţiei.

Observaţie

Determinarea intervalului prin metoda Wald este acceptabilă doar în situaţia în

care este îndeplinită condiţia: 101 ppn .

Dacă ţinem cont de faptul că produsul pp 1 , pentru p reprezentând un

număr pozitiv subunitar, este maxim dacă p=0,5, deducem volumul minim al

eşantionului de lucru.

Avem astfel: 1025,0 n 40n .

Făcând un studiu amănunţit asupra estimării intervalului de confidenţă, se observă

că pentru valori ale proporţiei mai mici decât 0,2, respectiv mai mari ca 0,8 eroarea se

măreşte considerabil. Astfel s-au propus şi determinat noi metode de calcul ale

limitelor intervalului de confidenţă care funcţionează corect pentru eşantioane mici de

până la 20 de cazuri. Rezultate mai bune pentru astfel de situaţii s-au obţinut folosind

formulele de calcul: Wilson, Agresti-Coull, sau verosimilitatea maximă a raportului.

Page 36: Informatica Statistica Curs

BIOSTATISTICA

42

Exemple de calcul al intervalului de confidenţă

I. Avem un set de date numerice de tip continuu reprezentând o variabilă medicală

de interes ce caracterizează populaţia de studiu. Variabila o notăm generic cu V1 şi este

definită prin 78 de valori prezentate în tabelul de mai jos.

Tabelul 2.6 1.

Nr. V1

1 0.928626

2 0.878364

3 1.006266

4 0.737067

5 0.799914

6 1.025222

7 1.11228

8 1.183562

9 0.992134

10 1.190212

11 0.93315

12 1.047967

13 1.172089

14 0.767089

15 0.742273

16 0.887589

17 0.981723

18 1.191605

19 0.762734

20 1.023852

21 0.97842

22 1.106804

23 1.178241

24 0.890063

25 0.860885

Nr. V1

26 0.976916

27 0.962322

28 0.847623

29 0.814895

30 0.929521

31 1.195523

32 0.713596

33 0.799071

34 0.933964

35 0.774646

36 0.745445

37 1.120335

38 0.83318

39 1.197931

40 0.717301

41 1.023533

42 0.782082

43 1.104498

44 1.167804

45 0.794933

46 1.028825

47 1.094623

48 0.790835

49 0.893292

50 1.106492

51 1.020255

52 1.096813

Nr. V1

53 1.083396

54 1.021107

55 1.182237

56 0.948003

57 1.183972

58 0.738703

59 0.938837

60 0.801798

61 0.860834

62 1.084881

63 0.869538

64 1.032752

65 0.848528

66 1.191977

67 0.953991

68 0.830131

69 1.136325

70 0.86874

71 1.002508

72 1.194674

73 0.772806

74 0.831307

75 0.892934

76 0.744088

77 1.140246

78 0.925785

Dorim să determinăm intervalul de variaţie a mediei cu încredere de 95%.

Folosind Microsoft Excel

După introducerea datelor, lansăm modulul Data Analysis din grupul de meniu

Tools.

Observaţie Pentru a exista subrutina de analiză a datelor, aceasta trebuie mai întâi

activată urmând paşii: Tools+Add-Ins…+Analysis Toolpack.

Din analiza datelor se alege opţiunea Statistică Descriptivă (Descriptive Statistics)

şi se obţine fereastra prezentată mai jos.

Page 37: Informatica Statistica Curs

BIOSTATISTICA

43

Figura 2.6 10 - Fereastra de definire a datelor pentru obţinerea statisticii

descriptive.

Se definesc: domeniul de lucru (selecţia datelor introduse spre analiză – Input

Range), celula de start pentru afişarea calculelor realizate – Output Range, se bifează

căsuţa de determinare a limitelor de confidenţă pentru medie şi se introduce numeric

valoarea nivelului de încredere – Confidence Level for Mean.

Rezultatele obţinute sunt prezentate în tabelul următor.

Tabelul 2.6 2 – Indicatorii calculaţi în MsExcel.

V1

Mean 0.96057

Standard Error 0.016977

Median 0.950997

Standard Deviation 0.14994

Sample Variance 0.022482

Kurtosis -1.23668

Skewness 0.086202

Range 0.484335

Minimum 0.713596

Maximum 1.197931

Sum 74.92448

Count 78

Confidence Level(95.0%) 0.033806

Page 38: Informatica Statistica Curs

BIOSTATISTICA

44

Eroarea standard este tocmai 016977,078

14994,0

n

.

Căutând în tabelul distribuţiei de tip t, pentru un număr de grade de libertate de

78-1=77 şi pentru 95% încredere simetrică avem: 9912,1)2/05,0;77( t .

Avem astfel: 033806,078

)2/05,0;77(

t .

Formula de calcul a limitelor este: n

tX

)2/05,0;77( .

Obţinem în final: Xmin= 0,926764 respectiv Xmax= 0,994376.

Nivelul de confidenţă, deci valoarea n

t

(ce este x ), poate fi calculat şi

folosind funcţia: CONFIDENCE(alfa, deviaţia standard, volum eşantion).

Pentru cazul nostru avem: CONFIDENCE(0.05, 0.14994, 78 ) = 0.033.

În concluzie, putem afirma că media populaţiei se află cu încredere de 95% în

acest interval (0,9267 – 0,9943).

Folosind programul SPSS

Există mai multe variante de a determina limitele intervalului de confidenţă pentru

medie.

a) – Se urmează paşii: Analyze + Descriptive Statistics + Explore…

Figura 2.6 11 – Calculul indicatorilor statistici în SPSS.

Se introduce parametrul de interes in lista variabilelor dependente, iar in grupul

Statistics se marchează Descriptive pentru a avea şi intervalul de confidenţă pentru

Page 39: Informatica Statistica Curs

BIOSTATISTICA

45

medie. Se obţine astfel intervalul de variaţie pentru medie – prezentat în tabelul

următor.

Tabelul 2.6 3 – Indicatorii statistici calculaţi folosind SPSS

Statistic

Std.

Error

V1 Mean .96057 .016977

95% Confidence

Interval for Mean Lower Bound

.92676

Upper Bound .99438

5% Trimmed Mean .96055

Median .95100

Variance .022

Std. Deviation .149940

Minimum .714

Maximum 1.198

Range .484

Interquartile Range .268

Skewness .086 .272

Kurtosis -1.237 .538

b) – Se alege din meniu Analyses + Compare means + One-Sample t Test…

Figura 2.6 12 - SPSS determinarea intervalului de confidenţă pentru medie.

Page 40: Informatica Statistica Curs

BIOSTATISTICA

46

Se setează variabila de analizat şi implicit în grupul Options avem activat

intervalul de confidenţă pentru 95% nivel de încredere (această probabilitate poate fi

modificată după caz).

Tabelul 2.6 4 - Rezultatul obţinut utilizând SPSS

Test Value = 0

t df Sig. (2-tailed) Mean Difference

95% Confidence Interval of the Difference

Lower Upper

V1 56.579 77 .000 .960570 .92676 .99438

Tabelele prezintă cu claritate limitele intervalului de confidenţă. SPSS realizează

de asemenea testul de comparare a mediei cu valoarea 0 implicită.

Page 41: Informatica Statistica Curs

BIOSTATISTICA

47

1.7. METODE DE DETERMINARE A EŞANTIOANELOR DE STUDIU

Studiile din domeniul medical (şi nu numai) se referă la populaţii de pacienţi sau

cazuri care au anumite caracteristici comune. De obicei elementul colectiv este

determinat de maladia de care suferă persoanele în studiu. Ne interesează să aflăm

valoarea anumitor indicatori statistici cum ar fi media, dispersia sau proporţia

existentă.

Pentru a extrage informaţii despre cazurile cercetate, avem la îndemână

posibilitatea de a trata exhaustiv problema şi a măsura pentru toţi pacienţii parametrii

de interes, sau varianta a doua, să determinăm un lot format dintr-un număr cât mai

mic de cazuri, care să prezinte trăsăturile populaţiei. Lotul astfel definit se numeşte

eşantion de studiu şi trebuie să respecte condiţia de a fi reprezentativ statistic prin

reflectarea proprietăţilor populaţiei sursă.

De obicei, utilizarea întregului volum al populaţiei pentru cercetare este greu sau

chiar imposibil de realizat. Tehnica exhaustivă este mare consumatoare de timp, bani şi

energie. Astfel, necesitatea determinării de metode statistice ce să definească mărimea

cât şi tehnica de alegere a elementelor unui eşantion reprezentativ a devenit de

importanţă capitală.

În statistică sunt dezvoltate metode eficiente de determinare a volumului

eşantionului (numărul de elemente componente) în moduri specifice pentru a obţine

rezultate cât mai reale, de fidelitate cât mai mare.

Iată un exemplu în care putem greşi prin alegerea neatentă a unui eşantion.

Presupunem că avem de realizat un studiu asupra unei populaţii

de copii dintr-o regiune geografică, cu vârsta cuprinsă între 5 şi 10

ani. Trebuie selectat un eşantion şi trimise părinţilor chestionarele de

interes. Prin metoda de alegere se selectează primul copil din cele 120

de liste ale comunităţilor existente. Dacă listele ar fi întocmite în mod

aleator, eroarea ar fi minimă. În multe din cazuri, listele sunt în

ordinea vârstei copiilor. Astfel primii de pe listă vor fi copii de vârste

mici, ducând la o pondere mare a acestora în eşantionul final, evident

cu repercusiuni nedorite. Eşantionul ar avea o eroare de deplasare

(bias error) care ar denatura valorile medii reale existente pe întreaga

populaţie.

Alt exemplu ar consta în alegerea greşită a numărului de cazuri

de examinat, dintr-o populaţie formată din mai multe subgrupuri, fără

a ţine cont de proporţia reală a fiecărui grup din total. Astfel, alegerea

unui număr constant de elemente din fiecare fracţiune, ar duce la o

distorsionare a ponderii fiecărui colectiv, evident cu posibile erori

majore.

Page 42: Informatica Statistica Curs

BIOSTATISTICA

48

Eşantionarea simplă aleatorie (random)

Una dintre metodele cele mai simple de alegere a unui eşantion din cadrul unei

populaţii face apel la tehnica aleatorie.

Dacă avem o populaţie de volum N şi dorim un eşantion de volum n, atunci vom

genera n numere aleatoare distincte ce să reprezinte poziţia elementului în cadrul listei.

Această metodă de determinare nu prezintă eroare de deplasare.

Numărul total de variante de n elemente din N este combinări de N luate câte n şi

se calculează cu formula: )!(!

!

nNn

NCvariantenr. n

N

(factorialul este

produsul: NN ...21! ). Media tuturor variantelor posibile este media populaţiei de

studiu (se poate demonstra matematic). Faptul că nu există diferenţă între media reală

şi media acestor combinaţii determină lipsa erorii de deplasare.

Prin acest procedeu, fiecare caz are aceleaşi şanse de a fi selectat, probabilitatea

fiind egală cu 1/N.

Exemplu

Un exemplu practic poate fi realizat folosind Microsoft Excel. În cadrul acestui

soft avem funcţia RAND(). Aceasta returnează un număr de tip aleator, cuprins între 0

şi 1. Distribuţia este de tip liniar, deci păstrează o probabilitate egală de apariţie pentru

orice valoare din domeniu.

Folosim această funcţie pentru a genera numere aleatoare în domeniul 1,…,N.

Pentru aceasta vom înmulţi funcţia RAND() cu N şi vom alege doar partea întreagă a

rezultatului. Tot în MS Excel avem funcţia INT() care extrage partea întreagă a unui

număr pozitiv prin pierderea zecimalei. Astfel, vom fi nevoiţi să înmulţim cu N+1

pentru a genera numere între 1 şi N.

În figura de mai jos este exemplificată metoda de generare a numărului de ordine

pentru un eşantion de 123 de elemente.

Figura 2.7 1 – Generarea aleatorie în MS Excel.

Page 43: Informatica Statistica Curs

BIOSTATISTICA

49

Menţionăm că prin folosirea funcţiei prezentate, se pot genera evident aleator şi

numere care se repetă. Acestea le vom ignora şi cazurile corespunzătoare care deja au

fost incluse în eşantion vor rămâne în continuare, iar ponderea lor va fi aceeaşi cu cea a

celorlalte date, deci cu valoarea 1.

O altă variantă posibilă de aplicat, este de a ordona datele după numărul aleator

generat. Acesta nu va trebui neapărat să fie transpus în domeniul 1,…,N. Se poate

utiliza de exemplu funcţia RANDBETWEEN(nr. start, nr. stop) de generare a

numerelor aleatoare. După ordonare, primele N elemente vor defini eşantionul ales.

Eşantionarea sistematică

Dacă avem o listă completă a elementelor populaţiei, un alt mod de a selecta un

eşantion constă în aplicarea metodei sistematice.

Metoda pleacă de la un punct de start, ce poate fi chiar primul element al listei şi

prin adunarea la acesta a unui număr constant se determină poziţia următorului element

ce va fi inclus în lot. Se repetă procedeul până la ultimul termen al listei sau până când

s-a completat întregul volum de analiză.

Se observă o anumită periodicitate în alegerea eşantionului. Astfel, se poate

deduce un dezavantaj al metodei, prin faptul că dacă lista iniţială la rândul ei prezintă o

ciclicitate asemănătoare cu cea aplicată în selecţie, se pot genera eşantioane care

prezintă eroare mare de deplasare.

Eşantionarea sistematică prezintă mai multe variante, cum ar fi :

1 – Se porneşte cu elementul iniţial (I0), la care se adaugă o cantitate constantă (k)

şi se alege elementul de pe poziţia I0+k, apoi I0+2k, … , I0+(n-1)k.

2 – Se pleacă de la elementul iniţial (I0), se sar k elemente şi se alege elementul de

pe poziţia I0+k+1, apoi I0+2(k+1), … , I0+(n-1)(k+1).

Principiul de lucru pentru cele două variante este acelaşi, elementele fiind alese la

distanţe egale după o origine stabilită (punctul de start).

Exemplu

Folosind programul MS Excel, alegem funcţia MOD(N1, N2). Numărul N1 este

deîmparţitul iar N2 este împărţitorul. Funcţia modulo determină restul împărţirii lui N1

la N2. Dacă N2 este multiplu de N1 atunci restul este 0. Prin urmare, se aleg elementele

pentru care funcţia modulo returnează valoarea 0.

Astfel dacă alegem perioada de 35, atunci N2=35 iar N1 este numărul de ordine din

cadrul listei totale. Elementele din coloana funcţiei modulo de valoare 0 vor fi cele

alese. Acestea pot fi uşor determinate prin ordonare.

Eşantionarea stratificată aleatoare

După numele acesteia putem deduce existenţa unei legături între această metodă şi

eşantionarea simplă aleatoare. Metoda stratificată este o modificare a eşantionării

simple în sensul păstrării unei proporţii reale între subgrupurile ce alcătuiesc întreaga

populaţie ţintă. Este utilă în situaţii în care subgrupurile componente prezintă variaţii

diferite.

Page 44: Informatica Statistica Curs

BIOSTATISTICA

50

Presupunem că avem m subgrupuri componente, fiecare având ni elemente.

Volumul n eşantionului va fi suma tuturor elementelor n1+n2+…+nm ,

m

i

inn1

.

Fiecare eşantion al unui subgrup este determinat prin metoda de eşantionare aleatoare

simplă. Volumul fiecărui subgrup este stabilit prin tehnici ce vor fi prezentate în

capitolele următoare.

Şi în această situaţie statistica matematică poate demonstra lipsa erorii de

deplasare în eşantionarea stratificată aleatorie. Chiar mai mult, precizia în determinarea

valorii medie este mai bună decât cea din metoda aleatorie simplă. Tocmai păstrarea

proporţiei aduce această îmbunătăţire a preciziei.

Eşantionarea în ciorchine (cluster – grup, ciorchine)

Elementul selectat în acest caz este un grup. Pentru a realiza un astfel de studiu, de

exemplu într-un oraş, se pot alege prin tehnici aleatorii diferite, blocuri de persoane,

pentru ca apoi pe familii să se completeze chestionarele în cauză.

Avantajul acestei metode rezidă în partea materială, studiul de acest fel fiind

economic. Metoda dă rezultate bune dacă se aplică corect alegerea aleatorie a

ciorchinelor ce definesc eşantionul.

Eşantionarea convenabilă (convenience – avantaj, comoditate)

Eşantionul este ales în acest caz după o metodă arbitrată, uşoară de aplicat,

accesibilă, convenabilă şi rapidă. Se doreşte ca lotul determinat să păstreze proprietatea

de reprezentativitate dar însăşi metoda în sine nu ne garantează acest lucru.

În majoritatea cazurilor aceste loturi ajută doar la crearea unei prime imagini

asupra problemei analizate. Estimările făcute pot prezenta erori mari de deplasare, de

aceea datele astfel culese sunt folosite doar ca studii pilot ce ajută apoi la schiţarea de

noi direcţii de cercetare.

Exemplu

Dacă dorim să intervievăm turiştii dintr-o anumită zonă geografică, vom aplica

chestionare în diferite puncte de atracţie. Dacă limba de comunicare este engleza,

atunci din start am ales doar pe cei anglofoni. Deja o eroare este inclusă în eşantion.

Un alt punct de vedere prezintă problema ţinând cont de puterea financiară a

turiştilor. Dacă punctele de atracţie sunt foarte scumpe, evident doar persoanele cu

putere financiară vor avea acces. Astfel, numărul de chestionare trebuie să fie în

echilibru cu proporţia pe subgrupe a populaţiei.

Chiar şi momentul ales din timpul zilei este important. Ziua anumite centre de

atracţie au căutare iar spre seară, evident, apar alte priorităţi în programul turiştilor.

Eşantionarea prin autogenerare (bootstrap – autogenerator)

Permite crearea de eşantioane din elementele unui lot de studiu. Mai mult chiar,

elementele se pot repeta în cadrul eşantionului. Cerinţa de bază este ca eşantionul sursă

utilizat să fie reprezentativ pentru populaţia analizată.

Page 45: Informatica Statistica Curs

BIOSTATISTICA

51

Este o metodă neparametrică pentru a estima indicatorii statistici (media este de

obicei de interes) prin interval de încredere. Cu alte cuvinte, nu se cere ca tipul

distribuţiei să fie cunoscut (de obicei de tip Gauss-Laplace).

Paşii de urmat în aplicarea metodei:

1 – Se pleacă iniţial de la elementele eşantionului sursă de volum notat N.

2 – Se defineşte volumul n al fiecărui nou eşantion generat.

3 – Se realizează prima extragere de tip aleatoriu de n elemente din cele N. Primul

eşantion este astfel generat.

4 – Se întorc elementele n la loc în sursă. Din această cauză metoda se numeşte

„cu întoarcere” , „cu înlocuire” sau „cu revenire”.

5 – Se realizează a doua extragere în acelaşi mod şi procedeul se repetă până la

completarea numărului de eşantioane dorite.

Eşantioanele astfel create pot forma o bază de date de studiu, iar tehnicile aplicate

trebuie să fie de tip neparametric, deoarece nu se cunoaşte tipul de distribuţie din care

sunt culese datele.

Exemplu

Presupunem că dorim să producem prin metoda de eşantionare cu autogenerare un

număr de 100 eşantioane de 10 elemente dintr-un lot de 30 de date.

Vom lucra tot în MS Excel, deoarece este un program ce prezintă multiple

facilităţi şi este foarte popular.

Figura 2.7 2 – Metoda bootstrap în generarea eşantioanelor.

Page 46: Informatica Statistica Curs

BIOSTATISTICA

52

Lotul iniţial cuprinde 30 de date în domeniul B3:K5. Prin INSERT + NAME +

DEFINE denumim acest bloc de date şi îl numim ESANTION. Folosim funcţia

INDEX() care citeşte valoarea unei celule determinate de numărul rândului, respectiv

al coloanei blocului de date definit. Pentru a alege într-o formă aleatorie folosim

funcţia RAND() deja prezentată în exemplele anterioare.

Astfel, în fiecare din celulele de la B7 până la K106 (deci o sută de eşantioane),

avem funcţia:

=INDEX(ESANTION,ROWS(ESANTION)*RAND()+1,COLUMNS(ESANTIO

N)*RAND()+1)”.

Dimensiunea eşantionului de studiu

În cadrul efectuării unei analize statistice, într-o primă etapă, o problemă crucială

constă în determinarea eşantionului de studiu. Ne interesează în mod imperativ

numărul de date necesare pentru ca lotul de studiu să fie reprezentativ statistic, ceea ce

înseamnă să avem încredere în rezultatele obţinute prin aplicarea analizei statistice.

Statistica matematică ne ajută pentru indicatorul studiat, cu formule determinate

pe baza intervalului de variaţie cu o încredere prestabilită. Astfel, intervalul de variaţie

admis trebuie să fie mai mic decât o valoare definită ca satisfăcătoare pentru a accepta

rezultatele finale.

Prezentăm mai multe situaţii în care metodele de determinare a volumului

eşantionului sunt descrise ca formule de calcul matematic şi apoi completate, pentru o

buna înţelegere, cu exemple practice.

În teoria statistică, în situaţia în care parametrul de interes (notat X) respectă o

distribuţie de tip normal, se pot estima limitele intervalului de variaţie a valorii medii

după formula:

nZXX

21

min , respectiv n

ZXX

21

max . (1)

X – reprezintă valoarea medie calculată din eşantion.

n – este volumul lotului de studiu.

– este nivelul de semnificaţie ales (pentru %95 avem 05,0%5 ).

– deviaţia standard.

21Z – abscisa densităţii de probabilitate Gauss normalizate (sau simplu

2

Z ).

Aceste limite rezultă din condiţia ca probabilitatea de estimare să fie de valoare

1 . Avem astfel: )( 21 ZZZP . Variabila aleatore Z este determinată

de mediile eşantioanelor extrase din populaţia de studiu. Făcând apel la capitolul

„INTERVALE DE ÎNCREDERE” pentru interval simetric avem 2

11 ZZ ,

respectiv 2

12 ZZ .

Page 47: Informatica Statistica Curs

BIOSTATISTICA

53

Variabila aleatoare Z reprezintă distribuţia mediilor eşantioanelor extrase generic

din populaţia de studiu. Pentru ca media eşantioanelor să respecte o distribuţie Gauss

normalizată se va scădea din media populaţiei media eşantionului şi se va împărţi la

deviaţia echivalentă. Obţinem

n

XZ

. Din formula probabilităţii prezentată mai

sus avem )( 21 ZZZP . De aici putem extrage limitele variabilei aleatoare Z:

21

21

Z

n

XZ (2). Astfel se deduc valorile minimă, respectiv

maximă ale intervalului de confidenţă conform cu formula 1.

Raportul n

se numeşte eroare standard.

Încrederea în determinarea limitelor de variaţie este afectată de valoarea Z ce

depinde de . Nivelul standard de încredere este de 95%, ceea ce corespunde unui

grad de semnificaţie 05,095,01 . Această încredere arată că dintr-un lot de

date ales aleator, există o probabilitate de 95% ca variabila studiată să se afle în

domeniul stabilit.

Valorile variabilei aleatoare Z sunt tabelate în anexele cărţilor de statistică.

1 – Determinarea volumului eşantionului de studiu pentru o variabilă de tip

continuu

Pentru o variabilă de tip continuu, în majoritatea cazurilor de interes, focalizarea

problemei se face asupra valorii medii.

Pentru ca evaluarea să fie corectă se stabileşte nivelul de încredere la 95% (de

obicei acesta este standardul).

Se stabileşte de către echipa de cercetare care este eroarea admisă. Aceasta

exprimă valoarea maximă a intervalului Xmax-Xmed sau Xmed-Xmin sau chiar amplitudinea

Xmax-Xmin. De fapt, această eroare admisă joacă rolul unei precizii asupra măsurătorilor

realizate. Se poate prezice o relaţie de genul: cu cât eroarea cerută este mai mică cu

atât numărul de elemente ale eşantionului va trebui să fie mai mare.

Această eroare poate fi reprezentată grafic astfel:

Figura 2.7 3.

0 Xmin Xmed Xmax

d

Page 48: Informatica Statistica Curs

BIOSTATISTICA

54

Se observă că, faţă de valoarea medie eroarea este simetrică, ducând la atingerea

valorii Xmax, respectiv valorii Xmin, ca limite ale variaţiei posibile.

Din formulele prezentate anterior (formula 1), deducem că valoarea n

Z

21

trebuie să fie mai mică decât d (valoare maximă admisă a erorii).

Din această condiţie se poate afla numărul minim n ce defineşte volumul

eşantionului semnificativ statistic:

dn

Z

21

, rezultă 2

22

21 d

Zn

.

Avem astfel o metodă de calcul al volumului minim necesar eşantionului de

studiu.

Valoarea Z o citim din tabelele statistice, funcţie de nivelul de semnificaţie.

Aceasta este uşor de determinat. Valoarea erorii admise d poate fi decisă de

investigatori în funcţie de cerinţele problemei.

Pentru valoarea dispersiei apar situaţii când aceasta nu se cunoaşte. Dacă avem

studii realizate sau informaţii din tabele medicale putem afla valoarea dispersiei. În

situaţii contrare se realizează mai întâi un studiu pilot pentru determinarea indicatorilor

statistici elementari necesari.

Pentru a avea o imagine asupra numărului de date necesare în cadrul unui eşantion

putem analiza tabelul de mai jos:

Tabelul 2.7 1–Volumul eşantionului pentru estimarea mediei, cu încredere

de 95%.

Volum lot

(n) Deviaţia standard,

0.25 0.5 0.75 1 1.5 2 2.5 3 3.5 4 4.5 5

Ero

are

a a

dm

isă

, d

0.25 3.842 15.37 34.57 61.47 138.3 245.9 384.2 553.2 753 983.4 1245 1537

0.5 0.96 3.842 8.644 15.37 34.57 61.47 96.04 138.3 188.2 245.9 311.2 384.2

0.75 0.427 1.707 3.842 6.83 15.37 27.32 42.68 61.47 83.66 109.3 138.3 170.7

1 0.24 0.96 2.161 3.842 8.644 15.37 24.01 34.57 47.06 61.47 77.79 96.04

1.5 0.107 0.427 0.96 1.707 3.842 6.83 10.67 15.37 20.92 27.32 34.57 42.68

2 0.06 0.24 0.54 0.96 2.161 3.842 6.003 8.644 11.76 15.37 19.45 24.01

2.5 0.038 0.154 0.346 0.615 1.383 2.459 3.842 5.532 7.53 9.834 12.45 15.37

3 0.027 0.107 0.24 0.427 0.96 1.707 2.668 3.842 5.229 6.83 8.644 10.67

3.5 0.02 0.078 0.176 0.314 0.706 1.254 1.96 2.822 3.842 5.018 6.35 7.84

4 0.015 0.06 0.135 0.24 0.54 0.96 1.501 2.161 2.941 3.842 4.862 6.003

4.5 0.012 0.047 0.107 0.19 0.427 0.759 1.186 1.707 2.324 3.035 3.842 4.743

5 0.01 0.038 0.086 0.154 0.346 0.615 0.96 1.383 1.882 2.459 3.112 3.842

Page 49: Informatica Statistica Curs

BIOSTATISTICA

55

Se poate observa că odată cu creşterea erorii admise d scade valoarea lui n. Cu alte

cuvinte, privind pe coloane de sus în jos volumul scade.

Dacă eroarea admisă este de două ori mai mare decât deviaţia standard, atunci

eşantionul este de volum 1 (0,96). Este si normal, deoarece în intervalul medie

plus/minus de două ori deviaţia standard, se găsesc peste 95% din date pentru

distribuţia de tip Gauss-Laplace. Practic, datele din tabel pentru peste două deviaţii

standard eroare admisă nu-şi au sensul pentru un nivel de încredere de 95%.

Exemplu

Presupunem că dorim să determinăm greutatea la naştere a copiilor dintr-o

anumită comunitate ce prezintă caracteristici specifice (tradiţii, zonă geografică).

Se cunoaşte deviaţia standard dintr-un studiu pilot ca fiind 7,0 . Nivelul de

semnificaţie acceptat este 95%, iar eroarea admisă pentru a putea compara cu valoarea

normală este dedusă de investigatori 2,0d Kg (ceea ce înseamnă că amplitudinea

Xmax-Xmin=0,4Kg admis).

Pentru 95% încredere, avem 05,095,01 . Astfel 975,02

1

şi

deducem 96,1)975.0( Z (din tabelul distribuţiei Gauss normalizate).

Putem calcula acum valoarea minimă 2

22

2,0

7,096,1 n . Obţinem 059,47n şi

alegem nminim=48.

2 – Determinarea volumului eşantionului de studiu pentru estimarea unei

proporţii

În cazul studiului de prevalenţă scopul este de a determina proporţia de bolnavi

dintr-o anumită populaţie. Pentru această situaţie eroarea standard are formula de

calcul:

n

pp

nstdEr

1..

.

Aici p este proporţia ce trebuie verificată.

Asemănător metodei 1 de determinare a volumului eşantionului, putem pune

condiţia ca limitele maximă, respectiv minimă să nu depăşească o anumită distanţă d

definită de cercetători ca acceptabilă studiului. Cerinţa aceasta poate fi exprimată

matematic:

dn

ppZ

1

21 . Se determină în final volumul eşantionului:

2

2

21

1

d

ppZn

. Formula pare puţin ciudată! Dorim să estimăm

proporţia p cu o eroare mică notată d şi determinăm volumul eşantionului, funcţie tot

Page 50: Informatica Statistica Curs

BIOSTATISTICA

56

de proporţia p. Dacă nu cunoaştem această proporţie, atunci ar trebui mai întâi estimată

într-o formă, poate aplicând un studiu pilot pentru a avea o informaţie minimă asupra

ei.

Această formulă de calcul este valabilă pentru o populaţie infinită sau de volum

foarte mare (pentru estimarea corectă a proporţiilor). În realitate, populaţiile au volum

finit. Este normal să se aplice o corecţie matematică în situaţiile finite.

Formula corectată a determinării volumului eşantionului:

pop

n

nncorectat 1

1

,

unde pop reprezintă volumul populaţiei de studiu (atenţie: populaţie şi nu eşantion).

Putem gândi de exemplu, problema pentru estimarea unei proporţii de bolnavi în

populaţia judeţului Iaşi (care evident este finită). Va trebui să aplicăm corecţia

prezentată pentru volumul eşantionului (se cunoaşte populaţia judeţului Iaşi ca fiind

814 mii de locuitori la 1 iunie 2005).

Ca observaţie, valoarea proporţiei p poate să nu fie cunoscută. S-a menţionat deja

posibilitatea efectuării unui studiu pilot pentru determinarea valorii p. Totuşi p variază

între 0 şi 1, iar produsul p(1-p) are o proprietate remarcabilă.

Figura alăturată prezintă variaţia produsului p(1-p) pe intervalul [0, 1]. Maximul

este pentru p=0,5 şi are valoarea 0,25. Iată o proprietate ce ne ajută foarte mult. Chiar

dacă nu cunoaştem valoarea proporţiei noi putem impune condiţia ca volumul

eşantionului să fie de o anumită dimensiune. Chiar dacă această dimensiune nu este

optimizată, ea este foarte utilă deoarece numărul de date fiind mărit şi încrederea la

rândul ei va fi mai mare.

p(1-p)

0

0.05

0.1

0.15

0.2

0.25

0.3

0 0.125 0.25 0.375 0.5 0.625 0.75 0.875 1p

Figura 2.7 4 – Maximul produsului p(1-p).

Pentru a avea o imagine asupra numărului de date necesare pentru un studiu

consistent în informaţie şi util în determinarea unei proporţii, analizăm tabelul de mai

jos.

Page 51: Informatica Statistica Curs

BIOSTATISTICA

57

Tabelul 2.7 2 – Volumul eşantionului pentru estimarea proporţiei p cu

încredere de 95%.

Volum

eşantion

Proporţia p

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Ero

are

a m

axim

ă a

dm

isă

d

0.1 34.57 61.47 80.67 92.20 96.04 92.20 80.67 61.47 34.57 0

0.2 8.64 15.37 20.17 23.05 24.01 23.05 20.17 15.37 8.64 0

0.3 3.84 6.83 8.96 10.24 10.67 10.24 8.96 6.83 3.84 0

0.4 2.16 3.84 5.04 5.76 6.00 5.76 5.04 3.84 2.16 0

0.5 1.38 2.46 3.23 3.69 3.84 3.69 3.23 2.46 1.38 0

0.6 0.96 1.71 2.24 2.56 2.67 2.56 2.24 1.71 0.96 0

0.7 0.71 1.25 1.65 1.88 1.96 1.88 1.65 1.25 0.71 0

0.8 0.54 0.96 1.26 1.44 1.50 1.44 1.26 0.96 0.54 0

0.9 0.43 0.76 1.00 1.14 1.19 1.14 1.00 0.76 0.43 0

1 0.35 0.61 0.81 0.92 0.96 0.92 0.81 0.61 0.35 0

Exemplu

Presupunem că avem de determinat o proporţie a cărei valori este aproximativ

cunoscută 80,0p . Cu încredere de 95% să se deducă numărul de date necesare

pentru a nu se efectua o eroare mai mare de 10% în estimarea proporţiei.

Pentru 95% încredere, avem 05,095,01 . Astfel 975,02

1

şi

deducem 96,1)975,0( Z (din tabelul distribuţiei Gauss normalizate).

Dacă eroarea este de maxim 10% avem d= 08,01,08,0 (atenţie în definirea

erorii).

Calculăm volumul minim al eşantionului de studiu:

2

2

21

1

d

ppZn

,

2

2

08,0

8,018,096,1

n , obţinem n=96,04. Alegem astfel n=97 pacienţi.

Menţionăm că şi softul EpiInfo 3.3.2 2005, poate determina volumul eşantionului

urmând paşii: Utility + StatCalc + Sample Size &Power + Population Survey.

Dacă în studiu am fi avut informaţii despre volumul populaţiei, de exemplu

pop=7600 persoane, atunci valoarea n ar fi trebuit corectată cu formula:

13,90

1450

104,961

04,96

11

pop

n

nncorectat . Prin aproximare cu majorare la prima

valoare întreagă se deduce n=91.

Page 52: Informatica Statistica Curs

BIOSTATISTICA

58

Observaţie

Dacă nu cunoşteam valoarea aproximativă a proporţiei atunci aproximăm

prin adaos p(1-p)=0,25 şi obţineam n=150,06 ce ajustat ar fi n=151. Astfel, numărul

de pacienţi ar fi fost crescut.

3 – Determinarea volumului eşantionului de studiu pentru estimarea unei

corelaţii.

În această situaţie pentru determinarea volumului eşantionului necesar estimării

valorii coeficientului de corelaţie într-un mod consistent, se va apela la testele

ipotezelor statistice. Este greu să se determine o eroare acceptată a coeficientului de

corelaţie, aşa cum s-a făcut de exemplu pentru estimarea proporţiei.

Se vor impune condiţii atât asupra nivelului de semnificaţie cât şi asupra

puterii testului, 1 .

Ipoteza statistică nulă este : H0 – coeficientul de corelaţie este 0, 0 .

Ipoteza alternativă este: H1 – coeficientul de corelaţie are valoarea cunoscută

c , c .

Valoarea cunoscută a coeficientului se ştie din studii anterioare, publicaţii recente

sau studiu pilot efectuat special cu acest scop.

Formula de calcul dedusă în acest caz este :

211

3

cF

ZZn

.

c

ccF

1

1ln

2

1)( , este transformata Fisher utilizată şi la formarea

intervalelor de confidenţă.

Exemplu

Dorim să determinăm volumul necesar eşantionului pentru a verifica dacă

corelaţia cunoscută c are valoarea 0,7. Se va face apel la valorile standard pentru

nivelul de semnificaţie, respectiv puterea testului.

Avem aşadar 05,0 şi 1,0 . Citim din tabelul statistic 65,11 Z ,

respectiv 28,11 Z .

Calculăm 602,07,01

7,01ln

2

1)(

cF şi în continuare:

68,26602,0

28,165,13

2

n .

Aproximăm la primul întreg mai mare şi avem astfel n=27 de date (pentru

corelaţie sunt utilizate perechi de date).

Page 53: Informatica Statistica Curs

BIOSTATISTICA

59

4 – Determinarea volumului eşantionului de studiu pentru verificarea unei

diferenţe impuse.

În cadrul unei cercetări se poate impune condiţia ca diferenţa existentă între

parametrii de interes (medie sau proporţie) să depăşească o anumită valoare critică

pentru a fi decisivă.

Faptul că există teste de detectare a diferenţei semnificative nu este suficient.

Noutatea constă în dimensiunea impusă diferenţei căutate.

Iată un exemplu: În cercetările pentru validarea unui nou tratament împotriva

cancerului, se doreşte ca proporţia celor vindecaţi să fie cu cel puţin 10% mai mare

decât procentul obţinut prin metoda clasică de terapie.

Dacă indicatorul de interes este media, deci măsura se realizează pe o scară de tip

continuu, atunci importantă este diferenţa d 21 . Valoarea d este decisă de

specialiştii în domeniul de studiu. Indicatorii 1 , respectiv 2 , reprezintă mediile

populaţiilor de studiu (deci fără eroare), iar notaţia pentru media din eşantion este

1X (aceasta poate fi estimată cu o anumită încredere).

Menţionăm că în cazurile reale se defineşte mai întâi noţiunea de tratament mai

bun (în cazul nostru 21 ).

Pentru determinarea volumului eşantionului se pleacă de la condiţia

1)( 2121 dXXP . Este probabilitatea condiţionată ca media să fie

mai mare în eşantionul studiat pentru diferenţa mediilor populaţiilor de valoare d.

Se află prin calcul valoarea volumului eşantionului: 2

22

21

4d

Zn

.

Ca şi în cazurile precedente, valoarea dispersiei este greu de cunoscut, mai ales în

studii noi de cercetare. Problema trebuie rezolvată prin estimare din studii pilot.

Dacă indicatorul de interes este proporţia, atunci formula de calcul se deduce în

mod asemănător şi rezultă:

2

2

21

14

d

ppZn

. În acest caz d = p1 - p2.

Pentru situaţia în care volumele eşantioanelor sunt egale 2

21

nnn , avem

2

21 ppp

.

Observaţie

Dimensiunea eşantionului în situaţia prezentată (ce conţine condiţii

suplimentare) este de aproximativ 4 ori mai mare decât dimensiunea necesară în cazul

estimării mediei sau proporţiei într-un studiu cu o eroare maximă admisă notată d.

Page 54: Informatica Statistica Curs

BIOSTATISTICA

60

1.8. TESTE DE IPOTEZĂ

Concepte de bază în evidenţa (siguranţa) statistică

În statistică obiectivul fundamental constă în luarea unei decizii, chiar în cazul

existenţei unei incertitudini. Decizia luată trebuie să fie corectă şi independentă (pe cât

posibil) de lipsa de cunoştinţă - materializată prin incertitudine.

În cazul testelor de ipoteză problema de bază constă în elaborarea regulilor de

decizie în aşa fel încât, dintre variantele posibile să se aleagă concluzia corectă cu o

probabilitate acceptată ca satisfăcătoare.

Se emit mai multe ipoteze şi prin decizie se acceptă doar o ipoteză care se

încadrează în probabilitatea stabilită.

Ipoteza statistică reprezintă o presupunere asupra parametrilor uneia sau unor

repartiţii sau chiar asupra repartiţiei în sine (spre exemplu, egalitatea mediilor a două

populaţii, a dispersiilor, a proporţiilor, verificarea formei normale a unei repartiţii,

etc.).

Testele statistice reprezintă metode matematice de verificare a ipotezelor

statistice. Prin acestea se doreşte examinarea unei ipoteze care apoi se aplică populaţiei

de date dacă este confirmată a fi adevărată. Testarea se face pe baza eşantionului de

date. Astfel, orice decizie comportă un anumit risc. Decizia se ia asupra întregii

populaţii, deci constituirea eşantionului este de importanţă majoră.

În enunţarea unei ipoteze există două posibilităţi:

– Ipoteza nulă notată H0, în care parametrii de comparat se consideră egali. Spre

exemplu, media populaţiei 1 având date în eşantionul 1 este egală cu media populaţiei

2 caracterizată de eşantionul 2.

210 : H .

Aceasta arată lipsa diferenţelor parametrilor examinaţi sau a existenţei unei relaţii.

– Ipoteza alternativă în care se consideră cei doi parametri diferiţi.

211 : H .

Această ipoteză este contrară ipotezei nule şi arată existenţa diferenţelor sau a

relaţiilor posibile între parametri.

Se creează apoi funcţia discriminantă statistică (forma matematică a testului), a

cărei valoare calculată se compară cu valori tabelate corespunzătoare tipului de

repartiţie în care se încadrează.

Pe scurt, etapele de urmat în verificarea prin test statistic vor fi:

1. Enunţarea ipotezei. Se definesc ipotezele: nulă, respectiv alternativă. Acestea

urmăresc scopul cercetării, exprimând ceea ce avem de verificat.

Page 55: Informatica Statistica Curs

BIOSTATISTICA

61

2. Alegerea parametrului de studiu (poate să fie conţinut implicit în enunţarea

ipotezei). Ca exemple avem: media, varianţa, relaţia exprimată prin corelaţie,

parametrii de regresie, proporţii în cadrul populaţiilor, etc.

3. Deducerea şi calculul statisticii discriminante dorite aplicând regula de decizie.

De exemplu, la compararea mediilor se poate lua în calcul o nouă variabilă

aleatoare definită ca diferenţa între indicatori. În acest caz aceasta poate urma

o distribuţie de tip t (Student) sau Z, deci normală.

4. Acceptarea sau respingerea ipotezei prin calculul semnificaţiei p. Se calculează

statistica (t, Z sau Fisher spre exemplu) din datele eşantioanelor de lucru.

Corespunzător se deduce valoarea p, care reprezintă probabilitatea de a avea o

eroare de tip I. Aceasta este o integrală în cadrul distribuţiei de frecvenţă

determinate şi reprezintă semnificaţia testului.

Ca idee de bază, trăsătura populaţiei studiate care este cuprinsă în eşantionul

analizat (tehnica de determinare a volumului eşantionului şi a elementelor sale este

crucială) poate reprezenta o caracteristică majoritară, care dacă este observată în

proporţie de 95% (definită ca standard), atunci este acceptată. În situaţia în care nu este

întâlnită în această proporţie (de exemplu avem doar 90% din cazuri ce respectă

regula), vom accepta mai degrabă ipoteza alternativă, deoarece variaţia întâlnită (chiar

dacă este în proporţie de numai 10%) implică existenţa unui factor ce a modificat

trăsătura.

Semnificaţia statistică este nivelul de probabilitate la care acceptăm eroarea de

tip I (este eroarea de a decide greşit că H1 este adevărată, deci există diferenţă falsă).

Aceasta este considerată puternică dacă are valoarea p=5% (deci 95% din cazuri nu

s-au modificat), este definită ca medie pentru valori între 5-10% (deci peste 90% de

cazuri nemodificate) şi nu este acceptată pentru p>10% (deci sub 90% din cazuri

nemodificate).

Dacă nu acceptăm ipoteza nulă, înseamnă că alternativa a fost dovedită, dar nu cu

95% încredere. Aici nu trebuie gândit complementar. În figura 2.8 1 se observă că în

funcţie de pragul ales suprafeţele , respectiv ce reprezintă erori, nu sunt egale.

Faptul că testul a ieşit semnificativ implică existenţa datelor modificate peste o limită

admisă ca normală, deci acceptăm schimbarea ca fiind datorată probabil unor elemente

care şi-au impus efectul (acceptăm ipoteza H1).

Există o variaţie intrinsecă a datelor care motivează practic obiectul de analiză al

statisticii. Această variaţie impune limitele definite de valoarea semnificaţiei de 5%.

Pentru valori diferite ale varianţei vom avea de exemplu, valori diferite

corespunzătoare abscisei de tip Z sau t.

Lucrând cu o probabilitate de 95% avem deja anumite riscuri. Chiar dacă un

procent destul de mare de date au o anumită caracteristică, aceasta nu înseamnă că

toate elementele populaţiei vor păstra proprietatea. Evident şi normal de anticipat,

aşteptăm ca o proporţie de 5% din date să fie „anormale”. Trebuie să fim pregătiţi să

tratăm problema exhaustiv şi să ţinem cont de această posibilitate – cazurile limită.

Metoda de lucru constă în determinarea distribuţiei, urmată de statistica creată

prin scopul nostru. Spre exemplu, dacă dorim să studiem diferenţa mediilor a două

Page 56: Informatica Statistica Curs

BIOSTATISTICA

62

populaţii, atunci în mod generic, putem produce un număr mare de eşantioane iar

diferenţa mediilor acestora va defini statistica de lucru. Avem practic un nou set de

date care respectă o anumită lege de distribuţie ce ne ajută în determinarea

semnificaţiei statistice căutate.

Testele de ipoteză sunt foarte importante deoarece reprezintă o metodă statistică

de decizie bazată pe „cântărirea” cunoştinţelor obiective, prin estimări probabilistice

asupra setului de valori determinate practic.

Erori posibile

După cum s-a prezentat deja, există două ipoteze în testele statistice şi anume

ipoteza nulă notată H0, respectiv cea alternativă notată H1.

Se pot comite în această situaţie două erori :

Eroare de tip I – să se accepte în mod greşit ipoteza alternativă H1, când în

realitate H0 este adevărată.

Eroare de tip II – să se accepte în mod greşit ipoteza nulă H0, când în realitate

H1 este adevărată.

Situaţiile posibile sunt prezentate în tabelul de mai jos.

Tabelul 2.8 1.

Sistem decizional cu prag

Situaţie adevărată

Ipoteza H0 este

adevărată

Ipoteza H0 este

falsă

Dec

izie

pri

n t

est Acceptare

ipoteză H0 Nu există eroare

Eroare tip II

Respingere

ipoteză H0

Eroare tip I

Nu există eroare

Este de dorit ca aceste erori să fie cât mai mici posibil. Se cunoaşte că există o

legătură invers proporţională între ele. Putem micşora eroarea dar drept consecinţă,

eroarea de tip II se va mări într-o anumită măsură (fig. 2.8 1). Încercând să scădem

valoarea obţinem o creştere a erorii de tip I. Este clar că efectele sunt contradictorii

şi un compromis trebuie acceptat, funcţie de scopul urmărit.

Parametrii distribuţiilor estimate depind de volumul eşantioanelor cercetate. În

concluzie, pentru a micşora ambele erori şi a elimina pe cât posibil efectul nedorit al

lipsei de informaţie vom folosi volume mari de date care vor duce la scăderea în

special a erorii de tip II. Astfel, vom putea modifica pragul notat d pentru a micşora şi

eroarea de tip I.

Grafic, putem reprezenta problema prin două curbe Gauss-Laplace care se

suprapun pe o anumită porţiune (fig. 2.8 1).

Avem două distribuţii conform celor două ipoteze posibile. Pragul decizional (d)

poate fi ales funcţie de dorinţe. Se observă cu claritate dependenţa invers proporţională

între cele două erori materializate prin suprafeţele respectiv ce reprezintă în fapt

probabilităţi. Dacă deplasăm dreapta de decizie d în stânga, atunci micşorăm suprafaţa

notată , dar mărim suprafaţa ce defineşte eroarea de tip I.

Page 57: Informatica Statistica Curs

BIOSTATISTICA

63

Cu cât cele două distribuţii se suprapun mai puţin cu atât erorile de decizie sunt

mai mici.

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.450

0.5 1

1.5 2

2.5 3

3.5 4

4.5 5

5.5 6

6.5 7

7.5 8

8.5 9

9.5 10

B

dA

H1 este adevăratăH0 este adevărată

Figura 2.8 1 – Distribuţiile pentru cele două ipoteze. A este distribuţia ce

susţine H0, B este distribuţia ce susţine H1.

Regiunea de acceptare / respingere a ipotezei nule

În cadrul testelor statistice o temă importantă constă în formarea regulilor de

decizie. Se definesc astfel două regiuni, numite de acceptare, respectiv de respingere a

ipotezei nule.

În continuare ne interesează dacă în cazul ipotezei contează doar existenţa

diferenţei dintre indicatori sau, varianta a doua, ne interesează şi direcţia diferenţei

adică ipoteza alternativă prezintă semnul „mai mare” sau doar „mai mic”.

Dacă suntem în primul caz şi doar existenţa diferenţei este importantă, avem în

lucru un test cu semnificaţie bilaterală. Acesta se aplică în situaţiile în care ipoteza

alternativă conţine variantele posibil mai mare şi posibil mai mic. De exemplu, pentru

compararea mediilor, ipoteza susceptibilă H1 poate avea formele m1>m2, respectiv

m1<m2.

Figura 2.8 2 - Regiunea de acceptare/respingere pentru încredere bilaterală

Regiunea de

acceptare a H0 Regiunea de

respingere a H0

Regiunea de

respingere a H0

Statistica calculată

(t, Z, F, etc.)

Funcţia densitate de

probabilitate

Praguri corespunzătoare a

95% încredere

2

Z 2

Z

Page 58: Informatica Statistica Curs

BIOSTATISTICA

64

Pentru situaţia în care avem un singur prag de decizie, ne interesează dacă

variabila studiată are valori mai mici (sau mai mari) decât o valoare cunoscută sau

variabila din lotul 1 are valori mai mici (sau mai mari) faţă de cea din lotul 2. Figura

anterioară se simplifică având doar un singur prag corespunzător semnificaţiei dorite.

Figura 2.8 3 - Regiunea de acceptare/respingere pentru încredere unilaterală

(H0: media m1 < m2)

Observaţie

Nivelul de semnificaţie de 5% defineşte pragul (în situaţia unui test unilateral) sau

pragurile (pentru un test bilateral) corespunzătoare. Este de aşteptat ca aceste limite să

fie diferite, deoarece probabilitatea de 5% reprezintă suprafaţa cuprinsă în regiunea de

respingere. În testul bilateral avem două suprafeţe simetrice iar în cazul unilateral avem

doar o singură regiune de respingere. Astfel, pentru 5% semnificaţie unilaterală avem

valoarea Z tabelata (p=0,05) = 1,65 iar pentru semnificaţie bilaterală avem

Z tabelată(p=0,025) = 1,96.

Testul ipotezei simple – compararea mediei unui eşantion cu o valoare de

referinţă

Acest test constă în specificarea valorile parametrilor necunoscuţi din cadrul unei

repartiţii. Este vorba de seturi de date de tip continuu.

Ca exemple putem prezenta verificarea egalităţii mediei glicemiei unui subgrup cu

valoarea standard cunoscută, sau media presiunii arteriale, sau greutatea la naştere etc.

Algoritmul de determinare constă în generarea de eşantioane din populaţia ţintă.

Se calculează media acestora şi se studiază noul eşantion astfel format. Conform

teoremei limită centrală, eşantionul mediilor urmează o distribuţie de tip t, care

converge către distribuţia Z (normală) pentru nu număr suficient de mare de date. Acest

rezultat este foarte important, deoarece indiferent de tipul densităţii de probabilitate a

populaţiei studiate, media eşantioanelor are o distribuţie de tip cunoscut.

Vom testa în continuare egalitatea mediei unei populaţii repartizate normal, cu o

anumită valoare de referinţă.

Regiunea de

acceptare a H0 Regiunea de

respingere a H0

Statistica calculată

(t, Z, F, etc.)

Funcţia densitate

de probabilitate

Pragul corespunzător a

95% încredere

m1 Z

Page 59: Informatica Statistica Curs

BIOSTATISTICA

65

Cazul 1 – Valoarea dispersiei este cunoscută

Presupunem că avem de verificat egalitatea mediei unui parametru medical (spre

exemplu uricemie, glicemie) cu o anumită valoare dată 0. Notăm media populaţiei cu

şi o considerăm necunoscută. Notăm dispersia cu 2 şi presupunem că i se cunoaşte

valoarea.

Definim ipoteza nulă H0: Mediile sunt egale, = 0 .

Definim ipoteza alternativă H1: Mediile diferă, 0 .

Considerăm de asemenea că lucrăm cu un nivel de semnificaţie bilateral

simetric. Dimensiunea eşantionului este n, iar media calculată din eşantion este X

(aceasta este apropiată de media populaţiei notată ). Distribuţia mediilor este de tip

Gauss-Laplace de medie şi abatere standard de n ori mai mică, n

(numită şi

eroare standard). Scăzând valoarea constantă 0 din mediile eşantioanelor distribuţia nu

se modifică decât prin translare. Împărţind în continuare la eroarea standard (dispersia

eşantioanelor) obţinem forma normalizată (medie 0 dispersie 1).

Avem astfel funcţia statistică discriminantă de forma:

n

XZ c

0 (statistica calculată din eşantion).

Aceasta este repartizată normal cu media 0 şi dispersia 1, N(0,1).

Pentru nivelul de semnificaţie bilateral se alege un interval 2/2/ , ZZ

astfel: 12/2/ ZZcZP .

Dacă Zc respectă condiţia 2/2/ ZZZ c , cu 2/Z valori tabelate ale

repartiţiei normale, atunci ipoteza H0 se acceptă cu încredere 1-, sau cu riscul .

Această condiţie mai poate fi scrisă restrâns sub forma: 2

ZZc .

În caz contrar, dacă este îndeplinită relaţia 2

ZZc , ipoteza H0 se respinge în

favoarea acceptării ipotezei H1.

Se poate aplica şi un test unilateral. În acest caz se definesc ipotezele următoare :

1 – Ipoteza H0: media populaţiei este mai mică decât valoarea 0, 0 .

2 – Ipoteza H1: media populaţiei este mai mare decât valoarea 0, 0 .

Conform formulei probabilităţii avem de verificat:

10 Z

n

XP .

Page 60: Informatica Statistica Curs

BIOSTATISTICA

66

Dacă ],(0

Z

n

XZc

, atunci ipoteza H0 se acceptă cu nivel de

semnificaţie , sau risc , sau încredere 1-.

În caz contrar, se acceptă ipoteza H1 în defavoarea ipotezei H0.

Tot în cadrul testului unilateral putem avea ipotezele de forma:

H0: 0 , cu alternativa H1: 0 .

Intervalul de acceptare este definit de relaţia:

10 Z

n

XP .

Observaţie

În unele cărţi de specialitate, cât şi în unele programe de statistică nivelul de

semnificaţie se notează cu p în loc de .

Cazul 2 – Valoarea dispersiei este necunoscută

Considerăm că avem de verificat ipoteza H0: 0 , adică media unui parametru

medical este egală cu valoarea 0 dată. Ipoteza alternativă este H1: 0 , media

parametrului respectiv este diferită de valoarea 0 dată.

Valoarea dispersiei populaţiei, notată 2, nu este cunoscută, iar volumul

eşantionului îl notăm cu n.

Pentru verificarea ipotezei H0 se va calcula funcţia discriminantă:

SnXtc 0 (1), unde S reprezintă aproximarea dispersiei

cu formula: nn

S

1

22

, 0 este valoarea de comparaţie, iar X este valoarea

medie a eşantionului.

Variabila aleatoare creată cu formula (1) respectă o repartiţie Student cu

1 n grade de libertate (notată cu t).

Notăm nivelul de semnificaţie cu (sau riscul), respectiv încrederea cu =1- (a

nu se confunda cu eroarea de tip II, este doar o coincidenţă de notaţie!). Valoarea

=0,05 (sau 5%) este acceptată în majoritatea cazurilor medicale.

Conform formulei de calcul a probabilităţii avem:

12/2/ tttP c .

Comparaţia se face cu t/2, deoarece folosim un risc bilateral simetric (valorile

sunt tabelate în anexe).

Dacă relaţia 2

,ttc este respectată, atunci acceptăm ipoteza H0 cu nivel de

semnificaţie .

Page 61: Informatica Statistica Curs

BIOSTATISTICA

67

Dacă avem respectată relaţia 2

,ttc , atunci respingem ipoteza H0 şi nu

putem afirma cu încredere P=1- că mediile sunt egale.

Interpretarea trebuie făcută cu atenţie, deoarece a respinge ipoteza H0 nu înseamnă

că se acceptă ipoteza H1 cu încredere P=1-. Ipoteza alternativă a fost acceptată ca

urmare a depăşirii unui prag definit ca decident. Ne aflăm pe suprafaţa erorii de tip I şi

astfel ipoteza alternativă este de preferat.

Exemplu

Vom folosi un set de date create cu ajutorul computerului şi rezolvăm problema la

modul generic. Considerăm că în cadrul experimentului realizat am obţinut următorul

set de valori:

Tabelul 2.8 2.

Parametrul analizat (X)

1 1,83

2 1,60

3 1,74

4 1,84

5 1,26

6 1,44

7 1,43

8 1,43

9 1,50

10 1,72

11 1,33

12 1,43

13 1,87

14 1,57

15 1,64

16 1,44

17 1,57

18 1,44

19 1,74

20 1,42

21 1,24

22 1,32

23 1,22

Se doreşte să se verifice dacă datele diferă sau nu semnificativ faţă de valoarea

standard normală X0=1,2. Pentru aceasta se va afla media lotului se va deduce statistica

t sau Z calculată şi în final se va decide acceptarea sau respingerea ipotezei H0.

Folosind Microsoft Excel:

În situaţia dată nu avem cunoştinţe despre valoarea dispersiei, deci statistica

calculată este de tip t cu formula

nS

XXtc

0 , unde n

nS

1

22

.

Ne interesează doar verificarea semnificaţiei statistice pentru diferenţa între valori

nu şi sensul acesteia (mai mare sau mai mic). Lucrăm astfel cu un test bilateral.

Distribuţia t (Student) este caracterizată de numărul gradelor de libertate df=23-1

(volumul eşantionului minus 1, în cazul nostru) şi de semnificaţia statistică 0,05

standard. În concluzie, citim valoarea de comparaţie existentă în tabele

074,2025,02/,22 dft (din anexele cărţii).

Putem calcula pas cu pas fiecare element din formula prezentată mai sus.

Page 62: Informatica Statistica Curs

BIOSTATISTICA

68

Pentru medie: =AVERAGE(D4:D26), obţinem 523,1X .

Pentru dispersia corectată: =STDEV(D4:D26), obţinem 196,0S .

În final obţinem : tcalculat = 7,90.

Valoarea calculată 7,90 este mai mare faţă de cea tabelată 2,074 şi decidem că

ipoteza H0 nu este acceptabilă. În concluzie, decidem că există diferenţă semnificativă

statistic între datele experimentale şi valoarea standard normală cunoscută.

Problema prezentată se putea rezolva şi prin determinarea intervalului de

confidenţă – metodă discutată în capitolul corespunzător. Dacă intervalul determinat

pentru media eşantionului cuprinde valoarea de comparaţie, atunci nu există diferenţă

semnificativă statistic.

Folosind softul SPSS

Pentru această verificare există special o subrutină dezvoltată. Aceasta se lansează

urmând din meniu paşii: Analyze + Compare means + One-Sample T Test…

Figura 2.8 4 - SPSS compararea mediei unui eşantion cu o valoare de

referinţă.

Se defineşte conform figurii alăturate variabila ce defineşte eşantionul cât şi

valoarea de referinţă.

Se obţin două tabele cu datele statistice calculate.

Page 63: Informatica Statistica Curs

BIOSTATISTICA

69

Tabelul 2.8 3. One-Sample Statistics

N Mean Std. Deviation Std. Error

Mean

X 23 1.5234 .19675 .04103

Tabelul 2.8 4 . One-Sample Test

Pa

ram

etr

ul

X

Test Value = 1.2

t

df

Sig. (2-tailed)

Mean Difference

95% Confidence Interval of the Difference

Lower Upper

X 7.883 22 .000 .32339 .2383 .4085

În primul tabel sunt determinate valorile mediei, deviaţiei standard şi a erorii

standard. Acestea pot fi determinate şi în Ms Excel.

În tabelul al doilea găsim valoarea statisticii t calculate 7,883 (cu o precizie mai

bună faţă de cea calculată de noi, 7,90), nivelul de semnificaţie ce este sub 00

01 , iar în

final limitele intervalului de confidenţă a diferenţei faţă de referinţa 1,2.

Interpretare

Conform nivelului de semnificaţie calculat (sub 0001 ) deducem că există

diferenţă semnificativă statistic, deoarece valoarea de 0,001 este mai mică decât 0,05

sau 5%.

Altă metodă de interpretare constă în studiul intervalului de confidenţă a

diferenţei. Dacă acesta nu cuprinde valoarea 0, atunci există semnificaţie statistică. În

cazul nostru evident ajungem la acelaşi rezultat. Valoarea 0 nu este cuprinsă în

domeniul 0,2383 ÷ 0,4085, deci media eşantionului diferă faţă de valoarea normală 1,2.

Testul ipotezei duble – compararea mediilor a două eşantioane (t, Student)

Foarte frecvent în aplicaţiile de tip medical (şi nu numai) apare problema

comparării unor parametri dintr-un eşantion cu parametrii altui eşantion (pot fi chiar

din aceeaşi populaţie, dar la momente diferite).

Presupunem că avem două eşantioane notate X, cu valorile x1, x2, …, xnx, respectiv

Y, cu valorile y1, y2, …, yny. Considerăm că cele două populaţii sunt repartizate normal,

şi anume 2,: xxNX , respectiv 2,: yyNY .

Dorim să testăm ipoteza H0: x = y, mediile sunt egale, cu alternativa

H1: x y, mediile sunt diferite (se aplică testul „t” sau testul Z). Pentru aceasta se

defineşte o variabilă aleatoare V = X – Y, care funcţie de cunoştinţele despre dispersiile 22 , yx , va respecta o anumită funcţie de distribuţie.

Din teorema limită centrală rezultă că distribuţia diferenţei mediilor poate fi de tip

t (Student) sau Z (Gauss-Laplace). Se respectă acelaşi procedeu de determinare a unui

Page 64: Informatica Statistica Curs

BIOSTATISTICA

70

număr mare de eşantioane şi se analizează diferenţa mediilor ca fiind o nouă variabilă

de studiu V.

Cazul 1 – Datele sunt perechi

O metodă des întâlnită în practica medicală constă în măsurarea datelor înainte de

tratament şi după tratament. Se doreşte verificarea existenţei diferenţei semnificative,

deci eficienţa tratamentului este analizată.

Marele avantaj al folosirii datelor pereche constă în eliminarea efectului factorilor

de confuzie: vârstă, sex, rasă, etc. Chiar în acest sens se proiectează studii perechi

caz-martor în care persoanele care au aceleaşi valori ale factorilor de confuzie sunt

trataţi ca perechi.

Datele astfel culese conţin o anumită legătură a cuplului şi nu vor putea fi

analizate ca aparţinând a două eşantioane independente.

Se defineşte o nouă variabilă aleatoare formată din diferenţa pe fiecare pereche de

date d. Această variabilă va fi comparată cu valoarea 0. Distribuţia urmată va fi de tip

Student (t) de medie d respectiv dispersie 2

d . Studiind distribuţia mediilor

eşantioanelor obţinem aceeaşi medie (ce poate fi 0) dar dispersia este micşorată

(conform demonstraţiilor matematice) de n ori (n este volumul eşantioanelor),

n

d

d

2

2 .

În concluzie, distribuţia normalizată a mediilor eşantioanelor este de tip Student

de forma:

n

S

dt

dc

0 , unde Sd este aproximarea deviaţiei standard (împărţire la n-1).

Ipoteza H0 afirmă că mediile sunt egale deci d=0, diferenţa este 0.

Ipoteza alternativă H1: mediile nu sunt egale deci d este diferit de 0.

Valoarea statisticii tabelate pentru test bilateral este determinată de semnificaţia

standard de 5% iar numărul gradelor de libertate df=n-1. În tabelele distribuţiei t se

citeşte valoarea 025,02/,1 ndft .

Interpretarea respectă aceeaşi regulă generală, dacă t calculat este mai mare ca t

tabelat (ambele în modul) atunci există semnificaţie statistică, deci cele două seturi de

date diferă semnificativ. În caz contrar dacă t tabelat este mai mare ca t calculat se

acceptă ipoteza H0, deci mediile sunt egale.

Cazul 2 – Dispersiile 22 , yx sunt cunoscute

În această situaţie variabila V urmează o distribuţie normală şi va avea dispersia

echivalentă y

y

x

xV

nn

222

.

Funcţia discriminantă se va calcula cu formula:

Page 65: Informatica Statistica Curs

BIOSTATISTICA

71

y

y

x

x

yx

V

V

nn

YXVZ

22

.Variabila Z este repartizată normal

N(0,1). Pentru specificaţie bilaterală simetrică regiunea de acceptare va fi:

122 ZZcZP , cu nivelul de semnificaţie.

Pentru medii egale se determină:

y

y

x

x

nn

YXZc

22

.

Atunci când se calculează Zc şi se respectă relaţia 2ZZc , se va accepta

ipoteza H0 cu încrederea P = 1 - . Astfel, putem considera că mediile sunt egale.

Dacă relaţia: 2ZZc este respectată, atunci nu putem accepta ipoteza H0 şi în

schimb vom considera mediile ca fiind diferite.

Cazul 3 – Dispersiile 22 , yx sunt egale de valori necunoscute.

În această situaţie statistica discriminantă urmează o repartiţie Student de forma:

yxy

yy

x

xx

c

nnn

Sn

n

Sn

YXt

111122

, n

nSn

nS

y

yyx

x

xx

1,

1

22

22

.

Valoarea calculată se compară cu valoarea tabelată 2,t , unde:

22121 nn .

Dacă se respectă relaţia 2,ttc , vom accepta ipoteza H0, deci mediile se pot

considera a fi egale.

Dacă 2,ttc , nu putem accepta ipoteza H0 şi concluzionăm că mediile sunt

diferite.

Cazul 4 – Dispersiile sunt necunoscute (pot fi sau nu egale)

În acest caz se calculează funcţia discriminantă:

y

y

x

x

c

n

S

n

S

YXt

22

. Această variabilă aleatoare aproximează o lege de distribuţie

de tip Student.

Page 66: Informatica Statistica Curs

BIOSTATISTICA

72

Valoarea calculată se va compara cu valoarea tabelată 2,t .Numărul gradelor de

libertate se calculează cu formula:

xy

yx

CC

22 1, unde constanta C este

yyxxx

x

nSnSn

SC

22

1

.

De asemenea, s-au folosit formulele de calcul:

1,1 yyxx nn , yy

yyx

x

xx n

nSn

nS

1,

1

22

22

.

La fel ca şi în celelalte cazuri, dacă 2,ttc acceptăm ipoteza H0 şi mediile

sunt egale, altfel considerăm mediile ca fiind inegale.

Observaţie

Metodele prezentate reprezintă tehnici statistice matematice optime pentru a

obţine un rezultat cât mai corect. Nu este greşit dacă se aplică cazul general pentru

compararea datelor, de exemplu nu se cunoaşte nimic despre aceste valori (sunt sau nu

perechi, au varianţele egale, sunt normal distribuite). Rezultatul însă va fi determinat

într-o formă aproximativă prezentând lipsă de semnificaţie în anumite situaţii limită,

tocmai prin lipsa de informaţie cuprinsă.

Exemplu Presupunem că avem două seturi de date înainte şi după tratament iar parametrul

de studiu este glicemia. Dorim să analizăm dacă există diferenţă semnificativă statistic,

ceea ce ar confirma sau infirma eficienţa tratamentului.

Tabelul 2.8 5.

înainte după

1 1.83 1.34

2 1.60 1.63

3 1.74 1.00

4 1.84 1.45

5 1.26 1.13

6 1.44 1.28

7 1.43 1.08

8 1.43 1.48

9 1.50 1.12

10 1.72 1.53

11 1.33 1.42

12 1.43 1.35

13 1.87 1.13

14 1.57 1.27

15 1.64 1.01

16 1.44 1.46

17 1.57 1.01

18 1.44 1.04

19 1.74 1.31

20 1.42 1.11

21 1.24 1.57

22 1.32 1.15

23 1.22 1.30

Este uşor de observat că datele sunt perechi, deci vom aplica testul specific acestei

situaţii.

Page 67: Informatica Statistica Curs

INDEX

73

Folosind MsExcel

Pentru lansarea testului urmăm paşii : Tools + Data Analysis + t-Test: Paired Two

Sample for Means.

Se completează interactiv datele din figura alăturată.

Figura 2.8 5 - Compararea mediilor testul t MsExcel.

Se definesc domeniile eşantioanelor, numite variabila 1 respectiv 2, nivelul de

semnificaţie (standard 5%) şi domeniul sau celula de start a afişării rezultatelor.

În final se obţin următoarele valori:

Tabelul 2.8 6 - Rezultatele testului t sau Student.

t-Test: Paired Two Sample for Means

înainte după

Mean 1.523389088 1.267697646

Variance 0.038711492 0.037625235

Observations 23 23

Pearson Correlation -0.040121114

Hypothesized Mean Difference 0

df 22

t Stat 4.351833135

P(T<=t) one-tail 0.000127727

t Critical one-tail 1.717144335

P(T<=t) two-tail 0.000255454

t Critical two-tail 2.073873058

Page 68: Informatica Statistica Curs

INDEX

74

Tabelul rezultatelor ne oferă toate informaţiile necesare pentru o interpretare

corectă a analizei.

Statistica t calculată are valoarea 4,351 şi se compară cu valoarea tabelată ce este

prezentă în tabel pentru test bilateral având valoarea 2,07 (numită valoare critică).

Valoarea calculată depăşind valoarea tabelată rezultă că există diferenţă semnificativă

statistic.

Acelaşi rezultat se obţine comparând valoarea semnificaţiei p calculate în cazul

bilateral al testului cu 5% valoare standard erorii de tip I. Valoarea semnificaţiei (P two

tailed=0,00025) este mult mai mică ca 0,05 deci şi prin această metodă (era de

aşteptat!) se obţine semnificaţie statistică.

Folosind SPSS

Şi în acest program avem posibilitatea de a alege dintre mai multe variante ale

testului t pentru compararea mediilor pe cea convenabilă studiului. În situaţia în care

datele sunt perechi, acestea se introduc pe două coloane conform figurii alăturate.

Pentru lansare se urmează calea: Analyze + Compare Means + Paired Samples T-

Test

Figura 2.8 6 - Compararea mediilor, testul t pentru date perechi în SPSS.

Se definesc în continuare cele două variabile ce conţin datele perechi şi se

realizează analiza.

Page 69: Informatica Statistica Curs

INDEX

75

În final, se obţin două tabele cu datele calculate.

Tabelul 2.8 7 - Paired Samples Statistics

Mean N Std. Deviation Std. Error Mean

Pair 1 Înainte 1.5226 23 .19650 .04097

După 1.2683 23 .19481 .04062

Tabelul 2.8 8 - Paired Samples Test

Pair 1

Paired Differences

t

df

Sig. (2-tailed)

Mean

Std. Deviation

Std. Error Mean

95% Confidence

Interval of the Difference

Lower Upper

Înainte - După

.25435 .28195 .05879 .13242 .37627 4.326 22 .000

Ca şi în cazul utilizării softului Ms Excel este determinată valoarea statisticii

t=4,326 şi corespunzător, nivelul semnificaţiei dedus. Diferenţa este semnificativă,

pcalculat este sub 1 la mie. Sunt determinate de asemenea şi limitele intervalului de

confidenţă a diferenţei studiate pentru 95% probabilitate. În această situaţie valoarea 0

nu este cuprinsă în acest interval şi astfel se justifică (metoda a doua) existenţa

semnificaţiei statistice.

Observaţie

Testele de comparaţie au valoare practică în situaţia în care se specifică în mod

direct, diferenţa necesară pentru a accepta ca util procesul de modificare a valorilor

datelor. De exemplu, tratamentul este considerat eficient dacă mediile celor două

populaţii diferă cu cel puţin 0,4 în valoare absolută. Iată Ms Excel are această

posibilitate de a impune verificarea diferenţei minime necesare în calcul.

Verificarea semnificaţiei statistice în cadrul impunerii unei anumite diferenţe între

mediile populaţiilor studiate se poate realiza şi prin studiul intervalului de confidenţă a

diferenţei. Dacă valoarea impusă este cuprinsă în interiorul intervalului, atunci nu

există diferenţă semnificativă statistic.

Testul ipotezei multiple – compararea mediilor mai multor eşantioane

(ANOVA)

Presupunem că avem de determinat semnificaţia diferenţelor dintre m grupe

independente de date. Făcând apel la cunoştinţele deja prezentate, un posibil răspuns ar

fi să comparăm două câte două, grupuri în toate combinaţiile posibile (se va aplica

Page 70: Informatica Statistica Curs

INDEX

76

testul t). Dacă am avea 10 loturi atunci numărul de teste ar fi combinări de 10 luate câte

2, adică 45!2)!210(

!10

2

10210

C . Un număr destul de mare de variante.

Ţinând cont de performanţele actuale ale sistemelor informatice, nu aceasta ar fi

problema. Dacă privim tema în discuţie, în termeni ai probabilităţii de a avea o eroare,

atunci iată că procentul de 5% ar însemna în cazul nostru aproximativ 2 teste greşite

din cele 45 (aşa zisa eroare de tip I este prezentă aici şi constă în a accepta greşit

existenţa diferenţei semnificative între două grupe, când în realitate aceasta nu există).

Ideea de a elimina această posibilă eroare se bazează pe crearea unui singur test

pentru a compara cele m grupe de date simultan.

Prin analiza varianţei numită ANOVA (analysis of variances) se aplică un singur

test, ce respectă o statistică de tip Fisher pentru determinarea semnificaţiei diferenţei

dintre mediile eşantioanelor.

Presupunem că avem m grupe de date, fiecare grup j având nj elemente. Notăm un

element din întregul set de valori cu xij, unde i reprezintă poziţia elementului din grupul

j. Astfel i variază de la 1 la nj, iar j de la 1 la m.

Ipoteza H0 este: mj ......21 , iar alternativa,

H1: Există cel puţin două grupe de medii diferite. k, l pentru care lk .

În figura alăturată este prezentată componenţa loturilor de studiu.

Figura 2.8 7 – Grupele de date de comparat.

Ca ipoteză de lucru, se presupune că fiecare grup de date este distribuit normal iar

dispersiile sunt egale între grupuri. Aceste presupuneri trebuie verificate, altfel testul

ANOVA nu poate fi aplicat.

Numărul total de elemente n poate fi calculat cu formula următoare ţinând cont de

cele m grupe :

m

jjnn

1

(j este numărul de grupe).

Media totală a tuturor valorilor este : n

x

xji

ij

,, deci suma tuturor elementelor

raportată la numărul total de elemente.

x1

x2

xn1

Lotul 1

Medie 1x

x1

x2

xnj

Lotul j

Medie jx

x1

x2

xnm

Lotul m

Medie mx

Page 71: Informatica Statistica Curs

INDEX

77

Putem calcula media totală şi ţinem cont de valoarea mediei fiecărui grup astfel:

Notăm media grupului j cu jx . Acest grup are nj elemente.

Avem în final media totală: n

xn

xj

jj

.

Variaţia variabilei aleatoare X de interes este măsurată convenţial în termeni ai

deviaţiei faţă de valoarea medie ( xxij ).

Suma totală a pătratelor deviaţiilor este (total sum of square):

ji

ij xxSST,

2.

Putem scrie suma deviaţiei astfel (adăugăm şi scădem jx ):

xxxxxx jjijij .

Folosind teorema lui Cochran se poate demonstra că prin sumare şi ridicare la

pătrat se păstrează egalitatea: ji

jji

jijji

ij xxxxxx,

2

,

2

,

2.

Ţinând cont că ultima sumă depinde numai de numărul de grupe de comparat (j):

j

jjji

jijji

ij xxnxxxx2

,

2

,

2.

Aceste variaţii reprezintă:

Suma totală a pătratelor deviaţiilor:

ji

ij xxSST,

2.

Suma pătratelor deviaţiilor între grupuri (sum of square between):

j

jj xxnSSB2

.

Suma pătratelor deviaţiilor în grupuri (sum of square within):

ji

jij xxSSW,

2.

Avem egalitatea: SST = SSW + SSB.

Deducem astfel, că există două surse de variaţie, între grupuri şi în cadrul

grupurilor. Raportul mediilor acestor două surse de variaţie respectă (în cazul

presupunerilor de repartiţii normale şi dispersii egale) o distribuţie de tip Fisher.

Aceasta este statistica de analizat în studiul de tip ANOVA.

SSB – reprezintă o distribuţie de tip Chi pătrat, cu m-1 grade de libertate.

SSW – reprezintă o distribuţie de tip Chi pătrat, cu n-m grade de libertate.

Page 72: Informatica Statistica Curs

INDEX

78

Putem calcula mediile: 1

m

SSBMSSB , respectiv

mn

SSWMSSW

.

Statistica Fisher se obţine prin raportul MSSW

MSSBF . Aceasta va avea m-1

respectiv n-m grade de libertate.

Pentru interpretare se calculează valoarea F prin raportul prezentat şi se compară

cu valoarea tabelată corespunzătoare gradelor de libertate determinate şi unui nivel de

semnificaţie standard de 5% (0,05). Dacă valoarea calculată este mai mare decât cea

tabelată, rezultă că mediile nu sunt egale şi există cel puţin două grupe cu diferenţă

semnificativă statistic.

Dacă se calculează valoarea semnificaţiei, aceasta se va compara cu valoarea 5%.

În situaţia în care este mai mică atunci există diferenţă semnificativă statistic.

Menţionăm că testul ANOVA în cazul existenţei diferenţei semnificative are

dezavantajul de a nu putea prezenta care sunt grupurile care diferă.

Această metodă este optimă în situaţia în care nu avem diferenţă semnificativă

între grupe deoarece am realizat un singur test pentru m grupe de comparaţie.

Exemplu numeric de calcul

Pentru a minimiza calculele necesare realizării testului ANOVA vom considera că

avem trei grupuri cu câte 4 date fiecare. Valorile sunt cuprinse în tabelul următor.

Tabelul 2.8 9 – Valorile grupelor de comparat.

Grupul A Grupul B Grupul C

2 2,9 2

2,5 3,2 2,1

3 3 2,6

2,7 3,1 2,3

Calculând mediile celor 3 grupe de date obţinem: 55,21 x ; 05,31 x ;

25,21 x . Media pe toate grupurile este 616,2x .

Valoarea SSW este: SSW = (2-2,55)2 + (2,5-2,55)

2 + (3-2,55)

2 + (2,7-2,55)

2 +

(2,9-3,05)2 + (3,2-3,05)

2 + (3-3,05)

2 + (3,1-3,05)

2 + (2-2,25)

2 + (2,1-2,25)

2 + (2,6-

2,25)2 + (2,3-2,25)

2 ; SSW = 0,79.

Valoarea SST este: SST = (2-2,616)2 + (2,5-2,616)

2 + (3-2,616)

2 + (2,7-2,616)

2 +

(2,9-2,616)2 + (3,2-2,616)

2 + (3-2,616)

2 + (3,1-2,616)

2 + (2-2,616)

2 + (2,1-2,616)

2 +

(2,6-2,616)2 + (2,3-2,616)

2 ; SST = 2,09.

Valoarea SSB o calculăm ca diferenţa celor două şi obţinem SSB = 1,30.

Page 73: Informatica Statistica Curs

INDEX

79

Se vor calcula mediile prin raportarea sumelor pătratelor diferenţelor la gradele de

libertate şi în final se va determina valoarea statisticii Fisher.

Pentru continuarea calculului putem realiza tabelul de mai jos (tabelul de mai jos

este cuprins în toate programele de analiză a varianţei ANOVA, acestea calculează de

asemenea şi nivelul de semnificaţie p).

Tabelul 2.8 10 - Tabelul de calcul pentru testul ANOVA.

Sursa de variaţie Suma pătratelor

SS

Grade de

libertate

df

Media SS

MS

Statistica

Fisher

F

Between Groups 1.306666667 3-1 = 2 0.653333333 7.443037975

Within Groups 0.79 12-3 = 9 0.087777778

Total 2.096666667 11

Valoarea statisticii Fisher corespunzătoare tabelată este F(2; 9; p=5%)=4,256

Valoarea calculată fiind mai mare decât cea tabelată, deducem că mediile diferă

semnificativ, dar nu cunoaştem efectiv care dintre acestea sunt diferite.

Programele de calcul şi analiză statistică determină şi valoarea semnificaţiei,

notată cu p. Dacă valoarea acesteia este mai mică de 0,05, atunci mediile diferă

semnificativ.

Pentru studiu este indicat a se analiza şi exemplul din capitolul EpiInfo 3.3.2.

Page 74: Informatica Statistica Curs

INDEX

80

R1 Rtotal

Eveniment 40 50

Non eveniment 80 50

Total 120 100

1.9. TABELE DE CONTINGENŢĂ – TESTUL CHI PĂTRAT (2 ), RISC,

COTĂ

Noţiuni

Compararea frecvenţelor de apariţie a anumitor evenimente se poate realiza fie

determinând intervalul de confidenţă, fie aplicând testul Chi pătrat. Este una dintre

metodele cele mai des întâlnite in practica medicală şi prezente în lucrările ştiinţifice

din domeniu.

Evenimentele studiate fac parte din grupa variabilelor de tip calitativ şi suntem

interesaţi de frecvenţa de apariţie a acestora. Pentru un număr mare de experimente,

aceste frecvenţe tind către valorile probabilităţilor. Acestea pot fi comparate prin

cunoştinţele extrase din eşantioane folosind testul Chi pătrat (2 ). Datele culese

experimental se adună în tabele numite de contingenţă şi cuprind toate combinaţiile

variantelor categoriale ale variabilelor de studiu.

Cea mai simplă formă de aplicare a statisticii de tip 2 este compararea

frecvenţei experimentale de apariţie a unui eveniment cu cea teoretică.

Formula de calcul generală este:

..

1

22

evdenr

icalculat

E

EO (1)

2calculat - este valoarea statisticii Chi pătrat calculată din datele experimentale.

O – valorile observate ale frecvenţelor absolute (observed).

E – valorile determinate teoretic, dacă nu ar exista legătură între variabile

(expected – aşteptate).

Valorile observate sunt tocmai frecvenţele absolute, deci numărul de cazuri din

eşantion ce respectă o anumită condiţie. Acestea sunt obţinute în urma studiului

realizat.

Valorile aşteptate sau teoretice se cunosc fie din literatura de specialitate, fie din

studii pilot, sau se determină din cele experimentale presupunând lipsa dependenţei

între variabile, sau sunt pure valori teoretice pentru comparaţie.

Prezentăm un exemplu de verificare a egalităţii frecvenţei de apariţie a unui

eveniment raportat la o regiune geografică specifică, comparativ cu procentul cunoscut

pe întreaga zonă de studiu.

Din cele 120 de cazuri din regiunea R1, avem 40 de evenimente realizate. Vom

compara procentul rezultat cu valoarea cunoscută de 50% a evenimentelor pe întreaga

populaţie. Putem crea tabelul:

Tabelul 2.9 1.

R1 – regiunea 1 geografică (prezintă un

specific).

Rtotal – regiunea totală studiată.

Page 75: Informatica Statistica Curs

INDEX

81

Valorile determinate pentru zona R1 reprezintă în fapt valorile experimentale, deci

sunt cele observate.

Procentul de 50% cunoscut pe zona geografică totală studiată reprezintă valoarea

aşteptată.

Tabelul poate fi refăcut şi completat astfel:

Tabelul 2.9 2. Etapele de calcul pentru determinarea valorii 2 .

Observat

(O)

Aşteptat

(E) (O-E) (O-E)

2 (O-E)

2/E

Ev. 40 50 -10 100 2

Non ev. 80 50 30 900 18

Total 120 100 20 1000 202 calculatχ

Deoarece se cunoaşte din start valoarea de 50% a frecvenţei de comparaţie, acest

test se numeşte cu „ipoteză teoretică apriorică”.

Valoarea statisticii calculate se compară cu cea tabelată corespunzătoare nivelului

de semnificaţie stabilit şi de asemenea, corespunzătoare gradelor de libertate (df -

degree of freedom) specifice distribuţiei Chi pătrat determinate.

Gradele de libertate reprezintă un parametru specific aşa cum media respectiv

dispersia reprezintă parametrii distribuţiei de tip Gauss-Laplace. Acestea sunt egale cu

numărul de elemente necesare a fi cunoscute pentru ca problema sa prezinte un caz

determinat. De exemplu, în situaţia în care experimentul constă în aruncarea unei

monede, avem două evenimente posibile de realizat: marca sau banul. Dacă ştim

frecvenţa de apariţie a mărcii, putem determina frecvenţa de apariţie a banului. Astfel,

avem un singur grad de libertate în cadrul acestei experienţe.

Şi în situaţia noastră avem două evenimente posibile (eveniment, non eveniment)

deci deducem gradele de libertate df=1.

Căutând în tabelele statistice valorile distribuţiei 2 pentru df=1, respectiv

p=0,05, găsim valoarea 84,3)05,0;1(2 .

Valoarea Chi pătrat calculată ( 202 calculatχ , conform formulei 1 detaliat

calculată în tabelul 2.9 2) este mai mare ca valoarea tabelată, de unde deducem că

ipoteza nulă „proporţiile sunt egale”, nu este acceptabilă şi conchidem că există

diferenţă semnificativă statistic între proporţii.

Acesta este un mod de aplicare a statisticii Chi pătrat. Există şi alte metode de

comparare a frecvenţelor, folosind chiar toate variantele posibile de a combina funcţie

de categorii, variabilele de interes.

Page 76: Informatica Statistica Curs

INDEX

82

Testarea dependenţei dintre două variabile categoriale

În această situaţie nu se cunoaşte a priori frecvenţa de apariţie a categoriilor

variabilelor de comparat.

O formă simplă este exprimată de tipul dicotomic având doar variantele Yes/No,

True/False sau forma binară 1 / 0.

Cele două variabile de studiat pot fi aranjate într-un tabel de contingenţă, ce

prezintă toate frecvenţele absolute ale combinaţiilor posibile de tipul (V1,V2), variabilă

1, respectiv variabilă 2.

Presupunem că aplicăm codificarea (0,1) pentru ambele variabile. Astfel,

combinaţiile posibile (V1,V2) pot avea următoarele variante: (1,1); (1,0); (0,1); (0,0).

Iată mai jos tabelul de contingenţă realizat:

Tabelul 2.9 3.

V2

1 0 Total

V1 1 (1,1) = a (1,0) = b a+b

0 (0,1) = c (0,0) = d c+d

Total a+c b+d a+b+c+d=n

Pentru a nu rămâne în partea aridă, teoretică, putem considera V1 ca reprezentând

sexul persoanei, iar V2 să reprezinte prin codificarea 1 fumătorii, iar prin 0 nefumătorii.

Pentru a verifica existenţa dependenţei între V1 şi V2, trebuie să ţinem cont de toate

frecvenţele variantelor posibile (V1,V2). Nu este corect să gândim compararea doar a

frecvenţelor a/(a+b), respectiv c/(c+d) – asemănător comparării cu o frecvenţă

cunoscută.

Amintim că valorile a, b, c, d sunt determinate experimental, deci sunt cele

observate.

Trebuie să găsim o metodă de a calcula valorile frecvenţelor teoretice sau

aşteptate (expected). În situaţia în care cele două variabile ar fi independente, putem

determina frecvenţele aşteptate folosindu-ne de suma pe linii, respectiv pe coloane a

frecvenţelor observate.

De exemplu, frecvenţa absolută teoretică (sau aşteptată) pentru varianta (1,1)

poate fi calculată cu formula (a+b)(a+c)/n. Aceasta se justifică astfel: Avem a+c

cazuri cu V2=1 din totalul de n. Frecvenţa relativă este (a+c)/n, indiferent din ce grup

categorial definit de V1 provin, deci gândim pe ansamblu. Din totalul de n cazuri, avem

(a+b) cu V1=1. Putem deduce frecvenţa absolută teoretică, în sensul variabile

independente pentru situaţia V1=1 şi V2=1 cu formula (a+b)(a+c)/n. Observăm că este

produsul dintre total linie, total coloană raportat la numărul total de date.

Avem astfel formulele de calcul ale frecvenţelor aşteptate pentru toate celulele

tabelului de contingenţă:

E(1,1) = (a+b)(a+c)/n ; E(1,0) = (a+b)(b+d)/n ;

E(0,1) = (c+d)(a+c)/n ; E(0,0) = (c+d)(b+d)/n .

Page 77: Informatica Statistica Curs

INDEX

83

Forma generală: Frecvenţa aşteptată = total_coloană• total_linie / total_general.

Astfel, valoarea statisticii Chi pătrat devine:

E

EOcalculat

22

)0,0(

)0,0(

)1,0(

)1,0(

)0,1(

)0,1(

)1,1(

)1,1(2222

2

E

Ed

E

Ec

E

Eb

E

Eacalculat

.

Numărul de grade de libertate se calculează cu formula:

df = (nr. coloane – 1)• (nr. rânduri – 1).

Din tabelele distribuţiilor statistice se citeşte valoarea 2

);( pdf (df – gradele de

libertate; p – nivelul de semnificaţie ce este 0,05 standard).

Algoritmul de decizie este acelaşi în forma generală exprimat astfel:

Dacă valoarea 2

);(2

pdfcalculat , echivalent cu pcalculat < 0,05, deducem că

frecvenţele comparate diferă semnificativ, deci există asociere între variabila V1,

respectiv V2, în sensul că pentru grupa V1=1 frecvenţele pentru V2=1, respectiv V2=0

diferă de aceleaşi frecvenţe pentru grupul V1=0. Cu alte cuvinte, proporţiile formate de

categoriile variabilei V2 diferă semnificativ pentru populaţiile formate de categoriile

variabilei V1.

Dacă V1 reprezintă sexul, interpretarea constă în existenţa proporţiilor diferite între

fumători şi nefumători la populaţia de bărbaţi faţă de femei.

În situaţia particulară a tabelelor de contingenţă 2x2, o metodă de calcul ce

conduce la o aproximare mai bună a valorii statisticii este materializată prin formula

Yates. Aceasta aplică o corecţie concretizată prin scăderea valorii ½ sub forma:

E

EOcalculat

2

21

2 .

Ţinând cont de prelucrările matematice, forma finală devine:

dbcadcba

Ncbda N

calculat

2

22 .

Această corecţie duce la o estimare mai apropiată faţă de valoarea corectă a

statisticii calculate pentru cazul particular al tabelului cu două rânduri şi două coloane.

Menţionăm că pentru df=1 şi semnificaţie standard p=0,05 avem

84,3)05,0;1(2 (standard pentru tabele 2x2).

În situaţia în care numărul de date este mic, altfel spus volumul eşantionul este

mic, putem avea valori sub 5 a frecvenţelor aşteptate. Acesta este un prag care arată că

eroarea introdusă în calcul creşte simţitor. În astfel de situaţii se poate aplica testul

Page 78: Informatica Statistica Curs

INDEX

84

exact Fisher pentru a obţine un rezultat util. Acesta aplică o formulă recurentă care

determină şi valoarea semnificaţiei corespunzătoare, deci pcalculat. În final, comparaţia

se face tot cu 0,05, acceptând sau nu ipoteza testată.

Se pune evident problema dimensiunii eşantionului de studiu. Aceasta se poate

deduce conform metodelor prezentate în capitolul dedicat calculului volumului

necesar. Totuşi în anumite situaţii, pe care noi nu le putem anticipa, se întâmplă ca şi

valorile aşteptate (expected) să se apropie de 0. Studii laborioase au arătat că atât timp

cât valorile frecvenţelor aşteptate sunt mai mari ca 1, testele exacte dau rezultate

corecte (Larntz K, Small-sample comparisons of exact levels for chi-squared goodness-

of-fit statistics. Journal of the American Statistical Association 73, 253-263, 1978.)

Formula generală de calcul pentru statistica 2

Este uşor de determinat această formulă de calcul deoarece generalizarea este

intuitivă, plecând deja de la formulele prezente.

Calculul frecvenţelor aşteptate cât şi a statisticii Chi pătrat au deja o formă

generală ce se poate aplica şi pentru cazul tabelelor cu p rânduri şi q coloane.

Trebuie menţionat că eşantionul trebuie să fie aleator ales din cadrul populaţiei de

studiu, să fie consistent deci dimensiunea lui să determine prezenţa în limita acceptată

a informaţiei necesare. Categoriile ce definesc variabilele de comparat trebuie să se

excludă reciproc – de exemplu, să nu existe elemente comune care să poată avea

valoarea V1=1 şi V1=0 în acelaşi timp.

Formula generală de calcul pentru statistica Chi pătrat:

.2

2

E

EOcalculat

Creăm tabelul de contingenţă pentru două variabile cu mai mult de două categorii.

Tabelul 2.9 4 - Tabelul de contingenţă pentru cazul general.

V2

categorii 1 2 … q Total

V1

1 O(1,1) O(1,2)

q

j

jO1

),1(

2

… O(i,1) O(i,j)

P O(p,q)

q

j

jpO1

),(

Total

p

i

iO1

)1,(

p

i

jiO1

),(

p

i

qiO1

),(

n

Page 79: Informatica Statistica Curs

INDEX

85

Valoarea aşteptată (teoretică) pentru elementul de pe rândul i şi coloana j este:

n

jiOjiO

jiE

q

j

p

i

11

),(),(

),( . Reprezintă produsul dintre total rând şi total coloană

raportat la totalul general.

Numărul gradelor de libertate este : df = (p-1) (q-1).

Semnificaţia standard este p=0,05 (5%).

Evident, calculul este anevoios, dar există un mare număr de programe

informatice (SPSS, Statistica, EpiInfo, SAS) care au implementate aceste formule de

determinare. Sunt prezentate chiar în diferite aproximări ale statisticii şi de asemenea,

valoarea semnificaţiei calculate pcalculat este determinată. Aceasta este corespunzătoare

valorii Chi deduse şi matematic este o integrală din densitatea de probabilitate.

Paradoxul Simpson – în tabele 2x2

Vom prezenta un exemplu de verificare a independenţei variabilelor de studiu,

care prin forma sa, va determina o eroare de calcul, evident cu efecte nedorite.

Pentru a compara două tratamente se poate crea tabelul de contingenţă, în care pe

linii avem tratamentul iar pe coloane supravieţuirea, respectiv decesul.

Dacă avem mai multe stadii ale maladiei, o metodă globală este să adunăm datele

din tabelele componente şi să creăm un tabel global final.

Vrem prin exemplul generic imaginat, să arătăm că există situaţii în care această

metodă de compunere a tabelelor într-un tabel global nu este întotdeauna benefică.

Caracteristicile tabelului compus pot intra în contradicţie cu tabelele componente ca

trăsătură a datelor analizate.

Inspiraţi din exemplul prezentat de Lloyd, C.J.(1999) Statistical Analysis of

Categorical Data, Willey New York, pag 153-154, am generat tabelul:

Tabelul 2.9 5.

Supravieţuire Deces Total

Tratament T1 175 110 285

T2 210 65 275

Total 385 175 560

Valorile calculate: 58,142 calculat , corectat are valoarea 89,132 Yates cu

nivelul de semnificaţie corespunzător p=0,0001.

Conchidem astfel că cele două tratamente diferă semnificativ statistic din punct de

vedere al procentului de supravieţuire.

Avem pentru tratamentul T1 proporţia de supravieţuire P1=175/285 = 61,4% ;

respectiv pentru T2, P2 = 210/275 = 76,3%. Deducem că tratamentul 2 este mai bun

faţă de 1, prin faptul că proporţia de supravieţuire este superioară.

Totuşi să încercăm să privim problema mai în profunzime şi să descompunem

datele în două noi tabele corespunzătoare stadiului de evoluţie al bolii.

Page 80: Informatica Statistica Curs

INDEX

86

Tot în mod generic creăm tabelele următoare:

În ambele tabele procentul de supravieţuire este mai bun pentru tratamentul T1,

comparativ cu T2. Mai mult chiar, în stadiul 1 testul este şi semnificativ.

Se observă totuşi că proporţiile de supravieţuire diferă puternic între cele două

stadii. În stadiul 1 proporţia de supravieţuire este peste 50%, iar în stadiul 2 mult sub

50%.

S-a obţinut astfel un rezultat contrar celui obţinut prin compunerea tabelelor.

Situaţia prezintă un caz extrem, rar întâlnit în practică.

Concluzia este clară: Tabelele pot fi sumate într-o formă globală dacă

caracteristicile individuale sunt aceleaşi şi în proporţii asemănătoare.

Trebuie să reţinem că sumarea datelor din tabele individuale pentru o analiză

globală poate anula sau chiar modifica caracteristicile prezente ale populaţiilor.

Riscul, Cota şi Valorile relative

În cadrul studiilor epidemiologice este nevoie să se determine influenţa factorilor

de risc în cadrul anumitor maladii. Testul Chi pătrat prezintă rezultatul verificării

prezenţei dependenţei sau independenţei între două variabile. Acesta nu ne dă

informaţie asupra puterii legăturii, într-o măsură numerică.

Riscul se defineşte ca fiind numărul de cazuri raportate la numărul total de

elemente studiate. Dacă avem un eşantion de 250 de pacienţi, din care 64 s-au

îmbolnăvit pe perioada studiată, putem determina riscul ca fiind 64/250=25,6% (este o

noţiune similară incidenţei dacă sunt implicate cazuri noi).

Putem crea două populaţii, în sensul grupării după criteriul factor de risc prezent,

respectiv factor de risc absent. Avem astfel posibilitatea de a determina frecvenţele

absolute prezentate în tabelul următor.

Tabelul 2.9 8.

Maladie

Prezentă Absentă Total

Factor Prezent a b a+b

Absent c d c+d

Total a+c b+d n

Riscul relativ este utilizat în studii de cohortă, în care persoanele care sunt expuse

sau nu unui factor de risc sunt urmărite în timp (studiu prospectiv) pentru a vedea care

este legătura cu maladia studiată. Acest indicator reprezintă o măsură a asocierii dintre

factorul de risc şi afecţiunea analizată.

Tabelul 2.9 6.

Stadiul 2 S D Total

T1 20 105 125

T2 3 40 43

Total 23 145 168

Niv. de semnificaţie p=0,21

P1 = 16% ; P2 = 7,5%

Tabelul 2.9 7.

Stadiul 1 S D Total

T1 155 5 160

T2 207 25 232

Total 362 40 392

Niv. de semnificaţie p=0,01

P1 = 96,8% ; P2 = 89,2%

Page 81: Informatica Statistica Curs

INDEX

87

Riscul relativ, notat de obicei cu RR, este raportul între frecvenţa de apariţie a

cazurilor în cadrul populaţiei supusă factorului şi frecvenţa de apariţie a maladiei în

populaţia în care factorul de risc nu este prezent.

dcc

baa

RR

)(. După formula de calcul, observăm că domeniul de variaţie este

cuprins între 0 şi valori pozitive foarte mari (acceptăm că valorile a,b,c,d sunt diferite

de 0).

În situaţia în care riscul relativ este 1, putem afirma că factorul luat în considerare

nu are efect asupra frecvenţei de apariţie a maladiei. Deci nu există legătură între

variabilele studiate.

Valori mai mari ca 1 indică o creştere a frecvenţei pentru cazurile cu factor

prezent, ceea ce generează un efect negativ. Factorul implicat conduce la creşterea

frecvenţei de îmbolnăvire.

Valori mai mici decât 1 arată că factorul are efect pozitiv, benefic, ducând la

scăderea frecvenţei de apariţie a maladiei.

Fiind determinat din eşantioane de analiză, riscul relativ prezintă o incertitudine în

măsurarea punctuală. Pentru a avea o anumită încredere în studiu, este nevoie să se

lucreze cu o anumită probabilitate. În forma standard de 95% încredere (deci

semnificaţie de 5%), se poate determina intervalul de variaţie al riscului. Semnificaţia

legăturii posibile între factor şi maladie este legată de prezenţa în intervalul calculat a

valorii 1, valoare ce arată că factorul nu are efect asupra frecvenţei de apariţie a

maladiei.

În concluzie, factorul are influenţă asupra prezenţei maladiei doar dacă intervalul

de confidenţă a riscului relativ nu cuprinde valoarea 1. Astfel, testul este considerat

semnificativ statistic. Menţionăm că valoarea riscului relativ poate fi sau nu mai mare

ca 1. Valoarea 1 este considerată de referinţă, deoarece funcţie de aceasta se deduce

semnificaţia statistică a legăturii posibile între variabile.

Iată avem un exemplu generic de determinare a riscului relativ, în situaţia

îmbolnăvirilor de cancer de plămân, raportat la factorul de risc, cunoscut ca fiind

fumatul.

Tabelul 2.9 9.

Cancer plămân

Prezent Absent Total

Fumător Da 121 243 364

Nu 41 727 768

Total 162 970 1132

Conform formulei de calcul avem:

7274141

)243121(121

RR , RR=6,23.

Calculând şi intervalul de confidenţă obţinem: 4,47 <RR< 8,67.

Page 82: Informatica Statistica Curs

INDEX

88

Valoarea 1 nu este cuprinsă în domeniul de variaţie. Astfel, există diferenţă

statistică semnificativă şi decidem că riscul de a te îmbolnăvi de cancer la plămâni este

de aproximativ 6 ori mai mare pentru fumători comparativ cu nefumătorii.

În situaţia studiilor de tip caz-martor (case-control), pentru a exprima legătura

existentă, se foloseşte indicatorul raportul cotelor (odd ratio), sau raportul şanselor.

Studiul de acest tip este retrospectiv, având ca scop compararea între persoanele care

prezintă maladia (cazuri), respectiv cele ce nu sunt bolnave (martori sau control)

grupate după prezenţa sau nu a factorului de risc.

Cota se defineşte ca raportul dintre probabilitatea de apariţie a evenimentului

studiat şi probabilitatea evenimentului complementar.

)(1

)(

)(

)(

eP

eP

eP

ePCota

.

Cota - pentru diferite valori ale

probabilităţii

0

5

10

15

20

0 0.2 0.4 0.6 0.8 1Probabilitatea P(e)

Figura 2.9 1.

Putem reprezenta grafic cota şi observăm o variaţie de la 0 până la valori foarte

mari, funcţie de probabilitatea P(e).

Pentru tabelul iniţial avem formulele de calcul:

Cota 1 (factor prezent) = a/b ; Cota 2 (factor absent) = c/d (folosind tabelul 2.9 8).

Raportul cotelor (odd ratio) cb

daOR

. Ca şi riscul relativ, acest raport poate

varia între 0 şi valori foarte mari.

Asemănător cazului precedent, intervalul de confidenţă pentru raportul cotelor

este caracterizat de prezenţa sau nu a valorii 1. Există semnificaţie statistică şi prin

urmare, legătură între proporţiile determinate de factorul de risc, dacă acest interval de

confidenţă nu conţine valoarea 1. În caz contrar, înseamnă că proporţiile sunt egale şi

factorul studiat nu are efect asupra proporţiilor îmbolnăvirilor.

Dacă tabelul precedent cu valori numerice ar reprezenta date culese dintr-un

studiu caz-martor, atunci raportul cotelor ar fi util de determinat.

Page 83: Informatica Statistica Curs

INDEX

89

82,841243

727121

cb

daOR .

Interpretarea este formulată astfel: şansele de a se îmbolnăvi de cancer la plămâni

sunt de 8,82 ori mai mari la fumători faţă de nefumători.

Ca observaţie generală, atât riscul relativ cât şi raportul cotelor exprimă în esenţă

aceeaşi caracteristică a datelor. Dacă riscul relativ prezintă semnificaţie statistică este

de aşteptat ca şi raportul cotelor să respecte aceeaşi regulă. Dacă riscul relativ este

supraunitar (sau subunitar), la fel va fi si raportul cotelor. Practic sunt două forme ce

prin calcul aduc în atenţia noastră valori numerice ce arată proporţional intensitatea

asocierii existente.

Exemplu de calcul folosind programul SPSS

Presupunem că dorim să realizăm un studiu de verificare a existenţei diferenţei

semnificative între două tratamente (T1, T2) din punct de vedere a frecvenţei de deces.

Creăm două variabile numite Tratament, respectiv Deces. Codificăm cu 1,

respectiv cu 2 cele două tratamente, apoi cu 1 decesul iar cu 2 supravieţuirea.

Codificarea este la liberă alegere, totuşi datele în tabelul de contingenţă sunt ordonate

după valoarea numerică utilizată. Astfel, este bine să codificăm evenimentele în

ordinea în care dorim să fie afişate.

După introducerea datelor, alegem pentru analiză Analyze + Descriptive Statistics

+ Crosstabs….

Figura 2.9 2 – SPSS tabele de contingenţă

Pe rânduri vom trece tratamentele, iar pe coloane decesul sau supravieţuirea.

Avem mai multe opţiuni care pot fi setate astfel încât informaţia să satisfacă

cerinţele analizei.

Page 84: Informatica Statistica Curs

INDEX

90

Pentru a realiza calculul semnificaţiei prin metoda Fisher vom bifa opţiunea Exact

+ Monte Carlo. Aceasta este utilă în situaţia în care o valoare aşteptată calculată este

mai mică decât 5. Metoda Fisher calculează exact valoarea nivelului de semnificaţie.

Putem impune atât afişarea valorilor aşteptate cât şi a procentelor pe linii sau

coloane.

SPSS este un program de statistică performant, permiţând setarea din grupul

Statistics… a diferite teste suplimentare care evaluează şi puterea legăturii dintre cele

două variabile.

Obţinem astfel tabelul de contingenţă prezentat mai jos, cât şi tabelul cu valorile

statisticilor calculate.

Tabelul 2.9 10 – Tratament * Deces Crosstabulation

Deces Total

Deces Supravietuire

Tratament Trat. 1 Count 105 20 125

Expected Count 107.9 17.1 125.0

Trat. 2 Count 40 3 43

Expected Count 37.1 5.9 43.0

Total Count 145 23 168

Expected Count 145.0 23.0 168.0

Tabelul 2.9 11 – Chi-Square Tests(d)

Value df

Asymp. Sig.

(2-sided)

Exact Sig.

(2-sided)

Exact Sig.

(1-sided)

Pearson Chi-Square 2.205 1 .138 .198 .106

Continuity Correction 1.507 1 .220

Fisher's Exact Test .198 .106

N of Valid Cases 168

Valoarea Pearson este determinată cu formula standard generală fără corecţii,

aceasta fiind 2,205.

În rândul al doilea al tabelului precedent este prezentată valoarea Yates, prin

corecţia de continuitate. Aceasta este specifică tabelelor de tip 2x2.

Valoarea Fisher este valoarea exactă a nivelului de semnificaţie, p=0,198.

În cazul nostru, toate valorile de semnificaţie sunt mai mari ca 0,05, de unde

deducem că ipoteza nulă este adevărată, deci nu există legătură sau relaţie între

frecvenţele de deces şi tratamente. Putem spune că tratamentele nu diferă semnificativ

din punct de vedere al decesului.

Page 85: Informatica Statistica Curs

INDEX

91

În situaţia în care am studia riscul sau cota, în cadrul programului SPSS s-ar fi

calculat atât riscul relativ, cota relativă, cât şi intervalele de confidenţă pentru corecta

interpretare şi comparare faţă de valoarea 1.

Exemplu de calcul folosind programul EpiInfo

Vom utiliza aceeaşi bază de date cu cele două coloane: Tratament, Deces.

Deschidem fişierul folosind comanda Read(Import). Intrăm în grupul de analiză

(Analyze Data) şi alegem Statistics + Tables.

Figura 2.9 3 – EpiInfo tabele de contingenţă

Completăm conform figurii alăturate variabilele din tabelul de contingenţă.

Rezultatele obţinute sunt prezentate în următoarele două tabele.

Tabelul 2.9 12 – Chi-Square Tests(d)

Tratament 1 2 TOTAL

1 Row %

Col %

105

84.0

72.4

20

16.0

87.0

125

100.0

74.4

2 Row %

Col %

40

93.0

27.6

3

7.0

13.0

43

100.0

25.6

TOTAL Row %

Col %

145

86.3

100.0

23

13.7

100.0

168

100.0

100.0

Tabelul 2.9 12 este asemănător tabelului 2.9 10 realizat în SPSS şi reprezintă

frecvenţele observate cât şi procentele pe rânduri, respectiv coloane.

Page 86: Informatica Statistica Curs

INDEX

92

Analiza datelor este prezentată în tabelul 2.9 13. EpiInfo calculează raportul

cotelor (Odds Ratio) cât şi limitele de confidenţă (cu 95% încredere), riscul relativ

(Risk Ratio) şi limitele de confidenţă ale acestuia iar în final, valoarea statisticii Chi

pătrat prin diferite metode şi corespunzător nivelul de semnificaţie.

Tabelul 2.9 13– Single Table Analysis

Point 95% Confidence Interval

Estimate Lower Upper

PARAMETERS: Odds-based

Odds Ratio (cross product) 0.3938 0.1109 1.3979 (T)

Odds Ratio (MLE) 0.3956 0.0893 1.2983 (M)

0.0714 1.4437 (F)

PARAMETERS: Risk-based

Risk Ratio (RR) 0.9030 0.8073 1.0101 (T)

Risk Difference (RD%) -9.0233 -18.9875 0.9410 (T)

(T=Taylor series; C=Cornfield; M=Mid-P; F=Fisher Exact)

STATISTICAL TESTS Chi-square 1-tailed p 2-tailed p

Chi square - uncorrected 2.2045 0.1376057317

Chi square - Mantel-Haenszel 2.1914 0.1387823163

Chi square - corrected (Yates) 1.5070 0.2195927872

Mid-p exact 0.0695927534

Fisher exact 0.1059606825

Limitele intervalului de confidenţă ale raportului cotelor cât şi ale riscului relativ

cuprind valoarea 1 (acestea sunt calculate prin diferite metode cum ar fi seriile Taylor

sau metoda Fisher). Putem astfel decide că nu există asociere între tratament şi numărul

de decese. Tratamentele pot fi considerate asemănătoare.

Acelaşi rezultat îl obţinem prin calculul statisticii Chi pătrat şi al nivelului de

semnificaţie. Acesta are valoarea p=0,13 sau 0,219 prin metoda Yates. Valoarea este

mult mai mare decât 0,05 ceea ce ne permite să afirmăm că tratamentele nu diferă

semnificativ.

Era şi de aşteptat, atât prin analiza riscului relativ a raportului cotelor cât şi prin

utilizarea statisticii Chi pătrat se obţine acelaşi rezultat.

Page 87: Informatica Statistica Curs

INDEX

93

1.10. REGRESIA LINIARĂ ŞI CORELAŢIA

S-au prezentat până acum metode de estimare a indicatorilor statistici (media ca

indicator de bază), determinare a volumului eşantionului, tehnici de comparare a

variabilelor de tip continuu (testul t, ANOVA) sau categorial (Chi pătrat), calculul

intervalului de variaţie cu încredere de 95%.

Sunt situaţii în care ne interesează să estimăm intensitatea legăturii dintre două sau

mai multe variabile, sau să găsim o relaţie deci o formă analitică matematică care să

exprime o variabilă funcţie de altele implicate în procesul studiat.

Iată ca exemplu, am putea fi interesaţi în a verifica existenţa unei relaţii între

înălţimea tatălui (nu a tatălui adoptiv) şi cea a copilului. Am putea căuta o legătură

între indicele de masă corporală şi presiunea arterială (pentru persoane de vârsta a

treia), căutăm să estimăm dependenţa între efortul fizic şi frecvenţa cardiacă, poate

acestea depind şi de vârstă, etc.

Regresia reprezintă expresia matematică ce permite estimarea unei variabile

funcţie de cel puţin o altă variabilă. Regresia ajută în determinarea relaţiei şi este

folosită în special în studii de predicţie.

Corelaţia exprimă puterea legăturii dintre două variabile (intensitatea relaţiei).

Atât prin regresie cât şi prin corelaţie putem determina dacă relaţia este direct

proporţională (creşterea variabilei 1 implică creşterea variabilei 2 ; scăderea variabilei

1 implică scăderea variabilei 2), sau invers proporţională (creşterea variabilei 1 duce la

scăderea variabilei 2).

Regresia liniară

Termenul de regresie a fost introdus de matematicianul Galton. Metoda constă în

determinarea unei funcţii liniare (este cea mai simplă formă de dependenţă)

f(x) = y = a + bx, care să aproximeze calculul valorilor y prin valorile x (y – este

variabila dependentă, x – variabila independentă sau predictor). Atât x cât şi y sunt

variabile de tip continuu.

Metoda de calcul pentru parametrii dreptei de regresie constă în definirea unei

erori şi minimizarea acesteia.

Considerăm că avem două şiruri de date corespunzător variabilelor aleatoare de

interes X şi respectiv Y (caracterizate ca fiind distribuite normal sau gausian).

În tabelul următor sunt prezentate cele două şiruri:

Tabelul 2.10 1.

X: x1 x2 …. xn

Y: y1 y2 … yn

Page 88: Informatica Statistica Curs

INDEX

94

Figura 2.10 1 – Dreapta de regresie.

Dorim să determinăm parametrii a, b ce definesc dreapta de regresie:

f(x) = y = a + bx.

Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a

minimiza suma pătratelor erorilor dintre valorile yi (extrase din experiment) şi valorile

f(xi) calculate cu ajutorul formulei dreptei de regresie.

Se defineşte eroarea: iiiii yxbayxf )( .

Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare există în

toate cazurile când i 0. Pentru a nu pierde această informaţie se va folosi pătratul

erorii. Eroarea totală va fi formată din suma tuturor erorilor determinate de cele n

valori experimentale:

n

i

ii

n

i

i yxba1

2

1

2 .

Această sumă a pătratelor diferenţelor este pozitivă. Astfel privind problema cu

necunoscutele a respectiv b, funcţia de gradul doi va admite un minim (fiind suma

pătratelor va fi numai pozitivă). Eroarea totală trebuie minimizată pentru a obţine o

aproximare cât mai corectă a valorilor lui y funcţie de x. Condiţia este ca derivata

funcţie de fiecare variabilă în parte să fie zero. Obţinem astfel sistemul de ecuaţii:

.02

,02

0

0

0

0

1

1

1

2

1

2

n

iiii

n

iii

n

iii

n

iii

xyxba

yxba

b

yxba

a

yxba

b

a

Page 89: Informatica Statistica Curs

INDEX

95

)2(.0)(

)1(,0

2

1

1

1

iii

n

ii

n

iiin

iii

yxxbxa

XbYn

xby

ayxban

Înlocuim valoarea lui a din prima ecuaţie în a doua şi aflăm parametrul b.

011

2

1

i

n

ii

n

ii

n

ii yxxbxXbY . (3)

Ne folosim de formula: nXnn

x

x

n

iin

ii

1

1

. (4)

Înlocuim (4) în (3) şi avem:

011

22

n

iii

n

ii yxxbXnbXnY .

Extrăgând pe b obţinem:

n

ii

n

iii

xXn

yxYXn

b

1

22

1 . (5)

Valoarea lui a se calculează conform celor demonstrate cu formula:

XbYa . (6)

În concluzie s-au dedus parametrii dreptei: y = a + bx.

Coeficienţii (parametrii) dreptei de regresie

Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’. Dacă x=0

atunci y = a.

Dacă avem mai multe cazuri cu x=0, atunci valoarea lui a va fi egală cu media

tuturor valorilor pentru care x este 0.

Trebuie avut în vedere că nu în orice situaţie este posibilă şi are sens această

intersecţie cu axa YY’. De exemplu pentru predictor X reprezentând presiunea sistolică

sau temperatura corpului, valoarea 0 nu are interpretare în cazuri normale (studiem

pacienţii deci persoane în viaţă).

Parametrul b este panta dreptei (tangenta unghiului dintre dreaptă şi linia

orizontală).

Page 90: Informatica Statistica Curs

INDEX

96

Dacă valoarea lui b este pozitivă atunci dependenţa între cele două variabile

aleatoare este direct proporţională. Astfel, o creştere a variabilei x va duce la o creştere

a variabilei y, respectiv o scădere a variabilei x va duce la o scădere a variabilei y.

Dacă valoarea parametrului b este negativă atunci dependenţa între cele două

variabile aleatoare este invers proporţională. Variaţia într-un anume sens a variabilei x

va duce la o variaţie în sens contrar a variabilei y.

Cazul în care nu există dependenţă între cele două variabile x, respectiv y se

obţine pentru b=0. Oricât am modifica variabila x, atunci y va rămâne constant y = a.

Panta dreptei reprezintă variaţia variabilei dependente y, pentru o creştere sau

descreştere a predictorului (x) cu o unitate.

Avem formula dreptei de regresie: y = a + bx.

Creştem valoarea lui x cu o unitate, 1 xx .

Noul y va fi y1 = a + b (x+1) = a + bx + b.

Se observă că diferenţa dintre y şi y1 este egală cu b.

Testarea modelului prin metoda analizei varianţei (ANOVA)

Determinarea coeficienţilor dreptei de regresie a permis crearea unui model

matematic ce exprimă legătura între cele două variabile.

Este important să putem verifica dacă modelul creat este bun în sensul aproximării

cât mai corecte a datelor.

Analiza varianţei este o metodă statistică ce permite evaluarea performanţei

modelului determinat. Variaţia unei variabile aleatoare Y este măsurată prin abaterea

standard, dar poate fi folosită şi deviaţia faţă de valoarea medie YYi .

Variaţia totală poate fi exprimată folosind suma pătratelor deviaţiilor astfel:

i

i YYSST2

(SST – Total Sum of Square). (7)

Facem apel la valorile estimate prin modelul regresional propus, notate

ii XbaY ˆ .

Exprimăm astfel: YYYYYY iiii ˆˆ .

Ridicând la pătrat expresia alăturată se poate arăta că

i

i

i

ii YYYYSST22

ˆˆ .

Primul termen: i

ii YY2

ˆ reprezintă variaţia datelor în jurul dreptei de

regresie. Această variaţie nu este dorită fiind considerată o eroare. Este notată SSE

(Error Sum of Square).

Al doilea termen, i

i YY2

ˆ exprimă deviaţiile faţă de medie ale valorilor

estimate. Este suma diferenţelor faţă de medie ale valorilor determinate prin regresie.

Page 91: Informatica Statistica Curs

INDEX

97

Acestea sunt exprimate de modelul creat. Este notat prescurtat SSR (Regression Sum of

Square).

Obţinem astfel: SST = SSE + SSR.

Raportul notat SST

SSRr 2

se numeşte coeficient de determinare şi reprezintă

pătratul coeficientului de corelaţie ce va fi discutat într-un capitol următor.

Definirea mediilor sumelor pătratelor diferenţelor ce exprimă eroarea şi regresia

se realizează prin determinarea gradelor de libertate.

Gradele de libertate notate df (degree of freedom) exprimă dimensiunea necesară

unui spaţiu de lucru. Este numărul de date independente. De exemplu, daca avem o

condiţie de minimizare a erorii, atunci din numărul total de date n, condiţia de minim

va scădea gradele de libertate cu 1. Gradele de libertate definesc un parametru

aparţinând unei statistici (statistica Fisher de exemplu).

Avem astfel: SSR este caracterizată de df=1, SSE de df=n-2 şi SST de df=n-1.

Putem calcula mediile:

1

SSRMSR ,

2

n

SSEMSE . (8)

Raportul notat MSE

MSRF este o statistică de tip Fisher care prin nivelul de

semnificaţie determinat (notat p), ne dă informaţia cheie asupra modelului regresional

determinat. Dacă valoarea semnificaţiei este p<0,05 deci sub 5%, atunci modelul liniar

dezvoltat este util in predicţie.

Iată un exemplu în care tabelul de analiză a varianţei în situaţia regresiei liniare

este realizat prin softul de statistică (poate fi SPSS, Statistica sau în Ms Excel).

Tabelul 2.10 2 – Analiza varianţei ANOVA pentru modelul regresional liniar.

ANOVA

df SS MS F Significance F

Regression 1 130.5375 130.5375 3.381801 0.087223337

Residual (Error) 14 540.4 38.6

Total 15 670.9375

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 69.1333333 10.4099 6.641117 1.11E-05 46.80632795 91.46034

Birthweigh 0.15733333 0.085555 1.838967 0.087223 -0.02616446 0.340831

Eroarea sau reziduul au în acest context aceeaşi semnificaţie.

În linia corespunzătoare regresiei avem calculate valorile SSR, MSR şi gradele de

libertate. Cu cât această valoare SSR va fi mai mare cu atât modelul nostru va explica

mai bine variaţiile prezente.

Page 92: Informatica Statistica Curs

INDEX

98

Pe rândul următor sunt datele cu privire la suma erorilor (reziduu), SSE, MSE. Cu

cât acestea sunt mai mici cu atât şi erorile sistemului sunt mai mici iar modelul prezintă

un grad mai mare de încredere.

În continuare se prezintă valoarea statisticii Fisher şi corespunzător nivelul de

semnificaţie. Dacă avem p sub 0,05 deducem că dreapta de regresie aproximează bine

datele noastre. Dacă avem p calculat peste 0,05 dar sub 0,1 (10%), putem deduce că

variabila independentă are o anumită influenţă asupra celei dependente dar nu în

totalitate. Putem adăuga date noi sau cerceta şi influenţa altor variabile în sistem.

În final avem datele necesare modelului deci constanta a = Yintercept şi panta b, ce

are valoarea 0,157 pentru datele prezente studiate.

Aşa cum am calculat şi utilizat statistica F şi nivelul de semnificaţie corespunzător

întregului sistem, putem calcula pentru coeficienţii dreptei de regresie a şi b statistica t

şi nivelul de semnificaţie. Acestea ne ajută la verificarea diferenţei faţă de valoarea

nulă. De asemenea, sunt prezente limitele minimă şi maximă de variaţie a acestor

coeficienţi cu încredere de 95%. Dacă aceste limite cuprind valoarea 0 (zero), atunci nu

există semnificaţie statistică şi ipoteza nulă este acceptată.

Observaţii

1 – În cazurile practice variabilele x şi y pot să nu fie distribuite normal. Acest

neajuns poate fi corectat prin aplicarea unor transformări cum ar fi logaritmarea pentru

a transforma distribuţia în forma gausiană. Evident, vom avea grijă la interpretarea

corectă a rezultatelor (deci a pantei şi a termenului liber).

2 – Atât a cât şi b sunt deduse din eşantioane. Aceşti parametri aşadar, reprezintă

variabile aleatoare. Astfel se poate construi un interval de încredere pentru cele două

necunoscute a şi b.

Prin estimarea parametrilor a şi b se vor obţine pentru intervale simetrice valorile

limită: aaa 0 , respectiv bbb 0 .

Reprezentând grafic dreapta de regresie pentru cele 4 cazuri limită obţinem o

suprafaţă de regresie.

aaa min , aaa max .

bbtgb 1min , bbtgb 2max .

Figura 2.10 2 - Reprezentarea grafică a suprafeţei de regresie.

X

Y

amin

amax

y=a+bx

2

1

Page 93: Informatica Statistica Curs

INDEX

99

În acest caz unei valori xi îi va corespunde un interval de valori

maxmin , YYyi . Pentru x=0 intervalul coincide cu (amin, amax). Acest interval este

datorat tocmai estimărilor parametrilor dreptei de regresie.

Corelaţia

Noţiuni

Legătura dintre două variabile aleatoare în care una dintre ele variază constant

(sau controlat), iar cealaltă variază aleator a fost descrisă de forma liniară a dreptei de

regresie.

Corelaţia caracterizează legătura dintre două variabile aleatoare X şi Y cu repartiţii

normale 2, xxN , respectiv 2, yyN . Densitatea de probabilitate a funcţiei de

repartiţie normală bivariată (având doi parametri) are expresia:

2

12

1exp

12

1),(

x

xyxf x

yx

2

2y

y

y

y

x

xyyx

. (9)

În această formulă reprezintă coeficientul de corelaţie. Domeniul de variaţie este

cuprins între –1 şi 1, 1,1 . Practic, gradul de dependenţă dintre cele două

variabile aleatoare este definit de acest coeficient de corelaţie (se notează cu ,,r” când

este determinat din datele reale – conţine o anumită eroare).

Dacă =0, atunci nu există dependenţă între cele două variabile aleatoare, acestea

fiind considerate independente.

Calculând densitatea de probabilitate obţinem:

2

2

2

2

22

2

1

2

1),(0 y

y

x

xy

y

x

x

eeyxf

,

)()(),( yfxfyxf .

Interpretare

Dacă 0 , atunci cele două variabile aleatoare sunt dependente stocastic

(aleator).

Pentru >0 spunem că cele două variabile aleatoare sunt dependente direct

proporţional. Cu cât se apropie de valoarea 1 cu atât dependenţa este mai

puternică.

Dacă <0, atunci cele două variabile aleatoare variază invers proporţional şi

legătura este cu atât mai puternică cu cât coeficientul de corelaţie este mai

apropiat de valoarea –1.

Page 94: Informatica Statistica Curs

INDEX

100

Practic, valoarea la pătrat a corelaţiei calculate r2 (amintim că se notează cu r

deoarece este determinat din datele reale, deci reprezintă o aproximare)

exprimă procentul din variaţia variabilei Y ce poate fi explicată de variaţia

variabilei X. În analiza regresiei şi corelaţiei se prezintă această valoarea a

coeficientului de determinare. Amintim formula de calcul din analiza

varianţei: SST

SSRr 2

.

Graficele de mai jos indică o legătură puternică, respectiv slabă, între două

variabile aleatoare.

Figura 2.10 3 - Tipuri de legături între seturi de date.

Calculul coeficientului de corelaţie se realizează prin deducerea mediei produselor

abaterilor normate:

y

y

x

xyx

M

.

Prelucrând formula precedentă se ajunge la:

21

2

1

yi

n

i

xi

n

i

yixi

yx

yx

.

Această formulă de calcul poate fi aplicată doar în cazul a două variabile aleatoare

repartizate normal.

Testarea coeficientului de corelaţie

Este important să putem afla dacă variaţia cu încredere de 95% a acestui

coeficient cuprinde sau nu valoarea nulă. Cu alte cuvinte trebuie să răspundem la

întrebarea privind diferenţa semnificativă a coeficientului de corelaţie faţă de valoarea

nulă.

Ştim că în orice experiment sau proces intervine factorul de tip aleator ce implică

existenţa unei variaţii în valoarea indicatorilor statistici. Dorim să vedem dacă această

Y Y

X X

Legătură puternică Legătură slabă

Page 95: Informatica Statistica Curs

INDEX

101

variaţie implicită este depăşită în cazul nostru, ceea ce ar indica existenţa reală a unui

efect pe care de fapt îl căutăm şi îl studiem.

Se demonstrează că următoarea funcţie respectă o distribuţie de tip t (Student):

21

2

r

nrt

. (10)

Verificăm ipoteza nulă H0: 0 prin distribuţia menţionată ştiind că este

caracterizată de n-2 grade de libertate (n este numărul de date din eşantion – volumul

eşantionului).

Dacă valoarea calculată pcalculat este mai mică decât 5%, avem semnificaţie

statistică, deci coeficientul de corelaţie este diferit de 0 antrenând existenţa unei

anumite relaţii între variabile.

A doua metodă de interpretare face apel efectiv la valoarea statisticii t calculate cu

formula 10. Dacă această valoare este mai mare ca cea tabelată corespunzătoare unui

număr de grade de libertate n-1 şi unei încrederi bilaterale de 95%, atunci avem

semnificaţie statistică.

Exemplu

Pentru datele a căror analiză ANOVA a fost prezentată anterior se obţine

r = 0,441 iar volumul eşantionului este n=16 valori.

Calculăm valoarea statisticii t , 838,11945,01

216441,0

t .

Din datele tabelate ale statisticii t, pentru încredere bilaterală 95%, deci risc

%5 şi n-2=14 grade de libertate obţinem valoarea 145,214,

205,0

t .

Valoarea calculată 1,838 este mai mică decât cea tabelată 2,145 ceea ce denotă că

variaţia întâlnită se încadrează în domeniul acceptat, deci nu există diferenţă

semnificativă statistic. Cu alte cuvinte putem afirma cu încredere de 95% că valoarea

coeficientului de corelaţie poate fi nulă. Aceasta înseamnă că relaţia exprimată prin

valoarea punctuală r = 0,441 este rezultatul hazardului.

Observaţii asupra regresiei liniare şi corelaţiei

Presupunem că avem două seturi de date X: x1, x2, … , xn respectiv Y: y1, y2, …yn.

Calculând regresia y = f(x) = a + bx obţinem anumite valori pentru coeficienţii a

şi b. Dacă extragem pe x funcţie de y avem: ybb

ax

1. (11)

Calculând regresia x = g(y) = a’ +b’y (12) şi comparând cu relaţia (11) cele două

drepte pot sau nu coincide.

Deducerea coeficienţilor a,b, respectiv a’, b’ diferă substanţial deoarece în primul

caz s-a pus condiţia ca suma pătratelor erorilor pe direcţia OY să fie minimă iar în al

doilea caz condiţia a fost ca suma pătratelor erorilor pe OX să fie minimă.

Corelaţia exprimă tocmai această asemănare dintre cele două drepte de regresie.

Page 96: Informatica Statistica Curs

INDEX

102

Notăm cu A dreapta y=f(x), respectiv cu B dreapta x=g(y).

Dacă dreptele se suprapun atunci =1, iar dependenţa aleatoare devine

deterministă (unui punct pe x îi corespunde un singur punct pe y) şi dreptele de regresie

au alura primei bisectoare. Astfel, cunoscând pe x, putem determina pe y cu o precizie

bună în funcţie de datele din eşantion.

Dacă = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua iar

dependenţa este invers proporţională. Şi în acest caz legătura este de tip determinist.

În general dreptele pot sau nu să se apropie mai mult sau mai puţin demonstrând

dependenţa datelor. Prezentăm mai jos în patru grafice succesive cele relatate.

Figura 2.10 4 – Tipuri de dependenţe între regresie şi corelaţie.

Dacă valoarea coeficientului de corelaţie este 0, atunci cele două drepte fac un

unghi de 900 (sunt perpendiculare).

Este normal ca legătura dintre cele două drepte să determine şi semnul

coeficientului de corelaţie. Dacă din y=f(x) obţinem o pantă negativă atunci tot

negativă va fi şi panta obţinută din calculul x=g(y) şi tot negativ va fi şi coeficientul de

corelaţie (evident legătura rămâne valabilă şi pentru cazul pantei pozitive).

A , B A B

Dependenţă deterministă

direct proporţională

1

Dependenţă stohastică

direct proporţională

A B A , B

1

Dependenţă deterministă

invers proporţională

Dependenţă stohastică

invers proporţională

Page 97: Informatica Statistica Curs

INDEX

103

1.11. MODELE NELINIARE DE REGRESIE

În practica de zi cu zi se întâlnesc des cazuri în care legătura de tip liniar dintre

două variabile nu este respectată şi reprezintă doar un aspect particular al realităţii. Se

impune astfel dezvoltarea de metode de deducere a legăturilor de tip neliniar existente

între variabila de intrare notată x (numită şi variabilă independentă sau factor) şi

variabila y (numită şi variabilă dependentă).

Prezentăm în continuare câteva modele neliniare de interes pentru determinarea

regresiei.

Modele parabolice

Parabola este exprimarea variabilei dependente faţă de variabila x la puterea a

doua, conţinând eventual un termen liber şi eventual un termen x la puterea întâi.

Expresia matematică este: y = a + b x + c x2 .

Folosind forma logaritmică putem avea următoarele exprimări :

y = a + b lg(x) + c (lg(x))2,

lg(y) = a + b x + c x2,

lg(y) = a + b lg(x) + c (lg(x))2.

Forma grafică a parabolei y = a + b x + c x2 este prezentată în figura următoare.

Figura 2.11 1 - Regresii parabolice

Funcţie de semnul parametrului de regresie c parabola prezintă un punct de

extrem. Dacă c > 0 parabola prezintă un punct de minim notat cu ,,m” iar în cazul în

care c < 0, punctul de extrem este un maxim notat cu ,,M”.

Calculul punctului de extrem este realizat din punct de vedere matematic prin

condiţia ca derivata întâi în raport cu variabila x să fie egală cu zero.

Interpretarea practică este importantă deoarece acest punct reprezintă minimul sau

maximul atins de curba parabolică.

Determinarea coeficienţilor a, b, c, de regresie se face asemănător regresiei liniare

şi există multe programe soft realizate pentru deducerea acestora (de exemplu,

produsul Microsoft Excel - de mare popularitate).

Menţionăm că parabola este un caz particular al polinomului de ordin n.

X

Y M

m

0

C>0

C<0

Page 98: Informatica Statistica Curs

INDEX

104

X

Y

A(0,a)

b>0 b<0

0

Modele hiperbolice

Există modele în cadrul fenomenelor reale biologice care pot lua o formă

hiperbolică. Exprimarea matematică este: x

bay , pentru x > 0.

Graficul funcţiei depinde de semnul coeficientului b (ca şi în celelalte cazuri).

Pentru b < 0 avem dependenţă crescătoare, curba tinzând asimptotic la valoarea a

(y = a ) pentru x tinzând la infinit. Pentru b > 0 avem dependenţă descrescătoare şi

curba tinde asimptotic tot la valoarea a pentru x tinzând la infinit.

Reprezentarea grafică a hiperbolei este realizată în figura următoare:

Figura 2.11 2 – Regresii hiperbolice

Există mai multe modele hiperbolice, dintre care menţionăm:

x

bxay

x

ba

yxba

y

,1

,1

.

Model exponenţial

Funcţia de tip exponenţial are forma matematică următoare:

,, xcueay xb.

Pentru x = 0 se obţine y = a, iar toate curbele au un punct comun anume A (0, a).

Pentru coeficient b > 0 se obţine o curbă crescătoare iar pentru coeficientul b < 0

se obţine o curbă descrescătoare.

Figura 2.11 3 – Regresii de tip exponenţial

X

Y

b>0

b<0

0

a

Page 99: Informatica Statistica Curs

INDEX

105

Analiza de regresie multiplă (analiza multivariată)

Legătura multiplă reprezintă o relaţie matematică în care există mai multe

variabile factoriale sau independente (independent, explanatory variable or

covariates). Astfel, variabila dependentă (sau răspuns) poate fi exprimată matematic cu

formula: )( ixfy , cu i având valori de la 1 la n (n reprezintă numărul de

variabile).

Sunt situaţii în care nu se cunosc care variabile să se ia în consideraţie în cadrul

regresiei multiple. Pentru a determina variabilele independente care au efect important

asupra variabilei rezultative (y) se calculează spre exemplu coeficientul de corelaţie şi

se aleg apoi acele variabile ce corespund valorilor maxime ale acestui coeficient.

Există şi alte metode de analiză discriminantă pentru alegerea variabilelor factoriale de

interes. Această alegere are un efect important asupra erorii sistemului, căci eliminând

o parte din variabile, aproximarea sistemului este mai ,,grosolană” .

Funcţia f(xi) poate fi liniară, ceea ce reprezintă cazul cel mai simplu sau

dimpotrivă, poate depinde neliniar de variabilele de interes.

În cadrul unei legături multiple liniare ecuaţia este de forma:

y = a0 + a1 x1 + a2 x2 + … + an xn

n

iii xaay

10 .

Fiecare coeficient ,,ai” reprezintă influenţa variabilei corespunzătoare xi, iar a0

(termenul liber) reprezintă influenţa celorlalţi factori, care sunt consideraţi ca o acţiune

constantă.

Dacă în coordonate bidimensionale regresia liniară este o dreaptă, în coordonate

n-dimensionale regresia liniară va reprezenta o suprafaţă multidimensională ce trece

prin punctul valorilor medii ale variabilelor.

Şi în acest caz pentru aflarea coeficienţilor ,,ai” se aplică metoda celor mai mici

pătrate (descrisă la regresia liniară cu o singură variabilă).

Pentru aceasta se calculează valoarea aşteptată prin regresie

n

i

jii

j xaay1

0ˆ , unde i reprezintă numărul de variabile

independente (i variază de la 1 la n), iar j reprezintă numărul de date

cunoscute deci volumul eşantionului sau lotului (j variază de la 1 la m).

Se defineşte eroarea jjj yy ˆ , unde y

j este valoarea reală

măsurată sau cea din eşantion.

Se pune condiţia ca suma pătratelor erorilor să fie minimă prin

egalarea cu zero a derivatei de ordinul întâi pentru fiecare coeficient

în parte.

Page 100: Informatica Statistica Curs

INDEX

106

Parametrii de regresie a0, ai au aceeaşi interpretare dacă variabilele sunt

independente. Primul parametru a0 arată influenţa celorlalţi factori care nu sunt

cuprinşi în ecuaţie.

Ceilalţi parametri ai descriu variaţia ieşirii pentru creşterea cu o uniate a variabilei

xi şi păstrarea constantă a celorlalţi factori.

Exemplu Se prezentă în continuare o metodă liniară de estimare (predicţie) a indicelui de

rezistenţă a muşchiului respirator PEmax (cm H2O) în funcţie de variabilele

independente (predictoare), înălţime (cm, notată H) şi greutate (kg, notată G).

PE max = a0 + a1 H + a2 G.

Prin calculul coeficienţilor ,,ai” se obţine:

PE max = 47,36 + 0,146 H + 1,025 G.

Având această relaţie prin măsurarea înălţimii şi greutăţii unei persoane putem

estima valoarea PE max cu o eroare acceptabilă.

Interacţiuni între variabile

Acestea pot fi puse în evidenţă prin introducerea de termeni ce sunt egali cu

produsul a două variabile. Iată un exemplu:

21322110 xxaxaxaay .

Astfel, efectul pe care îl are variabila x1 depinde de prezenţa variabilei x2. Evident,

interpretarea coeficienţilor de regresie este diferită tocmai datorită modificărilor

existente (cunoscută în literatură cu numele de effect modifications – un factor

influenţează efectul altora).

De multe ori pentru a optimiza un model de regresie se pot introduce aceşti

termeni ce exprimă interacţiunea dintre variabile.

Analiza ANOVA pentru validarea modelului multivariabil

Ca şi în cazul liniar univariat se definesc următoarele deviaţii:

Suma totală a pătratelor deviaţiilor: j

j yySST2

.

Suma pătratelor erorilor (sau reziduurile): j

jj yySSE2

ˆ .

Suma pătratelor deviaţiilor de regresie: j

j yySSR2

ˆ , unde j variază de la

1 la m (m este volumul eşantionului).

Programele speciale de statistică vor produce tabelul următor:

Page 101: Informatica Statistica Curs

INDEX

107

Tabelul 2.11 1. Sursa de

variaţie

Suma

pătratelor

SS

Gradele de

libertate (df)

Media

pătratelor

Statistica

Fisher

Valoarea

semnificaţiei

p

Regresie SSR n (nr. de variabile

independente)

MSR = SSR / n F = MSR/MSE p

Eroare

(reziduu)

SSE m – n – 1 MSE = SSE /

( m – n – 1)

Total SST m – 1 (m volumul

eşantionului)

Se poate calcula de asemenea coeficientul de determinate SST

SSRR 2

. Acesta

înmulţit cu 100 arată procentul din variaţia variabilei dependente explicat de factorii ce

au fost incluşi în calcul.

Cu cât valoarea SSR este mai mare cu atât modelul „explică” mai bine variaţiile

ieşirii.

Cu cât SSE este mai mic cu atât erorile sunt mai mici şi modelul propus este cu

atât mai bun.

Se calculează statistica Fisher şi nivelul de semnificaţie p.

Dacă p este mai mic decât 0,05 (5%), deducem atunci că variaţia explicată de

model este mai mult decât întâmplătoare, deci modelul este considerat drept unul bun

iar nivelul de determinare este diferit de 0. Cu alte cuvinte, setul de factori reuşesc să

facă o predicţie semnificativă asupra variabilei dependente.

Dacă valoarea p este mai mare decât 5%, putem afirma că modelul nu este

satisfăcător şi poate sunt necesare şi alte variabile ca factori de influenţă asupra ieşirii.

Testarea semnificaţiei unui singur factor dintre predictori

Se pune problema verificării influenţei asupra întregului model a unui nou factor

adăugat. Dacă efectul este semnificativ statistic în predicţia variabilei dependente, acest

nou element va fi acceptat în formula de calcul.

Ipoteza nulă este: Noul factor xi , nu are efect asupra variabilei dependente faţă

de modelul fără xi.

Astfel, coeficientul ai poate fi considerat nul, deci ipoteza nulă devine Ho: ai = 0.

Pentru aceasta se foloseşte statistica i

i

aSE

at

ˆ

ˆ . Aceasta este de tip Student iar

prin SE înţelegem eroarea standard (notarea ia se foloseşte pentru a specifica că

variabila sau parametrul este dedus din datele experimentale deci conţine o eroare).

Numărul de grade de libertate este df = m – n – 1 (m – volumul eşantionului, n –

numărul de variabile din model).

Page 102: Informatica Statistica Curs

INDEX

108

Corespunzător valorii t calculate se poate determina nivelul de semnificaţie p.

Practic, factorul testat drept variabilă nouă introdusă în model este acceptat dacă

pcalculat este mai mic decât 5% (0,05). Aceasta înseamnă că noul model este diferit

semnificativ statistic faţă de cel precedent ce nu conţinea noua variabilă.

Testarea semnificaţiei unui grup de variabile introduse în model

Datorită posibilităţilor de interacţiune dintre variabile şi a legăturilor probabile

existente este necesară verificarea utilităţii setului de mai mult de 2 variabile în noul

model. Aceasta se testează prin calculul unei statistici de tip Fisher descrise în

continuare.

Dacă notăm numărul variabilelor de testat cu „k”, atunci ipoteza Ho devine a1 = a2

= … = ak = 0 (coeficienţii sunt nuli).

Avem de comparat două modele, primul cu toate cele n variabile xi iar al doilea cu

n-k variabile.

Calculăm astfel suma pătratelor deviaţiilor de regresie SSR1, respectiv SSR2 pentru

modelul 2.

Media diferenţei va fi : MDR = (SSR1-SSR2)/k.

Statistica Fisher se calculează prin: F = MDR / MSE, unde MSE este media

sumelor pătratelor deviaţiilor pentru sistemul 1 (sistemul „mare”, cu toate variabilele).

Numărul de grade de libertate este n respectiv m – k – 1, ).1,( nmkF

S-a respectat notaţia: n este numărul total de variabile, k este numărul de variabile

din grupul de test, m este volumul eşantionului.

Interpretarea se face la fel ca în exemplele precedente, ţinând cont de nivelul de

semnificaţie calculat, p.

Dacă p < 0,05, atunci setul de k variabile testate este util în sistem.

Determinarea variabilelor din model pas cu pas

De interes major în crearea unui model de regresie este determinarea variabilelor

ce au efect în predicţia comportării sistemului analizat. Practic, care din factorii

presupuşi a fi implicaţi în regresie au într-adevăr efect semnificativ?

Se poate greşi prin alegerea de elemente ce nu au influenţă în regresie şi se

produce astfel o eroare de tip I – fals pozitiv. Aceasta va duce la mari confuzii şi în

mod evident este de dorit ca eroarea să fie minimizată.

O metodă ce permite atingerea acestui scop constă în introducerea pas cu pas a

unei noi variabile predictoare şi testarea semnificaţiei acesteia. În mod asemănător, dar

judecând complementar, din totalul de variabile putem să eliminăm pe rând pe cele

care nu au rol în determinarea ieşirii dorite.

Avem astfel două metode numite cu înlănţuire înainte (forward selection) pentru

selecţie, respectiv cu înlănţuire înapoi (backward elimination) pentru eliminare.

Page 103: Informatica Statistica Curs

INDEX

109

Pentru a alege din totalul variabilelor pe cele semnificative, se poate aplica testul t

(sau Student - descris anterior) de verificare a diferenţei faţă de 0 a coeficientului de

regresie corespunzător. Se calculează pentru fiecare factor implicat în studiu nivelul de

semnificaţie şi se selectează variabila cu cea mai mare influenţă.

În continuare se verifică întregul model cu noua variabilă, comparativ cu modelul

precedent prin analiza varianţei (testul Fisher – deja prezentat).

Mai există şi procedeul regresiei folosind paşii inteligenţi (stepwise regression

procedure), ce permite reevaluarea modelului la fiecare pas şi adăugarea sau

eliminarea factorilor ce devin nesemnificativi.

Programele dedicate de statistică au aceşti algoritmi implementaţi (SPSS, SAS,

STATISTICA).

Page 104: Informatica Statistica Curs

INDEX

110

Regresia logistică

Până în acest moment regresia a fost aplicată variabilelor cantitative care puteau

lua valori reale într-un anumit interval (de exemplu, înălţimea poate fi cuprinsă între

1,55 m şi 1,95 m în majoritatea cazurilor).

Există multe situaţii în medicină, farmacie în care variabila de interes nu mai este

continuă şi prezintă doar două valori atributive (este deci binară sau dicotomică).

Acestea sunt de obicei răspunsuri de genul ,,da” sau ,,nu”; ,,adevărat” sau ,,fals”.

Pentru a lucra cu variabile de acest fel se foloseşte o metodă matematică specifică

numită regresie logistică. Aceasta ne ajută în estimarea proporţiei indivizilor cu o

anumită caracteristică dintr-o anumită populaţie. Astfel, vom căuta să determinăm

probabilitatea de a avea evenimentul notat ,,da” sau evenimentul notat ,,nu”.

Raportul dintre probabilitatea de a observa un fapt şi cea de a nu-l observa se

numeşte cotă (odds), p

p

1cota . Logaritmul natural din această cotă defineşte

funcţia numită logit, folosită în regresie logistică.

În regresia multiplă liniară rezultatul final este o mărime continuă pe un anumit

interval, funcţie de domeniile de definiţie ale variabilelor ,,xi”. Proporţia subiecţilor cu

o anumită caracteristică este o valoare cuprinsă între 0 şi 1. În concluzie ne trebuie o

funcţie matematică care să realizeze conversia din domeniul [0,1], într-un interval de

lungime maximă, în general de la (-, +). Aceasta este motivaţia folosirii funcţiei

logit.

Formula de calcul este următoarea:

p

p

1lnlogit(p) , unde:

p reprezintă probabilitatea realizării evenimentului de interes.

1-p reprezintă probabilitatea realizării evenimentului opus.

Probabilitatea p, variază între 0 şi 1 iar funcţia logit are codomeniul (- , + ).

Regresia logistică se bazează pe formula:

nn xaxaap

pp

....

1ln)(logit 110 .

Coeficienţii ao,…,an se deduc prin metode matematice specifice folosind un calcul

laborios care se realizează doar cu ajutorul computerului.

Dacă exprimăm probabilitatea p funcţie de factorii xi, atunci avem:

),...xx,f(x

xiai-exp1

1p n10

i

, aceasta este numită funcţia logistică

şi este diferită în mod evident de funcţia logit.

Funcţia logistică face conversia din domeniul (- ,+), ca posibil de variaţie

pentru variabilele xi, în domeniul probabilităţii unui eveniment, deci [0,1].

Page 105: Informatica Statistica Curs

INDEX

111

Dacă reprezentăm grafic variabila dependentă în funcţie de cea independentă, în

situaţia în care avem doar două variante pentru y, atunci aceasta ar fi o reprezentare de

puncte doar pe două linii paralele pentru cele două valori posibile, 0 respectiv 1 ale lui

Y. Valoarea 1 înseamnă că evenimentul a avut loc, iar 0 evident opusul. În această

situaţie probabilitatea lui Y după experiment poate avea doar valorile 0 sau 1.

Figura 2.11 4 – Funcţia logistică comparativ cu regresia liniară.

Se observă conform figurii alăturate că dreapta de regresie (linia pe diagonală

trasată punctat) prezintă mari dezavantaje. În primul rând, conţine puncte ale căror

ordonate au valori mai mari ca 1 şi mai mici decât 0. Deci, în cazul estimării unor

probabilităţi ar conţine erori fatale. Un alt mare dezavantaj constă în faptul că eroarea

nu este distribuită normal şi nici variabila dependentă (y) nu se încadrează în această

clasă de repartiţie. Condiţia este necesară pentru determinarea coeficienţilor de regresie

– deci metoda celor mai mici pătrate nu se aplică aici.

Funcţia logistică este reprezentată prin linia curbă în formă de S. Aceasta

aproximează mult mai bine probabilitatea evenimentului studiat.

Probabilitatea lui Y depinde de variabila independentă X. Matematic putem scrie:

)1()( xXYPx . Aceasta reprezintă probabilitatea condiţionată a lui Y (de a se

îndeplini evenimentul Y, deci Y=1) pentru diferite valori (deci şi în domeniul continuu)

ale variabilei X.

Determinarea coeficienţilor de regresie logistică

Variabila Y poate avea numai două valori acceptate, „Adevărat” sau „Fals”, „Da”

sau „Nu”, „Prezent” sau „Absent”, „Sănătos” sau „Bolnav”, „Pozitiv” sau „Negativ”.

Aceasta este caracterizată de probabilitatea de realizare a unor asemenea evenimente

modelate matematic prin funcţia logistică.

Y este distribuită binomial (Bernoulli). Astfel, dacă avem m încercări ale

experimentului, atunci probabilitatea ca evenimentul să se realizeze de j ori este :

1

0

Prob(Y)=

X

Page 106: Informatica Statistica Curs

INDEX

112

jmj ppj

mjY

1)Pr( , unde

jmC

j

m

sunt combinări de m luate

câte j: !!

!

jmj

m

j

m

; p este probabilitatea de realizare a evenimentului (este ).

Aceasta se numeşte funcţia probabilitate de masă (probability mass function).

Variabila Y este caracterizată de medie şi varianţă. Pentru cazul binomial avem:

media= mYE )( iar varianţa este 1)( mYVar .

Pentru determinarea coeficienţilor se aplică metoda verosimilităţii maxime

(prezentată detaliat în anexă).

Funcţia de verosimilitate (notată L) este produsul probabilităţilor pentru toate

elementele din eşantion.

n

i

yiL1

)Pr( . Probabilitatea se calculează cu funcţia probabilitate de masă în

care p este funcţia logistică. Se pune condiţia de maxim (derivata de ordinul întâi egală

cu 0) pentru verosimilitate maximă şi se ajunge la un sistem având ca necunoscute

coeficienţii de regresie a0, a1, …,an.

Programele actuale de statistică deduc aceşti coeficienţi ce exprimă legătura

căutată.

Interpretarea coeficienţilor în cazul regresiei logistice

Ţinând cont de formula de calcul:

nn xaxaap

pp

....

1ln)(logit 110 putem interpreta în prima

formă coeficienţii de regresie ai.

Vom presupune că modificăm doar valoarea x1 cu o unitate, deci 11

,

1 xx .

Pentru valoarea x1 avem probabilitatea p1 iar pentru ,1x vom determina probabilitatea

,1p .

Se poate calcula 11,1 )(logit)(logit app , ceea ce înseamnă că diferenţa

logaritmilor cotelor pentru o creştere cu 1 a variabilei xi reprezintă coeficientul ai –

evident o interpretare greoaie !

Putem prelucra totuşi ultima formulă prin exponenţiere. Notăm cota cu 1C

respectiv `1C pentru x1 respectiv

,1x (

p

pC

1).

Vom aplica exponenţiala pentru 11

1

,1

,1

1ln

1ln a

p

p

p

p

.

Page 107: Informatica Statistica Curs

INDEX

113

Obţinem: )exp( 11

'1 a

C

C . Interpretarea este evidentă. Exponenţiala unui coeficient

al regresiei logistice reprezintă raportul cotelor pentru creştere cu o unitate a valorii

variabilei independente.

Exemplu Se studiază influenţa fumatului, a obezităţii şi a sforăitului asupra hipertensiunii.

Practic, problema se rezumă la a estima în prima etapă prin regresie multiplă logistică

influenţa asupra cotei logaritmate (ln(C)) realizată de factorii fumat, obezitate şi

sforăit.

Se deduc coeficienţii de regresie conform formulei:

Logit (p) =

p

p

1ln = – 2,379 + 0,685 F + 0,694 O + 0,871 S , unde:

F - reprezintă faptul că persoana fumează sau nu (poate fi 0 sau 1).

O - indică prezenţa obezităţii (este variabilă binară, poate fi 0 sau 1).

S - reprezintă prezenţa sforăitului (variabilă binară, poate avea valorile 0 sau 1).

Dacă comparăm persoanele care fumează cu cele care nu fumează se ajunge la

două ecuaţii. Una dintre ecuaţii se obţine pentru F=1 iar cealaltă pentru F=0.

Diferenţa: logit(pfumător) – logit(pnefumător) = 0,685. Aplicând funcţia exponenţială se

obţine:

98,1)1(

)1(

fumatornefumator

nefumatorfumator

nefumator

fumator

PP

PP

C

C.

Acest rezultat reprezintă numeric riscul de hipertensiune printre fumători în raport

cu nefumătorii (riscul de a avea hipertensiune este de 1,98 ori mai mare la fumători faţă

de nefumători).

În final menţionăm că există metode de verificare statistică a semnificaţiei

coeficienţilor (metoda Wald) cât şi a întregului model propus (metoda Chi pătrat). De

asemenea, modelul de regresie poate fi pas cu pas optimizat prin verificarea

variabilelor independente introduse (cu înlănţuire înainte sau înapoi conform

procedurii prezentate la regresia multiplă).

Page 108: Informatica Statistica Curs

INDEX

114

1.12. ANALIZA SUPRAVIEŢUIRII

Introducere

Analiza supravieţuirii a fost iniţial folosită în domeniul medical, biologic dar în

timp utilitatea sa a fost materializată şi prin aplicaţii în domeniile economice şi tehnice.

Supravieţuirea se referă la analiza în timp a probabilităţii de apariţie a unui anumit

eveniment. Decesul a fost iniţial urmărit iar variabila ce caracterizează perioada de

viaţă este timpul scurs până la „realizarea” acestuia.

Putem da câteva exemple cu efecte atât pozitive cât şi negative, care au făcut tema

unor studii în cadrul cercetărilor:

- timpul scurs de la îmbolnăvire până la deces.

- timpul scurs până la apariţia recidivelor.

- timpul de utilizare a unui cateter.

- timpul scurs până la însănătoşire în cazul aplicării unui anumit tratament.

- timpul scurs până la apariţia sarcinii în cadrul cuplurilor sterile (sub

tratament).

- timpul de utilizare a unui produs.

Dacă avem de studiat eficienţa unui tratament asupra unei maladii în fază

terminală, variabila de interes este perioada de supravieţuire a pacientului. În principiu

se pot folosi metodele statistice standard de calcul şi estimare a mediei de

supravieţuire, a medianei sau se pot realiza comparaţii între aceşti indicatori pentru

diferite loturi studiate.

Apar totuşi unele aspecte specifice procesului de analiză în timp a datelor.

1 – O parte din pacienţii care iniţial au fost incluşi în studiu vor fi pierduţi pe

parcurs datorită cauzelor obiective (pierderea contactului cu persoana prin diferite

forme: schimbarea adresei, abandon; deces din alte cauze sau terminarea studiului şi

neapariţia evenimentului analizat). Acestea sunt cunoscute drept date cenzurate (sau

eliminate) şi sunt utile până în momentul înlăturării din studiu.

2 – Putem înrola în cercetare noi pacienţi ce apar pe perioada definită de analiză.

Aceştia la rândul lor aduc un aport de informaţie care ajută la eliminarea indeciziilor

existente.

Metodă

Analiza supravieţuirii trebuie interpretată în mod corect ca o analiză în timp a

realizării evenimentului. Funcţia de supravieţuire este descrisă de probabilitatea ca la

momentul ti pacienţii să se afle în viaţă. Vom vedea cum se poate deduce această

probabilitate cunoscând numărul de decese şi numărul de cazuri cenzurate în fiecare

interval de studiu.

Page 109: Informatica Statistica Curs

INDEX

115

Interpretarea generală a funcţiei de supravieţuire este realizată însăşi prin

probabilitatea ca la momentul ti evenimentul sa nu se fi produs (probabilitatea de

supravieţuire este complementară probabilităţii decesului). Este clar că în timp această

probabilitate variază, scade şi astfel forma sa capătă o tendinţă descrescătoare. Cu cât

timpul trece, cu atât mai puţini pacienţi vor fi în viaţă şi astfel probabilitatea de

supravieţuire va scădea.

La diferite momente de timp ti se produc evenimente ce reprezintă decesul sau

cenzura. Acestea definesc punctele în care probabilitatea de supravieţuire îşi schimbă

valoarea.

Dacă am schiţa o expunere în timp a apariţiei evenimentelor ce caracterizează

starea pacienţilor (cenzură sau deces) cât şi a înrolării de noi cazuri, acestea ar putea fi

reprezentate grafic asemănător celor din figura 2.12 1. Observăm că există un

eveniment de start (marcat cu romb negru) şi apoi evenimentul ce defineşte sfârşitul

(marcat prin cerc).

Pentru studiu ne interesează intervalul de timp cuprins între cele două evenimente,

de start respectiv de stop.

Figura 2.12 1 – Monitorizarea pacienţilor pe perioada de studiu.

Pentru interpretarea corectă trebuie să realizăm o translaţie în sensul aducerii

tuturor punctelor de start la un moment de referinţă comun, considerat reper zero al

axei timpului. Graficul cu transformarea realizată este prezentat în figura 2.12 2.

timp (calendaristic)

Sfârşit studiu

Cenzură

Pacienţi

Eveniment de studiu

realizat

P1

P2

Page 110: Informatica Statistica Curs

INDEX

116

Figura 2.12 2 – Aducerea la reper zero în timp a pacienţilor din studiu.

Evenimentele au loc la momentele notate: T1, T2, … Ti, … Tn. Între acestea se

respectă relaţia: T1 < T2 < … < Ti < … < Tn. Momentul de start este T0 definit de

scopul studiului. Aici trebuie să se acorde o atenţie deosebită, deoarece poate exista o

mare relativitate în stabilirea momentului de start (de exemplu în cancerul de sân, care

este momentul de determinare a prezenţei neoplaziei?). Toate cazurile luate în studiu

trebuie să fie tratate unitar pentru a nu introduce erori.

Funcţii ce descriu distribuţia timpului de supravieţuire

Timpul de supravieţuire este măsurat din momentul începerii analizei şi până la

realizarea evenimentului studiat (deces, recidivă, apariţie simptome, căsătorie, divorţ,

concepţie, etc.). Există posibilitatea pierderii subiecţilor analizaţi, aceştia reprezentând

datele cenzurate.

Timpul este variabila de studiu şi se manifestă aleator, având de cele mai multe ori

o distribuţie necunoscută. Dacă am reuşi în anumite situaţii să demonstrăm că această

variabilă respectă o distribuţie normală (caz aproape neîntâlnit în practică), atunci am

avem tehnica de analiză cunoscută (distribuţia Gauss-Laplace este studiată în

amănunt). Totuşi datele cenzurate pot ajuta parţial cu informaţia introdusă. Acestea

necesită un tratament aparte.

Există trei funcţii care descriu distribuţia de supravieţuire:

A) Funcţia de supravieţuire notată S(t).

B) Funcţia densitate de probabilitate f(t) şi integrala acesteia F(t) – funcţia de

probabilitate cumulată.

C) Funcţia Hazard, h(t) şi H(t) – funcţia hazard cumulată (integrala h(t)).

Timp (ca dimensiune)

Reperul T0 este determinat

Sfârşit studiu

Pacienţi

P1

P2

T0 T1 T2 T3 Ti

Page 111: Informatica Statistica Curs

INDEX

117

Notăm cu T variabila aleatoare ce defineşte timpul de supravieţuire.

Funcţia de supravieţuire (survival function)

Aceasta exprimă probabilitatea ca un individ să supravieţuiască mai mult de

momentul te timp notat t.

Avem astfel S(t) = P(T>t), S(t) este funcţia de supravieţuire, P este probabilitatea.

Dacă nu avem elemente cenzurate, atunci putem calcula funcţia de supravieţuire

cu formula:

S(t) = (număr pacienţi în viaţă la momentul t) / (nr. total pacienţi luaţi în studiu).

Această formulă este corectă pentru un volum foarte mare al eşantionului.

La momentul iniţial toţi pacienţii luaţi în studiu sunt în viaţă, deci pentru t=0,

S(0)=1.

Dacă facem ca variabila timp să tindă către infinit, atunci ne aşteptăm ca

evenimentul deces să se realizeze pentru toate cazurile studiate deci S(t=maxim)=0.

Cu cât înaintăm în timp pierdem pacienţi prin deces, deci funcţia de supravieţuire

este de aşteptat să fie descrescătoare.

Pentru caracterizarea corectă a funcţiei de supravieţuire se foloseşte mediana în

locul mediei. Aceasta exprimă corect valoarea centrală deoarece distribuţia în general

nu este de tip normal iar cazurile extreme pot influenţa în mod eronat valoarea mediei.

Sunt foarte utile şi cuartilele, deci cele 3 valori ce împart distribuţia în 4 grupe de

probabilităţi egale cu 25% (cuartila 2 este tocmai mediana).

Forma grafică a funcţiei de supravieţuire este prezentată alăturat.

Figura 2.12 3 – Funcţia de supravieţuire

Mediana reprezintă timpul (luni, ani, săptămâni) pentru care probabilitatea de

supravieţuire a scăzut la jumătate, 50%.

Timp

S(t)

Q1 Me Q3

50%

Page 112: Informatica Statistica Curs

INDEX

118

Funcţia densitate de probabilitate (probability density function)

Orice variabilă aleatoare are o funcţie densitate de probabilitate (notată f(t)) cât şi

o funcţie de repartiţie (notată F(t)).

Densitatea de probabilitate exprimă probabilitatea ca pentru un individ să aibă loc

evenimentul studiat în următorul interval de timp t foarte mic (infinitezimal).

Aceasta se defineşte printr-un proces de trecere la limită de forma:

t

tttintervalulinrealizatestelevenimentuPtf

t

),(lim)(

0.

Fiind o limită a probabilităţii valoarea nu poate fi negativă, deci f(t) ≥ 0, pentru

orice t. Pentru timp negativ densitatea de probabilitate este 0. Noţiunea de timp

negativ trebuie definită. Practic valori ale timpului negativ t<0, sunt scoase din calcul.

De exemplu, înaintea începerii studiului nu avem informaţie deci este impropriu să

calculăm şi să determinăm probabilităţi.

Ca şi în cazul funcţiei de supravieţuire, valoarea f(t) se poate aproxima prin calcul

direct doar în situaţia inexistenţei cenzurilor.

f(t) = (numărul de evenimente realizate începând cu t) / [(nr. total pacienţi luaţi în

studiu) • ( t )].

Se mai numeşte şi rata necondiţionată de realizare a evenimentului studiat

(unconditional failure rate).

Ca forme grafice posibile există variante multiple:

Figura 2.12 4 – Funcţia densitate de probabilitate.

Funcţia hazard (hazard function)

Se defineşte ca fiind probabilitatea realizării evenimentului studiat într-un interval

de timp foarte scurt ( t ) cunoscând că până la momentul t evenimentul nu s-a realizat.

Se aseamănă cu definirea densităţii de probabilitate dar conţine o informaţie

suplimentară. Aceasta este condiţia ca evenimentul să nu se fi realizat până la

momentul t.

t

tlapanaev.eanerealizardetaconditiona

Δtt,tintervalulinrealizatestelevenimentuP

tht

lim0

)( .

Funcţia hazard exprimă riscul de a deceda în unitatea de timp la o anumită vârstă,

sau riscul în general, de a se realiza evenimentul la un moment t.

Timp (t)

f(t) 1 2

3

Page 113: Informatica Statistica Curs

INDEX

119

Se mai întâlneşte şi sub numele de rata condiţionată a mortalităţii, forţa

mortalităţii sau rata instantanee a producerii evenimentului.

Dacă nu avem evenimente cenzurate atunci metoda de calcul aproximativ este

bazată pe formula:

h(t) = (numărul de evenimente realizate începând cu t) / [(nr. de pacienţi ajunşi în

studiu la momentul t)•( t )].

Faţă de expresia densităţii de probabilitate, h(t) diferă tocmai prin numărul de

pacienţi plasat în formulă la numitorul fracţiei.

Funcţia hazard poate fi constantă în timp, poate creşte sau descreşte, deci are

diferite forme posibile.

Figura 2.12 5 – Funcţia hazard – posibile forme.

Există relaţii de legătură între cele trei funcţii astfel încât având una din ele, putem

să le deducem pe celelalte două. Aşadar este suficient doar una din aceste trei funcţii să

o cunoaştem sau să o deducem din date experimentale.

Prezentăm fără a demonstra relaţiile existente între aceste funcţii.

T – variabila aleatoare ce este analizată.

S(t) = P(T>t) este funcţia de supravieţuire.

f(t) este funcţia densitate de probabilitate; F(t) funcţia de probabilitate cumulată.

h(t) este funcţia hazard; H(t) funcţia hazard cumulată.

1. )(1)( tStF .

2. )()(1)()( tStSdt

dtF

dt

dtf - densitate de probabilitate şi

supravieţuire.

3. )(

)()(

tS

tfth sau

)(1

)()(

tF

tfth

- legătura dintre hazard şi probabilitate.

4. )(log)(

)(

)(

)()( tS

dt

d

tS

tS

tS

tfth

- legătura dintre hazard şi supravieţuire.

5. )(exp)()( tHthtf - densitatea de probabilitate funcţie de hazard.

Pentru amănunte în demonstraţie se poate studia „Statistical Methods for Survival

Data Analysis” – Elisa T. Lee, John Wenyu Wang ; A John Wiley &Sons. Inc.,

Publication 2003.

Timp (t)

h(t) 1

2

3

4

Page 114: Informatica Statistica Curs

INDEX

120

Analiza supravieţuirii utilizând metoda Kaplan Meier

Analiza în timp a evenimentului (time to event analysis; product limit estimate)

Metoda Kaplan Meier este o tehnică statistică neparametrică ce determină

probabilităţile de supravieţuire în timp, acceptă lucrul cu date cenzurate şi permite

introducerea de noi cazuri în perioada de cercetare.

Funcţia de supravieţuire sau rata de supravieţuire este definită prin probabilitatea

ca o persoană (sau caz de studiu) să supravieţuiască mai mult de n unităţi de timp

)( iTTPs . Aceste unităţi de timp sunt tocmai valorile discrete T1, T2, …Tn.

Se poate calcula uşor probabilitatea pe fiecare interval [Ti-1, Ti]. Aceasta este însă

o probabilitate condiţionată. Practic în intervalul Ti-1–Ti , avem o anumită structură a

lotului de studiu. La momentul Ti­1 avem în viaţă Ni-1 pacienţi. Aceştia sunt supuşi

riscului de a deceda. În intervalul precizat o parte din pacienţi vor fi eliminaţi din

studiu (cenzuraţi), notaţi cu Ci, iar o altă parte vor deceda, notaţi Di.

Putem calcula numărul de pacienţi supuşi riscului la momentul Ti. Vom scădea pe

cei decedaţi şi pe cei cenzuraţi. iiii CDNN 1 .

Probabilitatea de deces pe acest interval, condiţionată de faptul că pacienţii au

supravieţuit până la începutul intervalului de timp este 1

1)(

i

i

iiN

DTTTTPd .

T reprezintă timpul de supravieţuire ce caracterizează studiul. Astfel,

probabilitatea de supravieţuire condiţionată se exprimă prin:

1

111)(1)(

i

i

iiiiN

DTTTTPdTTTTPs .

Această probabilitate se poate evalua pe fiecare interval ce prezintă evenimente de

tip deces sau cenzură. Menţionăm că ea nu reprezintă probabilitatea de supravieţuire.

Pentru determinarea funcţiei de supravieţuire trebuie să calculăm probabilitatea

necondiţionată )( iTTPs în fiecare punct din domeniul variabilei T.

Făcând apel la teoria probabilităţilor avem:

)(

)()(

BP

BAPBAP

- formula de calcul a probabilităţii condiţionate.

Evenimentul A poate fi de exemplu, timpul de supravieţuire mai mare decât Ti

(T>Ti), iar evenimentul B poate reprezenta T>Ti-1. Observăm că probabilitatea de

intersecţie a evenimentelor )()( 1 ii TTTTPBAP este tocmai P(A)

deoarece evenimentul A este mai restrictiv decât B (dacă persoana a ajuns la momentul

Ti sigur a fost în viaţă la momentul anterior).

Page 115: Informatica Statistica Curs

INDEX

121

În acest caz avem: )(

)()(

1

1

i

i

iiTTP

TTPTTTTP . Obţinem probabilitatea de

supravieţuire pentru intervalul de rang i ca un produs de forma:

)()()( 11 iiii TTPsTTTTPsTTPs .

Înlocuind în continuare probabilitatea de supravieţuire de la momentul Ti-1 cu o

formulă asemănătoare celei de sus, obţinem un produs al probabilităţilor condiţionate.

În final, ultima valoare va fi probabilitatea de supravieţuire la momentul 0 (aceasta este

considerata iniţial de valoare egală cu 1, 1)( 0 TTPs ).

Este justificat astfel şi pseudonimul: „product limit estimate”.

)()(.....)()( 0121 TTPsTTTTPsTTTTPsTTPs iii .

Fiind un produs de probabilităţi putem uşor observa că în timp forma grafică va fi

descrescătoare.

Practic, vom determina pe fiecare interval numărul de pacienţi la risc (Ni),

numărul de decese (Di) şi numărul de pacienţi eliminaţi (sau cenzuraţi, Ci). Se poate

calcula apoi probabilitatea condiţionată şi în final prin produsul acestora se exprimă

funcţia de supravieţuire în fiecare moment de timp în care se produc evenimente.

Exemplu de calcul

Presupunem că avem în cadrul unui studiu tabelul 2.12 1 cu datele pe zile despre

evenimentele cenzurate şi cele urmărite. Examinările sunt desfăşurate pe o durată de 14

zile iar datele culese sunt prezentate mai jos.

Tabelul 2.12 1 – Date generice - Studiu supravieţuire

Ziua Cenzuri Eveniment urmărit

1 7 2

2 4 1

3 2 2

4 3 3

6 1 2

8 3 4

10 2 1

11 2 2

13 1 2

14 0 1

Total 25 20

Page 116: Informatica Statistica Curs

INDEX

122

Numărul total de pacienţi din studiu este suma celor două coloane şi are valoarea

45 pentru exemplul prezent.

Tabelul 2.12 2 – Etape de calcul – Funcţia de supravieţuire Z

iua

Cen

zuri

Ev

enim

ent

urm

ări

t Pacienţi la

risc

Probabilitatea

condiţionată pe

interval

Probabilitatea de

supravieţuire

(produsul prob.

condiţionale)

1 7 2 45 1-2/45=0.955 0.955

2 4 1 45-7-2=36 1-1/36=0.972 0.955*0,972=0.929

3 2 2 36-4-1=31 1-2/31=0.935 0,929*0,935=0.869

4 3 3 31-2-2=27 1-3/27=0.888 0.869*0.888=0.772

6 1 2 27-3-3=21 1-2/21=0.904 0.772*0.904=0.698

8 3 4 21-1-2=18 1-4/18=0.777 0.698*0.777=0.543

10 2 1 18-3-4=11 1-1/11=0.909 0.543*0.90=0.494

11 2 2 11-2-1=8 1-2/8=0.75 0.494*0.75=0.370

13 1 2 8-2-2=4 1-2/4=0.5 0.370*0.5=0.185

14 0 1 4-1-2=1 0 0

total 25 20

Etapele de calcul sunt detaliate în tabelul 2.12 2. Se vor determina mai întâi pentru

fiecare interval pacienţii la risc. Pentru primul interval numărul pacienţilor la risc este

egal cu suma tuturor pacienţilor luaţi în calcul. Pentru celelalte intervale se scade în

mod repetat atât numărul de cenzuri cât şi numărul de evenimente urmărite realizate.

În etapa următoare se poate calcula probabilitatea condiţionată de supravieţuire.

Aceasta are valoarea egală cu 1 din care se scade raportul dintre numărul de

evenimente urmărite şi numărul de pacienţi la risc. Se observă că această probabilitate

poate creşte sau descreşte pe fiecare interval în funcţie de numărul de evenimente care

s-au consumat.

În final, prin înmulţirea cumulată a probabilităţilor condiţionate se obţine

probabilitatea de supravieţuire. Aceasta are o tendinţă descrescătoare putând atinge la

sfârşit valoarea 0.

Forma grafică este reprezentată în figura 2.12 6. Alura este în formă de scară cu

trepte de diferite lungimi şi înălţimi. Aceste caracteristici sunt date de numărul de

evenimente consumate în fiecare interval de timp.

Page 117: Informatica Statistica Curs

INDEX

123

Figura 2.12 6 – Funcţia de supravieţuire.

O formă descriptivă de interpretare a supravieţuirii constă în calculul mediei, a

medianei, a cuartilelor şi a intervalelor de confidenţă al acestora. Programul SPSS ne

permite aceste calcule, pe care le prezentăm în continuare, împreună cu verificarea

existenţei semnificaţiei statistice între două curbe de supravieţuire.

Comparaţii între funcţiile de supravieţuire

Funcţia de supravieţuire ne creează o imagine asupra descreşterii în timp a

probabilităţii. O descriere a valorilor indicatorilor de supravieţuire poate fi realizată

prin calculul mediei, a medianei, a valorilor cuartilelor dar şi prin estimarea

intervalului de confidenţă a acestor indicatori.

Dacă sunt mai multe grupuri de date care reprezintă funcţii diferite de

supravieţuire, atunci acestea pot fi comparate prin teste statistice ca: Log Rank

(Mantel-Cox), Breslow (Generalized Wilcoxon) sau Tarone-Ware. Aceste teste

reprezintă statistici de tip Chi pătrat (2 ) pentru care se poate calcula valoarea p a

nivelului de semnificaţie.

Una dintre cele mai populare metode de comparare este testul logrank (sau Log

Rank). Acesta ia în calcul întreaga durată de urmărire a cazurilor şi are marele avantaj

că nu necesită anumite condiţii impuse asupra formei sau distribuţiei timpilor de

supravieţuire. Se foloseşte pentru a testa ipoteza nulă definită prin lipa diferenţei

semnificative între probabilităţile de apariţie a evenimentului studiat între grupurile

comparate.

Pentru fiecare grup se determină valorile observate ale frecvenţelor absolute

(valorile determinate experimental, notate cu O) şi se calculează de asemenea valorile

aşteptate (expected values, notate cu E).

Page 118: Informatica Statistica Curs

INDEX

124

De exemplu, pentru două loturi de 30, respectiv de 40 pacienţi în care avem în

prima săptămână un singur deces, putem calcula aceste valori ale frecvenţelor:

- frecvenţa absolută observată O=O1+O2=1, respectiv cea relativă este

1/(30+40)=0,0142.

- frecvenţa absolută aşteptată în grupul 1 este 428,00142,0301

1 grup

E .

- frecvenţa absolută aşteptată în grupul 2 este 572,00142,0402

1 grup

E .

Se calculează pentru fiecare grup frecvenţele absolute aşteptate în fiecare moment

în care avem evenimente prezente. Evident, vor fi recalculate volumele eşantioanelor

(valorile 30, respectiv 40) eliminând cenzurile şi decesele prezente pe interval. În final

se face suma frecvenţelor observate totale şi aşteptate pentru grupul 1, respectiv grupul

2.

Se poate aplica testul Chi pătrat folosind formula:

22

22

21

212

gruptotal

gruptotaltotal

gruptotal

gruptotaltotal

calculat

E

EO

E

EO

. Valorile total sunt

calculate ca sume ale valorilor parţiale.

În mod corespunzător se poate determina valoarea 2 tabelată cu 95% încredere

pentru un număr de grade de libertate egal cu numărul de grupuri de comparat minus 1.

Dacă valoarea calculată este mai mare decât cea tabelată, atunci există diferenţă

semnificativă statistic.

Acelaşi rezultat se poate obţine calculând nivelul de semnificaţie p determinat din

valoarea 2 calculat. Dacă p este mai mic decât 0,05 atunci va exista semnificaţie

statistică, aşadar diferenţele dintre grupuri nu sunt întâmplătoare.

Observaţii

Menţionăm că în cazul studiului decesului, panta echivalentă a curbei de

supravieţuire este de dorit să fie cât mai mică, implicând ca graficul să fie cât mai

aproape de o paralelă cu axa XX’. Aceasta ar determina o scădere lentă a valorilor

probabilităţilor de supravieţuire în timp. Efectul ar fi un timp de viaţă îndelungat,

evident sperat poate de mulţi dintre noi.

Dacă intenţionăm să studiem timpul necesar pentru ca un medicament să aibă

efect în însănătoşirea pacientului, atunci de dorit este ca panta să fie cât mai mare,

adică efectul să fie cât mai rapid.

În concluzie depinzând de situaţia în care ne aflăm, forma grafică a funcţiei va fi

diferită, având caracteristici chiar opuse, tocmai datorită scopului optim de atins ce

poate să aibă cerinţe opuse.

Page 119: Informatica Statistica Curs

INDEX

125

Exemplu de realizare a analizei de supravieţuire folosind metoda Kaplan

Meier în SPSS

Programul de analiză statistică SPSS permite analiza supravieţuirii prin mai multe

tehnici printre care şi metoda Kaplan Meier.

Lansarea în execuţie se realizează apelând meniul şi urmând calea: Analyze

Survival Kaplan Meier (conform cu figura 2.12 7).

Figura 2.12 7 – SPSS - lansarea în execuţie a analizei Kaplan Meier.

Pentru a putea analiza supravieţuirea se încarcă mai întâi fişierul de date cu cel

puţin două coloane ce reprezintă timpul dintre evenimentul de start şi cel de stop,

respectiv tipul evenimentului (cenzură sau deces).

Codificările pentru evenimente pot fi numerice în majoritatea cazurilor: 0

reprezintă cenzură iar 1 reprezintă deces (fig.2.12 7).

Fiecare rând din tabel defineşte practic un pacient inclus în eşantionul de studiu.

Astfel, numărul total de rânduri va fi egal cu volumul eşantionului (număr total

pacienţi).

Figura 2.12 8 – Definirea variabilelor utilizate în analiză.

Page 120: Informatica Statistica Curs

INDEX

126

În etapa următoare se definesc variabilele de lucru: variabila ce determină timpul

scurs între evenimente (pentru cazul nostru coloana notată „Zi”), respectiv variabila ce

precizează tipul evenimentului (pentru cazul nostru coloana „Cenz_Deces”).

Pentru a preciza tipul de codificare utilizat se foloseşte butonul „Define Event” în

care se specifică valoarea din coloană pentru evenimentul deces (sau evenimentul

studiat). În situaţia noastră setarea se realizează cu valoarea 1 (figura nr. 2.12 9).

Figura 2.12 9 – Specificarea codificării.

Dacă se doreşte o comparare între diferite curbe de supravieţuire se poate

specifica coloana factor ce defineşte subgrupurile pentru analiză. Se specifică de

asemenea şi testele statistice de verificare a diferenţelor presupuse (figura 2.12 10).

Figura 2.12 10 – Definirea testelor de verificare a semnificaţiei statistice

pentru comparaţii.

Coloana factor poate fi spre exemplu, o variabilă de tip dicotomic ce defineşte

tratamentul aplicat. Se doreşte o comparaţie între două tratamente pentru a vedea care

dintre ele prezintă un timp de supravieţuire mai îndelungat.

Amintim că testele de comparare funcţionează şi pentru un număr de grupe mai

mare ca 2 (de exemplu 4 tratamente).

Page 121: Informatica Statistica Curs

INDEX

127

Figura 2.12 11 – Definirea opţiunilor.

În final, cu ajutorul butonului Options (figura 2.12 11) se definesc indicatorii

statistici ce se vor calcula cât şi graficele ce pot fi realizate. Cel puţin funcţia de

supravieţuire trebuie reprezentată grafic cât şi calculele necesare realizării tabelei de

supravieţuire.

Interpretarea rezultatelor

În SPSS rezultatele analizelor sunt salvate într-un fişier de ieşire (extensia „spo”).

Pentru analiza cerută va fi prezentat un tabel de supravieţuire conţinând pentru fiecare

caz în parte momentul de timp al evenimentului realizat, valorile funcţiei de

supravieţuire şi a erorii standard, numărul de evenimente cumulative şi cele rămase.

Dacă s-a cerut calculul anumitor indicatori statistici (medie, mediană, cuartile)

aceştia sunt prezentaţi într-un tabel separat, fiind calculat şi intervalul de confidenţă.

Acestea pot fi folosite pentru verificarea într-o primă formă a suprapunerii intervalelor

de confidenţă pentru compararea diferitelor curbe. Dacă există o suprapunere a

intervalelor atunci şansa de a diferi semnificativ este minimă.

Tabelul 2.12 3. Means and Medians for Survival Time

Tratament

Mean(a) Median

Estimate

Std. Error

95% Confidence Interval

Estimate

Std. Error

95% Confidence Interval

Lower Bound

Upper Bound

Lower Bound

Upper Bound

1 9.205 .779 7.677 10.732 10.000 1.480 7.099 12.901

2 8.377 .645 7.114 9.641 8.000 1.063 5.917 10.083

Overall 8.717 .494 7.749 9.685 8.000 1.019 6.003 9.997

(1 – tratament clasic , 2 – tratament nou)

Page 122: Informatica Statistica Curs

INDEX

128

Tabelul 2.12 4. Percentiles

Tratament 25.0% 50.0% 75.0%

Estimate Std. Error Estimate Std. Error Estimate Std. Error

1 13.000 1.149 10.000 1.480 6.000 1.442

2 13.000 1.045 8.000 1.063 4.000 .696

Overall 13.000 .818 8.000 1.019 5.000 .727

Iată în exemplul nostru intervalele pentru medii cât şi pentru mediane se suprapun,

chiar mai mult, intervalul de confidenţă pentru grupul format de tratamentul 1 cuprinde

valoarea punctuală calculată a indicatorului studiat (medie, respectiv mediană) pentru

celălalt grup.

Testele de comparare au valorile prezentate în tabelul următor. Se acceptă un prag

de 10% (iată şi o valoare standard peste 5%) sau o semnificaţie de 0,1. Dacă valoarea

nivelului de semnificaţie calculat este sub 0,1 atunci se poate decide că diferenţa este

semnificativă statistic şi nu întâmplător cele două curbe diferă. Astfel tratamentul 1

este diferit faţă de tratamentul 2 în ceea ce priveşte evenimentul studiat.

Tabelul 2.12 5 – Testarea diferenţei dintre cele două curbe de supravieţuire.

Chi-Square df Sig.

Log Rank (Mantel-Cox) .608 1 .436

Breslow (Generalized Wilcoxon) .427 1 .514

Tarone-Ware .545 1 .460

Pentru cazul nostru valoarea Sig. reprezintă nivelul de semnificaţie p şi este cu

mult peste pragul de 10% în toate cele trei teste aplicate. În concluzie, nu există

diferenţă semnificativă statistic, aşadar cele două tratamente au efecte asemănătoare.

În încheiere se reprezintă grafic cele două curbe de supravieţuire (figura 2.12 12).

Page 123: Informatica Statistica Curs

INDEX

129

Figura 2.12 12 – Curbele de supravieţuire Kaplan Meier.

Folosind softul EpiInfo versiunea 3.3.2 din februarie 2005 se pot reprezenta grafic

datele şi se efectuează testul Log Rank pentru comparaţie. Evident, rezultatele sunt

aceleaşi atât timp cât datele de intrare coincid.

La sfârşitul capitolului EpiInfo este prezentat acelaşi exemplu de supravieţuire.

Datele utilizate pentru supravieţuire se află în tabelul din anexa F.

Page 124: Informatica Statistica Curs

INDEX

130

Analiza supravieţuirii utilizând metoda Cox

Analiza timpului de supravieţuire poate fi realizată şi prin precizarea unei funcţii

(deci o formă analitică) care să modeleze datele. Este de fapt o metodă de regresie iar

coeficienţii necunoscuţi trebuie determinaţi.

Dacă în cadrul evoluţiei participă covariabile (variabile independente) ce au efect

asupra determinării timpului de supravieţuire (variabila dependentă), atunci metoda

Kaplan Meier este improprie pentru analiză. Ar trebui pentru fiecare covariabilă o

analiză separată dar şi pentru combinaţiile posibile ale valorilor acestora. Dacă avem 2

covariabile cu câte 3 grade lingvistice (ex: stadiu1, stadiu2 şi stadiu3) numărul de

combinaţii posibile s-ar ridica la 9 (3 la puterea a doua). Ar fi nepotrivit să comparăm

cele 9 variante găsite. Dar dacă am avea 5 posibile covariabile implicate în analiză ?

Uşor s-ar atinge valori de ordinul zecilor sau chiar sutelor de variante de comparat.

Evident calculele devin extrem de laborioase iar metoda de studiu este nepotrivită.

Metoda Cox este avantajoasă în modelarea corectă a timpilor de supravieţuire

atunci când în studiu apar covariabile sau se propun anumiţi parametri care

influenţează evoluţia în timp a evenimentului. Funcţia hazard este cea implicată în

modelare. Aceasta se presupune a avea o formă proporţională (proportional hazards

model). Se respectă astfel următorul model matematic:

),...,()()...,( 21021 nn xxxgthxxxth ,

unde:

)...,( 21 nxxxth este funcţia hazard ce caracterizează evenimentul studiat, ea

depinde de timp şi de covariabile x1, x2, …xn.

)(0 th funcţia hazard de bază depinde doar de timp.

),...,( 21 nxxxg funcţia ce exprimă efectul covariabilelor nu depinde de timp.

Funcţia g poate avea diferite forme de exemplu: liniară, exponenţială etc.

Modelul Cox defineşte funcţia g ca fiind de tip exponenţial:

n

jjj xbxg

0

exp)( , unde bj sunt coeficienţii ce trebuie determinaţi iar xj

covariabilele implicate în model.

Funcţia hazard de bază (h0(t)) determină forma în timp a evoluţiei hazardului iar

funcţia g(x1,…xn) determină doar amplitudinea şi depinde doar de valorile iniţiale

incluse în variabilele xi. Timpul este inclus doar în funcţia hazard de bază.

Ce înseamnă de fapt această formă proporţională a hazardului ?

Presupunem că avem două cazuri: A cu valorile x1a, x2a ….xna, respectiv B cu

valorile x1b, x2b ….xnb.

Page 125: Informatica Statistica Curs

INDEX

131

Un posibil exemplu medical ar fi studiul comparativ a două metode de

imunoterapie împotriva unei tumori maligne a pielii. Se foloseşte o anumita modalitate

pentru mărirea duratei de remisiune ceea ce are efect pozitiv asupra timpului de

supravieţuire. Se observă că vârsta, sexul, stadiul iniţial al bolii, durata de remisiune şi

evident, tratamentul aplicat pot fi considerate covariabile în studiul timpului de

supravieţuire.

În cele ce urmează utilizăm următoarele notaţii: vârsta cu x1, sexul cu x2, stadiul

bolii cu x3 şi durata de remisiune cu x4. Vom avea două grupuri, presupuse a fi diferite,

de comparat, funcţie de tratamentul aplicat.

Pentru pacientul A funcţia hazard este de forma:

n

jjajnaaanaaaA xbthxxxgthxxxthth

0021021 exp)(),...,()()...,()( .

Prin x1a se înţelege vârsta pacientului A, x2a sexul şi aşa mai departe. În concluzie,

funcţia g pentru pacientul A este o constantă în timp, la fel pentru pacientul C, D, etc.

Pentru pacientul B (care are altă vârstă, stadiu iniţial, … etc.):

n

jjbjnbbbnbbbB xbthxxxgthxxxthth

0021021 exp)(),...,()()...,()( .

Dacă facem raportul celor două funcţii hazard obţinem o valoare constantă ce

depinde doar de starea iniţială a pacienţilor. În concluzie, pentru două cazuri, raportul

funcţiilor hazard este constant în timp – modelul hazardului proporţional.

n

jjbj

n

jjaj

B

A

xb

xb

th

th

0

0

exp

exp

)(

)( raport ce este constant în timp.

Determinarea coeficienţilor bj reprezintă o problemă de analiză matematică şi se

bazează pe estimarea acestora prin metoda verosimilităţii maxime (maximum

likelihood estimator).

Variabilele x1,….xn pot fi de tip continuu, discret sau categorial. Acesta reprezintă

un avantaj ce dă generalitate maximă modelului regresional utilizat.

Metoda Cox este extinsă şi pentru covariabile xj ce depind de timp – acestea se

introduc într-o manieră specială ca o funcţie de timp. De exemplu, în loc de x4 putem

scrie t x4 sau exp(t+2)x4. Trebuie însă să avem cunoştinţe despre presupusa relaţie

între timp şi covariabila implicată.

Există legătură între hazard şi funcţia de supravieţuire după cum a fost prezentată

anterior:

Page 126: Informatica Statistica Curs

INDEX

132

dtxbthtS

t

o

n

j

jajoA

0

exp)(exp)( este deci o legătură exponenţială

negativă.

Nu pare foarte intuitivă acesta formulă însă exponentul negativ arată că legătura

este invers proporţională (dependenţă care era aşteptată între supravieţuire şi rata

condiţionată de deces).

Dacă condiţia de proporţionalitate a hazardului nu este îndeplinită, atunci se poate

defini acea variabilă ca fiind de stratificare şi astfel se calculează alte funcţii hazard de

bază pentru categoriile prezente. Coeficienţii bj vor rămâne aceeaşi în formula

hazardului, modificându-se doar h0(t).

Cazurile cenzurate ajută doar la determinarea funcţiei hazard de bază nu şi la

aflarea coeficienţilor bj.

Pentru coeficienţii de regresie bj, este important să se calculeze semnificaţia lor

statistică, deci influenţa covariabilei în model trebuie verificată. Dacă semnificaţia

calculată nu este sub 0,05, atunci acea covariabilă are efect întâmplător, deci poate fi

eliminată din analiză.

Interpretarea coeficienţilor de regresie se face într-un mod intuitiv prin valoarea

lor exponenţială, exp(bj). Aceasta arată valoarea prezisă a modificării valorii funcţiei

hazard pentru o creştere cu o unitate a covariabilei.

Variabile:

a) – Pentru variabila de tip dicotomic (de exemplu sexul, notat cu 1-masculin,

respectiv 0-feminin). Dacă obţinem valoarea exp(bsex)=1,72, atunci funcţia

hazard pentru cei de sex masculin (codificaţi cu 1) este de 1,72 ori mai mare

faţă de cei de sex feminin (codificaţi cu 0). Astfel, interpretăm că bărbaţii sunt

mai expuşi riscului de a deceda faţă de femei. Interpretarea raportată la riscul

relativ este corectă. Putem deci afirma că riscul estimat de deces este de 1,72

ori mai mare la bărbaţi faţă de femei.

b) – Pentru variabila de tip discret. Putem avea o covariabilă ce măsoară timpul

în luni de aplicare a terapiei. Valoarea exponenţială exp(bterapie) obţinută este

0,94. Aceasta arată că funcţia hazard este redusă cu 100%-100*0,94 = 6%

pentru prima lună de terapie susţinută de pacient. Astfel, pentru un pacient ce

a făcut terapie 3 luni avem o reducere cu %94,160,94100-100%3 a

valorii funcţiei hazard. În concluzie, funcţia hazard este redusă cu un procent

ce poate fi determinat din valoarea coeficientului de regresie pentru o anumită

schimbare a covariabilei implicate.

Modelul Cox este foarte important în practică, deoarece ajută la identificarea

factorilor de pronostic în studiul supravieţuirii. Pentru compararea evoluţiei procesului

studiat, funcţie de diferite tratamente sau mai general, funcţie de diferite criterii de

grupare, există teste speciale (ce apelează distribuţia Chi pătrat).

Page 127: Informatica Statistica Curs

INDEX

133

Exemplu SPSS – studiu de supravieţuire

În cadrul unui studiu asupra funcţiei renale ne interesează analiza timpului de

declanşare a insuficienţei renale terminale. Acest stadiu este caracterizat de atingerea

unei valori a cleareance’ului de creatinină sub 15 ml/min/1,73 m2 (notat ClCr). Sunt

luate în calcul doar cazurile în care evoluţia a fost negativă în sensul scăderii valorii

ClCr.

Evenimentul studiat reprezintă scăderea valorii ClCr sub nivelul de 15. Acesta va

fi notat cu 1. Cazurile cenzurate vor fi codificate cu 0 şi reprezintă pacienţii pierduţi

din studiu sau cei a căror valoare ClCr nu a scăzut sub 15 pe perioada studiului.

Se propun următoarele covariabile ce pot afecta evoluţia timpului:

1 – diagnosticul bolii de bază (DG1).

2 – durata HTA în intervalul studiat, măsurată în luni.

3 – afectarea cardiacă la debut.

4 – vârsta la debut (ani).

Diagnosticul bolii de bază este de tip dicotomic : notat 1 – GNC

(glomerulonefrită), 2 – malf R (malformaţii renale).

Afectarea cardiacă este tot de tip dicotomic, marcată prin Da, respectiv Nu.

Pentru lansarea analizei de supravieţuire se urmează paşii : Analyze + Survival +

Cox Regression…

Se obţine fereastra din figura de mai jos ce trebuie încărcată cu informaţie.

Figura 2.12 13 – Metoda Cox – SPSS

aceste exemple sunt preluate din studiul doctoral “Hipertensiunea arterială secundară la

copil” cu permisiunea autoarei Dr. Cristina Gavrilovici.

Page 128: Informatica Statistica Curs

INDEX

134

Timpul este măsurat în luni şi reprezintă durata din momentul diagnosticării până

la atingerea insuficienţei renale terminate.

Statusul este exprimat (după cum s-a menţionat deja) de variabila ce defineşte

evenimentul cenzură, respectiv evenimentul studiat. Codificarea este 0 pentru cenzură,

respectiv 1 pentru evenimentul ClCr≤15.

Covariabilele propuse şi utilizate în acest fişier sunt: Vârsta (de tip numeric

discret), Diag_c (diagnosticul codificat 0,1), Afect_card (afectarea cardiacă de tip

dicotomic) şi Durata_HTA (discretă exprimată în luni).

Figura 2.12 14 – Metoda Cox – SPSS. Definirea variabilelor categoriale.

Deoarece variabilele de tip categorial sunt tratate separat este nevoie să le definim

aşa cum se prezintă în figura de mai sus.

Pentru reprezentarea grafică programul propune mai multe variante dar cele de

bază, obligatorii sunt funcţia de supravieţuire şi funcţia hazard.

Figura 2.12 15 – Metoda Cox – SPSS. Definirea reprezentărilor grafice.

Opţiunile sunt de un real folos iar intervalul de confidenţă al coeficienţilor bj

calculaţi prin funcţia exponenţială sunt strict necesari.

Page 129: Informatica Statistica Curs

INDEX

135

Figura 2.12 16 – Metoda Cox – SPSS. Definirea opţiunilor

Interpretarea rezultatelor.

Primul tabel prezintă informaţii despre componenţa lotului sau eşantionului de

studiu.

Tabelul 2.12 6 – Case Processing Summary

N Percent

Cases available in analysis

Event(a) 300 57.1%

Censored 225 42.9%

Total 525 100.0%

Cases dropped

Cases with missing values 0 .0%

Cases with negative time 0 .0%

Censored cases before the earliest event in a stratum

0 .0%

Total 0 .0%

Total 525 100.0%

În total avem 525 de cazuri, din care 225 sunt cenzuri iar restul de 300 sunt

pacienţi ce au evenimentul studiat realizat. Cazurile cenzurate nu au ajuns în

insuficienţă renală terminală în perioada de timp cât au fost studiate. Nu există

elemente eliminate din studiu. Dorim să amintim, cazurile cenzurate se folosesc doar la

determinarea funcţiei hazard de bază.

Tabelul 2.12 7 – Categorical Variable Codings(b,c)

Frequency (1)

Afect_Card(a)

da 285 1

nu 240 0

Diag_c(a)

1=GNC 330 1

2=malf R 195 0

a Indicator Parameter Coding b Category variable: Afect_Card (Afectare Cardiaca) c Category variable: Diag_c (Diagnostic codificat)

Variabilele categoriale sunt codificate iar corespondenţa codurilor este prezentată

în tabelul alăturat. Este foarte importantă această codificare deoarece reprezintă baza

Page 130: Informatica Statistica Curs

INDEX

136

de interpretare a rezultatelor. Implicit, referinţa este considerată ultima categorie. În

cazul nostru aceasta este cea notată cu 0, iar pentru afectarea cardiacă este cea

corespunzătoare valorii lingvistice „nu”, respectiv „malf R” pentru diagnostic.

Tabelul 2.12 8 – Variables not in the Equation(a)

Score df Sig.

Varsta 108.805 1 .000

Diag_c 7.504 1 .006

Afect_Card 10.761 1 .001

Durata_HTA 22.517 1 .000

a Residual Chi Square = 164.134 with 4 df Sig. = .000

Iniţial se calculează efectul fiecărei covariabile în cadrul modelului. Este blocul de

start în calcul. Dacă există semnificaţie statistică se decide că acele date (Varsta,

Afect_Card,..) sunt utile şi sunt introduse în calcul. Pentru semnificaţii egale se începe

cu acel element ce are valoarea scorului maximă.

În cazul nostru prima covariabilă introdusă în model este „Vârsta” conform

tabelului de mai sus (are semnificaţie statistică şi scor maxim).

Crearea modelului este un proces iterativ prin care se introduc una câte una

covariabilele ce au influenţă în determinarea timpului de supravieţuire analizat.

Tabelul 2.12 9 – Omnibus Tests of Model Coefficients(e,f)

Step

-2 Log Likelihood

Overall (score) Change From Previous Step

Change From Previous Block

Chi-square df Sig.

Chi-square df Sig.

Chi-square df Sig.

1(a) 3252.118 108.805 1 .000 132.373 1 .000 132.373 1 .000

2(b) 3233.921 133.857 2 .000 18.198 1 .000 150.571 2 .000

3(c) 3218.216 156.793 3 .000 15.704 1 .000 166.275 3 .000

4(d) 3212.586 164.134 4 .000 5.630 1 .018 171.906 4 .000

a Variable(s) Entered at Step Number 1: Varsta b Variable(s) Entered at Step Number 2: Durata_HTA c Variable(s) Entered at Step Number 3: Afect_Card d Variable(s) Entered at Step Number 4: Diag_c e Beginning Block Number 0, initial Log Likelihood function: -2 Log likelihood: 3384.492 f Beginning Block Number 1. Method = Forward Stepwise (Likelihood Ratio)

Următorul bloc de calcul prezintă înlănţuirea înainte prin introducerea variabilelor

şi calculul semnificaţiei modelului creat pas cu pas. Ordinea de introducere este

conform scorului obţinut şi este prezentată în tabelul 2.12 9: Vârsta, Durata_HTA,

Afect_Card şi Diag_c. Se observă că semnificaţia statistică există atât pentru scorul

total cât şi pentru schimbarea secvenţială, pas cu pas.

Astfel putem afirma că respectivele covariabile alese au influenţă asupra

modelului căutat.

Page 131: Informatica Statistica Curs

INDEX

137

Tabelul 2.12 10 – Variables in the Equation

B

SE

Wald

df

Sig.

Exp(B)

95.0% CI for Exp(B)

Lower Upper

Step 1 Varsta .222 .022 99.886 1 .000 1.249 1.196 1.305

Step 2

Varsta .207 .022 92.278 1 .000 1.229 1.179 1.282

Durata_HTA -.020 .005 16.120 1 .000 .980 .971 .990

Step 3

Varsta .204 .020 101.175 1 .000 1.227 1.179 1.276

Afect_Card -.530 .133 15.946 1 .000 .588 .453 .763

Durata_HTA -.019 .005 16.435 1 .000 .981 .972 .990

Step 4

Varsta .201 .020 99.484 1 .000 1.223 1.176 1.272

Diag_c -.308 .129 5.683 1 .017 .735 .571 .947

Afect_Card -.443 .138 10.254 1 .001 .642 .490 .842

Durata_HTA -.021 .005 17.524 1 .000 .979 .970 .989

În continuare se prezintă valorile coeficienţilor bi, eroarea standard (SE), statistica

Wald, semnificaţia statistică, valorile exponenţiale ale coeficienţilor şi intervalul de

variaţie cu 95% confidenţă.

Dacă statistica Wald este semnificativă atunci rezultă că acel element este util

modelului. Observăm că toate valorile sunt semnificative statistic.

Interpretarea coeficienţilor B (notaţi cu bj în formulele matematice)

Pentru variabile de tip continuu valoare exp(b)<1 indică faptul că o creştere a

valorilor covariabilei respective duce la o creştere a timpilor de supravieţuire. Dacă

exp(b)>1, atunci creşteri ale covariabilei duc la descreşteri ale timpilor de

supravieţuire.

Iată pentru vârstă (valoarea exponenţială este 1,223) deducem că odată cu mărirea

acesteia scad timpii de supravieţuire renală, deci se ajunge mai repede la insuficientă

renală totală (IRT). De asemenea prin faptul că valoarea coeficientului b corespunzător

(0,201) este pozitivă decidem că riscul de a ajunge in IRT creşte odată cu vârsta.

Pentru un an de creştere în vârstă hazardul cumulat creşte cu valoarea absolută din

100%-(100*1,223)=22,3%. Pentru 3 ani creştere în vârstă mărirea hazardului este

3223,1*100%100 = 82,9%. Aşadar şi riscul creşte.

Pentru durata HTA, variabilă discretă, efectul este contrar. Valoarea coeficientului

este negativă (-0,021). Riscul de a ajunge în IRT scade odată cu creşterea duratei HTA.

Această legătură din punct de vedere medical nu era previzibilă. Trebuie să ţinem cont

că aceşti pacienţi au fost trataţi atât pentru hipertensiune cât şi pentru recuperarea

funcţiei renale, poate de aceea rezultatele nu sunt cele aşteptate.

Pentru variabile dicotomice diagnosticul este codificat cu 1 pentru GNC, respectiv

0 pentru malformaţii renale. Riscul de a intra în IRT este de 0,735 (valoarea

exponenţială) ori mai mic în GNC decât in malf R. Altfel spus, de 1/0,735 = 1,36 ori

mai mare pentru cazurile malf R.

Page 132: Informatica Statistica Curs

INDEX

138

În concluzie, fiecare coeficient are o valoare ce descrie relaţia dintre hazard sau

supravieţuire şi covariabila respectivă.

Se prezintă de asemenea intervalele de confidenţă. Dacă aceste au limitele

apropiate de valoarea 1, atunci influenţa lor în model este mică. Poate un număr mai

mare de date ar aduce informaţie suplimentară utilă în dezvoltarea cât mai performantă

a sistemului de regresie pentru supravieţuire.

În final se prezintă atât graficele funcţiei de supravieţuire cât şi a hazardului.

Figura 2.12 17 – Funcţia de supravieţuire.

Figura 2.12 18 – Funcţia hazard.

Page 133: Informatica Statistica Curs

INDEX

139