55
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione

Regressione Lineare e Correlazione · 2009-12-15 · Regressione Lineare e Correlazione. ... • La variazione lineare è un punto di partenza Perchè Regressione Lineare? Esempio

Embed Size (px)

Citation preview

Università del Piemonte Orientale

Specializzazioni di area sanitaria

Statistica Medica

Regressione Lineare e Correlazione

Argomenti Argomenti delladella lezionelezione

• Determinismo e variabilità

• Correlazione

• Regressione Lineare

• Requisiti e valutazione

Determinismo e Variabilità

ModelliModelli DeterministiciDeterministiciL’approccio scientifico alla

medicina si basa sulla definizione di modelliche sono composti da

relazioni e da quantità.

Ad esempio la CompliancePolmonare:C=∆V/∆P

Esiste tuttavia una variabilità in relazione

alla legge generale

VariabilitVariabilitàà

1,5

2

2,5

3

3,5

4

4,5

1,5 2 2,5 3 3,5 4

Ultrasuoni

Man

uale

Variabile indipendente

Var

iabi

le d

ipen

dent

e

Per studiare le relazioni esistenti tra variabili si deveconsiderare

a) una compenente deterministicab) una compenete casuale della loro relazione

Legge (Modello) che mette in relazione la variabile indipendente e la variabile dipendente

VariabilitàCasuale

Le Le VariabiliVariabiliLa statistica lavora su VARIABILIVARIABILI, ossia su dati che cambiano valore da un soggetto all’altro.Ad esempio: Pressione Arteriosa, Altezza, Peso. Il valore delle variabili viene misurato a livello di ogni unitunitàà statisticastatistica (singolo soggetto o aggregato di soggetti).

Le variabili statistiche sono dette ““Aleatorie o CasualiAleatorie o Casuali””,,infatti ad ogni possibile valore di una variabile è associata una specifica ed i valori osservati sono considerate come estratti casualmenteestratti casualmente da una distribuzione di probabilità.

ModelliModelli ProbabilisticiProbabilisticiLo scopo è quello di costruire una rappresentazione statistica (cioè che quantifichi la variabilità esistente tra le osservazioni) adeguata per descrive gli aspetti essenziali essenziali del fenomeno che vogliamo studiare.

Modello: descrizione o riproduzione selettiva, piModello: descrizione o riproduzione selettiva, piùù o o meno formalizzata, della realtmeno formalizzata, della realtàà. Nel nostro caso . Nel nostro caso èèun equazione matematica.un equazione matematica.

Ad esempio, peso osservato alla nascita e peso stimato prima della nascita con l’ecografia.

EsempioEsempio (Peso (Peso allaalla nascitanascita))

Si possono studiare(A) la distribuzionedistribuzione del

peso alla nascita diun neonato,

(B) la distribuzionedistribuzione dellastima del peso allanascita di un neonato (ecografia)

(C) la relazionerelazione cheesiste tra A e B.

Soggetto No.

Peso alla

nascita

Peso stimato

Ecografia 1 2,33 2,21 2 2,95 2,11 3 2,95 2,32 4 2,64 2,04 5 3,57 2,09 6 2,95 2,25 7 3,1 2,84 8 2,48 2,34 . . . . . . . . .

44 2,17 2,61 45 2,17 2,31 46 2,79 2,6

EsempioEsempio (Peso (Peso allaalla nascitanascita))

1,5

2

2,5

3

3,5

4

4,5

1,5 2 2,5 3 3,5 4

Peso (Kg) Ecografia

Peso

(Kg)

Nas

cita

Diagramma di dispersioneDiagramma di dispersione

EsempioEsempio (Peso (Peso allaalla nascitanascita))

1,5

2

2,5

3

3,5

4

4,5

1,5 2 2,5 3 3,5 4

Peso (Kg) Ecografia

Peso

(Kg)

Nas

cita

Retta che mette in relazione il peso

stimato con l’ecografia e

quello osservato alla nascita

Regressione (lineare)Regressione (lineare)

EsempioEsempio (Peso (Peso allaalla nascitanascita))

1,5

2

2,5

3

3,5

4

4,5

1,5 2 2,5 3 3,5 4

Peso (Kg) Ecografia

Peso

(Kg)

Nas

cita

Retta che mette in relazione il peso

stimato con l’ecografia e

quello osservato alla nascita

VariabilitàCasuale

(non “spiegata”dal modello)

VariabilitVariabilitàà

Campo Campo didi applicazioneapplicazioneAnalisi della relazione tra due variabili continue

1) Correlazione Le variabili sono associate?

2) Regressione Come varia il valore di una variabile in conseguenza del variare di un’altra variabile? Spiegato dalla componente Spiegato dalla componente deterministicadeterministica del modello.del modello.

3) Variabilità Qual’è la variabilità residua non spiegata dall’equazione lineare?

Correlazione

CorrelazioneCorrelazioneDato un insieme di osservazioni definite da

due variabili continue, valutiamo la forza dell’associazione tra le due

variabili disegnando il diagramma di dispersionediagramma di dispersione ecalcolando il coefficiente di correlazione.coefficiente di correlazione.

DiagrammaDiagramma didi dispersionedispersioneSi disegna riportando i valori delle

osservazioni su un sistema di assi cartesiani, in cui ll’’asse xasse x rappresenta una delle due

variabili e ll’’asse yasse y l’altra variabile.

Il diagramma consente di collocare ogni osservazione nello spaziospazio definito dai valori

possibilipossibili delle due variabili.

DiagrammaDiagramma didi dispersionedispersione

1,5

2

2,5

3

3,5

4

4,5

1,5 2 2,5 3 3,5 4

Peso (Kg) Ecografia

Peso

(Kg)

Nas

cita

La forma della nuvola di punti cosLa forma della nuvola di punti cosìì ottenuta consente una ottenuta consente una valutazione visiva del grado di associazione tra le due variabilvalutazione visiva del grado di associazione tra le due variabilii

CoefficienteCoefficiente didi Pearson (Pearson (definizionedefinizione) ) Il coefficiente di correlazione di correlazione di PearsonPearson (r) consente la valutazione formale del grado di associazione.

• L’intervallointervallo dei valori possibili di r è: -1 <= r <=1

• Se r = 1 o r = -1 tutti i punti giacciono su una retta (assenza di variabilitassenza di variabilitàà)

• Se il valore è positivo l’associazione è diretta se il valore è negativo l’associazione è inversa.

( )( )

( ) ( )∑ ∑

= =

=

−−

−−=

n

i

n

iii

n

iii

yyxx

yyxxr

1 1

22

1

CoefficienteCoefficiente didi Pearson (formula) Pearson (formula)

n:numero di osservazionin:numero di osservazionixxii ; ; yyii: valore della singola osservazione: valore della singola osservazionex ; y : valore medio della variabile indipendente e dipendente x ; y : valore medio della variabile indipendente e dipendente

CoefficienteCoefficiente didi Pearson (Pearson (esempioesempio) )

20,0

22,0

24,0

26,0

28,0

30,0

32,0

34,0

36,0

10 15 20 25 30 35 40 45età materna

circ

onfe

renz

a cr

anic

a r = 0,15r = 0,15

CoefficienteCoefficiente didi Pearson (Pearson (esempioesempio) )

20,0

22,0

24,0

26,0

28,0

30,0

32,0

34,0

36,0

19 24 29 34 39 44 49lunghezza

circ

onfe

renz

a cr

anic

a

r = 0,72r = 0,72

EsempioEsempio ((variabilivariabili e e datidati))

Relazione tra concentrazione

plasmaticadi colesterolo

e di trigliceridi

Colesterolo(x)

Trigliceridi (y)

1 3,45 6,24 2 3,5 6,18 3 2,95 5,2 4 3,77 6,11 5 3,67 6,36 6 5,31 5,67 7 5,1 5,48 8 7,85 5,67 9 8,79 9,4

10 12,3 8,4

medie: 5,669 6,471

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12 14colesterolo

trig

licer

idi

EsempioEsempio ((scatterplotscatterplot))

Colesterolo (x)

Trigliceridi (y) ( )xxi − ( )yyi

− ( ) ( )yx yx ii −− * ( )xxi−2 ( )yyi−

2

3,45 6,24 -2,459 -0,493 1,212287 6,046681 0,243049 3,5 6,18 -2,409 -0,553 1,332177 5,803281 0,305809 2,95 5,2 -2,959 -1,533 4,536147 8,755681 2,350089 3,77 6,11 -2,139 -0,623 1,332597 4,575321 0,388129 3,67 6,36 -2,239 -0,373 0,835147 5,013121 0,139129 5,31 5,67 -0,599 -1,063 0,636737 0,358801 1,129969 5,1 5,48 -0,809 -1,253 1,013677 0,654481 1,570009 7,85 5,67 1,941 -1,063 -2,063283 3,767481 1,129969 8,79 9,4 2,881 2,667 7,683627 8,300161 7,112889 12,3 8,4 6,391 1,667 10,653797 40,844881 2,778889

Sommatorie: 26,54411 83,54389 16,46149 Coeff.

Pearson r = 0,716

EsempioEsempio ((correlazionecorrelazione))

Regressione lineare

RegressioneRegressione linearelineare

RegressioneRegressione: stima della variazione media di una variabile dipendentevariabile dipendente

in funzionefunzionedella variazione unitaria

di una variabile indipendentevariabile indipendente

LineareLineare: la funzione in questo caso è quella che definisce una rettaretta

• La variazione lineare è spesso unaspiegazione adeguata

• Variazioni non lineari diventano talidopo una trasformazione matematica diuna delle variabili

• La variazione lineare è un punto dipartenza

PerchPerchèè RegressioneRegressione LineareLineare??

EsempioEsempio (Peso (Peso allaalla nascitanascita))

1,5

2

2,5

3

3,5

4

4,5

1,5 2 2,5 3 3,5 4

Peso (Kg) Ecografia

Peso

(Kg)

Nas

cita

Regressione lineare

Retta che mette in relazione il peso stimato

con l’ecografia e quello

osservato alla nascita

VariabilitàCasuale

(non “spiegata”dal modello)

RegressioneRegressione linearelineare ((variabilivariabili))

Variabile indipendente

possibile causasulle ascisse

Variabile dipendentepossibile effettosulle ordinate

xPossibile Causa(var. dipendente)

PossibileEffetto(var. dipendente)

y

EquazioneEquazione delladella RettaRettaIndividuare la retta che meglio predice il valore di

y (variabile dipendente), datodato il valore di x (variabile indipendente).

y = a + y = a + bxbxa: intercettaa: intercettab: pendenza (coefficiente angolare)b: pendenza (coefficiente angolare)

Come stimiamo i valori dei due coefficienti (a,b)?

x

y

Media di x

QualeQuale RettaRetta??

Med

ia d

i yLa retta che meglio predice y|xpassa per la media di x e di y

Per un punto passano infinite rette!Quale retta scegliamo?Quale retta scegliamo?Con quale criterio?

Metodo detto Metodo detto ‘‘dei minimi dei minimi quadratiquadrati’’

x

y

La retta migliore minimizza la somma dei quadrati dei residui

valore y osservato

valore y predetto

Residuo (o scarto) = valore y osservato – valore y predetto

Residuo o scarto

( )( )( )∑ −

∑ −−=

xxyyxx

i

iib 2

xbya −=

y = a + y = a + bxbxa: intercettaa: intercetta

b: pendenza (coefficiente b: pendenza (coefficiente angolare)angolare)

Individuare la retta che meglio predice il valore di y (variabile dipendente), datodato il valore di x (variabile

indipendente).

EquazioneEquazione delladella RettaRetta

Colesterolo (x)

Trigliceridi (y)

( )xxi − ( )yyi− ( ) ( )yx yx ii −− * ( )xxi−

2

1 3,45 6,24 -2,219 -0,231 0,512589 4,923961

2 3,5 6,18 -2,169 -0,291 0,631179 4,704561

3 2,95 5,2 -2,719 -1,271 3,455849 7,392961

4 3,77 6,11 -1,899 -0,361 0,685539 3,606201

5 3,67 6,36 -1,999 -0,111 0,221889 3,996001

6 5,31 5,67 -0,359 -0,801 0,287559 0,128881

7 5,1 5,48 -0,569 -0,991 0,563879 0,323761

8 7,85 5,67 2,181 -0,801 -1,746981 4,756761

9 8,79 9,4 3,121 2,929 9,141409 9,740641

10 12,3 8,4 6,631 1,929 12,791199 43,970161

medie: 5,669 6,471 26,54411 83,54389

b= 0,318

a= 4,67

Esempio (colesterolo e Esempio (colesterolo e trigliceriditrigliceridi))

a=4,67

0

2

4

6

8

10

0 2 4 6 8 10 12 14

colesterolo (x)

trig

licer

idi(

y)

b = 0,32

trigliceridi=4,67 + 0,32* colesterolo

Relazione tra Colesterolo e TGRelazione tra Colesterolo e TG

Intervallo di confidenzacoeff. di regressione (b)

IC del IC del coefficientecoefficiente didi regressioneregressione

)(bSEtbCI crit ×±=

( )22

)(∑ −

=xx

sbESi

t ha (n(n--2) gradi di libert2) gradi di libertàà ed il valore è scelto in modo corrispondente all’errore di I tipo, con test a 2 codetest a 2 code

Varianza intorno alla retta di regressione (stima campionaria)

( )2

2

2 ˆ−−

= ∑n

s yy ii

Errore standard di b

L’errore standard di b si riduce, a parità di s, quando la variabilità di x è maggiore !

( )22

)(∑ −

=xx

sbESi

a=4,67

0

2

4

6

8

10

0 2 4 6 8 10 12 14

colesterolo (x)

trig

licer

idi(

y)

b = 0,32b = 0,32

trigliceridi=4,67 + 0,32* colesterolo

Relazione tra Colesterolo e TGRelazione tra Colesterolo e TG

IC(95%) = 0,06 IC(95%) = 0,06 --0,570,57

Intervallo di confidenza dei valori predetti

( )( )∑ −−′

++±= 2

2

2,

11ˆxx

xxn

styPIi

i

gl α

=29,05

IC( )= 25,47 - 32,63

y

y

Relazione alla nascita tra circonferenza cranica e lunghezza

Es. il valore di circonferenza cranica predetto per un bambino di lunghezza 41 cm è

Intervallo di confidenza dei valori predetti

( )( )∑ −−′

++±= 2

2

2,

11ˆxx

xxn

styPIi

i

gl α

La predizione ha un errore maggiore allontanandosi dalla media di x

La predizione ha un errore minore con un’ampia variabilità di x

Requisiti ed valutazione

Il modello lineare è adeguato a rappresentare la relazione tra x ed y (come variabile casuale) se vengono rispettati i seguenti assunti.

•Omogeneità della varianza di y|x(OmoscedasticitOmoscedasticitàà)•Distribuzione normalenormale di y|x••LinearitLinearitàà della relazione tra x ed y

RequisitiRequisiti delldell’’analisianalisi didi regressioneregressione

La verifica delle assunzioni del modello viene condotta esaminando la distribuzione dei residui

Verifica delle assunzioni del modelloVerifica delle assunzioni del modello

valore y osservato

valore y predetto

Residuo (o scarto) = valore y osservato – valore y predetto

Residuo

OmoscedasticitOmoscedasticitàà ((omogeneitomogeneitàà delladella varianzavarianza))

Se la varianza è costante per tutta la distribuzione della x, anche i residui saranno distribuiti in modo uniforme.

DistribuzioneDistribuzione uniformeuniforme deidei residuiresidui

DistribuzioneDistribuzione non non uniformeuniforme deidei residuiresidui

DistribuzioneDistribuzione non non normalenormale deidei residuiresidui

NonNon--linearitlinearitàà

• Radice quadrata

• Logaritmo

• Inversa (meglio se ulteriormente moltiplicata per -1)

TrasformazioniTrasformazioni normalizzantinormalizzanti e e linearizzantilinearizzanti

Inversa negativa

Log

Radice

Dati originali

Dati

trasformati

TrasformazioniTrasformazioni normalizzantinormalizzanti e e linearizzantilinearizzanti

FREQUENCY

0

10

20

30

40

50

60

70

80

90

100

110

120

130

140

150

CORPUSCO MI DPOI NT

0 250

500

750

1000

1250

1500

1750

2000

2250

2500

2750

3000

3250

3500

3750

4000

4250

4500

4750

5000

5250

5500

5750

6000

6250

6500

6750

7000

7250

7500

7750

8000

8250

8500

8750

9000

9250

9500

9750

10000

FREQUENCY

0

10

20

30

40

50

L_c MI DPOI NT

0.00

0.25

0.50

0.75

1.00

1.25

1.50

1.75

2.00

2.25

2.50

2.75

3.00

3.25

3.50

3.75

4.00

4.25

4.50

4.75

5.00

5.25

5.50

5.75

6.00

6.25

6.50

6.75

7.00

7.25

7.50

7.75

8.00

8.25

8.50

8.75

9.00

9.25

9.50

9.75

10.00

10.25

10.50

10.75

11.00

11.25

11.50

11.75

12.00

12.25

12.50

12.75

13.00

13.25

13.50

13.75

14.00

TrasformazioniTrasformazioni normalizzantinormalizzanti e e linearizzantilinearizzanti

• R2 : proporzione della varianza che èspiegata dal modello di regressione

• R2 = (coefficiente di correlazione) ^2

ValutazioneValutazione del del modellomodello

a=4,67

0

2

4

6

8

10

0 2 4 6 8 10 12 14

colesterolo (x)

trig

licer

idi(

y)

b = 0,32

trigliceridi=4,67 + 0,32* colesterolo

Relazione tra Colesterolo e TGRelazione tra Colesterolo e TG

IC(95%) = 0,06 -0,57

r =0,716r =0,716R2 =0,51R2 =0,51