Upload
trinhkien
View
219
Download
0
Embed Size (px)
Citation preview
Università del Piemonte Orientale
Specializzazioni di area sanitaria
Statistica Medica
Regressione Lineare e Correlazione
Argomenti Argomenti delladella lezionelezione
• Determinismo e variabilità
• Correlazione
• Regressione Lineare
• Requisiti e valutazione
ModelliModelli DeterministiciDeterministiciL’approccio scientifico alla
medicina si basa sulla definizione di modelliche sono composti da
relazioni e da quantità.
Ad esempio la CompliancePolmonare:C=∆V/∆P
Esiste tuttavia una variabilità in relazione
alla legge generale
VariabilitVariabilitàà
1,5
2
2,5
3
3,5
4
4,5
1,5 2 2,5 3 3,5 4
Ultrasuoni
Man
uale
Variabile indipendente
Var
iabi
le d
ipen
dent
e
Per studiare le relazioni esistenti tra variabili si deveconsiderare
a) una compenente deterministicab) una compenete casuale della loro relazione
Legge (Modello) che mette in relazione la variabile indipendente e la variabile dipendente
VariabilitàCasuale
Le Le VariabiliVariabiliLa statistica lavora su VARIABILIVARIABILI, ossia su dati che cambiano valore da un soggetto all’altro.Ad esempio: Pressione Arteriosa, Altezza, Peso. Il valore delle variabili viene misurato a livello di ogni unitunitàà statisticastatistica (singolo soggetto o aggregato di soggetti).
Le variabili statistiche sono dette ““Aleatorie o CasualiAleatorie o Casuali””,,infatti ad ogni possibile valore di una variabile è associata una specifica ed i valori osservati sono considerate come estratti casualmenteestratti casualmente da una distribuzione di probabilità.
ModelliModelli ProbabilisticiProbabilisticiLo scopo è quello di costruire una rappresentazione statistica (cioè che quantifichi la variabilità esistente tra le osservazioni) adeguata per descrive gli aspetti essenziali essenziali del fenomeno che vogliamo studiare.
Modello: descrizione o riproduzione selettiva, piModello: descrizione o riproduzione selettiva, piùù o o meno formalizzata, della realtmeno formalizzata, della realtàà. Nel nostro caso . Nel nostro caso èèun equazione matematica.un equazione matematica.
Ad esempio, peso osservato alla nascita e peso stimato prima della nascita con l’ecografia.
EsempioEsempio (Peso (Peso allaalla nascitanascita))
Si possono studiare(A) la distribuzionedistribuzione del
peso alla nascita diun neonato,
(B) la distribuzionedistribuzione dellastima del peso allanascita di un neonato (ecografia)
(C) la relazionerelazione cheesiste tra A e B.
Soggetto No.
Peso alla
nascita
Peso stimato
Ecografia 1 2,33 2,21 2 2,95 2,11 3 2,95 2,32 4 2,64 2,04 5 3,57 2,09 6 2,95 2,25 7 3,1 2,84 8 2,48 2,34 . . . . . . . . .
44 2,17 2,61 45 2,17 2,31 46 2,79 2,6
EsempioEsempio (Peso (Peso allaalla nascitanascita))
1,5
2
2,5
3
3,5
4
4,5
1,5 2 2,5 3 3,5 4
Peso (Kg) Ecografia
Peso
(Kg)
Nas
cita
Diagramma di dispersioneDiagramma di dispersione
EsempioEsempio (Peso (Peso allaalla nascitanascita))
1,5
2
2,5
3
3,5
4
4,5
1,5 2 2,5 3 3,5 4
Peso (Kg) Ecografia
Peso
(Kg)
Nas
cita
Retta che mette in relazione il peso
stimato con l’ecografia e
quello osservato alla nascita
Regressione (lineare)Regressione (lineare)
EsempioEsempio (Peso (Peso allaalla nascitanascita))
1,5
2
2,5
3
3,5
4
4,5
1,5 2 2,5 3 3,5 4
Peso (Kg) Ecografia
Peso
(Kg)
Nas
cita
Retta che mette in relazione il peso
stimato con l’ecografia e
quello osservato alla nascita
VariabilitàCasuale
(non “spiegata”dal modello)
VariabilitVariabilitàà
Campo Campo didi applicazioneapplicazioneAnalisi della relazione tra due variabili continue
1) Correlazione Le variabili sono associate?
2) Regressione Come varia il valore di una variabile in conseguenza del variare di un’altra variabile? Spiegato dalla componente Spiegato dalla componente deterministicadeterministica del modello.del modello.
3) Variabilità Qual’è la variabilità residua non spiegata dall’equazione lineare?
CorrelazioneCorrelazioneDato un insieme di osservazioni definite da
due variabili continue, valutiamo la forza dell’associazione tra le due
variabili disegnando il diagramma di dispersionediagramma di dispersione ecalcolando il coefficiente di correlazione.coefficiente di correlazione.
DiagrammaDiagramma didi dispersionedispersioneSi disegna riportando i valori delle
osservazioni su un sistema di assi cartesiani, in cui ll’’asse xasse x rappresenta una delle due
variabili e ll’’asse yasse y l’altra variabile.
Il diagramma consente di collocare ogni osservazione nello spaziospazio definito dai valori
possibilipossibili delle due variabili.
DiagrammaDiagramma didi dispersionedispersione
1,5
2
2,5
3
3,5
4
4,5
1,5 2 2,5 3 3,5 4
Peso (Kg) Ecografia
Peso
(Kg)
Nas
cita
La forma della nuvola di punti cosLa forma della nuvola di punti cosìì ottenuta consente una ottenuta consente una valutazione visiva del grado di associazione tra le due variabilvalutazione visiva del grado di associazione tra le due variabilii
CoefficienteCoefficiente didi Pearson (Pearson (definizionedefinizione) ) Il coefficiente di correlazione di correlazione di PearsonPearson (r) consente la valutazione formale del grado di associazione.
• L’intervallointervallo dei valori possibili di r è: -1 <= r <=1
• Se r = 1 o r = -1 tutti i punti giacciono su una retta (assenza di variabilitassenza di variabilitàà)
• Se il valore è positivo l’associazione è diretta se il valore è negativo l’associazione è inversa.
( )( )
( ) ( )∑ ∑
∑
= =
=
−−
−−=
n
i
n
iii
n
iii
yyxx
yyxxr
1 1
22
1
CoefficienteCoefficiente didi Pearson (formula) Pearson (formula)
n:numero di osservazionin:numero di osservazionixxii ; ; yyii: valore della singola osservazione: valore della singola osservazionex ; y : valore medio della variabile indipendente e dipendente x ; y : valore medio della variabile indipendente e dipendente
CoefficienteCoefficiente didi Pearson (Pearson (esempioesempio) )
20,0
22,0
24,0
26,0
28,0
30,0
32,0
34,0
36,0
10 15 20 25 30 35 40 45età materna
circ
onfe
renz
a cr
anic
a r = 0,15r = 0,15
CoefficienteCoefficiente didi Pearson (Pearson (esempioesempio) )
20,0
22,0
24,0
26,0
28,0
30,0
32,0
34,0
36,0
19 24 29 34 39 44 49lunghezza
circ
onfe
renz
a cr
anic
a
r = 0,72r = 0,72
EsempioEsempio ((variabilivariabili e e datidati))
Relazione tra concentrazione
plasmaticadi colesterolo
e di trigliceridi
Colesterolo(x)
Trigliceridi (y)
1 3,45 6,24 2 3,5 6,18 3 2,95 5,2 4 3,77 6,11 5 3,67 6,36 6 5,31 5,67 7 5,1 5,48 8 7,85 5,67 9 8,79 9,4
10 12,3 8,4
medie: 5,669 6,471
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12 14colesterolo
trig
licer
idi
EsempioEsempio ((scatterplotscatterplot))
Colesterolo (x)
Trigliceridi (y) ( )xxi − ( )yyi
− ( ) ( )yx yx ii −− * ( )xxi−2 ( )yyi−
2
3,45 6,24 -2,459 -0,493 1,212287 6,046681 0,243049 3,5 6,18 -2,409 -0,553 1,332177 5,803281 0,305809 2,95 5,2 -2,959 -1,533 4,536147 8,755681 2,350089 3,77 6,11 -2,139 -0,623 1,332597 4,575321 0,388129 3,67 6,36 -2,239 -0,373 0,835147 5,013121 0,139129 5,31 5,67 -0,599 -1,063 0,636737 0,358801 1,129969 5,1 5,48 -0,809 -1,253 1,013677 0,654481 1,570009 7,85 5,67 1,941 -1,063 -2,063283 3,767481 1,129969 8,79 9,4 2,881 2,667 7,683627 8,300161 7,112889 12,3 8,4 6,391 1,667 10,653797 40,844881 2,778889
Sommatorie: 26,54411 83,54389 16,46149 Coeff.
Pearson r = 0,716
EsempioEsempio ((correlazionecorrelazione))
RegressioneRegressione linearelineare
RegressioneRegressione: stima della variazione media di una variabile dipendentevariabile dipendente
in funzionefunzionedella variazione unitaria
di una variabile indipendentevariabile indipendente
LineareLineare: la funzione in questo caso è quella che definisce una rettaretta
• La variazione lineare è spesso unaspiegazione adeguata
• Variazioni non lineari diventano talidopo una trasformazione matematica diuna delle variabili
• La variazione lineare è un punto dipartenza
PerchPerchèè RegressioneRegressione LineareLineare??
EsempioEsempio (Peso (Peso allaalla nascitanascita))
1,5
2
2,5
3
3,5
4
4,5
1,5 2 2,5 3 3,5 4
Peso (Kg) Ecografia
Peso
(Kg)
Nas
cita
Regressione lineare
Retta che mette in relazione il peso stimato
con l’ecografia e quello
osservato alla nascita
VariabilitàCasuale
(non “spiegata”dal modello)
RegressioneRegressione linearelineare ((variabilivariabili))
Variabile indipendente
possibile causasulle ascisse
Variabile dipendentepossibile effettosulle ordinate
xPossibile Causa(var. dipendente)
PossibileEffetto(var. dipendente)
y
EquazioneEquazione delladella RettaRettaIndividuare la retta che meglio predice il valore di
y (variabile dipendente), datodato il valore di x (variabile indipendente).
y = a + y = a + bxbxa: intercettaa: intercettab: pendenza (coefficiente angolare)b: pendenza (coefficiente angolare)
Come stimiamo i valori dei due coefficienti (a,b)?
x
y
Media di x
QualeQuale RettaRetta??
Med
ia d
i yLa retta che meglio predice y|xpassa per la media di x e di y
Per un punto passano infinite rette!Quale retta scegliamo?Quale retta scegliamo?Con quale criterio?
Metodo detto Metodo detto ‘‘dei minimi dei minimi quadratiquadrati’’
x
y
La retta migliore minimizza la somma dei quadrati dei residui
valore y osservato
valore y predetto
Residuo (o scarto) = valore y osservato – valore y predetto
Residuo o scarto
( )( )( )∑ −
∑ −−=
xxyyxx
i
iib 2
xbya −=
y = a + y = a + bxbxa: intercettaa: intercetta
b: pendenza (coefficiente b: pendenza (coefficiente angolare)angolare)
Individuare la retta che meglio predice il valore di y (variabile dipendente), datodato il valore di x (variabile
indipendente).
EquazioneEquazione delladella RettaRetta
Colesterolo (x)
Trigliceridi (y)
( )xxi − ( )yyi− ( ) ( )yx yx ii −− * ( )xxi−
2
1 3,45 6,24 -2,219 -0,231 0,512589 4,923961
2 3,5 6,18 -2,169 -0,291 0,631179 4,704561
3 2,95 5,2 -2,719 -1,271 3,455849 7,392961
4 3,77 6,11 -1,899 -0,361 0,685539 3,606201
5 3,67 6,36 -1,999 -0,111 0,221889 3,996001
6 5,31 5,67 -0,359 -0,801 0,287559 0,128881
7 5,1 5,48 -0,569 -0,991 0,563879 0,323761
8 7,85 5,67 2,181 -0,801 -1,746981 4,756761
9 8,79 9,4 3,121 2,929 9,141409 9,740641
10 12,3 8,4 6,631 1,929 12,791199 43,970161
medie: 5,669 6,471 26,54411 83,54389
b= 0,318
a= 4,67
Esempio (colesterolo e Esempio (colesterolo e trigliceriditrigliceridi))
a=4,67
0
2
4
6
8
10
0 2 4 6 8 10 12 14
colesterolo (x)
trig
licer
idi(
y)
b = 0,32
trigliceridi=4,67 + 0,32* colesterolo
Relazione tra Colesterolo e TGRelazione tra Colesterolo e TG
Intervallo di confidenzacoeff. di regressione (b)
IC del IC del coefficientecoefficiente didi regressioneregressione
)(bSEtbCI crit ×±=
( )22
)(∑ −
=xx
sbESi
t ha (n(n--2) gradi di libert2) gradi di libertàà ed il valore è scelto in modo corrispondente all’errore di I tipo, con test a 2 codetest a 2 code
Errore standard di b
L’errore standard di b si riduce, a parità di s, quando la variabilità di x è maggiore !
( )22
)(∑ −
=xx
sbESi
a=4,67
0
2
4
6
8
10
0 2 4 6 8 10 12 14
colesterolo (x)
trig
licer
idi(
y)
b = 0,32b = 0,32
trigliceridi=4,67 + 0,32* colesterolo
Relazione tra Colesterolo e TGRelazione tra Colesterolo e TG
IC(95%) = 0,06 IC(95%) = 0,06 --0,570,57
=29,05
IC( )= 25,47 - 32,63
y
y
Relazione alla nascita tra circonferenza cranica e lunghezza
Es. il valore di circonferenza cranica predetto per un bambino di lunghezza 41 cm è
Intervallo di confidenza dei valori predetti
( )( )∑ −−′
++±= 2
2
2,
11ˆxx
xxn
styPIi
i
gl α
La predizione ha un errore maggiore allontanandosi dalla media di x
La predizione ha un errore minore con un’ampia variabilità di x
Il modello lineare è adeguato a rappresentare la relazione tra x ed y (come variabile casuale) se vengono rispettati i seguenti assunti.
•Omogeneità della varianza di y|x(OmoscedasticitOmoscedasticitàà)•Distribuzione normalenormale di y|x••LinearitLinearitàà della relazione tra x ed y
RequisitiRequisiti delldell’’analisianalisi didi regressioneregressione
La verifica delle assunzioni del modello viene condotta esaminando la distribuzione dei residui
Verifica delle assunzioni del modelloVerifica delle assunzioni del modello
valore y osservato
valore y predetto
Residuo (o scarto) = valore y osservato – valore y predetto
Residuo
OmoscedasticitOmoscedasticitàà ((omogeneitomogeneitàà delladella varianzavarianza))
Se la varianza è costante per tutta la distribuzione della x, anche i residui saranno distribuiti in modo uniforme.
• Radice quadrata
• Logaritmo
• Inversa (meglio se ulteriormente moltiplicata per -1)
TrasformazioniTrasformazioni normalizzantinormalizzanti e e linearizzantilinearizzanti
Inversa negativa
Log
Radice
Dati originali
Dati
trasformati
TrasformazioniTrasformazioni normalizzantinormalizzanti e e linearizzantilinearizzanti
FREQUENCY
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
CORPUSCO MI DPOI NT
0 250
500
750
1000
1250
1500
1750
2000
2250
2500
2750
3000
3250
3500
3750
4000
4250
4500
4750
5000
5250
5500
5750
6000
6250
6500
6750
7000
7250
7500
7750
8000
8250
8500
8750
9000
9250
9500
9750
10000
FREQUENCY
0
10
20
30
40
50
L_c MI DPOI NT
0.00
0.25
0.50
0.75
1.00
1.25
1.50
1.75
2.00
2.25
2.50
2.75
3.00
3.25
3.50
3.75
4.00
4.25
4.50
4.75
5.00
5.25
5.50
5.75
6.00
6.25
6.50
6.75
7.00
7.25
7.50
7.75
8.00
8.25
8.50
8.75
9.00
9.25
9.50
9.75
10.00
10.25
10.50
10.75
11.00
11.25
11.50
11.75
12.00
12.25
12.50
12.75
13.00
13.25
13.50
13.75
14.00
TrasformazioniTrasformazioni normalizzantinormalizzanti e e linearizzantilinearizzanti
• R2 : proporzione della varianza che èspiegata dal modello di regressione
• R2 = (coefficiente di correlazione) ^2
ValutazioneValutazione del del modellomodello