STATISTICA MEDICA
Prof.ssa Donatella Siepi
tel: 075 5853525
UNIVERSITA’ DEGLI
STUDI DI PERUGIA
01 dicembre 2014
mailto:[email protected]
8° LEZIONE
Statistica inferenziale
Popolazione Campione
Statistica inferenziale
Probabilità
Test non parametrici
LA REGRESSIONE
LINEARE SEMPLICE
E LA CORRELAZIONE
Regressione e correlazione
• Esistono molti metodi di inferenza statistica che si riferiscono ad una sola variabile statistica.
• Obiettivo : studio della relazione tra due variabili.
• Tecniche oggetto di studio:
• correlazione Studio della associazione tra variabili
quantitative
• regressione Costruire un modello attraverso cui prevedere i valori di una variabile dipendente o risposta (quantitativa) a partire dai valori di una o più variabili indipendenti o esplicative
La correlazione
• Una tecnica per individuare una relazione
fra due variabili
• Nella maggior parte dei casi non vi è
alcuna manipolazione delle variabili da
parte dello sperimentatore
• Osservazione in condizioni naturali
La correlazione: rappresentazione
grafica
• Le due variabili si rappresentano come X e Y – Ascisse: X
– Ordinate: Y
• Le osservazioni si rappresentano come punti sul piano cartesiano
Età e velocità di reazione (dati
ipotetici)
0
0,1
0,2
0,3
0,4
0,5
0,6
0 10 20 30 40 50 60
Eta (anni)
Ve
locità
di re
azio
ne
La correlazione:
caratteristiche /1 • Direzione della
relazione:
– Correlazione positiva
– Correlazione
negativa
Età e capacità di richiamo (dati
ipotetici)
0
0,2
0,4
0,6
0,8
1
1,2
0 10 20 30 40 50 60
Eta
Ca
pa
cit
à r
ich
iam
o
Grado di correlazione
• Le relazioni si distinguono a secondo del grado di correlazione – Elevato grado di
correlazione (punti vicini alla “linea di regressione”)
– Basso grado di correlazione (punti lontani dalla “linea di regressione”)
0
0,2
0,4
0,6
0,8
1
1,2
0 10 20 30 40 50 60
Eta
Cap
acit
à r
ich
iam
o
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0 10 20 30 40 50 60
Elevato grado di correlazione
Basso grado di correlazione
• Per interpretare un diagramma a
dispersione occorre valutarne l'aspetto
globale, che rivela (1) la direzione, (2) la
forma e (3) la forza della relazione che
lega le due variabili. Vediamo brevemente
queste tre caratteristiche.
DIREZIONE. L'aspetto del Diagramma dimostra l'esistenza di una associazione
positiva. Infatti, due variabili (ti ricordo che nell'esempio le variabili sono: x= la
dose del farmaco, y= l'aumento della pressione) si dicono associate
positivamente quando i valori alti di una variabile tendono a presentarsi insieme
ai valori alti dell'altra variabile, ed analogamente i valori bassi dell'una tendono
a presentarsi insieme ai valori bassi dell'altra. Viceversa, due variabili sono
associate negativamente quando ai valori alti dell'una tendono ad associarsi
valori bassi dell'altra variabile. Nei casi in cui le variabili non sono associate, la
direzione non può essere individuata.
• FORMA. La forma viene desunta dalla
disposizione dei punti nel diagramma.
Parleremo soltanto della regressione lineare,
ossia del caso in cui i punti si dispongono
approssimativamente su una linea retta.
Esistono anche altri tipi di relazioni, non lineari e
quindi più complesse, ma le relazioni lineari
sono particolarmente importanti per un buon
motivo: la linea retta è la forma (o "pattern") che
si osserva più frequentemente.
FORZA. La forza si può desumere da quanto i punti sono
disseminati nel diagramma. Se i punti sono molto disseminati,
(ma sempre tendendo a disporsi su una retta), la relazione tra
le due variabili è debole; se i punti sono raggruppati attorno
ad una ideale retta, allora la relazione è forte. Anche
l'inclinazione della retta è importante: tanto più la retta è
inclinata, quanto più la relazione è forte.
Correlazione
• Osservando la nuvola di punti possiamo valutare, direzione, forma e forza di una relazione lineare.
• Abbiamo bisogno di una strategia di analisi dei dati oggettiva, svincolata dal giudizio personale dell'osservatore e possibilmente che ci fornisca una misura numerica. Questa misura è detta correlazione, e contiene informazioni sulla forza e sulla direzione di una relazione lineare tra due variabili.
• la forma, non viene trattata.
La correlazione
Per indicare la correlazione si usa di solito la
lettera "r". r viene detto "coefficiente di
correlazione" e si calcola con l'aiuto di un
software statistico.
Esempio. Effetto collaterale di un farmaco
• Supponiamo di sospettare che, fra gli effetti indesiderati
di un certo farmaco, si annoveri quello di innalzare la
pressione arteriosa. Verifichiamo questa ipotesi
attraverso un esperimento: somministriamo dosi
crescenti del farmaco ad alcuni ratti da esperimento, e
misuriamo la variazione della pressione diastolica che si
verifica dopo la somministrazione.
In dettaglio, vengono utilizzati 16 ratti, suddivisi in 8
gruppi di 2 animali ciascuno. Il primo gruppo è di
controllo e non viene trattato; al secondo gruppo il
farmaco viene somministrato in dose di 1 mg/kg, al terzo
gruppo in dose di 2 mg/kg e così via. I risultati sono
riassunti nella seguente tabella.
anche "a occhio" si nota che la variabile dipendente (ossia l'effetto:
innalzamento della pressione) è correlata alla variabile
indipendente (ossia la presunta causa: il farmaco). In altre parole:
l'entità dell'aumento della pressione sembra essere associata alla
dose.
• dall'esempio dei ratti trattati con un farmaco
nell'unità precedente. Otteniamo il seguente
diagramma:
• Immettendo i dati in un apposito software, otteniamo un valore di r di 0.862; questo valore è >0, e quindi la correlazione è positiva; inoltre, il coefficiente assume un valore abbastanza alto, e ciò dimostra che la correlazione è buona. In altri termini, le due variabili vanno di pari passo, nel senso che quando aumenta il valore dell'una aumenta generalmente (e proporzionalmente) anche il valore dell'altra. Quindi, dal valore della variabile indipendente può essere approssimativamente desunto quello della variabile dipendente.
Coefficiente di determinazione • Una volta ottenuto r, possiamo calcolare r2 (r-quadrato),
semplicemente elevando r al quadrato.
r2 viene detto anche coefficiente di determinazione ed è
un indice ricco di significato, in quanto esprime la
variabilità nella variabile dipendente spiegata dalla
variabile indipendente. In parole più semplici, r2
rappresenta la variazione nei valori di y che può essere
giustificata dalla variazione di x.
• Nel nostro caso, r2 è
pari a 0.743.
Perciò, ammettendo che il farmaco sia causalmente legato
alla variazione di pressione (ossia, più in generale,
ammettendo che x sia causalmente legato a y), allora il
75% circa di tale variazione è giustificata dall'effetto del
farmaco.
Il “coefficiente di determinazione”
• Il coefficiente di determinazione: r2
• Il coefficiente di determinazione misura la percentuale della variabilità di Y spiegata dalla variabilità di X
r = 0,862
r2 = 0,743
La correlazione nella letteratura scientifica
• Debbono essere specificati – La grandezza del
campione – il valore di r – La presenza (o l’assenza)
di una relazione statisticamente significativa)
– Il valore di alfa – Il tipo di test utilizzato (test
ad 1 o a 2 code)
“La ricerca ha riscontrato
la presenza di una
correlazione
statisticamente
significativa fra l’età dei
pazienti e la capacità di
richiamo, r=-0,85, n=30,
p
Utilizzo della correlazione
• Previsione: previsione del valore di una variabile target in base al valore di una variabile predittore
• Validazione: confronto fra i risultati di un test nuovo e i test già noti
• Affidabilità: replicabilità degli esperimenti/test
• Verifica di previsioni teoriche: verifica di un rapporto previsto fra due variabili
Quali COEFFICIENTI di
CORRELAZIONE usare
• quantitative: r di Pearson
• ordinali: rs di Spearman t (tau) di Kendall
• nominali dicotomiche: f (phi)
• una nominale dicotomica,una continua: r
punto biseriale
Rischi dell’interpretazione
• Un rapporto di correlazione può essere “spuria”: esso non implica necessariamente un rapporto di causa e effetto
• Esempio: correlazione fra il numero di sacerdoti e il numero di omicidi
Sigarette
Cancro
Rapporto causa e effetto
Urbanizzazione
N. sacerdoti N. omicidi
Correlazione spuria
r TRA VARIABILI QUALITATIVE:
r DI SPEARMAN
• Quando le variabili sono misurate almeno al livello di scala ad Ordinale, il coefficiente che si utilizza per l’analisi della relazione tra variabili è il coefficiente di Spearman: rs.
Esaminiamo, ora, uno dei metodi più usati come
per studiare e descrivere una relazione
quantitativa tra due variabili: la regressione lineare.
• La regressione lineare serve per
descrivere la relazione tra due variabili
quantitative
La retta di regressione
• l'occhio non è un buono strumento a questo scopo;
entrano in gioco fattori soggettivi, e a partire dallo stesso
diagramma ciascuno di noi potrebbe individuare rette
diverse rappresentative della nuvola di punti. Ad
esempio, nel diagramma, qual è la retta "giusta"?.
• Serve un sistema obiettivo e ben codificato che consenta
di tracciare la retta che meglio rappresenta l'andamento
della nuvola di punti.
• è ragionevole pensare che la retta migliore è quella che ha distanza minore, sull'asse delle ordinate, da tutti i punti del diagramma. Costruiamo, per ogni punto, un quadrato che ha come lato la distanza verticale (ordinata) del punto dalla retta Ripetiamo il procedimento per ogni punto del diagramma e sommiano le aree di tutti i quadrati. La retta che meglio rappresenta la nuvola di punti è quella che fa registrare la minor superficie dei quadrati. Per questo motivo, il metodo ora descritto si chiama "metodo dei minimi quadrati". Ovviamente questo procedimento non si fa più "a mano", ma si ricorre all'aiuto del calcolatore
• Infine, una volta trovata la retta di
regressione, si può trovare l'equazione
della retta medesima. Dai ricordi delle
scuole superiori, sai che l'equazione di
una retta ha la forma:
dove x e y sono le due variabili da correlare.
• Anche in questo caso, per ricavare l'equazione partendo dai dati sperimentali si ricorre al computer, che con i dati del nostro esempio genera la seguente:
y= 1.13 + 1.63x
• L'equazione rappresenta un sistema semplice e molto elegante per descrivere il fenomeno che hai osservato; inoltre, rappresenta anche uno strumento per fare previsioni. Ad esempio, potresti domandarti quale sarà l'incremento di pressione somministrando 5.5 mg del farmaco. Basta sostituire, nell'equazione, il valore x con 5.5. Ottieni:
y= 1.13 +(1.63 * 5.5) = 10.1
• L'esperimento che abbiamo simulato nell'esempio è stato effettuato in laboratorio e quindi in condizioni rigorosamente controllate, nel senso che non sono intervenute variabili estranee. – Sia i ratti di controllo (quelli che non hanno ricevuto il farmaco) che tutti
gli altri erano uguali per sesso, età peso ecc.; l'alimentazione era la stessa;
– le condizioni di allevamento erano identiche ecc.
• Con i dati raccolti possiamo quindi concludere con ragionevole certezza che "il farmaco provoca un aumento della pressione diastolica nel ratto, e questo aumento è correlato alla dose".
• In altre situazioni, sarebbe stato opportuno, prima di concludere per un rapporto dose-effetto, controllare la presenza di eventuali fattori di confondimento e poi verificare i criteri di causalità.
Puoi dedurre che:
•esiste una correlazione fra la dose del farmaco e l'innalzamento della pressione
diastolica;
•la correlazione è positiva (ad un aumento del farmaco corrisponde un aumento
della pressione) come dimostrato dal fatto che il coefficiente di correlazione r è >0;
•la correlazione è abbastanza forte, come dimostrato (a) dal valore piuttosto
elevato (0.862) raggiunto da r e (b) dal valore piuttosto elevato (1.63) del
parametro che determina la pendenza della retta;
•il 74% circa dell'innalzamento della pressione può essere spiegato dal farmaco;
•in assenza del farmaco, la variazione di pressione è prossima a zero, come
dimostrato dal valore dell'intercetta.
Limiti di validità dell’analisi di
regressione • La linea di regressione
non dev’essere utilizzata per prevedere valori di Y per valori di X inferiori o superiori a quelli compresi nel campione
• La relazione fra le due variabili dev’essere lineare
y = 1,9x + 0,3
R2 = 0,9025
y = 4,956Ln(x) + 1,2546
R2 = 0,992
0
2
4
6
8
10
12
0 1 2 3 4 5 6
X
Y
questo punto possiamo chiarire meglio
la differenza tra correlazione e
regressione: la prima indica un
semplice legame di interdipendenza tra
variabili; la seconda una relazione di
dipendenza di una variabile da
un’altra con una precisa direzione di
causalità.
In particolare, l’analisi della correlazione consentirà di studiare
il grado di associazione fra due variabili,
mentre
l’analisi della regressione consentirà di stabilire quale relazione esiste fra le due.
Correlations
1 ,439*
,032
24 24
,439* 1
,032
24 24
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
deltadipodoppie
deltaahdoppie
deltadipo
doppie
deltaahdo
ppie
Correlat ion is signif icant at the 0.05 lev el (2-tailed).*.
Correlations
Nonparametric Correlations
Correlations
1,000 ,559**
. ,005
24 24
,559** 1,000
,005 .
24 24
Correlat ion Coef f icient
Sig. (2-tailed)
N
Correlat ion Coef f icient
Sig. (2-tailed)
N
deltadipodoppie
deltaahdoppie
Spearman's rho
deltadipo
doppie
deltaahdo
ppie
Correlat ion is signif icant at the 0.01 lev el (2-tailed).**.
Regression
Coefficientsa
493,828 179,838 2,746 ,012
365,602 159,540 ,439 2,292 ,032
(Constant)
deltadipodoppie
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig.
Dependent Variable: deltaahdoppiea.
Model Summary
,439a ,193 ,156 771,56304
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), deltadipodoppiea.