Download pdf - STATISTICA MEDICA Didattico/Statisti… · verifica dopo la somministrazione. In dettaglio, vengono utilizzati 16 ratti, suddivisi in 8 gruppi di 2 animali ciascuno. ... rapporto

STATISTICA MEDICA

Prof.ssa Donatella Siepi

[email protected]

tel: 075 5853525

UNIVERSITA’ DEGLI

STUDI DI PERUGIA

01 dicembre 2014

mailto:[email protected]

8° LEZIONE

Statistica inferenziale

Popolazione Campione

Statistica inferenziale

Probabilità

Test non parametrici

LA REGRESSIONE

LINEARE SEMPLICE

E LA CORRELAZIONE

Regressione e correlazione

• Esistono molti metodi di inferenza statistica che si riferiscono ad una sola variabile statistica.

• Obiettivo : studio della relazione tra due variabili.

• Tecniche oggetto di studio:

• correlazione Studio della associazione tra variabili

quantitative

• regressione Costruire un modello attraverso cui prevedere i valori di una variabile dipendente o risposta (quantitativa) a partire dai valori di una o più variabili indipendenti o esplicative

La correlazione

• Una tecnica per individuare una relazione

fra due variabili

• Nella maggior parte dei casi non vi è

alcuna manipolazione delle variabili da

parte dello sperimentatore

• Osservazione in condizioni naturali

La correlazione: rappresentazione

grafica

• Le due variabili si rappresentano come X e Y – Ascisse: X

– Ordinate: Y

• Le osservazioni si rappresentano come punti sul piano cartesiano

Età e velocità di reazione (dati

ipotetici)

0

0,1

0,2

0,3

0,4

0,5

0,6

0 10 20 30 40 50 60

Eta (anni)

Ve

locità

di re

azio

ne

La correlazione:

caratteristiche /1 • Direzione della

relazione:

– Correlazione positiva

– Correlazione

negativa

Età e capacità di richiamo (dati

ipotetici)

0

0,2

0,4

0,6

0,8

1

1,2

0 10 20 30 40 50 60

Eta

Ca

pa

cit

à r

ich

iam

o

Grado di correlazione

• Le relazioni si distinguono a secondo del grado di correlazione – Elevato grado di

correlazione (punti vicini alla “linea di regressione”)

– Basso grado di correlazione (punti lontani dalla “linea di regressione”)

0

0,2

0,4

0,6

0,8

1

1,2

0 10 20 30 40 50 60

Eta

Cap

acit

à r

ich

iam

o

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 10 20 30 40 50 60

Elevato grado di correlazione

Basso grado di correlazione

• Per interpretare un diagramma a

dispersione occorre valutarne l'aspetto

globale, che rivela (1) la direzione, (2) la

forma e (3) la forza della relazione che

lega le due variabili. Vediamo brevemente

queste tre caratteristiche.

DIREZIONE. L'aspetto del Diagramma dimostra l'esistenza di una associazione

positiva. Infatti, due variabili (ti ricordo che nell'esempio le variabili sono: x= la

dose del farmaco, y= l'aumento della pressione) si dicono associate

positivamente quando i valori alti di una variabile tendono a presentarsi insieme

ai valori alti dell'altra variabile, ed analogamente i valori bassi dell'una tendono

a presentarsi insieme ai valori bassi dell'altra. Viceversa, due variabili sono

associate negativamente quando ai valori alti dell'una tendono ad associarsi

valori bassi dell'altra variabile. Nei casi in cui le variabili non sono associate, la

direzione non può essere individuata.

• FORMA. La forma viene desunta dalla

disposizione dei punti nel diagramma.

Parleremo soltanto della regressione lineare,

ossia del caso in cui i punti si dispongono

approssimativamente su una linea retta.

Esistono anche altri tipi di relazioni, non lineari e

quindi più complesse, ma le relazioni lineari

sono particolarmente importanti per un buon

motivo: la linea retta è la forma (o "pattern") che

si osserva più frequentemente.

FORZA. La forza si può desumere da quanto i punti sono

disseminati nel diagramma. Se i punti sono molto disseminati,

(ma sempre tendendo a disporsi su una retta), la relazione tra

le due variabili è debole; se i punti sono raggruppati attorno

ad una ideale retta, allora la relazione è forte. Anche

l'inclinazione della retta è importante: tanto più la retta è

inclinata, quanto più la relazione è forte.

Correlazione

• Osservando la nuvola di punti possiamo valutare, direzione, forma e forza di una relazione lineare.

• Abbiamo bisogno di una strategia di analisi dei dati oggettiva, svincolata dal giudizio personale dell'osservatore e possibilmente che ci fornisca una misura numerica. Questa misura è detta correlazione, e contiene informazioni sulla forza e sulla direzione di una relazione lineare tra due variabili.

• la forma, non viene trattata.

La correlazione

Per indicare la correlazione si usa di solito la

lettera "r". r viene detto "coefficiente di

correlazione" e si calcola con l'aiuto di un

software statistico.

Esempio. Effetto collaterale di un farmaco

• Supponiamo di sospettare che, fra gli effetti indesiderati

di un certo farmaco, si annoveri quello di innalzare la

pressione arteriosa. Verifichiamo questa ipotesi

attraverso un esperimento: somministriamo dosi

crescenti del farmaco ad alcuni ratti da esperimento, e

misuriamo la variazione della pressione diastolica che si

verifica dopo la somministrazione.

In dettaglio, vengono utilizzati 16 ratti, suddivisi in 8

gruppi di 2 animali ciascuno. Il primo gruppo è di

controllo e non viene trattato; al secondo gruppo il

farmaco viene somministrato in dose di 1 mg/kg, al terzo

gruppo in dose di 2 mg/kg e così via. I risultati sono

riassunti nella seguente tabella.

anche "a occhio" si nota che la variabile dipendente (ossia l'effetto:

innalzamento della pressione) è correlata alla variabile

indipendente (ossia la presunta causa: il farmaco). In altre parole:

l'entità dell'aumento della pressione sembra essere associata alla

dose.

• dall'esempio dei ratti trattati con un farmaco

nell'unità precedente. Otteniamo il seguente

diagramma:

• Immettendo i dati in un apposito software, otteniamo un valore di r di 0.862; questo valore è >0, e quindi la correlazione è positiva; inoltre, il coefficiente assume un valore abbastanza alto, e ciò dimostra che la correlazione è buona. In altri termini, le due variabili vanno di pari passo, nel senso che quando aumenta il valore dell'una aumenta generalmente (e proporzionalmente) anche il valore dell'altra. Quindi, dal valore della variabile indipendente può essere approssimativamente desunto quello della variabile dipendente.

Coefficiente di determinazione • Una volta ottenuto r, possiamo calcolare r2 (r-quadrato),

semplicemente elevando r al quadrato.

r2 viene detto anche coefficiente di determinazione ed è

un indice ricco di significato, in quanto esprime la

variabilità nella variabile dipendente spiegata dalla

variabile indipendente. In parole più semplici, r2

rappresenta la variazione nei valori di y che può essere

giustificata dalla variazione di x.

• Nel nostro caso, r2 è

pari a 0.743.

Perciò, ammettendo che il farmaco sia causalmente legato

alla variazione di pressione (ossia, più in generale,

ammettendo che x sia causalmente legato a y), allora il

75% circa di tale variazione è giustificata dall'effetto del

farmaco.

Il “coefficiente di determinazione”

• Il coefficiente di determinazione: r2

• Il coefficiente di determinazione misura la percentuale della variabilità di Y spiegata dalla variabilità di X

r = 0,862

r2 = 0,743

La correlazione nella letteratura scientifica

• Debbono essere specificati – La grandezza del

campione – il valore di r – La presenza (o l’assenza)

di una relazione statisticamente significativa)

– Il valore di alfa – Il tipo di test utilizzato (test

ad 1 o a 2 code)

“La ricerca ha riscontrato

la presenza di una

correlazione

statisticamente

significativa fra l’età dei

pazienti e la capacità di

richiamo, r=-0,85, n=30,

p

Utilizzo della correlazione

• Previsione: previsione del valore di una variabile target in base al valore di una variabile predittore

• Validazione: confronto fra i risultati di un test nuovo e i test già noti

• Affidabilità: replicabilità degli esperimenti/test

• Verifica di previsioni teoriche: verifica di un rapporto previsto fra due variabili

Quali COEFFICIENTI di

CORRELAZIONE usare

• quantitative: r di Pearson

• ordinali: rs di Spearman t (tau) di Kendall

• nominali dicotomiche: f (phi)

• una nominale dicotomica,una continua: r

punto biseriale

Rischi dell’interpretazione

• Un rapporto di correlazione può essere “spuria”: esso non implica necessariamente un rapporto di causa e effetto

• Esempio: correlazione fra il numero di sacerdoti e il numero di omicidi

Sigarette

Cancro

Rapporto causa e effetto

Urbanizzazione

N. sacerdoti N. omicidi

Correlazione spuria

r TRA VARIABILI QUALITATIVE:

r DI SPEARMAN

• Quando le variabili sono misurate almeno al livello di scala ad Ordinale, il coefficiente che si utilizza per l’analisi della relazione tra variabili è il coefficiente di Spearman: rs.

Esaminiamo, ora, uno dei metodi più usati come

per studiare e descrivere una relazione

quantitativa tra due variabili: la regressione lineare.

• La regressione lineare serve per

descrivere la relazione tra due variabili

quantitative

La retta di regressione

• l'occhio non è un buono strumento a questo scopo;

entrano in gioco fattori soggettivi, e a partire dallo stesso

diagramma ciascuno di noi potrebbe individuare rette

diverse rappresentative della nuvola di punti. Ad

esempio, nel diagramma, qual è la retta "giusta"?.

• Serve un sistema obiettivo e ben codificato che consenta

di tracciare la retta che meglio rappresenta l'andamento

della nuvola di punti.

• è ragionevole pensare che la retta migliore è quella che ha distanza minore, sull'asse delle ordinate, da tutti i punti del diagramma. Costruiamo, per ogni punto, un quadrato che ha come lato la distanza verticale (ordinata) del punto dalla retta Ripetiamo il procedimento per ogni punto del diagramma e sommiano le aree di tutti i quadrati. La retta che meglio rappresenta la nuvola di punti è quella che fa registrare la minor superficie dei quadrati. Per questo motivo, il metodo ora descritto si chiama "metodo dei minimi quadrati". Ovviamente questo procedimento non si fa più "a mano", ma si ricorre all'aiuto del calcolatore

• Infine, una volta trovata la retta di

regressione, si può trovare l'equazione

della retta medesima. Dai ricordi delle

scuole superiori, sai che l'equazione di

una retta ha la forma:

dove x e y sono le due variabili da correlare.

• Anche in questo caso, per ricavare l'equazione partendo dai dati sperimentali si ricorre al computer, che con i dati del nostro esempio genera la seguente:

y= 1.13 + 1.63x

• L'equazione rappresenta un sistema semplice e molto elegante per descrivere il fenomeno che hai osservato; inoltre, rappresenta anche uno strumento per fare previsioni. Ad esempio, potresti domandarti quale sarà l'incremento di pressione somministrando 5.5 mg del farmaco. Basta sostituire, nell'equazione, il valore x con 5.5. Ottieni:

y= 1.13 +(1.63 * 5.5) = 10.1

• L'esperimento che abbiamo simulato nell'esempio è stato effettuato in laboratorio e quindi in condizioni rigorosamente controllate, nel senso che non sono intervenute variabili estranee. – Sia i ratti di controllo (quelli che non hanno ricevuto il farmaco) che tutti

gli altri erano uguali per sesso, età peso ecc.; l'alimentazione era la stessa;

– le condizioni di allevamento erano identiche ecc.

• Con i dati raccolti possiamo quindi concludere con ragionevole certezza che "il farmaco provoca un aumento della pressione diastolica nel ratto, e questo aumento è correlato alla dose".

• In altre situazioni, sarebbe stato opportuno, prima di concludere per un rapporto dose-effetto, controllare la presenza di eventuali fattori di confondimento e poi verificare i criteri di causalità.

Puoi dedurre che:

•esiste una correlazione fra la dose del farmaco e l'innalzamento della pressione

diastolica;

•la correlazione è positiva (ad un aumento del farmaco corrisponde un aumento

della pressione) come dimostrato dal fatto che il coefficiente di correlazione r è >0;

•la correlazione è abbastanza forte, come dimostrato (a) dal valore piuttosto

elevato (0.862) raggiunto da r e (b) dal valore piuttosto elevato (1.63) del

parametro che determina la pendenza della retta;

•il 74% circa dell'innalzamento della pressione può essere spiegato dal farmaco;

•in assenza del farmaco, la variazione di pressione è prossima a zero, come

dimostrato dal valore dell'intercetta.

Limiti di validità dell’analisi di

regressione • La linea di regressione

non dev’essere utilizzata per prevedere valori di Y per valori di X inferiori o superiori a quelli compresi nel campione

• La relazione fra le due variabili dev’essere lineare

y = 1,9x + 0,3

R2 = 0,9025

y = 4,956Ln(x) + 1,2546

R2 = 0,992

0

2

4

6

8

10

12

0 1 2 3 4 5 6

X

Y

questo punto possiamo chiarire meglio

la differenza tra correlazione e

regressione: la prima indica un

semplice legame di interdipendenza tra

variabili; la seconda una relazione di

dipendenza di una variabile da

un’altra con una precisa direzione di

causalità.

In particolare, l’analisi della correlazione consentirà di studiare

il grado di associazione fra due variabili,

mentre

l’analisi della regressione consentirà di stabilire quale relazione esiste fra le due.

Correlations

1 ,439*

,032

24 24

,439* 1

,032

24 24

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

deltadipodoppie

deltaahdoppie

deltadipo

doppie

deltaahdo

ppie

Correlat ion is signif icant at the 0.05 lev el (2-tailed).*.

Correlations

Nonparametric Correlations

Correlations

1,000 ,559**

. ,005

24 24

,559** 1,000

,005 .

24 24

Correlat ion Coef f icient

Sig. (2-tailed)

N

Correlat ion Coef f icient

Sig. (2-tailed)

N

deltadipodoppie

deltaahdoppie

Spearman's rho

deltadipo

doppie

deltaahdo

ppie

Correlat ion is signif icant at the 0.01 lev el (2-tailed).**.

Regression

Coefficientsa

493,828 179,838 2,746 ,012

365,602 159,540 ,439 2,292 ,032

(Constant)

deltadipodoppie

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardized

Coeff icients

t Sig.

Dependent Variable: deltaahdoppiea.

Model Summary

,439a ,193 ,156 771,56304

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), deltadipodoppiea.