43
Corso di Statistica Medica Inferenza Statistica: Stima & Test

Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Inferenza Statistica:Stima & Test

Page 2: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

La 'statistica inferenziale‘ risponde a questa domanda. I risultati ottenuti dalle misure effettuate sul campione vengono estrapolati e riferiti alla popolazione. Le caratteristiche di interesse della popolazione, ad esempio la media e la varianza per un fenomeno oggetto di studio,i ‘parametri’della popolazione, hanno un valore vero che sarebbe noto solo analizzandone tutte le unità. Gli indici calcolati sul campione rappresentano una ‘stima’ di tali parametri ignoti.

I risultati descritti su un campione possano essere generalizzati alla popolazione da cui il campione proviene?

Page 3: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Tramite l'inferenza statistica si determina se i risultati che abbiamoosservato sul campione valgano anche per la popolazione globale

ad un soddisfacente 'livello di probabilità'

Concetti Base

Per passare dal campione a conclusioni sulla popolazione i metodi dell’ inferenza statistica si basano sul calcolo delle probabilità.

Si tratta di ‘stimare’ sul campione il valore di parametri ignoti per la popolazione, e di ‘verificare delle ipotesi’ sui fenomeni in studio,

tramite dei ‘test’ .

Page 4: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

(1) In generale il campione viene estratto in modo casuale affinchè sia rappresentativo della variabilità della popolazione;

(2) L'inferenza statistica ha a disposizione due strumenti principali che permettono di evitare con una certa probabilità, di commettere errori: la STIMA ed il TEST statistico. Entrambi questi metodi si basano sul calcolo delle probabilità, ed in particolare sulle proprietà di alcune distribuzioni di probabilità, tra cui la principale è la distribuzione gaussiana.

«STIMA»: ci interessa per es. conoscere il valore medio di un fenomeno in una popolazione; ne estraiamo un campione casuale e…

Page 5: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

(I) Stima di una media

Se si considera una variabile che segue la distribuzione gaussiana, ad esempio l'altezza di una popolazione, scegliendo a caso un individuo della popolazione si puo' ragionevolmente affermare che con il 95% di probabilità la sua altezza cade nell'intervallo compreso tra i valori:µ ± 2σ (parametri ).

Se i parametri della variabile nella popolazione fossero noti, per es: µ=174 cm e σ=11 cm, l'altezza dell'individuo al 95% di probabilità sarebbe compresa tra:

174 ± 2*11 cm, cioè tra: 152 e 196 cm.

A che livello di probabilità la ‘media campionaria’ rappresenta la media della popolazione?

In generale, tali parametri sono ignoti (a meno di un censimento); estraiamo quindi un campione di individui e ne calcoliamo l’altezza media…

Page 6: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

C1C2

C3

1y

2y

3y

Se il campionamento viene ripetuto n volte, si ottengono n stime della media: le n ‘medie campionarie’ si distribuiscono in modo gaussiano, con media pari a quella della popolazione e deviazione standard che tende a zero al crescere di n.

Teorema del limite centrale

ymedia )( µ=

Distribuzione della v.c Media Campionaria

y

Cn

Cn-1

C4

4y

1−ny

ny

nY2σ “Errore di stima per

la media”

ny

ymedia

Y

Y

2

)var(

)(

σµ

=

=

Page 7: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Usando quindi le proprietà della distribuzione gaussiana, si puo' affermare che la media ignota µ della popolazione sia compresa con una probabilità del 95%nell'intervallo definito dai valori campionari:

Ny

σ96.1±

Ovviamente, poiché anche il valore della deviazione standard della popolazione (σ)è ignoto, occorre usare la sua stima campionaria:

( )N

yys

N

ii∑

=

−= 1

2

N

sy 96.1±La media µ della popolazione è quindi compresa nell’intervallo:

…ad un “livello di confidenza” del 95%.

Page 8: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

“Confidenza” = livello di fiducia probabilistico che si attribuisce alla stima campionaria.‘Intervalli di confidenza’ (IC)=definiscono entro quali valori sia localizzata la media ‘vera’ ignota, in base alle stime campionarie, per N ‘sufficientemente grande ’:

sN

sxIC 96.1%95

±=

±=

Per N<30 unità, lo scostamento della media campionaria dalla gaussiana è notevole, per cui si modificano le ripartizioni delle aree sottostanti la distribuzione: ad esempio, per comprendere il 95% dell’area intorno alla media con un campione di N=10 misure occorre considerare 2.26 volte l’errore standard anziché 1.96. A questo scopo c’è una famiglia di distribuzioni di probabilità, ognuna identificata dai propri gradi di libertà (N-1) che nel loro insieme prendono il nome di distribuzione del t di Student . ..

N

sxIC 58.2%99 ±=

Page 9: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

La distribuzione t di Student è simmetrica intorno alla media ed è molto simile alla gaussiana. Ma cambia di forma in relazione alla numerosità n del campione; tende ad avvicinarsi alla distribuzione normale standard N(0,1), al crescere di n. Per n>30 le due distribuzioni si equivalgono.

William Gosset, detto “Student”William Gosset, detto “Student”

Page 10: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

La t di Student è una distribuzione di probabilità teorica, della quale esistono tabelle predisposte con i valori critici da sostituire a 1.96 e 2.58 - valori cosiddetti ‘critici’ in N(0,1)- per un piu’ corretto calcolo degli intervalli di confidenza per piccoli campioni .

Da qui in poi si possono utilizzare i valori della gaussiana

Page 11: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Esempio di stima di una media:Campione casuale di 100 studenti maschi dell'Università; nella seguente tabella di frequenze si riportano i valori di peso rilevati sul campione, divisi in 5 classi di frequenze. Sapendo che il peso si distribuisce come una gaussiana, stimare il peso medio degli studenti universitari ad un livello di confidenza del 95%.

Classi di Peso (kg) Frequenze

60-62 5

63-65 18

66-68 42

69-71 27

( )

kg 45,67100

8*7327*7042*6718*645*61

=

++++=pesoµ

69-71 27

72-74 8

Tot 100

( ) ( ) ( ) ( ) ( )

92,252,8

52,8100

75,852

100

45.677345.677045.676745.676445.6761 222222

==

==−+−+−+−+−=

peso

peso

σ

σ

[ ]02.68;88.6610

92,2*96,145,67*96,1 =±=±

N

pesopeso

σµ

Page 12: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Il concetto di test

Esempio: indagine sul peso corporeo maschile e femminile.

Sono stati estratti 2 campioni dalla popolazione, uno di uomini ed uno di donne, l’ipotesi da verificare è se la differenza di peso medio campionario osservata:

µ(peso uomini)=68 kgµ(peso donne)= 60 kg

è probabilisticamente compatibile con l’errore di campionamento, oppure è cosi’ improbabile da supporre che i due campioni provengano proprio da due popolazioni diverse, con caratteristiche di media diverse.

Si formula una ipotesi di base sul fenomeno oggetto di studio, IPOTESI NULLAnella quale si afferma che il peso maschile medio è uguale al peso femminile medio:

H0: µ(peso uomini)=µ(peso donne)

Page 13: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Il test è una regola per decidere, basandosi sul campione osservato,se si puo' confermare nella popolazione l'ipotesi nulla H0 o se la si deve rigettare, per esempio in favore di un'ipotesi alternativa che si indica con H1: i due gruppi presentano valori medi diversi in quanto effettivamente provenienti da due popolazioni diverse.

H0: µ(peso uomini) = µ(peso donne)

H1: µ(peso uomini) ≠ µ(peso donne)

50 60 70 80 900

50

100

150

200

250

40 50 60 70 800

50

100

150

200

250

300

40 45 50 55 60 65 70 75 80 850

100

200

300

400

500

600

Distribuzione del peso corporeo di uomini e donne sotto H0

Distribuzione del peso corporeo di uomini e donne sotto H1

Page 14: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

100

150

200

250

100

150

200

250

300

Campione dei pesi uomini Campione dei pesi donne

50 60 70 80 900

50

40 50 60 70 800

50

µuomini µdonne

Derivano da una sola popolazione o da due popolazioni diverse?

Page 15: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Per determinare l'opportuna regola di decisione del test si presuppone che il fenomeno oggetto di studio segua una certa "distribuzione" nella popolazione; nella quasi totalità dei casi, soprattutto per cio' che concerne le variabili biologiche, la distribuzione di probabilità a cui ci si riferisce è quella gaussiana.

Page 16: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Quando si conduce un test, 2 tipi di errore sono possibili rispetto all'ipotesi nullache abbiamo formulato:

Decisione / Popolazione

H0 vera H0 falsa

Rigetto H0 Errore di 1°tipo : α OK

Accetto H0 OK Errore di 2°tipo : β

Errore di primo tipo, con probabilità α di commetterlo:Rigettare l'ipotesi nulla mentre invece essa è vera nella popolazione (detto anche'falso positivo');

Errore di secondo tipo, con probabilità β di commetterlo:Accettare l'ipotesi nulla mentre invece essa è falsa nella popolazione (detto anche'falso negativo').

Page 17: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Grazie al fatto che il campione si estrae in modo casuale, è possibile fissare a priori la probabilità αααα di commettere un errore del 1°tipo , ad una soglia predefinita, generalmente posta al 5%.

-> nell'eseguire il test si ha una probabilità del 5% di fare un errore del 1°tipo, cioè rifiutare l'ipotesi nulla (essendo invece essa vera nella popolazione).

Non è possibile in generale fissare a priori la probabilità β; quello che si puo’ fare, in base ad alcune ipotesi sulla variabilità del fenomeno oggetto di studio e sulla numerosità del campione utilizzato, è calcolare la 'potenza ' del test: 1-β

-> la potenza del test è la probabilità di rifiutare l'ipotesi nulla essendo in effetti essa falsa nella popolazione.

Page 18: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

21 XX −

“Regola di decisione" del test statistico z-test che confronta le medie campionarie:

Variabile aleatoria “differenza di medie

campionarie”

21

22

21

21 NN

σσσ +=−

Deviazione standard della v.a. differenza di

medie

21

21

21

−=σ

XXz

Statistica di test

2121 NNσ +=−

(per campioni grandi )

Page 19: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

<<−

<

>

accetto 96,196,1

rifiuto 96,1

rifiuto 96,1

0

0

0

Hz

Hz

Hz

campione

campione

campione

z~N(0;1) Regola di decisione:

Per campioni grandi (N>30)

Page 20: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

50 60 70 80 900

50

100

150

200

250

40 50 60 70 800

50

100

150

200

250

300

40 45 50 55 60 65 70 75 80 850

100

200

300

400

500

600

Distribuzione del peso corporeo di uomini e donne sotto H

Distribuzione del peso corporeo di uomini e donne sotto Hdonne sotto H0 donne sotto H1

kg 821 =− XX

321

22

21

21 =+=− NN

σσσ

67,23

8

21

21 ==−=−σXX

z

<<−

<

>

accetto 96,196,1

rifiuto 96,1

rifiuto 96,1

0

0

0

Hz

Hz

Hz

campione

campione

campione

Conclusione: rifiuto H0

…i campioni provengono da popolazioni diverse

Page 21: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Il test del Chi-quadrato: 2χ

E’ il test piu' usato per investigare l'associazione tra due fenomeni A e B, che possono essere caratteri di qualsiasi tipo (qualitativi o quantitativi) che siano stati rilevati su un campione:

A/B Presente Assente Totale

Presente n11 n12 n1.

nij=frequenza assoluta di Ai e Bj(qui: 1=presenza/2=assenza)

Assente n21 n22 n2.

Totale n.1 n.2 n

Ipotesi nulla:

A e B sono 'indipendenti' nella popolazione: la presenza del carattere A non implicala presenza del carattere B e viceversa. Se tale ipotesi nulla è rigettata dal test, significa che A e B sono invece 'dipendenti' cioè associati in qualche modo.

Page 22: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

A/B Presente Assente Totale

Presente n11 n12 n1.

Assente n21 n22 n2.

Totale n.1 n.2 n

Tende a zero se A e B sono indipendenti

2.1..2.1

2

2112221121

2

nnnn

nnnnnn

−⋅−⋅=χ

Statistica di test:

Chi-quadrato con 1 “grado di libertà” :

gradi di libertà = prodotto tra il numero delle modalità delle variabili considerate a cui si sottrae 1. 2 modalità: presenza e assenza del carattere: gradi di libertà=(2-1)*(2-1)=1).

Page 23: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

E’ nota la legge di probabilità secondo cui si distribuisce il test Chi-quadrato sotto l’ipotesi nulla di non associazione.

La distribuzione di probabilità del Chi-quadrato cambia al variare dei gradi di libertà:

2campioneχ 2

,νχcritico

REGOLA DI DECISIONE:

Accetta H0 se:

<campione ,νcritico

2campioneχ 2

,νχcritico

Rifiuta H0 se:

>

;

Page 24: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Esempio: valore critico del Chi-quadro con 4 gdl ad un livello α=0.95: 9.49

Quando si esegue il test al PC, si haIl valore del Chi-quadro ed il corrispondente valore di 1-α o p:Es: Chi-quadro=11.14p=1-α=1-0.975=0.025

Page 25: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

I software forniscono come risultato il valore del test con la relativa probabilità: il valore di “p” del test= la probabilità di ottenere la differenza osservata o una

differenza maggiore, se l’ipotesi nulla è vera (pari a 1-α). Se p è piccolo l’ipotesi nulla è rifiutata perché poco probabile.

Accetta H0 se p > 0.05; Rifiuta H0 se p < 0.05;

Ex: supponiamo di aver rilevato due caratteri A e B: A= occhi azzurri ; B= miopia.Ex: supponiamo di aver rilevato due caratteri A e B: A= occhi azzurri ; B= miopia.

A/B presente assente totale

presente 15 135 150

assente 10 40 50

totale 25 175 200

58.21752550150

2002

1101354015200

2

2 =⋅⋅⋅

−⋅−⋅=campioneχ

84.32 =criticoχ2campioneχ 2

,νχcritico<

Occhi azzurri e miopia sono due eventi indipendenti (ad un livello di probabilità del 95%).

Page 26: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

La verifica di ipotesi sulla media di una variabile quantitativa: t-test

Siano x1, x2, ..., xn le nostre n osservazioni di una variabile quantitativa Xche stiamo studiando su un campione di dimensione n.Supponiamo che, in generale, X si distribuisca nella popolazione come una variabile casuale gaussiana: X~N(µX; σX).

H0 : µX = µ0H1 : µX ≠≠≠≠ µ0H1 : µX ≠≠≠≠ µ0

I passi da seguire per effettuare il t-test sono i seguenti:

∑=

=n

iix

nx

1

1

1: calcolare media

n

s

xT 0µ−

=

3: calcolare statistica di test

( )

11

2

−=∑

=

n

xxs

n

ii

2: calcolare dev std

&

Page 27: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

La variabile casuale T che si ottiene segue la distribuzione di probabilità t di Student con n-1 gradi di libertà:

campionet 1, −ntα

1,1, −− <<− ncampionen ttt αα

Accetta H0 se

<

cioè se

− t

campionet 1, −ntα

1,

1,

−<

>

ncampione

ncampione

tt

tt

α

α

Rifiuta H0 se

>

cioè se

Regione di accettazionerifiuto rifiuto

1, −ntα1, −− ntα

(1-α)/2=p/2 (1-α)/2=p/2

α=1-p

Page 28: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Ex: Supponiamo di aver rilevato su 10 unità statistiche la misura di un parametro X:

Unità X

1 8

2 -5

3 4

4 4

5 0

6 -3

La media del parametro X nella popolazione è pari a zero?

H0 : µX =0H1 : µX ≠≠≠≠ 0

1.01 == ∑ xn

xn

i7 1

8 -2

9 -6

10 0

( )

072.0

10

35.41.0

10

35.4

35.41

1

1.0

0

1

2

1

==−

=

=−−

=

==

=

=

µxt

xxn

s

xn

x

n

ii

ii

262.29, =αt<

Accettiamo l'ipotesi nulla: la media della popolazione non è significativamente diversa da 0.

Page 29: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Studio della relazione tra due variabili:

la regressione lineare semplice

Page 30: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

LA RETTA DI REGRESSIONE:

Quando si studia l'associazione tra due variabili quantitative, è utile definire:- una variabile "esplicativa“o 'CAUSA‘-una variabile "dipendente" o "risposta" cioè un 'EFFETTO'

Ex: consideriamo le seguenti coppie di variabili:

- X= Peso; Y= Tasso di colesterolo;- X= età (nei bambini tra 0 e 12 anni); Y= statura (nei bambini tra 0 e 12 anni)- X= dose di un farmaco; Y= "livello" di malattia/ tempo di guarigione.

Quali sono le cause e quali gli effetti ?

Si cerca di stimare la relazione tra X e Y tramite una funzione matematica:

Y=f(X)

In matematica, una funzione è una relazione tra due insiemi, che ad ogni elemento del primo insieme fa corrispondere uno e un solo elemento del secondoinsieme.

Page 31: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

A differenza però del concetto matematico di funzione (dove il legame tra X e Y è deterministico cioè privo di errore casuale), in statistica tale legame viene stimatousando dei dati campionari, quindi aleatori o stocastici o casuali.

deterministica

stocastica

-> per ogni valore assunto dalla variabile X esiste un'intera distribuzione di probabilità

i=1,…,n

-> per ogni valore assunto dalla variabile X esiste un'intera distribuzione di probabilità di valori della Y e ciò significa che per ogni X non sarà possibile conoscere con certezza il valore di Y.

-> quindi Y è una variabile casuale la cui distribuzione di probabilità è determinata dai valori della X e dalla distribuzione di probabilità della u.

-> la completa specificazione del modello di regressione include, oltre l'equazione della regressione, anche la specificazione della distribuzione di probabilità della componente stocastica.

Page 32: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

In altri termini, la retta di regressione è un'equazione lineare che associa ad ogni valore di X (variabile esplicativa) un valore atteso di Y (variabile dipendente):

E(Y)=α+β*X

αααα= "intercetta" della retta; ββββ= "pendenza" o "coefficiente angolare" della retta di regressione di Y su X.

Page 33: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Il problema statistico è quello di calcolare (stimare) i valori di αααα e ββββ, detti 'coefficienti diregressione', dati i valori di X e di Y osservati su un campione.

Il metodo piu' comunemente usato per stimare i coefficienti di regressione è definito:"metodo dei minimi quadrati" …(least squares)…

..minimizzare rispetto alle incognite αααα e ββββ gli scarti al quadrato tra i valori osservati di Y e ivalori 'teorici' di Y, cioè quelli che ci aspetteremmo di ottenere calcolandoli dai valoriassunti da X, tramite l'equazione di regressione...

( )n

yy −∑ ˆmin 2( )

ii

iii

ba

xy

yy

βα +=

−∑=

ˆ

ˆmin1

2

,

Si ottiene cosi’ l'equazione di una retta che "interpola" (=passa attraverso) la nuvola di punti osservati, in modo tale che la distanza media dei punti da questa retta sia minima.

Page 34: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Page 35: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

-Test di significatività sui coefficienti di regressione;

-Ipotesi alla base dei test sulla regressione

Page 36: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

I coefficienti della retta di regressione si stimano dal campione che abbiamo raccoltodi valori (xi,yi) , per i=1,..n, mediante il metodo dei minimi quadrati:

( )

ii

n

iii

xy

yy

βαβα

+=

−∑=

ˆ

ˆmin1

2

,

Si presume che stimando i parametri della retta sulla base del campione si commettaun errore u (cioè la stima della parte stocastica o i residui)che segue una distribuzione gaussiana standard:

( )σ,0

ˆ

Nu

yyu

≈−= ! Se la retta di regressione è un

modello soddisfacente dei dati osservati, allora la variabilità residua è gaussiana ed ha media zero!

Page 37: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Esempio: valori di emoglobina ed età in 20 donne:

Soggetto

Hb

(g/dl) età

1 11.1 20

2 10.7 22

3 12.4 25

4 14 28

5 13.1 28

6 10.5 31

7 9.6 32

8 12.5 35

10

12

14

16

18Hb

9 13.5 38

10 13.9 40

11 15.1 45

12 13.9 49

13 16.2 54

14 16.3 55

15 16.8 57

16 17.1 60

17 16.6 62

18 16.9 63

19 15.7 65

20 16.5 67

8

18 28 38 48 58 68 78

età

H0: non c’è associazione tra l’età ed i valori di Hb.

Retta di regressione:

E(Hb)=α+β*Età

Page 38: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Retta di regressione:

E(Hb)=α+β*Età=

=8.28+0.14*Età

2)( −≈ ntES ββ

ES(β) =errore standard del coefficiente di regressione

Coefficientsa

8.283 .684 12.101 .000

.136 .015 .909 9.236 .000

(Constant)

età

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Hba.

Output di SPSS della regressione lineare di Hb su Età

Valore di p=1-α

Page 39: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Retta di regressione:

E(Hb)=α+β*Età=

=8.28+0.14*Età

L’emoglobina aumenta in media di 0.14 g/dl ad ognianno di incremento dell’età.

Test di significatività:

2203.9015.0

14.0

)( −≈== tES β

β

9.3 > 2.10 : rifiuto l’ipotesi nulla

L’aumento dell’età è significativo sull’aumento medio di Hb.

Page 40: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

Presupposti alla base del test di significatività

1. La relazione tra Y ed X è approssimativamente lineare. La verifica più sempliceconsiste nell’esaminare lo scatter plot dei dati. Un’altra verifica è quella di esaminare lo scatter plot tra i residui della regressione e la variabile indipendente X.

Non rimane alcuna evidente relazione tra i residui e l’età; quindi la regressione lineare fornisce un modello adeguato per descrivere i dati.

Page 41: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

2. L’errore nella previsione non ha alcuna relazione con il valore previsto.La verifica più semplice consiste nell’esaminare lo scatter plot tra i residui della regressione e la variabile dipendente Y. Se i residui crescono al crescere di Y allorail modello di regressione lineare non è del tutto soddisfacente. - A volte può essere utile trasformare la scala di Y (per es. tramite logaritmo). -

I residui tendono a diminuire al cresceredei valori di Hb. Ciò suggerisce che l’età dei valori di Hb. Ciò suggerisce che l’età non sia la sola variabile ad influenzare Hb.

aggiungere altre variabili indipendenti-> modello di regressione multipla

Page 42: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

3. I residui sono distribuiti in modo gaussiano.La verifica più semplice consiste nell’esaminare l’istogramma dei residui.

Soggetto età Hb (g/dl)

Hb

pred

1 20 11 11

2 22 11 11

3 25 12 12

4 28 14 12

5 28 13 12

6 31 11 13

7 32 10 13

8 35 13 138 35 13 13

9 38 14 13

10 40 14 14

11 45 15 14

12 49 14 15

13 54 16 16

14 55 16 16

15 57 17 16

16 60 17 16

17 62 17 17

18 63 17 17

19 65 16 17

20 67 17 17

Page 43: Inferenza Statistica Stima & Test Giulia lezione 3.pdf · inferenza statistica si basano sul calcolo delle probabilità . Si tratta di ‘stimare’ sul campione il valore di parametri

Corso di Statistica Medica

4. I residui sono reciprocamente indipendenti.Nel caso in cui le misure che analizziamo provengono da differenti individui, ciò è assunto sempre vero. Ma, se le misure sono per esempio serie storiche (dati osservati più volte nel tempo) o misure ripetute sugli stessi individui ciò può non essere valido.In tali casi bisogna “complicare” il modello di regressione per tenere conto della correlazione esistente nelle misure della variabile dipendente…

autocorrelazione dei residui

Negli studi con misure ripetute sulle stesse unità statistiche non è corretto applicare il metodo della regressione a causa della autocorrelazione delle osservazioni (=non indipendenza)

Esistono modelli specifici di analisi per gli studi longitudinali (GLM=Generalized Linear Models)…