18
1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

Embed Size (px)

Citation preview

Page 1: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

1

CORSO DI STATISTICA

Bruno Mario CesanaStefano Calza

Nozioni di Calcolo della Probabilità

TERZA PARTE

Page 2: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

2

UN TEST DIAGNOSTICO (1)

Malato (M)

Sano (S) Totale

Test +

(Positivo)

A

(80)

B

( 50)

A + B

( 130)

Test –

(Negativo)

C

(20)

D

(850)

C + D

( 870)

Totale A + C

(100)

B + D

(900)

N

(1000)

A = VERI POSITIVI, B = FALSI POSITIVIC = FALSI NEGATIVI, D = VERI NEGATIVI

Page 3: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

3

UN TEST DIAGNOSTICO (2)Evento: (T+ M) P (T+ M) = A / (A + C) = SENSIBILITA’Evento: (T - S) P (T - S) = D / (B + D) = SPECIFICITA’Evento: (T+ S) Falsi Positivi (1 – Specificità)Evento: (T - M) Falsi Negativi (1 – Sensibilità)

Probabilità CONDIZIONATA di ottenere un TEST POSITIVO (T+) DATO CHE IL SOGGETTO E’ MALATO (M):

P(T M)Eq.1: P(T M)

P(M)

|

Probabilità CONDIZIONATA di ottenere un TEST POSITIVO (T+) DATO CHE IL SOGGETTO E’ SANO (S):

P(T S)Eq.2 : P(T S)

P(S)

|

Page 4: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

4

UN TEST DIAGNOSTICO (3)Ciò che interessa è la probabilità che IL SOGGETTO SIA MALATO DATO un TEST POSITIVO:

Probabilità CONDIZIONATA CHE IL SOGGETTO SIA MALATO (M) DATO un TEST POSITIVO (T+) :

P(T M) P(M)P(T M)P(M T )

P(T ) P(M)P(T M) P(S)P(T S)

|

|| |

Il numeratore è ottenuto dall’Eq.1 Il denominatore [P(T+)] è ottenuto dall’Eq. 1 e dall’Eq 2: P(T+)= (T+ M) + (T+ S).QUESTA E’ LA FORMULA DEL “TEOREMA DI BAYES” che permette di risolvere il problema dell’INFERENZA INVERSA (dal campione alla popolazione).

Page 5: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

5

UN TEST DIAGNOSTICO (4)VALORE PREDITTIVO POSITIVO (VP+):PROBABILITA’ CONDIZIONATA CHE IL SOGGETTO SIA MALATO (M) DATO un TEST POSITIVO (T+):

[P(M) 0.000083][P(T M) 0.8375]P(M T )

[P(M) 0.000083][P(T M) 0.8375] [P(S) 0.999917][P(T S) 0.1864]

||

| |

VALORE PREDITTIVO NEGATIVO (VP-):PROBABILITA’ CONDIZIONATA CHE IL SOGGETTO NON SIA MALATO (S) DATO un TEST NEGATIVO (T-):

[P(S) 0.999917][P(T S) 0.8136]P(S T )

[P(S) 0.999917][P(T S) 0.8136] [P(M) 0.000083][P(T M) 0.1625]

||

| |

Page 6: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

6

TEST DIAGNOSTICO – SCREENING (5)

Page 7: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

7

UN TEST DIAGNOSTICO (6)

Malato (M)

Sano (S)

Totale

Test +

(Positivo)

A

(80)

B

( 50)

A + B

( 130)

Test –

(Negativo)

C

(20)

D

(850)

C + D

( 870)

Totale A + C

(100)

B + D

(900)

n

(1000)

VP+ = A / (A + B ); VP- = D / (C + D)N.B.: FORMULE VALIDE SOLO IN CASO DI UN TEST DI SCREENING: n campione casuale dalla popolazione N.

Page 8: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

8

CURVE ROC (1)

Page 9: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

9

CURVE ROC (2)

Page 10: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

10

SINTOMI (S1, S2, S3) E MALATTIE (1)

S1 S2 S3 Totale

MAL. A 100

AS1

200

AS2

700

AS3

1,000

[P(A)]

MAL. B 600

BS1

1,500

BS2

900

BS3

3,000 [P(B)]

MAL. C 2,000

CS1

1,000

CS2

3,000

CS3

6,000 [P(C)]

Totale 2,700 [P(S1)] 2,700 [P(S1)] 4,600 [P(S1)] 10,000

P(AS1) = 100/10,000 = 0.01,…,P(CS3)=3,000/10,000 = 0.30

P(S1 A) = 100/1,000 = 0.10,…, P(S3 C) = 3,000/6,000 = 0.50

P(A) = 1,000/10,000 = 0.10,…,P(C) = 6,000/10,000 = 0.60

P(S1) = 2,700/10,000 = 0.27,…,P(S3) = 4,600/10,000 = 0.46

Page 11: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

11

SINTOMI (S1, S2, S3) E MALATTIE (2)S1 S2 S3 Totale

MAL. A 100 AS1

200 AS2

700 AS3

1,000

MAL. B 600

BS1

1,500

BS2

900

BS3

3,000

MAL. C 2,000

CS1

1,000 CS2

3,000 CS3

6,000

Totale 2,700 2,700 4,600 10,000

P(AS1) = 100/10,000 =0.01,…,P(CS3) = 3,000/10,000 =0.30

P(S1A) = P(S1 A) / P(A) = (100/10,000) / (1,000/10,000) = 100 / 1,000 = 0.10.

P(S1B) = P(S1 B) / P(B) = (600/10,000) / (3,000/10,000) = 600 / 3,000 = 0.20.

P(S1C) = P(S1 C) / P(C) = (2,000/10,000) / (6,000/10,000) = 2,000 / 6,000 = 0.33.

Page 12: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

12

SINTOMI (S1, S2, S3) E MALATTIE (3)S1 S2 S3 Totale

MAL. A 100 AS1

200 AS2

700 AS3

1,000

P(A)=0.10

MAL. B 600

BS1

1,500

BS2

900

BS3

3,000

P(B)=0.30

MAL. C 2,000

CS1

1,000 CS2

3,000 CS3

6,000

P(C)=0.60

Totale 2,700 2,700 4,600 10,000

P(AS1) = P(S1 A) / P(S1) = (100/10,000) / (2,700/10,000) = 100 / 2,700 = 0.03704.

P(BS1) = P(S1 B) / P(S1) = (600/10,000) / (2,700/10,000) = 600 / 2,700 = 0.22222.

P(CS1) = P(S1 C) / P(S1) = (2,000/10,000) / (2,700/10,000) = 2,000 / 2,700 = 0.74074.

Page 13: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

13

SINTOMI (S1, S2, S3) E MALATTIE (4)S1 S2 S3 Totale

MAL. A (M1) 100 AS1

200 AS2

700 AS3

1,000

P(A)=0.10

MAL. B (M2) 600

BS1

1,500

BS2

900

BS3

3,000

P(B)=0.30

MAL. C (M3) 2,000

CS1

1,000 CS2

3,000 CS3

6,000

P(C)=0.60

Totale 2,700 2,700 4,600 10,000

P(AS1) = P(S1 A) / P(S1) = (100/10,000) / (2,700/10,000) = 100 / 2,700 = 0.03704.

P(AS1) = P(S1 A) / [P(M1 S1) + P(M2 S1) + P(M3 S1)]n

1 i 1i 1

P(S ) P(M S )

ovvero:n

1 i 1 ii 1

P(S ) P(M ) P(S |M )

Page 14: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

14

FORMULA del Teorema di BayesDalla formula della probabilità condizionata:

i 1 ii 1 n

i 1 ii 1

P(M ) P(S |M )P(M | S )

P(M ) P(S |M )

i 1 i 1 ii 1

1 1

P(M S ) P(M ) P(S |M )P(M | S )

P(S ) P(S )

n

1 i 1 ii 1

P(S ) P(M ) P(S |M )

P(Mi) = Probabilità a priori (non dipendono dall’ esito A)

P(S1 | Mi) = Verosimiglianza (la probabilità di A dato che si è verificato Ei )

P(Mi|S1) = Probabilità a posteriori (verificatosi A, la probabilità con cui Ei si verifica)

Ma:

Quindi:

Page 15: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

15

Teorema di Bayes Consideriamo l’insieme degli eventi Ei,, i= 1,2..n tra loro

incompatibili che costituiscono lo spazio campione

n

1iiE

La P(A) sarà data dalla somma delle singole aree di intersezione AEi

)()(1

n

iiEAPAP )E|A(P)E(P)A(P i

n

1ii

Considero ora un evento A, sottoinsieme di

ovvero:

AE1

E2

E3

..........

En

Page 16: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

16

Teorema di Bayes (2)Proviamo a pensare agli eventi Ei come le cause che determinano l’evento A. Allora, se si è verificato A, con quale probabilità la causa è Ei? In altre parole: P(Ei|A) = ?

In tal caso le osservazioni sperimentali (A) forniscono nuove informazioni alle conoscenze a priori (E) [Da dove vengono quest’ultime? Da altri studi, da esperienze personali, ecc.]

Come noto:

n

1iii

iii

)E|A(P)E(P

)E|A(P)E(P)A|E(P

)(

)|()(

)(

)()|(

AP

EAPEP

AP

AEPAEP iii

i

)E|A(P)E(P)A(P i

n

1ii

P(Ei) = Probabilità a priori (non dipendono dall’ esito A)

P(A| Ei) = Verosimiglianza (la probabilità di A dato che si è verificato Ei )

P(Ei|A) = Probabilità a posteriori (verificatosi A, la probabilità con cui Ei si verifica)

Ma:

Quindi:

Page 17: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

17

Ulteriore esempio

E’ noto che il 2% delle persone controllate dalla polizia è risultato essere in stato d’ebbrezza.

Un laboratorio ha messo a punto un alcool-test che ha dato esito positivo nel 95% dei casi di reale ebbrezza (sensibilità) ed esito negativo nel 96% delle persone sobrie (specificità).

Quale è la probabilità che una persona sia realmente ebbra, in caso di esito positivo del test (dato che il test è risultato positivo) ?

E = evento “ubriaco”

NE = evento “non ubriaco”

T+ = evento “test positivo”

T- = evento “test negativo”

P(E) = 0.02 P(NE) = 1 - P(E) = 0.98

P(T+ |E) = 0.95 P(B|E) = 1 - P(T+ |E) = 0.05

P(T- |NE) = 0.96 P(T- |NE) = 1 - P(T- |NE) = 0.04

Page 18: 1 CORSO DI STATISTICA Bruno Mario Cesana Stefano Calza Nozioni di Calcolo della Probabilità TERZA PARTE

18

Esempio (2)Risulterà:

ovvero:

Non molto buono! Se aumentassi la specificità: P(T-|NE) = 0.99?

Decisamente meglio… ma non certo ottimale !

0.95 0.02P(E | T ) 0.33

0.95 0.02 0.04 0.98

P(T |E) P(E)P(E | T )

P(T |E) P(E) P(T |NE) P(NE)

0.95 0.02P(E | T ) 0.66

0.95 0.02 0.01 0.98