34
Analisi di proporzioni e distribuzioni con la distribuzione binomiale Nell’analisi delle proporzioni avevamo accennato alla distribuzione binomiale o la distribuzione teorica di probabilità della statistica p (proporzione di una certa caratteristica osservata in un campione estratto da una popolazione in cui la proporzione è pari π) è la distribuzione binomiale Nei test z e Chi-quadrato che abbiamo visto finora per analizzare proporzioni o numerosità avevamo anche detto però che è possibile, se alcune condizioni sono soddisfatte, utilizzare l’approssimazione normale (gaussiana) della binomiale o Solo se verificate queste condizioni [nπ e n(1-π) maggiori o uguali a 5 per il test z, non meno di 5 osservazioni attese in non più del 20% di categorie e nessuna categoria con meno di una osservazione attesA per test del chi-quadrato] o allora l’approssimazione della binomiale con la gaussiana è valida e i test z e chi quadrato si possono applicare Vediamo ora cosa fare in alcuni casi semplici quando queste assunzioni non sono vere ed è necessario ricorrere alla distribuzione binomiale o Prima di tutto, cos’è la distruzione binomiale?

Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

  • Upload
    vuxuyen

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Analisi di proporzioni e distribuzioni con la distr ibuzione binomiale

� Nell’analisi delle proporzioni avevamo accennato alla distribuzione binomiale o …la distribuzione teorica di probabilità della statistica p (proporzione di una certa

caratteristica osservata in un campione estratto da una popolazione in cui la proporzione è pari π) è la distribuzione binomiale…

� Nei test z e Chi-quadrato che abbiamo visto finora per analizzare proporzioni o numerosità avevamo anche detto però che è possibile, se alcune condizioni sono soddisfatte, utilizzare l’approssimazione normale (gaussiana) della binomiale o Solo se verificate queste condizioni

� [nπ e n(1-π) maggiori o uguali a 5 per il test z, non meno di 5 osservazioni attese in non più del 20% di categorie e nessuna categoria con meno di una osservazione attesA per test del chi-quadrato]

o allora l’approssimazione della binomiale con la gaussiana è valida e i test z e chi quadrato si possono applicare

� Vediamo ora cosa fare in alcuni casi semplici quando queste assunzioni non sono vere ed è necessario ricorrere alla distribuzione binomiale o Prima di tutto, cos’è la distruzione binomiale?

Page 2: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

La distribuzione binomiale � Supponiamo di compiere un esperimento con due soli risultati possibili

o Lancio una moneta: ottengo testa o croce? o Faccio un figlio: sarà maschio o femmina? o Provo un esame: viene superato oppure no? o Misuro la temperatura: e’ < 36.5 oppure ≥36.5 ? o Estraggo a caso un individuo dalla popolazione: è sposato oppure no? o Estraggo a caso un individuo dalla popolazione: fuma oppure no? o Campiono un lupo e analizzo il tratto di DNA che codifica per la catena beta

dell’emoglobina: è presente oppure no in almeno uno dei due cromosomi (materno o paterno) la mutazione da adenina a citosina nella base nucleotidica in posizione 56 rispetto ad una sequenza di riferimento?

Page 3: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

� Un esperimento di questo tipo è detto esperimento bernoulliano � Chiamiamo uno dei due eventi successo (S) e l’altro (l’evento complementare) insuccesso (I)

o Non importa quale dei due viene chiamato successo e quale insucceso, è una scelta arbitraria; per esempio

� testa = successo; croce = insuccesso � fumatore = successo; non fumatore = insuccesso � la mutazione A�C in posizione 56 nel gene per l’emoglobina è presente = successo;

la mutazione A�C in posizione 56 nel gene per l’emoglobina è assente = insuccesso � Chiamiamo ora

o π = probabilità dell’evento S (successo) o (1-π) = probabilità dell’evento I (insuccesso)

� Se quindi per esempio studio un singolo lupo (analogo ad un esperimento bernoullinano) e so

che π = 0.1, posso dire che la probabilità di ottenere una sequenza con la mutazione A�C in posizione 56 nel gene per l’emoglobina è pari a 0.1 o Questa probabilità, come al solito, mi dice che se avessi a disposizione un numero

elevatissimo di lupi, il 10% di questi sarebbero portatori di questa specifica mutazione

Page 4: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

� Supponiamo ora invece di ripetere l’esperimento bernoulliano 2 volte o Il numero di ripetizioni, e estrazioni, dette anche numero di prove, di indica con n o In questo caso n = 2

� Esempi

o Lancio due monete (o due volte la stessa moneta) e registro il numero di teste o Estraggo due individui a caso da una popolazione, chiedo se fumano, e registro il numero

di fumatori o Campiono e tipizzo geneticamente due lupi e registro quanti di loro hanno la la mutazione

A�C in posizione 56 nel gene per l’emoglobina

Chiara l’analogia con un campione di dimensione n e l’analisi delle proporzioni o numerosità!

Page 5: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

� Vediamo ora nel caso di due prove (n=2) quali sono tutti i risultati possibili e con che probabilità si può verificare ciascuno di essi o Queste probabilità vengono calcolate, e saranno quindi corrette, se (assumendo che)

� il risultato della prima prova non influenza il risultato della seconda prova, e � le probabilità di successo/insuccesso [π e (1-π)] nella singola prova restano costanti

� Intanto, quali sono i risultati possibili?

o SS (prima prova = successo; seconda prova = successo) o SI (prima prova = successo; seconda prova = insuccesso) o IS (prima prova = insuccesso; seconda prova = successo) o II (prima prova = insuccesso; seconda prova = insuccesso)

� Abbiamo detto che le prove sono indipendenti e le probabilità di successo/insuccesso non

cambiano da prova a prova. Quindi possiamo applicare la regola del prodotto per trovare le probabilità di ciascuno dei 4 risultati possibili.

Page 6: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

� Attenzione!

o Questi eventi sono tutti diversi se consideriamo l’ordine, ma ci sono solo tre eventi diversi se consideriamo il numero di volte che si ottiene un successo. Infatti ci possono essere 0, 1 o 2 successi in due estrazioni

o A noi interessa la probabilità di avere per esempio 1 testa in due lanci, o un lupo con la

mutazione in un campione di due lupi, non l’ordine con il quale gli eventi si verificano! o Quindi dobbiamo sommare qualche termine

� Chiamiamo X la variabile che ci interessa, cioè il numero di successi in n prove

Page 7: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

� E’ facilissimo vedere che nel caso di n= 2, le probabilità di ottenere X successi in n prove si ottengono dalle probabilità precedenti

o Per X= 0 e X=2, le probabilità sono quelle di avere II e SS o Per X=1, bisogna sommare i due termini (ovviamente uguali) che corrispondono ad avere

prima un successo e poi un insuccesso e prima un insuccesso e poi un successo

� Se chiamiamo π = p e (1-π) = q o [cosa che si trova su molti libri, ma attenzione a non confondere parametri con statistiche!]

allora le probabilità dei tre possibili risultati sono date dai termini che si ottengono dall’espansione del binomio (p+q)2 = p2 +2pq + q2

� Attenzione, nella descrizione e nell’uso della binomiale π e p vengono spesso usati in maniera

interscambiabile! Anche in questi appunti

Page 8: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena
Page 9: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Due esempi con n=2 e due diversi valori di ππππ

E’ la prima distribuzione teorica che siamo in grado di ricostruire con semplici calcoli!

Page 10: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

� Aumentando il numero di prove, e ragionando quindi per dimensioni campionarie maggiori, i calcoli non si complicano molto � Vediamo per n = 3

� Per n maggiori, si può ricorrere al triangolo di Tartaglia, o meglio, a triangolo di Chu Shin-Chieh, per trovare i coefficienti dei diversi termini, ma per fortuna c’e’ anche la funzione matematica della distribuzione binomiale

Page 11: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena
Page 12: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Due esempi con n=3 e due diversi valori di ππππ

Page 13: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena
Page 14: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Da ricordare

(questo termine si chiama coefficiente binomiale)

Perché è ragionevole che per x = 0 o x = n il coefficiente binomiale sia pari a 1?

Page 15: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Un esempio con n=20 e ππππ = = = = 0.3

- Siete capaci di fare la stessa cosa utilizzando la funzione binomiale per n=23 e π = 0.25? - Inizia a sembrare una gaussiana…(infatti, n cresce, ci sono tanti fattori, e nπ e n(1-π) sono

entrambi maggiori di 5

Page 16: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

La distribuzione teorica di una proporzione è binom iale perché lo è la distribuzione teorica del numero di successi in n p rove

Page 17: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Esercizio: i laureandi in medicina fumano come tutt i?

� L’ipotesi nulla e quella alternativa che sto testando sono le seguenti

� Non posso utilizzare z o chi-quadrato perché nπ0 = 16x0.25 < 5 � Testare le ipotesi sulle proporzioni equivale a testare le ipotesi nulle numerosità

o Se il numero di fumatori nel campione ha una probabilità di verificarsi molto bassa (<α) assumendo vera l’ipotesi nulla, allora anche la proporzione di fumatori nel campione avrà una probabilità di verificarsi molto bassa (<α) assumendo vera l’ipotesi nulla

Page 18: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

� La distribuzione nulla delle numerosità (la distribuzione che mi interessa per testare l’ipotesi nulla), ovvero la distribuzione del numero di fumatori in campioni con n = 16 se la probabilità di essere un fumatore è pari a 0.25 (valore specificato dall’ipotesi nulla) è interamente specificata dalla distribuzione binomiale

o Non ho bisogno di tabelle per fare un test binomiale!

� Ricostruire interamente la distribuzione nulla significa quindi, in questo caso, calcolare 17 valori di probabilità, ovvero

Page 19: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

P(x=0) = 160 75.025.0

0

16

=

1675.0 = 0.010023

P(x=1) = 151 75.025.0

1

16

= ( ) 151 75.025.016 = 0.053454

..

..

P(x=5) = 115 75.025.0

5

16

=

115 75.025.0!11!5

!16

=

115 75.025.0x4x3x25

12x15x14x13x16

= 0.180159

..

..

P(x=15) = 115 75.025.0

15

16

= ( ) 115 75.025.016 = 1.12x10-8

P(x=16) = 016 75.025.0

16

16

= 1625.0 = 2.33x10-10

� Con questa distribuzione nulla posso definire le regioni di accettazione e rifiuto e/o calcolare il P-value, ovvero fare un test di ipotesi come abbiamo visto precedentemente per le statistiche test z, t e χ2

o Attenzione, non è necessario ricostruire tutta la distribuzione nulla per fare un test di ipotesi con la binomiale!

Page 20: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

� In questa spiegazione consideriamo però la distribuzione nulla completa, riportata qui sotto in tabella e graficamente

0

0,05

0,1

0,15

0,2

0,25

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Numero x di fumatori se n = 16

Pro

babi

lità

di a

vere

x fu

mat

ori i

n un

ca

mpi

one

di 1

6 in

divi

dui s

e ππ ππ

= 0

.25

Page 21: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Identificazione delle regioni di accettazione e di rifiuto � Scelto un α = 0.05, determino le regioni di accettazione e rifiuto direttamente sommando le probabilità ai due lati della distribuzione fino a raggiungere il valore appena precedente al superamento della probabilità cumulativa pari a 0.025 (se si utilizza un test a due code) x = numero di fumatori in un campione di 16

individui

P(x) = Probabilità di osservare x fumatori in un campione di 16

individui se p = 0.25

Area cumulativa sinistra (Somma progressiva delle P(x) a partire dai valori piccoli di x)

Area cumulativa destra (Somma progressiva delle P(x) a partire

dai valori grandi di x)

0 0,010023 0,010023 1 1 0,053454 0,063476 0,989977 2 0,133635 0,197111 0,936524 3 0,207876 0,404987 0,802889 4 0,225199 0,630186 0,595013 5 0,180159 0,810345 0,369814 6 0,110097 0,920443 0,189655 7 0,052427 0,97287 0,079557 8 0,01966 0,99253 0,02713 9 0,005825 0,998356 0,00747 10 0,001359 0,999715 0,001644 11 0,000247 0,999962 0,000285 12 3,43E-05 0,999996 3,81E-05 13 3,52E-06 1 3,78E-06 14 2,51E-07 1 2,63E-07 15 1,12E-08 1 1,14E-08 16 2,33E-10 1 2,33E-10

In arancione, le regioni di rifiuto per un test bilaterale con α = 0.05.

Page 22: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

� La regione di accettazione va quindi da x = 1 (compreso) a x = 8 (compreso) � Il valore osservato (x = 2) cade quindi nella regione di accettazione, e l’ipotesi nulla non può

essere rifiutata � I dati sono compatibili con l’ipotesi nulla. Non ci sono forti evidenze che i laureandi in medicina

fumino di più, o di meno, rispetto alla popolazione generale o Cosa avremmo concluso de avessi fatto un test a una coda, ipotizzando per l’ipotesi

alternativa che gli studenti di medicina fumano meno rispetto alla popolazione generale?

Page 23: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Calcolo del P-value � Il P-value, come sempre, è dato dalla probabilità di osservare, se fosse vera l’ipotesi nulla, un campione ugualmente estremo, o più estremo (ossia ugualmente probabile, o meno probabile) di quello osservato realmente

o Se questa probabilità risulta inferiore al livello di a prescelto, rifiutiamo l’ipotesi nulla perché riteniamo i risultati osservati “troppo” improbabili

� (ovviamente non dimenticando che esiste, se rifiutiamo l’ipotesi nulla, l’errore di primo tipo!)

� Il P-value nel test binomiale appena visto è quindi la probabilità complessiva di osservare un campione con un valore x uguale al valore osservato nei dati (2 nell’esempio) o con valori di x più estremi (cioè meno probabili di quello osservato)

o Queste probabilità sono ovviamente (riguardate se necessario cos’è il P-value in un test) calcolate assumendo vera l’ipotesi nulla, in questo caso che π= π0 = 0.25

� In tabella, dobbiamo sommare tutti i valori di P≤0.133635, ossia della probabilità di osservare il campione realmente osservato (x =2) (da entrambe i lati della distribuzione, visto che stiamo facendo un test a due code).

Page 24: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

x = numero di fumatori in un campione di 16 individui

P(x) = Probabilità di osservare x fumatori in un campione di 16

individui se p = 0.25 0 0,010023 1 0,053454 2 0,133635 3 0,207876 4 0,225199 5 0,180159 6 0,110097 7 0,052427 8 0,01966 9 0,005825 10 0,001359 11 0,000247 12 3,43E-05 13 3,52E-06 14 2,51E-07 15 1,12E-08 16 2,33E-10

Il verde sono indicati tutti i valori di probabilità da sommare per ottenere il P-value. In rosso il valore di x osservato nei dati.

Page 25: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

� Il P-value risulta quindi pari a 0.387. Essendo minore di α = 0.05, rifiutiamo l’ipotesi nulla

o Ovviamente le conclusioni ottenute calcando il P-value sono le stesse di quelle viste con l’approccio delle regioni di accettazione rifiuto

� Un modo più semplice anche se le meno preciso per calcolare il P-value consiste nel

calcolare la probabilità che il valore di x sia più estremo del valore osservato nella coda della distribuzione, e moltiplicare questo valore per 2

o Nel nostro caso, questo significa sommare le prime tre probabilità nella tabella

precedente e moltiplicare per 2:

� P-value = 2x(0.010023+0.053454+0.133635) = 0.394 � Questo valore è leggermente superiore al valore calcolato nella forma più

precisa. L’approssimazione è quindi conservativa

Page 26: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Esercizio: i geni per la spermatogenesi si trovano soprattutto sul cromosoma X?

Page 27: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Esercizio: la scelta dei maschi nel topo dipende da lla posizione fetale delle femmine?

Page 28: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Test di adattamento di una distribuzione di frequen za osservata alla distribuzione binomiale (è un test di goodness-of-f it)

Page 29: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena
Page 30: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena
Page 31: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena
Page 32: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena
Page 33: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Ulteriori esempi sulla bontà di adattamento di una distribuzione osservata alla binomiale

Esempio 1 La mortalità in pesci in acquario dipende soprattutto dal caso (la scelta casuale di che pesce finisce in quale acquario, e altri eventi che agiscono con uguale probabilità su ciascun pesce) o forse dalla diffusione di malattie contagiose?

� In 60 acquari vengono inseriti 6 pesci di una certa specie, scelti a caso da una vasca grande. Da quel momento in poi, non si interviene più sugli acquari e dopo un mese si contano i pesci sopravvissuti per ogni vasca. I risultati, come numero di vasche con 0,1,2,3,4,5,6 pesci sopravvissuti, è il seguente: 6,6,12,15,8,7,6.

Page 34: Analisi di proporzioni e distribuzioni con la ...m.docente.unife.it/.../biostatistica-1/Slide13.pdf · probabilità ai due lati della distribuzione fino a raggiungere il valore appena

Esempio 2 Il rapporto tra i due sessi nelle famiglie è casuale?