10
Legge dei grandi numeri e teorema limite centrale Cicchitelli Cap. 16 1 Media di una successione di v.a. Sia {X 1 , X 2 , …, X n } una successione di variabili aleatorie iid, cioè indipendenti e con identica distribuzione di probabilità, e sia la successione delle medie aritmetiche calcolate sulle prime 1, 2, 3, … variabili aleatorie. Le proprietà asintotiche riguardano il comportamento al limite, per n che tende a infinito, della successione delle medie Nel contesto dell’inferenza statistica la ennupla di variabili aleatorie {X 1 , X 2 , …, X n } viene detta campione casuale, mentre viene detta media campionaria. 1 2 1,2, n n X X X X n n 1 2 3 , , , X X X n X Media di una successione di v.a. /cont. Prima di studiare le proprietà asintotiche della media campionaria, vediamo alcune sue proprietà che valgono per qualunque valore finito di n. Indichiamo con e 2 media e varianza delle v.a. iid che generano la successione (nel contesto dell’inferenza statistica sono media e varianza della popolazione). La media campionaria è una speciale combinazione lineare di v.a.: Dalle proprietà delle combinazioni lineari si ottiene il seguente risultato: 2 n n EX Var X n 2 i i EX Var X Rispetto alle variabili che generano la successione, la media campionaria ha stessa media, ma varianza inferiore: al crescere di n (lunghezza della successione, ovvero dimensione campionaria) la media campionaria diventa sempre meno variabile. 1 2 1 1 1 n n X X X X n n n Vox populi Dunque la media campionaria ha lo stesso valore atteso di ogni singola componente, ma una varianza inferiore (tanto più piccola quanto più grande è n). Se le v.a. aleatorie sono n stime, allora la media campionaria è la stima media, e avendo varianza inferiore è una stima più precisa. Sotto certe condizioni, aggregando stime individuali si ottiene una stima più accurata, fenomeno noto come saggezza della folla, https://it.wikipedia.org/wiki/Saggezza_della_folla Una delle prime verifiche di questo fenomeno è dovuta a Sir Francis Galton, che in un articolo del 1907 intitolato ‘Vox Populi’ (https://www.nature.com/articles/075450a0) esaminava i risultati del gioco di previsione del peso di un bue alla fiera di Plymouth: la mediana delle circa 800 previsioni del peso di un bue era vicinissima al vero valore.

Legge dei grandi Xn numeri e teorema limite centrale n

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Legge dei grandi Xn numeri e teorema limite centrale n

Legge dei grandi numeri e teorema

limite centrale

Cicchitelli Cap. 16

1

Media di una successione di v.a.Sia {X1, X2, …, Xn} una successione di variabili aleatorie iid, cioèindipendenti e con identica distribuzione di probabilità, e sia

la successione delle medie aritmetiche calcolate sulle prime 1, 2, 3, … variabili aleatorie. Le proprietà asintotiche riguardano il comportamento al limite, per n che tende a infinito, della successione delle medie 

Nel contesto dell’inferenza statistica la ennupla di variabili aleatorie {X1, X2, …, Xn} viene detta campione casuale, mentre      viene detta media campionaria.

1 2 1,2,nn

X X XX nn

1 2 3, , ,X X X

nX

Media di una successione di v.a. /cont.Prima di studiare le proprietà asintotiche della media campionaria, vediamo alcune sue proprietà che valgono per qualunque valore finito di n. Indichiamo con  e 2 media e varianza delle v.a. iid che generano la successione (nel contesto dell’inferenza statistica sono media e varianza della popolazione). La media campionaria è una speciale combinazione lineare di v.a.:

Dalle proprietà delle combinazioni lineari si ottiene il seguente risultato:

2

n

n

E X

Var Xn

2

i

i

E X

Var X

Rispetto alle variabili che generano la successione, la media campionaria ha stessa media, ma varianza inferiore: al crescere di n (lunghezza della successione, ovvero dimensione campionaria) la media campionaria diventa sempre meno variabile.

1 21 1 1

n nX X X Xn n n

Vox populiDunque la media campionaria ha lo stesso valore atteso di ogni singola componente, ma una varianza inferiore (tanto più piccola quanto più grande è n).Se le v.a. aleatorie sono n stime, allora la media campionaria è la stima media, e avendo varianza inferiore è una stima più precisa.Sotto certe condizioni, aggregando stime individuali si ottiene una stima più accurata, fenomeno noto come saggezza della folla, https://it.wikipedia.org/wiki/Saggezza_della_follaUna delle prime verifiche di questo fenomeno è dovuta a Sir Francis Galton, che in un articolo del 1907 intitolato ‘Vox Populi’ (https://www.nature.com/articles/075450a0) esaminava i risultati del gioco di previsione del peso di un bue alla fiera di Plymouth: la mediana delle circa 800 previsioni del peso di un bue era vicinissima al vero valore.

Page 2: Legge dei grandi Xn numeri e teorema limite centrale n

Esempio: media di v.a. PoissonSupponiamo che {X1, X2, …, Xn} siano variabili aleatorie Poisson indipendenti con parametro  = 1.5

La distribuzione di probabilità di  dipende da n perché la varianza è funzione di n (si noti che la distribuzione non può essere Poisson perché la varianza è diversa dalla media).Nella pagina successiva si riportano i grafici della distribuzione di      per n = 2, 5, 10, 20.

1 2

1 2

( 1.5)1.51.5

n n n

nn n n

S X X X S Poi nX X XX E X Var X

n n

nX

nX

Esempio: media di v.a. Poisson   /contn=2 n=5

n=10 n=20

Due teoremi asintoticiDall’esame dei grafici precedenti si notano due andamenti:1. Al crescere di n la distribuzione di       tende a concentrarsi 

attorno al valore atteso (che nell’esempio è 1.5)2. Al crescere di n la distribuzione di       tende ad assumere la 

forma campanulare della distribuzione normale

Vedremo che questi andamenti sono conseguenze di due teoremi generali sul comportamento della media al crescere di n (formalmente per n e per questo detti teoremi asintotici):1. Legge dei grandi numeri2. Teorema limite centrale

nX

nX

Legge dei grandi numeri

Cicchitelli § 16.2

8

Page 3: Legge dei grandi Xn numeri e teorema limite centrale n

Legge dei grandi numeri (generale) Ancora l’esempio Poissonn = 2prob = 0.22

n = 5prob = 0.28

n = 10prob = 0.48

n = 20prob = 0.68

Per ogni grafico si riporta| |

con  1.5 e  0.3nprob P X

Legge dei grandi numeri: dimostrazione

Si usa la disuguaglianza di Chebychev per variabili aleatorie:

2( )( ) 1 Var YP Y E Y

2

21nP Xn

Nel caso di n variabili iid con media  e varianza 2 abbiamo visto che la media campionaria ha media  e varianza 2/n. Applicando la disuguaglianza alla media campionaria si ottiene

Per n il termine a destra tende a 1 e quindi la probabilità, essendo limitata superiormente da 1, tende a 1.

n

Legge dei grandi numeri ‐ graficoOgnuna delle 100 spezzate è una ripetizione dell’esperimento che consiste nell’estrarre (in modo indipendente) una successione di 40 valori da una distribuzione uniforme continua in [0, 1] e calcolare di volta in volta la media campionaria.

nXCome previsto dalla legge dei grandi numeri, la media campionaria tende alla media teorica (in questo caso 0.5). Le successioni rappresentate sono abbastanza corte (n=40) per cui in alcuni casi vi sono scostamenti di rilievo. 

Page 4: Legge dei grandi Xn numeri e teorema limite centrale n

Legge dei grandi numeri di Bernoulli

La legge dei grandi numeri si applica a una successione di variabili aleatorie indipendenti e con identica distribuzione, con distribuzione di qualunque tipo (può essere Uniforme, Poisson, Chi‐quadrato etc.).La versione originale dimostrata da Jakob Bernoulli è relativa al caso speciale in cui le variabili aleatorie sono di tipo binario (distribuzione di Bernoulli).

1 2

1 2

, , indipendenti e identiche con  ( )(numero totale di successi)

(frequenza relativa di successi)

n i

n n

nn n

X X X X Ber pS X X X

SX Rn

Frequenza relativa di successi

Se le prove sono indipendenti e identiche di probabilità p le probabilità delle frequenze relative sono identiche a quelle della binomiale (ad es. la probabilità di osservare una frequenza pari a 2/n coincide con la probabilità di osservare 2 successi in una binomiale con n prove)

14

1 2 (numero totale di successi)

( , ) (1 )

(frequenza relativa di successi)

(1 )

n n

n n n

nn

n n

S X X XS Bin n p E S np Var S np pSRn

p pE R p Var Rn

2 2

1 1

1 1 (1 )(1 )

nn n

nn n

SE R E E S np pn n n

S p pVar R Var Var S np pn n n n

dimostrazione

1 2 10, , , , ,1nn n n

La frequenza relativa di successi Rn è una v.a. con supporto 

Valore atteso e varianza

Legge dei grandi numeri di Bernoulli /cont.

Nel caso della distribuzione di Bernoulli • la media è uguale alla frequenza relativa di successo      • il valore atteso è uguale alla probabilità di successo ( = p) per cui il teorema si può scrivere così:

lim 1nnP R p

In questa versione la legge dei grandi numeri ci dice che all’aumentare del numero di prove, la distribuzione di probabilità della frequenza relativa con cui un evento casuale si verifica tende sempre più a concentrarsi attorno al valore di p (probabilità dell’evento stesso). Dunque, se p è ignota al crescere del numero di prove si ottiene una stima sempre più precisa.

n nX R

Legge dei grandi numeri di Bernoulli  /cont.

Esempio: 1000 prove indipendenti con identica probabilità p=0.5

Esempio: 1000 prove indipendenti con identica probabilità p=0.8

Page 5: Legge dei grandi Xn numeri e teorema limite centrale n

RiassumendoLa frequenza relativa di successi in nprove ha valore atteso pari alla probabilità di successo p qualunque sia il numero di prove

varianza che dipende dalla probabilità di successo p tramite il numeratore p(1‐ p) e che (aspetto fondamentale!) dipende inversamente da n, cosicché diminuisce al crescere del numero di prove

17

nE R p

LEGGE DEI GRANDI NUMERI DI BERNOULLI: in una sequenza di prove indipendenti e identiche, al crescere del numero di prove la frequenza relativa di successi converge alla probabilità di successo (e quindi diviene una stima sempre più precisa di tale probabilità).

(1 )n

pV r R pan

Capire la legge dei grandi numeri   /cont. L’esito di una specifica prova è imprevedibile, che sia la 1a, la 10a o la 

100000a (infatti le prove sono indipendenti e quindi quello che è successo prima è irrilevante)

Tuttavia al crescere del numero di prove la frequenza relativa empiricadiventa sempre più prevedibile

Dunque, mentre a livello individuale è difficile fare previsioni, a livello aggregato si possono fare previsioni molto accurate. Questo è il motivo per cui• il sesso di un nascituro è imprevedibile, mentre in un anno in un grande ospedale la percentuale di nati maschi è vicinissima al 50% (più precisamente al 51% https://en.wikipedia.org/wiki/Human_sex_ratio)

• il risultato delle singole giocate è imprevedibile, mentre il risultato del casinò è prevedibile con un piccolo margine di errore

• il singolo sinistro è imprevedibile, ma il risultato della compagnia di assicurazione è prevedibile con un piccolo margine di errore

Capire la legge dei grandi numeri  /cont.

La legge dei grandi numeri riguarda la convergenza della frequenza relativa, non della frequenza assoluta• Lanciando 100000 volte una moneta bilanciata, la frequenza relativa di Testa è vicinissima a 0.5 (quasi certamente tra 0.4953 e 0.5047)

• Ma questo non vuol dire che il numero di Teste e Croci sia vicino al valore atteso di 50000 ciascuno

• Ad esempio, se la proporzione di Teste fosse 0.497 (un valore plausibile), i numeri di Teste e Croci sarebbero 49700 e 50300, cioè con uno scarto di 600!

Numeri ritardatari Tra i giocatori del lotto è diffusa la credenza (errata!) che i numeri ritardatari abbiamo maggiore probabilità di uscire (ogni numero ha probabilità 1/18 di essere estratto e quindi esce mediamente ogni 18 estrazioni)

Nei lanci di moneta ciò equivale a credere che, se sono uscite meno Teste che Croci, allora in futuro usciranno più Teste per «compensare» il passato• Nell’esempio precedente, cosa possiamo prevedere per il lancio numero 100001?

• Ragionamento errato: siccome finora sono uscite meno Teste che Croci e nel lungo termine il numero di Teste deve essere circa uguale a quello di Croci, la probabilità di Testa è >0.5

• Ragionamento corretto: siccome le prove sono identiche e indipendenti, il passato non conta niente e la probabilità di Testa è 0.5 (la moneta non ha memoria!!!)

Page 6: Legge dei grandi Xn numeri e teorema limite centrale n

La fallacia dello scommettitore L’errata credenza sui numeri ritardatari è una fallacia diffusa tra i giocatori di sorte, ad es. molti giocatori della roulette pensano che dopo una lunga sequenza di «neri» vi sia un’elevata probabilità che esca un «rosso»

Questa fallacia deriva da una errata interpretazione della legge dei grandi numeri: infatti questa legge afferma che la frequenza relativa converge al valore teorico, ma ciò non avviene modificando la probabilità nel corso della sequenza, la convergenza si verifica semplicemente per diluizione:• Esempio: nei primi 10 lanci di una moneta bilanciata otteniamo 8 teste e quindi la frequenza relativa è 8/10 = 0.80, cosa ci aspettiamo nella prossima serie di 10 lanci? La probabilità di testa è sempre la stessa e quindi il risultato più probabile è 5 teste dopo 20 lanci ci aspettiamo di avere 8+5=13 teste, con frequenza relativa 13/20 = 0.65 (ecco la diluizione: da 0.80 in 10 lanci ci aspettiamo 0.65 in 20)

Swiss commemorative stamp of mathematician Jakob Bernoulli, issued 1994, displaying the formula and the graph for the law of large numbers, first proved by Bernoulli in 1713.

Teorema limite centrale

Cicchitelli § 16.3

23

Teore

ma lim

ite c

entr

ale

2

n

n

E X

Var Xn

infatti

Page 7: Legge dei grandi Xn numeri e teorema limite centrale n

Capire il teorema limite centraleIl teorema limite centrale afferma che, al tendere di n a infinito (cioè al crescere del numero di variabili), la funzione di ripartizione della v.a. Zn tende alla funzione di ripartizione della normale standard, a prescindere dalla distribuzione di probabilità delle v.a. della successione  {X1, X2, …}. Quindi la distribuzione può essere di qualunque tipo (uniforme, Bernoulli, Poisson, chi‐quadrato etc. purché con varianza finita), l’unica condizione è che le variabili della successione siano indipendenti e con identica distribuzione.Il teorema è espresso relativamente alla funzione di ripartizione, ma la funzione di ripartizione è in relazione biunivoca con la distribuzione di probabilità (massa nel caso discreto o densità nel caso continuo). Pertanto, una conseguenza del teorema è che, al crescere di n, la distribuzione di probabilità della v.a. media è sempre meglio approssimata dalla distribuzione normale di valore atteso  e varianza 2/n

2

,approssimativamente

nX Nn

Utilità del teorema limite centraleLa portata pratica del risultato sta nella possibilità di approssimare la funzione di ripartizione di Zn con la funzione di ripartizione della normale standard quando n è sufficientemente grande, qualunque sia la distribuzione delle v.a. della successione  {X1, X2, …}. Dunque per un qualunque intervallo (a,b) si può scrivere

Ancora l’esempio Poisson

Tre esem

pi per illustrare il teo

rema lim

ite centrale

Page 8: Legge dei grandi Xn numeri e teorema limite centrale n

Approssimare la Binomiale con la

Normale

Approssimare la Binomiale con la Normale /1 La distribuzione binomiale si applica al totale di successi in n prove indipendenti ciascuna avente probabilità di successo p

Quando n è grande il calcolo delle probabilità cumulate è complesso: es. SnBin(n=1000, p=0.5)  P(Sn 50) = P(Sn =0) + P(Sn =1) + … + P(Sn =50) e si tratta di valori piccolissimi, ad esempio P(Sn =50) = 8.8291×10‐217

Per fortuna possiamo approssimare le probabilità cumulate binomiali usando la tavola della Normale perché, al crescere del numero di prove n, la Binomiale tende alla Normale: infatti, la Binomiale è la somma di v.a. Bernoulli indipendenti e identiche e quindi si applica il teorema limite centrale (abbiamo formulato il teorema con riferimento alla media, ma possiamo equivalentemente scriverlo per la somma).

1 2

1 2

, , , indipendenti con  ( )(numero totale di successi)

( , ) (1 )

n i

n n

n n n

X X X X Ber pS X X X

S Bin n p E S np Var S np p

Approssimare la Binomiale con la Normale /2

Al crescere di n (numero di prove) aumenta il numero di punti del supporto e i bastoncini delle frequenze tendono a disporsi secondo una forma campanulare

Page 9: Legge dei grandi Xn numeri e teorema limite centrale n

Approssimare la Binomiale con la Normale /3La qualità dell’approssimazione cresce con il numero di prove bernoulliane n e dipende anche dalla probabilità di successo p: a parità di n, la qualità è migliore per p=0.5 (distribuzione bernoulliana simmetrica) e peggiora quanto più p è lontano da 0.5. Una regola pratica dice che l’approssimazione è soddisfacente quando np 5 e n(1‐p) 5

Per a

gevolare la co

mparazio

ne co

n la Normale, in

 que

sti grafici la 

prob

abilità di ogni pun

to non

 viene

 rapp

resentata con un

 bastoncino, 

ma con un

 retta

ngolo (la

 cui area è pari alla probabilità)

Approssimare la Binomiale con la Normale /4

Quali sono i parametri della Normale approssimante? Semplice, sono uguali a valore atteso e varianza della Binomiale:

(1 ) (1 ) (1 )n

nnp np npP P

np p np p np pS x xxS

La funzione di ripartizione della v.a.  SnBin(n, p) è molto simile a quella della v.a. N(np, np(1‐p))

( , )(1 )

n

n n

S Bin n pE S np Var S np p

Approssimare la Binomiale con la Normale: es.

La percentuale di cittadini favorevoli all’operato del sindaco è 40%.  Qual è la probabilità che, in un campione di n = 200, il numero di favorevoli sia compreso tra 76 e 80 (ovvero la percentuale di favorevoli sia compresa tra 38% e 40%)? E(X) = µ = np = 200(0.40) = 80 Var(X) = σ2 = np(1 – p) = 200(0.40)(1 – 0.40)  = 48

(nota: la condizione empirica per applicare l’approssimazione normale è ampiamente soddisfatta perché np=80≥5 e n(1 – p)=120 ≥5 )

76 80 80 80(76 80)48 48

( 0.58 0)(0) ( 0.58)0.5000 0.2810 0.2190

P X P Z

P ZF F

Intervallo per il totale di successi Lanciamo 1000 volte un dado bilanciato e consideriamo X = «numero di volte in cui esce il sei»  X ~ Bin(1000, 0.1667)• E(X) = µ = np = 1000(0.1667) = 166.7• Var(X) = σ2 = np(1 – p) = 1000(0.1667)(1 – 0.1667)  = 138.9111

Costruiamo un intervallo centrato sul valore atteso che contiene il numero di volte in cui esce il sei con probabilità circa 0.997  approssimando la Binomiale con la Normale e ricordando la regola empirica (in una Normale standard la probabilità tra ‐3 e +3 è 0.997) si ha

166.7 3 138.9111      131.3418, 202.0582

Page 10: Legge dei grandi Xn numeri e teorema limite centrale n

Intervallo per la frequenza relativa

37

Dato un evento A e una sequenza di prove indipendenti e identiche, al crescere del numero di prove la frequenza relativa empirica di A (numero di prove in cui A si verifica diviso il numero totale di prove) converge alla probabilità di A.Questa è la legge dei grandi numeri, che garantisce la convergenza ma non aiuta a rispondere a domande del tipo «Dopo n=100 ripetizioni, se p=0.5 in quale intervallo mi aspetto di trovare la frequenza relativa?» Per rispondere possiamo utilizzare il teorema limite centrale, approssimando la frequenza relativa con la Normale. Ad es. se p=0.5 si ha  = 0.5 e  2 = 0.50.5/n e quindi  = 0.5/nsiccome in una distribuzione Normale quasi tutti i valori (99.7%) sono compresi tra 3 e +3 , è quasi certo che la proporzione osservata di successi su nprove sia compresa in (0.5  1.5/n , 0.5 + 1.5/n )

n=100  (0.3500, 0.6500)n=1000  (0.4526, 0.5474)n=10000  (0.4850, 0.5150)n=100000 (0.4953, 0.5047)

0.00.10.20.30.40.50.60.70.80.91.0

10 100 1000 10000 100000

Freq

uenza relativa

Numero di prove (scala logaritmica)

Intervalli al 99.7% per la frequenza relativa