32
CORSO DI CALCOLO E BIOSTATISTICA. A.A. 2007-2008. Canale IV. ELEMENTI DI PROBABILITA’ E STATISTICA. §1. PROBABILITA’. 1.1. COS’E’ LA PROBABILITA’. PROBABILITA’ CLASSICA. 1.1.1. Considerazioni introduttive. I giochi d’azzardo. Spesso, sia nella ricerca scientifica che in varie attivit` a pratiche, si ha a che fare con eventi le cui cause non sono note, o non sono controllabili, o anche in situazioni in cui, pur essendo le cause note e controllabili, almeno in linea di principio, conviene, per ragioni di tempo o di economia, rinunciare ad indagarle. Il caso classico ` e quello dei giochi d’azzardo, come i giochi di carte, il lotto, la roulette, i dadi, etc. In tutti questi giochi c’` e un insieme di singoli risultati di una certa azione (”eventi elementari”), che sono ”equivalenti”, possono cio` e, per quanto se ne sa, verificarsi indifferentemente: non c’` e alcuna ragione che permetta di prevedere un risultato piuttosto che un altro. Questo ` e il senso che spesso si attribuisce all’espressione ”scelta a caso”. Nei giochi d’azzardo questa indifferenza, o equivalenza, dei risultati, ` e una condizione ricercata: il gioco ` e ”equo” se ` e garantita la scelta a caso, mentre ` e considerato ”truccato” se con qualche artificio (o ”trucco”) si cerca di favorire un risultato scelto in precedenza. Un’altra condizione che ` e spesso richiesta nei giochi d’azzardo ` e che il rapporto tra le vincite e le somme puntate o scommesse sia tale che il gioco sia ”alla pari”, cio` e nessuno dei partecipanti sia favorito a priori. Questa richiesta comporta gi` a considerazioni di carattere matematico, che nei casi semplici sono elementari. Se per esempio, consideriamo il caso di un giocatore che gioca contro un banco scommettendo sul risultato del lancio di un dado il problema ha una facile soluzione. Se punta su un singolo valore, ad esempio ”3”, e vince, dovr` a avere sei volte la posta, perch` e sei sono i risultati possibili. (Assumiamo che il giocatore paghi la posta e poi incassi la vincita: la vincita netta ` e data dalla differenza.) Se invece scommetter` a sul risultato ”pari”, dovr` a, in caso di vincita, ricevere solo 6/3 = 2 volte la posta, perch` e l’evento su cui ha puntato corrisponde a tre casi elementari. Per giochi pi` u complessi il calcolo si complica. Se per esempio, come si fa di solito, si gioca con due dadi, puntando sul risultato della somma, i risultati possibili sono undici (e precisamente 2, 3,..., 11, 12), ma non sono equivalenti. Infatti si vede facilmente che ` e assai pi` u facile ottenere 7 che non 12. I risultati elementari equivalenti sono le coppie (ω 1 2 ), dove ω 1 ` e il risultato del primo dado e ω 2 del secondo, e sono in tutto 6 × 6 = 36. Quindi, se il gioco ` e alla pari, puntando sul ”2” si dovr` a avere 36 volte la posta, perch` e ω 1 + ω 2 = 2 corrisponde al solo evento elementare (1, 1) su 36 possibili, mentre puntando sul 10 si dovr` a avere solo 12 volte la posta, perch` e ω 1 + ω 2 = 10 corrisponde ai tre eventi elementari (6, 4), (4, 6), (5, 5). 1

ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

CORSO DI CALCOLO E BIOSTATISTICA. A.A. 2007-2008. Canale IV.

ELEMENTI DI PROBABILITA’ E STATISTICA.

§1. PROBABILITA’.

1.1. COS’E’ LA PROBABILITA’. PROBABILITA’ CLASSICA.

1.1.1. Considerazioni introduttive. I giochi d’azzardo.

Spesso, sia nella ricerca scientifica che in varie attivita pratiche, si ha a che fare coneventi le cui cause non sono note, o non sono controllabili, o anche in situazioni in cui, puressendo le cause note e controllabili, almeno in linea di principio, conviene, per ragioni ditempo o di economia, rinunciare ad indagarle.

Il caso classico e quello dei giochi d’azzardo, come i giochi di carte, il lotto, la roulette,i dadi, etc. In tutti questi giochi c’e un insieme di singoli risultati di una certa azione(”eventi elementari”), che sono ”equivalenti”, possono cioe, per quanto se ne sa, verificarsiindifferentemente: non c’e alcuna ragione che permetta di prevedere un risultato piuttostoche un altro. Questo e il senso che spesso si attribuisce all’espressione ”scelta a caso”.

Nei giochi d’azzardo questa indifferenza, o equivalenza, dei risultati, e una condizionericercata: il gioco e ”equo” se e garantita la scelta a caso, mentre e considerato ”truccato”se con qualche artificio (o ”trucco”) si cerca di favorire un risultato scelto in precedenza.

Un’altra condizione che e spesso richiesta nei giochi d’azzardo e che il rapporto tra levincite e le somme puntate o scommesse sia tale che il gioco sia ”alla pari”, cioe nessunodei partecipanti sia favorito a priori.

Questa richiesta comporta gia considerazioni di carattere matematico, che nei casisemplici sono elementari. Se per esempio, consideriamo il caso di un giocatore che giocacontro un banco scommettendo sul risultato del lancio di un dado il problema ha una facilesoluzione. Se punta su un singolo valore, ad esempio ”3”, e vince, dovra avere sei voltela posta, perche sei sono i risultati possibili. (Assumiamo che il giocatore paghi la postae poi incassi la vincita: la vincita netta e data dalla differenza.) Se invece scommetterasul risultato ”pari”, dovra, in caso di vincita, ricevere solo 6/3 = 2 volte la posta, perchel’evento su cui ha puntato corrisponde a tre casi elementari.

Per giochi piu complessi il calcolo si complica. Se per esempio, come si fa di solito,si gioca con due dadi, puntando sul risultato della somma, i risultati possibili sono undici(e precisamente 2, 3, . . . , 11, 12), ma non sono equivalenti. Infatti si vede facilmente chee assai piu facile ottenere 7 che non 12. I risultati elementari equivalenti sono le coppie(ω1, ω2), dove ω1 e il risultato del primo dado e ω2 del secondo, e sono in tutto 6× 6 = 36.Quindi, se il gioco e alla pari, puntando sul ”2” si dovra avere 36 volte la posta, percheω1 + ω2 = 2 corrisponde al solo evento elementare (1, 1) su 36 possibili, mentre puntandosul 10 si dovra avere solo 12 volte la posta, perche ω1 + ω2 = 10 corrisponde ai tre eventielementari (6, 4), (4, 6), (5, 5).

1

Page 2: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Da simili considerazioni si e sviluppata, tra il Quattrocento e il Settecento, la teoriamatematica della Probabilita.

1.1.2. Breve nota storica.

Gli inizi della trattazione matematica della probabilita, legata, come si e detto, a prob-lemi di giochi d’azzardo, si possono far risalire agli italiani Pacioli (1445-1514) e Tartaglia(1499-1557). Partendo dai loro risultati, si sviluppo poi nel secolo XVII, in ambienteprevalentemente francese, la teoria classica della probabilita, ad opera soprattutto di Pas-cal (1623-1662), di Fermat (1601-1665) e J. Bernoulli (1654-1705).

La teoria matematica moderna della probabilita, che la ricollega ad altri settori dellamatematica, si e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed eoggi uno strumento essenziale di molte discipline scientifiche.

1.1.3. Eventi elementari equivalenti. Probabilita classica o uniforme.l primo modello matematico generale di probabilita apparve nel secolo XVII, e prende

oggi il nome di ”probabilita classica” o ”uniforme”. Il modello, che ora passiamo a descri-vere, si applica ogni volta che si ha a che fare con un insieme finito di eventi elementariequivalenti, cioe che possono verificarsi indifferentemente.

L’ insieme dei possibili risultati Ω prende il nome di ”spazio degli eventi”. I suoipunti ω ∈ Ω sono gli ”eventi elementari”. Un ”evento” e un qualsivoglia sottoinsiemeA ⊂ Ω dello spazio degli eventi, inclusi lo stesso Ω, che prende il nome di ”evento certo”,e l’insieme vuoto ∅, detto anche ”evento impossibile”.

Se i punti sono equivalenti, la possibilita di verificarsi di un evento sara proporzionaleal numero dei suoi punti. Ad un evento A e naturale pertanto attribuire un numero, detto”probabilita di A”, che e una misura della possibilita del suo verificarsi:

P (A) =|A||Ω| =

numero dei casi favorevoli

numero dei casi possibili. (1.1.1a)

(Qui e in seguito, se A e un insieme, indichiamo con |A| = cardA la sua cardinalita, cioeil numero dei suoi punti.)

Questa e la formula della probabilita classica, che e detta anche ”uniforme”, perche leprobabilita degli eventi elementari sono tutte eguali. Il modello della probabilita classicae tuttora di importanza fondamentale per l’intuizione. E’ in questo contesto che la parola”probabilita” (=”dimostrabilita”), che nel sec. XVII indicava la possibilita di dimostrare,sotto certe ipotesi, la correttezza di un’affermazione, diventa un numero che caratterizzala sua ”verificabilita”.

La probabilita data dalla (1.1.1a) e il rapporto tra la posta e l’incasso in caso di vincitain un gioco equo: piu l’evento e probabile, meno si vince. L’espressione storica ”numerodei casi favorevoli” fa riferimento al giocatore che scommette sull’evento A.

La (1.1.1a) attribuisce, come si e detto, ad ogni evento elementare la stessa probabilitap(ω) = 1

n, dove n = |Ω| e il numero delle possibilita. La (1.1.1a) si puo riscrivere nella

forma

P (A) =∑

ω∈A

p(ω). (1.1.1b)

2

Page 3: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Per la probabilita degli eventi elementari, che e una funzione definita su Ω, usiamo lalettera minuscola p, riservando la lettera maiuscola P alla probabilita degli eventi, che einvece una funzione definita sui sottoinsiemi di Ω. Le due nozioni sono collegate dalla(1.1.1b).

1.1.4. Operazioni con gli eventi.

Si tratta delle operazioni con gli insiemi, che nel contesto della probabilita acquistanonuovi significati.

i) Unione. Se A, B ⊆ Ω sono eventi, la loro unione A∪B e un nuovo evento costituitodagli elementi ω ∈ Ω che appartengono ad A, o a B (compresi gli elementi comuni).

ii) Intersezione. Se A, B ⊆ Ω sono eventi, la loro intersezione A ∩ B e un nuovoevento costituito dagli elementi ω ∈ Ω che sono comuni ad A e a B.

iii) Complemento. Se A ⊆ Ω e un evento, Ac = Ω\A e il suo complemento o eventocomplementare, costituito da tutti gli elementi ω ∈ Ω che non sono in A.

Due eventi A, B ⊆ Ω si diconono incompatibili se A ∩ B = ∅, cioe se non hannoelementi in comune, e non possono quindi essere realizzati contemporaneamente. A ed Ac

sono sempre incompatibili: A ∩ Ac = ∅.E’ facile verificare le seguenti relazioni elementari:

A ⊆ A ∪ B, B ⊆ A ∪ B, A ∩ B ⊆ A, A ∩ B ⊆ B, A ∪ Ac = Ω. (1.1.2)

Nel seguito gli eventi specificati da una condizione o dall’elenco degli eventi elementaricostituenti li indicheremo di regola con parentesi graffe ·.

Esempio 1. Si lancia due volte una moneta. Lo spazio degli eventi e il prodottocartesiano Ω = T, C × T, C, che per convenzione si indica anche T, C2. Se ω1 e ilrisultato del primo lancio e ω2 del secondo, il generico evento elementare sara ω = (ω1, ω2).

Dati gli eventi A = ω1 = T, B = esce C almeno una volta, abbiamo: Ac = ω1 =C, Bc = TT, A ∩ B = TC, A ∪ B = Ω.

Esercizio 1. Se A, B sono come nell’ esempio di sopra, si individuino gli insiemiA ∩ Bc, Ac ∩ B, Ac ∩ Bc, Ac ∪ Bc.

1.1.5. Proprieta della probabilita.

Dalle (1.1.1a,b), aiutandosi con le relazioni (1.1.2), si deducono facimente tre proprietafondamentali della proprieta.

i) Se A ⊆ B, allora P (A) ≤ P (B);ii) P (Ω) = 1 ;iii) Se A, B sono incompatibili si ha P (A ∪ B) = P (A) + P (B), e, in particolare,

essendo A ∪ Ac = Ω, P (Ac) = 1 − P (A).

Esempio 1 (cont.) Torniamo all’esempio 1 visto sopra e calcoliamo le probabilitadi A, B, Ac, Bc, A ∩ B e Ac ∩ B.

Abbiamo A = TT, TC, B = CC, CT, TC, per cui P (A) = 24 = 1

2 e P (B) = 34 .

Per i complementari abbiamo quindi P (Ac) = 12

e P (Bc) = 14. Inoltre A ∩ B = TC, da

cui P (A ∩ B) = 14 , mentre Ac ∩ B = Ac.

3

Page 4: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Esercizio 2. Si lancia un dado, e sia ω ∈ 1, 2, . . . , 6 il risultato. Si calcolino leprobabilita degli eventi A = ω pari, B = ω > 3, ed inoltre P (A∩B), P (A∪B), P (Ac).

Suggerimento. Si ha A = 2, 4, 6, B = 4, 5, 6 e quindi A ∩ B = . . . .

1.2. ELEMENTI DI CALCOLO COMBINATORIO.

La probabilita classica comporta in molti problemi pratici il calcolo della cardinalitadi insiemi che corrispondono a diversi modi di ordinare o di raggruppare gli elementi dellospazio degli eventi Ω. Questo e l’oggetto del Calcolo Combinatorio, di cui diamo qui diseguito alcune nozioni elementari.

1.2.1. Disposizioni complete (o permutazioni) di n oggetti.

Sono i modi di disporre, o ordinare, n oggetti. Si puo pensare di avere n casellenumerate da 1 a n in cui disporre gli oggetti.

Si vuol calcolare il numero Dn di tutti i modi possibili di collocare gli oggetti nellecaselle. E’ facile vedere che Dn e dato dal prodotto di tutti gli interi da 1 a n:

Dn = n! := 1 · 2 · . . . · (n − 1) · n. (1.2.1)

(Il prodotto di tutti gli interi da 1 a n si denota con n! e prende in nome di ”n fattoriale”.)Per la dimostrazione della (1.2.1) notiamo innanzitutto che e evidente per n = 1 e per

n = 2. Per n = 3 si tratta di disporre tre oggetti in tre caselle. Il primo (quello che va,per intendenrci, nella casella 1) puo essere scelto in tre modi, e, per ogni scelta del primo,i due rimanenti si collocano in due modi. Per cui D3 = 3 · 2 = 6.

Si puo procedere con D4, etc., ma per risolvere il problema per ogni n si usa il metododell’induzione matematica: se dimostriamo che la validita della (1.2.1) per n ≤ n0 implica,qualsiasi sia n0, la sua validita per n = n0 + 1, abbiamo dimostrato la (1.2.1).

Difatti, se n = n0 + 1 possiamo scegliere l’oggetto da collocare nella prima casella inn0 + 1 modi. Per ogni scelta del primo rimangono n0 oggetti da disporre nelle n0 casellerimaste, e per l’ipotesi induttiva questo si fa in n0! modi. In totale Dn0+1 = (n0 +1)n0! =(n0 + 1)!.

1.2.2. Disposizioni (senza ripetizioni) di n oggetti di classe k < n.

Si tratta di disporre non tutti gli n oggetti, ma solo k < n di loro. Abbiamo, cioe,solo k caselle in cui disporre gli oggetti.

E’ chiaro che il primo oggetto puo essere scelto in n modi, per ogni scelta del primo ilsecondo oggetto e scelto in n− 1 modi, etc. Quindi, se Dn;k e il numero delle disposizionirichieste, abbiamo

Dn;k = n(n − 1) . . . (n − k + 1) =n!

(n − k)!. (1.2.2)

Si noti che per k = n si ritrova la (1.2.1).Nella seconda eguaglianza bisogna usare la convenzione 0! = 1, che adotteremo d’ora

in poi.

1.2.3. Rapida crescita del fattoriale. Formula di Stirling.

4

Page 5: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Un fatto che ha conseguenze pratiche e scientifiche rilevantissime e la rapida crescitadi n! al crescere di n. Se infatti 5! = 120, per cui provare tutti i modi di ordinare cinqueoggetti non e difficile, gia con 10 oggetti l’impresa e assai onerosa, perche 10! = 3.628.800.

Per fare un esempio pratico, supponiamo che una squadra di 12 giocatori voglia fo-tografarsi su un podio in tutte le disposizioni possibili. Se anche per cambiare di postoe scattare impiegassero un solo minuto, la procedura durerebbe 12!=479.001.600 minuti,cioe 911 anni e alcuni mesi!

Numeri cosı grossi non sono comodi da trattare, e per grandi n si ricorre ad unaformula approssimata, detta ”formula di Stirling”:

n! = nne−n√

2πn eθnn , (1.2.3)

dove e = 2, 7182 . . . e la base dei logaritmi naturali (numero di Nepero), e |θn| < 112

. Il

termine eθnn e un termine correttivo che vale praticamente 1 per n anche moderatamente

grandi, e quindi in genere si puo trascurare.Applicando questa formula si puo vedere che il numero dei possibili risultati del mesco-

lamento di un mazzo di carte napoletane (40 carte) e 40! ≈ 1046. Per cui anche se unapopolazione dell’ordine di 10 miliardi giocasse perennemente a briscola per un periododell’ordine dell’eta dell’universo (10 miliardi di anni), impiegando un quarto d’ora per ognipartita, si realizzerebbero non piu di 1024 partite, e quindi solo una frazione infinitesimadi tutte le possibilita.

Infine si noti che 70! supera il numero dei nucleoni dell’universo (stimato a circa 1080).

1.2.4. Combinazioni di n oggetti di classe k .

Il termine ”combinazione” indica che si prescinde dall’ordinamento: e un sottoinsiemedi k elementi tratti da un dato insieme.

Sia Cn;k il numero di tali combinazioni tratte da un insieme di n oggetti. E’ ovvioche se k = n prendiamo tutto l’insieme, e c’e quindi una sola scelta: Cn;n = 1. Se invecek = 1 le scelte saranno tante quante sono gli oggetti a disposizione: Cn;1 = n.

Nel caso generale si noti che per ogni data combinazione di k oggetti si hanno esat-tamente k! disposizioni diverse di classe k, ottenute disponendo i k oggetti in tutti i modipossibili. Quindi Dn;k = k!Cn;k, ovvero

Cn;k =Dn;k

k!=

n!

k!(n − k)!:=

(n

k

). (1.2.4)

Il simbolo(nk

)e detto ”coefficiente binomiale”, e si noti che

(nk

)=

(n

n−k

). Esso compare

nella formula dello sviluppo del binomio:

(a + b)n = an +

(n

1

)abn−1 +

(n

2

)a2bn−2 + . . . +

(n

n − 1

)an−1b + bn,

che, usando la convenzione 0! = 1 si scrive nella forma compatta

(a + b)n =n∑

k=0

(n

k

)akbn−k. (1.2.5)

5

Page 6: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Esempio 1. Si lancia una moneta cinque volte. Calcolare quante sono le successionirisultanti in cui ”testa” (T ) appare esattamente tre volte.

Rappresentiamo la generica successione risultante come ω = (ω1, . . . , ω5), con ωi ∈T, C, i = 1, . . . , 5. Le successioni con tre T (e due C) sono tante quanti sono i modi discegliere i tre posti per le T (i tre indici i per cui ωi = T ), che devono essere tanti quantisono i modi di scegliere i due posti per le C (i due indici i per cui ωi = C).

Sono quindi(53

)=

(52

)= 10.

Osservazione. L’eguaglianza gia osservata(nk

)=

(n

n−k

)corrisponde al fatto che

scegliere un sottoinsieme di k oggetti tra n e la stessa cosa che scegliere il sottoinsiemecomplementare di n − k oggetti.

Esempio 2. Il gioco del lotto consiste nell’ estrazione di cinque numeri tra i priminovanta. Per le giocate che non dipendono dall’ordine di estrazione (come il ”terno alotto”), il numero totale delle possibili estrazioni del lotto su una ruota e quindi

(905

).

Eercizio 1. Si lancia una moneta quattro volte. Qual’e la probabilita di avereesttamente due T?

Esercizio 2. Un’urna contiene quattro sfere nere e sei bianche. Si estraggono con-temporaneamente due sfere. Qual’e la probabilita che siano entrambe bianche?

Numero di eventi di uno spazio degli eventi finito.Ci si puo chiedere quale sia il numero di tutti i possibili eventi per uno spazio degli

eventi Ω finito, e fatto di n = |Ω| elementi.Si tratta del numero di tutti i sottoinsiemi distinti, incluso Ω e l’insieme vuoto ∅. Per

ogni k < n vi sono, per la (1.2.4),(nk

)sottoinsiemi di k elementi. Quindi il numero totale

e, per la (1.2.5),n∑

k=0

(n

k

)= (1 + 1)n = 2n.

1.2.5. Disposizioni con ripetizioni di n oggetti di classe k .

Si tratta di collocare in k caselle n oggetti. Grazie alle ripetizioni, puo ben esserek > n, nel qual caso le ripetizioni sono inevitabili. Per l’ intuizione, roprio per il fatto checi sono ripetizioni possibili, e meglio parlare di simboli, piuttosto che di oggetti.

L’esempio piu noto e quello una colonna del totocalcio, dove n = 3 e il numero deisimboli, che sono 1,2,X, e k = 13 e il numero delle caselle.

Detto Dn;k il numero di tutte le possibili tali disposizioni si vede facilmente che

Dn;k = nk. (1.2.6)

Infatti il primo simbolo si sceglie in n modi, e, fissato il primo, anche il secondo si scegliein n modi, e cosı gli altri, fino al k-esimo.

Esempio 3. Se si lancia una moneta cinque volte, il risultato e una successione dicinque simboli, ciascuno dei quali puo essere T o C. Tutti i possibili casi sono quindi25 = 32.

Esempio 4. Nella colonna del totocalcio con tre simboli si devono riempire tredicicasello: il numero dei possibili modi di farlo e quindi 313.

6

Page 7: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Esempio 5. Si vuol calcolare quanti sono tutti i possibili modi di indovinare esatta-mente 10 risultati compilando una colonna del totocalcio.

Pensando di aver fissato il risultato incognito delle 13 partite, si tratta di calcolareil numero delle possibili colonne con 10 risultati giusti e 3 errati. Possiamo scegliere le10 partite indovinate (o le 3 sbagliate) in

(1310

)=

(133

)modi, e siccome una partita si puo

sbagliare in due modi, il numero totale e 23(1310

)= 2288.

1.3. PROBABILITA’ DISCRETA.

1.3.1. Spazio di probabilita finito: caso generale.

Torniamo all’esempio 1 del §1.1, e sia NT il numero di ”teste” (T ) ottenuto nei duelanci della moneta. Si ha

P (NT = 0) =1

4, P (NT = 1) =

1

2, P (NT = 2) =

1

4.

Se ci interessa solo il valore di NT possiamo prendere uno spazio degli eventi con tresoli elementi Ω = 0, 1, 2. I tre elementi pero non hanno probabilita eguale: infattiP (0) = P (2) = 1

4, mentre P (1) = 1

2. Siamo dunque usciti dallo schema classico, anche se

le nuove probabilita sono state calcolate in un modello di probabilita classica ”sottostante”.

In generale, uno spazio di probabilita finito e dato da una coppia (Ω, p), costituitada un insieme finito Ω, detto ”spazio degli eventi”, e da una funzione non negativa su diesso p(ω) ≥ 0, ω ∈ Ω, che da la probabilita degli eventi elementari (detta anche ”densitadiscreta”), ed e tale che

∑ω∈Ω p(ω) = 1.

Gli eventi sono i sottoinsiemi di Ω, e la probabilita di un evento A ⊆ Ω e data dallasomma delle probabilita dei suoi eventi elementari:

P (A) =∑

ω∈A

p(ω). (1.3.1)

Dalla (1.3.1) segue che non puo mai essere P (A) > 1, per nessun evento A, percheP (A) e data da una somma di probabilita non negative p(ω), che non puo mai superare lasomma su tutti gli elementi ω ∈ Ω.

1.3.2. Proprieta fondamentali della probabilita.

Le proprieta della probabilita sono gia viste nel §1.1.4 valgono anche nel caso generale.Le ripetiamo qui insieme ad alcune immediate conseguenze.

i) Se A ⊆ B, allora P (A) ≤ P (B);ii) P (Ω) = 1 ;iii) Se A, B sono incompatibili si ha P (A ∪ B) = P (A) + P (B), e, in particolare,

P (Ac) = 1 − P (A).

Dalla i), usando la iii), si vede che, se A ⊆ B, allora P (B) = P (A) + P (B \ A).

La iii) si estende a tre o piu eventi. Nel caso di tre eventi, se A, B, C sono incompatibili,cioe A ∩ B = A ∩ C = B ∩ C = ∅, allora P (A ∪ B ∪ C) = P (A) + P (B) + P (C). Infatti,basta prendere B′ = B∪C, verificare che A∩B′ = ∅, e applicare la iii) due volte. Iterandola procedura si arriva alla conclusione per un qualunque numero di eventi incompatibili.

7

Page 8: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Per l’unione di due eventi, nel caso generale, si ha la seguente formula

P (A ∪ B) = P (A \ B) + P (B \ A) + P (A ∩ B) = P (A) + P (B) − P (A ∩ B). (1.3.2)

Infatti nella somma P (A) + P (B) i punti dell’intersezione A ∩ B sono contati duevolte, e quindi bisogna sottrarre P (A∩B). Oppure si puo ragionare cosı : A∪B e l’unionedi tre eventi incompatibili A ∪ B = (A \ B) ∪ (B \ A) ∪ (A ∩ B), e poi si osserva cheA = (A \ B) ∪ (A ∩ B) e similmente per B.

Esempio 1. Nel lancio di due dadi, detto (ω1, ω2) l’evento elementare, si vuolecalcolare la probabilita dell’evento B = ω1 · ω2 multiplo di 3.

Invece del conteggio esplicito, introduciamo gli eventi B1 = ω1 multiplo di 3, eB2 = ω2 multiplo di 3. Si ha B = B1 ∪B2, perche se ω1 · ω2 e multiplo di 3 almeno unodei due numeri ω1, ω2 deve esserlo. Per la (1.3.2), essendo P (B1) = P (B2) = 2·6

36= 1

3, e

P (B1 ∩ B2) = 2·236 = 1

9 abbiamo P (B) = 23 − 1

9 = 59 .

Esercizio. Nel lancio di due dadi dell’esempio precedente, si considerino gli eventiA = ω1 +ω2 dispari e C = ω2 pari. Si calcolino le probabilita degli eventi A, C, A∪C,A ∩ C, (A ∩ C)c, e C ∩ B, dove B e l’evento considerato nell’esempio.

1.3.3. Il caso di un’infinita (numerabile) di eventi elementari.

La costruzione vista sopra rimane essenzialmente la stessa se si considera uno spaziodegli eventi che ha un’infinita numerabile di eventi elementari. Ricordiamo che un insiemeinfinito e ”numerabile” se i suoi punti si possono numerare, cioe si puo attribuire a ciascunelemento un numero d’ordine. Come e noto, vi sono insiemi infiniti, come i punti di unsegmento della retta, per cui cio non e possibile.

Se Ω e numerabile la (1.3.1) puo rappresentare una somma infinita, o ”serie”, cheda pero un risultato finito, anzi ≤ 1. Questo fatto si esprime dicendo che la sommainfinita, o serie, ”converge”. Rimandiamo alle lezioni sulle successioni e serie per maggioreinformazione.

Esempio 2. Si lancia un dado finche non esce per la prima volta ”6”. Qual’e laprobabilita che il gioco si fermi a tre lanci? E qual’e la probabilita che il gioco non si fermimai?

Per la prima domanda consideriamo lo spazio degli eventi per tre lanci, il cui eventoelementare denotiamo con ω = (ω1, ω2, ω3). Detto τ il tempo di arresto, l’arresto al terzolancio e l’evento τ = 3 = ω1 6= 6, ω2 6= 6, ω3 = 6. I casi totali sono 63, quelli favorevoli5 · 5 · 1 = 25, e la probabilita e quindi P (τ = 3) = ( 5

6 )2 16 .

Per l’arresto al lancio di numero k si vede analogamente che

P (τ = k) =

(5

6

)k−11

6.

La probabilita che il 6 esca prima o poi e data dalla serie∑∞

k=1 P (τ = k). Applicandola formula armonica

1 + a + a2 + . . . + an−1 =1 − an

1 − a,

8

Page 9: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

che e valida per ogni a 6= 1, al caso a = 56 otteniamo

P (τ = 1) + P (τ = 2) + . . . + P (τ = n − 1) = 1 −(

5

6

)n

.

Per n → ∞ otteniamo la somma della serie, che e 1. Quindi la probabilita del comple-mentare, cioe dell’evento che 6 non esca mai, e nulla.

Se prendiamo i numeri interi Ω = 1, 2, . . . con le probabilita p(k) = P (τ = k)abbiamo uno spazio di probabilita non piu finito, ma numerabile.

Per probabilita discreta si intende che lo spazio degli eventi Ω e finito o numer-abile. Come vedremo in seguito, si parla invece di probabilita continua quando Ω e unintervallo della retta, o un sottoinsieme di R

n che ha la potenza del continuo.

1.4. PROBABILITA’ CONDIZIONATA. EVENTI INDIPENDENTI.

1.4.1. Probabilita condizionata o condizionale.

Sia (Ω, p) uno spazio di probabilita discreto, e A, B ⊆ Ω due eventi con P (B) >0. Si dice ”probabilita condizionata (o condizionale) di A rispetto a B”, o anche”probabilita di A sotto la condizione B” la quantita

P (A|B) :=P (A ∩ B)

P (B). (1.4.1a)

Si puo dire anche che P (A|B) e la probabilita di A assumendo che ”accade B”.Per B fissato, la (1.4.1a) e una nuova probabilita, che denotiamo PB, su Ω:

PB(A) := P (A|B) =∑

ω∈A∩B

P (ω)

P (B)=

ω∈A

PB(ω). (1.4.1b)

L’evento B, come e ovvio, diviene certo: PB(B) = 1.

Se P (A|B) > P (A) vorra dire che l’evento A e ”favorito” da B, e sara ”sfavorito” seP (A|B) < P (A). Chiaramente A e sfavorito al massimo se e incompatibile con B, cioe seA ∩ B = ∅, cioe A ⊆ Bc: in questo caso P (A|B) = 0.

Come si vede dalle (1.4.1a,b), per la probabilita P (A|B) conta solo la parte di A chesi trova in B, cioe A ∩ B. Il resto, cioe A ∩ Bc, come tutti gli eventi contenuti in Bc, haprobabilita condizionata nulla.

Esempio 1. Si lancia un dado e sia ω ∈ 1, . . . , 6 il risultato. Dati A = ω ≤ 3,B = ω dispari , vogliamo calcolare P (A|B).

Abbiamo P (B) = 12, e P (A ∩ B) = P (1, 3) = 2

6= 1

3. Quindi P (A|B) = 2

3.

Si ha P (A|B) > P (A) = 12 , cioe, come e ovvio, B favorisce A.

Esercizio 1. Si lanciano tre monete, e siano NT , NC il numero di teste e croci. Datigli eventi A = NT < NC e B = NT dispari , calcolare P (A) e P (A|B).

Nota. Storicamente la probabilita condizionata e nata dal problema di dividere laposta, in caso di interruzione di un gioco, tenendo conto dei risultati ottenuti.

9

Page 10: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Diamone un semplice esempio. Supponiamo che due giocatori, G1 e G2, lancino aturno per due volte una moneta: chi ottiene il maggior numero di ”teste” incassa tuttala posta, e in caso di pareggio la si divide a meta. Se al primo turno G1 ottiene ”testa”e G2 ”croce”, e poi il gioco si interrompe (p.es., la moneta cade in un tombino), come sicalcolano le nuove probabilita per dividere la posta?

Lo spazio di probabilita e Ω = T, C4 (quattro lanci di moneta), con 16 elementi, e

sia l’evento elementare si puo scrivere ω = (ω(1)1 , ω

(1)2 ; ω

(2)1 , ω

(2)2 ). Detti N

(1)T , N

(2)T i numeri

di teste realizzati dai due giocatori, la probabilita di pareggio e

P (N(a)T = N

(b)T ) = P (N

(a)T = N

(b)T = 0) + P (N

(a)T = N

(b)T = 1) + P (N

(a)T = N

(b)T = 2).

Si ha P (N(1)T = N

(2)T = i) = P (N

(1)T = i) P (N

(2)T = i) = (P (N

(1)T = i))2, i = 0, 1, 2, per

l’indipendenza delle prove. Sommando si ottiene la probabilita di pareggio che e 38 . La

probabilita che uno dei due giocatori vinca e percio 1 − 38 = 5

8 , e poiche i due sono sullostesso piano , ciascuno ha probabilita 5

16di vincere.

Pertanto se A = G1 vince e D = pareggio , abbiamo P (A) = 516 e P (D) = 3

8 .

Sotto la condizione B = ω(1)1 = T, ω

(2)1 = C il giocatore G2 non puo vincere.

Abbiamo D ∩ B = T, C; C, T, e siccome P (B) = 14 , si ha P (D|B) = 1

4 , e P (A|B) = 34 .

Quindi tre quarti della posta vanno ad G1 e il rimanente quarto e diviso a meta.

1.4.2. Formula della probabilita totale e formula di Bayes.

Formula della probabilita totale. Se lo spazio degli eventi Ω si decompone inmodo naturale in parti (eventi), A1, . . . , An, caratterizzati da certe proprieta, puo essereconveniente esprimere le probabilita tramite le corrispondenti probabilita condizionate aglieventi Ak, k = 1, . . . , n.

Gli eventi Ak, k = 1, . . . , n devono costituire una “partizione” (o “decomposizione”)di Ω, cioe, non devono avere punti in comune (devono essere incompatibili), Aj ∩ Ak = ∅se j 6= k, e devono coprire tutto lo spazio Ω, cioe A1 ∪ A2 ∪ . . . ∪ An = Ω. L’esempio piusemplice di partizione e quello costituito da un evento A e dal suo complementare Ac.

Data una partizione, per ogni evento B ⊂ Ω, vale la formula della probabilitatotale:

P (B) = P (B|A1)P (A1) + P (B|A2)P (A2) + . . . + P (B|An)P (An). (1.4.2)

La dimostrazione e immediata. Infatti gli eventi Bk := B ∩ Ak costituiscono la partedi B che sta in Ak, e poiche gli Ak ricoprono tutto Ω, si ha B = B1 ∪ B2 ∪ . . . ∪ Bn, coni Bk incompatibili. Dunque P (B) =

∑nk=1 P (Bk), ma per la definizione di probabilita

condizionata, P (Bk) = P (B ∩ Ak) = P (B|Ak)P (Ak), e questo dimostra la (1.4.2).

Esempio 2. Tre bacini, A,B,C contengono 100 carpe ciascuno, delle quali NA =NB = 30 possiedono un certo carattere genetico g, nei bacini A e B, e NC = 90 nel bacinoC. Si lancia una moneta: se viene testa si sceglie il bacino A, e se viene croce sceglie unbacino a caso tra B e C. Dal bacino scelto si cattura un pesce a caso e lo si esamina.Qual’e la probabilita che possieda il carattere g?

10

Page 11: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Lo spazio degli eventi Ω e fatto di 300 elementi (ev. elementare e il pesce catturato),e si divide in tre parti, a seconda del bacino di provenienza, che indichiamo ancora conA, B, C. Si tratta di una partizione con P (A) = 1

2 e P (B) = P (C) = 14 .

Detto G l’ evento che interessa, abbiano P (G|A) = P (G|B) = 0, 3 e P (G|C) = 0, 9, eapplicando la (1.4.2) si trova P (G) = 0,3

2 + 14 (0, 3 + 0, 9) = 0, 45.

Esercizio 2. Due urne, A e B, contengono, rispettivamente, 3 sfere bianche e 6 nere,e 6 sfere bianche e tre nere. Si lancia un dado, e, detto x il risultato, si prende l’urna A sex > 4, la B altrimenti, e si estrae una sfera a caso dall’urna scelta. Qual’e la probabilitache sia bianca?

Formula di Bayes. Dato uno spazio degli eventi con una partizione, come per laformula della probabilita totale, puo accadere che, accertato un certo evento B, si vogliacalcolare la probabilita che esso sia dovuto alle varie parti A1, . . . , An in cui e diviso Ω. Sitratta quindi di determinare le probabilita condizionate degli eventi A1, . . . , An, sotto lacondizione che si e verificato un certo evento B, cioe le probabilita P (Ak|B), k = 1, . . . , n,che sono dette probabilita ”a posteriori”, mentre le P (Ak) sono dette probabilita ”a priori”.

La formula che da le probabilita ”a posteriori” in funzione delle probabilita ”a priori”si deriva dalla formula della probabilita totale (1.4.2), ed e detta ”formula di Bayes”:

P (Ak|B) =P (B|Ak)P (Ak)∑nj=1 P (B|Aj)P (Aj)

, k = 1, . . . , n. (1.4.3)

La (1.4.3) e una conseguenza immediata della definizione (1.4.1a), se si considera che ilnumeratore e P (Ak ∩ B) e il denominatore e la probabilita P (B) espressa con la (1.4.2).

Esempio 3. Tornando all’esempio 1 di sopra, supponiamo noto che la carpa esaminataha il carattere g. Qual’e la probabilita ”a posteriori” che venga dal bacino C?

Sappiamo che P (G) = 0, 45 e P (C) = 0, 25, e quindi P (C|G) = P (G|C)P (C)/P (G) =0,9·0,25

0,45= 1

2.

Esercizio 3. Continuando l’esercizio 2 di sopra, si chiede qual’e la probabilita ”aposteriori”, noto che la sfera estratta e bianca, che essa provenga dall’urna B.

1.4.3 Eventi indipendenti.

Se P (A|B) = P (A) si dice che ”A e indipendente da B”. Se questo accade,moltiplicando entrambi i membri della (1.4.1a) per P (B) otteniamo la relazione

P (A ∩ B) = P (A) · P (B). (1.4.4)

Dividendo entrambi i membri per P (A) (supponiamo P (A) > 0) troviamo P (B|A) = P (B).Quindi, se A e indipendente da B, allora B e indipendente da A. La condizione di

indipendenza tra eventi e simmetrica, e conviene prendere la relazione simmetrica (1.4.4)come sua definizione.

Nella (1.4.4) i due eventi possono anche essere ∅ o Ω, e si vede che questi eventi sonoindipendenti da tutti gli altri. Sono infatti eventi che non danno nessuna ”informazione”.

Osservazione. Se gli eventi A e B sono indipendenti, lo sono anche gli eventi A eBc, Ac e B, Ac e Bc.

11

Page 12: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Infatti, nel primo caso A ∩ Bc e l’insieme dei punti che sono in A e non in B, quindibisogna togliere ad A l’insieme A∩B: A∩Bc = A\(A∩B), e i due eventi sono incompatibili,per cui P (A ∩ Bc) = P (A) − P (A ∩ B). Se A e B sono indipendenti P (A) − P (A ∩ B) =P (A) − P (A)P (B) = P (A)(1 − P (B)) = P (A)P (Bc).

Le altre relazioni seguono applicando la prima.

Esempio 4. Torniano all’esempio 1 del §1.1 (due lanci di una moneta), e sianoA1 = ω1 = T e A2 = ω2 = C. Abbiamo P (A1 ∩ A2) = P (TC) = 1

4 , e P (A1) =P (A2) = 2

4= 1

2. Gli eventi sono indipendenti.

Esempio 5. (Schema di urne con restituzione.) Da un’urna con 60 sfere rosse e40 bianche si effettuano in successione due estrazioni con restituzione. Consideriamo glieventi A = 1a estratta rossa , B = 2a estratta bianca . Il numero delle possibili(doppie) estrazioni e N = (100)2, per cui P (A) = 60·100

N= 0, 6, P (B) = 100·40

N= 0, 4, e

P (A ∩ B) = 60·40N

= 0, 24 = P (A) · P (B). Gli eventi sono indipendenti.

Esercizio 4. Da un mazzo di carte napoletane (40 carte) se ne estrae una a caso. Siconsiderino gli eventi A = e un asso, B = e denari, C = e ≤ 5. Vi sono coppie dieventi indipendenti tra le tre coppie possibili A e B, B e C, A e C?

Indipendenza per piu di due eventi.Se abbiamo tre eventi A, B, C si dice che sono indipendenti, se sono indipendenti a

due a due e inoltre P (A ∩ B ∩ C) = P (A)P (B)P (C).Nel caso di piu eventi, A1, An, . . . , An, sono indipendenti se comunque se ne prendono

due o piu, Ai1 , . . . , Aik, k ≥ 2, si ha

P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik) = P (Ai1) P (Ai2) . . . P (Aik

). (1.4.5)

Come mostra il seguente esempio non basta che gli eventi siano indipendenti a due adue per essere indipendenti (globalmente).

Esempio 6. Si abbiano quattro carte, una bianca, una nera, una rossa, e una quartacon tutti e tre i colori. Se ne estrae una a caso e si consideramo gli eventi A = la cartaha il colore bianco, B = la carta ha il colore nero e C = la carta ha il colore rosso.

Si ha P (A) = P (B) = P (C) = 24 = 1

2 . Inoltre P (A∩B) = P (A∩C) = P (B∩C) = 14 .

Quindi i tre eventi sono a due a due indipendenti, ma non sono indipendenti globalmenteperche P (A ∩ B ∩ C) = 1

4 6= P (A)P (B)P (C).

1.4.4. Prove indipendenti.

Nella ricerca scientifica e in varie attivita pratiche si ha spesso a che fare con i risultatidi prove che sono tra loro indipendenti, nel senso che il risultato di ciascuna prova noninfluenza i risultati delle altre prove. Cosı e se si ripete piu volte una prova (lancio dimoneta o di dado, test clinico, estrazione del lotto) in condizioni identiche.

Se abbiamo prove indipendenti, eventi che dipendono da risultati di prove diversedevono essere indipendenti. Per esempio, se lanciamo piu volte una moneta o un dadonelle stesse condizioni i corrispondenti risultati sono indipendenti.

Nello schema classico il fatto che tutti i risultati sono equivalenti implica che le diverseprove avvengono nelle stesse condizioni. Cosı nell’esempio 1 precedente abbiamo visto chegli eventi A1 = ω1 = T e A2 = ω2 = C sono indipendenti.

12

Page 13: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Consideriamo in generale il caso di una prova ripetuta piu volte in condizioni iden-tiche. Sia Ω lo spazio di probabilita di una singola prova e p(ω), ω ∈ Ω la probabilitadegli eventi elementari. Se ripetiamo la prova n volte, lo spazio degli eventi sara Ωn (ilprodotto cartesiano di Ω per se stesso n volte). Il generico evento elementare ω ∈ Ωn,si puo rappresentare come ω = (ω1, ω2, . . . , ωn), dove le variabili ωk, per k = 1, . . . , n,rappresentano il risultato della k-esima prova, k = 1, 2, . . .

Ogni particolare evento elementare ω = (ω1, . . . , ωn), cioe ogni scelta concreta deirisultati, ωk = ωk puo essere considerato un evento (consistente in un solo punto di Ωn),intersezione di n eventi ciascuno dei quali dipende da un solo ωk:

ω = ω = ω1 = ω1 ∩ ω2 = ω2 ∩ . . . ∩ ωn = ωn.

Se pn denota la probabilita degli eventi elementari in Ωn, si ha, per l’indipendenza,

pn(ω1, ω2, . . . , ωn) = P (ω1, ω2, . . . , ωn) = P (ω1 = ω1 ∩ ω2 = ω2 . . . ∩ ωn = ωn)= P (ω1 = ω1)P (ω2 = ω2) . . . P (ωn = ωn) = p(ω1)p(ω2) . . . p(ωn).

Si vede quindi che nel caso di n prove ripetute indipendenti, la probabilita pn sullospazio di n prove Ωn e data dal prodotto delle probabilita p su Ω.

Piu in generale le prove indipendenti possono essere diverse, con diversi spazi di singolaprova Ω1, . . . , Ωn, e diverse probabilita degli eventi elementari p(1), . . . , p(n). Lo spaziodelle n prove sara Ω(n) = Ω1 × . . .× Ωn, e su di esso avremo la probabilita prodotto:

pn(ω1, ω2, . . . , ωn) = p(1)(ω1)p(2)(ω2) . . . p(n)(ωn). (1.4.6)

Riassumendo, possiamo dire che la probabilita degli eventi elementari sullo spazio deglieventi Ω(n) di n prove indipendenti e data dal prodotto delle corrispondenti probabilitasugli spazi di singola prova, secondo la formula (1.4.6).

Nota. Dalla (1.4.6) si ricava facilmente l’indipendenza di eventi generici che dipen-dono da prove diverse. Supponiamo per semplicita che n = 3, e sia A = (ω1, ω2) ∈ A, eB = ω3 ∈ B. Al variare di A ⊂ Ω1 ×Ω2 e B ⊂ Ω3, A e B rappresentano i generici eventidipendenti dalle prime due prove e dalla terza, rispettivamente. Applicando la (1.4.6)troviamo

P (A) =∑

(ω1,ω2)∈Ap(1)(ω1)p

(2)(ω2)∑

ω3∈Ω3

p(3)(ω3) =∑

(ω1,ω2)∈Ap(1)(ω1)p

(2)(ω2)

P (B) =∑

(ω1,ω2)∈Ω1×Ω2

p(1)(ω1)p(2)(ω2)

ω3∈Bp(3)(ω3) =

ω3∈Bp(3)(ω3)

e quindi

P (A ∩ B) =∑

(ω1,ω2)∈Ap(1)(ω1)p

(2)(ω2)∑

ω3∈Bp(3)(ω3) = P (A)P (B).

13

Page 14: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Nel caso generale il ragionamento e simile.

Dunque, la probabilita prodotto e l’espressione matematica dell’indipendenzadelle prove.

Esempio 7. Si effettuano tre estrazioni con restituzione da un’urna con tre sfere neree sette bianche. Si calcoli la probabilita che la successione delle estratte sia (b, n, b) (bindica sfera bianca e n sfera nera).

In una singola estrazione le probabilita sono P (b) = 310

, P (n) = 710

. Pertanto laprobabilita richiesta e P (b, n, b) = (0, 3)2 0, 7.

Formula binomiale.Consideriamo n prove identiche indipendenti con due soli risultati, che chiamiamo

convenzionalmente ”successo” e ”insuccesso” e indichiamo rispettivamente con 1 e 0. Lospazio degli eventi e Ω = 0, 1n, e supponiamo inoltre che in ciascuna prova sia p(1) = p,e quindi p(0) = 1 − p, con p ∈ (0, 1). Un caso particolare e dato dall’esempio 7 appenavisto, una volta stabilito quale dei due risutati (b o n) sia il “successo”.

La probabilita di un evento elementare ω = (ω1, ω2, . . . , ωn) e il prodotto delle prob-abilita, e quindi se N(ω) e il numero degli ωj per cui ωj = 1 avremo

p(ω1, . . . , ωn) = pN(ω)(1 − p)n−N(ω). (1.4.7)

Se ora vogliamo calcolare la probabilita che il numero N di successi prenda un valorefissato k, dovremo sommare le probabilita di tutti gli eventi elementari per i quali N(ω) =k. Per la (1.4.7) la probabilita di ogni tale ω e pk(1 − p)n−k. Si tratta solo di contarequanti sono gli ω per cui k degli ωj sono 1 (e quindi n − k sono 0), non importa in qualeordine. E’ chiaro che sono tanti quanti i modi di collocare i k simboli 1 nelle n posizioniche corrispondono alle singole prove, e dunque

(nk

). Pertanto

P (N = k) =

(n

k

)pk(1 − p)n−k, k = 0, 1, . . . , n. (1.4.8)

Osservazione: evento piu probabile. Le probabilita (1.4.8) variano con k, e ci sipuo domandare qual’e l’evento piu probabile, cioe qual’e il numero k di ”successi” che hala massima probabilita.

Supponendo che p ≤ 12, il minimo si ha per k = 0 (se e p ≥ 1

2si ha per k = n):

P (N = 0) = pn. La condizione P (N = k) ≥ P (N = k − 1), implica, come sivede facilmente dalla (1.4.8) p

(nk

)≥ q

(n

k−1

), che, semplificando i fattoriali, si riduce alla

condizione kn+1 ≤ p.

Quindi se k cresce la probabilita aumenta fino a giungere ad un massimo, che per ngrandi si ha per k

n≈ p, e poi calare.

Esempio 8. Su una popolazione di 100 conigli, di cui 70 di razza a e 30 di razza b,si effettua per 5 volte un test che consiste nel prendere un coniglio a caso, registrarne larazza e reintrodurlo nella popolazione.

Si calcolino le probabilita degli eventi A = i 5 catturati sono della stessa razza, eB = almeno uno dei 5 catturati e di razza b.

14

Page 15: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Si ha A = A1 ∪ A2, con A1 = i 5 sono di razza a e A2 = i 5 sono di razza b.A1 ∩ A2 = ∅, per cui P (A) = P (A1) + P (A2) = (0, 7)5 + (0, 3)5.

Poiche B = Ac1 si ha P (B) = 1 − (0, 7)5.

Esercizio 5. Si lancia tre volte una moneta. Qual’e la probabilita che venga duevolte di seguito T?

Esercizio 6. Si piantano due semi, uno di germinabilita (=probabilita di germinare)pa = 0, 9 e l’altro di germinabilita pb = 0, 6. Qual’e la probabilita che non germini nessunodei due? ( Si assume indipendenza delle due prove.)

Esercizio 7. Da un’urna con quattro sfere nere e sei bianche se ne estrae una a caseper tre volte con restituzione. Calcolare la probabilita dei segenti eventi A = le sfereestratte sono tutte nere, B = si estrae almeno una sfera nera, C = si estraggono duesfere bianche e una nera.

1.5. VARIABILI ALEATORIE.

1.5.1. Variabili aleatorie e loro distribuzioni.

Definizione. Una “variabile aleatoria” sullo spazio di probabilita discreto (Ω, p) euna funzione su Ω a valori reali: F : Ω → R.

Di variabili aleatorie ne abbiamo gia viste molte: ad esempio, lo sono il numero di“teste” NT nel doppio lancio di una moneta dell’ esempio 1 del §1.1, o la somma S = ω1+ω2

nel lancio di due dadi.Sia XF ⊂ R l’insieme dei valori assunti da F e (codominio, o immagine di F ):

XF := F (Ω) = x ∈ R : F (ω) = x per qualche ω ∈ Ω.

Per definizione, per ogni elemento x ∈ XF si trova almeno un ω ∈ Ω tale che F (ω) = x.La probabilita su Ω induce una probabilita PF su XF , che assegna ad ogni evento

elementare x ∈ XF la probabilita

pF (x) = P (F (ω) = x) =∑

ω∈F−1(x)

p(ω). (1.5.1)

La somma e sull’insieme F−1(x) = ω ∈ Ω : F (ω) = x ⊂ Ω, l’immagine inversa di x(l’insieme di tutti gli ω tali che F (ω) = x), che per brevita denotiamo anche con F (ω) =x. Le immagini inverse per x diversi non hanno ovviamente punti in comune, e la lorounione, per tutti gli x ∈ XF , e l’intero spazio Ω. Quindi gli eventi F−1(x) costituisconouna partizione e la somma su tutti gli x della (1.5.1) da la probabilita totale:

x∈XF

pF (x) =∑

ω∈Ω

p(ω) = 1.

Dunque (XF , pF ) e un nuovo spazio di probabilita, associato alla variabile F .

Definizione. Lo spazio di probabilita (XF , pF ) prende il nome di distribuzionedella variabile aleatoria F .

15

Page 16: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Se F−1(x) consta sempre di un solo punto di Ω, cioe F e invertibile, il nuovo spazio diprobabilita e in pratica identico al precedente: al posto di ogni punto ω ∈ Ω c’e un nuovopunto x ∈ XF con la stessa probabilita.

Una funzione F che prenda valori non numerici, come sono ad esempio i simboliT, C nel caso del lancio di una moneta, non e sostanzialmente diversa da una variabilealeatoria, perche, se siamo nell’ambito della probabilita discreta i valori presi da F sipossono numerare o comunque rappresentare con dei numeri.

Esempio 1. Consideriamo il lancio di un dado, con Ω = 1, 2, . . . e la probabilitauniforme, e sia F (ω) = 1 se ω e dispari e F (ω) = 0 se ω e pari.

Si ha XF = 0, 1 e si vede subito che pF (1) = pF (0) = 12 .

Esempio 2. Consideriamo il lancio di una moneta, con Ω = T, C e la probabilitauniforme, e sia F (T ) = 1 e F (C) = 0.

E’ chiaro che (XF , pF ) e la stessa coppia che nell’esercizio precedente.(Si noti che in questo caso F e invertibile.)

Osservazione 1. Come mostrano gli esempi 1 e 2 appena visti, variabili aleatorie def-inite su spazi di probabilita diversi possono avere la stessa distribuzione. Di regola quandosi parla di variabile aleatoria ci si riferisce alla distribuzione, e non ad una particolarevariabile aleatoria con la data distribuzione.

In pratica le variabili aleatorie con la stessa distribuzione vengono identificate, omeglio, si passa alla classe di equivalenza delle variabili aleatorie che hanno una datadistribuzione.

Esempio 3. Il numero di successi N in n prove indipendenti considerato nel §1.4.4 euna variabile aleatoria e la sua distribuzione e data dalla (1.4.8). Tale distribuzione prendeil nome di distribuzione binomiale, espressione che, per quanto detto nell’osservazione1, e equivalente all’espressione variabile aleatoria binomiale .

La distribuzione binomiale, per n prove con probabilita p ∈ (0, 1) di successo e indicatacon il simbolo B(n, p).

Osservazione 2. E’ chiaro che ogni funzione di una o piu variabili aleatorie e ancorauna variabile aleatoria.

Esercizio 1. Nel caso del lancio di tre monete, si trovi la distribuzione della variabilealeatoria N = numero massimo di T consecutive.

Esercizio 2. Si lancia un dado per tre volte, e sia N il numero dei lanci che dannorisultati multipli di tre. Si calcoli la distribuzione della variabile aleatoria N2.

1.5.2. Valor medio di una variabile aleatoria.

Sia data una variabile aleatoria F su uno spazio di probabilita discreto (Ω, p).Il valor medio o valore aspettato di F , indicato con il simbolo M(F ), e la media

dei valori assunti da F pesata con le probabilita con cui vengono assunti:

M(F ) =∑

x∈XF

x pF (x). (1.5.2)

Facendo uso della definizione (1.5.1), ed osservando che ω ∈ F−1(x) equivale a F (ω) = x,troviamo che il valor medio si puo anche scrivere in termini della probabilita sullo spazio

16

Page 17: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

di partenza (Ω, p):

M(F ) =∑

x∈XF

ω∈F−1(x)

F (ω) p(ω) =∑

ω∈Ω

F (ω)p(ω) (1.5.3)

dove si e usato il fatto che gli insiemi F−1(x), per x ∈ XF , sono una partizione di Ω.

Osservazione. Se lo spazio XF , che e sempre discreto se lo e Ω, ha infiniti elementi, ilvalor medio M(F ) nella (1.5.2) non e una semplice somma, ma una serie, che potrebbe nonconvergere. Se la (1.5.2) e una serie che non converge assolutamente, cioe se non convergela serie

∑x∈XF

|x| pF (x), si dice che il valor medio M(F ) non esiste.Un esempio di variabile aleatoria che non ha valor medio si ricava dall’esempio 2 del

§1.3. Si consideri la variabile aleatoria F (ω) = 2τ(ω). Il suo valor medio e dato dalla serie

∞∑

k=1

2kP (τ = k) =1

6

∞∑

k=1

2k

(5

6

)k−1

=1

5

∞∑

k=1

(5

3

)k

= +∞.

Il valor medio e un parametro numerico che corrisponde al ”centro” dei valori di F ,o meglio, come si vede dalla (1.5.2), ad una specie di ”baricentro” dei valori assunti dallaF , a ciascuno dei quali viene dato un ”peso” pari alla sua probabilita.

Si osservi che, conoscendo la distribuzione di una variabile aleatoria F si conosce ladistribuzione di ogni variabile aleatoria che sia funzione della sola F . Infatti se G(ω) =f(F (ω)) e una tale variabile aleatoria abbiamo per ogni x ∈ XG = G(Ω)

pG(x) = P (G(ω) = x) = P (F (ω) ∈ f−1(x)) = PF (f−1(x)).

In particolare l’espressione del valor medio di G tramite la distribuzione di F si trovainvertendo l’ordine delle somme come per la (1.5.3):

M(G) =∑

x∈XG

xpG(x) =∑

y∈XF

f(y)pF (y). (1.5.4)

Proprieta del valor medio.

i) Somma di variabili aleatorie. Se F = F1 + F2 abbiamo

M(F ) =∑

ω

[F1(ω) + F2(ω)]p(ω) =∑

ω

F1(ω)p(ω) +∑

ω

F2(ω)p(ω) = M(F1) + M(F2).

Quindi il valor medio della somma di due variabile aleatorie e la somma dei loro valorimedi, e lo stesso avviene naturalmente per tre o piu variabili.

ii) Moltiplicazione di una variabile aleatoria per un numero. Se k e un numeroreale, si vede immediatamente dalla (1.5.3) che M(kF ) = kM(F ).

iii) Variabile aleatoria degenere. Se F (ω) e degenere, cioe se e una costante “quasiovunque”, ovvero F (ω) = c, per qualche numero c e per ogni ω ∈ Ω, tranne al piu per

17

Page 18: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

i punti di un insieme A tale che P (A) = 0 (e quindi p(ω) = 0 per ogni ω ∈ A), alloraM(F ) = c.

Esempio 3. Si lancia nove volte un dado, e sia N il numero di lanci che da unmultiplo di tre. Calcolare il valor medio M(N).

N e rappresentabile come una somma di variabili aleatorie N =∑9

j=1 Nj dove Nj = 1se il j-simo lancio del dado da 3 o 6, e Nj = 0 altrimenti. Per ogni j si ha M(Nj) =1 · 1

3 + 0 · 23 = 1

3 . Quindi M(N) = M(N1) + . . . + M(N9) = 93 = 3.

Disuguaglianze elementari.Se, per qualche numero a si ha F (ω) ≥ a, per ogni ω ∈ Ω, allora anche M(F ) ≥

a. Infatti M(F ) =∑

ω∈Ω F (ω)p(ω) ≥ a∑

ω∈Ω p(ω) = a. Analogamente si vede che seF (ω) ≤ b, per ogni ω ∈ Ω, allora anche M(F ) ≤ b.

Quindi il valor medio e sempre compreso tra il minimo e il massimo di F :

minω

F (ω) ≤ M(F ) ≤ maxω

F (ω). (1.5.5)

Variabile centrata. Se F e una variabile aleatoria, la nuova variabile aleatoriaF = F − M(F ) e la variabile aleatoria ”centrata” corrispondente ad F . Poiche M(F ) e

una costante, il valor medio di F e M(F ) = M(F − M(F ) ) = M(F ) − M(F ) = 0.Quindi una variabile aleatoria centrata ha media nulla.

Esercizio 3. Si lanciano due dadi, e sia N3 il numero dei ”3” che risultano dal lancio.Calcolare il valor medio M(N3).

1.5.3. Varianza o dispersione di una variabile aleatoria.

Si dice ”varianza” o ”dispersione” di una variabile aleatoria F , definita sullo spazio diprobabilita (Ω, p), la quantita

Var (F ) = M((F − M(F ))2

)= M

(F 2

), (1.5.6)

dove F e la variabile centrata relativa ad F definita dianzi. Sviluppando il quadrato sigiunge ad una nuova espressione per la varianza:

Var (F ) = M(F 2 − 2FM(F ) + (M(F ))2

)= M(F 2) − 2(M(F ))2 + (M(F ))2

= M(F 2) − (M(F ))2, (1.5.7)

dove nel calcolare il valor medio si e di nuovo usato il fatto che M(F ) e una costante.

Proprieta della varianza.

i) Positivita. Si ha Var (F ) ≥ 0, e Var (F ) = 0 se e solo se F e degenere.

Infatti per la (1.5.6) si ha Var (F ) =∑

ω p(ω)F 2(ω), e in questa somma non ci sono

termini negativi, perche p(ω)F 2(ω) ≥ 0. Quindi, se la somma e nulla tutti i termini sono

nulli, per cui puo essere F (ω) 6= 0 solo se p(ω) = 0. Ne segue che F (ω) = M(F ) eccettoche per ω in un insieme di misura nulla. Pertanto F e una costante quasi ovunque, cioeuna variabile degenere.

18

Page 19: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

ii) Variazione per cambiamento di scala. Se G = αF + β, dove α e β sono duenumeri fissi, allora Var (G) = α2Var (F ).

Infatti per le proprieta del valor medio i) e ii), la costante β si cancella nel calcolo

della variabile centrata di G, e si ha G = αF . Quindi la ii) segue dalla (1.5.6).

Osservazione 1. La trasformazione lineare G = αF + β corrisponde da un cambia-mento di scala, nella quale l’origine F = 0 corrisponde al punto G = β e l’unita di misurache da il risultato F e |α| volte maggiore di quella che da il risultato G. Le due scale hannolo stesso verso se α > 0, cioe F e G crescono e calano insieme, mentre hanno verso oppostoper α < 0, cioe se F cresce G cala e viceversa.

Quindi la relazione lineare G = αF + β indica che F e G sono le misure della stessagrandezza con scale di misura diverse.

Dalla (1.5.7) si vede che il valor medio del quadrato di una variabile aleatoria e sempremaggiore od eguale del quadrato del valor medio, ed e eguale se e solo se la variabile edegenere.

Osservazione 2. Dalla proprieta ii) si vede che aggiungendo ad una variabile aleatoriauna costante la varianza non cambia (mentre cambia il valore medio). Quindi la varianzae indifferente al centro della distribuzione, ma misura piuttosto quanto la distribuzione e”sparpagliata” o ”dispersa” attorno al valor medio.

Deviazione standard. La deviazione standard o ”errore standard” di una variabilealeatoria F e la quantita

σF =√

Var (F ). (1.5.8)

Essa rappresenta, in un certo senso, la distanza media dal centro (cioe dal valor medio)dei valori di F .

Esercizio 4. Si lanciano du monete, siano NT e NC il numero di teste e crocirisultanti, e si consideri la variabile aleatoria F = NT − NC . Calcolare il valor medio e lavarianza di F .

1.5.4 Distribuzione congiunta di due variabili aleatorie. Variabili indipen-denti.

Siano date due variabili aleatorie F1, F2 su uno spazio di probabilita discreto (Ω, p).Possiamo considerarle un vettore aleatorio F (ω) = (F1(ω), F2(ω)), che ha come codominiol’insieme di coppie di numeri XF = XF1

× XF2, dove XF1

= F1(Ω) e XF2= F2(Ω) sono i

codomini delle due variabili.La distribuzione congiunta di F1 e F2 e lo spazio di probabilita (XF , pF ), dove

XF = XF1× XF2

e pF e data dalla

pF (x1, x2) = P (F1 = x1, F2 = x2) , x1 ∈ XF1, x2 ∈ XF2

. (1.5.9)

Le distribuzioni di F1 ed F2 (dette ”distribuzioni marginali” della distribuzione con-giunta) si ottengono facilmente dalla (1.5.9). La distribuzione di F1 si ottiene specifichiamoche F1 = x mentre F2 puo assumere qualsiasi valore:

pF1(x) = P (F1 = x) = PF (x × XF2

) =∑

y∈XF2

pF (x, y). (1.5.10a)

19

Page 20: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Analogamente per la distribuzione di F2 si ha

pF2(x) = P (F2 = x) = PF (XF1

× x) =∑

y∈XF1

pF (y, x). (1.5.10b)

Esempio 4. Si lanciano due dadi, e siano N3, N6 il numero, rispettivamente, di ”3”e ”6” risultanti dal lancio. Si trovi la loro distribuzione congiunta.

E’ chiaro che N3 ∈ 0, 1, 2 e lo stesso vale per N6, per cui la distribuzione del vettoreF = (N3, N6) e su XF = 0, 1, 22. L’evento F1 = F2 = 0 corrisponde a lanci chedanno (ω1, ω2) con ωi /∈ 3, 6, i = 1, 2. Tali coppie sono in tutto 4 · 4 = 16, per cuipF (0, 0) = P (F1 = 0, F2 = 0) = 16

36 = 49 . Similmente si trova pF (1, 0) = pF (0, 1) = 2

9 ,pF (1, 1) = 1

18e pF (2, 0) = pF (0, 2) = 1

36.

Analogamente a quanto visto per una sola variabile aleatoria, conoscendo la dis-tribuzione congiunta di F1, F2 si puo calcolare la distribuzione di ogni variabile aleatoriaG = g(F1, F2) che sia funzione delle sole F1F2. In particolare per il valor medio si ha, inanalogia con la (1.5.5),

M(G) = M (g(F1, F2)) =∑

(x1,x2)∈ΩF

g(x1, x2)pF (x1, x2). (1.5.11)

Variabili aleatorie indipendenti.Le variabili aleatorie F1, F2 definite su uno spazio di probabilita (Ω, p) si dicono in-

dipendenti se, per qualunque scelta della coppia di valori (x1, x2) ∈ XF = XF1× XF2

,abbiamo

pF (x1, x2) = P (F1 = x1, F2 = x2) = P (F1 = x1) P (F2 = x2) = pF1(x1) · pF2

(x2).(1.5.12)

La (1.5.11) afferma che gli eventi F1 = x1, F2 = x2 sono indipendenti per ognix1 ∈ XF1

, x2 ∈ XF2.

Valor medio del prodotto di variabili aleatorie indipendenti.Una conseguenza molto importante dell’indipendenza delle variabili aleatorie e la

seguente.Proposizione. Se le variabili aleatorie F1 ed F2 sono indipendenti, il valor medio

del prodotto M(F1 · F2) esiste se e solo se esistono i valori medi M(F1), M(F2), e in tal

caso si ha M(F1 · F2) = M(F1) · M(F2).

Per la dimostrazione basta applicare la (1.5.11) alla variabile aleatoria G = F1F2:tenendo conto dell’indipendenza abbiamo

M(F1F2) =∑

x1∈XF1,x2∈XF2

x1 x2 pF (x1, x2) =∑

x1∈XF1

x1 pF1(x1)

x2∈XF2

x2 pF2(x2).

E’ chiaro che, nel caso di variabili con infiniti valori, la convergenza della serie doppiae delle due serie singole a secondo membro sono equivalenti, e in caso di convergenza ilmembro di destra vale M(F1) · M(F2).

20

Page 21: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

1.5.5. Covarianza o correlazione di due variabili aleatorie.

Date due variabili aleatorie F1, F2, su uno spazio di probabilita (Ω, p), si definisce lorocovarianza o correlazione la quantita

Cov (F1, F2) = M(F1 · F2) − M(F1)M(F2) = M(F1 · F2), (1.5.13)

dove le Fi sono le variabili centrate. La seconda eguaglianza deriva dal fatto che

M(F1F2) = M(F1F2−F1M(F2)−F2M(F1)+M(F1)M(F2) ) = M(F1F2)−M(F1)M(F2).

La covarianza e di grande importanza nelle applicazioni. Se Cov (F1, F2) > 0 si diceche F1, F2 sono ”positivamente correlate”, se Cov (F1, F2) < 0 si dice che sono ”negativa-mente correlate”, e se Cov (F1, F2) = 0 si dice che sono ”scorrelate”.

Dalla proposizione del §1.5.4 segue che variabili indipendenti sono scorrelate.Infatti in tal caso M(F1F2) = M(F1)M(F2).

Ma il viceversa non e vero. Variabili scorrelate possono essere fortemente dipendenti,come mostra il seguente esempio.

Esempio 5. Si consideri il lancio di due monete, e siano NT , NC definiti come alsolito. Le variabili aleatorie F1 = NT − NC e F2 = (NT − NC)2 non sono indipendenti,perche F2 = F 2

1 , ma sono scorrelate.Infatti F1 assume i valori −2, 0, 2, e P (F1 = 2) = P (F1 = −2), per cui M(F1) = 0

ed anche M(F1F2) = M((F 31 )) = 0. Ne segue Cov (F1, F2) = 0.

Coefficiente di correlazione. E’ chiaro che la covarianza (1.5.13), come la varianza(per la proprieta ii) vista sopra) dipende dalla scala di misura delle grandezze.

Conviene allora introdurre una quantita che non ne dipende, e questa e data dalcoefficiente di correlazione:

ρ(F1, F2) =Cov (F1, F2)√

Var (F1)Var (F2). (1.5.14)

Infatti se aggiungiamo delle costanti a F1, F2, ρ non cambia perche sia Cov (F1, F2) che levarianze dipendono solo dalle variabili centrate. Se poi moltiplichiamo F1, F2 per α1, α2,rispettivamente (che supponiamo entrambe positive), allora sia il numeratore che il de-nominatore della (1.5.14) vengono moltiplicati per α1α2 e di nuovo ρ non cambia.

Si noti che ρ(F1, F2) ∈ [−1, 1]. Per vederlo, basta notare che, preso comunque unnumero x, dobbiamo avere

0 ≤ M((F1 + xF2)

2)

= Var (F1) + x2Var (F2) + 2xCov (F1, F2).

Come e noto, la condizione affinche questa espressione non sia mai negativa per nessun xe che il discriminante sia negativo:

∆ = (Cov (F1, F2))2 − Var (F1)Var (F2) ≤ 0.

21

Page 22: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Dividendo entrambi i membri per Var (F1)Var (F2) e confrontando con la (1.5.14) si vedeche deve essere ρ2 ≤ 1.

E’ chiaro che ρ2 = 1 se e solo se ∆ = 0. In tal caso x deve essere tale che F1 +xF2 = 0.Quindi F1 e una funzione lineare di F2: F1 = −xF2 + M(F1), cioe le due grandezzedifferiscono solo per un cambiamento di scala.

Varianza della somma di variabili aleatorie.A differenza di quanto avviene per il valor medio, la varianza della somma di due

variabili aleatorie non e in generale data dalla somma delle varianze. Infatti se F = F1+F2

la corrispondente variabile centrata e F = F1 + F2 − M(F1) − M(F2) = F1 + F2, e per le(1.5.6), (1.5.13) abbiamo

Var (F1 + F2) = M(F 2

1 + F 22 + 2F1F2

)= Var (F1) + Var (F2) + 2Cov (F1, F2). (1.5.15)

Ne segue che se le variabili aleatorie sono indipendenti, e quindi si ha Cov (F1, F2) = 0,la varianza della somma e pari alla somma delle varianze:

Var (F1 + F2) = Var (F1) + Var (F2) (1.5.16)

1.5.6. Tre o piu variabili aleatorie.

Il caso di n ≥ 3 variabili aleatorie si tratta in modo analogo. Se abbiamo n variabilialeatorie F −1n, . . . , Fn sullo spazio di probabilita (Ω, p), la distribuzione si puo introdurretramite il vettore a n componenti F = (F1, . . . , Fn), che prende valori nello spazio F (Ω) =XF = XF1

× . . . × XFn. La probabilita dei punti sara definita dalla

pF (x1, . . . , xn) = P (F1 = x1, . . . , Fn = xn) . (1.5.17)

Le marginali di ciascuna variabile Xk, k = 1, . . . , n, si otterranno sommando su tutti ivalori delle altre.

Indipendenza. Per l’indipendenza nel caso di piu variabili avremo

pF (x1, . . . , xn) = P (F1 = x1, . . . , Fn = x2) = pF1(x1) . . . pFn

(xn). (1.5.18)

Le (1.5.17) (1.5.18) mostrano che la distribuzione pF sullo spazio XF = XF1× XF2

(o sullo spazio XF = XF1× · · · ×XFn

) e nient’altro che una probabilita prodotto del tipo(1.12) gia vista nel caso delle prove indipendenti.

Ne segue, come spiegato nella nota successiva alla (1.12), che comunque si prendanoeventi specificati da variabili diverse, essi sono indipendenti. In particolare sono indipen-denti eventi del tipo F1 ∈ A1, . . .Fn ∈ An, con A1 ∈ XF1

, . . . , An ∈ XFn.

Nel caso di infinite variabili F1, F2, . . . , si dice che esse sono indipendenti, se, comunquese ne prende un numero finito Fi1 , . . . Fin

, esse sono indipendenti nel senso della (1.2vatt).

Per il valor medio del prodotto di piu variabili indipendenti, con dimostrazione pres-socche identica al caso di due variabili, si ottiene la relazione generale

M(F1 . . . Fn) = M(F1) . . .M(Fn). (1.5.19)

22

Page 23: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Covarianza di una somma di variabili aleatorie.Nel caso di piu variabili aleatorie si ottiene facilmente la seguente formula, che gener-

alizza la (1.5.15)

Var (F1 + . . . + Fn) =

n∑

i=1

Var (Fi) + 2∑

i,jCov (Fi, Fj), (1.5.20)

dove con∑

i,j si intende la somme sulle coppie di indici distinti i 6= j.

Osservazione. Se le variabili sono scorrelate, in particolare se, come visto nel para-grafo precedente, sono indipendenti, allora le covarianze sono nulle e la varianza dellasomma di variabili aleatorie e eguale alla corrispondente somma delle varianze.

1.5.7. Variabili aleatorie discrete notevoli.

Diamo ora un breve elenco delle piu importanti variabili aleatorie discrete, con leloro proprieta piu significative. Come detto in precedenza, le variabili aleatorie vengonoidentificate con la loro distribuzione.

1. Variabile aleatoria binomiale.La variabile aleatoria binomiale B(n; p), relativa ad n = 1, 2 . . . prove e con proba-

bilita di ”successo” p ∈ (0, 1) in ciascuna prova, e stata gia discussa nell’esempio 3 e ladistribuzione e data dalla (1.4.8).

Vogliamo ora calcolarne il valor medio e la varianza. Possiamo scrivere N = F1 +F2 + . . .+Fn, dove le Fi rappresentano il ”numero di successi” nella singola prova i-esima,i = 1, . . . , n. Questo numero puo essere 0 oppure 1, cioe Fi ∈ 0, 1, per cui F 2

i = Fi

(eguaglianza che vale infatti sia per Fi = 0 che per Fi = 1). Inoltre P (Fi = 1) = p, percui

M(Fi) = 1 · p = p, Var (Fi) = M(F 2i ) − (M(Fi))

2= M(Fi) − p2 = p − p2 = p(1 − p).

Il valor medio e quindi M(N) = np. Per la varianza si osservi che, siccome le Fi

sono indipendenti, le covarianze sono nulle e, per la (1.5.20), la varianza e la somma dellevarianze: Var (N) = np(1 − p).

2. Variabile aleatoria Poissoniana.La variabile aleatoria poissoniana, o di Poisson, approssima la variabile binomiale

quando n e molto grande, con p molto piccolo, in modo che il valor medio np sia finito. Lavariabile poissoniana si ottiene nel limite n → ∞, se la probabilita dipende da n (diciamop = pn) e cambia in modo che npn converge ad un limite: npn → ρ > 0.

Consideriamo il caso semplice in cui npn e costante: npn = ρ, e quindi pn = ρn. Per

un dato k la formula (1.4.8) ci da

P (N = k) =

(n

k

) ( ρ

n

)k

(1 − ρ

n)n−k =

ρk

k!

n(n − 1) . . . (n − k + 1)

nk(1 − ρ

n)−k(1 − ρ

n)n.

Poiche k e fisso e ρn

→ 0 per n → ∞, abbiamo (1 − ρn)−k → 1. Inoltre, ricordando la

successione che definisce il numero e, base dei logaritmi naturali, abbiamo (1− ρn)n → e−ρ.

Infine, per ogni j = 0, . . . , k − 1 si ha, per n → ∞, n−jn

→ 1, per cui n(n−1)...(n−k+1)nk → 1.

23

Page 24: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

I limiti di queste probabilita, per k = 0, 1, . . . danno la distribuzione di una nuovavariabile aleatoria F :

P (F = k) = e−ρ ρk

k!, k = 0, 1, 2, . . . . (1.5.21)

E’ detta ”variabile aleatoria poissoniana” con valor medio ρ. Si tratta di una variabilediscreta, ma con un numero infinito di valori, perche abbiamo preso il limite n → ∞.

Si potrebbe dimostrare che∑∞

k=1ρk

k!= eρ, per cui la probabilita totale e, come deve,

pari a 1. Il valor medio e, come abbiamo visto, ρ. La dispersione e anche il limite delladispersione della binomiale:

Var(F) = limn→∞

npn(1 − pn) = limn→∞

n(1 − ρ

n) = ρ.

Osservazione. La distribuzione poissoniana si applica ad eventi che non accadonoquasi mai in una singola prova, ma il cui numero medio non e trascurabile a causa del grannumero di prove. Un esempio puo essere quello delle chiamate al 113 in un dato giornoin una grande citta. La singola prova e il comportamento di un dato abitante: e positivase chiama il 113. Se ciascuno ha probabilita p = 10−5 di chiamare il 113, e la citta ha unmilione di abitanti, la media e ρ = np = 10.

Un esempio ancora migliore e quello del decadimento radioattivo. Una massa dimateriale radioattivo puo essere dell’ordine di 1023 atomi, ma ciascun atomo decade conprobabilita cosı piccola che il conteggio al Geiger in un’ora e di qualche unita.

Variabile aleatoria geometrica.La variabile aleatoria geometrica con probabilita p ∈ (0, 1) assume valori interi positivi

ed ha distribuzione

P (F = k) = p(1 − p)k−1, k = 1, 2, . . . .

La variabile casuale τ definita nell’esempio 2 del §. . . ne e un caso particolare con p = 16 .

Il valor medio e

M(F ) = p

∞∑

k=1

k(1 − p)k−1 = p

[d

dq

∞∑

k=0

qk

]

q=1−p

= p

[d

dq

1

1 − q

]

q=1−p

=1

p.

Si tratta infatti, come abbiamo visto del tempo di prima apparizione in una successione diprove indipendenti di un evento di probabilita p, e il suo valor medio e, come e intuitivo,1p. Per la varianza si procede analogamente. Si trova

M(F 2) + M(F ) = p

∞∑

k=1

(k + 1)k(1 − p)k−1 = p

[d2

dq2

∞∑

k=0

qk

]

q=1−p

=2

p2

e da questa relazione segue facilmente che Var (F ) = M(F 2) − (M(F ))2 = 1p2 − 1

p.

24

Page 25: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

1.6. SPAZI DI PROBABILITA’ CONTINUI. VARIABILI ALEATORIECONTINUE.

1.6.1. Probabilita continua su un intervallo.

Molti problemi richiedono uno spazio degli eventi continuo, come, ad esempio, unintervallo I = [a, b]. In questo caso gli eventi elementari, cioe in punti dell’intervallo,costituiscono un’infinita continua, che, come e noto, non e numerabile. (In un certo sensoe “molto piu grande” di un’infinita numerabile.) Lo schema della probabilita discreta nonsi puo quindi applicare.

Un problema naturale e quello di domandarsi come si puo fare per scegliere un “puntoa caso” nell’intervallo I = [a, b], in modo tale cioe che tutti i punti siano equivalenti. Sitratta dell’analogo della probabilita classica per l’intervallo I, ma e chiaro che non si puorisolvere assegnando a ciascun punto una stessa probabilita p. Infatti se p > 0 la sommasu tutti i punti o anche su ogni evento (sottoinsieme di I) che contiene infiniti punti dainfinito, mentre se p = 0 ogni evento ha probabilita nulla.

D’altronde il problema ha in alcuni casi una soluzione ovvia: se l’evento e un sottoin-tervallo (α, β) di I la sua probabilita dovra essere proporzionale alla lunghezza, e quindiP (α, β)) = κ(β − α), dove deve essere κ = 1

b−aperche la probabilita deve essere 1 per

α = a e β = b. Ad un generico evento A ⊂ I, che potra essere un’unione finita o numerabile

di intervalli, possiamo allora assegnare la probabilita P (A) = |A||b−a| , dove |A| rappresenta

la lunghezza totale di A.Abbiamo cosı definito la probabilita continua uniforme sull’intervallo I.

Osservazione 1. In realta abbiamo qui taciuto un problema: si puo dimostrare chenon a tutti i sottoinsiemi di I si puo assegnare una lunghezza: vi sono sottoinsiemi dipunti talmente “strani” che non si puo loro assegnare una lunghezza. Sono i sottoinsiemidetti “non misurabili”. Bisogna quindi restringere la probabilita ad una particolare classedi eventi, gli eventi detti “misurabili”.

In questa sede comunque il problema puo essere ignorato, perche non c’e rischio che glieventi strani di cui si e detto intervengano nelle nostre considerazioni elementari. Consid-ereremo quindi sempre eventi misurabili. La classe di tali eventi contiene, naturalmente, gliintervalli e le loro unioni finite o infinite (numerabili), e non si esce da essa se si effettuanocomplementi, unioni e intersezioni finite o numerabili.

Piu in generale, se abbiamo una funzione integrabile non negativa p(x) ≥ 0 definita per

x ∈ I e tale che∫ b

ap(x)dx = 1, possiamo definire la probabilita continua su I assegnando

ad ogni evento A ⊂ I la probabilita

P (A) =

A

p(x)dx, (1.6.1)

dove, se A = (α, β) e un intervallo,∫

Ap(x)dx =

∫ β

αp(x)dx, e se e un’unione finita o

numerabile di intervalli disgiunti A = (α1, β1)∪(α2, β2)∪. . . , con a ≤ α1 < β1 ≤ α2 . . . ≤ b,con

∫A

p(x)dx intendiamo la somma o serie

A

p(x)dx =

∫ β1

α1

p(x)dx +

∫ β2

α2

p(x)dx + . . . .

25

Page 26: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Eventi piu complicati non capitera di considerare, e si noti che la probabilita di ogni singolopunto e nulla, e quindi non ha importanza se gli intervalli sono chiusi o aperti.

La coppia (I, p) costituisce uno spazio di probabilita, che e detto probabilita con-tinua sull’intervallo I con densita p(x).

Esempio 1. Consideriamo la probabilita continua uniforme sull’intervallo I = [−2, 2],e calcoliamo la probabilita dell’evento A = (1, 2).

L’evento A e un intervallo di lunghezza 1 mentre tutto l’intervallo ha lunghezza 4,quindi la probabilita e P (A) = 1

4 .

Esempio 2. La funzione p(x) = 3x2 e la densita di una probabilita sull’intervallo

I = [0, 1]. Infatti 3∫ 1

0x2dx = 1. Non si tratta della probabilita uniforme: se A = [0, 1

2) si

ha P (A) = 18 .

Osservazione 2. Il caso di intervalli infiniti. La nozione di probabilita continuacon densita su un intervallo si estende facilmente al caso di intervalli infiniti, come lasemiretta positiva [0,∞) o tutta la retta R. Alla densita p(x), oltre alla condizione chenon sia mai negativa, si deve naturalmente richiedere che l’integrale (improprio) su tutto lospazio degli eventi dia 1, cioe, nei due casi menzionati,

∫ ∞0

p(x)dx = 1, o∫ ∞−∞ p(x)dx = 1.

Esempio 3. La funzione p(x) = e−x rappresenta la densita di una probabilita con-tinua su [0,∞).

1.6.2 Variabili aleatorie con distribuzione continua con densita.

Una variabile aleatoria definita sullo spazio di probabilita I con densita p(x) e, comenel caso discreto, una funzione F (x) a valori reali definita per x ∈ I. Se la funzione F (x)e continua su I, l’immagine XF = F (I) e a sua volta un’intervallo, che puo essere infinito,se I e infinito e F non e limitata. La distribuzione della F (x) puo allora essere a suavolta una probabilita continua con una densita pF , e in tal caso, per ogni evento A ⊂ XF

(misurabile) si ha

P (F ∈ A) =

A

pF (x)dx. (1.6.2)

In particolare, se XF = [α, β] e x ∈ XF si definisce la funzione di distribuzione dellavariabile aleatoria F come

ΦF (x) = P (F < x) =

∫ x

α

pF (t)dt, (1.6.3)

e, ricordando le regole di derivazione, si vede che la densita e data dalla derivata della ΦF :pF (x) = Φ′

F (x).Se invece F (x) assume un numero finito o discreto di valori (cioe se il codominio

XF = F (I) e finito o discreto), la distribuzione (XF , pF ) sara una probabilita discreta.Non prenderemo in considerazione altri casi oltre a questi due ora considerati.

Osservazione. La stessa probabilita continua sull’intervallo I con densita p(x) si puoconsiderare come distribuzione della variabile aleatoria identica F (x) = x: infatti per ognievento A ⊂ I si ha P (x : F (x) ∈ A) = P (A) =

∫A

p(x)dx. Si tratta ovviamente di unavariabile aleatoria continua.

26

Page 27: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Esempio 1. Consideriamo la probabilita continua uniforme sull’intervallo I = [−1, 1],e su I la variabile aleatoria

F (x) =

+1 x ≥ 0

−1 x < 0.

Si ha XF = −1, 1. La variabile F e quindi discreta e la sua distribuzione e pF (±1) = 12.

Esempio 2. Sullo stesso intervallo I dell’esempio 1 consideriamo la variabile aleatoriaF (x) = x2. E’ chiaro che XF = [0, 1]. La funzione di distribuzione di F e

ΦF (z) = P (F < z) = P ((−√z,√

z)) =√

z, z ∈ [0, 1].

Derivando si trova la densita pF (z) = 12√

z.

6.1.3. Valor medio, dispersione, correlazione.

Il valor medio si definisce in modo analogo al caso discreto, solo che la somma sarasostituita da un integrale. Sia (I, p) una probabilita continua e F una variabile aleatoriasu I. Il valor medio della variabile F e dato dalla relazione

M(F ) =

I

F (x)p(x)dx. (1.6.4)

La varianza Var (F ) = M((F − M(F ))2) sara a sua volta rappresentata da un’integrale

Var (F ) =

I

(F (x) − M(F ))2p(x)dx =

I

F 2(x)dx −(∫

I

F (x)dx

)2

. (1.6.5)

Cosı come avviene nel caso discreto, valor medio e varianza si possono esprimeretramite la distribuzione della variabile aleatoria F .

Se abbiano due variabili aleatorie, F e G, nello spazio di probabilita continua (I, p) laloro correlazione o covarianza sara data dalla relazione

Cov (F, G) =

I

(F (x) − M(F ))(G(x)− M(G))p(x)dx =

I

F (x)G(x)p(x)dx−∫

I

F (x)p(x)dx

I

F (x)G(x)p(x)dx. (1.6.6)

Il coefficiente di correlazione si esprime in termini della correlazione e delle varianzecome visto nel §1.5.5.

Esempio 1. Consideriamo la probabilita su I = [0, 1] con densita p(x) = 3x2.Calcoliamo valor medio e varianza della variabile aleatoria F (x) = x. Si ha

M(F ) =

∫ 1

0

xp(x)dx = 3

∫ 1

0

x3dx =3

4, M(F 2) = 3

∫ 1

0

x4dx =3

5.

Quindi Var (F ) = 35 − 9

16 . Inoltre

27

Page 28: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

1.6.4. Variabili aleatorie continue notevoli.

Definiamo ed illustriamo le proprieta di tre variabili aleatorie tra le piu importanti.In particolare la variabile aleatoria gaussiana, come vedremo nel prossimo capitolo, ha unruolo centrale sia in teoria della probabilita che in statistica.

Come gia osservato nel caso discreto, non distingueremo tra variabili aleatorie e lorodistribuzione.

1. Variabile aleatoria uniforme su un intervallo I = [a, b].Come si e gia visto, la distribuzione uniforme su I ha densita costante p(x) = 1

b−a.

Detta F una variabile aleatoria con densita della distribuzione p(x), per il valor medio ela varianza dobbiamo calcolare gli integrali

M(F ) =1

b − a

∫ b

a

xdx =b2 − a2

2(b − a)=

a + b

2,

M(F 2) =1

b − a

∫ b

a

x2dx =b3 − a3

3(b − a)=

a2 + b2 + ab

3.

Un semplice calcolo mostra che Var (F ) = M(F 2) − (M(F ))2 = (b−a)2

12 .

2. Variabile aleatoria esponenziale.E’ la variabile aleatoria con valori nella semiretta [0,∞) e densita p(x) = ke−kx, per

qualche k > 0. Si noti che∫ ∞

0

p(x)dx = −∫ ∞

0

(e−kx

)′dx = −

[e−kx

]∞0

= 1.

Per il valor medio si calcolano (per parti) gli integrali

M(F ) =

∫ ∞

0

kxe−kxdx = −[xe−kx

]∞0

+

∫ ∞

0

e−kxdx =1

k

M(F 2) =

∫ ∞

0

kx2e−kxdx = −[x2e−kx

]∞0

+ 2

∫ ∞

0

xe−kxdx =2

k2,

Segue Var (F ) = 1k2 .

3. Variabile aleatoria gaussiana o di Gauss.Si tratta, come si e detto, di una variabile aleatoria di importanza centrale in proba-

bilita e statistica. L’insieme dei valori e costituito da tutta la retta reale R.Per la variabile gaussiana standard, la densita della distribuzione e

g(x) =e−

x2

2

√2π

. (1.6.7)

Si puo dimostrare, ma non con metodi elementari, che∫ ∞−∞ g(x)dx = 1, e quindi g(x) e

una densita di probabilita. Il valor medio della variabile con distribuzione (1.6.7) e nullo:

M(F ) =

∫ ∞

−∞xg(x)dx, (1.6.8)

28

Page 29: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

come segue dal fatto che la funzione g e pari, cioe g(x) = g(−x)), e pertanto la partepositiva e la parte negativa dell’integrale (1.6.8) sono eguali in modulo e si elidono. Lavarianza, usando la parita e integrando per parti, tenendo conto che g′(x) = −xg(x), e

Var (F ) =

∫ ∞

−∞x2g(x)dx = 2

∫ ∞

0

x2g(x)dx = −2

∫ ∞

0

xg′(x)dx

= −2 [xg(x)]∞0 + 2

∫ ∞

0

g(x)dx = 1. (1.6.9)

Oltre alla variabili standard si considerano le variabili gaussiana con media e varianzaarbitrarie. La variabile gaussiana con media m ∈ R e varianza σ2 > 0, e distribuita condensita

gm,σ =e−

(x−m)2

2σ2

√2πσ

. (1.6.10)

Per verificare che il valor medio e m e la varianza σ2 basta effettuare negli integraliil cambiamento di variabile y = x−m

σ. Si vede in tal modo che se F ha la distribuzione

gaussiana con densita (1.6.10), la variabile “normalizzata” F = F−mσ

ha la distribuzionegaussiana standard.

1.7. LEGGI LIMITE PER SOMME DI VARIABILI ALEATORIE IN-DIPENDENTI.

1.7.1. Legge dei grandi numeri.

La legge dei grandi numeri, formulata per la distribuzione binomiale gia da J. Bernoulliagli inizi del Settecento, e uno dei risultati fondamentali della teoria della Probabilita, senon addirittura il piu importante.

La sua formulazione e semplice. Consideriamo una successione infinita di variabilialeatorie indipendenti F1, F2, . . . , tutte con la stessa distribuzione. Il valore medio e ladispersione delle variabili, che sono le stesse per tutte, perche la distribuzione e la stessa,le indichiamo con M(Fi) = m e Var (Fi) = σ2, i = 1, 2 . . . .

Vale allora il seguente teorema, detto ”legge dei grandi numeri”.Teorema. Per ogni scelta del numero ǫ > 0 comunque piccolo, posto Sn = F1 + F2 +

. . . + Fn, si ha

limn→∞

P

(∣∣∣∣Sn

n− m

∣∣∣∣ > ǫ

)= 0. (1.7.1)

Il teorema afferma che la media aritmetica Sn

n= 1

n(F1+F2+. . .+Fn) e, con probabilita

che tende ad 1 per per n → ∞, vicina quanto si vuole alla media probabilistica m.Dimostrazione. La dimostrazione e molto semplice. Osserviamo che M(Sn) = n ·m,

per cui la probabilita nella (1.7.1) si puo scrivere, motiplicando per n entrambi i membri

della disuguaglianza, come P (|Sn| > nǫ), dove Sn = Sn−M(Sn) = Sn−nm e la variabilecentrata.

29

Page 30: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Ora, se F e una variabile aleatoria non negativa, e a > 0 e un numero, e facile vedereche vale la disuguaglianza (detta ”disuguaglianza di Chebyshev”)

P (F > a) ≤ M(F )

a. (1.7.2)

Infatti, usando la distribuzione di F , si ha

M(F ) =∑

x∈XF

pF (x)x ≥∑

x>a

pF (x)x ≥ a∑

x>a

pF (x) = aP (F > a).

(Il primo ≥ deriva dal fatto che sommiamo solo su x > a e il secondo dal fatto chesostituiamo x > a con a. )

La probabilita (1.7.1) si stima con la (1.7.2) ponendo F = S2n e a = n2ǫ2. Infatti

P (|Sn| > nǫ) = P (S2n > n2ǫ2) ≤ Var (Sn)

n2ǫ2, (1.7.3)

dato che M(S2n) = Var (Sn). Per l’indipendenza delle variabili (Osservazione del §1.5.6),

abbiamo inoltre Var (Sn) = nσ2. In conclusione si trova

P

(∣∣∣∣Sn

n− m

∣∣∣∣ > ǫ

)≤ σ2

nǫ2.

L’espressione a destra tende a 0 per n → ∞, e il teorema e dimostrato.

Applicazione della legge dei grandi numeri alla binomiale e conseguenze.Se consideriamo la distribuzione binomiale discussa al punto 1 del §1.5.7, abbiamo

visto che il numero di successi N si puo scrivere come∑n

i=1 Fi, con le Fi indipendenti eM(Fi) = p. Quindi N ha le stesse proprieta della somma Sn del teorema appena visto, epossiamo applicare la (1.7.1), ottenendo

limn→∞

P

(∣∣∣∣N

n− p

∣∣∣∣ > ǫ

)= 0. (1.7.4)

Il rapporto Nn

e la ”frequenza” dei successi nelle n prove. Si puo quindi dire che, perla legge dei grandi numeri, la frequenza dei successi in n prove indipendenti tendeper n → ∞ alla probabilita p.

La (1.7.4) fornisce uno strumento per il calcolo, almeno approssimato, di probabilitaincognite tramite le frequenze.

La legge dei grandi numeri e infatti la base della definizione “frequentista” della prob-abilita: nei casi in cui la probabilita non puo essere data a priori, sarebbe comunque bendefinita, perche la si puo calcolare, almeno in linea di principio, con approssimazione grandequanto si vuole, se e possibile eseguire infinite prove indipendenti nelle stesse condizioni.

1.7.2. Legge di De Moivre Laplace.

30

Page 31: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

Il secondo risultato fondamentale che riportiamo, e una caso particolare per la soladistribuzione binomiale, del famoso “teorema centrale del limite”. Questo teorema affermache, sotto condizioni molto generali, la distribuzione di una somma di variabili aleatorieindipendenti tende ad una distribuzione limite, che e universale, non dipende cioe dalla

natura delle variabili, ed e continua con la densita gaussiana standard g(x) = 1√2π

e−x2

2

vista nel §1.6.4.Torniamo alla distribuzione binomiale (punto 1 del §1.5.7) con p ∈ (0, 1) fisso e n

grande, che tendera all’infinito. Sappiamo che il valor medio del numero dei successi N enp, e vogliamo considerare come si comportano per grandi n le probabilita P (N = k)per k nella zona centrale dei valori, cioe nelle vicinanze del valor medio. Definiamo come“zona centrale”, per ragioni che vedremo poi, la zona

Cn := k : |k − np| ≤ ann23 ,

dove an e una successione decrescente di numeri positivi con limite limn→∞ = 0 (peresempio an =

n).

Posto, come al solito q = 1 − p vale allora il seguente teorema.

Teorema (Legge di De Moivre-Laplace. Per n → ∞ si ha, per k ∈ Cn

P (N = k) =e−

(k−np)2

2npq

√2πnpq

(1 + rn(k)) , (1.7.5)

dove la correzione rn(k) e uniformemente piccola per grandi n:

limn→∞

maxk∈Cn

|rn(k)| = 0. (1.7.6)

Dimostrazione. La dimostrazione parte dalla formula esplicita (1.4.8), ed e basatasulla formula di Stirling (1.2.3). La formula di Stirling per grandi n si applica non solo a

n!, ma anche a k! e a (n − k)!, che, se k ∈ Cn tendono all’infinito. Infatti k > np − ann23 ,

n − k > nq − ann 3 (dove, come al solito q = 1 − p), e, quindi tendono all’infinito pern → ∞.

Inserendo la formula di Stirling nella (1.4.8), trascurando i termini di correzione eθnn

e gli altri per k e n − k, otteniamo

P (N = k) ∼√

n

2πk (n − k)

nn

kk(n − k)n−kpkqn−k,

dove il simbolo ∼ indica eguaglianza a meno dei fattori di correzione che tendono a 1 pern → ∞. Posto p∗ = k

n, e q∗ = 1 − p∗ = n−k

n, il membro di destra diventa

1√2πn p∗q∗

pkqn−k

pk∗ qn−k

∗=

exp−nH(p∗)√2πn p∗q∗

(1.7.7)

31

Page 32: ELEMENTI DI PROBABILITA’ E STATISTICA. 1. PROBABILITA’. 1 ... · matematica, si `e sviluppata essenzialmente a partire dagli anni trenta del secolo XX, ed `e oggi uno strumento

dove, passando ai logaritmi, si e posto H(p∗) = p∗ ln p∗p

+ (1 − p∗) ln 1−p∗1−p

. Sviluppiamola funzione H con la formula di Taylor del secondo ordine nel punto p∗ = p. Si haH ′(p∗) = ln p∗

p− ln 1−p∗

1−p, H ′′(p∗) = 1

p∗+ 1

1−p∗, per cui H(p) = H ′(p∗) = 0, mentre

H ′′(p) = 1pq

. Pertanto, per qualche punto p, intermedio tra p e p∗ abbiamo

H(p∗) = H(p) + H ′(p)(p∗ − p) +H ′′(p)

2(p∗ − p)2 +

H ′′′(p)

3!(p∗ − p)3.

Tenendo conto che p∗ − p = k−npn

, poiche la derivata terza e limitata, abbiamo, per ognik ∈ Cn,

n

∣∣∣∣H ′′′(p)

3!(p∗ − p)3

∣∣∣∣ ≤ C|k − np|3

n2≤ Ca3

n → 0.

L’espressione (1.7.7) si puo allora scrivere nella forma

1√2πn p∗q∗

e−(k−np)2

2npq (1 + rn(k))

dove rn(k) = exp−nH′′′(q)3! (p∗ − p)3 − 1 ≤ expCa3

n − 1 → 0, per n → ∞.

La dimostrazione della (1.7.4) e ora completata dal fatto che |p∗−p| = |k−np|n

≤ an

n13→

0 per n → ∞, e quindi il denominatore tende a√

2πpq.

Teorema centrale del limite.Una conseguenza immediata della legge di De Moivre-Laplace e il teorema centrale

del limite, che mostra come la variabile aleatoria N−np√npq

tenda alla distribuzione gaussiana

vista nel §1.6.4.Questo risultato vale per classi assai generali di somme di variabili aleatorie, indipen-

denti o debolmente dipendenti, ed e uno dei risultati principali della teoria della probabilita.In termini imprecisi, lo si puo formulare dicendo che una somma di variabili aleatorie pic-cole e indipendenti tende ad essere distribuita secondo la distribuzione gaussiana.

La formulazione del teorema nel caso della distribuzione binomiale e la seguente: seA < B sono due numeri reali, si ha, per n → ∞,

P

(N − np√

npq∈ (A, B)

)=

k:B<k−np√

npq<A

P (N = k) →∫ B

A

e−x2

2

√2π

dx. (1.7.8)

Infatti, usando la legge di De Moivre-Laplace (1.7.5) si vede che il limite (1.7.8) e illimite delle somme ∑

k:B<k−np√

npq<A

g(xk)δn

dove g(x) = e− x2

2√2π

e la densita gaussiana, xk = k−np√npq

sono punti dell’intervallo (A, B) a

distanza tra di loro data da xk+1 − xk = 1√npq

:= δn. La somma e quindi una somma

integrale su intervallini con il centro nei punti xk e base di lunghezza δn. Per n → ∞ si haδn → 0, e la somma integrale tende all’integrale definito della funzione g(x) tra A e B, equesto dimostra la (1.7.8).

32