143
Appunti di probabilit` a e statistica Ingegneria Civile, Firenze, a.a. 2011/2012. Daniel Canarutto Dipartimento di Matematica e Informatica “U. Dini” 21/1/2013 Sommario Questi appunti raccolgono il contenuto delle lezioni di probabilit` a e statistica, per il Corso di Laurea in Ingegneria Civile, svolte nei tre anni accademici dal 2009/2010 al 2011/2012. Possono essere solo stampati da ciascun individuo per il proprio uso personale di studio. Il materiale rimane comunque di esclusiva propriet` a dell’autore. Ogni altro uso (per esempio da parte di copisterie per rivenderli in qualsiasi forma) ` e espressamente proibito. Questa versione ` e la quarta relativa all’anno accademico 2011/2012 (la precedente era del 14/9/2012). Ulteriori correzioni e piccole modifiche potranno essere ancora fatte, nonostante che a partire dall’anno accademico 2012/2013 l’autore non tenga pi` u il corso, per l’uso degli studenti degli anni precedenti.

Appunti di probabilità e statistica [2013, 143p]

Embed Size (px)

DESCRIPTION

Statistics and probability

Citation preview

Page 1: Appunti di probabilità e statistica [2013, 143p]

Appunti di probabilita e statistica

Ingegneria Civile, Firenze, a.a. 2011/2012.

Daniel CanaruttoDipartimento di Matematica e Informatica “U. Dini”

21/1/2013

Sommario

Questi appunti raccolgono il contenuto delle lezioni di probabilita e statistica, per il Corsodi Laurea in Ingegneria Civile, svolte nei tre anni accademici dal 2009/2010 al 2011/2012.Possono essere solo stampati da ciascun individuo per il proprio uso personale di studio. Ilmateriale rimane comunque di esclusiva proprieta dell’autore. Ogni altro uso (per esempioda parte di copisterie per rivenderli in qualsiasi forma) e espressamente proibito.

Questa versione e la quarta relativa all’anno accademico 2011/2012 (la precedenteera del 14/9/2012). Ulteriori correzioni e piccole modifiche potranno essere ancora fatte,nonostante che a partire dall’anno accademico 2012/2013 l’autore non tenga piu il corso,per l’uso degli studenti degli anni precedenti.

Page 2: Appunti di probabilità e statistica [2013, 143p]

II RIFERIMENTI BIBLIOGRAFICI

Riferimenti bibliografici

[1] G. Anichini, Elementi di probabilita e statistica, Pitagora Editrice Bologna.

[2] P. Baldi, Calcolo delle probabilita e statistica, McGraw-Hill.

[3] C. Franchetti, Sommario lezioni di probabilita,http://www.dma.unifi.it/~franchetti/probab/CorsoProb99.pdf

[4] C. Franchetti, Sommario lezioni di probabilita (versione abbreviata),http://www.dma.unifi.it/~franchetti/probab/ProbAbbr.pdf

[5] E. Giusti, Analisi Matematica 2, Bollati-Boringhieri.

Page 3: Appunti di probabilità e statistica [2013, 143p]

INDICE III

Indice

1 Introduzione 1

1.1 Fenomeni aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 La probabilita nel linguaggio comune . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Modelli matematici della probabilita 5

2.1 σ-algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Probabilita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3 Probabilita nel continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4 Distribuzioni e delta di Dirac . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.5 Probabilita condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.6 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Schema di Bernoulli 23

3.1 Testa o croce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2 Due lanci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3 n lanci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.4 Legge binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.5 Legge di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.6 Lanci fino a che... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.7 Lanci di un dado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.8 Decadimento radioattivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.9 Distribuzione multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.10 Coincidenza di compleanni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4 Variabili aleatorie 35

4.1 Applicazioni dallo spazio dei campioni in un insieme qualsiasi . . . . . . . . . . 35

4.2 Variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.3 Funzione di ripartizione e densita . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.4 Intermezzo: alberi e grafi, variazioni sul tema . . . . . . . . . . . . . . . . . . . 41

4.5 Simulazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.6 Variabili aleatorie vettoriali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.7 Variabili aleatorie indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.8 Densita condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.9 Calcolo di leggi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.10 Il “caso” di Mary vos Savant . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5 Media e momenti 61

5.1 Media di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.2 Momenti di una variabile aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.3 Alcuni esempi di media e momenti . . . . . . . . . . . . . . . . . . . . . . . . . 67

6 Compendio delle leggi piu importanti 70

6.1 Legge binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6.2 Legge di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.3 Distribuzione geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.4 Distribuzione ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.5 Distribuzione normale, o gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . 73

Page 4: Appunti di probabilità e statistica [2013, 143p]

IV INDICE

6.6 Leggi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766.7 Legge esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.8 Legge “chi quadro” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.9 Distribuzione di Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

7 La legge dei grandi numeri 827.1 La legge empirica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 827.2 Convergenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 827.3 Legge debole e legge forte dei grandi numeri . . . . . . . . . . . . . . . . . . . . 847.4 Funzione di ripartizione empirica e grafico dei quantili . . . . . . . . . . . . . . 857.5 Funzioni caratteristiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887.6 Convergenza in legge e Teorema Limite Centrale . . . . . . . . . . . . . . . . . 927.7 Approssimazione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

8 Elementi di statistica 1008.1 Statistica descrittiva e statistica inferenziale . . . . . . . . . . . . . . . . . . . . 1008.2 Stimatori fondamentali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1008.3 Quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1048.4 Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1088.5 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1098.6 Test di Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1128.7 Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

A Nozioni basilari di calcolo combinatorio 119A.1 Coefficienti binomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119A.2 Coefficienti multinomiali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120A.3 Disposizioni con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121A.4 Disposizioni senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122A.5 Permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122A.6 Combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122A.7 Partizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

B Numeri complessi 124B.1 Numeri complessi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124B.2 Funzioni elementari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125B.3 Derivata e integrale di una curva a valori complessi . . . . . . . . . . . . . . . . 129B.4 Serie (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

C Misura e integrazione 133C.1 Misura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133C.2 Integrazione astratta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135C.3 Misura e integrale di Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

Page 5: Appunti di probabilità e statistica [2013, 143p]

1

1 Introduzione

1.1 Fenomeni aleatori

L’aggettivo “aleatorio” (sinonimo di “casuale”) proviene dal latino alea, “dado”, e vale a con-notare fenomeni la cui evoluzione non possiamo prevedere con precisione. In effetti nessuno ein grado di lanciare un dado in modo da influire sul risultato. Questo fatto potrebbe sembrarein contrasto con la nozione che il moto del dado puo essere descritto nell’ambito della Mecca-nica Classica, che e deterministica: una volta note le condizioni iniziali (posizioni e velocitadi tutte le particelle che compongono il sistema meccanico studiato) e possibile in linea diprincipio prevederne il moto, almeno in un certo intervallo di tempo, risolvendo le equazionidi moto (un sistema di equazioni differenziali del second’ordine). Cosı l’artigliere e in gradodi indirizzare il proiettile sul bersaglio, con notevole esattezza, controllandone la direzione ela velocita iniziali.1.1

Nel caso del dado, tuttavia, il moto e cosı sensibile alle condizioni iniziali che una varia-zione minuscola di queste puo dar luogo, alla fine, a un risultato completamente diverso; inpratica, il controllo di differenze cosı piccole nelle condizioni iniziali e al di la delle possibilitaumane, e cio rende appunto aleatorio il risultato dell’“esperimento”.

E facile pensare ad altri esperimenti di carattere parimenti aleatorio:- il lancio di una moneta;- l’estrazione (alla cieca) di un numero di una tombola o del lotto;- l’estrazione di una carta da un mazzo(negli ultimi due esempi, le palline recanti i numeri e le carte devono essere mescolate in modoappropriato).

Si potrebbe pensare che le situazioni di questi esempi siano molto particolari, ma e piut-tosto vero il contrario: di regola, il risultato di un esperimento non puo essere previsto conesattezza. Cio in fondo e vero anche nel caso del lancio di un proiettile, perche piccole varia-zioni delle condizioni iniziali o fluttuazioni imprevedibili delle condizioni atmosferiche fannosı che il bersaglio, per quanto l’artigliere possa essere accurato, venga colpito solo con unacerta approssimazione (magari molto buona); eseguendo una serie di lanci in condizioni iden-tiche i proiettili arriveranno in una area (magari ristretta) intorno al bersaglio, ma non tuttiesattamente nello stesso punto.1.2

Osservazione. A pensarci bene, il lancio del dado non e poi cosı diverso da quello di unproiettile, solo che risulta piu difficile prevedere la configurazione finale, dopo che e rimbalzatoe si e fermato; un qualche grado di prevedibilita esiste anche in questo caso (per esempio il dadosi fermera piu o meno lontano dal lanciatore a seconda della velocita iniziale). Il punto peroe che, in quest’esperimento, il risultato a cui siamo interessati non e la configurazione finalecompleta ma solo un’informazione parziale riguardo a questa: quale faccia viene a trovarsi inalto. ♣

Esistono poi in natura fenomeni che, almeno allo stato attuale delle conoscenze, sono re-golati da leggi aventi carattere aleatorio in un senso ancora piu radicale: quei fenomeni, perlo piu sub-microscopici, che sono governati dalla Meccanica Quantistica. Consideriamo peresempio il cosiddetto decadimento radioattivo: un nucleo atomico puo emettere spontanea-mente varie particelle, ed eventualmente disintegrarsi in piu pezzi; l’istante in cui cio avviene

1.1Per un calcolo davvero preciso deve tener conto non solo della forza di gravita ma anche delle forzed’inerzia dovute alla rotazione terrestre e della resistenza dell’aria; quest’ultima varia con l’altezza e dipendedalla velocita e direzione del vento.

1.2Non ha neanche senso dire che un proiettile arriva esattamente in un punto nel senso matematico.

Page 6: Appunti di probabilità e statistica [2013, 143p]

2 1 INTRODUZIONE

e del tutto imprevedibile, non solo perche non conosciamo esattamente lo stato del sistemafisico osservato, ma proprio per una questione di principio. In Meccanica Quantistica non valeil determinismo della fisica newtoniana.

1.2 La probabilita nel linguaggio comune

Nel linguaggio comune, l’aggettivo “probabile” si usa in maniera informale per connotareeventi futuri dei quali pensiamo che si verificheranno, anche se non ne siamo certi (“e probabileche oggi non piova”); analogamente, l’aggettivo “improbabile” serve per connotare eventifuturi dei quali pensiamo che non si verificheranno (“e improbabile che un meteorite caschi suPiazza della Signoria”). Magari ci spingiamo fino a dare dei numeri (la probabilita di pioggianel pomeriggio e del 10%). Anche gli addetti ai lavori del mondo del calcio (forse non lacategoria piu dotata in quanto a precisione nel pensiero matematico) all’inizio del campionatodanno una loro valutazione delle probabilita di vittoria finale delle varie squadre in forma dipercentuali (per esempio: Inter 40%, Milan 25%, Juventus 20%, Roma 15% – la somma devefare 100%).

Quello che noi vogliamo e pero una formulazione matematica all’interno della quale lanozione di probabilita possa essere trattata con esattezza e permetta di fare calcoli precisi (e,magari, di trarre conclusioni non ovvie). Per costruire un tale modello matematico probabilisti-co dobbiamo prima di tutto precisare quali sono i possibili risultati dell’esperimento in esame;tali risultati vengono “etichettati” come elementi di un certo insieme Ω che e tradizional-mente detto spazio dei campioni. Cosı, nel lancio di un dado, si assumera Ω = 1, 2, 3, 4, 5, 6(ignorando gli altri parametri che caratterizzano la configurazione del dado); nel lancio di unamoneta Ω = testa, croce ; nel lancio di un proiettile, Ω potrebbe essere una certa area in-torno al bersaglio, all’interno della quale si sa che il proiettile atterrera con certezza (tenendoconto di certe limitazioni alle possibili variazioni delle condizioni iniziali e delle condizioniatmosferiche). Vedremo vari altri esempi nel seguito.

Vogliamo dare un significato piu preciso alla “percentuale” che, nel linguaggio corrente,esprime la maggiore o minore probabilita di un evento. Assegnare una probabilita del 100%significa che riteniamo che l’evento in questione si verifichera certamente; una probabilitadello 0% significa invece che certamente non si verifichera. E che dire di una probabilita, peresempio, del 27%? Qui la faccenda e un po’ piu delicata, e verra chiarita meglio in seguito, main sostanza possiamo dire questo: se fossimo in grado di eseguire l’esperimento un gran numerodi volte, sempre nelle stesse identiche condizioni, allora ci aspetteremmo che circa i 27/100dei risultati rientrino nell’evento considerato. Nella figura 1, per esempio, sono i riportati irisulati di quattro serie di lanci di un dado,1.3 rispettivamente di 60, 600, 6000 e 60000 lanci.Si constata che, al cresecere del numero dei lanci, la percentuale di ciascun risultato si avvicinasempre di piu a 1

6 = 0.1666... ∼= 16.67% .

Visti questi dati, diremo allora che nell’esperimento “lancio di un dado”, per ciascuno deipossibili risultati la probabilita e 1/6 . Questo sembrerebbe ovvio anche a priori: data la sim-metria del dado, non c’e alcuna ragione per cui un risultato debba uscire piu spesso degli altri.La situazione potrebbe essere differente: potremmo trovare che, continuando ad aumentare

1.3L’esperimento non e stato eseguito lanciando materialmente il dado e prendendo nota del risultato ognivolta, ma mediante una simulazione al computer. In ogni linguaggio di programmazione esiste infatti unafunzione (random) che simula un output aleatorio. Ovviamente tale funzione non e veramente aleatoria, inquanto e realizzata mediante un algoritmo preciso. Tuttavia questo algoritmo e congegnato (o dovrebbe esserlo)in modo tale che se non lo conosciamo esplicitamente non possiamo fare alcuna previsione sul risultato; quindiper l’utilizzatore, a tutti gli effetti, e come se si trattasse di un fenomeno autenticamente aleatorio (si parlaanche di procedimento pseudo-aleatorio).

Page 7: Appunti di probabilità e statistica [2013, 143p]

1.2 La probabilita nel linguaggio comune 3

Figura 1: Lanci di un dado

60 lanci

9 17 9 7 11 7

r r r rrr r rr r r rr rr r rr rr r

600 lanci

111 95 104 108 98 84

r r r rrr r rr r r rr rr r rr rr r

6000 lanci

1010 1047 1008 1012 933 990

r r r rrr r rr r r rr rr r rr rr r60000 lanci

10037 10019 9868 9987 10139 9950

r r r rrr r rr r r rr rr r rr rr r

il numero dei lanci, certi risultati continuano a uscire piu frequentemente di altri; il dado e“truccato” (cio puo avvenire se il materiale di cui e fatto non e omogeneo, per esempio seall’interno sono inseriti pezzetti di materiale piu pesante in posizione asimmetrica). Suppo-niamo per esempio che le frequenze dei sei possibili risultati si “stabilizzino” intorno ai valori(22%, 12%, 19%, 26%, 11%, 10%

); allora diremo che i vari risultati non sono “equiprobabili”,

o che la distribuzione di probabilita non e “uniforme”.

Osservazione. Ci si puo chiedere che senso abbiano le probabilita di vittoria nel campionatodi calcio, visto che il campionato non lo si puo ripetere quante volte si vuole nelle stesseidentiche condizioni. Queste probabilita sono valutazioni, basate su intuito e ragionamento,e vanno interpretate in questo senso: l’addetto ai lavori ritiene che “se si potesse ripetere”il campionato molte volte allora i risultati rispecchierebbero le proprie valutazioni; ma nonesiste modo di verificare fino a che punto sono corrette. Notiamo, comunque, che la professionedell’allibratore si basa proprio su valutazioni del genere. ♣

Osservazione. Nei bollettini metereologici1.4 viene spesso data la “probabilita di pioggia”per una data giornata: provare a discutere il significato di questo tipo di probabilita. ♣

Da questi esempi, e da questi discorsi un po’ alla buona, incominciamo a vedere che nelladescrizione matematica di un esperimento aleatorio dovra esserci un modo per calcolare laprobabilita di ogni evento; tale probabilita dovra essere rappresentata da un numero compre-so tra 0 e 1 (la “percentuale” del linguaggio corrente). Tra gli eventi presi in considerazionenon ci sono solo quelli rappresentati dagli elementi dello spazio Ω dei campioni relativi all’e-sperimento in esame; nel caso del lancio del dado, per rimanere nell’ambito del nostro esempiobase, uno potrebbe chiedersi qual’e la probabilita di ottenere un numero pari, oppure di ot-tenere un numero ≤ 4, o ancora di ottenere un numero primo, eccetera. Queste domande si

1.4Si veda per esempio http://www.arpa.veneto.it/bollettini/htm/dolomiti meteo.asp .

Page 8: Appunti di probabilità e statistica [2013, 143p]

4 1 INTRODUZIONE

riferiscono all’uscita di un risultato che appartiene a un sottoinsieme di Ω . Il modello mate-matico probabilistico dovra fornire risposte coerenti a tali questioni, e la sua validita potraessere verificata eseguendo l’esperimento un gran numero di volte.

Page 9: Appunti di probabilità e statistica [2013, 143p]

5

2 Modelli matematici della probabilita

Il §1.1 e il §1.2, a carattere discorsivo, ci sono serviti come introduzione alla nozione di pro-babilita. A questo punto passiamo a una trattazione piu formale, nella speranza che le variedefinizioni e i conseguenti risultati matematici risultino abbastanza “digeribili”.

La definizione di “spazio di probabilita” potrebbe essere data, in forma molto sinteti-ca,2.1 riferendoci a concetti introdotti e discussi nell’Appendice C (Misura e integrazione).Per non obbligare il lettore a studiarla subito in dettaglio arriviamo alla definizione per gradi,riformulando i concetti essenziali.

2.1 σ-algebra

Se Ω e un insieme qualsiasi, indichiamo con P(Ω) la famiglia di tutti i sottoinsiemi di Ω(inclusi Ω stesso e l’insieme vuoto ∅).

Definizione 2.1 Una σ-algebra su Ω e una famiglia E ⊂ P(Ω) con le seguenti proprieta:

a) Ω ∈ E.

b) E ∈ E ⇒ Ω \ E ∈ E.

c) Ek ∈ E ∀k ∈ N⇒ ∪k∈NEk ∈ E.

I sottoinsiemi E ∈ E sono detti misurabili, e la coppia (Ω,E) e detta spazio misurabile.

La proprieta c) della precedente definizione dice che l’unione di una famiglia numerabile2.2

di insiemi misurabili e ancora un insieme misurabile. Si noti che e condizione molto piuforte che non richiedere solamente che l’unione di un numero finito di insiemi misurabili siamisurabile. In effetti l’importanza di tale proprieta risultera dagli esempi.

Osservazione. Ω \E , l’insieme di tutti gli elementi di Ω che non appartengono a E , e dettoil complementare di E in Ω , e se non c’e pericolo di confusione (l’insieme “ambiente” Ω efissato) si indica semplicemente con Ec ⊂ Ω . Si trovano altre notazioni per Ec, ad esempioE, ma questa e usata anche con significati differenti e quindi sara meglio evitarla. ♣

Dalle proprieta richieste dalla definizione 2.1 si ricavano facilmente le seguenti:

d) ∅ ∈ E.

e) Ek ∈ E ∀k ∈ N⇒ ∩k∈NEk ∈ E.

f) Ek ∈ E, k = 1, . . . , n ⇒ ∪kEk ∈ E.

g) E,F ∈ E ⇒ E \ F ∈ E.

Dimostrazione:

d) Ω ∈ E ⇒ ∅ = Ω \ Ω ∈ E .

e) Segue dalla legge di de Morgan (E ∩ F )c = Ec ∪ F c , che vale anche per una famiglianumerabile di sottoinsiemi: (∩k∈NEk)c = ∪k∈NEck .

2.1Ovvero: uno spazio di probabilita e uno spazio di misura(Ω,E, P

)tale che P (Ω) = 1 .

2.2Ricordiamo che un insieme S si dice numerabile se esiste una biiezione S ↔ N , cioe se i suoi elementipossono essere “numerati”: esiste una successione N→ S : n 7→ sn la cui immagine e tutto S.

Page 10: Appunti di probabilità e statistica [2013, 143p]

6 2 MODELLI MATEMATICI DELLA PROBABILITA

f) E ovvia.

g) Segue da E \ F = E ∩ F c .

Dunque una σ-algebra su Ω e una famiglia di sottoinsiemi di Ω che si comporta in maniera“naturale” rispetto all’unione e all’intersezione; e cio non solo per le unioni e intersezionidi famiglie finite di sottoinsiemi, ma anche quando si considerino famiglie infinite, purchenumerabili.

Osservazione. Su qualsiasi insieme Ω esiste una σ-algebra privilegiata, costituita dalla fa-miglia P(Ω) di tutti i sottoinsiemi di Ω . Ci si potrebbe chiedere allora se considerare talefamiglia non sia sufficiente in generale per la nozione di probabilita, e se il dare la definizio-ne 2.1 non sia un’inutile complicazione. In effetti, nei casi in cui Ω e finito, oppure e infinito manumerabile, di regola basterebbe l’approccio piu semplice; ma questo non basta per trattare laprobabilita nel continuo, che e un aspetto importante della teoria. Lı esistono necessariamenteanche insiemi non misurabili, che vanno distinti da quelli misurabili. ♣

2.2 Probabilita

La nozione di σ-algebra e utilizzata, in generale, in teoria della misura. Nell’ambito della teoriadella probabilita si usa una terminologia speciale:• l’insieme Ω e detto spazio dei campioni ;• i sottoinsiemi di Ω che appartengono alla σ-algebra E ⊂ P(Ω) sono detti eventi.

Definizione 2.2 Chiamiamo probabilita, su uno spazio misurabile (Ω,E), una qualsiasi fun-zione P : E → [0, 1] tale che

• P (Ω) = 1 ;

• per ogni famiglia numerabile Enn∈N ⊂ E di insiemi misurabili disgiunti valga laproprieta (detta σ-additivita)

P ( ∪n∈N

En) =∑n∈N

P (En) .

La terna (Ω,E, µ) e detta allora uno spazio di probabilita.

Osservazione. Uno spazio di probabilita e un caso particolare di spazio di misura. In unospazio di misura qualsiasi c’e una funzione µ : E → [0,∞] , detta appunto misura, che godedella proprieta della σ-additivita ma puo assumere qualsiasi valore reale non negativo e ad-dirittura infinito. D’altra parte se una misura assume valori finiti su ogni insieme misurabileallora la si puo “normalizzare” a una probabilita ponendo P (E) := µ(E)/µ(Ω), ∀E ∈ E . ♣

Dai due assiomi precedenti segue:

i) P (∅) = 0.

ii) P (E ∪ F ) = P (E) + P (F )− P (E ∩ F ).

iii) E ⊂ F ⇒ P (E) ≤ P (F ).

Page 11: Appunti di probabilità e statistica [2013, 143p]

2.2 Probabilita 7

Dimostrazione:

i) Ω = Ω ∪∅ ⇒ 1 = P (Ω) = P (Ω) + P (∅) = 1 + P (∅) .

ii) Si ha E ∪ F = E ∪ (F ∩ Ec) da cui P (E ∪ F ) = P (E) + P (F ∩ Ec) ;inoltre da F = (F ∩ E) ∪ (F ∩ Ec) segue P (F ) = P (F ∩ E) + P (F ∩ Ec) ;mettendo insieme queste due identita si ha l’enunciato.2.3

iii) Se E ⊂ F si ha F = E ∪ (F \ E) , da cui P (F ) = P (E) + P (F \ E) .

Ovviamente la σ-additivita vale anche per una famiglia finita di insiemi misurabili di-sgiunti. Per una famiglia numerabile di insiemi misurabili eventualmente non disgiunti si hain generale

P ( ∪n∈N

En) ≤∑n∈N

P (En) .

In effetti, usando ripetutamente la formula P (E ∪ F ) = P (E) + P (F )− P (E ∩ F ) la si puogeneralizzare alla probabilita (misura) dell’unione di un numero qualsiasi di insiemi misurabili.Ad esempio2.4

P (E) + P (F ) + P (G)− P (E ∩ F )− P (E ∩G)− P (F ∩G) + P (E ∩ F ∩G) .

Una successione En di insiemi si dice crescente se m < n⇒ Em ⊂ En , e decrescente sem > n⇒ Em ⊂ En . Si dimostra:

Teorema 2.1.Sia En una successione crescente di insiemi misurabili; si ha

limn→∞

P (En) = P ( ∪n∈N

En) .

Sia Fn una successione decrescente di insiemi misurabili; si ha

limn→∞

P (Fn) = P ( ∩n∈N

Fn) .

Dimostrazione: Poniamo E′1 ≡ E1 , E′2 ≡ E2 \ E1 , . . . , E′n ≡ En \ En−1 ; allora E′n ∈ E ∀n ,inoltre En = E′1 ∪ · · · ∪ E′n e ∪n∈NE′n = ∪n∈NEn . Pertanto P (En) =

∑nk=1E

′k , e

P ( ∪n∈N

En) =∞∑n=1

P (E′n) ≡ limn→∞

n∑k=1

P (E′n) = limn→∞

P (En) .

Poniamo ora Dn ≡ F1 \ Fn . Allora i Dn costituiscono una successione crescente di sot-toinsiemi di Ω ; inoltre si ha P (Dn) = P (F1)− P (Fn) , ∪n∈NDn = F1 \ (∩n∈NFn) . Pertanto,applicando alla successione Dn il risultato precedente, si ottiene

P (F1)− P ( ∩n∈N

Fn) = limn→∞

P (Dn) = limn→∞

[P (F1)− P (Fn)] = P (F1)− limn→∞

P (Fn) ,

da cui segue l’enunciato.

2.3Oppure si puo osservare che E ∪ F = (E \ (E ∩ F )) ∪ (F \ (E ∩ F )) ∪ (E ∩ F ) , da cuiP (E ∪ F ) = (P (E)− P (E ∩ F )) + (P (F )− P (E ∩ F )) + P (E ∩ F ) = P (E) + P (F )− P (E ∩ F ) .

2.4P (E ∪ F ∪G) = P ((E ∪ F ) ∪G) = P (E ∪ F ) + P (G)− P ((E ∪ F ) ∩G) == P (E) + P (F )− P (E ∩ F ) + P (G)− P ((E ∩G) ∪ (F ∩G)) == P (E) + P (F ) + P (G)− P (E ∩ F )− P (E ∩G)− P (F ∩G) + P (E ∩ F ∩G)

Page 12: Appunti di probabilità e statistica [2013, 143p]

8 2 MODELLI MATEMATICI DELLA PROBABILITA

Esempio 2.1. Supponiamo che Ω sia di cardinalita2.5 |Ω| = n ∈ N finita, ed etichettiamo isuoi elementi come

Ω = ω1 , ω2 , . . . , ωn .

Poniamo poi E ≡ P(Ω) , nella quale famiglia sono inclusi i “singoletti” ωi , i ∈ Nn . Alloraper assegnare una probabilita e sufficiente assegnare gli n numeri

pi ≡ P (ωi) , conn∑i=1

pi = 1 .

La misura di ogni sottoinsieme (necessariamente finito) E ⊂ Ω e data allora da

P (E) =∑ω∈E

P (ω) ,

dove per semplicita si e utilizzata la notazione P (ω) ≡ P (ω) . Diremo che la probabilita euniforme se tutti i pi sono uguali, pi = 1/n ∀i ∈ Nn . ♠

Esempio 2.2. Supponiamo ora che Ω sia un insieme infinito, ma numerabile, e consideriamoun’arbitraria biiezione N→ Ω , ovvero una successione (ωi) la cui immagine sia tutto Ω .Scriviamo cioe

Ω = ω1 , ω2 , . . . , ωi , . . . .

Come nell’esempio precedente poniamo E ≡ P(Ω) , e assegnamo la probabilita assegnando lasuccessione (pi), a valori in [0, 1] ,

pi ≡ P (ωi) , con

∞∑i=1

pi = 1 .

Si noti che la condizione P (Ω) = 1 e ora espressa in termini della somma di una serie, e chetale somma e indipendente dall’ordine in quanto i termini sono non negativi (convergenzaassoluta); cio vale anche per qualsiasi sottoinsieme (finito o infinito) E ⊂ Ω , vale a dire chesi ha

P (E) =∑ω∈E

P (ω)

indipendentemente dall’ordine in cui sono numerati gli elementi di E . Si noti, inoltre, chese |Ω| non e finito la probabilita non puo essere uniforme, in quanto i termini di una serieconvergente devono tendere a zero. ♠

Esempio 2.3. Consideriamo ancora uno spazio di probabilita (Ω,E, P ) , con Ω ⊂ Ω′ . AlloraE puo essere vista come una famiglia di sottoinsiemi di Ω′, ma evidentemente non e una σ-algebra in Ω′ ; pero genera una σ-algebra E ′ ⊂ P(Ω′) , ovvero la piu piccola σ-algebra checontiene E . Si osservi che E ′ contiene tutti i complementari in Ω′ degli elementi di E, ma ingenerale non contiene i singoletti2.6 di Ω′ \ Ω .

2.5La cardinalita di un insieme finito e data semplicemente dal numero dei suoi elementi. Altrimenti si parladi cardinalita discreta se l’insieme in questione e numerabile, oppure di di cardinalita del continuo se esisteuna biiezione tra l’insieme ed R . Esistono poi insiemi di cardinalita ancora piu elevate (ad esempio l’insiemedi tutte le funzioni R→ R).

2.6Per esempio si consideri Ω = a, b, c , E = P(Ω) , Ω′ = a, b, c, d, e . Allora

E ′ =∅, a, b, c, ab, ac, bc, abc, de, ade, bde, cde, abde, acde, bcde, abcde

,

dove si e utilizzata l’abbreviazione abc per a, b, c eccetera. Nei sottoinsiemi di Ω′ appartenenti a E ′ i dueelementi d, e ∈ Ω′ \ Ω compaiono entrambi o nessuno dei due.

Page 13: Appunti di probabilità e statistica [2013, 143p]

2.3 Probabilita nel continuo 9

Si ottiene allora una probabilita su tutto Ω′ imponendo

P (E) = P (E ∩ Ω) , E ∈ E ′ ,

da cui, in particolare, P (Ω′ \ Ω) = 0 .Puo anche darsi il caso che Ω sia numerabile e Ω′ no; allora la probabilita di un elemento

di E ′ e comunque espresso come somma di una serie. ♠

Osservazione. Vogliamo verificare, in maniera un po’ informale, un risultato che sara utilein alcune discussioni, e cioe il fatto che l’insieme Q ⊂ R dei numeri razionali e numerabile.

r r r r r r rr r r r r r rr r r r r r rr r r r r r rr r r r r r rr r r r r r rr r r r r r r

1

2

3

4

5

6

7

1 2 3 4 5 6 7

Facciamo vedere esplicitamente che e possibile trovare una corrispon-denza biunivoca tra N e l’insieme (0, 1)∩Q dei razionali compresi tra 0e 1 . Se contrassegnamo con un punto nel piano ogni coppia di numerinaturali, e chiaro che si puo trovare un percorso che li attraversa tutti,oppure (come in figura) un percorso che attraversa tutti i punti corri-spondenti alle coppie (n1, n2) tali che n1 < n2 . Queste coppie dannoluogo a tutti i quozienti di numeri naturali con numeratore inferiore aldenominatore, quindi a tutti gli elementi in (0, 1) ∩Q .

A dire il vero, nella successione trovata ogni razionale viene raggiunto piu volte, o meglio infi-nite volte (frazioni equivalenti); percio va “raffinata” saltando ogni numero che e gia comparsoprecedentemente. Senza entrare in dettagli formali, dovrebbe essere chiaro che in tal modo siriesce a definire la biiezione N → (0, 1) ∩ Q cercata.2.7 Dovrebbe essere chiaro anche come sipuo definire una successione la cui immagine sia tutto Q (non solo (0, 1) ∩Q) . ♣

2.3 Probabilita nel continuo

Gli esempi precedenti, sia di cardinalita finita che infinita, rientrano nel caso della probabilita“nel discreto”. Abbiamo gia accennato al fatto che nel continuo alcuni aspetti sono un po’piu complessi e delicati, e vogliamo ora cercare di capire l’essenza della questione senza troppitecnicismi. Per qualche dettaglio e spiegazione in piu si invita a leggere l’Appendice C (Misurae integrazione).

Quando si parla di probabilita “nel continuo” si intende, prima di tutto, che lo spazio Ωdei campioni e un opportuno sottoinsieme di Rn. Per esempio, Ω potrebbe essere l’internodi una sfera o di un’altra qualsiasi superficie in R3, oppure la superficie stessa; ma potrebbeanche essere un insieme non limitato, anche tutto R3.

Abbiamo detto che la probabilita e un caso particolare di misura. Ora, in Rn la parola“misura” del linguaggio comune assume un significato standard preciso: in R , per esempio, simisurano le lunghezze; in R2 si misurano le aree e le lunghezze; in R3 i volumi, le superfici e lelunghezze; e cosı via. Queste misure (che sono legate alla nozione di “integrale”) sono di solito,nei corsi di base, definite in termini della cosiddetta misura di Peano-Jordan; riassumiamonele idee principali.

2.7Non e difficile scrivere un algoritmo che permetta di elencare i primi n razionali di questa successione. Pern = 200 otteniamo (1/2, 1/3, 2/3, 3/4, 1/4, 1/5, 2/5, 3/5, 4/5, 5/6, 1/6, 1/7, 2/7, 3/7, 4/7, 5/7, 6/7, 7/8,5/8, 3/8, 1/8, 1/9, 2/9, 4/9, 5/9, 7/9, 8/9, 9/10, 7/10, 3/10, 1/10, 1/11, 2/11, 3/11, 4/11, 5/11, 6/11, 7/11,8/11, 9/11, 10/11, 11/12, 7/12, 5/12, 1/12, 1/13, 2/13, 3/13, 4/13, 5/13, 6/13, 7/13, 8/13, 9/13, 10/13, 11/13,12/13, 13/14, 11/14, 9/14, 5/14, 3/14, 1/14, 1/15, 2/15, 4/15, 7/15, 8/15, 11/15, 13/15, 14/15, 15/16, 13/16,11/16, 9/16, 7/16, 5/16, 3/16, 1/16, 1/17, 2/17, 3/17, 4/17, 5/17, 6/17, 7/17, 8/17, 9/17, 10/17, 11/17, 12/17,13/17, 14/17, 15/17, 16/17, 17/18, 13/18, 11/18, 7/18, 5/18, 1/18, 1/19, 2/19, 3/19, 4/19, 5/19, 6/19, 7/19,8/19, 9/19, 10/19, 11/19, 12/19, 13/19, 14/19, 15/19, 16/19, 17/19, 18/19, 19/20, 17/20, 13/20, 11/20, 9/20,7/20, 3/20, 1/20, 1/21, 2/21, 4/21, 5/21, 8/21, 10/21) .

Page 14: Appunti di probabilità e statistica [2013, 143p]

10 2 MODELLI MATEMATICI DELLA PROBABILITA

Figura 2: Una figura piana S (delimitata dalla linea curva, piu spessa) e due pluri-intervalli, unocontenuto in essa e uno che la contiene. Le aree dei due pluri-intervalli approssimano l’area di Srispettivamente per difetto e per eccesso. Se l’estremo superiore delle aree di tutti i pluri-intervallicontenuti nella figura coincide con l’estremo inferiore delle aree di tutti i pluri-intervalli contenenti lafigura, allora si dice che la figura stessa e misurabile secondo Peano-Jordan. Tuttavia questa nozionedi misurabilita non ha la proprieta della σ-additivita.

S

Ricordiamo che un iper-intervallo di Rn e il prodotto cartesiano di n intervalli di R (inR2, per esempio, e un rettangolo con i lati paralleli ai vettori della base canonica, in R3 e unparallelepipedo, eccetera), e che un pluri-intervallo di Rn e l’unione di un numero finito diiper-intervalli; la misura di un pluri-intervallo in Rn puo essere definita in modo naturale edelementare.

Per ogni sottoinsieme E ⊂ Rn indichiamo con m#(E) l’estremo inferiore di tutte lemisure di pluri-intervalli contenenti E , e con m[(E) l’estremo superiore di tutte le misu-re di pluri-intervalli contenuti in E (figura 2). Si dice che E e misurabile secondo Peano-Jordan se m#(E) = m[(E); tuttavia, la famiglia PJ di tutti gli insiemi misurabili secondoPeano-Jordan non e una σ-algebra. Infatti, come vedremo tra poco con un esempio, la σ-additivita non vale in PJ se non per una famiglia finita di sottoinsiemi. Quindi la funzionem : PJ → [0,+∞] : E 7→ m(E) := m#(E) = m[(E), detta misura di Peano-Jordan, non e arigore una vera misura; o meglio, soddisfa una definizione di misura piu debole.

Esempio 2.4. Per vedere che la misura di Peano-Jordan non verifica la σ-additivita osserviamoprima di tutto che la misura di un singoletto (insieme costituito da un unico punto) e zero,in quanto esistono pluri-intervalli di misura arbitrariamente piccola che lo contengono. Maabbiamo visto che l’insieme E ≡ (0, 1)∩Q dei numeri razionali compresi tra 0 e 1 e numerabile,esiste cioe una successione (qn) la cui immagine coincide con E . Pertanto se valesse la σ-additivita per m si dovrebbe avere

m(E) =

∞∑n=1

m(qn) =

∞∑n=1

0 = 0 .

D’alta parte, il piu piccolo intervallo aperto contenente E e (0, 1) , che ha misura 1 , mentrequalsiasi intervallo contenuto in E e un singoletto, che ha misura zero. Dunque m#(E) = 1 ,m[(E) = 0 ; poiche le due misure (superiore e inferiore) non coincidono, l’insieme E considerato

Page 15: Appunti di probabilità e statistica [2013, 143p]

2.3 Probabilita nel continuo 11

non e misurabile secondo Peano-Jordan, pur essendo unione numerabile di insiemi misurabili.♠

E veniamo al punto essenziale della presente discussione: un teorema fondamentale affermache esiste in Rn un’unica misura, detta misura di Lebesgue, che soddisfa a certe condizioninaturali e che coincide con la “misura” di Peano-Jordan per gli insiemi che sono misurabiliin quel senso.2.8 In particolare, sono misurabili secondo Lebesgue tutti gli insiemi aperti.2.9

La σ-algebra M ⊂ P(Rn) degli insiemi misurabili secondo Lebesgue e cosı grande che nonsi riesce a dare esempi concreti di sottoinsiemi di Rn che non siano misurabili. E tuttavia sidimostra che tali insiemi non misurabili esistono; e proprio questo il punto che rende necessariala nozione di σ-algebra nella definizione di spazio di misura e, in particolare, di spazio diprobabilita (altrimenti si potrebbe definire una probabilita semplicemente come una funzionesulla famiglia P(Rn) di tutti i sottoinsiemi di Rn).

Alla nozione di misura e associata quella di integrazione; alla misura di Lebesgue e associa-ta l’integrazione secondo Lebesgue. Non abbiamo bisogno qui di entrare nei dettagli, basteraaver presente che l’integrale secondo Lebesgue coincide con il familiare integrale secondo Rie-mann per quelle funzioni che sono integrabili in tal senso; d’altra parte, una funzione puoessere integrabile secondo Lebesgue ma non secondo Riemann. Inoltre la nuova nozione diintegrale ha proprieta piu forti.2.10

Ω

E

F

E ∩ F

Tutto cio suggerisce, in maniera naturale, esem-pi di spazi di probabilita nel continuo in cui Ωcoincide con un sottoinsieme di Rn avente mi-sura 1 , con la σ-algebra degli insiemi misura-bili secondo Lebesgue e contenuti in Ω . For-se per avere un’immagine intuitiva di quello dicui stiamo discutendo conviene avere presen-te il caso di R2, che e visualizzabile piu facil-mente (le questioni essenziali sono comunquele medesime in qualunque dimensione). Sup-poniamo per esempio che Ω sia un quadratodi lato 1 . La probabilita di un suo sottoin-sieme misurabile e semplicemente la sua area(vedi figura a lato, dove anche la proprietaP (E ∪ F ) = P (E) + P (F )− P (E ∩ F ) risultadi immediata comprensione).

Questo spazio di probabilita “matematico” potrebbe rappresentare una situazione reale di unesperimento aleatorio? Possiamo pensare che Ω sia il fondo di un pozzo, avente pareti cosıirregolari che una pallina di estensione trascurabile, lanciata dentro di esso, per effetto degliurti contro le pareti stesse atterri in un punto del tutto imprevedibile. Allora la probabilitache la pallina atterri in un qualche sottoinsieme E ⊂ Ω e proporzionale all’area di Ω : non c’ealcuna preferenza tra due zone diverse ma aventi la medesima area. E naturale quindi parlare

2.8Si veda l’Appendice C per un enunciato preciso del teorema. Per la dimostrazione, e per una discussionepiu approfondita della misura di Lebesgue, si consiglia di consultare il volume di Analisi II di E. Giusti [5].

2.9In Rn possiamo considerare la σ-algebra B generata da tutti gli aperti; gli elementi di B sono detti Boreliani(in particolare sono Boreliani gli insiemi chiusi). Si noti, tuttavia, che la σ-algebra M della misura di Lebesguee piu grande di B , cioe esistono insiemi misurabili secondo Lebesgue che non sono Boreliani. L’estensione da B aM e importante perche la conseguente nozione di integrazione secondo Lebesgue ha proprieta particolarmente“buone”.2.10In particolare sono richieste alla funzione proprieta meno vincolanti per poter derivare sotto il segno di

integrale.

Page 16: Appunti di probabilità e statistica [2013, 143p]

12 2 MODELLI MATEMATICI DELLA PROBABILITA

di probabilita “uniforme”, analoga alla probabilita uniforme su un insieme finito. D’altraparte, si osservi ancora che potremmo suddividere il quadrato in 25 quadrati di lato 0.2 (peresempio), e chiederci non in che punto atterra la pallina ma soltanto in quale dei quadratipiu piccoli; saremmo allora tornati nel caso discreto, con probabilita uniforme pari a 1/25 perciascun quadratino.

Come ulteriore esempio in cui lo spazio dei campioni e una superficie si consideri il seguente:un meteorite, abbastanza grande da non essere distrutto nell’attraversamento dell’atmosfera,sta per finire sulla Terra, ma non sappiamo quando avverra l’impatto ne da quale direzionearrivera. In base ai dati che abbiamo non siamo quindi in grado di fare alcuna previsioneriguardo al punto della superficie terrestre in cui avverra l’impatto, pertanto il problema edescritto da uno spazio di probabilita in cui lo spazio dei campioni Ω e una superficie sferica ela probabilita e uniforme, cioe la probabilita che il meteorite atterri in una superficie di areaA e pari ad A/(4πR2) essendo R il raggio della Terra.

D’altra parte una situazione di incertezza cosı totale non e realistica. Gli astronomi hannodi solito un’idea abbastanza precisa della direzione da cui proviene un meteorite e di quandoentrera nell’atmosfera; saranno quindi in grado di calcolare dove atterrera, anche se non conprecisione assoluta. In altri termini, sapranno determinare una distribuzione di probabilitanon uniforme, con valore alto in una certa area e basso in un’altra area avente la mede-sima superficie (se l’impatto e previsto nella zona di Arcore, noi a Firenze possiamo starerelativamente tranquilli, e ancora piu tranquilli saranno in Nuova Zelanda).

E facile trovare altri esempi di probabilita non uniforme nel continuo. Nel caso dellosparo di un proiettile d’artiglieria, per esempio, la probabilita di impatto sara piu grandein prossimita del bersaglio (stante un minimo di competenza da parte dell’artigliere); nelcaso della disintegrazione radioattiva, la probabilita che avvenga in un dato intervallo ditempo non puo essere proporzionale alla lunghezza dell’intervallo (altrimenti per intervallisufficientemente grandi si avrebbe probabilita maggiore di 1). Lo studente puo sbizzarrirsi acercare ulteriori esempi.

Per caratterizzare una probabilita non uniforme nel continuo utilizziamo la nozione didensita di probabilita. Se Ω ⊂ Rn e un insieme misurabile, si dice densita una funzionemisurabile2.11

p : Ω→ [0,∞)

tale che ∫Ωp = 1 .

Si ottiene allora lo spazio di probabilita (Ω,M, P ) dove M e la famiglia di sottoinsiemi di Ωche sono misurabili (secondo Lebesgue) e, per ciascun E ∈M, la probabilita e data

P (E) =

∫Ep .

2.11f : Ω → R si dice misurabile se la preimmagine di un aperto e un insieme misurabile. La nozione diintegrabilita, in teoria della misura, e definita per le funzioni misurabili.

Page 17: Appunti di probabilità e statistica [2013, 143p]

2.4 Distribuzioni e delta di Dirac 13

Esempio 2.5. Uno dei casi piu comuni e importanti di densita di probabilita, in Ω ≡ R , edato dalla densita normale, o Gaussiana,

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

p(x) =1

σ√

2πexp(−(x− µ)2

2σ2

).

Si dimostra che, in effetti,∫ +∞

−∞p(x) dx = 1 .

Il grafico di p(x) per µ = 0 e σ = 1 e riportato quaaccanto.

Le costanti µ e σ2 sono dette rispettivamente media e varianza della distribuzione (vedremopiu avanti il significato di questi termini i generale). La densita normale e descritta piu indettaglio nel §6.5. ♠

2.4 Distribuzioni e delta di Dirac

La probabilita (e, piu in generale, la misura) puo essere trattata in forme molto simili neldiscreto e nel continuo, tanto e vero che quando i due casi vengono svolti separatamente nerisulta una forte sovrapposizione, con molti enunciati quasi identici. In effetti e possibile fareuna trattazione unificata, che si “specializza” nel modo giusto a seconda dei casi. Cio si ottienemendiante una nozione generalizzata di “distribuzione”; per svilupparla in maniera completae rigorosa ci vorrebbe un intero corso, ma poi risulta facilmente maneggiabile, almeno perquanto serve a noi, in termini di alcune idee essenziali relativamente semplici.

Osservazione. Una prima maniera abbastanza immediata per mettere in relazione i due casiconsiste nel notare come la probabilita nel discreto rientri sostanzialemente nella descrizionein termini di densita introdotta nel §2.3. Infatti la nozione di sommatoria coincide con quelladi integrale relativamente alla misura discreta (per qualche dettaglio a questo proposito siveda l’Appendice C). Allora, in quest’ambito, l’applicazione

p : Ω→ [0, 1] : ω 7→ P (ω)

puo essere vista come la densita. Ci sono tuttavia alcuni aspetti, della relazione tra casodiscreto e caso continuo, che possono essere chiariti meglio introducendo la suddetta nozionedi distribuzione. ♣

Partiamo da un esempio che ci permetta di capire l’idea di base. Consideriamo la succes-sione di funzioni fn(x) il cui termine n-esimo e la densita Gaussiana (vedi esempio 2.5) conmedia µ e varianza σ = 1/n (i primi 5 termini sono riportati in figura 3). Notiamo subitoche, rimanendo sempre

∫R fn(x) dx = 1 ∀ n ∈ N , al cresecere di n il grafico si appiattisce ai

margini e si restringe al centro, mentre il valore massimo n/√

2π cresce. In sostanza possiamodire che “il grosso” dell’area sotto al grafico si concentra sempre di piu nell’intorno di x = µ ;piu precisamente, si verifica facilmente quanto segue: se µ ∈ [a, b] ⊂ R allora

limn→∞

∫ b

afn(x) dx = 1 ,

mentre se µ 6∈ [a, b] ⊂ R allora

limn→∞

∫ b

afn(x) dx = 0 .

Page 18: Appunti di probabilità e statistica [2013, 143p]

14 2 MODELLI MATEMATICI DELLA PROBABILITA

Figura 3: Grafico della densita normale per σ = 1, 1/2, 1/3, 1/4, 1/5 .

x=µ

σ = 15

σ = 14

σ = 1

Inoltre se φ : R→ R e continua su R , si ha

limn→∞

∫ +∞

−∞φ(x) fn(x) dx = φ(µ) .

La successione di funzioni (fn) ora considerata non e certo l’unica ad avere queste stesseproprieta; per esempio e facile verificare (usare il teorema della media integrale) che sonosoddisfatte dalla successione (gn) definita da

gn(x) =

n , x− µ ∈ [− 12n ,

12n ] ,

0 , |x− µ| > 12n .

Esprimiamo quanto sopra nei termini seguenti: l’operazione di passaggio al limite

limn→∞

∫ +∞

−∞φ(x) fn(x) dx = lim

n→∞

∫ +∞

−∞φ(x) gn(x) dx = φ(µ)

definisce un’applicazione φ 7→ φ(µ) che associa a ogni funzione continua un numero, e pre-cisamente il suo valore in x = µ . Tale applicazione e ovviamente lineare,2.12 e pertanto eappropriato, usando una terminologia comune in Analisi, dirla un funzionale. Questo partico-lare funzionale e detto delta di Dirac,2.13 e viene indicato con il simbolo δµ . Piu in generale, unfunzionale lineare su uno spazio di funzioni sufficientemente regolari e detto una distribuzio-ne.2.14 Ogni distribuzione puo essere vista come limite, nel senso sopra esemplificato, di unasuccessione di funzioni ordinarie; diremo allora che la successione di funzioni e una particola-re rappresentazione della distribuzione (una data distribuzione ha infinite rappresentazioni).In particolare, un funzione ordinaria f sufficientemente regolare puo essere vista come unadistribuzione, mediante la legge

φ 7→∫ +∞

−∞φ(x) f(x) dx .

2.12r φ+ sψ 7→ r φ(µ) + sψ(µ) .2.13Paul Dirac (1902–1984), fisico britannico e premio Nobel, ha dato contributi fondamentali alla meccanica

quantistica e all’elettrodinamica quantistica.2.14Lo spazio delle distribuzioni che si considerano e diverso a seconda del tipo di funzioni a cui vanno applicate;

in questa sede rimaniamo nel generico a questo proposito.

Page 19: Appunti di probabilità e statistica [2013, 143p]

2.4 Distribuzioni e delta di Dirac 15

Se poi f e una qualsiasi distribuzione, anche non caratterizzabile come funzione, si utilizzalo stesso la notazione qua sopra; in effetti le principali proprieta delle distribuzioni possonoessere descritte formalmente come proprieta dell’integrale (una distribuzione e anche dettafunzione generalizzata). Per esempio si scrive

δµ(φ) ≡∫ +∞

−∞φ(x) δµ(x) dx ≡

∫ +∞

−∞φ(x) δ(x− µ) dx ,

come se la distribuzione delta di Dirac fosse caratterizzabile mediante una vera funzione δ(x) ≡δ0(x) . Se dovessimo provare a fare il grafico di questa “funzione” verrebbe zero dappertuttotranne che in x = µ , dove avrebbe valore infinito, e con inegrale su R pari a 1 (un tempo siusava talvolta rappresentarla come una freccia verso l’alto posizionata in x = µ).

Osservazione. Il modo in cui Dirac introdusse la δ non fu affatto preciso dal punto di vistamatematico, tuttavia grazie alla sua geniale intuizione fu in grado di individuarne le proprietaessenziali e di utilizzarla con sicurezza. Solo dopo diversi anni la teoria delle distribuzionivenne formulata rigorosamente. ♣

Per noi, lo scopo principale di tutti questi discorsi e quello di scrivere l’analogo di unadensita per una probabilita nel continuo in cui un sottoinsieme numerabile abbia probabilita1 . Consideriamo per esempio l’esperimento “lancio di una dado” (§3.7), in cui lo spazio deicampioni e Ω = 1, 2, 3, 4, 5, 6 . Se si considera Ω ⊂ R , abbiamo lo spazio di probabilita(R ,M, P ) con “densita generalizzata”

p = p1 δ1 + p2 δ2 + p3 δ3 + p4 δ4 + p5 δ5 + p6 δ6 ,

dove pi ≡ P (i) . Allora ogni sottoinsieme misurabile A ⊂ R che non contenga uno dei seipossibili risultati del lancio di un dado ha probabilita zero; altrimenti, tenendo conto delledefinizioni e convenzioni introdotte si ha

P (A) =

∫ +∞

−∞p(x) dx =

∑i∈A

pi ,

ovvero un integrale (formale) e diventato in pratica una somma.Per estendere il discorso precedente, notiamo che una funzione integrabile puo essere ap-

prossimata nel senso delle distribuzioni, e con precisione arbitraria, come una combinazionelineare di piu delta di Dirac. Per capire l’essenza di questo discorso supponiamo di voler cal-colare l’integrale di f sull’intervallo [a, b] ; suddividiamolo in n sottointervalli [xi , xi+1] conx0 ≡ a , xn ≡ b , e consideriamo la distribuzione

fn =n∑i=1

(xi − xi−1) f(xi) δxi ≡ (x1 − x0) f(x1) δx1 + · · ·+ (xn − xn−1) f(xn) δxn ;

allora ∫ b

afn(x)φ(x) dx = (x1 − x0) f(x1)φ(x1) + · · ·+ (xn − xn−1) f(xn)φ(xn) ∼=

∼=∫ b

af(x)φ(x) dx ,

dove l’approssimazione e tanto migliore quanto piu fitta e la partizione di [a, b] . Si noti che,in sostanza, stiamo rifacendo in maniera differente l’approssimazione dell’integrale mediantel’integrale di una funzione costante a tratti.

Page 20: Appunti di probabilità e statistica [2013, 143p]

16 2 MODELLI MATEMATICI DELLA PROBABILITA

Osservazione. Nell’ambito dell’analogia tra densita di probabilita e densita di massa di uncontinuo, la delta di Dirac descrive una massa concentrata in un punto , cioe la massa di quelloche in Meccanica si chiama un punto materiale. ♣

La delta di Dirac non e affatto l’unica distribuzione che non possa essere rappresentatamediante una funzione vera e propria. In generale, se (fn) e una successione di funzioni taliche per ogni funzione sufficientemente regolare φ e per ogni sottoinsieme compatto K ∈ Resista finito il limite limn

∫K fn(x)φ(x) dx , allora diciamo che la successione (fn) definisce una

“distribuzione” f ≡ limn fn, e si scrive

limn→∞

∫Kfn(x)φ(x) dx ≡

∫Kf(x)φ(x) dx

anche se a rigore f non e una vera e propria funzione (si parla anche di “funzione generalizza-ta”). Gli spazi di distribuzioni sono molto ampi e interessanti, ma in questa sede ci limitiamoessenzialmente a considerare la delta di Dirac e poche altre nozioni associate ad essa.

Osservazione. Consideriamo ancora la successione di funzioni (gn) sopra introdotta, e checostituisce una particolare rappresentazione di δµ . E immediato verificare che una primitivadi gn e la funzione Gn definita da

Gn(x) =

∫ x

−∞gn(x′) dx′ =

0 , x− µ ≤ − 1

2n ,

n (x− µ) + 12 , −

12n < x− µ < 1

2n ,

1 , x− µ ≥ 12n .

Per n→∞ questa successione di funzioni tende puntualmente alla funzione2.15

Gµ(x) ≡ 1

2

(1 + sign(x− µ)

)=

0 , x− µ ≤ 0 ,

12 , x− µ = 0 ,

1 , x− µ > 0 ,

che corrisponde alla distribuzione

φ 7→∫ +∞

µφ(x) dx .

Quando si parla di distribuzioni possiamo quindi dire che la delta di Dirac δµ e la derivata delladistribuzione definita dalla funzione Gµ .2.16 D’altra parte, si puo osservare che se si modificauna funzione in un punto2.17 non cambiano gli integrali in cui viene inserita; pertanto ladistribuzione corrispondente alla Gµ puo essere anche rappresentata mediante la funzionescalino2.18 continua a destra

Hµ(x) ≡

0 , x− µ < 0 ,

1 , x− µ ≥ 0 .

2.15 sign(x) ≡ x/|x| e la funzione segno (con sign(0) = 0 ).2.16In effetti si puo dare una definizione precisa di derivata di una distribuzione, che porta a questo risultato.

Inoltre si arriva alla medesima conclusione se si rappresenta la delta mediante una differente successione difunzioni ordinarie, per esempio la successione (fn) di distribuzioni Gaussiane (le cui primitive sono date dalla“funzione dell’errore” erf , vedi §6.5).2.17O anche in un infinita numerabile di punti, o piu in generale su un insieme di misura nulla.2.18In Fisica detta spesso funzione di Heaviside.

Page 21: Appunti di probabilità e statistica [2013, 143p]

2.5 Probabilita condizionale 17

Questa rappresentazione sara utile per descrivere in maniera unificata la funzione di riparti-zione di una distribuzione di probabilita (§4.3). Scriveremo quindi δµ = H ′µ .

2.5 Probabilita condizionale

Definizione 2.3 Sia (Ω,E, P ) uno spazio di probabilita. Siano poi E,F ∈ E , con P (E) 6= 0 .Diciamo probabilita condizionale di F rispetto ad E il numero

P (F |E) :=P (E ∩ F )

P (E)∈ [0, 1] .

Per quanto riguarda P (F |E) ∈ [0, 1] osserviamo che da E ∩ F ⊂ E segue P (E ∩ F ) ≤ P (E) .In effetti, una volta fissato E ∈ E con P (E) 6= 0 otteniamo un nuovo spazio di probabilita(E,EE , PE ) dove

EE = E ∩ F, F ∈ E ,

PE (F ′) = P (F ′)/P (E) , F ′ ∈ EE .

Un altra maniera di vedere la cosa e la seguente: PE e un’altra probabilita su Ω , che assegnaprobabilita zero agli eventi disgiunti da E .

Per comprendere il significato della definizione ora data, pensiamo di eseguire molte voltel’esperimento descritto dallo spazio di probabilita (Ω,E, P ) . Circa in una frazione P (E) divolte si verifica l’evento E, mentre circa in una frazione P (E ∩ F ) di volte si verificano sial’evento E che l’evento F . Dunque la relazione P (E ∩ F ) = P (E) · P (F |E) puo essere lettanel modo seguente: di tutte le volte in cui si e verificato l’evento E, in circa una frazioneP (F |E) delle volte si verifica anche F . Quindi P (F |E) e la probabilita che si verifichi Fquando sappiamo che E si e verificato.

Esempio 2.6. L’esperimento sia “estrazione di una carta da un mazzo di 40” (carte dellabriscola). L’evento F = “esce un fante” ha probabilita P (F ) = 4/40 = 1/10 . Sia poi E =“esce una figura” (fante, donna, re), P (E) = 12/40 = 3/10 ; poiche F ⊂ E si ha P (E ∩ F ) =P (F ) = 1/10 , e P (F |E) = P (E ∩ F )/P (E) = 1/3 : sapendo che e uscita una figura, laprobabilita che si tratti di un fante e 1/3 . ♠

Esempio 2.7. Nell’esperimento “lancio di un dado regolare con 20 facce”, dunque Ω = N20 , siaE = 2, 3, 5, 7, 11, 13, 17, 19 = “esce un numero primo”, e F = N12 = “esce un numero nonsuperiore a 12”. Si ha P (E) = 8/20 = 2/5 , E ∩ F = 2, 3, 5, 7, 11 , P (E ∩ F ) = 5/20 = 1/4 ,P (F |E) = P (E ∩ F )/P (E) = 5/8 : sapendo che e uscito un numero primo, la probabilita chequesto sia un numero non superiore a 12 e 5/8 . ♠

Se (Ω,E, P ) e uno spazio di probabilita ed E,F ∈ E sono eventi qualsiasi, dalla definizionedi probabilita condizionale si ha P (F ∩ E) = P (F )P (E|F ) = P (E)P (F |E) , da cui

P (F |E) = P (E|F )P (F )

P (E).

Utilizzando questa identita si ottiene il

Page 22: Appunti di probabilità e statistica [2013, 143p]

18 2 MODELLI MATEMATICI DELLA PROBABILITA

Teorema 2.2. (formula di Bayes)Sia Fi , i ∈ N , una famiglia (anche infinita purche numerabile) di sottoinsiemi costituenteuna partizione2.19 di Ω . Allora se E ∈ E e un qualsiasi altro evento si ha

P (Fi|E) =P (Fi)P (E|Fi)

P (E)=

P (Fi)P (E|Fi)∑j P (Fj)P (E|Fj)

.

Dimostrazione: Per quanto sopra osservato, per ciascun i ∈ Nn si ha

P (Fi ∩ E) = P (Fi)P (E|Fi) ,

da cui

P (Fi|E) =P (Fi ∩ E)

P (E)=P (Fi)P (E|Fi)

P (E).

Inoltre gli n eventi Fi ∩ E sono due a due disgiunti e la loro unione e E , pertanto

P (E) =∑j∈N

P (Fj ∩ E) =∑j∈N

P (Fj)P (E|Fj) ,

da cui segue l’ultimo membro dell’enunciato.

La formula di Bayes esprime le probabilita condizionali P (Fi|E) in termini delle P (E|Fi) ,e cio permette di utilizzarla per valutare la probabilita che un dato evento sia la causa di unfenomeno osservato. Il seguente esempio illustra questo modo di ragionare.

Esempio 2.8. Un medico deve fare una diagnosi, dopo che l’anamnesi ha ristretto le pos-sibilita a una di tre patologie A, B e C (escludendo che due o piu patologie siano presenticontemporaneamente); i sintomi non danno alcuna indicazione di “preferenza”, ma uno studiostatistico sulla popolazione mostra che, tra i casi in cui A, B o C e presente, l’incidenza erispettivamente del 45%, 30% e 25% .

Il medico prescrive allora al paziente quattro esami clinici, e1 , e2 , e3 ed e4 , ciascuno deiquali puo dare un risultato positivo (+) o negativo (−) . Da un’altro studio statistico e statadedotta la tabella di figura 4, che riporta la probabilita di risultato positivo di ciascun esame inpresenza di ciascuna delle patologie. I possibili risultati della quaterna di esami sono 24 = 16 ,

Figura 4: Probabilita condizionali P (ei|A) , P (ei|B) , P (ei|C) per i = 1, 2, 3, 4

e1 (+) e2 (+) e3 (+) e4 (+)

A 78% 22% 8% 2%

B 12% 65% 35% 6%

C 3% 9% 58% 72%

e di ciascuno di essi possiamo, a partire dalla precedente tabella, calcolare la probabilita inpresenza di ciascuna patologia (tabella a sinistra nella figura 5). L’approssimazione a 4 cifredecimali (discutibile in quanto i dati dei singoli esami erano dati con due cifre decimali) serveper controllare che la somma di ciascuna colonna viene (circa) 1 . Infatti i dati di ciascunacolonna sono la distribuzione di probabilita sullo spazio dei campioni costituito dai possibili

2.19Cio significa che gli Fi sono due a due disgiunti e che la loro unione costituisce tutto Ω .

Page 23: Appunti di probabilità e statistica [2013, 143p]

2.5 Probabilita condizionale 19

Figura 5: Probabilita dei risultati della quaterna di esami clinici per ciascuna patologiaconsiderata.

A B C

−−−− 0.1547 0.1882 0.1038

−−−+ 0.0032 0.0120 0.2669

−−+− 0.0135 0.1013 0.1434

−−++ 0.0003 0.0065 0.3686

−+−− 0.0436 0.3495 0.0103

−+−+ 0.0009 0.0223 0.0264

−+ +− 0.0038 0.1882 0.0142

−+ ++ 0.0001 0.0120 0.0365

+−−− 0.5485 0.0257 0.0032

+−−+ 0.0112 0.0016 0.0083

+−+− 0.0477 0.0138 0.0044

+−++ 0.0010 0.0009 0.0114

+ +−− 0.1547 0.0477 0.0003

+ +−+ 0.0032 0.0030 0.0008

+ + +− 0.0135 0.0257 0.0004

+ + ++ 0.0003 0.0016 0.0011

A B C

−−−− 0.0696 0.0565 0.0260

−−−+ 0.0014 0.0036 0.0667

−−+− 0.0061 0.0304 0.0358

−−++ 0.0001 0.0019 0.0922

−+−− 0.0196 0.1048 0.0026

−+−+ 0.0004 0.0067 0.0066

−+ +− 0.0017 0.0565 0.0035

−+ ++ 0.0000 0.0036 0.0091

+−−− 0.2468 0.0077 0.0008

+−−+ 0.0050 0.0005 0.0021

+−+− 0.0215 0.0041 0.0011

+−++ 0.0004 0.0003 0.0029

+ +−− 0.0696 0.0143 0.0001

+ +−+ 0.0014 0.0009 0.0002

+ + +− 0.0061 0.0077 0.0001

+ + ++ 0.0001 0.0005 0.0003

risultati dei quattro esami, conosciuta la patologia.2.20 Pero lo spazio dei campioni Ω appro-priato per questa situazione e un altro: e l’insieme di tutte le coppie (X,E) dove X = A,B,C ,ed E e una qualsiasi delle 16 possibili quaterne di risultati degli esami. Si ottiene la distri-buzione di probabilita appropriata su questo spazio dei campioni moltiplicando i valori dellecolonne rispettivamente per 0.45, 0.30 e 0.25 (le incidenze relative delle tre patologie); questadistribuzione e riportata nella tabella di destra in figura 5 (dove ora e la soma di tutti i datiche fa 1).

Esaminiamo ora tutto cio in termini della formula di Bayes. I tre eventi (A, E) , (B, E) ,e (C, E) , ciascuno costituito da tutti gli atomi la cui probabilita e scritta in una delle colonnedella tabella di destra, svolgono il ruolo degli Fi della formula (i = 1, 2, 3). Se non c’e pericolodi confusione li indichiamo, per brevita, semplicemente come A,B,C ⊂ Ω , e scriviamo

P (A) = 0.45 , P (B) = 0.3 , C = 0.25 .

Allo stesso modo ciascun esito E della quaterna di esami clinici puo essere identificato con unevento E ⊂ Ω , e la sua probabilita P (E) e la somma dei valori riportati nella relativa rigadella tabella a destra in figura 5.

Torniamo ora al medico; se gli esami clinici danno come risultato E, con la formula diBayes puo calcolare

P (A|E) =P (A)P (E|A)

P (E)=

P (A)P (E|A)

P (A)P (E|A) + P (B)P (E|B) + P (C)P (E|C);

analogamente, sostituendo A con B e con C al numeratore della formula puo calcolare P (B|E)e P (C|E) . I dati P (A) , P (B) e P (C) sono conosciuti, come si e detto, e li abbiamo scritti

2.20E in sostanza lo spazio dei campioni di uno schema di Bernoulli di 4 “lanci di una moneta” (§3).

Page 24: Appunti di probabilità e statistica [2013, 143p]

20 2 MODELLI MATEMATICI DELLA PROBABILITA

poco sopra. I dati P (E|A) , P (E|B) e P (E|C) li deve dedurre dai dati della tabella di figura 4,e sono poi i numeri contenuti nella tabella a sinistra nella figura 5. Non gli serve di ricavarselitutti, ma solo quelli relativi al risultato ottenuto negli esami clinici (contenuti nella relativariga della suddetta tabella).

Facciamo un esempio nell’esempio: il risultato dell’esame sia E = +−+− . Allora ilmedico si calcola prima di tutto

P (E|A) = 0.0477 , P (E|B) = 0.0138 , P (E|C) = 0.0044 ,

cioe i valori riportati nell’undicesima riga di dati della tabella a sinistra di figura 5. Sostituendonella formula di Bayes trova

P (A|E) ≡ P (A|+−+−) = 0.8034 ,

P (B|E) ≡ P (B|+−+−) = 0.1552 ,

P (C|E) ≡ P (C|+−+−) = 0.0415 .

Pertanto, approssimando alle due cifre decimali, il medico puo valutare intorno all’80% laprobabilita che il paziente sia affetto dalla patologia A , intorno al 16% la probabilita che sitratti della B, e la C intorno al 4%. Si noti che il medico, in sostanza, deve solo applicareuna formula: non ha bisogno di costruirsi il modello probabilistico completo, con lo spaziodei campioni Ω e la tabella di figura 5 a destra; tutto cio e servito a noi per chiarirci leidee (speriamo). Non avendo i problemi del medico a maneggiare i numeri possiamo produrre

Figura 6: Probabilita condizionale di ciascuna patologia per ciascun possibile risultato degliesami clinici (esempio 2.8).

A B C

−−−− 0.4579 0.3714 0.1707

−−−+ 0.0198 0.0502 0.9300

−−+− 0.0837 0.4205 0.4957

−−++ 0.0013 0.0206 0.9781

−+−− 0.1546 0.8252 0.0202

−+−+ 0.0293 0.4887 0.4820

−+ +− 0.0277 0.9149 0.0574

−+ ++ 0.0027 0.2826 0.7147

+−−− 0.9667 0.0302 0.0031

+−−+ 0.6635 0.0647 0.2718

+−+− 0.8034 0.1552 0.0415

+−++ 0.1233 0.0745 0.8022

+ +−− 0.8288 0.1702 0.0009

+ +−+ 0.5599 0.3596 0.0804

+ + +− 0.4367 0.5554 0.0079

+ + ++ 0.1378 0.5479 0.3143

un’ultima tabella (figura 6), dove sono riportati i valori di P (A|E) , P (B|E) e P (C|E) per tuttii possibili risultati degli esami clinici. La somma di ciascuna riga fa (circa) 1, come dev’essere

Page 25: Appunti di probabilità e statistica [2013, 143p]

2.5 Probabilita condizionale 21

in quanto abbiamo basato il nostro modello probabilistico sull’ipotesi che il paziente abbiauna e una sola delle tre patologie considerate. Osserviamo che in alcuni casi l’indicazione enetta, in altri meno.

Insomma: la formula di Bayes ci ha permesso di calcolare la probabilita che una datapatologia sia la causa di un effetto osservato (il risultato dell’esame clinico), a partire dallaconoscenza delle probabilita condizionali che i vari possibili risultati siano effetto delle pato-logie.

Esempio 2.9. Un prodotto viene commercializzato in quattro versioni: A, B, C e D. Unaricerca di mercato, i cui risultati sono raccolti nella tabella riportata in basso a sinistra infigura 7, ha permesso di determinare la frequenza con cui gli gli acquirenti appartenenti acinque diverse fasce d’eta acquistano una versione o l’altra. Si conoscono inoltre le dimensioni

Figura 7: Tabelle relative all’esempio 2.9: consistenza relativa delle fasce d’eta (in alto), risul-tati della ricerca di mercato (in basso a sinistra) e probabilita di fascia d’eta dell’aquirenteper tipo di prodotto, calcolate con la formula di Bayes (in basso a destra).

F1 (20− 32) F2 (33− 45) F3 (46− 58) F4 (59− 71) F5 ( > 72)

P (Fi) 25% 22% 20% 18% 15%

P (A|Fi) P (B|Fi) P (C|Fi) P (D|Fi)F1 37% 19% 11% 4%

F2 25% 31% 24% 11%

F3 18% 22% 31% 23%

F4 12% 16% 19% 34%

F5 8% 12% 15% 28%

F1 F2 F3 F4 F5

A 43% 25% 17% 10% 6%

B 23% 33% 21% 14% 9%

C 14% 27% 31% 17% 11%

D 5% 13% 25% 33% 23%

relative delle fasce d’eta, che possono essere espresse in termini delle probabilita P (Fi) cheun individuo di almeno vent’anni, scelto a caso, appartenga alla fascia Fi (figura 7, tabellain alto). Utilizzando questi dati si possono calcolare, con la formula di Bayes, le probabilitaP (A|Fi), P (B|Fi) eccetera che l’acquisto di un dato tipo di prodotto sia stato fatto da unappartenente alle varie fasce d’eta. Ad esempio, la probabilita che l’acquisto di un prodottodi tipo C sia stato fatto da un individuo di eta compresa tra i 33 e i 45 anni (seconda fascia)e

P (F2|C) =P (F2)P (C|F2)∑5j=1 P (Fj)P (C|Fj)

∼= 0.27 .

I risultati di calcoli analoghi per tutti i tipi di prodotto e per tutte le fasce d’eta sono riportatinella tabella in basso a destra di figura 7, con un’approssimazione di due cifre decimali (lasomma di ciascuna riga puo non venire esattamente 1). ♠

Page 26: Appunti di probabilità e statistica [2013, 143p]

22 2 MODELLI MATEMATICI DELLA PROBABILITA

2.6 Indipendenza

Definizione 2.4 Sia (Ω,E, P ) uno spazio di probabilita. Due eventi E,F ∈ E si diconoindipendenti2.21 se

P (E ∩ F ) = P (E)P (F ) .

Dalla definizione di probabilita condizionale segue allora subito che, se E,F ∈ E sonoindipendenti, si ha P (E|F ) = P (E) e P (F |E) = P (F ) . In termini discorsivi, il fatto che Fsi sia verificato non modifica la probabilita del verificarsi di E (e viceversa): se abbiamol’informazione che F si e verificato, cio non ci consente di migliorare le nostre previsoniriguardo ad E .

Un esempio usuale di eventi indipendenti e dato dall’esperimento “due lanci di una mo-neta”, che tratteremo in dettaglio nel §3: e intuitivo che il risultato del secondo lancio eindipendente dal risultato del primo, in quanto la moneta non “ricorda” niente e non puoessere influenzata dalle esperienze precedenti (verificheremo poi formalmente l’indipendenzadegli eventi suddetti nell’ambito del modello probabilistico),

Meno intuitiva, almeno per alcuni, e la nozione che il risultato di un’estrazione del lottosia indipendente dai risultati precedenti.

Piu in generale:

Definizione 2.5 Gli eventi di una famiglia F ⊂ E sono detti due a due indipendenti seP (E ∩ F ) = P (E)P (F ) per ogni coppia di eventi E,F ∈ F . Piu in generale, gli eventi di Fsono detti indipendenti se per ogni sottofamiglia finita Ei ⊂ F , i ∈ Nn , si ha

P( n⋂i=1

Ei)

=n∏i=1

P (Ei) .

Gli eventi di una famiglia possono essere indipendenti due a due, ma non indipendenti nelsenso piu ampio. Per esempio si consideri l’esperimento “lancio di un dado regolare con 4 facce(tetraedro), con Ω = 1, 2, 3, 4 , e la famiglia costituita dagli eventi E1 = 1, 4 , E2 = 2, 4 ,E3 = 3, 4 . E immediato allora verificare che gli Ei sono due a due indipendenti; infattiP (Ei) = 1/2 , e l’intersezione di due distinti di essi e 4 che ha probabilita 1/4 ; tuttavia

P (E1 ∩ E2 ∩ E3) = P (4) =1

46= 1

8= P (E1)P (E2)P (E3) .

2.21Questa nozione di indipendenza stocastica non va confusa con quella di indipendenza lineare tra elementidi uno spazio vettoriale. Sono nozioni che non hanno niente a che fare l’una con l’altra.

Page 27: Appunti di probabilità e statistica [2013, 143p]

23

3 Schema di Bernoulli

Da qui in poi e necessario conoscere le nozioni basilari di calcolo combinatorio (§A).

3.1 Testa o croce

In Italiano si dice “testa o croce” anche se la croce non e piu riportata nelle monete attuali.Le espressioni equivalenti in altre lingue sono differenti.3.1 Allora potremmo semplicementecontrassegnare le due facce di una moneta con i numeri 0 e 1 (magari intendendo all’occorrenza0 = testa). Pertanto nell’esperimento “lancio di una moneta” lo spazio dei campioni e

Ω = 0, 1 .

Poiche siamo nel caso discreto, la famiglia E di tutti i sottoinsiemi misurabili coincide con lafamiglia P(Ω) di tutti i sottoinsiemi di Ω . Per questo particolare esempio e facile elencareesplicitamente tali sottoinsiemi; si ha

P(Ω) =∅, 0, 1, 0, 1

.

Di regola, se la moneta non e truccata, si ha P (0) = P (1) = 1/2 . Altrimenti, in generale,si puo avere P (0) = p ∈ [0, 1] e quindi la probabilita completa e data da

P (∅) = 0 , P (0) ≡ p0 = p , P (1) ≡ p1 = 1− p , P (0, 1) = p0 + p1 = 1 .

3.2 Due lanci

Consideriamo ora l’esperimento “due lanci di una moneta”; si ha

Ω =

(0, 0), (0, 1), (1, 0), (1, 1),

ovvero lo spazio dei campioni e costituito da tutte le coppie ordinate di risultati del lancio diuna moneta: il primo elemento di una coppia e il risultato del primo lancio, il secondo elementoe il risultato del secondo lancio.3.2 Poiche |Ω| = 4 , si ha |P(Ω)| = 24 = 16 (per esercizio,scrivere esplicitamente tutti i sottoinsiemi di Ω). La probabilita e determinata quando siconoscono le probabilita dei singoletti. C’e un modo naturale per assegnare questa probabilitanel caso in esame. Ragioniamo infatti come segue: se la moneta che lanciamo due volte e lamedesima che, nel lancio singolo, da P (0) = p , allora eseguendo un gran numero di coppiedi lanci una frazione circa uguale a p di queste coppie avra 0 come primo elemento; di queste,una frazione circa uguale a p avra 0 anche come secondo elemento, mentre una frazione circauguale a 1− p avra 1 come secondo elemento; in maniera analoga si puo ragionare per lecoppie che hanno 1 come primo elemento. Siamo quindi portati ad assegnare le probabilita

P (0, 0) = p2 , P (0, 1) = P (1, 0) = p (1− p) , P (1, 1) = (1− p)2 .

Si verifica poi subito che P (0, 0) + P (0, 1) + P (1, 0) + P (1, 1) = 1 . In particolare, se p = 1/2allora abbiamo ancora probabilita uniforme: P (0, 0) = P (0, 1) = P (1, 0) = P (1, 1) = 1/4 .

3.1Roma antica: caput aut navis; in inglese: head and tail ; Germania: Kopf oder Zahl (“testa o numero”);Irlanda: Heads or Harps (“teste o arpe”); Brasile: Cara ou Coroa (“faccia o corona”); Messico: Aguila o Sol(“aquila o sole”); Honk Kong: “testa o parola” (il valore delle monete e scritto per esteso).

3.2Si noti che la descrizione matematica e identica se l’esperimento consiste invece nel lancio contemporaneodi due monete (purche le monete rimangano sempre distinguibili).

Page 28: Appunti di probabilità e statistica [2013, 143p]

24 3 SCHEMA DI BERNOULLI

Il ragionamento che ci ha portato ad assegnare le probabilita per gli atomi di Ω si basa insostanza sulla nozione che il risultato del secondo lancio non dipende dal risultato del primo.In effetti se E1 ed E2 sono gli eventi caratterizzabili rispettivamente come “viene 0 al primolancio” e “viene 0 al secondo lancio”, allora

E1 = (0, 0), (0, 1) , E2 = (0, 0), (1, 0) ,

che sono risultano formalmente indipendenti in quanto

P (E1) = P (E2) = p2 + p (1− p) = p , P (E1 ∩ E2) = P (0, 0) = p2 = P (E1)P (E2) .

3.3 n lanci

L’esperimento “n lanci di una moneta” e anche detto schema di Bernoulli. Lo spazio deicampioni Ω e l’insieme di tutte le n-uple di elementi in 0, 1 . Utilizzando la notazione e laterminologia dell’Appendice A (Nozioni basilari di calcolo combinatorio), Ω puo essere vistocome l’insieme di tutte le liste di n elementi di 0, 1 , cioe come l’insieme D′2n di tutte leapplicazioni Nn → 0, 1 . Tale insieme ha cardinalita 2n ; quindi se la probabilita e uniformein 0, 1 , cioe se in ciasun lancio si ha P (0) = P (1) = 1/2 , allora e uniforme anche nelcaso in esame, e la probabilita di ciascuna successione di n elementi in 0, 1 e pari a 2−n. Ingenerale, se P (0) = p si ha

P (E) = pk (1− p)n−k ,

dove k e il numero di volte in cui l’elemento 0 e presente nella successione E (e n−k e ilnumero di volte in cui in E compare l’elemento 1).

Osservazione. Il fatto che tutte le successioni di n lanci abbiano la medesima probabi-lita (limitandoci al caso di probabilita uniforme) da luogo a un apparente paradosso, cioe auno di quei risultati non intuitivi che si incontrano di frequente in teoria della probabilita.Consideriamo le due seguenti successioni3.3 di n = 50 lanci di una moneta:

10011011001011000110010000100010100011101011110110 ,

00000000000000000000000000000000000000000000000000 .

La prima successione non ci colpisce in alcun modo particolare, ci appare cioe come un risultatoperfettamente plausibile di una successione di 50 lanci (in effetti e stata ottenuta simulandoi lanci al computer). La seconda non ci sembra altrettanto plausibile, perche corrisponde allasituazione in cui lanciando 50 volte la moneta si ottiene sempre testa: se uno si trovassematerialmente in una situazione del genere penserebbe subito “impossibile, c’e un truccoda qualche parte”. Eppure, le due successioni di risultati hanno esattamente la medesimaprobabilita

2−50 =1

112 589 990 6842 624∼= 10−15 .

Cio significa che se prima di eseguire i lanci avessi scritto la prima successione su un fogliodi carta, e poi il risultato fosse stato proprio quello, chi assiste all’esperimento avrebbe avutotutto il diritto di pensare che sono un mago, o comunque di essere altrettanto meravigliatoche nel caso in cui fosse uscito sempre testa (ritorneremo in seguito su questo apparenteparadosso). ♣

3.3Da qui in avanti utilizziamo di solito l’abbreviazione 10011011 per (1, 0, 0, 1, 1, 0, 1, 1) , eccetera.

Page 29: Appunti di probabilità e statistica [2013, 143p]

3.4 Legge binomiale 25

3.4 Legge binomiale

Sempre nell’ambito dello schema di Bernoulli, con P (0) = p 6= 1/2 in generale, ci chiediamoqual’e la probabilita di ottenere k volte testa in n lanci (k ≤ n). Sia allora Ω l’insieme di tuttele liste Nn → 0, 1 e An,k ⊂ Ω l’evento costituito da tutte quelle liste di Ω che contengonoesattamente k volte l’elemento 0 ; si ottiene

P (An,k) =

(nk

)pk (1− p)n−k .

Infatti, come si e visto poco prima, ciascuna successione di n lanci in cui compare k volte ilrisultato “testa” ha probabilita pk (1 − p)n−k ; e queste successioni sono in numero di ( nk ) ,tanti quanti sono i sottoinsiemi di cardinalita k di un insieme di cardinalita n .

Verifichiamo che cio e in accordo con l’assioma P (Ω) = 1 :

P (Ω) =

n∑k=0

P (An,k) =

n∑k=0

(nk

)pk (1− p)n−k =

(p+ (1−p)

)n= 1n = 1 .

La legge di probabilita P (An,k) = ( nk ) pk (1− p)n−k e detta legge binomiale, e si indicacon B[n, p](k) .

3.5 Legge di Poisson

Supponiamo di avere ancora a che fare con un esperimento che rientra nello schema di Bernoul-li, e nel quale pertanto la probabilita di k “successi” in n lanci sia data dalla legge binomialeB[n, p](k) ; ma ora consideriamo il caso in cui la probabilita p di successo in un singolo lanciosia molto piccola, e il numero di lanci molto grande. Poniamo allora p = λ/n , dove λ ∈ R+ eun numero fissato, e vediamo3.4 che al crescere di n , con k ∈ N fissato, si ha

B(n,λ

n

)(k) ∼ 1

k!e−λ λk ≡ 1

k!e−p n (p n)k .

Consideriamo lo spazio dei campioni Ω = 0 ∪ N ≡ (0, 1, 2, 3, . . . ) . Si vede allora che lalegge di Poisson

pλ(k) ≡ Pλ(k) =1

k!e−λ λk

definisce una probabilita su Ω . In effetti

∞∑k=0

pλ(k) = e−λ∞∑k=0

λk

k!= e−λ eλ = 1 .

3.4Per verificare questa uguaglianza asintotica utilizziamo la nota formula di Stirling n! ∼√

2π n (n/e)n .Abbiamo quindi

B(n,λ

n

)(k) =

(nk

) (λn

)k (1− λ

n

)n−k=

n!

k! (n− k)!

λk

nk

(1− λ

n

)n(1− λ

n

)k ∼∼

√2πn (n

e)n√

2π(n−k) (n−ke

)n−kλk e−λ

k!nk=

√n

n− k( n

n− k)n (n− k

e

)k λk e−λ

k!nk∼

∼( 1

1− kn

)n (n− ken

)k λk e−λ

k!∼ 1

e−k(1

e

)k λk e−λ

k!=λk e−λ

k!.

Page 30: Appunti di probabilità e statistica [2013, 143p]

26 3 SCHEMA DI BERNOULLI

La legge di Poisson puo essere considerata un’approssimazione della legge binomiale nel sensodetto prima. Aveva una sua particolare importanza soprattutto quando gli strumenti di calcoloerano primitivi rispetto alle possibilita attuali, per cui rapporti di interi molto grandi, comen!/(n−k)! per n grande, erano ardui da trattare.

Figura 8: Confronto tra il grafico (piu marcato) della legge di Poisson pλ(k) e i grafici dellalegge binomiale B[n, λ/n](k) , per λ = 1 e per n = 2, 3, 4, 8 (a sinistra) e n = 10, 20 (a destra).Le funzioni rappresentate sono estese a valori reali positivi dell’argomento k mediante lafunzione Γ di Eulero (§6.6).

1 2 3 4 5 6

0.1

0.2

0.3

0.4

0.5

1 2 3 4 5 6

0.1

0.2

0.3

0.4

Per fare un esempio di utilizzo della legge di Poisson consideriamo il seguente problema:in un impasto per 500 biscotti all’uvetta vengono inseriti 600 acini. Qual’e la probabilita chein un biscotto scelto a caso vi siano k acini? Il numero di acini in un dato biscotto puo es-sere visto come il risultato di 600 “prove di Bernoulli” con probabilita di successo p = 1/500in ciascuna prova (e come se si lanciasse 600 volte una moneta, con probabilita p = 1/500che venga “testa”, e ci si chiedesse qual’e la probabilita P (k) che venga “testa” k volte).Dunque P (k) = B[600, 1/500](k) , ma possiamo anche utilizzare l’approssimazione di PoissonP (k) = pλ(k) con λ = n p = 6/5 . Confrontando i valori dati dalla legge binomiale e da quelladi Poisson troviamo, fermandoci alla quarta cifra decimale,

k 0 1 2 3 4 5 6 7 8

binomiale 0.3008 0.3617 0.2171 0.0867 0.0259 0.0061 0.0012 0.0002 0.0000

Poisson 0.3012 0.3614 0.2169 0.0867 0.0260 0.0062 0.0012 0.0002 0.0000

(dove le probabilita dell’ultima colonna non sono esattamente zero, ma minori di 0.00005 ; ana-logamente, le differenze tra le probabilita della terz’ultima e penultima colonna sono inferioria tale valore).

Un esempio meno frivolo: un terrorista si nasconde in un paese di 100 case. Se si sgancianoa caso 400 bombe sul paese, quante sono le probabilita che la casa del terrorista venga colpitak volte? La risposta e B[400, 1/100](k) oppure, con l’approssimazione di Poisson, pλ(k) doveλ = 4 .

3.6 Lanci fino a che...

Consideriamo ora l’esperimento “lancio di una moneta finche non venga testa”, limitandoci peril momento al caso in cui la probabilita e uniforme. Piu precisamente, l’esperimento consistein questo: si lancia la moneta una prima volta, e se viene testa (0) l’esperimento e finito;

Page 31: Appunti di probabilità e statistica [2013, 143p]

3.6 Lanci fino a che... 27

altrimenti si lancia la moneta una seconda volta, e l’esperimento e finito se viene testa ; e cosıvia. Lo spazio dei campioni e quindi

Ω =

0, 10, 110, 1110, . . .,

cioe Ω e costituito da tutte le successioni a valori in 0, 1 , di lunghezza arbitraria, i cuitermini sono tutti 1 tranne l’ultimo. Si tratta quindi di un insieme di cardinalita infinita (mapur sempre numerabile, cioe siamo ancora nel caso discreto).

Per assegnare la probabilita in questo caso ragioniamo come segue: se effettuo l’esperimentoun gran numero di volte, circa nella meta dei casi verra testa subito al primo lancio; dellaparte restante dei risultati, in circa la meta dei casi verra testa al lancio successivo; e cosı via.Siamo quindi indotti naturalmente a porre

P (0) = 12 ; P (10) = 1

4 ; P (110) = 18 ; . . . P ( 11 . . . 1︸ ︷︷ ︸

n−1 volte

0) = 12n .

In effetti si ha

P (Ω) =∞∑n=1

1

2n=

1

1− 12

− 1 = 1 ,

come somma di una serie geometrica3.5 di ragione 1/2 . Da questo esempio si vede anche comela proprieta della σ-additivita sia necessaria in generale.

Consideriamo ancora l’esperimento “lancio di una moneta finche non venga testa (0)”, maora con P (0) = p , P (1) = 1− p , e ragioniamo in maniera simile a prima. Se l’esperimentoviene eseguito un gran numero N di volte, circa pN volte verra testa al primo lancio; in circauna frazione p delle restanti (1 − p)N volte, quindi circa p (1 − p)N volte, verra testa alsecondo lancio; e cosı via. Dunque assegnamo la probabilita p (1− p)n−1 all’elemento n-esimonella successione che costituisce l’insieme Ω dei campioni. Si ha

P (Ω) =

∞∑n=1

p (1− p)n−1 = p

∞∑k=0

(1− p)k = p1

1− (1− p)= 1 .

La distribuzione g[p](k) := p (1− p)k e detta distribuzione geometrica (vedi anche §6.3).Osserviamo che si puo ottenere lo stesso risultato ragionando in maniera “complementare”:

la probabilita che non venga testa nei primi n−1 lanci e (1− p)n−1 , quindi la probabilita chel’esperimento termini al lancio n-esimo e p (1− p)n−1 .

Questi risultati permettono di rispondere alla seguente domanda: quante volte e necessariolanciare una moneta perche la probabilita dell’evento “esce almeno una volta testa” abbia uncerto valore s prefissato? Se p (1− p)n−1 e la probabilita che esca testa all’n-esimo lancio, laprobabilita dell’evento “esce testa entro l’h-esimo lancio”, con h ∈ N , e la somma finita (vedinota 3.5 a pie di pagina)

h∑n=1

p (1− p)n−1 = ph−1∑m=0

(1− p)m = p1− (1− p)h

1− (1− p)=

= 1− (1− p)h .

3.5 Se q 6= 1 e un numero reale o complesso, si ha∑hn=0 q

n = 1−qh+1

1−q , come si puo verificare immediata-

mente svolgendo il prodotto (1+q+q2 + · · ·+qh) (1− q) . Se poi |q| < 1 allora qh+1 → 0 per h → ∞ e quindi∑∞n=0 q

n = 11−q .

Page 32: Appunti di probabilità e statistica [2013, 143p]

28 3 SCHEMA DI BERNOULLI

Se richiediamo che questa probabilita sia uguale ad s , con semplici passaggi algebrici si ricava

h =log(1− s)log(1− p)

.

Oviamente da questa formula non si ricavera in generale un numero intero; ma trattandosidi una funzione crescente possiamo affermare che la probabilita di ottenere almeno una voltatesta e > s per h pari al piu piccolo intero maggiore del numero ricavato dalla formula. Inparticolare, per esempio, la probabilita di ottenere almeno una volta testa in h lanci e almeno1/2 per h ≥ log(2)/| log(1− p)| .Esempio 3.1. Come applicazione delle considerazioni precedenti poniamoci la seguente do-manda: quante volte e necessario effettuare l’esperimento “k lanci di una moneta regolare”perche la probabilita di ottenere almeno una volta il risultato “k volte testa” sia almeno s ? Laquestione e equivalente alla seguente: se nel lancio di una moneta non regolare la probabilitadi ottenere testa e 1/2k, quante volte e necessario lanciarla perche la probabilita di ottenereun dato risultato sia almeno s ? (Ancora equivalentemente: abbiamo un dado regolare conN = 2k facce; quante volte e necessario lanciarlo perche la probabilita di ottenere un datorisultato sia almeno s ?)

Utilizzando la formula sopra trovata si ha che il numero cercato e il piu piccolo intero hnon inferiore a log(1− s)/ log(1− 2−k) . Per s = 1/2 e k = 10 tale espressione e ∼= 709.436 ,e in effetti

1− (1− 2−10)710 ∼= 0.500275 .

Cio vuol dire che se facciamo 710 volte l’esperimento “10 lanci di una moneta” abbiamo unaprobabilita di circa il 50% di ottenere almeno una volta una successione “10 volte testa”.Per controllare se il risultato torna, visto che il computer non si lamenta, gli do il seguentecompito: eseguire 1000 volte l’esperimento “710 serie di 10 lanci di una moneta”, e vedere inquante di queste 1000 volte si e ottenuta almeno una volta una successione di 10 teste; anzi,visto che ci sono gli faccio eseguire piu volte la serie di 1000 esperimenti. Ottengo

484, 520, 480, 517, 509, 525, 482, 496, 516, 481, 519, 495, 511, . . .

Insomma sembra proprio che il nostro calcolo sia confermato. Conclusione piu generale: se siripete una successione di k lanci un numero sufficiente di volte, non e poi cosı strano che a uncerto punto appaia k volte di seguito lo stesso risultato. ♠

Esempio 3.2. Uno studente vuole provare a dare un esame senza avere studiato. Supponendoche la probabilita di promozione in una singola prova sia dell’1%, quante volte deve tentareperche la probabilita di promozione sia del 50% ?

In sostanza lo studente sta lanciando una moneta sperando che esca testa, evento che peroha probabilita pari a 1/100 solamente (equivalentemente, lancia un dado regolare con 100facce, sperando che esca un dato numero). Dobbiamo dunque determinare il piu piccolo interoh ≥ log(2)/| log(.99)| , che risulta essere h = 69 : con cinque appelli l’anno, ci vogliono 14 anniprima di raggiungere una probabilita del 50% di superamento dell’esame (e 230 tentativi, cioe46 anni, per una probabilita del 90%; da qui la frequente richiesta di “piu appelli”). ♠

3.7 Lanci di un dado

Nella sostanza, l’esperimento “k lanci di un dado” non e molto differente dai k lanci di unamoneta: rientra nelle “k estrazioni di n oggetti con rimpiazzo”. Per la moneta si ha n = 2 ,

Page 33: Appunti di probabilità e statistica [2013, 143p]

3.8 Decadimento radioattivo 29

per il dado n = 6 , per il mazzo di carte n = 40 , e cosı via. Facciamo alcune osservazioni sulcaso di un dado usuale,3.6 sara facile generalizzarle.

Lo spazio Ω dei campioni e costituito da tutte le successioni di k elementi dell’insieme1, 2, 3, 4, 5, 6 . Dunque |Ω| = 6k e, limitandoci al caso della probabilita uniforme, ciascunadi esse ha probabilita 6−k.

Vogliamo ora considerare, per il dado, un esperimento simile a quello dell’ultimo esempioper la moneta: lanciamo il dado finche non viene 6 . Ovviamente, anche qui Ω ha cardinalitainfinita. E immediato scrivere gli elementi di lunghezza non superiore a due:

Ω = 6 , 16 , 26 , 36 , 46 , 56 , . . . ,

dove al solito 16 sta per (1, 6) eccetera. Gli elementi di lunghezza uguale a 3 hanno un 6 all’ul-timo posto, e ai primi due posti hanno una qualunque successione di elementi in 1, 2, 3, 4, 5 ;dunque sono 52 = 25 . Analogamente gli elementi di lunghezza 3 sono in numero di 53 = 125 , ecosı via. Vediamo ora quale probabilita assegnare a ciascuno di questi atomi di Ω . Ragionandoin maniera analoga alla successione di lanci di una moneta troviamo che: il primo elementodella lista, costituito dal solo risultato 6 , ha evidentemente probabilita pari a 1/6 ; ciascunodegli elementi di lunghezza pari a due ha probabilita 1/62 ; e cosı via, a ciascuno dei 5i−1

elementi di lunghezza pari a i corrisponde probabilita pari a 1/6i. La probabilita di ottenere6 al lancio i-esimo e 5i−1/6i . Per controllare la giustezza delle nostre conclusioni calcoliamo

P (Ω) =

∞∑i=1

5i−1

6i=

∞∑i=0

5i

6i+1=

1

6

∞∑i=0

5i

6i=

1

6· 1

1− 56

= 1 .

Analogamente, in generale, se si ha un “dado” con n facce, e probabilita uniforme, la proba-bilita di ottenere un dato risultato al lancio i-esimo e (n−1)i−1/ni . Si osservi che l’esperimento“n lanci di un dado a 6 facce” e equivalente all’esperimento che potremmo denominare “lanciodi un dado con 6n facce”. Similmente, l’esperimento “n lanci di una moneta” e equivalente a“lancio di un dado con 2n facce”.

Inoltre, il lancio di una moneta con P (0) = p = r/s ∈ Q (r, s ∈ N) puo essere visto comeil lancio di un dado regolare con s facce in cui il risultato “testa” corrisponde all’uscita di unnumero tra 1 e r .

3.8 Decadimento radioattivo

Abbiamo gia accennato (§1.1) alla questione del decadimento radioattivo. Gli esempi praticidi questo tipo di fenomeno sono innumerevoli, ma a noi interessa piu che altro la descrizionematematica generale. Abbiamo un sistema quantistico che si trova in uno stato corrispondentea un minimo locale dell’energia potenziale. Il piu semplice esempio classico di tale situazione

3.6Esistono dadi aventi la forma di solidi differenti dal cubo, e con un numero differente di facce (tetraedro,dodecaedro, eccetera).

Page 34: Appunti di probabilità e statistica [2013, 143p]

30 3 SCHEMA DI BERNOULLI

e ilustrato nella figura:

che rappresenta un punto materiale vincolato a una guida liscia in un piano verticale. Il puntosi trova in una configurazione tale che, se la sua energia cinetica e abbastanza piccola, nonpuo uscire dal “pozzo” in cui si trova. Nel caso di un sistema quantistico che possa esseredescritto in termini analoghi la fisica e invece molto diversa. La particella (per esempio unelettrone) “annusa” i dintorni del pozzo e a un certo punto puo decidere che puo prendere inprestito un po’ di energia per poi restituirla una volta uscita; quindi ce la possiamo ritrovarefuori (si parla anche di “effetto tunnel”). Il bello poi e che, per quanto accurata e completasia la nostra conoscenza del sistema in esame, non siamo assolutamente in grado di prevederequando (e se) la particella uscira.

Un nucleo atomico e un sistema molto piu complicato, ma il principio di fondo del decadi-mento radioattivo e quello ora esposto. Per poter decadere, cioe spaccarsi in due o piu parti,il nucleo ha bisogno di un po’ di energia, in quanto le parti sono tenute insieme da forze chedevono essere vinte; tuttavia una volta che si e rotto puo restituire la suddetta energia con gliinteressi.

Vogliamo quindi formulare un modello probabilistico che descriva tale situazione, che per-metta cioe di dire qual’e la probabilita che l’atomo si rompa in un dato intervallo di tempo.E chiaro che si deve trattare di una probabilita nel continuo. Tuttavia possiamo dare unaprima approssimazione discreta del modello probabilistico dell’esperimento. Scegliamo unamisura ∆t di intervallo di tempo (per esempio un secondo, un minuto, un’ora) e controlliamocon frequenza 1/∆t se l’atomo si e rotto oppure no (quindi se ∆t = 1 secondo controlliamoogni secondo, se ∆t = 1 minuto controlliamo ogni minuto, e cosı via). Ora se ammettiamo(come in effetti risulta dai dati sperimentali) che il processo sia privo di memoria, cioe che la“decisione” dell’atomo di decadere o no non dipenda dal tempo in cui e gia esistito, o duranteil quale l’abbiamo osservato, dovrebbe essere evidente che tale processo, nell’approssimazionediscreta, puo essere descritto mediante un modello probabilistico che e identico a uno schemadi Bernoulli. Infatti possiamo vederlo come il lancio di una moneta con frequenza 1/∆t : seviene testa l’atomo decade, altrimenti no. L’unico dato del modello e la probabilita p che latransizione avvenga in un intervallo di tempo ∆t ; dunque la probabilita che la transizioneavvenga nell’intervallo di tempo [t, t+ ∆t] = [(n− 1) ∆t , n∆t] , dove t ≡ (n− 1) ∆t , e

P [t, t+ ∆t] = p (1− p)n−1 = p (1− p)t/∆t .

Il grafico della figura 9 va “letto” solo nel discreto, per valori interi di n = t/∆t , tuttaviasuggerisce una lettura nel continuo. E naturale allora supporre che l’esperimento “osservazione

Page 35: Appunti di probabilità e statistica [2013, 143p]

3.8 Decadimento radioattivo 31

Figura 9: Grafico di P [t, t+ ∆t] in funzione di n = t/∆t , per p = 0.01 e ∆t = 0.1

10 20 30 40

0.002

0.004

0.006

0.008

0.010

dell’istante in cui l’atomo decade” possa essere descritto mediante una densita di probabilitadel tipo3.7

f(t) =1

τe−t/τ ,

da intendersi in questo senso: f(t) dt e la probabilita che il decadimento avvenga nell’intervallo[t, t+dt] , essendo t = 0 l’istante in cui si iniziano le osservazioni. Allora se ∆t e un tempoabbastanza piccolo si avra P [t, t+ ∆t] ∼= f(t) ∆t ; facendo il confronto tra descrizione discretae continua si ottiene quindi

p (1− p)t/∆t ∼=1

τe−t/τ ∆t ⇒ p

∆te(t/∆t) log(1−p) ∼=

1

τe−t/τ ⇒ p

∆te−p t/∆t ∼=

1

τe−t/τ

dove si e utilizzata l’approsimazione log(1− p) ∼= −p (sviluppo in serie di Taylor al prim’ordineper p piccolo). La corrispondenza (tra la descrizione discreta e quella nel continuo data dallaf) funziona quindi se si fa l’identificazione τ = ∆t/p .

C’e un’altro modo in cui si puo guardare alla questione del decadimento radioattivo.Supponiamo di avere alcuni grammi di una sostanza radioattiva. Questa massa contiene unnumero enorme N di atomi.3.8 Chiediamoci qual’e la probabilita che, al tempo t , k di questiatomi siano decaduti. Cio vuol dire ripetere N volte l’esperimento “osservazione dell’atomoper un tempo t”, con spazio dei campioni Ωt = 0, 1 dove l’evento 1 corrisponde a “l’atomoe decaduto” e l’evento 0 corrisponde a “l’atomo non e decaduto”, e con

pt(1) = P [0, t] =

∫ t

0f(t′) dt′ = 1− e−t/τ ;

e la risposta alla nostra questione e data dalla probabilita di ottenere k successi in N lanci diuno schema di Bernoulli, con probabilita di successo pt(1) in ogni lancio. Tale probabilita e

B(N, pt(1)

)(k) =

(N

k

)(1− e−t/τ )k (e−t/τ )N−k ∼=

1

k!e−λ λk , λ ≡ (1− e−t/τ )N ,

dove si e utilizzata l’approssimazione mediante la legge di Poisson.In seguito ci porremo ulteriori domande riguardo a questo esperimento (esempio 5.4).

3.7E immediato verificare che∫∞

0f(t) = 1 .

3.8Per esempio, 235 grammi di uranio-235 contengono 6.0221415× 1023 atomi (numero di Avogadro).

Page 36: Appunti di probabilità e statistica [2013, 143p]

32 3 SCHEMA DI BERNOULLI

3.9 Distribuzione multinomiale

Consideriamo un dado con N facce e probabilita non uniforme: per l’esperimento “un lanciodel dado” si ha allora lo spazio dei campioni Ω = NN ≡ 1, 2, . . . ,N , e la distribuzione diprobabilita e data da

P (i) = pi ,N∑i=1

pi = 1 , i ∈ Ω .

Lo spazio dei campioni dell’esperimento “n lanci del dado” e il prodotto cartesiano

Ωk ≡ Ω× Ω× · · · × Ω︸ ︷︷ ︸n volte

,

la cui cardinalita e |Ωn| = Nn .Sia ω ≡ (ω1 , . . . , ωn) ∈ Ωn , con ωi ∈ Ω . La probabilita su Ωn e definita assegnando la

sua distribuzione, cioe la funzione

p : Ωn → [0, 1] : ω 7→ p(ω) = P (ω) ,

che e data dap(ω) = PΩ(ω1) · PΩ(ω2) · · ·PΩ(ωn) .

Se in ω ∈ Ωn compare k1 volte l’elemento 1 ∈ Ω ≡ NN , k2 volte l’elemento 2 eccetera, con

N∑i=1

ki = n ,

alloraP (ω) = (p1)k1 · (p2)k2 · · · (pN)kN

(si osservi poi che alcuni dei ki possono essere nulli).D’altro canto, il numero di elementi di Ωn (cioe di liste di n elementi di Ω) che contengono

k1 volte l’elemento 1 , k2 volte l’elemento 2 ,. . . kN volte l’elemento N , con∑

N

i=1 ki = n , epari al numero di partizioni di un insieme di cardinalita n in sottoinsiemi di cardinalita ki .Pertanto la probabilita dell’evento

“esce k1 volte l’elemento 1 , k2 volte l’elemento 2 , eccetera”

e data da

P (k1 , k2 , . . . , kN) =

(n

k1 , k2 , . . . , kN

)· (p1)k1 · (p2)k2 · · · (pN)kN .

Si ha allora, come dev’essere,

P (Ωn) =∑

k1 ,k2 ,... ,kN

(n

k1 , k2 , . . . , kN

)pk1

1 pk22 · · · p

kNN = (p1 + p2 + · · ·+ pN)n = 1 .

Esempio 3.3. Si esegue l’esperimento consistente nel lanciare 20 volte un dado regolare con20 facce. Ci si chiede qual’e la probabilita che escano esattamente 2 volte il numero 1 e 10volte un numero primo (diverso da 1). Un possibile modo di ragionare consiste nel descriverei risultati a cui siamo interessati come provenienti dal lancio di un “dado” a tre facce condistribuzione di probabilita non uniforme (anche se il dado originale a 20 facce e regolare).

Page 37: Appunti di probabilità e statistica [2013, 143p]

3.10 Coincidenza di compleanni 33

Consideriamo infatti lo spazio del campioni Ω = a, b, c dove i sottoinsiemi a, b, c ⊂ N20 sonodati da

a = 1 , pa = 1/20 ;

b = 2, 3, 5, 7, 11, 13, 17, 19 , pb = 8/20 = 2/5 ;

c = 4, 6, 8, 9, 10, 12, 14, 15, 16, 18, 20 , pc = 11/20 .

Allora la probababilita richiesta e data da

P (ka , kb , kc) =

(20

ka , kb , kc

)· (pa)ka · (pb)kb · (pc)kc ,

con ka = 2 , kb = 10 , kc = 20−ka−kb = 8 , ovvero

P (ka , kb , kc) = 0.0182...

Proviamo a fare l’esperimento (come al solito simulato al computer) 100 000 volte, e ripetiamoquesta successione di 100 000 esperimenti 10 volte. Ecco i successi che otteniamo:

1846, 1892, 1844, 1840, 1816, 1849, 1760, 1861, 1837, 1806,

ovvero un totale di 18 351 successi su un milione di prove. Sembrerebbe quindi che il nostrocalcolo sia sostanzialmente confermato. ♠

3.10 Coincidenza di compleanni

Un classico esercizio di probabilita e il problema dei compleanni : dato un gruppo di k per-sone prese a caso, trovare la probabilita che almeno due di esse festeggino il compleanno nelmedesimo giorno.

Possiamo pensare al problema in questi termini: si lancia k volte un dado regolare con 365facce, qual’e la probabilita dell’evento Ak: “in k lanci almeno un risultato esce almeno duevolte”? Per rispondere conviene calcolare la probabilita dell’evento complementare Ack: “in klanci non esce mai lo stesso risultato due volte”. Contiamo allora prima di tutto quante sonole liste Nk → N365 che non contengono alcun doppione, ovvero la cardinalita dell’insieme D365

k

di tutte le delle disposizioni senza ripetizione (vedi Appendice A) di k elementi presi da uninsieme di 365. Si ha

|D365k | = 365 (365− 1) · · · (365− k + 1) =

365!

(365− k)!.

D’altra parte una qualsiasi lista di k elementi di N365 ha probabilita 1/365k , in quanto ci sonoin totale 365k liste. Pertanto P (Ack) = |D365

k |/365k , e

P (Ak) = 1− 365 (365− 1) · · · (365− k + 1)

365k.

Page 38: Appunti di probabilità e statistica [2013, 143p]

34 3 SCHEMA DI BERNOULLI

Il grafico di P (Ak) in funzione di k e riportato qua sotto

20 40 60 80

0.2

0.4

0.6

0.8

1.0

Guardando i valori che si ottengono ci accorgiamo di alcune cose interessanti: per esempioP (Ak) supera il valore 0.5 gia per k = 23 , e 0.99 per k = 57 ; inoltre per k = 80 si haP (Ak) = 0.999914... , insomma in una classe di 80 studenti ce ne sono quasi sicuramentealmeno due che festeggiano il compleanno nel medesimo giorno.

Page 39: Appunti di probabilità e statistica [2013, 143p]

35

4 Variabili aleatorie

4.1 Applicazioni dallo spazio dei campioni in un insieme qualsiasi

Sia (Ω,E, P ) uno spazio di probabilita, e X : Ω → S un’applicazione a valori in un insiemeS qualsiasi. Indichiamo poi con X(E) ≡ X(E), E ∈ E la famiglia di tutte le immagini,tramite X , dei sottoinsiemi misurabili di Ω . Allora X(E) e una σ-algebra di sottoinsiemi diX(Ω) ⊂ S , che genera (si ricordi l’esempio 2.3) una σ-algebra X ⊂ P(S) . Otteniamo inoltreuna probabilita PX : X → [0, 1] ponendo

PX (A) = P (←X(A)) , A ∈ X .

Una notazione comune, per quanto poco precisa, e

PX (A) ≡ PX ∈ A .

Un esempio di quanto sopra e quello dell’es.3.3, con Ω = N20 , S = a, b, c e

X :

1 7→ a ,

2, 3, 5, 7, 11, 13, 17, 19 7→ b ,

4, 6, 8, 9, 10, 12, 14, 15, 16, 18, 20 7→ c .

Consideriamone qualcun altro.

Esempio 4.1. Sia Ω = N6 × N6 lo spazio dei campioni relativo all’esperimento “lancio didue dadi” (ovvero due lanci di un dado; qui si sta parlando di un normale dado a sei facce,regolare). Dunque Ω e l’insieme di tutte le coppie (n1 , n2) con 1 ≤ n1 , n2 ≤ 6 ; consideriamol’applicazione

X : Ω→ N : (n1 , n2) 7→ n1 + n2 .

Vediamo subito che l’immagine di X non e tutto N , ma il suo sottoinsieme costituito dainumeri interi compresi tra 2 e 12 . Allora

X :

(1, 1) 7→ 2 ,

(1, 2), (2, 1) 7→ 3 ,

(1, 3), (2, 2) (3, 1) 7→ 4 ,

(1, 4), (2, 3) (3, 2) (4, 1) 7→ 5 ,

(1, 5), (2, 4) (3, 3) (4, 2) (5, 1) 7→ 6 ,

(1, 6), (2, 5) (3, 4) (4, 3) (5, 2) (6, 1) 7→ 7 ,

(2, 6), (3, 5) (4, 4) (5, 3) (6, 2) 7→ 8 ,

(3, 6), (4, 5) (5, 4) (6, 3) 7→ 9 ,

(4, 6), (5, 5) (6, 4) 7→ 10 ,

(5, 6), (6, 5) 7→ 11 ,

(6, 6) 7→ 12 .

Page 40: Appunti di probabilità e statistica [2013, 143p]

36 4 VARIABILI ALEATORIE

Con un semplice conteggio vediamo che la distribuzione di probabilita indotta da X suS ≡ 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 e data da

p(2) = p(12) = 136 , p(3) = p(11) = 1

18 , p(4) = p(10) = 112 ,

p(5) = p(9) = 19 , p(6) = p(8) = 5

36 , p(7) = 16 .

Utilizzando questi conteggi possiamo divertirci a simulare un esperimento in cui si lancianoi due dadi un certo numero n di volte; ma il risultato dell’esperimento non e la coppia ordinatadi numeri cosı ottenuta, bensı la loro somma. Chiediamoci (per esempio) qual’e la probabilitache in una successione di 15 lanci di due dadi la somma venga 2 volte 4 , 3 volte 5 e 3 volte9 . Ricordando quanto visto nel §3.9 vediamo che tale probabilita e data da(

152, 3, 3, 7

)· [p(4)]2 · [p(5)]3 · [p(9)]3 · [1− p(4)− p(5)− p(9)]7 = 0.0036676...

Eseguiamo allore l’esperimento “successione di quindici lanci di due dadi” molte volte e ve-diamo se la frequenza dei risultati che soddisfano alle condizioni suddette e in accordo con ilcalcolo. Facciamo dieci successioni di 100 000 prove; ecco i successi che otteniamo

392, 342, 356, 346, 386, 357, 348, 377, 405, 359,

ovvero un totale di 3668 successi su un milione di prove. Il calcolo della probabilita fatto soprasembrerebbe confermato. ♠

Esempio 4.2. Sia ancora Ω = N6 × N6 , ma ora

X : Ω→ N : (n1 , n2) 7→ n1 · n2

e il prodotto dei risultati dei singoli dadi. Dunque S ≡ X(Ω) e costituito dagli elementipresenti nella tabellina del 6:

1 2 3 4 5 62 4 6 8 10 123 6 9 12 15 184 8 12 16 20 245 10 15 20 25 306 12 18 24 30 36

dalla quale si vede anche la “molteplicita” di ciascun risultato, cioe in quanti modi diversi puovenir fuori. Un semplice conteggio da allora immediatamente

p(1) = p(9) = p(16) = p(25) = p(36) = 136 , p(4) = 1

12 , p(6) = p(12) = 19 ,

p(2) = p(3) = p(5) = p(8) = p(10) = p(15) = p(18) = p(20) = p(24) = p(30) = 118 .

Esperimento: una successione di 10 lanci di due dadi; chiamiamo “successo” l’evento “esce 1volta il 6, 1 volta il 9, 2 volte il 12”. La probabilita di successo e(

101, 1, 2, 6

)· p(6) · p(9) · [p(12)]2 · [1− p(6)− p(9)− p(12)]6 = 0.0170898...

Eseguiamo dieci volte una successione di 100 000 esperimenti; otteniamo i successi

1721, 1785, 1722, 1699, 1809, 1709, 1625, 1714, 1711, 1698,

ovvero 17 193 successi su un milione di prove. ♠

Page 41: Appunti di probabilità e statistica [2013, 143p]

4.2 Variabile aleatoria 37

4.2 Variabile aleatoria

Di regola, il termine variabile aleatoria e riservato a funzioni reali X : Ω→ R che soddisfino laseguente condizione: per ogni t ∈ R , la preimmagine di (−∞, t] e un sottoinsieme misurabiledi Ω :

←X((−∞, t]) ∈ E ∀ t ∈ R .

Non e difficile vedere che questa condizione equivale a richiedere che X sia una funzionemisurabile, cioe che la preimmagine di ogni aperto sia misurabile;4.1 cio significa che la σ-algebra X di sottoinsiemi di R , generata da X , contiene la σ-algebra B(R) dei Boreliani.Abbiamo dunque, tenendo conto delle osservazioni precedenti, lo spazio di probabilita(

R,X , PX).

In particolare appartengono a X tutti gli intervalli, aperti e chiusi (e semi-chiusi), nonchetutti i singoletti.

4.3 Funzione di ripartizione e densita

Si dice funzione di ripartizione una funzione F : R→ R che abbia le seguenti proprieta:

• e non decrescente: x′ > x ⇒ F (x′) ≥ F (x) ;

• e continua a destra:4.2 F (x+) = F (x) ∀ x ∈ R ;

• limx→−∞

F (x) = 0 , limx→+∞

F (x) = 1 .

Si ha allora, ovviamente,

• 0 ≤ F (x) ≤ 1 , ∀x ∈ R .

Se P e una probabilita sulla famiglia M(R) dei sottoinsiemi di R misurabili secondoLebesgue, allora da P si ottiene una funzione di ripartizione FP ponendo

FP (x) = P ((−∞, x]) .

Infatti si dimostra4.3 che FP cosı definita soddisfa le proprieta richieste. Si ha poi4.4

4.1Dimostriamo questa affermazione. Per prima cosa osserviamo che in generale, se A,B ⊂ R , allora←X(A ∪B) =

←X(A) ∪

←X(B) : infatti

←X(A∪B) e l’insieme di tutti gli ω ∈ Ω tali che X(ω) ∈ A oppure X(ω) ∈ B ,

cioe tali che ω ∈←X(A) oppure ω ∈

←X(B) ; analogamente

←X(A ∩B) =

←X(A) ∩

←X(B) , e

←X(Ac) = (

←X(A))c. Per-

tanto se←X(A),

←X(B) ∈ E allora anche

←X(A ∪B) ,

←X(A ∩B) e (

←X(A))c sono eventi. In particolare sono eventi,

per ogni a, b ∈ R , gli insiemi←X((a,+∞)) e

←X((a, b]) . Sia poi (an) una successione crescente convergente a b ;

poiche sono eventi tutti gli insiemi←X((an, b]) e un evento anche la loro intersezione ∩n∈N

←X((an, b]) =

←X(b) .

A questo punto e immediato vedere che tutte le preimmagini di intervalli aperti e chiusi sono eventi.4.2F (x+) e un’abbreviazione per limt→x+ F (t) .4.3La proprieta di essere non decrescente e ovvia. Riguardo alla continuita a destra, e sufficiente dimostrare

che F (xn)→ F (x) per ogni successione decrescente xn → x . Posto allora En = (−∞, xn] , gli En costituisconouna successione decrescente, da cui (teorema 2.1) limn F (xn) ≡ limn P (En) = P (E) , dove E ≡ ∩nEn , e la tesisegue dal fatto che E = (−∞, x] per cui P (E) = F (x) .

Per dimostrare che limx→−∞ F (x) = 0 facciamo vedere che FP (xn)→ 0 dove (xn) e una qualsiasi successionedecrescente a −∞ . Si ha FP (xn) = P (En) , dove En = (−∞, xn] , e ∩n∈NEn = ∅ ; dal teorema 2.1 si ha pertantoP (En)→ P (∅) = 0 . L’altro limite si dimostra in maniera analoga.

4.4La prima segue subito da (−∞, a] ⊂ (−∞, b] e da (−∞, b] \ (−∞, a] = (a, b] . Si ottiene allora la secondaconsiderando una successione crescente xn → x e P ((xn, x]) = F (x)− F (xn) .

Page 42: Appunti di probabilità e statistica [2013, 143p]

38 4 VARIABILI ALEATORIE

• P ((a, b]) = FP (b)− FP (a) , a < b ∈ R ;

• P (x) = FP (x)− FP (x−) ;

• P ((a, b)) = P ((a, b])− P (b) = FP (b−)− FP (a) , a < b ∈ R .

In particolare, se FP e continua si ha P (x) = 0 ∀x ∈ R : ogni singoletto ha probabilita nulla.

Supponiamo ora che P ammetta una densita, cioe che esista una funzione integrabilep : R→ [0,∞) tale che per ogni sottoinsieme misurabile (secondo Lebesgue) A ⊂ R si abbia

P (A) =

∫Ap .

Allora si ha, in particolare,

• FP (x) =

∫ x

−∞p(t)dt ,

• P ([a, b]) = FP (b)− FP (a) =

∫ b

ap(x) dx .

Osservazione. Se la probabilita P proviene da una densita p , la funzione di ripartizione FP euna primitiva di p e, necessariamente, e una funzione assolutamente continua.4.5 D’altra parte,una probabilita puo non ammettere densita; pertanto una generica funzione di ripartizioneF puo non ammettere densita (nonostante che la monotonia implichi la derivabilita quasiovunque). Se F e assolutamente continua allora ammette densita. Si osservi inoltre che, anchese P non ammette densita nel senso delle funzioni ordinarie, e possibile tuttavia parlare didensita come distribuzione (§2.4) , come si vede dagli esempi 4.3 e successivi. ♣

Siano poi (Ω,E, P ) uno spazio di probabilita e X : Ω → R una variabile aleatoria. DettaPX la probabilita indotta da X , e FX : R → [0, 1] la funzione di ripartizione di PX , si haevidentemente

FX (x) = P(←X(−∞, x]

).

Diremo che X e assolutamente continua se FX e assolutamente continua; cio equivale adire che FX ammette densita (come funzione ordinaria). In ogni caso, se p ≡ pX e la densitadi PX (anche come distribuzione), si usa scrivere

X ∼ p ,

e si dice che p e la legge di X .

Osservazione. Una questione non banale e: quali sono i sottoinsiemi A ⊂ R tali che PX (A) =∫A pX . In generale non tutti i sottoinsiemi A ∈ M(R) hanno questa proprieta; tuttavia si

puo vedere che non ci sono complicazioni per sottoinsiemi “ragionevoli” e variabili aleatorie“ragionevoli”. ♣

Esempio 4.3. Consideriamo una variabile aleatoria su uno spazio di probabilita discreto:l’esperimento “lancio di un dado” e la variabile aleatoria X : Ω→ R definita dalla semplice

4.5 L’assoluta continuita e una condizione piu forte della continuita (per la definizione formale si veda l’Ap-pendice C.1). Una funzione che abbia tale proprieta e necessariamente derivabile quasi ovunque ed e primitivadella sua derivata.

Page 43: Appunti di probabilità e statistica [2013, 143p]

4.3 Funzione di ripartizione e densita 39

inclusione N6 ⊂ R . Sia A ⊂ R ; allora PX (A) 6= 0 se e solo se A ∩ N6 6= ∅ , piu precisamentePX (A) = |A ∩ N6| . Questa probabilita e associata alla funzione di ripartizione

FX (t) =

0 , t < 1 ,

1/6 , 1 ≤ t < 2 ,

1/3 , 2 ≤ t < 3 ,

1/2 , 3 ≤ t < 4 ,

2/3 , 4 ≤ t < 5 ,

5/6 , 5 ≤ t < 6 ,

1 , 6 ≤ t ,

il cui grafico e disegnato qua sotto:

-2 2 4 6 8

0.2

0.4

0.6

0.8

1.0

Si noti che a questa funzione di riprtizione non e associata una densita, almeno come funzioneordinaria: la densita qui e una distribuzione o funzione generalizzata (§2.4), che puo esserescritta in termini della delta di Dirac come

p(x) =1

6

6∑i=1

δi(x) =1

6

6∑i=1

δ(x− i) ,

dove δ ≡ δ0 e δi(x) = δ(x− i) . Ricordando che δi = H ′i , dove Hi e la funzione scalino in i ,possiamo anche scrivere la funzione di ripartizione nella forma

FX (x) =1

6

6∑i=1

Hi(x) =1

6

[H1(x) +H2(x) +H3(x) +H4(x) +H5(x) +H6(x)

].

Esempio 4.4. Nell’esperimento “lancio di due dadi” consideriamo la variabile aleatoria X :(n1 , n2) 7→ n1+n2 , come nell’esempio 4.1, ma ora vediamo X come avente valori in R (inveceche nell’insieme 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 ⊂ N). La funzione di ripartizione ha anche qui

Page 44: Appunti di probabilità e statistica [2013, 143p]

40 4 VARIABILI ALEATORIE

un grafico a gradini:

5 10 15

0.2

0.4

0.6

0.8

1.0

Esempio 4.5. Nell’esperimento “lancio di due dadi” consideriamo la variabile aleatoria X :(n1 , n2) 7→ n1 · n2 , come nell’esempio 4.2. Allora FX ha il grafico

10 20 30 40

0.2

0.4

0.6

0.8

1.0

Esempio 4.6. Una scatola contiene tre palline rosse e tre palline nere; si estrae a caso unapallina alla volta, se e rossa viene rimesse nella scatola e se e nera viene lasciata fuori. Sia poiS la variabile aleatoria “numero di estrazioni necessarie per togliere tutte le palline nere”; sichiede di calcolare P3 ≤ S ≤ 4 .

Proviamo a descrivere lo spazio dei campioni, anche se cio non e strettamente necessarioper rispondere alla questione; anzi, come si vedra tra poco, la soluzione puo essere trovataragionando nell’ambito di spazi di probabilita diversi.

Un modo per inquadrare la questione nell’ambito di un esperimento preciso puo essereil seguente: si eseguono le estrazioni (seguite da un eventuale rimpiazzo) una dopo l’altra,e l’esperimento termina quando non rimangono palline nere della scatola. Gli atomi sonole successioni di valori (r, n) del numero di palline rosse e nere contenute nella scatola dopociascuna estrazione (in realta basterebbe solo n , perche r vale sempre 3). La variabile aleatoriaS da allora la lunghezza del singolo campione. Si noti che Ω ha cardinalita infinita, in quantol’esperimento puo terminare dopo un numero arbitrariamente grande di estrazioni; tuttavia sipotrebbe anche troncare l’esperimento dopo 4 estrazioni, o dopo un numero di estrazioni ≥ 4 ,e la risposta alla domanda posta sarebbe la stessa, come risultera chiaro dal ragionamento chesegue.

Page 45: Appunti di probabilità e statistica [2013, 143p]

4.4 Intermezzo: alberi e grafi, variazioni sul tema 41

In questo e in altri casi, in cui le piu comuni formule del calcolo combinatorio sarebbero didifficile applicazione, ma al tempo stesso il numero di atomi da prendere in considerazione erelativamente piccolo, conviene costruirsi l’albero4.6 delle possibilita. E cio che abbiamo fattonella figura che segue, riportando tutti i risultati possibili dopo tre estrazioni e, di quellipossibili dopo quattro estrazioni, solo quelli che hanno come esito n = 0 (dopo k estrazioni ipossibili risultati sono 2k).

(3, 3)

(3, 3) (3, 2)

1/2 1/2

(3, 3) (3, 2) (3, 2) (3, 1)

1/2 1/2 2/53/5

(3, 3) (3, 2) (3, 2) (3, 1) (3, 2) (3, 1) (3, 1) (3, 0)

1/2 1/2 3/5 2/5 3/5 2/5 3/4 1/4

(3, 0) (3, 0) (3, 0)

1/4 1/4 1/4

Ciascuna linea corrisponde a una possibile estrazione, ed e contrassegnata con la relativaprobabilita (dedotta in maniera ovvia). Ogni “percorso” a partire dalla configurazione inizialedescrive i primi tre o quattro elementi di ciascun campione, e abbiamo qui descritti compiu-tamente tutti i campioni di lunghezza 3 e 4. Un attimo di riflessione mostra che le probabilitadi ciascuno di questi e data dal prodotto delle probabilita delle singole linee del percorso. Aquesto punto la risposta alla domanda posta inizialmente e quasi immediata. Si ha infatti

PS= 3 =1

2· 2

5· 1

4=

1

20= 0.05 ,

PS= 4 =1

2· 1

2· 2

5· 1

4+

1

2· 3

5· 2

5· 1

4+

1

2· 2

5· 3

4· 1

4=

37

400= 0.0925 ,

P3 ≤ S ≤ 4 =1

20+

37

400=

57

400= 0.1425 .

4.4 Intermezzo: alberi e grafi, variazioni sul tema

Il modo in cui abbiamo affrontato la questione proposta nell’esempio 4.6 suggerisce un altropunto di vista riguardo a problemi di questo tipo: l’albero che abiamo costruito potrebberappresentare un mappa dei possibili “percorsi” di un sistema fisico, con biforcazioni dove il

4.6 Un’importante branca della matematica e la teoria dei grafi ; un grafo e una coppia (V,E) , dove V e uninsieme i cui elementi sono detti vertici ed E ⊂ V × V e l’insieme dei lati (edges). Si puo rappresentare un grafodisegnando i vertici come punti, e i lati come linee che uniscono alcune coppie di vertici (non necessariamentetutte). Un albero (si pensi anche all’albero genealogico) e un grafo che non ha cammini chiusi.

Si usa anche il termine diagramma, che pero ha un significato piu generico (la nozione di grafo ha una precisadefinizione matematica).

Page 46: Appunti di probabilità e statistica [2013, 143p]

42 4 VARIABILI ALEATORIE

sistema “sceglie” la via lanciando una moneta (eventualmente non regolare).

Ad esempio possiamo pensare a un punto materia-le vincolato a una guida in discesa, come si vedenella figura qui a destra; alle biforcazioni il deter-minismo della meccanica classica viene meno, e laparticella puo “secegliere” l’una o l’altra via con unadistribuzione di probabilita assegnata.

?9 XXXXXXz

) QQs

PPPPPq+

+@R +@R +@R +@R

CCCCCW

CCCCCW

CCCCCW

CCCCCW

CCCCCW

CCCCCW

CCCCCW

CCCCCW

Vengono allora subito in mente possibili generalizzazioni di questo tipo di esperimento.Prima di tutto, le possibilita ad ogni nodo (o vertice del grafo, vedi nota 4.6 a pie di pagi-na 41) potrebbero essere piu di due. Ad esempio nella figura seguente, a sinistra, si vede una“triforcazione”, (che comunque e equivalente a una successione di due biforcazioni, come sivede a destra).QQQQQQQQQ

QQQQQs

+ ?

QQQQQQQQQ

QQQQQs

p1p2

p3

p1 + p2 + p3 = 1

QQ

QQQ

QQQ

QQQ

QQ

QQQ

QQ

QQ

Qs

QQ

Qs

QQ

Qs

/

/

p1 p2 + p3

q1 q2

q1 = p2/(p2 + p3)q2 = p3/(p2 + p3)

=⇒

Si noti che, in ogni nodo, la somma delle probabilita delle possibili alternative deve fare 1 .

La seconda generalizzazione che viene in mente e la seguente: non c’e nessun motivo perlimitarci a considerare esperimenti tale che il grafo delle possibilita sia un albero; per esempiola particella, nello scendere lungo la guida, potrebbe reimmettersi su uno dei percorsi che nonaveva preso. Il grafo non e quindi un albero, in quanto contiene dei percorsi chiusi (anche sela particella non puo passare due volte per lo stesso punto: e soggetta ai “sensi unici”).

Esempio 4.7. Applichiamo le idee sopra introdotte al grafo disegnato qua sotto.

E un caso relativamente semplice: le biforcazioni (nei no-di A, B, C, E, F e H) corrispondono ad alternative sem-plici (due possibilita) e supponiamo che ciascuna scel-ta abbia probabilita 1/2 . I nodi D e G non richiedonoinvece alcuna scelta, sono solo punti di confluenza.E abbastanza facile elencare tutti i possibili percorsi: se-guendo le frecce a partire dall’inizio, ad ogni biforcazio-ne si fa una copia del percorso gia seguito e si prosegue inciascuna delle due copie a seconda della scelta corrispon-dente (per gestire i casi piu complicati si puo scrivereun programmino per computer che stili l’elenco).

?

@

@@RA

@@

@RB

A

AAAAAAA

AAAAU

C

D

@@

@RE

@

@@R

F

G

@

@@RH

1 2 3 4 5

Troviamo che lo spazio Ω dei campioni e costituito dalle sequenze:

ABE1 ,

ABEG2 , ABDFG2 , ACDFG2 ,

ABDFH3 , ACDFH3 ,

ABDFH4 , ACDFH4 ,

AC5 .

Page 47: Appunti di probabilità e statistica [2013, 143p]

4.4 Intermezzo: alberi e grafi, variazioni sul tema 43

La probabilita di ciascun campione la si trova inserendo un fattore 1/2 per ciascun nodo,incontrato nel percorso, che richieda una scelta; questi nodi sono stati (per comodita dellettore) sottolineati, ed e immediato scrivere:

p(ABE1) =1

8,

p(ABEG2) = p(ABDFG2) = p(ACDFG2) =1

8,

p(ABDFH3) = p(ACDFH3) =1

16,

p(ABDFH4) = p(ACDFH4) =1

8,

p(AC5) =1

4.

Si puo allora verificare che P (Ω) = 1 . Si noti poi che le possibili “configurazioni finali” sonostate contrassegnate mediante numeri, in modo che possano essere caratterizzate come i valoriassunti da una variabile aleatoria X ; abbiamo dunque

PX = 1 =1

8, PX = 2 =

3

8, PX = 3 =

1

8, PX = 4 =

1

4, PX = 5 =

1

4.

Un’ulteriore estensione che viene in mente, per la descrizione di un esperimento tramiteun grafo, e di permettere anche nodi che siano incroci, nei quali cioe due o piu percorsiconfluiscano in una configurazione nella quale sono possibili due o piu scelte (un sempliceesercizio potrebbe essere quello di modificare l’esempio 4.7 aggiungendo una “scorciatoia” daD ad H).

Osservazione. Ma allora anche l’esperimento dell’esempio 4.6 potrebbe essere rappresentatoin maniera piu chiara e compatta mediante il grafo (l’inizio dell’esperimento e in alto a destra):

(3, 3)

?

(3, 2)

?

(3, 1)

?

(3, 0)

1/2

1/2

2/5

2/5

1/4

3/4

(3, 3)

?

(3, 2)

?

(3, 1)

?

(3, 0)

1/2

1/2

2/5

2/5

1/4

3/4

(3, 3)

?

(3, 2)

?

(3, 1)

?

(3, 0)

1/2

1/2

2/5

2/5

1/4

3/4

(3, 3)

?

(3, 2)

?

(3, 1)

?

(3, 0)

1/2

1/2

2/5

2/5

1/4

3/4

(3, 3)

?

(3, 2)

?

(3, 1)

?

(3, 0)

1/2

1/2

2/5

2/5

1/4

3/4

(3, 3)

?

(3, 2)

?

(3, 1)

?

(3, 0)

1/2

1/2

2/5

2/5

1/4

3/4

L’inconveniente di questo tipo di rappresentazione e forse che risulta meno immediato scriveretutti i percorsi che portano a una data configurazione finale; ma, nel caso in esame, non eaffatto difficile scrivere tutti i percorsi aventi una data lunghezza (non troppo grande). ♣

Esempio 4.8. Un’urna contiene 30 palline, di cui 2 contrassegnate. Si fanno estrazioni suc-cessive (senza rimpiazzo) fino a quando tutte e due le palline contrassegnate non sono stateestratte. Il numero di estrazioni necessarie e una variabile aleatoria S riguardo alla quale sichiede: determinare il piu piccolo intero h ∈ N tale che si abbia PS ≤ h ≥ 1/2 .

Questo esperimento termina dopo 30 estrazioni al massimo. Il grafo (con incroci) che lodescrive, iniziando stavolta in alto a sinistra, e

Page 48: Appunti di probabilità e statistica [2013, 143p]

44 4 VARIABILI ALEATORIE

(28, 2)

(28, 1)

(28, 0)

S = 2

(27, 2)

(27, 1)

(27, 0)

S = 3

(26, 2)

(26, 1)

(26, 0)

S = 4

(25, 2)

(25, 1)

(25, 0)

S = 5

(1, 2)

(1, 1)

(1, 0)

S = 29

(0, 2)

(0, 1)

(0, 0)

S = 30

-

?

-

?

-

?

-

?-

?

-

?

-

?

-

?

-

? ?-

? ?

28/30 27/29 26/28 25/27 1/3

28/29 27/28 26/27 25/26 1/2

2/30

1/29

2/29

1/28

2/28

1/27

2/27

1/26

2/3

1/2

1

1

Un passo in orizzontale corrisponde all’estrazione di una pallina non contrassegnata, un passoin verticale all’estrazione di una pallina contrassegnata. Tutti i percorsi che terminano inuna data configurazione hanno lo stesso numero di passi, cioe il medesimo valore di S (chee riportato corrispondentemente sotto). La cosa curiosa e che, come si verifica subito, tutti ipercorsi hanno la medesima probabilita

p =2

30 · 29=

1

435;

abbiamo insomma, un po’ inaspettatamente, una distribuzione uniforme. Notiamo poi che cisono k− 1 percorsi corrispondenti a un dato valore S = k , con 2 ≤ k ≤ 30 . Pertanto

PS= k =k − 1

435,

PS≤h =1

435

h∑k=2

(k − 1) =1

435

h (h− 1)

2=h (h− 1)

870,

e, in particolare, PS≤ 30 = 1 come dev’essere.

Per rispondere alla questione proposta dobbiamo quindi risolvere rispetto ad h la disequa-zione

h (h− 1)

870≥ 1

2⇒ h (h− 1) ≥ 435 .

Le radici del polinomio h (h− 1)− 435 sono 12 (1∓

√1741) , corrispondenti a h ∼= −20.3626 e

h ∼= 21.3626 . La risposta cercata e pertanto h = 22 (il polinomio e crescente per h > 1/2) .♠

4.5 Simulazione

La funzione random di un qualsiasi linguaggio di programmazione fornisce di solito risultatipseudo-aleatori con distribuzione uniforme; il risultato di una simulazione con tale funzione eriportato in figura 10. Sono stati estratti N volte (con N = 10 000, 100 000, 1 000 000) numeria caso nell’intervallo [0, 1] ; poi l’intervallo e stato suddiviso in 100 intervalli di ampiezza0.01 , e per ciascun intervallino si e riportato in grafico la frazione di volte in cui il risultatodell’estrazione e caduto in esso. Si vede chiaramente come, al crescere di N , tale frazione tendadappertutto a 1/100 (riga orizzontale).

Ora vogliamo fare una simulazione nella quale i numeri vengano estratti secondo unadensita differente. Per vedere come procedere, conviene prima di tutto ricordare il teoremadel cambiamento di variabile negli integrali definiti. Siano [α, β] e [a, b] intervalli di R , e

Page 49: Appunti di probabilità e statistica [2013, 143p]

4.5 Simulazione 45

Figura 10: Simulazione con densita uniforme

N = 10 000

N = 100 000 N = 1 000 000

ϕ : [α, β]→ [a, b] un’applicazione derivabile tale che ϕ(α) = a , ϕ(β) = b .

[ ]t

α β

[ ]x

a b

-f

R

Si ha allora4.7 ∫ β

αf(ϕ(t))ϕ′(t) dt =

∫ b

af(x) dx .

Supponiamo ora che f sia una funzione strettamente positiva nell’intervallo [a, b] e tale che∫ ba f(x) dx = 1 , ovvero una densita su [a, b] , e che ϕ sia strettamente crescente.4.8 Allora per

ogni intervallo [a′, b′] ⊂ [a, b] si ha

P ([a′, b′]) =

∫ b′

a′f(x) dx =

∫ β′

α′f(ϕ(t))ϕ′(t) dt ,

con α′ ≡ ←ϕ(a′) , β′ ≡ ←ϕ(b′) . In particolare, se si riesce a trovare ϕ tale che ∀ t ∈ [α, β] si abbiaf(ϕ(t))ϕ′(t) = 1 , si ottiene

Pf ([a′, b′]) = β′ − α′ ≡ ←ϕ(b′)− ←ϕ(a′) ,

cioe la probabilita di [a′, b′] , secondo la densita f , e la misura dell’intervallo←ϕ([a′, b′]) . In altri

termini, Pf e la probabilita su [a, b] determinata dalla variabile aleatoria ϕ : [α, β]→ [a, b] ,dove β − α = 1 e la probabilita su Ω ≡ [α, β] e data dalla misura di Lebesgue (con densitapari a 1 , costante).

La condizione f(ϕ(t))ϕ′(t) = 1 significa (regola di derivazione della funzione inversa)

f(x) =←ϕ′(x) ,

4.7Nella pratica si usa dire che si fa il “cambiamento di variabile” x = ϕ(t) , da cui dx = ϕ′(t) dt , e si cambianogli estremi di integrazione t = α e t = β con x = ϕ(α) = a e x = ϕ(β) = b .

4.8Questa densita su [a, b] puo essere estesa a una densita f tutto R ponendo f(x) = 0 per x 6∈ [a, b] .

Page 50: Appunti di probabilità e statistica [2013, 143p]

46 4 VARIABILI ALEATORIE

Figura 11: Grafici della densita f(x) = 2/(π(1 + x2)) sull’intervallo [−1, 1] , della funzione dipartizione F (x) e della sua inversa ϕ : [−1, 1]→ [0, 1] .

f(x)

-1.0 -0.5 0.5 1.0

0.2

0.4

0.6

0.8

1.0

ϕ(t)

0.2 0.4 0.6 0.8 1.0

-1.0

-0.5

0.5

1.0

F (x)

cioe←ϕ : [a, b] → [α, β] ha da essere una primitiva di f : [a, b] → [0, 1] . Inoltre

←ϕ(a) = α ,

pertanto←ϕ(x) = α+

∫ x

af(ξ) dξ .

Di regola converra, soprattutto nelle simulazioni al computer, prendere [α, β] = [0, 1] ; pertantola variabile aleatoria ϕ cercata sara l’inversa di

←ϕ(x) =

∫ x

af(ξ) dξ .

Si noti che quest’ultima non e altro che la funzione di ripartizione della densita f .

Esempio 4.9. Consideriamo sull’intervallo [a, b] ≡ [−1, 1] la densita f data da (figura 11)

f(x) =2

π(1 + x2).

Dato che una primitiva di 1/(1 + x2) e arctanx , la funzione di partizione F e data da

F (x) =

∫ x

−1f(ξ) dξ =

1

2+

2

πarctanx ,

e la sua inversa ϕ (ottenuta risolvendo rispetto a x l’equazione F (x) = t) da

ϕ(t) = tan[π

2

(t− 1

2

)].

Controlliamo allora la giustezza dei nostri calcoli e ragionamenti mediante una simulazioneal computer. Procediamo cosı: prima di tutto estraiamo a caso, con la funzione random (quindi

Page 51: Appunti di probabilità e statistica [2013, 143p]

4.6 Variabili aleatorie vettoriali 47

con densita uniforme), N reali nell’intervallo [0, 1] ; poi applichiamo a ciascuno di questi numerila funzione ϕ . Otteniamo cosı N numeri nell’intervallo [−1, 1] . Infine rappresentiamo con ilsolito grafico a barre (figura 12) la frazione di risultati nei sottointervalli di ampiezza 0.01 .Confrontando il grafico a barre con il grafico di f si vede chiaramente che la simulazione cosıcostruita riproduce la densita assegnata. ♠

Figura 12: Grafici a barre della simulazione di N estrazioni con densita f(x) = 2/(π(1 + x2))sull’intervallo [−1, 1] .

N = 10 000

N = 100 000

N = 1 000 000

4.6 Variabili aleatorie vettoriali

Sia (Ω,E, P ) uno spazio di probabilita. Diremo variabile aleatoria vettoriale, o vettore aleato-rio, un’applicazione X ≡ (X1 , . . . , Xm) : Ω→ Rm le cui componenti Xi : Ω→ R siano varia-bili aleatorie “scalari”, cioe variabili aleatorie nel senso precedentemente introdotto. Analoga-mente al caso scalare, X determina una struttura di spazio di probabilita su Rm ; se A ⊂ Rme un insieme misurabile, la probabilita e

PX (A) = PX ∈ A ≡ P (←X(A)) .

Se x ≡ (x1 , . . . , xm) ∈ Rm allora

←X(x) =

ω ∈ Ω :

←X1(x1) =

←X2(x2) = · · · =

←Xm(xm) = ω

=

=←X1(x1) ∩

←X2(x2) ∩ · · · ∩

←Xm(xm) .

Page 52: Appunti di probabilità e statistica [2013, 143p]

48 4 VARIABILI ALEATORIE

Se A ∈ Rm e un sottoinsieme qualsiasi allora

←X(A) =

⋃x∈A

←X(x) =

⋃x∈A

(←X1(x1) ∩

←X2(x2) ∩ · · · ∩

←Xm(xm)

).

Se I = I1 × · · · × Im e un iper-intervallo si ha, piu semplicemente,4.9

←X(I) =

←X1(I1) ∩ · · · ∩

←Xm(Im) .

In particolare considereremo gli iper-intervalli del tipo

Jx = Jx1 × Jx2 × · · · × Jxm , x ≡ (x1 , . . . , xm) ∈ Rm ,

dove Jxi = (−∞, xi] ⊂ R , ovvero

Jx := u = (ui) ∈ Rm : ui ≤ xi , 1 ≤ i ≤ m .

Diciamo allora funzione di ripartizione congiunta la funzione FX : Rm → [0, 1] definita da

FX (x) = P (Jx) , x ≡ (xi) ≡ (x1 , . . . , xm) ∈ Rm .

Diremo poi che FX ammette densita congiunta4.10 pX : Rm → [0,∞) se PX ha densita pX ;in tal caso

•∫Rm

pX = 1 ,

• FX (x) =

∫JxpX ≡

∫ x1

−∞du1 . . .

∫ xm

−∞dum pX (u1 , . . . , um) .

Le funzioni di ripartizione FXi e le densita pXi delle variabili aleatorie componenti Xi sonodette, rispettivamente, funzioni di ripartizione e densita marginali. Conoscendo FX e pX siconoscono anche le FXi e le densita pXi ; si ha infatti

• FXi (xi) = limx1,...,xi ,...xm→∞

FX (x1 , . . . , xi , . . . xm) , dove il cappello sopra un simbolo signi-

fica che e eliminato dalla lista (quindi non si fa il limite rispetto a xi);

• pXi (xi) =

∫Rm−1

pX (x) dx1, . . . , dxi , . . .dxm ,

• pX (x1 . . . xm) =∂m

∂x1 . . . ∂xmFX (x) .

Per chiarezza sara opportuno riscrivere queste due formule nel caso m = 2 ; indicando alloracon Z = (X,Y ) la variabile aleatoria bidimensionale si ha

• FX (x) = limy→∞

FZ (x, y) , FY (y) = limx→∞

FZ (x, y) ;

4.9Se m = 2 (il caso generale si dimostra analogamente) si ha

←X(I) =

←X(I1 × I2) = ω ∈ Ω :

←X1(ω) ∈ I1 ,

←X2(ω) ∈ I2 =

←X1(I1) ∩

←X2(I2) .

4.10Come nel caso “scalare”, a rigore la densita non riguarda tanto il vettore aleatorio X quanto con laprobabilita P . In molti casi pratici comunque P e determinata da un vettore aleatorio, e anzi puo sempreessere vista in tal senso.

Page 53: Appunti di probabilità e statistica [2013, 143p]

4.6 Variabili aleatorie vettoriali 49

• pX (x) =

∫ +∞

−∞pZ (x, y) dy , pY (y) =

∫ +∞

−∞pZ (x, y) dx ,

• pZ (x, y) =∂2

∂x ∂yFZ (x, y) .

Per verificare le formule precedenti ragioniamo come segue (ci limitiamo al caso bidimen-sionale, l’estensione a dimensione qualsiasi dovrebbe essere ovvio). Dalle solite definizioni difunzione di ripartizione e di densita per una variabile aleatoria scalare abbiamo

FX (x) = P(←X(−∞, x]

)= P

(←X(−∞, x] ∩ Ω

)= P

(←X(−∞, x] ∩

←Y (−∞,+∞)

)=

= limy→∞

P(←X(−∞, x] ∩

←Y (−∞, y)

)= lim

y→∞FZ (x, y) ,

pX (x) =d

dxFX (x) =

d

dx

∫ x

−∞du

∫ +∞

−∞dy pZ (u, y) =

∫ +∞

−∞pZ (x, y) dy ,

pZ (x, y) =∂2

∂x ∂y

(∫ x

−∞du

∫ y

−∞dv pZ (u, v)

)=

∂2

∂x ∂yFZ (x, y) .

Osservazione. Puo essere utile, ai fini di una migliore comprensione, tenere presente (quicome in altre situazioni che vedremo) l’analogia tra densita di probabilita e densita di massa.Consideriamo un corpo continuo, che a un dato istante occupi un configurazione C che, sceltoun sistema di coordinate cartesiano, puo essere visto come un opportuno sottoinsieme di R3 .La densita di massa e una funzione scalare ρ : C → R (avendo scelto delle unita di misura perle masse e per le lunghezze), e la massa del corpo e il numero m =

∫C ρ . Allora la “densita

normalizzata” p ≡ ρ/m e (almeno dal punto di vista tecnico) una densita di probabilita suΩ ≡ C . ♣

La visualizzazione dei concetti e piu agevole quando si consideri una configurazione bidi-mensionale, C ⊂ R2 . Nelle illustrazioni che seguono, la curva chiusa rappresenta il bordo diC ; le aree colorate della prima riga rappresentano i domini di integrazione4.11 per la densitache danno rispettivamente FX (x) , FY (y) e FZ (x, y) . Nella prima figura della seconda riga lastrisciolina compresa tra x e x+ dx e il dominio sul quale l’integrale della densita congiuntada pX (x) dx ; analogamente, nella seconda figura della seconda riga la strisciolina compresatra y e y+ dy e il dominio sul quale l’integrale della densita congiunta da pY (y) dy ; infine,nell’ultima figura, il rettangolino piu scuro di lati dx e dy ha probabilita p(x, y) dx dy (gliintegrali sono proporzionali alle aree se la densita e costante).

x

FX (x) y

FY (y)

r(x, y)

FZ (x, y)

4.11I domini effettivi di integrazione qui sono compatti perche C e un insieme limitato.

Page 54: Appunti di probabilità e statistica [2013, 143p]

50 4 VARIABILI ALEATORIE

pX(x)dx

x x+dx

pY(y)dy

yy+dy

p(x, y)dx dy

Dunque la densita congiunta determina le densita marginali. Non basta invece, in generale,conoscere le densita marginali per conoscere la densita congiunta: densita congiunte diversepossono avere le stesse densita marginali.4.12

Esempio 4.10. Consideriamo gli spazi di probabilita aventi come spazio dei campioni rispetti-vamente Ω′ = D′62 (due lanci di un dado) Ω = D6

2 ⊂ Ω′ (due estrazioni senza rimpiazzo di dueelementi da un insieme di sei), con probabilita uniforme in entrambi i casi. Si ha |Ω′| = 36 ,|Ω| = 6 · 5 = 30 ; la densita, costante, vale quindi p′ = 1/36 nel primo caso e p = 1/30 nelsecondo. Indichiamo poi con X ′1 (risp. X1) la variabile aleatoria “risultato del primo lancio(estrazione)” e con X ′2 (risp. X2) la variabile aleatoria “risultato del secondo lancio (estra-zione)”, e poniamo X ≡ (X1 , X2) . Dunque p

X′ = 1/36 (costante) e pX′ = 1/30 (costante).

Calcoliamo ora le densita marginali nei due casi:

pX′1

(i) =

6∑j=1

p′(i, j) = 6 · 1

36=

1

6, p

X′2(i) =

6∑j=1

p′(j, i) = 6 · 1

36=

1

6,

pX1(i) =

∑j 6=i

p(i, j) = 5 · 1

30=

1

6, pX2

(i) =∑j 6=i

p(j, i) = 5 · 1

30=

1

6.

Dunque le densita marginali relative a X e X ′ sono le stesse, ma le densita p e p′ sono differenti.Si noti poi che l’inclusione Ω ⊂ Ω′ fa sı che p e X possano essere viste come una densita e unavariabile aleatoria su Ω′ (con p(i, i) = 0 , i ∈ N6 ). ♠

Se esiste la densita, per sottoinsiemi A ⊂ Rm “ragionevoli” e vettori aleatori “ragionevoli”si ha

PX (A) =

∫ApX .

Osservazione. Puo darsi il caso che le componenti di un vettore aleatorio abbiano densita(marginali), ma che non esista la densita congiunta. ♣

4.7 Variabili aleatorie indipendenti

Sia X : Ω→ Rm un vettore aleatorio; diremo che le sue componenti(Xi

)≡(X1 , X2 , . . . , Xm

)sono indipendenti se, per ogni m-upla di sottoinsiemi Ai ⊂ R , sono indipendenti gli m eventi

←Xi(Ai) , 1 ≤ i ≤ m ,

ovvero se si ha

P( ⋂

1≤i≤m

(←Xi(Ai)

))=

∏1≤i≤m

P(←Xi(Ai)

).

4.12La questione ha a che fare con l’indipendenza della variabili aleatorie (§4.7)

Page 55: Appunti di probabilità e statistica [2013, 143p]

4.7 Variabili aleatorie indipendenti 51

In particolare, X,Y : Ω → R sono indipendenti se per ogni coppia di sottoinsiemi A ,B ⊂ Rsi ha

P(←X(A) ∩

←Y (B)

)= P

(←X(A)

)· P(←Y (B)

),

ovvero, in notazione piu tradizionale (per i testi di probabilita)

PX ∈ A, Y ∈ B = PX ∈ A · PY ∈ B .

Piu in generale le variabili aleatorie di una famiglia numerabile(Xi

), i ∈ N , si dicono in-

dipendenti se una qualsiasi sottofamiglia finita e costituita da variabili aleatorie indipendenti.

Un condizione sufficiente per l’indipendenza delle(Xi

), 1 ≤ i ≤ m , e chiaramente

l’esistenza della densita congiunta p ≡ pX e delle densita marginali pXi tali che si abbia

pX (x1 , . . . , xm) = pX1(x1) · pXm (xm)

quasi ovunque su Rm . Viceversa se le densita congiunta e marginali esistono e la relazionequi sopra non vale su un insieme di misura 6= 0 , allora le

(Xi

)non sono indipendenti.4.13

In effetti consideriamo per esempio, nel caso bidimensionale, i sottoinsiemi A = [x, x+∆x] eB = [y, y+∆y] con ∆x e ∆y piccoli; allora

PX ∈ A, Y ∈ B ∼= p(x, y) ∆x∆y ,

mentre

PX ∈ A · PY ∈ B ∼=(pX (x) ∆x

)·(pY (y) ∆y

)= pX (x) pY (y) ∆x∆y .

Osserviamo poi che la definizione di indipendenza puo essere estesa, in maniera del tuttonaturale, al caso di piu vettori aleatori (la formulazione esplicita e lasciata al lettore).

In termini discorsivi, l’indipendenza di variabili aleatorie significa che la conoscenza delvalore assunta da una di esse in un esperimento non da alcuna informazione che permetta dimigliorare le nostre previsioni riguardo alle altre.

Il seguente risultato e intuitivamente abbastanza naturale:

Teorema 4.3. Siano X : Ω → Rm e Y : Ω → Rn vettori aleatori indipendenti, e siamoφ : Rm → R , ψ : Rn → R funzioni sufficientemente regolari. Allora φ X e ψ Y sonovariabili aleatorie indipendenti.

L’enunciato precedente (che puo essere immediatamente esteso al caso di un numero qual-siasi di vettori aleatori) e incompleto in quanto non precisa le ipotesi di regolarita di φ e ψ .Queste ipotesi sono comunque verificate in tutti i casi di interesse pratico; in questa sede nonindagheremo la questione ulteriormente.

4.13Questo discorso puo essere raffinato per tener conto del caso in cui la densita sia una distribuzione nonrappresentata da una funzione ordinaria (§2.4).

Page 56: Appunti di probabilità e statistica [2013, 143p]

52 4 VARIABILI ALEATORIE

Esempio 4.11.

-2

0

2

-2

0

2

0.0

0.1

0.2

0.3

Un proiettile viene lanciato verso unbersaglio di coordinate (µ, ν) . Sup-poniamo che le coordinate X e Ydel punto in cui colpisce siano va-riabili aleatorie indipendenti, aventidensita normale rispettivamente

fX (x) =1√2π σ

e−(x−µ)2

2σ2 ,

fY (y) =1√2π τ

e−(y−ν)2

2τ2 .

Allora la densita congiunta di (X,Y ) e

f(X,Y )

(x, y) =1

2π σ τe−

(x−µ)2

2σ2 − (y−ν)2

2τ2 .

Il grafico di questa funzione e disegnato qua sopra. Tagliandolo con un piano orizzontale siottiene una ellissi, in quanto le varianze σ2 e τ2 di X e Y sono differenti.

Scegliamo ora l’origine delle coordinate coincidente con il bersaglio, per cui µ = ν = 0 , econsideriamo le variabili aleatorie R =

√X2 + Y 2 e Θ = arg(X,Y ) , cioe le coordinate polari

con centro nel bersaglio. Abbiamo anche

X = R cos Θ , Y = R sin Θ .

θ

r

Vogliamo determinare la funzione di ripartizione congiuntaF

(R,Θ): R+ × [0, 2π)→ [0, 1] . Si ha

F(R,Θ)

(r, θ) = P (Jr,θ) ≡ PR ≤ r,Θ ≤ θ =

∫Jr,θ

f(X,Y )

,

dove Jr,θ ⊂ R2 e il settore circolare mostrato nella figura qua ac-canto. Facendo il cambio di variabile x→ r cos θ e y → r sin θ ,da cui dx dy → r dr dθ , si ottiene

F(R,Θ)

(r, θ) =

∫ θ

0dθ

∫ r

0dr

r

2π σ τe−r

2 ( cos2 θ2σ2 + sin2 θ

2τ2 ) ,

dove per semplificare la notazione abbiamo indicato con gli stessi simboli la variabile d’inte-grazione e i limiti superiori dell’intervallo d’integrazione. Quindi abbiamo la densita congiunta

f(R,Θ)

(r, θ) =r

2π σ τe−r

2 ( cos2 θ2σ2 + sin2 θ

2τ2 ) .

E evidente che questa non puo essere scritta come il prodotto di una funzione di r e diuna funzione di θ . Comunque le densita marginali possono essere calcolate,4.14 e risultaf

(R,Θ)(r, θ) 6= fR(r) · fΘ(θ) . Dunque R e Θ sono variabili aleatorie non indipendenti. In manie-

ra intuitiva, possiamo renderci conto di questa dipendenza nel modo seguente. Se a, ε ∈ R+,

4.14L’integrale rispetto alla variabile r si calcola facilmente mediante il cambiamento di variabile r2 → u ; si

Page 57: Appunti di probabilità e statistica [2013, 143p]

4.7 Variabili aleatorie indipendenti 53

l’integrale sull’intervallo [−a, a] di una distribuzione Gaussiana con varianza sufficientemen-te piccola e ≥ 1−ε ; estendendo questo risultato al caso in esame, vediamo che scegliendoopportuni valori di σ e τ possiamo far sı che P

(X,Y )[−a, a] × [−b, b] differisca da 1 per una

quantita arbitrariamente piccola. Supponiamo allora che sia b a , cioe che il rettangolo[−a, a]× [−b, b] sia molto stretto e disposto con il lato piu lungo nella direzione dell’asse x .Se sappiamo che un lancio ha dato un valore di r abbastanza elevato (per esempio r ≥ 3 b),possiamo dedurre che molto probabilmente il punto di arrivo si trova vicino all’asse x , e quindiθ ha un valore vicino a 0 o π ; e improbabile che il punto si trovi a una distanza dall’asse xparagonabile con a .

D’altra parte, nel caso particolare σ = τ si ha

f(X,Y )

(x, y) =1

2π σ2e−

x2+y2

2σ2

(la “classica” campana) che, tramite il solito cambio di variabile, da

f(R,Θ)

(r, θ) =r

2π σ2e−

r2

2σ2 ,

fR(r) =

∫ 2π

0f

(R,Θ)(r, θ) dθ =

r

σ2e−

r2

2σ2

fΘ(θ) =

∫ ∞0

f(R,Θ)

(r, θ) dr =1

2π.

Si ha quindi f(R,Θ)

(r, θ) = fR(r) · fΘ(θ) , e le variabili aleatorie R e Θ risultano essere indipen-denti.

Esempio 4.12. Consideriamo ora una densita nel piano R2 che sia concentrata sul cerchio diraggio r ed ivi uniforme, ovvero

p(x, y) =

1

π r2, x2 + y2 < r2 ,

0 , x2 + y2 ≥ r2 .

Dovrebbe esser abbastanza evidente allora che X e Y (le stesse variabili aleatorie dell’esem-pio 4.11) non sono indipendenti: se (mettiamo) X = x allora Y ∈ [−

√r2−x2 ,

√r2−x2] . Piu

precisamente, con facili calcoli si ottiene

pX (x) =

∫ +∞

−∞

p(x, y) dy =

∫ √r2−x2

−√r2−x2

p(x, y) dy =2√r2−x2

π r2,

pY (y) =2√r2−y2

π r2,

ottiene

fΘ(θ) =

∫ ∞0

f(R,Θ)

(r, θ) dr =σ τ

2π (τ2 cos2 θ + σ2 sin2 θ).

L’integrale rispetto a θ non e tanto semplice da calcolare, anzi puo essere svolto esplicitamente solo in terminidi certe funzioni speciali dette funzioni di Bessel (si tratta di funzioni regolarissime e a pieno titolo, che sonoampiamente studiate, ma di solito non fanno parte del normale bagaglio appreso nei corsi di base). Si ottieneinfatti

fR(r) =

∫ 2π

0

f(R,Θ)

(r, θ) dθ =1

σ τr e− r

2

4( 1σ2 + 1

τ2 )I0(r2

4(

1

τ2− 1

σ2)),

dove I0(x) appartiene appunto alla suddetta famiglia delle funzioni di Bessel.

Page 58: Appunti di probabilità e statistica [2013, 143p]

54 4 VARIABILI ALEATORIE

e quindi ovviamente p(x, y) 6= pX (x) · pY (y) . D’altra parte, passando a coordinate polari si ha

p(r, θ) =

r

π r2, r < r ,

0 , r ≥ r ,

densita (non uniforme) concentrata sulla striscia R+ × [0, 2π) ⊂ R2 . Quindi R e Θ sonoindipendenti, in quanto

pR(r) =

∫ 2π

0p(r, θ) dθ =

2 rr2 , r < r ,

0 , r ≥ r ,

pΘ(θ) =

∫ r

0p(r, θ) dr =

1

2π.

Con ragionamenti analoghi non e difficile far vedere (esercizio) che se p e una densitauniforme concentrata sul rettangolo [−a, a]× [−b, b] , con a, b ∈ R+ , allora X e Y sono indi-pendenti mentre R e Θ non lo sono.

Osservazione. Se una densita e diversa da zero su un sottoinsieme di Rm che non sia unprodotto cartesiano di m sottoinsiemi di R , le m variabili aleatorie Xi : (x1, . . . , xm) 7→ xi nonsono indipendenti. ♣

Esempio 4.13. Sia A ⊂ R2 il triangolo di vertici (0, 0) , (1, 0) e (0, 1) , e p la densita uniformesu A : quindi p(x, y) = 2 per (x, y) ∈ A e p(x, y) = 0 per (x, y) 6∈ A . Se (X,Y ) ∼ p e imme-diato verificare che le densita marginali valgono pX (x) = 2 (1−x) e pY (y) = 2 (1− y) , dunquep(x, y) 6= pX (x) · pY (y) . In effetti si osservi che p(x, y) puo essere scritta esplicitamente, senza“vincoli”, nella forma p(x, y) = 2H(x)H(y)H(1−x− y) , dove H e la funzione scalino uni-tario (introdotta nel §2.4, ultima osservazione).

Esempio 4.14. Nell’esperimento “lancio di due dadi regolari”, quindi Ω = (i, j), 1 ≤ i, j ≤ 6e p(i, j) = 1/36 , consideriamo la variabile aleatoria

Z ≡ (X,Y ) : Ω→ R2 : (i, j) 7→ (i+ j, i− j) ,

Z(Ω) = (m,n) : 2 ≤ m ≤ 12,−5 ≤ n ≤ 5 .

Le probabilita marginali sono riportate nelle tabelle:

x 2 3 4 5 6 7 8 9 10 11 12

pX (x) 136

118

112

19

536

16

536

19

112

118

136

y −5 −4 −3 −2 −1 0 1 2 3 4 5

pY (y) 136

118

112

19

536

16

536

19

112

118

136

Il fatto che le distribuzioni pX e pY abbiano un andamento simile non significa ovviamente checonoscendo il valore di X si conosca il valore di Y (o viceversa); tuttavia X e Y non sonoindipendenti, come si vede dalle seguenti due tabelle in cui sono riportati rispettivamente ivalori di 36 · p

(X,Y )(x, y) e di 1296 · pX (x) · pY (y) :

Page 59: Appunti di probabilità e statistica [2013, 143p]

4.8 Densita condizionale 55

@@xy−5 −4 −3 −2 −1 0 1 2 3 4 5

2 0 0 0 0 0 1 0 0 0 0 0

3 0 0 0 0 1 0 1 0 0 0 0

4 0 0 0 1 0 1 0 1 0 0 0

5 0 0 1 0 1 0 1 0 1 0 0

6 0 1 0 1 0 1 0 1 0 1 0

7 1 0 1 0 1 0 1 0 1 0 1

8 0 1 0 1 0 1 0 1 0 1 0

9 0 0 1 0 1 0 1 0 1 0 0

10 0 0 0 1 0 1 0 1 0 0 0

11 0 0 0 0 1 0 1 0 0 0 0

12 0 0 0 0 0 1 0 0 0 0 0

@@xy−5 −4 −3 −2 −1 0 1 2 3 4 5

2 1 2 3 4 5 6 5 4 3 2 1

3 2 4 6 8 10 12 10 8 6 4 2

4 3 6 9 12 15 18 15 12 9 6 3

5 4 8 12 16 20 24 20 16 12 8 4

6 5 10 15 20 25 30 25 20 15 10 5

7 6 12 18 24 30 36 30 24 18 12 6

8 5 10 15 20 25 30 25 20 15 10 5

9 4 8 12 16 20 24 20 16 12 8 4

10 3 6 9 12 15 18 15 12 9 6 3

11 2 4 6 8 10 12 10 8 6 4 2

12 1 2 3 4 5 6 5 4 3 2 1

D’altra parte, e evidente che se (per esempio) l’esperimento ha dato Y = 0 , allora la X puoprendere solo valori pari, quindi X e Y non possono essere indipendenti.

In maniera analoga, e facile convincersi che (X,Y ) : Ω→ R2 : (i, j) 7→ (i+ j, i · j) non so-no indipendenti; per esempio, se Y = 36 allora necessariamente X = 12 ; se Y = 12 alloraX ∈ 7, 8 , eccetera. Non e difficile fare le tabelle complete delle densita congiunta e margi-nali anche in questo caso, e solo un po’ piu lungo perche Y (Ω) ha cardinalita maggiore.

4.8 Densita condizionale

Siano X,Y : Ω → R due variabili aleatorie di densita congiunta p ≡ pX,Y e densita marginalipX e pY , rispettivamente. Per ciascun y ∈ R tale che pY (y) 6= 0 , la densita

pX|Y=y

: R→ [0,∞)

data da

pX|Y=y

(x) ≡ p(x, y)

pY (y)

e detta densita condizionale di X dato Y = y . Il significato di pX|Y=y

dovrebbe essere abba-stanza ovvio: in generale, il sapere che in un eseprimento la Y ha assunto il valore y modificale nostre previsioni riguardo alla X . Una ovvia definizione analoga vale per la densita p

Y |X=x,

con pX (x) 6= 0 .

Page 60: Appunti di probabilità e statistica [2013, 143p]

56 4 VARIABILI ALEATORIE

Se X e Y sono indipendenti si ha subito

pX|Y=y

(x) = pX (x) , pY |X=x

(y) = pY (y) .

In generale, se A,B ⊂ R abbiamo la probabilita condizionale

PX ∈A|Y ∈B =

∫∫A×B

pX|Y=y

(x) dx dy .

Esempio 4.15. Nel caso della densita uniforme sul cerchio di raggio r (esempio 4.12) si ha

pX|Y=y

(x) =1

2√r2 − y2

, pY |X=x

(y) =1

2√r2 − x2

.

4.9 Calcolo di leggi

La densita determinata da una variabile aleatoria e detta anche “legge” della medesima. Unproblema che capita spesso e il seguente: data una variabile aleatoria X : Ω→ Rm e un’appli-cazione sufficientemente regolare ψ : Rm → Rn , calcolare la legge di ψ(X) ≡ ψ X : Ω→ Rn .Un modo ovvio per affrontarlo consiste nel trovare la funzione di ripartizione di ψ(X) per poiderivarla. Si noti anche che se ψ : Rm → Rm e un diffeomorfismo (un’applicazione invertibile ederivabile in entrambi i sensi) allora la questione consiste sostanzialmente nel fare un cambiodi variabile in un integrale multiplo (come si e visto nel §4.5 e negli esempi 4.11 e 4.12).

Esempio 4.16. Sia X : Ω→ R una variabile aleatoria di densita f continua; trovare la densitadi aX + b , dove a, b ∈ R .

Consideriamo la variabile aleatoria ψ X con ψ(x) = a x+ b . Distinguiamo i tre casia > 0 , a < 0 , a = 0 . Se a > 0 si ha

←ψ(−∞, t] = x ∈ R : a x+ b ≤ t = (−∞, t−ba ] ⇒

⇒ FψX (t) = FX ( t−ba ) =

∫ (t−b)/a

−∞f(x) dx ⇒

⇒ fψX (t) =

d

dtFψX (t) =

1

af( t−ba ) .

Se a < 0 si ha

←ψ(−∞, t] = x ∈ R : a x+ b ≤ t = [ t−ba ,∞) = R \ (−∞, t−ba ) .

Poiche f e continua, F e derivabile (e, in particolare, continua a sinistra); pertanto

FψX (t) = 1− FX ( t−ba ) = 1−

∫ (t−b)/a

−∞f(x) dx ⇒

⇒ fψX (t) =

d

dtFψX (t) = −1

af( t−ba ) .

Page 61: Appunti di probabilità e statistica [2013, 143p]

4.9 Calcolo di leggi 57

In definitiva, per a positivo o negativo si ottiene fψX (t) = 1

|a| f( t−ba ) . Se a = 0 si ha invece

ψ(R) = b , da cui

←ψ(−∞, t] =

∅ , t < b ,

R , t ≥ b ,⇒ F

ψX (t) = Hb(t) ≡

0 , t < b ,

1 , t ≥ b ,⇒

⇒ fψX (t) =

d

dtFψX (t) = δb(t) ,

dove si e utilizzata la relazione tra funzione gradino e delta di Dirac (§2.4). ♠

Esempio 4.17. Un caso particolare dell’esempio precedente ha una speciale importanza: se ladensita di una variabile aleatoria X e la densita normale

pX (x) = N [0, 1](x) ≡ 1√2π

e−x2/2 ,

allora prendendo ψ : x 7→ σ x+µ si ottiene subito

pσX+µ(x) = N [µ, σ2](x) ≡ 1√2π σ

e−(x−µ)2

2σ2 .

Esempio 4.18. Sia X : Ω→ R una variabile aleatoria di densita f ; trovare la densita di X2 .

Consideriamo la variabile aleatoria ψ X con ψ(x) = x2 . Si ha

←ψ(−∞, t] =

←ψ[0, t] = [−

√t,√t] ⇒ F

ψX (t) =

∫ √t−√tf(x) dx ⇒

⇒ fψX (t) =

d

dtFψX (t) = f(

√t)

d√t

dt− f(−

√t)

d(−√t)

dt=

=f(√t) + f(−

√t)

2√t

.

In particolare, sia X ∼ N [0, σ] . Allora X2 ha densita

pX2 (x) =

1

2√x

(N [0, σ](

√x) +N [0, σ](−

√x))

=

=1√

2π σx−1/2 e−x/2σ

2,

che risulta essere una particolare “legge Gamma” (§6.6). ♠

Esempio 4.19. Sia X : Ω → R+ × R una variabile aleatoria di densita f ; trovare la densitadi ψ X : R+ × R→ (−π

2 ,π2 ) dove ψ(x, y) = arctan(y/x) .

Per ogni θ ∈ (−π2 ,

π2 ) si ha

←ψ(θ) = (x, y) ∈ R+×R : y = x tan θ ,←ψ(−π

2 , θ] = (x, y) ∈ R+×R : y ≤ x tan θ .

Page 62: Appunti di probabilità e statistica [2013, 143p]

58 4 VARIABILI ALEATORIE

Dunque←ψ(−π

2 , θ] e la porzione del semipiano R+×R ⊂ R2 delimitata superiormente dallasemiretta di equazione y = x tan θ . Pertanto

FψX (θ) = P

(←ψ(−π

2 , θ])

=

∫ ∞0

dx

∫ x tan θ

−∞dy f(x, y) ⇒

⇒ fψX (θ) =

d

dθFψX (θ) =

∫ ∞0

[f(x, x tan θ)

d(x tan θ)

]dx =

=1

cos2 θ

∫ ∞0

f(x, x tan θ)x dx .

Ad esempio se f(x, y) = 12πσ2 e−

x2+y2

2σ2 si trova facilmente4.15

fψX (θ) =

1

2π, F

ψX (θ) =θ

2π.

Del seguente risultato verra utilizzato in particolare per dimostrare una proprieta delleleggi Gamma (§6.6).

Teorema 4.4. Siano X e Y variabili aleatorie reali di densita congiunta p(x, y) . Allora lavariabile aleatoria X +Y ha densita

pX+Y (z) =

∫ +∞

−∞p(x, z − x) dx .

Dimostrazione:

y = t−xAt

La funzione di ripartizione di X +Y e

FX+Y (t) = PX +Y ≤ t =

∫Atp(x, y) dx dy ,

dove il semipiano

At = (x, y) ∈ R2 : x+ y ≤ t ⊂ R2

e rappresentato nella figura a lato come la regione co-lorata. Facendo prima l’integrale rispetto alla variabile y(quindi su una “strisciolina” verticale di ampiezza dx), conil cambio di variabile z = x+ y (da cui dy = dz e z = t pery = t−x), si ottiene

FX+Y (t) =

∫ +∞

−∞dx

∫ t−x

−∞dy p(x, y) =

∫ +∞

−∞dx

∫ t

−∞dz p(x, z − x) =

=

∫ t

−∞

(∫ +∞

−∞p(x, z − x) dx

)dz .

4.15Ricordando che (1 + tan2 θ) = 1/ cos2 θ e facendo il cambiamento di variabile u = x2 , da cui du = 2xdx ,si ottiene ∫ ∞

0

f(x, x tan θ)xdx =1

2πσ2

∫ ∞0

e− x2

2σ2 cos2 θ x dx =1

2πσ2· 1

2

∫ ∞0

e− u

2σ2 cos2 θ du =

=1

4πσ2(−2σ2 cos2 θ)

[e− u

2σ2 cos2 θ

]∞0

= −cos2 θ

2π[0− 1] =

cos2 θ

2π.

Page 63: Appunti di probabilità e statistica [2013, 143p]

4.10 Il “caso” di Mary vos Savant 59

Pertanto

pX+Y (z) =d

dtFX+Y (t)

∣∣t=z

=

∫ +∞

−∞p(x, z − x) dx .

4.10 Il “caso” di Mary vos Savant

Questo noto4.16 problema di probabilita mostra come anche questioni elementari possanonascondere sottigliezze e dar luogo a risultati sorprendenti (o comunque poco intuitivi).

In un gioco a premi ci sono tre scatole, una sola delle quale contiene il premio. Il concorrentene sceglie una, che non viene aperta. A questo punto il presentatore, che sa dove e il premio,apre una delle altre due scatole e mostra che e vuota; poi chiede al concorrente se vuolemantenere la scelta fatta precedentemente o se preferisce cambiarla (prendendo cioe l’altradelle due scatole rimaste ancora chiuse). La questione allora e la seguente: qual’e la strategiamigliore per il concorrente? Mantenere la scelta iniziale o cambiarla?

Alla maggior parte delle persone l’intuizione immediata suggerisce che le due strategiesiano equivalenti. Dopotutto, una volta che il presentatore ha aperto una scatola vuota ilconcorrente sa questo: che una delle due scatole non aperte contiene il premio, mentre l’altrae vuota. Il cambiare o no la scelta iniziale pare equivalente allo scegliere una scatola tra ledue non aperte.

E invece risulta che il concorrente ha maggiore probabibilta di vincita se cambia la sceltainiziale. Piu precisamente vince con probabilita 2/3 se la cambia (e con probabilita 1/3 se nonla cambia). Per rendersene conto basta guardare il diagramma:

♣ g g

♣ g gg ♣ ♣

in cui il seme ♣ indica il premio, e un circoletto indica una scatola vuota. I tre simboli in altoindicano le tre possibili scelte iniziali, i sei in basso indicano i risultati finali; le righe obliqueindicano la scelta di non cambiare scatola ovvero di cambiarla, a seconda che siano tagliate ono da una riga corta orizzontale. E allora immediato verificare che, dei tre casi in cui la sceltainiziale viene cambiata, due portano alla vincita (mentre dei tre casi in cui la scelta inizialenon viene cambiata, solo uno porta alla vincita).

Ma allora, qual’e il difetto del ragionamento intuitivo iniziale? Per chiarirlo dobiamo pre-cisare meglio la descrizione matematica del problema, cioe il suo modello probabilistico. Co-minciamo con l’osservare che se il gioco consistesse semplicemente nello scegliere una scatoladelle tre e aprirla, il modello probabilistico appropriato sarebbe uno schema di Bernoulli conprobabilita di successo p = 1/3 ; cio in quanto il concorrente ha informazione nulla riguardoa dove si trova il premio. D’altra parte se il concorrente avesse la “vista a raggi X” comeSuperman allora potrebbe andare a colpo sicuro, cioe vincerebbe con probabilita p = 1 . Il

4.16La questione e stata portata all’attenzione del pubblico in una rubrica di Marilyn vos Savant, giornalistae scrittrice americana, sulla rivista Parade. La vos Savant, nota anche per avere il piu alto QI mai misurato,diede la risposta corretta, ma migliaia di lettori, tra cui molti accademici, scrissero per sostenere che sbagliava.

Page 64: Appunti di probabilità e statistica [2013, 143p]

60 4 VARIABILI ALEATORIE

caso in esame e per cosı dire “intermedio”, in quanto e complicato dal fatto che il concorrentedispone in effetti di una qualche informazione, anche se solo parziale. Questa informazionee fornita dall’interferenza del presentatore con il processo. Il presentatore dispone dell’infor-mazione completa, e ne fornisce una parte con l’aprire una scatola che lui sa essere vuota.Pertanto la scelta finale non puo essere equiparata al lancio “cieco” di una moneta regolare.

Per precisare il modello probabilistico non dobbiamo far altro che rielaborare in modoun po’ piu formale lo schema precedente. Consideriamo infatti l’esperimento consistente nellancio di due monete, recanti entrambe sulle facce i numeri 0 e 1 ; ma per la prima valgap(0) = 1/3 , mentre la seconda sia regolare. Consideriamo poi le variabili aleatorie:

X = “risultato del lancio della prima moneta”,

Y = “risultato del lancio della seconda moneta”,

Z = (X +Y ) mod 2 ≡

0 , se X +Y e pari (“vincita”),

1 , se X +Y e dispari,

il tutto illustrato dal seguente diagramma:

QQQQQQ

1/3 2/3

0

@@@@@

1

@@@@@

0 1 0 1

0 1 1 0

1/2 1/2 1/2 1/2

X

Y

Z

Il lancio della prima moneta (con le rispettive probabilita dei due risultati indicate a fiancodella linea corrispondente) rappresenta la scelta iniziale; la scelta della scatola “giusta” cor-risponde al valore X = 0 . Il lancio della seconda moneta rappresenta la decisione se cambiarela scelta iniziale (Y = 1) oppure no. Abbiamo quindi uno spazio di probabilita i cui atomipossono essere contrassegnati mediante le coppie di valori di (X,Y ) , ovvero

Ω = 00, 01, 10, 11 ,

e su cui e definita la variabile aleatoria Z data da

Z(00) = Z(11) = 0 , Z(01) = Z(10) = 1 ;

la vincita finale e rappresentata da Z = 0 .Disponendo di un modello preciso possiamo ora risolvere, mediante calcoli diretti, qualsiasi

problema relativo all’esperimento descritto. In particolare, riguardo alla questione di partenza,troviamo che la probabilita di vincita se cambia la prima scelta risulta pari a

P (Z = 0|Y = 1) =P (Z = 0 ∩ Y = 1)

PY = 1=

=P (11)

PY = 1=

12 ·

23

12

=2

3.

Page 65: Appunti di probabilità e statistica [2013, 143p]

61

5 Media e momenti

5.1 Media di una variabile aleatoria

Sia X : Ω→ R una variabile aleatoria, e sia p : R→ [0,∞) la sua densita. Diciamo che X hamedia finita se ∫ +∞

−∞|x| p(x) dx <∞ .

Se tale condizione e verificata allora chiamiamo media (ovvero valore di aspettazione) di X ilnumero reale

E[X] :=

∫ +∞

−∞x p(x) dx ,

che risulta certamente finito.5.1 Spesso, se non c’e pericolo di confusione, la media vieneindicata semplicemente con il simbolo µ , o µX .

Osservazione. Si notera che le definizioni di media e momenti dipendono solo dalla densita diprobabilita p , piuttosto che dalla variabile aleatoria X . D’altra parte una densita puo esseresempre vista come legata a un’opportuna variabile aleatoria. ♣

Osservazione. Quando si interpreta p come densita di massa, la media e il centro di massa.A una variabile aleatoria scalare corrisponde una distribuzione di massa su una retta, ma lanozione di media puo essere facilmente estesa a un vettore aleatorio a valori in Rn ; in tal casola media e un vettore che ha come componente i-esima

E[p]i :=

∫Rnxi p(x1 , . . . , xn) dx1 . . . dxn =

∫Rxi pXi (xi) dxi = E[Xi]

(purche l’integrale converga assolutamente). ♣

Osservazione. Nel caso discreto la densita e una combinazione lineare (eventualmente infi-nita) di distribuzioni del tipo delta di Dirac. Gli integrali allora diventano sommatorie (even-tualmente somme di serie).

Teorema 5.5. Sia X ≡ (Xi) : Ω→ Rm un vettore aleatorio di densita congiunta pX ≡ p ; siaψ : Rm → R una funzione sufficientemente regolare. Allora la variabile aleatoria Z ≡ ψ X :Ω→ R ha media finita se e solo se ∫

Rm|ψ| p <∞ ,

e in tal caso la media di Z vale5.2

E[Z] =

∫Rm

ψ p .

Dimostrazione: Dimostriamo questo teorema nel caso in cui lo spazio dei campioni Ω siadiscreto: gli integrali diventano allora somme di serie (la dimostrazione nel caso continuo,che non riportiamo, utilizza questo risultato e l’approssimazione degli integrali in termini difunzioni semplici). Per facilitare la comprensione del ragionamento puo essere utile guardarela figura 13, in cui sono rappresentati schematicamente gli insiemi e le applicazioni considerati.

5.1L’integrale e convergente in quanto assolutamente convergente, che e condizione sufficiente ma nonnecessaria. Se e convergente ma non assolutamente convergente allora non si parla di media finita.

5.2

∫Rm

ψ p ≡∞∫−∞

. . .

∞∫−∞

ψ(x1 , . . . , xm) p(x1 , . . . , xm) dx1 . . .dxm e simili.

Page 66: Appunti di probabilità e statistica [2013, 143p]

62 5 MEDIA E MOMENTI

Per ogni z ∈ Z(Ω) poniamo Az :=←ψ(z) ⊂ Rm . Dunque

←Z(z) = ∪

x∈Az

←X(x) ⇒ PZ = z ≡ P

(←Z(z)

)=∑x∈Az

p(x) ,

da cui∑z∈Z(Ω)

|z|PZ = z =∑

z∈Z(Ω)

|z|(∑x∈Az

p(x))

=∑

z∈Z(Ω)

∑x∈Az

|z| p(x) =∑

z∈Z(Ω)

∑x∈Az

|ψ(x)| p(x) =

=∑

x∈X(Ω)

|ψ(x)| p(x)

(dove l’ultimo passaggio equivale a un “riordinamento” della serie, ed e possibile in quanto trat-tasi di una serie a termini non negativi). Da questa segue che se la serie

∑x∈X(Ω) ψ(x) p(x) con-

verge assolutamente, allora Z ha speranza matematica finita. In tal caso ripetendo i passaggiappena svolti ma senza il valore assoluto si ha∑

z∈Z(Ω)

z PZ = z =∑

z∈Z(Ω)

z(∑x∈Az

p(x))

=∑

z∈Z(Ω)

∑x∈Az

z p(x) =∑

z∈Z(Ω)

∑x∈Az

ψ(x) p(x) =

=∑

x∈X(Ω)

ψ(x) p(x) ,

dove l’ultimo passaggio e possibile in quanto la serie converge assolutamente e quindi puoessere riordinata.

Figura 13: Rappresentazione schematica della dimostrazione del teorema 5.5. Qui la funzioneψ e la variabile aleatoria Z assumono valori nell’insieme Z(Ω) ≡ z, z′, z′′ ⊂ R; si hannoquindi tre sottoinsiemi Az , Az′ , Az′′ ⊂ Rm (qui m = 2), la cui unione costituisce X(Ω) .

X(Ω)

Az

Az′

Az′′ ψ

ψ

ψz

z′

z′′

A partire dal teorema 5.5 si dimostrano facilmente alcune ulteriori proprieta della media:

Teorema 5.6. Siano X e Y variabili aleatorie con media finita. Allora:

• a, b ∈ R ⇒ aX+bY ha media finita e E[aX+bY ] = aE(X) + bE(Y ) ;

Page 67: Appunti di probabilità e statistica [2013, 143p]

5.2 Momenti di una variabile aleatoria 63

• |X| ha media finita e |E[X]| ≤ E[|X|] ;

• se X e Y sono indipendenti, X Y ha media finita e E[X Y ] = E[X]E[Y ] .

Dimostrazione:

•∑

x∈X(Ω)

|a x| pX (x) = |a|∑

x∈X(Ω)

|x| pX (x) <∞ ,

quindi aX ha media finita. Si ha poi

E[aX] =∑

x∈X(Ω)

a x pX (x) = a∑

x∈X(Ω)

x pX (x) = aE[X] .

• Posto Z ≡ (X,Y ) : Ω→ R2 si ha∑(x,y)∈Z(Ω)

|x+ y| pZ (x, y) ≤∑

(x,y)∈Z(Ω)

(|x|+ |y|) pZ (x, y) =∑(x,y)

|x| pZ (x, y) +∑(x,y)

|y| pZ (x, y) =

=∑x

|x| pX (x) +∑y

|y| pY (y) <∞ ,

quindi X + Y ha media finita. Si ha poi

E[X + Y ] =∑

(x,y)∈Z(Ω)

(x+ y) pZ (x, y) =∑(x,y)

x pZ (x, y) +∑(x,y)

y pZ (x, y) =

=∑x

x pX (x) +∑y

y pY (y) = E[X] + E[Y ] .

• |E[X]| =∣∣ ∑x∈X(Ω)

x pX (x)∣∣ ≤ ∑

x∈X(Ω)

|x| pX (x) = E[|X|] .

•∑

(x,y)∈Z(Ω)

|x y| pZ (x, y) =∑(x,y)

|x| |y| pX (x) pY (y) =(∑x

|x| pX (x))(∑

y

|y| pY (y))<∞ ,

quindi X + Y ha media finita. Ripetendo i medesimi passaggi senza i valori assoluti siottiene

E[X Y ] =(∑x

x pX (x))(∑

y

y pY (y))

= E[X]E[Y ] .

5.2 Momenti di una variabile aleatoria

Consideriamo ancora una variabile aleatoria, di densita p . Diremo che X ha momento finitodi ordine k ∈ N se la variabile aleatoria Xk ha media finita; in tal caso

E[Xk] =

∫Rxk p(x) dx

e detto momento di ordine k . Analogamente, se (X − E[X])k ha media finita allora diremoche X ha momento centrato di ordine k finito, e E

[(X − E[X])k

]e detto momento centrato di

ordine k .

Page 68: Appunti di probabilità e statistica [2013, 143p]

64 5 MEDIA E MOMENTI

Teorema 5.7.

• Se X ha momento finito di ordine k , allora ha anche momento finito di ordine r ≤ k .

• Se X e Y hanno momento finito di ordine k , allora anche (X+Y ) ha momento finito diordine k . In particolare: se X ha momento finito di ordine k allora ha anche momentocentrato finito di ordine k .

Dimostrazione: Se r ≤ k , per ogni x ∈ R si ha |x|r ≤ 1 + |x|k (infatti |x| ≤ 1 ⇒ |x|r ≤ 1 ,mentre |x| > 1 ⇒ |x|r < |x|k). Dunque ponendo p ≡ pX si ottiene∫

R|x|r p(x) dx ≤

∫R

(1 + |x|k) p(x) dx =

∫Rp(x) dx+

∫R|x|k p(x) dx =

= 1 + E[|Xk|] .

Se X ha momento finito di ordine k allora E[|Xk|] e finito, per cui risulta finito ancheE[|Xr|] ≡

∫X(Ω) |x|

r p(x) dx .Riguardo alla seconda affermazione dell’enunciato, osserviamo che tenendo conto della

convessita della funzione t 7→ |t|k si ottiene l’identita5.3

|x+ y|k ≤ 2k−1 (|x|k + |y|k) ,

da cui, indicando con p ≡ p(X,Y )

la densita congiunta di X e Y , si ottiene∫R2

|x+ y|k p(x, y) dx dy ≤ 2k−1

∫R2

(|x|k + |y|k) p(x, y) dx dy =

= 2k−1(∫

R2

|x|k p(x, y) dx dy +

∫R2

|y|k p(x, y) dx dy)

=

= 2k−1(∫

R|x|k pX (x) dx+

∫R|y|k pY (y) dy

)=

= 2k−1(E[|X|k] + E[|Y |k]

).

Pertanto, se E[|X|k] e E[|Y |k] sono finiti, anche E[|X +Y |k] e finito. Consideriamo poi il casoparticolare Y ≡ −E[X] ≡ −µ ; allora pY = δ−µ da cui E[|Y |k] = |µ|k (vedi esempio 5.2).

Il momento centrato di ordine 2 ,

Var[X] := E[(X − E[X])2

],

e detto varianza.

Osservazione. Continuando l’analogia in cui p e interpretata come densita di massa, E[X2]corrisponde al momento d’inerzia rispetto all’origine e Var[X] corrisponde al momento d’iner-zia rispetto al centro di massa. La prima identita del teorema 5.9 (pagina 65) e in sostanza ilteorema di Huygens. ♣

5.3Ricordiamo che una funzione f : R→ R si dice convessa se per ogni coppia di punti (x, y) del suo do-minio e per ogni θ ∈ [0, 1] si ha f(θx+ (1− θ)y) ≤ θf(x) + (1− θ)f(y) , cioe il segmento che unisce i punti(x, f(x)), (y, f(y)) ∈ R2 non sta mai sotto al grafico di f . Una f di classe C2 e convessa su un intervallo se lasua derivata seconda e (quasi ovunque) non negativa su di esso, e cio e vero per la funzione t 7→ |t|k . Prendendoallora θ = 1/2 nella disuguaglianza precedente si ottiene subito l’identita che ci serve.

Page 69: Appunti di probabilità e statistica [2013, 143p]

5.2 Momenti di una variabile aleatoria 65

Teorema 5.8. (Disuguaglianza di Chebyshev.)Se la variabile aleatoria X ha momento di ordine 2 finito (esiste E[X2]), per ogni c ∈ R+ siha

P|X| ≥ c ≤ 1

c2E[X2] ;

in particolare

P|X − E[X]| ≥ c ≤ 1

c2Var[X] .

Dimostrazione: Verifichiamo la disuguaglianza nel caso discreto (la dimostrazione nel con-tinuo e sostanzialmente identica). Se p e la densita di X abbiamo

P|X| ≥ c =∑|x|≥c

p(x) =∑|x|≥c

p(x)x2

x2≤∑|x|≥c

p(x)x2

c2≤

≤∑

x∈X(Ω)

p(x)x2

c2=

E[X2]

c2

(la somma su |x| > c significa, piu esplicitamente, somma su tutti gli x ∈ X(Ω) tali che |x| > c).Applicando questo risultato alla variabile aleatoria X −E[X] si ottiene il secondo.

Osservazione. Il risultato precedente puo essere interpretato intuitivamente nel senso cheil momento di ordine due da una misura di quanto la variabile aleatoria X e “sparpagliata”rispetto a X = 0 . In particolare, la varianza da una misura di quanto X e “sparpagliata”rispetto a al suo valore di aspettazione.

Infne, come ultime definizioni di questo paragrafo diamo le due seguenti: se X e Y sonovariabili aleatorie con varianza finita, i numeri

Cov[X,Y ] := E[(X − E[X]) (Y − E[Y ])

],

Corr[X,Y ] :=Cov[X,Y ]√Var[X]Var[Y ]

sono detti rispettivamente covarianza e coefficiente di correlazione di X e Y .

Teorema 5.9. Si ha:

• Var[X] = E[X2]− (E[X])2 ;

• Var[aX] = a2 Var[X] , a ∈ R ;

• Var[a+X] = Var[X] , a ∈ R ;

• Var[X + Y ] = Var[X] + Var[Y ] + 2Cov[X,Y ] ;

• Cov[X,Y ] = E[XY ]− E[X]E[Y ] .

• Se X e Y sono indipendenti:

Cov[X,Y ] = 0 , Var[X + Y ] = Var[X] + Var[Y ] .

• In generale, se X e Y non sono indipendenti, si ha E[|X Y |]2 ≤ E[X2]E[Y 2] , dalla qualesi ottiene anche

Cov[X,Y ]2 ≤ Var[X]Var[Y ] ⇒ Corr[X,Y ]2 ≤ 1 .

Dimostrazione: Posto E[X] ≡ µ , E[Y ] ≡ ν :

Page 70: Appunti di probabilità e statistica [2013, 143p]

66 5 MEDIA E MOMENTI

• Var[X] =∫

(x− µ)2 p(x) dx =∫

(x2 + µ2 − 2µx) p(x) dx =

=∫x2 p(x) dx+ µ2

∫p(x) dx− 2µ

∫x p(x) dx = E[X2] + µ2 · 1− 2µµ =

= E[X2]− µ2 ;

• poiche (teorema 5.6) E[aX] = aE[X] , si ottiene

Var[aX] =∫

(a x− aµ)2 p(x) dx = a2∫

(x− µ)2 p(x) dx = a2 Var[X] .

• poiche (teorema 5.6) E[a+X] = a+ E[X] , si ottiene

Var[a+X] =∫

(a+ x− (a+ µ))2 p(x) dx =∫

(x− µ)2 p(x) dx = Var[X] .

• poiche (teorema 5.6) E[X +Y ] = E[X] + E[Y ] ≡ µ+ ν , si ottiene

Var[X +Y ] =

=∫

(x+ y − (µ+ ν))2 p(x, y) dx dy =∫ (

(x− µ) + (y − ν))2p(x, y) dx dy =

=∫

(x− µ)2 p(x) dx dy +∫

(y − ν)2 p(y) dx dy + 2∫

(x− µ) (y − ν) p(x, y) dx dy =

=∫

(x− µ)2 pX (x) dx+∫

(y − ν)2 pY (y) dy + 2∫

(x− µ) (y − ν) p(x, y) dx dy =

= Var[X] + Var[Y ] + 2Cov[X,Y ] .

• Cov[X,Y ] = E[(X −µ) (Y − ν)] = E[X Y −µY − ν X +µ ν] =

= E[X Y ]− µE[Y ]− ν E[X] + µ ν = E[X Y ]− µ ν .

• Se X e Y sono indipendenti si ha E[X Y ] = µ ν (teorema 5.6), da cui Cov[X,Y ] = 0 .

• Il valore di aspettazione di una variabile aleatoria non negativa e sempre un numero ≥ 0 ;pertanto per qualsiasi θ ∈ R si ha

0 ≤ E[(θ |X|+ |Y |)2

]= θ2 E[X2] + 2 θ E[|X Y |] + E[Y 2] .

Guardiamo l’ultima espressione come un trinomio, nella variabile θ , che non prende valorinegativi: allora il suo discriminante e ≤ 0, cioe E[|X Y |]− E[X2]E[Y 2] ≤ 0 . Applicando poiquesto risultato alle variabili aleatorie X −E[X] e Y −E[Y ] si ottiene

Cov[X,Y ]2 ≤ E[∣∣(X −E[X]) (Y −E[Y ])

∣∣]2 ≤ E[(X −E[X])2

]E[(Y −E[Y ])2

]=

= Var[X]Var[Y ] .

Osservazione. Valore di aspettazione e varianza di una variabile aleatoria vengono spessoindicati rispettivamente con i simboli µ e σ2 . Quando poi si ha a che fare con due variabilialeatorie X e Y , si usa anche indicare con µX e µY i rispettivi valori di aspettazione, con (σX )2

e (σY )2 le rispettive varianze, con σX,Y la covarianza e con

ρX,Y =σX,YσX σY

il coefficiente di correlazione. Per quanto visto sopra (ultimo punto del teorema 5.9) si ha−1 ≤ ρX,Y ≤ 1 . ♣

La covarianza e un indice di quanto due variabili aleatorie variano “in accordo” tra loro;puo assumere valori positivi e negativi (un valore negativo significa che al crescere dell’unasi accompagna di solito il diminuire dell’altra). Se le due variabili aleatorie sono indipendentiallora la covarianza e nulla, ma il viceversa non e vero (la covarianza puo essere nulla senza chele variabili aleatorie siano indipendenti). Torneremo sull’argomento (§8.4) per una ulteriorediscussione riguardo al coefficiente di correlazione.

Page 71: Appunti di probabilità e statistica [2013, 143p]

5.3 Alcuni esempi di media e momenti 67

5.3 Alcuni esempi di media e momenti

Uno degli esempi piu importanti e quello della distribuzione Gaussiana (§6.5).

Esempio 5.1. Sia X una variabile aleatoria uniformemente distribuita sull’intervallo [a, b] ⊂ Re nulla al di fuori di esso, ovvero

p(x) ≡ pX (x) =

1b−a , x ∈ [a, b] ,

0 , x 6∈ [a, b] .

Allora tutti i momenti sono finiti, perche sono dati da integrali di funzioni continue su unintervallo chiuso. Il calcolo e semplice, e si ottiene

µ ≡ E[X] =1

2(a+ b) ,

E[Xk] =bk+1 − ak+1

(b− a) (k + 1),

E[(X − µ)k] = (1 + (−1)k)(b− a)k

2k+1 (k + 1)=

(b−a)k

2k (k+1), se k e pari,

0 , se k e dispari.,

Var[X] ≡ E[(X − µ)2] =1

12(b− a)2 .

Esempio 5.2. Sia X : Ω→ R : ω 7→ µ (costante); allora pX = δµ (delta di Dirac, §2.4). Per-tanto

E[|X|k] =

∫R|xk| δµ(x) dx = |µ|k ,

E[Xk] =

∫Rxk δµ(x) dx = µk ,

E[(X − µ)k] =

∫R

(x− µ)k δµ(x) dx = 0 .

Si osservi che questo caso puo essere visto come limite del precedente, con a→µ−, b→µ+ .♠

Esempio 5.3. Consideriamo una variabile aleatoria a valori in [1,∞) con densita

pX (x) = (α− 1)x−α , α > 1 .

E allora imemdiato verificare che in effetti∫ ∞1

pX (x) dx = 1 .

Ricordiamo che se una funzione va asintoticamente come x−β , il suo integrale su un intornodi +∞ converge per β > 1 (disuguaglianza stretta). Pertanto la X ammette media solo perα > 2 , e in generale ammette momento di ordine k solo per α > k + 1 . Per α > 2 si ottiene

E[X] =α− 1

α− 2;

Page 72: Appunti di probabilità e statistica [2013, 143p]

68 5 MEDIA E MOMENTI

per α > 3 si ottiene

Var[X] =α− 1

(α− 2)2 (α− 3).

Esempio 5.4. Consideriamo una variabile aleatoria X discreta la cui densita sia data dallalegge di Poisson (§3.5)

p(k) =e−λ λk

k!.

Il momento di ordine r e la somma della serie

E[Xr] =∞∑k=0

kr p(k) = e−λ∞∑k=0

krλk

k!,

che risulta certamente finito in quanto la presenza del fattoriale al denominatore garantiscela convergenza. In particolare:

E[X] = λ , E[X2] = λ (1 + λ) , Var[X] = λ .

Infatti

E[X] = e−λ∞∑k=0

kλk

k!= e−λ

∞∑k=1

λk

(k − 1)!= e−λ λ

∞∑k=0

λk

k!= (e−λ λ) eλ = λ ,

E[X2] = e−λ∞∑k=0

k2 λk

k!= e−λ

∞∑k=1

kλk

(k − 1)!= e−λ

∞∑k=0

(k + 1)λk+1

k!=

= e−λ λ( ∞∑k=0

kλk

k!+

∞∑k=0

λk

k!

)= e−λ λ (λ eλ + eλ) = λ (λ+ 1) ,

Var[X] = E[X2]− (E[X])2 = λ

(nell’ultima riga abbiamo utilizzato il primo risultato del teorema 5.9). Si puo poi dimostrareche tutti i momenti centrati, di qualsiasi ordine, hanno il medesimo valore λ .

Applichiamo questo risultato al caso del decadimento radioattivo (§3.8). Abbiamo vistoche, dato un campione di N atomi, la probabilita che k di questi decadano in un tempo t e datadalla legge di Poisson p(k) = 1

k! e−λ λk con λ ≡ (1− e−t/τ )N , dove τ e un tempo caratteristicodel tipo di atomo considerato. La media E[X] = λ e allora il valore atteso del numero di atomiche decadono nel tempo t ; in altri termini, se si osserva il campione per un tempo t ci siaspetta che circa λ atomi su N decadano. In particolare si ha λ = N/2 per

e−t/τ =1

2⇒ t = (log 2) τ .

Questo tempo e detto tempo di dimezzamento. ♠

Esempio 5.5. Ci riferiamo ora all’esperimento “lancio di due dadi regolari” e alle variabilialeatorie X e Y che danno rispettivamente la somma e la differenza dei due valori ottenuti.

Page 73: Appunti di probabilità e statistica [2013, 143p]

5.3 Alcuni esempi di media e momenti 69

Utilizzando i risultati dell’esempio 4.14 possiamo calcolare facilmente:

E[X] = 7 , E[Y ] = 0 , E[X2] =329

6, E[Y 2] =

35

6,

Var[X] = Var[Y ] =35

6, Cov[X,Y ] = 0 .

Quindi abbiamo un esempio di due variabili aleatorie non indipendenti la cui covarianza enulla.

Calcoli analoghi si possono fare per le variabili aleatorie, che chiamiamo ancora X e Y ,che danno rispettivamente la somma e il prodotto dei due valori ottenuti:

E[X] = 7 , E[Y ] =49

4, E[X2] =

329

6, E[Y 2] =

8281

36,

Var[X] =35

6,Var[Y ] =

1603

48, Cov[X,Y ] =

245

12, ρX,Y = 7

√10

229∼= 1.46278... .

Esempio 5.6. Consideriamo la probabilita uniforme p(x, y) = 1/π r2 concentrata sul cerchiodi raggio r in R2 (esempio 4.12), con le variabili aleatorie X : (x, y) 7→ x e Y : (x, y) 7→ y ;abbiamo gia osservato che non sono indipendenti, e che

pX (x) = 2√r2 − x2/π r2 , pY (y) = 2

√r2 − y2/π r2 .

Si ha evidentemente

E[X] =

∫ +r

−rx pX (x) dx =

2

π r2

∫ +r

−rx√r2 − x2 dx = 0 ,

in quanto la funzione integranda e dispari. Analogamente E[Y ] = 0 . Utilizzando la primitiva∫x2√r2 − x2 =

1

8

(x (2x2 − r2)

√r2 − x2 + r4 arctan

( x√r2 − x2

)),

che si puo trovare con i normali(?) metodi di integrazione, si calcola

Var[X] = Var[Y ] =1

4r2 .

Inoltre e immediato verificare che Cov[X,Y ] = 0 . ♠

Page 74: Appunti di probabilità e statistica [2013, 143p]

70 6 COMPENDIO DELLE LEGGI PIU IMPORTANTI

6 Compendio delle leggi piu importanti

In questa sezione rivediamo le principali distribuzioni introdotte in precedenza (a parte ladistribuzione uniforme e la delta di Dirac, vedi §5.3), e ne introduciamo alcune altre cheverranno utilizzate in seguito. Osserviamo che le distribuzioni discrete nelle quali compaiono ifattoriali e i coefficienti binomiali possono essere estese al caso continuo utilizzando la funzioneΓ di Eulero (§6.6).

6.1 Legge binomiale

La legge binomiale (§3.4) e

B[n, p](k) =

(nk

)pk (1− p)n−k , n, k ∈ N , k ≤ n , p ∈ (0, 1) .

Il calcolo della media e della varianza e abbastanza semplice; se X ∼ B[n, p] si ha:

E[X] =n∑k=0

k B[n, p](k) =n∑k=0

k

(nk

)pk (1− p)n−k =

= n pn∑k=1

(n− 1k − 1

)pk−1 (1− p)(n−1)−(k−1) = n p

n−1∑h=0

(n− 1h

)ph (1− p)(n−1)−h

= n p ,

E[X2] =n∑k=0

k2B[n, p](k) =n∑k=0

k2

(nk

)pk (1− p)n−k =

= n pn∑k=1

k

(n− 1k − 1

)pk−1 (1− p)(n−1)−(k−1) =

= n p

n−1∑h=0

(h+ 1)

(n− 1h

)ph (1− p)(n−1)−h =

= n p(n−1∑h=0

h

(n− 1h

)ph (1− p)(n−1)−h +

n−1∑h=0

(n− 1h

)ph (1− p)(n−1)−h

)=

= n p((n− 1) p+ 1

)= n p (n p− p+ 1) ,

Var[X] = E[X2]−(E[X]

)2= n p (n p− p+ 1)− (n p)2 =

= n p (1− p) .

Osservazione. La distribuzione multinomiale (§3.9)

M [p1 , . . . , pN ](k1 , . . . , kN) =

(n

k1 , . . . , kN

)· (p1)k1 · · · · (pN)kN , n ≡ k1 + · · ·+ kN ,

Page 75: Appunti di probabilità e statistica [2013, 143p]

6.2 Legge di Poisson 71

puo essere vista come la legge di un vettore aleatorio N -dimensionale. Il suo valore di aspet-tazione risulta essere (

n p1 , . . . , n pN)∈ RN .

E interessante calcolare le leggi marginali... ♣

6.2 Legge di Poisson

Questa legge, data da

p[λ](k) =e−λ λk

k!,

e stata introdota nel §3.5. Nell’esempio 5.4 si e visto che se X ∼ p[λ] allora

E[X] = λ , E[X2] = λ (1 + λ) , Var[X] = λ .

6.3 Distribuzione geometrica

E cosı detta la distribuzione discreta

g[p](k) = p (1− p)k

che e stata introdotta nel §3.6. Nel §3.8 si e visto che la sua naturale estensione al casocontinuo e la legge esponenziale (§6.7). Per il calcolo della media e della varianza di unavariabile aleatoria X ∼ g[p] utilizziamo le identita,6.1 valide per ogni q ∈ R ,

(1− q)2n∑k=0

k qk = q − (n+ 1) qn+1 + n qn+2 ,

(1− q)3n∑k=0

k2 qk = q + q2 − (n+ 1)2 qn+1 + (2n2 + 2n− 1) qn+2 − n2 qn+3 ,

dalle quali per |q| < 1 segue

∞∑k=0

k qk =q

(1− q)2,

∞∑k=0

k2 qk =q + q2

(1− q)3.

Si ha pertanto

E[X] =∞∑k=0

k g[p](k) = p∞∑k=0

k (1− p)k =p (1− p)

p2=

1− pp

,

E[X2] =

∞∑k=0

k2 g[p](k) = p

∞∑k=0

k2 (1− p)k = p(1− p) + (1− p)2

p3=

2− 3 p+ p2

p2,

Var[X] = E[X2]−(E[X]

)2=

2− 3 p+ p2

p2− (1− p)2

p2=

1− pp2

.

6.1Per verificarle basta espandere i prodotti, i quali risultano avere la proprieta “telescopica”: i terminiintermedi si cancellano.

Page 76: Appunti di probabilità e statistica [2013, 143p]

72 6 COMPENDIO DELLE LEGGI PIU IMPORTANTI

6.4 Distribuzione ipergeometrica

Problema: in un’urna contenente n oggetti ce ne sono r ≤ n la cui uscita, in un’estrazionecasuale, riguardiamo cone un “successo”; in una successione di s estrazioni (senza rimpiazzo),qual’e la probabilita p[s, r, n](k) di ottenere k successi?

Ovviamente tale probabilita e diversa da zero solo se k ≤ min(r, s) , nel qual caso e datadalla distribuzione ipergeometrica

p[s, r, n](k) =( rk )

(n−rs−k)

( ns ).

Si ha quindimin(r,s)∑k=0

p[s, r, n](k) = 1 .

Inoltre il valore di aspettazione e la varianza di questa distribuzione risultano essere

E[p[s, r, n]

]=r s

n, Var

[p[s, r, n]

]=r s (n− r) (n− s)

(n− 1)n2.

Dimostrazione: Per ricavare l’espressione di p[s, r, n](k) ragioniamo come segue. L’insieme Adegli oggetti nell’urna e l’unione A′ ∪A′′ dei due sottoinsiemi, di cardinalita rispettivamente|A′| = r e |A′′| = n− r , costituiti rispettivamente dai “successi” e dagli “insuccessi”; ognicombinazione di s elementi dell’urna, k dei quali siano “successi” (ed s− k “insuccessi”),e l’unione di due sottoinsiemi B′k ⊂ A′ e B′′s−k ⊂ A′′ . Osserviamo poi che i sottoinsiemi B′ksono in numero di ( rk ) , mentre i sottoinsiemi B′′s−k sono in numero di

(n−rs−k)

. Pertanto ilnumero delle combinazioni distinte di cardinalita s , costituite da elementi di A e contenentiesattamente k “successi”, e il prodotto ( rk )

(n−rs−k)

. A questo punto per ricavare p[s, r, n](k)basta osservare che le combinazioni di s elementi di A sono in numero di ( ns ) (e quindi ciascunadi esse, in un’estrazione con densita uniforme, ha probabilita 1/ ( ns )).

Per calcolare la media di questa distribuzione osserviamo prima di tutto che

nk

s rp[s, r, n](k) =

kr ( rk )

(n−rs−k)

ns ( ns )

=

(r−1k−1

) (n−rs−k)(

n−1s−1

) =

(r−1k−1

) ( (n−1)−(r−1)(s−1)−(k−1)

)(n−1s−1

) =

= p[s− 1, r− 1, n− 1](k− 1) .

Pertanto

E[p[s, r, n]

]=

min(r,s)∑k=0

k p[s, r, n](k) =r s

n

min(r,s)∑k=1

p[s− 1, r− 1, n− 1](k− 1) =

=r s

n

min(r−1,s−1)∑h=0

p[s− 1, r− 1, n− 1](h) =

=r s

n1 =

r s

n,

dove nel passaggio dalla prima alla seconda riga si e fatta la sostituzione h = k− 1 (il calcolodella varianza e piu complicato).

Page 77: Appunti di probabilità e statistica [2013, 143p]

6.5 Distribuzione normale, o gaussiana 73

Osservazione. C’e un ragionamento un po’ piu sottile con cui si riesce a calcolare il valore diaspettazione in maniera piu rapida, e senza fare intervenire l’espressione esplicita di p[s, r, n] .Supponiamo di avere i risultati delle s estrazioni ma di non conoscere l’ordine in cui sono statefatte; non esiste alcun modo con cui si possa risalire a tale ordine, e cio significa che le variabilialeatorie Xi (i = 1 . . . , s) che prendono il valore 1 in caso di successo all’i-esima estrazione, e 0in caso di insuccesso, devono avere tutte lo stesso valore di aspettazione. D’altra parte si ha ov-viamente E[X1] = r/n , per cui E

[p[s, r, n]

]=∑

i E[Xi] = s r/n . Dunque dal punto di vista delcalcolo della media le Xi si comportano “come se” fossero indipendenti, anche se evidentemen-te non lo sono (il calcolo diretto di E[Xi] = r/n per ciascun i e invece un po’ complicato, lo sipuo fare per esempio disegnando un appropriato “diagramma di flusso” come nel §4.4). Per lavarianza in effetti il ragionamento non funziona: se le Xi fossero indipendenti si dovrebbe avereVar[p[s, r, n]

]=∑

i Var[Xi] , mentre Var[X1] = (0− rn)2 (1− r

n) + (1− rn)2 r

n = (1− rn) r

n .♣

Figura 14: La distribuzione ipergeometrica assume valori quasi identici a quelli della distribu-zione normale con stessa media µ e e varianza σ2. Estendendo la distribuzione ipergeometricaa valori di k reali positivi mediante la funzione Γ di Eulero, i due grafici sono praticamenteindistinguibili. Nel caso qui riportato si ha

∣∣p[s, r, n](k)−N [µ, σ](k)∣∣ < 0.0015 per k ∈ [0, 20] .

5 10 15 20

0.05

0.10

0.15

0.20s= 20r= 27n= 50

µ= 10.8σ2∼= 3.04163

6.5 Distribuzione normale, o gaussiana

La distribuzione normale, o Gaussiana, e la densita p : R→ R+ definita da

p(x) ≡ N [µ, σ](x) :=1√

2π σe−

(x−µ)2

2σ2 , µ ∈ R , σ ∈ R+ .

Notiamo che la funzione p e simmetrica rispetto all’asse x = µ , punto in cui ha il massimoassoluto, e si ha

p(µ) =1√

2π σ, p(µ± σ) =

1√2π eσ

.

Dunque il parametro σ ∈ R+ puo essere visto come la distanza dall’asse di simmetria a cui ilvalore di p si riduce del fattore 1/

√e . Si noti come, al cresecere di σ , la “campana” si allarga

mentre il massimo si abbassa.

Page 78: Appunti di probabilità e statistica [2013, 143p]

74 6 COMPENDIO DELLE LEGGI PIU IMPORTANTI

Figura 15: Grafico della distribuzione normale per alcuni valori dei parametri (i due assi nonsono disegnati nella medesima scala).

-6 -4 -2 2 4 6

0.1

0.2

0.3

0.4µ = 0 , σ = 1

µ = 0 , σ = 1.5

µ = 0 , σ = 2

µ = 4 , σ = 1.5

Il calcolo della media e dei momenti da:

E[X] = µ ,

E[X2] = µ2 + σ2 , Var[X] ≡ E[(X − E[X])2

]= σ2 ,

E[X3] = µ3 + 3µσ2 , E[(X − E[X])3

]= 0 ,

E[X4] = µ4 + 6µ2 σ2 + 3σ4 , E[(X − E[X])4

]= 3σ4

eccetera (tutti i momenti centrati di ordine dispari sono nulli, mentre quelli pari sono propor-zionali a σk).

La funzione di ripartizione della densita N [µ, σ] , indicata di solito con il simbolo Φµ,σ , puoessere espressa mediante la cosiddetta funzione degli errori (error function) erf : R→ (−1, 1) ,definita da

erf(x) :=2√π

∫ x

0e−ξ

2dξ .

Per quanto erf(x) non possa essere espressa in termini finiti tramite le funzioni elementaripiu comuni, e una funzione perfettamente maneggiabile: e analitica dappertutto, cioe puoespressa, scelto un qualsiasi x0 ∈ R , mediante una serie di potenze centrata in x0 , con raggiodi convergenza infinito. Per x0 = 0 si trova

erf(x) =2√π

∞∑n=0

(−1)n x2n+1

n! (2n+ 1)=

2√π

(x− 1

3x3 +

1

10x5 − 1

42x7 +

1

216x9 − . . .

).

Con un opportuno cambiamento di variabile si trova allora

Φµ,σ(x) ≡∫ x

−∞f(ξ) dξ =

1

2

(1 + erf

(x− µ√2σ

)).

Page 79: Appunti di probabilità e statistica [2013, 143p]

6.5 Distribuzione normale, o gaussiana 75

Figura 16: Grafico della funzione erf(x) .

-3 -2 -1 1 2 3

-1.0

-0.5

0.5

1.0

Figura 17: Grafico della funzione di ripartizione della distribuzione normale per µ = 0 eσ = 1, 1.5, 2 (a sinistra) e per µ = 4 , σ = 1.5 (a destra). Al decrescere di σ (cioe via via che ladensita Gaussiana diventa piu stretta e con massimo piu alto) lo “scalino” di F diventa piupronunciato.

-6 -4 -2 2 4 6

0.2

0.4

0.6

0.8

1.0

La p(x) ≡ N [µ, σ](x) e la densita della variabile aleatoria X(t) ≡←Φµ,σ : Ω → R , dove la

probabilita di Ω ≡ [0, 1] e data dalla densita uniforme (§4.5). Si ha poi

←Φµ,σ(t) = µ+

√2σ

←erf(2 t− 1) ,

dove la funzione inversa←erf : [−1, 1]→ R e ancora analitica.6.2

6.2Conoscendo la serie di Taylor di erf si puo calcolare quella di←erf ; l’espressione del coefficiente generico

risulta pero un po’ intricata e non vale la pena di riportarla. I primi termini dello sviluppo sono

←erf(t) =

√π

2

(t+

π

12t3 +

7π2

480t5 +

127π3

40320t7 +

4369π4

5806080t9 + . . .

).

Page 80: Appunti di probabilità e statistica [2013, 143p]

76 6 COMPENDIO DELLE LEGGI PIU IMPORTANTI

Per quanto riguarda il calcolo della media e dei momenti, osserviamo che si hanno le primitive∫e−x

2x dx = −1

2e−x

2+ costante ,

∫e−x

2x2 dx = −1

2x e−x

2+

√π

4erf(x) + costante ,∫

e−x2x3 dx = −1

2e−x

2(1 + x2) + costante ,

∫e−x

2x4 dx = −e−x

2 (3

4x+

1

2x3)

+3√π

8erf(x) + costante ,

la prima delle quali si trova subito con il cambio di variabile u ≡ x2 , le altre mediantesuccessive integrazioni per parti.

6.6 Leggi Gamma

La funzione Gamma di Eulero (vedi anche §A.1) e definita da

Γ(α) :=

∫ ∞0

xα−1 e−x dx .

Mediante un’integrazione per parti si ricava subito6.3

Γ(α+ 1) = αΓ(α) .

Pertanto, poiche

Γ(1) =

∫ ∞0

e−x dx = 1 ≡ 0! ,

per n intero si haΓ(n) = (n− 1)! .

La funzione Γ risulta essere analitica in R+ (mentre ha delle singolarita C e, in particolare,in 0 e in tutti gli interi negativi), e costituisce la naturale generalizzazione dell’applicazionen 7→ n! al caso in cui n sia un intero reale positivo (figura 18). Un altro valore notevole, chesi calcola senza difficolta6.4 con un cambio di variabile, e

Γ(1

2

)=√π .

6.3Nell’integrale che definisce Γ(α) facciamo i cambi di variabile u ≡ xα , da cui du = αxα−1 dx , e v ≡ e−x

da cui dv = −e−x dx . Otteniamo∫xα−1 e−x dx =

1

α

∫v du =

1

α

[u v −

∫u dv

]=

1

α

[xα e−x −

∫xα(−e−x) dx

],

da cui

Γ(α) =

∫ ∞0

xα−1 e−x dx =1

α

[xα e−x

]∞0

+1

α

∫ ∞0

xα e−x dx = 0 +1

αΓ(α+ 1) .

6.4Osserviamo che da 1√2π σ

∫∞0

e−u2/2σ2

du = 12

segue, ponendo σ = 1/√

2 ,∫∞

0e−u

2

du =√π/2 . Nell’in-

tegrale che definisce Γ(1/2) facciamo allora il cambiamento di variabile u = x1/2 ⇒ du = 12x−1/2 dx ,

ottenendo

Γ(1/2) =

∫ ∞0

x−1/2 e−x dx = 2

∫ ∞0

e−u2

du =√π .

Page 81: Appunti di probabilità e statistica [2013, 143p]

6.6 Leggi Gamma 77

Questo permette di trovare il valore di Γ per ogni argomento semi-intero; si ottiene

Γ[n+

1

2

]=

(2n− 1)!!

2n√π .

Figura 18: Grafico della funzione Gamma di Eulero per valori reali positivi dell’argomento(cresce molto rapidamente...).

0 1 2 3 4 5

2

4

6

8

10

Per ogni coppia di numeri reali positivi α, β ∈ R+ si trova allora che la funzione

Γ[α, β](x) :=β−α

Γ(α)xα−1 e−x/β

e una densita concentrata su R+. Infatti∫ ∞0

Γ[α, β](x) dx =1

Γ(α)

∫ ∞0

β−α xα−1 e−x/β dx =1

Γ(α)

∫ ∞0

(x/β)α−1 e−x/β d(x/β) =

=1

Γ(α)Γ(α) = 1 .

Se X ∼ Γ[α, β] si dice che la variabile aleatoria X segue una legge Gamma di parametri αe β , che sono detti rispettivamente “parametro di forma” e “parametro di scala”. La leggeGamma viene anche rappresentata in termini di α e λ = 1/β come

Γ[α, 1/λ](x) :=λα

Γ(α)xα−1 e−λx .

Per tracciare qualitativamente un grafico di Γ[α, β](x) osserviamo prima di tutto che sihanno i limiti

limx→0+

Γ[α, β](x) =

+∞ , α ∈ (0, 1) ,

1/β , α = 1 ,

0 , α > 1 ,

limx→∞

Γ[α, β](x) = 0 .

Inoltre la derivatad

dxΓ[α, β](x) =

β−α

Γ(α)xα−2 e−x/β

((α− 1)− x

β

)si annulla in x = (α− 1)β che e in R+ per α > 1 ; pertanto per α > 1 si ha un massimo, o(trattandosi di una legge di probabilita) valore modale. I grafici di Γ[α, β](x) per diversi valoridi α e β sono riportati in figura 19

Page 82: Appunti di probabilità e statistica [2013, 143p]

78 6 COMPENDIO DELLE LEGGI PIU IMPORTANTI

Figura 19: Grafici della distribuzione Γ[α, β] per β = 2 e α = 1, 1.5, 2, 3, 5 (a sinistra), e perα = 2.5 e β = 1, 1.5, 2.5, 3 (a destra).

5 10 15 20

0.1

0.2

0.3

0.4

0.5

β = 2α = 1

α = 5

5 10 15 20

0.05

0.10

0.15

0.20

0.25

0.30

α = 2.5β = 1

β = 3

Se X ∼ Γ[α, β] si ha

E[X] =1

Γ(α)

∫ ∞0

xβ−α xα−1 e−x/β dx =β

Γ(α)

∫ ∞0

β−α−1 xα e−x/β dx =

=Γ(α+ 1)

Γ(α)β = αβ .

E[X2] =1

Γ(α)

∫ ∞0

x2 β−α xα−1 e−x/β dx =β2

Γ(α)

∫ ∞0

β−α−2 xα+1 e−x/β dx =

=Γ(α+ 2)

Γ(α)β2 = α (α+ 1)β2 .

Var[X] = E[X2]− (E[X])2 = αβ2 .

Teorema 6.10. Siano X ∼ Γ[α, β] e Y ∼ Γ[α′, β] variabili aleatorie indipendenti. AlloraX +Y ∼ Γ[α+α′, β] .

Dimostrazione: Poiche X e Y sono indipendenti, la densita congiunta e il prodotto dellesingole densita, ovvero

p(x, y) =Γ[α, β](x) · Γ[α′, β](y) =β−α

Γ(α)xα−1 e−x/β · β

−α′

Γ(α′)yα′−1 e−y/β =

=β−α−α

Γ(α) Γ(α′)xα−1 e−x/β yα

′−1 e−y/β .

Ricordando ora il teorema 4.4 abbiamo

pX+Y (z) =

∫ z

0p(x, z − x) dx =

β−α−α′

Γ(α) Γ(α′)

∫ z

0xα−1 e−x/β (z − x)α

′−1 e−(z−x)/β dx =

=β−α−α

′e−z/β

Γ(α) Γ(α′)

∫ z

0xα−1 (z − x)α

′−1 dx ,

dove si e tenuto presente che, essendo le densita di X e Y nulle al di fuori di R+, l’espressionep(x, z−x) = pX (x) · pY (z−x) e diversa da zero solo nell’intervallo (0, z) . Con il cambiamentodi variabile x = z t ⇒ dx = z dt si ottiene allora, dopo qualche semplice passaggio algebrico,

pX+Y (z) =β−α−α

′e−z/β zα+α′−1

Γ(α) Γ(α′)

∫ 1

0tα−1 (1− t)α′−1 dt .

Page 83: Appunti di probabilità e statistica [2013, 143p]

6.7 Legge esponenziale 79

Poiche l’integrale della densita pX+Y (z) su R+ deve fare 1 si ha infine

1 =

∫ ∞0

pX+Y (z) dz =1

Γ(α) Γ(α′)

(∫ ∞0

β−α−α′e−z/β zα+α′−1 dz

)(∫ 1

0tα−1 (1− t)α′−1 dt

)=

=1

Γ(α) Γ(α′)Γ(α+ α′)

(∫ 1

0tα−1 (1− t)α′−1 dt

).

Troviamo quindi l’identita ∫ 1

0tα−1 (1− t)α′−1 dt =

Γ(α) Γ(α′)

Γ(α+ α′),

che sostituita nella precedente espressione da appunto pX+Y = Γ[α+α′, β] .

Osservazione. La funzione di due variabili

B(α, α′) :=

∫ 1

0tα−1 (1− t)α′−1 dt =

Γ(α) Γ(α′)

Γ(α+ α′)

e detta Beta di Eulero. ♣

6.7 Legge esponenziale

Una legge gamma con α = 1 ,Γ[1, β](x) = β−1 e−x/β ,

e detta legge esponenziale di parametro β . Se X ∼ Γ[1, β] si ha

E[X] = β , Var[X] = β2 .

Questa legge e stata usata in alcuni esempi nel testo (vedi §3.8, ed esempio 7.13).

6.8 Legge “chi quadro”

Si dice legge chi quadrato (o chi quadro) con ν gradi di liberta la densita

χ2[ν](x) ≡ Γ[ν/2, 2](x) =2−ν/2 x−1+ν/2 e−x/2

Γ[ν/2]=

=

(2−ν xν−2 e−x

)1/2Γ[ν/2]

.

Se X ∼ χ2[ν] si haE[X] = ν , Var[X] = 2 ν .

Questa legge e stata incontrata per la prima volta nell’esempio 4.18, dove si e visto che seX ∼ N [0, 1] allora X2 ha densita

pX2 (x) =

1√2π

x−1/2 e−x/2 ≡ χ2[1](x) .

Pertanto X2 ∼ χ2[1] .

Page 84: Appunti di probabilità e statistica [2013, 143p]

80 6 COMPENDIO DELLE LEGGI PIU IMPORTANTI

Osservazione. Sia (Xn) una successione di variabili aleatorie indipendenti, tutte di leggeN [0, 1] . Allora

n∑i=1

(Xi)2 ∼ χ2[n] .

Infatti, poiche (Xi)2 ∼ χ2[1] ≡ Γ[1/2, 2] , dal teorema 6.10 abbiamo

n∑i=1

(Xi)2 ∼ Γ

[n · 1

2, 2]≡ χ2[n] .

Questa legge e usata in un importante test statistico (§8.6).

6.9 Distribuzione di Student

La distribuzione di Student6.5 con ν gradi di liberta e la densita p : R→ R+ definita da

p(x) ≡ t[ν](x) :=νν/2

B(ν2 ,12)

(ν + x2)−(ν+1)/2 , ν ∈ R+ ,

dove B e la Beta di Eulero (§6.6)

B(α, β) :=Γ(α) Γ(β)

Γ(α+ β).

E evidente che t[ν](x) e simmetrica con un andamento “a campana”; in effetti si puo dimostrareche t[ν](x)→ N [0, 1](x) ∀ x per ν →∞ ; anzi la convergenza e abbastanza rapida, come si vededalla figura 20.

Figura 20: Grafico della distribuzione di Student per i valori ν = 0.2, 1, 4 . Con un tratto piuspesso e rappresentata, per confronto, la distribuzione normale N [0, 1] .

-4 -2 2 4

0.1

0.2

0.3

0.4

Nel caso particolare ν = 1 la t[ν] assume una forma particolarmente semplice e trattabile,

t[ν](x) =1

π (1 + x2)

(in effetti una densita con questa espressione l’abbiamo gia esaminata nell’esempio 4.9 dipagina 46, dove il diverso coefficiente di normalizzazione era dovuto al fatto che la densita

6.5Si tratta dello pseudonimo sotto cui pubblicava il matematico irlandese S. Gosset agli inizi del ’900

Page 85: Appunti di probabilità e statistica [2013, 143p]

6.9 Distribuzione di Student 81

era concentrata sull’intervallo [−1, 1] ). In generale pero, per valori di ν generici, lo studioanalitico preciso della t[ν] (calcolo dei momenti, funzione di ripartizione eccetera) e alquantolaborioso, e rimane al di fuori degli scopi di questo corso. Alcuni risultati qualitativi peropossono essere trovati facilmente. L’andamento qualitativo del grafico e ovvio. Per quantoriguarda i momenti, osserviamo che per x grande t[ν](x) va come x−ν−1 ; pertanto xk t[ν](x)va come 1/xν+1−k e dunque ha momento di ordine k finito solo per ν+ 1− k > 1 ovvero perν > k .

In particolare, t[ν](x) ha media finita solo6.6 per ν > 1 , e risulta evidentemente

E[t[ν]]

= 0 , ν > 1 .

Il calcolo della varianza e invece complicato, e ci limitiamo a scrivere il risultato

Var[t[ν]]

ν − 2, ν > 2 .

Una differenza qualitativa importante tra la distribuzione di Student e quella normale stanel maggior peso delle “code”: per x→∞ la funzione tende a zero come una potenza della xinvece che esponenzialmente.

La distribuzione di Student e molto utilizzata in statistica; vedremo un esempio nel §8.7.

6.6Cio puo sembrare strano, visto che per la simmetria si ha ovviamente∫ +ξ

−ξ x t[ν](x) dx = 0 per ogni ξ ∈ R+ ,

ma risulta chiaro ricordando la definizione di media di una variabile aleatoria (§5.1).

Page 86: Appunti di probabilità e statistica [2013, 143p]

82 7 LA LEGGE DEI GRANDI NUMERI

7 La legge dei grandi numeri

7.1 La legge empirica

E una nozione non sorprendente che se si lancia una moneta regolare un gran numero n divolte, si sommano tutti i risultati ottenuti (0 e 1) e si divide per n , si ottiene un numero moltovicino a 0.5 . Aumentando n , il risultato dell’operazione che si e detto tende ad avvicinarsi alvalore 0.5 . Analogamente, se si lancia un dado un gran numero n di volte, si sommano tuttii risultati ottenuti e si divide per n , si ottiene un numero molto vicino a 3.5 .

Non e difficile verificare, con qualche simulazione al computer, che qualcosa di analogosi verifica per ogni esperimento al quale sia associata una variabile aleatoria X : se si eseguel’esperimento un gran numero n di volte e si calcola la media aritmetica xn dei valori di Xottenuti (ovvero si sommano i risultati e si divide per n), l’operazione da quasi sempre unnumero molto vicino al valore di aspettazione µ ≡ E[X] calcolato nell’ambito del modellomatematico probabilistico dell’esperimento (se il modello e corretto). In effetti riportando ingrafico il valore di xn−µ per valori crescenti di n si ottiene qualcosa del genere:

20 40 60 80 100

-0.0010

-0.0005

0.0005

0.0010

0.0015

0.0020

dove i numeri riportati in ascissa rappresentano multipli di 10 000 prove (abbiamo eseguitol’esperimento in 100 serie, con n crescente da 10 000 a 1 000 000 in passi di 10 000).

E vero che la convergenza verso lo zero non pare molto rapida, ma c’e. Per poter enunciaredei risultati precisi dobbiamo prima di tutto precisare la nozione di convergenza per unasuccessione di variabili aleatorie.

Osservazione. Nel caso della moneta regolare, la legge empirica dei grandi numeri puo esserespiegata in questo modo: per n abbastanza grande, la grande maggioranza delle successioniNn → 0, 1 contiene circa lo stesso numero di 0 e 1 . In effetti, sappiamo che il numerodi tali successioni che contengono esattamente k volte lo 0 e ( nk ) , che prende valori moltoelevati soprattutto per k vicino a n/2 e molto piu piccoli appena se ne allontana. E ancheinteressante notare che se si riporta in un grafico (figura 21) l’andamento della distribuzionebinomiale B[n, 1

2 ](k) = 2−n ( nk ) si ottengono dei punti che si trovano quasi esattamente sulgrafico della distribuzione normale avente stessa media µ = n/2 e varianza σ2 = n/4 . ♣

7.2 Convergenza

Sia (Ω,E, P ) uno spazio di probabilita; si possono considerare diversi tipi di convergenza peruna successione (Xn) di variabili aleatorie Ω → R , cioe diversi modi in cui la successione sipossa dire avere come limite una variabile aleatoria X : Ω→ R . Le solite nozioni di convergen-

Page 87: Appunti di probabilità e statistica [2013, 143p]

7.2 Convergenza 83

Figura 21: Corrispondenza tra legge binomiale per una moneta regolare e distribuzionenormale con stessa media e varianza

1 2 3 4 5 6

0.05

0.10

0.15

0.20

0.25

0.30

0.35

n = 5

10 20 30 40 50

0.02

0.04

0.06

0.08

0.10

0.12

0.14

n= 30n= 50

za puntuale e di convergenza uniforme, definite in generale7.1 per successioni di funzioni su uninsieme qualsiasi, non sono le uniche possibili. Vi sono infatti ulteriori nozioni di convergenzache risultano particolarmente importanti nello studio delle successioni di variabili aleatorie.Diremo che:

• Xn converge quasi certamente a X se

P limn→∞

Xn = X = 1 ;

• Xn converge a X in probabilita (o in misura) se per ogni ε ∈ R+ si ha

limn→∞

P|Xn −X| < ε = 1 ,

ovvero, in maniera equivalente,

limn→∞

P|Xn −X| ≥ ε = 0 ;

• Xn converge a X in legge se, dette Fn ed F le funzioni di ripartizione di Xn ed X , siha la convergenza puntuale

limn→∞

Fn(x) = F (x)

per ogni x ∈ R in cui F e continua;

7.1 Come e vero in generale per le successioni di funzioni su un insieme qualsiasi, si possono definire le nozionidi convergenza puntuale e di convergenza uniforme. Se per ciascun ω ∈ Ω la successione ordinaria (Xn(ω)) econvergente, resta definita una funzione Ω→ R : ω 7→ X(ω) ≡ limnXn(ω) . Diciamo allora diciamo che (Xn)converge a X puntualmente (o punto per punto). In altri termini, diciamo che la successione (Xn) convergealla funzione (eventualmente variabile aleatoria) X se

∀ (ω, ε) ∈ Ω× R+ ∃nω,ε ∈ N :(n > nω,ε ⇒ |Xn(ω)−X(ω)| < ε

).

Diciamo poi che la successione (Xn) converge uniformemente a X se

∀ ε ∈ R+ ∃nε ∈ N :(n > nε ⇒ |Xn(ω)−X(ω)| < ε ∀ω ∈ Ω

).

Se Ω ≡ R , possiamo visualizzare la convergenza uniforme nel modo seguente: per n > nε il grafico di Xn etutto contenuto nella porzione di R2 delimitata dai grafici di X+ε e X−ε .

Inoltre negli spazi Lp delle funzioni tali che∫

Ω|X|p <∞ esiste la nozione di “convergenza in norma”∫

Ω|Xn −X|p → 0 .

Page 88: Appunti di probabilità e statistica [2013, 143p]

84 7 LA LEGGE DEI GRANDI NUMERI

• Xn converge a X in media k-esima se E[|Xn|] <∞ per ogni n ∈ N e se

limn→∞

E[|Xn −X|k] = 0 ;

in particolare, se la precedente condizione vale per k = 2 , diciamo che Xn converge aX in media quadratica.

Sara opportuno rendere queste definizioni un po’ piu esplicite. Riguardo alla prima, osser-viamo che

P limn→∞

Xn = X ≡ P(ω : lim

n→∞Xn(ω) = X(ω)

).

Dunque la convergenza quasi certa significa che e nulla la probabilita dell’evento costituito daquegli ω ∈ Ω tali che limnXn(ω) 6= X(ω) ; in altri termini, Xn tende puntualmente a X quasiovunque (eccettuato un insieme di misura nulla: la convergenza puntuale tout court e dettaconvergenza certa).

Si ha poi

P|Xn −X| < ε ≡ P(ω : |Xn(ω)−X(ω)| < ε

).

Quindi la convergenza in probabilita significa che ∀ε > 0 posso, pur di prendere n abbastanzagrande, rendere arbitrariamente vicina ad 1 la probabilita dell’evento costituito dagli ω ∈ Ωtali che |Xn(ω)−X(ω)| < ε . Si puo dimostrare che la convergenza quasi certa implica laconvergenza in probabilita, mentre il viceversa non e vero (esistono esempi di convergenza inprobabilita che non e quasi certa).

La convergenza in legge implica che per qualunque x ∈ R , al crescere di n , la probabilitache Xn assuma valori in (−∞, x] tende alla probabilita che X assuma valori nel medesimointervallo.7.2 Inoltre si puo dimostrare che la convergenza in probabilita implica la convergenzain legge.

Infine, la convergenza in media k-esima equivale alla convergenza in norma Lk (vedi ultimocapoverso della nota 7.1 a pie di pagina 83).

7.3 Legge debole e legge forte dei grandi numeri

La legge dei grandi numeri, cioe il risultato matematico preciso che spiega le osservazioniempiriche riportate nella parte introduttiva del §7, puo essere enunciata in vari modi diversi enon del tutto equivalenti. In ogni caso si considera una successione (Xn) di variabili aleatoriee, a partire da questa, la successione media calcolata7.3 (Xn) definita da

Xn :=1

n

n∑i=1

Xi ≡1

n(X1 + · · ·+Xn) .

Teorema 7.11. (legge debole dei grandi numeri)Sia (Xn) una successione di variabili aleatorie indipendenti, aventi la stessa media µ e lastessa varianza. Allora (Xn−µ)→ 0 in probabilita.

Dimostrazione: Dal teorema 5.6 abbiamo

E[Xn] =1

n(E[X1] + · · ·+ E[Xn]) = µ .

7.2Ne segue che per qualsiasi intervallo I la probabilita che Xn assuma valori in I tende alla probabilita cheX assuma valori nel medesimo intervallo.

7.3Detta anche media campionaria.

Page 89: Appunti di probabilità e statistica [2013, 143p]

7.4 Funzione di ripartizione empirica e grafico dei quantili 85

Inoltre dal teorema 5.9, poiche le Xn sono indipendenti, ponendo σ2 ≡ Var[Xi] abbiamo

Var[Xn] =1

n2(Var[X1] + · · ·+ Var[Xn]) =

1

n2(nσ2) =

1

nσ2 .

Utilizzando allora la disuguaglianza di Chebyshev otteniamo

P|Xn − µ| ≥ η ≤1

η2Var[Xn] =

σ2

n η2,

e l’enunciato segue dal fatto che l’ultimo termine va a zero per n→∞ .

Osservazione. E immediato verificare che il teorema precedente vale anche se le Xi nonhanno tutte la medesima varianza, ma le diverse varianze sono limitate, cioe se esiste σ taleche Var[Xi] ≤ σ2 ∀i .

Vediamo in che modo l’enunciato precedente spiega il comportamento osservato delle me-die di esperimenti. Consideriamo per esempio il solito schema di Bernoulli, in cui l’esperimentoconsiste in n lanci di una moneta; la variabile aleatoria Xi sia “il risultato dell’i-esimo lancio”:allora il teorema afferma che, scelto un qualsiasi numero positivo η , con un numero n sufficien-temente grande di lanci posso redere arbitrariamente arbitrariamente piccola la probabilitache Xn si discosti da µ piu di η .

Si osservi poi che per dimostrare la legge debole non abbiamo utilizzato l’ipotesi (vera nelcaso particolare dello schema di Bernoulli) che le Xi abbiano la medesima densita: abbiamosolo richiesto che le Xi abbiano stessa media e stessa varianza (finite). Se invece si aggiungel’ipotesi della medesima densita (addirittura senza l’ipotesi di varianza finita), si arriva adimostrare:

Teorema 7.12. (legge forte dei grandi numeri)Sia (Xn) una successione di variabili aleatorie indipendenti, aventi la stessa densita e mediaµ finita (necessariamente la stessa per tutte). Allora (Xn−µ)→ 0 quasi certamente.

(Di questo teorema ci limitiamo a dare l’enunciato senza dimostrazione.)

Esiste poi un risultato ancora piu forte, che vedremo nel §7.6.

Osservazione. Le legge dei grandi numeri e un risultato di analisi matematica, nel cui enun-ciato non compare esplicitamente l’idea sottogiacente: se un processo aleatorio e descritto dauno spazio di probabilita (Ω1,E, P ) , allora Ω ≡ Ωn

1 ≡ Ω1 × · · · × Ω1 e lo spazio dei campioniche descrive la ripetizione dell’esperimento n volte. Se X ≡ X1 e una variabile aleatoria (scala-re o vettoriale) Ω1 , e poniamo Xi(ω1 , . . . , ωn) := X1(ωi) , allora le Xi sono variabili aleatorieindipendenti e aventi la medesima densita (si puo comunque pensare ad applicazioni dellalegge dei grandi numeri anche in un contesto un po’ diverso). ♣

7.4 Funzione di ripartizione empirica e grafico dei quantili

In questo paragrafo consideriamo una successione (Xi) di variabili aleatorie indipendenti,aventi tutte la stessa legge.

Sia x = (x1, . . . , xn) ∈ Rn , e consideriamo la funzione di variabile reale

Fx(t) =1

n

n∑i=1

H(t− xi) ,

Page 90: Appunti di probabilità e statistica [2013, 143p]

86 7 LA LEGGE DEI GRANDI NUMERI

dove H ≡ H0 e la funzione gradino unitario continua a destra (§2.4). Scelta la n-upla dinumeri reali x si ottiene quindi una funzione a gradini continua a destra, dunque una funzionedi ripartizione (come per esempio in figura 22). Si osservi che se indichiamo con

x = (x1 ≤ · · · ≤ xn) ∈ Rn

la medesima n-upla x di numeri reali, ma ordinata in senso crescente, allora possiamo scrivere

Fx(t) =

0 , t < x1 ,

k/n , xk ≤ t ≤ xk+1 , 1 ≤ k ≤ n− 1 ,

1 , xn ≤ t .

Figura 22: Grafico di Fx(t) per x = (e, 1,−3/2,√

5, 5/3) , x = (−3/2, 1, 5/3,√

5, e) .

-2 -1 1 2 3

0.2

0.4

0.6

0.8

1.0

Per ogni t ∈ R consideriamo la successione(Fn(t)

)di variabili aleatorie definita da

Fn(t) =1

n

n∑i=1

H(t−Xi) ;

possiamo anche vedere Fn come un “oggetto aleatorio” che associa una funzione di ripartizionead ogni ω ≡ (ω1 , . . . , ωn) ∈ Ω, definito da

Fn(t)(ω) := Fx(t) , x =(Xi(ω)

)=(X1(ω1), . . . , Xn(ωn)

).

In altri termini, per ciascun ω si considera la n-upla x dei valori assunti dalle variabili aleatorieXi , i = 1, . . . , n , e poi la funzione di ripartizione determinata da questo x mediante la regolache abbiamo dato sopra.

Teorema 7.13. Sia F la funzione di ripartizione delle variabili aleatorie indipendenti Xi

(aventi tutte la medesima legge); per ogni t ∈ R la variabile aleatoria Fn(t) converge quasicertamente a F (t) .

Dimostrazione: Se f e una funzione misurabile le composizioni f(Xi) ≡ f Xi sono variabilialeatorie indipendenti (teorema 4.3 a pagina 51). In particolare sono indipendenti, per ciascunt ∈ R , le variabili aleatorie H(t−Xi) . Inoltre se p(x) e la densita delle Xi per il teorema 5.5(pagina 61) si ha

E[H(t−Xi)

]=

∫ +∞

−∞H(t− x) p(x) dx =

∫ t

−∞p(x) dx = F (t) ,

in quanto la funzione H(t−x) vale 1 per t−x ≥ 0 (ovvero, fissato t , per x ≤ t) e vale 0per t−x < 0 . Per la legge forte dei grandi numeri la successione di variabili aleatorie Fn(t)converge allora quasi certamente a E

[H(t−Xi)

]= F (t) per ciascun t ∈ R .

Page 91: Appunti di probabilità e statistica [2013, 143p]

7.4 Funzione di ripartizione empirica e grafico dei quantili 87

Pertanto, per n abbastanza grande, la funzione di ripartizione empirica Fn(ω) costituirauna buona approssimazione per F . In figura 23, per esempio, vediamo un grafico di Fn ottenutoda una simulazione della legge normale, insieme con la funzione di ripartizione della leggemedesima.

Figura 23: Funzioni di ripartizione empiriche ottenute mediante simulazione della leggenormale con n = 10, 20, 50, 250 .

-3 -2 -1 1 2 3

0.2

0.4

0.6

0.8

1.0

-3 -2 -1 1 2 3

0.2

0.4

0.6

0.8

1.0

-3 -2 -1 1 2 3

0.2

0.4

0.6

0.8

1.0

-4 -2 2 4

0.2

0.4

0.6

0.8

1.0

Queste osservazioni hanno un risvolto pratico importante. Supponiamo di avere una n-uplax = (x1, . . . , xn) di risultati di un certo esperimento aleatorio di cui ignoriamo la legge; allorapossiamo confrontare la funzione di ripartizione empirica con quella di una legge teorica cheipotizziamo essere quella giusta. Se la nostra ipotesi e corretta, per 1 ≤ i ≤ n si dovra avereFn(xi) ∼= F (xi) , cioe

i

n∼= F (xi) ;

se F e continua (come per esempio nel caso della legge normale e di molte altre leggi impor-

tanti) possiamo applicare l’inversa←F ai due membri della relazione precedente, e otteniamo

←F( in

) ∼= xi .

Dunque riportando nel piano cartesiano i punti di coordinate(xi ,

←F (i/n)

), questi si dovranno

disporre in prima approssimazione lungo la bisettrice del primo e terzo quadrante; abbiamocosı un modo per controllare “ad occhio” la plausibilita dell’ipotesi che la distribuzione del

processo aleatorio considerato sia di un dato tipo. Poiche←F (i/n) e xi sono denominati “quan-

tili” (vedi §8.3), questi grafici (di cui vediamo due esempi in figura 24) sono detti dei “quantilicontro quantili”.

Nello studio di un processo aleatorio capita frequentemente che la distribuzione di pro-babilita della grandezza misurata sia di tipo gaussiano; d’altra parte in generale non sararagionevole aspettarci che tale distribuzione sia proprio N [0, 1] , anche perche i parametri µ

Page 92: Appunti di probabilità e statistica [2013, 143p]

88 7 LA LEGGE DEI GRANDI NUMERI

Figura 24: Grafici dei quantili, ottenuti per confronto con la legge normale, relativi a unasimulazione (§4.5) della legge normale stessa (a sinistra) e della densita p(x) = 2/[π (1 + x2)]concentrata sull’intervallo [−1, 1] .

-1.5 -1.0 -0.5 0.5 1.0 1.5

-2

-1

1

2

-1.0 -0.5 0.5

-2

-1

1

2

e σ dipenderanno dalle unita di misura utilizzate.7.4 Una situazione piu comune sara quellain cui si possa ipotizzare che la legge sia N [µ, σ] , e in tal caso il grafico dei quantili permettedi verificare l’ipotesi e anche di stimare i valori di µ e σ . Infatti l’inversa della funzione diripartizione

←Φµ,σ(t) = µ+

√2σ

←erf(2 t− 1)

soddisfa ovviamente l’identita

←Φµ,σ = µ+ σ

←Φ , Φ ≡ Φ0,1 .

Pertanto nel grafico dei quantili si avra

←Φµ,σ

( in

) ∼= xi ⇒ µ+ σ←Φ( in

) ∼= xi ,

e quindi i punti di coordinate(xi ,

←Φ(i/n)

)si disporranno nel piano cartesiano lungo la retta

di equazione y = (x− µ)/σ (figura 25).

7.5 Funzioni caratteristiche

Ricordiamo che il campo C dei numeri complessi puo essere visto come R2 con un’ulteriorestruttura di prodotto.7.5 Una variabile aleatoria complessa sara pertanto definita come un

7.4A questo proposito osserviamo che µ e σ hanno le stesse dimensioni fisiche [X] della variabile aleatoriastudiata, di modo che l’esponente −(x− µ)2/(2σ2) e un numero puro, p(x) = exp[−(x− µ)2/2σ2]/(

√2π σ)

ha le dimensioni [X]−1 (densita di probabilita per unita di lunghezza, tempo ecc.) e P (A) =∫Ap(x) dx e un

numero puro.7.5In pratica si puo definire il prodotto di numeri complessi scrivendo ogni elemento (a, b) ∈ R2 come a+ i b e

richiedendo che valgano le regole dell’algebra ordinaria con l’aggiunta di i2 = −1 (si veda l’Appendice B.1 perun eventuale ripasso).

Page 93: Appunti di probabilità e statistica [2013, 143p]

7.5 Funzioni caratteristiche 89

Figura 25: Grafico dei quantili, ottenuti per confronto con la legge normale N [0, 1] , relativia una simulazione della legge normale N [µ, σ] con µ = 2 e σ = 3 . I punti si dispongono nelpiano cartesiano lungo la retta di equazione y = (x− 2)/3 .

-4 -2 2 4 6

-2

-1

1

2

vettore aleatorio Ω→ R2 , quando si tenga conto della suddetta identificazione R2 ∼= C , epotra essere scritta nella forma

Z = X + iY ,

con X,Y : Ω→ R variabili aleatorie reali. Oppure, in forma trigonometrica,

Z = R (cos Θ + i sin Θ) ≡ R exp(i Θ) ,

R := |Z| ≡√X2 + Y 2 , Θ := arg(Z) .

Dato un vettore aleatorio X = (Xi), in generale di dimensione m qualsiasi, e naturale(seconda osservazione del §5.1) definire la sua media come il vettore le cui componenti sono lemedie E[Xi] delle componenti di X. In particolare, nel caso di una variabile aleatoria complessaZ = X + iY , si pone

E[Z] = E[X] + iE[Y ] .

Anche nel campo dei numeri complessi vale la disuguaglianza triangolare |z+ z′| ≤ |z|+ |z′| ,per cui e facile dimostrare (esattamente come per il secondo punto del teorema 5.6) che

|E[Z]| ≤ E[|Z|] .

Sia ora X = (Xi) :→ Rm un vettore aleatorio; diciamo sua funzione caratteristica la

φX : Rm → C : θ 7→ E[ei θ·X ] = E[cos(θ ·X)] + iE[sin(θ ·X)] ,

dove θ ·X ≡ θ1X1 + · · ·+ θmXm e il prodotto scalare del vettore θ ∈ Rm con il vettore aleato-rio X . La definizione di funzione caratteristica e ben data qualunque sia X , perche la mediaE[ei θ·X ] e sempre finita in quanto |E[ei θ·X ]| = 1 . Osserviamo inoltre che e sempre

φX (0) = 1 .

Il teorema 5.5 ci da poi in generale

φX (θ) =

∫Rm

ei θ·x pX (x) dx1...dxm , x ≡ (x1, . . . , xm) ,

Page 94: Appunti di probabilità e statistica [2013, 143p]

90 7 LA LEGGE DEI GRANDI NUMERI

ovvero φX e la cosiddetta trasformata di Fourier7.6 della densita pX (x) .I seguenti risultati si verificano facilmente:

Teorema 7.14.

• Se X,Y : Ω→ Rm sono indipendenti allora φX+Y (θ) = φX (θ) · φY (θ) .

• φ−X (θ) = φX (θ) , la funzione complessa coniugata.

• Se A : Rm → Rn e un’applicazione lineare, φAX (θ) = φX (A∗θ) dove A∗ : Rn → Rm el’applicazione lineare trasposta.7.7

• Se b ∈ Rm e un vettore fissato, φX+b

(θ) = ei b·θ φX (θ)

In particolare, se X e una variabile aleatoria reale e a, b ∈ R si ha

φaX+b

(θ) = ei b θ φX (a θ) ,

dove ora il prodotto scalare e il normale prodotto in R .

E naturale a questo punto chiedersi se e quando una funzione caratteristica sia derivabile.Poiche la funzione θ 7→ ei θ·x e analitica,7.8 cio equivale a chiedersi si possono scambiare leoperazioni di derivazione rispetto a θ e di fare la media (che e un’integrazione). Precisandoquest’idea si dimostra il

Teorema 7.15. Per qualsiasi variabile aleatoria X scalare, la funzione caratteristica φX ri-sulta essere continua. Se X ha momento di ordine k ∈ N allora φX e derivabile k volte, e siha

dk

dθkφX (θ) = E[(iX)k ei θ·X ] .

In particolaredk

dθkφX (0) = ik E[Xk] .

Viceversa, se φX e derivabile k volte con k pari, allora X ha momento di ordine k .

Risultati analoghi, ma un po’ piu intricati da esprimere, valgono per le funzioni caratteri-stiche di vettori aleatori e le derivate parziali rispetto alle componenti θi di θ .

La densita pX definisce univocamente la funzione caratteristica φX ; viceversa, nota lafunzione caratteristica si puo risalire alla densita. Si dimostra infatti la formula di inversione

pX (x) =1

(2π)m/2

∫Rm

e−i θ·x φX (θ) dθ1...dθm .

Esempio 7.1. Densita esponenziale: p(x) = λ e−λx ,

φ(θ) = λ

∫ +∞

0ei θ x e−λx dx = λ

∫ +∞

0e(i θ−λ)x dx =

i θ − λlimx→∞

(e(i θ−λ)x − 1) =λ

λ− i θ,

in quanto |e(i θ−λ)x| = e−λx . ♠

7.6Di solito la trasformata di Fourier e definita con un fattore (2π)−m/2 .7.7Definita da x ·A∗θ = (Ax) · θ ∀ x ∈ Rm .7.8Infinitamente derivabile e sviluppabile in serie di Taylor.

Page 95: Appunti di probabilità e statistica [2013, 143p]

7.5 Funzioni caratteristiche 91

Esempio 7.2. Densita normale: p(x) = N(0, 1)(x) ≡ 1√2π

e−x2/2 ,

φ(θ) =1√2π

∫ +∞

−∞ei θ x e−x

2/2 dx ⇒ φ′(θ) =1√2π

∫ +∞

−∞ix ei θ x e−x

2/2 dx .

Abbiamo calcolato la derivata φ′(θ) ≡ ddθφ(θ) in quanto per determinare φ(θ) dobbiamo ricor-

rere a un trucco, non potendo trovare una primitiva per il primo integrale; nel secondo invecepossiamo fare un’integrazione per parti, che dopo qualche passaggio7.9 da

φ′(θ) = −θ φ(θ) ;

integrando questa equazione differenziale con la condizione iniziale φ(0) = 1 si ottiene7.10

φ(θ) = e−θ2/2 ,

cioe la funzione caratteristica della densita normale N [0, 1](x) e la densita normale N [0, 1](θ)moltiplicata7.11 per

√2π .

Possiamo ora utilizzare questo risultato per trovare la funzione caratteristica di una di-stribuzione Gaussiana con media e varianza (µ, σ2) 6= (0, 1) , osservando che se la densita diX e N [0, 1] allora (esempio 4.17 a pagina 57) la densita di σX +µ e N [µ, σ2] e applicando ilteorema 7.14. Si ottiene

φσX+µ = eiµ θ e−σ2 θ2/2 .

Esempio 7.3. Siano X,Y variabili aleatorie indipendenti con densita Gaussiane N [µ, σ2] eN [ν , τ2] , rispettivamente. Allora la funzione caratteristica della somma X +Y e

φX+Y (θ) = φX (θ)φY (θ) = ei (µ+ν) θ e−(σ2+τ2) θ2

2 .

Pertanto, poiche la funzione caratteristica determina la densita, concludiamo che X +Y hadensita Gaussiana N [µ+ ν, σ2 + τ2] . ♠

Esempio 7.4. Distribuzione binomiale (§3.4): B[n, p](k) = ( nk ) pk (1− p)n−k , p ∈ [0, 1] ,

φ(θ) =n∑k=0

( nk ) pk (1− p)n−k ei k θ =n∑k=0

( nk ) (p ei θ)k (1− p)n−k =

= (1− p+ p ei θ)n .

7.9Scriviamo la formula di integrazione per parti come∫u dv = u v −

∫v du , e poniamo u ≡ ei θ x ⇒

du = i θ ei θ x dx , dv ≡ x e−x2/2 dx ⇒ v =

∫dv = −e−x

2/2 (come si vede subito con il cambio di variabilet = x2/2). Pertanto

φ′(θ) =i√2π

∫ +∞

−∞x ei θ x e−x

2/2 dx =[ei θ x (−e−x

2/2)]+∞−∞− i√

∫ +∞

−∞(−e−x

2/2) i θ ei θ x dx =

= 0− θ√2π

∫ +∞

−∞ei θ x e−x

2/2 dx = −θ φ(θ) .

7.10 d

dθφ = −θ φ ⇒ dφ

φ= −θ dθ ⇒ log φ = − 1

2θ2 + c ⇒ φ = a e−θ

2/2 , con a ≡ ec .

Imponendo φ(0) = 1 si ottiene a = 1 .7.11Se la funzione caratteristica e definita nella maniera standard per le trasformate di Fourier, con il fattore

1/√

2π , allora la distribuzione Gaussiana e la funzione caratteristica di se stessa.

Page 96: Appunti di probabilità e statistica [2013, 143p]

92 7 LA LEGGE DEI GRANDI NUMERI

Esempio 7.5. Distribuzione geometrica (§3.6): f(k) = p (1− p)k , p ∈ [0, 1] ,

φ(θ) =

∞∑k=0

p (1− p)k ei k θ = p

∞∑k=0

[(1− p) ei θ]k

=1

1− (1− p) ei θ.

Esempio 7.6. Distribuzione di Poisson (§3.5): f(k) = 1k! e−λ λk ,

φ(θ) = e−λ∞∑k=0

1

k!λk ei k θ = e−λ

∞∑k=0

1

k!(λ ei θ)k =

= e−λ eλ ei θ= eλ (ei θ−1) .

7.6 Convergenza in legge e Teorema Limite Centrale

Ricordiamo (§7.2) che una successione (Xn) di variabili aleatorie e detta convergere in legge auna variabile aleatoriaX se la successione (Fn) delle rispettive funzioni di ripartizione convergepuntualmente alla funzioni di ripartizione F ≡ FX in tutti i punti di continuita di quest’ultima.

Teorema 7.16. (P. Levy)Siano (Xn) una successione di variabili aleatorie e X una variabile aleatoria; siano poi φn lafunzione caratteristica di Xn e φ la funzione caratteristica di X . Allora Xn → X in legge see solo se φn → φ puntualmente, ovvero φn(θ)→ φ(θ) per ogni θ ∈ R .

Esempio 7.7. Supponiamo che (come avviene in molti esempi discreti) tutte le variabili alea-torie in esame prendano valori interi positivi, X,Xn : Ω→ N . In tal caso la convergenza inlegge e equivalente alla condizione che per ogni k ∈ N si abbia

limn→∞

PXn = k = PX = k .

Supponiamo infatti che Xn → X in legge; scelto ε ∈ (0, 1) si ha che F e continua in k+ ε e ink− ε per k ∈ N (tutt’al piu F puo essere discontinua in k), per cui

PXn = k = Fn(k+ ε)− Fn(k− ε) n→∞−→ F (k+ ε)− F (k− ε) = PX = k .

Viceversa supponiamo che PXn = k → PX = k per ogni k ∈ N; indicando con bxc la parteintera7.12 di x ∈ R si ha

Fn(x) = PXn≤x =

bxc∑k=0

PXn = k n→∞−→bxc∑k=0

PX = k = PX ≤x = F (x) .

In particolare, Xn ∼ B[n, λ/n] converge in legge a X ∼ p[λ](n) di Poisson. Si noti che unragionamento analogo (con qualche piccola complicazione formale) vale se tutte le variabilialeatorie prendono valori in un insieme discreto con un’opportuna ipotesi di separazione tragli elementi (per esempio ∃ η > 0 tale che la distanza tra due elementi qualsiasi e > η). ♠

7.12Il piu grande intero ≤ x .

Page 97: Appunti di probabilità e statistica [2013, 143p]

7.6 Convergenza in legge e Teorema Limite Centrale 93

Esempio 7.8. Riprendiamo il caso del dado regolare, Ω = 1, 2, 3, 4, 5, 6 con distribuzionedi probabilita uniforme, e variabile aleatoria X : Ω→ R definita semplicemente da X(i) = i(esempio 4.3). Ricordiamo che la densita e la funzione di ripartizione determinate daX possonoessere scritte nella forma

p(x) =1

6

6∑i=1

δ(x− i) , F (x) =1

6

6∑i=1

H(x− i) ,

con δ ≡ δ0 e H ≡ H0 . Consideriamo poi la successione (Xn) di variabili aleatorie data da

Xn(i) = i+1

n.

In maniera del tutto analoga, le successioni pn e Fn delle corrispondenti densita e funzioni diripartizione sono

pn(x) =1

6

6∑i=1

δ(x− i− 1/n) , Fn(x) =1

6

6∑i=1

H(x− i− 1/n) .

Vediamo allora che Xn → X in legge; infatti i punti di discontinuita della F sono gli x ∈ N6 , eper x diverso da uno di questi valori si ha evidentemente Fn(x)→ x . Si osservi poi che nei puntidi discontinuita si ha invece Fn(x) 6→ F (x) ; infatti i ∈ N6 ⇒ Fn(i) = (i− 1)/6 = limn Fn(i) ,mentre F (i) = i/6 . ♠

Esempio 7.9. Sia X ∼ δµ : abbiamo cioe una variabile aleatoria che prende il valore µ conprobabilita 1 . Abbiamo visto (§2.4) che la distribuzione δµ puo essere rappresentata comelimite della successione di distribuzioni normali N [µ, 1/n] , quindi e naturale chiedersi seXn ∼ N [µ, 1/n] tenda a X in legge. A tale scopo consideriamo le funzioni caratteristicheφ ≡ φX e φn ≡ φXn ; si ha

φ(θ) =

∫ +∞

−∞δµ(x) ei θ x dx = eiµ θ ,

φn(θ) = eiµ θ e−θ2/2n ,

dove si e utilizzato l’esempio 7.2. Poiche φn(θ)→ φ(θ) per ogni θ , per il teorema di Levyrisulta verificata la convergenza in legge. ♠

Esempio 7.10. Consideriamo ora una successione Xn ∼ N [µ, n] . Poiche

pn(x) =1√

2π ne−n (x−µ)2/2

si ha pn(x)→ 0 ∀ x , che non e una densita. Dunque qui si puo prevedere qualche problema,e infatti la successione delle funzioni caratteristiche φn e

φn(θ) = eiµ θ e−n θ2/2 n→∞−→

0 , θ = 0 ,

eiµ θ , θ 6= 0 .

Poiche questo limite e una funzione φ(θ) che e diversa da zero solo in un punto, dal punto divista degli integrali equivale alla funzione identicamente nulla; e in effetti non e la funzione

Page 98: Appunti di probabilità e statistica [2013, 143p]

94 7 LA LEGGE DEI GRANDI NUMERI

caratteristica di alcuna distribuzione di probabilita7.13 (ricordiamo anche, dal teorema 7.15,che una funzione caratteristica e continua, mentre la funzione limite ora trovata non lo e).

Teorema 7.17. (Limite Centrale) Sia (Xn) una successione di variabili aleatorie indipendentiaventi tutte la medesima distribuzione, con media µ ≡ E[Xn] e varianza σ2 ≡ Var[Xn] . Allorala successione7.14

n 7→ Sn :=X1 + · · ·+Xn − nµ

σ√n

≡√n

σ(Xn − µ) ,

converge in legge a una variabile aleatoria S ∼ N [0, 1] .

Dimostrazione: Poniamo Yk ≡ (Xk−µ)/σ , per cui le variabili aleatorie Yk hanno tutte lastessa legge, con E[Yk] = 0 e Var[Yk] = 1 , e si ha

Sn =1√n

n∑k=1

Yk .

Dette φ ≡ φYk la funzione caratteristica e p ≡ pYk la legge delle Yk abbiamo

φYk/√n(θ) =

∫ +∞

−∞e

i x√nθp(x) dx = φ(θ/

√n) ,

da cui, utilizzando7.15 il primo punto dell’enunciato del teorema 7.14,

φSn (θ) = [φ(θ/√n)]n .

Per n→∞ si ha φ(θ/√n)→ φ(0) = 1 , pertanto il limn φSn (θ) e un caso indeterminato della

forma 1∞. Lo calcoliamo utilizzando gli sviluppi in serie, dal momento che θ/√n e infinitesimo.

Per sviluppare φ(θ) nell’intorno di θ = 0 osserviamo (utilizzando anche il teorema 7.15) che

φ(0) = 1 , φ′(0) = iE[Yk] = 0 , φ′′(0) = i2 E[(Yk)2] = −Var[Yk] = −1 .

Pertanto φ(θ) = 1− 12 θ

2 + o(|θ|2) , ovvero, per θ fissato e n→∞ ,

φ( θ√

n

)= 1− θ2

2n+ o( 1

n

).

Sostituendo questa espressione nel limite cercato abbiamo

limn→∞

φSn (θ) = limn→∞

(1− θ2

2n

)n= e−θ

2/2 .

Poiche (esempio 7.2) questa e proprio la funzione caratteristica della legge normale N [0, 1] ,l’enunciato e dimostrato.

Osservazione. Ricordando il secondo punto dell’enunciato del teorema 5.9, vediamo allorache la successione

√n (Xn − µ) converge in legge a Sσ ∼ N [0, σ2] ♣

7.13Nella teoria delle trasformate di Fourier si dimostra che l’operazione che a una distribuzione fa corrisponderela sua trasformata e invertibile, cioe nota la trasformata di una distribuzione si puo risalire alla distribuzionestessa mediante un’operazione simile che e detta antitrasformata.7.14 Sn e detta anche “somma standardizzata” delle Xi .7.15Le Xk sono indipendenti, e dal teorema 4.3 (pagina 51) segue che anche le Yk lo sono. D’altra parte,

una facile estensione dell’esempio 4.16 mostra che se X e Y hanno densita congiunta p , allora X ≡ aX + b eY ≡ cY + d con a, c 6= 0 hanno densita congiunta p(x, y) = 1

|ac| p(x−ba, y−d

c) ; dunque X e Y sono indipendenti

se e solo se anche X e Y lo sono.

Page 99: Appunti di probabilità e statistica [2013, 143p]

7.7 Approssimazione normale 95

7.7 Approssimazione normale

Il teorema del Limite Centrale ha una particolare importanza; dice che, per n grande, lalegge di Sn (che in generale sara complicata) puo essere approssimata con una legge normale,qualunque sia la legge delle Xn (purche con varianza finita). Anzi si puo dimostrare unaversione del teorema anche con ipotesi piu deboli, senza richiedere che le Xn abbiano tuttela stessa legge. Cio spiega come mai la distribuzione Gaussiana e cosı comune in natura, sipotrebbe dire onnipresente. Pensiamo alle misure di una grandezza fisica, che sono in generaleaffette da piccoli errori casuali. Per esempio le misure delle emissioni monocromatiche di undato atomo mostrano un andamento gaussiano nell’intorno della frequenza teorica (figura 26).

Figura 26: Spettro di emissione dell’idrogeno nel visibile. La luce emessa dall’atomo passaattraverso una fenditura e poi attraverso un prisma, che la scompone nelle varie frequenze.Per una luce “bianca” si ottiene uno spettro continuo che mostra tutti i colori dell’iride, nelcaso di un atomo di una data specie si ottengono invece delle righe, che sono immagini dellafenditura alle frequenze di emissione dell’atomo; frequenze che possono assumere solo certivalori discreti, corrispondenti a transizioni tra i livelli di energia degli elettroni dell’atomo.Ciascuna riga e la somma di un gran numero di eventi singoli: l’emissione di un fotone da partedell’atomo. Per l’indeterminazione inerente le misure quantistiche, la frequenza di ciascunfotone non risulta avere esattamente il valore corrispondente all’energia di transizione (inbase alla formula di Planck E = h ν); la si puo invece considerare come il valore assunto dauna variabile aleatoria con media uguale a tale frequenza. Pertanto il profilo di ciascuna riga(cioe il grafico dell’intensita di emissione in funzione della frequenza) risulta avere in praticaun andamento gaussiano.

Il teorema del Limite Centrale puo essere utilizzato per valutazioni approssimate, che sibasano sul modo seguente di esprimere il medesimo enunciato: per ogni x ∈ R si ha

limn→∞

PX1 + · · ·+Xn − nµ

σ√n

≤ x

= Φ(x) ,

dove

Φ(x) :=

∫ x

−∞N [0, 1](ξ) dξ =

1

2

(1 + erf

( x√2

))e la funzione di ripartizione della legge normale (§6.5). Dunque per n abbastanza grande siavra

PX1 + · · ·+Xn − nµ

σ√n

≤ x ∼= Φ(x) .

Page 100: Appunti di probabilità e statistica [2013, 143p]

96 7 LA LEGGE DEI GRANDI NUMERI

Supponiamo allora di voler stimare la probabilita PX1 + · · ·+Xn ≤ x per un certox ∈ R ; scriveremo

PX1 + · · ·+Xn ≤ x = PX1 + · · ·+Xn − nµ

σ√n

≤ x− nµσ√n

∼= Φ(x− nµσ√n

).

Nei tempi bui quando non c’erano i computer si avevano a disposizione delle tabelle dei valoridi Φ(x) , in modo da poter dare una risposta approssimata a un dato problema. Tutto sommatopotrebbe esserci utile anche oggi (figura 27), visto che la funzione Φ(x) non e presente nellenormali calcolatrici tascabili.

Figura 27: Valori di Φ(x) ≡ 12 [1 + erf( x√

2)] , approssimati alle due cifre decimali, per

−2.57 ≤ x < 2.58 a passi di 0.01 . Sono riportati solo i valori di x in cui il valore appros-simato di Φ(x) cambia; cosı, per esempio, Φ(x) vale circa 0.07 tra −1.51 e −1.42 ; inoltre Φ(x)vale circa 0 (sempre con l’approssimazione di due cifre decimali) per x ≤ −2.58 , e circa 1 perx ≥ 2.58 . Come vedremo nel §8.3, questa e la tabella dei cosiddetti percentili (o 100-quantili)della densita normale.

x −2.57 −2.17 −1.95 −1.81 −1.69 −1.59 −1.51 −1.43 −1.37 −1.31

Φ(x) 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10

x −1.25 −1.20 −1.15 −1.10 −1.05 −1.01 −0.97 −0.93 −0.89 −0.85

Φ(x) 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20

x −0.82 −0.78 −0.75 −0.72 −0.69 −0.65 −0.62 −0.59 −0.56 −0.53

Φ(x) 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30

x −0.51 −0.48 −0.45 −0.42 −0.39 −0.37 −0.34 −0.31 −0.29 −0.26

Φ(x) 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.40

x −0.24 −0.21 −0.18 −0.16 −0.13 −0.11 −0.08 −0.06 −0.03 −0.01

Φ(x) 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50

x 0.02 0.04 0.07 0.09 0.12 0.14 0.17 0.19 0.22 0.25

Φ(x) 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60

x 0.27 0.30 0.32 0.35 0.38 0.40 0.43 0.46 0.49 0.52

Φ(x) 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.70

x 0.54 0.57 0.60 0.63 0.66 0.70 0.73 0.76 0.79 0.83

Φ(x) 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.80

x 0.86 0.90 0.94 0.98 1.02 1.06 1.11 1.16 1.21 1.26

Φ(x) 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90

x 1.32 1.38 1.44 1.52 1.60 1.70 1.82 1.96 2.18 2.58

Φ(x) 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1.00

Esempio 7.11. Nell’esperimento “lancio di una moneta” sia Pcroce = p , Ptesta = 1− p .In uno schema di Bernoulli di n lanci sia poi Xi la variabile aleatoria che assegna il valore 1

Page 101: Appunti di probabilità e statistica [2013, 143p]

7.7 Approssimazione normale 97

Figura 28: Grafico di Φ(x) = 12 [1 + erf( x√

2)] , la funzione di ripartizione della densita

N [0, 1](x) .

-3 -2 -1 1 2 3

0.2

0.4

0.6

0.8

1.0

a “croce nell’i-esimo lancio” e 0 a “testa nell’i-esimo lancio”. Si ha

µ ≡ E[Xi] = 0 · (1− p) + 1 · p = p ,

σ2 ≡ Var[Xi] = (0− p)2 · (1− p) + (1− p)2 · p = p (1− p) .

Allora la probabilita dell’evento

E ≡ “esce non piu di k volte croce in n lanci”

e data da

P (E) = PX1 + · · ·+Xn ≤ k ∼= Φ(k − nµσ√n

)= Φ

( k − n p√p (1− p)n

).

Ad esempio, la probabilita di ottenere non piu di di 65 volte croce in 100 lanci, se la probabilitadi ottenere croce in ciascun lancio e 0.6 , risulta essere

PX1 + · · ·+X100 ≤ 65 ∼= Φ( 65− 100 · 0.6√

0.6 · 0.4 · 100

)∼= Φ(1.02) .

Per valutare Φ(1.02) andiamo alla tabella e vediamo che la nostra valutazione della proba-bilita richiesta e circa 0.85 . Giocando un po’ con i numeri si vede che, come ci si aspetta,Ph ≤ X1 + . . . +X100 ≤ k e sensibilmente diversa da 0 per h e k vicini a n p .In effetti riportando in funzione di k

pk ≡ PX1 + . . . +X100 = k =

= PX1 + . . . +X100 ≤ k −− PX1 + . . . +X100 ≤ k − 1 ∼=

∼= Φ( k − n p√

p (1− p)n

)− Φ

( k − 1− n p√p (1− p)n

)50 60 70 80

0.02

0.04

0.06

0.08

si ottiene il grafico qui accanto. ♠

Page 102: Appunti di probabilità e statistica [2013, 143p]

98 7 LA LEGGE DEI GRANDI NUMERI

Osservazione. Il valore di n necessario perche l’approssimazione normale sia buona variacon il tipo di esperimento considerato; di solito si suppone, in base a dati empirici, che ilvalore minimo di n debba essere compreso tra 30 e 50. Un aspetto interessante della faccendae che se la distribuzione delle Xi e simmetrica rispetto alla media, allora basta un valoredi n piu basso. Nella figura qua sotto sono riportati i risultati delle simulazioni di Sn pern = 20 , rispettivamente per variabili aleatorie Xi uniformemente distribuite nell’intervallo[0, 1] e per variabili aleatorie con legge esponenziale p(x) = e−x in [0,∞) . Il range dei valoriassunti dalle variabili aleatorie e stato suddiviso in intervalli di ampiezza 0.1 , e per ciascuno diessi si e riportata nel grafico la percentuale di eventi in cui S20 ha assunto un valore compresonell’intervallo.

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

Osservazione. Le considerazioni dell’esempio 7.11 si applicano al seguente problema: vo-gliamo decidere se una moneta e regolare facendo un certo numero di lanci. Se la moneta eeffettivamente regolare ci si aspetta, come si e gia osservato in precedenza, che circa la metadelle volte venga “testa”; anche se si trova una frazione molto differente non possiamo esseresicuri che la moneta sia irregolare, ma possiamo dare una risposta probabilistica: per esempio,per una moneta regolare la probabilita di ottenere “testa” non piu di 55 volte su 100 lanci e

PX1 + · · ·+X100 ≤ 55 ∼= Φ(55− 100 · 0.5

0.5√

100

)= Φ(1.0) ∼= 0.84 .

Quindi la probabilita di ottenere “testa” piu di 55 volte e circa 1− 0.84 = 0.16 . ♣

Esempio 7.12. Per un velivolo di 220 posti una compagnia aerea accetta 250 prenotazioni,sapendo che in media il 13% di coloro che hanno prenotato non si presenta. Supponendoche la decisione di ciascun passeggero se presentarsi o no sia descrivibile come esito di unesperimento del tipo schema di Bernoulli, qual’e la probabilita che tutti i passeggeri trovinoeffettivamente posto? La risposta e

PX1 + · · ·+X250 ≤ 220 ∼= Φ( 220− 250 · 0.87√

0.13 · 0.87 · 250

)∼= Φ(0.47) ∼= 0.68 .

Con questi numeri la compagnia rischia di fare imbufalire diversi passeggeri; supponiamo allorache certi criteri “di qualita” richiedano che tutti i passeggeri trovino posto con probabilitadel 95% ; quante prenotazioni si possono accettare? Guardando ancora la tabella abbiamo cheΦ(x) ∼= 0.95 per x = 1.60 ; pertanto, detto n il numero massimo di prenotazioni accettabili, siottiene

220− n · 0.87√0.13 · 0.87 · n

= 1.60 ⇒ n ∼= 243.228 ,

Page 103: Appunti di probabilità e statistica [2013, 143p]

7.7 Approssimazione normale 99

dunque non piu di 243 prenotazioni. Diminuendo ancora di poco il numero di prenotazioni siottiene un ottimo risultato: con n = 240 , per esempio, la probabilita che tutti trovino postoe quasi del 99%. ♠

Esempio 7.13. Nell’esperimento detto del “gatto di Schrodinger” un gatto viene chiuso inun contenitore a tenuta stagna, nel quale l’apertura di una capsula di cianuro viene attivatadall’emissione di un certo atomo che decade: il gatto rimane in vita finche l’atomo non decade(si tratta di un esperimento “ideale”, non risulta che nessuno lo abbia mai eseguito in pra-tica). Pertanto la variabile aleatoria “tempo di vita del gatto” segue una legge esponenzialep(t) = e−t/τ/τ , con media e varianza7.16

µ =

∫ ∞0

t

τe−t/τ dt = τ , σ2 =

∫ ∞0

(t− τ)2

τe−t/τ dt = τ2 .

Facciamo ora una variante dell’esperimento, in cui il decadimento di un atomo non attival’apertura della capsula ma un dispositivo analogo, che a sua volta ne attiva un terzo e cosıvia; il gatto viene ucciso solo quando l’ultimo di n dispositivi viene azionato.

La probabilita che il gatto sia morto entro un tempo h τ e dunque

PX1 + · · ·+Xn ≤ h τ ∼= Φ((h− n) τ

τ√n

)= Φ

((h− n)√n

).

Per esempio se τ = 1 minuto e n = 30 , la probabilita che il gatto sia morto entro 35 minuti ecirca Φ(5/

√30) ∼= Φ(0.91) , ovvero intorno all’82%. ♠

In conclusione: di regola si potra utilizzare l’approssimazione normale quando si conside-rano effetti cumulativi di un numero abbastanza grande di processi aleatori indipendenti; enecessario conoscere la media e la varianza del singolo processo, ma non la sua legge precisa.Cercare di immaginarsi esempi diversi puo essere un utile esercizio.

7.16Le primitive∫t p(t) dt = −(t+ τ) e−t/τ e

∫(t− τ)2 p(t) dt = −(t2 + τ2) e−t/τ si trovano facilmente

mediante un’integrazione per parti.

Page 104: Appunti di probabilità e statistica [2013, 143p]

100 8 ELEMENTI DI STATISTICA

8 Elementi di statistica

8.1 Statistica descrittiva e statistica inferenziale

In termini molto semplificati, la statistica e la disciplina che si occupa della raccolta e dell’ana-lisi di dati sperimentali, al fine di formulare descrizioni utili dei fenomeni studiati e, possibil-mente, di costruirne dei modelli matematici probabilistici. Si tratta di un campo vastissimo,con problematiche che vanno dalle modalita di raccolta dei dati, al modo di organizzarli epresentarli (“statistica descrittiva”), ai metodi di analisi (“statistica inferenziale”) che utiliz-zano procedure molto diversificate e sofisticate. E quindi evidente che noi potremo solo dareun “assaggio” di metodi statistici, nella speranza che le idee assimilate siano di aiuto per unfuturo studio, piu approfondito, dei metodi utilizzati nel campo di competenza di ciascuno.

Le situazioni in cui si applicano questo metodi sono le piu svariate. Ci sono le analisidei risultati sperimentali riguardo a un fenomeno fisico, sia che questo abbia una natura es-senzialmente aleatoria sia che l’incertezza riguardi principalmente il processo di misura (siraccogliera di regola il numero maggiore possibile di dati cercando di ripetere l’esperimento incondizioni il piu possibile identiche). Ci sono la raccolta e l’analisi dei dati riguardo a popo-lazioni, ambiente, farmaci; e cio al fine di prendere decisioni riguardo a questioni economiche,mediche, biologiche, di progetto e pianificazione territoriale, eccetera.

Un aspetto importante e “quanti dati si devono raccogliere per costruire un modello affida-bile”. E chiaro che se si deve decidere su questioni di programmazione economica non si puo,di regola, disporre dei dati riguardo a tutti gli individui di una popolazione, ma si dovra agirein base a un campione limitato. Questo e anche un aspetto molto delicato dell’indagine stati-stica, perche e facilissimo, se non si procede in maniera scrupolosa e in base a criteri provati,costruire un modello a partire da un campione “bacato”, nel quale per esempio vi siano corre-lazioni nascoste che falsano in partenza i risultati; cosı, per fare un caso banale, se si conduceun’indagine sulle preferenze dei consumatori in un quartiere ricco o in un quartiere povero,oppure in particolari fasce orarie, difficilmente i risultati saranno estendibili a tutta la popo-lazione. Infatti in questo tipo di indagini (come in quelle sulle tendenze politiche) la raccoltadati deve essere fatta scegliendo i campioni in numerose “celle” omogenee che rappresentinole diverse fasce di popolazione secondo una caratterizzazione basata su molti parametri; alprofano viene il sospetto che questo particolare campo della statistica stia a cavallo tra lascienza e l’arte, e comunque dipenda in larga misura da un progressivo raffinamento delletecniche basato anche su tentativi e raffronti sperimentali di vario tipo.

Ma i trabocchetti della statistica riguardano anche l’analisi dei dati e le conseguenze chese ne traggono. Gli annali sono pieni di clamorose cantonate, prese per superficialita o anchein malafede. In effetti e spesso facilissimo “piegare” l’interpretazione dei dati per sostenereuna tesi precostituita, in modo da ingannare chi non e “addetto ai lavori”.

Nonostante tutte le difficolta a cui abbiamo accennato, o forse almeno in parte proprioin virtu di queste, la statistica e un campo d’indagine affascinante e importantissimo, conimplicazioni filosofiche e metodologiche complesse; potremmo perfino affermare che e legatostrettamente alla natura stessa della nostra percezione e rappresentazione della realta.

8.2 Stimatori fondamentali

Come abbiamo gia osservato, il compito essenziale della statistica potrebbe essere descrittoin maniera concisa come la costruzione di un modello matematico probabilistico di un datoprocesso aleatorio utilizzando dei dati empirici. Di solito questo modello non sara comple-tamente sconosciuto: potremmo avere delle idee a piori sul tipo di distribuzione, e magari,

Page 105: Appunti di probabilità e statistica [2013, 143p]

8.2 Stimatori fondamentali 101

nel caso migliore, puo darsi che ci sia da determinare solo un parametro o due. Ad esempiopuo darsi che si sappia di gia, o si possa ipotizzare, che il fenomeno e descrivibile medianteuna distribuzione di probabilita di tipo Gaussiano (magari per analogia con fenomeni simili,o altre considerazioni di vario tipo); in tal caso si deve solo determinare (o meglio, stimare)la media µ e la varianza σ2 . Ma il problema, in generale, puo essere piu complesso.

In molti casi (ma non sempre) la questione puo essere impostata, in maniera un po’ gene-rica, come segue. Se il processo aleatorio e descritto da uno spazio di probabilita (Ω1,E, P ) ,allora

Ωn ≡ Ωn1 ≡ Ω1 × · · · × Ω1

e lo spazio dei campioni che descrive la ripetizione dell’esperimento n volte. Sia poi

X ≡ X1 : Ω1 → Rd

una variabile aleatoria (scalare o vettoriale), e indichiamo con Xi , 1 ≤ i ≤ n , la variabilealeatoria definita da

Xi(ω1 , . . . , ωn) := X1(ωi) .

Allora le Xi sono variabili aleatorie indipendenti e aventi la medesima densita (dunque, inparticolare, si applicano ad esse la legge dei Grandi Numeri e il teorema Limite Centrale). Idati empirici di cui si diceva consisteranno in una n-upla

(x1 , . . . , xn) =(Xi(ω)

)≡(X1(ωi)

)di valori assunti dalle Xi per un certo ω ≡ (ω1 , . . . , ωn) ∈ Ωn .

I vari metodi per valutare la plausibilita di un modello probabilistico consistente con idati empirici si basano prima di tutto su certe nuove variabili aleatorie, dette stimatori ; unostimatore T in generale ha la forma

T = τ (X1 , . . . , Xn) : Ωn → Rm ,

essendo τ : Rn → Rm un’applicazione sufficientemente regolare.Elenchiamo di eseguito alcuni degli stimatori piu comuni.8.1

• La media aritmetica (o media calcolata, o media campionaria)

X :=1

n

n∑i=1

Xi ≡1

n(X1 + · · ·+Xn) .

• La media geometrica

Xgeom :=( n∏i=1

Xi

)1/n≡ n√X1 ·X2 · · ·Xn .

• La media armonica

Xarm :=n∑ni=1

1Xi

≡ n1X1

+ · · ·+ 1Xn

.

8.1Attenzione a non confondere uno stimatore con l’eventuale quantita, avente lo stesso nome, definita peruna data variabile aleatoria. Cosı, ad esempio, gli stimatori “media” e “varianza” non vanno confusi con lamedia E[Xi] e la varianza Var[Xi] , anche se sono ad esse collegati.

Page 106: Appunti di probabilità e statistica [2013, 143p]

102 8 ELEMENTI DI STATISTICA

• Il campo di variazione (o estensione, o range)

R[X] := maxXi −minXi .

• La deviazione media

MD[X] :=1

n

n∑i=1

|Xi − X| .

• La deviazione standard (o scarto quadratico medio) e la varianza

S[X] :=

√√√√ 1

n

n∑i=1

(Xi − X)2 , S2[X] =1

n

n∑i=1

(Xi − X)2 .

• La deviazione standard e la varianza campionarie (o corrette)

S[X] :=

√√√√ 1

n− 1

n∑i=1

(Xi − X)2 , S2[X] =1

n− 1

n∑i=1

(Xi − X)2 .

• Il momento terzo o indice di asimmetria

A[X] :=

∑ni=1(Xi − X)3(∑n

i=1(Xi − X)2)3/2 .

• Il momento quarto o indice di curtosi

K[X] :=

∑ni=1(Xi − X)4(∑ni=1(Xi − X)2

)2 .

Gli ultimi due stimatori sono meno usati degli altri; il loro ruolo e un “raffinamento” nelladescrizione dei dati ottenuti. Cosı, A[X] assume valore 0 per una n-upla di dati

(Xi(ω)

)che sia

distribuita simmetricamente intorno alla media; se assume valore negativo indica che si sonoottenuti piu valori inferiori alla media (e viceversa). L’indice di curtosi e una misura del pesodelle “code” rispetto alla parte centrale; si confronta con quanto accade per la distribuzionenormale, a cui viene attribuito un valore di curtosi pari a 3 (distribuzione “a picco”, cioe concode “leggere”, per K[X] < 3 , e “piatte” per K[X] > 3).

Gli stimatori sopra elencati dal campo di variazione in poi sono anche detti misure didispersione.

Discuteremo in seguito, anche con alcuni esempi, l’utilizzo di questi stimatori. Per ora cilimitiamo a un paio di osservazioni, la prima delle quali e che la media aritmetica X e lamaniera piu ovvia per stimare la media E[X] della variabile aleatoria X ; in effetti la leggedei Grandi Numeri ci dice che se scegliamo un campione (x1 , . . . , xn) =

(X1(ω), . . . , Xn(ω)

)con n abbastanza grande, ci si puo aspettare che X(ω) sia circa uguale a E[X] . A naso, undiscorso analogo dovrebbe valere per la varianza. Vediamo. Supponiamo prima di tutto chela media µ = E[X] sia nota. Allora

E[ 1

n

n∑i=1

(Xi − µ)2]

=1

n

n∑i=1

E[(Xi − µ)2

]=

1

nnVar[Xi] = Var[Xi] .

Page 107: Appunti di probabilità e statistica [2013, 143p]

8.2 Stimatori fondamentali 103

In tal caso sara quindi naturale usare proprio 1n

∑(Xi − µ)2 come stimatore della varianza.

Se invece µ non e noto (cioe dobbiamo stimare sia µ che σ2) allora dobbiamo utilizzare lostimatore S2[X] . Vogliamo calcolarne la media. Prima di tutto osserviamo che

n∑i=1

(Xi − X)2 =n∑i=1

(Xi)2 + n X2 − 2 X

n∑i=1

Xi =n∑i=1

(Xi)2 − n X2

(avendo utilizzato∑

iXi = n X). Inoltre (teorema 5.9) si ha Var[X] = E[X2]− E[X]2 , da cui

E[X2] = Var[X] + E[X]2 =1

n2nVar[Xi] + E[Xi]

2 =1

nVar[Xi] + E[Xi]

2 ,

e si ottiene

E[ n∑i=1

(Xi − X)2]

= E[ n∑i=1

(Xi)2]− E

[n X2

]=

n∑i=1

E[(Xi)

2]− nE[X2] =

=n∑i=1

(Var[Xi] + E[Xi]

2)−(Var[Xi] + nE[Xi]

2)

=

= nVar[Xi]− Var[Xi] = (n− 1)Var[Xi] .

Dunque vediamo che

E[S2[X]] =n− 1

nVar[Xi] , E[S2[X]] = Var[Xi] .

Insomma S2[X] e un cosiddetto stimatore non distorto di σ2 ≡ Var[Xi] , mentre S2[X] nonha questa proprieta. Continuando a usare questa terminologia, potremmo dire che X e unostimatore non distorto di µ ≡ E[Xi] , in quanto

E[X] =1

n

n∑i=1

E[Xi] = µ .

Osserviamo poi che si ha, identicamente,

n∑i=1

(Xi − X) =n∑i=1

Xi − n X = n X − n X = 0 ,

ovvero “la somma algebrica degli scarti dalla media e zero”.Un’ulteriore osservazione: se la variabile aleatoria X e a valori positivi si ha

Xarm ≤ Xgeom ≤ X ,

e l’uguaglianza vale se le Xi prendono tutte lo stesso valore.8.2

Esercizio. In alcuni casi si considera la media ponderata, in cui ai possibili valori di Xvengono attribuiti dei “pesi” a priori; darne una definizione precisa e fare qualche esempio.

8.2Infatti essendo concava la funzione logaritmo si ha

logX ≡ 1

n(logX1 + · · ·+ logXn) ≤ log

[ 1

n(X1 + · · ·+ logXn)

]≡ logX ,

per cui

Xgeom = e1n

(logX1+···+logXn) ≤ elog[

1n

(X1+···+logXn)]≡ elogX = X .

Inoltre1

Xarm

= 1/X ≥ 1/Xgeom

= n

√1

X1· · · · · 1

Xn=

1

Xgeom

.

Page 108: Appunti di probabilità e statistica [2013, 143p]

104 8 ELEMENTI DI STATISTICA

8.3 Quantili

Abbiamo gia incontrato brevemente i quantili nel §7.4. Ricordiamo che per ogni “n-upla didati” x ≡ (xi) ∈ Rn si considera la funzione di ripartizione “empirica”

Fx(t) =1

n

n∑i=1

H(t− xi) .

Se poi X ≡ (Xi) e un vettore aleatorio n-dimensionale, si considera l’oggetto aleatorio FX

FX (t) ≡ Fn(t) :=1

n

n∑i=1

H(t−Xi) ,

che associa una funzione di ripartizione empirica ad ogni esperimento. Si e anche gia vistocome Fn costituisca, in sostanza, uno stimatore della funzione di ripartizione delle Xi , inquanto converge quasi certamente ad essa.8.3

Abbiamo poi visto che i quantili, relativamente a una n-upla di dati, sono i punti didiscontinuita della funzione di ripartizione empirica determinata da questa; piu precisamentesi dice i-esimo quantile (o i-esimo n-quantile) della n-upla x l’elemento8.4

qi(x) := xi , 1 ≤ i < n ,

dove x := (x1 , . . . , xn) indica la medesima n-upla riordinata. Dunque qi(x) divide x nei duesottoinsiemi

(xh)h≤i , (xh)h>i ,

di cardinalita rispettivamente i ed n− i .Se k ∈ N e un sottomultiplo di n , la n-upla ordinata x dei dati puo essere suddivisa in k

sottoinsiemi di cardinalita h = n/k nel modo seguente:

x = (x1 , . . . , xh) ∪ (xh+1 , . . . , x2h) ∪ · · · ∪ (xn−h+1 , . . . , xn) .

L’elemento piu grande del j-esimo di questi sottoinsiemi, ovvero

qj,k := xj h ≡ xj n/k

e detto il j-esimo k-quantile: e l’elemento di x che suddivide i dati tra i j sottogruppi din/k elementi che hanno valori non superiori a qj,k , e gli altri k− j gruppi di dati, con valorimaggiori di qj,k . In altri termini, i k-quantili suddividono gli n dati in k sottogruppi contenentiil medesimo numero di elementi.

Questo modo di suddividere i dati, anche se a prima vista puo sembrare arbitrario, e im-portante in statistica, soprattutto negli studi sulle popolazioni. Ora e chiaro che la condizioneche k debba essere un sottomultiplo di n , per poter parlare di k-quantili, e una seccatura ab-bastanza inutile: immaginiamoci di raccogliere un numero n molto grande di dati, e di volerlisuddividere in k= 20 classi (pensiamo alle classi d’eta tra i consumatori, o alla fascia di pesotra coloro che prendono un certo farmaco); sarebbe assurdo non poterlo fare perche i datiraccolti sono (mettiamo) n= 6133 ; potremmo scartare 13 dati scelti a caso, ma in realta non

8.3Piu precisamente, secondo la definizione di stimatore che abbiamo dato in precedenza (§8.2), Fn(t) e unostimatore per ciascun t ∈ R .

8.4Si noti che ci sono solo n− 1 quantili, perche i casi i= 0 e i= 1 non vengono considerati (per lo meno disolito).

Page 109: Appunti di probabilità e statistica [2013, 143p]

8.3 Quantili 105

e necessario perche quello che ci interessa e suddividere i dati approssimativamente in k classinel modo migliore possibile. Si sceglie allora un qualche criterio per fissare qj,k se j n/k none intero. Per esempio si potrebbe porre qj,k := xh dove h ≡ bj n/kc e la parte intera di j n/k(cioe il piu grande intero < j n/k) , oppure prendere la media tra xh e xh+1 , ovvero

qj,k :=

xj n/k , j n/k ∈ N ,

12 (xh + xh+1) , h ≡ bj n/kc , j n/k 6∈ N .

Nella letteratura e nell’uso esistono varie altre definizioni leggermente diverse (a cui non siamointeressati in questa sede). E chiaro allora che la funzione di ripartizione empirica determinatadai (qj,k) , j = 1, . . . , k− 1 sara una versione “piu grossolana” di quella determinata da tuttala lista originale x dei dati (figura 29).

Figura 29: Funzione di ripartizione empirica determinata da un insieme di dati generati condensita uniforme nell’intervallo [0, 1] , e funzione di ripartizione determinata dai quintili delmedesimo insieme (a destra)

0.2 0.4 0.6 0.8 1.0

0.2

0.4

0.6

0.8

1.0

-0.2 0.2 0.4 0.6 0.8 1.0

0.2

0.4

0.6

0.8

1.0

I k-quantili, per certi valori di k usati piu spesso, hanno nomi appositi:

• il 2-quantile (ce n’e uno solo) e detto mediana;• i 3-quantili sono detti terzili ;• i 4-quantili sono detti quartili ;• i 5-quantili sono detti quintili ;• i 9-quantili sono detti nonili ;• i 10-quantili sono detti decili ;• i 12-quantili sono detti duo-decili ;• i 20-quantili sono detti vigintili ;• i 100-quantili sono detti percentili ;• i 1000-quantili sono detti permillesimi.

Per la mediana, in particolare, prendendo la seconda definizione di qj,k con k = 2 avremmo

mediana(x) =

xn/2 , se n e pari ,

12 (x(n−1)/2 + x(n+1)/2) , se n e dispari .

Tuttavia se definiamo la mediana come “il valore che divide l’insieme dei dati, ordinati dalpiu piccolo al piu grande, esattamente in due parti” [1], allora e piu naturale porre

mediana(x) =

x(n+1)/2 , se n e dispari ,

12 (xn/2 + x1+n/2) , se n e pari .

Per n grande non e molto importante quale delle due definizioni si considera.

Page 110: Appunti di probabilità e statistica [2013, 143p]

106 8 ELEMENTI DI STATISTICA

Esempio 8.1. Un metodo di valutazione degli esami utilizzato in alcuni paesi consiste di duefasi. Nella prima fase si assegna a ciascun esame un punteggio (per esempio da 1 a 100) secondocerti criteri predefiniti; nella seconda fase si suddividono i risultati ottenuti in classi di ugualecardinalita, e la valutazione finale consiste nella classe di appartenenza. Ad esempio le classipotrebbero essere sei, contrassegnate con le lettere da A ad F. In questo modo, uno studenteche ha ottenuto nella prima fase un punteggio non particolarmente alto, puo riportare alla fineun A, che e quello che conta ai fini del pezzo di carta. Il sistema ha vantaggi e svantaggi. Unvantaggio e che incoraggia gli studenti con qualche difficolta: nessuno riceve una valutazioneinferiore ad F, ed e comunque in compagnia di diversi altri; uno studente bravino riceve unA anche se non ha fatto benissimo. D’altra parte, uno molto bravo che ha fatto tutto bene oquasi si ritrova sempre “nel gruppo”. In effetti la suddivisione in quantili tende a diminuirel’importanza delle “code” della distribuzione. Un ulteriore effetto negativo e che puo favorireuna tendenza al ribasso nella qualita dell’apprendimento. ♠

A questo punto, avendo definito qj,k(x) per una generica n-upla x di dati, e naturaleconsiderare lo stimatore

qj,k(X1 , . . . , Xn) : ω 7→ qj,k(X1(ω) , . . . , Xn(ω)

),

che come si e gia visto (§7.4) determina un oggetto aleatorio Fk con valori nell’insieme del-le funzioni di ripartizione; per ciascun t ∈ R , per n, k →∞ si ha che Fk(t) converge quasicertamente a F (t) , essendo F la funzione di partizione comune delle Xi .

D’altra parte, una densita di probabilita continua p che si annulli al piu in punti isolatidetermina una funzione di partizione F invertibile; per una tale densita si definisce j-esimok-quantile il numero

qj,k ≡ qj,k[p] :=←F (j/k) , 1 ≤ j < k ∈ N \ 1 .

Pertanto se p e la densita della variabile aleatoria X si ha

PX ≤ qj,k = F (qj,k) =j

k,

cioe i qj,k (che, si osservi, sono in numero di k− 1) suddividono la retta reale in k intervalli diuguale probabilita (figura 30):∫ q1,k

−∞p(x) dx =

∫ qj+1,k

qj,k

p(x) dx =

∫ ∞qk−1,k

p(x) dx =1

k.

Piu in generale, per α ∈ (0, 1) non necessariamente razionale si definisce il quantile di ordineα di una densita p continua come il numero qα ∈ R dato da

PX ≤ qα = α .

C’e infine un ulteriore “indicatore di tendenza centrale” usato in statistica: la moda, che puoessere definito come “il valore che si ripete piu spesso”. Piu precisamente, di una successione din dati si fa una partizione in sottoinsiemi suddividendo il campo di variazione in parti uguali(non con i quantili!), e si prende il punto di mezzo dell’intervallo in cui cade il maggior numerodi dati. Quest’operazione, composta con la n-upla (X1, . . . , Xn) di variabili aleatorie, fornisceuno stimatore del punto di massimo della densita, ammesso che ce ne sia uno (potrebberoanche venir fuori piu punti modali). In quanto alla densita continua p(x) , la sua moda e proprioil valore di x per cui p(x) ha il massimo (figura 30). Si osservi che nel caso di distribuzionisimmetriche la media, la mediana e la moda coincidono.

Page 111: Appunti di probabilità e statistica [2013, 143p]

8.3 Quantili 107

Figura 30: A sinistra: moda, mediana e media di una densita continua. A destra suddivisionein k parti, aventi area 1/k , del trapezoide delimitato dal grafico di p(x) e dall’asse delle ascisse;i valori che delimitano le parti sono i k-quantili (qui k= 5).

2 4 6 8 10

0.05

0.10

0.15

2 4 6 8 10

0.05

0.10

0.15

Esempio 8.2. Un gruppo di 220 persone deve viaggiare su un aereo (occupando tutti i posti),e si vuole valutare quanto bagaglio potra portare ciascuno, sapendo che il carico massimodell’aereo e di 20 tonnellate. E necessario allora valutare la somma dei pesi corporei dei pas-seggeri, e lo si fara moltiplicando per 220 un peso medio ricavato dalle statistiche. Supponendoche tale peso medio sia di 68 kg ci si aspetta di avere 68× 220 = 14.960 kg di passeggeri, edunque rimangono 5.040 kg per i bagagli (poco meno di 23 kg a testa). ♠

Esempio 8.3. In vista della stagione invernale, un negozio situato vicino a una scuola deverifornirsi di giubbotti; siccome gli studenti tendono a comprare tutti il medesimo modello, ilnegoziante dovra sapere di quale modello si tratta: la moda, appunto. ♠

Esempio 8.4. Cento studenti concorrono per 50 borse di studio partecipando a un esamescritto. Il dato importante, per ciascuno di essi, e se la sua valutazione risultera superiore ono alla mediana. ♠

Osservazione. (Sara utilizzata nel §8.7.) Nel caso di una densita p simmetrica8.5:

• se X ∼ p allora −X ∼ p ;

• F (−x) = 1− F (x) ;

• −qα = q1−α (dove qα denota il quantile di ordine α);

• se X ∼ p allora P|X| ≤ q1−α/2 = 1− α ;

infatti:

• dette FX e F−X le funzioni di ripartizione di X e di −X , si ha

F−X (t) = P−X ≤ t = PX ≥ −t =∫∞−t p(x) dx = −

∫ −∞t p(−x) dx =

∫ t−∞ p(−x) dx =

=∫ t−∞ p(x) dx = FX (t) ;

• ponendo ora F ≡ FX ≡ F−X si haF (−x) = PX ≤ −x = P−X ≥ x = PX ≥ x = 1− PX ≤ x = 1− F (x) ;

• PX ≤ −qα = P−X ≤ −qα = PX ≥ qα = 1− PX ≤ qα = 1− α ;

• P|X| ≤ q1−α/2 = P−q1−α/2 ≤ X ≤ q1−α/2 = PX ≤ q1−α/2 − PX ≤ −q1−α/2 == [1− α

2 ]− [1− (1− α2 )] = 1− α . ♣

8.5O pari, cioe tale che p(−x) = p(x) ∀ x , come per esempio la legge normale o la legge di Student.

Page 112: Appunti di probabilità e statistica [2013, 143p]

108 8 ELEMENTI DI STATISTICA

8.4 Correlazione

Abbiamo gia incontrato (§5) il coefficiente di correlazione tra due variabili aleatorie X e Y ,

Corr[X,Y ] :=Cov[X,Y ]√Var[X]Var[Y ]

, ovvero ρX,Y =σX,YσX σY

,

e si e visto che −1 ≤ ρX,Y ≤ 1 . Come stimatore di Corr[X,Y ] utilizziamo

R[X,Y ] :=

∑ni=1(Xi − X) (Yi − Y )

n S[X] S[Y ]=

∑ni=1(Xi − X) (Yi − Y )

(n− 1) S[X] S[Y ].

Si e anche osservato che Corr[X,Y ] e zero quando X e Y sono indipendenti, ma che d’altraparte il suo annullarsi non implica l’indipendenza delle due variabili aleatorie, come mostranogli esempi 5.5 e 5.6. In effetti, un po’ piu in generale, e facile vedere che Corr[X,Y ] si annullaquando una delle due variabili aleatorie e distribuita simmetricamente rispetto allo zero el’altra e una funzione pari della prima.

Per studiare un po’ piu in dettaglio il significato del coefficiente di correlazione conside-riamo prima di tutto il caso in cui si abbia Y = αX + β , con α, β ∈ R , α 6= 0 ; si dice allorache X e Y sono “correlate linearmente”. Ponendo per brevita µ ≡ E[X] si ottiene

Cov[X,Y ] = E[(X − µ) (αX + β − E[αX + β])

]= E

[(X − µ) (αX + β − αµ− β)

]=

= E[α (X − µ)2

]= αE

[(X − µ)2

]= αVar[X] .

Inoltre (teorema 5.9) Var[Y ] = Var[αX +β] = α2 Var[X] , da cui

Corr[X,Y ] =Cov[X,Y ]√Var[X]Var[Y ]

=aVar[X]√

α2 Var[X]Var[X]=

|α|= sign(α) .

Dunque il coefficiente di correlazione, se X e Y sono legate da una mutua dipendenza lineare,vale 1 o −1 a seconda che le due variabili aleatorie crescano insieme oppure che l’una decrescaquando l’altra cresce.

Modifichiamo ora la relazione tra X e Y aggiungendo un termine stocastico, cioe unanuova variabile aleatoria W indipendente da X, avente valore di aspettazione nullo e varianzache pensiamo “piccola”. Scriviamo dunque8.6

Y = αX + β +W , α, β ∈ R , α 6= 0 .

Tenendo conto delle ipotesi su W si ha

E[W ] = 0 , Var[Y ] = Var[αX + β] + Var[W ] = α2 Var[X] + Var[W ] ,

da cui

Cov[X,Y ] = E[(X − µ) (αX + β +W − E[αX + β])

]= E

[(X − µ) (αX +W − αµ])

]=

= E[α (X − µ)2 + (X − µ)W

]= αE[(X − µ)2] + E[X − µ]E[W ] =

= αE[(X − µ)2] = αVar[X] .

8.6E chiaro che se il termine W fosse del tutto arbitrario allora questa nuova relazione sarebbe priva disignificato.

Page 113: Appunti di probabilità e statistica [2013, 143p]

8.5 Regressione lineare 109

Pertanto

Corr[X,Y ] =Cov[X,Y ]√Var[X]Var[Y ]

=αVar[X]√

Var[X] (α2 Var[X] + Var[W ],

che in valore assoluto e strettamente minore di 1 (a meno che la varianza diW non sia nulla, chevorrebbe dire W = costante). Percio si dice che Corr[X,Y ] e un indice del grado di “dipendenzalineare” tra le due variabili aleatorie. Esistono poi molte altre misure di correlazione usate instatistica, atte a rilevare vari tipi di relazioni tra le variabili aleatorie, ma cio non rientra tragli scopi di questo corso.

Concludiamo questo paragrafo con alcuni esempi, nei quali si riportano nel piano carte-siano i valori ottenuti di X e Y mediante una simulazione in cui il “disturbo” W ha densitagaussiana.

Figura 31: A sinistra: simulazione di relazione Y = 2X +W dove il disturbo W ha densitagaussiana, media nulla e varianza 1/64 , e n = 100. Il coefficiente di correlazione “teorico”Corr[X,Y ] , calcolato con la formula data in precedenza, e confrontato con il coefficiente dicorrelazione “empirico” R[X,Y ] . A destra simulazione analoga, con Y = −3

2 X +W .

Corr[X,Y ] ∼= 0.977356

R[X,Y ] ∼= 0.975547

Corr[X,Y ] ∼= −0.960769

R[X,Y ] ∼= −0.961121

8.5 Regressione lineare

Supponiamo di avere ottenuto, in un esperimento, due n-uple di dati x = (x1 , . . . , xn) ey = (y1 , . . . , yn) ; ipotizziamo che si tratti di valori di variabili aleatorie X e Y legate traloro da una relazione del tipo Y = αX + β +W , con α, β ∈ R , α 6= 0 , dove W e un disturbostocastico a media nulla; vogliamo stimare i parametri α e β .

La situazione di partenza potrebbe essere del tipo illustrato in figura 31, ma potremmoavere ancora meno dati. In ogni caso la retta che “meglio si adatta” ai dati non e univocamentedefinita dai dati stessi, e la stima di α e β che otterremo dipende dal criterio che scegliamoper determinarli.

Un criterio che risulta funzionare bene in pratica, e che e relativamente facile da applicare,e il cosiddetto metodo dei minimi quadrati ; come dice il nome, si basa sul trovare α e β inmodo da minimizzare la somma dei quadrati degli scarti tra gli yi e i corrispondenti valoriαxi + β che la variabile aleatoria Y assumerebbe se fosse esattamente uguale ad αX + β ; in

Page 114: Appunti di probabilità e statistica [2013, 143p]

110 8 ELEMENTI DI STATISTICA

Figura 32: Simulazione con perturbazione di relazioni non lineari (non e difficile indovinarlequalitativamente) tra le variabili aleatorie X e Y . Sono riportati i coefficienti di correlazioneempirici, quelli teorici non possono essere ricavati dalla formula valida nel caso lineare e vannocalcolati come integrali.

R[X,Y ] ∼= −0.63346

R[X,Y ] ∼= −0.020273

altri termini, si vogliono determinare α e β in modo che l’espressione

U(α, β) ≡n∑i=1

(yi − αxi − β)2

assuma il valore piu piccolo possibile. In sostanza si tratta allora di un problema di minimodi una funzione U(α, β) di due variabili, che dipende dalle due n-uple di dati ma e fissata unavolta che questi sono assegnati. I minimi vanno cercati tra le soluzioni del sistema di equazioni∂∂αU = ∂

∂βU = 0 , ovvero −2

n∑i=1

xi (yi − αxi − β) = 0 ,

−2

n∑i=1

(yi − αxi − β) = 0 ,

che riscriviamo nella forma

[ n∑i=1

(xi)2]α+

[ n∑i=1

xi

]β =

n∑i=1

xi yi ,

[ n∑i=1

xi

]α+ nβ =

n∑i=1

yi .

[ n∑i=1

(xi)2]α+ n x β =

n∑i=1

xi yi ,

x α+ β = y ,

essendo∑

i xi ≡ n x ,∑

i yi ≡ n y . Abbiamo quindi un sistema di due equazioni lineari deltipo

Aα+B β = C ,

Dα+ E β = F ,

nelle due incognite α e β , la cui soluzione e

α =C E −B FAE −BD

, β =AF − C DAE −BD

,

Page 115: Appunti di probabilità e statistica [2013, 143p]

8.5 Regressione lineare 111

ovvero8.7

α =

∑i xi yi − n x y∑i(xi)

2 − n x2, β =

y∑

i(xi)2 − x

∑i xi yi∑

i(xi)2 − n x2

.

In pratica converra trovare α dalla prima formula e poi β = y−α x .

Nella figura 33 vediamo due esempi di applicazione del metodo dei minimi quadrati. Se idati sono molti il calcolo puo essere svolto solo predisponendo un programmino al computer(com’e ovvio, tutto cio e gia presente nei software dedicati); con soli dieci dati, come nelsecondo esempio, lo si puo fare anche con l’aiuto di una semplice calcolatrice. Riportiamoli,approssimati alla quarta cifra decimale, per l’eventuale studente volonteroso:

x = (0.0129, 0.3122, 0.8068, 0.372, 0.7226, 0.1651, 0.6417, 0.2023, 0.9256, 0.4018) ,

y = (0.7966, 1.7359, 2.4894, 1.5853, 2.3659, 1.6931, 2.3538, 1.3566, 2.7845, 1.8793) .

Figura 33: A sinistra, simulazione analoga a quella della figura 31: Y = 2X + 1 +W dovela variabile aleatoria W ha legge N [0, 1/8] ; dagli n = 100 dati si ricavano i valori di α e βcon notevole precisione. A destra abbiamo solo 10 dati, ottenuti con relazione analoga traX e Y ma W ∼ N [0, 1/4] , dunque il disturbo ha varianza maggiore. Come ci si aspetta, ladeterminazione di α e β e meno precisa, ma comunque non e troppo lontana dal vero. Inentrambi i casi, la retta disegnata e quella ricavata dai dati.

α ∼= 1.99186

β ∼= 0.996991

α ∼= 1.90121

β ∼= 1.03653

8.7Si puo dimostrare [2] che le variabili aleatorie

∑iXi Yi − n X Y∑i(Xi)

2 − n X2,

Y∑i(Xi)

2 − X∑iXi Yi∑

i(Xi)2 − n X2

sono stimatori non distorti per α e β .

Page 116: Appunti di probabilità e statistica [2013, 143p]

112 8 ELEMENTI DI STATISTICA

Esercizio: Trovare, con il metodo dei minimiquadrati, i coefficienti α e β relativi ai dati:

x = (0.77, 0.32, 0.68, 0.02, 0.94, 0.68) ,

y = (2.31, 1.65, 2.55, 1.19, 2.68, 2.31) .

Risposta: α ∼= 1.66 , β ∼= 1.17 .A fianco sono riportati i dati e disegnate entrambele rette, quella di parametri α e β trovati e quelladi parametri α = 2 e β = 1 che sono stati in effettiutilizzati per la simulazione che ha generato i dati.

0.2 0.4 0.6 0.8

2.0

2.5

Osservazione. Poiche Var[Y ] = α2 Var[X] + Var[W ] , avendo stimato α con il metodo deiminimi quadrati e stimando Var[X] e Var[Y ] mediante S2[X] e S2[Y ] si ottiene una stima diVar[W ] . ♣

8.6 Test di Pearson

Consideriamo un esperimento consistente nel lancio di un “dado con N facce”, N ∈ N , quindiΩ ≡ 1, . . . , N . Consideriamo poi per ciascun k ∈ Ω la variabile aleatoria

∆k : Ω→ R : h 7→ ∆k(h) := δhk ≡

1 , h = k ,

0 , h 6= k .

In una successione di n ∈ N ripetizioni dell’esperimento indichiamo con ∆k,i ≡ (∆k)i lavariabile aleatoria ∆k applicata all’i-esima ripetizione, e con

∆k ≡1

n

n∑i=1

∆k,i

la media campionaria di ∆k (dunque nk ≡ n∆k =∑

i ∆k,i e il numero di volte che, nelle nripetizioni dell’esperimento, e uscito il risultato k).

L’esperimento sara soggetto a una certa distribuzione di probabilita8.8

P (k) = pk ∈ (0, 1) , k = 1, . . . , N ,

N∑k=1

pk = 1 ,

Introduciamo, per ciascun n ∈ N , lo stimatore

Tn := nN∑k=1

(∆k − pk)2

pk.

Si dimostra allora (teorema di Pearson) che si ha la convergenza in legge

Tn −→ T ∼ χ2[N−1] .

8.8Come sara chiarito meglio in seguito, quando eseguiamo il test di Pearson noi non conosciamo taledistribuzione, ma sottoponiamo al test un’ipotesi riguardo ad essa.

Page 117: Appunti di probabilità e statistica [2013, 143p]

8.6 Test di Pearson 113

Osservazione. Da un punto di vista qualitativo l’enunciato del teorema di Pearson nonsorprende, quando si osservi che χ2[1] e la legge del quadrato di una variabile aleatoria conlegge normale (§6.8), e che ∆k , in quanto variabile aleatoria di tipo “cumulativo”, ha leggeapprossimativamente normale per n abbastanza grande (teorema del Limite Centrale, §7.6).Ovviamente le ∆k non sono indipendenti, quindi non si puo usare la proprieta, per la leggeχ2, dedotta dal teorema 6.10 (pagina 78). ♣

Per ogni q ∈ R+ abbiamo quindi PTn ≤ q ∼= PT ≤ q . Pertanto, detto qα con

α =

∫ qα

0χ2[N−1](t) dt

il quantile (§8.3) della legge χ2[N−1] corrispondente ad α ∈ (0, 1) , abbiamo

PTn ≤ qα ∼= α .

I risultati sopra esposti possono essere utilizzati nel modo seguente. Supponiamo di avereottenuto una n-upla di dati da ripetizioni indipendenti di un dato esperimento “lancio diun dado con N facce”; non sappiamo qual’e la distribuzione di probabilita appropriata perdescrivere l’esperimento, ma disponiamo di un’ipotesi (basata su considerazioni di vario tipo)consistente in una N -upla di valori (pk) . Scegliamo ora un valore di α piuttosto vicino ad 1, peresempio α = 0.95 , e valutiamo sulla n-upla di dati lo stimatore Tn costruito in base all’ipotesi;se l’ipotesi e corretta si ha PTn ≤ qα ∼= α , quindi e molto probabile che risulti Tn ≤ qα . Seinvece si ottiene Tn > qα abbiamo forti motivi di sospettare che la nostra ipotesi sia sbagliata,cioe che la N -upla (pk) non costituisca un modello probabilistico adeguato per l’esperimentostudiato (per quanto sia sempre possibile, ancorche improbabile, ottenere Tn > qα anche sel’ipotesi e corretta).

In sostanza quindi il test di Pearson, che stiamo descrivendo, consiste in un criterio perdecidere se i dati permettano di respingere o no una certa ipotesi. Osserviamo che il testdipende dalla scelta di α , che e essenzialmente arbitraria, anche se esistono dei valori checonvenzionalmente si considerano standard. L’etica di chi studia le statistiche richiede chel’ipotesi (pk) e il valore di α (che determina il livello di significativita del test) venganoprecisati prima di raccogliere i dati. Non possiamo fare a meno di osservare, a questo proposito,che se si calcola Tn utilizzando le frequenze empiriche fk ≡ ∆k al posto dei pk si ottieneautomaticamente Tn = 0 , qualunque sia la n-upla dei risultati (questo e un esempio di comei metodi statistici possano essere usati erroneamente).

Ovviamente il test e tanto piu affidabile quanto maggiore e n ; di solito si assume, in basea valutazioni empiriche, che debba essere n > 5/pk .

Esempio 8.5. Per mostrare l’utilizzo del test di Pearson illustriamo le modalita di una semplicesimulazione fatta con il computer. Abbiamo simulato il lancio di un dado con N = 6 facceutilizzando tre diverse distribuzioni di probabilita,8.9 quella uniforme e altre due:

p = (16 ,

16 ,

16 ,

16 ,

16 ,

16) ,

p′ = (0.15, 0.07, 0.18, 0.16, 0.24, 0.20) ,

p′′ = (0.12, 0.07, 0.10, 0.09, 0.24, 0.38) .

8.9La funzione di partizione qui non e invertibile, ma in pratica si puo procedere semplicemente nel modoseguente: si suddivide l’intervallo [0, 1] in sei sottointervalli di misura proporzionale alle probabilita desiderate,poi si sceglie a caso un numero reale r ∈ [0, 1] e si etichetta il risultato con il numero d’ordine di quello dei seiintervalli a cui r appartiene.

Page 118: Appunti di probabilità e statistica [2013, 143p]

114 8 ELEMENTI DI STATISTICA

Per applicare il test non e necessario elencare il risultato dei singoli lanci uno per uno, bastaconoscere per ciascun k = 1, . . . , N il numero di volte nk = n ·∆k che e uscito il risultato k .Nelle tabelle di figura 34 sono riportati i dati ottenuti dalle simulazioni in forma di N -uple(nk) , e i corrispondenti valori di Tn per ciascuna delle tre “ipotesi” p , p′ e p′′. Il confrontocon i valori dei quantili per χ2[6− 1] = χ2[5] , riportati nella tabella della figura 35, permettedi respingere un’ipotesi oppure no in base ai dati sperimentali.

Il test di Pearson puo poi essere utilizzato per respingere o no un’ipotesi consistente in unadistribuzione di probabilita continua. A tale scopo si dovra suddividere il campo di variazionedella variabile aleatoria studiata in un certo numero finito di intervalli, in modo da riportarsial caso discreto; tale suddivisione puo essere fatta con vari criteri: in parti uguali, per quantili,o altro.

Figura 34: Risultati delle simulazioni del lancio di un dado con N = 6 facce e distribuzioni diprobabilita p (in alto), p′ (nel mezzo) e p′′ (in basso), e numero di lanci n = 10, 20, 50, 100, 200 .A ciascun risultato viene poi applicato il test di Pearson relativamente a ciascuna delle tre“ipotesi” p , p′ e p′′ (tutti i numeri sono approssimati alla seconda cifra decimale). Si osservache in tutti i casi il test da il valore piu basso per l’ipotesi “giusta”, ma che permette discartare le altre ipotesi solo da n = 50 in su.

n (nk) Tn[p] Tn[p′] Tn[p′′]

10 (3,1,0,2,2,2) 3.20 3.60 6.0920 (2,1,1,3,1,2) 2.00 2.69 7.2350 (3,13,11,5,8,10) 8.56 31.39 40.14

100 (19,19,16,18,14,14) 1.64 28.08 56.58200 (39,36,34,33,28,30) 2.38 48.25 102.42

n (nk) Tn[p] Tn[p′] Tn[p′′]

10 (2,1,1,1,3,2) 2.00 1.03 1.6820 (2,0,3,2,3,0) 5.60 3.92 10.5350 (4,3,8,11,15,9) 11.92 3.79 17.94

100 (15,3,20,20,23,19) 15.44 3.60 36.02200 (22,19,30,26,48,55) 32.50 11.67 16.31

n (nk) Tn[p] Tn[p′] Tn[p′′]

10 (1,1,3,1,2,2) 2.00 1.39 5.0920 (1,2,0,0,6,1) 15.20 11.88 11.8150 (6,3,3,1,7,30) 70.48 52.58 12.05

100 (7,9,12,7,31,34) 46.40 23.74 5.96200 (19,13,32,20,46,70) 69.10 31.63 9.09

Page 119: Appunti di probabilità e statistica [2013, 143p]

8.7 Intervalli di confidenza 115

Figura 35: Quantili qα della legge χ2[N ] per N = 1, . . . , 30 e per α = 0.95, 0.975, 0.99 ,approssimati alla seconda cifra decimale.

N 0.95 0.975 0.99

1 3.84 5.02 6.632 5.99 7.38 9.213 7.81 9.35 11.344 9.49 11.14 13.285 11.07 12.83 15.096 12.59 14.45 16.817 14.07 16.01 18.488 15.51 17.53 20.099 16.92 19.02 21.6710 18.31 20.48 23.21

N 0.95 0.975 0.99

11 19.68 21.92 24.7212 21.03 23.34 26.2213 22.36 24.74 27.6914 23.68 26.12 29.1415 25.00 27.49 30.5816 26.30 28.85 32.0017 27.59 30.19 33.4118 28.87 31.53 34.8119 30.14 32.85 36.1920 31.41 34.17 37.57

N 0.95 0.975 0.99

21 32.67 35.48 38.9322 33.92 36.78 40.2923 35.17 38.08 41.6424 36.42 39.36 42.9825 37.65 40.65 44.3126 38.89 41.92 45.6427 40.11 43.19 46.9628 41.34 44.46 48.2829 42.56 45.72 49.5930 43.77 46.98 50.89

8.7 Intervalli di confidenza

Se vogliamo stimare il valore di aspettazione di una variabile aleatoria X a partire da unan-upla di dati ricavati da ripetizioni indipendenti dell’esperimento, la prima cosa da fare eovviamente calcolare la media dei dati stessi, cioe applicare lo stimatore X . Cio tuttavia nonci da ancora un’idea di quanto precisa sia la stima. E evidente che una stima a partire da pochidati e meno affidabile di una basata su molti dati, cosı come e evidente che, a parita di n , lastima e tanto piu precisa quanto piu la varianza del campione e piccola. Ma in molti casi eimportante sapere con maggiore esattezza quant’e affidabile la stima; anzi, sarebbe opportunoavere una definizione del “grado di affidabilita” della stima stessa.

Per comprendere meglio l’idea di fondo vediamo intanto una situazione semplice in cuila questione ha una risposta naturale ed immediata: supponiamo ovviamente di non cono-scere il valore di aspettazione µ ≡ E[Xi] , che stiamo stimando, ma di conoscere la varianzaσ ≡

√Var[Xi] comune a tutte le Xi . In tal caso possiamo fare appello al teorema del Limite

Centrale (§7.6, 7.7), secondo cui la successione delle somme standardizzate

Sn ≡√n

σ(X − µ)

converge in legge a un variabile aleatoria S ∼ N [0, 1] . Pertanto se qα indica il quantile diordine α di N [0, 1] , ricordando l’osservazione al termine del §8.3, scelto un qualsiasi ε ∈ (0, 1)abbiamo

1− ε = P∣∣Sn∣∣ ≤ q1−ε/2

= P

−q1−ε/2 ≤

√n

σ(X − µ) ≤ q1−ε/2

=

= PX − σ√

nq1−ε/2 ≤ µ ≤ X +

σ√nq1−ε/2

.

Possiamo ora interpretare quanto sopra nel modo seguente: scelto un ε (piccolo), la probabilitadell’evento

µ ∈[X − σ√

nq1−ε/2 , X +

σ√nq1−ε/2

]e uguale a 1− ε ; in altri termini, la probabilita che il valore di aspettazione sconosciutoµ ≡ E[X] sia contenuto nel suddetto intervallo, che e stimato a partire dai dati, e pari a

Page 120: Appunti di probabilità e statistica [2013, 143p]

116 8 ELEMENTI DI STATISTICA

1− ε (quindi e grande se ε e piccolo). Tale intervallo, ripetiamolo costruito mediante i datiottenuti, e detto un intervallo di confidenza (o di fiducia) di livello 1− ε per µ ≡ E[X] . Questaterminologia, che esprime nel caso particolare in esame un concetto generale importante dellastatistica, significa insomma che chi elabora i dati e vuole stimare µ calcola per prima cosaX, e poi a partire da X determina in quale intervallo µ si trova con probabilita 1− ε (il livellodi confidenza che e stato stabilito prima dell’esecuzione del test).

Proviamo allora a dare un definizione piu generale della nozione di intervallo di confidenza.La situazione sara quella in cui si cerca di determinare la legge p della variabile aleatoriaX ; tale legge di regola non sara completamente sconosciuta, potremo supporre che sia diun certo tipo e che per determinarla si debba trovare il valore di un certo parametro θ (ingenerale θ potra essere multi-dimensionale, cioe consistere in piu parametri “scalari”, ma perora limitiamoci al caso θ ∈ R). Un intervallo di confidenza di livello 1− ε per θ consiste allorain due stimatori, T1 e T2 , tali che8.10 Pθ ∈ [T1 , T2] = 1− ε .

Nell’esempio da cui siamo partiti abbiamo quindi

T1 = X − σ√nq1−ε/2 , T2 = X +

σ√nq1−ε/2 .

Questo particolare intervallo di confidenza ha pero un inconveniente che lo rende raramenteapplicabile in pratica, e cioe il fatto che presuppone la conoscenza di σ2 = Var[X] . Vien fattoallora subito di pensare che si possa, nell’espressione di T1 e T2 , sostituire a σ2 lo stimatore

S2[X] ≡ 1

n− 1

n∑i=1

(Xi − X)2 .

In effetti quest’idea e sostanzialmente giusta, ma si trova che allora c’e qualche altro aggiu-stamento da fare. Per vederlo enunciamo (senza dimostrazioni) i seguenti risultati.

Teorema 8.18.

• Se Y ∼ N [0, 1] e Z ∼ χ2[n] sono variabili aleatorie indipendenti allora

√nY√Z∼ t[n]

(legge di Student, §6.9).

• Si ha8.11

Y ≡√n

σ(X − µ) ∼ N [0, 1] , Z ≡ n− 1

σ2S2[X] ∼ χ2[n− 1] ,

e inoltre queste due variabili aleatorie risultano essere indipendenti.8.12

• Pertanto

T :=√n− 1

Y√Z

=√nX − µ√S2[X]

∼ t[n− 1] .

8.10Piu in generale ancora si potra richiedere Pψ(θ) ∈ [T1 , T2] = 1− ε dove ψ e una opportuna funzione.8.11Per evitare confusioni qui chiamiamo Y la variabile aleatoria che in precedenza abbiamo chiamato Sn .8.12Cio non e affatto ovvio, perche X interviene nel calcolo di S2[X] .

Page 121: Appunti di probabilità e statistica [2013, 143p]

8.7 Intervalli di confidenza 117

Con un ragionamento analogo a quello fatto nel caso in cui σ e nota, scelto un qualsiasiε ∈ (0, 1) e indicando ora con qα il quantile di ordine α della legge di Student t[n− 1] , abbiamo

1− ε = P∣∣T ∣∣ ≤ q1−ε/2

= P

−q1−ε/2 ≤

√nX − µ

S≤ q1−ε/2

=

= PX − S√

nq1−ε/2 ≤ µ ≤ X +

S√nq1−ε/2

,

dove per abbreviare abbiamo scritto S ≡√S2[X] . Otteniamo quindi l’intervallo di confidenza

di livello 1− ε dato dagli stimatori

T1 = X − S√nq1−ε/2 , T2 = X +

S√nq1−ε/2 .

In sostanza, concludiamo che se la varianza σ2 di X non e nota si ottiene un intervallo diconfidenza modificando la regola trovata in precedenza nel modo seguente: sostituendo σ conS e i quantili della distribuzione normale N [0, 1] con quelli della distribuzione di Studentt[n− 1] . Per calcoli approssimati alla seconda cifra decimale e sufficiente una tabella comequella riportata in figura 36.

Osservazione. Non esiste un unico intervallo di fiducia di un dato livello 1− ε fissato. Adesempio non e difficile vedere, con calcoli analoghi ai precedenti, che[

X − S√nq1−ε/4 , X +

S√nq1−3ε/4

]e

(−∞ , X +

S√nq1−ε

]soddisfano al medesimo requisito. L’intervallo [T1 , T2] sopra trovato e pero l’unico centratointorno a X . ♣

Esempio 8.6. In una localita e stato registrato per 90 anni di seguito il dato sulla piovositanel mese di novembre, espressa in millimetri; si e ottenuta la successione

87 106 71 93 93 83 71 89 82 81 83 78 78 91 86 84 98 8285 73 77 86 83 83 76 92 95 97 83 103 82 95 84 83 85 6581 92 77 94 89 76 93 95 79 88 70 89 96 91 82 69 89 8995 67 82 87 81 74 86 100 84 89 97 90 71 98 100 97 89 9484 84 84 93 91 86 83 88 82 79 81 92 87 79 88 96 81 74

Vogliamo trovare un intervallo di confidenza per E[X], centrato in X, di livello 0.9 (supponendoche i dati dei diversi anni siano indipendenti). Procediamo quindi a calcolare le quantitanecessarie; si ottiene

X ∼= 85.72 , S = 8.40 , q0.95∼= 1.66

S√nq0.95

∼= 1.47 ,

dove il valore di q0.95 , il quantile di ordine 0.95 di t[89] , e stato ricavato dalla tabella difigura 36. Pertanto l’intervallo cercato e

[T1 , T2] ∼= [85.72− 1.47 , 85.72 + 1.47] ∼= [84.25 , 87.19] .

Se invece vogliamo un intervallo di confidenza di livello 0.99 allora troviamo sulla tabellaq0.995

∼= 2.63 , da cui

S√nq0.95

∼= 2.33 ⇒ [T1 , T2] ∼= [85.72− 2.33 , 85.72 + 2.33] ∼= [83.39 , 88.05] .

Page 122: Appunti di probabilità e statistica [2013, 143p]

118 8 ELEMENTI DI STATISTICA

Osservazione. L’analisi statistica dei dati idrologici (di cui sopra abbiamo dato un esempioelementare) e importante per ingegneri, economisti ed amministratori del territorio, al fine diottenere una conoscenza piu precisa possibile del “rischio idraulico” in funzione dei progettiper infrastrutture (dighe, sistemi di smaltimento delle acque eccetera). Si noti anche comel’eventualita di cambiamenti climatici consistenti puo rendere poco affidabili i dati raccoltinegli anni. ♣

Figura 36: Quantili qα della legge di Student t[n] per diversi valori di n e per α =0.95, 0.975, 0.99, 0.995 , approssimati alla seconda cifra decimale. Si ha t[∞] ≡ N [0, 1] .

n 0.95 0.975 0.99 0.995

1 6.31 12.71 3.08 63.662 2.92 4.30 1.89 9.923 2.35 3.18 1.64 5.844 2.13 2.78 1.53 4.605 2.02 2.57 1.48 4.036 1.94 2.45 1.44 3.717 1.89 2.36 1.41 3.508 1.86 2.31 1.40 3.369 1.83 2.26 1.38 3.2510 1.81 2.23 1.37 3.1711 1.80 2.20 1.36 3.1112 1.78 2.18 1.36 3.0513 1.77 2.16 1.35 3.0114 1.76 2.14 1.35 2.9815 1.75 2.13 1.34 2.9516 1.75 2.12 1.34 2.9217 1.74 2.11 1.33 2.9018 1.73 2.10 1.33 2.8819 1.73 2.09 1.33 2.8620 1.72 2.09 1.33 2.85

n 0.95 0.975 0.99 0.995

21 1.72 2.08 1.32 2.8322 1.72 2.07 1.32 2.8223 1.71 2.07 1.32 2.8124 1.71 2.06 1.32 2.8025 1.71 2.06 1.32 2.7926 1.71 2.06 1.31 2.7827 1.70 2.05 1.31 2.7728 1.70 2.05 1.31 2.7629 1.70 2.05 1.31 2.7630 1.70 2.04 1.31 2.7540 1.68 2.02 2.42 2.7050 1.68 2.01 2.40 2.6860 1.67 2.00 2.39 2.6670 1.67 1.99 2.38 2.6580 1.66 1.99 2.37 2.6490 1.66 1.99 2.37 2.63100 1.66 1.98 2.36 2.63110 1.66 1.98 2.36 2.62120 1.66 1.98 2.36 2.62∞ 1.64 1.96 2.33 2.58

Page 123: Appunti di probabilità e statistica [2013, 143p]

119

A Nozioni basilari di calcolo combinatorio

A.1 Coefficienti binomiali

Ricordiamo la definizione di coefficiente binomiale:(nk

):=

n!

k! (n− k)!, n ∈ N ∪ 0 , k = 0, 1, . . . , n .

Il nome e dovuto al fatto che questi coefficienti entrano nell’espressione di una potenza diun binomio

(a+ b)n =n∑k=0

( nk ) an−k bk .

Per valori non troppo grandi di n intero, ( nk ) puo essere trovato facilmente come elemento(k+1)-esimo nella riga (n+1)-esima del triangolo di Pascal

1

1 1

1 2 1

1 3 3 1

1 4 6 4 1

1 5 10 10 5 1

. . . . . . . . . eccetera . . . . . . . . .

in cui ciascun elemento e la somma dei due che stanno sopra di esso.Alcune proprieta dei coeffcienti binomiali:(

nk

)=n (n− 1) (n− 2) · · · (n− k+ 1)

k!. (i)

(nk

)=

(n

n− k

). (ii)

(n0

)=

(nn

)= 1 . (iii)

(nk

)=n

k

(n− 1k− 1

). (iv)

(nk

)=

(n− 1k− 1

)+

(n− 1k

). (v)

L’ultima identita e detta formula di Pascal (da essa dipende la costruzione del triangolo diPascal).

Osservazione. Il fattoriale n! := n (n−1) (n−2) · 2 e definito un numero intero n ∈ N .Tuttavia la funzione Gamma di Eulero, definita da

Γ(x) :=

∫ ∞0

tx−1 e−t dt ,

Page 124: Appunti di probabilità e statistica [2013, 143p]

120 A NOZIONI BASILARI DI CALCOLO COMBINATORIO

Figura 37: Grafico della funzione Gamma di Eulero per valori reali positivi dell’argomento

0 1 2 3 4 5

2

4

6

8

10

e tale che per n intero si ha Γ(n) = (n− 1)! .

Allora si puo estendere la definizione di coefficiente binomiale ( nk ) al caso n e k reali, mediante(nk

):=

Γ(n+ 1)

Γ(k + 1) Γ(n− k + 1).

A.2 Coefficienti multinomiali

In maniera analoga ai coefficienti binomiali si definiscono i coefficienti multinomiali. Per n, r ∈0 ∪ N , poniamo

(n

k1 , k2 , . . . , kr

):=

n!

k1! k2! · · · kr!, dove

r∑i=1

ki = n .

Nel caso r = 2 ritroviamo i coefficienti binomiali in quanto(n

k1 , k2

)=

(n

k1 , n−k1

)=

(nk1

)=

(nk2

).

I coefficienti multinomiali nascono quando si espande una potenza di un polinomio; si hacioe

(a1 + a2 + · · ·+ ar)n =

∑k1 ,k2 ,... ,kr

(n

k1 , k2 , . . . , kr

)ak1

1 ak22 · · · a

krr .

I coefficienti multinomiali hanno varie proprieta simili a quelle dei coefficienti binomiali(ma ovviamente piu complicate); in particolare, vale la relazione di ricorrenza(

nk1 , k2 , . . . , kr

)=

(n− 1

k1−1 , k2 , . . . , kr

)+

(n− 1

k1 , k2−1 , . . . , kr

)+ · · ·+

(n− 1

k1 , k2 , . . . , kr−1

).

Inoltre hanno la proprieta della simmetria, cioe scambiando di posto alcuni dei ki il valore delcoefficiente non cambia (cio e ovvio dalla definizione).

Page 125: Appunti di probabilità e statistica [2013, 143p]

A.3 Disposizioni con ripetizione 121

A.3 Disposizioni con ripetizione

Indichiamo con Nk := (1, 2, . . . , k) ⊂ N l’insieme ordinato dei primi k numeri naturali, e conA un insieme di cardinalita finita |A| = n ∈ N . Si noti che A e distinto da Nn in quanto in Anon e stato fissato a priori alcun ordine.

Definizione A.1 Una lista di k elementi di A , con k ∈ N , e un’applicazione f : Nk → A .

Una lista puo essere rappresentata mediante la sua immagine(a1 , a2 , . . . , ak

)=(f(1), f(2), . . . , f(k)

),

che e una k-upla ordinata di elementi di A . Si osservi che tali elementi non sono necessaria-mente tutti distinti.

Indichiamo ora con D′nk(A) , eventualmente abbreviato semplicemente con D′nk , l’insiemedi tutte le liste di k elementi di A . Si dice anche che D′nk(A) e l’insieme delle disposizionicon ripetizioneA.1 di elementi di A , dove la parola “ripetizione” indica appunto che un datoelemento di A puo apparire piu volte nella lista. La cardinalita di quest’insieme e

|D′nk | = nk .

In effetti, basta contare quante scelte si devono fare per fissare una lista: l’elemento a1 = f(1)puo essere scelto in n maniere diverse, tante quanti sono gli elementi di A ; anche l’elementoa2 = f(2) puo essere scelto in n maniere diverse, dato che la precedente scelta di a1 non ponealcuna condizione sulla scelta di a2 (niente mi impedisce di scegliere di nuovo il medesimoelemento); lo stesso vale per tutti gli elementi della lista. Dunque una lista di k elementi di Apuo essere scelta in n · n · · ·n︸ ︷︷ ︸

k volte

= nk maniere diverse.

Possiamo pensare l’insieme D′nk(A) come un modo per rappresentare la seguente situazionepratica: una scatola contiene n oggetti (“etichettati” mediante gli elementi di A); se ne estraeuno, lo si rimette nella scatola, se ne estrae un’altro (che eventualmente potrebbe anche esserelo stesso di prima), e cosı via per k volte. Ovviamente i possibili risultati di queste k estrazionipossono essere identificati con gli elementi di D′nk(A) , e quindi sono in numero di nk . Si parlaanche di “estrazioni con rimpiazzo”.

Una situazione a prima vista diversa, ma che puo essere rappresentata sempre mediantel’insieme D′nk(A) , e la seguente: supponiamo di avere k palline (o altri oggetti di qualsiasigenere) distinte, che etichettiamo con i numeri interi da 1 a k , e di doverle inserire in nscatole differenti, etichettate mediante gli elementi di A , permettendo che in ciascuna scatolapossa eventualmente andare a finire piu di un oggetto (o nessuno). I modi possibili di portarea termine tale compito sono in corrispondenza biunivoca con gli elementi di D′nk(A) , e quindisono in numero di nk , in quanto ciascuno di essi puo essere caratterizzato associando a ciascunapallina (quindi a ciascun elemento di Nk) l’elemento di A corrispondente alla scatola in cui lapallina viene messa.

L’esempio piu comune di disposizioni con ripetizione e dato dalle colonne del totocalcio.Assegnare una colonna significa assegnare un’applicazione N13 → 1, X, 2 , che associa unodei tre possibili risultati di una partita a ciascun intero compreso tra 1 e 13. Dunque k = 13,n = 3 e le possibili colonne del totocalcio sono 313 = 1 594 323 .

A.1Dunque i termini “lista” (nel senso sopra introdotto)) e “disposizione con ripetizione” sono sinonimi.

Page 126: Appunti di probabilità e statistica [2013, 143p]

122 A NOZIONI BASILARI DI CALCOLO COMBINATORIO

A.4 Disposizioni senza ripetizione

Consideriamo ora le liste f : Nk → A che siano iniettive. Cio significa che ad elementi distintidi Nk vengono associati elementi distinti di A , ovvero che nella k-upla

(a1 , a2 , . . . , ak

)=(

f(1), f(2), . . . , f(k))

non vi sono due elementi uguali. Si parla allora di disposizioni senzaripetizione. In termini di estrazioni, una tale lista descrive un’estrazione senza rimpiazzo: siestraggono a turno k oggetti da una scatola che ne contiene n , ma senza rimetterli nellascatola; dunque ad ogni estrazione viene fuori un oggetto diverso. E cosı che funzionano (disolito) il gioco del lotto, la tombola, e, nei giochi di carte, la distribuzione di queste dal mazzo.In termini della distribuzione di k palline in n scatole, l’iniettivita significa che in ciascunascatola si mette una sola pallina.

E evidente che questa situazione richiede che sia k ≤ n (a differenza del caso delle dispo-sizioni con ripetizione, che non impone condizioni tra k ed n). L’insieme di tutte le dispo-sizioni senza ripetizione Nk → A si indica con il simbolo Dn

k(A) , eventualmente abbreviatosemplicemente con Dn

k , ed ha cardinalita

|Dnk | = n(n− 1) · · · (n− k+ 1) =

n!

(n− k)!.

In effetti, nell’assegnare una disposizione senza ripetizione abbiamo n scelte per il primooggetto, n−1 scelte per il secondo, n−2 scelte per il terzo, e cosı via. Analogamente nelsistemare k palline in n scatole, senza che ci possa essere piu di una pallina in una scatola, sipossono scegliere n sistemazioni per la prima pallina, n−1 per la seconda e cosı via.

A.5 Permutazioni

Consideriamo ora il caso particolare delle disposizioni senza ripetizione quando sia n = k .L’immagine di una lista e allora una n-upla ordinata

(a1 , a2 , . . . , an

)di elementi distinti di

A ; poiche A e costituito esattamente da n elementi, la lista e un particolare ordinamentodi A . Gli ordinamenti di A sono detti anche permutazioni, e costituiscono l’insieme Pn ≡Pn(A) := Dn

n(A) di cardinalita

|Pn| = n! .

A.6 Combinazioni

Immaginiamo ora di eseguire un’estrazione senza rimpiazzo di k oggetti dell’insieme A , comenel §A.4, ma di essere interessati solo a quali oggetti sono usciti indipendentemente dall’ordinein cui sono usciti. In altri termini riguardiamo come equivalenti due k-uple di elementi diA che contengono gli stessi elementi, anche se ordinati differentemente. Identificare k-upleequivalenti, cioe considerarle come lo stesso oggetto, significaA.2 considerare l’insieme Cn

k icui elementi sono i sottoinsiemi (non ordinati) di A aventi cardinalita k. Quanti sono questisottoinsiemi, cioe qual’e la cardinalita di Cn

k ? Per rispondere osserviamo che Dnk puo essere

visto come l’insieme dei sottoinsiemi ordinati di A , aventi cardinalita k ; in altri termini,due elementi di Dn

k corrispondenti a sottoinsiemi di A che contengono gli stessi elementi, maordinati differentemente, sono visti come distinti. D’altra parte ciascuna di queste classi di

A.2In termini un po’ piu precisi, diciamo che Cnk := Dnk/ ∼ e il quoziente di Dn

k per la relazione di equivalenza:f ∼ g se e solo se le immagini f(Nk), g(Nk) ⊂ A contengono i medesimi elementi, ovvero f(Nk) = g(Nk) comeinsiemi non ordinati.

Page 127: Appunti di probabilità e statistica [2013, 143p]

A.7 Partizioni 123

sottoinsiemi (equivalenti in Cnk ma non in Dn

k) e composta da k! elementi (§A.5), pertantoconcludiamo che

|Cnk | =

1

k!|Dn

k | =n(n− 1) · · · (n− k+ 1)

k!=

n!

k! (n− k)!≡(nk

).

Questo risultato ci consente di contare quanti sono tutti i sottoinsiemi di A , tra i quali siannovera anche A stesso (k = n) e l’insieme vuoto (k = 0). Questo numero e dato da

n∑k=0

(nk

)=

n∑k=0

(nk

)1n−k 1k = (1+1)n = 2n .

Percio l’insieme P(A) di tutti i sottoinsiemi di A e anche indicato con il simbolo 2A, notazioneche permette di scrivere

|2A| = 2|A| .

A.7 Partizioni

In maniera piu generale, ma analoga a quanto visto nel §A.6, il coefficiente multinomiale( nk1 ,k2 ,... ,kr ) = n!

k1! k2! ···kr! , con k1+ · · ·+kr = n , e legato al numero di partizioni diverse del-

l’insieme A (con |A| = n) in r sottoinsiemi di cardinalita ki . Piu precisamente, ( nk1 ,k2 ,... ,kr )

e il numero di r-uple distinte ordinate(A1 , A2 , . . . , Ar

)di sottoinsiemi disgiunti di A , di

cardinalita rispettivamente k1 , k2 , . . . , kr , la cui unione sia tutto A .Non e difficile verificare tale affermazione; per semplicita limitiamoci al caso r = 3 , dal

quale si intuisce subito come il ragionamento funziona in generale. Supponiamo dunque divoler scegliere un sottoinsieme A1 ⊂ A che abbia cardinalita k1 : per la prima scelta abbiamon possibilita, per la seconda n−1 , e cosı via; per la k1-esima abbiamo n−k1+1 possibilita,pertanto la scelta del sottoinsieme A1 puo essere fatta in n (n−1) · · · (n−k1+1) modi diversi.A questo punto passiamo alla scelta di un sottoinsieme A2 ⊂ A che abbia cardinalita k2 : siparte, per il primo elemento, da n−k1 scelte, e in definitiva la scelta dei k2 elementi di A2

puo essere fatta in (n−k1) (n−k1−1) · · · (n−k1−k2+1) modi. A questo punto il sottoinsiemeA3 = A \ (A1 ∪A2) , di cardinalita k3≡n−k1−k2 , risulta determinato, e il totale delle scelteche abbiamo fatto e

n (n−1) · · · (n−k1−k2+1) = n (n−1) · · · (k3+1) =n!

k3!.

Poiche pero siamo interessati alla partizione di A in sottoinsiemi (di cardinalita data) indi-pendentemente dall’ordinamento, mentre le scelte fatte determinano anche un ordinamento diA1 e A2 (non di A3), per avere il numero di scelte necessarie dobbiamo dividere per il numerodi permutazioni di A1 e di A2 , cioe per k1! k2! . In definitiva il numero cercato e appunto

n!

k1! k2! k3!≡(

nk1 , k2 , k3

).

Page 128: Appunti di probabilità e statistica [2013, 143p]

124 B NUMERI COMPLESSI

B Numeri complessi

Quest’appendice e un compendio di nozioni, gia note da altri corsi, che gli studenti del cor-so di Probabilita e Statistica (Ingegneria Civile, a.a. 2009/2010) dovrebbero avere presenti.Le sezioni contrassegnate da un asterisco (*) sono inserite per completezza, ma non sonoindispensabili per il corso suddetto.

B.1 Numeri complessi

Il campo C dei numeri complessi puo essere definito come lo spazio vettoriale R2 dotato, oltreche delle solite operazioni, del prodotto C× C→ C dato da:

(a, b) · (a′, b′) := (aa′ − bb′, ab′ + ba′) .

Un numero complesso c = (a, b) puo essere scritto in forma polare o trigonometrica(utilizzando cioe le coordinate polari sul piano R2) come

c = ρ (cos θ, sin θ) , ρ ∈ R+, θ ∈ R ,

dove ρ = (a2 + b2)1/2 , e θ e determinato a meno di multipli di 2π (e indeterminato solo perc = (0, 0)). I numeri reali |c| = ρ e arg(c) = θ si dicono rispettivamente modulo e argomento dic ; si noti che |c| coincide con la norma Euclidea di c in R2 , da cui abbiamo la disuguaglianzatriangolare:

|c+ c′| ≤ |c|+ |c′| , c, c′ ∈ C .

In forma polare il prodotto di due numeri complessi diventa:

cc′ = ρρ′(cos(θ + θ′), sin(θ + θ′)

),

ovvero il modulo del prodotto e il prodotto dei moduli, l’argomento del prodotto e la sommadegli argomenti.

Il sottospazio di C costituito da tutti i numeri complessi della forma (a, 0) puo essereidentificato con R . Scriviamo cioe R ⊂ C , e identifichiamo il numero complesso (a, 0) con ilnumero reale a . E immediato verificare che la restrizione ad R del prodotto di C e il solitoprodotto di R .

Consideriamo poi il sottospazio di C costituito da tutti i numeri complessi della forma(0, b) , detti numeri immaginari. Si vede subito che il prodotto di due numeri immaginarie un numero reale, e che il quadrato di un numero immaginario e negativo. In particolare,consideriamo l’unita immaginaria i := (0, 1) ; si ha i2 = −1 . In generale, un numero complessopuo essere scritto in uno e in un sol modo come la somma di un numero reale e un numeroimmaginario, ovvero:

c := (a, b) = a+ i b = ρ (cos θ + i sin θ) , a, b, θ ∈ R, ρ ∈ R+ .

I numeri reali a e b si dicono parte reale e parte immaginaria del numero complesso c ; si scriveanche:

<c = a = ρ cos θ , =c = b = ρ sin θ .

Non e difficile verificare che le operazioni di somma e prodotto di numeri complessi godonodi tutte le proprieta che permettono, nel manipolare un’espressione complessa, di utilizzare le

Page 129: Appunti di probabilità e statistica [2013, 143p]

B.2 Funzioni elementari 125

solite regole dell’algebra ordinaria (con in piu la regola i2 = −1). In particolare, ogni numerocomplesso diverso da 0 ha un unico inverso:

c = ρ (cos θ + i sin θ) ⇒ c−1 = ρ−1(cos θ − i sin θ) .

Il numero complesso coniugato di c = a+ i b = ρ (cos θ + i sin θ) e definito come:

c = a− i b = ρ (cos θ − i sin θ) .

Dunque c e il numero complesso con lo stesso modulo di c e argomento opposto. Si osserviche il modulo quadrato di c (e di c) e dato da:

ρ2 = cc = a2 + b2 .

Inoltre si ha:

¯c = c ; <c = 12 (c+ c) ; =c = 1

2 i(c− c) ;

cd = c d ; c+ d = c+ d ; 1/c = 1/c .

Osservazione. Moltiplicando un numero complesso (visto come elemento di R2) per i lo siruota in senso antiorario di π/2 ; in altri termini, la moltiplicazione per i puo essere vista comel’applicazione lineare R2 → R2 la cui matrice nella base canonica e

(i)

=(

0 −11 0

), e in generale

la moltiplicazione per il numero immaginario i b puo essere vista come l’applicazione lineareR2 → R2 la cui matrice nella base canonica e b

(i)

=(

0 −bb 0

). D’altra parte, la moltiplicazione

di un numero complesso per il numero reale a puo essere vista come l’omotetia a11 , cioel’applicazione lineare R2 → R2 la cui matrice (in qualsiasi base) e

(a11)

=(a 00 a

). Dunque C

puo essere visto come il sottospazio di dimensione 2, dello spazio di tutte le matrici 2× 2 ,costituito dalle matrici della forma

a+ i b ≡(a11 + b i

)=

(a −bb a

),

con l’operazione di prodotto data dal solito prodotto di matrici (e un facile esercizio ve-rificare che si ottiene proprio la regola introdotta all’inizio di questo paragrafo). In formatrigonometrica:

ρ (cos θ + i sin θ) ≡ ρ(

cos θ − sin θsin θ cos θ

).

Si noti poi che al numero complesso coniugato corrisponde la matrice trasposta e all’inversola matrice inversa; inoltre, il modulo quadrato di un numero complesso e il determinante dellamatrice corrispondente. I numeri complessi di modulo 1, cioe quelli della forma cos θ+ i sin θ ,corrispondono a rotazioni di un angolo θ in senso antiorario. ♣

B.2 Funzioni elementari

Nello studiare funzioni C → C si indica tradizionalmente la variabile indipendente con lalettera z , e la variabile dipendente (se necessario) con la lettera w . Inoltre si indicano la partereale e immaginaria della funzione rispettivamente con u e v . Dunque scriviamo:

w = f(z) = u(x, y) + i v(x, y) , z = (x, y) ≡ x+ i y = ρ (cos θ + i sin θ) .

In generale considereremo funzioni definite su un sottoinsieme aperto U ⊂ C .

Page 130: Appunti di probabilità e statistica [2013, 143p]

126 B NUMERI COMPLESSI

Potenze

La funzione f(z) = zm , m ∈ N , puo essere calcolata immediatamente in termini di modulo eargomento:

zm = ρm(cosmθ + i sinmθ) .

Questa formula vale poi anche per esponente negativo o nullo, ponendo:

z0 := 1 ; z−m := (zm)−1 = (z−1)m .

Radici (*)

Calcoliamo poi la radice m-esima di un numero complesso. Sia ζ = σ(cosφ+ i sinφ) tale cheζm = z := ρ (cos θ + i sin θ) , ovvero:

σm = ρ ,

cosmφ = cos θ ,

sinmφ = sin θ .

I valori (tutti e soli) di σ e φ che soddisfano queste relazioni sono:σ = ρ1/m ;

φ = (θ + 2 k π)/m ;

con k ∈ Z . Si hanno dunque m radici m-esime distinte di z 6= 0 . Se consideriamo argomenticompresi nell’intervallo [0, 2π) , queste possono essere scritte:

ζ = ρ1/m[cos(θ + 2 k π

m

)+ i sin

(θ + 2 k π

m

)], k = 0, 1, . . . ,m− 1

Se prendiamo un intervallo differente per gli argomenti, questa formula vale sempre ma convalori diversi di k , da determinarsi da caso a caso. La particolare radice

m√z := ρ1/m

(cos(θ/m) + i sin(θ/m)

), θ ∈ (−π, π] ,

e detta valore principale di z1/m , ed e discontinua nei punti dell’asse reale negativo.Ponendo zn/m := (z1/m)n abbiamo definito la potenza di un numero complesso con espo-

nente razionale qualsiasi. E importante sottolineare che si tratta di una funzione multivoca opolidroma, cioe a piu valori. Le solite proprieta delle potenze continuano a valere, ma semprenei limiti di questa non completa determinatezza, per cui devono essere utilizzate con cautela.Per esempio la formula (zz′)q = zqz′q , q ∈ Q , e vera solo se i valori dei due membri sonoscelti opportunamente tra quelli ‘papabili’.

Esponenziale

Estendiamo ora ai numeri complessi la funzione esponenziale (vedremo meglio in seguito comequesta estensione dell’esponenziale reale sia proprio quella naturale). Per ogni θ ∈ R poniamo:

eiθ := cos θ + i sin θ .

Dunque un numero complesso di modulo ρ e argomento θ puo essere scritto in forma espo-nenziale come

z = ρei θ .

Page 131: Appunti di probabilità e statistica [2013, 143p]

B.2 Funzioni elementari 127

Dato un numero complesso qualunque z = x+ i y poniamo allora

exp(z) := ez = ex+i y := exei y

(richiediamo cioe che continui a valere una delle proprieta formali dell’esponenziale reale). Efacile vedere allora che si ha in generale:

ez+z′

= ezez′, z, z′ ∈ C .

Osserviamo poi che si ha:

z = ρe−i θ ,

z z′ = ρρ′ei (θ+θ′) ,

zm = ρmeimθ , m ∈ Z

(l’ultima formula e in accordo con un’altra proprieta dell’esponenziale reale).

Funzioni trigonometriche e iperboliche

Vediamo ora come estendere le funzioni circolari e iperboliche (tutte queste estensioni sononaturali, in un senso che verra precisato in seguito). Osserviamo che dalla definizione di eiθ siricavano cos θ e sin θ in termini di esponenziali; richiedendo che tali espressioni valgano perargomento complesso qualunque, otteniamo le formule di Eulero:

cos z =ei z + e−i z

2; sin z =

ei z − e−i z

2 i.

Inoltre poniamo:

cosh z =ez + e−z

2; sinh z =

ez − e−z

2.

Si ricavano allora facilmente le formule:

cos iz = cosh z ; sin iz = i sinh z .

Non e difficile verificare, inoltre, che le solite identita trigonometriche continuano a valere perle estensioni complesse; ma si osservi (lo vedremo meglio tra poco) che nel campo complessohanno soluzione equazioni come (ad esempio) cos z = r con r reale maggiore di 1 .

Logaritmo

Definiamo il logaritmo come la funzione inversa dell’esponenziale, log(ez) = z ∀z . Dal mo-mento che z = ρei θ = elog ρ+i θ , dove ρ := |z| e θ := arg z , abbiamo:

log z = log ρ+ i θ = log |z|+ i arg z .

Si osservi che arg z e determinato a meno di multipli di 2π , dunque il logaritmo e una funzionepolidroma: assume un unico valore solo se si sceglie un dato intervallo, di ampiezza 2π , pergli argomenti. In particolare scegliendo arg z ∈ (−π, π] abbiamo, come nel caso della radice,il valore principale del logaritmo, che e discontinuo nei punti dell’asse reale negativo.

Le solite proprieta formali del logaritmo continuano a valere, ma nell’utilizzarle occorreattenzione. Uno che facesse dei calcoli senza pensare potrebbe scrivere, per esempio,

0 = log 1 = log(−1)2 = 2 log(−1) ,

Page 132: Appunti di probabilità e statistica [2013, 143p]

128 B NUMERI COMPLESSI

e dedurne log(−1) = 0 . Dov’e l’errore? Per applicare la formula arg(zz′) = arg z + arg z′

bisogna che tutti gli argomenti appartengano al medesimo intervallo di ampiezza 2π ; nelnostro caso possiamo prendere per esempio (π/2, 5π/2) , e quindi log 1 = 2πi .

Fissato un intervallo per gli argomenti (di regola il valore principale) si pone

zα := eα log z , α ∈ C \ 0 ,che per α ∈ Q coincide con la definizione data precedentemente.

Funzioni circolari e iperboliche inverse (*)

Dal momento che le funzioni circolari e iperboliche sono espresse in termini della funzioneesponenziale, non e sorprendente che le loro inverse siano esprimibili in termini del logarit-mo (in effetti, exp e log sono essenzialmente le uniche funzioni elementari trascendenti). Lacostruzione richiede pero qualche cautela, proprio per le questioni legate alla multivocita.

Consideriamo per cominciare la funzione sin ; si vede facilmente (esercizio) che perche siainiettiva deve essere ristretta a un’opportuna striscia del piano complesso. La scelta standarde

U := z ∈ C : <(z) ∈ (−π/2, π/2) .Si vede allora (esercizio) che

V := sin(U) = C \ x ∈ R : |x| ≥ 1 .La funzione arcsin :V → U e definita da sin(arcsin(z)) = z , ovvero

eiw − e−iw = 2 i z , w := arcsin(z) .

Dal momento che l’esponenziale e sempre diverso da zero (esercizio), questa e un’equazionedi secondo grado in eiw , la cui soluzione e eiw = i z+ (1− z2)1/2 , cioe

arcsin(z) = −i log(i z + (1− z2)1/2

).

Quest’espressione e ambigua in quanto composizione di funzioni polidrome, ma si vede (eser-cizio) che e esattamente quella cercata quando si considerano i valori principali sia della dellaradice che del logaritmo.

La funzione cos e iniettiva (esercizio) se ristretta alla striscia

U ′ := z ∈ C : <(z) ∈ (0, π) ,e risulta (esercizio) cos(U ′) = V = sin(U) . Per esprimere la funzione arccos possiamo risolvererispetto a eiw l’equazione eiw+e−iw = 2z , o anche, osservando che da cos(π/2 − w) = sinwsegue arcsin z+ arccos z = π/2 , ricavare direttamente (esercizio):

arccos z =π

2− arcsin z = −i log

(z + i (1− z2)1/2

).

La funzione tan(z) := sin(z)/ cos(z) e iniettiva (esercizio) sullo stesso insieme U del seno,e si ha

V ′ := tan(U) = C \ i y ∈ iR : |y| ≥ 1 .Infine la funzione inversa arctan : V ′ → U e data da

arctan(z) =i

2log

i + z

i− z,

dove si prende il valore principale del logaritmo (esercizio).In maniera analoga si possono studiare le inverse delle funzioni iperboliche (si veda per

esempio il volume di Abramowitz-Segun, elencato nei riferimenti bibliografici al termine diquesta sezione).

Page 133: Appunti di probabilità e statistica [2013, 143p]

B.3 Derivata e integrale di una curva a valori complessi 129

B.3 Derivata e integrale di una curva a valori complessi

Consideriamo una curva a valori in C , cioe un’applicazione derivabile

z : I→ C ≡ R2 : t 7→ z(t) = x(t) + i y(t) ≡(x(t), y(t)

),

dove I ⊂ R e un aperto. La sua derivataB.1 (o vettore tangente) e l’applicazione

z : I→ C ≡ R2 : t 7→ z(t) = x(t) + i y(t) ≡(x(t), y(t)

),

dove si e indicato la derivata di una funzione rispetto a t con un punto sopra al simbolo dellamedesima (z ≡ d

dtz eccetera). In particolareB.2

ddte

i t ≡ ddt(cos t+ i sin t) = − sin t+ i cos t = i ei t .

A partire da questa e facile far vedere che, in pratica, la derivata di una curva a valori inC puo essere calcolata con le solite regole di derivazione. In particolare valgono la regola diLeibnitz (derivata di un prodotto) e la regola della catena (derivata di una composizione).

Similmente si definisce l’integrale indefinito∫z(t) dt :=

∫x(t) dt+ i

∫y(t) dt ,

e, se (a, b) ⊂ I , l’integrale definito∫ b

az(t) dt :=

∫ b

ax(t) dt+ i

∫ b

ay(t) dt .

Dal teorema fondamentale del calcolo integrale si ricava che la curva

Z : I→ C : t 7→ Z(t) :=

∫ t

az(s) ds

e una primitiva di z , cioe Z = z . Si verifica facilmente che valgono la formula di integrazioneper parti e la formula del cambiamento di variabile; le primitive e gli integrali definiti sicalcolano in sostanza con le medesime regole del caso di funzioni R→ R .

B.4 Serie (*)

Ricapitoliamo alcuni fatti riguardanti successioni e serie a valori complessi. Le dimostrazionisono analoghe a quelle del caso reale; controllarne la validita nel caso complesso e un utileesercizio.

Osserviamo prima di tutto che la topologia (insiemi aperti, insiemi chiusi, intorni ecc.) diC e quella standard di R2 (volendo utilizzare una norma si puo prendere quella definita dalmodulo). In termini di tale topologia sono definiti i limiti di successioni N→ C , e i limiti e lacontinuita di funzioni C → C . In particolare, una successione cn := an + ibn converge se esolo se convergono an e bn , e si ha lim cn = lim an+i lim bn ; se cn e dn sono entrambe

B.1La derivata ddzf(z) di una funzione di variabile complessa f : C→ C e un argomento ben piu intricato (si

vedano i riferimenti bibliografici al termine di questa sezione).B.2La curva t 7→ ei t e un moto circolare uniforme di raggio unitario, e questa formula mi dice che il vettore

tangente a questo moto lo si ottiene (com’e ovvio) ruotando di π/2 il vettore di posizione rispetto al centro.

Page 134: Appunti di probabilità e statistica [2013, 143p]

130 B NUMERI COMPLESSI

convergenti si ha lim(cndn) = (lim cn)(lim dn) , e se lim cn 6= 0 allora lim(1/cn) = 1/(lim cn) .Risultati analoghi valgono per i limiti di funzioni.

Nessuna novita sostanziale anche per quanto riguarda i concetti di serie, somme parzialie somma di una serie. La serie

∞∑n=0

cn

e detta assolutamente convergente se la serie (reale a termini non negativi)

∞∑n=0

|cn|

e convergente. Una serie assolutamente convergente e convergente, e ogni serie ottenutariordinandone i termini converge alla medesima somma.

Richiamiamo il concetto di convergenza uniforme. Sia S un insieme qualsiasi e (fn : S → C)una successione di funzioni. Tale successione e detta uniformemente convergente su S se esisteuna funzione f : S → C con la proprieta:

∀ε > 0 ∃nε ∈ N : |fn(s)− f(s)| < ε ∀n > nε, s ∈ S .

Se (fn) converge uniformemente e i singoli termini sono funzioni continue, anche illimite f euna funzione continua.

La serie∑fn e detta uniformemente convergente se tale e la successione delle sue somme

parziali, e assolutamente convergente se e convergente la serie∑|fn| . Il criterio del confronto

afferma che se esiste una successione rn a termini reali non negativi, tale che la serie∑rn sia

convergente, e che ∀z ∈ S si abbia |fn(z)| ≤ rn , allora la serie∑fn converge uniformemente

e assolutamente.Consideriamo in particolare le serie di potenze, ovvero serie di funzioni del tipo

∞∑n=0

cn(z − z0)n ,

dove z0 ∈ C e fissato e cn e la successione (a valori complessi) dei coefficienti della serie.Come nel caso reale, dal criterio del confronto segue il seguente

Teorema 2.19. Se una serie di potenze non converge assolutamente ∀z ∈ C , allora esisteun unico r ∈ R+ tale che la serie converge assolutamente per |z − z0| < r e non converge per|z − z0| > r .

Inoltre, la serie converge uniformemente su ogni cerchio |z − z0| ≤ s , s < r .

Il numero r del precedente teorema e detto raggio di convergenza della serie.B.3 Dunque laserie converge assolutamente all’interno di un cerchio di raggio r con centro in z0 , e convergeuniformemente su ogni cerchio |z − z0| ≤ r′ < r . Ovviamente una serie di potenze convergeassolutamente almeno per z = z0 . Per convenzione, si dice convergente una serie che ha raggiodi convergenza non nullo.

Il raggio di convergenza puo essere calcolato mediante il seguente

Teorema 2.20. Se r e il raggio di convergenza della serie di potenze∑cnz

n , si ha

1

r= lim sup |cn|1/n ,

B.3Si osservi che il teorema non dice niente riguardo alla convergenza nei punti della circonferenza |z−z0| = r .In effetti si possono avere vari casi, ma noi non ci occuperemo di tali questioni.

Page 135: Appunti di probabilità e statistica [2013, 143p]

B.4 Serie (*) 131

relazione da interpretarsi in senso esteso, ovvero r = 0 se lim sup |cn|1/n = ∞ , r = ∞ selim sup |cn|1/n = 0 .

Non e difficile verificare che le funzioni elementari hanno i medesimi sviluppi in serie diTaylor delle corrispondenti funzioni reali. Ne riportiamo alcuni dei piu comuni, nell’intorno diz0 = 0.

1

1 + z=∞∑n=0

(−1)n zn = 1− z + z2 − z3 + z4 + · · · , |z| < 1.

(1 + z)α =∞∑n=0

(α− n+ 1)(α− n+ 2) · · ·αn!

zn =

= 1 + α z +α(α− 1)

2z2 +

α(α− 1)(α− 2)

3!z3 +

+α(α− 1)(α− 2)(α− 3)

4!z4 + · · · , |z| < 1 .

ez =∞∑n=0

zn

n!= 1 + z +

z2

2!+z3

3!+z4

4!+ · · · , z ∈ C .

sin z =∞∑n=0

(−1)nz2n+1

(2n+ 1)!= z − z3

3!+z5

5!− z7

7!+ · · · , z ∈ C .

cos z =∞∑n=0

(−1)nz2n

(2n)!= 1− z2

2!+z4

4!− z6

6!+ · · · , z ∈ C .

tan z = z +z3

3+

2z5

15+

17z7

315+

62z9

2835+O(z11), |z| < π

2.

sinh z =∞∑n=0

z2n+1

(2n+ 1)!= z +

z3

3!+z5

5!+z7

7!+ · · · , z ∈ C .

cosh z =∞∑n=0

z2n

(2n)!= 1 +

z2

2!+z4

4!+z6

6!+ · · · , z ∈ C .

tanh z = z − z3

3+

2z5

15− 17z7

315+

62z9

2835+O(z11), |z| < π

2.

log(1 + z) =

∞∑n=1

(−1)nzn

n= z − z2

2+z3

3− z4

4+ · · · , |z| < 1 .

arcsin z = z +1

2

z3

3+

1 · 32 · 4

z5

5+

1 · 3 · 52 · 4 · 6

z7

7+ · · · , |z| < 1 .

arctan z =

∞∑n=0

(−1)nz2n+1

(2n+ 1)= z − z3

3+z5

5− z7

7+ · · · , |z| < 1 .

Page 136: Appunti di probabilità e statistica [2013, 143p]

132 B NUMERI COMPLESSI

In particolare, osserviamo che

ei θ =∞∑n=0

(i θ)n

n!= 1 + i θ − θ2

2!− i

θ3

3!+θ4

4!+ i

θ5

5!+ · · · =

= (1− θ2

2!+θ4

4!+ · · · ) + i (θ − θ3

3!+θ5

5!+ · · · ) = cos θ + i sin θ ,

in accordo con la definizione di esponenziale complesso.

Riferimenti bibliografici sui numeri complessi

• M. Abramowitz - I. A. Segun, Handbook of mathematical functions, Dover.Un riferimento utile per tutte le principali funzioni di variabile reale e complessa; contiene anche

le tavole numeriche (queste ultime ormai poco utili: servivano negli anni sessanta quando non si

poteva avere un computer sulla scrivania).

• D. Canarutto, Appunti di Analisi III, Pitagora Editrice, Bologna (1998). Spiegazioni piu

dettagliate e numerosi esercizi svolti sui numeri complessi (e altro).

• J. Bak - D. J. Newman, Complex Analysis, Springer-Verlag.

• S. Lang, Complex Analysis, Springer-Verlag.

• V. Smirnov, Cours de mathematiques superieures, Edition Mir, Moscou.

• T. Needham, Visual Complex Analysis, Oxford.

Page 137: Appunti di probabilità e statistica [2013, 143p]

133

C Misura e integrazione

C.1 Misura

Il concetto di misura secondo Riemann, su cui si basa la nozione di integrale che viene utilizzatadi solito nei primi due anni di corso, e sufficiente per molte applicazioni. Tuttavia per unatrattazione precisa della probabilita (e per varie altre questioni importanti) e indispensabileuna nozione di misura un po’ piu ‘sofisticata’, che verra qui introdotta in maniera sintetica.Per i nostri scopi non e indispensabile conoscere la teoria completa ne le dimostrazioni deiteoremi.C.1

Indichiamo con Ω un insieme (generico).

Definizione C.1 Una σ-algebraC.2 su Ω e una famiglia E di sottoinsiemi di Ω con le seguentiproprieta:

a) Ω ∈ E.

b) E ∈ E ⇒ Ω \ E ∈ E.

c) Ek ∈ E ∀k ∈ N⇒ ∪k∈NEk ∈ E.

Un sottoinsieme E ∈ E e detto misurabile, e la coppia (Ω,E) e detta spazio misurabile.

Si noti che su qualsiasi insieme Ω esiste almeno una σ-algebra: quella di tutti i sottoinsiemidi Ω. Se S e una qualsiasi famiglia di sottoinsiemi di Ω, si dimostra che esiste una σ-algebraminimale E su Ω tale che S ⊂ E; si dice allora che E e la σ-algebra generata da S.

Si dimostra facilmente:

d) ∅ ∈ E.

e) Ek ∈ E ∀k ∈ N⇒ ∩k∈NEk ∈ E.

f) Ek ∈ E, k = 1, . . . , n ⇒ ∪kEk ∈ E.

g) E,F ∈ E ⇒ E \ F ∈ E.

Definizione C.2 Un’applicazione f : Ω → Rn si dice misurabile se la preimmagine di ogniaperto di V ⊂ Rn e un sottoinsieme misurabile di Ω : f−1(V ) ∈ E.

In particolare, la funzione caratteristica χE di E ∈ E e ovviamente misurabile.C.3 Sefn : Ω→ R e una successione di funzioni misurabili, si dimostra che sono misurabili anche lefunzioniC.4 supn fn, lim supn fn e, se esiste, limn fn. Se f, g : Ω → R sono misurabili, lo sonoanche f+g, fg e (f, g) : Ω→ R2.

Definizione C.3 Una misura (positiva) su uno spazio misurabile (Ω,E) e una funzione µ :E → [0,∞] che sia σ-additiva, cioe tale che per ogni famiglia numerabile Enn∈N di insiemimisurabili disgiunti si abbia

µ( ∪n∈N

En) =∑n∈N

µ(En) .

La terna (Ω,E, µ) e detta allora uno spazio di misura.

C.1Chi voglia approfondire puo consultare i riferimenti bibliografici elencati in fondo a questa sezione.C.2Storicamente, la lettera σ si riferisce alla parola ‘somma’.

C.3La funzione caratteristica di un insieme E qualsiasi e definita da χE (x) :=

1 , x ∈ E ,0 , x 6∈ E .

C.4La notazione lim sup e equivalente a max lim .

Page 138: Appunti di probabilità e statistica [2013, 143p]

134 C MISURA E INTEGRAZIONE

Si dimostra:

• µ(∅) = 0.

• µ(E ∪ F ) = µ(E) + µ(F )− µ(E ∩ F ).

• E ⊂ F ⇒ µ(E) ≤ µ(F ).

Ovviamente la σ-additivita vale anche per una famiglia finita di insiemi misurabili di-sgiunti. Per una famiglia numerabile di insiemi misurabili eventualmente non disgiunti si hain generaleC.5

µ( ∪n∈N

En) ≤∑n∈N

µ(En) .

Una successione En di insiemi si dice crescente se m < n⇒ Em ⊂ En , e decrescente sem > n⇒ Em ⊂ En . Si dimostra:

Teorema 3.21.Sia En una successione crescente di insiemi misurabili; si ha

limn→∞

µ(En) = µ( ∪n∈N

En) .

Sia En una successione decrescente di insiemi misurabili; si ha

limn→∞

µ(En) = µ( ∩n∈N

En) .

Esempio C.1. Ricordiamo che la cardinalita |S| di un insieme finito S e semplicemente ilnumero degli elementi che lo compongono. Sia allora Ω un insieme qualsiasi, e sia E la famigliadi tutti i sottoinsiemi di Ω. Poniamo µ(E) =∞ se E ∈ E e un insieme infinito (cioe costituitoda infiniti elementi), altrimenti µ(E) = |E|. Allora µ e una misura, detta misura discreta, odel conteggio. ♠

Esempio C.2. Se Ω ≡ Rn possiamo considerare la σ-algebra B generata da tutti gli aperti;gli elementi di B sono detti Boreliani (in particolare sono Boreliani gli insiemi chiusi). Unafunzione Ω→ R si dice Borel-misurabile se e misurabile rispetto alla σ-algebra dei Boreliani.Ogni funzione continua e dunque Borel-misurabile. ♠

Osservazione. Ricordiamo che un iper-intervallo di Rn e il prodotto cartesiano di n intervallidi R, e che un pluri-intervallo di Rn e l’unione di un numero finito di iper-intervalli. La misuradi un pluri-intervallo in Rn puo essere definita in modo naturale ed elementare.

Per ogni sottoinsieme E ⊂ Rn indichiamo con m#(E) l’estremo inferiore di tutte le misuredi pluri-intervalli contenenti E, e con m[(E) l’estremo superiore di tutte le misure di pluri-intervalli contenuti in E. Si dice che E e misurabile secondo Peano-Jordan se m#(E) = m[(E);tuttavia, la famiglia P di tutti gli insiemi misurabili secondo Peano-Jordan non e una σ-algebra. Infatti, come vedremo in seguito con un esempio, la proprieta c) della definizione C.1e verificata solo per una famiglia finita finita di sottoinsiemi. Quindi la funzione m : P →[0,+∞] : E 7→ m(E) := m#(E) = m[(E), detta misura di Peano-Jordan, non e a rigore unavera misura; o meglio, soddisfa una definizione di misura piu debole. ♣

C.5Piu precisamente, si dimostra

Page 139: Appunti di probabilità e statistica [2013, 143p]

C.2 Integrazione astratta 135

C.2 Integrazione astratta

In questo paragrafo consideriamo uno spazio misurabile (Ω,E) fissato.Una funzione s : Ω→ R tale che la sua immagine sia un sottoinsieme finito a1, . . . , an ⊂

R e detta semplice. Una funzione semplice puo essere espressa nella forma

s =

n∑j=1

ajχEj , Ej := s−1(aj) .

Chiaramente s e misurabile se e solo se e misurabile ciascuno degli Ej .Se f : Ω → [0,∞) e misurabile, si dimostra che esiste una successione sn di funzioni

semplici misurabili tali che

a) 0 ≤ s1 ≤ · · · ≤ sn ≤ · · · ≤ f ;

b) sn(x)→ f(x) ∀x ∈ Ω.

Inoltre, se f e limitata la convergenza e uniforme.Consideriamo ora una misura µ : E → [0,∞]. Sia s =

∑j ajχEj una funzione semplice

misurabile ed E ∈ E. L’integrale di s su E e definito in maniera naturale come∫Es dµ :=

n∑j=1

aj µ(Ej ∩ E) .

Cio suggerisce la definizione di integrale su E di una funzione misurabile non negativa, f :Ω→ [0,∞], come ∫

Ef dµ := sup

0≤s≤f

∫Es dµ .

Vale allora il teorema della convergenza monotona: se fn e una successione monotona (fn ≤fn+1) di funzioni misurabili tali che fn(x)→ f(x) ∀x ∈ Ω, allora

∫E fn dµ→

∫E f dµ (abbiamo

gia detto nel §C.1 che se fn e una successione di funzioni misurabili, lim fn risulta misurabile).Finalmente arriviamo alla definizione di integrale di una funzione misurabile f : Ω → R.

Osserviamo che f puo essere decomposta in maniera canonica nella differenza di due funzioninon negative; infatti f = f+ − f− dove

f+(x) := maxf(x), 0 , f+(x) := −minf(x), 0 .

Inoltre f e misurabile se e solo se lo sono f+ ed f−. Diremo allora che f e integrabile, osommabile, se

∫E f

+ dµ e∫E f− dµ sono entrambi finiti, e poniamo∫Ef dµ :=

∫Ef+ dµ−

∫Ef− dµ .

Si osservi che |f | = f+ + f−, per cui f e integrabile se e solo se∫E |f | dµ e finito.

E immediato verificare le proprieta:

1.∫E f dµ+

∫E g dµ =

∫E(f+g) dµ;

2.∫E cf dµ = c

∫E f dµ (c costante);

Page 140: Appunti di probabilità e statistica [2013, 143p]

136 C MISURA E INTEGRAZIONE

3. D ∩ E = ∅⇒∫D∪E f dµ =

∫D f dµ+

∫E f dµ.

Si dimostra il teorema della convergenza dominata: sia fn una successione di funzionimisurabili tali che fn(x)→ f(x) ∀ x ∈ Ω; supponiamo inoltre che esista una funzione misura-bile g : Ω→ R tale che per ogni n ed ogni x si abbia fn(x) ≤ g(x); allora f e integrabile, e siha ∫

E|fn − f | dµ→ 0 ,

∫Efn dµ→

∫Ef dµ .

Consideriamo ora una qualsiasi proprieta P che in un punto x ∈ Ω puo valere oppure no(ad esempio P potrebbe essere la proprieta “f(x) ≥ 0”, dove f e una funzione data; oppure“fn(x) e convergente”, dove fn e una successione di funzioni). Si dice che P vale quasiovunque in un insieme E ⊂ Ω se il sottoinsieme di E in cui P non vale ha misura nulla. Inparticolare, se f e g sono funzioni misurabili e l’insieme x|f(x) 6= g(x) ha misura nulla,diciamo che f = g quasi ovunque; in tal caso scriviamo anche f ∼ g, in effetti si tratta di unarelazione di equivalenza.

Se f ∼ g, per ogni E ∈ E si ha∫E f dµ =

∫E g dµ. Viceversa se l’uguaglianza dell’integrale

vale per ogni insieme misurabile, allora f ∼ g. In particolare sia f ≥ 0 e∫

Ω f dµ = 0; alloraf ∼ 0, in quanto l’integrale e zero su qualsiasi insieme misurabile.

Dunque gli insiemi di misura nulla sono trascurabili nei riguardi dell’integrazione. A questoproposito, ci si aspetterebbe che un sottoinsieme di un insieme trascurabile sia ancora trascu-rabile. Tuttavia, dagli assiomi della misura non segue che un sottoinsieme di un insieme dimisura nulla debba essere a sua volta misurabile. Diamo allora una nuova definizione: diciamoche la misura µ e completa quando i sottoinsiemi degli insiemi di misura nulla sono misurabili(e, necessariamente, di misura nulla). E sempre possibile completare una data misura am-pliando in maniera naturale la σ-algebra E, includendovi cioe tutti i sottoinsiemi degli insiemidi misura nulla. Queste osservazioni suggeriscono allora di riformulare i vari enunciati relati-vi all’integrazione sostituendo dappertutto “∀x” con “quasi ovunque” (esercizio: riformulareteoremi della convergenza monotona e della convergenza dominata). In effetti, nulla cambiase modifichiamo in maniera arbitraria le funzioni coinvolte su un insieme di misura nulla.

L’approccio all’integrazione che abbiamo descritto mira principalmente a generalizzare ilfamiliare concetto di integrazione secondo Riemann. Lo scopo viene raggiunto introducendouna nuova misura in Rn (vedi prossimo paragrafo), detta misura di Lebesgue. Tuttavia l’in-tegrazione astratta e interessante anche in altri casi; l’esempio che segue e particolarmenteimportante.

Esempio C.3. Consideriamo la misura discreta (esempio C.1). In tal caso una funzione sem-plice s =

∑j ajχEj e sommabile se e solo se ciascuno degli insiemi Ej e finito. Se f e una

funzione positiva, tra tutte le funzioni semplici sue minoranti ci sono le restrizioni di f aisottoinsiemi finiti di Ω, ed e evidente che nel valutare

∫Ω f basta limitarsi a considerare queste

ultime. Dunque ∫Ωf =

∑x∈Ω

f(x)

dove la sommatoria e definita come l’estremo superiore di tutte le somme finite:∑x∈Ω

f(x) := supΩ′

∑x∈Ω′

f(x),Ω′ sottoinsieme finito di Ω.

Per definizione, per ogni ε > 0 esiste un sottoinsieme finito Ωε ⊂ Ω tale che∑x∈Ω

f(x)− ε ≤∑x∈Ωε

f(x) ≤∑x∈Ω

f(x) .

Page 141: Appunti di probabilità e statistica [2013, 143p]

C.3 Misura e integrale di Lebesgue 137

Pertanto esiste una successione Ω1 ⊂ Ω2 ⊂ · · · ⊂ Ωn ⊂ · · · di sottoinsiemi finiti di Ω tale che

limn→∞

∑x∈Ωn

f(x) =∑x∈Ω

f(x) ,

da cui si puo ricavare una successione xk : N→ Ω tale che

∞∑k=1

f(xk) =∑x∈Ω

f(x) .

Vediamo dunque che se f e sommabile su Ω, il suo supporto x|f(x) 6= 0 e tutt’al piunumerabile.

Se f non e a valori positivi ed e sommabile, vuol dire che e sommabile |f |; allora∑

x f(x) =∑k f(xk) e ben definita in quanto la serie e assolutamente convergente, dunque la somma non

dipende dall’ordine degli (infiniti) addendi. ♠

C.3 Misura e integrale di Lebesgue

Sia (Ω,T ) uno spazio topologico, B la σ-algebra dei Boreliani e µ : B → [0,∞] una misura.Si dice che µ e regolare se ∀B ∈ B si ha

r1) µ(B) = infVµ(V )|B ⊂ V ∈ T ;

r2) µ(B) <∞⇒ µ(B) = supKµ(K)|K ⊂ B, K compatto.

Possiamo ora enunciare il teorema di esistenza della misura di Lebesgue in Rn.

Teorema 3.22. Esistono una σ-algebra M in Rn e una misura completa µ : M→ [0,+∞]aventi le seguenti proprieta:

a) se I ⊂ Rn e un iper-intervallo, µ(I) coincide con il volume di I (cioe con la sua ‘misura’di Peano-Jordan);

b) B ⊂M e la restrizione di µ a B e regolare;

c) µ e invariante per traslazioni: µ(E + x) = µ(E) ∀E ∈M, x ∈ Rn;

d) per ogni misura µ′ : B → [0,+∞] che sia invariante per traslazioni e a valori finiti suicompatti, esiste una costante c tale che ∀B ∈ B si abbia µ′(B) = c µ(B).

La misura di cui sopra e detta misura di Lebesgue in Rn, e da luogo all’integrazionesecondo Lebesgue. Dal punto a) segue che se f : Rn → R e integrabile secondo Riemannlo e anche secondo Lebesgue, e i due integrali coincidono; il viceversa, come vedremo, non evero. Quando non c’e pericolo di confusione si indica l’integrale di Lebesgue con la medesimanotazione tradizionale per l’integrale di Riemann; ad esempio scriviamo

∫R f(x) dx per

∫R f dµ.

Enunciamo ora alcune generalizzazioni di risultati ben noti nel caso dell’integrale di Rie-mann.

Il primo risultato e il teorema di Fubini : sia f : R2 → R una funzione integrabile; alloraper quasi tutti gli x ∈ R la funzione fx : y 7→ f(x, y) e integrabile, ed e integrabile la funzionex 7→

∫R fx(y) dy; analogamente, per quasi tutti gli y ∈ R esiste ed e integrabile la funzione

y 7→∫R fy(x) dx; si ha∫

R2

f(x, y) dx dy =

∫R

(∫Rfx(y) dy

)dx =

∫R

(∫Rfy(x) dx

)dy .

Page 142: Appunti di probabilità e statistica [2013, 143p]

138 C MISURA E INTEGRAZIONE

Vogliamo poi generalizzare il teorema fondamentale del calcolo integrale. A tale scopopremettiamo la seguente definizione: una funzione f : R → R si dice assolutamente continuase ∀ε > 0 esiste δ > 0 tale che, comunque si scelga un numero finito di intervalli aperti disgiunti(aj , bj) con

∑j(bj−aj) < δ, risulta

∑j |f(bj)−f(aj)| < ε. Le funzioni assolutamente continue

sono derivabili quasi ovunque e uniformemente continue. L’importanza di questa nozione simanifesta allora nei seguenti due risultati:

I) Se f : R → R e integrabile, allora la funzione F (x) =∫ x−∞ f(t) dt e assolutamente

continua e si ha quasi ovunque F ′ = f .

II) Condizione necessaria e sufficiente perche l’uguaglianza

f(x)− f(a) =

∫ x

af ′(t) dt

valga ∀x ∈ [a, b] e che f sia assolutamente continua su [a, b].

E naturale a questo punto chiedersi quali vantaggi porta questa teoria rispetto a quella piuintuitiva e familiare di Riemann. Un vantaggio importante, che storicamente ha motivato losviluppo della teoria,C.6 e che sono molto meno restrittive le condizioni richieste per passare allimite sotto il segno di integrale (si veda il teorema della convergenza dominata). Tra l’altro,cio permette di introdurre gli spazi funzionali Lp ([Canarutto]), mediante i quali e possibiletrattare certe classi di funzioni con il linguaggio semplice e potente degli spazi di Hilbert.Tale approccio puo sembrare un po’ astratto, ma consente una piu chiara comprensione degliargomenti considerati.

Sarebbe ora desiderabile acquisire un maggiore dimestichezza con le nozioni di misura eintegrale di Lebesgue. Non volendo in questa sede addentrarci nei dettagli delle dimostrazioni,facciamo alcune considerazioni e introduciamo un paio d’esempi.

Un punto importante e che un insieme numerabile ha misura nulla. Sia infatti E :=ann∈N ; sia ε > 0; ogni elemento an ha un intorno In di misura inferiore a 2−nε, da cuiµ(E) ≤ µ(∪n∈N In) < ε.

Esempio C.4. L’insieme Q dei numeri razionali e numerabile, dunque µ(Q) = 0. Ne segueche l’insieme [0, 1] \ Q ha misura 1. Vediamo allora come la misura di Lebesgue permetta dimisurare insiemi di tipo molto piu generale rispetto alla misura di Peano-Jordan, per la quale irazionali e gli irrazionali non sono misurabili: in R i pluri-intervalli sono gli intervalli, dunque lamisura inferiore e quella superiore di [0, 1] \Q secondo Peano-Jordan valgono rispettivamente0 e 1. Da qui si vede anche che la nozione di misurabilita secondo Peano-Jordan non definisceuna σ-algebra: Q non e misurabile pur essendo unione numerabile di insiemi misurabili. ♠

Da quanto detto si vede che esiste un aperto V ⊂ R di misura arbitrariamente piccola chericopre tutto Q; questo fatto esemplifica chiaramente la non intuitivita, sotto certi aspetti,della misura di Lebesgue. Ovviamente il punto essenziale sta nella σ-additivita, che vale perfamiglie infinite (purche numerabili) di insiemi misurabili. Ne consegue che la classe M degliinsiemi misurabili secondo Lebesgue e molto vasta, tanto che non e facile trovare un insiemenon misurabile; anzi, per dimostrarne l’esistenza bisogna ricorrere all’assioma della sceltanella sua forma piu forte [5]. Si dimostra inoltre che esistono insiemi misurabili che non sonoBoreliani, cioe l’inclusione B ⊂M (teorema 3.22) vale in senso proprio (Rudin, §2.21).

C.6Sono interessanti e utili le “Notizie storiche” del Giusti [5].

Page 143: Appunti di probabilità e statistica [2013, 143p]

C.3 Misura e integrale di Lebesgue 139

Esempio C.5. Prendiamo l’intervallo [0, 1] e togliamone l’intervallo aperto centrale (1/3, 2/3);da ciascuno dei due intervalli rimasti togliamo l’intervallo aperto centrale; e cosı via. Al passor-esimo viene tolto un aperto Er che ha misura 2r−1/3r. E facile allora calcolare la misura diE = ∪r∈NEr (serie geometrica): si ha µ(E) = 1. L’insieme complementare K := [0, 1] \ E edetto insieme di Cantor. Chiaramente K e compatto e ha misura nulla. E facile convincersiche K non e vuoto: puo essere identificato con l’insieme di tutti i numeri reali in [0, 1] lacui espressione in base 3 non contiene la cifra 1. Anzi, si dimostra che K non e nemmenonumerabile (ha la potenza del continuo). ♠

Si possono fare tanti esempi di insiemi costruiti in maniera analoga a quello di Cantor. Sead ogni passo, invece di togliere 1/3 di ogni segmento, ne tolgo 1/p (p > 3), quello che rimaneha misura

1−∞∑n=0

2n

pn+1=p− 3

p− 2.

Riferimenti bibliografici su misura e integrazione

• D. Canarutto, Appunti di Analisi III, Pitagora Editrice, Bologna (1998).

• E. Giusti, Analisi Matematica 2, Bollati-Boringhieri.

• G. Gilardi, Analisi III, Mc Graw-Hill Italia.

• W. Rudin, Real and Complex Analysis, McGraw-Hill.

• V. Smirnov, Cours de mathematiques superieures, Ed. Mir, Moscou.