Calcolo delle Probabilità

ANALISIDEIDATI2012-13

c ©L.Finesso

(2012)

Lezione 1 (Lunedı, 4 marzo 2013, ore 10:30-12:15)

1.1 La probabilita per l’Ingegneria dell’Informazione

Iniziamo con la discussione qualitativa di qualche problema pratico che richiede il ricorsoa metodi probabilistici. Alcuni di questi esempi verranno ripresi mano a mano che sidisporra degli strumenti tecnici per un’analisi piu approfondita.

(a.) Compressione dati senza errore (zip/unzip sul PC)

Si tratta di mappare (codificare), in modo invertibile, una sequenza di dati (ad esempioun file di testo o un file eseguibile) in una sequenza di bit di lunghezza minima. La parolachiave qui e invertibile: ad esempio la compressione di file audio/video in formato .mp3 o.mp4 non e invertibile. L’algoritmo impiegato da ZIP produce invece una codifica inver-tibile. Apparentemente il problema e completamente deterministico, ma il limite teoricodi compressibilita di una data sequenza di dati dipende da una quantita probabilistica,l’entropia della sorgente dei dati.

(b.) Analisi di affidabilita

Componenti di affidabilita nota vengono assemblati per produrre sistemi. Qual e l’af-fidabilita complessiva del sistema? Dove conviene introdurre sistemi di backup per garan-tire una fissata soglia di affidabilita? Oppure, di maggior interesse per l’Informatica, siconsideri la piccola rete di calcolatori rappresentata dal grafo qui sotto.

C

D B

EA

F

l5

0.9

l4

0.8

l6

0.7

l7

0.3l1

0.9

l3

0.95

l2

0.75

I vertici sono i calcolatori, gli archi le connessioni fisiche tra calcolatori. Ogni arco ha dueetichette: il nome e la percentuale di uptime della connessione fisica: potete pensare chequesto dato sia stato ricavato osservando la rete nelle ultime 24 ore o nell’ultimo mese ecc.Si vuole calcolare la percentuale di uptime della connessione tra A e B. Supponete poi diriuscire a migliorare la connessione tra D ed E. Di quanto migliorera la connessione traA e B? A queste domande, e ad altre simili, sapremo presto dare una risposta utilizzandosemplici strumenti probabilistici.

(c.) Complessita degli algoritmi - worst case analysis ed analisi in media

Con la worst case analysis si valuta un parametro di performance dell’algoritmo, adesempio il tempo di esecuzione, nel caso piu sfavorevole. Consideriamo ad esempio unalgoritmo di ordinamento. Supponete di dover ordinare alfabeticamente pacchetti di 1000nomi. I possibili ordini di arrivo dei dati sono 1000! e tipicamente solo uno di questi eil worst case per l’algoritmo di ordinamento che state impiegando. E molto pessimistico

1

basare la valutazione dell’algoritmo sull’analisi della sua performance nel worst case. Seutilizzate l’algoritmo centinaia di volte al giorno, su pacchetti di 1000 dati sempre diversi,vi interessa di piu il suo tempo di esecuzione medio. Lo studio del comportamento medioe un tipico argomento di teoria della probabilita.

(d.) Integrazione numerica con il metodo di Monte Carlo

Si supponga di dover calcolare numericamente

I :=

∫ 1

0f(x) dx

per una complicata funzione f(x), continua nell’intervallo [0, 1], la cui antiderivata none nota. Il metodo classico e l’approssimazione di Riemann che consiste nel suddividerel’intervallo [0, 1] in n sottointervalli di identica lunghezza ∆ := 1

n , allora∫ 1

0f(x) dx ≈

n∑k=1

f(k∆) ∆.

L’approssimazione e tanto migliore quanto piu grande e n, come garantito dalla teoriadell’integrale di Riemann. Un metodo alternativo (metodo di Monte Carlo) consiste nelloscegliere n punti a caso nell’intervallo [0, 1], diciamoli x1, x2, . . . xn, e quindi calcolare∫ 1

0f(x) dx ≈ 1

n

n∑k=1

f(xk).

Nella figura qui sotto i due metodi sono messi a confronto.

6

-

f(x)

∆ 2∆ 3∆ 1

x

6

-

f(x)

x∗ 1x3 x1 x2

x

f(x∗)

Il razionale per il metodo di Monte Carlo e il teorema della media integrale. Se f(x)e una funzione continua sull’intervallo [0, 1] allora esiste x∗ ∈ [0, 1] tale che

∫ 10 f(x) dx =

f(x∗). Scegliendo i punti x1, x2, . . . xn a caso alcuni f(xk) saranno minori di f(x∗), altrimaggiori; se n e grande, calcolando la media aritmetica degli f(xk) ci aspettiamo quindidi ottenere un valore vicino ad f(x∗). Un celebre teorema della teoria della probabilita,la legge dei grandi numeri, giustifica in modo rigoroso questo ragionamento intuitivo. Macome si sceglie un punto a caso, diciamo x1, nell’intervallo [0, 1]? Lanciamo ripetutamenteuna moneta. Scriviamo il punto decimale e poi accodiamo un 1 ogni volta che esce Testa,ed uno 0 ogni volta che esce Croce. I lanci successivi produrranno in questo modo unasequenza binaria che interpreteremo come rappresentazione, in base 2, del numero realex1 ∈ [0, 1]. Ad esempio la sequenza CCTTCT . . . produce il punto

x1 = .001101 . . .

2

All’aumentare del numero di lanci aumenta la precisione di x1. Con n lanci si ottiene x1

con precisione 12n .

Con il metodo di Monte Carlo si calcola un integrale, problema squisitamente de-terministico, facendo ricorso al fenomeno casuale per eccellenza: i lanci ripetuti di unamoneta.

1.2 La teoria assiomatica della probabilita

La teoria della probabilita e uno dei possibili strumenti matematici per modellare esper-imenti il cui esito e incerto. E in realta lo strumento che ha avuto, e continua ad avere,maggior successo nelle applicazioni. Lo sviluppo matematico della teoria della probabilitaprocede per via assiomatica. Una volta definite le nozioni di base si derivano Lemmi,Proposizioni, e Teoremi, si introducono nuove definizioni e cosı via, senza bisogno di fareriferimento a monete, giochi di carte, esperimenti dall’esito incerto ecc. Poiche questo eun corso di base pero, per motivare lo studio e per sviluppare l’intuizione, cercheremodi presentare le idee astratte e dare contemporaneamente la loro interpretazione in varicontesti applicativi. Lo svantaggio di questo approccio e che il livello matematico saratroppo basso per chi cerca una trattazione completa, rigorosa e concisa e troppo alto perchi invece vorrebbe solo imparare a risolvere semplici problemi applicativi.

Il piu importante oggetto matematico in teoria della probabilita e lo spazio di proba-bilita. Molto all’ingrosso, vedremo successivamente i dettagli, uno spazio di probabilita Se una terna

S = (Ω,F , P ),

dove Ω e un insieme (lo spazio campionario) , F una famiglia di sottoinsiemi di Ω (la σ-algebra degli eventi misurabili) e P una mappa P : F → [0, 1], (la misura di probabilita).In questa lezione ci concentriamo sul primo elemento della terna, lo spazio campionarioΩ.

1.3 Lo spazio campionario Ω

Nella teoria astratta Ω e un insieme, detto spazio campionario, senza altre specificazioni.Quando la teoria della probabilita viene applicata a problemi concreti gli elementi di Ωrappresentano i possibili risultati d’interesse di un esperimento aleatorio. La natura diΩ puo quindi essere estremamente varia a seconda dello specifico esperimento. Vediamoalcuni esempi.

(1.) Esperimento: lancio una moneta. Osservazione: faccia uscita

Ω := C, T

molto spesso si preferisce identificare C = 0, T = 1.

(2.) Esperimento: lancio una moneta 3 volte. Osservazione: numero di Teste uscite

Ω := 0, 1, 2, 3

(2b.) Esperimento: lancio una moneta 3 volte. Osservazione: sequenza delle facce uscite

Ω := TTT, TTC, TCT, TCC,CTT,CTC,CCT,CCC

(3.) Esperimento: lancio una moneta ripetutamente. Osservazione: numero del lancioin cui si verifica la prima Testa

Ω = N := 1, 2, 3, . . .

3

(4.) Esperimento: misurazione della durata di un hard disk. Osservazione: intervallo ditempo

Ω = R+ := [0,∞)

Nota. Introducendo un’approssimazione si potrebbe misurare la durata in numero interodi ore. Il motivo per cui non conviene farlo e che il tempo, come la lunghezza e la massaper nominarne tre, e una grandezza fisica che, almeno a livello macroscopico, si modellapiu semplicemente usando un numero reale. La legge di Newton F = ma e un’equazionedifferenziale, non un’equazione alle differenze!

(5.) Esperimento: registrazione della temperatura al suolo a Porta Portello. Osser-vazione: il tracciato termografico nell’arco di 24 ore.

Ω := f : [0, 24]→ R; f e continua

In questo esempio gli elementi di Ω sono funzioni continue. Ogni funzione continuarappresenta un possibile tracciato osservato.

(6.) Esperimento: registrazione di temperatura e pressione al suolo a Porta Portello.Osservazione: il tracciato termografico e barometrico nell’arco di 24 ore.

Ω := f : [0, 24]→ R2; f e continua

In questo caso ogni osservazione e una funzione a valori vettoriali, in R2.

(7.) Esperimento: studio socio-sanitario. Osservazione: sesso, eta, peso, degli individuipartecipanti

Ω := F,M × N× R+

In questo caso gli elementi sono vettori a tre componenti disomogenee, la prima a valoriin un insieme a due valori, la seconda a valori in N, la terza a valori reali positivi.

Questo e solo un modesto campionario di casi molto semplici. Una differenza fondamen-tale tra i diversi spazi campionari e la cardinalita. In alcuni esempi, (1.), (2.), (2b.), lacardinalita e finita, in altri, (3.), infinita numerabile cioe pari alla cardinalita di N, inaltri, (4.), (7.), infinita non numerabile cioe pari alla cardinalita di R, in altri, (5.), (6.),superiore alla cardinalita di R.

Nella prima parte del corso ci concentreremo su spazi campionari finiti ed infiniti numer-abili. Nella seconda parte tratteremo gli spazi campionari con la cardinalita di R. Nontratteremo esempi del tipo (5.), (6.).

E interessante confrontare gli esempi (2.) e (2b.). Si noti che sullo spazio campionario di(2b.) si possono rappresentare i risultati d’interesse dell’esempio (2.). Se so che e uscitala sequenza TTC posso dire che il numero di Teste e 2. Quindi lo spazio campionario cherappresenta i possibili risultati di un esperimento e inerentemente non unico. E importanteprendere sempre uno spazio campionario sufficientemente ricco da contenere tutti i risultatid’interesse. Se poi Ω contiene piu elementi di quanti strettamente necessari si puo gestirela situazione, mentre il caso opposto porta a problemi. Non si possono rappresentare irisultati d’interesse del caso (2b.) usando lo spazio campionario di (2.)

1.4 Terminologia relativa allo spazio campionario

La terminologia probabilistica e ormai consolidata. L’insieme Ω e detto spazio campionario(sample space). Gli elementi ω ∈ Ω sono detti esiti (outcomes) o eventi elementari, isottoinsiemi di Ω sono detti eventi (events).1 Nelle applicazioni gli elementi dello spaziocampionario rappresentano i possibili esiti di un esperimento i cui risultati sono incerti.

1In realta, come vedremo, sono detti eventi solo i sottoinsiemi di Ω che appartengono a F .

4

Se l’esecuzione dell’esperimento produce il risultato ω ∈ Ω, si dice che si e verificato ω e,per ogni E tale che ω ∈ E, si dice che si e verificato E.

Esempio 1. Con l’usuale convenzione, 0=croce, 1=testa, sia

Ω := 000, 001, 010, 011, 100, 101, 110, 111

lo spazio campionario che rappresenta i possibili risultati di tre lanci di una moneta.Esempi di eventi di Ω sono i sottoinsiemi di esiti

Ek := ”escono k teste su 3 lanci”, k = 0, 1, 2, 3.

Ad esempio E0 = 000, mentre E1 = 001, 010, 100 ecc. Se si esegue l’esperimentoe, lanciando 3 volte la moneta, escono le facce 001 diremo che ω = 001 si e verificato.Analogamente diremo che si e verificato E1, mentre non si e verificato E2.

1.5 Operazioni elementari sugli eventi

Quando si disponga di certi eventi E, F , G ecc. e naturale utilizzzare gli eventi dati performare nuovi eventi d’interesse applicando le usuali operazioni insiemistiche sugli eventidati. Qui per usuali operazioni, di cui si considerano note la definizioni, si intendonol’unione, l’intersezione, e la complementazione2 . Utilizzando la terminologia probabilisticaappena introdotta, se E ed F sono eventi,

Ec = si verifica se e solo se non si verifica E

E ∪ F = si verifica se e solo se si verificano E o F

E ∩ F = si verifica se e solo se si verificano E e F

Esempio 2. Riprendendo l’Esempio 1, si considerino i seguenti eventi che sono descrittisia verbalmente che utilizzando operazioni insiemistiche sugli eventi Ek.

E := ”si verifica almeno 1 testa” = Ec0

F := ”si verifica al piu 1 testa” = E0 ∪ E1

G := ”si verifica almeno 1 testa e almeno 1 croce” = E1 ∪ E2

Due eventi speciali, banali e onnipresenti, sono Ω e ∅ detti, per ovvie ragioni, eventocerto ed impossibile rispettivamente. Tornando all’Esempio 2,

”si verificano almeno 2 teste e 2 croci” = ∅,

mentre”si verifica almeno 1 testa o una croce” = Ω.

2Ha senso parlare di complemento di un evento poiche tutti gli eventi sono sottoinsiemi di Ω.

5

Le proprieta di complementazione, unione ed intersezione si suppongono note. A titolodi promemoria, non necessariamente esaustivo, per ogni E, F , G ecc. eventi,

E ∩ F = F ∩ EE ∪ F = F ∪GE ∩ E = E ∪ E = E

E ∩ ∅ = ∅, E ∪ ∅ = E

E ∩ Ω = E, E ∪ Ω = Ω

E ∩ (F ∩G) = (E ∩ F ) ∩GE ∪ (F ∪G) = (E ∪ F ) ∪GE ∩ (F ∪G) = (E ∩ F ) ∪ (E ∩G)

E ∪ (F ∩G) = (E ∪ F ) ∩ (E ∪G)

(E ∩ F )c = Ec ∪ F c

(E ∪ F )c = Ec ∩ F c

6

Attenzione. Si tenga ben presente che la scrittura E ∩ F ∪ G e priva di senso, poichemancando le parentesi non e chiaro in che ordine si debbano effettuare le operazioni e, ingenerale (E ∩F )∪G e E ∩ (F ∪G) sono diversi [Micro-esercizio. Costruire esempi dell’ul-tima affermazione.] Morale: ogni volta che si scrive una espressione che contiene unioni,intersezioni e complementazioni si deve specificare univocamente l’ordine di esecuzionedelle operazioni con abbondante uso di parentesi.

1.6 Decomposizioni di eventi in unioni di eventi mutuamente esclusivi

(a.) Partizione di Ω

Una partizione di Ω e una famiglia Enn≥1 di eventi mutuamente esclusivi, la cui unionee Ω, ovvero tale che

Ei ∩ Ej = ∅, i 6= j

Ω =⋃i

Ei

Esempi.

(i.) Dato un evento E, una semplice partizione di Ω e E,Ec. In effetti E ∩ Ec = ∅ eE ∪ Ec = Ω.

(ii.) Si consideri Ω come nell’Esempio 1. E evidente che gli eventi Ek, per k = 0, 1, 2, 3,formano una partizione di Ω. In questo caso

E0 = 000, E1 = 001, 010, 100, E2 = 011, 101, 110, E3 = 111

ed Ω = ∪3k=0Ek.

(iii.) Lancio due dadi e osservo le facce uscite, Ω = (1, 1), (1, 2), . . . (6, 6) contiene 36coppie ordinate. Una partizione e fornita dagli eventi

Ek := ”la somma delle facce e k”, k = 2, 3, . . . 12.

(b.) Decomposizione rispetto ad una partizione.

Nel caso elementare si considera la partizione (E,Ec) dove E ⊂ Ω. Poiche per ogni F ⊂ Ωe F = F ∩ Ω = F ∩ (E ∪ Ec) = (F ∩ E) ∪ (F ∩ Ec) otteniamo la rappresentazione

F = (F ∩ E) ∪ (F ∩ Ec).

I due eventi dell’unione sono incompatibili: questo, vedremo, e particolarmente conve-niente in TdP. Per un dato F la rappresentazione vale qualunque sia E: nella pratica saraimportante scegliere E in modo che la rappresentazione semplifichi i conti probabilistici.In generale se (En) e una partizione di Ω allora vale la rappresentazione

F =⋃i

(F ∩ Ei)

e gli eventi dell’unione sono mutuamente esclusivi. Anche qui, in pratica, sara fondamen-tale scegliere opportunamente la partizione.

(c.) Decomposizione dell’unione

In TdP la decomposizione di eventi complessi in unione di eventi incompatibili (cioe digiun-ti) e uno dei trucchi standard per semplificare i calcoli. La seguente decomposizione, validaqualunque siano gli eventi E ed F , si dimostrera spesso utile

E ∪ F = (E ∩ F c) ∪ (E ∩ F ) ∪ (Ec ∩ F )

7

(d.) Decomposizione alternativa dell’unione e generalizzazione

Le decomposizioni in unioni di eventi incompatibili si possono normalmente effettuare inmolti modi. Quale sia la decomposizione piu conveniente lo si stabilira, caso per caso,nell’applicazione al calcolo delle probabilita. Ad esempio per l’unione di due eventi valeanche la decomposizione

E ∪ F = E ∪ (F \ E)

Questa decomposizione si generalizza immediatamente al caso di tre eventi

E ∪ F ∪G = E ∪ (F \ E) ∪ (G \ (E ∪ F ))

e piu in generale, per n eventi

n⋃k=1

Ek = E1

⋃ n⋃k=2

Ek \ k−1⋃j=1

Ej

1.7 Altre operazioni tra eventi

Operazioni del tipo E ∩ F c intervengono abbastanza spesso da meritare un nome.

Differenza di eventi. E \ F := E ∩ F c.Differenza simmetrica di eventi. E 4 F := (E ∩ F c) ∪ (Ec ∩ F ).

Usando le nuove definizioni la decomposizione dell’unione si puo riscrivere come

E ∪ F = (E \ F ) ∪ (E ∩ F ) ∪ (F \ E) = (E 4 F ) ∪ (E ∩ F ).

1.8 Osservazione sulle operazioni tra eventi

Nota bene. Qualunque espressione che consista di complementazioni, intersezioni, unioni,differenze, e differenze simmetriche di eventi dati si puo sempre esprimere, a partire daglieventi dati, utilizzando esclusivamente le operazioni di complementazione ed intersezione(oppure unione). A titolo d’esempio, usando le leggi di De Morgan si puo esprimere ladifferenza simmetrica facendo ricorso solo a complementazioni e unioni, oppure solo acomplementazioni e intersezioni

E 4 F = (E ∩ F c) ∪ (Ec ∩ F )

= (Ec ∪ F )c ∪ (E ∪ F c)c

=[(E ∩ F c)c ∩ (Ec ∩ F )c

]cQuesto risultato e interessante negli sviluppi teorici, ma le espressioni contenenti, ad

esempio, solo complementazioni e unioni diventano rapidamente molto complesse e didifficile leggibilita.

8

Lezione 2 (Martedı, 5 marzo 2013, ore 16:25-18:10)

2.1 La σ-algebra degli eventi F

(a.) Motivazione

Nelle applicazioni lo spazio di probabilita S = (Ω,F , P ) modella un esperimento il cuiesito e incerto. Gli elementi di Ω sono i possibili risultati dell’esperimento, mentre F e unafamiglia di sottoinsiemi di Ω per i quali e definita la misura di probabilita P . Idealmente sivorrebbe definire la probabilita per tutti gli eventi d’interesse dell’esperimento. In linea diprincipio si potrebbe pensare di definire P per tutti i sottoinsiemi di Ω, di fatto assumendoche la famiglia F coincida con la famiglia di tutti i sottoinsiemi di Ω, nota come potenzadi Ω e denotata P(Ω). La scelta F = P(Ω) e sempre possibile, e la adotteremo, se |Ω| ≤ |N|(qui e altrove |E| denota la cardinalita dell’insieme E). Quando invece |Ω| = |R| non epossibile scegliere F = P(Ω) e definire in modo consistente la misura di probabilita P . Inogni caso e necessario che F abbia la struttura, specificata qui sotto, di σ-algebra affinchela teoria risulti ben posta.

(b.) Definizione

Sia Ω un insieme assegnato. Una famiglia F di sottoinsiemi di Ω e detta σ-algebra sesoddisfa agli assiomi:

(i) F non e vuota

(ii) F e chiusa rispetto alla complementazione (significa che se E ∈ F , allora Ec ∈ F).

(iii) F e chiusa rispetto all’unione numerabile (significa che se Ei ∈ F per ogni i ≥ 1,allora ∪iEi ∈ F .

Gli elementi di F sono detti eventi misurabili o semplicemente eventi.

(c.) Conseguenze elementari degli assiomi (dimostrate a lezione)

(i.) ∅ e Ω appartengono ad F . (dagli assiomi)

(ii.) F e chiusa rispetto alle intersezioni numerabili. (assiomi+De Morgan)

(iii.) F e chiusa rispetto a qualunque sequenza numerabile di complementazioni, inter-sezioni, unioni, differenze, differenze simmetriche di eventi di F . (assiomi+osservazione 1.8).

(d.) Esercizio.

F e chiusa rispetto alle unioni finite ed alle intersezioni finite.

2.2 La misura di probabilita P

(a.) Definizione

P : F → R+ e una mappa E 7→ P (E) che ad ogni evento misurabile E ∈ F associa ilnumero reale P (E), detto la misura di probabilita di E o semplicemente la probabilita diE, e che soddisfa i seguenti assiomi

(0) (positivita) P (E) ≥ 0 per ogni E ∈ F ,

(i) (normalizzazione) P (Ω) = 1,

(ii) (σ-addittivita) Se Ei e una famiglia numerabile di eventi mutuamente esclusivi

P (∪iEi) =∑i

P (Ei).

(b.) Conseguenze elementari degli assiomi (dimostrate in classe)

(1.) P (Ec) = 1− P (E).

9

(2.) P (∅) = 0, (corollario di (1.)).

(3.) E ⊂ F implica P (E) ≤ P (F ), (monotonia della misura P ).

(4.) P (E) ∈ [0, 1] per ogni E ∈ F , (corollario di (3.)).

(5.) P (E ∪ F ) = P (E) + P (F )− P (E ∩ F ), (formula di inclusione/esclusione).

(6.) P (E ∪ F ) ≤ P (E) + P (F ), (subaddittivita di P ).

(7.) P (∪iEi) ≤∑

i P (Ei), (subaddittivita numerabile).

(8.) P (E ∪ F ∪G) = P (E) + P (F \ E) + P (G \ (E ∪ F )), (decomposizione disgiunta).

(9.) P (E ∪ F ∪G) = P (E) + P (F ) + P (G)

− P (E ∩ F )− P (E ∩G)− P (F ∩G)

+ P (E ∩ F ∩G).

(alternativa alla (7.) – questa e la formula di inclusione /esclusione, dimostrata scrivendoP (E ∪ F ∪G) = P ((E ∪ F ) ∪G) ed usando la (4.)).

(10.) P (E ∪ F ∪G ∪H) = P (E) + P (F ) + P (G) + P (H)

− P (E ∩ F )− P (E ∩G)− P (E ∩H)− P (F ∩G)− P (F ∩H)− P (G ∩H)

+ P (E ∩ F ∩G) + P (E ∩ F ∩H) + P (E ∩G ∩H) + P (F ∩G ∩H)

− P (E ∩ F ∩G ∩H),

(formula di inclusione /esclusione per piu di tre eventi - senza dimostrazione).

(11.) P (E4F ) = P (E) + P (F )− 2P (E ∩ F ), (esercizio).

(c.) Non unicita di P

L’osservazione chiave e che gli assiomi non determinano P univocamente. Abbiamo vistol’esempio della moneta, con Ω = C, T, F = P(Ω). La misura di probabilita P non eunivocamente determinata: ce ne sono infinite compatibili con gli assiomi, ognuna di essee completamente specificata dal numero p ∈ [0, 1] dove P (T) = p. Ben lungi dall’essereuna limitazione, la liberta di scelta di p consente, nell’esempio concreto, di modellarequalunque moneta.

10

Lezione 3 (Mercoledı, 6 marzo 2013, ore 16:25-18:10)

3.1 Possibili scelte di P – Misura empirica

Quando si costruisce uno spazio di probabilita S = (Ω,F , P ) per modellare un esperimen-to, la scelta di Ω e di F di solito non pone problemi, ma come visto nell’esempio dellamoneta, gli assiomi non specificano P univocamente. La Statistica si occupa della sceltaottimale di P allo scopo di modellare un dato esperimento. Tempo permettendo daremoqualche cenno di Statistica verso la fine del corso. Qui diamo alcuni esempi di possibiliscelte di P , iniziando dalla cosiddetta misura empirica.

Si supponga che l’esperimento che si vuole modellare sia ripetibile piu volte in condizionianaloghe. La misura empirica si costruisce come segue. Si effettua l’esperimento n volte,registrando la sequenza ω1, ω2, . . . ωn degli esiti osservati. Per ogni evento E ∈ F sia nE ,la frequenza di E, il numero di volte che si verifica E nelle n prove, ovvero il numero diesiti ωi tali che ωi ∈ E per i = 1, 2, . . . n.

Definizione (misura empirica).

Pn(E) :=nEn, per ogni E ∈ F

Pn(E) e la frequenza relativa di E, ovvero la percentuale di volte in cui E si verifica.

Lemma. Pn e una misura di probabilita.

Dimostrazione. L’assioma (0) e soddisfatto banalmente. L’assioma (i) e soddisfatto poichenΩ = n. L’assioma (ii) richiede che se E ∩ F = ∅ allora Pn(E ∪ F ) = Pn(E) + Pn(F ),ma per eventi E ed F disgiunti, nE∪F = nE + nF , da cui discende l’addittivita di Pn.Allo stesso modo, per famiglie numerabili Ei di eventi disgiunti, n∪iEi =

∑i nEi , da cui

discende la σ-addittivita di Pn.

Esempio 1. Lancio di una moneta. Ω = C, T, F = P(Ω). La misura di probabilitae completamente specificata assegnando p = P (T). Per costruire la misura empiricalanciamo la moneta ad esempio n = 12 volte e siano T, T, C,C,C, T, T, T, T, T, T, T gliesiti. Allora p := P12(T) = 9

12 = 0.75. Peraltro limitandosi alle prime 10 prove P10(T ) =710 = 0.7. Intuitivamente, se la moneta e equilibrata, limn→∞ Pn(T) = 0.5.

Esempio 2. Lancio di un dado. Ω = 1, 2, 3, 4, 5, 6, F = P(Ω). Si lancia il dado n = 15volte e gli esiti osservati sono 1, 3, 2, 3, 5, 4, 3, 4, 3, 5, 3, 2, 1, 5, 2. In questo caso P15(3) =515 . Si determinino P15(”esce faccia pari”) e P15(6).

Esempio 3. Scelta casuale di un punto in [0, 1]. Per costruire la misura empirica si puopensare che il tenente Colombo si rechi al poligono di tiro e spari n volte al bersaglio, l’inter-vallo [0, 1], ogni volta chiudendo gli occhi. Se E ⊂ [0, 1] la misura empirica e Pn(E) := nE

n ,dove nE e il numero di volte che Colombo colpisce un punto in E. Intuitivamente, seColombo spara a caso, limn→∞ Pn([a, b]) = b− a per ogni [a, b] ⊂ [0, 1].

Esercizio. I dati di un’indagine di mercato sono: al 70% dei ragazzi piace la Coca, al 50%piace la Pepsi, al 20% non piacciono ne Coca ne Pepsi. Calcolare la percentuale di ragazzia cui piace almeno una delle due bevande e quella dei ragazzi a cui piacciono entrambe.

Soluzione. Interpretando le percentuali come probabilita empiriche i dati sono P (Coca) =0.7, P (Pepsi) = 0.5, P (Cocac ∩ Pepsic) = 0.2. Le probabilita richieste sono

P (Coca ∪ Pepsi) = P ((Cocac ∩ Pepsic)c) = 1− 0.2 = 0.8

P (Coca ∩ Pepsi) = P (Coca) + P (Pepsi)− P (Coca ∪ Pepsi) = 0.7 + 0.5− 0.8 = 0.4

11

Interpretazione frequentista della probabilita.

L’interpretazione delle probabilita di eventi come frequenze relative, o percentuali, e moltocomune negli studi osservazionali di tipo economico, epidemiologico, sociale, biologico,ecc. La misura empirica Pn presenta pero evidenti difetti. In particolare, per un fissatoevento E, la probabilita empirica Pn(E) dipende da n e dalla specifica sequenza di esitiosservati, ω1, ω2, . . . ωn. La dipendenza di Pn dai risultati delle prove ripetute e giusto checi sia visto che Pn deve modellare l’esperimento, ma la dipendenza da n e molto scomoda.Nell’esempio 1, la dipendenza da n comporta che non si riesca ad associare un unico valorea p, la probabilita di Testa della moneta. Per ovviare a questo inconveniente i frequentisti siarrampicano sugli specchi nel tentativo di sostituire Pn(E) con limn→∞ Pn(E), ma si trattadi discorsi piuttosto vaghi, solo apparentemente supportati da un teorema fondamentaledel calcolo della probabilita, la legge dei grandi numeri, che vedremo piu avanti.

3.2 Possibili scelte di P – Caso di Ω discreto

Consideriamo ora il caso di spazi di probabilita S = (Ω,F , P ) dove |Ω| ≤ |N|. (ricordoche |E| denota la cardinalita di E). Questo e il cosiddetto caso discreto a cui ci atterremonela prima parte del corso. Si possono presentare due casi: Ω = ω1, ω2, . . . ωN ovverodi cardinalita |Ω| = N finita, oppure Ω = ω1, ω2 . . . con |Ω| = |N|. In entrambi questicasi, senza perdita di generalita, prenderemo sempre F := P(Ω). Negli spazi di probabilitadiscreti la misura P e completamente specificata dai valori sui singleton: conoscere P (ωi)per ogni ωi ∈ Ω permette di calcolare P (E) per ogni E ∈ F . Infatti la σ-addittivitacomporta che

P (E) =∑ωi∈E

P (ωi) (1)

Osservazione 1. La numerabilita di Ω e fondamentale per la validita dell’equazione 1.

Osservazione 2. Diciamo pi := P (ωi). Allora, se |Ω| = N basta assegnare N − 1 deivalori p1, . . . pN (perche?).

Osservazione 3. Se |Ω| = |N|, il vincolo∑∞

i=1 pi = 1 impone la convergenza della serie.Quindi, ad esempio, e impossibile per Ω = N avere misure di probabilita del tipo P (i) =ci mentre e possibile avere P (i) = c

i2. Quanto deve valere in questo caso? (E necessario

conoscere la teoria della convergenza della serie di Fourier per rispondere).

3.3 Possibili scelte di P – Caso di Ω finito con esiti equiprobabili

Se Ω = ω1, ω2, . . . ωN ha cardinalita finita N , allora e possibile scegliere la misura P cheassegna la stessa probabilita a tutti gli esiti elementari, ovvero P (ωi) = 1

|Ω| = 1N per

ogni i = 1, 2, . . . N (caso equiprobabile). Se P e equiprobabile allora, per ogni E ∈ F ,

P (E) =∑ωi∈E

P (ωi) =|E||Ω|

,

formula che nei testi elementari e spesso scritta come

P (E) =numero dei casi favorevoli

numero dei casi totali.

Benche sia tecnicamente sempre possibile prendere P equiprobabile quando Ω ha car-dinalita finita, non e detto che si tratti di una buona scelta per modellare un datoesperimento.

Controesempio. Sia Ω = 0, 1, 2, 3 dove gli esiti elementari rappresentano il numero diTeste in tre lanci consecutivi di una moneta. In questo caso la misura equiprobabile urta

12

contro la nostra intuizione. Su tre lanci di una moneta e piu facile osservare una Testapiuttosto che tre Teste o nessuna Testa. Se si vuole usare P come modello dell’esperimentoche consiste in tre lanci consecutivi di una normale moneta l’assegnazione equiprobabileP (i) = 1

4 per i = 0, 1, 2, 3 non ha molto senso.

Esempio. Sia Ω = TTT, TTC, TCT,CTT, TCC,CTC,CCT,CCC dove gli esiti elemen-tari rappresentano le possibili sequenze di risultati di tre lanci di una moneta. In questocaso e ragionevole prendere la P equiprobabile: P (ωi) = 1

8 per ogni i = 1, . . . 8 (sono 8 gliesiti elementari). Se Ek = ”escono k teste in 3 lanci” per k = 0, 1, 2, 3 abbiamo calcolatoP (E0) = P (E3) = 1

8 e P (E1) = P (E2) = 38 . Lo stesso si puo fare se si considera lo spazio

Ω relativo a diciamo 50 lanci di una moneta. Sia E34 l’evento ”escono 34 teste su 50 lancidella moneta”. Quanto vale P (E34)? In teoria e facile

P (E34) =|E34||Ω|

,

ma il calcolo delle cardinalita di insiemi finiti non e sempre agevole. Questo motiva labreve digressione sulla combinatoria elementare.

3.4 Combinatoria elementare – I

Principio fondamentale del conteggio.

Motivazione. Ricordate l’esempio fatto in classe dell’armadio con dentro 4 camicie, 3pantaloni e 2 paia di scarpe. In quanti modi diversi posso vestirmi? Se gli abbinamenti divestiario non hanno rilevanza (maschi) 4 · 3 · 2 = 24 modi. Se gli abbinamenti di vestiariolimitano le scelte (femmine) allora il principio fondamentale non si applica. Piu in generalesi conta come segue.

Il principio. Si effettuano r esperimenti. Il primo ha n1 risultati possibili. Qualunque sial’esito del primo esperimento il secondo esperimento ha sempre lo stesso numero n2 dipossibili risultati, e cosı via fino alla condizione che, qualunque sia il risultato dell’(r− 1)-esimo esperimento, l’r-esimo esperimento ha sempre nr esiti possibili. Si supponga ancheche esiti diversi degli r esperimenti producano sequenze distinguibili. Sotto queste ipotesiil numero di possibili esiti degli r esperimenti condotti in sequenza e

n1 · n2 · . . . nr

Esempi elementari di conteggio. In classe abbiamo visto alcuni esempi: targhe automobilis-tiche, schedine del totocalcio, corsa campestre.

Problemi di conteggio I

Discussione dei due paradigmi: del campionamento e dell’allocazione. Tutta la terminolo-gia ed i possibili problemi di conteggio che ho elencato a lezione li potete rivedere concalma nell’appendice a queste note.

Esempio 1. Numero delle schedine del totocalcio. Si tratta di contare le disposizioni conripetizione di n = 3 oggetti (i simboli 1, X, 2), presi k = 13 alla volta (le 13 partite).Il numero di schedine e nk = 313, applicando il principio fondamentale del conteggio.Abbiamo visto le due interpretazioni, come problema di campionamento e come problemadi allocazione.

Esempio 2. Numero di possibili terne di vincitori di medaglia ad una corsa campestre cuipartecipano 10 corridori. Si tratta di contare le disposizioni senza ripetizione di n = 10oggetti (i corridori) presi k = 3 alla volta (oro, argento, bronzo). Usando il principiofondamentale del conteggio, il numero di possibili ”podii” e n × (n − 1) × (n − 2) ×· · · × (n − k + 1) = 10 × 9 × 8. Abbiamo visto le due interpretazioni, come problema dicampionamento e di allocazione.

13

Appendice alla Lezione 3Problemi di campionamento e di allocazione

A3.1 Introduzione

I problemi di conteggio sono difficilmente categorizzabili in tipologie standard ed ognunodi essi va trattato nella sua peculiarita. Esistono tuttavia alcuni punti di vista generaliche possono aiutare nell’impostazione delle soluzioni. In questa sezione presentiamo dueelementari paradigmi del conteggio, campionamento ed allocazione.

Un problema di campionamento si modella con un’urna contenente n palline, distin-guibili (ad esempio numerate da 1 a n) o distinguibili a gruppi (ad esempio n palline dim < n colori diversi). Vengono effettuate k estrazioni, ed annotato il risultato di ogniestrazione. Le estrazioni possono essere con o senza reinserimento nell’urna della pallinaappena estratta, prima di passare all’estrazione successiva. Interessa contare quante sonole possibili sequenze di estrazioni. Si puo contare in due modi. Se si tiene in consider-azione l’ordine di estrazione si dice che si stanno contando le disposizioni : 1, 2 e 2, 1 sonodue disposizioni diverse. Se non si tiene in considerazione l’ordine si dice che si stannocontando le combinazioni : 1, 2 e 2, 1 sono la stessa combinazione.

Nei problemi di allocazione il modello consiste in un insieme di scatole (celle) distinteed in un certo numero di gettoni, che possono essere distinguibili o identici tra loro.I gettoni vanno inseriti (allocati) nelle scatole. Il riempimento delle scatole puo esserelibero, o soggetto a vincoli. Nel caso libero ogni scatola puo contenere qualunque numerodi gettoni, 0 compreso. Vincoli tipici sono: al piu 1 gettone (cioe 0 o 1) per scatola, oppureun numero preassegnato di gettoni in ogni scatola. Interessa contare il numero di possibiliallocazioni di gettoni nelle scatole.

La nota e organizzata in modo da mettere in evidenza, attraverso un numero romano,la corrispondenza tra problemi di campionamento e di allocazione. Per mostrare comepassare da un paradigma all’altro nell’impostazione di un problema di conteggio illustr-eremo i due punti di vista con lo stesso esempio. Nei problemi di conteggio concreti,solitamente piu complessi, e pero spesso naturale impostare il conteggio usando sfecifica-mente uno dei due paradigmi, quindi e utile conoscerli entrambi. In realta il paradigmadell’allocazione permette di trattare, in modo abbastanza semplice, anche complicati vin-coli di riempimento delle scatole che si tradurrebbero in problemi di campionamento moltoartificiali.

La nota e in buona parte basata sul capitolo 3 dell’ottimo libro di K.L. Chung,Elementary probability theory with stochastic processes, Springer 1974.

A3.2 Problemi di campionamento

Elenchiamo di seguito i quattro tipici problemi di campionamento, ed alcune varianti.

Campionamento I

• n palline distinte nell’urna (ad esempio numerate da 1 a n)

• k estrazioni con reinserimento (n e k liberi)

• Problema: contare le disposizioni

• Soluzione. nk

14

Spiegazione. Alla prima estrazione posso estrarre una qualunque delle n palline, annotoil risultato e reinserisco la pallina nell’urna. Alla seconda estrazione ho ancora n possibilirisultati dell’estrazione e cosı via fino alla k-esima estrazione. Per il principio del conteggioil numero di disposizioni e nk.

Terminologia. Questo problema viene anche presentato come conteggio delle disposizionicon ripetizione di n oggetti distinti presi k alla volta.

Esempio. Totocalcio 3: contare il numero di schedine giocabili. Una giocata si modellacon un’urna contenente n = 3 palline 1, X, 2, dalla quale si estrae k = 13 volte, con rein-serimento. Ad ogni disposizione delle palline estratte corrisponde una schedina giocabile.Soluzione: nk = 313.

Campionamento II


• k estrazioni senza reinserimento (quindi k ≤ n)

• Problema: contare le disposizioni

• Soluzione. D(n, k) := n× (n− 1) · · · × (n− k + 1)

Spiegazione. Alla prima estrazione posso estrarre una qualunque delle n palline, annotoil risultato e butto la pallina. Rimangono n − 1 palline nell’urna, vi sono quindi n − 1risultati possibili per la seconda estrazione, cosı via fino alla k-esima estrazione per laquale sono possibili n− k+ 1 (attenzione al +1) risultati. Per il principio del conteggio ilnumero di disposizioni e n(n− 1) . . . (n− k + 1), per comodita denotato D(n, k).

Terminologia. Questo problema viene anche presentato come conteggio delle disposizionisenza ripetizione di n oggetti distinti presi k alla volta.

Esempio. Corsa campestre, partecipano 10 atleti. In quanti modi diversi possono essereassegnate le 3 medaglie d’oro, d’argento e di bronzo? L’urna contiene n = 10 pallinedistinguibili (gli atleti), e si effettuano k = 3 estrazioni senza reinserimento. Contare lerisultanti disposizioni significa contare i possibili ordini di arrivo dei primi 3. Soluzione:n× (n− 1) · · · × (n− k + 1) = 10× 9× 8.

Campionamento IIa

• E il caso II con k = n. Le disposizioni con k = n si dicono permutazioni.

• Soluzione. n! := D(n, n) = n× (n− 1)× · · · × 2× 1

Spiegazione. Come per il caso II, procedendo fino ad k = n. Si noti che n! = D(n, n).

Esempio. Anagrammi della parola MILANO. L’urna contiene n = 6 palline distinguibili (lelettere A, I, L, M, N, O) che vengono estratte, senza reinserimento, fino a vuotare l’ur-na. Ad ogni disposizione delle palline corrisponde uno dei possibili anagrammi. Soluzione:n! = 6!. Questo conteggio degli anagrammi e corretto solo se la parola da anagrammarecontiene lettere distinte, vedi il caso IIIa.

3Il Totocalcio e un gioco a scommessa legalizzato in cui si devono pronosticare i risultati di un certonumero di partite di calcio, classicamente 13. Le 13 partite sono stampate su una schedina e il giocatoreindica il suo pronostico, per ognuna delle partite, usando tre simboli 1, X, 2. Ad esempio, per la partitaMilan-Inter, il simbolo 1 pronostica la vittoria del Milan, X il pareggio, 2 la vittoria dell’Inter.

15

Campionamento III


• k estrazioni senza reinserimento (quindi k ≤ n)

• Problema: contare le combinazioni

• Soluzione.

(n

k

):=

D(n, k)

k!=n× (n− 1) · · · × (n− k + 1)

k!

Spiegazione. Analogo al caso II, ma si devono contare le combinazioni. Per contare ilnumero di combinazioni, diciamolo C(n, k), basta osservare che le k! permutazioni di ognifissata disposizione producono tutte la stessa combinazione, quindi C(n, k) × D(k, k) =D(n, k). Si ricava C(n, k) = D(n, k)/D(k, k). Il numero C(n, k) si dice coefficientebinomiale n su k, piu spesso denotato

(nk

).

Terminologia. Questo problema viene anche presentato come conteggio delle combi-nazioni senza ripetizione di n oggetti distinti presi k alla volta.

Esempio. Gioco del lotto. Ogni settimana a Venezia vengono estratte k = 5 palline, unacinquina, da un’urna contenente n = 90 palline distinguibili, numerate da 1 a 90. Nelgioco del lotto si scommette sulla combinazione estratta. Contare quante sono le possibilicinquine. Soluzione:

(nk

)=(

905

)= 90×89×88×87×86

5×4×3×2×1 .

Campionamento IIIa

• n palline nell’urna, di m colori diversi, k1 di colore 1, . . . , km di colore m, conk1 + k2 + · · ·+ km = n. Le palline dello stesso colore sono identiche.

• k = n estrazioni senza reinserimento (si estraggono tutte le palline)

• Problema: contare le disposizioni distinguibili

• Soluzione.

(n

k1, k2, . . . , km

):=

n!

k1!× k2! · · · × km!

Spiegazione E una miscela dei casi IIa e III. Per capire la soluzione si pensi, inizialmente,di numerare da 1 a ki le palline di colore i-esimo, 1 ≤ i ≤ m. Le palline sono ora tuttedistinguibili, grazie a colore e numero, quindi, caso IIa, le disposizioni sono (k1+· · ·+km)! =n!. Poiche nella formulazione del problema le palline dello stesso colore sono indistinguibili,per ogni colore i le ki! permutazioni delle palline di quel colore danno luogo alla stessadisposizione. Per il principio di conteggio, il numero totale di permutazioni che danno luogoalla stessa disposizione, una volta cancellati i numeri dalle palline, e k1! × k2! × . . . km!.Il numero di disposizioni distinguibili si ottiene dividendo n! per k1! × k2! × . . . km!. Ilnumero n!

k1!×k2!···×km! si dice coefficiente multinomiale n su k1, . . . km, denotato(

nk1,k2,...,km

).

Verificare che il caso m = 2 si riduce, notazione a parte, all’usuale coefficiente binomiale.

Esempio. Anagrammi della parola MISSISSIPPI. L’urna contiene n = 11 palline dim = 4 colori, M,I,S,P, con kM = 1, kI = 4, kS = 4, kP = 2. Il numero degli anagramminon e 11!, come per il caso II, poiche la presenza di lettere ripetute rende alcune paroleindistinguibili tra loro. Per quanto visto il numero degli anagrammi e:

(n

kM ,kI ,kS ,kP

)=(

111,4,4,2

)= 11!

1!×4!×4!×2! .

16

Campionamento IV


• k estrazioni con reinserimento (n e k liberi)

• Problema: contare le combinazioni

• Soluzione.

(n+ k − 1

k

)

Spiegazione. Si potrebbe (s)ragionare come segue. La situazione e analoga a quella delcaso I, ma invece che alle disposizioni siamo ora interessati alle combinazioni. Applicandoil trucco gia usato nel caso III per passare dalle disposizioni alle combinazioni, la soluzionee nk/k!. Questo ragionamento e sbagliato. Per n = 3, k = 2 fornisce 32/2! = 4.5, che eimbarazzante come numero di combinazioni! Quando non si viene a capo di un problemadi conteggio puo essere utile analizzare esaustivamente un caso con n ed k piccoli e poigeneralizzare. Proviamo dunque con n = 3, k = 4. Nell’urna ci sono 3 palline numerate1, 2, 3. Elenchiamo tutti i possibili risultati di k = 4 estrazioni, eliminando manualmentetutte le disposizioni che danno luogo alla stessa combinazione. Le 15 combinazioni possibilisono riportate, in ordine lessicografico, nella prima colonna della seguente tabella.

1 2 31111 XXXX XXXX||1112 XXX X XXX|X|1113 XXX X XXX||X1122 XX XX XX|XX|1123 XX X X XX|X|X1133 XX XX XX||XX1222 X XXX X|XXX|1223 X XX X X|XX|X1233 X X XX X|X|XX1333 X XXX X||XXX2222 XXXX |XXXX|2223 XXX X |XXX|X2233 XX XX |XX|XX2333 X XXX |X|XXX3333 XXXX ||XXXX

Le tre colonne successive contengono segni di spunta che forniscono la stessa infor-mazione della prima colonna, indicando il numero di palline 1, 2 e 3 presenti in ognipossibile combinazione. La quinta colonna contiene, in forma simbolica, le stesse infor-mazioni delle tre colonne precedenti. Le barre verticali servono ad individuare a qualepallina si riferiscono i segni di spunta. Poiche ci sono 3 palline, sono necessarie 2 barreverticali. I segni di spunta a sinistra della prima barra verticale dicono il numero di palline1 nella combinazione. I segni di spunta tra le due barre verticali dicono il numero di palline2 e quelli a destra della seconda barra indicano il numero di palline 3. Ad esempio il sim-bolo X|XX|Xcorrisponde alla combinazione 1223, il simbolo |XX|XXalla 2233, mentreX||XXXcorrisponde alla 1333. Il caso IV si puo allora ridurre al caso IIIa, ovvero abbi-amo una nuova urna contenente 4 + 2 palline, di cui 4 sono marcate X e 2 sono marcate|. Il numero di possibili permutazioni distinguibili vale allora 6!

3!2! . Nel caso generale din palline ed r estrazioni saranno necessari r segni di spunta ed n − 1 barre verticali perrappresentare simbolicamente tutte le possibili combinazioni, e la soluzione sara (n−1+r)!

r!(n−1)! .

E banale verificare che questo numero coincide con quello dato nell’enunciato.

17

Terminologia. Questo problema viene anche presentato come conteggio delle combi-nazioni con ripetizione di n oggetti distinti presi k alla volta.

Esempio. Lancio 3 dadi identici. Quante sono le possibili combinazioni osservabili?In questo caso modelliamo con un’urna contenente n = 6 palline (numerate da 1 a 6)e contiamo le possibili combinazioni di k = 3 estrazioni con reinserimento, poiche ognidado puo mostrare una qualunque faccia, indipendente dal risultato degli altri due. Lecombinazioni osservabili sono

(n+k−1

k

)=(

83

).

A3.3 Problemi di allocazione

Elenchiamo di seguito i quattro tipici problemi di allocazione, ed alcune varianti. Gliesempi sono gli stessi del paragrafo precedente per mettere in evidenza la corrispondenzacon l’analogo modello di campionamento.

In ognuno dei problemi di allocazione si dispone di un certo numero di scatole distinte e divoler contare il numero di allocazioni dei gettoni nelle scatole, secondo le specifiche fornitecaso per caso.

Allocazione I

• n scatole distinte e k gettoni distinguibili da allocare

• nessun vincolo di riempimento (ogni scatola puo contenere da 0 a k gettoni)

• Soluzione. nk

Spiegazione. Il primo gettone si puo inserire in una qualunque delle n scatole. Lo stessovale per il secondo e per tutti gli altri gettoni poiche non vi sono vincoli di riempimento.Applicando il principio di moltiplicazione si ottiene il risultato.

Esempio. Totocalcio, come per Campionamento I. Si modella con n = 3 scatole (con-trassegnate 1, X, 2), e k = 13 gettoni distinguibili, numerati da 1 a 13, le partite di cuisi deve pronosticare il risultato. Ogni allocazione dei gettoni nelle scatole corrisponde aduna giocata possibile.

Allocazione II

• n scatole distinte ed k gettoni distinguibili da allocare

• ogni scatola puo contenere 0 o 1 gettoni

• Soluzione. n× (n− 1) · · · × (n− k + 1) := P (n, k)

Spiegazione. Il primo gettone si puo collocare in una qualunque delle n scatole, il secondoin una delle rimanenti n − 1 ecc. fino al k-esimo gettone che puo essere collocato in unaqualunque delle rimanenti n− k + 1 scatole. Per il principio di moltiplicazione il numerototale di allocazioni e n(n− 1) . . . (n− k + 1).

Esempio. Corsa campestre, come per Campionamento II. Questo caso si modella conn = 10 scatole, contrassegnate con i nomi dei 10 atleti, e k = 3 gettoni (contrassegnati1, 2, 3). Ogni allocazione dei gettoni nelle scatole rappresenta una possibile terna ordinatadi vincitori.

18

Allocazione IIa

• E il caso precedente per n = k. In questo caso, terminata l’allocazione, ogni scatolaconterra esattamente 1 gettone.

• Soluzione. n!

Spiegazione. Come per il caso precedente.

Esempio. Anagrammi della parola MILANO, come per campionamento IIa. Le scatole sonon = 6, contrassegnate 1, 2, 3, 4, 5, 6, e rappresentano le posizioni delle lettere nella parolache si andra a comporre. I gettoni sono k = n = 6, contrassegnati A, I, L, M, N, O erappresentano le lettere a disposizione.

Allocazione III

• n scatole disitinte e k gettoni identici da allocare

• ogni scatola puo contenere 0 o 1 gettoni

• Soluzione.n× (n− 1) · · · × (n− k + 1)

k!=

(n

k

)Spiegazione. Analogo al caso II appena visto. Poiche i gettoni sono indistinguibili sidevono contare le combinazioni, ovvero dividere P (n, k) per P (k, k) come si era fatto peril corrispondente caso del campionamento.

Esempio. Gioco del Lotto, come per campionamento III. Il modello di allocazione consistedi n = 90 scatole (contrassegnate da 1 a 90) e di k = 5 gettoni identici, con vincolo diallocazione 0 or 1 gettoni in ogni scatola. Chiaramente questo e un caso per il quale ilmodello del campionamento e molto piu naturale.

Allocazione IIIa

• m scatole distinte ed n gettoni distinguibili da allocare

• la scatola i deve contenere esattamente ki gettoni, con∑m

i=1 ki = n.

• Soluzione.n!

k1!k2! . . . km!=:

(n

k1, k2, . . . km

)Spiegazione. Si tratta di una miscela dei casi IIa e III appena visti. Per riempire la primascatola si devono scegliere k1 gettoni da n, cosa che si puo fare in

(nk1

)modi (perche?), per

riempire la seonda scatola si devono scegliere k2 gettoni dai rimanenti n− k1 gettoni, cosache si puo fare in

(n−k1

k2

)modi, per la terza ci sono

(n−k1−k2

k3

)possibili scelte di gettoni ecc.

Per il principio di moltiplicazione il numero di modi possibili e(n

k1

)(n− k1

k2

)(n− k1 − k2

k3

)...

(n− k1 − k2 − . . . km−1

km

)=

(n

k1, k2, . . . km

)Verificate algebricamente questa identita, ad esempio per m = 3.

Esempio. Anagrammi della parola MISSISSIPPI, come per campionamento IIIa. Ilmodello di allocazione consiste di m = 4 scatole, contrassegnate M,I,S,P, e di n = 11gettoni, contrassegnati 1, 2, . . . 11. I gettoni corrispondono alle posizioni delle lettere nellaparola che si andra a comporre. Ad ogni allocazione corrisponde uno degli anagrammidistinguibuibili.

19

Allocazione IV

• n scatole distinte e k gettoni identitici da allocare

• nessun vincolo di riempimento (ogni scatola puo contenere da 0 a k gettoni)

• Soluzione.

(n+ k − 1

k

)

Spiegazione. Guardate con attenzione l’ultima colonna della tabella del CampionamentoIV. E una vivida rappresentazione delle possibili allocazioni dei gettoni nelle scatole: lebarre verticali consentono di individuare le scatole distinte, i segni di spunta sono i gettoni.In effetti questo e un problema che e piu naturale impostare usando il modello dellaallocazione.

Esempio. Lancio 3 dadi identici, come per campionamento IV. Quante sono le possibilicombinazioni osservabili? Nel paradigma della allocazione modelliamo con n = 6 scatole,contrassegnate 1, 2, 3, 4, 5, 6, e con r = 3 gettoni contrassegnati Lancio1, Lancio2, Lancio3.

Nota finale. Dovrebbe essere a questo punto chiaro il meccanismo di passaggio tra iparadigmi del campionamento e dell’allocazione. Il numero di palline distinte, n, o ilnumero di gruppi distinti di palline m corrisponde al numero di scatole. Il numero diestrazioni corrisponde al numero di gettoni. Le estrazioni senza reinserimento si tra-ducono nel vincolo di riempimento 0 o 1 gettone per scatola, mentre se si reinseriscono lepalline nell’urna nel campionamento allora non ci sono vincoli di riempimento nelle sca-tole. Ordine di estrazione rilevante nel campionamento corrisponde a gettoni distinguibilinell’allocazione. Viceversa, ordine di estrazione irrilevante corrisponde a gettoni identicinel paradigma dell’allocazione.

20


4.1 Combinatoria elementare – II

Qui sotto rivediamo la terminologia tradizionalmente associata ai problemi di conteggioelementari.

(a.) le disposizioni con ripetizione di n oggetti distinti presi k alla volta sono nk. Esempio1. Scrivere una schedina del totocalcio consiste nel prendere n = 3 oggetti (1, X, 2), agruppo di k = 13. Allora 313 e il numero di possibili schedine. Esempio 2. Il numerodi sottoinsiemi di un insieme di n elementi e 2n. Infatti per individuare un sottoinsiemepossiamo usare una stringa di n bit, associando ad ogni bit della stringa un elementodell’insieme. Gli 1 della stringa indicano gli elementi che appartengono al sottoinsieme,gli 0 indicano gli elementi esclusi. Il numero totale di stringhe binarie di n bit e 2n.

(b.) le disposizioni senza ripetizione di n oggetti distinti presi k alla volta sono n(n −1) · · · (n− k + 1). Esempio. In una corsa campestre con n = 10 atleti, il numero di ordinidi arrivo dei primi k = 3 (cioe quanti podii sono possibili) e 10 · 9 · 8.

(b1.) nel caso particolare n = k le disposizioni senza ripetizione vengono dette permu-tazioni Esempio. Gli anagrammi della parola BRENTA sono 6!. Attenzione pero, questoconteggio e corretto perche le lettere di BRENTA sono distinte.

(c.) le combinazioni senza ripetizione di n oggetti distinti presi k alla volta sono(nk

)=

n(n−1)···(n−k+1)k! . Esempio. Numero delle cinquine nel gioco del lotto

(905

). (vedi appendice

alla Lezione 3 per la descrizione). E importante capire questo conteggio sia dal punto divista del campionamento che dell’allocazione. Di seguito diamo un esempio di problemala cui soluzione e ancora

(nk

), e che si imposta naturalmente come problema di allocazione.

Esempio. Il numero di sottoinsiemi di cardinalita k di un insieme di cardinalita n e paria(nk

). Pensate di avere n celle (gli elementi dell’insieme) e di dover disporre k gettoni

indistinguibili nelle celle al piu uno in ogni cella. Ogni configurazione di gettoni individuaunivocamente un sottoinsieme e le allocazioni sono

(nk

).

(d.) un esempio misto e quello delle permutazioni con elementi ripetuti che illustriamocon due esempi. Esempio 1. Un’urna contiene n palline, di m colori diversi, k1 del colore1, . . . km del colore m, con k! + k2 + . . . km = n. Si estraggono, senza reinserimento,tutte le palline dall’urna. Il numero di disposizioni distinguibili e

(n

k1,k2,...km

):= n!

k1!k2!...km! .Esempio 2. Contare gli anagrammi della parola MISSISSIPPI. Le lettere sono 11, di 4 tipidiversi, 1 M , 4 I, 4 S, 2P , gli anagrammi sono 11!

4!4!2! . E interessante osservare che(n

k1, k2, . . . km

)=

(n

k1

)(n− k1

k2

). . .

(n− k1 − k2 − · · · − km−1

km

)come appare chiaro impostando il conteggio come problema di allocazione. Come casoparticolare, se m = 2, ponendo k1 = k, k2 = n− k, risulta

(n

k1,k2

)=(nk

).

(e.) le combinazioni con ripetizione di n oggetti distinti presi k alla volta. Non trattato alezione, si veda l’appendice alla Lezione 3.

4.2 Proprieta dei coefficienti binomiali

I numeri(nk

):= n!

k!(n−k)! , per n ≥ 0 e k = 0, 1, . . . n sono detti coefficienti binomiali.(nk

)si

legge n su k, oppure n binomiale k. Per convenzione 0! = 1 quindi(n0

)=(nn

)= 1 per ogni

n ≥ 0.

21

(a.) Il coefficiente binomiale e cosı detto poiche interviene nello sviluppo della potenza delbinomio

(a+ b)n =

n∑k=0

(n

k

)akbn−k. (1)

La dimostrazione combinatoria e immediata:

(a+ b)n = (a+ b)(a+ b) · · · (a+ b)︸︷︷︸n volte

.

Il prodotto degli n fattori (a + b) consiste di addendi del tipo akbn−k, per k = 0, 1, . . . n,ognuno dei quali corrisponde a scegliere k volte a ed n− k volte b negli n fattori (a+ b).Per un dato k = 0, 1, . . . n il numero di modi in cui si puo scegliere k volte a e

(nk

)quindi

il numero di addendi del tipo akbn−k e(nk

), il che dimostra la formula (1).

(b.) Ponendo a = b = 1 nello sviluppo della potenza del binomio si ha

2n =n∑k=0

(n

k

).

Questa identita ha una semplice interpretazione combinatoria. Il numero totale di sottoin-siemi di un insieme di n elementi, 2n, e la somma del numero di sottoinsiemi a k elementi,k = 0, 1, . . . n.

(c.)(nk

)=(n

n−k), infatti ogni sottoinsieme e in corrispondenza biunivoca con il suo

complementare.

(d.)(nk

)=(n−1k

)+(n−1k−1

), per n ≥ 2 e k = 0, 1, . . . n. Per dimostrare combinatorialmente

la validita di questa relazione di ricorrenza (in Segnali e Sistemi la chiamerete ”equazionealle differenze”) si puo ragionare cosı: il numero di sottoinsiemi di k elementi di un insiemedato Ω di n elementi si puo trovare fissando un elemento arbitrario ω1 ∈ Ω e poi sommando(n−1k−1

), numero di sottoinsiemi di k elementi di Ω che contengono ω1, a

(n−1k

), numero di

sottoinsiemi di k elementi di Ω che non contengono ω1. Valgono inoltre le condizionial contorno

(n0

)= 1, per n ≥ 0. L’equazione alle differenze, insieme alle condizioni al

contorno, definiscono un algoritmo per generare i coefficienti binomiali, comunemente notocome triangolo di Tartaglia, nel resto del mondo noto come triangolo di Pascal. Comeesercizio, verificate algebricamente che i coefficienti binomiali verificano l’equazione alledifferenze e le condizioni al contorno.

(e.) Interpretazione di Gyorgy Polya dei coefficienti binomiali. Si consideri il grafo difigura. Ogni nodo del grafo e individuato dalle coordinate (generazione, shift), in figurasono ad esempio evidenziati i punti (4, 1), (4, 2), (5, 2). Il grafo si puo percorrere mai cammini permessi sono solo quelli che partono dalla radice (0, 0) e ad ogni passo sispostano di una generazione in basso sul grafo, verso destra o verso sinistra. Dal punto(n, k) ci si puo cioe spostare solo verso i punti (n + 1, k) ed (n + 1, k + 1), con le ovvieattenzioni agli indici quando si e vicini al bordo. Indicando con #(n, k) il numero dicammini che dall’orogine (0, 0) conducono al nodo (n, k) e facile dimostrare, vedi figura,che vale la relazione di ricorrenza (equazione alle differenze)

#(n, k) = #(n− 1, k − 1) + #(n− 1, k)

con condizione al contorno #(n, 0) = 1 Ma questa, a parte i simboli usati, e esattamentela relazione (d.), con la medesima condizione al contorno, quindi #(n, k) =

(nk

). Questa e

l’interpretazione di Polya dei coefficienti binomiali come numero di cammini.

22

?n

0

1

2

3

4

-

k

5

0 1 2 3 4 5

u uu

(4, 1) (4, 2)

(5, 2)

4.3 Formula di Stirling

Fornisce l’ordine di grandezza di n! con grande precisione. La versione semplice dellaformula di Stirling e

n! ∼√

2πnnne−n

dove a(n) ∼ b(n) significa che limna(n)b(n) = 1. La dimostrazione si puo fare usando le

proprieta della densita di probabilita gaussiana e la tecnica di approssimazione di Laplacedegli integrali dipendenti da un parametro. I piu curiosi troveranno, piu avanti, una notasu moodle. In modo sporco e veloce si puo pero ottenere la parte piu cospicua dellosviluppo asintotico:

log n! =n∑k=1

log k ≈∫ n

1log x dx = x log x− x

∣∣∣n1

= n log n− n+ 1.

Prendendo l’esponenziale di entrambi i membri, e trascurando il +1, si trova n! ≈ nne−n

che e un’approssimazione niente male, vista la poca fatica che ci e costata.

4.4 Applicazione al calcolo della probabilita

Calcolo della probabilita su spazi finiti equiprobabili. Per ritrovarvi sugli appunti i titoliche avevo dato agli esercizi erano: squadre di calcio e trenino.

23


5.1 Esercitazione sulla combinatoria e la probabilita negli spazi finiti uniformi

Esercizio 1. Un’urna contiene 5 palline rosse, 6 blu e 8 verdi. L’esperimento consistenell’estrazione, senza reinserimento, di tre palline dall’urna. Interessano le probabilitadegli eventi

E := ”le tre palline estratte sono di colori diversi”,

F := ”le tre palline estratte sono dello stesso colore”.

Attenzione a non prendere una cantonata: Ec 6= F . Ne l’evento E, ne l’evento F dipendonodall’ordine di estrazione delle palline, e quindi sufficiente contare combinazioni. Il numerodi combinazioni diverse corrispondenti all’estrazione senza reinserimento di 3 delle 19palline contenute nell’urna e

(193

). L’evento E si verifica quando si estrae esattamente 1

pallina rossa, 1 blu ed 1 verde (l’ordine non conta). Per il principio di moltiplicazionequesto si puo fare in

(51

)(61

)(81

)= 5 · 6 · 8 modi. La probabilita cercata e

P (E) =

(51

)(61

)(81

)(193

)Per quanto riguarda F si osservi che

F = ”3 palline rosse” o ”3 palline blu” o ”3 palline verdi”,

e poiche i tre eventi a destra sono disgiunti

P (F ) = P (”3 palline rosse”) + P (”3 palline blu”) + P (”3 palline verdi”)

=

(53

)(60

)(80

)+(

50

)(63

)(80

)+(

50

)(60

)(83

)(193

)Soluzione formale dell’esercizio 1. La soluzione formalmente rigorosa di questo, e di tuttigli altri esercizi del corso, richiede la costruzione di un opportuno spazio di probabilitaS = (Ω,F , P ) che modella l’esperimento di interesse. Normalmente S e sottaciuto, ma eimportante, almeno all’inizio, capire come si dovrebbe procedere. Qui sotto proponiamodue possibili spazi di probabilita, S1 e S2, per modellare l’esperimento fisico descrittonell’esercizio 1. Questo servira ad illustrare il fatto che il modello probabilistico non eunico.

Spazio S1. Cominciamo con la scelta dello spazio campionario Ω1. L’unico vincolo chela teoria impone su Ω e che esso sia sufficientemente ricco: gli esiti devono permettere dirappresentare tutti i risultati dell’esperimento. Numeriamo fittiziamente le palline presentinell’urna: le rosse da 1 a 5, le blu da 6 a 11 e le verdi da 12 a 19. In tal modo le pallinesono distinguibili e si puo prendere4

Ω1 := disposizioni senza ripetizione di 19 palline 3 alla volta4Nota bene. Come si elencano le disposizioni? Consideriamo, per brevita, le disposizioni di 4 oggetti

1, 2, 3, 4 presi 3 alla volta, che sono in totale 4 ·3 ·2 = 24. L’introduzione di un ordinamento aiuta a scriverel’elenco delle disposizioni, ad esempio in ordine crescente

1, 2, 3; 1, 2, 4; 1, 3, 2; 1, 3, 4; 1, 4, 2; 1, 4, 3;

2, 1, 3; 2, 1, 4; 2, 3, 1; 2, 3, 4; 2, 4, 1; 2, 4, 3;

3, 1, 2; 3, 1, 4; 3, 2, 1; 3, 2, 4; 3, 4, 1; 3, 4, 2;

4, 1, 2; 4, 1, 3; 4, 2, 1; 4, 2, 3; 4, 3, 1; 4, 3, 2.

24

Prendiamo inoltre (possibile poiche Ω1 e finito) F1 = P(Ω1). Chiaramente |Ω1| = 19 ·18 · 17. E ragionevole assegnare su F1 la misura equiprobabile, dato che gli esiti di Ω1

sono ”fisicamente” equivalenti dal punto di vista delle operazioni di estrazione. Poiche gliesiti sono disposizioni, Ω1 e particolarmente adatto a rappresentare eventi che dipendonodall’ordine di estrazione delle palline. Ad esempio si consideri l’evento

E1 = e1 = rossa, e2 = blu, e3 = verde,

dove e1, e2 e e3 indicano rispettivamente la prima, la seconda e la terza pallina estrattae le virgole sottintendono intersezioni, ovvero E1 consiste delle disposizioni con primapallina rossa e seconda blu e terza verde. Gli esiti di Ω1 che appartengono ad E1 sonotutte e sole le terne (p1, p2, p3) con p1 ∈ 1, 2, 3, 4, 5, p2 ∈ 6, 7, 8, 9, 10, 11 e p3 ∈12, 13, 14, 15, 16, 17, 18, 19. Il numero degli esiti di questo tipo e 5 · 6 · 8, quindi

P (E1) =|E||Ω1|

=5 · 6 · 8

19 · 18 · 17.

Gli eventi che si ricavano da E1 per permutazione dei colori rosso, verde, blu, ovvero

E2 = e1 = blu, e2 = rossa, e3 = verde,

E3 = e1 = blu, e2 = verde, e3 = rossa,

eccetera (in totale sono 3! = 6) sono equiprobabili (e immediato, ma meditate se neces-sario). E ovvio che

E := ”le tre palline estratte sono di colori diversi” =6⋃i=1

Ei,

quindi

P (E) = 3!5 · 6 · 8

19 · 18 · 17=

(51

)(61

)(81

)(193

) ,

dove si lascia come banale esercizio la verifica dell’ultima identita che dimostra che ilrisultato trovato coincide con quello derivato inizialmente.

Spazio S2. Questa e la formalizzazione dell’approccio intuitivo seguito all’inizio. Si prendacome spazio campionario

Ω2 := combinazioni senza ripetizione

ed F2 = P(Ω2). La cardinalita di Ω2 e

|Ω2| =(

19

3

).

E ragionevole prendere la misura equiprobabile su F2? La risposta e sı, perche ogni esitoω ∈ Ω2 si ottiene come unione dello stesso numero 3! di esiti di Ω1. e su Ω1 la misuraequiprobabile e fisicamente naturale. Ad esempio, all’esito (1, 7, 9) ∈ Ω2 corrispondonogli esiti (1, 7, 9), (1, 9, 7), (7, 1, 9), (7, 9, 1), (9, 1, 7), (9, 7, 1) di Ω1. Lo spazio campionarioΩ2 e piu piccolo di Ω1, ma e sufficiente per descrivere qualunque evento che non dipendadall’ordine delle estrazioni. Consideriamo l’evento E ⊂ Ω2 definito all’inizio:

E = ”tre palline di colori diversi” = ”una rossa” e ”una blu” e ”una verde”.

25

La cardinalita di E vale quindi

|E| =(

5

1

)(6

1

)(8

1

)e la probabilita e, come ci aspettavamo,

P (E) =|E||Ω2|

=

(51

)(61

)(81

)(193

) .

Micro-esercizio. Calcolare P (”2 rosse e 1 verde”).

Esercizio 2. Calcolo delle probabilita delle combinazioni del poker. Vedi appendice allalezione.

Esercizio 3. Per un certo gioco di carte si usa il mazzo da poker ed una mano consiste di13 carte scelte a caso dal mazzo. Calcolare la probabilita che una mano contenga almenodue carte di picche.

Soluzione. Si impiega la locuzione ”scelta a caso” per intendere che tutte le possibili sceltesono equiprobabili. Si consideri l’evento

E = ”almeno due picche” =13⋃k=2

Ek,

dove Ek :=”esattamente k picche”. La probabilita di E si puo calcolare direttamenteoppure passando all’evento complementare. Per il calcolo diretto, osservando che gli Eksono disgiunti, vale

P (E) =13∑k=2

P (Ek) =13∑k=2

|Ek||Ω|

=

13∑k=2

(13k

)(52−1313−k

)(5213

)Passando per il complementare,

Ec = ”al piu 1 picca” = ”0 picche” o 1 picca”

e, osservando che ”0 picche” e ”1 picca” sono eventi disgiunti,

P (E) = 1− P (Ec) = 1−(P (”0 picche”) + P (”1 picca”)

)= 1−

(3913

)(130

)(5213

) −(

3912

)(131

)(5213

) ,

un’espressione computazionalmente molto piu semplice di P (E).

Esercizio 4. Corsa campestre di n atleti della stessa abilita, quindi gli ordini di arrivo sonocasuali (un’altra locuzione comunemente impiegata per dire equiprobabili). Calcolare laprobabilita che Marco arrivi in k-esima posizione per k = 1, 2, . . . n.

pk = P (”Marco arriva k−esimo”) =(n− 1)!

n!=

1

n

La soluzione non dipende da k. Si puo reinterpretare in vari modi, mazzo di chiavi, forlornhope mission, estrazione da urna ecc.

26

Esercizio 5. Comitato formato scegliendo a caso 6 persone da un gruppo di 10 americani,7 russi e 5 tedeschi. Calcolare la probabilita che il comitato contenga almeno un rappre-sentante di ognuno dei due paesi europei. L’evento d’interesse e ”almeno 1 russo e almeno1 tedesco”. Siamo passati al complementare che, per De Morgan, e ”nessun russo o nessuntedesco” che ha probabilita

P (”0 russi”) + P (”0 tedeschi”)− P (”0 russi e 0 tedeschi”) =

(156

)+(

176

)−(

106

)(226

)Esercizio proposto. Si consideri un mazzo di carte da briscola (4 semi, 10 valori per ogniseme, per un totale di 40 carte). In un certo gioco una mano consiste di 4 carte estrattea caso dal mazzo. Calcolare la probabilita dell’evento E =”la mano contiene almeno1 asso”. Calcolate la probabilita sia direttamente sia passando all’evento complementareverificando che le due espressioni ottenute coincidono (e un esercizio di pura manipolazionedei coefficienti binomiali).

5.2 Problema del compleanno

Il ”birthday problem” consiste nel calcolo della probabilita dell’evento

En = ”in una classe di n bambini almeno 2 hanno lo stesso compleanno”

Non ripeto qui il calcolo della probabilita di En che trovate sui vostri appunti:

P (E) = 1− P (Ec) = 1−n−1∏k=1

(1− k

365

)Riporto brevemente il conticino utile per trovare un limite superiore alla probabilita P (En).Poiche P (Ecn) =

∏n−1k=1

(1− k

365

). Usando la disuguaglianza 1 − x ≤ e−x, valida per ogni

x ∈ R, troviamo che

P (Ecn) ≤n−1∏k=1

e−k

365 = e−∑n−1k=1

k365 = e−

n(n−1)2·365

Volendo trovare n tale che P (En) > 0.5 sara sufficiente imporre che P (Ecn) < 0.5. Conpoca algebra si trova che la condizione equivale a n2 − n > 2 · 365 log 2 ≈ 505.997. Pern = 23 il membro sinistro vale n2 − n = 506, quindi n = 23 e sufficiente. Per dimostrareche n = 23 e il minimo valore di n che soddisfa alla condizione P (Ecn) < 0.5, si prenden = 22 ci si arma di pazienza e si valuta, meglio farlo scrivendo due righe di codice su uncalcolatore, il valore esatto P (Ec22) che risulta essere maggiore di 0.5. Il ”paradosso deicompleanni” si riferisce al fatto che, in un gruppo di appena 23 persone, la probabilita chealmeno due di esse abbiano lo stesso compleanno e maggiore di 0.5.

Birthday attack. E una tecnica di hacking, di tipo brute force, basata sul paradosso delcompleanno. Guardate la voce birthday attack sulla wikipedia inglese o chiedete ad unvostro professore d’informatica.

5.3 Probabilita condizionata: motivazione della definizione

L’idea di probabilita condizionata consente di incorporare informazione a priori nel cal-colo della probabilita di eventi di interesse. L’informazione a priori riguarda tipicamente

27

il verificarsi o il non verificarsi di certi eventi che sono collegati all’evento di cui interes-sa calcolare la probabilita. Grazie alla probabilita condizionata e possibile rappresentaresituazioni sperimentali che evolvono dinamicamente nel tempo. Abbiamo illustrato questodiscorso fumoso con un semplice esempio che indica un modo ragionevole di incorpo-rare l’informazione a priori nel calcolo della probabilita di un evento. Si supponga diavere un’urna contenente 80 palline nere e 20 rosse. Effettuiamo 2 estrazioni senza rein-serimento. Vogliamo calcolare probabilita del tipo P (e1 = ”rossa”), P (e2 = ”rossa”),P (e1 = ”rossa”, e2 = ”rossa”), dove e1 e e2 sono rispettivamente la prima e la secondaestratta e la virgola tra eventi si deve intendere come segno d’intersezione. Cominciamoa calcolare queste probabilita applicando diligentemente quanto visto finora. Dovendotrattare eventi per i quali l’ordine delle estrazioni e rilevante sara opportuno prenderecome spazio campionario

Ω = disposizioni senza ripetizione di 2 oggetti scelti da 100

dove |Ω| = 100 · 99, e dotarlo della misura equiprobabile. E allora immediato calcolare

P (e1 = ”rossa”, e2 = ”rossa”) =20 · 19

100 · 99.

Per il calcolo di P (e1 = ”rossa”) rappresentiamo dapprima l’evento e1 = ”rossa” comeunione di eventi incompatibili di Ω:

e1 = ”rossa” = e1 = ”rossa”, e2 = ”rossa” ∪ e1 = ”rossa”, e2 = ”nera”

da cui si ricava immediatamente

P (e1 = ”rossa”) =20 · 19

100 · 99+

20 · 80

100 · 99=

20 · 99

100 · 99=

20

100.

Tutto questo e istruttivo, ma poco illuminante. Un approccio meno formale consente didire immediatamente che

P (e1 = ”rossa”) =20

100perche nell’urna ci sono 20 palline rosse su un totale di 100. Quello che stiamo facendo, inmodo automatico, nel produrre immediatamente la risposta 20

100 , e di costruire mentalmenteun modello probabilistico diverso ovvero

Ω1 = i naturali da 1 a 100 di cui 20 sono rossi e 80 neri

e di dotarlo di una misura equiprobabile. Quando tentate di calcolare P (e2 = ”rossa”)usando lo stesso approccio intuitivo vi bloccate perche la composizione dell’urna dipendedal risultato, non noto, della prima estrazione. Supponete che qualcuno vi informi delrisultato della prima estrazione e che vi sia consentito tenerne conto. Per denotare ilfatto che state usando quest’informazione extra la mettete in evidenza quando scrivete leprobabilita. Scrivete ad esempio

P (e2 = ”rossa” | e1 = ”rossa”) =19

99

che leggerete: la probabilita che la seconda estratta sia rossa, sapendo che la prima estrattaera rossa, vale 19

99 . In effetti se la prima estrazione ha prodotto una rossa rimangononell’urna 99 palline, di cui 19 rosse. Confrontiamo questa probabilita, che tiene conto inmodo intuitivo dell’informazione a priori sulla prima estrazione, con quelle calcolate piusopra. Con una semplice manipolazione

P (e2 = ”rossa” | e1 = ”rossa”) =19

99=

20 · 19

100 · 99

100

20

=P (e1 = ”rossa”, e2 = ”rossa”)

P (e1 = ”rossa”)

28

Diciamo E = e2 = ”rossa” ed F = e1 = ”rossa”, allora le considerazioni fatte soprasuggeriscono di definire la probabilita di E sapendo che si e verificato F come:

P (E|F ) =P (E ∩ F )

P (F ).

Nella prossima lezione erigeremo questa formula a definizione formale della probabilitacondizionata, in spazi di probabilita qualunque. Vedremo inoltre come calcolare P (e2 =”rossa) usando le probabilita condizionate.

29

Appendice alla Lezione 5Combinazioni del poker

Lo scopo della nota e di calcolare le probabilita delle mani nel gioco del poker.

Consideriamo il mazzo da 52 carte. Le carte si distinguono per seme e valore (chiamatoanche rango). I semi sono 4, denominati Cuori, Quadri, Fiori, Picche. Per ogni seme cisono 13 carte i cui ranghi crescenti sono A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J,Q,K. Si considera inscala crescente anche la sequenza 2, 3, 4, 5, 6, 7, 8, 9, 10, J,Q,K,A.

Una mano di poker consiste in un sottoinsieme di 5 carte scelte a caso dal mazzo di 52. Ilnumero di mani possibili e quindi (

52

5

).

Tipi di mani nel poker.

1. coppia – (x, x, w, y, z)dove x, x sono due carte dello stesso rango (di semi ovviamente diversi) mentre w, y, zsono tre carte, di ranghi distinti tra loro, e diversi da quello di x.

2. doppia coppia – (x, x, y, y, z)

3. tris – (x, x, x, y, z)

4. scala – 5 carte con ranghi in ordine crescente, non dello stesso seme.

5. full – (x, x, x, y, y)

6. colore – 5 carte dello stesso seme

7. colore in scala – 5 carte dello stesso seme in scala, la piu alta non e l’asso.

8. poker – (x, x, x, x, y)

9. scala reale – colore in scala con carta piu alta l’asso.

10. scartine – nessuna delle precedenti.

Calcolo delle combinazioni.Per 1. 2. 3. 5. 8. il conteggio si puo fare come segue.

1. (13

1

)(4

2

)(12

3

)(4

1

)3

Dove(

131

)e il numero di scelte del rango w,

(42

)il numero di scelte della coppia tra

le 4 carte di rango w,(

123

)il numero di scelte dei ranghi x, y, z tra i 12 rimasti dopo

aver eliminato w,(

41

)il numero di scelte della carta tra le 4 carte di rango x, ed

analogamente(

41

)le possibili scelte della carta tra le 4 di rango y, e

(41

)le scelte della

carta tra le 4 di rango z.

2. (13

2

)(4

2

)2(11

1

)(4

1

)Dove

(132

)e il numero di possibili coppie di ranghi x, y,

(42

)2il numero di scelte della

carta di rango x moltiplicato il numero di scelte della carta di rango y,(

111

)(41

)il

numero di scelte del rango z per il numero di scelte della carta di rango z.

30

3. (13

1

)(4

3

)(12

2

)(4

1

)2

spiegazione analoga a sopra.

5. (13

1

)(4

3

)(12

1

)(4

2

)spiegazione analoga a sopra.

8. (13

1

)(4

4

)(12

1

)(4

1

)spiegazione analoga a sopra.

4. Una scala puo partire da uno qualunque dei ranghi A, 2, 3, 4, 5, 6, 7, 8, 9, 10. Se parte da10 terminera con A. Le scale possibili sono quindi 10×45 poiche scelta la carta di partenzasi deve poi scegliere, per ognuno dei 5 ranghi consecutivi, il seme della carta. Vanno perosottratte le 10 × 4 scale formate da 5 carte dello stesso seme perche queste combinazionihanno valore diverso (caso 7. colore in scala). Il numero di scale semplici vale dunque

10× 45 − 10× 4

7. Si devono contare tutte le scale dello stesso seme che non terminano in asso, poichequelle che terminano in asso sono scale reali. Quindi abbiamo

10× 4− 4

9. Le scale reali sono ovviamente4

6. Per la combinazione colore il seme puo essere scelto in 4 modi, quindi si devono scegliere5 carte delle 13 di quel seme, e infine sottrarre i colori in scala e le scale reali

4×(

13

5

)− 10× 4

Esercizio: I casi da 1. a 10. sono ovviamente mutuamente esclusivi. Calcolate diretta-mente il numero di mani del caso 10. – scartine (basta contare quante sono le mani con 5carte di rango diverso e sottrarre .....) e verificate che la somma dei casi da 1. a 10. valeeffettivamente

(525

).

31


6.1 Probabilita condizionata

Definizione. Sia (Ω,F , P ) uno spazio di probabilita, ed F ∈ F un evento tale che P (F ) > 0,allora per ogni E ∈ F e ben definita la quantita

P (E|F ) :=P (E ∩ F )

P (F ),

detta probabilita condizionata di E dato F , o semplicemente probabilita di E dato F .

Nota bene. Battezzare una quantita ”probabilita” non basta a garantire che essa si com-porti come tale. Sara dunque necessario giustificare la scelta del nome. Cominiciano conlo studio delle proprieta piu elementari di P (E|F ).

Proprieta elementari di P (E|F ).

(a.) 0 ≤ P (E|F ) ≤ 1 per ogni E,F .

Dimostrazione. Poiche E∩F ⊂ F , per la monotonia della probabilita 0 ≤ P (E∩F ) ≤ P (F )da cui discende la proprieta dividendo per P (F ).

(b.) E ∩ F = ∅ −→ P (E|F ) = 0.

Dimostrazione. Banale dalla definizione.

(c.) P (E) = 0 −→ P (E|F ) = 0.

Dimostrazione. Infatti E ∩ F ⊂ E implica P (E ∩ F ) ≤ P ((F ) e dividendo per P (F ) siconclude.

(d.) P (E) = 1 −→ P (E|F ) = 1.

Dimostrazione. E sempre P (E ∩ F ) ≥ P (E) + P (F ) − 1, e poiche P (E) = 1 per ipotesi,

P (E ∩ F ) ≥ P (F ). Dividendo per P (F ) si trova P (E|F ) = P (E∩F )P (F ) ≥ 1 e per la (a.) si

conclude che P (E|F ) = 1.

Osservazione. P (E|F ) T P (E), a seconda degli eventi E,F e della misura P .

Commento. Si noti che e naturale voler confrontare P (E) con P (E|F ). Intuitivamente,se E e l’evento d’interesse e P la misura nota, P (E) e la probabilita di E in assenza diulteriori informazioni, mentre P (E|F ) e la rivalutazione della probabilita di E tenendoconto dell’informazione ”si e verificato l’evento F”. Esempio. E =”il paziente guarisce”,F =”il paziente ha assunto il farmaco”. La CUF (Commissione Unica del Farmaco) metteil farmaco in fascia A se P (E|F ) > P (E), in fascia B se P (E|F ) = P (E) o ne proibisce lavendita se P (E|F ) < P (E).

Esercizio svolto in aula. Lancio due dadi distinguibili, ad esempio uno rosso ed uno blu.Tutti i risultati sono equiprobabili. Calcolare le probabilita condizionate

P (esce 6 sul dado rosso | la somma dei dadi e i), i = 2, 3, . . . 12.

Interpretazione empirica della probabilita condizionata

Nell’interpretazione empirica (frequentista) della probabilita si suppone di poter effettuareun esperimento in condizioni identiche un certo numero di volte n. Per ogni evento E ∈ Fsi definisce la probabilita empirica Pn(E) = nE

n , dove nE e il numero di volte che si e

32

verificato E nelle n prove. Ragionando allo stesso modo e naturale definire la probabilitacondizionata empirica come

Pn(E|F ) =Pn(E ∩ F )

Pn(F )=nE∩FnF

.

Esempio (trial clinico).

Negli studi osservazionali (sociali, biomedici, ecc.) i modelli probabilistici si costruisconoutilizzando probabilita empiriche. Ad esempio per valutare l’efficacia di un farmaco, dettoG =”malato guarisce” e F =”malato assume farmaco” (e per convenienza tipograficaG = Gc, F = F c), interessa confrontare P (G|F ) con P (G). Allo scopo si organizzanoesperimenti, detti trial clinici, per valutare le probabilita empiriche. Una versione moltorozza di trial clinico e la seguente. Ad ogni individuo di una popolazione di n malati siassociano due bit (g, f), con l’ovvia interpretazione f = 1 l’individuo assume farmaco,f = 0 l’individuo non assume il farmaco ed analogamente g = 1 l’individuo guarisce,g = 0 l’individuo non guarisce. Dopo avere rilevato i valori (g, f) di ogni individuo, siriassumono i dati dell’intera popolazione in una cosiddetta tabella di contingenza 2 × 2della forma

F F

G nGF nGF nG

G nGF nGF nG

nF nF n

dove nGF e il numero di malati che guariscono e assummono il farmaco, nGF il numerodi quelli che guariscono e non assumono il farmaco ed analogamente si interpretano nGF ,nGF , nF , nF , nG, nG. Per definizione, la colonna piu a destra (colonna marginale) haper elementi le somme delle righe e la riga piu in basso (riga marginale) ha per elementila somma delle colonne. Convincetevi della correttezza dei valori indicati nella colonna enella riga marginali, ovvero nGF +nGF = nG, eccetera. Per definizione l’elemento in bassoa destra e la somma degli elementi della colonna marginale, che coincide (convincetevene)con la somma degli elementi della riga marginale, ovvero n (convincetevene), la cardinalitadella popolazione. I quattro numeri nGF , nGF , nGF e nGF contengono le informazioninecessarie per il calcolo di tutte le probabilita empiriche d’interesse, ad esempio:

Pn(G|F ) =nGFnF

=nGF

nGF + nGF

e anche

Pn(G) =nGn

=nGF + nGF

nGF + nGF + nGF + nGF

Esercizio. Verificare che vale la relazione Pn(G|F ) > Pn(G) tra le probabilita empiriche(farmaco utile) se e solo se il determinante della matrice di contingenza 2× 2 e positivo.

33

La probabilita condizionata come misura di probabilita

Teorema. Sia F ∈ F con P (F ) > 0 fissato, allora la mappa P (·|F ) : F → R che assegnaE 7→ P (E|F ) e una misura di probabilita.

Dimostrazione. Consiste nella verifica degli assiomi. Vedi appunti di lezione!

Dal teorema appena dimostrato segue che P (·|F ) gode di tutte le proprieta di una misuradi probabilita. In particolare

(a.) P (Ec|F ) = 1− P (E|F ), per ogni E ∈ F .

(b.) P (E ∪G|F ) = P (E|F ) + P (G|F )− P (E ∩G|F ) per ogni E,G.

ATTENZIONE

La mappa P (E|·) : F → R che assegna F 7→ P (E|F ) non e una misura di probabilita.

Esercizio. Costruire un esempio dove P (E|F c) 6= 1− P (E|F ).

6.2 Formula di moltiplicazione e applicazioni

Se sia E che F hanno probabilita strettamente positiva sono ben definite entrambe leprobabilita condizionate

P (E|F ) =P (E ∩ F )

P (F ), P (F |E) =

P (E ∩ F )

P (E)

da cui si ricavano le identita (formule di moltiplicazione)

P (E ∩ F ) = P (E|F )P (F ) = P (F |E)P (E)

Le formule di moltiplicazione sono spesso utili nel calcolo della probabilita di eventi d’in-teresse. Sebbene equivalenti dal punto di vista teorico, dal punto di vista operativo nonsempre una vale l’altra.

Esempio. Tornando all’esempio motivazionale dell’ultima lezione, abbiamo

P (e1 = ”rossa”e2 = ”nera”) = P (e2 = ”nera” | e1 = ”rossa”)P (e1 = ”rossa”)

= P (e1 = ”rossa” | e2 = ”nera”)P (e2 = ”nera”)

dove la prima identita consente un calcolo immediato, mentre la seconda e inservibile,poiche non sappiamo ancora come calcolare P (e2 = ”nera”).

Le identita viste sopra sono le piu semplici formule di moltiplicazione. L’idea puo sipero iterare per ottenere formule di moltiplicazione di piu vaste proporzioni. Ad esempio,per qualunque terna E,F,G ∈ F , usando la definizione di probabilita condizionata, eimmediato verificare che

P (E ∩ F ∩G) = P (E ∩ (F ∩G)) = P (E|F ∩G)P (F |G)P (G).

Se si ha a che fare con una famiglia finita Eini=1 di eventi, vale ad esempio

P

(n⋂i=1

Ei

)= P

(En

∣∣∣ n−1⋂i=1

Ei

)P

(En−1

∣∣∣ n−2⋂i=1

Ei

). . . P (E2|E1)P (E1).

34

Naturalmente di formule di questo tipo se ne possono scrivere parecchie, permutando glieventi Ei. Sono tutte corrette, ma operativamente alcune saranno piu comode di altrenelle specifiche applicazioni.

Esempio 1. Da un mazzo di carte da poker estraggo 3 carte senza reinserimento. Calcolarela probabilita che nessuna delle 3 carte sia di Cuori. Svolto in aula sia con calcolo direttosia con la formula di moltiplicazione.

Esempio 2 (urna di Polya). In un’urna ci sono inizialmente 3 palline Bianche e 5 Rosse.Effettuo le estrazioni con la seguente regola: ad ogni estrazione reinserisco nell’urna lapallina appena estratta e ne aggiungo 2 dello stesso colore di quella appena estratta.Abbiamo calcolato la probabilita dell’evento

P (e1 = B, e2 = B, e3 = R) = P (e3 = R|e1 = B, e2 = B)P (e2 = B|e1 = B)P (e1 = B)

=5

12

5

10

3

8.

Piu in generale l’urna di Polya e definita come segue: in un’urna sono inizialmente presentib palline Bianche ed r palline Rosse. Ad ogni estrazione si reinserisce nell’urna la pallinaappena estratta e se ne aggiungono c dello stesso colore di quella appena estratta, dovec ∈ Z e un intero fissato. Si noti che c = −1 corrisponde al caso standard di campionamentosenza reinserimento, c = 0 al caso standard di campionamento con reinserimento, c = 2 alcaso particolare visto sopra. Come in precedenza calcoliamo ad esempio

P (e1 = B, e2 = B, e3 = R) =r

b+ r + 2c

b+ c

b+ r + c

b

b+ r.

Osservazione. Abbiamo rapidamente visto che tutte le permutazioni di e1 = B, e2 =B, e3 = R (ad esempio e1 = B, e2 = R, e3 = B, e cosı via per tutte le altre) hannola stessa probabilita. In effetti, nella precedente formula, i denominatori sono invarianti,mentre i numeratori permutano. Lo stesso vale se invece di 3 estrazioni se ne eseguono n.Tecnicamente si dice che gli eventi e1 = B, e2 = B, e3 = R sono scambiabili. Lanozione di scambiabilita per eventi e di fondamentale importanza in Statistica, ed e dovutaa Bruno de Finetti (1937). L’urna di Polya e un modello probabilistico estremamenteflessibile, utile in svariati campi applicativi. Avevo menzionato lo studio della propagazionedi un’infezione virale in una popolazione umana o in una rete di calcolatori.

6.3 Formule della probabilita totale e di Bayes

Formula della probabilita totale

Teorema. Sia F, F c una partizione di Ω, con 0 < P (F ) < 1, allora per ogni E ∈ F valela formula della probabilita totale:

P (E) = P (E|F )P (F ) + P (E|F c)P (F c).

Dimostrazione. E sufficiente scrivere la decomposizione disgiunta E = (E ∩F )∪ (E ∩F c),applicare l’addittivita della misura P (E) = P (E ∩ F ) + P (E ∩ F c) ed infine utilizzare laformula di moltiplicazione per sviluppare entrambi gli addendi che compaiono a destra.

In generale, se Fini=1 e una partizione di Ω, con P (Fi) > 0 per ogni i, la formula dellaprobabilita totale e

P (E) =n∑j=1

P (E|Fj)P (Fj).

35

Esempio 1. Tornando all’esempio motivazionale introdotto alla fine della scorsa lezione,la formula della probabilita totale fornisce

P (e2 = R) = P (e2 = R|e1 = R)P (e1 = R) + P (e2 = R|e1 = N)P (e1 = N)

=19

99

20

100+

20

99

80

100=

20

100.

Osservazione. Nonostante le palline siano estratte senza reinserimento P (e2 = R) =P (e1 = R). Questo risultato non e del tutto intuitivo. In forma piu estrema, se nell’urnaci sono 99 palline Nere ed 1 Rossa, e si effettuano estrazioni senza reinserimento, valeP (e1 = R) = P (e2 = R) = · · · = P (e100 = R) = 1

100 . Si confronti con l’esercizio 4 dellasezione 5.1.

Esempio 2. Un’azienda di assemblaggio PC acquista chip di memoria da tre diversi for-nitori. Il fornitore A garantisce che la percentuale di chip difettosi e inferiore al 2%, ilfornitore B garantisce meno del 2%, mentre il fornitore C garantisce meno del 4%. L’uf-ficio acquisti ordina il 50% dei chip da A, il 25% da B ed il 25% da C. I chip vengonoimmagazzinati in modo casuale. Il tecnico addetto prende un chip a caso dal magazzino elo inserisce sulla scheda madre. Aiutate l’ufficio vendite a calcolare la percentuale di chipdi memoria difettosi che puo garantire ai clienti che acquistano partite di PC assemblati.

Soluzione. E fondamentale interpretare correttamente i dati del problema. Detto Dl’evento ”chip difettoso”, con ovvio significato degli altri simboli, i dati sono P (D|A) =0.02, P (D|B) = 0.02, P (D|C) = 0.04, inoltre P (A) = 0.5, P (B) = 0.25, P (C) = 0.25. Glieventi A, B, C formano una partizione poiche ogni chip del magazzino proviene da uno,ed uno solo, dei produttori A, B o C. Ci sono le condizioni per applicare la formula dellaprobabilita totale che fornisce

P (D) = P (D|A)P (A) +P (D|B)P (B) +P (D|C)P (C) = 0.02 ·0.5 + 0.02 ·0.25 + 0.04 ·0.25.

Formula di Bayes

Spesso e di interesse calcolare le probabilita P (Fi|E), dette probabilita a posteriori (leprobabilita P (Fi) sono invece dette probabilita a priori). Utilizzando la definizione diprobabilita condizionata e la formula della probabilita totale si trova la formula di Bayes:

P (Fi|E) =P (E ∩ Fi)P (E)

=P (E|Fi)P (Fi)∑nj=1 P (E|Fj)P (Fj)

valida per i = 1, 2, . . . n. In alcuni casi, si veda l’esempio qui sotto, il calcolo delle prob-abilita a posteriori e di fondamentale importanza applicativa. L’enorme utilita della for-mula di Bayes deriva dal fatto che le probabilita a posteriori sono espresse in termini diprobabilita note, usualmente dati del problema.

Test diagnostici (signal detection)

Un test diagnostico e un metodo per rilevare la presenza di una certa condizione di in-teresse. Test diagnostici si possono effettuare nei piu disparati contesti. Ad esempio,un’antenna radar esplora i cieli per rilevare la presenza o l’assenza di aerei amici o nemici.Il principio di funzionamento del radar e quello della riflessione delle onde elettromag-netiche ed e soggetto a numerose fonti di rumore e quindi di errore. Riflessioni multiple,presenza di stormi di uccelli o di astronavi aliene, condizioni meteo, queste ed altre ragionicomportano che la rilevazione radar non e mai completamente affidabile. Oppure si pensiad un test di gravidanza. Un kit acquistato in farmacia per pochi euro fornisce un risultato

36

che e soggetto a varie fonti d’errore legate alla variazione dei livelli ormonali normali indonne diverse.

Diciamo T+ e T− gli eventi ”il test da risultato positivo”, ”il test da risultato negativo”rispettivamente. Analogamente diciamo D+ e D− gli eventi la condizione e presente ela condizione e assente (si suppone che esistano metodi certi per rilevare il verificarsi diD+ o D−, ad esempio ci si puo accertare visualmente della presenza o meno di un aereoin una no-fly zone con un volo di ricognizione, il ginecologo effettua accurati esami dilaboratorio per accertare la gravidanza della sua paziente ecc.) Per un test ideale si deveavere P (T+|D+) = 1 e P (T−|D−) = 1, ma nel mondo reale i test diagnostici non sonoperfetti. In generale il test e caratterizzato da due probabilita condizionate:

P (T+|D+) = a < 1 specificita

P (T−|D−) = b < 1 sensibilita

In gergo le probabilita di errore vengono dette: P (T−|D+) = 1 − a probabilita di falsonegativo (”miss”) e P (T+|D−) = 1− b probabilita di falso positivo (”false alarm”).

Nota bene. P (T−|D+) = 1 − a ed analogamente P (T+|D−) = 1 − b poiche la probabilitacondizionata e una misura di probabilita, quando l’evento condizionante e fissato. InoltreT+ e T− sono eventi complementari, quindi P (T−|D+) = 1− P (T+|D+) = 1− a ecc.

Esempio di uso della formula di Bayes

(disclaimer: i dati numerici di questo esempio sono di pura fantasia, al solo scopo dimostrare l’utilita della formula di Bayes, fate voi il googling se vi interessano i dati reali)

Si supponga di disporre di un test di sieropositivita per il virus HIV con le seguenti carat-teristiche fornite dal produttore (l’azienda produttrice determina le probabilita empiriche,effettuando un trial clinico, come visto all’inizio della lezione)

a = 0.99, b = 0.98.

Dalle statistiche ISTAT, un individuo preso a caso dalla popolazione generale ha proba-bilita di essere sieropositivo P (D+) = 0.0002. In realta la tabella dell’ISTAT riporta il datoempirico, e tipicamente dira 2 persone su 10,000 sono sieropositive, ma nell’interpretazionefrequentista della probabilita questo equivale a P (D+) = 0.0002.

Supponete di sottoporvi al test e che il risultato sia T+. La domanda e: dovete andarein panico o no? Questo e esattamente il caso in cui le probabilita d’interesse sono leprobabilita a posteriori. Prima di fare il test voi siete un individuo della popolazionegenerale ed avete probabilita P (D+) = 0.0002 di essere sieropositivo. Dopo aver effet-tuato il test, che ha dato esito T+, voi avete una nuova informazione, e siete interessatia ricalcolare la vostra probabilita di essere sieropositivo tenendo in considerazione questanuova informazione. Volete cioe calcolare la probabilita condizionata P (D+|T+). Questae esattamente la domanda a cui la formula di Bayes da la risposta.

P (D+|T+) =P (T+|D+)P (D+)

P (T+|D+)P (D+) + P (T+|D−)P (D−)

fatti i conti troverete che P (D+|T+) ≈ 0.01. Non e il caso di allarmarsi troppo: anchese la vostra probabilita e aumentata di circa 50 volte rispetto alla popolazione generale ecomunque ancora troppo bassa per giustificare una reazione di panico. Come mai si verificaquesto apparentemente strano fenomeno? Tutto dipende dal fatto che la condizione che sivuole rilevare ha probabilita molto bassa, P (D+) = 0.0002. In questa situazione un testcon a = 0.99 e b = 0.98, che sono specificita e sensibilita vicine a 1, non e sufficientementeaffidabile. Se fosse a = 0.9999 e b = 0.9999 la P (D+|T+) sarebbe molto piu alta (non hofatto il conto - provate voi).

37


7.1 Eventi indipendenti

Nel definire la probabilita condizionata avevamo osservato che, in generale, P (E|F ) puoessere maggiore uguale o minore di P (E). Il caso di uguaglianza e particolarmenteimportante in teoria della probabilita e la lezione e ad esso dedicata.

Definizione. Gli eventi E,F ∈ F si dicono indipendenti se

P (E ∩ F ) = P (E)P (F ),

nel qual caso scriveremo E ⊥⊥ F .

Osservazioni ed esempi

(a.) La definizione di indipendenza e simmetrica in E ed F quindi non ha senso dire che Ee indipendente da F o che F e indipendente da E. Poiche l’indipendenza e una proprietadella coppia non ordinata di eventi E,F , idealmente si dovrebbe dire che l’insieme E,Fe/non e indipendente.

(b.) E ⊥⊥ F e una nozione probabilistica in quanto coinvolge E,F e la misura P . Nonconfondete questa nozione con quella di eventi mutuamente esclusivi, E ∩ F = ∅, che epuramente insiemistica e che nulla ha a che vedere con la misura P . Le seguenti banaliproposizioni mettono in parziale relazione le due nozioni.

(i.) Se E ⊥⊥ F allora E ∩ F = ∅ ⇒ P (E) = 0 o P (F ) = 0.

(ii.) Se P (E ∩ F ) = 0 allora E ⊥⊥ F ⇒ P (E) = 0 o P (F ) = 0.Ad esempio, come conseguenza della (ii.), due eventi incompatibili, ed entrambi di prob-abilita strettamente positiva, non possono essere indipendenti (convincetevene!).

Esempio 1. Lancio contemporaneamente una moneta ed un dado. Sullo spazio campi-onario naturale Ω = (T, 1), . . . (T, 6), (C, 1) . . . (C, 6) consideriamo la misura equiproba-bile P (ω) = 1

12 , per ogni esito elementare ω ∈ Ω. Gli eventi E =”esce Testa sulla mone-ta” ed F =”esce 4 sul dado” sono indipendenti. Infatti P (E) = P ((T, 1) . . . (T, 6)) = 1

2 ,e P (F ) = P ((T, 4), (C, 4)) = 1

6 ed infine P (E ∩ F ) = P ((T, 4)) = 112 .

Esempio 2. Urna di Polya con b Bianche ed r Rosse, c = −1 ovvero estrazioni senzareinserimento da un’urna. Indichiamo con ei = R l’evento la i-esima pallina estratta erossa. Allora P (e1 = R, e2 = R) = r−1

b+r−1rb+r , mentre P (e1 = R) = P (e2 = R) = r

b+r ,quindi P (e1 = R, e2 = R) 6= P (e1 = R)P (e2 = R): gli eventi e1 = R ed e2 = R nonsono indipendenti.

Esempio 3. Urna di Polya con b Bianche ed r Rosse, c = 0 ovvero estrazioni con reinser-

imento. In questo caso P (e1 = R, e2 = R) = P (e2 = R|e1 = R)P (e1 = R) =(

rb+r

)2=

P (e1 = R)P (e2 = R): gli eventi e1 = R ed e2 = R sono indipendenti.

Esempio 4. Si consideri il lancio di due dadi e gli eventi E=”la prima faccia e 4” ed F=”lasomma dei punti e 7”. Gli eventi E e F sono indipendenti. Si osservi che invece glieventi E e G=”la somma dei punti e 9” non sono indipendenti. Banale, vedi comunquegli appunti. Morale: bisogna stare molto attenti. Gli eventi F e G sembrano della stessanatura, ma mentre la coppia E, F e indipendente, la coppia E, G non lo e.

38

Esempio 5. A lezione avevo accennato allo spazio di probabilita con Ω = [0, 1] × [0, 1], Fla σ-algebra generata dagli insiemi aperti, e P misura di probabilita che ad ogni eventoE ⊂ F associa P (E) = area(E). In questo spazio ogni coppia di eventi E, F della formaE = [a, b]×[0, 1] e F = [0, 1]×[c, d] sono indipendenti. Infatti P (E∩F ) = P ([a, b]×[c, d]) =(b− a)(d− c), mentre P (E) = P ([a, b]× [0, 1]) = b− a e P (F ) = P ([0, 1]× [b, c]) = d− c.

Conseguenze elementari dell’indipendenza

(a.) Gli eventi ∅, F e Ω, F sono indipendenti qualunque sia l’evento F . La di-mostrazione e banale.

(b.) Se E ⊥⊥ E allora P (E) = [P (E)]2, ovvero P (E) = 0 oppure P (E) = 1. Banale.

(c.) Lemma 1. Se P (E) > 0, e P (F ) > 0, le seguenti affermazioni sono equivalenti

(i.) E ⊥⊥ F , (ii.) P (E|F ) = P (E), (iii.) P (F |E) = P (F ).

Dimostrazione.

(i.) ⇒ (ii.). P (E|F ) = P (E∩F )P (F ) = P (E)P (F )

P (F ) = P (E).

(ii.) ⇒ (iii.). P (F |E) = P (E∩F )P (E) = P (E|F )P (F )

P (E) = P (E)P (F )P (E) = P (F ).

(iii.) ⇒ (i.). P (E ∩ F ) = P (F |E)P (E) = P (F )P (E).

Il lemma evidenzia che il caso particolare P (E|F ) = P (E) nella definizione di probabilitacondizionata corrisponde esattamente ad eventi E, F indipendenti.

(d.) Lemma 2. Le seguenti affermazioni sono equivalenti

(i.) E ⊥⊥ F , (ii.) Ec ⊥⊥ F , (iii.) E ⊥⊥ F c, (iv.)Ec ⊥⊥ F c.

Dimostrazione. Utilizziamo la definizione originale di indipendenza che non richiede ipotesidi stretta positivita sulle probabilita degli eventi.

(i.) ⇒ (ii.).

P (Ec ∩ F ) = P (F )− P (E ∩ F )

= P (F )− P (E)P (F ) = P (F )(1− P (E))

= P (F )P (Ec).

(ii.) ⇒ (iii.). Dalle due decomposizioni disgiunte dell’unione

E ∪ F = E ∪ (Ec ∩ F ) = F ∪ (F c ∩ E)

si ricava la relazione P (E) + P (Ec ∩ F ) = P (F ) + P (F c ∩ E) quindi

P (E ∩ F c) = P (E) + P (Ec ∩ F )− P (F )

= P (E) + P (Ec)P (F )− P (F ) = P (E) + (1− P (E))P (F )− P (F )

= P (E)− P (E)P (F ) = P (E)P (F c)

(iii.) ⇒ (iv.).

P (Ec ∩ F c) = 1− P (E ∪ F ) = 1−[P (F ) + P (F c ∩ E)

]= 1− P (F ) + P (F c)P (E) = 1− P (F ) + (1− P (F ))P (E) =

= (1− P (F ))(1− P (E) = P (Ec)P (F c)

(iv.) ⇒ (i.). Esercizio.

39

Interpretazione empirica dell’indipendenza di due eventi.

Verificare l’indipendenza di due eventi, sotto una data misura P , e spesso un problema diinteresse pratico. Come si puo, in pratica, valutare se E ⊥⊥ F? Una prima, rozza, rispostasi puo dare valutando le probabilita empiriche. Ricordando la definizione della misuraempirica Pn, e per il Lemma 1, la relazione di indipendenza E ⊥⊥ F rispetto alla misuraPn equivale a

Pn(E|F ) = Pn(E) ovveronE∩Fn

=nEn

nFn

Facendo riferimento all’esempio del trial clinico, nella sezione 6.1, la condizione di indipen-denza per la misura empirica equivale alla condizione di determinante nullo della matricedi contingenza 2× 2.

Rimangono molti punti da approfondire. (a.) Come si collega l’indipendenza rispetto allaPn con l’indipendenza rispetto alla P? Sperabilmente quando n e grande Pn e vicino a Pe quindi anche le relazioni di indipendenza si manterranno, ma questo e da approfondire.(b.) Nella pratica la relazione nE∩F

n = nEn

nFn e soddisfatta solo approssimativamente.

Entro che tolleranza e ragionevole dichiarare che E ⊥⊥ F? (c.) Non sempre e possibileusare un’impostazione frequentista. Pensate ad esempio agli eventi E =”domani cadraun meteorite su Mosca” ed F =”domani piovera a Milano” di un ipotetico spazio proba-bilistico che modella eventi celesti. E molto comune, specialmente tra fisici ed ingegneri,considerare E ⊥⊥ F se non esiste un’evidente relazione di causa/effetto tra i due eventi. Inrealta esiste un’estesa letteratura dai piu disparati campi, filosofico, logico, matematico,informatico e statistico, dedicata a chiarire la relazione causa/effetto ed il legame con larelazione d’indipendenza stocastica. Non ci occuperemo di questi argomenti.

7.2 Indipendenza per famiglie di eventi

Definizione. La famiglia di tre eventi E1, E2, E3 e indipendente se le seguenti duecondizioni sono entrambe soddisfatte:

(i.) Ei ⊥⊥ Ej per ogni i 6= j, (ii.) P (E1 ∩ E2 ∩ E3) = P (E1)P (E2)P (E3).

Discussione

E facile costruire esempi di terne di eventi E1, E2, E3 per cui vale la condizione (i.), manon la condizione (ii.) o viceversa.

Esempio 1 (dado tetraedrale di Bernstein). Il dado ha quattro facce equiprobabili: b bianca,r rossa, v verde, e t tricolore (bianca rossa e verde). Si lancia il dado e si considera comefaccia uscita quella su cui esso cade. Sia B l’evento B =”esce una faccia che contiene ilcolore bianco”=b, t, e analogamente sono definiti gli eventi R e V .

Fatto. Gli eventi B, R e V sono indipendenti a coppie, ma non sono indipendenti.

Dimostrazione. Cominiciamo con il dimostrare che B ⊥⊥ R:

P (B ∩R) = P (t) =1

4= P (B)P (R) =

2

4· 2

4.

Analogamente si dimostra che B ⊥⊥ V e R ⊥⊥ V . Peraltro:

P (B ∩R ∩ V ) = P (t) =1

46= P (B)P (R)P (V ) =

(1

2

)3

Esempio 2. Si lancia due volte un dado a sei facce. Sia A = 1, 2, 3 al primo lancio,B = 3, 4, 5 al primo lancio, C = somma dei due lanci e 9. Allora P (A ∩ B ∩ C) =P (A)P (B)P (C), mentre A, B, C non sono indipendenti a coppie.

40

Gli esempi 1 e 2 dimostrano che le condizioni (i.), e (ii.) nella definizione di indipendenzaper una terna di eventi sono logicamente indipendenti. Il motivo per cui e importanteimporle entrambe e che solo in questo caso vale, per la terna di eventi, un risultato simileal Lemma 2, ovvero se E1, E2, E3 sono indipendenti allora anche le terne che si ottengonosostituendo ad uno, a due, o a tutti e tre gli eventi i loro complementari, sono a loro voltaindipendenti.

Lemma 3. Le seguenti terne o sono tutte indipendenti o non lo e nessuna

E1, E2, E3, E1, E2, Ec3,E1, E

c2, E3, E1, E

c2, E

c3,

Ec1, E2, E3, Ec1, E2, Ec3,Ec1, Ec2, E3, Ec1, Ec2, Ec3.

Osservazione. Nonostante le formulazione lievemente diversa il Lemma 3 ha la stessastruttura logica del Lemma 2, affermando l’equivalenza dell’indipendenza per le otto terne.

Dimostrazione. Per simmetria e sufficiente dimostrare che se la prima terna e indipen-dente allora tutte le altre lo sono. Per oguna delle sette terne bisogna verificare chevalgono le condizioni (i.) e (ii.) della definizione d’indipendenza per tre eventi. La (i.)discende immediatamente dall’ipotesi che E1, E2, E3 e una terna indipendente e dalLemma 2. Verifichiamo la condizione (ii.). Se la terna in considerazione ha un solo eventocomplementato, ad esempio se la terna e E1, E2, E

c3, allora si ha

P (E1 ∩ E2 ∩ Ec3) = P (E1 ∩ E2)− P (E1 ∩ E2 ∩ E3)

= P (E1)P (E2)− P (E1)P (E2)P (E3)

= P (E1)P (E2)P (Ec3)

Si noti che e stato necessario utilizzare sia la condizione (i.) che la condizione (ii.)per la verifica! Per simmetria lo stesso vale per dimostrare l’indipendenza delle terneE1, E

c2, E3, Ec1, E2, E3. Se la terna ha due eventi complementati, ad esempio la terna

E1, Ec2, E

c3, avremo

P (E1 ∩ Ec2 ∩ Ec3) = P (E1)− P (E1 ∩ (Ec2 ∩ Ec3)c)

= P (E1)− P (E1 ∩ (E2 ∪ E3))

= P (E1)−(P (E1 ∩ E2) + P (E1 ∩ E3)− P (E1 ∩ E2 ∩ E3)

)= P (E1)

(1− P (E2)− P (E3) + P (E2 ∩ E3)

)= P (E1)P ((E2 ∪ E3)c)

= P (E1)P (Ec2)P (Ec3)

Lo stesso ragionamento si applica a tutte le terne con due eventi complementati. Analoga-mente (esercizio) si ragiona per l’unica terna con tutti gli eventi complementati Ec1, Ec2, Ec3.

Esercizio proposto. Se E1, E2, E3 sono indipendenti allora E1 ⊥⊥ E2 ∪ E3.

Estensione alle famiglie finite e numerabili.

Definizione. La famiglia di n eventi E1, E2, . . . En e indipendente se per ogni r, con 2 ≤r ≤ n, scelti r eventi distinti qualunque della famiglia la probabilita della loro intersezionee pari al prodotto delle probabilita dei singoli eventi scelti.

Si osservi che questa versione compatta della condizione di indipendenza riassume en-trambe le condizioni (1) e (2) imposte nel caso di una terna. La nozione di famigliaindipendente di eventi si puo estendere alle famiglie numerabili.

Definizione. La famiglia numerabile di eventi E1, E2, . . . e indipendente se ogni suasottofamiglia finita e indipendente.

41

7.3 Applicazioni dell’indipendenza I – semplificazione di calcoli probabilistici

L’indipendenza di certi eventi semplifica molti calcoli probabilistici e, in alcuni casi, rendepossibili calcoli altrimenti impossibili.

Esempio 1. P (E) = 0.2, P (F ) = 0.3, calcolare P (E ∪ F ). Questo calcolo e impossibile.Si puo in effetti scrivere P (E ∪ F ) = P (E) + P (F ) − P (E ∩ F ), ma non conoscendoP (E ∩ F ) il calcolo e impossibile da eseguire. Peraltro, se E ⊥⊥ F allora P (E ∪ F ) =P (E) + P (F )− P (E)P (F ) = 0.2 + 0.3− 0.2 · 0.3.

Esercizio 2. (freccette). Siano a, b e c tre giocatori di freccette. Indichiamo rispettivamentecon A, B e C gli eventi a, b, c fa centro. Sia P (A) = 1

2 , P (B) = 14 e P (C) = 1

5 . Si suppongache gli eventi A, B e C sono indipendenti.

Calcolare la probabilita dell’evento E =”uno solo dei giocatori fa centro”.

Si scrive la decomposizione disgiunta

E =(A \ (B ∪ C)

)⋃(B \ (C ∪A)

)⋃(C \ (A ∪B)

)Il primo addendo e

P (A \ (B ∪ C)) = P (A ∩Bc ∩ Cc) = P (A)P (Bc)P (Cc) =1

2· 1

4· 1

5

ecc. (Individuare tutte le applicazioni dei Lemmi.)

Calcolare anche P (A|E).

42


8.1 Applicazioni dell’indipendenza II – costruzione di misure di probabilita

Finora abbiamo usato la nozione d’indipendenza in modo analitico, in accordo con uno ol’altro dei seguenti schemi.

• Dati gli eventi E ed F di uno spazio di probabilita governato dalla misura P ,determinare se E e F sono/non sono indipendenti.

• Noto che sotto la misura P gli eventi E e F sono indipendenti, calcolare la probabilitadi altri eventi definiti a partire da E ed F .

La nozione di indipendenza si puo anche utilizzare, e molto proficuamente, in modo sin-tetico, ovvero per costruire misure di probabilita. A titolo illustrativo presentiamo qui uncaso semplice, ma non banale, e di fondamentale importanza applicativa: la costruzionedi misure non equiprobabili sullo spazio Ω degli esiti di n lanci di una moneta.

Motivazione: reinterpretazione della misura equiprobabile

Si consideri l’esperimento che consiste nel lanciare n volte una moneta, i cui esiti sono

Ω :=

(b1, b2, . . . , bn), bi ∈ T,C, i = 1, . . . n

La cardinalita |Ω| = 2n e quindi, per ogni ω ∈ Ω, la misura equiprobabile (detta ancheuniforme) e qui denotata Pu, assegna Pu(ω) = 1

2n . Denotando con il simbolo [ek = T ]l’evento ”esce Testa al k-esimo lancio”, si ha

[ek = T ] =

(b1, b2, . . . , bn), bk = T, bi ∈ T,C, i ∈ 1, . . . n \ k

e quindi la cardinalita dell’evento (il numero di esiti ω ∈ Ω che vi appartengono) e |[ek =T ]| = 2n−1, quindi

Pu([ek = T ]) =|[ek = T ]||Ω|

=2n−1

2n=

1

2, k = 1, 2 . . . n (1)

Si osservi che, poiche [ek = T ]c = [ek = C] risulta parimenti P ([ek = C]) = 12 .

Si consideri ora la coppia di eventi [eh = T ] e [ek = T ] con h 6= k. Poiche

[eh = T ] ∩ [ek = T ] =

(b1, b2, . . . , bn), bh = bk = T, bi ∈ T,C, i ∈ 1, . . . n \ h, k

la cardinalita dell’intersezione e |[eh = T ] ∩ [ek = T ]| = 2n−2 e quindi la probabilita vale

Pu([eh = T ] ∩ [ek = T ]) =2n−2

2n=

1

22

Analogamente si trova che, per ogni r ∈ 1, . . . n e per ogni r-pla k1, k2, . . . kr, conki ∈ 1, 2, . . . n e distinti,

Pu

(r⋂i=1

[eki = T ]

)=

2n−r

2n=

1

2r(2)

Poiche valgono le due identita (1) e (2) si conclude che, sotto la misura equiprobabile Pu,gli eventi della famiglia [ek = t], k = 1, . . . n sono equiprobabili, di probabilita 1

2 , edindipendenti.

Passiamo ora dall’analisi della misura Pu alla costruzione di una nuova misura di proba-bilita P su Ω in accordo con le seguenti prescrizioni.

43

Ricetta per la costruzione di P

• assegna P ([ek = T ]) := 12 , per ogni k = 1, 2, . . . n;

• imponi l’indipendenza degli eventi [ek = T ], k = 1, . . . n.

Per verificare che la ricetta produce una misura di probabilita P compatibile con gli assiomie sufficiente calcolare le probabilita di tutti gli esiti ω ∈ Ω e verificare che esse sommanoa 1. Per l’esito generico ω = (b1, b2, . . . bn) si ha che

ω =

n⋂k=1

[ek = bk]

e seguendo la ricetta dovra essere

P (ω) = P

(n⋂k=1

[ek = bk]

)=

n∏k=1

P ([ek = bk]) =1

2n= Pu(ω).

Poiche P (ω) = Pu(ω) per ogni ω ∈ Ω, le due misure coincidono. Cio rende ovviala consistenza di P , ma soprattutto consente di reinterpretare Pu come misura prodottadalla ricetta.

Costruzione di misure non equiprobabili sullo spazio di n lanci di una moneta.

L’analisi appena conclusa fornisce il razionale per la costruzione di una misura non equiprob-abile sullo spazio Ω degli esiti di n lanci di una moneta. Allo scopo definiamo la seguente

Ricetta generalizzata per la costruzione di P

• assegna P ([ek = T ]) := p ∈ [0, 1], per ogni k = 1, 2, . . . n (e quindi automaticamenteP ([ek = C]) = 1− p);

• imponi l’indipendenza degli eventi [ek = T ], k = 1, . . . n.

Rispetto alla ricetta precedente e stato introdotto il parametro p ∈ [0, 1], che intuitiva-mente rappresenta la probabilita di Testa della moneta, costante negli n lanci. Il casop = 1

2 corrisponde alla misura equiprobabile Pu. Se p 6= 12 la misura generata dalla ricetta

generalizzata non e equiprobabile. Per caratterizzare completamente P e sufficiente cal-colarla sugli esiti. Se ω = (b1, b2 . . . , bn) sia nT il numero di Teste tra gli n esiti di ω, ednC il numero di Croci, con nT + nC = n. Seguendo la ricetta generalizzata sara

P (ω) = P

(n⋂k=1

[ek = bk]

)=

n∏k−1

P ([ek = bk]) = pnT (1− p)n−nT . (3)

E evidente che questa misura non e equiprobabile, ma si noti che gli esiti ω con lo stessonumero di Teste nT sono equiprobabili. In particolare, detto Ek l’evento ”k Teste negli nlanci”, gli eventi Eknk=0 formano una partizione di Ω e, poiche tutti gli esiti in Ek hannola medesima probabilita (3) con nT = k,

P (Ek) = |Ek| pk(1− p)n−k =

(n

k

)pk(1− p)n−k

Microesercizio. Dimostrare algebricamente che∑n

k=0 P (Ek) = 1 e spiegare perche valequest’identita.

44

8.2 Il modello binomiale per eventi

Il paradigma degli n lanci di una moneta puo essere applicato in molti casi d’interessepratico. Il modello probabilistico corrispondente viene a volte detto modello binomiale pereventi.

Ogni volta che un contesto sperimentale prevede:

(i.) un certo numero n ≥ 1 prove identiche effettuate in sequenza,

(ii.) che i possibili esiti di ogni prova sono due,(a seconda del contesto sono detti 1, 0, T,C, successo, insuccesso , funziona,non funziona, ecc.) e per comodita noi adotteremo la rappresentazione 1, 0;

(iii.) che per ogni k = 1, . . . n, il risultato della k-esima prova non influenza i risultati dinessun altra prova,

e possibile definire una misura di probabilita P sullo spazio campionario (Ω,F), i cui esitisono le 2n sequenze di n risultati delle n prove, assumendo che

(a.) gli eventi [ek = 1], successo alla prova k-esima, sono equiprobabili di probabilitap ∈ [0, 1],

(b.) gli eventi [ek = 1] nk=1 sono indipendenti.

Esempio. Un ISP (Internet Service Provider) dispone di 20 linee di accesso e vende 24abbonamenti ADSL ad altrettanti utenti. E noto che (o si assume che) (a) la probabilitache, in un dato istante, l’utente i−esimo sia collegato e p = 0.8 per ogni i = 1, 2, . . . 24,(b) le connessioni degli utenti sono indipendenti. Calcolare la probabilita che l’ISP vadain saturazione. Calcoli di questo tipo sono usati per decidere quanti abbonamenti vendere.Per i voli aerei c’e la pratica commerciale dell’overbooking, che richiede gli stessi calcoli.

Qui si puo applicare il modello binomiale per eventi. Le identificazioni sono le seguenti:

(a) Le n = 24 prove ripetute sono: testare lo stato di connessione dei 24 abbonati

(b) Gli esiti di ogni prova sono due connesso, non connesso(c) p = 0.8

L’evento ”ISP in saturazione” si verifica se 21, 22, 23 o 24 degli abbonati sono connessicontemporaneamente, quindi

P (”ISP in saturazione”) =24∑

k=21

(24

k

)0.8k · 0.224−k

Il problema dell’overbooking e il seguente. L’ufficio vendite dell’ISP propone contratti aiclienti garantendo che, con probabilita almeno 0.95, egli sara in grado di connettersi allarete in ogni dato momento. Come si calcola il numero di abbonamenti che e possibilevendere rispettando l’impegno contrattuale con il cliente?

La soluzione del problema (che richiede un calcolatore e due righe di programma per esserecalcolata) e il massimo valore di M tale che

M∑k=21

(M

k

)0.8k · 0.2M−k ≤ 0.05.

45

8.3 Applicazioni dell’indipendenza III – analisi di affidabilita

C

D B

EA

F

l5

0.9

l4

0.8

l6

0.7

l7

0.3l1

0.9

l3

0.95

l2

0.75

Il grafo rappresenta una piccola rete di calcolatori. I nodi sono i calcolatori, gli archi leconnessioni fisiche tra calcolatori. Ogni arco ha due etichette: il nome e la probabilita difunzionamento della connessione. Potete pensare che le probabilita siano state ricavatecome percentuale del tempo in cui la connessione fisica ha funzionato nell’ultimo mese oanno. Ci interessa calcolare la probabilita dell’evento E =”esiste una connessione tra A eB”. Per effettuare questo calcolo e necessario costruire una misura di probabilita sul grafo.Per farlo utilizzeremo ancora una volta un’ipotesi di indipendenza tra certi eventi. Conmodesto abuso di notazione denotiamo li =”la connessione i funziona” per i = 1, 2 . . . 7.L’ipotesi fondamentale e che la famiglia di eventi li, i = 1, . . . 7 sia indipendente. Eevidente dalla topologia del grafo che l’evento E si puo scrivere come

E =[l1 ∩ [(l4 ∩ l5) ∪ (l6 ∩ l7)]

]∪ [l2 ∩ l3]

Avendo assunto l’indipendenza di li, i = 1, . . . 7 la probabilita di E e certamente cal-colabile, infatti E puo essere riscritto utilizzando solo intersezioni e complementazioni dieventi li. Questa via e scomoda e non illuminante. Si puo invece effettuare il calcoloriducendosi all’analisi di due casi elementari.

Connessione in serie. Si consideri il grafo

C1 C2 C3

l1p1

l2p2

Sia Es =”esiste una connessione tra C1 e C3”. Chiaramente Es = l1 ∩ l2, quindi

P (Es) = p1p2

Connessione in parallelo. Si consideri il grafo

C1 C2p2

l2

l1p1

46

Sia Ep =”esiste una connessione tra C1 e C2”. Chiaramente Ep = l1 ∪ l2, la connessioneesiste se almeno una delle due connessioni esiste, quindi

P (Ep) = P (l1 ∪ l2) = 1− P ((l1 ∪ l2)c) = 1− P (lc1 ∩ lc2) = 1− (1− p1)(1− p2)

Osservazione. La connessione in serie degrada l’affidabilita del collegamento poiche p1p2 ≤minp1, p2, mentre la connessione in parallelo migliora l’affidabilita del collegamentopoiche 1 − (1 − p1)(1 − p2) ≥ maxp1, p2 (dimostratelo!). Con questo principio si puocostruire una connessione ad alta affidabilita mettendo in parallelo un numero sufficientedi connessioni scadenti. Esercizio. Se metto in parallelo n canali di affidabilita p l’af-fidabilita della connessione e 1 − (1 − p)n che, scegliendo n sufficientemente grande, puoessere portato tanto vicino ad 1 quanto si vuole.

Calcolo dell’affidabilita della rete di calcolatori. Per il calcolo di P (E) analizziamo separata-mente le sottoreti. La serie (l4, l5) ha affidabilita 0.8 ·0.9 = 0.72 , la serie (l6, l7) affidabilita0.7 · 0.3 = 0.21. Il parallelo di queste due ha affidabilita 1 − (1 − 0.72)(1 − 0.21) ≈ 0.78e mettendo in serie il collegamento l1 l’affidabilita diventa 0.9 · 0.78 = 0.7: questa e l’af-fidabilita della sottorete (l1, l4, l5, l6, l7). La sottorete (l2, l3) e una serie di affidabilita0.75 · 0.95 = 0.7125. La rete complessiva e il parallelo delle sottoreti (l1, l4, l5, l6, l7) e(l2, l3), quindi ricaviamo che P (E) = 1− (1− 0.7)(1− 0.7125) = 0.91.

8.4 Estensioni

Formula della probabilita totale condizionata.

La formula in questione e

P (E|G) = P (E|F ∩G)P (F |G) + P (E|F c ∩G)P (F c|G),

dimostratela a partire dalla definizione di probabilita condizionata. Osservate che laformula della probabilita totale usuale corrisponde al caso G = Ω.

Esercizio. (Charles Dodgson, alias Lewis Carroll) Nel cilindro di un mago c’e un conigliodi colore non noto, ma equiprobabilmente Bianco o Nero. Inserisco un coniglio Bianconel cilindro, mescolo bene, ed estraggo a caso uno dei due conigli. Il coniglio estratto eBianco. Tenendo conto del risultato dell’estrazione, qual e la probabilita che il conigliorimasto nel cilindro sia Bianco? Carroll scrive due soluzioni, la prima volutamente errata,ma ”convincente”, che fornisce soluzione 1

2 , la seconda corretta che fornisce 23 (conviene

usare la formula della probabilita totale condizionata).

Prima soluzione. Ho inserito un coniglio bianco ed ho estratto un coniglio bianco, quindi lostato all’interno del cilindro non si e modificato rispetto alla situazione iniziale. La proba-bilita che nell’urna sia rimasto un coniglio bianco e uguale alla probabilita che inizialmenteil coniglio fosse bianco ovvero 1

2 . Dov’e l’errore? Qual e la soluzione corretta?

Esercizio. (versione generalizzata del precedente) Un’urna contiene n palline, in parteBianche ed in parte Nere. Non sappiamo quante sono le Bianche, ma tutte le possibilita

(Bianche, Nere) = (0, n), (1, n− 1), ..., (n, 0)

sono equiprobabili. Inseriamo una pallina Bianca nell’urna, mescoliamo bene, ed estra-iamo a caso una pallina che risulta essere Bianca. Qual e, tenendo conto dell’infor-mazione ottenuta dall’estrazione, la probabilita che tutte le palline nell’urna siano Bianche?(soluzione 2

n+2).

47

Appendice alla Lezione 8Indipendenza condizionata e applicazioni

(in preparazione – argomento non in programma nell’a.a. 2012-2013)

48


9.1 Variabili aleatorie discrete

Spesso interessa estrarre, e sintetizzare in forma quantitativa, informazioni contenute negliesiti elementari dello spazio campionario Ω.

Esempio 1. Sia Ω lo spazio che rappresenta le risposte fornite dagli studenti di Ingegneriadell’Informazione a un questionario. Sia ω = ( nome, cognome, eta, anno di corso, numerodi esami superati . . . ). Per una certa indagine anagrafica interessa l’eta degli studenti.In questo caso, per estrarre da ω l’informazione d’interesse, si associa ad ogni ω ∈ Ω ilnumero E(ω) :=”terza coordinata di ω”.

Esempio 2. Consideriamo lo spazio Ω che rappresenta gli esiti di n lanci di un moneta. Percomodita rappresentiamo gli esiti Croce e Testa con i bit 0 e 1 rispettivamente, quindi

Ω = (b1, . . . bn), bi ∈ 0, 1

Ogni esito ω ∈ Ω contiene molte informazioni quantitative. Ad esempio, nella lezione8 avevamo definito nT = nT (ω) il numero di Teste nella sequenza ω. In questo casol’informazione nT (ω) la si puo estrarre associando ad ogni ω = (b1, b2, . . . bn) ∈ Ω il numeronT (ω) =

∑nk=1 bk. Dagli ω ∈ Ω si possono estrarre altre informazioni quantitative, ad

esempio (a.) qual e il bit relativo al k-esimo lancio per k = 1, . . . n? (b.) Qual e il numerodi Teste nei primi n2 lanci? (c.) Qual e la differenza tra il numero di Teste e di Croci neglin lanci? ecc.

E evidente che ”estrarre informazione quantitativa da ω” corrisponde a ”definire unafunzione di ω a valori in R”, ed e proprio quest’idea che formalizziamo nella seguentedefinizione.

Definizione. Sia (Ω,P(Ω), P ) uno spazio di probabilita discreto. Ogni mappa

X : Ω→ R,

e detta variabile aleatoria (v.a.) discreta su Ω.

R

X

ω

X(ω)

Ω

Terminologia. L’immagine di X, ovvero il sottoinsieme del codominio R costituito daivalori assunti da X, in simboli

X := X(Ω) = x ∈ R |X(ω) = x per qualche ω ∈ Ω ,

49

viene talora detto alfabeto della v.a. X. Poiche Ω e discreto per ipotesi, ed X e unafunzione, anche X e discreto, essendo in generale |X | = |X(Ω)| ≤ |Ω|.Si noti che, senza perdita di generalita, si puo sempre restringere il codominio di X da R adX ⊂ R, in tal modo rendendo la v.a. X : Ω −→ X sempre suriettiva, ossia con codominiocoincidente con l’insieme dei valori. Peraltro le variabili aleatorie iniettive, cioe quelle cheper ogni coppia di esiti ω1 6= ω2 prendono valori X(ω1) 6= X(ω2) non sono interessanti,trattandosi di mappe che si limitano a rietichettare gli elementi di Ω. Ad esempio perΩ := C, T, la variabile aleatoria X : Ω −→ 0, 1 definita come X(C) = 0, X(T ) = 1 einiettiva e semplicemente ribattezza gli esiti C → 0 e T → 1.

Esempi di variabili aleatorie

Esempio 1. Sia Ω := (d1, d2) | 1 ≤ d1, d2 ≤ 6 , lo spazio campionario degli esiti del lanciodi due dadi distinti, uno Rosso ed uno Verde. Per fissare le idee, se ω = (d1, d2), allora d1

e la faccia uscita sul dado Rosso e d2 sul Verde. La mappa

ω = (d1, d2) 7→ X1(ω) = d1

definisce la variabile aleatoria X1, il cui valore indica la faccia uscita sul dado Rosso.L’alfabeto di X1 e X1 = 1, 2, 3, 4, 5, 6. La mappa

ω = (d1, d2) 7→ X2(ω) = d2

definisce la variabile aleatoria X2, il cui valore indica la faccia uscita sul dado Verde.L’alfabeto X2 = X1. La mappa

ω = (d1, d2) 7→W (ω) = mind1, d2

definisce la variabile aleatoria W , il cui valore indica il minimo tra la faccia Rossa e quellaVerde. L’alfabeto W = X1. La mappa

ω = (d1, d2) 7→ Z(ω) = maxd1, d2

definisce la variabile aleatoria Z, il cui valore indica il massimo tra la faccia Rossa e quellaVerde. L’alfabeto Z = X1. La mappa

ω = (d1, d2) 7→ X(ω) = d1 + d2

definisce la variabile aleatoria X, il cui valore indica la somma delle facce Rossa e Verde.L’alfabeto di X e X = 2, 3, 4, . . . , 12.

Esempio 2. Sia Ω = (b1, b2, . . . bn) | bi ∈ 0, 1 e si considerino le seguenti mappe

ω = (b1, b2 . . . , bn) 7→ Xk(ω) = bk, k = 1, 2 . . . n.

Le v.a. Xk, k = 1, . . . n, hanno alfabeto comune X = 0, 1 e, per ogni k, rappresentanol’esito del k-esimo lancio della moneta.

Le variabili aleatorie sono mappe, si puo quindi operare con esse come si opera conle mappe. Ad esempio tra variabili aleatorie si possono definire le abituali operazioni disomma, differenza, prodotto e quoziente tra mappe.

Esempi 1, 2 – segue. Con riferimento alle variabili aleatorie definite nell’Esempio 1, eimmediato verificare che X = X1 + X2, inoltre W = minX1, X2, e Z = maxX1, X2.Con riferimento all’Esempio 2, sullo stesso Ω e definita la somma

X =n∑k=1

Xk,

50

che nel punto ω = (b1, . . . , bn), vale X(ω) =∑n

k=1Xk(ω) =∑n

k=1 bk, ossia il numero diTeste presenti in ω.

Osservazione sulla terminologia. Terminologia e notazione probabilistica sono sottosoprarispetto all’analisi matematica. In teoria della probabilita la mappa detta variabile aleato-ria e denotata X, mentre in analisi matematica la mappa e detta funzione e denotataf , mentre la variabile, tradizionamente denotata x, e l’argomento della funzione. Si notiinoltre che la mappa X, benche sia detta variabile aleatoria non ha nulla di aleatorio,associando deterministicamente ad ogni ω ∈ Ω il valore X(ω). La variabile X e dettaaleatoria in riferimento all’incertezzza dei valori X(ω), incertezza ereditata da quella del-l’esito ω ∈ Ω. Prima di effettuare l’esperimento ω e incerto e quest’incertezza si trasferisceai valori X(ω) di ogni variabile aleatoria X definita su Ω.

Probabilizzare l’insieme dei valori XL’incertezza intrinseca sull’esito ω ∈ Ω comporta che i valori X(ω) assunti dalla v.a.X siano a loro volta incerti. Interessa quindi probabilizzare lo spazio campionario deivalori assunti da X, ovvero X . Naturalmente su X si possono definire infinite misure diprobabilita, ma interessa costruirne una, diciamola P ′, che sia compatibile con la misuraP definita sul dominio Ω della v.a. X. Poiche X e discreto sara sufficiente assegnare P ′

sui singleton di X . Nel caso di alfabeto finito scriviamo

X := x1, x2, . . . , xN ,

e quindi si deve assegnare P ′(xk) per ogni k = 1, 2 . . . N . Avremo bisogno di alcunirisultati preliminari.

Definizione. Per ogni B ⊂ X , si definisce l’antiimmagine di B

X−1(B) := ω ∈ Ω | X(ω) ∈ B .

La figura qui sotto illustra l’antiimmagine di un singleton di X .

R

X

x

ΩX-1(x)

Le anti-immagini dei singleton di X formano una partizione di Ω come specificato dalseguente Lemma, la cui banale dimostrazione si basa sulla definizione di anti-immagine esul fatto che X e una mappa.

Lemma. (a.) Se xh 6= xk allora X−1(xh)∩X−1(xk) = ∅. (b.)⋃Nk=1X

−1(xk

)= Ω.

51

Esiste dunque una corrispondenza biunivoca tra gli esiti xk ∈ X e gli eventi X−1(xk) ∈ Ω(si veda anche la Figura successiva) ed e naturale definire la misura P ′ assegnando

P ′(xk) := P(X−1(xk)

), k = 1, 2, . . . N.

Notazione. Per l’eventoX−1(xk) useremo indifferentemente le notazioni ω ∈ Ω | X(ω) =xk , [X = xk] e anche, piu sinteticamente, X = xk, specialmente come argomento dellamisura di probabilita. Scriveremo quindi indifferentemente

P (ω;X(ω) = xk ) = P(X−1(xk)

)= P ([X = xk]) = P (X = xk).

Lemma. P ′ e una misura di probabilita.

Dimostrazione. Per definizione P ′(xk) ≥ 0 per ogni k. Rimane solo da verificare chela somma

∑Nk=1 P

′(xk) = 1, ma questa e un’immediata conseguenza del fatto che gli

eventiX−1(xi)

Nk=1

formano una partizione di Ω.

La misura P ′ e detta misura indotta su X dalla variabile aleatoria X.

Esempio. Consideriamo la v.a. Z definita nell’Esempio 1. La Figura mette in evidenzatutti gli eventi d’interesse.

1 2 3 4 5 6

654321

1 2 3 4 5 6

Z

Z

Ω

Supponendo che su Ω sia stata definita la misura P equiprobabile, la misura P ′ su Z =1, 2, . . . , 6 e (usiamo varie notazioni solo per esercizio)

P ′(1) = P(Z−1(1)

)= P (Z = 1) =

1

36,

P ′(2) = P(Z−1(2)

)= P (Z = 2) =

3

36,

P ′(3) = P(Z−1(3)

)= P (Z = 3) =

5

36,

P ′(4) = P(Z−1(4)

)= P (Z = 4) =

7

36,

P ′(5) = P(Z−1(5)

)= P (Z = 5) =

9

36,

P ′(6) = P(Z−1(6)

)= P (Z = 6) =

11

36.

52

Densita di probabilita discreta

Definizione. Data la v.a. X a valori in X , la sequenza pX : X −→ [0, 1],

xk 7→ pX(xk) := P (X = xk) = P ′(xk),

e detta densita (o funzione di massa di probabilita) della variabile aleatoria X.

Proprieta. Poiche P ′ e una misura di probabilita, la densita di una v.a. discreta X e unasequenza tale che

(i.) pX(xk) ≥ 0, per ogni xk ∈ X . (1)

(ii.)∑k

pX(xk) = 1. (2)

Osservazioni critiche sulla densita

Si noti che le informazioni contenute nella densita pX sono tutte relative all’insieme deivalori X della v.a. X. Conoscere (oppure assegnare) la densita pX della v.a. X significaconoscere (oppure assegnare) l’alfabeto X , che e il dominio di pX , e la misura di probabilitasu X . La densita pX non conserva traccia ne dello spazio di probabilita (ΩF , P ) su cui Xe definita, ne tantomeno della forma funzionale di X.5

Data la densita pX di una v.a. X, si possono calcolare le probabilita degli eventi nellospazio dei valori X ,

P ′(B) = P (X ∈ B) =∑

k ;xk∈XpX(xk), per ogni B ⊂ X .

Dal punto di vista delle applicazioni questa e, quasi sempre, la sola informazione d’interessesulla v.a. X, mentre la descrizione analitica della mappa X : Ω −→ R e irrilevante. Invirtu della precedente osservazione e naturale identificare tutte le variabili aleatorie chehanno la stessa densita. Bisogna pero prestare la massima attenzione su questo punto,per evitare errori grossolani.

Esempio 3 (v.a. diverse con la medesima densita). Si consideri il modello binomiale dellaLezione 8, con n = 2 e parametro p ∈ [0, 1]. Allora

Ω = 00, 01, 10, 11,

e P (00) = (1 − p)2, P (01) = P (10) = p(1 − p), P (11) = p2. Si considerino ledue variabili aleatorie X1 e X2, definite su Ω come nell’Esempio 1, e che rappresentanorispettivamente il risultato del primo e del secondo lancio. Le v.a. X1 e X2 hanno lo stessoalfabeto, X = X1 = X2 = 0, 1. La densita di X1 e

pX1(1) = P(X−1

1 (1))

= P (10, 11) = p(1− p) + p2 = p,

e poiche gli elementi della densita sommano ad 1

pX1(0) = 1− p.5Al proposito e interessante osservare che le proprieta (1) e (2) caratterizzano le densita di probabilita,

come dimostrato dal seguente Lemma.Lemma. Assegnato un insieme finito X ed una sequenza p(·) : X −→ [0, 1] tale che la mappa x 7→ p(x)soddisfa le proprieta (1) e (2) esiste una variabile aleatoria X la cui densita pX(·) = p(·).Dimostrazione. Basta prendere (Ω,F , P ) = (X ,P(F), P ′) dove P ′(x) := p(x) per ogni x ∈ X e comevariabile aleatoria la mappa identita X : X −→ X che associa x 7→ X(x) = x.

53

Analogamente, per pX2(·), troviamo

pX2(1) = P(X−1

2 (1))

= P (01, 11) = p(1− p) + p2 = p, pX2(0) = 1− p.

Concludiamo che le v.a. X1 e X2 hanno la stessa densita, pX1(·) = pX2(·), quindi dalpunto di vista probabilistico le due v.a. X1 ed X2 si possono considerare equivalenti. Cionon significa pero che, in virtu dell’equivalenza probabilistica, si possa scrivere

X1 +X2 = 2X1, STRAFALCIONE

Commette questo grossolano errore chi non ricorda che, dal punto di vista funzionale, X1 edX2 sono mappe diverse, ad esempio X1((01)) = 0 6= X2((01)) = 1, quindi X1 +X2 6= 2X1

(vedi Figura). Microesercizio. Calcolare le mappe X1 +X2 e 2X1 per ogni ω ∈ Ω.

00 01

10 11

0

1

X1

00 01

10 11

0

1

X2

9.2 Famiglie di v.a. discrete notevoli

Dal punto di vista applicativo le variabili aleatorie sono quasi sempre specificate soloprobabilisticamente, fornendone cioe l’insieme dei valori (alfabeto) e i valori della densita.Cio e dovuto al fatto che tipicamente queste sono le uniche informazioni a disposizione dellosperimentatore, ed e quindi naturale considerare come probabilisticamente indistinguibilivariabili aleatorie con lo stesso alfabeto X e la stessa densita di probabilita pX(·).

Attenzione: Cio significa che, nelle applicazioni, non e nota la funzione ω 7→ X(ω). Perribadire quanto discusso nella precedente sezione, due v.a. con la stessa stessa densita nonassumono necessariamente lo stesso valore in corrispondenza ad ogni ω: NON e cioe veroche X1 = X2, ma solo che P (X1 = xk) = P (X2 = xk) per ogni xk ∈ X .

Nel seguito considereremo tutte le v.a. con la stessa densita come formanti una famigliadi v.a. probabilisticamente equivalenti. Alcune di queste famiglie sono talmente ricorrentinelle applicazioni da meritare un nome.

(a.) Bernoulli6

La v.a. X e detta di Bernoulli di parametro p, e si denota X ∼ b(p), se essa ha albabetoX = 0, 1 e densita pX(1) = p, pX(0) = 1− p.

Esempio 1. Se X e la v.a. che modella l’esito del lancio di una moneta con P (T ) = p,allora X ∼ b(p).Esempio 2. Se X e la v.a. aleatoria che assume valore X = 1 se l’esito di un dadoequilibrato e un numero pari, e valore X = 0 se l’esito e dispari, allora X ∼ b

(12

).

6Per ribadire una terza volta le precedenti osservazioni, a questo punto dovrebbe essere chiarissimo chele v.a. di Bernoulli b(p) costituiscono non una, ma infinite famiglie di v.a., una per ogni fissato p ∈ [0, 1].

54

Esempio 3. Se (Ω,F , P ) e uno spazio di probabilita (non necessariamente discreto) edE ∈ F un evento, la v.a. χE definita come

χE(ω) =

0, se ω /∈ E,1, se ω ∈ E

e una v.a. di Bernoulli, χE ∼ b (P (E)). La v.a. aleatoria χE e detta funzione indicatricedell’evento E.

(b.) Binomiali

La v.a. X e detta di binomiale di parametri n e p, e si denota X ∼ Bin(n, p), se essa haalbabeto X = 0, 1 . . . n e densita

pX(k) =

(n

k

)pk(1− p)n−k, k = 0, 1, . . . , n (3)

Esempio 4. Se X e la v.a. che modella il numero di Teste su n lanci di una moneta diprobabilita di Testa P (T ) = p, ed i lanci sono indipendenti come descritto nella Lezione8, allora X ∼ Bin(n, p).

Esempio 5. Se Xk ∼ b(p), per k = 1, . . . n, ci aspettiamo che X :=∑n

k=1Xk ∼ Bin(n, p),poiche Xk si puo interpretare come risultato del k-esimo lancio di una moneta P (T ) = p, edX e il numero di Teste in n lanci. Questa interpretazione e corretta solo sotto un’ipotesid’indipendenza per le v.a. Xk che rifletta l’ipotesi d’indipendenza di certi eventi usatanella Lezione 8 per derivare la misura (3). Riprenderemo l’esempio piu avanti.

(c.) Uniformi

La v.a. X e detta uniforme di alfabeto X , e si denota X ∼ U(X ), se essa ha albabetoX = x1, x2, . . . xn , di cardinalita finita, e densita uniforme pX(xk) = 1

N , per ognik = 1, 2, . . . N .

55


10.1 Funzione di distribuzione

Abbiamo visto nella Lezione 9 che la densita discreta pX(·) fornisce una descrizione prob-abilistica completa della variabile aleatoria X. In questa sezione introduciamo la funzionedi distribuzione, uno strumento alternativo per la descrizione probabilistica di X, moltopiu generale e flessibile della densita discreta.

Definizione. Data la variabile aleatoria X : Ω −→ R, la funzione FX : R −→ R definitacome

FX(x) := P (X ≤ x)

e detta funzione di distribuzione (FdD) della v.a. X.

Osservazioni sulla definizione.

(a.) Nella definizione della funzione di distribuzione si fa riferimento alla probabilita Psul dominio (Ω,F , P ) della v.a. X. Rivediamo le varie forme di scrittura equivalente,introdotte in precedenza ed equivalenti tra loro, che si possono utilizzare per la definizioneappena introdotta

FX(x) := P (X ≤ x) = P(X−1(

(−∞, x]

))= P (ω ∈ Ω | X(ω) ∈ (−∞, x] ) = P (ω ∈ Ω | X(ω) ≤ x )

(b.) Si noti che peraltro non e necessario disporre della mappa X(ω) e della misuraoriginale P . Per calcolare la funzione di distribuzione in ogni x ∈ R e sufficiente disporredella densita discreta pX(·) della v.a. X. Infatti poiche l’insieme dei valori X e discreto,vale la seguente decomposizione disgiunta

ω ∈ Ω | X(ω) ∈ B =⋃xk∈Bω ∈ Ω | X(ω) = xk , per ogni B ⊂ R

dove l’unione e al piu numerabile, poiche |xk ∈ B| ≤ X |. In particolare per B = (−∞, x]vale

ω ∈ Ω | X(ω) ∈ (−∞, x] =⋃xk≤xω ∈ Ω | X(ω) = xk , per ogni B ⊂ R

da cui segue l’espressione alternativa per la FdD

FX(x) = P (ω ∈ Ω | X(ω) ∈ (−∞, x] )

=∑xk≤x

P (ω ∈ Ω | X(ω) = xk ) =∑xk≤x

pX(xk)

Quest’espressione dimostra che la funzione di distribuzione si puo ricavare a partire dalladensita.

Esempio. Si consideri la variabile aleatoria X ad insieme di valori X = −1, 0, 2, 3 edensita su X

pX(−1) = 0.5, pX(0) = 0.125, pX(2) = 0.25, pX(3) = 0.125.

Usando l’espressione FX(x) =∑

xk≤x pX(xk) si traccia immediatamente il seguente grafico

56

-

6

t tt t

-1 0 1 2 3 x

FX(x)1

.875

.625.5

Si osservi che la funzione di distribuzione e costante a tratti, con discontinuita di primaspecie (salti: ovvero esistono finiti i limiti da sinistra e da destra) in corrispondenzadei valori assunti dalla variabile aleatoria (in figura i punti x = −1, 0, 2, 3). L’ampiezzadei salti coincide con il valore della densita nel punto di salto. Si noti inoltre che lafunzione FX(x) e nulla per x → −∞ ed e 1 per x → ∞, ed e continua a destra ovunque.Queste sono proprieta generali della funzione di distribuzione che discuteremo in dettaglioqui sotto. Come ultima osservazione e ovvio che a partire dalla conoscenza di FX(x) eimmediatamente possibile scrivere la densita di probabilita di X. Poiche e possibile passareda pX(·) ad FX(·) e viceversa le due descrizioni della v.a. X contengono la medesimainformazione.

Rappresentazione della FdD come somma di gradini traslati

Sia 1l(x) il gradino unitario continuo a destra,

1l(x) =

0, se x < 0,1, se x ≥ 0.

Si riconosce immediatamente la validita della seguente rappresentazione della FdD comesomma di gradini unitari traslati

FX(x) = P (X ≤ x) =∑xk≤x

pX(xk) =∑xk∈X

pX(xk)1l(x− xk). (1)

Nota bene. L’ultima somma si estende su tutti i possibili valori di xk ∈ X .

Usando la regola per il calcolo delle derivate generalizzate si ottiene la funzione generaliz-zata

fX(x) :=dF (x)

dx=∑xk∈X

pX(xk)δ(x− xk), (2)

dove δ(x) e la delta di Dirac. La (2) e una rappresentazione alternativa dell’informazionecontenuta nella densita discreta pX(·) e vedremo a breve in quali contesti e convenienteutilizzarla.

Proprieta della funzione di distribuzione

(a.) FX(−∞) := limx→−∞ FX(x) = 0.

Dimostrazione. Se |X | < ∞ esiste minimo x∗ ∈ X , e per ogni x < x∗ vale FX(x) = 0, dacui segue la proprieta.

(b.) FX(∞) := limx→∞ FX(x) = 1.

Dimostrazione. Se |X | <∞ esiste massimo x∗ ∈ X , e per ogni x > x∗ vale FX(x) = 1, dacui segue la proprieta.

57

(c.) FX e non decrescente: se u ≤ v allora FX(u) ≤ FX(v).

Dimostrazione. E una proprieta generale dell’anti-immagine che seA ⊂ B alloraX−1(A) ⊂X−1(B). Prendendo A = (−∞, u] e B = (−∞, v], e ricordando la monotonia della misuradi probabilita, si conclude che FX(u) = P (X−1(−∞, u]) ≤ P (X−1(−∞, v]) = FX(v).

(d.) P (u < X ≤ v) = FX(v)− FX(u), per ogni −∞ ≤ u < v <∞.

Dimostrazione. In generale X−1(A ∪ B) = X−1(A) ∪ X−1(B). Per ogni u < v si con-sideri l’unione disgiunta (−∞, v] = (−∞, u] ∪ (u, v], quindi X−1(−∞, v] = X−1(−∞, u] ∪X−1(u, v], e ancora unione disgiunta. Prendendo la P di entrambi i membri si conclude

Questa proprieta e utile per la valutazione della probabilita di intervalli di valori di X.

(d’.) P (u ≤ X ≤ v) = FX(v) − FX(u) + P (X = u) = FX(v) − FX(u−), per ogni−∞ < u ≤ v <∞.

(e.) FX e continua a destra: limε↓0 FX(x+ ε) = FX(x),

Dimostrazione. Nel caso |X | < ∞ si puo ricorrere alla rappresentazione (1). Essendosomma di un numero finito di funzioni continue a destra FX(·) e continua a destra.

10.2 Valore atteso

Motivazione della definizione

Interpretazione frequentista della funzione di massa di probabilita. Vogliamo modellarecon una variabile aleatoria X il voto conseguito agli esami dallo studente Mario Rossi.Mario ha finora registrato i seguenti voti sul libretto:

21, 24, 21, 27, 27, 24, 27, 27, 27, 24, 24, 27.

I voti registrati sono gli esiti di n = 12 ripetizioni dell’esperimento. Basandoci sulle n = 12osservazioni, l’alfabeto della v.a. X e X = 21, 24, 27. La densita della v.a. X non e notaa priori, ma adottando il punto di vista frequentista usiamo le osservazioni per assegnarlaempiricamente. Denoteremo la densita empirica pX(·). Ricordando che la probabilitaempirica dell’evento E e nE

n , con i dati a disposizione la densita empirica e:

pX(21) = P ([X = 21]) =n21

n=

2

12,

pX(24) = P ([X = 24]) =n24

n=

4

12,

pX(27) = P ([X = 27]) =n27

n=

6

12.

Il classico parametro riassuntivo dei voti di Mario e la media aritmetica, che interpretiamocome valore intorno al quale varia il voto nelle diverse prove. La media aritmetica dei votidi Mario e

21 + 24 + 21 + 27 + 27 + 24 + 27 + 27 + 27 + 24 + 24 + 27

12=

2 · 21 + 4 · 24 + 6 · 27

12= 25,

dove, per effettuare il calcolo, abbiamo raggruppato i voti. E interessante osservare chequesta formula si puo riscrivere in termini dei valori assunti dalla v.a. X, ovvero 21, 24,e 27 e dei valori della densita empirica, come∑

i

xi pX(xi) = 212

12+ 24

4

12+ 27

6

12= 25.

Questa espressione alternativa della media aritmetica dei valori osservati ispirera la definizionedel piu importante parametro riassuntivo del comportamento di una variabile aleatoria: ilvalore atteso.

58

Valore atteso: definizione e teorema fondamentale

E un ”parametro riassuntivo” del comportamento di una v.a. La terminologia e moltovaria: valore atteso, valore medio, media, aspettazione, speranza matematica.

Definizione.E(X) :=

∑xk∈X

xk pX(xk).

Attenzione. Se l’alfabeto X e finito il valore atteso e una somma finita quindi esiste sempre.Se |X | =∞ il valore atteso, definito come somma di una serie, non sempre esiste.

Esercizio obbligatorio. Utilizzare la densita generalizzata fX(x) definita in (2) per riscri-vere il valore atteso come

E(X) =∑xk∈X

xk pX(xk) =

∫ ∞−∞

xfX(x) dx

Esempi

Esempio 1. Sia X = χE , la funzione indicatrice di E ⊂ Ω. Allora E(χE) = P (E).

Esempio 2. Sia X ∼ b(p) allora E(X) = 0 · (1− p) + 1 · p = p.

Esempio 3. Sia X ∼ U(x1, x2, . . . xN) allora E(X) =∑n

i=1 xi1N = 1

N

∑ni=1 xi. Questo

esempio mostra che il valore atteso e la generalizzazione della media aritmetica al caso div.a. non uniformi.

Esempio 4. Sia X una v.a. con X = 1, 3, 9 con pX(1) = 23 pX(3) = 1

6 , pX(9) = 16 . Allora

E(X) = 1 · 23 + 3 · 1

6 + 9 · 16 .

Teorema fondamentale. E(X) =∑

ω∈ΩX(ω)P (ω).

Dimostrazione.

E(X) :=∑k

xk pX(xk)

=∑k

xkP (X = xk) =∑k

xk∑ω

X(ω)=xk

P (ω)

=∑k

∑ω

X(ω)=xk

xk P (ω) =∑k

∑ω

X(ω)=xk

X(ω)P (ω)

=∑ω∈Ω

X(ω)P (ω)

Questo risultato e molto importante dal punto di vista teorico - vedi ad esempio la di-mostrazione della linearita del valore atteso qui sotto. Come strumento di calcolo e utilesolo nelle (rare) occasioni in cui si dispone dello spazio Ω e della mappa X : Ω → R.Normalmente si dispone solo di X e della densita pX o della FdD FX .

Valore atteso: proprieta di linearita

Omogeneita. Per ogni a ∈ R vale E(aX) = aE(X).

Addittivita. Per ogni coppia di v.a. X,Y vale E(X+Y ) = E(X)+E(Y ). Questa e un’im-mediata conseguenza del teorema fondamentale. E(X+Y ) =

∑ω(X(ω)+Y (ω))P (ω) =∑

ωX(ω)P (ω) +∑

ω Y (ω)P (ω).

59

Quando omegeneita ed addittivita valgono entrambe allora si parla di di linearita. Il valoreatteso e lineare. L’estensione a piu di due v.a. e immediata. Si ha che

E

(n∑t=1

atXt

)=

n∑t=1

atE(Xt)

Osservazione sulle v.a. costanti. Ogni numero reale b ∈ R puo essere interpretato comeuna v.a. costante (degenere) ovvero come mappa ω 7→ X(ω) = b per ogni ω ∈ Ω. L’alfa-beto e b, la densita e p(b) = 1 e la funzione di distribuzione F (x) = 1l(x − b). Il valoreatteso e chiaramente E(b) = b. La proprieta di linearita vista sopra continua quindi avalere quando una delle v.a. e una costante.

Esempio. Se Y = aX + b allora E(Y ) = aE(X) + b.

Esempio. Se X ∼ b(0.5) ed Y = 2X − 1 allora E(Y ) = 0.

Valore atteso: ulteriori proprieta

(a.) Positivita. Se X e una v.a. positiva (cioe X ⊂ R+) allora E(X) ≥ 0. La dimostrazionee banale: E(X) =

∑i xipX(xi) ≥ 0 se tutti gli xi ≥ 0.

(b.) Monotonia. Se X ≤ Y (cioe X(ω) ≤ Y (ω) per ogni ω ∈ Ω), allora E(X) ≤E(Y ). La dimostrazione e immediata ricorrendo al teorema fondamentale: E(X) =∑

ω∈ΩX(ω)P (ω) ≤∑

ω∈Ω Y (ω)P (ω). Esempio. Se X rappresenta il numero di lancidi una moneta fino ad ottenere la prima Testa, ed Y il numero di lanci fino ad ottenerela seconda Testa, allora X < Y ed E(X) < E(Y ). Vedremo in seguito come si calcolanoquesti valori attesi.

(c.) Limite inferiore e superiore. minkxk ≤ E(X) ≤ maxkxk. Dimostrazione immediata:

E(X) =∑k

xkpX(xk) ≤∑k

maxkxkpX(xk) = max

kxk

∑k

pX(xk) = maxkxk;

analoga dimostrazione per il limite inferiore.

Interpretazione meccanica del valore atteso

Si consideri una distribuzione di N masse (m1,m2, . . .mN ) sull’asse reale, dislocate rispet-tivamente nei punti (x1, x2, . . . xN ).

-6

tt t tx1 x2 x3 x4

m1 m2 m3 m4

a

Per determinare il baricentro a si impone che la risultante delle coppie sia nulla, il chefornisce la seguente equazione per a

N∑k=1

(xk − a)mk = 0

da cui si ricava

a =

∑Ni=k xkmk∑Nk=1mk

.

Si consideri ora una v.a. di alfabeto X = x1, . . . xN e densita pX(x1), . . . pX(xN ). Identi-ficando le masse mi con i valori pX(xk) e evidente che il valore atteso E(X) =

∑xkpX(xk)

coincide con il baricentro del sistema di N masse pX(xk), dislocate nei punti xk. L’unicapeculiarita del caso probabilistico e che la massa totale e sempre pari a

∑kmk = 1 kg.

60


11.1 Funzioni di una variabile aleatoria

Le variabili aleatorie sono mappe, si puo quindi operare con esse come si opera con lemappe. In particolare, se X : Ω → R e una variabile aleatoria e g : R → R una funzionereale di variabile reale, si puo definire la mappa composta Y := g X,

Y := g X : Ω→ R, ω 7→ Y (ω) := g(X(ω))

che e a sua volta una variabile aleatoria. Sia Y l’alfabeto della v.a. Y . Poiche Ω e discretoe |Y| = |g(X )| ≤ |X | ≤ |Ω|, si conclude che anche Y e una v.a. discreta. Il problemafondamentale nello studio delle funzioni di v.a. e la determinazione della densita pY (·)indotta, a partire dai dati pX(·) e g.

Esempi

Negli Esempi 1 e 2 la v.a. X e completamente nota come mappa X : Ω −→ R, l’Esempio3 si riferisce al caso, molto piu frequente, in cui della v.a. X e solo nota la densita pX(·).

Esempio 1. Sia Ω := 00, 01, 10, 11 lo spazio campionario di 2 lanci di una moneta.Per ω = (b1, b2) sia X(ω) = b1 + b2, ovvero X rappresenta il numero di Teste in 2lanci. Sia inoltre g : R −→ R la funzione x 7→ g(x) = x2. Allora Y := g(X) e la v.a.ω 7→ Y (ω) := g(X(ω)) = X(ω)2. Si veda la Figura qui sotto. Si noti in particolare chel’alfabeto X = 0, 1, 2 viene mappato in Y = 0, 1, 4. Questo e un esempio banale poichela mappa g : X −→ Y e iniettiva. Se ad esempio nello spazio (Ω,F , P ) la misura P eequiprobabile allora X ∼ Bin(2, 0.5) con pX(0) = 0.25, pX(1) = 0.5 e pX(2) = 0.25, epoiche g e iniettiva e evidente dalla Figura che la misura indotta su Y e pY (0) = pX(0) =0.25, pY (1) = pX(1) = 0.5 e pY (4) = pX(2) = 0.25 (nonostante g sia iniettiva, la v.a. Ynon e binomiale – perche?)

00

01

10

11

0

1

2

1

4

Ω

XY

X g

R R

Ω R

Y=g(X)=X2

0

Esempio 2. Sia Ω come sopra e per ω = (b1, b2) sia X(ω) = 2(b1 + b2)− 1. Sia inoltre g :R −→ R la funzione x 7→ g(x) = x2. Allora Y := g(X) e la v.a. ω 7→ Y (ω) := g(X(ω)) =X(ω)2. Si veda la Figura seguente. Si noti in particolare che l’alfabeto X = −1, 1, 3viene mappato in Y = 1, 9. In questo esempio la mappa g : X −→ Y non e iniettiva. Se

61

nello spazio (Ω,F , P ) la misura P e equiprobabile, inducendo P su X si trova la densitadella v.a. X che vale pX(−1) = 0.25, pX(1) = 0.5 e pX(3) = 0.25. Inducendo la misura daX a Y si trova poi la densita di Y , che vale pY (1) = pX(−1) + pX(1) = 0.25 + 0.50 = 0.75,e pY (9) = pX(3) = 0.25.

00

01

10

11

-1

1

3

1

9

Ω

XY

X g

R R

Ω R

Y=g(X)=X2

Esempio 3. Sia X = −1, 0, 1 ed X ∼ U(X ) una v.a. uniforme, ovvero con pX(−1) =pX(0) = pX(1) = 1

3 . Sia inoltre g(x) = x2, come nei precedenti esempi. La variabilealeatoria Y = X2 ha alfabeto Y = 0, 1, inoltre pY (1) = pX(−1)+pX(1) = 2

3 e ovviamentepY (0) = pX(0) = 1

3 = 1− pY (1). Si noti che la v.a. Y ∼ b(

23

).

0

1

X Y

Y=g(X)=X2

0

1

-1

Formula generale per la densita di Y = g(X)

La densita indotta pY (·) si ricava in generale facendo uso della decomposizione disgiunta

[Y = y`] =⋃k

g(xk)=y`

[X = xk].

La formula generale si scrive

pY (y`) = P (Y = y`) =∑k

g(xk)=y`

pX(xk), per ogni y` ∈ Y.

62

Valore atteso di funzioni di una variabile aleatoria Y = g(X)

Se Y = g(X) il valore atteso di Y si puo calcolare in vari modi. Il seguente teorema,nella sostanza equivalente al teorema fondamentale del valore atteso della Lezione 10, e difondamentale importanza nelle applicazioni.

Teorema.E(Y ) =

∑y`∈Y

y` pY (y`) =∑xk∈X

g(xk) pX(xk).

Dimostrazione.

E(Y ) :=∑`

y`pY (y`) =

=∑`

y`

∑k

g(xk)=y`

pX(xk)

=∑`

∑k

g(xk)=y`

g(xk)pX(xk)

=∑k

g(xk)pX(xk).

Questo teorema e formalmente identico al teorema fondamentale E(X) =∑

ωX(ω)P (ω).In entrambi i casi si tratta di calcolare il valore atteso usando la misura sullo spazio dipartenza invece di quella sullo spazio di arrivo della funzione. A differenza del teoremafondamentale, il teorema appena dimostrato e utilissimo in pratica poiche consente il cal-colo di valori attesi di funzioni di v.a. senza obbligare al calcolo preliminare della densitapY (y`).

Esempio 4. Siano X ed Y come nell’Esempio 3 qui sopra. Il valore atteso E(Y ) e

E(Y ) =∑y`∈Y

y` pY (y`) = 0 · pY (0) + 1 · pY (1) = 0 · 1

3+ 1 · 2

3=

2

3

E(Y ) = E(X2) =∑xk∈X

x2k pX(xk) = (−1)2 · pX(−1) + 02 · pX(0) + 12 · pX(1) =

2

3

Micro-esercizio. Spiegare perche in generale il valore atteso di una funzione di variabilealeatoria Y = g(X) si puo calcolare anche nei seguenti modi.

E(Y ) =∑ω∈Ω

Y (ω)P (ω)

=∑ω∈Ω

g(X(ω))P (ω)

Attenzione. Attenzione. Attenzione.

In generale E(g(X)) 6= g(E(X)), ad esempio in generale E(X2) 6= [E(X)]2, ed analoga-mente E( 1

X ) 6= 1E(X) . Nel caso speciale g(X) = aX + b vale invece E(g(X)) = g(E(X)),

ovvero E(aX + b) = aE(X) + b, manifestazione della linearita del valore atteso. Qui sottoconsideriamo un altro caso speciale in cui esiste una relazione ben definita tra E(g(X)) eg(E(X)).

63

Teorema (disuguaglianza di Jensen). Se g e una funzione convessa allora

g(E(X)) ≤ E(g(X)).

Dimostrazione. Ricordiamo che la funzione g e convessa se e solo se g (∑n

k=1 αkxk) ≤∑nk=1 αkg(xk), per ogni n e per ogni n-pla (α1, . . . αn) di coefficienti nonnegativi che

sommano ad 1. Allora, prendendo n = |X | e αk = pX(xk) si ha

g(E(X)) = g

(∑k

xkpX(xk)

)≤∑k

g(xk)pX(xk) = E(g(X)).

Due utili corollari

(a.) |E(X)| ≤ E(|X|), infatti g(x) = |x| e convessa.

Applicazione. Se |X | =∞, condizione sufficiente per l’esistenza di E(X) e che E(|X|) <∞

(b.) [E(X)]2 ≤ E(X2), infatti g(x) = x2 e convessa. La rivedremo presto.

11.2 Varianza

Motivazione della definizione

Si considerino due studenti, i cui voti sono rispettivamente descritti dalle v.a.

X con X = 18, 24, 30, e pX uniforme,Y con Y = 23, 24, 25, e pY uniforme.

E immediato verificare cheE(X) = E(Y ) = 24,

le v.a. X ed Y hanno lo stesso ”valore atteso”, ma i due studenti sono innegabilmentetipi umani assai diversi: X e genio e sregolatezza, Y aurea mediocritas. Matematicamentequesta differenza si riflette nella diversa variabilita dei valori delle v.a. X ed Y attornoal valore atteso. Ci proponiamo di trovare un parametro riassuntivo che fornisca un’indi-cazione della variabilita dei valori assunti da una v.a. intorno al valore atteso. Ecco alcuniesempi di indici numerici che si potrebbero adottare.

(a)∑

k(xk −E(X)): si sommano gli scarti tra i possibili valori e il valore atteso. Questonon va bene perche non tiene in conto le diverse probabilita dei valori xi.

(b)∑

k(xk−E(X))pX(xk): questo tiene in conto le probabilita dei valori, ma e facile ver-ificare che e sempre nullo. Usando l’analogia meccanica: la somma dei momenti calcolatirispetto al baricentro e nulla.

(c)∑

k |xk −E(X)|pX(xk) questo va bene, gli scarti sono tutti positivi e si sommano. Sipotrebbe usare come misura della variabilita, ma ha il difetto di essere matematicamentepoco trattabile per via del valore assoluto, che e un funzione non derivabile nell’origine.

(d)∑

k(xk − E(X))2 pX(xk) pesa le probabilita, conta tutti gli scarti positivamente ed ematematicamente trattabile. Questo e il parametro che useremo, e lo chiameremo varianzadella v.a. X. Se, nell’interpretazione meccanica, il valore atteso e il baricentro delladistribuzione di massa pX(xk), la varianza ne e il momento d’inerzia per le rotazioniintorno al baricentro.

64

Varianza: definizione, esempi di calcolo, proprieta

Definizione. La varianza della v.a. X e

var(X) :=∑k

(xk − E(X))2 pX(xk) = E(

(X − E(X))2)

Attenzione: anche la varianza, come il valore atteso, non sempre esiste se la v.a. X haalfabeto di cardinalita infinita.

Micro-esercizio. Convincersi della validita dell’identita∑

k(xk−E(X))2 pX(xk) = E(

(X−

E(X))2)

.

Esempio: Sia X ∼ b(p) allora var(X) = p(1− p)Infatti E(X) = p, quindi

var(X) = (0− p)2(1− p) + (1− p)2p = p2(1− p) + (1− p)2p = p(1− p)

Proprieta della varianza

(a.) var(X) ≥ 0 con uguaglianza se e solo se X = b (v.a. costante).

Dimostrazione. Dalla definizione var(X) =∑

i(xi−E(X))2 pX(xi) e una somma di termininon-negativi. Se var(X) = 0 allora (xi − E(X))2 = 0 per ogni xi con pX(xi) > 0. Se,senza perdita di generalita, assumiamo che pX(xi) > 0 per ogni xi ∈ X concludiamo chexi = E(X) per ogni xi ∈ X , cioe X e una v.a. costante.

Nota bene. Scrivere varianze negative e peccato mortale che non andra impunito.

(b.) var(aX) = a2var(X), per ogni a ∈ R.

Dimostrazione. var(aX) = E(

(aX − E(aX))2)

= E(a2(X − E(X))2

)= a2var(X).

Un’immediata conseguenza di questa proprieta e che var(−X) = var(X). Pensate all’in-terpretazione meccanica.

(c.) var(X + c) = var(X).

Questa si dimostra immediatamente algebricamente, ma ancora una volta, e l’interpre-tazione meccanica che ci fa veramente capire perche deve essere cosı. Se si traslanotutte le masse della stessa costante c cambia il baricentro, ma non il momento d’inerzia.Probabilisticamente: cambia il valore atteso ma non la varianza.

(d.) var(X) = E(X2)− [E(X)]2.

Utilissima per i calcoli. Facile da dimostrare per via algebrica, ma ri-convincetevi di tuttii passaggi visti a lezione!

var(X) = E((X − E(X))2) = E(X2 − 2XE(X) + (E(X))2)

= E(X2)− [E(X)]2.

Combinandola con la proprieta (a.) si trova la disuguaglianza

E(X2) ≥ [E(X)]2,

che avevamo gia visto come esempio di disuguaglianza di Jensen.

Esercizi

Esercizio 1. Soluzione del Monty Hall

Esercizio 2 (proposto). Avete tre monete a disposizione. La moneta 1 ha due Teste, lamoneta 2 e regolare, la moneta 3 ha due Croci. Scegliete una moneta a caso, la lanciateed osservate Testa. Data questa informazione, qual e la probabilita che l’altra faccia siaTesta? Nota Bene. Si verifichi che l’impostazione ed i conti sono identici a quelli delMonty Hall.

65


La lezione e dedicata a due variabili aleatorie discrete notevoli, il cui alfabeto ha cardinalitainfinita.

12.1 Variabile aleatoria geometrica

Abbiamo analizzato in precedenza lo schema binomiale per eventi consistente in una se-quenza di n ≥ 1 prove binarie (esito in 0, 1 = insuccesso, successo ecc.), indipendenti,con probabilita di successo p ∈ [0, 1] costante nelle n prove. In questo contesto, il numerodi successi nelle n prove e modellabile con una variabile aleatoria, diciamola X, di tipobinomiale, X ∼ Bin(n, p).Uno schema simile a quello binomiale per eventi prevede prove binarie, ripetute, indipen-denti, con probabilita di successo p ∈ [0, 1] costante nelle varie prove. Il numero di provenon e fissato a priori, e l’esperimento prosegue fino all’osservazione del primo successo (laprima Testa, il primo 1 ecc.). Sia X la variabile aleatoria che rappresenta il numero diprove necessarie per ottenere il primo successo. L’alfabeto di X e X = 1, 2, . . . = N.La densita discreta di X si ricava osservando che l’evento [X = k] :=”primo successo allak-esima prova”, corrisponde ad ottenere k−1 insuccessi nelle prime k−1 prove e successoalla k-esima prova, quindi

pX(k) = P (CC . . . C︸︷︷︸k − 1

T ) = (1− p)k−1p, k ∈ N. (1)

Definizione. La v.a. X e detta geometrica di parametro p ∈ (0, 1], e si denota X ∼ G(p),se essa ha alfabeto N e densita discreta (1).

E istruttivo verificare che (1) e una densita discreta. I valori pX(k) sono tutti non-negativi,inoltre

∞∑k=1

pX(k) =∞∑k=1

(1− p)k−1p

= p

∞∑k=1

(1− p)k−1 = p

∞∑k=0

(1− p)k

=p

1− (1− p)= 1.

Si noti che poiche

P (X <∞) =

∞∑k=1

P (X = k),

la condizione di normalizzazione ad 1 della densita equivale al fatto che la probabilita diottenere il primo successo in un numero finito di lanci e pari ad 1.

Osservazione sui casi limite. Si noti che la serie geometrica converge per |1 − p| < 1, chesi traduce nel vincolo 0 < p < 2 ma, essendo p una probabilita, il vincolo e 0 < p ≤ 1.Intuitivamente se p = 0 non si verifica mai Testa, quindi la v.a. X non e ben definita (sipotrebbe assegnare X = +∞ con probabilita 1, ma avere variabili aleatorie a valori nellaretta reale estesa crea piu problemi di quanti ne risolva). Il caso p = 1 corrisponde invecead una v.a. degenere costante, X = 1 con probabilita 1. In questo caso infatti si ottienesempre Testa al primo lancio. La densita della v.a. X ∼ G(1) e pX(k) = δ(k − 1).

66

Probabilita di attesa lunga. Nelle applicazioni e interessante conoscere la probabilita didover attendere per piu di k lanci il primo successo.

P (X > k) =∞∑

i=k+1

pX(i) =∞∑

i=k+1

(1− p)i−1p

= p(1− p)k∞∑i=0

(1− p)i

= (1− p)k (2)

Esempio 1. La probabilita di superare l’esame di Splancnologia e p = 0.4. Qual e laprobabilita di dover ripetere l’esame piu di 2 volte per superarlo?

Soluzione. Bisogna aggiungere un po’ di ipotesi per poter rispondere a questa domanda.In particolare supporremo che la probabilita di superare l’esame sia p = 0.4 ad ognitentativo, inoltre assumeremo che gli esiti dell’esame in appelli diversi siano indipendenti.Sotto queste ipotesi possiamo modellare il numero di prove fino al superamento dell’esamecon una v.a. X ∼ G(0.4). Usando la formula (2)

P (X > 2) = (1− 0.4)2.

Si sarebbe anche potuto svolgere il calcolo direttamente ottenendo

P (X > 2) = 1−P (X ≤ 2) = 1−P (X = 1)−P (X = 2) = 1−0.4−0.4(1−0.4) = (1−0.4)2.

Esempio 2. Nel gioco del lotto un’estrazione consiste nell’estrarre, senza reinserimento, 5palline da un’urna che contiene 90 palline numerate da 1 a 90. La giocata piu semplicee l’ambata, ovvero si punta del denaro sull’uscita di un numero specifico, ad esempio il

53. La probabilita che ad ogni estrazione esca il numero giocato e(1

1)(894 )

(905 )

= 590 = 1

18 . Sia

X il numero di estrazioni che e necessario attendere fino ad ottenere per la prima voltal’uscita del numero giocato. Sono soddisfatte tutte le condizioni della definizione, quindiX ∼ G

(118

). Nota bene: il risultato e valido anche se ad ogni estrazione si gioca un numero

diverso, purche sempre solo un numero, ad ogni estrazione (perche?).

Funzione di distribuzione. A partire dall’espressione (2) si puo ricavare, in forma chiusa, lafunzione di distribuzione di X. Per k ∈ Z si ha che

FX(k) = P (X ≤ k) =

0, se k < 1,1− (1− p)k, se k ≥ 1.

Ricordando che la funzione di distribuzione di una variabile aleatoria discreta e costantea tratti, per ogni x ∈ R vale

FX(x) =

0, se x < 0,

1− (1− p)bxc, se x ≥ 0,

Valore atteso di una v.a. geometrica. Se X ∼ G(p) allora

E(X) =∞∑k=1

kpX(k) =∞∑k=1

k(1− p)k−1p = p∞∑k=0

k(1− p)k−1 =p

(1− (1− p))2=

1

p.

Analogamente si trova che

var(X) =1− pp2

.

67

Il valore atteso l’abbiamo calcolato a lezione. Per la varianza abbiamo impostato i calcolia lezione, si veda la nota in appendice per i dettagli.

Nota. E molto intuitivo che se una moneta ha probabilita di Testa P (T ) = p il valoreatteso del numero di lanci per ottenere Testa per la prima volta sia 1

p . Se P (T ) = 1100 in

media la si deve lanciare 100 volte per ottenere la prima Testa.

Versione alternativa della v.a. geometricaA volte le v.a. geometriche sono definite in modo lievemente diverso. Sia X ′ la v.a.aleatoria che rappresenta il numero di insuccessi prima del primo successo. ChiaramenteX ′ = X − 1, quindi X ′ = 0, 1, . . . , mentre la densita vale pX′(k) = (1 − p)kp, infattiX ′ = k significa k insuccessi nelle prime k prove e successo alla k+1-esima. NaturalmenteE(X ′) = E(X)− 1 = 1−p

p , mentre var(X ′) = var(X).

12.2 Variabile aleatoria di Poisson

A lezione abbiamo dedicato un po’ di tempo a rivedere la definizione della funzioneesponenziale e a ricavarne lo sviluppo in serie di Taylor, giustificando le seguenti identita

ex := limn→∞

(1 +

x

n

)n=

∞∑k=0

xk

k!.

Il metodo sporco e veloce per capire questa identita e di sviluppare(1 +

x

n

)n=

n∑k=0

(n

k

)(xn

)ke poi di calcolare, per k fissato, limn→∞

(nk

) (xn

)k= xk

k! .

Definizione. La v.a. Y e detta Poisson di parametro λ > 0, e si denota Y ∼ P(λ), se Y haalfabeto Y = N0 := 0, 1, 2, . . . e densita discreta

pY (k) = e−λλk

k!, per ogni k ≥ 0

E immediato verificare che pY (k) > 0 per ogni k ≥ 0 e che

∞∑k=0

pY (k) =

∞∑k=0

e−λλk

k!= e−λ

∞∑k=0

λk

k!= 1,

il che dimostra che la densita e valida.

Derivazione della densita di Poisson come limite di una densita binomiale

Il motivo per cui le v.a. di Poisson sono di grande interesse applicativo e che, sottoopportune condizioni, esse consentono di approssimare molto bene il comportamento divariabili aleatorie binomiali. Non ci preoccuperemo per ora di valutare quale sia la bontadell’approssimazione.

Sia Xn ∼ Bin(n, λn).7 Conviene introdurre il simbolo

Bin

(n,λ

n

)(k) := pXn(k)

7Ad esempio se W ∼ Bin(800, 0.005) allora W e interpretabile come una v.a. Xn con n = 800 e λ = 4.

68

che mette in evidenza sia i parametri della binomiale, che il punto k dove si valuta ladensita. Allora e

Bin

(n,λ

n

)(k) =

(n

k

)(λ

n

)k (1− λ

n

)n−k=

n!

k!(n− k)!

λk

nk

(1− λ

n

)n(1− λ

n

)k=

n(n− 1) . . . (n− k + 1)

nkλk

k!

(1− λ

n

)n(1− λ

n

)kFissato un valore di k ∈ 0, 1, . . . n calcoliamo ora il limite limn→∞Bin

(n, λn

)(k). Os-

servando che

limn→∞

n(n− 1) . . . (n− k + 1)

nk= 1, lim

n→∞

(1− λ

n

)k= 1, lim

n→∞

(1− λ

n

)n= e−λ,

si trova immediatamente che

limn→∞

Bin

(n,λ

n

)(k) = e−λ

λk

k!= P(λ)(k),

Volendo a tutti i costi dare un’interpretazione probabilistica al precedente risultato pura-mente analitico si puo procedere come segue. Sia, per n molto grande, Xn ∼ Bin(n, λn)ed Y ∼ P(λ) (si notino i legami tra i parametri n, p, e λ). Allora per ogni k ≥ 0 sara

P (Xn = k) ≈ P (Y = k).

Questa interpretazione e meno naturale del risultato analitico.

Dal punto di vista pratico se si vuole approssimare una densita Bin(n, p) con una P(λ)devono essere rispettati i seguenti vincoli

n 1, p 1, λ = np

L’approssimazione e buona se λ e dell’ordine di qualche unita e fino a λ ≈ 30, ma non equesto il contesto per discutere della bonta dell’approssimazione.

Il vantaggio nell’uso della densita di Poisson, rispetto a quella binomiale, consiste nell’e-vitare calcoli di coefficienti binomiali con n elevato che sono complessi da effettuare.

Media e varianza di v.a. Y ∼ P(λ). Poiche, per n → ∞, la densita di una v.a. Xn ∼Bin(n, λn) tende a quella di una v.a. Y ∼ P(λ) un’azzardatissima intuizione vuole che, sele densita sono vicine, i valori attesi siano vicini e che quindi

E(Y ) = limn→∞

E(Xn) = limn→∞

nλ

n= λ

var(Y ) = limn→∞

var(Xn) = limn→∞

nλ

n

(1− λ

n

)= λ

Piu avanti potremo rapidissimamente verificare la correttezza di quest’intuizione calcolan-do media e varianza di Y ∼ P(λ) a partire dalle trasformata di Fourier discreta delladensita di Poisson pY (·). Il conto diretto richiede la verifica delle somme delle serie

E(Y ) =

∞∑k=0

kpY (k) =

∞∑k=0

ke−λλk

k!= λ,

var(X) = E(X2)− [E(X)]2 =

∞∑k=0

k2e−λλk

k!− [E(X)]2 = λ.

69

Uso pratico dell’approssimazione di Poisson alla binomiale.

Nella pratica si incontrano spesso situazioni sperimentali modellabili con variabili aleatoriebinomiali. Il paradigma e quello delle prove binarie, ripetute, indipendenti, con probabilitadi successo costante nelle diverse prove. Il numero, tra le 12:00:00 e le 12:01:00 di domani,di accessi al sito unipd.it, di telefonate in arrivo al DEI, di tamponamenti a Padova, dinati in Europa, di morti in Europa, ecc. sono tutti modellabili come variabili aleatoriebinomiali. I parametri n e p di queste variabili aleatorie non sono misurabili direttamente,ma e ragionevole supporre che siano noti i valori attesi8. Ci sono allora i presupposti perl’uso dell’approssimazione di Poisson. Se X ∼ Bin(n, p) ed e nota la media E(X) = λX ,poiche E(X) = λX = np, si ricava p = λ

n . Si tratta allora di stabilire per quali valori di n

e λ e ragionevole approssimare la densita binomiale Bin(n, λn

)con la Poisson P(λ).

Regola pratica. In generale l’approssimazione e buona se n e grande e p = λn e piccolo. Ad

esempio, se n ≥ 100 per λ dell’ordine di alcune unita l’approssimazione e molto buona.Regole piu precise sono disponibili in letteratura.

Esercizio. Al sito web unipd.it si collegano in media 10 persone al minuto. Qual e laprobabilita che, nel prossimo minuto, ci sia almeno un visitatore?

Soluzione. La v.a. X ∼ Bin(n, 10

n

)si puo approssimare con una v.a. di Poisson Y ∼

P(10) quindiP (X ≥ 1) ≈ P (Y ≥ 1) = 1− P (Y = 0) = 1− e−10.

Attenzione all’unita di tempo.Quando si impiega l’approssimazione di Poisson e fondamentale prestare attenzione all’u-nita di tempo.

Esercizio. Il sensore di un certo rivelatore di particelle e colpito in media da 2 particelle alsecondo. Qual e la probabilita che nei prossimi 5 secondi sia colpito al piu da 3 particelle?

Soluzione. L’idea sottostante e che, indipendentemente una dall’altra, un numero n,grande e non noto, di particelle possono colpire il sensore ad ogni secondo, la proba-bilita pn che una di esse lo colpisca e non nota e bassa. E importante solo conoscere ilnumero medio di particelle che colpiscono il sensore. In questo caso la domanda si riferiscea quello che avverra in un intervallo di 5 secondi, durante il quale il numero medio diparticelle che colpisce in sensore e 2 · 5 = 10. La variabile aleatoria che modella il numerodi particelle che colpisce il sensore nei prossimi 5 secondo e allora Y ∼ P(10). La rispostae: P (Y ≤ 3) =

∑3k=0 P (Y = k) = e−10

[1 + 10 + 100

2 + 10006

].

8Qui assumiamo che i valori attesi siano noti, ma stime empiriche degli stessi sono facili da ottenere.Ad esempio, sia X ∼ Bin(n, p) la v.a. che modella il numero di accessi al sito unipd.it. Per stimare E(X)si osservano x1, x2 . . . x100, il numero di accessi al sito, tra le 12:00 e le 12:01, per 100 giorni consecutivi.La media aritmetica mX := 1

100

∑100i=1 xi e lo stimatore empirico di E(X). In generale, disponendo di n

osservazioni, mX := 1n

∑ni=1 xi ≈ E(X), e l’approssimazione migliora al crescere di n. Riprenderemo piu

avanti lo studio delle proprieta dello stimatore empirico.

70

Appendice alla Lezione 12Richiami sulle serie di potenze e applicazioni

A12.1 Richiami sulle serie di potenze

Illustriamo il calcolo diretto del valore atteso e della varianza per le v.a. geometriche. Unbreve richiamo sulle serie di potenze fornira gli strumenti di calcolo.

Le serie di potenze sono state trattate nel corso di Analisi II. Mi limito a ricordare ilseguente risultato. Se la serie di potenze

f(x) :=∞∑k=0

akxk

ha intervallo di convergenza |x| < R, con R > 0, la sua derivata esiste, e una seriedi potenze, ha lo stesso intervallo di convergenza, e si puo calcolare derivando la serietermine a termine:

f ′(x) =

∞∑k=0

kakxk−1.

Iterando il precedente risultato, una serie di potenze che converge per |x| < R, con R > 0,e di classe C∞ nell’intervallo di convergenza e la sua derivata n-esima vale

f (n)(x) =∞∑k=0

k(k − 1) . . . (k − n+ 1)akxk−n.

In questa serie i termini con k = 0, 1, . . . , n−1 sono tutti nulli. Il coefficiente an di f(x) ela derivate n-esima di f(x) valtata nell’origine, infatti ponendo x = 0 nell’ultima formulasi trova

an =f (n)(0)

n!,

ovvero: la serie di potenze, nell’intervallo di convergenza, coincide con la serie di Taylor9

della sua somma f(x).

La piu’ semplice serie di potenze e la serie geometrica

∞∑k=0

xk =1

1− xper |x| < 1. (1)

Si osservi che, benche la funzione 11−x abbia dominio R \ 1, la serie geometrica la rapp-

resenta solo nell’intervallo (−1, 1). Il calcolo della derivata termine a termine fornisce, per|x| < 1,

∞∑k=0

kxk−1 =d

dx

1

1− x=

1

(1− x)2. (2)

Per la derivata seconda si ottiene

∞∑k=0

k(k − 1)xk−2 =d2

dx2

1

1− x=

2

(1− x)3. (3)

9Attenzione: anche se f ∈ C∞ in un intorno dell’origine, f non e necessariamente sviluppabile in serie

di Taylor. Esempio: f(x) = e−x−2

∈ C∞, ma f (n)(0) = 0 per ogni n, quindi gli an sono tutti nulli e laserie di potenze corrispondente ha raggio di convergenza R = 0.

71

A12.2 Media della v.a. geometrica

Se X ∼ G(p) con p ∈ (0, 1), la densita di probabilita discreta e

pX(k) = (1− p)k−1p, k = 1, 2, . . .

La media si calcola utilizzando la (2)

E(X) =∞∑k=1

kpX(k) =∞∑k=1

k(1− p)k−1p = p∞∑k=0

k(1− p)k−1 =p

(1− (1− p))2=

1

p(4)

A12.3 Varianza della v.a. geometrica

Per calcolare la varianza usiamo la formula var(X) = EX2 − [EX]2. Calcoliamo il primoaddendo

E(X2) =

∞∑k=1

k2pX(k) = p

∞∑k=1

k2(1− p)k−1 (5)

Questa serie e simile alla (3), per via del k2, ma bisogna massaggiarla un po’ per calcolarnela somma. Il termine k-esimo in (3) ha la forma k(k− 1)xk−2 mentre qui abbiamo k2(1−p)k−1, che scriviamo (1 − p)k2(1 − p)k−2. La costante (1 − p) non e un problema percheesce dalla somma. Per aggiustare il termine polinomiale si osservi che k2 = k(k − 1) + k,il che suggerisce di calcolare come segue

E(X2) = E(X(X − 1)

)+ E(X) (6)

Ora e possibile usare la (3) per il primo addendo:

E(X(X − 1)

)=

∞∑k=1

k(k − 1)(1− p)k−1p = p(1− p)∞∑k=0

k(k − 1)(1− p)k−2

=2p(1− p)

(1− (1− p))3=

2(1− p)p2

.

Si noti che nella prima somma il coefficiente corrispondente a k = 1 e nullo, mentre nellaseconda sono nulli i coefficienti per k = 0 e k = 1, quindi le due somme coincidono ed e laseconda che si calcola immediatemente usando con la (3). Dalla (6) si ottiene

E(X2) = E(X(X − 1)

)+ E(X) =

2(1− p)p2

+1

p=

2− pp2

.

In conclusione la varianza della geometrica vale

var(X) = E(X2)−(E(X)

)2=

2− pp2− 1

p2=

1− pp2

.

72

Lezione 13 (Lunedı, 8 aprile 2013, ore 10:30-12:15)

13.1 Esercizi

Ripassone sulle variabili aleatorie

Adattato da: M. Bramanti, Calcolo delle Probabilita e Statistica: Teoria ed esercizi, Pro-getto Leonardo, Bologna, 2000. Il libro era diretto agli allievi del vecchio Diploma inIngegneria. Contiene solo parte degli argomenti di Analisi dei Dati ma lo consiglio ugual-mente, per la scelta degli argomenti trattati, la chiarezza espositiva e la ricchezza degliesempi.

Esercizio. Ad un casello transitano in media 200 veicoli all’ora, di cui in media 2 sonoT.I.R.

(a.) Qual e il tipo di variabile aleatoria da utilizzare per calcolare la probabilita che su100 veicoli in transito esattamente 5 siano T.I.R.? Calcolare questa probabilita.

Soluzione. Possiamo pensare al transito di un veicolo come ad un esperimento in cui ilsuccesso e il transito di un T.I.R. ed ha probabilita p = 2

100 = 0.01. La v.a. adatta adescrivere il problema in questione e una v.a. X ∼ Bin(n, p) con n = 100 e p = 0.01. Laprobabilita cercata e quindi

pX(5) =

(n

5

)p5(1− p)95 =

(100

5

)(0.01)5(0.99)95 ≈ 0.0029.

(b.) Con che tipo di variabile aleatoria si puo approssimare la variabile aleatoria in (a.)?Ricalcolare la probabilita che 5 veicoli su 100 siano T.I.R. usando l’approssimazione.

Soluzione. Quando n 1 ed np e dell’ordine delle unita la densita binomiale Bin(n, p)si puo approssimare con la densita di Poisson P(λ), di parametro λ = np. In questo casosiamo, piu o meno, nella zona di buona approssimazione. Verifichiamo:

Bin(100, 0.01)(5) ≈ P(1)(5) = e−1 15

5!= e−1 15

5!≈ 0.0031.

(c.) Qual e la variabile aleatoria da utilizzare per calcolare la probabilita che il prossimoT.I.R. sia il 100-esimo veicolo che passa? Calcolare la probabilita in questione. Calcolareanche la probabilita che il prossimo T.I.R. non passi prima del 100-esimo veicolo in transito.

Soluzione. E come chiedere qual e la probabilita che, lanciando una moneta con probabilitadi Testa p = 0.01, la prima Testa si verifichi al 100-esimo lancio. In questo caso si deveutilizzare una v.a. geometrica Z ∼ G(p) di parametro p = 0.01. Le probabilita richiestesono allora

P (Z = 100) = pZ(100) = p(1− p)99 = 0.01(0.99)99 ≈ 0.0037;

e ricordando la probabilita delle attese lunghe per una geometrica

P (Z ≥ 100) = P (Z > 99) = (1− p)99 = 0.9999 ≈ 0.37.

73

(d.) Qual e la variabile aleatoria da utilizzare per calcolare la probabilita che il secondoT.I.R. sia esattamente il 100-esimo veicolo che passa? Calcolare la probabilita in questione.

Soluzione. Cominciamo con il determinare la v.a. da utilizzare. Ragionando con il paradig-ma dei lanci indipendenti di una moneta con probabilita di Testa p, ci chiediamo qual e ladensita della v.a. Y :=” lancio al quale si verifica la seconda Testa”. Tenendo conto cheal k-esimo lancio deve verificarsi il secondo successo, la probabilita cercata e data dallasomma di tutte le probabilita di avere esattamente un successo nei primi k − 1 lanci esuccesso al k−esimo lancio. Queste probabilita sono in totale k − 1, potendosi verificareil primo successo al lancio 1, 2, . . . k − 1 e sono tutte uguali, quindi

pY (k) = P (Y = k) = (k − 1)p2(1− p)k−2

La risposta alla domanda e quindi

P (Y = 100) = 99(1− p)98p2 = 99 · (0.99)98 · (0.01)2 ≈ 0.003697.

(e.) Qual e il numero atteso di T.I.R. su 100 veicoli in transito?

Soluzione. La risposta si ottiene considerando il valore atteso della v.a. X del punto (a.),ovvero E(X) = np = 100 · 0.01 = 1. In alternativa, molto banalmente, il dato iniziale deltesto indica che l’1% dei veicoli sono T.I.R., quindi su 100 veicoli mediamente 1 sara unT.I.R.

(f.) Qual e il numero atteso di veicoli in transito fino al passaggio di un T.I.R.?

Soluzione. La risposta e data dal valore atteso della v.a. Z del punto (c.) e quindiE(Z) = 1/p = 1/0.01 = 100.

(g.) Qual e il numero di veicoli in transito necessari affinche la probabilita di osservarealmeno un T.I.R. sia maggiore di 0.5?

Soluzione. Il numero di T.I.R. osservati su n veicoli in transito e una v.a. binomialeW ∼ Bin(n, p) con p = 0.01 ed n che va determinato in modo da soddisfare il vicoloimposto dal testo della domanda. La probabilita di osservare almeno un T.I.R. e

P (W ≥ 1) = 1− P (X = 0) = 1− 0.99n

ed il vincolo e che P (W ≥ 1) > 0.5, da cui .99n < 0.5 ovvero n ln(.99) < ln(0.5) e quindin > 68.968. Dovendo essere n un intero, il numero di veicoli necessari sara almeno 69.

Esercizio classico del coupon collector

Volete fare la raccolta delle figurine Panini. La raccolta completa consiste di n figurine.Ogni mattina, andando a scuola, vi fermate in edicola e comprate una bustina di fig-urine. Facciamo le seguenti ipotesi semplificative. In ogni bustina c’e una figurina. LaPanini distribuisce le figurine in modo casuale nelle bustine – a quest’ipotesi io non credomolto. Quando avevo sui 10 anni, Pizzaballa, il portiere dell’Atalanta, era assolutamenteintrovabile. Quante bustine e necessario comprare in media per completare la collezione?

Soluzione. Con la prima bustina acquistata otteniamo la prima figurina della nostracollezione. Si ponga T1 = 1. Indichiamo con T2 la v.a. che rappresenta quante bustine enecessario acquistare per trovare una figurina distinta dalla prima (la seconda figurina dellamia collezione). Poiche mi mancano n−1 figurine e ce ne sono n in commercio la probabilitadi successo (trovare una figurina che mi manca) e p2 = n−1

n , quindi T2 ∼ G(n−1n

). In

74

generale, se ho gia i − 1 figurine distinte nella mia collezione ed indico con Ti il numerodi bustine da acquistare per trovare una figurina distinta dalle i − 1 in mio possesso,

allora Ti ∼ G(n−(i−1)

n

). Il numero totale di bustine da acquistare per completare la mia

collezione eT := T1 + T2 + · · ·+ Tn

Per il calcolo del valore atteso di T si usa la linearita

E(T ) = E(T1) + E(T2) + E(T3) · · ·+ E(Tn−1) + E(Tn)

=n

n+

n

n− 1+

n

n− 2+ · · ·+ n

2+n

1

= n

(1 +

1

2+

1

3+ · · ·+ 1

n− 1+

1

n

)≈ n ln(n)

L’ordine di grandezza finale si ottiene con una rozza approssimazione di Riemann∑n

k=11k ≈∫ n

11xdx = log n. Ad esempio, se la collezione completa consiste di n = 100 figurine, in

media si devono comprare approssimativamente 100 ln 100 ≈ 460 bustine, se ogni bustinacontiene 1 figurina.

13.2 Disuguaglianze fondamentali per il valore atteso

Teorema (disuguaglianza di Markov). Se X e una v.a. non-negativa, per ogni a > 0

P (X ≥ a) ≤ E(X)

a

Dimostrazione. Se X ≥ 0 allora

E(X) =∑i

xi pX(xi)

=∑i;xi<a

xi pX(xi) +∑i;xi≥a

xi pX(xi)

≥∑i;xi≥a

xi pX(xi) ≥ a∑i;xi≥a

pX(xi)

= aP (X ≥ a).

Domanda: dove interviene, nella dimostrazione, l’ipotesi di positivita di X?

Esempi

Esempio 1. [Con riferimento all’Esempio 2 della Sezione 12.1 sulla variabile aleatoriageometrica.] Sia X la v.a. che indica quante ambate dovete giocare fino ad ottenerela prima vincita. Determinate un limite superiore e calcolate esattamente P (X > 36).Abbiamo visto che X ∼ G

(118

), quindi E(X) = 18. Usando la disuguaglianza di Markov

P (X > 36) ≤ E(X)36 = 18

36 = 12 . Il calcolo esatto fornisce P (X > 36) =

(1− 1

18

)36 ≈ 0.127.La morale e che la disuguaglianza non fornisce un’approssimazione particolarmente buonadella probabilita desiderata, ma solo un limite superiore.

Esempio 2. Sia X ∼ Bin(n, p). Si vuole calcolare un limite superiore alla P(X ≥ n

2

).

Poiche E(X) = np l’applicazione della disuguaglianza di Markov fornisce

P(X ≥ n

2

)≤ E(X)

n2

= 2p

75

Si supponga ad esempio che X ∼ Bin(100, 0.7), allora la disuguaglianza di Markov fornisce

P (X ≥ 50) ≤ 100 · 0.7)1002

= 2 · 0.7 = 1.4

Non era necessario scomodare il luminare russo. A volte la disuguaglianza di Markovfornisce limiti superiori inutili. Allora a che serve ?

Esempio 3. (In negozio) ”La vita media dichiarata dal costruttore di queste lampadine edi 8.000 ore, ma in media almeno il 75% dei nostri clienti ci dice che esse durano piu deldoppio.” Perche non vi conviene acquistare nulla in questo negozio? La disuguaglianza diMarkov dice che il venditore e, quanto meno, un millantatore infatti detta X la v.a. cherappresenta la vita media di una lampadina e noto che E(X) = 8.000, ma allora

P (X ≥ 16.000) ≤ E(X)

16.000=

8.000

16.000=

1

2

l’affermazione ”in media almeno il 75% dei nostri clienti ci dice che esse durano piu deldoppio” e quindi una millanteria. Ecco la forza della disuguaglianza di Markov! Dellav.a. X nulla e noto se non il valore atteso, pure e stato possibile determinare un limitesuperiore alla probabilita dell’evento d’interesse.

Pubblicita. La disuguaglianza di Markov si puo ricavare, in modo alternativo, a partireda alcuni risultati sulle variabili aleatorie positive che quest’anno non avremo il tempo divedere. I curiosi possono consultare l’appendice alla lezione (non in programma).

Teorema (disuguaglianza di Chebyshev). Per ogni v.a. X, e per ogni ε > 0,

P(|X − E(X)| ≥ ε

)≤ var(X)

ε2

Dimostrazione. Si noti che[|X − E(X)| ≥ ε

]=[|X − E(X)|2 ≥ ε2

]. Poiche la v.a.

|X − E(X)|2 e positiva si puo applicare la disuguaglianza di Markov che fornisce

P(|X − E(X)| ≥ ε

)= P

(|X − E(X)|2 ≥ ε2

)≤

E(|X − E(X)|2

)ε2

=var(X)

ε2

Forma alternativa della disuguaglianza di Chebyshev.

P(|X − E(X)| < ε

)≥ 1− var(X)

ε2

Esempio

Si effettuano 100 lanci indipendenti di una moneta con P (T ) = 0.5. Sia X la v.a. checonta il numero di Teste su 100 lanci. Determinare un limite inferiore alla probabilitadell’evento [41 ≤ X ≤ 59].

Usando la versione alternativa della disuguaglianza di Chebyshev

P (41 ≤ X ≤ 59) = P (|X − 50| < 10) ≥ 1− 25

100=

3

4

dove abbiamo ricordato che per la v.a. X ∼ Bin(100, 0.5) vale E(X) = np = 10012 = 50

e var(X) = np(1 − p) = 10012

(1− 1

2

)= 25. In questo caso l’espressione esatta della

probabilita e

P (41 ≤ X ≤ 59) =

49∑k=41

(100

k

)1

2100.

76

13.3 Motivazione all’introduzione delle densita congiunte

Varianza della somma di due v.a.

Date due v.a. X ed Y , definite sullo stesso spazio di probabilita, si consideri la v.a.Z = X + Y . Vogliamo calcolare la varianza di Z. Cominciamo con il calcolo algebrico,usando la linearita del valore atteso.

var(X + Y ) = E(

(X + Y − E(X + Y ))2)

= E(

(X − E(X) + Y − E(Y ))2)

= E(

(X − E(X))2)

+ E(

(Y − E(Y ))2)

+ 2E(

(X − E(X))(Y − E(Y )))

= var(X) + var(Y ) + 2E(

(X − E(X))(Y − E(Y )))

Il termine misto e, come vedremo, molto interessante e merita un nome.

Definizione. La covarianza delle v.a. X ed Y e

cov(X,Y ) := E(

(X − E(X))(Y − E(Y ))

Proprieta della covarianza.

(a.) cov(X,X) = var(X)

(b.) cov(X,Y ) = E(XY )− E(X)E(Y ).

Immediato ed analogo a var(X) = E(X2)− [E(X)]2.

(c.) A seconda della relazione tra le v.a. X ed Y la covarianza puo assumere qualunquevalore in R. Ad esempio, per Y = −X si ha cov(X,−X) = −var(X) < 0, per Y = b,costante, cov(X, b) = E(Xb)− E(X)E(b) = 0

Calcolo della covarianza. Come si calcola cov(X,Y )? Dall’espressione cov(X,Y ) = E(XY )−E(X)E(Y ) si capisce che la difficolta consiste nel calcolo di E(XY ). A tal fine conoscere ledensita di probabilita di X e di Y non e sufficiente. In effetti se X = xi ed Y = yj il prodot-to XY = xiyj , ma P (XY = xiyj) non e calcolabile sulla base di pX e pY . Una scappatoiae usare il teorema fondamentale, trasportando il calcolo sullo spazio campionario:

E(XY ) =∑ω∈Ω

X(ω)Y (ω)P (ω).

Ottimo! Ma solo quando si conoscono Ω, la misura P e le mappe X(ω) ed Y (ω). Purtropposolo raramente si dispone di tutte queste informazioni.

Esempio. Consideriamo un caso molto semplice: X ed Y entrambe v.a. b(p), quin-di pX(1) = pY (1) = p. Come abbiamo gia visto, esistono infiniti spazi di probabilita(Ω,F , P ), e variabili aleatorie X(ω) ed Y (ω) compatibili con il fatto che X ed Y sianoentrambe b(p). Peraltro, in questo caso, il prodotto XY puo assumere solo due valori: 0,se X = 0 o Y = 0 , e 1 se X = Y = 1. Il valore atteso si puo quindi calcolare come

E(XY ) = 0 · P([X = 0] ∪ [Y = 0]

)+ 1 · P

([X = 1] ∩ [Y = 1]

)= P

([X = 1] ∩ [Y = 1]

)A partire da pX(1) := P ([X = 1]) = p e pY (1) := P ([Y = 1]) = p non e possibilecalcolare P

([X = 1]∩ [Y = 1]

), poiche, in generale, gli eventi [X = 1] ed [Y = 1] non sono

indipendenti.

Per calcolare agevolmente la covarianza, e per molto altro ancora, e necessario estenderela nozione di densita discreta di probabilita, che per ora abbiamo definito sullo spazio deivalori di una singola v.a., allo spazio dei valori di una coppia di v.a. (X,Y ).

77

Appendice alla Lezione 13Disuguaglianza di Markov

A13.1 Valore atteso e variabili aleatorie non-negative

Teorema. Sia X e una v.a. a valori non-negativi, ovvero tale che X ⊂ R+ allora

E(X) =

∫ ∞0

[1− FX(x)] dx

Dimostrazione. Ricordo che la funzione di distribuzione si puo scrivere

FX(x) =∑i

pX(xi)1l(x− xi),

quindi ∫ ∞0

[1− FX(x)] dx =

∫ ∞0

[1−

∑i

pX(xi)1l(x− xi)]dx

=

∫ ∞0

∑i

pX(xi)(

1− 1l(x− xi))dx

=∑i

pX(xi)

∫ ∞0

(1− 1l(x− xi)

)dx

=∑i

pX(xi)xi = E(X)

Domanda a bruciapelo: perche la v.a. X deve essere positiva affinche questa dimostrazionefunzioni?

Interpretazione grafica del teorema. Il valore atteso E(X) e l’area tratteggiata in figura.

-

6 tt

FX(x)

1

tx1 x2 x3 x

Caso particolare: v.a. a valori in N.

Se X = N ∪ 0, il valore atteso si puo calcolare come

E(X) =

∞∑k=0

P (X > k)

Dimostrazione. Per il teorema precedente E(X) e l’area compresa tra la funzione di dis-tribuzione e la costante 1. Se la v.a. assume valori nell’insieme dei numeri naturaliquest’area si puo calcolare come

E(X) =

∞∑k=0

1 · (1− FX(k)) =

∞∑k=0

P (X > k)

78

La figura qui sotto dimostra graficamente il teorema. Si osservi che il risultato continuaa valere se pX(k) = 0 per qualche (anche infiniti) k ∈ N. In figura pX e nulla perk = 0, 5, 6, 7, 8 e per ogni k ≥ 10.

-

6

t tt t

tFX(x)

x

1

1 2 3 4 5 6 7 8 9 10

Esempio. Media di una v.a. geometrica X ∼ G(p). Abbiamo visto all’inizio della lezioneche, per X ∼ G(p) e P (X > k) = (1− p)k. Allora

E(X) =∞∑k=0

P (X > k) =∞∑k=0

(1− p)k =1

1− (1− p)=

1

p

A13.2 Disuguaglianza di Markov.

Teorema. Se X e una v.a. non-negativa, per ogni a > 0

P (X ≥ a) ≤ E(X)

a

Dimostrazione. Poiche P (X ≥ a) = 1− FX(a−) e sufficiente dimostrare che

E(X) ≥ a (1− FX(a−))

Ma questa disuguaglianza e ovvia. Vedi figura qui sotto. Se a non e uno dei valori dellav.a. allora FX(a) = FX(a−). La figura qui sotto rappresenta questo caso. Se invece a euno dei valori della v.a. allora a e un punto di salto ed FX(a−) = FX(a) − pX(a). Ladisuguaglianza continua a valere: tracciate la corrispondente figura.

-

6 tt

FX(x)

tx1 x2 x3 xa

11

1

FX(a)

79

Lezione 14 (Martedı, 9 aprile 2013, ore 16:25-18:05)

14.1 Vettori aleatori discreti

Nel tentativo di calcolare la varianza della somma di due variabili aleatorie, X ed Y , cisiamo imbattuti nel problema del calcolo del valore atteso E(XY ), che non e possibileportare a termine conoscendo solo le densita pX(·) e pY (·). In questo, come in altriproblemi pratici, e utile disporre di una descrizione piu completa del comportamento didue, o piu, variabili aleatorie. Allo scopo e necessario estendere la nozione di variabilealeatoria al caso in cui l’insieme dei valori anziche R e R2 o, piu in generale, Rn.10

Definizione ed esempi

Definizione. La mappa V : Ω → R2 e detta vettore aleatorio bidimensionale. Piu ingenerale V : Ω→ Rn e detto vettore aleatorio n-dimensionale. Le componenti del vettorealeatorio

ω 7→ V (ω) :=

X1(ω). . .

Xn(ω)

sono n variabili aleatorie, ognuna con proprio alfabeto Xi, e densita di probabilita pXi(·).La notazione che adotteremo usualmente per i vettori bidimensionali e

ω 7→ V (ω) :=

(X1(ω)Y (ω)

)Consideriamo per lo piu vettori bidimensionali, poiche il caso n-dimensionale e un’esten-sione banale del caso bidimensionale, a parte alcune questioni marginali che sarannosegnalate.

Insieme di valori del vettore aleatorio. In generale se X = x1, x2, . . . e Y = y1, y2, . . . sono gli alfabeti di X ed Y rispettivamente, l’alfabeto di V = (X,Y )> e V ⊂ X ×Y, dovein generale l’inclusione e stretta.

Esempio 1. Sullo spazio campionario Ω degli esiti del lancio di due dadi, uno Rosso eduno Nero, sia (X,Y ) il vettore aleatorio con X l’esito del dado Rosso, ed Y il minimo deidue esiti. In questo caso X = Y = 1, 2, 3, 4, 5, 6 e, benche (1, 3) ∈ X × Y, il vettore(X(ω), Y (ω)) 6= (1, 3) per ogni ω ∈ Ω. In effetti V = (i, j) ; 1 ≤ j ≤ i ≤ 6 .

Probabilizzare l’insieme dei valori del vettore aleatorio. Procedendo come per le variabilialeatorie si osserva che, anche se l’applicazione ω 7→ V (ω) = (X(ω), Y (ω)) non e ingenerale invertibile, esiste una corrispondenza biunivoca tra gli elementi (xi, yj) ∈ X × Ye le loro anti-immagini V (−1)(ω) = X(−1)(xi) ∩ Y (−1)(yj)

(xi, yj)←→ X(−1)(xi) ∩ Y (−1)(yj)

ed e quindi naturale assegnare

P ′((xi, yj)) := P(X(−1)(xi) ∩ Y (−1)(yj)

)10Non e per il gusto dell’astrazione matematica che interessa generalizzare ai vettori quanto visto per

le variabili aleatorie. Al contrario, nella pratica ingegneristica lavorare con vettori aleatori e la prassi.Quando si progetta un esperimento, l’acquisizione dati rappresenta spesso solo una piccola frazione delcosto complessivo, si tende quindi a misurare anche centinaia di variabili, rimandando alle analisi successivela distinzione tra variabili rilevanti per la comprensione dei fenomeni d’interesse e variabili ridondanti.

80

Notazione. Per indicare l’evento ω;X(ω) = xi eY (ω) = yj , a seconda del contesto,e senza ulteriori spiegazioni, scriveremo indifferentemente X(−1)(xi) ∩ Y (−1)(yj), [X =xi]∩ [Y = yj ], [X = xi, Y = yj ] e anche, piu sinteticamente, X = xi, Y = yj , specialmentecome argomento della misura di probabilita. Scriveremo quindi indifferentemente

P (ω;X(ω) = xi e Y (ω) = yj ) = P(X(−1)(xi) ∩ Y (−1)(yj)

)= P ([X = xi] ∩ [Y = yj ])

= P (X = xi, Y = yj).

Definizione. Per il vettore aleatorio (X,Y )

pXY (xi, yj) := P ′((xi, yj)) = P (X = xi, Y = yj), (xi, yj) ∈ X × Y.

e detta funzione di densita discreta del vettore (X,Y ), o anche densita congiunta dellevariabili aleatorie X e Y .

Nota Bene. Se (xi, yj) non e uno dei valori assunti dal vettore (X,Y ), l’anti-immagineX(−1)(xi) ∩ Y (−1)(yj) = ∅, quindi automaticamente pXY (xi, yj) = 0. Quando si fannoconti su casi specifici e pero importante individuare l’insieme dei valori V di (X,Y ), comenell’esempio qui sotto.

Esempio 1 - continuazione. Proseguendo l’esempio 1, si calcola immediatamente (vediappunti) la densita del vettore V = (X,Y ), dove X e il risultato del dado Rosso ed Yil minimo dei risultati dei due dadi. La rappresentazione tabulare della densita e moltocomoda.

X\Y 1 2 3 4 5 6

1 636 0 0 0 0 0

2 136

536 0 0 0 0

3 136

136

436 0 0 0

4 136

136

136

336 0 0

5 136

136

136

136

236 0

6 136

136

136

136

136

136

Proprieta della densita congiunta di due variabili aleatorie

(a.) (nonnegativita)

pXY (xi, yj) ≥ 0, per ogni (xi, yj) ∈ X × Y

(b.) (normalizazione) ∑xi∈X

∑yj∈Y

pXY (xi, yj) = 1.

Dimostrazione. La (a.) e banale. Per la (b.) si ricordi che (vedi Lezione xx) le anti-immagini X−1(xi) ed Y −1(yj) formano due partizioni di Ω. Le intersezioni11 X−1(xi)∩Y −1(yj) formano quindi una partizione di Ω e da qui discende il risultato.

11Prodotto di partizioni. Se Ei ed Fj sono due partizioni di un insieme Ω allora Ei ∩ Fj e unapartizione (partizione prodotto) di Ω. Dimostrazione. Presi due elementi diversi Ei∩Fj ed Eh∩Fk e ovvioche (Ei ∩ Fj)

⋂(Eh ∩ Fk) = ∅. Inoltre⋃

i,j

(Ei ∩ Fj) =⋃i

⋃j

(Ei ∩ Fj) = [poiche Fj e una partizione] =⋃i

Ei = Ω

Non causa problemi l’eventuale presenza di insiemi vuoti nella partizione. Cio avviene se Ei ∩ Fj = ∅ peruna o piu coppie (i, j).

81

Osservazione. Come nel caso delle analoghe proprieta della densita di una singola v.a., leproprieta (a.) e (b.), prese insieme, sono necessarie e sufficienti affince una data funzionep(·, ·) sia una valida densita congiunta di due variabili aleatorie. Vale infatti il seguenteimportante teorema (facoltativo).

Teorema di esistenza. Sia p(xi, yj) : X × Y → R una funzione che soddisfa le proprieta

• p(xi, yj) ≥ 0, per ogni (xi, yj) ∈ X × Y,

•∑i,j

p(xi, yj) = 1,

allora esiste uno spazio di probabilita (Ω,F , P ) e due variabili aleatorie X : Ω → R edY : Ω→ R tali che pXY (xi, yj) = p(xi, yj).

Dimostrazione. [Limitata al caso |X | < ∞ e |Y| < ∞.] Si definisca Ω = X × Y. Poiche|Ω| < ∞ si puo sempre prendere σ-algebra F = P(Ω). La misura di probabilita bastaassegnarla sui singleton. Se ω = (xi, yj) sia P (ω) := p(xi, yj). Le proprieta dellafunzione p(xi, yj) garantiscono che P e una misura di probabilita. La v.a. X : Ω → Re per definizione la mappa ω = (xi, yj) 7→ X(ω) := xi, ed analogamente Y e la mappaω = (xi, yj) 7→ Y (ω) := yj . La densita congiunta delle v.a. (X,Y ) e

pXY (xi, yj) = P (ω; X(ω) = xi, Y (ω) = yj) = P ((xi, yj)) = p(xi, yj).

che e quanto si doveva dimostrare.

Densita congiunte e marginali

Le densita pX(·) e pY (·) delle componenti di V = (X,Y ), dette densita marginali delvettore V , si possono ricavare dalla densita congiunta pXY (·, ·) usando le equazioni:

pX(xi) =∑j

pXY (xi, yj), pY (yj) =∑i

pXY (xi, yj).

Dimostrazione. (vediamo la prima)∑

j pXY (xi, yj) =∑

j P ([X = xi]∩ [Y = yj ]) = P (X =xi) = pX(xi), poiche [Y = yj ] e una partizione di Ω.

Osservazione importante. Se pX e pY sono due densita assegnate esistono in generaleinfinite densita congiunte pXY che hanno per marginali pX e pY . Questo, nel caso dialfabeto X ×Y finito lo si puo dimostrare usando la teoria dei sistemi di equazioni lineari.In effetti se |X | = N e |Y| = M allora |X ×Y| = N ·M , e pXY e determinato da N ·M −1numeri non-negativi, minori di 1 (perche?). Per imporre che pXY abbia marginali pX epY si usano le equazioni delle marginali, ovvero pX(xi) =

∑j pXY (xi, yj) (in totale N − 1

equazioni, una per ogni valore xi, meno 1 poiche solo N − 1 valori pX sono liberi) epY (yj) =

∑i pXY (xi, yj) (in totale M − 1 equazioni). Abbiamo dunque un sistema di

N + M − 2 equazioni LINEARI in N ·M − 1 incognite. Anche nel caso piu semplice,N = M = 2, ci sono piu incognite che equazioni. In generale dunque esistono infinitedensita congiunte compatibili con assegnate densita marginali.

Valore atteso di funzioni scalari di un vettore aleatorio

Sia V = (X,Y ) un vettore aleatorio discreto e g : R2 → R una funzione scalare su R2.Allora Z = g(V ) = g(X,Y ) e una variabile aleatoria scalare della quale si puo calcolare ilvalore atteso. Il teorema fondamentale del valore atteso si generalizza al caso vettoriale.

82

Teorema.E(g(X,Y )) =

∑xi∈X

∑yj∈Y

g(xi, yj)pXY (xi, yj)

Dimostrazione. Poiche g(X,Y ) e una v.a. si puo usare il teorema fondamentale

E(g(X,Y )) =∑ω∈Ω

g(X(ω), Y (ω))P (ω) = poiche X−1(xi) ∩ Y −1(yj) e una partizione

=∑i,j

∑ω∈X−1(xi)∩Y −1(yj)

g(X(ω), Y (ω))P (ω)

=

∑i,j

g(xi, yj)

∑ω∈X−1(xi)∩Y −1(yj)

P (ω)

=

∑i,j

g(xi, yj)P (X−1(xi) ∩ Y −1(yj))

=∑i,j

g(xi, yj) pXY (xi, yj).

Osservazione. Il teorema consente di calcolare il valore atteso della funzione scalare di duevariabili aleatorie g(X,Y ), usando solo l’informazione contenuta nella densita congiuntapXY (xi, yj). Nelle applicazioni pero abitualmente si dispone solo della densita congiunta,mentre spazio (Ω,F , P ) e mappe X(ω) ed Y (ω) non sono noti e/o non interessano. Siap(xi, yj), una funzione non-negativa e normalizzata su X × Y, cioe una densita congiuntavalida. E allora possibile calcolare∑

i,j

g(xi, yj)p(xi, yj). (1)

Cosa rappresenta l’espressione (1)? Usando il teorema di esistenza, si ricava che l’espres-sione (1) e il valore atteso E(g(X,Y )), dove X ed Y sono le variabili aleatorie definitecome nella dimostrazione del teorema di esistenza.

Due esempi fondamentali. Due casi semplici ma importanti di impiego del teorema.

(a.) g(x, y) = x+ y

In questo caso il teorema fornisce

E(X + Y ) =∑i,j

(xi + yj) pXY (xi, yj).

Esercizio obbligatorio. Dimostrare l’addittivita del valore atteso a partendo da qui.

(b.) g(x, y) = xyAncora usando il teorema,

E(XY ) =∑i,j

xiyj pXY (xi, yj)

Esempio concreto. X ed Y hanno densita congiunta

X\Y 0 1

0 0.5 0.11 0.1 0.3

83

Il calcolo delle marginali mostra che X ed Y sono entrambe v.a. di Bernoulli b(0.4). Ilvalore atteso del prodotto e

E(XY ) =∑i,j

xiyjpXY (xi, yj) = pXY (1, 1) = 0.3.

L’informazione contenuta nella densita congiunta permette di calcolare la varianza dellasomma, ricordando che var(X + Y ) = var(X) + var(Y ) + 2cov(X,Y ) e che cov(X,Y ) =E(XY )− E(X)E(Y ). Svolgete il conticino.

Esercizio proposto 1. Costruire esempi di densita congiunte su 0, 12, come sopra. Verifi-care che, in generale, le due marginali sono Bernoulli di parametri diversi. Si determini lacondizione affinche le marginali sono entrambe Bernoulli con lo stesso parametro (rispos-ta: pXY (0, 1) = pXY (1, 0).). Tra queste ultime densita congiunte si cerchino esempi concov(X,Y ) nulla e negativa. Deteminare la condizione sugli elementi della densita con-giunta che da luogo a cov(X,Y ) = 0 (questa parte e piuttosto laboriosa: la condizione epXY (0, 0)pXY (1, 1)− [pXY (0, 1)]2 = 0).

Esercizio proposto 2 Con riferimento alla continuazione dell’esempio 1 (vedi p. 79), sicalcoli E(XY ). Son conti della serva, noiosi e non istruttivi. Dello stesso tipo sono i contiper determinare cov(X,Y ).

Estensione ai vettori aleatori in Rn

L’estensione della nozione di densita congiunta al caso di n variabili, ovvero ai vettorialeatori ad n dimensionali, e immediata. Se, ad esempio, V : Ω→ R3 mappa ω 7→ V (ω) =(X(ω), Y (ω), Z(ω)) si definisce la densita congiunta tridimensionale:

pXY Z(xi, yj , zk) = P (X = xi, Y = yj , Z = zk).

La densita pXY Z gode di proprieta analoghe a quelle della densita bidimensionale:

pXY Z(xi, yj , zk) ≥ 0, per ogni i, j, k,∑i,j,k

pXY Z(xi, yj , zk) = 1.

A partire dalla pXY Z si possono ricavare 3 densita marginali bidimensionali pXY , pXZ ,pY Z e 3 unidimensionali, pX , pY , pZ . A titolo di esempio:

pXY (xi, yj) =∑k

pXY Z(xi, yj , zk)

pY Z(yj , zk) =∑i

pXY Z(xi, yj , zk)

pY (yj) =∑i,k

pXY Z(xi, yj , zk).

Viceversa, in generale non e unica la densita tridimensionale pXY Z(xi, yj , zk) con le 6densita marginali pXY , pXZ , pY Z , pX , pY , pZ assegnate.

Anche il teorema fondamentale del valore atteso si estende immediatamente al caso n-dimensionale. Ad esempio, in R3,

Teorema. Sia (X,Y, Z) un vettore aleatorio di densita congiunta pXY Z e g : R3 → R allora

E(g(X,Y, Z)

)=∑i,j,k

g(xi, yj , zk) pXY Z(xi, yj , zk)

84

14.2 Condizionamento per v.a.: motivazione

Avviene spesso che la densita di una v.a. o la densita congiunta di due o piu v.a. sianopiu facilmente calcolabili usando la regola di moltiplicazione o la formula della probabilitatotale. Questo comporta la necessita di introdurre densita condizionate di una v.a. rispetto(a.) ad un evento E ⊂ Ω o (b.) ad i valori della stessa variabile aleatoria, o (c.) ad ivalori di un’altra, o di piu di una variabili aleatorie. Vediamo in questa e all’inizio dellaprossima lezione, esempi dei tre tipi.

Esempio 1. In un’urna ci sono 2 monete truccate con P (T ) = 15 ed una moneta onesta con

P (T ) = 12 . L’esperimento consiste nel pescare una moneta a caso dall’urna e nel lanciarla

ripetutamente. Sia X la v.a. che indica il numero di lanci che dovro effettuare fino adottenere la prima Testa. Determinare la densita della v.a. X.

Soluzione. Sarete tentati di ritenere X una v.a. geometrica. Cosı non e. Siano [Xk = 1],k = 1, 2, . . . , gli eventi che indicano il successo (Testa) nella k−esima prova, ed E0 =”pescola moneta onesta”. La v.a. ”numero di tentativi fino al primo successo” ha densitageometrica se (a) P ([Xk = 1]) = p e costante in k e (b) gli eventi [Xk = 1], k = 1, 2, . . .sono indipendenti. Per quanto riguarda (a), la formula della probabilita totale fornisce

P(

[Xk = 1])

= P(

[Xk = 1]∣∣∣E0

)P (E0) + P

([Xk = 1]

∣∣∣Ec0)P (Ec0) =1

2

1

3+

1

5

2

3=

3

10,

quindi (a) e soddisfatta. Per quanto riguarda (b) si considerino ad esempio gli eventi[X1 = 1] e [X2 = 1]. Ancora dalla formula della probabilita totale

P(

[X1 = 1] ∩ [X2 = 1])

=

P(

[X1 = 1] ∩ [X2 = 1]∣∣∣E0

)P (E0) + P

([X1 = 1] ∩ [X2 = 1]

∣∣∣Ec0)P (Ec0) =(1

2

)2 1

3+

(1

5

)2 2

3=

11

100.

Per quanto visto sopra

P(

[X1 = 1] ∩ [X2 = 1])

=11

1006= P

([X1 = 1]

)P(

[X2 = 1])

=3

10

3

10=

9

10,

quindi gli eventi [X1 = 1] e [X2 = 1] non sono indipendenti, (b) non e soddisfatta.

Abbiamo appurato che la densita di X non puo essere geometrica. Peraltro, la probabilitacondizionata dell’evento [X = k] (prima Testa al k−esimo lancio) dato l’evento E0 (pescola moneta onesta) vale

P (X = k|E0) =1

2

(1− 1

2

)k−1

, k ≥ 1,

poiche l’evento condizionante E0 fissa la moneta e ci fa ricadere nel paradigma dellavariabile geometrica, G

(12

)in questo caso. E naturale introdurre la definizione di densita

condizionata di X dato l’evento E0 come

pX|E0(k|E0) := P (X = k|E0) =

P([X = k] ∩ E0

)P (E0)

ATTENZIONE: Per il modo in cui e formulato il problema i DATI sono pX|E(k|E0) epX|Ec0(k|Ec0). Non arrivate da nessuna parte se, ad esempio, tentate di CALCOLARE

pX|E0(k|E0) usando la definizione P ([X=k]∩E0)

P (E0) .

85

Per questo esempio avremo quindi

pX|E0(k|E0) =

1

2

(1− 1

2

)k−1

, k ≥ 1

e analogamente

pX|Ec0(k|Ec0) =1

5

(1− 1

5

)k−1

, k ≥ 1

La formula della probabilita totale infine fornisce per k ≥ 1

pX(k) = pX|E0(k|E0)P (E0) + pX|Ec0(k|Ec0)P (Ec0)

= 13

[12

(1− 1

2

)k−1]

+ 23

[15

(1− 1

5

)k−1]

Nota bene. La v.a. X non e geometrica, dovreste pero essere in grado di dire quanto valeE(X) senza far conti, solo ricordando che per una densita geometrica il valore atteso e 1

p .

Il risultato e E(X) = 13 · 2 + 2

3 · 5.

86

Lezione 15 (Mercoledı, 10 aprile 2013, ore 16:25-18:05)

15.1 Condizionamento per v.a.: motivazione – II

Vediamo un secondo esempio di densita condizionata. In questo caso l’evento condizio-nante e generato dalla variabile aleatoria stessa.

Esempio 2. L’esperimento consiste in lanci consecutivi, indipendenti di una moneta conP (T ) = p. Con X si indica il numero di lanci fino all’uscita della prima Testa. Come notoX ∼ G(p) e la probabilita di un’attesa lunga, che superi h lanci, per il primo successo eP (X > h) = (1− p)h. Iniziamo a lanciare la moneta, ottenendo una sfilza di h insuccessi:si e cioe verificato l’evento X > h e non ha piu alcun interesse parlare della sua probabilita.Ha senso invece, e riviste grande interesse, rivalutare la probabilita di attesa lunga, chesuperi k + h lanci, tenendo conto che si e verificato X > h. Formalmente ci stiamochiedendo: quanto vale la probabilita condizionata P (X > k + h|X > h)? La risposta esemplice

P (X > k + h|X > h) =P ([X > k + h] ∩ [X > h])

P (X > h)

=P (X > k + h)

P (X > h)=

(1− p)k+h

(1− p)h

= (1− p)k = P (X > k)

Abbiamo ottenuto un risultato in apparenza sorprendente e che si puo leggere come segue.La rivalutazione della probabilita di dover attendere per piu di k lanci il primo successo,cominciando a contare i k lanci dopo aver osservato una sfilza di h ≥ 1 insuccessi (equivalead attesa maggiore di k + h lanci contando dall’inizio), e costante in h ed e uguale allaprobabilita di dover attendere piu di k lanci a partire dall’inizio dell’esperimento. Conlinguaggio pittoresco si dice che la variabile aleatoria geometrica e priva di memoria.12

Riformulazione in termini di densita. Il precedente risultato si puo formulare in modoalternativo introducendo la nozione di densita condizionata della variabile aleatoria X,dato l’evento X > h. Si procede come segue.

pX|[X>h](k) := P (X = k|X > h) =P([X = k] ∩ [X > h]

)P (X > h)

, k ∈ Z

Osservando che (a.)[X = k] ∩ [X > h] = [X = k] se k > h, mentre [X = k] ∩ [X > h] = ∅se k ≤ h, (b.) P (X > k) = (1− p)k, (c.) P (X = k) = (1− p)k−1p1l(k − 1), si ha

pX|[X>h](k) =

P (∅)

P (X>h) = 0, se k ≤ h,

P (X=k)P (X>h) = (1− p)k−h−1p, se k > h.

In forma compatta, il risultato si scrive

pX|[X>h](k) = pX(k − h), k ∈ Z,

12Questo risultato decreta l’inescusabile imbecillita di quei giocatori che puntano quattrini con maggioreaccanimento sui numeri cosiddetti ritardatari. Poiche E(X) = 18 il giocatore si aspetta che ognuno dei 90numeri si ripresenti in media ogni 18 estrazioni. Se l’attesa di un particolare numero si protrae, e.g. X > hcon h circa 60-70, i giocatori vanno in allerta. Quando poi h > 100 si scatena la follia collettiva. E celebreil caso del 53 sulla ruota di Venezia che aveva accumulato un ritardo di 182 estrazioni causando la rovinaeconomica di piu di qualcuno e, ancora piu estremo, l’8 sulla ruota di Roma arrivato dopo un’attesa di 201estrazioni.

87

Teorema. La densita geometrica e l’unica densita sull’alfabeto N che gode della proprietadi assenza di memoria.

Dimostrazione. Sia W una qualunque variabile aleatoria a valori in N. La proprieta diassenza di memoria equivale a

P (W > k + h|W > h) =P (W > k + h)

P (W > h)= P (W > k) (1)

Definiamo f(k) := P (W > k) allora la condizione (1) si scrive

f(k + h) = f(k)f(h)

Questa relazione di ricorrenza determina la forma funzionale di f . Infatti, posto q := f(1),si trova f(2) = f(1 + 1) = f(1)f(1) = q2, f(3) = f(2 + 1) = f(2)f(1) = q3 e procedendoiterativamente f(k) = qk. Poiche q e una probabilita q ∈ [0, 1], quindi anche p = 1− q ∈[0, 1]. Utilizzando il parametro p la soluzione dell’equazione di ricorrenza si riscrive

P (W > k) = f(k) = (1− p)k,

da cui immediatamente discende che

pW (k) = P (W > k − 1)− P (W > k) = f(k − 1)− f(k) = (1− p)k−1p

ma questa e proprio la densita G(p) Abbiamo dimostrato che se la densita della v.a. Wnon ha memoria allora e necessariamente W ∼ G(p) per qualche p ∈ [0, 1].

Esempio 3. Il terzo esempio riguarda il caso in cui e noto a priori che si sono verificatieventi generati da una variabile aleatoria Y , e se ne vuol tenere conto nel calcolo delladensita di un’altra v.a. X. Passiamo direttamente alle definizioni rimandando gli esempipratici al seguito.

15.2 Densita condizionate

Definizione. Siano X ed Y variabili aleatorie di densita congiunta pXY (xi, yj). Per ogni yjtale che pY (yj) > 0, la densita condizionata di X, dato l’evento [Y = yj ] e

pX|Y (xi|yj) := P (X = xi|Y = yj) =P (X = xi, Y = yj)

P (Y = yj)=pXY (xi, yj)

pY (yj)

Attenzione. Non bisogna farsi fuorviare dalla terminologia. Per quanto e noto, la proba-bilita condizionata P (E|F ) e una misura rispetto all’evento di sinistra, ad evento di destrafissato. Per la densita condizionata questo si traduce in: la pX|Y (xi|yj) e una densita suX per ogni yj fissato, ovvero i numeri pX|Y (xi, yj) soddisfano alle condizioni

pX|Y (xi|yj) ≥ 0,∑i

pX|Y (xi|yj) = 1.

I numeri pX|Y (xi|yj) non costituiscono invece una densita su Y, ne tantomeno una densitacongiunta su X × Y, ifatti essi sono positivi, ma la loro somma puo essere maggiore di 1.

Microesercizio: supponendo che |X | = N e |Y| = M , calcolare∑

i,j pX|Y (xi|yj).

Come visto anche in precedenza, alcuni dei dati di un problema pratico si presentanospesso sotto forma di probabilita condizionate.13 Ad esempio potrebbero essere dati del

13Il prototipo di questa situazione e l’Esempio 2 della Sezione 6.3, dove sono naturalmente modellaticome probabilita condizionate i dati forniti dall’ufficio acquisti, che forniscono le probabilita di difetto deichip di memoria, per ognuna delle aziende produttrici

88

problema la densita condizionata pX|Y (xi|yj) e la densita pY (yj). In questo caso continuaa valere la relazione

pX|Y (xi|yj) =P (X = xi, Y = yj)

P (Y = yj)=pXY (xi, yj)

pY (yj),

che puo essere utilizzata per ricavare la densita congiunta pXY (xi, yj). La formula dellaprobabilita totale e quella di marginalizzazione sono naturalmente collegate tra loro e sipossono usare per ricavare la densita pX(xi), infatti

pX(xi) =∑j

pXY (xi, yj) =∑j

pX|Y (xi|yj)pY (yj).

Infine e ovvia la formula di Bayes per la densita condizionata a posteriori

pY |X(yj |xi) =pX|Y (xi|yj)pY (yj)

pX(xi)=

pX|Y (xi|yj)pY (yj)∑j pX|Y (xi|yj)pY (yj)

Le precedenti formule si possono scrivere invertendo i ruoli di X ed Y , in questo caso idati sono la densita condizionata pY |X(yj |xi) e la densita pX(xi). La pY (yj) allora e

pY (yj) =∑i

pXY (xi, yj) =∑i

pY |X(yj |xi)pX(xi)

e, con la formula di Bayes, si determina la densita condizionata a posteriori

pX|Y (xi|yj) =pY |X(yj |xi)pX(xi)

pY (yj)=

pY |X(yj |xi)pX(xi)∑i pY |X(yj |xi)pX(xi)

15.3 Variabili aleatorie indipendenti.

Definizione. L’insieme di v.a. X,Y di densita congiunta pXY (xi, yj) e indipendente se

pXY (xi, yj) = pX(xi)pY (yj), per ogni (xi, yj) ∈ X × Y

Terminologia e notazioni. E invalso l’abuso ”le v.a. X ed Y sono indipendenti” invece delcorretto ”l’insieme X,Y e indipendente”. Per indicare che X ed Y sono indipendenti siusa a volte il simbolo X ⊥⊥ Y .

Esempio. Si consideri il vettore aleatorio V = (X,Y ) a valori nell’insieme V ⊂ X × Y, esi supponga che la densita congiunta pXY (xi, yj) sia uniforme su V. La domanda e: levariabili aleatorie X ed Y sono indipendenti? La risposta e: se V e strettamente inclusoin X × Y le variabili X ed Y non sono indipendenti, se V = X × Y le variabili X ed Ysono indipendenti. Esercizio. Spiegare la risposta.

Lemma. Le v.a. X e Y sono indipendenti se e solo se le v.a. f(X), e g(Y ) sono indipendentiper ogni coppia di funzioni f, g : R→ R.

Dimostrazione. Assumiamo che X e Y siano indipendenti e siano f e g due funzioniassegnate. Si definiscano le variabili aleatorie U := f(X) e V := g(Y ). Si deve alloradimostrare che U , e V sono indipendenti. La densita congiunta di U, V e

pUV (uh, vk) =∑i,j

f(xi)=uhg(yj)=vk

pXY (xi, yj) =∑i,j

f(xi)=uhg(yj)=vk

pX(xi)pY (yj)

=[ ∑

i

f(xi)=uh

pX(xi)] [ ∑

j

g(yj)=vk

pY (yj)]

= pU (uh)pV (vk).

89

L’altra direzione del lemma e banale, e sufficiente prendere f , e g funzioni identita.

Osservazione. Questo lemma e la versione per le coppie di v.a. dell’equivalenza delleaffermazioni E ⊥⊥ F , Ec ⊥⊥ F , E ⊥⊥ F c, Ec ⊥⊥ F c per gli eventi dimostrata in precedenza.[elaborare]

Teorema A. Se X e Y sono variabili aleatorie indipendenti allora

E(XY ) = E(X)E(Y )

Dimostrazione. Per calcolo diretto

E(XY ) =∑i,j

xiyjpXY (xi, yj)

=∑i,j

xiyjpX(xi)pY (yj)

=∑i

xipX(xi)∑j

yjpY (yj) = E(X)E(Y ).

Osservazione. E interessante osservare che, se le v.a. X ed Y sono indipendenti ed inoltreE(|X|) <∞ e E(|Y |) <∞ allora sicuramente E(|XY |) <∞, infatti

E(|XY |) =∑i,j

|xiyj | pXY (xi, yj)

=∑i,j

|xi| |yj | pX(xi)pY (yj) = E(|X|)E(|Y |).

In prosa: le condizioni E(|X|) <∞ e E(|Y |) <∞, che garantiscono l’esistenza del valoreatteso di X e di Y , sono sufficienti a garantire l’esistenza del valore atteso della v.a. XY .

Corollario del Teorema A. Se X e Y sono indipendenti allora

cov(X,Y ) = E(XY )− E(X)E(Y ) = 0

Corollario del Corollario14 Se X e Y sono indipendenti allora

var(X + Y ) = var(X) + var(Y )

Dimostrazione. var(X + Y ) = var(X) + var(Y ) + 2cov(X,Y ), ma se X ed Y sonoindipendenti cov(X,Y ) = 0.

Osservazione sul Teorema A. Applicando il teorema fondamentale del valore atteso e sin-istra e a destra del risultato del Teorema A se ne trova un’espressione alternativa su Ω.Mettiamo a confronto le due espressioni.∑

i,j

xiyjpXY (xi, yj) =∑i

xi pX(xi)∑j

yj pY (yj)∑ω

X(ω)Y (ω)P (ω) =∑ω

X(ω)P (ω)∑ω

Y (ω)P (ω)

14La validita della relazione var(X+Y ) = var(X)+var(Y ) e una manifestazione del teorema di Pitagora,un tema ricorrente di questo semestre. In Segnali e Sistemi lo chiamano ”formula di Parseval”. Leapparizioni di Pitagora sono sempre legate alla geometria dell’ortogonalita rispetto ad un prodotto internodefinito in uno spazio vettoriale. In probabilita e in teoria dei segnali gli spazi vettoriali sono funzionali,ovvero i ”vettori” sono funzioni : segnali ad energia finita nel caso di Segnali e Sistemi, variabili aleatoriea varianza finita in probabilita. Riprenderemo l’interpretazione geometrica piu avanti.

90

Terminologia, notazioni, osservazioni. Leggere con estrema attenzione!

Il valore atteso E(XY ) e detto correlazione delle variabili aleatorie X e Y . Se E(XY ) =E(X)E(Y ) le v.a. X ed Y si dicono scorrelate, altrimenti si dicono correlate. Il simboloX ⊥ Y denota v.a. X e Y scorrelate. Non si confonda ⊥ con ⊥⊥ che denota indipendenza.Poiche vale il Teorema A, X ⊥⊥ Y implica X ⊥ Y . Non vale il viceversa.

Esercizio obbligatorio. Si consideri la densita congiunta di figura, uniforme sui quattropunti dove e concentrata. Quindi

(0,1)

(0,-1)

(-1,0)

(1,0) x

y

pXY (0, 1) = pXY (1, 0) = pXY (0,−1) = pXY (−1, 0) = 14 .

Verificare che le corrispondenti variabili aleatorie X ed Y sono scorrelate, ma non indipen-denti.

La nozione di scorrelazione isola la piu utile conseguenza dell’indipendenza, E(XY ) =E(X)E(Y ), e la erige a definizione. L’esempio qui sopra dimostra che e utile definire lanozione di scorrelazione visto che esistono coppie di variabili aleatorie scorrelate ma nonindipendenti. Sono banali conseguenze delle definizioni e delle proprieta elementari divarianza e covarianza le seguenti affermazioni

micro-lemma: X ⊥ Y se e solo se cov(X,Y ) = 0.

micro-lemma: Se X ⊥ Y allora var(X + Y ) = var(X) + var(Y ).

Indipendenza di insiemi di variabili aleatorie

Definizione. L’insieme di v.a. X1, X2, . . . Xn e detto indipendente se

pX1X2...Xn(x1, x2, . . . xn) = pX1(x1)pX2(x2) . . . pXn(xn), per ogni x1, . . . , xn

Lemma.

(a.) Se l’insieme Xini=1 e indipendente allora le v.a. Xini=1 sono scorrelate a coppie.

(b.) Se le v.a. Xini=1 sono scorrelate a coppie allora var (∑n

i=1Xi) =∑n

i=1 var(Xi)

Dimostrazione. (a.) Per ipotesi Xini=1 sono indipendenti quindi Xi, Xj con i 6= jsono indipendenti, da cui la conclusione. (b.) Sviluppando algebricamente var(

∑iXi) si

trova che in generale var(∑

iXi) =∑

i var(Xi) +∑

i,j cov(Xi, Xj). Se le v.a. Xi sonoscorrelate a coppie la conclusione segue.

Osservazione. Il teorema A, ed i suoi corollari, mostrano perche e particolarmente conve-niente lavorare con variabili aleatorie indipendenti. Peraltro in molte situazioni pratiche,

91

e specificamente nei casi di prove ripetute, e ragionevole rappresentare i risultati speri-mentali con variabili aleatorie indipendenti. Ad esempio, il contesto della binomiale pereventi e modellabile con n variabili aleatorie b(p) indipendenti. La verifica formale diquesta affermazione sara molto facile nella seconda parte del corso, quando disporremo distrumenti piu avanzati.

Applicazione: calcolo della varianza di una Binomiale Sia X ∼ Bin(n, p). Interpretando lav.a. binomiale come somma di n v.a. b(p) indipendenti (vedi osservazione sopra) si ricavaimmediatamente var(X) = np(1− p).

Domanda critica Come mai per definire l’indipendenza di, poniamo, tre v.a. X,Y, Z nonabbiamo seguito la stessa strada che era stato necessario seguire per definire l’indipendenzadi tre eventi? Non abbiamo cioe richiesto anche l’indipendenza delle coppie X,Y , X,Z eY, Z oltre a chiedere che pXY Z(xi, yj , zk) = pX(xi)pY (yj)pZ(zk). La risposta e che, per lev.a, imponendo pXY Z(xi, yj , zk) = pX(xi)pY (yj)pZ(zk) l’indipendenza delle coppie seguedalle regole di marginalizzazione.

Esercizio svolto in aula

In un gioco d’azzardo si paga 1 euro per partecipare e giocare contro il banco. La prob-abilita di vincere e p. Se il gioco e onesto, qual e la somma x che il partecipante devericevere in caso di vincita?

Nota bene. Il gioco e onesto, se il ricavo medio che si ottiene giocando e nullo, sia per ilbanco che per il partecipante.

Soluzione. Indichiamo con R la variabile aleatoria che indica il ricavo del partecipante.Il ricavo puo prendere due soli valori. Se vince il banco R = −1, se vince il partecipanteR = x, dove x e la somma da determinare. La densita della v.a. R e pR(−1) = 1 − p epR(x) = p quindi R ha valore atteso

E(R) = (−1) · (1− p) + x · p,

ed imponendo la condizione E(R) = 0 si trova

x =1− pp

Ad esempio se state giocando a Testa o Croce con il banco, usando una moneta onesta,e pagando 1 euro per indovinare il risultato del singolo lancio, la somma che un bancoonesto vi paga quando indovinate la faccia uscita e

x =1− 0.5

0.5= 1 euro

che e in accordo con l’intuizione.

Se invece puntate 1 euro su un’ambata al Lotto, poiche la probabilita di successo e p = 118

la somma che dovreste ricevere e

x =1− 1

18118

= 17 euro

FYI: in Italia, in caso di vincita, portate a casa 10.56 euro.

92


16.1 Spazi di probabilita generali

Come abbiamo visto nella Lezione 1, in molti casi lo spazio campionario Ω non e discreto.Questo avviene, ad esempio, ogni qual volta gli esiti dell’esperimento sono i possibili valoridi grandezze fisiche inerentemente continue: masse, lunghezze, tempi ecc.

E necessario ricorrere a spazi campionari non discreti anche quando si voglia modellareprobabilisticamente infinite prove ripetute di un esperimento con un numero finito diesiti. Ad esempio, Ω := 0, 1N, l’insieme di tutte le sequenze infinite di bit, modella ipossibili risultati di infiniti lanci di una moneta. Su tale Ω si possono costruire in modonaturale una variabile aleatoria geometrica, oppure una sequenza di variabili aleatorie diBernoulli. Per convincersi che Ω = 0, 1N non e discreto si osservi che ogni sequenzainfinita di bit e l’espansione binaria di un numero reale nell’intervallo [0, 1], quindi |Ω| =|R|. Tradizionalmente |R| e detta cardinalita del continuo, quindi diremo che Ω ha lacardinalita del continuo o, piu brevemente, che Ω e continuo.

Lo sviluppo della teoria della probabilita su spazi continui richiede strumenti di AnalisiMatematica (teoria della misura) che non e il caso di mettere in campo in un corso in-troduttivo. In questa lezione ci limiteremo a dare un inquadramento generale, mettere inevidenza alcune delle difficolta e sviluppare, in modo rigoroso, un sottoinsieme della teoriasufficiente per le applicazioni meno sofisticate.

La teoria continua non differisce nell’impianto dalla teoria discreta sviluppata finora. Unospazio di probabilita e una terna (Ω,F , P ) dove Ω e un insieme astratto (spazio campi-onario), F una σ−algebra di sottoinsiemi di Ω (eventi) e P una misura di probabilita. Nonripetiamo ne la definizione di σ−algebra, ne gli assiomi di P , che abbiamo gia presentatonella loro forma piu generale.

Continuita di P

E una conseguenza elementare degli assiomi particolarmente utile quando si trattano spazicontinui.

Teorema. (Continuita della misura di probabilita)

(a.) Se En e una sequenza crescente di eventi, cioe En ⊂ En+1 per ogni n ≥ 1, allora

P

( ∞⋃n=1

En

)= lim

nP (En)

(b.) Se En e una sequenza decrescente di eventi, cioe En+1 ⊂ En per ogni n ≥ 1, allora

P

( ∞⋂n=1

En

)= lim

nP (En)

Dimostrazione. (a.) Usiamo la decomposizione disgiunta, valida per ogni sequenza En,

∞⋃n=1

En =∞⋃n=1

Fn

93

dove F1 = E1 ed Fn := En\⋃n−1k=1 Ek per n ≥ 2. Gli eventi Fn sono disgiunti, inoltre per

costruzione⋃nk=1Ek =

⋃nk=1 Fk per ogni n. Poiche in questo caso, gli En sono crescenti

per ipotesi e anche En =⋃nk=1Ek =

⋃nk=1 Fk. Vale la seguente catena di uguaglianze

P

( ∞⋃n=1

En

)= P

( ∞⋃n=1

Fn

)=

∞∑k=1

P (Fk) = limn

n∑k=1

P (Fk) = limnP

(n⋃k=1

Fk

)= lim

nP (En)

(b.) Si dimostra in modo analogo oppure si fa uso della legge di de Morgan per esprimerel’intersezione, passando alla sequenza degli eventi complementari che soddisfano le ipotesiper l’applicazione di (a.).

Osservazione. Se En e una sequenza monotona crescente di eventi e naturale definirelimnEn := ∪∞n=1En, che si verifica se e solo se si verifica almeno uno degli En. Se En emonotona decrescente limnEn := ∩∞n=1En, che si verifica se si verificano tutti gli En. Illemma di continuita della probabilita si puo allora riformulare come segue.

Lemma (riformulato). Se En e una sequenza monotona (crescente o decrescente) di eventiallora

limn→∞

P (En) = P(

limn→∞

En

).

Perche questa proprieta e detta continuita di P? Perche, nella versione riformulata,e evidente la somiglianza con l’analoga proprieta delle funzioni reali di variabile reale.Richiamo: la funzione f : R→ R e continua in x se e solo se, per ogni sequenza xn → x,

limn→∞

f(xn) = f(x) = f(

limn→∞

xn

).

Difficolta legate agli spazi campionari non discreti

Come noto, nel caso discreto la misura di probabilita si puo assegnare specificando P (ω)per ogni ω ∈ Ω. Ogni tentativo di assegnare una misura di probabilita tale che P (ω) > 0per ogni ω in un insieme Ω non numerabile e destinato a fallire.15

Una possibile strategia per la definizione di P nel caso continuo consiste in (1.) sceltadi una σ-algebra F = σ(C), dove C e una classe di eventi elementari e σ(C) la σ-algebragenerata di C, ovvero la famiglia di eventi che si ottiene effettuando sequenze numerabilidi operazioni di unione e complementazione sugli elementi di C; (2.) assegnazione di P (C),per ogni C ∈ C; (3.) estensione di P a tutta σ(C), nel rispetto degli assiomi.

La strategia appena delineata e efficace, ma i dettagli tecnici sono piuttosto intricati.Diremo appena qualche parola in piu solo per il caso, fondamentale, in cui Ω = R.

Scelta della σ−algebra su RQuando si deve definire una misura di probabilita su R, la σ−algebra che piu comunementesi considera e la σ−algebra B(R) di Borel, ovvero la minima σ−algebra che contiene gliaperti di R. E utile sapere che B(R) coincide con la σ−algebra generata dalla classe dellesemirette chiuse Ix := (−∞, x]. Questo, come vedremo, semplifica di molto l’assegnazionedi una misura di probabilita su R.

15Sia P (ω) > 0, assegnata per ogni ω ∈ Ω non numerabile. Si definisca la sequenza di eventi monotonacrescente Ωn :=

ω ∈ Ω; P (ω) > 1

n

. Naturalmente Ω =

⋃n≥2 Ωn e quindi esiste n0 ≥ 2 tale che Ωn0

non e numerabile – infatti una unione numerabile di insiemi numerabili e numerabile, mentre per ipotesiΩ non lo e. Fissato un intero M , grande a piacere, esistono allora almeno Mn0 elementi distinti in Ωn0

e quindi, vista la definizione di Ωn0 , P (Ωn0) ≥ Mn01n0

= M . Si ha quindi P (Ωn0) = ∞ e a fortioriP (Ω) ≥ P (Ω0) =∞.

Equivalentemente si puo dire che, qualunque sia la famiglia di numeri reali strettamente positivi xωω∈Ω

la somma∑ω∈Ω xω =∞. Questo e in forte contrasto con il caso numerabile in cui esistono infinite sequenze

strettamente positive xnn∈N tali che∑n∈N xn <∞.

94

Lemma. B(R) = σ(Ix).

Dimostrazione. Ix ∈ B(R) per ogni x ∈ R, infatti Ix = (x,∞)c ∈ B(R), quindi σ(Ix) ⊂B(R). Per dimostrare l’altra direzione, ovvero che B(R) ⊂ σ(Ix) ricordiamo che ogniaperto di R e unione, al piu numerabile, di intervalli aperti (a, b), con −∞ ≤ a ≤ b ≤ ∞.E sufficiente dimostrare che, con operazioni numerabili su insiemi del tipo Ix, si possonoottenere tutti gli intervalli aperti (a, b). Ad esempio, nel caso −∞ < a < b <∞,

(a, b) =

( ∞⋃n=1

Ib− 1n

)∩ Ica.

Completate la dimostrazione considerando gli altri tre tipi di intervalli aperti (−∞, b),(a,∞) e (−∞,∞).

Osservazione. A margine si osservi che, per ogni x ∈ R il singleton x ∈ B(R), infattix =

⋂∞n=1(x− 1

n , x+ 1n).

In virtu del Lemma appena dimostrato, dovendo specificare una misura Q su (R,B(R))bastera assegnare Q sugli elementi Ix per ogni x ∈ R, un compito molto piu semplice, cheaffronteremo qui sotto, per definire le distribuzioni delle variabili aleatorie continue.

Variabili aleatorie

Definizione. Una variabile aleatoria definita sullo spazio di probabilita (Ω,F , P ) e unafunzione

X : Ω→ R

che soddisfa la condizione di misurabilita, tale cioe che

X−1(B) := ω : X(ω) ∈ B ∈ F , per ogni B ∈ B(R).

Lemma. La funzione X : Ω → R e una variabile aleatoria (soddisfa cioe la condizione dimisurabilita) se e solo se, per ogni Ix := (−∞, x],

X−1(Ix) := ω : X(ω) ≤ x ∈ F .

Dimostrazione. Poiche gli insiemi Ix generano la σ−algebra B(R) e, per ipotesi, X−1(Ix) ∈F per ogni Ix, intuitivamente la condizione sulle anti-immagini si estende a tutta laσ−algebra B(R). Tralasceremo i dettagli.

Misura indotta da una v.a. X su (R,B(R))

Come nel caso discreto, di una variabile aleatoria X non interessa la definizione funzionaleX : Ω→ R, quanto la possibilita di calcolare le probabilita di eventi nello spazio dei valoriR. Ad esempio, qual e la probabilita che una tensione di rumore, modellata come variabilealeatoria, sia nell’intervallo [−0.35, 0.70]µV ? Nel caso generale lo spazio dei valori di Xnon e discreto, ma e tutto R (o comunque un suo sottoinsieme non numerabile). Come sispecifica la misura sullo spazio dei valori R in modo che essa sia compatibile con quellanello spazio di partenza (Ω,F , P )? Nel caso discreto, per trasportare la misura P da(Ω,F , P ) a (X ,P(X ), P ′), avevamo sfruttato la corrispondenza biunivoca xi ⇔ X(−1)(xi)che conduce alla naturale definizione P ′(xi) := P

(X(−1)(xi)

). Nel caso continuo si

adotta/adatta la stessa idea.

La v.a. X induce una misura PX sullo spazio (R,B(R)), compatibile con la misura P dellospazio di partenza (Ω,F , P ) assegnando, per ogni B ∈ B(R),

PX(B) := P (X−1(B)).

95

La condizione di misurabilita garantisce che la misura PX sia ben definita, poicheX−1(B) ∈F garantisce che P (X−1(B)) e ben definita. La dimostrazione del fatto che PX e unamisura di probabilita e basata sull’identita X−1(

⋃nEn) =

⋃nX

−1(En). Tralasceremoquesti dettagli.

Poiche σ(Ix) = B(R) e sufficiente assegnare la misura PX sugli eventi Ix che generano laσ−algebra B(R), basta cioe assegnare

PX(Ix) := P (X−1(Ix)) = P (ω;X(ω) ≤ x) = P (X ≤ x), ∀x ∈ R.

Ma questa e una vecchia conoscenza dal caso discreto, FX(x) := P (X ≤ x) e la funzionedi distribuzione di X.

La conclusione di maggior interesse applicativo e che, se X e una variabile aleatoria con-tinua, per assegnare completamente la misura di probabilita sullo spazio dei suoi valori R,basta assegnare FX(x) per ogni x ∈ R.

Funzione di distribuzione di una variabile aleatoria

Rivediamo le proprieta di FX(x), gia note dal caso discreto, estendendo le dimostrazioniper includere anche il caso continuo laddove necessario.

Definizione (funzione di distribuzione, FdD)

FX(x) := P (X−1(Ix)) = P (X ≤ x), per ogni x ∈ R.

Proprieta della FdD.

(i.) monotoniaLa FdD e monotona non decrescente, cioe per ogni x ≤ x′ si ha

FX(x) ≤ FX(x′),

infatti, se x ≤ x′, si ha Ix ⊂ Ix′ , da cui

X−1(Ix)⊂ X−1

(Ix′)

e, per la monotonia della probabilita,

FX(x) = P(X−1(Ix)

)≤ P

(X−1(Ix′)

)= FX(x′).

(ii.) normalizzazione

La FdD soddisfa i seguenti limiti

limx→−∞

FX(x) = 0, limx→∞

FX(x) = 1,

infatti, Ix ↓ ∅ per x ↓ −∞, quindi X(−1)(Ix) ↓ ∅ e, per la continuita della probabilita,limx→−∞ FX(x) = limx→−∞ P

(X−1(Ix)

)= P (∅) = 0. Analogamente si dimostra il limite

per x→∞.

(iii.) continuita da destra

La FdD e una funzione continua da destra, cioe per ogni x ∈ R si ha

limh→0+

FX(x+ h) = FX(x),

il che discende ancora dalla continuita della probabilita e dal fatto che al tendere di h a 0per valori positivi Ix+h → Ix e quindi X−1(Ix+h)→ X−1(Ix).

96

(iv.) limite da sinistra

La continuita da sinistra della FdD non e garantita ma la funzione FX ammette limiti dasinistra infatti, per h ↓ 0 vale

Ix−h = (−∞, x− h] ↑ (−∞, x) ⊂ (−∞, x] = Ix

quindiFX(x−) := lim

h↓0FX(x− h) ≤ FX(x)

Se la diseguaglianza e verificata come eguaglianza la funzione FX(x) e continua in x. Incaso contrario, la funzione presenta in x una discontinuita di prima specie, cioe un salto.Per la continuita della probabilita,

limh↓0

FX(x− h) = limh↓0

P (X ≤ x− h)

= P

(limh↓0

[X ≤ x− h]

)= P (X < x),

quindi l’ampiezza dell’eventuale salto in x vale

FX(x)− FX(x−) = P (X ≤ x)− P (X < x) = P (X = x)

(v.) numerabilita dell’insieme dei salti - facoltativo

La FdD, nel caso discreto e costante a tratti, con salti, in corrispondenza dei valori xi assunti dalla v.a.,di ampiezza pari alla densita pX(xi). Nel caso di FdD di v.a. come la Poisson o la geometrica l’insiemedei salti e infinito numerabile. E una semplice conseguenza della monotonia e della limitatezza che, anchenel caso generale, la FdD ha un insieme di salti al piu numerabile.

Lemma. L’insieme dei punti di salto di una FdD, se non e vuoto, e al piu numerabile.

Dimostrazione. Ammesso che x1 < x2 siano due punti di salto di FX(x), si ha

FX(x1−) < FX(x1) ≤ FX(x2−) < FX(x2)

di modo che esistono due numeri razionali distinti q1 e q2 tali che q1 < q2 e

FX(x−1 ) < q1 < FX(x1), FX(x−2 ) < q2 < FX(x2).

Pertanto e possibile porre in corrispondenza biunivoca i punti di salto con un sottoinsieme (al piu numer-

abile!) di numeri razionali.

(vi.) probabilita degli intervalliDalla definizione della FdD e dalle sue proprieta si ha che, a partire da FX(x), si possonocalcolare le probabilita di interesse relative alla variabile aleatoria. Ad esempio, per gliintervalli, se −∞ ≤ a ≤ b ≤ ∞,

P (X > a) = 1− P (X ≤ a) = 1− FX(a)

P (a < X ≤ b) = P (X ≤ b)− P (X ≤ a) = FX(b)− FX(a)

P (a ≤ X ≤ b) = P (X ≤ b)− P (X < a) = FX(b)− FX(a−).

97

Esempio di funzione di distribuzione

x1

x2

x3

x4

x

FX(x)

1

Commenti. Nei punti x2, x3, e x4 la FdD presenta salti, dunque le probabilita P (x2),P (x3), e P (x4) sono strettamente positive e pari alle rispettive ampiezze dei salti. Inogni altro x ∈ R e P (x) = 0. La probabilita P (x1 ≤ X < x2) = 0 poiche nell’intervallo[x1, x2) la FdD e costante. Si noti che, a differenza del caso discreto la FdD non e costantea tratti.

98


17.1 Variabili aleatorie assolutamente continue

Definizione. La v.a. X : Ω→ R, di funzione di distribuzione FX(x), si dice assolutamentecontinua se esiste una funzione fX : R → [0,∞), integrabile secondo Riemann, in sensoimproprio16, su R, tale che

FX(x) =

∫ x

−∞fX(x) dx

La funzione fX e detta densita della v.a. X.

Nota. Per il teorema fondamentale del calcolo, vedi anche i richiami in appendice allalezione, la FdD FX(x) di una v.a. assolutamente continua e continua per ogni x ∈ Rquindi, per le note proprieta delle FdD, si ha (in marcato contrasto con le v.a. discrete)

P (X = x) = FX(x)− FX(x−) = 0 per ogni x ∈ R

Proprieta della funzione di densita

(a.) Per definizione fX(x) ≥ 0 per ogni x ∈ R, inoltre, poiche limx→∞ F (x) = 1, passandoal limite nella definizione si trova ∫ ∞

−∞fX(x) dx = 1

Osservazione importante. Tutte le f(·) : R→ R, integrabili e che soddisfano le condizioni

f(x) ≥ 0, ∀x ∈ R,∫ ∞−∞

f(x) dx = 1.

sono possibili funzioni di densita di variabili aleatorie.

Nelle applicazioni le variabili aleatorie assolutamente continue sono piu spesso caratteriz-zate fornendo la funzione di densita fX(x) piuttosto che la FdD FX(x).

(b.) In virtu della continuita della FdD di una v.a. assolutamente continua, per ogni a ≤ b

P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a < X < b) =

∫ b

afX(x) dx

e, piu in generale, se E e un unione di intervalli di R

P (X ∈ E) =

∫EfX(x) dx

(c.) Criterio di assoluta continuita. Se la FdD FX(x) della v.a. X e C1 a tratti il teoremafondamentale del calcolo, parte II, garantisce l’esistenza della densita della v.a. X, che sipuo definire come

fX(x) =

F ′X(x), nei punti x dove F ′X(x) e continuaarbitraria, dove F ′X(x) non e continua

l’arbitrarieta della densita in un insieme finito di punti non e un problema in quantol’integrale che definisce la FdD, Fx(x) =

∫ x−∞ fX(t)dt, rimane invariato.

16deve cioe esistere∫∞−∞ := lima→∞ limb→∞

∫ b−a

99

Micro-esercizio. Sia X una variabile aleatoria di densita fX(x) = 38(4x−2x2) per 0 ≤ x ≤ 2,

e nulla altrove. Si verifichi che fX e una densita. Si determini P (0.5 ≤ X ≤ 1.5). Verificareper sola ispezione che P (X > 1) = 1

2 . (per analogo esercizio svolto e commentato, vediappunti da lezione)

Interpretazione della funzione di densita

I valori della funzione di densita delle v.a. assolutamente continue non sono probabilita.Se X e una v.a. discreta pX(a) = P (X = a), mentre nel caso di una v.a. assolutamentecontinua P (X = a) = 0 per ogni a, e fX(a) puo assumere qualunque valore non negativo,anche maggiore di 1. Il significato intuitivo della funzione di densita si puo ricavareusando il teorema della media integrale. Se fX e continua nell’intervallo [a, a+ ∆] alloraper qualche c ∈ [a, a+ ∆] vale

P (a ≤ X ≤ a+ ∆) =

∫ a+∆

afX(x) dx = fX(c) ∆

quindi, per ∆→ 0 sara c→ a. Per ∆ sufficientemente piccolo vale l’approssimazione

P (a ≤ X ≤ a+ ∆) =

∫ a+∆

afX(x) dx ≈ fX(a) ∆

ovvero

fX(a) ≈ P (a ≤ X ≤ a+ ∆)

∆(1)

che giustifica la terminologia adottata: fX(x) e la densita della probabilita nel punto x.Pensate ad una massa totale di 1 kg depositata su di un filo adagiato sulla retta reale. SiaP (a ≤ X ≤ a+ ∆) la quantita di massa adagiata sul filo nell’intervallo [a, a+ ∆]. Allorala naturale definizione di densita di massa nel punto a e proprio fX(a).

Considerazioni dimensionali. E utile rendersi conto che, dal punto di vista dimensionale,se la v.a. X rappresenta ad esempio un tempo misurato in secondi, la densita di prob-abilita, in virtu della (1), e dimensionalmente una frequenza, misurata in Hz. Infatti ilnumeratore in (1) e un numero puro e il denominatore e un tempo. Sempre a propositodelle dimensioni fisiche: si tenga anche presente che se la v.a. X e ad esempio un tempo, ilvalore atteso E(X) ha dimensione [tempo], e la varianza var(X) ha dimensione [tempo]2.Convincetevene.

Valore atteso delle v.a. assolutamente continue

Definizione. La variabile aleatoria assolutamente continua X, di densita fX(x), ammettevalore atteso E(X) se esiste finito l’integrale generalizzato17

E(X) :=

∫ ∞−∞

xfX(x) dx

Poiche

E(|X|) =

∫ 0

−∞(−x)fX(x) dx+

∫ ∞0

xfX(x) dx,

e immediato concludere che la v.a. X ammette valore atteso se E(|X|) esiste finito. Piuin generale, se g : R→ R, il valore atteso della funzione di v.a. g(X), e

E(g(X)) :=

∫ ∞−∞

g(x)fX(x) dx,

17In teoria della probabilita solitamente si utilizza la definizione standard di integrale generalizzato sullaretta

∫∞−∞ := lima→∞ limb→∞

∫ b−a. In Segnali e Sistemi e piu utile interpretare gli integrali sulla retta nel

senso del valore principale di Cauchy∫∞−∞ := lima→∞

∫ a−a. Ovviamente i due integrali non sono equivalenti:

nel senso standard∫∞−∞ x dx non esiste, mentre il valore principale di Cauchy e nullo.

100

se l’integrale generalizzato esiste finito. In particolare, prendendo g(x) := (x− E(X))2 siottiene la varianza della v.a. X:

var(X) = E((X − E(X)

)2):=

∫ ∞−∞

(x− E(X))2fX(x) dx

Tutte le proprieta del valore atteso e della varianza gia viste nel caso delle v.a. dis-crete continuano a valere. L’unica differenza notevole e che la prima dimostrazionedell’addittivita del valore atteso, basata sull’espressione, dimostrata nel caso discreto,E(X) =

∑ωX(ω)P (ω), non si estende alle v.a. assolutamente continue. Vedremo pero

che la seconda dimostrazione dell’addittivita, che ricorreva alle densita congiunte, continuaa valere.

Esempio di v.a. che non ammette valore atteso. Una v.a. X con funzione di densita

fX(x) :=1

π

1

1 + x2,

e detta v.a. di Cauchy. E facile verificare (fatelo!) che fX(x) soddisfa le condizionifX(x) > 0 per ogni x ∈ R e

∫∞−∞ fX(x) dx = 1 e quindi e effettivamente una funzione

di densita. Peraltro xfX(x) non e integrabile su R e quindi non esiste il valore atteso diX. Vedremo piu avanti che le v.a. di Cauchy non sono strani oggetti matematici, ma chepossono facilmente originare in comuni situazioni sperimentali. Le v.a. di Cauchy hannoanche un interesse teorico in quanto ci permetteranno di costruire semplici controesempiquando studieremo i teoremi di convergenza.

Il seguente risultato sull’esistenza dei momenti E(Xk) e una semplice applicazione delladisuguaglianza di Jensen.

Lemma. Sia r ≤ s. Se esiste finito E(|X|s) allora esiste finito E(|X|r).

Dimostrazione. Osserviamo che, se α > 1, la funzione tα e convessa per t ∈ R+, infattid2

dt2tα = α(α− 1)t > 0 per t ∈ R+, quindi per la disuguaglianza di Jensen (paragrafo 11.1)[

E(|X|)]α ≤ E(|X|α). Si osservi anche che, se r ≤ s, vale |X|r =

(|X|r

) sr, dove s

r > 1,

quindi vale[E(|X|r)

] sr ≤ E

((|X|r)

sr

)= E(|X|s) <∞.

V.a. assolutamente continue notevoli

(a.) Variabile aleatoria uniforme

Diremo che la v.a. assolutamente continua X e uniforme nell’intervallo [a, b], e la denoter-emo X ∼ U(a, b), se la densita di probabilita di X e

fX(x) =

0, x < a

1b−a , a ≤ x ≤ b0, x ≥ b

La corrispondente funzione di distribuzione e

FX(x) =

∫ x

−∞fX(τ) dτ =

0, x < a∫ xa

1b−a dτ = x−a

b−a , a ≤ x ≤ b∫ ba

1b−a dτ = 1, x ≥ b

101

6

-

6

-a b

1b−a

x

fX(x) FX(x)

a b x

1

Si noti come, nei punti x = a ed x = b dove la densita non e continua, la funzione FX(x)non e derivabile. Inoltre la distribuzione e costante per x < 0 e per x > b, dove la densitae nulla.

Momenti dell’uniforme. Il calcolo di valore atteso e varianza di X ∼ U(a, b) sono banaliesercizi

E(X) =a+ b

2, var(X) =

(b− a)2

12.

(b.) Variabile aleatoria esponenziale

Diremo che la v.a. assolutamente continua X e esponenziale di parametro λ, e scriveremoX ∼ Exp(λ), se X ha funzione di densita

fX(x) = λe−λx1l(x)

dove 1l(x) e il gradino unitario.

Per verificare che la fX(x) e una densita si osservi che fX(x) ≥ 0 ovunque, inoltre∫ ∞−∞

fX(x) dx =

∫ ∞0

λe−λx dx =1

−λe−λx

∣∣∣∞0

= 1

Il calcolo di media e varianza, non e difficile, ma e un puro esercizio di analisi. Si integrauna volta per parti per il calcolo di E(X) e due volte per il calcolo di E(X2). Buondivertimento. La varianza si trova con la solita scorciatoia a partire da E(X2) ed E(X).

E(X) =

∫ ∞0

xλe−λx dx =1

λ

e

var(X) =

∫ ∞0

(x− 1

λ

)2

λe−λx dx =1

λ2

La funzione di distribuzione e molto piu facile

FX(x) =

∫ x

−∞fX(x) dx =

0 x < 0∫ x

0 λe−λτ dτ = 1− e−λx, x ≥ 0.

Dalla formula della funzione di distribuzione si ricava la semplice espressione18

P (X ≥ a) = e−λa,

18Per ogni v.a. assolutamente continua vale

P (a ≤ X ≤ b) = P (X ≤ b)− P (X ≤ a) = P (X ≥ a)− P (X ≥ b),

(interpretate graficamente le due identita!) quindi per una v.a. esponenziale

P (a ≤ X ≤ b) = P (X ≥ a)− P (X ≥ b) = e−λ a − e−λ b

102

che e strutturalmente identica all’espressione per la v.a. geometrica P (X > k) = (1− p)k.In effetti le v.a. geometrica ed esponenziale sono molto simili. In particolare esse sono leuniche due variabili aleatorie (la geometrica nel discreto, l’esponenziale nel continuo) chepossiedono la proprieta di assenza di memoria. E immediato verificare che (si veda anchela Lezione 23 per un calcolo alternativo)

P (X ≥ x+ h|X ≥ x) = P (X ≥ h)

Le v.a. esponenziali sono molto utilizzate in teoria delle code, per modellare tempi diattesa.

Esempio. Sia N1 la v.a. che modella il numero richieste di servizio al server in una unitadi tempo. Per quanto visto la scorsa lezione e spesso naturale modellare N1 con una v.a.di Poisson (si veda la Lezione 13, punto 2, commenti). Sia quindi N1 ∼ P(λ), dove λ e ilnumero medio di richieste nell’unita di tempo. Allora il numero di richieste in t unita ditempo e Nt ∼ P(λt). Cio significa che

P (Nt = k) = e−λt(λt)k

k!, k = 0, 1, . . .

Sia ora W la v.a. che rappresenta il tempo di attesa del server fino all’arrivo della primarichiesta di servizio. Il tempo di attesa e superiore a t unita se all’istante t non e ancoraarrivata alcuna richiesta, ovvero Nt = 0. Questo consente di scrivere

P (W > t) = P (Nt = 0) = e−λt, per ogni t ≥ 0

La funzione di distribuzione di W e quindi

FW (t) = P (W ≤ t) = 1− P (W > t) = 1− e−λt, per ogni t ≥ 0

ma questa e proprio la distribuzione di una v.a. esponenziale. Abbiamo cioe dimostratoche W ∼ Exp(λ). Il valore atteso di W e 1

λ . Se arrivano in media λ richieste per unitadi tempo e intuitivamente ovvio che, in media, la prima richiesta arrivi dopo 1

λ unita ditempo.

103

Appendice alla Lezione 17Richiami sull’integrale di Riemann

(a.) Continuita e derivabilita a tratti

Sia f : [a, b]→ R. Diremo che f ha una discontinuita di prima specie (salto): in c ∈ (a, b)se ivi esistono finiti e diversi i limiti da destra e da sinistra; in a se ivi esiste finito e diversoda f(a) il limite da destra; in b se ivi esiste finito e diverso da f(b) il limite da sinistra.

Si dicono continue a tratti le funzioni f : [a, b]→ R, continue in [a, b], tranne al piu in unsottoinsieme finito di punti dove hanno salti.

Si dicono C1 a tratti le funzioni f : [a, b] → R, ovunque continue in [a, b] e derivabili, conderivata continua, in [a, b], tranne al piu in un sottoinsieme finito di punti dove la derivataammette finiti i limiti da sinistra e da destra.

Le derivate delle funzioni C1 a tratti sono quindi funzioni continue a tratti.

(b.) Integrale di Riemann

La definizione e le proprieta dell’integrale di Riemann si suppongono note. Per brevitadiremo semplicemente integrabile ogni funzione integrabile nel senso di Riemann. Lefunzioni continue a tratti sono integrabili, e quindi lo sono anche le funzioni C1 a tratti ele loro derivate.

(c.) Teorema fondamentale del calcolo

Prima parte. Se f : [a, b]→ R e continua a tratti allora la sua funzione integrale,

F (x) :=

∫ x

af(t) dt = F (x)− F (a),

e continua per ogni x ∈ [a, b] e, nei punti di continuita di f , derivabile con

F ′(x) = f(x)

Seconda parte. Se F : [a, b] → R e una funzione C1 a tratti, definendo f(x) := F ′(x) neipunti di derivabilita di F , ed arbitrariamente dove F non e derivabile, si ha che, per ognix ∈ [a, b],

F (x)− F (a) =

∫ x

af(t)dt

(d.) Integrale di Riemann improprio

Nella definizione dell’integrale di Riemann sia la funzione f che il dominio [a, b] sono lim-itati. L’integrale di Riemann improprio viene introdotto per superare questa limitazione.Se la funzione f : (a, b] → R e integrabile su [a + ε, b] per ogni ε > 0 e se esiste finito illimite

limε↓0

∫ b

a+εf(t)dt

la f si dice integrabile su [a, b] in senso improprio e l’integrale∫ ba f(t)dt e definito come il

valore del limite. Analoghe definizioni di integrali impropri si danno nei casi f : [a,∞)→ Re f : R → R. Interpretando gli integrali come limiti, il teorema fondamentale del calcolocontinua a valere.

104


18.1 Variabili aleatorie normali

Sono le piu importanti variabili aleatorie assolutamente continue.

Definizione. Una v.a. assolutamente continua X si dice normale (o gaussiana) di parametriµ ∈ R e σ2 > 0, e si denota X ∼ N(µ, σ2), se ha densita di probabilita

fX(x) :=1√

2πσ2e−

12

(x−µ)2

σ2 , per ogni x ∈ R

Nota bene. Il parametro µ puo assumere qualunque valore reale. Il parametro σ2 deveessere strettamente positivo. La notazione σ2 e standard e sta a ricordare che si tratta diun numero strettamente positivo.

E un esercizio di Analisi I verificare che la funzione fX(x):

(a.) e ovunque strettamente positiva e continua,

(b.) e simmetrica rispetto al punto x = µ,

(c.) ha un unico massimo, nel punto x = µ, dove vale fX(µ) = 1√2πσ2

,

(d.) ha due flessi, nei punti x = µ± σ, dove vale fX(µ± σ) = fX(µ)e−12 ≈ 0.6fX(µ),

(e.) e integrabile su R infatti, per |x| → ∞ vale 0 < fX(x) < 1√2πσ2

e−1

2σ2 |x−µ| e, poiche

il limite superiore e ovviamente integrabile, per il criterio del confronto fX e integrabile.Non fatevi confondere dal ciarpame notazionale: il succo e che per |y| → ∞ vale 0 <e−y

2 ≤ e−|y|, e ovviamente e−|y| e integrabile su R.

La verifica della condizione di normalizzazione della densita e contenuta nel seguenteLemma (facoltativo). Si tratta di uno dei piu classici esercizi di Analisi II.

Lemma. ∫ ∞−∞

e−12

(x−µ)2

σ2 dx =√

2πσ2, per ogni µ ∈ R, σ2 ∈ R+

Dimostrazione classica. Effettuando il cambio di variabile u = 1√2σ2

(x− µ) ci si riduce a∫ ∞−∞

e−12

(x−µ)2

σ2 dx =√

2σ2

∫ ∞−∞

e−u2du.

E quindi sufficiente dimostrare che 19

I :=

∫ ∞−∞

e−u2du =

√π.

E noto, ma non facile da dimostrare, che la primitiva della funzione e−u2

non puo es-sere espressa in forma chiusa impiegando funzioni elementari, quindi I va calcolato di-rettamente come integrale definito. Il trucco classico e di calcolare anziche I il suo

19”A mathematician is one to whom that is as obvious as that twice two makes four is to you”, cosıdiceva William Thomson, Lord Kelvin, ai suoi studenti.

105

quadrato:

I2 =

(∫ ∞−∞

e−u2du

)2

=

(∫ ∞−∞

e−u2du

)×(∫ ∞−∞

e−v2dv

)(quindi per Fubini)

=

∫ ∞−∞

∫ ∞−∞

e−(u2+v2) du dv (e quindi in coordinate polari)

=

∫ 2π

0

∫ ∞0

e−ρ2ρ dρ dθ =

∫ 2π

0

1

2dθ = π (integrale in ρ per parti).

Andamento della densita normale al variare dei parametri

In figura sono riportate le funzioni di densita N(2, 0.7), N(2, 1) e N(2, 1.5). Si noti come,al diminuire di σ2, la densita si concentra sempre di piu intorno al valore µ. Si noti inoltreche la densita, che e strettamente positiva per ogni x ∈ R, tenda pero molto rapidamentea 0. Appare evidente dai grafici che, per una v.a. X ∼ N(µ, σ2), la probabilita di eventidel tipo a ≤ X ≤ b assume valori non trascurabili solo per intervalli [a, b] nelle vicinanzedi µ.

Nota. Il caso σ2 = 0 e degenere, in effetti la densita N(µ, 0) non e ben definita. Euristi-camente, per µ fissato, si puo considerare

limσ2→0

1√2πσ2

e−12

(x−µ)2

σ2 = δ(x− µ),

l’impulso di Dirac centrato in µ. Questo e ragionevole poiche la famiglia di densitaN(µ, σ2), per µ costante e σ2 ↓ 0, costituisce una famiglia di impulsi di area unitaria,per ogni σ2 > 0, e il cui massimo, per x = µ, di valore 1√

2πσ2↑ ∞. Benche δ(x − µ)

non sia una densita standard, essa si comporta come una densita nel senso delle funzionigeneralizzate. In effetti si puo considerare δ(x− µ) > 0 ed inoltre

∫∞−∞ δ(x− µ)dx = 1.

Funzione di distribuzione

La funzione di distribuzione della densita normale N(µ, σ2) e

FX(x) =1√

2πσ2

∫ x

−∞e−

12

(w−µ)2

σ2 dw x ∈ R.

Poiche l’antiderivata di e−w2

non e esprimibile in forma chiusa, la funzione di distribuzionedeve essere valutata con metodi di integrazione numerica. I grafici qui sotto mostrano ladensita e la distribuzione di N(4, 1).

106

Vedremo tra poco che il calcolo della funzione di distribuzione relativa alla densitaN(µ, σ2),qualunque siano µ e σ2, si puo ricondurre al calcolo della funzione di distribuzione delladensita N(0, 1).

Nota. E interessante calcolare la funzione di distribuzione F (x) che corrisponde alla densitageneralizzata δ(x− µ), caso limite di N(µ, σ2) per σ2 = 0. Applicando la definizione

F (x) :=

∫ x

−∞δ(w − µ)dw = 1l(x− µ),

dove 1l(x) e il gradino unitario. La funzione di distribuzione F (x) ha un unico salto,di ampiezza 1, in corrispondenza del punto x = µ. Per quanto noto sulle funzioni didistribuzione si conclude che se una variabile aleatoria ha densita generalizzata δ(x − µ)allora essa e una variabile aleatoria degenere, X = µ costante.

Valore atteso e varianza delle v.a. normali

I parametri µ e σ2 che identificano la densita di una v.a. X ∼ N(µ, σ2) hanno, rispettiva-mente, il significato probabilistico di valore atteso e varianza di X.

(a) Valore atteso. Poiche la densita e simmetrica rispetto al punto x = µ e la funzione|x|fX(x) e integrabile (ragionando come sopra il succo e che per |y| → ∞ vale 0 < |y|e−y2 ≤|y|e−|y| ed il limite superiore e integrabile) si puo concludere che il valore atteso e E(X) =µ, valore in accordo con l’interpretazione del valore atteso come baricentro della densita.La derivazione formale e contenuta nel seguente

107

Lemma. Se X ∼ N(µ, σ2) allora

E(X) =1√

2πσ2

∫ ∞−∞

xe−12

(x−µ)2

σ2 dx = µ

Dimostrazione. Aggiungiamo e sottraiamo µ e usiamo l’addittivita dell’integrale

E(X) =1√

2πσ2

∫ ∞−∞

xe−12

(x−µ)2

σ2 dx

=1√

2πσ2

∫ ∞−∞

(x− µ)e−12

(x−µ)2

σ2 dx+1√

2πσ2

∫ ∞−∞

µe−12

(x−µ)2

σ2 dx

Il secondo addendo e l’integrale della densita moltiplicata per µ e vale quindi µ. Pervalutare il primo addendo si effettua il cambio di variabile u = 1√

2σ2(x− µ):√

2σ2

π

∫ ∞−∞

ue−u2du =

√2σ2

π

(−1

2

)∫ ∞−∞

d(e−u

2)

= −√σ2

2πe−u

2∣∣∣∞−∞

= 0

Si conclude che E(X) = µ.

(b) Varianza (facoltativo). Sia X ∼ N(µ, σ2). Poiche E(X) = µ e la funzione (x −µ)2fX(x) e integrabile, la varianza esiste ed il suo valore e

var(X) =1√

2πσ2

∫ ∞−∞

(x− µ)2e−12

(x−µ)2

σ2 dx

Procedendo con il solito cambio di variabile u = 1√2σ2

(x−µ) ci si riduce al seguente calcolo

var(X) =2σ2

√π

∫ ∞−∞

u2e−u2du

= − σ2

√π

∫ ∞−∞

u d(e−u

2)

= − σ2

√π

[ue−u

2∣∣∣∞−∞−∫ ∞−∞

e−u2du

]= − σ2

√π

[0−√π]

= σ2

Trasformazioni lineari di v.a. normali

Lemma fondamentale. Sia X ∼ N(µ, σ2) ed Y := aX + b, con a 6= 0, allora Y ∼N(aµ+ b, a2σ2)

Nota Bene. Il Lemma e fondamentale, ma va letto con attenzione per capirne la portata.Esso afferma che, data X ∼ N(µ, σ2), la trasformazione lineare Y = aX + b e ancoranormale, di parametri E(Y ) = aµ+ b = aE(X) + b e varianza var(Y ) = a2σ2 = a2var(X).Per quanto gia noto, cio e esattamente quello che ci aspettiamo, in termini di valore attesoe di varianza della trasformazione lineare. L’informazione fondamentale fornita dal Lemmae che la densita di Y e normale. La densita normale e invariante per trasformazioni linearidella v.a.

Dimostrazione. Per determinare la densita della v.a. Y cominciamo col determinarne lafunzione di distribuzione FY (y). Supponiamo, per fissare le idee, che a > 0 allora

FY (y) = P (Y ≤ y) = P (aX + b ≤ y)

= P

(X ≤ y − b

a

)= FX

(y − ba

).

108

La densita di Y si trova calcolando la derivata di FY (y), quindi

fY (y) =d

dyFY (y) =

d

dyFX

(y − ba

)=

1

afX

(y − ba

)=

1

a

1√2πσ2

e−12

( y−ba −µ)2

σ2

=1√

2πa2σ2e−

12

(y−(aµ+b))2

a2σ2

Ma questa e la densita di una v.a. normale di media aµ+b e varianza a2σ2, il che concludela dimostrazione del caso a > 0. Il caso a < 0 si tratta in modo simile.

FY (y) = P (Y ≤ y) = P (aX + b ≤ y)

= P

(X ≥ y − b

a

)= 1− FX

(y − ba

)Calcolando la derivata si trova

fY (y) =d

dyFY (y) =

d

dy

(1− FX

(y − ba

))=

1

−afX

(y − ba

)=

1

−a1√

2πσ2e−

12

( y−ba −µ)2

σ2

=1√

2πa2σ2e−

12

(y−(aµ+b))2

a2σ2

che ancora coincide con la densita di una v.a. normale di media aµ+ b e varianza a2σ2, ilche conclude la dimostrazione.

Corollario del lemma. Se X ∼ N(µ, σ2) allora

Z :=X − µσ

∼ N(0, 1),

dove σ := +√σ2, e la cosiddetta deviazione standard della v.a. X.

Dimostrazione. Banale applicazione del precedente Lemma.

Osservazioni.

(a.) Terminologia. Ogni variabile aleatoria Z ∼ N(0, 1) e detta variabile aleatoria nor-male standard. Il corollario quindi afferma che la trasformazione lineare Z := 1

σX −µσ

standardizza la v.a. X ∼ N(µ, σ2).

(b.) Se W e una qualunque v.a. con E(W ) = µ e var(W ) = σ2 allora S := W−µσ ha valore

atteso E(S) = 0 e varianza var(S) = 1, ma in generale S non conserva lo stesso tipo didensita di W , ne tantomeno e normale.

(c.) Attenzione. Quando si standardizza, un errore frequentissimo e dividere per lavarianza σ2 anziche per la deviazione standard σ.

Calcolo della probabilita di eventi per v.a. normali

Ogni calcolo di probabilita di eventi relativi alla generica v.a. X ∼ N(µ, σ2) si puoricondurre al calcolo della probabilita di un evento per una v.a. Z ∼ N(0, 1).

109

Esempio. Sia X ∼ N(3, 4) e si voglia calcolare P (1 ≤ X ≤ 6). Applicando la standardiz-zazione troviamo

P (1 ≤ X ≤ 6) = P

(1− 3

2≤ X − 3

2≤ 6− 3

2

)= P (−1 ≤ Z ≤ 1.5)

Notazioni. La funzione di distribuzione FZ di una v.a. Z ∼ N(0, 1) normale standard, euniversalmente denotata Φ(z), quindi

Φ(z) :=1√2π

∫ z

−∞e−

12u2du, per ogni z ∈ R

La funzione Φ(z) e la primitiva della funzione (√

2π)−1 e−12z2

e non esiste una forma chiusaper quest’antiderivata. Peraltro e molto comodo poter disporre dei valori della Φ(z) poicheessi consentono di effettuare moltissimi calcoli probabilistici di interesse pratico. Sul sitodel corso trovate una tabella della Φ(z). La tabella e costruita utilizzando uno sviluppoin serie di Φ(z), ma non abbiamo il tempo di entrare nei dettagli computazionali.

Il seguente (banale) lemma generalizza l’esempio appena visto.

Lemma. Se X ∼ N(µ, σ2) allora

P (a ≤ X ≤ b) = Φ

(b− µσ

)− Φ

(a− µσ

).

Poiche la densita N(0, 1) e una funzione pari si ricava immediatamente (tracciate unafigura e convincetevene) che

Φ(−z) = 1− Φ(z)

per cui e sufficiente disporre della tabulazione di Φ(z) per z ≥ 0.

Le probabilita di alcuni comuni eventi per Z ∼ N(0, 1), espressi in termini di Φ(z), sono:

P (Z ≤ z) = Φ(z)

P (Z ≥ z) = 1− Φ(z) = Φ(−z)P (|Z| ≤ z) = 2Φ(z)− 1

P (|Z| ≥ z) = 2(1− Φ(z)) = 2Φ(−z)

Combinazioni lineari di v.a. normali indipendenti

Vale il seguente fondamentale risultato che dimostreremo in seguito.

Lemma. Se X1, X2, . . . Xn sono v.a. normali indipendenti, con Xi ∼ N(µi, σ2i ) allora

n∑i=1

αiXi ∼ N

(n∑i=1

αiµi,

n∑i=1

α2i σ

2i

)

Nota Bene. Come per il caso delle trasformazioni lineari di v.a. la portata di questorisultato va capita a fondo. Per quanto gia noto, la media e la varianza della v.a.

∑ni=1 αiXi

sono esattamente quelle che ci aspettiamo per le proprieta generali di media e varianza.L’informazione fondamentale fornita dal Lemma e che la densita di

∑ni=1 αiXi e normale.

110

Esempi ed esercizi

Esercizio 1 Alcuni numeri fondamentali per le v.a. normali.

Sia X ∼ N(µ, σ2). E utile avere un’idea delle probabilita delle deviazioni di X dal suovalore atteso µ. Per fornire numeri universali, esprimiamo la deviazione usando come unitadi misura la deviazione standard. Allora si ha

P (|X − µ| ≥ σ) = P(|X−µ|σ ≥ σ

σ

)= P (|Z| ≥ 1) = 2(1− Φ(1)) ≈ 0.32

P (|X − µ| ≥ 2σ) = P(|X−µ|σ ≥ 2σ

σ

)= P (|Z| ≥ 2) = 2(1− Φ(2)) ≈ 0.05

P (|X − µ| ≥ 3σ) = P(|X−µ|σ ≥ 3σ

σ

)= P (|Z| ≥ 3) = 2(1− Φ(3)) ≈ 0.003

Per ricavare i valori numerici si e fatto uso della tabella della distribuzione normale stan-dard Φ(z). Attenzione con la normalizzazione: al numeratore c’e X − µ, la media e giasottratta, basta dividere per la deviazione standard.

Passando al complementare, l’ultima approssimazione equivale a P (|X−µ| ≤ 3σ) ≈ 0.997.Equivalentemente

P (µ− 3σ ≤ X ≤ µ+ 3σ) ≈ 0.997.

Questa osservazione e molto importante nelle applicazioni pratiche. I valori assunti dauna v.a. normale cadono con probabilita 0.997 nell’intervallo [µ− 3σ, µ+ 3σ]. Qualunqueinsieme di valori (evento) al di fuori dell’intervallo (µ − 3σ, µ + 3σ), e molto improbabile(ha probabilita inferiore a 0.003).

Esercizio 2. Calcolare limiti superiori alle probabilita dell’esercizio 1 utilizzando la disu-guaglianza di Chebychev.

P (|X − µ| ≥ 3σ) ≤ var(X)

9σ2=

1

9≈ 0.11

questo e un altro esempio che mostra quanto lasca possa essere la disuguaglianza diChebychev (limite superiore 0.11 a fronte di probabilita approssimativamente uguale a0.003).

Esercizio 3 (parte (e.) facoltativa per il primo compitino)

Un tecnico ha a disposizione gli strumenti A e B per misurare una certa lunghezza µ. Lostrumento A fornisce la misura MA = µ + XA dove l’errore di misura XA ∼ N(0, 9). Lostrumento B fornisce la misura MB = µ+XB dove l’errore XB ∼ N(0, 16). Gli errori dimisura XA e XB sono v.a. indipendenti.

(a.) Se voi foste il tecnico che strumento usereste?

(b.) Se il tecnico effettua la misura con lo strumento A qual e la probabilita che l’erroresia di modulo minore di 4?

(c.) Il tecnico effettua due misure, una con lo strumento A ed una con lo strumento B, poicalcola la media aritmetica delle due misure, ovvero M = 1

2MA+ 12MB che considera come

misura finale. Qual e la probabilita che la misura M sia affetta da un errore di modulominore di 4?

(d.) Il tecnico vuole tenere conto della diversa precisione degli strumenti e quindi calcolala misura finale come Mc = (1 − c)MA + cMB dove c ∈ [0, 1]. Caratterizzare la densitadell’errore che affligge la misura Mc e calcolare il valore di c ∈ [0, 1] che minimizza lavarianza dell’errore.

(e.) Usando lo strumento A, e calcolando la misura finale come media aritmetica dellemisure effettuate, quante misure deve effettuare il tecnico per avere probabilita almeno0.95 che il modulo dell’errore sia inferiore a 0.1 unita?

111

Soluzione

(a.) Il tecnico desidera minimizzare l’errore di misura. Poiche il processo di misura emodellato probabilisticamente e naturale decidere quale strumento usare confrontando ledistribuzioni dell’errore di misura. Gli errori di misura sono rispettivamente XA ∼ N(0, 9)ed XB ∼ N(0, 16). E noto che se W ∼ N(µ, σ2) allora P (|W−µ| < 3σ) ≈ 0.997. Il tecnicoquindi sa a priori che P (|XA| < 9) = P (|XB| < 12) = 0.997. Con probabilita 0.997 ilmodulo dell’errore e minore di 9 unita se si usa lo strumento A, mentre e minore di 12unita se si usa lo stumento B. Conviene usare lo strumento A.

(b.)

P (|XA| < 4) = P

(|XA|

3<

4

3

)= 2Φ

(4

3

)− 1 ≈ 2 · 0.9082− 1 ≈ 0.82

(c.) Le v.a. MA e MB sono rispettivamente MA ∼ N(µ, 9) ed MB ∼ N(µ, 16), edindipendenti, quindi M = 1

2MA + 12MB e una v.a. N(1

2µ + 12µ,

149 + 1

416) = N(µ, 254 ).

L’errore di misura sara in questo caso M − µ ∼ N(0, 254 ). La probabilita che l’errore sia

in valore assoluto sotto alle 4 unita e

P (|M − µ| < 4) = P

(|M − µ|

5/2<

4

5/2

)= 2Φ

(8

5

)− 1 ≈ 2 · 0.9452− 1 ≈ 0.89

Questa probabilita e maggiore di quella al punto (b.) e questa e una buona notizia.Significa che il modulo dell’errore e sotto alle 4 unita con probabilita piu alta. Prenderedue misure e calcolarne la media aritmetica produce una misura finale migliore, anche sela seconda misura e presa con uno strumento di qualita inferiore. Ma si puo far di meglioche combinare le due misure calcolandone la media aritmetica: vedi parte (d.).

(d.) Mc = (1 − c)MA + cMB, quindi Mc ∼ N(µ, 9(1 − c)2 + 16c2). L’errore di misura eM−µ ∼ N(0, 9(1−c)2 +16c2). La varianza dell’errore di misura e σ2(c) = 9(1−c)2 +16c2.Derivando rispetto a c ed annullando la derivata otteniamo d

dcσ2(c) = −18(1− c) + 32c =

0⇒ c = 925 Questo e effettivamente il minimo poiche d2

dc2σ2(c) = 18 + 32 > 0 ovunque. La

varianza ottimale vale σ2(

925

)= 9

(1− 9

25

)2+ 16

(925

)2= 5.76

Calcoliamo per curiosita la probabilita che l’errore stia sotto alle 4 unita se il tecnicocombina le due misure in modo ottimale, cioe usando c = 9

25 . La misura ottenuta saraM∗ = 16

25MA + 925MB ∼ N(µ, 5.76) e la probabilita cercata vale

P (|M∗ − µ| < 4) = P

(|M∗ − µ|√

5.76<

4√5.76

)= 2Φ(2.4)− 1 ≈ 2 · 0.9918− 1 ≈ 0.98

che e sensibilmente piu alta di quella ottenuta usando la media aritmetica.

(e.) Effettuando n misure e calcolando la misura finale come media aritmetica si ottienela v.a.

M =1

n

n∑i=1

Mi =1

n

n∑i=1

(µ+Xi) = µ+1

n

n∑i=1

Xi

Per semplificare la notazione ho eliminato il pedice A dalle v.a. Xi poiche stiamo usandosempre lo strumento A. Ognuna delle v.a. Xi ∼ N(0, 9). L’errore di misura su M e

M − µ =1

n

n∑i=1

Xi ∼ N(

0,9

n

)infatti le v.a. Xi sono i.i.d. con media nulla e varianza 9, quindi

var

(1

n

n∑i=1

Xi

)=

1

n2

n∑i=1

var(Xi) =9n

n2

112

Imponiamo quanto richiesto in (e.), ovvero che

P (|M − µ| ≤ 0.1) = P

(∣∣∣∣∣ 1nn∑i=1

Xi

∣∣∣∣∣ ≤ 0.1

)≥ 0.95

Standardizzando si ottiene

P

(∣∣∣∣∣ 1nn∑i=1

Xi

∣∣∣∣∣ ≤ 0.1

)= P

(∣∣ 1n

∑ni=1Xi

∣∣3√n

≤ 0.13√n

)

= P

(|Z| ≤ 0.1 ·

√n

3

)= 2Φ

(0.1 ·√n

3

)− 1 ≥ 0.95

Abbiamo ottenuto il vincolo

2Φ

(0.1 ·√n

3

)− 1 ≥ 0.95

che, con un paio di passaggi, si converte in

Φ

(0.1 ·√n

3

)≥ 0.975

dalla tabella della normale standard si trova

Φ(1.96) = 0.9750

quindi la condizione in n e0.1 ·√n

3≥ 1.96

ovvero √n ≥ 58.8, n ≥ 3457.44

La risposta e che n = 3458 misure sono sufficienti.

Esercizi che richiedono il Lemma sulle combinazioni lineari di v.a. normali indipendenti

Esercizio 4. Se X ed Y sono v.a. N(0, 1) indipendenti allora la v.a W = X − Y eW ∼ N(0, 2). (Banale applicazione del Lemma sulle combinazioni lineari di normali)

Esercizio 5. Siano X ed Y v.a. N(0, 1) indipendenti. Calcolare P (X ≥ Y ).

Soluzione. P (X ≥ Y ) = P (X − Y ≥ 0) = P (W ≥ 0), dove W ∼ N(0, 2). Qui none necessario standardizzare: basta osservare che, poiche W e normale di media nulla,P (W ≥ 0) = 1

2 .

Esercizio 6. Siano X ed Y v.a. N(0, 1) indipendenti. Calcolare P(X ≥ Y + 1

2

).

Soluzione. P(X ≥ Y + 1

2

)= P

(X − Y ≥ 1

2

)= P

(W ≥ 1

2

), dove W ∼ N(0, 2). Per

standardizzare sottraiamo la media di W (che vale 0 in questo caso) e dividiamo perla deviazione standard di W (che vale

√2 in questo caso). Questo produrra una v.a.

Z = W−0√2∼ N(0, 1) che consentira di usare la tavola di Φ(z).

P

(W ≥ 1

2

)= P

(W − 0√

2≥

12 − 0√

2

)

= P

(Z ≥

12 − 0√

2

)

= 1− Φ

(√2

4

)≈ 1− Φ(0.35) ≈ 1− 0.6368 = 0.3632.

113


19.1 Ripassone pre-compitino

Svolti in aula esercizi sul programma della prima parte del corso. Alcuni tratti dall’elencoqui sotto, altri inventati al momento per illustrare certi aspetti della teoria o tecniche dicalcolo. Svolgete quelli che non trovate sui vostri appunti. Tempo permettendo, in unafutura revisione aggiungero le soluzioni.

Esercizio 1. Gli eventi A, B, e C sono equiprobabili, ed e altresı noto che

• A ∩B = ∅,

• A e B sono indipendenti da C

• P (A ∪ C) = 59

Calcolare i valori numerici di P (A ∪B ∪ C) e P (C|A ∪B).

Esercizio 2. Un esame consiste di 100 domande a risposta multipla. Ad ogni domandasono proposte 4 risposte di cui solo una e corretta.

(a.) Se lo studente risponde a caso, quante sono in media le risposte corrette?

(b.) Se si assegna 1 punto per ogni risposta corretta, che punteggio si deve assegnare allerisposte errate affinche il punteggio medio di chi risponde a caso sia nullo?

Esercizio 3. Mario va in libreria a curiosare e ad acquistare libri. Il tempo che Mariopassa in libreria e un numero intero di ore K, dove K e una variabile aleatoria uniforme avalori nell’alfabeto 1, 2, 3, 4. Sappiamo inoltre che il numero di libri che Mario acquistae anch’esso modellabile con una variabile aleatoria N . E nota la densita condizionata

pN |K(n|k) =

1k , se 1 ≤ n ≤ k, e k ≤ 4,0, altrove,

Calcolare la densita di N . Le variabili aleatorie N e K sono indipendenti? Sono scorrelate?

Esercizio 4. Il numero di utenti che si connettono al sito unipd.it in un intervallo ditempo di 1 minuto e modellato con con una variabile aleatoria X ∼ P(λ), dove λ > 0 enoto. Per ognuno degli utenti connessi, indipendentemente l’uno dall’altro, la probabilitadi essere uomo e p. Sia Y la variabile aleatoria che rappresenta il numero di uomini (chesi connettono al sito unipd.it in un intervallo di tempo di 1 minuto). Calcolare la densitadi Y .

Esercizio 5. Effettuo lanci indipendenti con una moneta che ha P (T ) = p. Sia X ilnumero di lanci fino al primo successo ed Y il numero di lanci fino al secondo successo.Si determini pXY (k, h), pY (h), pX|Y (k|h), pX(k) (ovviamente sappiamo gia che pX(k) eG(p)). Infine si determini, senza fare calcoli, E(Y ).

114


20.1 Classificazione delle variabili aleatorie: discrete, continue e miste

Abbiamo finora discusso due classi di variabili aleatorie, le discrete e le assolutamentecontinue. Le variabili aleatorie discrete sono quelle ad alfabeto discreto e la cui funzionedi distribuzione (FdD) e quindi costante a tratti, con salti in corrispondenza ai valoridell’alfabeto. Le variabili aleatorie assolutamente continue sono quelle che ammettonodensita ed hanno quindi FdD continua. E interessante osservare che la classificazione puoessere fatta basandosi esclusivamente sulle proprieta della FdD. In tal senso si classificanocome discrete o assolutamente continue indifferentemente le variabili aleatorie o le loroFdD.

In questa lezione introduciamo le variabili aleatorie miste, una classe piu generale divariabili aleatorie, di grande interesse applicativo, e che comprende come casi particolarile discrete e le assolutamente continue. Anche le v.a. miste si caratterizzano sulla basedi proprieta della FdD. Iniziamo richiamando le rappresentazioni analitiche delle FdDdiscrete ed assolutamente continue.

La FdD F d(x) e discreta se essa si puo rappresentare come

F d(x) =∑xi∈X

p(xi)1l(x− xi)

dove p(xi) e una densita discreta ed 1l(x) e il gradino unitario (continuo a destra). Eimmediato concludere che la funzione F d e costante a tratti, con salti nei punti xi ∈ X ,dove X ⊂ R e un insieme discreto.

La FdD F ac(x) e assolutamente continua se essa si pu‘ørappresentare come

F ac(x) =

∫ x

−∞f(w) dw

per qualche f(·) funzione integrabile secondo Riemann. Il teorema fondamentale delcalcolo garantisce che la funzione F ac e continua per ogni x ∈ R.

E interessante notare che

(a.) Non tutte le FdD discontinue sono costanti a tratti.

(b.) Non tutte le FdD continue sono assolutamente continue.

In questa lezione vedremo alcuni esempi del caso (a.). Esempi del caso (b.) sono piucomplicati (FdD continue singolari) e sono rimandati ad una futura appendice.

Combinazioni convesse di funzioni di distribuzione

Lemma. Siano F1(x) ed F2(x) due FdD qualunque. Per ogni λ ∈ [0, 1] la funzione

F (x) = λF1(x) + (1− λ)F2(x), x ∈ R

e una FdD.

Dimostrazione. E sufficiente verificare che F (x) e non decrescente, continua da destra,con limiti F (−∞) = 0 ed F (∞) = 1. Tutte queste proprieta sono immediate conseguenzedelle ipotesi. Domanda: perche e essenziale l’ipotesi λ ∈ [0, 1]?

115

Corollario. Sia Fi(x)ni=1 una sequenza di FdD qualunque e αini=1 una sequenza dinumeri reali nonnegativi tali che

∑ni=1 αi = 1, allora la funzione

F (x) =n∑i=1

αiFi(x), x ∈ R

e una FdD. Se le FdD Fi(x)i sono discrete allora F (x) e discreta. Se le Fi(x) sonoassolutamente continue, allora F (x) e assolutamente continua.

Dimostrazione. La prima parte si dimostra per induzione finita a partire dal Lemma prece-dente. La seconda parte discende immediatamente dalle definizioni. Domanda: perche eessenziale l’ipotesi che

∑i αi = 1?

Micro-esercizio. Nel caso in cui le Fi(x)ni=1 sono assolutamente continue, di densitarispettive fi(x)ni=1, qual e la densita di F (x)?

Definizione. Sia Fi(x)ni=1 una sequenza di FdD qualunque e αini=1 una sequenza dinumeri reali nonnegativi tali che

∑ni=1 αi = 1, allora la FdD

F (x) =n∑i=1

αiFi(x), x ∈ R

e detta mistura delle Fi(x), con pesi αi.

Non si deve pensare che una mistura di FdD sia un oggetto matematico artificioso e discarsa utilita pratica. In realta e molto facile incappare in variabili aleatorie la cui FdD euna mistura di FdD.

Esempi

Esempio 1. Alla luce delle definizioni date in questo paragrafo, l’Esempio 1, del paragrafo14.2, mostra un esempio di variabile aleatoria discreta la cui FdD e la mistura di due FdDgeometriche.

Esempio 2. Ogni FdD discreta e una mistura di FdD discrete degeneri.

Spiegazione. Avevamo gia osservato che, per ogni c ∈ R, il gradino traslato 1l(x− c) e unaFdD. Infatti 1l(x− c) e nondecrescente, continua da destra, si annulla per x→ −∞ e vale1 per x → ∞. Ha un unico salto, in x = c, di ampiezza 1. Denotando X una v.a. conFdD 1l(x− c) si ha che P (X = c) = P (X ≤ c)−P (X < c) = F (c)−F (c−) = 1, ovvero Xe una v.a. degenere, X = c costante. Poiche ogni FdD discreta si puo rappresentare come

F d(x) =∑xi∈X

p(xi)1l(x− xi),

dove p(xi) sono reali nonnegativi, tali che∑

xi∈X p(xi) = 1, si conclude che F d(x) e unamistura di FdD degeneri.

Esempio 3. Nel magazzino della squadra di minuto mantenimento del DEI si trovano 80tubi al neon di durata media dichiarata di 8.000 ore e 40 tubi di durata media 12.000ore. Uno dei tubi dell’aula Ve e esaurito ed il manutentore K, per effettuare la sosti-tuzione, sceglie un tubo a caso dal magazzino. Si assuma che la durata di un tubo alneon sia modellabile con una v.a. di tipo esponenziale. Si determini la densita della du-rata D del tubo scelto a caso dal manutentore. Soluzione. fD(x) = 80

1201

8000e− x

8.000 1l(x) +40120

112.000e

− x12.000 1l(x), e una mistura di due v.a. assolutamente continue, esponenziali. Si

noti che non e un’esponenziale!

116

Variabili aleatorie miste

Quando le FdD che compongono una mistura non sono tutte dello stesso tipo, la F (x)risultante presenta caratteristiche nuove ed interessanti.

Definizione. Una FdD che presenta almeno un salto e che non e costante a tratti e dettamista. Una variabile aleatoria e detta mista se la sua FdD e mista.

Osservazione. Ovviamente la FdD di una v.a. mista non e ne discreta (poiche non ecostante a tratti) ne assolutamente continua (poiche ha almeno un salto). La descrizionegenerale delle v.a. miste esula dagli scopi del corso. E comunque interessante, ed utilenelle applicazioni, il caso illustrato nel seguente esempio.

Esempio. La mistura F (x) = λF d(x) + (1 − λ)F ac(x) (con λ ∈ (0, 1)) di una FdD asso-lutamente continua e di una FdD discreta e una FdD mista. Infatti la FdD F (x) si puorappresentare come (tracciare un grafico qualitativo!)

F (x) = λ∑xi∈X

pd(xi)1l(x− xi) + (1− λ)

∫ x

−∞fac(w) dw

che ha salti in corrispondenza dei punti xi e non e costante a tratti grazie alla presenzadella parte integrale. Non essendo continua F (x) non puo essere assolutamente continua,quindi non ammette una funzione di densita nel senso usuale, e pero possibile definire unadensita generalizzata, usando le regole del calcolo generalizzato. La densita generalizzatasi puo rappresentare come

f(x) = λ∑xi∈X

pd(xi)δ(x− xi) + (1− λ) fac(x).

Il valore atteso si determina facendo ricorso alle note regole di calcolo con le funzionigeneralizzate.

E(X) =

∫ ∞−∞

xf(x) dx

=

∫ ∞−∞

x(λ∑xi∈X

pd(xi)δ(x− xi) + (1− λ) fac(x))dx

= λ∑xi∈X

xipd(xi) + (1− λ)

∫ ∞−∞

xfac(x) dx

Nel seguente esercizio si propone un esempio concreto di mistura di due FdD, unaassolutamente continua, l’altra discreta.

Esercizio. Si consideri il seguente gioco. Si lancia una moneta. Se esce Testa il giocatoredeve far girare l’ago di una ruota della fortuna, il cui bordo e graduato nell’intervallo [0, 2].Quando la ruota si ferma il banco paga al giocatore la cifra in euro corrispondente allaposizione dell’ago sul bordo della ruota. Se esce Croce il giocatore paga 1 euro al banco.Sia V la variabile aleatoria che rappresenta la vincita netta del giocatore. Calcolare ladensita e il valore atteso di V .

Soluzione. fV (x) = 12

[12 1l[0,2](x)

]+ 1

2

[δ(x+ 1)

]. Il gioco e equo, infatti E(V ) = 0.

Micro-esercizio. Tracciare la FdD della variabile aleatoria V .

117

20.2 Funzioni di variabili aleatorie

Motivazione. Abbiamo visto che assegnata una variabile aleatoria discreta X ed una fun-zione g : R → R, la funzione composta Y = g(X) e sempre una variabile aleatoria. Ilrisultato piu importante per le funzioni di variabili aleatorie discrete e il teorema checonsente di calcolarne il valore atteso, quando esiste, a partire dalla densita discreta di X

E(g(X)) =∑xi∈X

g(xi)pX(xi).

Una formula analoga l’abbiamo anche scritta, nella Lezione 17, trattando il valore attesodelle variabili aleatorie assolutamente continue

E(g(X)) =

∫ ∞−∞

g(x)fX(x) dx,

ma senza fornire condizioni sufficienti a garantire che l’operazione sia matematicameneben definita.

Funzioni di variabili aleatorie. La prima condizione da imporre e che assegnata la variabilealeatoria X e la funzione g : R → R la funzione composta Y := g(X) sia ancora unavariabile aleatoria. Nel caso generale cio non e automatico poiche deve essere garantita lamisurabilita delle anti-immagini. Fortunatamente esiste una condizione sufficiente moltosemplice.

Definizione. La funzione g : R→ R si dice misurabile se, per ogni B ∈ B(R),

g−1(B) := x ∈ R ; g(x) ∈ B ∈ B(R)

Commento. L’idea di misurabilita e esattamente la stessa introdotta per definire le variabili aleatorie.Poiche nel caso generale le σ-algebre giocano un ruolo, e comune indicare la variabile aleatoria X : Ω→ Rcon la scrittura piu completa, che mette in evidenza le σ-algebre di partenza e di arrivo, X : (Ω,F) →(R,B(R)). Allora X e una v.a. se X−1(B) ∈ F per ogni B ∈ B(R). Nel caso di funzioni g : R→ R, dominioe codominio di g coincidono con R, dotato della sua naturale σ−algebra di Borel, cioe g : (R,B(R)) →(R,B(R)) e la condizione di misurabilita e che g−1(B) ∈ B(R) per ogni B ∈ B(R). L’ipotesi di misurabilita emolto blanda. Le funzioni continue, ma anche le funzioni solamente continue a tratti, sono tutte misurabili.Per questo motivo, in questo primo corso di Probabilita, non menzioneremo piu le questioni di misurabilitaper funzioni g : R→ R.

Lemma. Se X e una variabile aleatoria e g : R → R una funzione misurabile alloraY = g(X) e una variabile aleatoria.

Dimostrazione. Basta verificare la misurabilita delle anti-immagini di g(X) ovvero veri-

ficare che[g(X)

]−1(B) ∈ F per ogni B ∈ B(R). Poiche

[g(X)

]−1(B) = X−1

(g−1(B)),

l’ipotesi su g e il fatto che X e una variabile aleatoria sono sufficienti a conludere.

Siamo ora in grado di specificare condizioni sufficienti per l’esistenza del valore attesodi una funzione di variabile aleatoria assolutamente continua.

Lemma. Se X e una variabile aleatoria assolutamente continua di densita fX , e se g e unafunzione misurabile tale che |g(x)|fX(x) e integrabile allora il valore atteso E(g(X)) esistee si puo calcolare come

E(g(X)) =

∫ ∞−∞

g(x)fX(x) dx.

Dimostrazione. Omessa.

118

Calcolo della densita di Y = g(X)

Motivazione. Come abbiamo visto, sia nel caso discreto che nel caso assolutamente con-tinuo, il valore atteso E(g(X)) si puo calcolare senza necessariamente calcolare prelimi-narmente la densita fY (y) della variabile aleatoria Y = g(X). Peraltro vi sono casi incui il problema della determinazione della densita di Y = g(X) e interessante per se.Ad esempio, nella Lezione 18, abbiamo scoperto che la densita normale e invariante pertrasformazioni lineari: se X ∼ N(µ, σ2) e Y = g(X) := aX+b allora Y e ancora distribui-ta normalmente. Questa informazione e stata preziosa per ridurre i calcoli di probabilitaper qualunque v.a. normale a calcoli relativi alla v.a. normale standard.

In questa e nella prossima lezione presenteremo metodi per il calcolo della densitafY (y) che illustreremo con svariati esempi. Il problema di base si puo impostare comesegue.

Data la funzione di distribuzione FX(x), o in alternativa la densita fX(x), e lafunzione misurabile g : R→ R, determinare la funzione di distribuzione FY (y),o in alternativa la densita fY (y), della v.a. Y = g(X).

Una strategia molto conveniente (non l’unica) per risolvere questo tipo di problemi edi ricavare la funzione di distribuzione FY (y) a partire dai dati (FX(x) o fX(x) e g(x)) equindi calcolare, dove esiste, fY (y) = d

dy FY (y). In generale si tratta di calcolare

FY (y) := P (Y ≤ y) = P (g(X) ≤ y) = P(X ∈ g−1

((−∞, y]

)),

da cui, se richiesta, si puo determinare la densita fY (y), calcolando la derivata rispetto ady del membro destro. Si noti che il calcolo delle anti-immagini

g−1((−∞, y]

)si puo condurre, per cosı dire, “fuori linea” nel senso che esse non dipendono in alcun mododalla distribuzione FX(x). Una volta calcolate, le anti-immagini si possono utilizzare perdeterminare FY (y) qualunque sia FX(x).

Primi esempi di calcolo della densita di Y = g(X)

Esempio 1. Dati: y = g(x) = ax+ b, con a 6= 0 ed X ∼ U([c, d]

).

Cominciamo con la determinazione di

FY (y) = P (Y ≤ y) = P (aX + b ≤ y) =

P(X ≤ y−b

a

)= FX

(y−ba

), se a > 0,

P(X ≥ y−b

a

)= 1− FX

(y−ba

), se a < 0,

e calcolando la derivata rispetto ad y, compattando i due casi a > 0 e a < 0,

fY (y) =1

|a|fX

(y − ba

).

Per concludere ricordiamo che la v.a. X ∼ U([c, d]

)ha densita

fX(x) =

1d−c , se x ∈ [c, d],

0, altrove

quindi sara

fY (y) =

1|a|

1d−c , se y−b

a ∈ [c, d],

0, altrove

119

o, piu esplicitamente,

fY (y) =

1|a|(d−c) , se y ∈ [ac+ b, ad+ b],

0, altrove

La conclusione e che Y ∼ U([ac+ b, ad+ b]

).

Commento: Questo esempio mostra che anche la densita uniforme, come la normale, einvariante per trasformazioni lineari.

Esempio 2. Dati: y = g(x) = ax+ b, con a > 0 ed X ∼ Exp(λ).

Quanto fatto per l’esempio precedente continua a valere, parola per parola, fino all’espres-sione

fY (y) = F ′X(y) =1

afX

(y − ba

)poiche questa parte del problema dipende solo dalla funzione g(x) e non dalla densita dellavariabile aleatoria X. Per concludere ricordiamo che per la v.a. X ∼ Exp(λ) la densitafX(x) = λe−λx1l(x). Sostituendo troviamo che

fY (y) =λ

ae−λ

y−ba 1l

(y − ba

).

Commento. Se b = 0 allora Y ∼ Exp(λa

), mentre se b 6= 0 allora la v.a. Y non e piu

di tipo esponenziale poiche essa non e piu concentrata sulla semiretta [0,∞), bensı sullasemiretta [b,∞). La densita esponenziale e invariante per trasformazioni di cambio scalacon a > 0, non per trasformazioni lineari generali.

Esercizio. Considerare il caso a < 0. In questo caso la densita fY (y) non e mai esponen-ziale, poiche essa e concentrata sulla semiretta (−∞, b].

Esempio 3. Dati: y = g(x) = ax , con a > 0 ed X ∼ Cauchy(α), ovvero

fX(x) =1

π

α

x2 + α2

Cominciamo con il determinare la FdD FY (y).

FY (y) = P (Y ≤ y) = P (g(X) ≤ y) = P(X ∈ g(−1)

((−∞, y]

))Si devono calcolare le anti-immagini g(−1)

((−∞, y]

), al variare di y ∈ R. I grafici qui sotto

permettono di concludere che

g(−1)((−∞, y]

)=

[ay , 0), se y < 0,

(−∞, 0) se y = 0,

(−∞, 0) ∪[ay ,∞

)se y > 0.

La FdD di Y = g(X) vale quindi

FY (y) = P(X ∈ g(−1)

((−∞, y]

))=

∫ 0ayfX(u) du, se y < 0,

P (X < 0), se y = 0,P (X < 0) +

∫∞ayfX(u) du, se y > 0.

Ricordando ched

dx

∫ b

a(x)f(u) du = −f

(a(x)

)da(x)

dx,

120

si determina la densita fY (y) calcolando la derivata di FY (y).

fY (y) =dFY (y)

dy=

a

y2fX

(a

y

)y ∈ R \ 0

I conti fatti finora forniscono la densita di Y = aX (con a > 0) in funzione di fX(x).

Specializzando al caso fX(x) = Cauchy(α) troviamo

fY (y) =a

y2

1

π

α(ay

)2+ α2

=1

π

aα

y2 +(aα

)2da cui si conclude che Y ∼ Cauchy

(aα

). In particolare, se X ∼ Cauchy(1) allora Y :=

1X ∼ Cauchy(1).

Esempio 4. Dati: y = g(x) = x1l(x), funzione rampa, e X ∼ N(0, 1).

Osservazione. Questo esempio e importante poiche si verifica un fenomeno inaspettato edinquietante. La funzione g(x) e ovunque continua e la variabile aleatoriaX e assolutamentecontinua, con densita estremamente regolare (la normale e di classe C∞(R)), ciononostantela variabile aleatoria Y = X1l(X) e, come vedremo, una v.a. mista.

Iniziamo con il calcolo della distribuzione di Y [conviene sempre tracciare il grafico di g].

FY (y) = P (Y ≤ y) = P (X1l(X) ≤ y) =

0, se −∞ < y < 0,P (X ≤ y), se y ≥ 0,

che, in termini di FX ed usando il gradino per compattare la notazione, si scrive

FY (y) = FX(y) 1l(y)

Nota Bene. Per capire cosa succede si devono tracciare i grafici. La FY (y) e nulla per y < 0,vale FY (0) = FX(0) = 1

2 per y = 0, ed e crescente per y > 0. Questo e il comportamentodella funzione di distribuzione di una v.a. mista: ha un salto, ma non e costante a tratti.Qual e la spiegazione intuitiva per questo inaspettato comportamento della v.a. Y = g(X)pur con g ed fX molto regolari?

121

Tutto dipende dal fatto che la funzione g(x) e costante in un intervallo, inquesto caso la semiretta (−∞, 0]. Questo fa si che tutta la probabilita che lav.a. X attribuisce alla semiretta (−∞, 0] si concentri nel punto Y = 0.

Dal grafico della g (vi avevo detto di tracciarlo?), e poiche X ∼ N(0, 1), e ovvio cheP (Y = 0) = P (X ≤ 0) = 1

2 . Ma noi sappiamo che, per una v.a. continua, P (Y = y) = 0per ogni y ∈ R. Quindi Y non puo essere continua.

Per terminare i calcoli relativi all’esempio calcoliamo la densita fY (y) come derivatadi FY (y). Sapendo che la v.a. Y non e assolutamente continua ci aspettiamo una parteimpulsiva nella densita, corrispondente alla parte discreta della v.a. Y , in questo caso ilsolo punto Y = 0 di probabilita P (Y = 0) = 1

2 .

d

dyFY (y) = fX(y)1l(y) + FX(0) δ(y)

=1√2πe−

12y2

1l(y) +1

2δ(y)

=1

2

(2√2πe−

12y2

1l(y)

)+

1

2δ(y)

L’ultima formula esprime la densita generalizzata di Y come mistura, con entrambi i pesipari ad 1

2 , della densita assolutamente continua 2√2πe−

12y2

1l(y) e della densita generalizzata,

discreta, degenere δ(x).

Attenzione. 2√2πe−

12y2

1l(y) e una densita, mentre 1√2πe−

12y2

1l(y) non e una densita: perche?

Micro-esercizio fondamentale. La scrittura U ∼ V indica che le v.a. U e V hannola medesima FdD e/o densita. Per sviluppare la vostra intuizione, senza fare nessunconto, convincetevi che, con la funzione rampa, g(x) = x1l(x),

• se X ∼ Exp(λ) allora g(X) ∼ X,

• se X ∼ U([a, b]), con 0 ≤ a < b, allora g(X) ∼ X

• se X ∼ U([−2,−1]), allora g(X) = 0, la v.a. degenere, costante pari a 0.

• se X ha densita concentrata nella semiretta [0,∞), qualunque, allora g(X) ∼ X

• se X ha densita concentrata nella semiretta (−∞, 0], qualunque, allora Y = g(X) =0, variabile aleatoria degenere costante.

Morale della lezione. Chi all’inizio della lezione ha ritenuto le variabili aleatorie miste unastrana costruzione teorica di nessuna rilevanza pratica deve ricredersi. Le v.a. miste sipresentano automaticamente in contesti molto comuni. Abbiamo visto che si ottengonov.a. miste modellando fenomeni con un doppio meccanismo aleatorio, uno discreto eduno continuo (esempio del gioco con moneta e ruota della fortuna). Inoltre v.a. mistesi generano molto naturalmente processando una v.a. continua X con semplici funzionig(X).

122

Appendice alla Lezione 20 (non in programma nell’a.a. 12/13)Decomposizione delle funzioni di distribuzione

E possibile descrivere in modo semplice la famiglia di tutte le FdD. Allo scopo ricordiamoche sono FdD tutte e sole le funzioni F : R→ R+ tali che (a.) F (x) e non descrescente, (b.)F (x+) = F (x) per ogni x ∈ R, (c.) valgono i limiti F (−∞) = 0, F (∞) = 1. Ricordiamoche se F (x) e una FdD esiste sempre F (x−). Se F (x−) = F (x+) allora x e un punto dicontinuita di F (x), altrimenti x e un punto di salto e vale P (X = x) = F (x) − F (x−).Denotiamo con D l’insieme dei punti di salto di F (x), in simboli

D := x ∈ R |F (x)− F (x−) > 0

Lemma. Qualunque sia F (x) il corrispondente insieme D e numerabile.

Dimostrazione. Sia Dk = x ∈ R|F (x)− F (x−) > 1k l’insieme dei punti di discontinuita

di F con salto di ampiezza superiore a 1k . Dato che 0 ≤ F (x) ≤ 1, la cardinalita di Dk e

minore o uguale a k. Poiche D = ∪∞k=1Dk e una unione numerabile di insiemi di cardinalitafinita si conclude che D e al piu numerabile.

Poiche D e numerabile la seguente somma e ben definita (e una somma finita se D e uninsieme finito, una serie se D e infinito numerabile) e convergente

p :=∑x∈R

FX(x)− FX(x−) = P (X ∈ D)

Chiaramente p ∈ [0, 1] poiche F (x) ∈ [0, 1] ed i salti sono tutti nonnegativi. Convincetevidell’ultima asserzione. Se p = 0 la FdD e una funzione continua (non ha cioe nessun salto),ma non e necessariamente assolutamente continua (cioe non ammette necessariamentedensita). Se p = 1 i salti della FdD contribuiscono tutta la massa di probabilita quindi laFdD e costante a tratti, cioe discreta. Infine, se 0 < p < 1 allora la FdD presenta almenoun salto, e non e costante a tratti ovvero e mista. Il seguente teorema mostra che ogniFdD e una mistura di una FdD continua e di una discreta.

Teorema. Ogni FdD F (x) con 0 < p < 1 e rappresentabile, in modo unico, come mistura

F (x) = pF d(x) + (1− p)F c(x) (1)

dove F d(x) e una FdD discreta ed F c(x) e una FdD continua (non necessariamenteassolutamente continua).

Dimostrazione (costruttiva). Sia X una qualunque variabile aleatoria la cui FdD e F (x)(l’introduzione della v.a. X non e indispensabile, ma conveniente notazionalmente). Dallaformula della probabilita totale

F (x) = P (X ≤ x) = P (X ≤ x|X ∈ D)P (X ∈ D) + P (X ≤ x|X ∈ Dc)P (X ∈ Dc)

Osserviamo che, per definizione, P (X ∈ D) = p, inoltre le funzioni di x definite da P (X ≤x|X ∈ D) e P (X ≤ x|X ∈ Dc) sono entrambe FdD, poiche le probabilita condizionatesono misure di probabilita rispetto al primo evento. Definiamo per brevita

F d(x) := P (X ≤ x|X ∈ D) =∑w≤x

P (X = w|X ∈ D),

dove la somma, come mostreremo immediatamente, e ben definita. Si osservi che, per ogniw ∈ R,

P (X = w|X ∈ D) =P ([X = w] ∩ [X ∈ D])

P ([X ∈ D])=P (X = w)

p, (2)

123

infatti, se w ∈ D l’identita e banale, mentre se w 6∈ D allora w e un punto di continuitadi F (x) e quindi entrambi i membri si annullano. La somma

∑w≤x P (X = w|X ∈ D) e

dunque ben definita, poiche gli addendi sono non nulli solo per w ∈ D che e un insiemenumerabile. Si ottiene

F d(x) := P (X ≤ x|X ∈ D) =∑w≤x

P (X = w|X ∈ D) =∑w∈Dw≤x

P (X = w)

p

L’ultima espressione dimostra che F d(x) e effettivamente una FdD discreta.La componente continua F c(x) si determina sottraendo la parte discreta e rinormalizzando.Si definisca

F c(x) = P (X ≤ x|X ∈ Dc) =F (x)− pF d(x)

1− p(3)

E facile verificare che F c(x) e continua (esercizio – suggerimento: basta verificare cheF c(x)−F c(x−) = 0 nei punti x ∈ D). Per terminare la dimostrazione basta osservare chela (3) e la (1) sono equivalenti. Aggiungere dimostrazione unicita.

Osservazione. Nei casi d’interesse la costruzione della mistura e molto semplice. Si de-termina p facendo la somma dei salti di F (x). Quindi si costruisce F d(x) sommando isalti nella semiretta (−∞, x] e normalizzando dividendo per p. Una volta ottenuta lacomponente F d(x) si effettua la differenza (3).

Esempio 1. Determinare la rappresentazione in termini di mistura della FdD mista FX(x)in figura.

6

-t

x2−1

p

1

FX(x)

1

La mistura cercata eFX(x) = pF dX(x) + (1− p)F cX(x)

dove

F dX(x) =

0, x < −1,1, 1 ≤ x.

e

F cX(x) =

0, x < 0,x2 , 0 ≤ x < 2,1, 1 ≤ x.

Si riconosce per ispezione che F dX(x) e la FdD degenere concentrata in -1, mentre F c(x) e laFdD uniforme U(0, 2), quindi assolutamente continua. La funzione di densita generalizzatacorrispondente ad F (x) e

f(x) = p δ(x+ 1) + (1− p) 1

2(1l(x)− 1l(x− 2))

124

Esercizio proposto. Determinare (graficamente!) la rappresentazione in termini di misturadella FdD in figura.

6

-

tt

t

x0.4-0.6-0.8-1

0.2

0.4

0.6

0.8

1

FX(x)

125


21.1 Vettori aleatori

Abbiamo introdotto i vettori aleatori discreti nella Lezione 14. Vedremo ora il casogenerale, e discuteremo in dettaglio i vettori aleatori assolutamente continui.

Definizione. Sia ( Ω,F , P ) uno spazio di probabilita assegnato. Un vettore aleatorio su Ωe una mappa

W : Ω→ Rn, ω 7→W(ω) =(W1(ω), . . . Wn(ω)

)tale che (condizione di misurabilita)

W(−1)(B) ∈ F , per ogni B ∈ B(Rn)

Osservazioni

(a.) La σ-algebra di Borel di Rn, denotata B(Rn), e la minima σ-algebra che contiene gliaperti di Rn.

(b.) Se W e un vettore aleatorio, le sue componenti Wi sono variabili aleatorie, infat-ti la misurabilita delle funzioni Wi(ω), per i = 1, . . . n e una facile conseguenza dellamisurabilita del vettore.

Come per le variabili aleatorie scalari, anche per i vettori aleatori interessa probabi-lizzare lo spazio dei valori, in questo caso Rn. Utilizzando la tecnica introdotta con levariabili aleatorie discrete, poi estesa ai vettori discreti e alle variabili aleatorie scalarigenerali, la misura di probabilita indotta da P su Rn e definita come

PW(B) := P(W(−1)(B)

), per ogni B ∈ Rn

Abbiamo gia visto (Lezione 16) che, per una variabile aleatoria scalare X, la misuraindotta PX e completamente specificata dalla funzione di distribuzione FX(x) := P (X ≤x) = PX( (−∞, x] ). L’analogo multidimensionale della FdD e la funzione di distribuzionecongiunta del vettore W, definita come

FW(w1, w2, . . . wn) := P (W1 ≤ w1,W2 ≤ w2, . . . Wn ≤ wn ).

Come nel caso scalare, anche nel caso vettoriale la FdD congiunta caratterizza completa-mente la misura indotta PW, come illustrato di seguito nel caso bidimensionale.

Vettori aleatori bidimensionali

Per semplicita notazionale consideriamo il caso n = 2, ovvero i vettori bidimensionaliW = (W1,W2). Ci riferiremo indifferentemente al vettore W o alla coppia di variabilialeatorie (W1,W2). Per denotare le componenti di un vettore bidimensionale useremoindifferentemente le notazioni (W1,W2), o (X1, X2), o (X,Y ).

Definizione. La FdD congiunta della coppia di variabili aleatorie (X,Y ) e

FXY (x, y) := P (X ≤ x, Y ≤ y) = P ( (X,Y ) ∈ B ), dove B = (−∞, x]× (−∞, x]

Lemma. La FdD congiunta caratterizza completamente PXY .

Dimostrazione. Per ogni rettangolo R := (x1, x2]× (y1, y2] ∈ R2, si ha che, vedi figura,

PXY (R) = P (x1 < X ≤ x2, y1 < Y ≤ y2)

= FXY (x2, y2)− FXY (x1, y2)− FXY (x2, y1) + FXY (x1, y1) (1)

126

6

-

6

-

6

-

6

-x1 x2

y1

y2

R

+ − − +

Poiche ogni evento B ∈ B(Rn) si puo rappresentare come unione numerabile di rettangolisi conclude che FXY (x, y) caratterizza completamente la probabilita indotta su R2.

Proprieta della FdD bidimensionale

(a.) FXY (−∞,−∞) := limx,y→−∞ FXY (x, y) = 0.

(b.) FXY (∞,∞) := limx,y→∞ FXY (x, y) = 1.

(c.) FXY (∞, y) := limx→∞ FXY (x, y) = FY (y).

(d.) FXY (x,∞) := limy→∞ FXY (x, y) = FX(x).

Dimostrazione. Sono tutte conseguenze della continuita della misura di probabilita.Per la (a.) si osservi che

limx,y→−∞

[X ≤ x] ∩ [Y ≤ y] = ∅ ∩ ∅ = ∅,

quindi, per la continuita della probabilita,

limx,y→−∞

FXY (x, y) = limx,y→−∞

P ([X ≤ x] ∩ [Y ≤ y]) = P (∅) = 0

Per la (b.) basta osservare che

limx,y→∞

[X ≤ x] ∩ [Y ≤ y] = Ω ∩ Ω = Ω,

quindi, per la continuita della probabilita,

limx,y→∞

FXY (x, y) = limx,y→∞

P ([X ≤ x] ∩ [Y ≤ y]) = P (Ω) = 1

Per la (c.) si osservi che

limx→∞

[X ≤ x] ∩ [Y ≤ y] = Ω ∩ [Y ≤ y] = [Y ≤ y],

quindi, per la continuita della probabilita

limx→∞

FXY (x, y) = limx→∞

P ([X ≤ x] ∩ [Y ≤ y]) = P ([Y ≤ y]) = FY (y)

ed analogamente si dimostra la (d.).

127

21.2 Vettori aleatori bidimensionali assolutamente continui

Questo e il caso in cui esiste una funzione fXY (x, y), non negativa e integrabile secondoRiemann su R2, tale che

FXY (x, y) =

∫ y

−∞

∫ x

−∞fXY (u, v) dudv

La funzione fXY e detta densita congiunta della coppia di v.a. (X,Y ).

Proprieta della densita congiunta

(a.) Non-negativitafXY (x, y) ≥ 0 per ogni (x, y) ∈ R2.

(b.) Normalizzazione ∫∫R2

fXY (x, y) dxdy = 1,

conseguenza immediata della FXY (∞,∞) = 1.

Lemma. Ogni funzione f(x, y) integrabile secondo Riemann su R2, non-negativa e normalizzata e la funzione

di densita di una coppia di variabili aleatorie (X,Y ). (La dimostrazione ricalca quella del caso scalare)

(c.) Relazione con la FdD.

In ogni punto (x, y) ∈ R2 di continuita della densita fXY (x, y),

fXY (x, y) =∂2

∂x∂yFXY (x, y),

come segue dal teorema fondamentale del calcolo.

(d.) Calcolo della probabilita di eventi assegnati

Per i rettangoli il calcolo e immediato. Sia R := (x1, x2]× (y1, y2], allora

P ((X,Y ) ∈ R) =

∫∫RfXY (x, y) dσ

=

∫ y2

y1

∫ x2

x1

fXY (x, y) dxdy,

infatti, utilizzando la FdD congiunta e ricordando la (1),

P ((X,Y ) ∈ R) = P (x1 < X ≤ x2, y1 < Y ≤ y2)

= FXY (x2, y2)− FXY (x1, y2)− FXY (x2, y1) + FXY (x1, y1)

=

[∫ y2

−∞

∫ x2

−∞−∫ y2

−∞

∫ x1

−∞−∫ y1

−∞

∫ x2

−∞+

∫ y1

−∞

∫ x1

−∞

]fXY (x, y) dxdy

=

∫ y2

y1

∫ x2

x1

fXY (x, y) dxdy =

∫∫RfXY (x, y) dσ

Per eventi generali, B ∈ B(R2), vale

P((X,Y ) ∈ B

)=

∫∫BfXY (x, y) dxdy

che si giustifica ricordando che ogni B ∈ B(Rn) e un unione numerabile di rettangoli edusando poi l’addittivita. Il calcolo della probabilita di un assegnato evento si riduce quindial calcolo di un integrale doppio.

128

(e.) Interpretazione della densita congiunta.

Come per il caso scalare, i valori della densita congiunta fXY (x, y) non rappresentanoprobabilita. Si puo dare un’interpretazione della densita simile a quella data nel casoscalare. Applicando due volte il teorema della media integrale

P (a < X ≤ a+ h, b < Y ≤ b+ k) =

∫ b+k

b

∫ a+h

afXY (x, y) dxdy

=

∫ b+k

bfXY (ξ, y)h dy

= fXY (ξ, ζ)hk ≈ fXY (a, b)hk

dove ξ ∈ (a, a+ h), ζ ∈ (b, b+ k). Possiamo quindi scrivere

P (a ≤ X ≤ a+ h, b ≤ Y ≤ b+ k) ≈ fXY (a, b)hk, per h, k piccoli

(f.) Densita marginali.

Ricordando che FY (y) = FXY (∞, y) si ha che

FY (y) = FXY (∞, y) =

∫ y

−∞

[∫ ∞−∞

fXY (u, v) du

]dv

e, calcolando la derivata rispetto ad y,

fY (y) =d

dyFY (y) =

d

dy

∫ y

−∞

[∫ ∞−∞

fXY (u, v) du

]dv

=

∫ ∞−∞

fXY (u, y) du.

Analogamente

fX(x) =

∫ ∞−∞

fXY (x, v) dv.

Normalmente queste formule si trovano scritte come fX(x) =∫∞−∞ fXY (x, y) dy, ed analoga-

mente per l’altra.

Osservazione. La conoscenza delle FdD FX(x) ed FY (y) delle componenti X ed Y diun vettore aleatorio (X,Y ) non e sufficiente alla determinazione della FdD congiuntaFXY (x, y).

Nota bene. Per i vettori assolutamente continui, come per le v.a. scalari assolutamentecontinue, se l’evento si riduce ad un punto la probabilita e nulla.

P (X = a, Y = b) = 0, per ogni a, b ∈ R.

Nel caso bidimensionale assolutamente continuo sono inoltre nulle le probabilita

P (X = a, b1 ≤ Y ≤ b2) = 0, P (a1 ≤ X ≤ a2, Y = b) = 0,

ovvero: la probabilita di ogni rettangolo di R2 di area nulla (un segmento in R2) e nulla.Immediata conseguenza di questo fatto e che i rettangoli (x1, x2]×(y1, y2], [x1, x2]×[y1, y2],ecc. che si ottengono aggiungendo o rimuovendo frontiere ad R, hanno tutti la stessaprobabilita. Piu in generale, per una proprieta degli integrali doppi di funzioni Riemannintegrabili, se il dominio d’integrazione ha area nulla, l’integrale e nullo. Quindi se adesempio B e una curva in R2, la probabilita P

((X,Y ) ∈ B

)= 0.

129


22.1 Densita bidimensionale uniforme

Sia D ∈ B(R2), un sottoinsieme limitato. Si consideri la funzione

f(x, y) =

c se (x, y) ∈ D,0 se (x, y) /∈ D.

Facendo ricorso alla funzione indicatrice del sottoinsieme D, la funzione f si scrive informa compatta

f(x, y) = c χD(x, y).

Mostriamo ora che, scegliendo opportunamente c ∈ R, la funzione f e una funzione didensita congiunta. La condizione di integrabilita secondo Riemann e verificata banalmenteessendo f costante su D e su Dc. Affinche sia f(x, y) ≥ 0 e sufficiente che c ≥ 0. Peraltroil valore di c e imposto dalla condizione di normalizzazione, in particolare∫∫

R2

f(x, y) dσ =

∫∫R2

cχD(x, y) dσ = c area(D).

Si ricava che c = 1area(D) e che la funzione

f(x, y) =1

area(D)χD(x, y)

e una densita congiunta su R2.

Definizione. Il vettore (X,Y ) e congiuntamente uniforme sul sottoinsieme limitato D ∈B(R2), e si denota (X,Y ) ∼ U(D), se esso ha densita di probabilita congiunta

fXY (x, y) =1

area(D)χD(x, y)

Proprieta della densita uniforme bidimensionalePer ogni sottoinsieme B ∈ B(R2) risulta20

P((X,Y ) ∈ B

)=

1

area(D)

∫∫B

1lD(x, y) dxdy

=1

area(D)

∫∫R2

1lB(x, y) 1lD(x, y) dxdy

=1

area(D)

∫∫R2

1lB∩D(x, y) dxdy

=area(B ∩D)

area(D),

che e esattamente quello che l’intuizione suggerisce. Si noti che se, in particolare, B ⊂D allora P (B) = area(B)

area(D) non dipende dalla posizione del sottoinsieme B all’interno del

dominio D, ma solo dalla sua area. E questa proprieta che giustifica il nome della densita.

Micro-esercizio. Meditare sull’analogia tra i vettori uniformi su un dominio limitato D ∈B(R2) e le variabili aleatorie uniformi su un intervallo finito [a, b] ∈ B(R).

20Si osservi che, se E,F ⊂ R2 allora χE(x, y)χF (x, y) = χE∩F (x, y)

130

Esercizi svolti in aula

Esercizio 1. Data la funzione

f(x, y) =

x2 + xy

3 se (x, y) ∈ D,0, se (x, y) /∈ D,

doveD = (x, y); 0 ≤ x ≤ 1, 0 ≤ y ≤ 2

Verificare che la funzione f e una denstia congiunta e, detto (X,Y ) un vettore di densitacongiunta fXY = f , calcolare la probabilita

P((X,Y ) ∈ E

), dove E = (x, y);x+ y ≥ 1

Esercizio 2. La coppia di v.a. (X,Y ) ha densita congiunta uniforme nel dominio

D = (x, y); (x− 1)2 + (y − 1)2 ≤ 1

Calcolare le densita marginali fX(x) e fY (y).

Esercizio 3. Data la densita congiunta

fXY (x, y) =

λ2e−λ(x+y) se (x, y) ∈ R2

+,0, altrove,

verificare che fXY e una densita e calcolare P(X ≥ Y

).

22.2 Osservazione sui vettori misti

Abbiamo ora trattato sia i vettori aleatori discreti che quelli assolutamente continui. Laclassificazione delle variabili aleatorie scalari in discrete, assolutamente continue e mistevale anche nel caso vettoriale. La varieta di possibili comportamenti e molto maggiore nelcaso vettoriale. Le componenti del vettore possono essere di diversa natura, una discretaed una continua, e.g, (X,Y ) = (sesso, altezza), oppure almeno una delle componenti emista, o entrambe sono miste. Tempo permettendo vedremo nelle prossime lezioni cometrattare questi casi.

22.3 Funzioni scalari Z = g(X, Y ) di vettori assolutamente continui

Sia (X,Y ) un vettore aleatorio assolutamente continuo, di densita congiunta fXY (x, y), esia g : R2 → R una funzione misurabile, allora Z = g(X,Y ) e una variabile aleatoria ed hasenso porsi il problema del calcolo (se esistono) del suo valore atteso e/o della sua densita.

Calcolo del valore atteso

Anche in questo caso il valore atteso della variabile aleatoria scalare Z = g(X,Y ) si puocalcolare, senza dover preliminarmente determinare la densita fZ(z), e vale

E(g(X,Y )) =

∫∫R2

g(x, y)fXY (x, y) dxdy.

131

La dimostrazione, data nella Lezione 14 per il caso dei vettori discreti, non e adattabile alcaso assolutamente continuo (aggiungere dimostrazione in prossima revisione).

Esempio. Un semplice, ma importante, esempio e g(x, y) = x+ y. In questo caso

E(X + Y ) =

∫∫R2

(x+ y)fXY (x, y) dxdy

=

∫∫R2

xfXY (x, y) dxdy +

∫∫R2

yfXY (x, y) dxdy

=

∫RxfX(x) dx+

∫RyfY (y) dy = E(X) + E(Y )

Facendo ricorso a questo risultato si dimostra l’addittivita del valore atteso nel casoassolutamente continuo.

Densita di funzioni scalari di vettori assolutamente continui

A volte il problema d’interesse e proprio la determinazione della densita fZ(z) della vari-abile aleatoria scalare Z = g(X,Y ). E facile scrivere la funzione di distribuzione di Zfacendo ricorso ad una formula molto generale, e quindi molto astratta.

FZ(z) := P (Z ≤ z) = P (g(X,Y ) ≤ z) =

∫∫Dz

fXY (x, y) dxdy,

doveDz = (x, y) ; g(x, y) ≤ z .

La densita cercata e

fZ(z) =d

dzFZ(z).

Esempio importante. Sia Z = X + Y , allora

FZ(z) :=

∫∫x+y≤z

fXY (x, y) dxdy =

∫ ∞−∞

[∫ z−y

−∞fXY (x, y) dx

]dy.

Si tracci un grafico del dominio per capire l’integrale iterato. Calcolando la derivatarispetto a z,

fZ(z) =d

dzFZ(z) =

∫ ∞−∞

fXY (z − y, y) dy

E possibile scambiare i ruoli di x ed y nel calcolo dell’integrale iterato. In tal caso si arrivaalla formula equivalente

fZ(z) =d

dzFZ(z) =

∫ ∞−∞

fXY (x, z − x) dx

132


23.1 Condizionamento per v.a. assolutamente continue

Abbiamo gia avuto modo di apprezzare il ruolo delle probabilita condizionate nella costruzionedi modelli probabilistici. Per le variabili aleatorie discrete, nelle Lezioni 14 e 15, abbiamodefinito le densita condizionate discrete. Per comodita avevamo distinto tre casi, che sipresentano spesso nelle applicazioni, (a.) densita condizionata di una v.a. X rispetto adun evento E qualunque: fX|E(x|E), (b.) densita condizionata di una v.a. X rispettoad un evento [X ∈ B] generato dalla v.a. X stessa: fX|[X∈B](x|X ∈ B), (c.) densitacondizionata di una v.a. X rispetto all’evento [Y = y], il valore assunto da un’altra v.a.:fX|Y (x|y). Per esempi di ognuno dei tre tipi nel caso di variabili discrete si rimanda alleLezioni 14 e 15.

Esempio di tipo (a.) (esempio del paragrafo 20.1 rivisitato) Si consideri il seguente gioco.Si lancia una moneta. Se esce Testa il giocatore deve far girare l’ago di una ruota dellafortuna, il cui bordo e graduato nell’intervallo [0, 2]. Quando la ruota si ferma il bancopaga al giocatore la cifra in euro corrispondente alla posizione dell’ago sul bordo dellaruota. Se esce Croce il giocatore paga 1 euro al banco. Sia V la variabile aleatoria cherappresenta la vincita netta del giocatore. Calcolare la densita fV (x).

Soluzione. Le regole del gioco consistono in due probabilita condizionate del tipo (a.)!

fV |T (x|T ) =1

21l[0,2](x),

fV |C(x|C) = δ(x+ 1).

Si noti che fV |T (x|T ) e assolutamente continua, mentre fV |C(x|C) e discreta (degenere,essendo la densita della costante -1) La densita fV (x) si trova applicando la legge dellaprobabilita totale

fV (x) =1

2fV |T (x|T ) +

1

2fV |C(x|C) =

1

41l[0,2](x) +

1

2δ(x+ 1)

Nella Lezione 20 questo esempio era servito ad illustrare una semplice situazione speri-mentale che produce modelli a variabili aleatorie miste.

Esempio di tipo (b.) (assenza di memoria per v.a. esponenziali) Sia X ∼ Exp(λ), quindila funzione di densita di X e fX(x) = λe−λx 1l(x). Calcolare la densita condizionata

fX|[X≥a](x|X ≥ a).

Soluzione. Un calcolo banale fornisce P (X ≥ a) = e−λa. Condizionando rispetto all’evento[X ≥ a] si trova

P (X ≥ x|X ≥ a) =P (X ≥ max (x, a))

P (X ≥ a)=

1 se x ≤ a,P (X≥x)P (X≥a) = e−λ(x−a), se x > a.

e quindi

FX|[X≥a](x|[X ≥ a]) = 1− P (X ≥ x|X ≥ a) =

0 se x < a,

1− e−λ(x−a), se x ≥ a.

Calcolando la derivata rispetto ad x di FX|[X≥a](x|[X ≥ a]) si trova la densita condizionata

fX∣∣X≥a(x|X ≥ a) =

0 se x < a,

λe−λ(x−a), se x ≥ a.

= λe−λ(x−a)1l(x− a) = fX(x− a)

133

che e una delle espressioni equivalenti della proprieta detta assenza di memoria della v.a.esponenziale. Si veda la lezione 17 per una presentazione alternativa.

L’esempio di densita ondizionata piu delicato e quello di tipo (c.), quando la variabilecondizionante Y e assolutamente continua. Trattiamo questo caso nel prossimo paragrafo.

Densita condizionata rispetto ad una v.a. assolutamente continua

Supponiamo che (X,Y ) sia una coppia di v.a. assolutamente continue, di assegnata densitacongiunta fXY (x, y). Definiremo la densita condizionata di X dato Y = y, che denotere-mo fX|Y (x|y). La definizione va data attraverso un procedimento di limite poiche l’eventocondizionante [Y = y] ha probabilita nulla per ogni y ∈ R. Si osservi che e molto naturaletrovarsi in questa situazione. L’informazione a priori di cui si dispone all’atto del con-dizionamento si basa su osservazioni della variabile Y . Gli strumenti di misura possonoavere fornito informazioni del tipo a ≤ Y ≤ b, oppure Y > c oppure, appunto, Y = d.

Anche la funzione di distribuzione condizionata FX|Y (x|y) := P (X ≤ x|Y = y) va

definita con un procedimento di limite, poiche P ([X≤x]∩[Y=y])P (Y=y) = 0

0 .

Definizione. (funzione di distribuzione condizionata)

FX|Y (x|y) := limδ↓0

P (X ≤ x|y ≤ Y ≤ y + δ)

A partire dalla definizione calcoliamo un’espressione generale per la funzione di distribuzionecondizionata. Se fY (y) > 0 allora

FX|Y (x|y) := limδ↓0

P (X ≤ x, y ≤ Y ≤ y + δ)

P (y ≤ Y ≤ y + δ)

= limδ↓0

∫ x−∞

[∫ y+δy fXY (u, v) dv

]du∫ y+δ

y fY (v) dv

= limδ↓0

∫ x−∞ fXY (u, y) δ du

fY (y) δ

=

∫ x−∞ fXY (u, y) du

fY (y)

nei punti y dove fY (y) = 0 la funzione FX|Y (x|y) non e definita.

La densita condizionata si ottiene derivando rispetto ad x,

fX|Y (x|y) =d

dxFX|Y (x|y) =

d

dx

∫ x−∞ fXY (u, y) du

fY (y)=fXY (x, y)

fY (y).

La densita condizionata ha una forma intuitivamente chiara, essendo il rapporto tra ladensita congiunta e la marginale. Si possono immediatamente scrivere le usuali espressioni:densita congiunta, formula di Bayes, densita marginali, in termini di densita condizionate,

fXY (x, y) = fX|Y (x|y)fY (y) = fY |X(y|x)fX(x)

fY |X(y|x) =fX|Y (x|y)fY (y)

fX(x)

fX(x) =

∫ ∞−∞

fXY (x, y) dy =

∫ ∞−∞

fX|Y (x|y)fY (y) dy

fY (y) =

∫ ∞−∞

fXY (x, y) dx =

∫ ∞−∞

fY |X(y|x)fX(x) dx

134

23.2 Coppie di v.a. indipendenti

Definizione. La coppia di v.a. (X,Y ) e detta indipendente se la funzione di distribuzionecongiunta soddisfa la proprieta di fattorizzazione

FXY (x, y) = FX(x)FY (y), per ogni (x, y) ∈ R2

Lemma. Le seguenti affermazioni sono equivalenti

(a.) X ed Y sono indipendenti

(b.) per ogni rettangolo R = [x1, x2]× [y1, y2],

P((X,Y ) ∈ R

)= P (X ∈ [x1, x2])P (Y ∈ [y1, y2])

(c.) (nel caso assolutamente continuo) per ogni (x, y) ∈ R2

fXY (x, y) = fX(x)fY (y)

(d.) (nel caso assolutamente continuo) per ogni (x, y) ∈ R2

fX|Y (x|y) = fX(x), oppure fY |X(y|x) = fY (y)

Le proprieta delle v.a. indipendenti viste nel caso discreto continuano a valere. In par-ticolare se la coppia (X,Y ) e indipendente allora la coppia (X,Y ) e scorrelata, ovveroE(XY ) = E(X)E(Y ).

Densita delle funzioni scalari Z = g(X,Y ) di variabili indipendenti

Esempio 1. Sia Z = max(X,Y ) ed (X,Y ) indipendenti. Calcolare la forma generale delladensita di Z.

FZ(z) = P (Z ≤ z) = P (max(X,Y ) ≤ z) = P (X ≤ z, Y ≤ z) = FX(z)FY (z)

La corrispondente densita e

fZ(z) = F ′X(z)FY (z) + FX(z)F ′Y (z)

Se (X,Y ) sono indipendenti ed identicamente distribuite (i.i.d.) con FX = FY allora

FZ(z) =(FX(z)

)2La corrispondente densita e

fZ(z) = 2FX(z)F ′X(z) = 2FX(z)fX(z)

Ad esempio se (X,Y ) sono i.i.d. uniformi U([0, 1]) allora

fZ(z) =

2z se 0 ≤ z ≤ 1,0, altrove.

Esempio 2 (molto importante) Nell’ultimo esempio della Lezione 22, avevamo calcolato,nel caso di densita congiunta generale, la densita di Z = g(X,Y ) = X + Y ottenendo

fZ(z) =

∫ ∞−∞

fXY (z − v, v) dv.

135

Se (X,Y ) sono indipendenti la densita fZ(z) prende una forma molto familiare

fZ(z) =

∫ ∞−∞

fX(z − v)fY (v) dv,

la convoluzione delle densita fX ed fY . Questo risultato vale anche nel caso discreto, manon era stato menzionato quando abbiamo trattato le v.a .discrete indipendenti. Nel casodiscreto, per Z = X + Y con (X,Y ) indipendenti a valori in Z o in N,

pZ(n) =

∞∑k=−∞

pX(n− k)pY (k).

Esempio 3. Sia Z = αX + βY , combinazione lineare di X ed Y , che supponiamo ancoraessere indipendenti ed assolutamente continue. Per determinare la densita di Z sfruttiamoil seguente risultato (esercizio!). Se W = aX con a ∈ R allora

fW (w) =1

|a|fX

(wa

)Si ricava allora

fZ(z) = fαX(z)~ fβY (z) =1

|αβ|

∫fX

(z − vα

)fY

(v

β

)dv

Ad esempio la densita di Z = X − Y e

fZ(z) =

∫fX(z − v)fY (−v) dv

Raffica di esercizi proposti. (a.) (obbligatorio) Z = X + Y e Z = X − Y per (X,Y ) i.i.d.U([0, 1]). (b.) (obbligatorio) Z = X + Y per (X,Y ) i.i.d. Exp(λ). (c.) (obbligatorio)Z = X + Y per (X,Y ) i.i.d. b(p). (d.) (difficile) Z = X + Y per (X,Y ) indipendenticon X ∼ Bin(n, p) ed Y ∼ Bin(m, p). (e.) (raccomandato) Z = X + Y per (X,Y )indipendenti con X ∼ P(λ) ed Y ∼ P(µ).

Esempio 4. Il seguente esempio e molto importante: in prosa dice che le combinazionilineari di v.a. normali indipendenti sono v.a. normali. Lo presentiamo sotto forma diteorema.

Teorema. Se Z = αX + βY , con X ∼ N(µX , σ2X) ed Y ∼ N(µY , σ

2Y ) indipendenti allora

Z ∼ N(αµX + βµY , α2σ2X + β2σ2

Y ).

Dimostrazione. In linea di principio abbiamo a disposizione lo strumento per dimostrareil teorema. Definiamo

φ(v) =1√2π

e−v2

2 ,

la densita N(0, 1), allora la densita di X e 1σX

φ(x−µXσX

)ed analogamente la densita di Y

e 1σY

φ(y−µYσY

). Per dimostrare il teorema basta quindi verificare che

1√α2σ2

X + β2σ2Y

φ

z − (αµX + βµY )√α2σ2

X + β2σ2Y

=1

|α|σXφ

(z − µXασX

)~

1

|β|σYφ

(z − µYβσY

)

Questo e un calcolo concettualmente banale, ma molto laborioso se si effettua la con-voluzione direttamente. Vedremo piu avanti come dimostrare il teorema, in modo moltopiu semplice, usando le trasformate di Fourier.

136

Lezione 24 (Lunedı, 6 maggio 2013, ore 10:30-12:15)

24.1 Esercitazione sul calcolo della densita di Y = g(X)

Sono esercizi noiosi, concettualmente banali e computazionalmente insidiosi. E importantecapire bene il meccanismo di questi calcoli analizzando con attenzione le funzioni pi‘comuninel trattamento di segnali. Nella pagina seguente sono tracciati i grafici di alcune comunifunzioni g(x). Ognuna delle funzioni g(x) si puo interpretare come un sistema statico.A scopo illustrativo, accanto ad ogni g(x) e tracciato il grafico dell’uscita g(x(t), quandol’ingresso e l’onda triagolare x(t) rappresentata in alto a destra. La figura dovrebbe anchechiarire la tradizionale terminologia associata a queste g(x).

• g1(x) raddrizzatore a mezza onda

• g2(x) raddrizzatore a onda intera

• g3(x) limitatore

• g4(x) limitatore e raddrizzatore a mezza onda

• g5(x) limitatore e raddrizzatore a onda intera

Il vostro compito e studiare la densita dell’uscita g(X), quando l’ingresso e una variabilealeatoria X di densita nota. Inventatevi dei problemi e risolveteli!

Esercizio

Dati: y = g(x) = x2, ed X ∼ N(0, 1).

Usando la strategia gia sperimentata

FY (y) = P (X2 ≤ y) =

P (−√y ≤ X ≤ √y), se y ≥ 0,0, se y < 0.

ovvero, in termini della funzione di distribuzione FX , ed introducendo il gradino unitario,

FY (y) = P (X2 ≤ y) =(FX(√y)− FX(−√y)

)1l(y).

Calcolando la derivata – osservando che la derivata del gradino da contributo nullo, infatti(FX(√y)− FX(−√y)

)δ(y) = 0,

fY (y) =1

2√y

(fX(√y) + fX(−√y)

)1l(y).

Sostituendo la densita fX(x) fornita come dato, ovvero la N(0, 1) troviamo

fY (y) =1

2√y

( 1√2πe−

12y +

1√2πe−

12y)

1l(y)

=1√2πy

e−12y 1l(y)

La densita che abbiamo appena calcolato e detta densita chi-quadrato ad 1 grado di liberta,denotata χ2(1). Se X ∼ N(0, 1) allora Y = X2 ∼ χ2(1). La densita χ2 e una delle densitafondamentali in Statistica.

Quanto vale E(Y )? Si puo fare in due modi

E(Y ) =

∫ ∞−∞

yfY (y) dy =

∫ ∞0

y1√2πy

e−12ydy

= E(X2) = var(X) = 1.

Esercizio proposto. Come sopra, ma con X ∼ U(a, b), con 0 ≤ a < b.

137

c-c

c

-c

c

c

c-c

c

-c

c

c

c

g1(x)

g2(x)

g3(x)

g4(x)

g5(x)

x(t)

t

138

Valore atteso condizionato

Abbiamo introdotto, sia nel caso discreto che in quello assolutamente continuo, le densitacondizionate. E naturale porsi il problema del calcolo dei valori attesi rispetto a questedensita condizionate. Considereremo solo il caso della densita di una variabile aleatoriacondizionata ai valori assunti da un’altra variabile aleatoria. La definizione, introdottaqui al solo scopo di svolgere esercizi, verra ripresa nella prossima lezione.

Definizione. Sia g : R→ R una funzione misurabile ed integrabile. La media condizionatadella v.a. g(X) dato il valore assunto dalla v.a. Y e

E(g(X)|Y = y) :=

∫g(x)fX|Y (x|y) dx caso assolutamente continuo

E(g(X)|Y = yj) :=∑k

g(xk)pX|Y (xk|yj) caso discreto

Osservazione. Si noti che, mentre E(g(X)) e un numero reale, E(g(X)|Y = y) e unafunzione deterministica h : R→ R che mappa y 7→ h(y) := E(g(X)|Y = y). Le proprietadel valore atteso condizionato (funzione h(y)) saranno trattate nella prossima lezione.

Esercizio 1 (continuazione di Mario in libreria)

Mario va in libreria a curiosare ed acquistare libri. Le v.a. K ed N rappresentano rispet-tivamente quante ore Mario trascorre in libreria, e quanti libri Mario acquista. I dati adisposizione sono i seguenti. L’alfabeto di K e K := 1, 2, 3, 4 e la sua densita e uni-forme: pK(k) = 1

4 per k ∈ K. Per quanto riguarda la v.a. N e nota solamente la densitacondizionata

pN |K(n|k) :=

1k , se 1 ≤ n ≤ k, e k ≤ 40, se n > k, o k > 4.

Calcolare il valore atteso condizionato E(N |K = k).

Soluzione.

Il valore atteso condizionato vale

E(N |K = k) =

4∑n=1

npN |K(n|k) =

1 · 1 = 1 se k = 1,

1 · 12 + 2 · 1

2 = 32 , se k = 2,

1 · 13 + 2 · 1

3 + 3 · 13 = 2, se k = 3,

1 · 14 + 2 · 1

4 + 3 · 14 + 4 · 1

4 = 104 , se k = 4.

=

k∑n=1

n1

k=

1

k

k(k + 1)

2=k + 1

2

139

Esercizio 2 (adattato da: C. Ash - The Probability Tutoring Book - IEEE Press 1993)La coppia di v.a. (X,Y ) ha densita congiunta uniforme nel dominio triangolare T rapp-resentato in figura.

-

6

-1 1 x

y

1

Determinare:

(a.) la densita congiunta fXY (x, y)

(b.) le densita condizionate fX|Y (x|y) ed fY |X(y|x)

(c.) i valori attesi E[X|Y = y] ed E[Y |X = x]

(d.) i valori attesi E[X] ed E[Y ]

(e.) il valore atteso E[ min(X,Y ) ]

Soluzione

(a.) La densita congiunta e nulla per (x, y) ∈ T c ed e costante in T

fXY (x, y) =1

area(T )1lT (x, y) = 1lT (x, y)

(b.) Per il calcolo delle densita condizionate dobbiamo disporre delle marginali. La for-mula generale per il calcolo della densita marginale, fY (y) =

∫fXY (x, y)dx deve essere

opportunamente interpretata: ci aiutera la figura.

-

6

-1 1 x

y

1

x = 1− yx = y − 1

In primo luogo si deve capire qual e l’insieme dei valori possibili per la v.a. Y , in questocaso (vedi figura) Y ∈ [0, 1]. Sempre dalla figura si desumono i limiti di integrazione alvariare di y. Specificamente

fY (y) =

∫ 1−y

y−11 · dx = 2(1− y) per y ∈ [0, 1]

Analogamente si procede al calcolo della marginale fX(x) =∫fXY (x, y)dy. La v.a. X

prende valori nell’intervallo [−1, 1], ma l’integrale da calcolare per ottenere fX(x) haespressioni diverse a seconda che x ∈ [−1, 0] o x ∈ [0, 1]. In figura abbiamo rappresentatoil caso x ∈ [−1, 0].

140

-

6

-1 1 x

y

1y = 1 + x y = 1− x

fX(x) =

∫ 1+x

01 · dy = 1 + x per x ∈ [−1, 0]

Analogamente

fX(x) =

∫ 1−x

01 · dy = 1− x per x ∈ [0, 1]

Volendo si puo scrivere la densita fX(x) con un’unica formula come

fX(x) = 1− |x| per x ∈ [−1, 1].

Commento. Si noti che le densita marginali fX(x) ed fY (y) non sono uniformi, nonostantela densita congiunta sia uniforme su T .

Siamo ora pronti a scrivere le densita condizionate

fX|Y (x|y) =fXY (x, y)

fY (y)=

1

2(1− y)x ∈ [y − 1, 1− y], y ∈ [0, 1]

fY |X(y|x) =fXY (x, y)

fX(x)=

1

1− |x|y ∈ [0, 1− |x| ], x ∈ [−1, 1]

Commenti. (1.) Poiche fX|Y (x|y) dipende da y le variabili aleatorie X ed Y non sonoindipendenti. (2.) Si noti che la densita condizionata fX|Y (x|y) e uniforme sull’intervallo[y − 1, 1 − y]. Analogamente la densita condizionata fY |X(y|x) e uniforme sull’intervallo

[0, 1 − |x|]. E un fatto generale, immediata conseguenza della definizione, che le densitacondizionate mantengano la forma della densita congiunta, opportunamente riscalata.

(c.) Calcoliamo prima E[X|Y = y]. Abbiamo visto che per Y = y la v.a. X ha densitacondizionata uniforme, cioe costante in x, e vale fX|Y (x|y) = 1

2(1−y) nell’intervallo x ∈[y − 1, 1 − y]. Poiche l’intervallo [y − 1, 1 − y] e simmetrico intorno all’origine il valoreatteso condizionato sara ovviamente nullo, come conferma il calcolo:

E[X|Y = y] =

∫ 1−y

y−1x

1

2(1− y)dx =

1

2(1− y)

x2

2

∣∣∣1−yy−1

= 0 per y ∈ [0, 1].

Per il calcolo di E[Y |X = x], poiche per X = x la v.a. Y ha densita condizionatauniforme fY |X(y|x) = 1

1−|x| nell’intervallo y ∈ [0, 1−|x| ] il valore atteso condizionato sara

E[Y |X = x] = 1−|x|2 , come confermato dal calcolo esplicito

E[Y |X = x] =

∫ 1−|x|

0y

1

1− |x|dy =

1

1− |x|y2

2

∣∣∣1−|x|0

=1− |x|

2per x ∈ [−1, 1].

(d.) E un calcolo banale:

E[Y ] =

∫yfY (y)dy =

∫ 1

0y · 2(1− y)dy =

1

3.

141

Analogamente si trova che E[X] = 0.

(e.) Con riferimento alla figura, risulta

g(x, y) = min(x, y) =

x, per (x, y) ∈ T1,y, per (x, y) ∈ T2.

-

-1 1 x

y

1 y = x

T1

T2

6

Per il calcolo del valore atteso si dovra valutare

E[g(X,Y )] =

∫g(x, y)fXY (x, y) dxdy

che in questo caso diventa

E[min(X,Y )] =

∫T1

x · 1 dxdy +

∫T2

y · 1 dxdy

A questo punto ci siamo ridotti ad un esercizio di Analisi II. Conviene spezzare il dominioT1 in due sottodomini x-semplici, mentre T2 si puo trattare come un unico dominio y-semplice. Con riferimento alla figura (il punto d’intersezione tra y = x e y = 1 − x e(1

2 ,12)) si ottiene

E[min(X,Y )] =

∫ 0

−1

∫ 1+x

0x · 1 dydx+

∫ 12

0

∫ 1−x

xx · 1 dydx+

∫ 12

0

∫ 1−y

yy · 1 dxdy

Qualche passaggio algebrico fornisce s.e.o.o. E[min(X,Y )] = − 112 .

142

Appendice alla Lezione 24prego segnalare i sicuramente numerosi refusi

Esercizi svolti e proposti sulle funzioni di variabili aleatorie

Il problema e quello del calcolo della densita (o della funzione di distribuzione) di unafunzione di v.a. Y = g(X), a partire dall’espressione analitica di g e dalla densita (o dallafunzione di distribuzione) di X. In questa nota troverete alcuni esempi svolti ed alcuniesercizi proposti.

Quando si studia la funzione di v.a. Y = g(X) il risultato dipende dall’interazione tra i due“dati” del problema: la funzione deterministica y = g(x) e le caratteristiche probabilistichedella v.a. X ovvero la densita fX(x) nel caso di v.a. assolutamente continue, la densitadiscreta pX(x) nel caso di v.a. discrete, o in generale la funzione di distribuzione FX(x).

Ci sono fondamentalmente due strategie per risolvere questa tipologia di problemi.

Strategia 1. Ricavare la funzione di distribuzione FY (y) a partire dai dati del problemae poi, se richiesto dal problema, derivare FY (y) rispetto ad y per trovare, dove esiste, ladensita fY (y). L’idea dietro a questa strategia e che gli eventi di interesse per la v.a. Ysono in corrispondenza biunivoca con eventi per la v.a. X in accordo con

[Y ∈ B ] = [X ∈ g−1(B) ]

e quindiP (Y ∈ B) = P (X ∈ g−1(B))

in particolare, per gli eventi del tipo B = (−∞, y], si avra che

FY (y) := P (Y ≤ y) = P (g(X) ≤ y) = P(X ∈ g−1

((−∞, y]

)).

A lezione abbiamo visto vari esempi dove era possibile calcolare agevolmente la derivatarichiesta. In generale calcolare FY (y) puo essere difficoltoso richiedendo la valutazione di

P(X ∈ g−1

((−∞, y]

))al variare di y. Si noti che il calcolo delle anti-immagini

g−1((−∞, y]

)si puo condurre, per cosı dire, “fuori linea” nel senso che esse non dipendono in alcun mododalla densita della v.a. X, ma solo dalla funzione g. Una volta calcolate, le anti-immaginig−1((−∞, y]

)si possono utilizzare per determinare FY (y) qualunque sia la densita della

v.a. X che interviene nella Y = g(X).

Strategia 2. (SALTARE PARAGRAFETTO) Ricavare direttamente la funzione di densitadella v.a. Y utilizzando la formula

fY (y) = fX(h(y))

∣∣∣∣ ddyh(y)

∣∣∣∣dove h e la funzione inversa di g, che deve esistere affinche questa formula sia applicabile.In questa nota non considereremo la Strategia 2. Si tratta di un risultato di scarso valorepratico e meno potente dell’approccio diretto discusso in questa nota e presentato in classe.

Si tenga presente che il tipo della v.a. Y = g(X) puo essere diverso da quello della v.a.X. In particolare, se X e una v.a. discreta allora, qualunque sia la funzione g, la v.a.trasformata Y = g(X) sara ancora una v.a. discreta per l’ovvio motivo che la cardinalitadel codominio di una funzione e sempre minore o uguale a quella del suo dominio. Seinvece X e una v.a. continua, la v.a. Y = g(X) potra essere discreta, continua o mista aseconda di come g(x) ed fX(x) “interagiscono”.

143

Esempio 1 di funzione g(x)

Consideriamo la funzione

y = g(x) =

x− 1, se x < 1,x+ 1, se x ≥ 1,

il cui grafico e riportato in figura.

Cominciamo con il calcolo delle anti-immagini g−1((−∞, y]

)le quali ovviamente non

dipendono dalla densita fX(x) che andremo a considerare. Quando si calcolano le anti-immagini g−1

((−∞, y]

)e fondamentale avere prima accuratamente tracciato il grafico

della g. Ad ogni y fissato corrisponde un sottoinsieme di valori x: con abuso di notazionescrivero ad esempio x ≤ y − 1 per x ∈ R|x ≤ y − 1 ecc.

g−1((−∞, y]

)=

x+ 1 ≤ y = x ≤ y − 1 2 ≤ y <∞,x < 1 0 ≤ y < 2,x− 1 ≤ y = x ≤ y + 1 y < 0.

E banale, ma e facile fare errori. Si noti che la funzione y = g(x) non assume nessuno deivalori y ∈ [0, 2). Questo e evidente dal grafico ed ha come conseguenza che g−1

((−∞, y]

)=

x < 1 e costante per ogni y ∈ [0, 2). Qualunque sara la X, la v.a. Y = g(X) non potraassumere valori in [0, 2), ed ivi la FdD FY (y) sara costante e la densita fY (y) nulla.

Vediamo ora che densita si ottengono per Y = g(X) specificando diverse densita fX(x).

(a.) Calcolare la densita di Y = g(X) se X ∼ Exp(λ) (nel grafico λ = 1).

FY (y) =

P (X ≤ y − 1) =

∫ y−10 λe−λwdw = 1− e−λ(y−1), 2 ≤ y <∞,

P (X < 1) =∫ 1

0 λe−λwdw = 1− e−λ, 0 ≤ y < 2,

P (X ≤ y + 1) =∫ y+1

0 λe−λwdw = 1− e−λ(y+1), −1 ≤ y < 0P (X ≤ y + 1) = 0, −∞ < y < −1.

144

Si noti che, per ogni y < 0 vale g−1((−∞, y]

)= x ≤ y+1 e quindi FY (y) = P (X ≤ y+1).

Poiche X e concentrata su [0,∞), si ha pero che FY (y) = P (X ≤ y + 1) = 0 per y < −1.Qui sotto il grafico della FY (y).

Poiche la FdD FY (y) non ha salti, la v.a. Y = g(X) e di tipo continuo, come la v.a. X dipartenza. La densita esiste e si ottiene derivando FY (y)

fY (y) =

λe−λ(y−1) 2 ≤ y <∞,0, 0 ≤ y < 2,

λe−λ(y+1) −1 ≤ y < 0,0, −∞ < y < −1.

La densita fY (y) ha tre punti di salto, y = −1, y = 0 ed y = 2, dove cioe la FdD FY (y) none derivabile. Repetita iuvant: le discontinuita della densita non hanno nulla a che vederecon il tipo della v.a. Y , che si desume dal comportamento della funzione di distribuzione(continua in questo caso).

(b.) Esercizi proposti. Si calcoli la densita, continua o discreta, della v.a. Y = g(X) seX e una delle seguenti v.a. (le risposte fornite vanno prese con il beneficio d’inventario,segnalatemi eventuali errori).

• X ∼ Uniforme(2, 3), Risposta: Y ∼ Uniforme(3, 4).

• X ∼ Uniforme(0, 1), Risposta: Y ∼ Uniforme(−1, 0).

• X ∼ Uniforme(0.5, 1.5) Risposta: Y ∼ Uniforme([−0.5, 0] ∪ [2, 2.5]

)• X ∼ Bernoulli(p), Risposta: Y ∈ 1, 2, con pY (−1) = 1− p, pY (2) = p.

145

Domanda. Perche con questa g la v.a. Y = g(X) ha sempre lo stesso tipo della v.a. X?

Esempio 2 di funzione g(x)

Consideriamo la funzione

y = g(x) =

1, se x ≤ 0,−x+ 1, se x > 0,

il cui grafico e riportato in figura.

A differenza dell’esempio 1 la funzione g in questo caso e continua. Vedremo pero chequesta g puo mappare una v.a. continua in una mista, cosa non possibile con la g dell’e-sempio 1, a riprova del fatto che il tipo continuo o misto della v.a. Y non ha nulla a chevedere ne con la continuita topologica di g ne con quella di fX(x).

Calcoliamo le anti-immagini g−1((−∞, y]

).

g−1((−∞, y]

)=

R 1 ≤ y <∞,−x+ 1 ≤ y = x ≥ 1− y −∞ < y < 1.

Attenzione! Per questa g l’anti-immagine g−1(1) = x ≤ 0. Questo puo causareP (Y = 1) > 0, rendendo la v.a. Y di tipo misto anche se X e una v.a. continua – si vedail caso (b.) qui sotto.

(a.) Calcolare la densita di Y = g(X) se X ∼ Exp(λ), (la stessa X dell’esempio 1).

FY (y) =

P (X ∈ R) = 1 1 ≤ y <∞,P (X ≥ 1− y) =

∫∞1−y λe

−λwdw = eλ(y−1), −∞ ≤ y < 1,

Si noti che P (Y = 1) = P (X ≤ 0) = 0 poiche la v.a. X e concentrata su [0,∞). Quisotto, per λ = 1, il grafico della FY (y).

146

La v.a. Y e continua poiche la FdD non presenta salti. La densita fY (y) si trova derivando

fY (y) =

0 1 ≤ y <∞,λeλ(y−1), −∞ ≤ y < 1,

in forma compatta, si puo scrivere fY (y) = λeλ(y−1)1l(y − 1), vedi figura qui sotto.

(b.) Calcolare la densita di Y = g(X) se X ∼ Uniforme(−1, 2). Usando le anti-immaginiprecalcolate troviamo:

FY (y) =

P (X ∈ R) = 1 1 ≤ y <∞,P (X ≥ 1− y) =

∫ 21−y

13dw = 1

3(1 + y), −1 ≤ y < 1,

P (X ≥ 1− y) = 0 −∞ < y < −1

Si noti che P (Y = 1) = P (X ≤ 0) = 13 poiche X ∼ Uniforme(−1, 2). Qui sotto il grafico

di FY (y).

147

La v.a. Y e mista poiche la FdD presenta un salto, di ampiezza 13 , in y = 1. La den-

sita fY (y), nel senso usuale, non esiste, ma derivando la FdR nel senso delle funzionigeneralizzate si trova

fY (y) =1

3(1l(y + 1)− 1l(y − 1)) +

1

3δ(y − 1)

Il grafico e

Lascio come esercizio il calcolo della decomposizione di Lebesgue a partire dalla espressionedella FdD

(c.) Esercizi proposti. Si calcoli la densita, continua o discreta, della v.a. Y = g(X) perX v.a. di funzione di densita rispettivamente:

• fX(x) = λ2 e−λ|x|, dove x ∈ R. (detta densita di Laplace)

• X ∼ Uniforme(0, 1).

• X ∼ Uniforme(−1, 0) (attenzione a questa!).

• X ∼ Bernoulli(p) (e anche a questa).

148

Lezione 25 (Martedı, 7 maggio 2013, ore 16:30-18:15)

25.1 Valore atteso condizionato

(definizione ripresa dalla scorsa lezione)

Abbiamo introdotto, sia nel caso discreto che in quello assolutamente continuo, le densitacondizionate. E naturale porsi il problema del calcolo dei valori attesi rispetto a questedensita condizionate. Considereremo solo il caso della densita di una variabile aleatoriacondizionata ai valori assunti da un’altra variabile aleatoria.

medskipDefinizione. Sia g : R → R una funzione misurabile ed integrabile. La mediacondizionata della v.a. g(X) dato il valore assunto dalla v.a. Y e

E(g(X)|Y = y) :=

∫g(x)fX|Y (x|y) dx caso assolutamente continuo

E(g(X)|Y = yj) :=∑k

g(xk)pX|Y (xk|yj) caso discreto

Osservazione. Si noti che, mentre E(g(X)) e un numero reale, E(g(X)|Y = y) e unafunzione deterministica h : R→ R che mappa y 7→ h(y) := E(g(X)|Y = y). Le proprietadel valore atteso condizionato (funzione h(y)) sono trattate al punto 3.

Proprieta del valore atteso condizionato

Lemma. Se (X,Y ) sono indipendenti allora

E(g(X)|Y = y) = E(g(X)), per ogni y ∈ R

Dimostrazione. Se X ed Y sono indipendenti allora fX|Y (x|y) = fX(x) e sostituendo

E(g(X)|Y = y) =

∫g(x)fX|Y (x|y) dx =

∫g(x)fX(x) dx = E(g(X))

Si definisca la funzione h : R→ R come

h(y) = E(g(X)|Y = y).

Si noti che la funzione h(y) e deterministica: essa mappa il numero reale y nel numero realeE(g(X)|Y = y). Il Lemma sopra mostra che, se X ed Y sono indipendenti, la funzioneh(y) e una costante. In generale h(y) dipende da y. Ha perfettamente senso considerarela variabile aleatoria h(Y ), dove Y ∼ fY (y) ed ha perfettamente senso calcolarne il valoreatteso E(h(Y )) (quando esiste). E anche naturale, per denotare la variabile aleatoria h(Y ),usare la scrittura E(g(X)|Y ). Con questa notazione alternativa il valore atteso E(h(Y ))si scrive E

(E(g(X)|Y )

).

Lemma (del valore atteso iterato) Se g(X) ammette valore atteso allora

E(E(g(X)|Y

))= E(g(X))

Dimostrazione.

E(E(g(X)|Y )

)= E(h(Y )) =

∫h(y)fY (y) dy =

∫E(g(X)|Y = y)fY (y) dy

=

∫ [∫g(x)fX|Y (x|y) dx

]fY (y) dy =

∫∫g(x)fX|Y (x|y)fY (y) dydx

=

∫g(x)

[∫fXY (x, y) dy

]dx =

∫g(x)fX(x) dx = E(g(X)).

149

La dimostrazione e identica nel caso discreto

E(E(g(X)|Y )

)=

∑k

E(g(X)|Y = yk)pY (yk)

=∑k

∑h

g(xh)pX|Y (xh|yk)pY (yk) =∑h

g(xh)∑k

pXY (xh, yk)

=∑h

g(xh)pX(xh) = E(g(X)).

Esercizi svolti

Esercizio 1. Addentate (a caso) un grissino di lunghezza L. Sia Y ∼ U(0, L) la lunghezzadel grissino che vi rimane in mano. Dopo un secondo morso (a caso) vi rimane in manoun pezzo di grissino di lunghezza X ∼ U(0, Y ). Calcolare il valore atteso E(X).

Metodo diretto. Ricaviamo la densita fX(x) e quindi calcoliamo E(X). I dati del prob-lema sono: la densita fY e la densita condizionata fX|Y (x|y) Analiticamente i datisono:

fY (y) =1

L, per y ∈ [0, L]

fX|Y (x|y) =1

y, per x ∈ [0, y]

Per ricavare la densita fX calcoliamo prima la densita congiunta e quindi marginalizziamo.La densita congiunta delle v.a. X ed Y vale

fXY (x, y) = fX|Y (x|y)fY (y) =1

Ly, per (x, y) ∈ D := (x, y) ; x ∈ [0, y], y ∈ [0, L]

se non volete perdere traccia di quanto stiamo facendo fate un grafico del dominio D.Marginalizzando troviamo21 la densita fX

fX(x) =

∫fXY (x, y) dy =

∫ L

x

1

Lydy =

1

L(lnL− lnx), per x ∈ [0, L]

E una buona idea verificare che fX(x) sia effettivamente una densita∫ L

0fX(x) dx =

∫ L

0

1

L(lnL− lnx) dx = 1

dove abbiamo fatto uso dell’antiderivata∫

lnx = x lnx−x e del fatto che limx→0 x lnx = 0.

Calcoliamo finalmente il valore atteso

E(X) =

∫ L

0xfX(x) dx =

∫ L

0

x

L(lnL− lnx) dx =

L

4,

dove abbiamo fatto uso dell’antiderivata∫x lnx dx = x2

2 lnx− x2

4 .

Metodo del valore atteso iterato. Per il Lemma visto sopra E(X) = E(E(X|Y )

). Calcol-

iamo il valore atteso condizionato. Per Y = y la v.a. X ∼ U(0, y), quindi

E(X|Y = y) =y

221NOTA BENE. Nonostante le equazioni teoriche che esprimono le densita congiunte e/o le densita

marginali siano semplici e pulite, i calcoli pratici sono sporchi e complicati. E necessario prestare sempreestrema attenzione ai domini di definizione e di integrazione. Tracciate i grafici!

150

Da questa espressione si ricava che

E(X|Y ) =Y

2

quindi, poiche Y ∼ U(0, L),

E(X) = E(E(X|Y )

)= E

(Y

2

)=L

4

A volte sapere un po’ di teoria aiuta.

Esercizio 2. (somma di un numero aleatorio di addendi) Visito un certo numero N dinegozi, dove N e una v.a. a valori in N. Nel negozio k-esimo spendo Xk euro. Lev.a. Xk, k ∈ N sono identicamente distribuite, inoltre le variabili N, Xk, k ∈ N sonoindipendenti. Calcolare il valore atteso della spesa totale.

Soluzione. Sia S la v.a. spesa totale,

S =N∑k=1

Xk

Anche questo tipo di problema si presta bene al calcolo del valore atteso usando la tecnicadel valore atteso iterato.

E(S) = E(E(S|N)

)Calcoliamo prima il valore atteso per N = n

E(S|N = n) = E

(N∑k=1

Xk

∣∣∣N = n

)= E

(n∑k=1

Xk

∣∣∣N = n

)

=

n∑k=1

E(Xk|N = n) =

n∑k=1

E(Xk) poiche Xk ⊥⊥ N

= nE(X1).

Possiamo allora scrivere che la v.a. E(S|N) = NE(X1), da cui ricaviamo

E(S) = E(E(S|N)

)= E(NE(X1)) = E(N)E(X1)

Osservazione. L’addittivita del valore atteso NON si puo applicare in questo caso. Lascrittura

E(S) = E

(N∑k=1

Xk

)=

N∑k=1

E(Xk) = NE(X1) ???

e priva di senso poiche N e una variabile aleatoria, non un numero naturale! ScrivendoE(S) = E(

∑Nk=1Xk) =

∑Nk=1E(Xk) = NE(X1) stiamo asserendo che il valore atteso

della v.a. S non e un numero reale bensı la variabile aleatoria NE(X1). Un errore diquesto tipo sara punito alla stregua di una varianza negativa.

Esercizio 3. (vedi Mario in libreria – Lezione 24) Il calcolo di E(N), il numero medio di libriche Mario acquista ogni volta che va a fare un giro in liberia, si puo effettuare usando laformula del valore atteso iterato (si ricordi che K e uniforme su K = 1, 2, 3, 4).

E(N) = E(E(N |K)) = E

(K + 1

2

)=E(K) + 1

2=

104 + 1

4=

7

4

151

Esercizio 4. Una moneta ha probabilita di Testa P (T ) = Y , dove Y e una v.a. con densitafY (y) che ha supporto sull’intervallo [0, 1]. Effettuo n lanci della moneta. Sia X la v.a.che rappresenta il numero di Teste osservate negli n lanci. Calcolare il valore atteso di X.

Commento. Apparentemente questo esempio e molto artificiale, ma non lo e. Il parametrop = P (T ) della v.a. di Bernoulli che rappresenta l’esito del lancio di una moneta, e unavariabile aleatoria invece di essere un numero. La fY e la densita di probabilita dellaprobabilita di Testa. Puo sembrare una costruzione barocca, ma questo e un modellostandard impiegato in Statistica per rappresentare l’ignoranza su p. Le monete reali nonriportano in targhetta il valore di p e in qualche modo questa incertezza va modellata.Vedremo piu avanti, se ce ne sara il tempo, qual e il razionale di questo modello.

Soluzione. Per Y = y la v.a. X ∼ Bin(n, y) quindi E(X|Y = y) = ny. La v.a.E(X|Y ) = nY quindi E(X) = E(E(X|Y )) = E(nY ) = nE(Y ). Ad esempio, e moltocomune supporre che Y ∼ U([0, 1]). In questo caso E(X) = nE(Y ) = n

2 .

152

Appendice I alla Lezione 25Spazi vettoriali di variabili aleatorieTeoria geometrica del valore atteso condizionato

Materiale parzialmente trattato a lezione - non in programma 2012/13

1. Spazi e sottospazi vettoriali di variabili aleatorie

Sia S l’insieme delle v.a. che ammettono secondo momento ovvero

S := X : Ω→ R | E(X2) <∞

Vedremo tra poco che S e uno spazio vettoriale su R, ma questo richiede il seguente,fondamentale, risultato.

Lemma. (disuguaglianza di Cauchy-Schwarz)

|E(XY )| ≤√E (X2)E (Y 2)

Dimostrazione. Definiamo la v.a. W := tX + Y , dove t ∈ R. Poiche per ogni t ∈ R

0 ≤ E(W 2) = E((tX + Y )2) = E(X2)t2 + 2E(XY )t+ E(Y 2),

il determinante del polinomio di secondo grado in t deve essere non positivo, ovvero

4[E(XY )

]2 − 4E(X2)E(Y 2) ≤ 0,

da cui segue immediatamente la disuguaglianza di Cauchy-Schwarz.

Lemma. S e uno spazio vettoriale su R.

Dimostrazione. Si deve dimostrare la chiusura di S rispetto alla somma ed al prodottoper uno scalare. Chiusura rispetto alla somma. Se X,Y ∈ S allora X + Y ∈ S infattiE((X +Y )2

)= E(X2) +E(Y 2) + 2E(XY ), ma per la disuguaglianza di Cauchy Schwarz

|E(XY )| ≤√E(X2)E(Y 2) e quindi X + Y ∈ S. Chiusura rispetto al prodotto per uno

scalare. Se X ∈ S, per ogni a ∈ R la v.a. aX ∈ S, infatti E((aX)2

)= a2E(X2) <∞.

Osservazione. Gli elementi dello spazio vettoriale S (vettori) sono variabili aleatorie,ovvero funzioni X : Ω → R. Lo spazio vettoriale S e quindi uno spazio di funzioni. Lospazio vettoriale S ha dimensione infinita.

Esempi di sottospazi lineari di S

Esempio 1. (sottospazio delle v.a. a media nulla)

S0 := W ∈ S ; E(W ) = 0

e un sottospazio lineare di S (banale).

Esempio 2. (sottospazio generato da n v.a. assegnate) E facile verificare che l’insiemedelle combinazioni lineari di n v.a. assegnate Y1, . . . Yn tutte appartenenti a S,

L := spanY1, . . . Yn :=

W ; W =

n∑k=1

αkYk, αk ∈ R

,

e un sottospazio lineare. Il sottospazio L ha dimensione minore o uguale ad n

153

Esempio 3. (funzioni di una v.a. Y ∈ S) L’insieme σ(Y ) delle funzioni (che ammettonosecondo momento) v(Y ) di una fissata v.a. Y ∈ S,

σ(Y ) := v(Y ) ; v : R→ R, e E(v2(Y )

)<∞,

e un sottospazio lineare di S. Infatti se v1(Y ) ed v2(Y ) appartengono a σ(Y ), per ladisuguaglianza di Cauchy Schwarz e finito anche il secondo momento di αv1(Y ) +βv2(Y ).La dimensione del sottospazio σ(Y ) e infinita.

Prodotto scalare su S

Su S si definisce il prodotto scalare

〈X,Y 〉 := E(XY ) (1)

Verifichiamo che (1) e un prodotto scalare legittimo. Siano X,Y,W ∈ S.

(i) 〈X,Y 〉 = 〈Y,X〉, banale.

(ii) 〈aX + bY,W 〉 = a 〈X,W 〉+ b 〈Y,W 〉, per la linearita del valore atteso.

(iii) 〈X,X〉 ≥ 0, infatti 〈X,X〉 = E(X2) ≥ 0,

(iv) ||X||2 := 〈X,X〉 = 0 se e solo se X = 0, infatti E(X2) = 0 se e solo se X = 0.

Variabili aleatorie ortogonali

Avendo dotato S di un prodotto scalare possiamo introdurre la nozione di ortogonalita.

Definizione. Se 〈X,Y 〉 = E(XY ) = 0 le v.a. X ed Y si dicono ortogonali e scriveremoX⊥Y .

Osservazione. Le v.a. X e Y sono scorrelate se e solo se le v.a. X−E(X) ed Y −E(Y ) sonoortogonali. Infatti le due condizioni equivalgono a 〈X − E(X), Y − E(Y )〉 = E(XY ) −E(X)E(Y ) = 0. Ne segue anche che, se X o Y hanno media nulla, la scorrelazione el’ortogonalita di X ed Y sono equivalenti. L’esistenza di variabili aleatorie di media nonnulla e una seccatura con la quale si deve convivere.

2. Interpretazione geometrica del valore atteso condizionato

La chiave per l’interpretazione geometrica del valore atteso condizionato e contenuta nellaseguente proprieta fondamentale della v.a. E(X|Y ).

Lemma di proiezione. Per ogni funzione v : R→ R misurabile e tale che v(Y ) e integrabilevale l’identita

E(X v(Y )

)= E

(E(X|Y ) v(Y )

)(2)

Dimostrazione. Consideriamo, ad esempio, il caso assolutamente continuo.

E(X v(Y )

)=

∫∫xv(y)fXY (x, y) dxdy

=

∫ [∫xfXY (x, y) dx

]v(y) dy

=

∫ [∫xfX|Y (x|y) dx

]v(y)fY (y) dy

=

∫E(X|Y = y) v(y)fY (y) dy

= E(E(X|Y ) v(Y )

)

154

Interpretazione geometrica del Lemma di proiezione.

Usando la definizione del prodotto scalare su S l’enunciato del Lemma si scrive

〈X, v(Y )〉 = 〈E(X|Y ), v(Y )〉, per ogni v(Y ) ∈ σ(Y )

che, per la linearita del prodotto scalare, equivale a

〈X − E(X|Y ), v(Y )〉 = 0 per ogni v(Y ) ∈ σ(Y ).

Geometricamente l’ultima equazione dice che il vettore X − E(X|Y ) e ortogonale a tuttii vettori v(Y ) ∈ σ(Y ) ovvero che

E(X|Y ) e la proiezione ortogonale di X su σ(Y )

X

X − E(X|Y )

E(X|Y ) σ(Y )

3. Il Teorema di Pitagora

Poiche il valore atteso condizionato e una proiezione ortogonale, sia nel caso discreto chenel caso continuo vale il teorema di Pitagora

||X ||2 = ||X − E(X|Y ) ||2 + ||E(X|Y ) ||2. (3)

L’interpretazione probabilistica della relazione Pitagorica richiede qualche manipolazione.

Ricordiamo che, per ogni W ∈ S,

||W ||2 = E(W 2) = var(W ) + [E(W )]2.

Osserviamo anche che la v.a. X − E(X|Y ) ha valore atteso E(X − E(X|Y )

)= 0.

L’equazione (3) diventa allora

var(X) +[E(X)

]2= var

(X − E(X|Y )

)+ var

(E(X|Y )

)+[E(E(X|Y )

)]2

che, cancellando[E(X)

]2a sinistra e a destra, si riduce a

var(X) = var(X − E(X|Y )

)+ var

(E(X|Y )

)(4)

La nozione di varianza condizionata consente di reinterpretare il primo termine a destra.

Definizione (varianza condizionata)

var(X|Y ) := E( (X − E(X|Y )

)2 ∣∣∣Y ).155

Attenzione. La varianza condizionata non e un numero bensı una v.a. Per determinarevar(X|Y ) si puo cominciare calcolando la funzione deterministica

w(y) := var(X|Y = y) = E( (X − E(X|Y = y)

)2 ∣∣∣Y = y)

=

∫ ∞−∞

(x− E(X|Y = y)

)2fX|Y (x|y) dx

e quindi la v.a. varianza condizionata e var(X|Y ) = w(Y ).

Il primo termine nel membro di destra dell’equazione (3) non e altro che il valore attesodella v.a. varianza condizionata.

Lemma e dimostrazione.

||X − E(X|Y ) ||2 = E((X − E(X|Y )

)2)= calcolo il valore atteso iterato

= E(E((X − E(X|Y )

)2∣∣∣Y ))= E

(var(X|Y )

)Sostituendo nella (3), e per gli altri termini seguendo (4), si trova

var(X) = E(var(X|Y )

)+ var

(E(X|Y )

). (5)

4. Esempi di calcolo

Esempio 1. (seguito dell’esercizio 2 a pagina 37) La variabile aleatoria d’interesse e

S =N∑k=1

Xk

sotto le ipotesi dell’esercizio 2 a pag. 37. Abbiamo gia calcolato E(S|N) = N E(X1). Pertrovare un’espressione analitica della v.a. varianza condizionata, var(S|N), calcoliamoprima

var(S|N = n) = var

(N∑k=1

Xk

∣∣∣N = n

)

= var

(n∑k=1

Xk

∣∣∣N = n

)

= var

(n∑k=1

Xk

)= n var(X1)

Vale quindi var(S|N) = N var(X1) ed applicando la decomposizione (5) si trova

var(S) = E(var(S|N)

)+ var

(E(S|N)

)= E

(N var(X1)

)+ var

(N E(X1)

)= E(N) var(X1) + var(N)

(E(X1)

)2.

156

5. Valore atteso condizionato come stimatore

Motivazione. Si supponga di dover stimare con un numero reale c una variabile aleatoriaX ∈ S. Una possibilita e di effettuare un esperimento il cui risultato e modellato daX ed impiegare l’esito di X come costante c. Questa scelta non soddisfa un criterio diottimalita, inoltre X potrebbe non essere osservabile. Per scegliere c la teoria geometricasuggerisce di minimizzare il quadrato della norma d’errore ||X − c||2.

Lemma.c∗ := arg min

c∈R||X − c||2 = E(X)

Dimostrazione. Attenzione: non si puo prendere X = c, perche c deve essere un numeroreale. Peraltro un calcolo diretto fornisce

||X − c||2 = E((X − c)2

)= E

((X − E(X) + E(X)− c)2

]= E

((X − E(X))2

)+ 2E

([X − E(X)][E(X)− c]

)+ E

((E(X)− c)2

)= var(X) + (E(X)− c)2

Questa espressione e somma di due quantita non negative di cui la prima e indipendenteda c. Scegliendo c = E(X) si annulla il termine dipendente da c e quindi si raggiunge ilminimo.

Valore atteso condizionato come stimatore. Si supponga di disporre della densita congiuntadi due v.a. (X,Y ) e di poterne osservare solo una, poniamo la Y , e di voler stimare ilvalore della v.a. X sulla base della v.a. Y . E ragionevole quindi che lo stimatore della Xsia costruito come funzione, diciamo v(Y ), della v.a. Y . Per scegliere la funzione v(Y ) lateoria geometrica suggerisce di minimizzare il quadrato della norma d’errore ||X−v(Y )||2.

Lemma.v∗(Y ) = arg min

v(Y )∈σ(Y )||X − v(Y )||2 = E(X|Y )

Dimostrazione. Dal punto di vista geometrico la soluzione e ovviamente data dalla proiezioneortogonale di X su σ(Y ), e quindi v∗(Y ) = E[X|Y ]. Si puo riderivare lo stesso risulta-to per via analitica imitando quanto fatto sopra per il valore atteso. Questa parte delladimostrazione e ridondante, ma non guasta fare esercizio.

||X − v(Y )||2 = E((X − v(Y ))2

)= E

((X − E(X|Y ) + E(X|Y )− v(Y ))2

)= E

((X − E(X|Y ))2

)+ 2E

([X − E(X|Y )

][E(X|Y )− v(Y )

])+ E

((E(X|Y )− v(Y ))2

)= var(X − E(X|Y )) + E

((E(X|Y )− v(Y ))2

).

Il lettore dimostri che il doppio prodotto nel penultimo passaggio e nullo (conviene calcolareil valore atteso iterato condizionando rispetto ad Y ). Anche in questo caso ci siamo quindiridotti alla somma di due quantita positive, la prima delle quali indipendente da v(Y ).Scegliendo v(Y ) = E(X|Y ) si annulla il termine dipendente, quindi il minimo si raggiungeper v∗(Y ) = E(X|Y ).

157

Appendice II alla Lezione 25 – Teoria geometrica nel caso discretonon in programma 2012/13

Nel caso discreto l’interpretazione geometrica del valore atteso condizionato puo essere data con completorigore senza bisogno di introdurre nozioni di teoria della misura.

1. Richiamo sulle formule di proiezione ortogonale negli spazi vettoriali a prodotto interno

Sia V uno spazio vettoriale dotato di prodotto scalare. Per v, w ∈ V, denotiamo 〈v, w〉 il prodotto scalaree ||v|| =

√〈v, v〉 la corrispondente norma.

Proiezione su un sottospazio unidimensionale. Dato un vettore w ∈ V, il sottospazio lineare di V generatoda w e

H := spanw = αw |α ∈ R .Dato un qualunque vettore v ∈ V ci poniamo il problema del calcolo della proiezione ortogonale di v suH. Denotiamo PHv la proiezione cercata. Naturalmente PHv ∈ H e il problema si riduce al calcolodell’opportuno scalare α∗ tale che PHv = α∗w. La figura qui sotto dovrebbe aiutare a capire il Lemma ela dimostrazione seguenti.

-

6

- -

v

w αw PHv H

v − αw

v − PHv

Lemma.

PHv =〈v, w〉〈w,w〉 w

Dimostrazione. Poiche PHv ∈ H sara PHv = α∗w per un opportuno α∗. Il modo piu semplice perdeterminare α∗ e imporre la condizione di ortogonalita v − αw⊥H, che equivale ad imporre v − αw⊥w,ovvero

〈v − αw,w〉 = 0

che, per la linearita del prodotto scalare, fornisce

α∗ =〈v, w〉〈w,w〉 .

Esercizio. Calcolare lo scalare α∗ che caratterizza la proiezione ortogonale minimizzando la norma del-l’errore di proiezione v − αw. Nota bene: e equivalente, ma piu comodo, minimizzare il quadrato dellanorma.

Proiezione su un sottospazio multidimensionale. Consideriamo ora il caso in cui

H := spanw1, w2, . . . wM =

M∑j=1

cjwj∣∣ c1, . . . cM ∈ R

.

Faremo l’ipotesi che i vettori w1, w2, . . . wM siano ortogonali, ovvero 〈wi, wj〉 = 0 per ogni i 6= j. Sottoquesta ipotesi H e un sottospazio lineare di V, di dimensione M .

158

Lemma.

PHv =

M∑j=1

〈v, wj〉〈wj , wj〉

wj

Dimostrazione. La proiezione PHv ∈ H, quindi si tratta di determinare gli M scalari c∗1, . . . c∗M tali che

PHv =∑Mj=1 c

∗jwj . Per farlo imponiamo la condizione di ortogonalita v −

∑Mj=1 cjwj⊥H, che equivale ad

imporre v−∑Mj=1 cjwj⊥wk per ogni vettore wk della base di H. In termini di prodotti interni la condizione

e: ⟨v −

M∑j=1

cjwj , wk

⟩= 0 per ogni k = 1, 2, . . .M

Per la linearita del prodotto scalare, e sfruttando l’ortogonalita dei wk, si ottiene

c∗j =〈v, wj〉〈wj , wj〉

.

E possibile scrivere formule di proiezione anche nel caso in cui i vettori wj non sono ortogonali. Inalternativa, tramite la procedura di Gram-Schmidt, si puo produrre, a partire da un insieme di vettoriindipendenti w1, . . . wM , una base ortogonale. Questi sono argomenti che avete gia visto nel corso diAlgebra Lineare e che rivedrete all’opera nei corsi piu avanzati di Stima e Filtraggio.

2. Valore atteso condizionato - caso delle v.a. indicatrici

Introdurremo l’interpretazione geometrica del valore atteso condizionato procedendo per gradi, dal casopiu semplice al piu generale. In questo paragrafo X ed Y saranno entrambe v.a. di Bernoulli. A partire daquesto caso si puo costruire rigorosamente tutta la teoria discreta. Per i fini di questa nota il comportamentodelle variabili aleatorie come funzioni Ω→ R e piu rilevante delle densita. Per questo motivo approfondiamoalcune idee sulle funzioni indicatrici, che sono le funzioni Ω→ R che originano le v.a. di Bernoulli.

Definizione. Sia (Ω,F , P ) uno spazio di probabilita dato e B ∈ F . La variabile aleatoria χB , indicatricedell’evento B, e definita come

χB(ω) =

1, se ω ∈ B0, se ω ∈ Bc.

La v.a. χB ha alfabeto 0, 1 quindi e una Bernoulli, e poiche

P (χB = 1) = P (ω;χB = 1) = P (B),

la v.a. χB ∼ b(P (B)), e valeE[χB ] = P (B).

Le seguenti proprieta delle v.a. indicatrici sono banali, ma utili

• χ2B = χB , per ogni B ∈ F ,

• χB χC = χB∩C , per ogni coppia B,C ∈ F .

Definizione. (Insieme delle funzioni di una assegnata v.a. Y ). Data una qualunque v.a. Y l’insieme dellevariabili aleatorie che sono funzioni di Y , e

σ(Y ) := h(Y ) |h : R→ R .

Vediamo ora le proprieta di σ(Y ) nel caso particolare in cui Y = χB .

Lemma.σ(χB) = c1χB + c2χBc | c1, c2 ∈ R.

Dimostrazione. L’insieme σ(χB) contiene tutte la funzioni del tipo h(χB)(ω), dove h e una qualunquefunzione h : R → R. Per un’assegnata h, la funzione h(χB)(ω) assume solo due valori: h(0) se ω ∈ B eh(1) se ω ∈ Bc. Per ogni ω ∈ Ω vale quindi l’identita

h(χB)(ω) = h(0)χB(ω) + h(1)χBc(ω)

(se vi convincete della validita di questa rappresentazione della funzione h(χB)(ω) capirete facilmente ilresto della nota). Poiche h e arbitraria, h(0) e h(1) sono numeri reali arbitrari, diciamoli c1, e c2. Abbiamodimostrato che l’insieme delle funzioni h(χB) coindide con l’insieme delle v.a. della forma c1χB + c2χBc

per c1 e c2 reali abritrari.

E interessante osservare che l’insieme σ(χB) e un sottospazio lineare di S. Piu precisamente vale il seguente:

159

Lemma. σ(χB) e un sottospazio lineare di S, di dimensione 2. I vettori χB e χBc formano una baseortogonale di σ(χB).

Dimostrazione. Osserviamo che σ(χB) ⊂ S (perche ?). Per verificare l’ortogonalita di χB e χBc calcoliamo

〈χB , χBc〉 = E[χBχBc ] = E[χB∩Bc ] = E[χ∅] = E[0] = 0.

Poiche χB e χBc sono ortogonali, sono anche linearmente indipendenti (attenzione: χB e χBc NON sonoprobabilisticamente indipendenti, verificatelo!). Si conclude che σ(χB) e un sottospazio lineare di S, didimensione 2, ovvero σ(χB) = spanχB , χBc .

Sia χA un’assegnata v.a indicatrice. Trattandosi di un vettore di S ha senso calcolare la proiezioneortogonale

Pσ(χB)(χA)

Il risultato di questa operazione sara ovviamente un elemento di σ(χB), ovvero una v.a. funzione di χB .La proiezione ortogonale cercata e data dalla formula (vedi appendice se necessario)

Pσ(χB)(χA) =〈χA, χB〉〈χB , χB〉

χB +〈χA, χBc〉〈χBc , χBc〉

χBc , (6)

valida poiche χB e χBc sono ortogonali.

Identifichiamo ora il significato probabilistico della proiezione (6). Dalla definizione di prodotto scalare

〈χA, χB〉 = E[χAχB ] = E[χA∩B ] = P (A ∩B),

inoltre〈χB , χB〉 = E[(χB)2] = E[χB ] = P (B).

Procedendo in modo analogo con gli altri prodotti interni otteniamo

Pσ(χB)(χA) = P(A|B) χB + P(A|Bc) χBc . (7)

La proiezione Pσ(χB)(χA) e dunque una v.a. che assume due valori,

Pσ(χB)(χA)(ω) =

P(A|B), se ω ∈ BP(A|Bc), se ω ∈ Bc. (8)

Convincetevi che (7) e (8) contengono la stessa informazione se non volete aver problemi a capire il seguitodella nota.

Tutto questo e vagamente interessante, ma ecco la piece de resistance.

Calcoliamo il valore atteso condizionato E[χA |χB ] con la regola elementare. Anche questa e una v.a. cheassume due valori, a seconda che χB = 1 o χB = 0, ovvero a seconda che ω ∈ B o che ω ∈ Bc. Inparticolare

E[χA |χB = 1] = E[χA |B] = 0 · P (Ac|B) + 1 · P (A|B) = P (A|B) perω ∈ BE[χA |χB = 0] = E[χA |Bc] = 0 · P (Ac|Bc) + 1 · P (A|Bc) = P (A|Bc) perω ∈ Bc

Con una formula compatta (convincetevi che vale per ogni ω) possiamo scrivere

E[χA |χB ] = P(A|B) χB + P(A|Bc) χBc . (9)

Confrontando (7) e (9) concludiamo che

E[χA |χB ] = Pσ(χB)(χA).

La v.a. valore atteso condizionato di χA dato χB coincide con la proiezione ortogonale di χA sul sottospaziogenerato dalla v.a. condizionante χB .

Concludiamo la prima parte rivisitando una formula nota. Calcoliamo E[χA] usando la regola del valoreatteso iterato:

E[χA] = E[E[χA|χB ]

].

Usando la (9), e per la linearita del valore atteso,

P (A) = E[χA] = E[E[χA|χB ]

]= E

[P(A|B) χB + P(A|Bc) χBc

]= P(A|B)E[χB ] + P(A|Bc)E[χBc ]

= P (A|B)P (B) + P (A|Bc)P (Bc),

una vecchia conoscenza.

160

3. Valore atteso condizionato - caso della v.a. condizionante discreta

Verificheremo ora che, anche quando la v.a. condizionante Y e un’arbitraria v.a. discreta,

E[χA |Y ] = Pσ(Y )(χA).

Sia dunque Y una v.a. discreta a valori in y1, y2, . . . yM e definiamo gli insiemi Bj := Y −1(yj), j =1, . . . ,M . Gli insiemi Bj formano una partizione di Ω e vale l’identita

Y (ω) = y1χB1 + y2χB2 + · · ·+ yMχBM

Generalizzando immediatamente quanto visto per il caso delle v.a. indicatrici, un’arbitraria funzione h(Y )della v.a. Y e rappresentabile nella forma

h(Y )(ω) = h(y1)χB1 + h(y2)χB2 + · · ·+ h(yM )χBM

dove h(y1), . . . , h(yM ) sono M numeri reali. Abbiamo cosı dimostrato che lo spazio σ(Y ), generato dallav.a. Y , e

σ(Y ) :=

M∑j=1

cjχBj | c1, . . . cM ∈ R

Poiche 〈χBh , χBk 〉 = E[χBh

χBk ] = 0 per ogni h 6= k, l’insieme σ(Y ) e un sottospazio lineare, di dimensioneM , di S, ovvero

σ(Y ) = spanχB1 , . . . , χBM ,e χB1 , . . . , χBM ne e una base ortogonale.

Fissata una v.a. indicatrice χA e immediato il calcolo della proiezione ortogonale

Pσ(Y )(χA) =

M∑j=1

〈χA, χBj 〉〈χBj , χBj 〉

χBj =

M∑j=1

P(A|Bj) χBj

Per dimostrare che Pσ(Y )(χA) coincide anche in questo caso con E[χA |Y ] usiamo la regola elementare peril calcolo del valore atteso condizionato. La v.a. E[χA |Y ] assume M valori, e specificamente per ω ∈ Bjesso vale

E[χA |Y = yj ] = E[χA |Bj ] = P (A|Bj).Incollando insieme i pezzi per j = 1, . . .M , si ottiene la rappresentazione

E[χA |Y ] =

M∑j=1

P(A|Bj) χBj

e quindi, come nel caso delle funzioni indicatrici,

E[χA |Y ] = Pσ(Y )(χA).

Il valore atteso condizionato di χA data Y coincide con la proiezione ortogonale di χA sul sottospaziogenerato dalla v.a. condizionante Y . Lasciamo al lettore l’interpretazione della formula E[χA] = E[E[χA|Y ]]in questo caso.

4. Valore atteso condizionato - caso discreto generale

E un semplice esercizio generalizzare quanto visto finora al caso del valore atteso condizionato E[X|Y ] dovesia X che Y sono v.a. discrete generali. Se X := x1, . . . xN e l’alfabeto di X, imitando quanto gia fattovarie volte finora, possiamo scrivere

X(ω) = x1χA1 + x2χA2 + · · ·+ xNχAN

doveAi := X−1(xi). Poiche la proiezione ortogonale e una trasformazione lineare abbiamo immediatementeche

Pσ(Y )(X) = Pσ(Y )

(N∑i=1

xiχAi

)=

N∑i=1

xi Pσ(Y )(χAi) =N∑i=1

xi

M∑j=1

P(Ai|Bj) χBj

Peraltro il valore atteso condizionato E[X|Y ] per Y = yj , ovvero per ω ∈ Bj , vale, usando la formulaelementare

E[X|Y = yj ] =

N∑i=1

xipX|Y (xi|yj) =

N∑i=1

xiP(Ai|Bj)

e quindi la v.a. E[X|Y ], ragionando come nei casi precedenti, coincide con la proiezione ortogonalePσ(Y )(X). Una rappresentazione piu chiara di E[X|Y ] si ottiene mettendo in evidenza i χBj :

E[X|Y ](ω) =N∑i=1

xi

M∑j=1

P(Ai|Bj) χBj (ω) =

M∑j=1

[N∑i=1

xipX|Y (xi|yj)

]χBj (ω).

161

Lezione 26 (Mercoledı, 8 maggio 2013, ore 16:30-18:15)

26.1 Motivazione allo studio della funzione generatrice dei momenti

Nello studio delle variabili aleatorie abbiamo introdotto E(X) e var(X) come parametririassuntivi del comportamento probabilistico di X. Il valore atteso e un indice di localiz-zazione, essendo il numero reale intorno al quale sono distribuiti i possibili valori di X.La varianza e un indice di variabilita, proporzionale alla dispersione dei possibili valori diX intorno al valore atteso. La disuguaglianza di Chebyshev lega i due indici: il limitesuperiore per la probabilita degli scostamenti di X da E(X) e proporzionale alla varianza,

P (|X − E(X)| > c) ≤ var(X)c2

. Poiche var(X) = E(X2) −(E(X)

)2, le informazioni con-

tenute nella coppia di parametri E(X), var(X) sono equivalenti a quelle contenute nellacoppia E(X), E(X2).

Per naturale estensione, tutti i momenti diX possono considerarsi parametri riassuntividel comportamento probabilistico. Ricordiamo che per ogni k = 0, 1, 2, . . . il momento diordine k di X, e (nel caso assolutamente continuo e in quello discreto rispettivamente)

mk := E(Xk) =

∫ ∞−∞

xkfX(x) dx, mk := E(Xk) =∑k

xkkpX(xk),

se l’integrale (la serie) esiste finito. Una banale condizione sufficiente, che garantiscel’esistenza di mk per ogni k ∈ N, e che la densita abbia supporto su un intervallo [a, b]finito. Se il supporto e illimitato, una condizione sufficiente e che la densita tenda a zeropiu velocemente di qualunque xk. La normale, l’esponenziale, la geometrica, la Poisson,soddisfano tutte questo criterio. In generale non tutti i momenti di una data variabilealeatoria esistono ma, per quanto dimostrato nel paragrafo 17.1, se esiste ms allora esistonotutti gli mr, per ogni r < s. La v.a. di Cauchy ad esempio non ammette m1 := E(X),e quindi nessun momento di ordine superiore ad 1. Si noti invece che il momento m0

esiste sempre, ma non e informativo, infatti m0 = E(X0) = E(1) = 1, qualunque siaX. L’intuizione suggerisce che tutti gli altri momenti mk, k ≥ 1, sono informativi e chemaggiore e il numero di momenti noti, maggiori sono le informazioni sul comportamentoprobabilistico di X. Il prossimo risultato mostra che, se l’alfabeto di X e finito, l’intuizionee corretta.

Lemma. Sia X una v.a. a valori in X = x1, x2, . . . xN . Dati i momenti

mk = E(Xk), k = 0, 1, . . . N − 1,

la densita di probabilita pX(xi), i = 1, 2, . . . N e univocamente determinata.

Dimostrazione. Scriviamo le equazioni che definiscono i momenti mk in forma matricialem0

m1

m2

. . .mN−1

=

1 1 1 . . . 1x1 x2 x3 . . . xNx2

1 x22 x2

3 . . . x2N

. . . . . . . . . . . . . . .

xN−11 xN−1

2 xN−13 . . . xN−1

N

pX(x1)pX(x2)pX(x3). . .

pX(xN )

Questo e un sistema di N equazioni lineari nelle N incognite pX(xi). La matrice delsistema e di Vandermonde22, ed ha determinante non nullo poiche gli xi sono distinti,quindi la soluzione pX(x1) . . . pX(xN ) esiste ed e unica.

22per un richiamo sulle matrici di Vandermonde si veda un qualunque testo di algebra lineare. E fattaabbastanza bene la pagina http://en.wikipedia.org/wiki/Vandermonde matrix

162

Osservazione. Bisogna prestare molta attenzione ed evitare di leggere in questo Lemmaquello che non c’e scritto. Non e vero che, data una qualunque sequenza di numeri realim0,m1, . . .mN−1, con m0 = 1, la soluzione del sistema lineare qui sopra, che esiste ede unica, soddisfi i vincoli pX(xi) ≥ 0 per ogni i = 1, 2 . . . N e

∑i pX(xi) = 1, sia cioe

una densita di probabilita legittima. A tal fine bisogna che la sequenza m0,m1, . . .mN−1

sia effettivamente la sequenza dei momenti di una qualche variabile aleatoria. Una talesequenza non puo essere arbitraria: ad esempio m2, m4, . . .m2k . . . devono, quanto meno,essere non-negativi per poter rappresentare momenti di ordine pari. La caratterizzazionedelle sequenze di numeri reali mk che sono possibili sequenze di momenti di una v.a.costituisce il classico problema dei momenti dell’analisi matematica.

Nel caso di v.a. generali (discrete o continue) non e sempre possibile ricostruire univo-camente la densita di probabilita a partire dalla conoscenza dei momenti, anche ammessodi conoscere la sequenza infinita mkk≥0. Accettando comunque l’idea che piu momen-ti si conoscono maggiori sono le informazioni a disposizione sulla densita considereremointeressante ogni strumento matematico che ci consenta di calcolare in modo semplice imomenti mk.

Il metodo brute-force per il calcolo dei momenti consiste nel valutare

mk = E(Xk) =

∫xkfX(x) dx, per k = 0, 1, . . . ,

ovvero infiniti integrali. Peraltro la v.a. eX , funzione della v.a. X, ha un’interessanteproprieta. Calcolando il valore atteso di eX e ricordando che ex =

∑∞k=0

xk

k! , si trova

E(eX)

=

∫exfX(x) dx = E

( ∞∑k=0

Xk

k!

)=∞∑k=0

E(Xk)

k!,

ammesso che sia lecito lo scambio di valore atteso e serie. Si osservi il risultato del calcolodi un unico integrale, E

(eX), si puo esprimere come combinazione lineare (infinita) dei

momenti mkk≥0. La funzione generatrice dei momenti, introdotta qui sotto, e unamacchinetta analitica che consente di estrarre gli E(Xk) dalla combinazione lineare.

26.2 Funzione generatrice dei momenti

Definizione. La funzione generatrice dei momenti (MGF) della v.a. X e

MX : D → R; s 7→MX(s) := E(esX),

dove D ⊂ R e il sottoinsieme degli s ∈ R tali che l’integrale E(esX)

esiste finito. Si notiche, qualunque sia la variabile aleatoria X, il dominio D 6= ∅, infatti s = 0 7→ MX(0) =E(1) = 1.

Se il dominio di definizione di MX(s) e un intervallo D = (−s+0, s0) intorno all’origineallora la variabile aleatoria X ammette tutti i momenti, come specificato nel seguenteteorema.

Teorema 1. Se MX(s) ha dominio di esistenza D = (−s+ 0, s0), per qualche s0 > 0 allorala variabile aleatoria X ammette tutti i momenti mkk≥0, inoltre

mk = E(Xk) =d(k)

ds(k)MX(s)

∣∣∣s=0

, (1)

163

Cenno di dimostrazione. Sviluppando esx in serie di Taylor

MX(s) := E(esX)

=

∫ ∞−∞

esxfX(x) dx

=

∫ ∞−∞

∞∑k=0

sk

k!xk fX(x) dx

=

∞∑k=0

sk

k!

∫ ∞−∞

xk fX(x) dx

=∞∑k=0

E(Xk)sk

k!,

dove lo scambio dell’integrale con la serie e possibile poiche MX(s) esiste per ogni s ∈ D =(−s0, s0), per qualche s0 > 0 (questa parte della dimostrazione e omessa). La funzionegeneratrice dei momenti e quindi rappresentabile, per ogni s ∈ D, con la serie di potenze

MX(s) =∞∑k=0

E(Xk)sk

k!. (2)

Peraltro se f(t) e una funzione sviluppabile in serie di potenze in un intorno dell’origine,

ovvero f(t) =∑∞

k=0 aktk e noto che ak = 1

k!dk

dtkf(t)

∣∣t=0

. Confrontando con la serie dipotenze (2) si trova

mk = E(Xk) =dk

dskMX(s)

∣∣s=0

.

Si osservi che la formula (1) consente di ricavare tutti i momenti mk a partire dal calcolodelle derivate nell’origine, operazione (generalmente) semplice, della funzione MX(s). Inrealta i momenti mk si possono addirittura ricavare per ispezione, senza calcoli, se si riescea scrivere lo sviluppo in serie di potenze di MX(s). Si vedano gli Esempi 3 e 6 qui sotto!

Esempi di calcolo di MX(s)

Esempio 1. Se Z ∼ N(0, 1),

MZ(s) = e12s2 , per ogni s ∈ R

Dimostrazione. Si usa la tecnica del completamento del quadrato.

MZ(s) =

∫esx

1√2πe−

12x2dx

=

∫1√2πe−

12x2+sx dx

=

∫1√2πe−

12

((x−s)2−s2

)dx

=

[∫1√2πe−

12

(x−s)2dx

]e

12s2

= e12s2

dove, nell’ultimo passaggio, si riconosce che l’integranda e la densita N(s, 1) che integraad 1, per ogni s ∈ R. Si veda anche l’Esempio 4

Micro-esercizio. Verificare che E(Z) = M ′Z(0) = 0, E(X2) = var(X) = M ′′Z(0) = 1.

164

Esempio 2. Se X ∼ Bin(n, p),

MX(s) = E(esX)

=

n∑k=0

esk(n

k

)pk(1− p)n−k =

n∑k=0

(n

k

)(pes)k(1− p)n−k

= (pes + 1− p)n, per ogni s ∈ R

Micro-esercizio. Verificare che E(X) = M ′X(0) = np. Calcolare E(X2) = M ′′X(0) everificare i conti riottenendo la nota varianza della binomiale.

Esempio 3. Se X ∼ Exp(λ),

MX(s) =

∫ ∞0

esxλe−λx dx = λ

∫ ∞0

e−(λ−s)x dx =λ

λ− s, per s < λ

Si noti che, in questo caso, il dominio di esistenza della MX(s) si riduce alla semirettas < λ. Poiche il parametro λ di una densita esponenziale e strettamente positivo sideduce che la MX(s) esiste in un intorno dell’origine e quindi e possibile determinare i

momenti E(Xk) = M(k)X (0). Per calcolare i momenti della v.a. esponenziale sfruttando il

Teorema 1 si puo operare in due modi. Il modo diretto e usare la formula mk = E(Xk) =dk

dskMX(s)

∣∣s=0

. Il modo furbo e scrivere lo sviluppo in serie di potenze di MX(s) che eparticolarmente semplice ricordando le serie geometriche.

MX(s) =λ

λ− s=

1

1− sλ

=

∞∑k=0

( sλ

)k=

∞∑k=0

k!

λksk

k!

Abbiamo moltiplicato e diviso per k! i termini della serie geometrica per avere un’e-spressione identica alla (2), che consente di scrivere gli mk = E(Xk) per ispezione. Siricava

mk = E(Xk) =k!

λk,

non male come rapporto sforzo/risultato: per le v.a. esponenziali la sequenza infinita mk

si calcola in pochi secondi.

MGF di funzioni lineari

Teorema 2. Sia X una v.a. la cui MGF e MX(s). Sia inoltre Y = aX + b, allora

MY (s) = esbMX(as)

Dimostrazione. Per calcolo diretto,

MY (s) := E(esY)

= E(es(aX+b)

)= esbE

(esaX

)= esbMX(as)

165

Esempi di applicazione del Teorema 2

Esempio 4. Se X ∼ N(µ, σ2),

MX(s) = eµse12σ2s2 .

Dimostrazione. La densita N(µ, σ2) coincide con la densita della variabile aleatoria X =σZ + µ, dove Z ∼ N(0, 1), infatti X e una trasformazione lineare di Z, (si veda il sot-toparagrafo trasformazioni lineari delle v.a. normali, del paragrafo 18.1). Applicandol’Esempio 1 ed il Teorema 2 si ottiene il risultato.

Esempio 5 (Calcolo dei momenti centrali). I momenti centrali della v.a. X sono denotatiσk, e definiti come

σk := E((X − E(X))k

)= E

((X −m1)k

), k = 1, 2, . . .

se l’integrale (la serie) esiste ed e finito. Si noti che σ1 = 0, qualunque sia la v.a. X e cheσ2 = var(X). Ponendo Y = X −m1 e evidente che i momenti mY

k := E(Y k) coincidonocon i momenti centrali σXk := E

((X −m1)k

)di X. Il Teorema 2 fornisce allora

MY (s) = MX−m1(s) = e−m1sMX(s)

e, applicando il Teorema 1,

σk = E(Y k) =dk

dskMY (s)

∣∣s=0

=dk

dsk

[e−m1sMX(s)

]∣∣s=0

(3)

Esempio 6 (Calcolo dei momenti centrali della N(µ, σ2)). Come conseguenza degli Esempi4 e 5 si ha

MX−µ(s) = e−µseµse12σ2s2 = e

12σ2s2

Ora, imitando quanto fatto nell’Esempio 3, anziche applicare direttamente la formula (3)seguiamo la via furba, scrivendo direttamente la serie di potenze che rappresenta MX−µ(s).

MX−µ(s) = e12σ2s2 =

∞∑k=0

(12σ

2s2)k

k!=∞∑k=0

(σ2)k

2k k!s2k

=∞∑k=0

(σ2)k (2k)!

2k k!

s2k

(2k)!

Anche in questo caso abbiamo moltiplicato e diviso per (2k)! in modo da rendere imomenti di X −µ (momenti centrali di X), ricavabili per ispezione della serie di potenze.Si ha, per ogni k ≥ 1,

σ2k+1 = 0,

σ2k =(σ2)k (2k)!

2k k!.

Micro-esercizio. Verificare che: σ2 = σ2, σ4 = 3(σ2)2.

166

Il problema dell’esistenza della MGF MX(s)

Per capire qual e la radice del problema per la convergenza dell’integrale che definisceMX(s) si consideri il caso di una v.a. X di Cauchy. La densita fX(x) = 1

π1

1+x2 , quindil’espressione della MGF e

MX(s) =

∫1

π

esx

1 + x2dx

La figura qui sotto mostra l’andamento di esx al variare di s e l’andamento di 11+x2 .

Spezzando l’integrale per addittivita

MX(s) =

∫ 0

−∞

1

π

esx

1 + x2dx+

∫ ∞0

1

π

esx

1 + x2dx

Condizione necessaria per la convergenza dell’integrale e che l’integranda tenda a zero perx→ ±∞. Usando la regola di L’Hopital

limx→−∞

esx

1 + x2= lim

x→−∞

s2esx

2= 0, se e solo se s > 0

limx→∞

esx

1 + x2= lim

x→∞

s2esx

2= 0, se e solo se s < 0

Si conclude che MX(s) esiste solo per s = 0, dove banalmente vale MX(0) = 1.

167

Lezione 27 (Lunedı 13 maggio, ore 10:30–13:15)

27.1 Funzione caratteristica di una variabile aleatoria

La funzione caratteristica e un potente strumento per lo studio delle variabili aleatorie,per certi aspetti simile alla funzione generatrice dei momenti, ma molto piu potente. Lafunzione caratteristica, a differenza della funzione generatrice dei momenti, ha il pregio diesistere sempre; la cattiva notizia e che, in generale, essa e una funzione a valori complessi.

Definizione. La funzione caratteristica di una v.a. X e la funzione

ϕX : R→ C; ω 7→ ϕX(ω) := E(ejωX

)Nel caso di v.a. assolutamente continue

ϕX(ω) := E(ejωX

)=

∫ejωxfX(x) dx,

e nel caso di v.a. discrete

ϕX(ω) := E(ejωX

)=∑k

ejωxkpX(xk)

Legame con la nozione di trasformata di Fourier in Segnali e Sistemi

Nei libri di teoria della probabilita, la funzione caratteristica di una v.a. X e definita come trasformatadi Fourier (TdF) della funzione di densita fX(x). Gli allievi ingegneri, alle prime armi con la TdF, sonousualmente disorientati da questa definizione, poiche la definizione di TdF che viene utilizzata differisceleggermente da quella utilizzata in segnali e sistemi.

In realta nella letteratura scientifica convivono almeno quattro definizioni, leggermente diverse traloro, di TdF. Vediamo le quattro diverse coppie trasformata-antitrasformata, nel caso di un segnale x(t) atempo continuo e a valori complessi.

(a.) Per gli ingegneri dell’automatica

X(ω) :=

∫x(t)e−jωt dt

x(t) :=1

2π

∫X(ω)ejωt dω.

(b.) Rispetto alla definizione (a.) gli ingegneri delle telecomunicazioni sostituiscono ω con 2πf per farsparire il coefficiente 1

2πdall’antitrasformata o, piu pomposamente, per rendere la trasformazione x(t) ↔

X(f) unitaria su L2(R),

X(f) :=

∫x(t)e−j2πf dt

x(t) :=

∫X(f)ej2πft df.

(c.) Rispetto alla definizione (a.) i fisici moltiplicano la trasformata per 1√2π

in modo da avere lo stessofattore nella trasformata e nell’antitrasformata, ed anche questa e una trasformazione unitaria

X(ω) :=1√2π

∫x(t)e−jωt dt

x(t) :=1√2π

∫X(jω)ejωt dω.

(d.) Rispetto alla definizione (a.) i probabilisti scambiano ω con −ω,

X(ω) :=

∫x(t)ejωt dt

x(t) :=1

2π

∫X(jω)e−jωt dω,

168

Adottando quest’ultima convenzione per la definizione di TdF, e la notazione fX(x) ↔ ϕX(ω) per lacoppia segnale/trasformata, si riconosce che la funzione caratteristica, come definita all’inizio della lezione,e la trasformata di Fourier della densita di proabilita.

Proprieta elementari della funzione caratteristica

(a.) Esistenza, continuita e normalizzazione

ϕX(ω) esiste per ogni ω ∈ R, qualunque sia la densita fX(x). Infatti

|ϕX(ω)| =∣∣∣∣∫ ejωxfX(x) dx

∣∣∣∣ ≤ ∫ ∣∣ejωxfX(x)∣∣ dx =

∫fX(x) dx = 1.

Poiche ϕX(0) = E(ej0X

)= E(1) = 1 il modulo della funzione caratteristica ha un

massimo per ω = 0. La funzione caratteristica e inoltre uniformemente continua su R(dim. omessa).

(b.) Corrispondenza biunivoca funzioni caratteristiche funzioni di distribuzione

A livello piu fondamentale la funzione caratteristica si definisce a partire dalla funzionedi distribuzione delle variabili aleatorie. Si dimostra che esiste una corrispondenza biu-nivoca tra funzioni caratteristiche e funzioni di distribuzione, ovvero se due funzioni didistribuzione hanno la stessa funzione caratteristica allora coincidono. Ci limitiamo quiad osservare che, nel caso assolutamente continuo, le funzioni di distribuzione ammet-tono densita e quindi, se la densita soddisfa le condizioni di Dirichlet, vale la formulad’inversione

fX(x) =1

2π

∫ ∞−∞

e−jωxϕX(ω) dω, per ogni x di continuita di fX .

(c.) Simmetrie

Poiche la densita fX(x) e una funzione reale, ϕX(ω) e hermitiana. Se la densita fX(x) epari allora ϕX(ω) e reale e pari (vedi Segnali e Sistemi). In questo caso

ϕX(ω) =

∫cos(ωx)fX(x) dx

(d.) Relazione con i momenti

Se la v.a. X ammette k momenti allora ϕX(ω) e derivabile k volte nell’origine e

E(Xk) =1

jkd(k)ϕX(ω)

dω(k)

∣∣∣ω=0

Omessa la dimostrazione della derivabilita. Per ricavare la formula si deriva sotto il segnodi integrale, cioe si scambiano le operazioni di derivata e calcolo del valore atteso:

d(k)

dω(k)ϕX(ω)

∣∣∣∣∣ω=0

=d(k)

dω(k)E(ejωX

)∣∣∣∣∣ω=0

= E

(d(k)

dω(k)ejωX

)∣∣∣∣∣ω=0

= E(jkXkejωX

)∣∣∣ω=0

= jkE(Xk)

169

(e.) Funzione caratteristica di trasformazioni lineari

Se Y = aX + b allora

ϕY (ω) = E(ejωY

)= E

(ejω(aX+b)

)= ejωbE

(ejωaX

)= ejωb ϕX(aω)

(f.) Funzione caratteristica della somma di due v.a. indipendenti

Se X,Y sono indipendenti allora W = X + Y ha funzione caratteristica

ϕW (ω) = ϕX(ω)ϕY (ω).

La dimostrazione e immediata usando la definizione.

ϕW (ω) = E(ejω(X+Y )

)= E

(ejωXejωY

)= E

(ejωX

)E(ejωY

)= ϕX(ω)ϕY (ω)

Questo risultato e in realta una manifestazione del teorema della convoluzione. Se X ed Ysono indipendenti e noto che fX+Y = fX ~ fY , quindi la trasformata di Fourier di fX+Y

e il prodotto delle TdF di fX e di fY .

Attenzione: non vale il viceversa. Se la funzione caratteristica della somma di due v.a.e il prodotto delle funzioni caratteristiche degli addendi non segue che le due v.a. sonoindipendenti. Piu sotto costruiremo un controesempio usando le v.a. di Cauchy.

Micro-esercizio. Dimostrare l’analoga proprieta per la funzione generatrice dei momenti.

(g.) Funzione caratteristica della somma di n v.a. indipendenti

La generalizzazione di (f.) ad n variabili aleatorie e immediata. Riportiamo alcune espres-sioni che saranno utili in seguito. Se Xini=1 e una sequenza finita di v.a. indipendenti,con ϕXi(ω) funzione caratteristica di Xi, la somma di variabili aleatorie

W =

n∑k=1

Xk

ha funzione caratteristica

ϕW (ω) =

n∏k=1

ϕk(ω)

Se le v.a. Xi sono i.i.d., di funzione caratteristica comune ϕ(ω), allora

ϕW (ω) =[ϕ(ω)

]n.

Nello stesso caso di v.a. i.i.d. la media aritmetica delle v.a. Xini=1,

Xn :=1

n

n∑k=1

Xi,

ha funzione caratteristicaϕXn(ω) =

[ϕ(ωn

)]n.

170

(h.) La funzione caratteristica e definita positiva

Questo significa che per ogni n ∈ N, per ogni n−pla di reali ω1, ω2, . . . ωn ed ogni n−pladi complessi u1, u2, . . . un vale la disuguaglianza

n∑k=1

n∑l=1

ϕX(ωk − ωl)uku∗l ≥ 0

Dimostrazione (notazioni: se z = x+ jy allora z∗ = z = x− jy)

0 ≤ E

∣∣∣∣∣n∑k=1

uk ejωkX

∣∣∣∣∣2

= E

((n∑k=1

uk ejωkX

)(n∑k=1

uk ejωkX

)∗)

= E

((n∑k=1

ukejωkX

)(n∑k=1

u∗ke−jωkX

))

= E

(n∑k=1

n∑l=1

uku∗l e

j(ωk−ωl)X

)=

n∑k=1

n∑l=1

uku∗l E(ej(ωk−ωl)X

)=

n∑k=1

n∑l=1

ϕX(ωk − ωl)uku∗l

(i.) Teorema di Bochner

Ogni funzione ϕ(ω) definita positiva, continua in un intorno dell’origine, e normalizzataϕ(0) = 1, e la funzione caratteristica di una funzione di distribuzione (dimostrazioneomessa).

Esempi di calcolo e di applicazione

(1.) X ∼ U(a, b)

ϕU (ω) =

∫ b

aejωx

1

b− adx =

1

jω

ejωb − ejωa

b− aDopo avere visto questo esempio l’introduzione motivazionale sull’utilita della funzionecaratteristica per il calcolo dei momenti sara ritenuta pubblicita ingannevole. In effetti,calcolare le derivate della funzione ϕU (ω) nell’origine e piuttosto oneroso, mentre il calcolodiretto dei momenti di una v.a. uniforme e triviale

mk = E(Xk) =

∫ b

a

xk

b− adx =

bk+1 − ak+1

(b− a)(k + 1).

Il fatto e che, in rare occasioni, integrare e piu facile che derivare. Nel caso particolarea = −1, b = 1 la funzione caratteristica e

ϕ(ω) =sinω

ω,

che e reale e pari come atteso.

171

(2.) X ∼ Exp(λ)

ϕX(ω) =

∫ ∞0

λe−λxejωx dx

=

∫ ∞0

λe(jω−λ)x dx

=λ

jω − λe(jω−λ)x

∣∣∣∞0

converge per ogni ω ∈ R poiche −λ < 0

=λ

λ− jω

Spiegazione dettagliata (per chi era distratto alla lezione di Segnali e Sistemi) Capire a fondo la convergenzadell’integrale appena visto e importante. Analizziamo in dettaglio perche converge. Assegnato un numerocomplesso

s = σ + jω

calcoliamo, usando la definizione ufficiale, l’integrale improprio∫ ∞0

esx dx =

∫ ∞0

e(σ+jω)x dx

= limT→∞

1

σ + jωe(σ+jω)x

∣∣∣T0

= limT→∞

1

σ + jωeσx(

cos(ωx) + j sin(ωx))∣∣∣T

0

= − 1

σ + jω, se σ < 0

Nell’ultimo passaggio abbiamo sfruttato la seguente osservazione. Se σ < 0 allora

limT→∞

eσT cos(ωT ) = limT→∞

eσT sin(ωT ) = 0

presentandosi, in entrambi i casi, il prodotto di una funzione che tende a zero per una funzione limitata. Seinvece σ ≥ 0 i limiti non esistono. Infatti, se σ = 0 le funzioni oscillano tra ±1, mentre se σ > 0 oscillanoillimitate.

Esercizio. Calcolare E(X) ed E(X2) per la v.a. esponenziale a partire dalla funzionecaratteristica.

(3.) X ∼ Cauchy

ϕX(ω) =

∫ ∞−∞

1

π

ejωx

1 + x2dx = e−|ω|

questo e un classico esempio di trasformata di Fourier – vedi esercizi di segnali e sistemi.

Controesempio alla proprieta (f.). Si considerino le due v.a. di Cauchy, X ed Y = X,allora X + Y = 2X e per la proprieta (e.) vale

ϕX+Y (ω) = ϕ2X(ω) = e−2|ω| = e−|ω|e−|ω| = ϕX(ω)ϕY (ω),

la funzione caratteristica della somma X +Y e il prodotto delle funzioni caratteristiche diX ed Y . Ma le v.a. aleatorie X ed Y non sono indipendenti, infatti Y = X.

(4.) X ∼ b(p)ϕX(ω) =

∑k

ejωxkpX(xk) = 1− p+ pejω

172

(5.) X ∼ Bin(n, p)

ϕX(ω) =∑k

ejωxkpX(xk) =n∑k=0

ejkω(n

k

)pk(1− p)n−k

=n∑k=0

(n

k

)(pejω

)k(1− p)n−k

=(1− p+ pejω

)n(6.) Z ∼ N(0, 1)

ϕZ(ω) = E[ejωZ ] = e−12u2

Dimostrazione.23 Si deve calcolare

ϕZ(ω) =1√2π

∫ ∞−∞

ejωxe−x2

2 dx

Per la formula di Eulero ejωx = cos(ωx) + j sin(ωx). Osserviamo che

1√2π

∫ ∞−∞

sin(ωx) e−x2

2 dx = 0

essendo l’integranda dispari ed integrabile (grazie alla veloce convergenza a 0 di e−x2

2 ). Cisiamo quindi ridotti al calcolo di

ϕZ(ω) =1√2π

∫ ∞−∞

cos(ωx) e−x2

2 dx

Derivando rispetto a ω ed integrando per parti si trova

ϕ′Z(ω) = − 1√2π

∫ ∞−∞

x sin(ωx) e−x2

2 dx =1√2π

∫ ∞−∞

sin(ωx) d

(e−x2

2

)=

1√2π

sin(ωx) e−x2

2

∣∣∣∣∞−∞− ω 1√

2π

∫ ∞−∞

cos(ωx) e−x2

2 dx

= −ω ϕZ(ω).

L’equazione differenziale lineare

ϕ′Z(ω) = −ω ϕZ(ω)

si risolve agevolmente separando le variabili

dϕZ(ω)

ϕZ(ω)= −ω dω ⇒ log(ϕZ(ω)) = −ω

2

2+ C ⇒ ϕZ(ω) = C e−

12ω2

e, imponendo la condizione iniziale ϕZ(0) = 1, si conclude che ϕZ(ω) = e−ω2

2 .

(7.) X ∼ N(µ, σ2)

ϕX(ω) = ejµω−12σ2 ω2

Dimostrazione. Con l’usuale trucco della trasformazione lineare, scriviamo X = σZ + µ,dove Z ∼ N(0, 1). Applicando la regola (e.) e il risultato di (6.) si ricava il risultato.

23Aggiungere dimostrazione con i momenti.

173

Applicazioni alla caratterizzazione di funzioni di distribuzione

(a.) Caratterizzazione della v.a. Binomiale

Lemma. La somma X di n v.a. di Bernoulli X1, . . . Xn, i.i.d. di parametro p, e binomialeBin(n, p).

Commento. Questo risultato e stato gia piu volte giustificato, ma ora e possibile di-mostrarlo in modo semplice e rigoroso.

Dimostrazione. La funzione caratteristica comune delle v.a. di Bernoulli e ϕ(ω) = 1 −p + pejω. La funzione caratteristica della somma di v.a. indipendenti e il prodotto dellefunzioni caratteristiche degli addendi quindi

ϕX(ω) =(ϕ(ω)

)n=(1− p+ pejω

)n,

questa e la funzione caratteristica di una v.a. Bin(n, p). Se due v.a. hanno la stes-sa funzione caratteristica le loro funzioni di distribuzione (e quindi densita) coincidono.Conclusione: X ∼ Bin(n, p).

(b.) Combinazioni lineari di v.a. normali indipendenti sono normali

Alla fine della Lezione 23 abbiamo enunciato il seguente Teorema, senza pero completarnela dimostrazione che richiedeva un laborioso calcolo: la convoluzione di due densita nor-mali. L’uso della funzione caratteristica semplifica di molto la dimostrazione. Questa euna manifestazione del teorema della convoluzione.

Teorema. Se W = αX + βY , con X ∼ N(µX , σ2X) ed Y ∼ N(µY , σ

2Y ) indipendenti allora

W ∼ N(αµX + βµY , α2σ2X + β2σ2

Y ).

Dimostrazione. Le funzioni caratteristiche di X ed Y sono rispettivamente

ϕX(ω) = ejµXω−12σ2Xω

2

ϕY (t) = ejµY ω−12σ2Y ω

2

Le funzioni caratteristiche di αX e di βY sono rispettivamente (regola 2 (e.))

ϕαX(ω) = ejαµXω−12α2σ2

Xω2

ϕβY (ω) = ejβµY ω−12β2σ2

Y ω2

Per l’ipotesi d’indipendenza la funzione caratteristica di Z = αX + βY e il prodotto delledue:

ϕW (ω) = ej(αµX+βµY )t− 12

(α2σ2X+β2σ2

Y )ω2

ma questa e la funzione caratteristica di una v.a. N(αµX + βµY , α2σ2X + β2σ2

Y ) e ladimostrazione e conclusa.

(c.) Somme di v.a. binomiali indipendenti

Proposizione. Se la coppia di v.a. (X,Y ) e indipendente con X ∼ Bin(m, p) ed Y ∼Bin(n, p) allora Z = X + Y ∼ Bin(m+ n, p).

Commento. Il risultato e intuitivamente corretto infatti X si puo interpretare come sommadi m v.a. bernoulliane indipendenti di parametro p, ed analogamente Y come somma din bernoulliane indipendenti di parametro p. La v.a. X + Y e quindi interpretabile comesomma di m+ n bernoulliane di parametro p, quindi X + Y ∼ Bin(m+ n, p). Forniamodue dimostrazioni, la prima diretta, la seconda con le funzioni caratteristiche.

174

Dimostrazione diretta. La dimostrazione consiste nel calcolo di una convoluzione. Perquanto noto, la densita di probabilita di Z = X + Y e

pZ(k) = pX(k)~ pY (k)

Le densita di probabilita pX e pY sono rispetttivamente, (denotando q = 1− p)

pX(k) =

(m

k

)pkqm−k[1l(k)− 1l(k −m)]

pY (k) =

(n

k

)pkqn−k[1l(k)− 1l(k − n)]

dove abbiamo introdotto i gradini per tenere automaticamente conto del supporto delledue densita: 0, 1, . . .m per pX e 0, 1, . . . n per pY . La convoluzione allora si scriveesplicitamente come

pZ(k) =∞∑

`=−∞pX(k − `)pY (`)

=∞∑

`=−∞

(m

k − `

)pk−`qm−k+`[1l(k − `)− 1l(k − `−m)]

(n

`

)p`qn−`[1l(`)− 1l(`− n)]

Estraendo dalla sommatoria le costanti in ` ci si riduce a

pZ(k) = pkqm+n−k∞∑

`=−∞

(m

k − `

)(n

`

)[1l(k − `)− 1l(k − `−m)][1l(`)− 1l(`− n)]

Il supporto (in `, indice corrente della sommatoria) di [1l(`)−1l(`−n)] e 0, 1, . . . , n mentreil supporto di [1l(k− `)− 1l(k− `−m)] e k−m, . . . , k Per fissare le idee, e senza perditadi generalita, supponiamo che m ≥ n. Si distinguono 5 casi:

k < 0 ⇒ pZ(k) = 0

0 ≤ k ≤ n ⇒ pZ(k) = pkqm+n−kk∑`=0

(m

k − `

)(n

`

)

n ≤ k ≤ m ⇒ pZ(k) = pkqm+n−kn∑`=0

(m

k − `

)(n

`

)

m ≤ k ≤ m+ n ⇒ pZ(k) = pkqm+n−kn∑

`=k−m

(m

k − `

)(n

`

)k > m+ n ⇒ pZ(k) = 0

Per terminare la dimostrazione dobbiamo verificare che, per ogni k ∈ 0, 1 . . .m + n(ovvero in ognuno dei casi listati sopra dove la sommatoria non e vuota), si ha

pZ(k) =

(m+ n

k

)pkqm+n−k

Allo scopo e utile ricordare l’interpretazione di Polya dei coefficienti binomiali. Facendoriferimento alla figura qui sotto, il coefficiente binomiale

(nk

)e il numero di cammini in

avanti che partono dal nodo (0, 0) e arrivano al nodo (n, k) sul reticolo. Ricordo che ilnodo (n, k) si trova al livello n-esimo del reticolo, in posizione k-esima. Il livello si contapartendo da 0 alla radice, la posizione nel livello si conta partendo da 0 all’estrema sinistra(guardando il reticolo). Con questa scelta di coordinate, per andare da (0, 0) ad (n, k)

175

si devono fare n passi, di cui k verso destra (guardando la figura). Il numero totale dicammini di questo tipo e chiaramente

(nk

).

Con riferimento alla figura ogni cammino da (0, 0) ad (m+ n, k) si puo fare in due tappe(0, 0)→ (m, k− `)→ (m+n, k). Il nodo (m, k− `) della tappa intermedia puo essere unoqualunque di quelli da cui e possibile raggiungere il nodo finale (m + n, k). Riflettendosulla figura e facile convincersi che i possibili valori di ` dipendono da k esattamentecone nell’analisi della convoluzione fatta sopra, ossia ` ∈ 0, 1 . . . k se 0 ≤ k ≤ n (casoillustrato in figura con i pallini sul livello 4), mentre ` ∈ 0, 1 . . . n se n ≤ k ≤ m edinfine ` ∈ k − m, . . . n se m ≤ k ≤ m + n. Per ` fissato, applicando il principio dimoltiplicazione, il numero di cammini da (0, 0) a (m + n, k) con tappa in (m, k − `) e(mk−`)·(n`

). Il numero totale di cammini (0, 0) → (m + n, k) si trova sommando rispetto

ad ` nell’insieme di valori appropriato (sono proprio le somme che si dovevano calcolareper terminare la convoluzione!) e ovviamente dara sempre come risultato

(m+nk

).

t t t t

tk = 3

m = 4

m+ n = 7

Se siete arrivati fino a qui vi meritate una ciliegina. Dopo lo sforzo erculeo del calcolo dellaconvoluzione a mani nude apprezzerete al meglio la potenza dei metodi di trasformazione.

Dimostrazione della proposizione con il metodo della funzione caratteristica. Ricordiamoche la funzione caratteristica di una v.a. X ∼ Bin(m, p) e ϕX(ω) =

(1 − p + pejω

)nE

altresı noto che la funzione caratteristica della somma di variabili aleatorie indipendenti eil prodotto delle funzioni caratteristiche. Poiche X ed Y sono v.a. binomiali indipendentisi trova

ϕX+Y (ω) = ϕX(ω)ϕY (ω)

=(1− p+ pejω

)m(1− p+ pejω

)n=(1− p+ pejω

)m+n

Si riconosce che la funzione caratteristica ϕX+Y (ω) coincide con quella di una densitabinomiale Bin(m+n, p). Poiche le funzioni caratteristiche caratterizzano le distribuzioni,si conclude che X + Y ∼ Bin(m+ n, p). La proposizione e dimostrata.

176

27.2 Vettori aleatori (notazioni matriciali)

Nelle precedenti lezioni abbiamo iniziato lo studio dei vettori aleatori introducendo ladescrizione probabilistica completa nella forma di distribuzioni e densita n dimensionali.Non abbiamo ancora introdotto i parametri riassuntivi del comportamento probabilisticodei vettori aleatori. Questi ultimi sono piu naturalmente definiti usando le notazionivettoriali e matriciali dell’algebra lineare.

Parametri riassuntivi

Sia X := (X1, X2 . . . xn)> ∈ Rn un vettore aleatorio. Introdurremo qui i corrispondentivettoriali delle nozioni di valore atteso, secondo momento, varianza ecc.

Definizione (vettore della media). E il vettore in Rn

mX := E(X) :=

E(X1)E(X2). . .

E(Xn)

Osservazione. Si noti che, per il calcolo di mX e sufficiente conoscere le funzioni di densitadi tutte le variabili aleatorie Xi. Questa informazione e molto minore di quella contenutanella densita congiunta fX(x1, x2, . . . xn) ed infatti si puo ricavare, per marginalizzazione,da quest’ultima.

Definizione (matrice di correlazione). E la matrice in Rn×n,

RX := corr(X) := E(XX>

)

=

E(X2

1 ) E(X1X2) . . . E(X1Xn)E(X2X1) E(X2

2 ) . . . E(X2Xn). . . . . . . . . . . .

E(XnX1) E(XnX2) . . . E(X2n)

Osservazione. Si noti che, per il calcolo di RX e sufficiente conoscere le funzioni di densitacongiunte di tutte le coppie di variabili aleatorie (Xi, Xj), per ogni i 6= j. Questa infor-mazione e molto minore di quella contenuta nella densita congiunta fX(x1, x2, . . . xn) edinfatti si puo ricavare, per marginalizzazione, da quest’ultima.

Lemma. RX e simmetrica ed e semidefinita positiva24

Dimostrazione. La simmetria e ovvia. Per dimostrare che RX e semidefinita positivaprocediamo direttamente. Per a ∈ Rn, valutiamo la forma quadratica di matrice RX

a>RXa = a>E(XX>

)a

= E(a>XX>a

)= E(w2) ≥ 0,

dove w := a>X e una variabile aleatoria scalare, quindi E(w2) ≥ 0, e si conclude chea>RXa ≥ 0 per ogni a ∈ Rn.

24Una matrice Q simmetrica e detta semidefinita positiva, e si denota Q ≥ 0, se la corrispondente formaquadratica q(x) := x>Qx ≥ 0, per ogni x ∈ Rn. Se q(x) > 0 per ogni x 6= 0 allora Q si dice definitapositiva e si denota Q > 0. Se Q e definita positiva essa e invertibile. Se Q ≥ 0, e per qualche x0 ∈ Rn laforma si annulla, q(x0) := x>0 Qx0 = 0, allora il determinante di Q e nullo e quindi Q non e invertibile.

177

Definizione (matrice di covarianza). E la matrice in Rn×n,

ΣX := cov(X) := E(

(X−mX)(X−mX)>)

=

E(X1 −m1)2 E(X1 −m1)(X2 −m2) . . . E(X1 −m1)(Xn −mn)

E(X2 −m2)(X1 −m1) E(X2 −m2)2 . . . E(X2 −m2)(Xn −mn). . . . . . . . . . . .

E(Xn −mn)(X1 −m1) E(Xn −mn)(X2 −m2) . . . E(Xn −mn)2)

=

var(X1) cov(X1, X2) . . . cov(X1, Xn)

cov(X2, X1) var(X2) . . . cov(X2, Xn). . . . . . . . . . . .

cov(Xn, X1) cov(Xn, X2) . . . var(Xn)

Osservazioni. (a.) Se le componenti del vettore X sono indipendenti la matrice ΣX ediagonale. (b.) per calcolare ΣX e sufficiente conoscere le densita congiunte di tutte lecoppie (Xi, Xj), per ogni i 6= j. (c.) Poiche ΣX = corr(X−mX) la matrice di covarianzae simmetrica e semidefinita positiva come tutte le matrici di correlazione.

Lemma.ΣX = RX −mXm

>X.

Dimostrazione. Dalla definizione

ΣX = E(

(X−mX)(X−mX)>)

= E(XX> −mXX

> −Xm>X +mXm>X

)= E

(XX>

)−mXE

(X>)− E

(X)m>X +mXm

>X

= E(XX>

)−mXm

>X = RX −mXm

>X.

Questa formula e l’analoga vettoriale della formula scalare var(X) = E(X2)− (mX)2.

Trasformazioni lineari di vettori aleatori e parametri

Sia X ∈ Rn un vettore aleatorio. La matrice A ∈ Rm×n ed il vettore b ∈ Rm sonodeterministici ed assegnati. Definiamo il vettore aleatorio Y ∈ Rm, trasformazione lineare(meglio chiamarla affine quando b 6= 0)) del vettore aleatorio X, come

Y := AX + b

Parametri della trasformazione lineare

I parametri del vettore Y = AX + b si ricavano facilmente da quelli di X. In particolare

vettore della media

mY = E(Y ) = E(AX + b) = AE(X) + b = AmX + b

matrice di covarianza

ΣY = E((Y −mY )(Y −mY )>

)= E

((AX + b−AmX − b)(AX + b−AmX − b)>

)= E

((A(X −mX))(A(X −mX))>

)= AE

((X −mX)(X −mX)>

)A> = AΣXA

>

178

matrice di correlazione

RY = ΣY +mYm>Y = AΣXA

> + (AmX + b)(AmX + b)>

Vettori bidimensionali

Il caso dei vettori bidimensionali (caso bivariato) serve ad illustrare, con poca fatica, alcunifenomeni interessanti che si possono verificare nel caso vettoriale.

Sia V = (X,Y )> un vettore aleatorio in R2. Vettore della media, matrice di corre-lazione e matrice di varianza sono rispettivamente

mV =

(E(X)E(Y )

), RV =

(E(X2) E(XY )E(XY ) E(Y 2)

), ΣV =

(var(X) cov(XY ))

cov(XY ) var(Y )

).

Lemma (matrici simmetriche, semidefinite positive).

Q =

(a bb c

)≥ 0 se e solo se a ≥ 0, e det(Q) ≥ 0

Dimostrazione. Imponiamo che la forma quadratica q(v) = v>Qv dove v = (x, y)> sianon-negativa.

q(x, y) =(x y

)(a bb c

)(xy

)= a2 x2 + 2b xy + c2 y2 ≥ 0

E allora evidente che la condizione di non-negativita vale per ogni (x, y) ∈ R2 se e solo sea ≥ 0 ed il determinante del polinomio di secondo grado e negativo, ∆ = 4b2 − 4ac ≤ 0.Semplificando e riordinando i termini la condizione necessaria e sufficiente e che a ≥ 0 eche ac− b2 = det(Q) ≥ 0.

Dalla precedente sezione sappiamo che RV e ΣV sono semidefinite positive. Il Lemmaappena dimostrato applicato a RV comporta:

E(X2)E(Y 2) ≥[E(XY )

]2,

ed applicato a ΣV comporta:

var(X)var(Y ) ≥[cov(XY )

]2.

Osservazione. Queste sono entrambe disuguaglianze di Cauchy Schwarz: la prima l’ave-vamo dimostrata, per via alternativa, nella Lezione xx, la seconda non l’avevamo vista inprecedenza.

Lemma (covarianza ed esistenza della densita).

Se la matrice ΣV non e invertibile il vettore V non ammette densita.

Dimostrazione. Se la matrice ΣV non e invertibile il suo determinante e nullo, ovvero

var(X)var(Y )−[cov(XY )

]2= 0.

In questo caso l’equazione ΣV a = 0 ammette una soluzione a = (α, β)> 6= (0, 0)> e quindia>ΣV a = 0. Esplicitamente l’ultima condizione si traduce in

0 = a>ΣV a

=(α β

)( var(X) cov(XY )cov(XY ) var(Y )

)(αβ

)= α2var(X) + 2αβcov(XY ) + β2var(Y )

= E(α2(X −mX)2 + 2αβ(X −mX)(Y −mY ) + β2(Y −mY )2

)= E

([α(X −mX) + β(Y −mY )

]2)179

La condizione E([α(X −mX) + β(Y −mY )

]2)= 0 equivale a

α(X −mX) + β(Y −mY ) = 0

ovveroαX + βY = c

dove c = αmX + βmY e una costante.

La conclusione e che, se ΣV ha determinante nullo, esiste una relazione lineare tra lecomponenti X ed Y di V . In questo caso il vettore V non e assolutamente continuo, nonammette cioe densita, poiche tutta la massa di probabilita e concentrata sull’insieme R := (x, y)

∣∣αx+ βy = c ⊂ R2, di area nulla (e una retta). Nessuna funzione fXY (x, y) ≥ 0,Riemann integrabile, soddisfa

∫∫R fXY (x, y) dxdy = 1, che e quanto richiesto ad una

funzione di densita.

180

Appendice alla Lezione 27Funzione caratteristica multivariata

materiale non in programma a.a. 2012/13

Definizione. Sia X> = (X1, . . . Xn)> un vettore aleatorio. La funzione caratteristica di Xe la funzione ϕX : Rn → C

ϕX(ω) := E(ejω

>X)

= E(ej

∑ni=1 ωiXi

)= E

(n∏i=1

ejωiXi

)

La ϕX(ω) e anche detta funzione caratteristica congiunta delle v.a. X1, X2, . . . Xn. Nelcaso assolutamente continuo esiste la densita congiunta fX(x) ed e

ϕ(ω) :=

∫. . .

∫Rn

n∏i=1

ejωiXifX(x1, . . . , xn) dx1 . . . dxn,

analoga formula vale nel caso discreto.

Commento. Nel caso assolutamente continuo la funzione caratteristica multivariata e latrasformata di Fourier multidimensionale della densita congiunta fX(x). La densita con-giunta e una funzione fX : Rn → R. Nei corsi avanzati di Segnali e Sistemi si studianosegnali di questo tipo. Un semplice esempio e il segnale deterministico g(x1, x2) che rapp-resenta il livello di grigio di una fotografia in bianco e nero nel punto (x1, x2) del piano. Latrasformata di Fourier bidimensionale e di largo uso nei problemi di analisi di immagini.

Proprieta elementari della funzione caratteristica multivariata

(a.) Esistenza, normalizzazione, continuita

(scrivo per il caso bivariato per convenienza notazionale: nulla cambia nel caso multivari-ato, n > 2)

ϕX(ω1, ω2) esiste per ogni (ω1, ω2) ∈ R2, infatti

|ϕX(ω1, ω2)| =

∣∣∣∣∫∫R2

ej(ω1x1+ω2x2)fX(x1, x2) dx1dx2

∣∣∣∣≤

∫∫R2

∣∣∣ej(ω1x1+ω2x2)fX(x1, x2)∣∣∣ dx1dx2

=

∫∫R2

fX(x1, x2) dx1dx2 = 1.

Inoltre e immediato verificare dalla definizione che ϕX(0, 0) = 1. Combinando con ladisuguaglianza in (a.) questo mostra che la funzione caratteristica ha un massimo in(ω1, ω2) = (0, 0).

(b.) Marginalizzazioni

ϕX(ω1, 0) = ϕX1(ω1), ϕX(0, ω2) = ϕX2(ω2)

Immediato dalla definizione. Qualunque marginalizzazione relativa alle funzioni caratter-istiche e molto semplice. Ad esempio, sempre sulla base della definizione,

ϕX1X2X3X4(ω1, 0, 0, ω4) = E(ej(ω1X1+ω2X2+ω3X3+ω4X4)

)∣∣∣(ω2,ω3)=(0,0)

= E(ej(ω1X1+ω4X4)

)= ϕX1X4(ω1, ω4) ecc.

181

(c.) Relazione con i momenti

Supponendo che le componenti X1, X2 del vettore ammettano momenti la funzione carat-teristica ϕX(ω1, ω2) ammette le corrispondenti derivate parziali e valgono le relazioni

E(Xk1 ) =

1

jk∂(k)

∂ω(k)1

ϕX(ω1, 0)∣∣∣ω1=0

E(Xk2 ) =

1

jk∂(k)

∂ω(k)2

ϕX(0, ω2)∣∣∣ω2=0

E(X1X2) =1

j2

∂(2)

∂ω1∂ω2ϕX(ω1, ω2)

∣∣∣(ω1,ω2)=(0,0)

E(Xh1X

k2 ) =

1

jh+k

∂(h+k)

∂ωh1∂ωk2

ϕX(ω1, ω2)∣∣∣(ω1,ω2)=(0,0)

Omessa la dimostrazione dell’esistenza delle derivate parziali. Per ricavare le formule sideriva parzialmente sotto il segno di integrale, cioe si scambiano le operazioni di calcolodelle derivate parziali e del valore atteso. Per esercizio scrivete qualcuna delle formule nelcaso di vettori n−dimensionali.

Esercizio. Scrivere la matrice di correlazione RV del vettore bidimensionale V = (X,Y )>

in termini di derivate della funzione caratteristica.

Soluzione. Per quanto appena enunciato

RV =

(E(X2) E(XY )E(XY ) E(Y 2)

)= −

(∂2

∂ω21ϕX(ω1, 0) ∂2

∂ω1∂ω2ϕX(ω1, ω2)

∂2

∂ω1∂ω2ϕX(ω1, ω2) ∂2

∂ω22ϕX(0, ω2)

)∣∣∣(ω1,ω2)=(0,0)

La matrice di correlazione RV e l’opposto della matrice Hessiana, calcolata nell’origine,della funzione caratteristica.

(d.) Funzione caratteristica di trasformazioni lineari

Sia X ∈ Rn un vettore aleatorio. La matrice A ∈ Rm×n ed il vettore b ∈ Rm sonodeterministici ed assegnati. Definiamo il vettore aleatorio Y ∈ Rm, trasformazione lineare(affine se b 6= 0)) del vettore aleatorio X, come

Y := AX + b

La formula per la determinazione della funzione caratteristica di Y generalizza la cor-rispondente formula del caso scalare.

ϕY(ω) := E(ejω

>Y)

= E(ejω

>(AX+b))

= E(ejω

>AX)ejω

>b

= ϕX(A>ω)ejω>b

Attenzione. In questa formula ω ∈ Rm. Infatti l’argomento della funzione ϕY(ω) eω ∈ Rm, poiche Y ∈ Rm. Il dominio di ϕX e invece Rn, in accordo con la dimensione diX ∈ Rn ed infatti nella formula compare ϕX(A>ω) dove A>ω ∈ Rn, poiche A> ∈ Rn×m.

(e.) Funzione caratteristica di vettori a componenti indipendenti

Lemma. Le v.a. X1, X2, . . . Xn, componenti del vettore aleatorio X, sono indipendenti see solo se

ϕX(ω) =n∏i=1

ϕXi(ωi)

182

Dimostrazione. Se le componenti sono indipendenti allora la fattorizzazione vale per lanota proprieta del valore atteso:

ϕX(ω) := E(ej

∑ni=1 ωiXi

)= E

(n∏i=1

ejωiXi

)=

n∏i=1

E(ejωiXi

)per l’indipendenza

=

n∏i=1

ϕXi(ωi)

La dimostrazione dell’altra direzione e omessa.

183

Lezione 28 (Martedı 14 maggio, ore 16:25–18:05)

28.1 Vettori normali – motivazione della definizione

Nel caso scalare la distribuzione di una v.a. X normale, X ∼ N(µ, σ2), e completamentespecificata dal valore atteso µ e dalla varianza σ2 ed ammette sempre densita, tranne chenel caso degenere σ2 = 0 corrispondente ad una v.a. X = µ costante. Anche in Rn, comevedremo, un vettore normale multivariato X e completamente specificato dal vettore dellamedia E(X) e dalla matrice di covarianza cov(X). A differenza di quanto accade in Rpero, la densita non esiste sempre, ma se e solo se cov(X) e invertibile.25 Esistono quindivettori normali che non ammettono densita. Questo fatto crea qualche difficolta tecnicaal livello della definizione dei vettori normali, non potendosi in generale caratterizzare conun’assegnata funzione di densita congiunta.

Vi sono molti modi equivalenti per definire i vettori normali in Rn. La procedura piusemplice e definire i vettori normali standard e poi considerare normali tutti i vettori chesi possono ottenere come trasformazioni lineari di vettori standard. Prima di entrare neidettagli tecnici illustriamo la procedura nel caso scalare, confrontandola con la definizioneche avevamo usato nella Lezione 18.

Variabili aleatorie normali: vecchia definizione - vedi Lezione 18

Definizione. Y ∼ N(µ, σ2) se

fY (y) =1√

2πσ2e−

(x−µ)2

σ2 , y ∈ R

Variabili aleatorie normali: nuova definizione

Definizione 1. Z e una v.a. normale standard, e scriveremo Z ∼ N(0, 1), se ha densita

fZ(z) := φ(z) =1√2πe−

z2

2 , per ogni z ∈ R

Definizione 2. Y e una v.a. normale se esiste una v.a. Z normale standard, e due numeria, b ∈ R tali che

Y = aZ + b.

Esercizio. Dimostrare che le due definizioni sono equivalenti.

Soluzione. Osserviamo inizialmente che la vecchia e la nuova definizione di Z ∼ N(0, 1)coincidono. Sia Y e una v.a. normale secondo la nuova definizione. Poiche Y = aZ + bdove Z ∼ N(0, 1), per le note proprieta (Lezione 18.3) Y ∼ N(b, a2) secondo la vecchiadefinizione. Viceversa sia Y ∼ N(µ, σ2) secondo la vecchia definizione. Per le note pro-prieta (Lezione 18.3) la v.a. Z := Y−µ

σ ∼ N(0, 1) e, invertendo questa relazione, Y si puorappresentare come Y = σZ+µ, quindi Y e una v.a. normale secondo la nuova definizione.

Osservazione. La rappresentazione di Y ∼ N(µ, σ2) come funzione lineare di una v.a.Z ∼ N(0, 1) non e unica. Infatti Y = σZ + µ e Y = −σZ + µ sono rappresentazionidiverse della v.a. Y ∼ N(µ, σ2).

Non e un gioco di bussolotti come potrebbe sembrare: le due definizioni sono equiv-alenti, ma l’enorme vantaggio della nuova definizione e che essa non richiede di introdurrela densita di Y . Questo fatto tornera comodo nel caso vettoriale dove la densita nonsempre esiste.

25Si veda il paragrafo sui vettori bidimensionali, alla fine della Lezione 27, per una discussione di questacondizione.

184

2. Vettori normali

Definizione – vettore normale standard in Rn. Il vettore aleatorio Z ∈ Rn e normalestandard se le sue componenti Zini=1 sono v.a. i.i.d. N(0, 1).

E immediato ricavare funzione di densita, funzione caratteristica, vettore della media ematrice di covarianza di un vettore normale standard in Rn.

Poiche le v.a. Zi sono i.i.d. la funzione di densita congiunta e il prodotto delle n densitaidentiche N(0, 1),

fZ(z1, . . . , zn) =

n∏i=1

1√2π

e−12z2i =

1√(2π)n

e−12||z||2 . (1)

La funzione caratteristica di Z, anch’essa ottenuta come prodotto di n funzioni caratter-istiche N(0, 1), e

ϕZ(ω) = e−12||ω||2 .

Il vettore della media di Z eE[Z] = 0,

poiche E(Zi) = 0 per ogni i = 1, 2, . . . n.

La matrice di covarianza di Z ecov(Z) = In,

dove In denota la matrice identita in Rn. Infatti cov(Zi, Zj) = 0 per ogni i 6= j poiche lev.a. Zi sono indipendenti, mentre cov(Zi, Zi) = var(Zi) = 1 per ogni i poiche le Zi hannotutte varianza 1.

Esempio. La figura qui sotto mostra la densita del vettore normale standard in R2.Chiamando Z = (Z1, Z2)> = (X,Y )>, la densita e

fZ(x, y) =1

2πe−

12

(x2+y2), (x, y) ∈ R2.

La densita e massima in (0, 0), dove vale 12π .

Diremo normale ogni vettore Y ∈ Rn ottenuto come trasformazione lineare (affine perdirla meglio) di un vettore normale standard Z ∈ Rk. Si noti che k ed n possono esserediversi, sono cioe permesse trasformazioni lineari tra spazi di dimensione diversa. Quisotto la definizione formale.

Definizione – vettore normale in Rn. Il vettore aleatorio Y ∈ Rn e normale se esistono: unnaturale k ∈ N, una matrice A ∈ Rn×k, un vettore µ ∈ Rn ed un vettore normale standardZ ∼ N(0, Ik) tale che

Y = AZ + µ

Media e covarianza di vettori normali. Poiche Y = AZ + µ per qualche A,µ,

E(Y) = E(AZ + µ) = AE(Z) + µ = µ,

cov(Y) = E((Y − µ)(Y − µ)>) = E(AZZ>A>) = AInA> = AA>.

Si noti che, qualunque sia A ∈ Rn×k, la matrice AA> ≥ 0, come atteso trattandosi di unamatrice di covarianza. Per denotare la matrice di covarianza introduciamo il simbolo

Σ := cov(Y) = AA>.

185

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

4

3

Z

X

Y

2

14

0 32

-1 10-2

-1-2-3

-3-4 -4

Figura 1: Densita normale standard in R2

Funzione caratteristica di un vettore normale. Poiche Y = AZ+µ per qualche A,µ, e perle proprieta della funzione caratteristica multivariata (fine della Lezione 27),

ϕY(ω) = E(ej ω

>Y)

= ϕZ(A>ω) ej ω>µ = ej ω

>µ− 12ω>Σω.

Osservazione 1. La funzione caratteristica del vettore normale Y e completamente specifi-cata dal vettore della media µ e dalla matrice A, ma solo attraverso la matrice di covarianzaΣ = AA>. Questa proprieta riflette quella analoga delle v.a. normali, la cui distribuzionee completamente specificata da media e varianza. Per questo motivo ha senso estendereai vettori normali la notazione Y ∼ N(µ,Σ), per indicare un vettore di media µ e matricedi covarianza Σ. Ad esempio, denotando con Ik la matrice identita di dimensione k, ilvettore normale standard in Rk si denota Z ∼ N(0, Ik).

Osservazione 2. Nel caso scalare sappiamo che, per ogni coppia (µ, σ2) ∈ R×R+ esistonov.a. normali Y ∼ N(µ, σ2). Lo stesso accade nel caso vettoriale, vale infatti il seguenteLemma.

Lemma. Per ogni coppia (µ,Σ), dove µ ∈ Rn e qualunque, e Σ ∈ Rn×n e tale cheΣ = Σ> ≥ 0, esistono vettori normali Y ∼ N(µ,Σ).

La dimostrazione del Lemma richiede il seguente risultato di algebra lineare che puo esserepreso a scatola chiusa (chi lo desidera veda l’Appendice I alla Lezione).

Ogni matrice Σ ∈ Rn×n, tale che Σ = Σ> ≥ 0, si puo fattorizzare, in modo non unico,nella forma Σ = AA>, dove A ∈ Rn×k e k e un qualunque naturale tale che k ≥ rank(Σ).

Dimostrazione del Lemma. Fissato k ≥ rank(Σ) si fattorizzi Σ = AA> con A ∈ Rn×k. Ilvettore normale cercato e Y := AZ + µ, dove Z ∼ N(0, Ik).

Commento. Mentre nel caso scalare Y ∼ N(µ, σ2) ha due rappresentazioni Y = ±σZ+µ,nel caso multivariato Y ∼ N(µ,Σ) ammette infinite rapresentazioni Y = AZ + µ, checorrispondono alle infinite possibili fattorizzazioni Σ = AA>.

186

Densita dei vettori normali

Veniamo ora al problema della determinazione della densita dei vettori normali. La con-dizione di esistenza della densita e molto semplice: un vettore normale ammette funzionedi densita se e solo se la matrice di covarianza e invertibile.

Teorema. Sia Y ∈ Rn un vettore normale Y ∼ N(µ,Σ) con Σ invertibile, allora Y ammettedensita che ha espressione

fY(y) =1√

(2π)ndet(Σ)exp−1

2(y − µ)>Σ−1(y − µ), y ∈ Rn (2)

Dimostrazione euristica (si veda l’Appendice II per l’impostazione della dimostrazionerigorosa). Nella Lezione 20.2 (Esempio 1) abbiamo dimostrato che, se

Y = g(Z) = aZ + b,

allora

fY (y) =1

|a|fZ

(g(−1)(y)

)=

1

|a|fZ

(y − ba

). (3)

Per Y ∼ N(µ,Σ) in Rn si costruisca una qualunque fattorizzazione Σ = AA> con A ∈Rn×k si puo allora scrivere

Y = g(Z) = AZ + µ (4)

dove Z ∼ N(0, Ik). Per calcolare la densita fY ci ispiriamo alla formula (3). Affinche siasoddisfatta la condizione necessaria di invertibilita di g(z) = Az+µ bisogna che sia n = ked inoltre A ∈ Rn×n deve essere invertibile. Cio equivale a Σ = AA> invertibile. In questocaso la funzione inversa esiste e vale

z = g−1(y) = A−1(y − µ),

Applichiamo allora la formula (3), con l’accortezza di sostituire |a| con det(A) trovandocinel caso vettoriale. Ricordando la densita del vettore normale standard (1), si trova

fY(y) = |det(A−1)| fZ(A−1(y − µ)

)= |det(A−1)| 1√

(2π)nexp−1

2||A−1(y − µ)||2 (5)

L’espressione della densita si semplifica osservando quanto segue:

(a.) ||A−1(y − µ)||2 = (y − µ)>(A−1)>A−1(y − µ)

(b.) (A−1)>A−1 = (AA>)−1 = Σ−1 facendo uso del fatto che (A−1)> = (A>)−1

(c.) |det(A−1)| = 1/√

det(Σ) che si ricava applicando le note regole: det(A) = det(A>),det(A−1) = 1/det(A) e det(AB) = det(A)det(B).

Sostituendo tutto nella (5) si ottiene la formula della densita (2).

In pratica. Come ci aspettavamo la densita dipende solo da µ e da Σ (vedi commenti sullafunzione caratteristica), ma non direttamente da A. Quindi se Y ∼ N(µ,Σ) ha matrice dicovarianza Σ > 0, la densita (2) si puo scrivere immediatamente senza bisogno di ricavarepreliminarmente una matrice A che fattorizzi Σ = AA>.

Nota bene. Nelle trattazioni elementari un vettore aleatorio Y di valore atteso E(Y) = µ ematrice di covarianza cov(Y ) = Σ si definisce normale se Σ > 0 ed Y ha densita (2). Cosıfacendo si opera come si era fatto nella Lezione 18 anche nel caso vettoriale, specificandodirettamente la densita ed eliminando tutte le difficolta. Il prezzo che si paga e la perditadi tutti i vettori normali con matrice di covarianza Σ non invertibile. Si tratta di unapessima soluzione, forse accettabile per i corsi di Probabilita per la Sociologia.

187

Commento. Si noti l’analogia tra le formule di passaggio da v.a. N(0, 1) a v.a. N(µ, σ2)e viceversa:

Z =1

σ(Y − µ) da N(µ, σ2) a N(0, 1)

Y = σZ + µ da N(0, 1) a N(µ, σ2)

e le corrispondenti multivariate (valide solo per Σ = AA> > 0)

Z = A−1(Y − µ) da N(µ,Σ) a N(0, In)

Y = AZ + µ da N(0, In) a N(µ,Σ).

Sono le stesse formule del caso univariato, con la matrice A nel ruolo di radice quadratadi Σ: in effetti A soddisfa alla AA> = Σ, che e l’analogo per matrici simmetriche dellaradice quadrata.

Trasformazioni lineari dei vettori aleatori normali

Lemma. Se Y ∼ N(µ,Σ) e W := BY + ν, dove B ∈ Rm×n e ν ∈ Rm, allora

W ∼ N(Bµ+ ν,BΣB>)

Dimostrazione. Sia A un qualunque fattore di Σ, allora Y = AZ + µ quindi,

W := BY + ν

= B(AZ + µ) + ν

= BAZ +Bµ+ ν

Poiche W si puo esprimere come trasformazione lineare di un vettore normale standard,esso e un vettore normale per definizione. Il calcolo del valore atteso e della matrice dicovarianza sono immediati. Ovviamente il risultato e indipendente dal fattore A di Σ cheera stato scelto.

Conseguenza importante. Le componenti di un vettore normale sono v.a. normali, inparticolare, se Y ∼ N(µ,Σ), allora Yi ∼ N(µi,Σii)

Dimostrazione. Si applica il Lemma precedente alle n trasformazioni lineari che corrispon-dono a scegliere B = e>i , dove ei = (0, . . . 1, . . . 0) e l’i-esimo vettore della base canonicadi Rn. Allora si trova

Yi = e>i Y

con E(Yi) = e>i µ = µi. La matrice di covarianza del vettore unidimensionale Yi coincidecon la varianza della v.a. Yi e vale var(Yi) = e>i Σei = Σii.

Indipendenza e scorrelazione delle componenti di vettori normali

E notevole la seguente proprieta dei vettori normali.

Lemma. Le componenti di Y ∼ N(µ,Σ) sono indipendenti se e solo se sono scorrelate, oequivalentemente se e solo se la matrice di covarianza Σ e diagonale.

Dimostrazione. La dimostrazione piu diretta, e valida in generale anche per vettori normaliche non ammettono densita, e basata sulla funzione caratteristica26

ϕY(ω) = ej ω>µ−ω>Σω.

26Si veda qui sotto la dimostrazione limitata al caso di vettori normali che ammettono densita, che nonrichiede l’uso della funzione caratteristica multivariata

188

Se le componenti di Y sono scorrelate allora E((Yi−µi)(Yj−µj)) = Σij = 0 per ogni i 6= j,ovvero Σ e una matrice diagonale. Sostituendo nell’espressione della funzione caratteristicauna matrice Σ diagonale si verifica immediatamente la condizione di fattorizzazione, infatti

ϕY(ω) = ej ω>µ− 1

2ω>Σω

= ej∑ni=1 ωiµi−

12

∑ni=1(Σii)ω

2i

=n∏i=1

ejωiµi−12

(Σii)ω2i =

n∏i=1

ϕYi(ωi),

e quindi le componenti sono indipendenti. L’altra direzione e una proprieta ben nota: v.a.indipendenti sono sempre scorrelate.

Dimostrazione limitata ai vettori che amettono densita. Se le componenti di Y sonoscorrelate allora E((Yi − µi)(Yj − µj)) = Σij = 0 per ogni i 6= j, ovvero Σ e una matricediagonale. Sostituendo nell’espressione della densita (2) si ha

fY(y) =1√

(2π)ndet(Σ)exp−1

2(y − µ)>Σ−1(y − µ)

=n∏k=1

1√2πΣii

exp−1

2

(yi − µi)2

Σii

che si riconosce essere il prodotto delle n densita normali scalari, N(µi,Σii), per i = 1, . . . n.Si conclude che le componenti Yi sono indipendenti. Per l’altra direzione, come noto,variabili aleatorie indipendenti sono scorrelate.

Attenzione: Bisogna stare molto attenti a come si enuncia la precedente proprieta. Spessosi sente, o addirittura si trova scritta, la seguente affermazione: “v.a. normali scorrelatesono indipendenti”. Non e cosı! Quello che e vero e che se le componenti di un vettorenormale sono scorrelate allora sono indipendenti. La radice della confusione sta nel ritenereche un pacco di n v.a. normali scorrelate, impilate una sull’altra, formino automaticamenteun vettore normale. Cio e falso.

Controesempio. (E solo uno dei tanti che si possono costruire allo scopo). Sia X ∼ N(0, 1)e Z ∈ −1, 1 una v.a. discreta con P (Z = −1) = P (Z = 1) = 1

2 ed indipendente da

X. Definiamo la v.a. Y = ZX. E facile verificare che Y e una v.a. N(0, 1),infatti la suafunzione caratteristica vale

ϕY (ω) = E(ejωY

)= E

(E(ejωZX |Z

))= E

(ejωX

)P (Z = 1) + E

(e−jωX

)P (Z = −1)

= ϕ(ω)1

2+ ϕ(−ω)

1

2= ϕ(ω).

dove abbiamo indicato con ϕ(ω) = e−12ω2

la funzione caratteristica della N(0, 1) e, nell’ul-timo passaggio, sfruttato il fatto che ϕ(ω) e una funzione pari. Poiche la funzione carat-teristica ϕY (ω) = ϕ(ω) si conclude che Y e una v.a. N(0, 1). E facile verificare che X edY sono scorrelate, infatti esse sono entrambe a valor medio nullo e E(XY ) = E(ZX2) =E(E(ZX2|Z)) = E(X2)P (Z = 1) + E(−X2)P (Z = −1) = 0. Peraltro e ovvio che X edY non sono indipendenti essendo Y = ZX una funzione anche di X. Come mai questacoppia di v.a. normali scorrelate non e indipendente? La risposta e semplice: il vettoreW = (X,Y )> non e un vettore normale. Infatti se lo fosse tutte le funzioni lineari di Wsarebbero a loro volta v.a. normali. Si consideri la funzione lineare (1, 1)(X,Y )> = X+Y ,e facile calcolare P (X + Y = 0) = P ((1 + Z)X = 0) = P (Z = −1) = 1

2 . ChiaramenteX + Y non puo essere una v.a. normale, poiche le v.a. normali sono continue ed hannoprobabilita nulla di assumere uno specifico valore reale. Cio dimostra che W non e unvettore normale.

189

Appendici alla Lezione 28Complementi sui vettori normali

materiale non in programma a.a. 2012/13

Appendice I. Fattorizzazione delle matrici semidefinite positive

Ogni Σ = Σ> ∈ Rn×n, semidefinita positiva, ha tutti gli autovalori reali e i suoi autovet-tori possono essere scelti a formare una base ortonormale di Rn. Formando la matriceortogonale U che ha per colonne gli autovettori ortonormali di Σ si puo allora scrivereΣ = UΛU>, dove Λ e la matrice diagonale degli autovalori di Σ. Se Σ e semidefinita pos-itiva allora una decomposizione del tipo Σ = AA>, con A ∈ Rn×n, si ottiene prendendoA = UΛ

12 (in generale questo non sarebbe possibile se ci fossero autovalori negativi!). La

non unicita di A e evidente poiche anche A = AQ, con Q>Q = QQ> = I una arbitrariamatrice ortogonale, produce una fattorizzazione valida Σ = AA> = AA>. Con un piccolosforzo extra si puo costruire una fattorizzazione del tipo Σ = AA>, con A ∈ Rn×k dove ke un qualunque intero che soddisfa la condizione k ≥ rango(Σ).

Appendice II. Funzione di densita dei vettori normali

(A.) Richiamo sulla formula per il cambio di variabili negli integrali multipli.

Sia B ⊂ Rn e g : B → Rn invertibile, differenziabile con derivate continue e Jacobianonon nullo per ogni x ∈ B, allora∫

g(B)f(x) dx =

∫Bf(g(u))

∣∣∣∣∂g(u)

∂u

∣∣∣∣ dudove

∣∣∣∂g(u)∂u

∣∣∣ e il modulo del (determinante) Jacobiano della trasformazione g.

Esempio familiare. Nel caso n = 2, sia x := (x, y), u := (ρ, θ) e la trasformazione

g :=

(g1(ρ, θ)g2(ρ, θ)

)=

(ρ cos θρ sin θ

),

allora ∣∣∣∣∂g(u)

∂u

∣∣∣∣ =

∣∣∣∣det

(cos θ −ρ sin θsin θ ρ cos θ

)∣∣∣∣ = ρ

e la formula per il cambio di variabili corrispondente e∫∫g(B)

f(x, y) dxdy =

∫∫Bf(ρ cos θ, ρ sin θ)ρ dθdρ

(B.) Calcolo della densita di Y = g(X).

Sia X un vettore aleatorio di densita nota fX(x). Si consideri il vettore Y = g(X), doveg : Rn → Rn ed invertibile. Il vettore Y e funzione del vettore X e, in analogia a quantofatto nel caso scalare, ci proponiamo di calcolare la densita fY(y) a partire dalla densitanota fX(x).

Per ogni B ∈ B(Rn)

P (Y ∈ B) =

∫∫BfY(y) dy dove fY e la densita da determinare

= P (g(X) ∈ B) = P (X ∈ g−1(B))

=

∫∫g−1(B)

fX(x) dx

=

∫∫BfX(g−1(y))

∣∣∣∣∂g−1(y)

∂y

∣∣∣∣ dy formula del cambio di variabili per g−1

190

Confrontando la prima e l’ultima espressione di P (Y ∈ B), poiche B e arbitrario, siconclude che

fY(y) = fX(g−1(y))

∣∣∣∣∂g−1(y)

∂y

∣∣∣∣ (6)

(C.) Applicazione ai vettori normali.

Si consideri il vettore normale Y ∼ N(µ,Σ) in Rn. Costruita una qualunque fattorizzazioneΣ = AA> con A ∈ Rn×k si puo allora scrivere

Y = g(Z) = AZ + µ (7)

dove Z ∼ N(0, Ik) e una normale standard la cui densita fZ e data dalla 1. Calcoliamo ladensita fY con la formula 6. Affinche sia soddisfatta la condizione necessaria di invertibilitadi g(z) = Az + µ bisogna che sia n = k ed inoltre A ∈ Rn×n invertibile. Cio equivale aΣ = AA> invertibile. In questo caso la funzione inversa e

z = g−1(y) = A−1(y − µ),

il cui (determinante) Jacobiano e |det(A−1)|.Applicando la formula (6) e ricordando la densita del vettore normale standard (1), sitrova

fY(y) = |det(A−1)| fZ(A−1(y − µ)

)(8)

da qui si procede come nel testo della Lezione per determinare la densita.

(D.) Interpretazione geometrica dell’esistenza della densita di un vettore normale.

E noto dall’algebra lineare (e facile da dimostrare) che un sottoinsieme di vettori v1, . . . vnin uno spazio a prodotto interno e linearmente indipendente se e solo se la matriceGramiana corrispondente e definita positiva

G(v1, . . . vn) :=

〈v1, v1〉〈v1, v2〉 . . . 〈v1, vn〉〈v2, v1〉〈v2, v2〉 . . . 〈v2, vn〉. . . . . . . . .〈vn, v1〉〈vn, v2〉 . . . 〈vn, vn〉

> 0.

Consideriamo ora nello spazio S delle v.a. a secondo momento finito il sottospazio generatodalle componenti di un vettore normale Y ∼ N(0,Σ). Il gramiano delle componenti di Yrispetto al prodotto interno precentemente introdotto e

G(Y1, . . . Yn) :=

E(Y1Y1) E(Y1Y2) . . . E(Y1Yn)E(Y2Y1) E(Y2Y2) . . . E(Y2Yn). . . . . . . . .

E(YnY1) E(YnY2) . . . E(YnYn)

= cov(Y ) = Σ.

La conclusione e che Y ∼ N(0,Σ) ammette densita se e solo se le sue componenti sono uninsieme linearmente indipendente dello spazio S.

Appendice III. Normale bivariata

Questo e solo il caso particolare dei vettori normali a valori in R2. Non c’e nulla di nuovo,ma ovviamente il caso n = 2 consente di fare qualche grafico. Consideriamo un vettore

191

normale W ∼ (µ,Σ) in R2. La media µ> = (µX , µY )> ∈ R2 e un vettore arbitrario,mentre la covarianza

Σ =

(σ2X σXY

σXY σ2Y

)e un’arbitraria matrice semidefinita positiva. Come visto in precedenza la covarianza sipuo scrivere alternativamente come

σXY = cov(XY ) = ρσXσY

dove

ρ :=cov(XY )√

var(X)var(Y )=

σXY√σ2Xσ

2Y

e il coefficiente di correlazione tra X ed Y che, per la disuguaglianza di Cauchy-Schwarz,soddisfa

|ρ| ≤ 1

La matrice Σ si puo parametrizzare in termini di σ2X , σ

2Y e ρ, assumendo la forma

Σ =

(σ2X ρσXσY

ρσXσY σ2Y

).

La condizione per l’esistenza della densita e che Σ sia definita positiva e di conseguenzainvertibile. Poiche in generale Σ ≥ 0 e poiche assumiamo implicitamente che σ2

X e σ2Y

siano entrambe strettamente positive, altrimenti le v.a. X e/o Y sarebbero degeneri,l’unica condizione da imporre e che il determinante di Σ sia strettamente positivo.

|Σ| := det(Σ) = (1− ρ2)σ2Xσ

2Y > 0 ⇔ |ρ| < 1

Consideriamo dapprima il caso in cui la densita esiste, |ρ| < 1 e specializziamo la formu-la (2) al presente caso. L’inversa della covarianza e

Σ−1 =1

|Σ|

(σ2Y −ρσXσY

−ρσXσY σ2X

)=

1

1− ρ2

(1σ2X

− ρσXσY

− ρσXσY

1σ2Y

)

Per rendere compatta la formula della densita definiamo la forma quadratica

q(x− µX , y − µY ) :=(x− µX , y − µY

)( 1σ2X

− ρσXσY

− ρσXσY

1σ2Y

)(x− µXy − µY

)allora la formula (2) fornisce

fW(x, y) =1

2π√

1− ρ2σXσYexp− 1

2(1− ρ2)q(x− µX , y − µY ).

Espandendo la forma quadratica si trova

q(x− µx, y − µY ) =(x− µX)2

σ2X

− 2ρ

σXσY(x− µX)(y − µY ) +

(y − µY )2

σ2Y

Le curve di livello della densita fW (x, y) sono i luoghi geometrici definiti dall’equazioneq(x− µx, y − µY ) = c al variare della costante c, ma l’equazione

(x− µX)2

σ2X

− 2ρ

σXσY(x− µX)(y − µY ) +

(y − µY )2

σ2Y

= c

192

e quella di una conica nel piano (x, y) e poiche per |ρ| < 1 il determinante (o invariantequadratico o in qualunque modo lo abbiate chiamato nel corso di Geometria)

∆ =1

σ2X

1

σ2Y

−(

ρ

σXσY

)2

=1− ρ2

σ2Xσ

2Y

> 0

e strettamente positivo, si conclude che le curve di livello sono ellissi di centro (µX , µY ).

(figura)

to do: Correlazione e varianza della somma – Riprendere il discorso sulla varianza dellasomma - calcolo della correlazione ecc.....

193

Lezione 29 (Mercoledı 15 maggio, ore 16:25–18:10)

29.1 Convergenza in distribuzione – Motivazione

Una variabile aleatoria e il naturale modello probabilistico di un esperimento consistentein una singola misura incerta di una grandezza fisica scalare. Se l’esperimento consiste inuna singola misura di una grandezza fisica vettoriale il modello probabilistico naturale eil vettore aleatorio. Nella pratica ingegneristica i dati incerti sono tipicamente segnali diingresso e/o di uscita di sistemi dinamici e dunque consistono di sequenze di misure, scalario vettoriali a seconda del contesto. In questi casi il modello probabilistico naturale e unasequenza di variabili aleatorie, se i segnali sono grandezze fisiche scalari, o una sequenzadi vettori aleatori se i segnali sono grandezze fisiche vettoriali.

In questa lezione, e nelle due seguenti, considereremo le sequenze di variabili aleatorieXn∞n=1, limitandoci per ora a definire alcune utili nozioni di convergenza. Una sequenzadi variabili aleatorie Xn∞n=1 e in realta una sequenza di funzioni Xn : Ω → R. Comenoto dai corsi di Analisi Matematica e di Segnali e Sistemi, i modi di convergenza dellesequenze di funzioni sono molti e non equivalenti: puntuale, uniforme, in L1, in L2, ecc. Perle sequenze di variabili aleatorie e inoltre possibile introdurre due modi di convergenza,in distribuzione e in probabilita, direttamente legati al comportamento asintotico dellaprobabilita di certi eventi.

In questa lezione trattiamo la forma piu debole di convergenza per sequenze di variabilialeatorie, la convergenza in distribuzione. Prima di entrare nei dettagli formali, cerchiamodi illustrare con un esempio questo modo di convergenza.

Richiamo. Se U ∼ U([0, 1]), la funzione di densita e costante nell’intervallo [0, 1]) ovvero

fU (x) = 1l[0,1](x),

a cui corrisponde la funzione di distribuzione (banale, a parte la notazione)

FU (x) = x 1l[0,1](x) + 1l(x− 1)

Esempio. Sia Xnn≥1 una sequenza di v.a. indipendenti, identicamente distribuite, Xn ∼U([0, 1]) per ogni n ≥ 1. Definiamo la sequenza di variabili aleatorie

Mn := max(X1, X2, . . . Xn), n ∈ N

Vogliamo studiare il comportamento asintotico della sequenza Mnn≥1. Si noti che levariabili Mn non sono indipendenti, infatti Mn+1 = maxMn, Xn+1, e dunque Mn+1 efunzione di Mn

(a.) Intuizione.

Ci aspettiamo che, per n→∞ la sequenza Mn converga ad una variabile aleatoria limitatada 1. Infatti tutte le variabili aleatorie Xi hanno valori in [0, 1], quindi Mn ≤ 1 per ognin, inoltre Mn e non-decrescente in n.

(b.) Primo affinamento – parametri riassuntivi di Mn.

Per calcolare media e varianza delle Mn ne determiniamo la densita. Cominciamo con ilricavare la FdD (banale: fate separatamente i casi (−∞, 0], [0, 1], [1,∞))

FMn(x) = P (Mn ≤ x) = P (max(X1, X2, . . . Xn) ≤ x)

= P (X1 ≤ x, X2 ≤ x, . . . Xn ≤ x) =

n∏k=1

P (Xk ≤ x)

=(FU (x)

)n= xn 1l[0,1](x) + 1l(x− 1) (1)

194

La densita fMn si calcola derivando la funzione di distribuzione FMn(x)

fMn(x) = nxn−1 1l[0,1](x)

I parametri riassuntivi di Mn si calcolano agevolmente.

E(Mn) =

∫ 1

0xfMn(x) dx =

∫ 1

0x · nxn−1 dx =

n

n+ 1

E(M2n) =

∫ 1

0x2fMn(x) dx =

∫ 1

0x2 · nxn−1 dx =

n

n+ 2

var(Mn) = E(M2n)−

(E(Mn)

)2=

n

n3 + 4n2 + 5n+ 2= O

(1

n2

)Per n → ∞ il valore atteso di Mn tende ad 1 e la varianza a 0. Questa e un’indicazioneancora abbastanza vaga, ma piu precisa della prima intuizione: per n → ∞ le variabilialeatorie Mn si concentrano intorno alla costante 1.

(c.) Secondo affinamento – comportamento limite della FdD di Mn.

A partire dall’espressione esatta (1) si trova

limn→∞

FMn(x) =

0, x < 1,1, x ≥ 1.

Si riconosce che limn→∞ FMn(x) = 1l(x − 1). Le funzioni di distribuzione FMn tendono,per ogni x ∈ R, alla funzione di distribuzione della variabile aleatoria degenere (costante)1.Questo e gia un senso piu preciso in cui si puo ritenere che Mn → 1

E possibile approfondire l’analisi di questo esempio, che verra ripreso nella Lezione 31.Procediamo ora alla definizione formale della convergenza in distribuzione.

195

29.2 Convergenza in distribuzione

Definizione. Una sequenza di v.a. Xnn≥1 non necessariamente indipendenti, di funzionidi distribuzione Fn(x), converge in distribuzione se esiste una funzione di distribuzioneF (x) tale che

limn→∞

Fn(x) = F (x), per ogni x dove F (x) e continua.

In questo caso scriveremo

XnD−→ F (x)

Attenzione. Bisogna leggere con attenzione questa definizione. Non basta che le Fn(x)convergano ad una certa funzione F (x) per ogni x dove F (x) e continua. Bisogna cheF (x) sia una funzione di distribuzione.

Vediamo immediatamente due esempi che chiariscono perche e necessario imporre che F (x)sia una distribuzione e perche bisogna concedere alle Fn(x) la possibilita di non convergerenei punti di discontinuita di F (x).

Esempio 1. Affinche la nozione di convergenza appena introdotta serva a qualcosa bisognache, almeno in casi banali, si comporti come ci si aspetta. La sequenza numerica

Xn = 1 +1

n.

converge ad 1, e poiche Xnn≥1 e anche una sequenza di v.a. degeneri. Affinche la nozionedi convergenza in distribuzione appena introdotta sia di una qualche utilita bisogna chele variabili aleatorie Xn di queso esempio convergano in distribuzione alla costante 1. Secio non si dovesse verificare la nozione di convergenza in distribuzione sarebbe di dubbiautilita.

Le distribuzioni Fn(x) sono

Fn(x) =

0, x < 1 + 1

n ,

1, x ≥ 1 + 1n .

e calcolando il limite si trova

G(x) := limn→∞

Fn(x) =

0, x≤1,1, x>1.

La G(x) non e una funzione di distribuzione, non essendo continua a destra. Esiste perouna funzione di distribuzione:

F (x) :=

0, x<1,1, x≥1.

= 1l(x− 1).

tale chelimn→∞

Fn(x) = F (x), per ogni x punto di continuita di F (x)

Infatti Fn(x) → F (x) su tutta R, tranne nel punto x = 1 dove F (x) ha l’unica disconti-

nuita. Si conclude che XnD−→ F (x).

Alla luce di quest’esempio si capisce perche, nella definizione di convergenza in distribuzione,si deve tollerare che la sequenza Fn(x) possa non convergere nei punti di discontinuitadi F (x). Se non si facesse cosı nemmeno la banalissima sequenza Xn dell’Esempio 1convergerebbe in distribuzione.

196

Esempio 2. Si consideri la sequenza Xn dove Xn ∼ N(0, n). Detta come di consuetoΦ(z) la funzione di distribuzione di una v.a. Z ∼ N(0, 1), standardizzando le Xn si ha

Fn(x) = P (Xn ≤ x) = P

(Xn√n

)= Φ

(x√n

)Poiche Φ(0) = 1

2 , abbiamo che, per ogni x ∈ R fissato,

limn→∞

Fn(x) = limn→∞

Φ

(x√n

)=

1

2.

Ma non basta che la sequenza di distribuzioni Fn(x) converga per ogni x ∈ R. Bisognache la funzione limite sia una distribuzione. Chiaramente la costante pari ad 1/2 non euna funzione di distribuzione. (aggiungere grafico in futura revisione). Si conclude che lasequenza Xn non converge in distribuzione.

Esempio 3. L’esempio del paragrafo 1 relativo alla sequenza di v.a. Mn. Con la notazione

appena introdotta possiamo scrivere che MnD−→ 1l(x− 1).

Esempio 4. L’esempio del paragrafo 1 relativo alla sequenza di v.a. n(1 −Mn). Con la

notazione appena introdotta possiamo scrivere che n(1−Mn)D−→ Exp(1).

Esempio 5. Si consideri la sequenza di v.a. Xn di alfabeto Xn =

1n ,

2n ,

3n , . . .

nn

e densita

di probabilita uniforme pXn(kn

)= 1

n , per k = 1, 2, . . . n. Abbiamo visto a Lezione che la

sequenza XnD−→ U([0, 1]).

Convergenza in distribuzione e funzioni caratteristiche

Teorema di continuita (Paul Levy). Sia Xn una sequenza di v.a. di funzioni caratteris-tiche ϕn(ω). Si supponga che

limn→∞

ϕ(ω) = ϕ(ω), per ogni x ∈ R,

per qualche funzione ϕ(ω), allora sono equivalenti le seguenti proposizioni

(a.) ϕ(ω) e continua nell’origine.

(b.) ϕ(ω) e una funzione caratteristica.

(c.) XnD−→ F (x), per qualche F (x) la cui funzione caratteristica e ϕ(t).

Esempio 6. Sia Xn una sequenza di v.a. di distribuzioni Bin(n, λn

). Allora

XnD−→ P(λ).

Dimostrazione. Abbiamo in precedenza calcolato la funzione caratteristica di una v.a.binomiale.

ϕn(ω) =

(1− λ

n+λ

nejω)n

calcolando il limite si trova

limn→∞

ϕn(ω) = limn→∞

(1− λ

n+λ

nejω)n

= eλ(ejt−1)

si riconosce che il membro destro e la funzione caratteristica della distribuzione di PoissonP(λ). Per il teorema di continuita si conclude che Xn converge in distribuzione a P(λ).Un risultato che conoscevamo gia ma che ora abbiamo ottenuto in modo pulito, rigoroso,

197

praticamente senza fare nessun calcolo. Ma c’e dietro la grande macchina del teorema dicontinuita.

Esercizio proposto. Riconsiderare gli Esempi da 1. a 5. del paragrafo precedente usandoil teorema di Levy.

Osservazione. E interessante osservare la varieta di comportamenti possibili nella con-vergenza in distribuzione. Nell’esempio 3. una sequenza di FdD continue converge aduna FdD discreta, nell’esempio 4. una sequenza di FdD continue converge ad una FdDcontinua, nell’esempio 5. una sequenza di FdD discrete converge ad una FdD continua edinfine, nell’esempio 6, una sequenza di FdD discrete converge ad una FdD discreta

Convergenza in distribuzione – cosa non e sempre vero

La convergenza in distribuzione e una nozione di convergenza molto debole. I seguentifatti lo dimostrano chiaramente.

Fatto 1. Sia Xn una sequenza di v.a. assolutamente continue tali che XnD−→ F (x), per

qualche F (x) Non e in generale vero che per le corrispondenti densita valga

limn→∞

fn(x) = f(x), NON E SEMPRE VERO

Esempio. Sia Xn una sequenza di v.a. di densita fn(x) =(1 − cos(2πnx)

)1l[0,1](x). E

abbastanza facile dimostrare (grosso esercizio di Segnali e Sistemi) che per le corrispondentifunzioni caratteristiche

limn→∞

ϕn(t) = ϕU (t)

dove ϕU (t) e la funzione caratteristica della distribuzione U([0, 1]), quindi per il teorema

di continuita XnD−→ U([0, 1]). Peraltro e ancora piu facile verificare che la sequenza fn(x)

non converge per nessun x ∈ (0, 1).

Futura revisione. Discutere caso discreto

Fatto 2. Sia Xn una sequenza di v.a. tali che XnD−→ F (x), per qualche F (x). Non e in

generale vero che per i valori attesi valga

limn→∞

E(Xn) = E(X), NON E SEMPRE VERO

dove X e una v.a. di distribuzione F (x).

Esempio. Sia Xn una sequenza di v.a le cui distribuzioni sono caratterizzate come segue

Xn =

0, con P (Xn = 0) = 1− 1

n ,n, con P (Xn = n) = 1

n .

Ricavate Fn(x) (banale) e verificate che

limn→∞

Fn(x) =

0, x < 0,1, x ≥ 1.

Quindi XnD−→ 0 (cioe alla funzione di distribuzione della v.a. degenere (costante) 0.

Peraltro e immediato verificare che, per ogni n ≥ 1, vale E(Xn) = 1 6= E(0) = 0.

198

Lezione 30 (Lunedı 20 maggio, ore 10:30–12:15)

30.1 Convergenza in probabilita

Definizione. La sequenza di v.a. Xn converge in probabilita alla v.a. X se

limn→∞

P(|Xn −X| ≥ ε

)= 0, per ogni ε > 0,

in questo caso scriveremo

XnP−→ X

Osservazioni

(a.) La convergenza delle probabilita e la ordinaria convergenza delle sequenze numeriche.

In termini formali: XnP−→ X se, per ogni ε > 0 fissato, per ogni γ > 0 esiste un N tale

che, per ogni n ≥ NP(|Xn −X| ≥ ε

)≤ γ.

(b.) Forme alternative, equivalenti tra loro, della condizione di convergenza in probabilita.Per ogni ε > 0

limn→∞

P(|Xn −X| > ε

)= 0,

limn→∞

P(|Xn −X| ≤ ε

)= 1,

limn→∞

P(|Xn −X| < ε

)= 1

(c.) Per valutare se la sequenza Xn converge in distribuzione e sufficiente disporre delledistribuzioni Fn(x) delle singole v.a. Xn. Per valutare se la sequenza Xn converge inprobabilita si deve poter calcolare P

(|Xn−X| > ε

)per ogni n, il che richiede di disporre

delle distribuzioni congiunte delle coppie (Xn, X) per ogni n. In un caso, speciale mamolto frequente, basta conoscere le distribuzioni delle singole v.a. Xn: si veda il puntosuccessivo

(d.) Spesso la v.a. X cui la sequenza Xn converge in probabilita e una v.a. degenere, cioeuna costante, diciamola c ∈ R. In questo caso la condizione di convergenza e intuitivamentepiu chiara. Per n sufficientemente grande |Xn − c| ≤ ε con alta probabilita. Inoltre inquesto caso per valutare P

(|Xn −X| ≤ ε

)al variare di n sono sufficienti le distribuzioni

delle singole v.a. Xn.

Esempio 1. (ripreso dal paragrafo 27.1)

La sequenza Mn converge in distribuzione alla costante 1. Per capire se la convergenza ad1 sussiste anche in probabilita si deve valutare, per ogni ε > 0 fissato,

P (|Mn − 1| ≥ ε) = P (1−Mn ≥ ε) = P (Mn ≤ 1− ε)= (1− ε)n −→ 0, per ogni 0 < ε < 1

(per i piu pignoli: data la definizione di Mn, se ε > 1 la probabilita e nulla per ogni n,

non solo asintoticamente.) Si conclude che MnP−→ 1.

Esempio 2.

Le v.a. Xnn≥1 ed X sono i.i.d. con distribuzione di Bernoulli b(

12

). E banale che

XnD−→ b

(1

2

)199

infatti le distribuzioni delle Xn sono tutte identiche b(

12

)e tale rimane il limite.

Dimostriamo ora che la sequenza Xn non converge in probabilita alla v.a. X ∼ b(

12

).

Cominciamo con l’osservare che sia le Xn che X possono assumere solo i valori 0 ed 1,quindi per ogni 0 < ε < 1,[

|Xn −X| ≥ ε ] =[Xn 6= X

]=[Xn = 0, X = 1 ] ∪

[Xn = 1, X = 0 ].

Possiamo ora verificare, usando la definizione, che la convergenza in probabilita nonsussiste

limn→∞

P (|Xn −X| ≥ ε) = limn→∞

P (Xn 6= X)

= limn→∞

P([Xn = 0, X = 1 ] ∪

[Xn = 1, X = 0 ]

)=

1

2

1

2+

1

2

1

2=

1

29 0.

Commento. L’esempio mostra che la convergenza in distribuzione e piu debole dellaconvergenza in probabilita, infatti Xn converge in distribuzione, ma non in probabilita.

Relazioni tra convergenza in probabilita e convergenza in distribuzione.

Lemma. Se XnP−→ X allora Xn

D−→ X.

Dimostrazione. Non molto difficile ma omessa.

Questo risultato mostra che la convergenza in probabilita e una nozione piu forte dellaconvergenza in distribuzione. In un caso speciale, ma inportante, le due nozioni sonoequivalenti, come dimostrato nel seguente Lemma.

Lemma. XnP−→ c se e solo se Xn

D−→ c.

Dimostrazione. La direzione: se converge in probabilita alla costante c allora vi convergeanche in distribuzione e una conseguenza del lemma precedente. La direzione se convergein distribuzione alla costante c allora vi converge anche in probabilita l’avevo ”dimostrata”disegnando il grafico qui sotto alla lavagna. Nel grafico le distribuzioni Fn(x) convergono

alla distribuzione degenere F (x) della costante c, per ogni x ∈ R. [In figura Fn(c) = 12 per

200

ogni n, ma questa condizione e puramente accidentale, serve solo a tracciare un graficoelegante.] Dalla figura si vede che

P (|Xn − c| ≤ ε) = P (c− ε ≤ Xn ≤ c+ ε) = Fn(c+ ε)− Fn(c− ε)→ 1

poiche, per la convergenza in distribuzione, deve valere Fn(c− ε)→ 0 e Fn(c+ ε)→ 1. Si

conclude che XnP−→ c.

Convergenza in probabilita – cosa non e sempre vero

Se XnP−→ X non e in generale vero che per i valori attesi valga

limn→∞

E(Xn) = E(X), NON E SEMPRE VERO

Esempio. Sia Xn una sequenza di v.a le cui distribuzioni sono caratterizzate come segue

Xn =

0, con P (Xn = 0) = 1− 1

n ,n, con P (Xn = n) = 1

n .

Si verifichi che XnP−→ 0, ma E(Xn) = 1 9 0.

30.2 Convergenza in Lp

Definizione. La sequenza di v.a. Xn converge in Lp alla v.a. X se

limn→∞

E(, |Xn −X|p)

= 0,

in questo caso scriveremo

XnLp−→ X

Osservazioni

(a.) Sono ammessi tutti i valori di p ≥ 1. Ad ogni p ≥ 1 corrisponde una diversanozione di convergenza. Per p = 1 si dice che la sequenza Xn converge ad X in media;per p = 2 che converge in media quadratica. Questi sono i due casi di gran lunga piuimportanti in pratica. La convergenza in media quadratica e particolarmente interessantedal punto di vista geometrico essendo la naturale nozione di convergenza nello spazio,dotato di prodotto interno, L2 := X : Ω→ R : E(X2) <∞ che avevamo introdotto inprecedenza.

(b.) Anche in questo caso, come per la convergenza in probabilita, deve essere nota ladensita congiunta delle coppie (Xn, X) per ogni n. Solo con questa informazione si puocalcolare E( |Xn − X|p

). Unica eccezione: se X = c, v.a. degenere, allora e sufficiente

conoscere le distribuzioni delle Xn.

(c.) La convergenza in media quadratica implica la convergenza in media. Infatti, per la

disuguaglianza di Cauchy-Schwarz, se XnL2−→ X allora

E(|Xn −X|) = E(|Xn −X| · 1) ≤√E(|Xn −X|2)E(12) =

√E(|Xn −X|2)→ 0

(d.) Se XnL1−→ X allora E(Xn) → E(X). Questa e una semplice conseguenza della

disuguaglianza triangolare. |E(Xn)− E(X)| = |E(Xn −X)| ≤ E(|Xn −X|)→ 0.

201

Relazione con la convergenza in probabilita

Lemma. Se XnLp−→ X allora Xn

P−→ X.

Dimostrazione. Qualunque sia p ≥ 1, per la disuguaglianza di Markov

P (|Xn −X| ≥ ε) = P (|Xn −X|p ≥ εp) ≤E( |Xn −X|p

)εp

→ 0

Attenzione. Non e vero il viceversa. Se XnP−→ X, non necessariamente Xn

Lp−→ X. Laconvergenza in Lp e dunque piu forte della convergenza in probabilita.

Esempio.

Sia Xn una sequenza di v.a le cui distribuzioni sono caratterizzate come segue

Xn =

0, con P (Xn = 0) = 1− 1

n ,n, con P (Xn = n) = 1

n .

Avevamo visto che XnD−→ 0. In realta e anche vero che Xn

P−→ 0, infatti

P (|Xn − 0| ≥ ε) = P (Xn = n) =1

n−→ 0, per ogni ε > 0

Peraltro Xn non congerge a 0 in Lp per nessun valore di p ≥ 1, infatti

E(|Xn − 0|p) = E(Xpn) =

np

n= np−1 9 0

30.3 Legge debole dei grandi numeri

Il teorema seguente e uno dei risultati centrali della teoria della probabilita classica. For-mulato per le v.a. di Bernoulli da Jakob Bernoulli nel 1713, esteso da Chebyshev nel 1867alle v.a. che ammettono secondo momento, e da Khinchine nel 1928 alle v.a. che ammet-tono solo valore atteso. In forme estremamente piu generali e ancora un attivo settore diricerca teorica ed applicata.

Definiamo per comodita notazionale la sequenza di v.a.

Xn :=1

n

n∑i=1

Xi,

abitualmente Xn e detta sequenza delle medie campionarie. Per la linearita del valoreatteso

E(Xn) = µ, per ogni n

quindi e naturale che i valori di Xn siano distribuiti intorno a µ. Il teorema di Khinchineafferma che, se le variabili Xn sono i.i.d. allora asintoticamente, con alta probabilitaXn si concentra intorno a µ.

202

Teorema (legge debole dei grandi numeri – Khinchine 1928)

Sia Xn una sequenza di v.a., tutte definite sullo stesso spazio di probabilita27 , in-dipendenti ed identicamente distribuite. Si assume che µ := E(X1) esista. Sotto questeipotesi

XnP−→ µ = E(X1)

Osservazione. Non si devono confondere le Xn con le Xn, queste ultime non sono indipen-denti. Il teorema di Khinchine non e di facile dimostrazione, ma sotto l’ipotesi aggiuntivache esista il secondo momento E(X2

1 ) la legge dei grandi numeri e un risultato intuitivo,la cui dimostrazione e semplicissima.

Teorema (legge debole dei grandi numeri – Chebyshev 1867)

Sia Xn una sequenza di v.a., indipendenti ed identicamente distribuite. Si assuma cheE(X2

1 ) esista e sia µ := E(X1). Sotto queste ipotesi

XnP−→ µ = E(X1)

Commento. Questo risultato e in accordo con l’intuizione poiche, se esiste E(X21 ) < ∞,

allora σ2 := var(X1) <∞. Poiche per ipotesi le v.a. sono i.i.d

var(Xn) = var

(1

n

n∑i=1

Xi

)=

1

n2nσ2 =

σ2

n−→ 0

e questo conferma che Xn si concentra intorno al suo valore atteso E(Xn) = µ.

Dimostrazione della legge dei grandi numeri di Chebyshev. Per la disuguaglianza diChebyshev

P(|Xn − µ| ≥ ε

)≤ E(|Xn − µ|2)

ε2

=var(Xn)

ε2=

σ2

nε2−→ 0

Nota Bene. Riflettendo sulle definizioni date finora non vi sfuggira il fatto che, quandoesiste il secondo momento, e vero piu di quanto enunciato nella legge dei grandi numeri diChebyshev, infatti

E(|Xn − µ|2) = var(Xn) =σ2

n−→ 0

significa che XnL2−→ µ. La convergenza in L2 e piu forte della convergenza in probabilita,

ciononostante la legge dei grandi numeri non viene mai enunciata come un risultato diconvergenza in L2. Questo perche, come vedremo negli esempi, quello che veramenteinteressa in pratica e valutare probabilita del tipo P (|Xn − µ| ≤ ε). Interpretatelo cosı:per dimostrare la convergenza in probabilita e spesso tecnicamente piu facile dimostrarela convergenza in media quadratica o in media.

27Nota bene: ogni volta che si scrive una somma di v.a. si sta implicitamente supponendo che le v.a.siano definite sullo stesso spazio. In effetti la v.a. X + Y e definita come (X + Y )(ω) = X(ω) + Y (ω). SeX ed Y non sono definite sullo stesso spazio non ha senso sommarle. Questo e un problema tecnico di cuinon ci siamo mai occupati. Quando dico: sia Xnn≥1 una sequenza di v.a. indipendenti ed identicamentedistribuite di distribuzione assegnata bisognerebbe chiedersi se esiste uno spazio di probabilita su cui epossibile definire una sequenza con le caratteristiche richieste. La cattiva notizia e che il teorema chegarantisce l’esistenza di un tale spazio e troppo complesso per essere presentato in un corso elementare. Labuona notizia e che, fintanto si rimanga su sequenze di v.a. i.i.d., a valori in R, uno spazio di probabilitaadeguato a contenere tutte le variabili della sequenza, qualunque siano le loro distribuzioni congiunte esistesempre. Continueremo quindi a sottacere questa difficolta.

203

Corollario della legge dei grandi numeri. Sia Xn una sequenza di v.a., indipendenti edidenticamente distribuite e g : R → R una funzione tale che E

((g(X1))2

)esista. Sotto

queste ipotesi

1

n

n∑i=1

g(Xi)P−→ E(g(X1))

Dimostrazione. Non c’e nulla da dimostrare. Se Xn e una sequenza i.i.d. tale e anchela sequenza g(Xn) e, per la legge dei grandi numeri la media campionaria delle g(Xi)converge al valore atteso comune E(g(X1))

Esempi di applicazione della legge debole dei grandi numeri

L’esempio per eccellenza e la sequenza di v.a. di Bernoulli i.i.d.. Come vedremo la suaportata e molto piu ampia di quanto si potrebbe immaginare. L’informazione utile inpratica e contenuta nella disuguaglianza di Chebyshev.

Esempio 1. Sia Xn una sequenza di v.a. i.i.d. b(p). In termini del classico esempio deilanci ripetuti di una moneta la media campionaria Xn e

Xn =1

n

n∑i=1

Xi =nT (Xn

1 )

n

dove nT (Xn1 ) denota il numero di Teste in n lanci. Naturalmente E(Xn) = p e var(Xn) =

p(1−p)n . Per la legge debole dei grandi numeri

nT (Xn1 )

n

P−→ p = E(X1)

ovvero, per ogni ε > 0,

limn→∞

P

( ∣∣∣∣nT (Xn1 )

n− p∣∣∣∣ ≤ ε) = 1

L’interpretazione pratica e che asintoticamente, con alta probabilita, p−ε ≤ nT (Xn1 )

n ≤ p+ε.

In linea di principio, usando la disuguaglianza di Chebychev, e possibile, fissati ε > 0 edα ∈ [0, 1], determinare il numero di lanci n tale che

P

( ∣∣∣∣nT (Xn1 )

n− p∣∣∣∣ ≤ ε) ≥ α.

Si procede in questo modo. La disuguaglianza di Chebychev e

P

( ∣∣∣∣nT (Xn1 )

n− p∣∣∣∣ ≤ ε) ≥ 1− var(Xn)

ε2

= 1− p(1− p)nε2

≥ 1− 1

4nε2,

dove, per l’ultimo passaggio, si osservi che p(1 − p) ≤ 14 per ogni p ∈ [0, 1]. Imponendo

quindi la condizione

1− 1

4nε2≥ α

si determina il numero di lanci n che garantisce i livelli ε ed α assegnati. Ad esempio perε = 0.05 ed α = 0.95 la condizione

1− 1

4n 0.052≥ 0.95

fornisce n ≥ 2000.

204

Lezione 31 (Martedı 21 maggio, ore 16:25–18:10)

31.1 Legge debole dei grandi numeri (continua)

Esempi di applicazione della legge debole dei grandi numeri

Esempio 2. Sia X una v.a. di densita fX(x) che ammette secondo momento. Fissato unevento E ∈ B(R) si consideri il problema del calcolo di

p := P (X ∈ E) =

∫EfX(x) dx,

dove abbiamo convenientemente denotato con p il valore cercato. Per assegnati E ed fXquesto e un problema puramente deterministico, che si riduce al calcolo di un integraledefinito. Se la densita fX e una funzione che non ammette primitiva esprimibile in formachiusa (esempio importante: la normale) il calcolo puo essere effettuato solo attraversouna procedura di approssimazione numerica. Vediamo come la legge dei grandi numericonsenta di determinare il valore di p con una procedura probabilistica invece che di analisinumerica. Ci si procura28 una sequenza di v.a. i.i.d. Xn con densita fX1(x) = fX(x).Si definisca la sequenza di v.a. Yn, dove

Yn := 1lE(Xn).

Dalla definizione si deduce che le v.a. Yn assumono solo due valori: Yn = 1 se Xn ∈ Eed Yn = 0 se Xn /∈ E, inoltre P (Yn = 1) = P (Xn ∈ E) = p. La sequenza Yn e quindiuna sequenza di v.a. i.i.d. b(p). Siamo tornati al caso trattato nell’Esempio 1. La mediacampionaria

Y n :=1

n

n∑i=1

Yi =nE(Xn

1 )

n,

dove nE(Xn1 ) e il numero di volte che Xi cade in E nelle prime n prove. Per la legge dei

grandi numeri

P

(∣∣∣∣nE(Xn1 )

n− p∣∣∣∣ ≤ ε) −→ 0

Considerazioni analoghe a quelle fatte nell’Esempio 1 si applicano anche in questo caso. Inparticolare, fissata la soglia ε (0.1, 0.05, 0.01 ecc.) per l’errore di approssimazione tolleratoe la soglia α (0.9, 0.95, 0.99 ecc.) ritenuta accettabile per la probabilita che l’errore stiasotto ad ε, si puo determinare il numero n di v.a. che e necessario generare.

Esempio 3. Come noto la disuguaglianza di Chebyshev e di validita generale, ma proprioper questo e molto conservativa. Se e possibile calcolare la distribuzione di Xn e molto piuconveniente valutare direttamente la probabilita P (|Xn − µ| ≤ ε) piuttosto che utilizzarela disuguaglianza di Chebychev. Si consideri il seguente esempio.

Si effettua una serie di misurazioni di una grandezza fisica incognita, diciamola µ ∈ R. Lan-esima lettura dello strumento si modella con una v.a.

Yn = µ+Wn

dove Wn ∼ N(0, σ2) rappresenta l’errore di misura.29 Gli errori di misura si suppon-gono i.i.d. Le letture dello strumento Yn formano quindi una sequenza di v.a. Yn ∼

28Questo e sempre possibile con una procedura di simulazione, che consente di generare una sequenzadi v.a. i.i.d. di qualunque densita assegnata. Non tratteremo qui le tecniche di simulazione.

29In molte situazioni modellare l’errore di misura con v.a. normali e giustificato da considerazionifisiche. Vedremo piu avanti il caso del rumore termico nei circuiti elettrici. Considerare E(Wn) = 0esclude la presenza di errori sistematici. La varianza E(W 2

n) = σ2 e legata alla precisione dello strumento.Considerazioni approfondite saranno fatte nei corsi di Misure.

205

N(µ, σ2) indipendenti ed identicamente distribuite. Poiche la media campionaria Y n euna combinazione lineare di v.a. normali indipendenti essa sara ancora normale e

Y n ∼ N(µ,σ2

n

)E allora possibile calcolare esattamente

P (|Y n − µ| < ε) = P

(|Y n − µ|σ/√n

<ε

σ/√n

)= 2Φ

(ε

σ/√n

)− 1

dove Φ(x) e la funzione di distribuzione della normale standard N(0, 1). I valori si trovanoin tabella.

Ad esempio ci chiediamo quale deve essere il numero di misure da effetuare utilizzandouno strumento con deviazione standard σ = 0.1 per garantire errore ε < 0.05 e probabilitaα = 0.95. Questo corrisponde a determinare il valore di n tale che

2Φ

(0.05

0.1/√n

)− 1 ≥ 0.95

ovvero Φ(0.05√n/0.1) ≥ 1.95/2 = 0.975. In tabella si trova che Φ(1.96) = 0.975 quindi

0.05√n/0.1 ≤ 1.96 ovvero n ≥ 15.36. Con n = 16 si raggiungono entrambi gli obiettivi.

Confrontiamo questo risultato con quanto si sarebbe ottenuto utilizzando la disuguaglianzadi Chebyshev.

P (|Y n − µ| < ε) ≥ 1− var(Y n)

ε2

ed imponendo gli stessi dati di prima, σ = 0.1, ε = 0.05 ed α = 0.95 si determina ngarantendo che

1− var(Y n)

ε2= 1− σ2

nε2= 1− 0.12

n0.052≥ 0.95

da cui si ricava che sarebbe necessario effettuare n = 80 misure per raggiungere entrambigli obiettivi.

Esempio 4. Il metodo di Monte Carlo

aggiungere in futura revisione

La legge dei grandi numeri - quando non funziona

Abbiamo detto che la legge dei grandi numeri (versione di Khinchine) richiede almenol’esistenza del valore atteso delle v.a. Xn. Vediamo con un esempio cosa puo succederequando il valore atteso non esiste.

Esempio. Si consideri la sequenza Xn di v.a. i.i.d. con densita di Cauchy fX1(x) =1π

11+x2 . Abbiamo gia dimostrato che le v.a. Xn non ammettono valore atteso. Costru-

iamo comunque la media campionaria Xn. Per determinare la densita di Xn convienelavorare con le funzioni caratteristiche. Ricordando che ϕX1(ω) = e−|ω| e che la funzionecaratteristica della somma di v.a. indipendenti e il prodotto delle funzioni caratteristiche,detto infine Sn :=

∑ni=1Xi, si ha

ϕSn(ω) =(e−|ω|

)n,

206

e finalmente, poiche Xn = 1nSn, e il prodotto di una costante per Sn,

ϕXn(ω) = ϕSn

(ωn

)=

(e−|

ωn |)n

= e−|ω| = ϕX1(ω)

La conclusione e cheϕXn

(ω) = ϕX1(ω)

ovvero, antitrasformando, la media campionaria ha densita di Cauchy identica a quella diuna singola v.a. della sequenza originale Xn. Poiche la densita di Cauchy e simmetricaintorno all’origine l’intuizione potrebbe far pensare che la media campionaria si concentraverso 0, che e il valore centrale30 delle v.a. Xn, ma questo non avviene.

31.2 Fattori di scala per la convergenza a distribuzioni non degeneri

[materiale non spiegato a lezione che puo essere saltato senza nessuna conseguenza per lacomprensione del seguito della lezione.]

Con riferimento all’esempio della Lezione 29.1, abbiamo stabilito che Mn ha asintotica-mente la distribuzione degenere della costante 1. Per studiare piu dettagliatamente ilcomportamento asintotico di Mn ci ispiriamo alla tecnica che si usa per lo studio dellavelocita di convergenza delle sequenze numeriche. Supponiamo che an sia una sequenzanumerica convergente, ad esempio

limn→∞

an = a,

che equivale a dire che il limite di |an − a|, la distanza tra an ed a, si annulla:

limn→∞

|an − a| = 0,

ovvero |an − a| e infinitesimo per n→∞. Per studiare la velocita di convergenza si devedeterminare l’ordine d’infinitesimo di |an − a| ovvero determinare un k tale che

limn→∞

|an − a|1nk

= limn→∞

nk |an − a| = b 6= 0.

Questa e un’informazione sulla velocita di convergenza, infatti ora sappiamo che

|an − a| =b

nk+ o

(1

nk

).

Si noti che determinare l’ordine di infinitesimo equivale ad amplificare la distanza |an−a|,moltiplicandola per il fattore di scala nk, e scegliendo k in modo tale che la sequenzaamplificata converga a b 6= 0. Questa sara esattamente la via che seguiremo anche nel casodelle variabili aleatorie.

Per quanto visto nella Lezione 29, le v.a. Mn convergono in distribuzione alla costante1, variabile aleatoria degenere di varianza nulla. La varianza var(Mn) = O

(1n2

)→ 0.

Per studiare la velocita di convergenza di Mn ad 1, imitando quanto si fa nel caso de-terministico, amplifichiamo |Mn − 1| moltiplicando per un opportuno fattore di scala in

30Si chiama mediana di una v.a. X il punto a ∈ R tale che P (X ≤ a) = P (X ≥ a) = 1/2), la medianadi una v.a. di Cauchy e a = 0.

207

modo tale che la varianza asintotica, invece di annullarsi, tenda ad una costante non nulla.L’opportuno fattore di scala, in questo caso, e n infatti

var(n|Mn − 1|) = var(n(1−Mn)) = n2var(1−Mn) = n2O

(1

n2

)= O(1),

dove abbiamo sfruttato il fatto che |Mn − 1| = 1−Mn.

Poiche var(n(1 −Mn)) = O(1) e ragionevole aspettarsi che la FdD asintotica delle v.a.n(1−Mn) non sia degenere. Diciamo Fn(x) la FdD di n(1−Mn), allora

Fn(x) = P (n (1−Mn) ≤ x) = P(

1−Mn ≤x

n

)= P

(Mn ≥ 1− x

n

)= 1− P

(Mn ≤ 1− x

n

)= 1l(x)−

[(1− x

n

)n1l[0,n](x)

]E calcolando il limite si trova (e molto piu banale di quel che sembra)

limn→∞

Fn(x) = limn→∞

1l(x)−(

1− x

n

)n1l[0,n](x) =

(1− e−x

)1l(x)

Si riconosce che Fn(x) converge alla funzione di distribuzione Exp(1). La densita limitedi n(1−Mn) e quindi f(x) = e−x1l(x).

Questo risultato e estremamente utile in quanto consente di calcolare la probabilita dieventi relativi alle v.a. Mn originali usando la distribuzione asintotica. Ad esempio, perogni a < 1 e per n abbastanza grande,

P (Mn > a) = P(n(1−Mn) < n(1− a)

)≈∫ n(1−a)

0e−x dx.

31.3 Teorema del limite centrale – motivazione

Legge debole dei grandi numeri per variabili normali. Se Xn e una sequenza di v.a. i.i.d.

N(µ, σ2) allora E(Xn) = µ e var(Xn) = σ2

n e, per la legge dei grandi numeri,

XnP−→ µ,

Probabilita delle deviazioni. Sotto l’ipotesi di normalita delle v.a. Xn le probabilita delledeviazioni d’interesse pratico, P (|Xn − µ| ≤ ε), si possono calcolare esattamente anzicheaccontentarsi della disuguaglianza di Chebychev. Infatti, poiche le combinazioni lineari div.a. normali indipendenti sono normali,

Xn ∼ N(µ,σ2

n

),

quindi le probabilita d’interesse si possono calcolare facendo ricorso alla tecnica di stan-dardizzazione.

P(|Xn − µ| ≤ ε

)= P

(|Xn − µ|σ/√n≤ ε

σ/√n

)= 2Φ

( εσ

√n)− 1

208

Convergenza in distribuzione. I conti fatti sopra, per il calcolo delle probabilita delle devi-azioni, hanno un risvolto interessante nello studio della convergenza in distribuzione. Ingenerale la convergenza in probabilita implica la convergenza in distribuzione quindi

XnD−→ 1l(x− µ),

dove 1l(x−µ) e la funzione di distribuzione della v.a. degenere (costante) µ. Consideriamoora l’operazione di standardizzazione su Xn − µ, che si puo riscrivere come

|Xn − µ|σ/√n

=

√n

σ|Xn − µ|

ovvero, la distanza |Xn − µ| e moltiplicata per il fattore di scala√n/σ. Si noti che

la sequenza delle v.a. |Xn − µ|, amplificate dal fattore√n/σ, converge banalmente ain

distribuzione alla distribuzione non degenere N(0, 1):

√n

σ(Xn − µ)

D−→ N(0, 1)

infatti, le v.a. nel membro di sinistra,√nσ (Xn− µ), sono, per ogni n ≥ 1, normali N(0, 1)

trattandosi di combinazioni lineari di v.a. Xn normali i.i.d..

Osservazione. Chi ha letto il paragrafo precedente puo confrontare questo esempio con

l’esempio motivazionale introdotto in Lezione 29.1. In quel caso MnD−→ 1l(x − 1) e,

moltiplicando la distanza 1−Mn per il fattore di scala n, si dimostrava che n(1−Mn)D−→

Exp(1).

Lo scopo di questa Lezione e di dimostrare che, anche se le v.a. Xn non sono normali,

√n

σ(Xn − µ)

D−→ N(0, 1).

31.4 Teorema del limite centrale

Teorema. Sia Xn una sequenza di v.a. i.i.d. che ammettono secondo momento, siaµ := E(X1) e σ2 := var(X1) > 0 allora

Wn :=

√n

σ

(Xn − µ

) D−→ N(0, 1).

Commento. Si noti che nessuna ipotesi sulla natura delle v.a. Xn e stata fatta: possonoessere discrete, continue, assolutamente continue, o miste.

Dimostrazione. E conveniente rappresentare Wn come somma di v.a. i.i.d. standardizzate:

Wn :=

√n

σ

(Xn − µ

)=

√n

σ

(1

n

n∑i=1

Xi − µ

)

=1√n

n∑i=1

Xi − µσ

=1√n

n∑i=1

Zi

209

dove, nell’ultimo passaggio, abbiamo introdotto le v.a. i.i.d. standardizzate31

Zi :=Xi − µσ

di media E(Zi) = 0 e varianza var(Zi) = 1. Le v.a. Zi hanno funzione caratteristicacomune, diciamola ϕ(ω). Poiche le Zi ammettono secondo momento ϕ(ω) e derivabile conderivata seconda continua (questo e stato menzionato, ma non dimostrato in precedenza,non e difficile ma prendetelo per buono). Sviluppando in serie di Taylor

ϕ(ω) = ϕ(0) + ϕ′(0)ω + ϕ′′(0)ω2

2+ o(ω2)

Ricordando che ϕ(0) = 1 e le relazioni tra momenti e derivate della funzione caratteristica,0 = E(Z1) = 1

jϕ′(0) e 1 = E(Z2

1 ) = 1j2ϕ′′(0), si trova che ϕ′(0) = 0 e ϕ′′(0) = −1, e

sostituendo nell’equazione qui sopra

ϕ(ω) = 1− ω2

2+ o(ω2)

Poiche le v.a. Zi sono i.i.d, la funzione caratteristica della somma Sn :=∑n

i=1 Zi e

ϕSn(ω) =(ϕ(ω)

)n=

(1− ω2

2+ o(ω2)

)ne quindi la funzione caratteristica di Wn = 1√

nSn e

ϕWn(ω) = ϕSn

(ω√n

)=

1−

(ω√n

)2

2+ o

((ω√n

)2)

n

=

(1− ω2/2

n+ o

(ω2

n

))nSiamo pronti a calcolare il limite

limn→∞

ϕWn(ω) = limn→∞

(1− ω2/2

n+ o

(ω2

n

))n= exp

(−ω

2

2

), per ogni ω ∈ R

Si riconosce che il limite e la funzione caratteristica di una v.a. N(0, 1). La dimostrazionesi conclude invocando il teorema di Levy.

Teorema del limite centrale – Esempi di approssimazione normale

Il teorema del limite centrale e utile per il calcolo approssimato di probabilita relativea somme di v.a. di qualunque natura. L’idea e di base nei calcoli pratici e che, se

ZnD−→ N(0, 1), allora per n sufficientemente grande sara

Zn :=

√n

σ

(Xn − µ

) D≈ N(0, 1).

dove il simboloD≈ indica che la distribuzione della v.a. di sinistra e approssimativamente

uguale alla distribuzione a destra. Quest’idea funziona eccezionalmente bene gia con valoridi n modesti, data la covergenza piuttosto veloce alla normalita.

31La notazione andrebbe modificata. Le Zi non sono normali, ma solo standardizzate, E(Zi) = 0 evar(Zi) = 1. Null’altro e noto sulle densita delle Zi

210

Raccogliamo qui sotto alcune forme equivalenti dell’ultima equazione. Sono immediate daricavare e non aggiungono nulla di nuovo. Assicuratevi che vi risulti banale passare da unaall’altra! Quelle che a destra hanno una N(0, 1) sono gia pronte per l’uso della tabella.

√n

σ

(Xn − µ

) D≈ N(0, 1)

1

σ√n

( n∑i=1

Xi − nµ) D≈ N(0, 1)

n∑i=1

XiD≈ N(nµ, nσ2)

XnD≈ N

(µ,σ2

n

)

Esempio 1.

Le batterie da 9V che alimentano il radiomicrofono delle aule Ke e Ve hanno una vitamedia di 3 ore con densita di probabilita esponenziale. Calcolare con che probabilita 30batterie consentono l’uso del microfono per tutta la durata del corso di Analisi dei Dati(78 ore).

La v.a. che descrive la durata di una batteria e X1 ∼ Exp(1/3) e la durata di 30 batteriee S30 :=

∑30i=1Xi. Si calcola E(S30) = 30 ·3 = 90 e var(S30) = 30 ·9 = 270. Per il teorema

del limite centrale30∑i=1

XiD≈ N(30 · 3, 30 · 9),

quindi

P

(30∑i=1

Xi ≥ 78

)= P

(∑30i=1Xi − 30 · 3√

30 · 9≥ 78− 30 · 3√

30 · 9

)≈ P (Z ≥ −0.73) = 1− Φ(−0.73) = Φ(0.73) ≈ 0.77

Esempio 2.

Il professore di Analisi dei Dati vuole avere probabilita almeno pari a 0.95 che il radiomi-crofono funzioni per tutta la durata del corso. Quante batterie deve acquistare il DEI peraccontentarlo?

I dati sono gli stessi dell’esempio 1. In questo caso n e l’incognita del problema. Larichiesta del professore impone il vincolo

P

(n∑i=1

Xi ≥ 78

)≥ 0.95

Il servizio tecnico del DEI applica il teorema del limite centrale e riscrive il vincolo come

P

(n∑i=1

Xi ≥ 78

)= P

(∑ni=1Xi − 3n√

9n≥ 78− 3n√

9n

)≈ P

(Z ≥ 78− 3n√

9n

)= 1− Φ

(78− 3n√

9n

)≥ 0.95

211

che si riduce a

Φ

(78− 3n√

9n

)≤ 0.05

ma la tabulazione della N(0, 1) parte da 0.5, si usa quindi la proprieta Φ(z) = 1−Φ(−z)e si riscrive il vincolo

Φ

(3n− 78√

9n

)≥ 0.95

dalla tabella si ricava che Φ(1.64) = 0.9495 e Φ(1.65) = 0.9505 che trasforma il vincolonella disequazione in

√n:

3n− 78 ≥ 1.65 · 3√n

che e soddisfatta per√n ≥ 5.99, cioe n ≥ 35.88. Bisogna che il DEI acquisti almeno 36

batterie.

Esempio 3.

(da confrontare con l’ esempio 1 per la legge dei grandi numeri) Torniamo all’esempioper eccellenza: la sequenza Xn, i.i.d. b(p). Usiamo il teorema del limite centrale pervalutare quanti lanci di una moneta onesta (p = 1/2) sono necessari per garantire

P

(∣∣∣∣nT (Xn1 )

n− 1

2

∣∣∣∣ ≤ 0.05

)≥ 0.95

Ricordando chenT (Xn

1 )n = Xn e che, per p = 1/2 valgono E(Xn) = µ = n

2 e var(Xn) =σ2

n = 14n la condizione da imporre e

P

(∣∣∣∣nT (Xn1 )

n− 1

2

∣∣∣∣ ≤ 0.05

)= P (|Xn − 1

2 | ≤ 0.05)

= P

(|Xn − 1

2 |1/2√n≤ 0.05

1/2√n

)≈ 2Φ(0.1

√n)− 1 ≥ 0.95

La condizione si riduce a Φ(0.1√n) ≥ 0.975. Dalla tabella della normale standard

Φ(1.96) = 0.975 quindi 0.1√n ≥ 1.96 da cui

√n ≥ 19.6 ed n ≥ 384.1, quindi n = 385 sono

sufficienti (da confrontarsi con gli n = 2000 richiesti dalla conservativa disuguaglianza diChebychev).

Thumb rule

Esercizio. (FATELO) Se Xn e una sequenza di v.a. i.i.d con E(X1) = µ e var(X1) = σ2,allora per n 1

P

(nµ− 1.96σ

√n ≤

n∑i=1

Xi ≤ nµ+ 1.96σ√n

)≈ 0.95.

Con errore di solito trascurabile si approssima l’intervallo [nµ− 1.96σ√n, nµ+ 1.96σ

√n]

con l’intervallo [nµ − 2σ√n, nµ + 2σ

√n]. Per esercizio calcolate, usando il Teorema del

Limite Centrale, la probabilita

P

(nµ− 2σ

√n ≤

n∑i=1

Xi ≤ nµ+ 2σ√n

)

212

Applicazione fondamentale: moneta truccata o moneta onesta?

[la moneta e solo un paradigma – sostituite alla moneta il problema scientifico a rispostabinaria su cui state lavorando]

Avete in tasca una moneta che sospettate possa essere truccata. Lanciate la moneta n volteed osservate nT Teste. Se la moneta e onesta vi aspettate approssimativamente n/2 Testesu n lanci. Il teorema del limite centrale fornisce l’intervallo di valori in cui e ragionevoleaspettarsi che cada nT se la moneta e onesta. Dal risultato dell’esercizio se lanciate unamoneta onesta n 1 volte, il numero di Teste nT sara compreso nell’intervallo

[nµ− 2σ√n, nµ+ 2σ

√n]

con probabilita circa 0.95. Ricordando che per una moneta onesta b(

12

), vale µ = σ = 1

2 ,per n = 1000 lanci l’intervallo e[

500−√

1000, 500 +√

1000]

= [469, 531]

Se osservate meno di 469 o piu di 531 Teste siete autorizzati a ritenere i vostri sospettinon completamente infondati. Piu lontano e nT dall’intervallo [469, 531] piu significativae la vostra osservazione di nT Teste per la convalida della vostra ipotesi che la moneta nonsia onesta (questo e il modo in cui si esprimono gli statistici per non compromettersi).

213

Lezione 32 (Mercoledı 22 maggio, ore 16:25–18:10)

32.1 Esercitazione in aula

214

Lezione 33 (Lunedı, 27 maggio 2013, ore 10:30-12:15)

33.1 Segnali, sistemi e modelli incerti

L’analisi dei sistemi dinamici in condizioni d’incertezza riveste grande interesse nella pra-tica ingegneristica. E molto comune che l’incertezza del sistema dinamico sia presentea livello fisico e che sia quindi necessario tenerne conto nel modello matematico. Non epero raro il caso in cui si preferisce costruire modelli probabilistici anche in contesti chefisicamente sono puramente deterministici.

L’ingegneria dell’informazione e ricca di esempi della prima situazione. Nei sistemidinamici elettrici (reti elettriche) esiste una naturale sorgente di aleatorieta, il rumore ter-mico generato dai circuiti.32 La manifestazione pratica del rumore termico e un segnalealeatorio che si sovrappone, sporcandoli, ai segnali d’ingresso e di uscita, e/o che rendealeatoria la trasformazione effettuata dal sistema. Il rumore termico, la cui intensita esolitamente trascurabile, diventa un serio problema quando le potenze dei segnali sonomolto basse, come nelle trasmissioni dallo spazio profondo (vedi Deep Space Network). Alivello piu fondamentale, i segnali d’ingresso (messaggi inviati) di un sistema di telecomu-nicazioni (canale) sono incerti per loro vera natura e come tali vanno modellati. L’invio diun messaggio non servirebbe alcuno scopo se il ricevente, in ascolto all’uscita del canale,ne conoscesse deterministicamente il contenuto.

Un esempio della seconda situazione e l’impostazione di un metodo di Montecarlo peril calcolo numerico.33 In tale contesto l’incertezza e introdotta ad arte nel modello, conlo scopo di sfruttare i teoremi limite della probabilita per ottenere algoritmi di calcoloparticolarmente efficienti. Un altra ragione che spinge l’ingegnere all’introduzione di mod-elli probabilistici anche in contesti deterministici ha a che fare con i limiti del processodi modellazione matematica. Un modello matematico e, quasi per definizione, se nonsbagliato quanto meno incompleto. Normalmente i modelli tengono in considerazione soloalcuni degli aspetti fisici, quelli piu utili a descrivere i fenomeni d’interesse. All modelsare wrong, but some are useful, per dirla con George E. Box. Ma anche volendo descri-vere tutto, spesso la fisica del sistema non e nota o lo e molto poco, si pensi ad esempioalla complessita dei sistemi biologici, o economici, o sociali. In altri casi la fisica e bennota, e.g. sistemi elettrici e/o meccanici, ma si introducono approssimazioni allo scopo disemplificare i modelli matematici. Approssimando con (pochi) parametri concentrati unsistema a parametri distribuiti si puo modellare con un’equazione differenziale ordinaria(di ordine basso) piuttosto che con un’equazione alle derivate parziali. Un modo grezzo,ma molto popolare, per tener conto delle varie procedure di approssimazione della realtafisica e di introdurre nel modello matematico una componente probabilistica, usualmentesommando segnali di rumore sugli ingressi e/o sulle uscite. Il razionale per tale scelta eche la mancanza, o l’approssimazione, delle conoscenze su di un fenomeno sia equiparabilead una conoscenza probabilistica.

La precedente discussione suggerisce l’opportunita di introdurre rappresentazioni ade-guate dei segnali e dei sistemi incerti, che consentano di estendere al caso probabilisticol’analisi ingresso/uscita dei sistemi dinamici. In particolare sara opportuno estendere alcaso probabilistico l’analisi ingresso/uscita per la classe dei sistemi lineari tempo invarianti.

32Si tratta del rumore osservato da Johnson (1928), e studiato da Nyquist (1928), onnipresente nelle retielettriche.

33Si veda l’esempio del calcolo di P (E) =∫Ef(x) dx, un integrale deterministico, con la tecnica di

simulazione accennata nell’Esempio 2 della Lezione 31.1

215

33.2 Cosa e un processo stocastico

Il primo passo per la costruzione di una teoria dei segnali e sistemi incerti e la definizionedel modello matematico di segnale incerto. Per modellare i segnali incerti useremo le ideegia viste di teoria della probabilita, condite con un po’ di nuova terminologia. Il modellomatematico di un segnale incerto e detto processo aleatorio o equivalentemente, processostocastico.

Definizione. Un processo stocastico (p.s.) (Xs)s∈S e una famiglia di variabili aleatoriedefinite su uno spazio di probabilita (Ω,F , P ) comune, e a valori in un insieme X comune,

Xs : Ω→ X , ω 7→ Xs(ω), misurabile, per ogni s ∈ S

Terminologia e osservazioni

In generale gli insiemi S e X possono essere di qualsiasi natura. In queste lezioni conside-riamo solo processi con S ⊂ R e X ⊂ R. In questo caso S si dice insieme dei tempi, anchese non necessariamente s ∈ S e fisicamente un tempo. L’alfabeto X , e detto insieme distato del processo. I casi piu elementari di coppie S, X sono i seguenti.

(a.) (p.s. a tempo discreto e stato discreto). L’insieme dei tempi e S := Z, oppure S := No un intervallo finito S := N ⊂ Z. La notazione tipica per l’indice di un processo a tempodiscreto e n, scriveremo quindi (Xn) per denotare questi processi. L’alfabeto X e discreto,ovvero |X | ≤ |N|.Cosa modellano. Segnali incerti a tempo discreto per i quali ogni campione puo assumeresono un numero finito, o al piu discreto, di valori possibili. Ad esempio un messaggio ditesto, interpretato come segnale incerto, si puo modellare con un processo stocastico diquesto tipo. Un qualunque segnale fisico incerto digitalizzato, cioe quantizzato e campi-onato, puo essere modellato con un processo di questo tipo. Sono modellabili con processidi questo tipo TUTTI i file presenti sui vostri PC e/o telefonini piu o meno intelligenti.

Esempio. (Xn)n∈N processo stocastico consistente in una sequenza di variabili aleatoriebernoulliane, Xn ∼ b(0.5), indipendenti ed identicamente distribuite. Questo processo,rappresenta il flusso di bit generato dai risultati dei lanci di una moneta. Intuitivamente,ma anche in un senso tecnico da precisare, e il processo stocastico piu casuale possibile.

(b.) (p.s. a tempo discreto e stato continuo). Sono processi (Xn) a tempo discreto per iquali l’insieme dei valori, comune a tutte le variabili aleatorie, e X := R. Eventuali insiemidei valori contenuti in R, ad esempio v.a. tutte positive, vengono automaticamente tenutiin considerazione quando si assegnano le distribuzioni delle variabili aleatorie.

Cosa modellano. E la versione probabilistica dei segnali a tempo discreto della teoriadei Segnali e Sistemi. Modellano segnali fisici incerti a tempo discreto per i quali ognicampione puo assumere valori in un intervallo di R, in una semiretta, o su tutta R. Adesempio una sequenza di misure, ripetute ad intervalli regolari, di una grandezza fisicacontinua: temperatura, pressione, lunghezza, durata, ecc. Oppure un segnale incerto atempo continuo campionato ad intervalli regolari.

Esempio. (Xn)n∈N processo stocastico consistente in una sequenza di variabili aleatorienormali, Xn ∼ N(µ, σ2), indipendenti ed identicamente distribuite. Questo processo puoservire a rappresentare una sequenza di misure di una grandezza fisica µ con uno strumentodi precisione finita. La misura n-esima e modellata come Xn = µ+Wn dove Wn ∼ N(0, σ2)e il rumore associato alla misura n-esima. Questo modello e in linea con quanto descrittonell’introduzione alla lezione: rappresenta le imprecisioni del processo di misura dovutea diverse cause (precisione finita dello strumento, imperizia dell’operatore, ecc.) con unav.a. Wn.

216

(c.) (p.s. a tempo continuo e stato discreto). L’insieme dei tempi e S := R, oppure S := R+

o un intervallo finito S := [t0, t1] ⊂ R. La notazione tipica per l’indice di un processo atempo discreto e t, scriveremo quindi (Xt) per denotare questi processi. L’alfabeto X ediscreto, ovvero |X | ≤ |N|.Cosa modellano. Un primo esempio e il segnale generato da un sistema di monitoraggio.Un sensore rileva, a tempo continuo, la temperatura in un punto critico di un impiantoe genera un segnale (Xt) di monitoraggio. Finche la temperatura rimane sotto la sogliadi sicurezza il sistema d’allarme genera Xt = 0. Per tutto il tempo che la temperaturaraggiunge o supera la soglia, il sistema genera Xt = 1. Un ulteriore esempio e il segnalegenerato da un dispositivo ZOH (zero order hold), parte integrante dei convertitori DAC(digital to analog converter) usati per la ricostruzione pratica dei segnali campionati (vedicorso di Segnali e Sistemi).

(d.) (p.s. a tempo continuo e stato continuo). Sono processi (Xt) a tempo continuo per iquali l’insieme dei valori, comune a tutte le variabili aleatorie, e X := R. Eventuali insiemidei valori contenuti in R, ad esempio v.a. tutte positive, vengono automaticamente tenutiin considerazione quando si assegnano le distribuzioni delle variabili aleatorie.

Cosa modellano. E la versione probabilistica dei segnali a tempo continuo della teoria deiSegnali e Sistemi.

I processi come funzioni su S × Ω. Un punto di vista spesso adottato nello studio deiprocessi stocastici e di considerare Xs(ω) come una funzione del tipo

Xs(ω) : S × Ω −→ X , (s, ω) 7→ Xs(ω).

Adottando questo punto di vista, per ogni fissato ω ∈ Ω, si ottiene la funzione del tempo

Xs(ω) : S −→ X , s 7→ Xs(ω)

detta traiettoria del processo associata a ω. Si noti che le traiettorie del processo sonofunzioni deterministiche poiche ω e fissato e noto. Se invece si fissa s ∈ S si ottiene lafunzione

Xs(ω) : Ω −→ X , ω 7→ Xs(ω)

che e la variabile aleatoria Xs corrispondente ai possibili valori che il processo puo assumereall’istante s ∈ S.

33.3 Come si caratterizzano probabilisticamente i processi stocastici

Un processo stocastico e una famiglia di variabili aleatorie indiciate dal tempo s ∈ S.Darne la descrizione probabilistica completa significa essere in grado di calcolare la prob-abilita di qualunque evento definibile a partire dalle Xs. Se l’insieme dei tempi e discretoquesto compito e relativamente semplice. La stessa cosa e molto piu complessa nel casodi insieme dei tempi continuo.

Sia (Xn) un processo a tempo discreto. Ad esempio (Xn) potrebbe modellare una sequenzadi misure, prese ad intervalli regolari, da un sistema di monitoraggio. Un evento di interessepotrebbe essere del tipo (potrebbe ad esempio trattarsi della probabilita che non scatti unallarme)

E := [maxn∈N|Xn| ≤ 10]

che e immediato riscrivere come

E :=⋂n∈N

[|Xn| ≤ 10].

217

Poiche le Xn sono variabili aleatorie, gli insiemi [|Xn| ≤ 10] ∈ F per ogni n ∈ N. Quindi E,intersezione numerabile di eventi di F , e ancora in F e se ne puo calcolare la probabilita.

Altri esempi di calcoli d’interesse per processi stocastici

(a.) maxs∈S P (|Xs| > 10)

(b.) P (Xs1 +Xs2 +Xs3 < 10)

(c.) E(Xs), var(Xs)

(d.) cov(Xu, Xv)

(e.) E(Xs1Xs2Xs3)

Nel caso (a.) e sufficiente conoscere le distribuzioni ad 1 tempo, Fs(x) = P (Xs ≤ x)per ogni s ∈ S. Nel caso (b.) e necessario disporre della distribuzione a 3 tempiFs1,s2,s3(x1, x2, x3) := P (Xs1 ≤ x1, Xs2 ≤ x2, Xs3 ≤ x3). Per il caso (c.) e sufficienteconoscere le distribuzioni ad 1 tempo. Per il caso (e.) e necessario conoscere le distribuzionia 2 tempi. Per il caso (f.) e necessario conoscere le distribuzioni a 3 tempi.

Specificazione probabilistica completa dei processi stocastici

Assumiamo che l’insieme dei tempi S ⊂ Z sia di cardinalita infinita.34 Per poter calcolarela probabilita di un qualunque evento misurabile e sufficiente conoscere la funzione didistribuzione congiunta di ogni sottoinsieme finito delle variabili aleatorie che compongonoil processo. Cio si puo fare assegnando per ogni N ∈ N una funzione

F (n1, n2, . . . nN ;x1, x2, . . . xN ) := P (Xn1 ≤ x1, Xn2 ≤ x2, . . . XnN ≤ xN ),

dove n1, n2, . . . nN ∈ Z e x1, x2 . . . xN ∈ X . Le funzioni F (n1, n2, . . . nN ;x1, x2, . . . xN ) nonpossono essere assegnate in modo completamente arbitrario, ma devono soddisfare vincoliatti a garantire che ognuna di esse generi funzioni di distribuzione legali, e che esse sianoin accordo tra loro. In particolare devono essere soddisfatti i vincoli di marginalizzazione,ovvero dalle FdD perN ′ variabili aleatorie deve essere possibile ritrovare quelle perN < N ′

variabili aleatorie. Lo studio di questo tipo di descrizione completa e fondamentale perlo sviluppo della teoria, ma di scarso valore pratico poiche, a parte casi banali, non sidispone mai di una quantita di informazione sui processi tale da permettere di determinarele funzioni F (n1, n2, . . . nN ;x1, x2, . . . xN ) per ogni N ∈ N.

Parametri riassuntivi di un processo stocastico

La difficolta a fornire descrizioni probabilistiche complete di un processo stocastico rendeancora piu importanti i classici parametri riassuntivi del comportamento probabilistico:medie, varianze, covarianze. Per il processo (Xs), dove s puo essere un tempo discretooppure continuo, si definiscono le seguenti funzioni deterministiche

(a.) mX(s) := E(Xs), funzione media,

(b.) MX(s) := E(X2s ), funzione potenza statistica,

(c.) σ2X(s) := E

((Xs −mX(s))2

), funzione varianza,

(d.) rX(s1, s2) := E(Xs1Xs2

), funzione di autocorrelazione,

(e.) kX(s1, s2) := E((Xs1 −mX(s1))(Xs2 −mX(s2))

), funzione di autocovarianza,

Si noti che (a.), (b.) e (c.) richiedono solo la conoscenza delle distribuzioni ad 1 tempodel processo stocastico, e che (d.) e (e.) richiedono la conoscenza delle distribuzioni a2 tempi. Le seguenti relazioni tra i parametri sono ovvie: σ2

X(s) = MX(s) − [mX(s)]2,MX(s) = rX(s, s), σ2

X(s) = kX(s, s), kX(s1, s2) = rX(s1, s2)−mX(s1)mX(s2).

34Se S fosse di cardinalita finita allora il processo si ridurrebbe ad un vettore aleatorio finito dimensionale,di cui e noto come sia possibile specificare la densita congiunta

218

inciso

Correlazione mutua di due processi. Nelle applicazioni e molto utile disporre anche diparametri riassuntivi che confrontano i comportamenti di due processi, analogamente aquanto si fa con due variabili aleatorie. Ad esempio i processi (Xs) ed (Ys) potrebberorappresentare ingresso ed uscita di un sistema incerto. Un utile parametro riassuntivo delcomportamento congiunto dei due processi e

(f.) rXY (s1, s2) := E(Xs1Ys2

), funzione di mutua correlazione

fine inciso

Come e ben noto non tutte le variabili aleatorie ammettono momenti, non e quindi garan-tita l’esistenza dei parametri riassuntivi di un processo stocastico. E utile il seguentelemma.

Lemma. Se la potenza statistica MX(s) esiste finita per ogni s ∈ S, allora esistono finititutti i parametri riassuntivi (a.)–(e.).

Dimostrazione. Per la disuguaglianza di Schwarz

mX(s) = E(Xs) = E(Xs · 1) ≤√E(X2

s )E(12) =√MX(s)

inoltrerX(s1, s2) = E(Xs1Xs2) ≤

√E(X2

s1)E(X2s1) =

√MX(s1)MX(s2)

L’ipotesi MX(s) < ∞ per ogni s ∈ S, garantisce l’esistenza di mX(s) e di rX(s1, s2).L’esistenza degli altri parametri discende immediatamente dalle relazioni ricordate sopra.

Definizione (processi del secondo ordine). Sono detti del secondo ordine i processi per i qualiesistono, finiti, mX(s) e rX(s1, s2).

Molto spesso nelle applicazioni ci si limita a fornire la descrizione al secondo ordine deiprocessi stocastici d’interesse. Peraltro le funzioni media e autocorrelazione contengonouna notevole quantita d’informazione. In particolare, le funzioni mX(s) e rX(s1, s2) con-sentono di ricavare la descrizione riassuntiva (vettore della media e matrice di correlazione)di qualunque vettore di dimensione finita costruito con variabili del processo stocastico.

Ad esempio se X :=(Xs1 , Xs2 , . . . Xsn

)>, il vettore della media del vettore X e

mX := E(X) =(mX(s1),mX(s2) . . .mX(sn)

)>(1)

e la matrice di correlazione del vettore X e

RX := E(XX>) =

rX(s1, s1) rX(s1, s2) . . . rX(s1, sn)rX(s2, s1) rX(s2, s2) . . . rX(s2, sn)

. . . . . . . . . . . .rX(sn, s1) rX(sn, s2) . . . rX(sn, sn)

(2)

Processi stazionari in senso debole

Per molti processi d’interesse i parametri media e autocorrelazione sono invarianti rispettoa traslazioni temporali. Vedremo piu sotto alcuni esempi. Naturalmente questa nozioneha senso solo se il processo e del secondo ordine, ovvero ammette funzioni media eautocorrelazione.

Definizione (stazionarieta in senso lato). Un processo stocastico del secondo ordine (Xs)s∈Se detto stazionario in senso debole se

mX(s+ σ) = mX(s), per ogni s, σ (3)

rX(s1, s2) = rX(s1 + σ, s2 + σ), per ogni s1, s2, σ (4)

219

Lemma (condizioni equivalenti). La seguente condizione e equivalente alla (3)

mX(s) = mX(0), per ogni s (5)

Ognuna delle seguenti condizioni e equivalente alla (4)

rX(s1, s2) = rX(s1 − s2, 0), per ogni s1, s2 (6)

rX(s+ σ, s) = rX(σ, 0), per ogni s, σ (7)

Dimostrazione. Esercizio.

Per verificare se un processo stocastico del secondo ordine e stazionario in senso debolesara quindi sufficiente verificare se per la media vale una delle condizioni (3) o (5) e perl’autocorrelazione vale una delle condizioni (4) o (6) o (7).

E immediato verificare (fatelo!) che se un processo e debolmente stazionario allora valgonoanche le condizioni

σ2X(s) = σ2

X(0)

MX(s) = MX(0)

kX(s1, s2) = kX(s1 + σ, s2 + σ)

o le equivalenti, simili a quelle viste sopra per media e autocorrelazione.

Osservazione e notazione alternativa. La conseguenza della stazionarieta e che le funzioniriassuntive che dipendono dalle distribuzioni ad 1 tempo (media, potenza, varianza) siriducono a delle funzioni costanti, mentre le funzioni che dipendono dalle distribuzionia 2 tempi (autocorrelazione, autocovarianza) si riducono a funzioni dipendenti solo dalladistanza temporale s1 − s2 tra le due variabili Xs1 e Xs2 , e non dagli istanti s1 ed s2

separatamente. In virtu di queste considerazioni e naturale introdurre simboli piu com-patti per denotare media e autocorrelazione di un processo debolmente stazionario. Inparticolare scriveremo

mX := E(Xs) (8)

rX(σ) := E(Xs+σXs) (9)

Convenzioni notazionali discreto/continuo. Per le quantita descritte in questo paragrafo,nel caso discreto scriveremo rX(n1, n2), rX(n + k, n), rX(k), mentre nel caso continuoscriveremo rX(t1, t2), rX(t+ τ, t), rX(τ).

33.4 Primi esempi di processi stocastici

Esempio 1 (gaussian white noise). Il processo stocastico a tempo discreto e stato continuo(Wn)n∈N, che consiste di variabili aleatorie normali, indipendenti ed identicamente dis-tribuite, Wn ∼ N(0, σ2) e detto rumore bianco gaussiano di intensita σ2, e lo denoteremo(Wn) ∼WGN(σ2). Il processo (Wn) ha funzione media

mW (n) = E(Wn) = 0, per ogni n ∈ N.

Potenza statistica e varianza di (Wn) coincidono, poiche mW (n) = 0, e valgono

MW (n) = σ2W (n) = E(W 2

n) = σ2, per ogni n ∈ N.

Le variabili Wn sono i.i.d., quindi la funzione autocorrelazione vale

rW (n1, n2) = kW (n1, n2) = E(Wn1Wn2) = σ2δ(n1 − n2)

220

dove la δ(·) e il segnale δ(0) = 1, e δ(n) = 0 per n 6= 0. Autocorrelazione e autocovarianzacoincidono poiche mW (n) = 0.

Si noti che, essendo finita la potenza MW (n) = σ2, il processo (Wn) e del secondo ordine.Sono inoltre soddisfatte le condizioni (5) e (6), quindi (Wn) e un processo debolmentestazionario. Utilizzando le notazioni alternative (8) e (9), adattate al tempo discreto,scriveremo

mW = 0, rW (k) = σ2δ(k) (10)

Osservazione. All’occorrenza il WGN(σ2) puo essere esteso da N a Z.

Esempio 2 (gaussian random walk). Una passeggiata casuale gaussiana e il processo stocas-tico a tempo discreto e stato continuo (Xn)n∈N, definito dall’equazione alle differenze delprimo ordine

Xn+1 = Xn +Wn, (11)

dove (Wn)∞n=0 ∼ GWN(σ2), e X0 = 0.

Si noti che (Xn) si puo interpretare come l’uscita stocastica del sistema LTI descritto dal-l’equazione alle differenze xn+1 = xn+wn, pilotato dall’ingresso stocastico (Wn). Il sistemae un semplice integratore discreto, infatti la risposta impulsiva vale h(n) = 1l(n− 1), dovewn e la sequenza d’ingresso ed xn la corrispondente uscita. In virtu di questa osservazioneoppure lavorando direttamente sull’equazione (11) si trova l’espressione esplicita

Xn =

n−1∑i=0

Wk

I parametri riassuntivi di (Xn) si ricavano facilmente. La funzione media e

mX(n) = E(Xn) = E( n−1∑i=0

Wk

)= 0,

mentre la potenza statistica, coincidente con la varianza, e

MX(n) = σ2X(n) = E(X2

n) = var( n−1∑i=0

Wk

)= nσ2

La potenza statistica e finita per ogni n, quindi il processo (Xn) e del secondo ordine,ma possiamop gia concludere che (Xn) non e debolmente stazionario, poiche se lo fosseMX(n) sarebbe costante in n. Ricaviamo la funzione di autocorrelazione (coincide conl’autocovarianza)

rX(n1, n2) = E(Xn1Xn2) = E

[n1−1∑i=0

Wi

]n2−1∑j=0

Wj

=

n1−1∑i=0

n2−1∑j=0

E(WiWj)

=

n1−1∑i=0

n2−1∑j=0

σ2δ(i− j) = minn1, n2σ2

Come ci aspettavamo, la funzione autocorrelazione dipende da n1 e n2 separatamente, enon solamente dalla differenza n1 − n2. Il processo non e debolmente stazionario.

221

Lezione 34 (Martedı, 28 maggio 2013, ore 16:25-18:05)

34.1 Ulteriore esempio di processo stocastico

Esempio 3 (processo AR(1)). E il processo stocastico, a tempo discreto e stato continuo,(Xn)n∈N definito dall’equazione alle differenze del primo ordine

Xn+1 = aXn +Wn, (1)

dove (Wn)∞n=0 ∼ GWN(σ2), la condizione iniziale e una variabile aleatoriaX0 indipendenteda (Wn), con E(X0) = 0 e var(X0) = σ2

0, e infine la costante a soddisfa il vincolo |a| < 1.

Interessa studiare i parametri riassuntivi del processo (Xn), ed in particolare determinarese esistono valori della varianza iniziale var(X0) = σ2

0 che garantiscono la stazionarietadebole di (Xn).

Si puo facilmente calcolare un’espressione esplicita per Xn in termini di X0 e di W0, W1,. . . Wn−1 usando la teoria delle equazioni alle differenze, ma e anche immediato effettuarequalche iterazione manualmente e derivare l’espressione esplicita per induzione

X1 = aX0 +W0

X2 = aX1 +W1 = a2X0 + aW0 +W1

X3 = aX2 +W2 = a3X0 + a2W0 + aW1 +W2

. . . . . . . . .

Xn = anX0 +n−1∑`=0

an−1−`W` (2)

Si puo ora utilizzare l’espressione (2) per ricavare i parametri riassuntivi di (Xn). Es-iste pero una tecnica piu interessante che sfrutta appieno la struttura ricorsiva dell’e-quazione (1). Per la funzione della media si ricava facilmente l’equazione alle differenze

mX(n+ 1) = E(Xn+1) = E(aXn +Wn

)= amX(n), mX(0) = E(X0) = 0

la cui unica soluzione e mX(n) = 0, per ogni n.

Con la stessa tecnica si calcola l’equazione alle differenze soddisfatta dalla funzione vari-anza,

σ2X(n+ 1) = E(X2

n+1) = E((aXn +Wn)2

)= E

(a2X2

n + 2aXnWn +W 2n

)= a2σ2

X(n) + σ2

dove E(XnWn) = 0 infatti: Xn dipende solo da X0, W0, W1 . . .Wn−1, vedi equazione (2),quindi e indipendente da Wn ed essendo le medie nulle E(XnWn) = E(Xn)E(Wn) = 0.L’equazione alle differenze per la varianza e quindi

σ2X(n+ 1) = a2σ2

X(n) + σ2, σ2X(0) = σ2

0,

dove la condizione iniziale e imposta dal dato var(X0) = σ20. Affinche il processo (Xn) sia

debolmente stazionario e necessario che σ2X(n) sia costante, ovvero σ2

X(n + 1) = σ2X(n).

Sostituendo nell’equazione alle differenze si trova (e si capisce perche e fondamentale lacondizione |a| < 1)

σ2X(n) =

σ2

1− a2.

222

Scegliendo il dato iniziale

σ20 =

σ2

1− a2

e immediato verificare che σ2X(n) = σ2

0 = σ2

1−a2 per ogni n.

Con questa scelta di σ20 la varianza ‘e costante. Per verificare la stazionarieta debole e

pero necessario verificare che la funzione di autocorrelazione rX(n+ k, n) non dipende dan. Si osservi che

rX(n+ 1, n) = E(Xn+1Xn) = E((aXn +Wn)Xn

)= a σ2

X(n) = aσ2

1− a2

quindi per k = 1 l’autocorrelazione rX(n+ 1, n) non dipende da n. Inoltre

rX(n+ 2, n) = E(Xn+2Xn) = E((aXn+1 +Wn+1)Xn

)= a rX(n+ 1, n) = a2 σ2

1− a2

quindi anche per k = 2 l’autocorrelazione rX(n+ 2, n) non dipende da n. In generale (perinduzione) vale

rX(n+ k, n) = akσ2

1− a2, indipendente da n.

La conclusione e che scegliendo σ20 = σ2

1−a2 , il processo (Xn) e debolmente stazionario.

34.2 Proprieta della funzione di autocorrelazione di un processo stazionario

La funzione di autocorrelazione rX(σ) di un processo del secondo ordine debolmentestazionario gode di alcune notevoli proprieta.

(a.) rX(0) ≥ 0.

Dim. Infatti rX(0) = E(X2s ) ≥ 0.

(b.) rX(σ) e pari (richiede insieme dei tempi S = Z oppure S = R).

Dim. rX(−σ) = E(Xs−σXs) = E(X0Xσ) = rX(σ).

(c.) rX(σ) e una funzione definita positiva.

Dim. Verifichiamo la condizione di positivita. Per ogni n, α1, . . . αn, σ1, . . . σn∑i

∑j

αiαjrX(σi − σj) =∑i

∑j

αiαjE(XsiXsj )

= E(∑

i

∑j

αiαjXsiXsj

)= E

([∑i

αiXsi

]2) ≥ 0

Si ricordi che una funzione ϕ tale che ϕ(0) = 1, continua in un intorno dell’origine esemidefinita positiva e automaticamente la funzione caratteristica di una variabile aleato-ria. (naturalmente una funzione caratteristica e pari solo se la distribuzione e pari, nel casogenerale essa e solo hermitiana). Le proprieta (a.), (b.) e (c.) appena dimostrate mostra-no quindi la parentela matematica che esiste tra funzioni di autocorrelazione e funzionicaratteristiche. Vedremo presto che risvolto quest’osservazione ha per la teoria spettraledei processi.

223

34.3 Processi gaussiani

Il processo (Xs) e detto gaussiano se, per ogni N , e per ogni s1, s2 . . . sN il vettore N -dimensionale X := (Xs1 , Xs2 , . . . XsN )> e congiuntamente nrmale. Data la normalita, ladistribuzione di X e completamente determinata dal vettore della media E(X) e dalla

matrice di covarianza E(X −E(X))(X −E(X))>

). Peraltro, come discusso al paragrafo

33.3, media e matrice di covarianza di X sono completamente determinati dalle funzionimX(s) e rX(s1, s2) del processo (Xs). La probabilita di un qualunque evento definitoin termini di variabili di un processo gaussiano sono quindi calcolabili sulla base dellaconoscenza delle sole funzioni mX(s) e rX(s1, s2). Nel caso speciale dei processi gaussianila descrizione al secondo ordine coincide con la descrizione completa del processo. Se sonoverificate le condizioni di stazionarieta debole

mX(s) = mx(0) := µX , kX(s+ σ, s) = kX(σ, 0) := kX(σ)

allora la costante µX e la funzione kX(σ) determinano completamente le probabilita delprocesso gaussiano (Xs). Si noti in particolare che sotto stazionarieta debole del processogaussiano

(Xs1 , Xs2 , . . . XsN ) ∼ (Xs1+σ, Xs2+σ, . . . XsN+σ)

cioe i due vettori hanno la stessa distribuzione congiunta. Questa proprieta e dettastazionarieta forte: prendendo N arbitrarie variabili del processo la loro distribuzione einvariante per traslazione. Per i processi gaussiani la stazionarieta debole (invarianza pertraslazione della distribuzione di coppie di variabili aleatorie) equivale alla stazionarietaforte.

Un importante risultato (gia noto nel contesto dei vettori) e la conservazione della guas-sianita per filtraggio lineare. Menzioniamo il seguente risultato senza fornire le condizionitecniche che ne garantiscono la validita. Il risultato vale anche per processi a tempo con-tinuo, ma nella teoria rigorosa il caso discreto e quello piu semplice da affrontare. Lemma.

Se (Xn) e un processo gaussiano ed

Yn :=∞∑

i=−∞hn,kXk

allora, sotto opportune condizioni che garantiscono la convergenza della serie, il processoYn e gaussiano. In particolare il risultato vale per il filtraggio lineare tempo invariante,ovvero se

Yn =∑

k = −∞∞hn−kXk

Dimostrazione. Il risultato e ben noto nel caso di vettori finito dimensionali. Nel casogenerale qualche attenzione deve essere dedicata alla convergenza della serie. Si rimandala discussione dettagliata ai corsi successivi.

34.4 Densita spettrale di potenza - definizione e primi esempi

Definizione. Se (Xs) e un processo del secondo ordine debolemnte stazionario, la densitaspettrale di potenza di (Xs) e la trasformata di Fourier della funzione autocorrelazionerX(σ). In particolare

RX(f) =

∫ ∞−∞

rX(τ)e−j2πfτ dτ, f ∈ R, tempo continuo

RX(f) =

∞∑k=−∞

rX(k)e−j2πfk, f ∈ [0, 1], tempo discreto

224

Per le condizioni di esistenza e le nozioni di convergenza della trasformata si faccia rifer-imento al corso di Segnali e Sistemi. Nota la densita spettrale, la funzione di autocorre-lazione si puo trovare per inversione:

rX(τ) =

∫ ∞−∞

RX(f)ej2πfτ df, tempo continuo

rX(k) =

∫ 1

0RX(f)ej2πfk df tempo discreto

si noti che la potenza statistica rX(0) vale

rX(0) = MX =

∫ ∞−∞

RX(f) df (continuo), rX(0) = MX =

∫ 1

0RX(f) df (discreto)

Poiche rX(s) e definita positiva la densita spettrale e una funzione non negativa (lodimostreremo la prossima lezione) quindi rX(0) ≥ 0 qualunque sia RX(f).

Esempi di calcolo - con riferimento agli esempi di processi in 33.4 e 34.1

(a.) (Wn) ∼ GWN(σ2).

Il processo (Wn) e del secondo ordine e debolmente stazionario, quindi ha senso calcolarnela densita spettrale. Poiche rX(k) = σ2δ(k) si trova

RX(f) = σ2, per ogni f ∈ [0, 1].

Il termine rumore bianco deriva proprio dal fatto che lo spettro di potenza del processoe piatto, come lo spettro della luce bianca. Per un’intrpretazione fisica dello spettro dipotenza si rimanda alla prossima lezione.

(b.) Il processo del secondo ordine (Xn), passeggiata casuale gaussiana, non ammettedensita spettrale, infatti non e debolmente stazionario.

(c.) Il processo del secondo ordine AR(1), descritto all’inizio della lezione, e stazionario

se si sceglie σ20 = σ2

1−a2 . In questo caso la funzione autocorrelazione e rX(k) = σ2

1−a2 ak.

Esercizio. Calcolare la densita spettrale di potenza e verificare che e non- negativa perogni f ∈ [0, 1].

225

Lezione 35 (Mercoledı, 29 maggio 2013, ore 16:25-18:05)

35.1 Teorema di Wiener-Khinchin (caso discreto)

Il teorema di Wiener Khinchin e un caposaldo della teoria spettrale dei processi del secondoordine debolmente stazionari. Il teorema mostra che la densita spettrale di potenza RX(f),puo essere definita come limite dello spettro di Fourier delle traiettorie del processo.

Denoteremo con (XNn ) la versione troncata del processo (Xn), definita come

XNn := Xn 1l[−N,N ](n), (1)

dove 1l[−N,N ](n) = 1 per n ∈ [−N,N ] e zero altrove. Si noti che, per |n| ≤ N , si ha

XNn = Xn. La trasformata di Fourier discreta di XN

n e denotata XN (f) e vale

XN (f) :=

N∑k=−N

XNk e−j2πfk, f ∈ [0, 1] (2)

La trasformata XN (f) e una funzione aleatoria di f , nel senso che, per ogni f fissato,XN (f) e una combinazione lineare delle funzioni di base e−j2πfk i cui pesi sono le variabilialeatorie XN

n .

Teorema. Sia (Xn)n∈Z un processo del secondo ordine, debolmente stazionario, allora

limN→∞

12N+1 E

( ∣∣XN (f)∣∣2 ) = RX(f), (3)

dove RX(f) =∑∞

k=−∞ rX(k)e−j2πfk e la densita spettrale del processo (Xn).

Dimostrazione. Calcoliamo esplicitamente la quantita

E( ∣∣XN (f)

∣∣2 ) = E(XN (f)XN (f)

)= E

(N∑

k=−NXNk e−j2πfk

N∑h=−N

XNh e

j2πfh

)

= E

(N∑

k=−N

N∑h=−N

XNk X

Nh e−j2πf(k−h)

)

=

N∑k=−N

N∑h=−N

E(XNk X

Nh

)e−j2πf(k−h)

=

N∑k=−N

N∑h=−N

rX(k − h)e−j2πf(k−h) (4)

La sommatoria doppia si converte facilmente ad una singola sommatoria osservando che,per ogni sequenza g(n), vale

N∑k=−N

N∑h=−N

g(k − h) =

2N∑`=−2N

(2N + 1− |`|

)g(`). (5)

L’osservazione attenta e prolungata della figura qui sotto dovrebbe rendere la formulaprecedente evidente. Infatti, per sommare i valori g(k − h) su tutti i punti della grigliaquadrata (k, h) ∈ [−N,N ]× [−N,N ], tracciata in figura per N = 3, si puo sommare lungole diagonali ` = k − h. La diagonale principale corrisponde a ` = 0 e contiene 2N + 1

226

termini (7 in figura) uguali a g(0), che danno contributo (2N + 1)g(0) alla sommatoria.La prima sopra-diagonale e ` = 1 che contiene 2N + 1 − ` termini (6 in figura) uguali ag(1) che danno contributo (2N + 1 − 1)g(1) alla sommatoria. La prima sottodiagonalecorrisponde a ` = −1, e contiene 2N+1−1 = 2N+1−|`| termini uguali a g(−1) ecc. ecc.Si procede cosı fino alla sopradiagonale ` = 2N e alla sottodiagonale ` = −2N ognunadelle quali contengono 2N+1−|`| = 1 termine, g(2N) nella sopradiagonale e g(−2N) nellasottodiagonale. Per concludere si applichi la (5) alla (4), ponendo g(n) = rX(n)e−j2πfn.

k

h

l=k-h=0l=k-h=-1

l=k-h=1

N=3

l=k-h=2N

l=k-h=-2N

Si ottiene

N∑k=−N

N∑h=−N

rX(k − h)e−j2πf(k−h) =

2N∑`=−2N

(2N + 1− |`|

)rX(`)e−j2πf`

dividendo per 2N + 1 e passando al limite per N →∞

limN→∞

12N+1 E

( ∣∣XN (f)∣∣2 ) = lim

N→∞1

2N+1

2N∑`=−2N

(2N + 1− |`|

)rX(`)e−j2πf`

=2N∑

`=−2N

(1− |`|

2N+1

)rX(`)e−j2πf`

=

∞∑`=−∞

rX(`)e−j2πf` = RX(f)

Corollario. La densita spettrale di potenza e non negativa

RX(f) ≥ 0, per ogni f ∈ [0, 1].

Dimostrazione. 12N+1 E

( ∣∣XN (f)∣∣2 ) ≥ 0 per ogni N , e la disuguaglianza di preserva al

limite per N →∞.

Il teorema vale anche nel caso di processi a tempo continuo, ma e necessario precisare inche senso vanno interpretati gli integrali che definiscono la serie di Fourier. Riportiamo ilrisultato senza entrare nei dettagli succitati.

227

Teorema. (Wiener-Khinchin) Sia (Xt)t∈R un processo del secondo ordine, debolmentestazionario, allora

limT→∞

12T E

( ∣∣XT (f)∣∣2 ) = RX(f), (6)

dove RX(f) =∫∞−∞ rX(τ)e−j2πτ dτ e la densita spettrale del processo (Xt) e

XT (f) :=

∫ T

−TXTt e−j2πft dt, f ∈ R

e la trasformata di Fourier del processo troncato XTt := Xt1l[−T,T ](t).

Esempio 1. Si consideri il processo stocastico a tempo continuo e stato continuo

Xt = A cos 2πf0t+B sin 2πf0t, t ∈ R

dove f0 ∈ R+ e una costante nota, mentre A e B sono variabili aleatorie di media nulla,varianza comune σ2 e scorrelate, ovvero E(A) = E(B) = 0, E(A2) = E(B2) = σ2,E(AB) = 0. La funzione media del processo e

mX(t) = E(Xt) = E(A cos 2πf0t+B sin 2πf0t) = E(A) cos 2πf0t+ E(B) sin 2πf0t = 0

La funzione di autocorrelazione (e autocovarianza) e

rX(t+ τ, t) = E(Xt+τXt)

= E(

(A cos 2πf0(t+ τ) +B sin 2πf0(t+ τ))(A cos 2πf0t+B sin 2πf0t))

= E(A2) cos 2πf0(t+ τ) cos 2πf0t+ E(B2) sin 2πf0(t+ τ) sin 2πf0t+ E(AB)(xxx)

= σ2(

cos 2πf0(t+ τ) cos 2πf0t+ sin 2πf0(t+ τ) sin 2πf0t)

+ 0

= σ2 cos 2πfτ

dove abbiamo sfruttato la scorrelazione E(AB) = 0 ed usato la formula di sottrazionedel coseno. Poiche la media ‘e costante e la funzione di scorrelazione non dipende dat il processo e del secondo ordine e debolmente stazionario. Indichiamo con mX = 0 lamedia e con rX(τ) = σ2 cos(2πf0τ) la funzione di covarianza. Ha senso calcolare la densitaspettrale di potenza che vale

RX(f) = F (rX(τ)) =σ2

2

[δ(f − f0) + δ(f + f0)

], f ∈ R

35.2 Processi stocastici del secondo ordine attraverso sistemi LTI

I risultati di questa sezione sono d’interesse sia per i processi a tempo contiuno che perquelli discreti. interessano sia per i processi a tempo continuo che per quelli a tempodiscreto. La teoria a tempo continuo richiederebbe qualche precisazione sul senso in cuivanno intesi gli integrali perche un processo stocastico a tempo continuo potrebbe averetraiettorie che non sono integrabili secondo Riemann. Aggiungeremo queste considerazioniin una futura appendice alla lezione. In questo paragrafo tutto e scritto per il caso a tempocontinuo. Microesercizio. Trascivere tutti i risultati per il caso tempo discreto,

Sia h(·) la risposta impulsiva di un sistema LTI stabile L. Intendiamo studiare l’uscitadel sistema L quando l’ingresso e un processo stocastico Xt del secondo ordine. Per quantonoto dal corso di Segnali e Sistemi

Yt =

∫ ∞−∞

hτXt−τ dτ

228

Lemma. Se il processo d’ingresso (Xt) e del secondo ordine, allora il processo di uscita(Yt) e del secondo ordine ed ha funzione media

mY (t) = h(t) ∗mX(t), (7)

e funzione di autocorrelazione

rY (t+ τ, τ) = E(Yt+τYτ )

=

∫ ∞−∞

∫ ∞−∞

h(s)h(σ)rX(t+ τ − s, t− σ) dsdσ (8)

Dimostrazione. Il calcolo diretto fornisce

mY (t) = E(Yt) = E

(∫ ∞−∞

hτXt−τ dτ

)=

∫ ∞−∞

hτE(Xt−τ ) dτ =

∫ ∞−∞

hτmX(t− τ) dτ

= h(t) ∗mX(t).

Per la funzione di autocorrelazione si ha

rY (t+ τ, τ) = E(Yt+τYτ )

= E

(∫ ∞−∞

h(s)Xt+τ−s ds

∫ ∞−∞

h(σ)Xt−σ dσ

)=

∫ ∞−∞

∫ ∞−∞

h(s)h(σ)E(Xt+τ−sXt−σ) dsdσ

=

∫ ∞−∞

∫ ∞−∞

h(s)h(σ)rX(t+ τ − s, t− σ) dsdσ

Teorema. Se il processo d’ingresso (Xt) e del secondo ordine e debolmente stazionario,allora l’uscita e del secondo ordine e debolmente stazionaria, la media e

mY = h(t) ∗mX = H(0)mX ,

dove H(0) e il guadagno in continua, cioe il valore della risposta in frequenza nell’origine.

La funzione di autocorrelazione di (Yt) e

rY (τ) =

∫ ∞−∞

∫ ∞−∞

h(s)h(σ)rX(τ + σ − s) dsdσ (9)

Dimostrazione. Per la media, in conseguenza di (7) si ha

mY (t) = h(t)mX =

[∫h(τ) dτ

]mX = H(0)mX .

Per la stazionarieta debole resta da verificare l’indipendenza da t della funzione di auto-correlazione. Usando la (8) si trova

rY (t+ τ, τ) =

∫ ∞−∞

∫ ∞−∞

h(s)h(σ)rX(t+ τ − s, t− σ) dsdσ

=

∫ ∞−∞

∫ ∞−∞

h(s)h(σ)rX(t+ τ − s− (t− σ)) dsdσ

=

∫ ∞−∞

∫ ∞−∞

h(s)h(σ)rX(τ + σ − s) dsdσ = rY (τ)

229

che, non dipendendo da t e denotata rY (τ).

L’espressione analitica di rY (τ) non e particolarmente illuminante, ma e facile deter-minare la densita spettrale RY (f).

Teorema. Sotto le precedenti ipotesi, la densita spettrale di (Yt) e

RY (f) = |H(f)|2RX(f)

Dimostrazione. Riprendendo l’equazione (9), ed esprimendo rX(τ) come antitrsformatadi RX(f), si trova

rY (τ) =

∫ ∞−∞

∫ ∞−∞

h(s)h(σ)rX(τ + σ − s) dsdσ

=

∫ ∞−∞

∫ ∞−∞

h(s)h(σ)

[∫ ∞−∞

RX(f)ej2πf(τ+σ−s) df

]dsdσ

=

∫ ∞−∞

RX(f)ej2πfτ

[∫ ∞−∞

h(s)e−j2πfs ds

∫ ∞−∞

h(σ)e−j2πfσ dσ

]df

=

∫ ∞−∞

RX(f)H(f)H(f) ej2πfτ dτ

L’ispezione dell’ultima espressione rivela che rY (τ) e stato espresso come antitrasforma-ta di Fourier della funzione RX(f)H(f)H(f) = RX(f)|H(f)|2. Poiche rY (τ) e l’anti-trasformata della densita spettrale di (Yt), la conclusione RY (f) = RX(f)|H(f)|2 seguenecessariamente.

35.3 Interpretazione fisica della densita spettrale di potenza

Per capire l’origine del nome densita spettrale di potenza e utile considerare la sseguenteinterpretazione fisica. Sia Xt un processo stocastico del secondo ordine, debolmentestazionario. E sempre possibile interpretare idealmente Xt come segnale di corrente gener-ato da una rete elettrica, che va a dissiparsi su una resistenza unitaria R = 1Ω, vedi figuraqui sotto. La potenza istantanea che si dissipa sulla resistenza e p(t) = v(t)i(t) = Ri2(t) =

Xt

R=1Ω

X2t . Interpretando Xt come segnale di corrente, X2

t e la potenza istantanea dissipata suuna resistenza unitaria. Poiche Xt e una variabile aleatoria, la potenza istantanea X2

t

e una variabile aleatoria. Il valore atteso della potenza istantanea e E(X2t ). Poiche Xt

ammette densita spettrale di potenza, per quanto visto in precedenza e

E(X2t ) = rX(0) =

∫ ∞−∞

RX(f) df

230

Quindi l’integrale della densita spettrale coincide con la potenza media (attenzione:gli ingegneri dicono cosı per brevita, in realta intendono dire valore atteso della potenzaistantanea).

Valutiamo adesso il contributo alla potenza media fornito da ogni banda di frequenze.Si considerino le frequenze f ∈ [f0, f0 + ∆], dove f0 e ∆ sono fissati. Sia H(f) un filtropassa banda ideale la cui risposta in frequenza e

H(f) := 1l[f0,f0+∆](f).

Se Xt e l’ingresso del sistema LTI H(f), il processo di uscita Yt consiste di tutte e solele componenti di Xt contenute nella banda di frequenze [f0, f0 + ∆]. Applicando l’ultimoteorema della precedente sezione si trova

RY (f) = |H(f)|2RX(f) = RX(f)1l[f0,f0+∆](f)

quindi il valore atteso della potenza istantanea Y 2t e

E(Y 2t ) =

∫ ∞−∞

RY (f) df =

∫ ∞−∞

RX(f)1l[f0,f0+∆](f) ≈ RX(f0) ∆

dove l’approssimazione e tanto migliore quanto piu piccola e l’ampiezza ∆ dell’intervallo[f0, f0 + ∆]. Si puo rileggere l’ultima equazione come segue

E(

potenza istantanea delle componenti di Xt nella banda [f0, f0 + ∆])≈ RX(f0) ∆

Per ogni f0 punto di continuita di RX(f) vale

RX(f0) = lim∆→0

E(

potenza istantanea delle componenti di Xt nella banda [f0, f0 + ∆])

∆.

Tenendo a mente che nell’interpretazione fisica X2t e misurato in Watt (potenza), l’ulti-

ma formula dimostra che RX(f) si misura in Watt/Herz, giustificando il nome densitaspettrale di potenza. Per maggior precisione, ma con minore efficacia, si potrebbe chia-mare densita spettrale della potenza istantanea media oppure, con chiarezza cristallina maquasi illeggibile, densita spettrale del valore atteso della potenza istantanea. La chiarezzararamente vende bene.

231

Lezione 36 (Lunedı, 3 giugno 2013, ore 10:30-12:15)

36.1 Esercitazione in aula

232

Documents

Calcolo delle Probabilità