of 365/365
Elementi di Probabilit, Statistica e Processi Stocastici Franco Flandoli 24 settembre 2011

Italian Dispense Flandoli 2011 VElementi di Probabilità, Statistica e Processi Stocasticiersione1

  • View
    109

  • Download
    12

Embed Size (px)

DESCRIPTION

Elementi di Probabilità, Statistica e Processi Stocastici

Text of Italian Dispense Flandoli 2011 VElementi di Probabilità, Statistica e Processi Stocasticiersione1

  • Elementi di Probabilit, Statistica e Processi Stocastici

    Franco Flandoli

    24 settembre 2011

  • ii

  • Indice

    Prefazione ix

    1 Elementi di Calcolo delle Probabilit 11.1 Eventi e loro probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    1.1.1 Universo ed eventi elementari . . . . . . . . . . . . . . . . . . . . . . . 21.1.2 Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.3 Informazione contenuta in una famiglia di eventi . . . . . . . . . . . . 31.1.4 Algebre di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.1.5 -algebre di eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1.6 Spazio probabilizzabile . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1.7 Probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1.8 Probabilit condizionale . . . . . . . . . . . . . . . . . . . . . . . . . . 91.1.9 Indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.1.10 Formula di Bayes e formula di fattorizzazione . . . . . . . . . . . . . . 121.1.11 Calcolo combinatorico . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    1.2 Variabili aleatorie e valori medi . . . . . . . . . . . . . . . . . . . . . . . . . . 151.2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.2.2 V.a. continue e loro densit di probabilit . . . . . . . . . . . . . . . . 161.2.3 V.a. discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.2.4 Denizione di variabile aleatoria . . . . . . . . . . . . . . . . . . . . . 231.2.5 Legge di una v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.2.6 Funzione di distribuzione (cdf) di una v.a. . . . . . . . . . . . . . . . . 261.2.7 V.A. indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.2.8 Vettori aleatori ed altri enti aleatori . . . . . . . . . . . . . . . . . . . 291.2.9 Valori medi o attesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321.2.10 Valor atteso: suo calcolo con le densit . . . . . . . . . . . . . . . . . . 331.2.11 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361.2.12 Propriet meno elementari del valor medio . . . . . . . . . . . . . . . 371.2.13 Media di v.a. indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . 381.2.14 Disuguaglianza di Hlder . . . . . . . . . . . . . . . . . . . . . . . . . 381.2.15 Disuguaglianza di Jensen . . . . . . . . . . . . . . . . . . . . . . . . . 391.2.16 Disuguaglianza di Chebyshev . . . . . . . . . . . . . . . . . . . . . . . 391.2.17 Varianza e deviazione standard . . . . . . . . . . . . . . . . . . . . . . 401.2.18 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    iii

  • iv INDICE

    1.2.19 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431.2.20 Momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441.2.21 La funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . 461.2.22 Denizione generale di valor medio . . . . . . . . . . . . . . . . . . . . 491.2.23 Propriet generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    1.3 Esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521.3.1 Una propriet di concentrazione delle binomiali . . . . . . . . . . . . . 521.3.2 Sul teorema degli eventi rari per v.a. di Poisson . . . . . . . . . . . . . 541.3.3 Identicazione di un modello di Poisson piuttosto che di uno binomiale 551.3.4 Processo di Bernoulli, ricorrenze, v.a. geometriche . . . . . . . . . . . 551.3.5 Tempo del k-esimo evento: binomiale negativa . . . . . . . . . . . . . 571.3.6 Teoremi sulle v.a. esponenziali . . . . . . . . . . . . . . . . . . . . . . 581.3.7 Propriet delle gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . 601.3.8 Variabili di Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . 631.3.9 Densit Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 641.3.10 Densit Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 651.3.11 Code pesanti; distribuzione log-normale . . . . . . . . . . . . . . . . . 661.3.12 Skewness e kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    1.4 Teoremi limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 681.4.1 Convergenze di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . 681.4.2 Legge debole dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . 701.4.3 Legge forte dei grandi numeri . . . . . . . . . . . . . . . . . . . . . . . 731.4.4 Stima di Cherno (grandi deviazioni) . . . . . . . . . . . . . . . . . . 731.4.5 Teorema limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . 761.4.6 Distribuzione del limite di massimi . . . . . . . . . . . . . . . . . . . . 79

    1.5 Approfondimenti sui vettori aleatori . . . . . . . . . . . . . . . . . . . . . . . 821.5.1 Trasformazione di densit . . . . . . . . . . . . . . . . . . . . . . . . . 821.5.2 Trasformazione lineare dei momenti . . . . . . . . . . . . . . . . . . . 841.5.3 Sulle matrici di covarianza . . . . . . . . . . . . . . . . . . . . . . . . . 841.5.4 Vettori gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    2 Elementi di Statistica 932.1 Introduzione. Stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 932.2 Intervalli di condenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

    2.2.1 Esempio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 992.2.2 Soglie, ammissibili ecc. . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

    2.3 Test statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1072.3.1 Un esempio prima della teoria . . . . . . . . . . . . . . . . . . . . . . . 1072.3.2 Calcolo analitico del p-value nel precedente test per la media . . . . . 1082.3.3 Ipotesi nulla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1092.3.4 Errori di prima e seconda specie; signicativit e potenza di un test . 1112.3.5 Struttura diretta della procedura di test . . . . . . . . . . . . . . . . . 1132.3.6 p-value (struttura indiretta) . . . . . . . . . . . . . . . . . . . . . . . . 1132.3.7 Test gaussiano per la media unilaterale e bilaterale, varianza nota . . 114

  • INDICE v

    2.3.8 Curve OC e DOE nei test . . . . . . . . . . . . . . . . . . . . . . . . . 1172.3.9 Test di adattamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

    3 Processi Stocastici 1253.1 Processi a tempo discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

    3.1.1 Legame tra v.a. esponenziali e di Poisson . . . . . . . . . . . . . . . . 1323.2 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

    3.2.1 Processi deniti anche per tempi negativi . . . . . . . . . . . . . . . . 1393.2.2 Serie temporli e grandezze empiriche . . . . . . . . . . . . . . . . . . . 140

    3.3 Processi gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1443.4 Un teorema ergodico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

    3.4.1 Tasso di convergenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1493.4.2 Empirical autocorrelation function . . . . . . . . . . . . . . . . . . . . 150

    3.5 Analisi di Fourier dei processi stocastici . . . . . . . . . . . . . . . . . . . . . 1513.5.1 Premesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1513.5.2 Trasformata di Fourier a tempo discreto . . . . . . . . . . . . . . . . . 1523.5.3 Propriet della DTFT . . . . . . . . . . . . . . . . . . . . . . . . . . . 1553.5.4 DTFT generalizzata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

    3.6 Densit spettrale di potenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1593.6.1 Esempio: il white noise . . . . . . . . . . . . . . . . . . . . . . . . . . 1603.6.2 Esempio: serie periodica perturbata. . . . . . . . . . . . . . . . . . . . 1603.6.3 Noise di tipo pink, brown, blue, violet . . . . . . . . . . . . . . . . . . 1613.6.4 Il teorema di Wiener-Khinchin . . . . . . . . . . . . . . . . . . . . . . 162

    4 Analisi e Previsione di Serie Storiche 1694.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

    4.1.1 Metodi elementari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1744.1.2 Decomposizione di una serie storica . . . . . . . . . . . . . . . . . . . 1764.1.3 La media di pi metodi . . . . . . . . . . . . . . . . . . . . . . . . . . 177

    4.2 Modelli ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1784.2.1 Modelli AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1784.2.2 Esempi particolari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1794.2.3 Loperatore di traslazione temporale . . . . . . . . . . . . . . . . . . . 1824.2.4 Modelli MA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1844.2.5 Modelli ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1844.2.6 Operatore dierenza. Integrazione . . . . . . . . . . . . . . . . . . . . 1854.2.7 Modelli ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1874.2.8 Stazionariet, legame tra modelli ARMA e modelli MA di ordine in-

    nito, ipotesi generali della teoria . . . . . . . . . . . . . . . . . . . . . 1884.2.9 Funzione di autocorrelazione, primi fatti . . . . . . . . . . . . . . . . . 1914.2.10 Funzione di autocorrelazione, complementi . . . . . . . . . . . . . . . 1944.2.11 Densit spettrale di potenza dei processi ARMA . . . . . . . . . . . . 196

    4.3 Il metodo di Holt-Winters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1974.3.1 Metodo di Smorzamento Esponenziale (SE) . . . . . . . . . . . . . . . 198

  • vi INDICE

    4.3.2 Metodo di Smorzamento Esponenziale con Trend (SET) . . . . . . . . 1994.3.3 Smorzamento esponenziale con trend e stagionalit (Holt-Winters) . . 2014.3.4 Confronto tra modelli previsionali: i) cross-validation . . . . . . . . . . 2024.3.5 Confronto tra modelli previsionali: ii) metodo del conitto di interessi2034.3.6 Esercizi sul confronto tra modelli previsionali . . . . . . . . . . . . . . 205

    4.4 Metodi regressivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2054.4.1 AR come regressione lineare multipla . . . . . . . . . . . . . . . . . . . 2054.4.2 Implementazione con R . . . . . . . . . . . . . . . . . . . . . . . . . . . 2064.4.3 Previsione col modello regressivo . . . . . . . . . . . . . . . . . . . . . 2064.4.4 Variabili esogene, cross-correlazione, modelli ARX . . . . . . . . . . . 208

    4.5 Fit di una densit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2104.5.1 Istogrammi e cumulative empiriche . . . . . . . . . . . . . . . . . . . . 2114.5.2 Metodi parametrici e metodi non parametrici . . . . . . . . . . . . . . 2114.5.3 Stima dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2114.5.4 Confronto graco tra densit e istogrammi e Q-Q plot . . . . . . . . . 212

    4.6 Esercizi sulle serie storiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2134.6.1 Esercizio n. 1 (veicoli 1; fasi iniziali) . . . . . . . . . . . . . . . . . . . 2144.6.2 Esercizio n. 2 (veicoli 2; decomposizione, stagionalit) . . . . . . . . . 2154.6.3 Esercizio n. 3 (veicoli 3; previsione tramite decomposizione) . . . . . . 2194.6.4 Esercizio n. 4 (veicoli 4; modelli AR) . . . . . . . . . . . . . . . . . . . 2224.6.5 Esercizio n. 5 (veicoli 5; proseguimento sugli AR) . . . . . . . . . . . . 2254.6.6 Esercizio n. 6 (veicoli 6; trend con SET; HW) . . . . . . . . . . . . . . 2294.6.7 Esercizio n. 7 (Motorcycles 1; decomposizione, AR) . . . . . . . . . . 2334.6.8 Esercizio n. 8 (Motorcycles 2; HW, AR; confronti) . . . . . . . . . . . 2364.6.9 Esercizio n. 9 (Veicoli e Motorcycles, densit dei residui) . . . . . . . . 239

    4.7 Appendice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244

    5 Sistemi Markoviani 2455.1 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

    5.1.1 Grafo, probabilit e matrice di transizione, probabilit di stato, propri-et di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

    5.1.2 Misure invarianti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2505.1.3 Classicazione degli stati . . . . . . . . . . . . . . . . . . . . . . . . . 2525.1.4 Convergenza allequilibrio e propriet ergodiche . . . . . . . . . . . . . 253

    5.2 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2555.3 Processi di Markov a salti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

    5.3.1 Sistemi a eventi discreti . . . . . . . . . . . . . . . . . . . . . . . . . . 2555.3.2 Stati e gra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2575.3.3 Tempi di permanenza aleatori . . . . . . . . . . . . . . . . . . . . . . . 2585.3.4 Catene di Markov e processi di Markov a salti . . . . . . . . . . . . . . 2595.3.5 Quale transizione tra varie possibili? . . . . . . . . . . . . . . . . . . . 2595.3.6 Tempo di permamenza . . . . . . . . . . . . . . . . . . . . . . . . . . . 2605.3.7 Prima luna o laltra? . . . . . . . . . . . . . . . . . . . . . . . . . . . 2605.3.8 Regime stazionario o di equilibrio . . . . . . . . . . . . . . . . . . . . . 261

  • INDICE vii

    5.3.9 Dimostrazione dellequazione (5.2) . . . . . . . . . . . . . . . . . . . . 2625.3.10 Il sistema delle equazioni di bilancio . . . . . . . . . . . . . . . . . . . 263

    5.4 Esempi dalla teoria delle code . . . . . . . . . . . . . . . . . . . . . . . . . . . 2645.4.1 Processi di nascita e morte . . . . . . . . . . . . . . . . . . . . . . . . 2665.4.2 Tassi costanti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2685.4.3 Tassi di crescita costanti, tassi di decrescita lineari . . . . . . . . . . . 2695.4.4 Coda con c serventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2695.4.5 Nascita e morte con un numero nito di stati . . . . . . . . . . . . . . 2715.4.6 Valori medi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2725.4.7 Lancio di un dato al suono dellorologio . . . . . . . . . . . . . . . . . 2755.4.8 Il processo di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 2755.4.9 Il processo in uscita da una coda . . . . . . . . . . . . . . . . . . . . . 276

    5.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2765.6 Processi nel continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278

    5.6.1 Processi a tempo continuo . . . . . . . . . . . . . . . . . . . . . . . . . 2785.6.2 Pi generale che tempo continuo? . . . . . . . . . . . . . . . . . . . . . 2785.6.3 Il moto browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2785.6.4 Dinamiche stocastiche . . . . . . . . . . . . . . . . . . . . . . . . . . . 2805.6.5 Fit tramite unequazione dierenziale . . . . . . . . . . . . . . . . . . 283

    5.7 Equazioni dierenziali stocastiche . . . . . . . . . . . . . . . . . . . . . . . . . 2845.7.1 Applicazione diretta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2865.7.2 Identicazione sperimentale dei parametri . . . . . . . . . . . . . . . . 2875.7.3 Applicazione inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288

    5.8 Soluzione degli esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291

    6 Statistica Multivariata 2996.1 La matrice di correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299

    6.1.1 Elevata correlazione non sinonimo di causalit . . . . . . . . . . . . 3016.2 Il metodo delle componenti principali . . . . . . . . . . . . . . . . . . . . . . . 303

    6.2.1 Diagonalizzazione di Q . . . . . . . . . . . . . . . . . . . . . . . . . . . 3046.2.2 I comandi di R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3066.2.3 Classiche tramite PCA . . . . . . . . . . . . . . . . . . . . . . . . . . 3096.2.4 Il miglior punto di vista . . . . . . . . . . . . . . . . . . . . . . . . . 3106.2.5 E cacia del metodo PCA . . . . . . . . . . . . . . . . . . . . . . . . . 311

    6.3 Modelli lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3126.3.1 Introduzione: modelli lineari di legame tra variabili aleatorie . . . . . 3126.3.2 Regressione lineare semplice . . . . . . . . . . . . . . . . . . . . . . . . 3146.3.3 Regressione lineare multipla . . . . . . . . . . . . . . . . . . . . . . . . 3196.3.4 Predizione con modelli regressivi . . . . . . . . . . . . . . . . . . . . . 3236.3.5 Analisi fattoriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3246.3.6 Forma matriciale del problema . . . . . . . . . . . . . . . . . . . . . . 3266.3.7 Loadings, rotazioni, interpretazioni . . . . . . . . . . . . . . . . . . . . 3276.3.8 FA e PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3286.3.9 I comandi di R. Linguaggio . . . . . . . . . . . . . . . . . . . . . . . . 329

  • viii INDICE

    6.4 Metodi di classicazione e clustering . . . . . . . . . . . . . . . . . . . . . . . 3296.4.1 Regressione logistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3296.4.2 Formulazione probabilistica del problema decisionale e regola di Bayes 3326.4.3 Classicazione: idee generali . . . . . . . . . . . . . . . . . . . . . . . 3346.4.4 Classicazione bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . 3356.4.5 Il caso gaussiano e la Linear Discriminant Analysis . . . . . . . . . . . 3366.4.6 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337

    6.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3396.5.1 Esercizio n. 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3396.5.2 Esercizio n. 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3426.5.3 Esercizio n. 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3456.5.4 Esercizio n. 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3486.5.5 Esercizio n. 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3506.5.6 Esercizio n. 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353

  • Prefazione

    Il materiale qui raccolto ha la forma di appunti pi che di libro organico. Il testo pensatoper le lauree magistrali in Ingegneria e raccoglie materiale utilizzato in numerosi corsi inanni recenti. Alcune parti devono molto al contributo di alcuni collaboratori e di numerosistudenti; in particolare merita di essere ricordato il contributo di Michele Barsanti alle duesezioni sullanalisi di Fourier dei processi stocastici, oltre che a vari altri punti ed esercizi,di Michele Tocchet alla sezione sul metodo PCA, di Giuseppe Matisi e Lorenzo Doccini adalcuni esercizi di statistica multivariata (4 e 5).

    ix

  • x PREFAZIONE

  • Capitolo 1

    Elementi di Calcolo delleProbabilit

    Questo capitolo dedicato ad un riassunto degli elementi di Calcolo delle Probabilit cheverranno utilizzati nel seguito. Lesposizione di questi elementi sommaria per cui, chi sen-tisse la necessit di approfondimenti, pu leggere il testo di S. Ross, Probabilit e Statistica,Apogeo 2008 (per unesposizione adatta ad un triennio di Ingegneria) o di P. Baldi, Calcolodelle Probabilit, McGraw-Hill 2007 (pi adatto per le lauree magistrali in Ingegneria), coscome molti altri.

    La prima sezione dedicata allillustrazione di alcuni primi oggetti del calcolo delleprobabilit:

    gli eventi ; in parole povere sono aermazioni, pi formalmente saranno insiemi ; su diessi si opera con operazioni logiche, o insiemistiche, a seconda del punto di vista;

    la probabilit; si calcola la probabilit di eventi; ad ogni evento associato un numerodellintervallo [0; 1], la sua probabilit; la probabilit sar quindi unapplicazione chead ogni evento associa un numero, con certe regole.

    Nella sezione successiva vedremo poi:

    le variabili aleatorie; a livello intuitivo sono grandezze (numeriche o di altro tipo)con un qualche grado di imprevedibilit, quanticato da nozioni probabilistiche; nellaformalizzazione matematica saranno funzioni;

    i valori medi ; indicatori numerici associati a variabili aleatorie che ne riassumono alcunecaratteristiche.

    Segue poi una sezione di esempi, una sui teoremi limite ed una pi specica sui vettorialeatori, soprattutto gaussiani.

    1

  • 2 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    1.1 Eventi e loro probabilit

    1.1.1 Universo ed eventi elementari

    Nella costruzione dello schema matematico fondamentale della probabilit, lo spazio proba-bilizzato (;F ; P ) che verr introdotto un poper volta, si parte da un insieme ambiente,di solito indicato con , o S, spesso detto universo, o insieme degli eventi elementari (oinsieme degli esiti). I suoi elementi ! 2 si dicono eventi elementari (o esiti). Intuiti-vamente, di fronte ad una situazione casuale, come ad esempio un esperimento, il risultatodellesperimento un esito, quindi linsieme dei risultati possibili dellesperimento.

    Ad esempio, se osserviamo il simbolo, 0 o 1, che entra in un canale di trasmissione (chetrasmette un simbolo alla volta), ed il simbolo, 0 o 1, che ne esce, un evento elementare unacoppia (a; b) dove a (simbolo in entrata) e b (simbolo in uscita) possono valere 0 o 1. Quindii possibili eventi elementari sono

    (0; 0) (0; 1) (1; 0) (1; 1) :

    Lo spazio in questo caso linsieme di questi oggetti, quindi semplicemente

    = f(0; 0) ; (0; 1) ; (1; 0) ; (1; 1)g :Un esempio di evento elementare

    ! = (0; 1) :

    Va notato che un singolo evento elementare ! contiene linformazione pi dettagliatapossibile relativamente al problema che si sta studiando. Nellesempio appena visto, unospecico valore del simbolo in uscita non un evento elementare: laermazione

    il simbolo in uscita 1

    non corrisponde ad un evento elementare. Invece laermazione il simbolo in entrata 0 edil simbolo in uscita 1corrisponde allevento elementare ! = (0; 1).

    Analogamente, se si sta esaminando un gioco che consiste nel lancio di 5 dadi, il risultatodel primo lancio non un evento elementare, mentre una qualsiasi stringa (n1; :::; n5) deirisultati dei cinque lanci un evento elementare.

    Se si osserva un uido turbolento e lo si descrive con grandezze aleatorie, un eventoelementare una possibile congurazione complessiva del uido (nel senso della specica divelocit, pressione ecc. in ogni punto della regione occupata dal uido). Invece, losservazionedel valore della velocit in un certo punto ssato non un evento elementare.

    1.1.2 Eventi

    Gli esempi precedenti mostrano che il dettaglio di conoscenza insito nel concetto di eventoelementare spesso sovrabbondante. E perfettamente sensato porsi domande relative agrandezze meno dettagliate, come il valore del simbolo ricevuto da un canale di comunicazioneo il valore della velocit di un uido turbolento in un punto specico. Si introducono alloragli eventi (non pi necessariamente elementari).

    In prima approssimazione, possiamo dire che un evento un sottoinsieme di .

  • 1.1. EVENTI E LORO PROBABILIT 3

    Universo , un evento elementare ! ed un evento A

    Riprendendo il primo esempio fatto sopra dei simboli 0 e 1 in entrata ed uscita, linsieme

    A = f(0; 1) ; (1; 1)g

    corrisponde allaermazione il simbolo in uscita 1. A linsieme di tutti gli eventielementari che corrispondono a tale aermazione. Questo un esempio di evento.

    In prima approssimazione, ogni sottoinsieme A un possibile evento di interesse. Cisono per due ragioni per restringere lattenzione, in alcuni casi, ad una famiglia pi ristrettadi eventi, che non comprenda necessariamente tutti i sottoinsiemi A ma solo alcuni.Una ragione meramente tecnica nel senso matematico del termine: in certi esempi non possibile denire la probabilit (di cui parleremo tra un attimo) di ogni sottoinsieme di , inmodo coerente secondo certe regole; per cui necessario sacricare certi sottoinsiemi troppostrani. Purtroppo questa ragione, assai noiosa, si apprezza solo dopo lunghe premesse diteoria della misura e teoria degli insiemi (ad esempio, per costruire sottoinsiemi strani checreino problemi si deve usare lassioma della scelta). Per scopi pratici questa restrizione, opatologia, irrilevante: tutti gli insiemi che introdurremo nel corso sono accettabili comeeventi.

    La seconda ragione invece molto pi interessante per le applicazioni: essa corrisponde alconcetto di maggior o minor informazione che abbiamo su un problema. Premettiamo quindiuna breve introduzione al concetto di informazione.

    Circa la distinzione tra evento ed evento elementare si osservi il seguente fatto: quandolesperimento, o osservazione, si conclusa, osserviamo il vericarsi di un evento elementare!. Molti eventi A si sono vericati, allora: tutti gli eventi A che contengono lelemento !.Se ad esempio dal lancio di un dato uscito il numero 2 (evento elementare), si vericatolevento uscito un numero pari, ed anche uscito un numero inferiore a 4, e cos via.

    1.1.3 Informazione contenuta in una famiglia di eventi

    Non esiste alcuna denizione univoca di questo concetto, che ha molte facce suscettibilidi varie descrizioni rigorose. Senza entrare ora in dettaglio, segnaliamo ad esempio checerti indicatori numerici chiamati entropia (ce ne sono di vario tipo) vengono introdottiper descrivere linformazione contenuta ad esempio in sequenze numeriche o in distribuzionidi probabilit.

  • 4 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    Qui invece ci indirizziamo in unaltra direzione. Pensiamo per ssare le idee ad un es-perimento eseguito per misurare il valore di una grandezza sica. Supponiamo ad esempioche lo strumento di misura abbia una sua incertezza intrinseca. Un modo per tenerne contopu essere il seguente: invece che sperare di ottenere un ben preciso valore x come risul-tato dellesperimento, immaginiamo che il risultato consista in un intervallo, preso in unafamiglia pressata di intervalli possibili (1; x1], (x1; x2], ... , (xn1; xn], (xn;1). Ad esem-pio, immaginiamo a priori di non poterci dare della misura dello strumento oltre la primacifra decimale, e che i valori inferiori a -10 o superiori a 10 non siano distinguibili. Allora ilrisultato dellesperimento pu essere solo uno dei seguenti intervalli: (1;10], (10;9:9],(9:9;9:8], ... , (9:8; 9:9], (9:9; 10]. (Esempio: quando si usano le tavole gaussiane dei quan-tili, ci si deve accontentare dei numeri riportati sulle tavole, che non sono tutti i numeri reali,e ci si deve accontatare della precisione del risultato espressa con un numero nito e basso dicifre, secondo la disponibilit di quelle tavole.)

    Questa famiglia di intervalli descrive il nostro grado di infomazione (o se si vuole il gradodi informazione raggiungibile con lesperimento).

    Se in un momento successivo si riesce a migliorare lo strumento di misura in mododa poterci dare di due cifre decimali e magari di allargare lo spettro dei valori da -20a 20, la famiglia che descrive la nostra informazione diventa (1;20], (20;19:99],(19:99;19:98], ... , (19:98; 19:99], (19:99; 20].

    In questo esempio linsieme universo naturale da introdurre linsieme R dei numerireali, ma gli unici sottoinsiemi che ci interessano per la descrizione dellesperimento sonogli intervalli scritti sopra. Oppure possiamo adottare unaltro punto di vista: in teoria ciinteresserebbero tutti i sottoinsiemi, in particolare quelli composti dai singoli numeri reali(che darebbero il risultato con precisione innita), ma in pratica evidenziamo che il grado diinformazione contenuto nel nostro esperimento descritto dalla famiglia pi ristretta degliintervalli detti sopra.

    Vediamo unaltro esempio.

    Esempio 1 In un capitolo successivo studieremo i processi stocastici. Per lo scopo di questoesampio, basti pensare intuitivamente che un processo stocastico la descrizione matematicadi una grandezza (sica, economica ecc.) che varia nel tempo ed aleatoria. Indichiamocon Xt questa grandezza al tempo t. Supponiamo di studiare il fenomeno per tutti i tempit 0. Prendiamo come linsieme di tutte le storiepossibili di questa grandezza, tutte lefunzioni t 7! xt che possono realizzarsi. Gli eventi sono sottoinsiemi di , cio famiglie ditali storie, realizzazioni. Un esempio levento A =al tempo t = t1 il valore di Xt positivo, evento che possiamo riassumere con la scrittura

    A = fXt1 > 0g :

    Un altro B = fXt2 2 Ig con I un certo intervallo. Intersecando eventi di questo tipotroviamo eventi della forma

    fXt1 2 I1; :::; Xtn 2 Ingcio eventi che aermano che Xt, in certi istanti assume certi possibili valori. Fatte questepremesse, ssiamo un tempo T > 0 e consideriamo la famiglia F0T di tutti gli eventi del tipo

  • 1.1. EVENTI E LORO PROBABILIT 5

    fXt1 2 I1; :::; Xtn 2 Ing con0 t1 ::: tn T:

    Sono eventi che aermano qualcosa del processo Xt solo entro il tempo T , solo relativa-mente allintervallo [0; T ]. La famiglia F0T di tutti questi eventi descrive un certo grado diinformazione, linformazione di cosa pu accadere nellintervallo [0; T ].

    Al crescere di T questa famiglia cresce, cio F0T F0S se T < S. Si acquisisce nuovainformazione, su un periodo di tempo maggiore.

    1.1.4 Algebre di eventi

    Ricordiamo che la famiglia di tutti i sottoinsiemi di , detta famiglia delle parti di , si usaindicare con P ().

    Denizione 1 Chiamiamo algebra di insiemi di una famiglia F P () che sia chiusaper tutte le operazioni insiemistiche nite e tale che 2 F .

    Chiusa per tutte le operazioni insiemistiche nite signica che se A;B 2 F alloraA [B 2 F , A \B 2 F , Ac 2 F ,

    (il complementare Ac inteso rispetto allo spazio ambiente ) e di conseguenza anche AnB 2F , A4B 2 F , dove AnB linsieme dei punti di A che non stanno in B, e la dierenzasimmetrica A4B lunione di AnB pi BnA. Dal fatto che 2 F e Ac 2 F discende che; 2 F . Si ricordino le formule di De Morgan

    (A [B)c = Ac \Bc(A \B)c = Ac [Bc

    che si usano spesso quando si eseguono nei dettagi certe veriche.Valgono inoltre proprietdistributive tra unione e intersezione, su cui non insistiamo.

    Due esempi semplici di algebre di insiemi sono F = P (), F = f;;g. Un esempioimportante, nello spazio = R, la famiglia F dei pluri-intervalli, composta da tutti iseguenti insiemi, che elenchiamo:

    ; ed R stesso gli intervalli (chiusi, aperti, semi-aperti) di estremi a < b (anche inniti) tutti gli insiemi che si ottengono per unione nita dei precedenti.

    Detto un posommariamente, gli elementi di F sono tutte le unioni nite di intervalli.Eimmediato che questa famiglia, oltre a contenere , sia chiusa per unione nita; siccomelintersezione di due intervalli un intervallo o linsieme ;, la famiglia anche chiusa perintersezione nita (grazie alle propriet distributive); ed inne, il complementare di un inter-vallo unione nita di intervalli, quindi (per le formule di De Morgan) la famiglia chiusaanche per complementare. Invece la famiglia degli intervalli non unalgebra, ad esempioperch non chiusa per unione nita.

  • 6 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    Esempio 2 Riprendendo lesempio del paragrafo precedente, la famiglia F0T non unalgebra,per colpa di due fatti. Da un lato, ci siamo ristretti a prendere intervalli Ij e questo pone glistessi problemi appena visti su = R; decidiamo allora che nella denizione di F0T usiamopluri-intervalli Ij. Dallaltro, se ad esempio uniamo gli eventi fXt1 > 0g e fXt2 > 0g, nonriusciamo a scrivere questo insieme nella forma fXt1 2 I1; Xt2 2 I2g. Allora chiamiamo FTla famiglia formata da tutte le unioni nite di insiemi di F0T . Questa unalgebra.

    1.1.5 -algebre di eventi

    Quasi tutta la matematica di un certo livello basata su operazioni limite (derivate, integrali,e cos via). Anche in probabilit dobbiamo poter eettuare operazioni limite per raggiungereuna certa ricchezza di risultati. A livello di eventi, questa richiesta si traduce nel concetto di-algebra di insiemi: con questo nome si intendono le algebre F che siano chiuse anche perunione (ed automaticamente interesezione) numerabile.

    Denizione 2 Una -algebra di insiemi di una famiglia F P () che abbia le proprietdi unalgebra e tale che, se A1; :::; An; ::: sono eventi appartenenti ad F , allora[

    n2NAn 2 F .

    La -algebra pi comunemente usata in = R, quella degli insiemi boreliani. Essa denita come la pi piccola -algebra a cui appartengono tutti gli insiemi aperti ( su cientedire gli intervalli aperti). Ad essa, a posteriori, appartengono tutti gli intervalli (aperti,chiusi, semiaperti, limitati e non), tutte le unioni nite o numerabili di tali intervalli, e moltialtri insiemi. Pur essendo vastissima, essa non coincide con P (R). Per, parlando in pratica,ogni insieme che si costruisca con operazioni usuali (in cui non includiamo luso dellassiomadella scelta), risulta essere un boreliano.

    1.1.6 Spazio probabilizzabile

    La prima parte dello schema matematico stata denita: un insieme (o spazio) ed una-algebra F di sottoinsiemi di . In questo schema chiameremo eventi tutti gli elementi diF . La coppia (;F) si chiama spazio probabilizzabile.

    1.1.7 Probabilit

    In senso formale, una funzioneP : F ! [0; 1]

    che soddisfa due propriet che ora diremo. Scrivendo che P una funzione da F in [0; 1]intendiamo dire che calcoleremo P su ogni elemento del suo dominio F , ottenendo comerisultato un numero del codominio [0; 1]. Quindi, preso un qualsiasi eventoA 2 F , calcoleremola sua probabilit

    P (A) 2 [0; 1] :

  • 1.1. EVENTI E LORO PROBABILIT 7

    Veniamo alle due propriet che deve soddisfare P . La prima una convenzione di normaliz-zazione:

    P () = 1:

    Osserviamo solo che la scrittura P () ha senso, in quanto abbiamo presupposto che 2 F .La seconda la propriet essenziale: se A1; :::; An; ::: una famiglia nita, o una successioneinnita, di eventi, che siano disgiunti, allora

    P

    [n

    An

    !=Xn

    P (An) :

    Come sopra, osserviamo che la scrittura P (SnAn) ha senso, in quanto

    SnAn 2 F per

    la propriet di -algebra. Disgiunti signica a due a due: ogni coppia di tali insiemi haintersezione vuota. Questa propriet si chiama -additivit della probabilit (e semplicementeadditivit nel caso di un numero nito di insiemi).

    Per avere un modello intuitivo di grande aiuto, si pu pensare ad una distribuzione dimassa su una regione , normalizzata in modo che la massa totale sia uno. Se prendiamosottoinsiemi disgiunti di , la massa della loro unione la somma delle masse.

    Per inciso, esistono varie generalizzazioni del concetto di probabilit, che abbandonanola richiesta P (A) 2 [0; 1], ma in genere mantengono la -additivit. La generalizzazione pinota quella in cui si richiede solo P (A) 0 (eventualmente innito), nel qual caso si parla dimisura; lesempio a tutti noto la misura euclidea sulla retta, o sul piano, o nello spazio, ecc.(detta misura di Lebesgue, nella sua accezione -additiva su unopportuna -algebra F moltoampia, detta degli insiemi misurabili secondo Lebesgue). Ma con lispirazione della caricaelettrica al posto della massa si pu costruire la nozione di misura con segno, in cui P (A)pu avere anche segno negativo, ed inne anche il caso vettoriale in cui P (A) un vettoredi un certo spazio, sempre -additivo rispetto ad A. Non tratteremo queste generalizzazioni,ma pu essere utile sapere che si possono sviluppare.

    Per esercizio si pu cercare di dimostrare che:

    A B implica P (A) P (B) P (Ac) = 1 P (A) P (A [B) = P (A) + P (B) P (A \B).

    Concludiamo questo paragrafo osservando che abbiamo denito la struttura fondamentaledel calcolo delle probabilit, ovvero il cosidetto spazio probabilizzato: una terna (;F ; P ),dove un insieme, F una -algebra di sottoinsiemi di e P una probabilit. A volteP viene chiamata anche distribuzione di probabilit, oppure misura di probabilit.

    Naturalmente in ogni esempio dovremo specicare chi sono esattamente questi tre oggetti;indipendentemente dallesempio specico, essi devono per soddisfare i requisiti elencati sopra(F chiusa per operazioni numerabili, P che sia -additiva), dai quali derivano i vari teoremidel calcolo delle probabilit, validi in ogni esempio. Sottolineiamo che la specica quantitativadi P nei singoli esempi pu essere assai laboriosa, quindi lo schema descritto no ad ora solo un vago contenitore di idee astratte.

  • 8 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    Esempio 3 Spazi equiprobabili. Lesempio pi semplice ma anche assai utile quello di uninsieme nito composto di N elementi, F = P () (sugli insiemi niti non sorgono di -colt tecniche circa gli eventi, quindi di solito si considerano come eventi tutti i sottoinsiemipossibili), e P denita cos:

    P (A) =jAjN

    dove abbiamo indicato con jAj la cardinalit di A, ovvero il numero di elementi di A. Si puriconoscere che vale ladditivit di P (e P () = 1) quindi P una probabilit. Sottolineiamoche se ! 2 un evento elementare, allora vale

    P (!) =1

    N:

    Da qui deriva il nome di spazio equiprobabile. Per quanto semplice possa sembrare questoesempio, abbastanza vero che ogni costruzione pi elaborata del calcolo delle probabilitaonda le sue radici in qualche modo negli spazi equiprobabili.

    Osservazione 1 Spazi di probabilit niti. Un po pi generale del precedente il casodi un insieme nito composto di N elementi, F = P (), ma con P non necessariamenteuniforme. Vedremo tra un attimo un esempio. Qui osserviamo solo una propriet importante:la conoscenza di P (ovvero il valore di P (A) per qualsiasi A ) equivale alla conoscenzadel valore di P sugli eventi elementari. In altre parole, se conosciamo P (!) per qualsiasi! 2 , allora possiamo calcolare P (A) per qualsiasi A tramite addizione:

    P (A) =X!2A

    P (!) :

    La formula vale per ladditivit di P . La somma nita, per ipotesi sullo spazio. Tuttaviaquanto detto in questa osservazione vale esattamente anche nel caso di innito numerabile,nel qual caso la somma che calcola P (A) pu essere una serie numerica (comunque unaserie a termini positivi convergente).

    Osservazione 2 Insistendo sullosservazione precedente, notiamo che per costruire un esem-pio di spazio probabilizzato nito, dopo aver specicato e scelto F = P (), basta introdurreuna sequenza di numeri fp (!)g!2 tali che

    p (!) 2 [0; 1] per ogni ! 2 X!2

    p (!) = 1:

    A partire da essi si denisce poi

    P (A) =X!2A

    p (!)

    per ogni A e si verica facilmente che P una probabilit.

  • 1.1. EVENTI E LORO PROBABILIT 9

    Esempio 4 Fissato un intero positivo n, consideriamo linsieme di tutte le sequenze(x1; :::; xn) composte di zeri ed uni. A volte si usa scrivere

    = f0; 1gn

    ovvero linsieme di tutte le applicazioni da un insieme di n elementi in f0; 1g. un insiemenito, con 2n elementi. Deniamo uninteressante probabilit P su F = P (). Per quantodetto nella precedente osservazione, basta che assegniamo la probabilit ad ogni sequenza(x1; :::; xn) in modo da avere somma uno. Fissato un numero p 2 [0; 1], posto q = 1p, dettok il numero di uni nella sequenza (x1; :::; xn), poniamo

    p (x1; :::; xn) = pkqnk:

    Sono numeri in [0; 1]. La loro somma pari a

    nXk=0

    nkpkqnk

    dove nk il numero di sequenze con k uni. Chiariremo in un paragrafo a parte che questonumero il coe ciente binomiale

    nk

    . Dobbiamo allora calcolare

    nXk=0

    n

    k

    pkqnk:

    Questa somma vale uno ricordando la formula del binomio di Newton:

    (a+ b)n =

    n

    k

    akbnk:

    Lo spazio probabilizzato appena introdotto molto ricco e costituisce la base per un enormenumero di considerazioni teoriche e di applicazioni pratiche.

    Osservazione 3 Una probabilit P denita su una -algebra F , non su uno spazio

    come in genere si portati a dire intuitivamente. In genere non pericoloso fare questapiccola confusione di linguaggio; piuttosto, in alcuni casi utile rammentare questa specica,quando si studiano problemi avanzati con diverse -algebra in azione contemporaneamente.

    1.1.8 Probabilit condizionale

    Supponiamo di aver scelto una terna (;F ; P ) per descrivere un problema concreto. Sup-poniamo poi di venire a conoscenza di uninformazione aggiuntiva che prima ci era ignota,esprimibile nel fatto che un certo evento B 2 F si vericato.

    Ad esempio, consideriamo nuovamente il problema della spedizione e ricezione di unsimbolo 0,1 attraverso un canale di comunicazione, in cui inizialmente introduciamo lo schema(;F ; P ) quando non sappiamo n che simbolo stato trasmesso n quale stato ricevuto.Ricordiamo che linsieme composto dai quattro elementi (0; 0) ; (0; 1) ; (1; 0) ; (1; 1). In

  • 10 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    questo esempio F = P (), mentre di P ancora non abbiamo parlato, ma supponiamo diaverla ssata.

    Come dicevamo, supponiamo che un evento B si sia vericato. Nellesempio, potrebbeessere levento: il simbolo ricevuto 1. Questa solo uninformazione parziale, non esaurisceci che vorremmo sapere del problema aleatorio, ma certamente unimportante informazionein pi.

    Matematicamente, accade questo: la nuova informazione contenuta nel fatto che B si vericato, modica la probabilit di tutti gli altri eventi. Ogni evento A aveva inizialmenteprobabilit P (A); ora ha una nuova probabilit che indicheremo con

    P (AjB)

    (e leggeremo probabilit di A sapendo B, o condizionata a B). La formula che statascelta per calcolarla, o se si vuole come sua denizione, la seguente:

    P (AjB) = P (A \B)P (B)

    :

    Come ogni denizione contiene un certo grado di arbitrariet, ma comunque ben motivatasia dalla sensatezza negli esempi, sia dal seguente ragionamento generale. Si pensi ad . Nelmomento in cui sappiamo che B si vericato, linsieme Bc non pu pi vericarsi, quindiil nostro universo si restinge a B stesso, diventa 0 = B. Preso un qualsiasi evento A, laparte di A in Bc non pu pi vericarsi, mentre sopravvive la parte di A in B, pari a A\B.In altre parole, nel passaggio (restrizione) da ad 0, linsieme A si trasforma in A \ B.Sarebbe naturale poi dire che la probabilit P (A) si trasforma in P (A \B). Per la nuovaprobabilit cos trovata avrebbe il difetto di non valere 1 sul nuovo universo: P (0) = P (B),diverso da 1 in generale. Va allora normalizzata ad 1, dividendo per P (B). Ecco come siarriva allespressione P (A\B)P (B) partendo da P (A).

    Solo la parte a puntini sopravvive come eventualit quando sappiamo che vale B

    Osserviamo che nella denizione di P (AjB) bisogna supporre che sia P (B) > 0 per daresenso alla frazione. Tuttavia, quando P (B) = 0, anche P (A \B) = 0 (in quanto A\B B),quindi lespressione del tipo 00 , che non ha un senso elementare, algebrico, ma potrebbeavere un senso limite, magari prendendo una successione di insiemi Bn ! B con opportune

  • 1.1. EVENTI E LORO PROBABILIT 11

    propriet. In molti casi questo tipo di ragionamento funziona e produce nozioni utilissimedi probabilit condizionata in un senso generalizzato. Per ora non approfondiamo questoargomento.

    Ricordiamo che P era, rigorosamente parlando, una funzione. Analogamente molto utilepensare a P (:jB) come ad una funzione, per B ssato: funzione dellevento A che mettiamonellespressione P (AjB). Si dimostra che la funzione P (:jB) (con B ssato) una probabilit,-additiva.

    1.1.9 Indipendenza

    Prima di conoscere un certo B, un evento A ha probabilit P (A). Dopo, ha probabilitP (AjB).

    Quando questi due valori sono uguali, ovvero

    P (AjB) = P (A)siamo portati a dire che B non inuenza A. Un esempio semplice da capire quello del lanciodi due dadi: se B levento nel primo lancio esce 6e A levento nel secondo lancio esce6, chiaro intuitivamente che B non pu inuenzare A in alcun modo.

    Osservazione 4 Unosservazione semi-seria. Una credenza ingenua che se in un lancioesce 6, nel successivo sia pi di cile che esca di nuovo 6. Pi formalmente, concordandoche a priori la probabilit che al secondo lancio esca 6 1/6, alcuni pensano che, una voltanoto che al primo lancio uscito 6, la probabilit che esca 6 al secondo lancio minore di1/6. Questo completamente assurdo se si pensa alla sica del lancio del dado. Casomai,si potrebbe dubitare che valga proprio il contrario: se il dado non perfetto, il fatto chesia uscito 6 al primo lancio potrebbe essere un indizio che il dado sbilanciato a favore dicerte facce, inclusa la faccia 6; ma allora al secondo lancio la probabilit che esca 6 un pomaggiore di 1/6!

    La condizione P (AjB) = P (A) sembra asimmetrica, mentre non lo . Siccome (usandola simmetria di A \B)

    P (BjA) = P (B \A)P (A)

    =P (A \B)P (A)

    =P (AjB)P (B)

    P (A);

    da P (AjB) = P (A) si ricava P (BjA) = P (B), ovvero che A non inuisce su B. Quindi sipu parlare di indipendenza tra A e B, simmetricamente. Per dare una veste simmetricaanche alla formulazione matematica, basta osservare che luguaglianza

    P (A \B) = P (A)P (B) equivalente alle precedenti (per esercizio). Oltre ad essere simmetrica ha il pregio di nonobbligare alle speciche del tipo P (A) > 0 o P (B) > 0 insite nella denizione di probabilitcondizionale. Arriviamo quindi alla seguente:

    Denizione 3 Due eventi A e B si dicono indipendenti se P (A \B) = P (A)P (B).

  • 12 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    1.1.10 Formula di Bayes e formula di fattorizzazione

    La formula di Bayes la formula appena dimostrata sopra, che riscriviamo:

    P (BjA) = P (AjB)P (B)P (A)

    :

    Essa permette di calcolare P (BjA) a partire da P (AjB) (ed altri due termini). Einteressantela sua struttura logica: se conosciamo come B inuenza A, ovvero conosciamo P (AjB), allorapossiamo calcolare come A inuenza B. C una sorta di inversione causale.

    Se sappiamo come certe cause inuenzano certi eetti, possiamo dalla conoscenza deglieetti risalire ad informazioni sulle cause. Ealla base di procedimenti di inferenza statisticache analizzeremo. Prima di esemplicare luso della formula di Bayes, conviene premettereanche la formula di fattorizzazione, che spesso serve per calcolare il denominatore P (A).

    Veniamo alla formula di fattorizzazione. Abbiamo gi visto come la conoscenza del-la probabilit condizionale P (AjB) permetta il calcolo di P (A \B) tramite la formulaP (A \B) = P (AjB)P (B) (se si conosce anche P (B)).

    Se vogliamo calcolare una probabilit P (A), spesso fondamentale riconoscere che magarisiamo in grado di calcolare certe probabilit condizionali della forma P (AjBi) per certi insiemiBi. Si procede allora come segue.

    Supponiamo che gli eventi B1; B2; ::: formino una partizione di (la loro unione esono a due a due disgiunti). Allora vale

    P (A) =Xi

    P (A \Bi)

    in quanto A =Si (A \Bi) e gli eventi A \ Bi sono disgiunti (quindi si pu applicare la

    -additivit). Ma allora, essendo P (A \Bi) = P (AjBi)P (Bi), vale

    P (A) =Xi

    P (AjBi)P (Bi):

    Entrambe queste uguaglianze, ma soprattutto la seconda, portano il nome di formula difattorizzazione.

    Ra gurazione della fattorizzazione di un evento A

  • 1.1. EVENTI E LORO PROBABILIT 13

    Essa si pu poi inserire nella formula di Bayes:

    P (BjA) = P (AjB)P (B)Pi P (AjBi)P (Bi)

    dove B eventualmente pu essere uno degli insiemi Bi.Per capire luso di queste due formule, proponiamo alcuni esempi nel seguito. disponibile

    anche una lista di esercizi risolti.

    Esempio 5 La preparazione di uno studente pu essere scarsa, buona, ottima. Se scarsa,la probabilit che totalizzi almeno 18 negli esercizi pari a 0:3. Se buona, pari a 0:8, se ottima pari a 0:995. Prima dello scritto il docente non ha informazioni sullo studentee decide di considerare equiprobabili le tre possibilit circa la sua preparazione. Supponiamopoi che lo studente esegua gli esercizi e prenda meno di 18; il docente, ora, che probabilit gliattribuisce di avere una preparazione almeno buona (cio buona o ottima)?

    Soluzione

    P ( < 18) = P (< 18jS)P (S) + P (< 18jB)P (B) + P (< 18jO)P (O)=1

    3(0:7 + 0:2 + 0:005) = 0: 301 67

    P (Sj < 18) = P (< 18jS)P (S)P (< 18)

    =0: 233 33

    0: 301 67= 0: 773 46:

    Quindi, usando la regola dellevento complementare, la probabilit richiesta 10:773 46 = 0: 226 54.

    Lesempio appena visto si inquadra bene in una logica causale. Il sequente invece si in-serisce meglio in una logica di classicazione. Questa concettualizzazione (extra-matematica)pu servire nei problemi concreti a riconoscere il modo di trattarli matematicamente.

    Esempio 6 Una ditta commercia vino bianco (B) e rosso (R), richiesti da clienti in Francia(F ) e in Germania (G). 1/3 delle richieste arriva dalla Francia, 2/3 delle richieste dallaGermania. I 3/4 delle richieste provenienti dalla Francia sono di vino bianco, 1/4 dellerichieste sono di vino rosso. Viceversa, 1/4 delle richieste provenienti dalla Germania sonodi vino bianco, 3/4 delle richieste sono di vino rosso.

    Calcolare la probabilit che un generico ordine riguardi il vino bianco.SoluzioneDati: P (F ) = 1=3, P (G) = 2=3, P (BjF ) = 3=4, P (RjF ) = 1=4, P (BjG) = 1=4,

    P (RjG) = 3=4.

    P (B) = P (BjF )P (F ) + P (BjG)P (G) = 34 13+1

    4 23=1

    4+1

    6=5

    12

    Vediamo adesso un esempio in cui presente una relazione di causalit un popi nettafra due eventi. Lesempio legato ad una famosa metodologia di statistica Bayesiana.

  • 14 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    1.1.11 Calcolo combinatorico

    Per ragioni di tempo, limitiamo la trattazione del calcolo combinatorico a pochi sempliciprincipi.

    Quello base detto principio di enumerazione. Esso asserisce che se si svolgono dueesperimenti successivi, il primo con n possibili risultati diversi ed il secondo con m possibilirisultati diversi, allora le coppie di risultati possibili sono m n. Edavvero un principio ovvio,ma permette di risolvere un grandissimo numero di problemi. Naturalmente si sottointendeche vale anche per una sequenza formata da pi di due esperimenti; ad esempio per treesperimenti, se nel primo ci sono n1 risultati possibili, nel secondo n2 e nel terzo n3, ilnumero totale di risultati possibili della terna di esperimenti n1n2n3. Vediamolo allopera.

    Principio di enumerazione

    Quante sono le stringhe di n simboli, (x1; :::; xn), in cui ciascun simbolo xi pu assumere possibili valori diversi? Il risultato

    n:

    Infatti, usiamo il principio di enumerazione immaginando che la scelta del primo simbolo siail primo esperimento, la scelta del secondo simbolo il secondo esperimento e cos via. Nelprimo esperimento ci sono risultati possibili, nel secondo pure, e cos via, per cui il numerodi risultati possibili della sequenza di esperimenti il prodotto n.

    Come esempio, dato un insieme nito con n elementi, linsieme delle parti P () ha2n elementi. Infatti, numeriamo gli elementi di come !1; :::; !n. Ogni parte A si pumettere in corrispondenza con la stringa di zeri ed uni (x1; :::; xn) in cui xi = 1 se !i 2 A.Questa corrispondenza biunivoca. Quindi P () ha tanti elementi quante sono le stringhe(x1; :::; xn) di zeri ed uni, ovvero 2n.

    Dato un insieme di n oggetti diversi, in quanti modi diversi li possiamo ordinare? In altreparole, vogliamo costruire stringhe ordinate (x1; :::; xn) in cui gli oggetti x1; :::; xn sono diversitra loro, presi da un insieme pressato di n oggetti. Il primo oggetto si pu scegliere (primoesperimento) in n modi diversi. Scelto quello, il secondo oggetto si pu scegliere (secondoesperimento) solo in n1 modi diversi. E cos via. Il numero totale di risultati il prodotto:

    n! := n (n 1) 2 1:

    Con altro linguaggio, questo il numero delle permutazioni di n oggetti.

  • 1.2. VARIABILI ALEATORIE E VALORI MEDI 15

    Data una popolazione di n oggetti diversi, volendo costruire con essi delle stringhe dilunghezza k, con k n (ogni oggetto pu essere usato una volta sola), quante stringhe(x1; :::; xk) si possono costruire? Come nel problema precedente, il primo oggetto si puscegliere in n modi diversi, il secondo in n 1 e cos via, ma non si arriva ad esaurimentodella popolazione di oggetti, bens ci si ferma dopo averne scelti k. Quindi il numero naledi scelte il prodotto dei primi k fattori:

    n (n 1) (n k + 1) :Ricordiamo che esso il numeratore nella seguente riscrittura del coe ciente binomiale:

    n

    k

    =

    n!

    k! (n k)! =n (n 1) (n k + 1)

    k!:

    Torniamo al primo esempio semplicato: le 2n stringhe (x1; :::; xn) in cui ciascun simboloxi pu assumere solo i valori 0 ed 1. Chiediamoci: dato k n, quante di queste stringhehanno k uni? Indichiamo con Cn;k questo numero. Questo problema sfugge ad unapplicazionediretta del principio di enumerazione. Bisogna invece ricondursi con un trucco ad uno deiproblemi precedenti. Il trucco pu essere il seguente: invece che usare uni, usiamo i primik interi positivi, i numeri 1, 2, ... , k. Chiediamoci: quante stringhe (x1; :::; xn) si possonocostruire con n k zeri e gli altri simboli uguali ai numeri 1, 2, ... , k, ma presi in ordinequalsiasi? Indichiamo con Dn;k questo numero. Ripetiamo: in entrambi i problemi vogliamon k zeri; nel primo problema mettiamo per tutti uni nelle restanti k posizioni, mentre nelsecondo problema mettiamo i numeri 1, 2, ... , k, in un ordine qualsiasi. Vale allora

    Cn;k k! = Dn;k:Infatti, per ciascuna stringa del primo tipo (che specica le posizioni degli zeri), se ne possonocreare k! diverse del secondo, a seconda dellordine con cui si mettono i numeri 1, 2, ... , k.

    A questi punto basta riconoscere che

    Dn;k = n (n 1) (n k + 1) :Infatti basta applicare cos il principio di enumerazione: il primo esperimento consiste nelprendere il numero 1 e posizionarlo nella stringa; ci sono n posizioni possibili. Il secondoesperimento consiste nel posizionare il numero 2: n 1 modi possibili; e cos via, no alnumero k.

    In conclusione:

    Proposizione 1 Il numero di stringhe (x1; :::; xn), a valori 0,1, aventi k uni, con k n, pari a

    nk

    .

    1.2 Variabili aleatorie e valori medi

    1.2.1 Introduzione

    Cosa sono le variabili aleatorie (abbreviato v.a. nel seguito)? La risposta a questa domanda di gran lunga pi sosticata di molti altri elementi di teoria delle v.a. Quindi, per non

  • 16 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    partire subito con le cose pi di cili, adottiamo una tattica pragmatica: ci accontentiamo disviluppare unintuizione pratica di cosa sia una v.a., introduciamo alcuni oggetti matematiciche la descrivono (densit, ecc.) e cominciamo cos a fare calcoli e vedere lutilit pratica delconcetto. In un secondo momento torneremo sullaspetto fondazionale e daremo la denizionerigorosa di v.a., che costituir anche il collegamento tra questo nuovo concetto e quello dispazio probabilizzato introdotto nella prima lezione.

    Lidea intuitiva semplice: chiamiamo v.a. ogni grandezza su cui non possiamo fareprevisioni certe, ma di cui abbiamo informazioni probabilistiche nel senso specicato sottocol concetto di densit. Ad esempio, una v.a. la durata della batteria di un portatile,il numero di esemplari di un certo prodotto che verranno richesti ad un negozio durante laprossima settimana, la quantit di tra co su un ramo della rete internet nelle prossime ore,e cos via.

    Indichiamo in genere con le lettere X, Y ecc. le v.a. Ad esse sono associati degli eventi checi interessano in pratica, oppure in teoria. Ad esempio, pu interessarci levento: fT > 10 oregdove T la durata della batteria di un portatile, oppure levento fN = 2g dove N il numerodi lavastoviglie che verranno richeste ad un certo negozio. In generale possiamo pensare chegli eventi di interesse avranno la forma

    fX 2 Agdove X la v.a. che stiamo considerando ed A un sottoinsieme dei numeri reali (o in certicasi dei numeri naturali, ad esempio).

    1.2.2 V.a. continue e loro densit di probabilit

    Abbiamo detto che ci interessano eventi del tipo fX 2 Ag e quindi vorremo calcolarne laprobabilit. Si chiamano continue quelle v.a. X a cui associata una funzione f : R ! Ravente le due propriet

    f (x) 0 per ogni xZ +11

    f (x) dx = 1

    e tale che la probabilit dellevento fX 2 Ag si calcola mediante un integrale di f :

    P (X 2 A) =ZAf (x) dx

    dove lintegrale esteso allinsieme A.

  • 1.2. VARIABILI ALEATORIE E VALORI MEDI 17

    Ad esempio

    P (X > 10) =

    Z +110

    f (x) dx:

    Le funzioni f non negative e con area totale pari ad 1 si dicono densit di probabilit.Per una v.a. continua X, tutte le probabilit del tipo P (X 2 A) si calcolano mediante

    la densit f , quindi in un certo senso non serve avere una denizione rigorosa di v.a., su ciente il concetto di densit e la convenzione di interpretare lintegrale

    RA f (x) dx come

    probabilit di un determinato evento. Per questo, entro certi limiti, si pul fare a meno delladenizione rigorosa di v.a. In questottica, il simbolo X non descrive un oggetto matem-atico rigoroso, ma solo un ausilio simbolico per abbreviare la scrittura di certi eventi edi certe probabilit. Ad esempio, invece di scrivere probabilit che la batteria duri pidi 10 ore, scriviamo sinteticamente P (T > 10 ore). E solo una scrittura convenzionale.Poi, per calcolare matematicamente questa probabilit, basta avere la densit f e calcolareR +110 f (x) dx.Nella denizione di densit di probabilit abbiamo omesso alcune precisazioni matem-

    atiche, che non approfondiamo in tutta la loro possibile generalit; accenniamo solo al fattoche bisogna richiedere che abbia senso calcolare lintegrale, quindi bisogna far riferimento aduna nozione di funzione integrabile. La versione facile di questa nozione quella di funzioneintegrabile secondo Riemann, che abbraccia ad esempio le funzioni continue e qualcosa inpi; la verisone pi matura richiederebbe invece la nozione di funzione integrabile secondoLebesgue, che comprende pi funzioni e si adatta meglio alle questioni coinvolgenti operazionilimite.

    Esempio 7 Una v.a. uniforme su [a; b] una v.a. X con densit f data da

    f(x) =

    1ba per x 2 [a; b]0 per x =2 [a; b] :

    Larea sottesa da f uno per ragioni elementari.

    Esempio 8 Una v.a. esponenziale di parametro , con > 0, una v.a. X con densit fdata da

    f(x) =

    ex per x 00 per x < 0

    :

    Scriveremo per brevit X Exp (). Larea sottesa da f uno in quantoZ 10exdx =

    Z 10

    d

    dxexdx =

    hex

    i10= 1

    dove linterpretazione del calcolo di ex per x = +1 quella di limite

    limx!+1 e

    x = 0:

    Tra le cose pi signicative delle v.a. esponenziali c la formula (valida per t 0)

    P (X t) = et

  • 18 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    che si dimostra calcolando lintegrale

    P (X t) =Z 1texdx =

    hex

    i1t= et:

    La funzione t 7! P (X t) viene a volte chiamata a dabilit (reliability), nellomonimateoria.

    0 1 2 3 40.0

    0.2

    0.4

    0.6

    0.8

    1.0

    x

    y

    Densit esponenziale, x 0, = 1

    Esempio 9 Una v.a. gaussiana, o normale, canonica una v.a. X con densit f data da

    f(x) =1p2e

    x2

    2 :

    La verica della propriet di area uno pi complessa. Tralasciando i dettagli, si fonda suiseguenti calcoli:Z +1

    1e

    x2

    2 dx

    2=

    Z +11

    Z +11

    ex2

    2 ey2

    2 dxdy =

    Z +11

    Z +11

    ex2+y2

    2 dxdy

    =

    Z 20

    Z +10

    rer2

    2 drd = 2

    Z +10

    rer2

    2 dr

    dove abbiamo usato il cambio di variabili in coordinate polari (il determinante jacobiano r). Essendo Z +1

    0re

    r2

    2 dr = Z +10

    d

    dre

    r2

    2 dr = e

    r2

    2

    10

    = 1

    troviamo inne Z +11

    ex2

    2 dx =p2

    che spiega il fattore 1p2nella denizione di f .

  • 1.2. VARIABILI ALEATORIE E VALORI MEDI 19

    -3 -2 -1 0 1 2 3

    0.1

    0.2

    0.3

    0.4

    x

    y

    Densit gaussiana canonica

    Osservazione 5 Osserviamo che purtroppo non possibile calcolare una primitiva di ftramite funzioni elementari, quindi il calcolo di probabilit gaussiane non di tipo ananlitico,ma solo numerico (con luso di tavole o computer).

    Esempio 10 Una v.a. gaussiana, o normale, di parametri e 2 (con > 0) una v.a. Xcon densit f data da

    f(x) =1p22

    e(x)222 :

    Scriveremo per brevit X N ; 2. La verica della propriet di area uno si fa ricon-ducendosi al caso canonico con il cambio di variabile y = x :Z +1

    11p22

    e(x)222 dx

    y=x=

    Z +11

    1p22

    ey2

    2 dy

    =

    Z +11

    1p2e

    y2

    2 dy = 1:

    -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12

    0.1

    0.2

    0.3

    0.4

    x

    y

    Densit gaussiana con = 5 e 2 = 4

    1.2.3 V.a. discrete

    In un certo senso pi elementari delle precedenti (ma in unaltro pi singolari) sono le v.a.discrete, quelle ovvero che assumono solo un numero nito di valori fa1; :::; aNg o al pi

  • 20 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    una quantit numerabile di valori fakgk2N. Per evitare inutili complicazioni simboliche,supporremo (senza che questo sia in realt davvero restrittivo) che i valori possibili sianoi primi N numeri interi f0; :::; Ng oppure, nel caso innito numerabile, tutti gli interi nonnegativi N = f0; 1; :::g.

    Per tali v.a. ci interessano prima di tutto probabilit del tipo

    P (X = k)

    al variare di k nei valori possibili di X. Poi, probabilit pi complesse si calcolano semplice-mente per somma (nita o innita a seconda dei casi):

    P (X 2 A) =Xk2A

    P (X = k) :

    Quindi i numeripk := P (X = k)

    descrivono tutte le probabilit che ci interessano. La successione (nita o innita) dei numeripk si chiama in vari modi, a volte anche densit discreta di probabilit, in analogia con casodelle densit, oppure massa di probabilit, ed altri ancora, che si capiscono facilmente dalcontesto.

    Una successione (nita o innita) di numeri pk una densit discreta di probabilit, sesoddisfa due requisiti, in analogia con le densit f :

    pk 0 per ogni kXk

    pk = 1:

    Si noti che automaticamente risulta anche pk 2 [0; 1], mentre nel caso delle densit f i valorif(x) possono anche essere maggiori di uno ( larea totale sottesa dal graco che deve esserepari ad uno).

    Esempio 11 Una v.a. di Bernoulli di parametro p, con p 2 [0; 1], una v.a. X che assumesolo i valori 0 ed 1, con densit discreta di probabilit data da p0 = 1 p, p1 = p, o in altreparole

    P (X = 1) = p; P (X = 0) = 1 p:Pu essere utile una scrittura schematica del tipo

    X =

    1 con probabilit p0 con probabilit 1 p :

    La propriet di somma uno ovvia.

    Esempio 12 Una v.a. binomiale di parametri p ed n, con p 2 [0; 1] ed n intero positivo, una v.a. X che assume solo i valori k = 0; 1; :::; n, con probabilit

    P (X = k) =

    n

    k

    pk (1 p)nk :

  • 1.2. VARIABILI ALEATORIE E VALORI MEDI 21

    Scriveremo per brevit X B (n; p). La propriet di somma uno deriva dalla formula delbinomio di Newton:

    (a+ b)n =

    n

    k

    akbnk:

    Per questa formula,nXk=0

    n

    k

    pk (1 p)nk = (p+ (1 p))n = 1

    quindi i numeri della denizione di v.a. binomiale sono eettivamente una densit discretadi probabilit. Nella gura si vede una B (10; 0:2); i valori numerici, per k = 0; 1; :::; 10, sono0:107, 0:268, 0:301, 0:201, 0:088, 0:026, 0:005, 7: 8104, 7: 3105, 4: 0106, 1:0107(si noti la piccolezza degli ultimi). Non riportiamo il graco di una B (10; 0:5), che, come sipu immaginare, simmetrico. Inne, il graco di una B (10; 0:8) come quello della gurama riesso rispetto al punto centrale.

    hist(rbinom(10000,10,0.2)+0.01,11)

    Densit di massa di una B (10; 0:2)

    Osservazione 6 Osserviamo che per n = 1 le v.a. binomiali sono v.a. di Bernoulli. Quindipossiamo indicare le Bernoulli scrivendo X B (1; p). Vedremo pi avanti, nel Teorema 2,che la somma di n v.a. di Bernoulli B (1; p) indipendenti una B (n; p).

    Esempio 13 Una v.a. di Poisson di parametro , con > 0, una v.a. X che assume tuttii valori interi non negativi con probabilit data dalla formula

    P (X = k) = ek

    k!

    per ogni k 2 N. Scriveremo X P (). La propriet di somma uno deriva dallo sviluppo inserie dellesponenziale:

    e =1Xk=0

    k

    k!:

  • 22 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    Il seguente teorema stabilisce un legame fondamentale tra v.a. binomiali e di Poisson. Ri-mandiamo un po pi avanti la sua interpretazione, che svolgeremo congiutamente a varidiscorsi interpretativi.

    Teorema 1 (degli eventi rari) Dato > 0, posto pn = n (che di solito si scrive pn = ),per ogni k 2 N vale

    limn!1

    n

    k

    pkn (1 pn)nk = e

    k

    k!:

    Proof. Fissato k 2 N, valen

    k

    pkn (1 pn)nk =

    n (n 1) (n k + 1)k!

    k

    nk(1 pn)n(1 pn)k

    =k

    k! nn n 1n n k + 1

    n (1 pn)

    n

    (1 pn)k

    ed ora basta osservare che per n!1

    n

    n= 1;

    n 1n! 1; :::; n k + 1

    n! 1

    (e sono un numero nito e ssato k di termini),

    (1 pn)k =1

    n

    k! 1k = 1

    mentre per un noto limite notevole

    (1 pn)n =1

    n

    n! e:

    Mettendo insieme tutti questi limiti ed usando i teoremi sul limite di prodotto e rapporto disuccessioni, si ottiene il risultato desiderato.

    A titolo di esempio, consideriamo una v.a. P (2). Essa limite di B (n; p) con np = 2. Ivalori

    n = 10; p = 0:2

    sono ancora ben lontani intuitivamente da ci che pensiamo essere il limite per n grande.Eppure i primi valori, per k = 0; 1; :::; 10 della P (2) sono 0:135, 0:270, 0:270, 0:180, 0:090,0:036, 0:012, 0:003, 8: 5 104, 1: 9 104, 3: 8 105, che non si scostano molto da quelliriportati sopra per una B (10; 0:2). Il graco riportato in gura. Qualche lieve dierenza ancora apprezzabile e fa capire intuitivamente alcune dierenze di forma tra le due densitdi massa.

    hist(rpois(10000,2)+0.01)

  • 1.2. VARIABILI ALEATORIE E VALORI MEDI 23

    Densit di massa di una P (2)

    Osservazione 7 Il legame simbolico tra il parametro delle v.a. esponenziali e quello dellePoisson non casuale. Vedremo pi avanti un legame anche tra queste due classi, particolar-mente interessante in quanto lega v.a. continue a v.a. discrete, e non attraverso operazionilimite, bens operazioni logiche nite.

    Esempio 14 Una v.a. geometrica di parametro p, con p 2 (0; 1), una v.a. X che assumetutti i valori interi non negativi con probabilit data dalla formula

    P (X = k) = (1 p)k p

    per ogni k 2 N. La somma uno in quanto1Xk=0

    (1 p)k = 1p:

    Queste v.a. sono un polanalogo nel discreto delle v.a. esponenziali. Non tracciamo la lorodiensit di massa, che si pu facilmente immaginare per analogia con le v.a. esponenziali.

    Esempio 15 Per certe applicazioni utile introdurre la cosidetta v.a. geometrica modicata(spesso chiamata anchessa semplicemente v.a. geometrica). Una v.a. geometrica modicatadi parametro p una v.a. che assume i valori interi positivi k = 1; 2; ::: con probabilit

    P (X = k) = (1 p)k1 p:

    1.2.4 Denizione di variabile aleatoria

    Fino ad ora, per v.a. abbiamo inteso intuitivamente ogni grandezza casuale che incontriamoin qualche applicazione pratica. Se per ci sforziamo, di fronte ad un problema concreto, dicostruire esplicitamente , vediamo che le grandezze aleatorie si possono vedere come funzionidenite sul dominio a valori reali.

    Esempio 16 Consideriamo n v.a. di Bernoulli di parametro p. Ad esempio, potremmoessere interessati allo studio di una banca avente n correntisti (es. 100), ciascuno dei quali, inuna giornata generica, si presenta con probabilit p (es. 15) per ritirare del denaro. Associamo

  • 24 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    ad ogni correntista una v.a. di Bernoulli che vale 1 se il correntista si presenta per ritiraredenaro, 0 altrimenti. Abbiamo quindi n v.a. di Bernoulli, X1 per il correntista numero 1,ecc. no a Xn per il correntista numero 100. Il numero di richieste (in un dato giorno) dato allora da

    Sn = X1 + :::+Xn

    in quanto ogni richiesta contribuisce con un 1 in questa somma, mentre le mancate richestecontribuiscono con 0.

    Introduciamo lo spazio dei possibili esiti. Un esito ! in questo problema corrispondea sapere, per ogni correntista, se si presentato o meno. Quindi, un esito una stringa! = (!1; :::; !n) in cui !1 vale 1 se il primo correntista si presentato, zero altrimenti, e cosvia per gli altri !i. linsieme di tutte queste sequenze.

    Denito , ad ogni esito ! possiamo associare diverse grandezze: ad esempio la grandezza

    X1 (!) = !1

    che legge, di tutta linformazione contenuta in !, solo se il primo correntista si presentatoo meno. Oppure, ad esempio, la grandezza

    S (!) = !1 + :::+ !n

    che legge il numero di correntisti che si sono presentati, relativamente a quella sequenza !.Vediamo che in questo modo abbiamo denito delle funzioni X1, S, con dominio , a valorireali. Esse corrispono esattamente, come signicato pratico, alle omonime grandezze aleatorieintrodotte prima a livello non rigoroso, mentre ora, come funzioni da in R, sono oggettimatematici ben precisi.

    Lesempio mostra che ragionevole denire come variabili aleatorie le funzioni denite suuno spazio , a valori in qualche insieme. Manca ancora una precisazione, per arrivare alladenizione completa, ma prima svolgiamo qualche osservazione.

    Con riferimento allesempio, il simbolo S, prima senza signicato matematico ma usatoper comodit di scrittura, diventa ora lusuale simbolo di funzione avente un signicatomatematico preciso: S abbreviazione di S (!), come f lo di f(x). Prima scrivevamofS = kg come simbolo abbreviato per intendere levento k correntisti si presentano. Orapossiamo interpretare rigorosamente fS = kg come evento in , ovvero come sottoinsieme di

    : linsieme di tutti i punti ! tali che S (!) = k. Detto altrimenti, ora il simbolo fS = kg semplicemente labbreviazione dellespressione perfettamente rigorosa e signicativa

    f! 2 : S (!) = kg :Le variabili aleatorie sono funzioni. Quando nominiamo una v.a. X, sottointendiamo che

    ci sia uno spazio probabilizzato (;F ; P ) su cui X sia denita come funzione ! 7! X (!).Quando scriviamo un evento fX 2 Ag intendiamo levento

    f! 2 : X (!) 2 Ag :Quando scriviamo P (X 2 A) stiamo calcolando la probabilit P di questo evento. Come invari esempi visti nella prima lezione, non sempre si esplicita lo spazio quando si maneg-giano delle variabili aleatorie; una cosa limpianto teorico, unaltra la pratica con le sue

  • 1.2. VARIABILI ALEATORIE E VALORI MEDI 25

    scorciatoie e leliminazione della trattazione esplicita di tutti i dettagli a volte solo noiosie non rilevanti per il risultato pratico. Notiamo per che nella nostra esperienza personalecapita ogni tanto di doversi fermare e cercare di capire le cose con limpianto rigoroso, difronte a problemi non banali in cui una tratazione troppo intuitiva lascia qualche ansia circala veridicit dei risultati (per motivi di sostanza, non puramente formali). In altre parole, avolte pensare che la scrittura fX 2 Ag sta per linsieme degli ! 2 tali che X (!) 2 A, molto utile per essere sicuri di ci che si sta facendo. Senza menzionare i casi in cui inveceindispensabile luso esplicito dello spazio , come ad esempio nella legge forte dei grandinumeri.

    Veniamo per alla denizione completa di v.a. Il problema che, data una funzioneX : ! R, vogliamo calcolare P (X 2 A), quindi lisieme fX 2 Ag deve appartenerealla famiglia F . Quindi dovremo imporre la condizione fX 2 Ag 2 F . Come per abbiamopreso F invece che la famiglia di tutte le parti di , per motivi analoghi non vogliamonecessariamente considerare tutti gli insiemi A R, nella richiesta precedente.

    Fissiamo allora una -algebra B di sottoinsiemi di R.

    Denizione 4 Chiamiamo v.a. su (;F ; P ) a valori in (R;B) ogni funzione X : ! Rtale che fX 2 Ag 2 F per ogni A 2 B.

    In genere, salvo avviso contrario, si prende come -algebra B quella dei boreliani. Questa la denizione di variabile aleatoria, che illustriamo col seguente disegno:

    Si noti che la somma di due v.a. X ed Y ben denita se esse sono v.a. denite sullostesso spazio (;F ; P ). Infatti si pone

    (X + Y ) (!) = X (!) + Y (!) :

    1.2.5 Legge di una v.a.

    Data una v.a. X a valori reali denita su uno spazio probabilizzato (;F ; P ), questa induceuna distribuzione di probabilit X , detta legge (o distribuzione) di X, sui borelani di R.Questa distribuzione di probabilit X denita semplicemente da

    X (A) = P (X 2 A) :

    In altre parole, le probabilit P (X 2 A) che abbiamo introdotto come i primi oggetti legatiad una v.a. X, si possono vedere come una funzione di A, denita per tutti i boreliani A di

  • 26 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    R. Questa funzione la indichiamo con X e la chiamamo legge di X. Si pu vericare chesoddisfa i requisiti di una probabilit (a valori in [0; 1], X(R) = 1, ed -additiva).

    Eutile farsi unimmagine mentale o graca, anche se tracciare un disegno piuttostodi cile. Si deve pensare che sullinsieme sia distribuita una massa P , e che questa vengatrasportata dalla funzione X in una massa X distribuita su R. Parlando intuitivamente, come se la massa che sta in ogni punto ! venga trasportata da X nel punto X(!) (limmagine matematicamente scorretta in quanto in molti casi i singoli punti ! hanno tutti massa nulla,quindi il ragionamento va sempre riferito a insiemi di punti). Se ad esempio due o pi puntivengono trasformati daX nello stesso punto (X non iniettiva), le loro masse vanno a sommarsinel punto di arrivo.

    La probabilit X un poastratta, quanto lo P stessa, in relazione a problemi in cuitendamo ad interessarci solo delle densit delle v.a. in gioco e dei calcoli che si possono faresu di esse. Osserviamo allora che se X una v.a. continua con densit f(x), allora vale

    X (A) =

    ZAf (x) dx

    mentre se X una v.a. discreta sui numeri interi non negativi, con densit di massa p(k),allora

    X (A) =Xk2A

    p (k) :

    Anzi, data una misura di probabilit sui boreliani di R, anche a priori non associata aduna v.a. X, diremo che continua se esiste una densit f(x) per cui valga la prima formulaprecedente, discreta se vale la seconda. Ma esistono interessanti misure X (associate adaltrettante v.a. X) che non sono n continue n discrete: miste nei casi pi semplici, oppuredel tutto inedite come le misure frattali.

    Quando diremo che certe v.a. sono equidistribuite o identicamente distribuite (dette an-che isonome), intenderemo che abbiano la stessa legge. Ad esempio, tutte esponenziali diparametro 3. Questo non signica che siano uguali, in quanto funzioni da in R. Pensiamoai due risultati dei lanci di due dati. Descriviamo il primo con una v.a. X1, il secondo conX2. queste due v.a. hanno la stessa legge , che una probabilit discreta sui numeri da 1 a6, uniforme. Ma non sono la stessa v.a. Intuitivamente chiaro, in quanto non corrispondonoallo stesso esperimento. Matematicamente la dierenza si apprezza se si introduce esplicita-mente lo spazio delle coppie (x; y) dei possibili risultati. Vale X1 (x; y) = x, X2 (x; y) = y,quindi sono due diverse funzioni.

    1.2.6 Funzione di distribuzione (cdf) di una v.a.

    Data una v.a. X, si chiama funzione di distribuzione (o di ripartizione) la funzione x 7! F (x)denita da

    F (x) = P (X x) .Nel linguaggio ingegneristico si sottolinea che la cumulativa: funzione di distribuzionecumulativa, abbreviata (seguendo il nome inglese) in cdf. Essa una funzione da R in [0; 1], crescente (in senso debole), soddisfa

    limx!1F (x) = 0, limx!+1F (x) = 1;

  • 1.2. VARIABILI ALEATORIE E VALORI MEDI 27

    continua a destra in ogni punto:

    limx!x+0

    F (x) = F (x0) 8x0 2 R:

    La verica di queste propriet facile ma richiede un podi lavoro a partire dalla numerabileadditivit di . La probabilit degli intervalli legata agli incrementi di F :

    F (b) F (a) = P (X 2 (a; b]) , 8a < b 2 R:

    -5 -4 -3 -2 -1 0 1 2 3 4 5

    0.2

    0.4

    0.6

    0.8

    1.0

    x

    y

    Graco della cdf normale standard

    Il limite sinistro di f(x) esiste in ogni punto x0, come per qualsiasi funzione crescente,ma pu essere strettamente minore di F (x0), nel qual caso la funzione F discontinua in x0.In tale punto si verica una concentrazione di massa per la , nel senso che (fx0g) > 0.Questa propriet tipica per le misure discrete, e si ritrova anche nelle cosidette distribuzionimiste, mentre per le misure denite da una densit di probabilit la massa dei singoli punti nulla.

    La funzione F (x) porta il nome di funzione di distribuzione perch da un lato unafunzione e non una misura, dallaltro per dice tutto della distribuzione (legge) della v.a. acui associata. Spesso nella letteratura applicativa non viene mai introdotto il concetto dilegge di una v.a., essendo un podi cile, mentre si cerca di ricondurre tutto alluso dellafunzione di distribuzione F (x), oggetto pi semplice, che in eetti su ciente per moltiscopi.

    Quando X ha densit f(x), vale

    F (x) =

    Z x1

    f (t) dt:

    Gracamente, F (x) misura larea sottesa dal graco di f , a sinistra del punto x. Nei puntiin cui f continua, per il teorema fondamentale del calcolo integrale abbiamo

    F 0(x) = f(x):

    Quindi, fa f si ricava F per integrazione, e da F si ricava f per derivazione.

  • 28 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    Se X una v.a. discreta sui numeri interi non negativi, con massa di probabilit pk, vale

    F (x) =Xkx

    pk

    epk = F (k) F (k 1):

    1.2.7 V.A. indipendenti

    Date due v.a. X;Y denite sullo stesso spazio probabilizzato (;F ; P ), diciamo che sonoindipendenti se

    P (X 2 A; Y 2 B) = P (X 2 A)P (Y 2 B)per ogni coppia A;B di boreliani di R. Linterpretazione chiara: gli eventi X 2 A e Y 2 Bche descrivono cosa pu accadere in relazione ad X e Y , devono essere indipendenti.

    Una famiglia fXg di v.a. composta da v.a. indipendenti se per ogni sequenza fkg diindici e fAkg di boreliani, abbiamo

    P

    \k

    (Xk 2 Ak)!=Yk

    P (Xk 2 Ak) :

    A livello quantitativo, c modo di descrivere lindipendenza tramite ogetti come la densito i valori medi che introdurremo? In parte s, ma serve la densit congiunta.

    Come applicazione del concetto teorico di v.a. e del concetto di indipendenza, dimostriamoil seguente teorema.

    Teorema 2 La somma di n Bernoulli indipendenti di parametro p una B (n; p).

    Proof. Il teorema vale per v.a. di Bernoulli denite su qualsiasi spazio probabilizzato ma perfare una dimostrazione pi istruttiva mettiamoci in uno schema pi preciso (si pu dimostrareche questo non restrittivo). Riprendiamo lo spazio

    = f0; 1gn

    dellesempio 16 con la probabilit di una sequenza ! = (!1; :::; !n) data da P (!) = pk(!) (1 p)nk(!),dove k (!) il numero di uni nella sequenza, ovvero

    k (!) =

    nXi=1

    !i:

    Si ricorder che avevamo gi introdotto questo spazio in passato, come esempio di spazioprobabilizzato nito, diverso da quello equiprobabile. Su introduciamo le v.a. Xi deniteda

    Xi (!) = !i

    dove continuiamo ad usare la convenzione ! = (!1; :::; !n).

  • 1.2. VARIABILI ALEATORIE E VALORI MEDI 29

    Passo 1. Verichiamo che le Xi sono v.a. di Bernoulli di parametro p indipendenti. Laverica noiosa ed il lettore pu ometterla. Data una stringa x = (x1; :::; xn), vale

    P (X1 = x1; :::; Xn = xn) = P (! 2 : !1 = x1; :::; !n = xn)= P ((x1; :::; xn)) = p

    k(x) (1 p)nk(x)

    e daltra parte

    P (X1 = x1) = P (! 2 : !1 = x1) =X

    !2:!1=x1P (!)

    =X

    (!2;:::;!n)

    P (x1; !2; :::; !n) =X

    (!2;:::;!n)

    pk((x1;!2;:::;!n)) (1 p)nk((x1;!2;:::;!n))

    = px1 (1 p)1x1X

    (!2;:::;!n)

    pk((!2;:::;!n)) (1 p)(n1)k((!2;:::;!n)) = px1 (1 p)1x1

    ed analogamenteP (Xi = xi) = p

    xi (1 p)1xida cui discende sia che

    P (X1 = x1; :::; Xn = xn) = P (X1 = x1) P (Xn = xn)cio lindipendenza, sia il fatto che le Xi sono v.a. di Bernoulli di parametro p.

    Passo 2. Fatta questa verica, introduciamo la v.a. Sn = X1 + ::: +Xn e dimostriamoche una v.a. binomiale B (n; p). Calcoliamo P (S = j). Osserviamo che S = j equivale adire che ci sono j uni. Quindi

    P (S = j) =X

    !2fS=jgP (!) =

    X!:k(!)=j

    pk(!) (1 p)nk(!)

    X!:k(!)=j

    pj (1 p)nj = pj (1 p)nj jfS = jgj

    dove jfS = jgj indica la cardinalit dellinsieme fS = jg. Ma per la proposizione 1 sul numerodi sequenze con j uni, vale

    jfS = jgj =n

    j

    :

    La dimostrazione completa.

    1.2.8 Vettori aleatori ed altri enti aleatori

    Una grandezza aleatoria a valori vettoriali

    X = (X1; :::; Xn)

    in cui le componenti Xi sono v.a. a valori reali denite su uno stesso spazio probabiliz-zato (;F ; P ), pu essere chiamata un vettore aleatorio. Un vettore aleatorio quindiunapplicazione

    X! Rn

  • 30 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    le cui componenti sono variabili aleatorie. Pu essere la coppia posizione-velocit di unaparticella che si muove soggetta a variazioni casuali. Oppure semplicemente possono essere ivalori uscenti da una sequenza di n esperimenti.

    Analogamente, una grandezza aleatoria a valori in uno spazio di funzioni, ad esempio lospazio delle funzioni continue su un intervallo [0; T ],

    X! C ([0; T ] ;R)

    pu essere chiamata una funzione aleatoria (bisogna specicare una propriet del tipo fX 2 Ag 2F , ma tralasciamo questo particolare). Si pensi ad esempio al campo di velocit di un uidoturbolento, se decidiamo di descriverlo come campo aleatorio. Per chi conosce le distribuzioni,si possono introdurre le distribuzioni aleatorie. Similmente si possono introdurre le misurealeatorie, gli insiemi aleatori, ecc. In sintesi, anche se dedichiamo la maggior parte dei nos-tri sforzi allo studio di v.a. a valori reali, esistono generalizzazioni ad enti aleatori a valoriin insiemi di oggetti diversi dai numeri reali (Rn, spazi di funzioni, distribuzioni, misure,spazi di insiemi, ecc.). In genere queste generalizzazioni si appoggiano su concetti topologi-ci, quindi utile che ci sia un concetto di vicinanza in tali famiglie di oggetti. Dal puntodi vista matematico, in genere si riesce a vincere la sda di denire oggetti aleatori deltipo pi disparato. Nelle scienze applicate questo pu essere di grande interesse (descrivereforme o proli aleatori, concentrazioni di massa aleatorie, campi aleatori di interesse sico,ecc.). Naturalmente poi c il problema di ridurre i gradi di libert per tornare a descrizioniquantitativamente e caci.

    Esempio 17 Dato uno spazio probabilizzato (;F ; P ), consideriamo un insieme C (!) Rn,indicizzato da ! 2 . Lo chiamamo insieme aleatorio se, preso un qualsiasi punto x 2 Rn,la funzione a valori reali

    ! 7! d (x;C (!)) una varabile aleatoria. La notazione d (x;C (!)) indica la distanza euclidea di x da C (!),denita n generale da

    d (x;A) = infyd (x; y)

    dove d (x; y) = jx yj lusuale distanza euclidea tra due punti. A titolo di esempio, C (!)potrebbe descrivere come si presenta una struttura, inizialmente di forma C0, dopo esserestata sollecitata da una trasformazione aleatoria. Detto cos astratto e probabilmente privodi interesse pratico. Per, se possibile parametrizzare le trasformazioni aleatorie che inter-essano in un esempio specico, in modo da avere solo pochi parametri aleatori, C (!) verrebbea dipendere da pochi parametri aleatori, ad es. una coppia di v.a. gaussiane che descrivanotorsione e dilatazione. Vediamo quindi che possibile formalizzare matematicamente concettianche piuttosto arditi, come quello di forma aleatoria.

    Esempio 18 Indichiamo con M+1 (Rn) linsieme delle misure di probabilit sui boreliani diRn. Chiamiamo delta di Dirac in x0 2 Rn la misura di probabilit x0 denita da

    x0 (A) =

    1 se x0 2 A0 se x0 =2 A :

  • 1.2. VARIABILI ALEATORIE E VALORI MEDI 31

    Intuitivamente, una massa unitaria concentrata nel punto x0. Supponiamo di studiare unadinamica aleatoria, a tempo discreto, che si svolge in Rn. Indichiamo con X1 la posizione altempo t = 1, aleatoria, poi con X2 la posizione al tempo t = 2, sempre aleatoria, e cos via.Poi consideriamo, al tempo n, la media temporale

    n =1

    n

    nXi=1

    Xi :

    Con questo simbolo abbiamo indicato una massa equidistribuita tra i punti Xi, per i = 1; :::; n.n una misura di probabilit, quindi un elemento di M

    +1 (Rn), ed aleatoria, in quanto lo

    sono i punti Xi. Abbiamo quindi una misura aleatoria:

    n!M+1 (Rn) :

    Lesempio non articioso: questa misura descrive il tempo trascorso dalla dinamica nellediverse regioni dello spazio Rn. Per n ! 1 la musura aleatoria n legata al concetto dimisura invariante (che descrive il regime stazionario) della dinamica.

    Torniamo ai semplici vettori aleatori. Un vettore aleatorio X = (X1; :::; Xn) denisce unalegge X sui boreliani di Rn, detta legge congiunta del vettore X. Per i boreliani prodottoessa denita da

    X (A1 :::An) = P (X1 2 A1; :::; Xn 2 An)e per gli altri si riesce a denire con procedimenti di estensione che non stiamo a descrivere.

    Questa legge congiunta pu essere continua, ovvero avere una densit f (x1; :::; xn) taleche

    X (A1 :::An) =ZA1:::An

    f (x1; :::; xn) dx1 dxn:

    Oppure pu essere discreta (lasciamo al lettore limmaginazione sulla formulazione). Oppurepu essere di altro tipo, misto o pi complicato ancora. Quando esiste, f (x1; :::; xn) si chiamadensit congiunta del vettore aleatorio X.

    Parallelamente sopravvivono i vecchi concetti per ciascuna delle v.a. X{. La legge di X1si chiama ora legge marginale di X1, e se ha densit fX1(x1) questa si dir densit marginaledi X1, e cos via per le altre.

    Nasce allora la domanda circa il legame tra congiunta e marginali. Limitiamoci a discuterele densit.

    Teorema 3 In generale (quando le densit esistono), vale

    fX1(x1) =

    ZRn1

    f (x1; :::; xn) dx2 dxn

    e cos per le altre. Quando X1; :::; Xn sono v.a. indipendenti, vale inoltre

    f (x1; :::; xn) = fX1(x1) fXn(xn)e vale anche il viceversa (se la densit congiunta il prodotto delle marginali, allora le v.a.sono indipendenti).

  • 32 CAPITOLO 1. ELEMENTI DI CALCOLO DELLE PROBABILIT

    Omettiamo la dimostrazione, non troppo di cile peraltro. Osserviamo come interpre-tazione che, mentre dalla congiunta sempre possibile calcolare le marginali, viceversa dallemarginali in genere molto di cile risalire alla congiunta, salvo nel caso di indipenden-za. Questo non deve stupire: come il problema di calcolare la probabilit di una inter-sezione P (A \B). In generale, abiamo bisogno di conoscere ad esempio P (AjB), che uninformazione ben pi complessa delle probabilit marginaliP (A) e P (B).

    Esempio 19 Gaussiana multidimensionale canonica. Supponiamo che X1; :::; Xn siano v.a.indipendenti gaussiane canoniche, quindi tutte con densit (marginale) 1p

    2exp

    x2=2.Allora il vettore aleatorio X = (X1; :::; Xn) ha densit congiunta

    f (x1; :::; xn) =1p(2)n

    exp

    x21 + + x2n

    2

    !

    che, usando la norma euclidea j:j ed il prodotto scalare euclideo h:; :i e la notazione x =(x1; :::; xn), possiamo scrivere anche nella forma pi compatta

    f (x) =1p(2)n

    exp

    jxj

    2

    2

    !=

    1p(2)n

    exp

    hx; xi

    2

    :

    Questa la gaussiana canonica in n dimensioni. Il suo graco in dimensione 2 unasupercie a campana, simmetrica per rotazione.

    -2

    y x

    -2 0.000

    20

    2

    0.05

    0.15

    0.10z

    Graco della normale standard in due dimensioni

    1.2.9 Valori medi o attesi

    Valori medi sperimentali

    Dato un campione sperimentale x1; :::; xn, chiamiamo sua media aritmetica il numero

    x =x1 + :::+ xn

    n=1

    n

    nXi=1

    xi:

    A volte viene chiamata anche media sperimentale, o empirica, o anche in altri modi.

  • 1.2. VARIABILI ALEATORIE E VALORI MEDI 33

    Data poi una una funzione ' (x), possiamo considerare il campione ' (x1), ... , '