Lezione 3 Distribuzioni di Probabilità Notevolilxmi.mi.infn.it/~palombo/didattica/AnalisiStatistica/Lezioni/... · Quando crescono scopro che 16 sono blu. Qual è la ... Le due linee

Lezione 3 Distribuzioni di Probabilità Notevoli

Distribuzioni di Probabilità

  Vi sono famiglie parametriche di diverse distribuzioni par=colarmente importan= nelle applicazioni della sta=s=ca

  Alcune di queste distribuzioni (gaussiana, poissoniana, ecc) sono comunissime nei fenomeni fisici

  Si hanno distribuzioni sia discrete che con=nue

2

Distribuzione Binomiale  Consideriamo un esperimento che può avere solo due risuta= (ad

esempio testa, croce nel lancio di una mone=na). Questa variabile è discreta.

  Sia p (costante) la probabilità di avere l’evento A e q = 1‐p la probabilità che si verifichi l’evento B. Ripe=amo N volte l’esperimento. Qual è la probabilità di avere n volte l’evento A?

  La probabilità che i primi n esperimen= diamo come risultato A è pari a

pn qN‐n . Ma non sono interessato solo al caso che i primi n tenta=vi mi diano l’evento A. Quindi devo considerare quan= sono i casi in cui ho n even= A indipendentemente dall’ordine in cui si realizzano.

  Il numero di ques= casi è

Distribuzione Binomiale

  La probabilità di avere n volte A e N‐n volte B, dove n = 0,1,2,…,N è la variabile casuale e N e p sono parametri della distribuzione, è data da:

  Valore di aspeWazione di n:

  Varianza di n :

Esempi di Distribuzione Binomiale

Numero N di esperimen= costante e diversi valori della probabilità p

n n

n n

f(n;N,p)

f(n,N,p)

f(n;N,p)

f(n,N,p)

Esempi di Distribuzione Binomiale

Numero N di esperimen= variabile e iden=co valore della probabilità p

f(n;N,p)

f(n;N,p)

f(n;N,p)

f(n;N,p)

n n

n n

Esempi di Distribuzione Binomiale   Lancio 5 volte una mone=na e sia n il numero di volte che ho testa. Dare la distribuzione di probabilità di n e calcolare il valore medio e la varianza.

‐‐‐‐‐‐‐‐‐‐‐ La distribuzione è binomiale con N = 5 e p = 0.5. Quindi

Per ogni n abbiamo

Valore medio Np = 2.5, varianza Npq = 1.25

Esempi di Distribuzione Binomiale   Uno strumento musicale ha un tempo di durata (in ore) che ha una pdf data da :

Qual è la probabilità che su 100 strumen= simili 8 durino più di 2 ore?

‐‐‐‐‐‐‐‐‐‐‐‐ La probabilità che uno strumento duri più di 2 ore è:

La probabilità che 8 durino più di 2 ore è:

Esempio di Distribuzione binomiale

  Compro 20 bulbi di giacinto di cui 10 aspeWa= di colore rosso e 10 di colore blu. Quando crescono scopro che 16 sono blu. Qual è la probabilità che possa succedere questo?

======

La distribuzione è binomiale. La probabilità di avere 16 o più giacin= blu è uguale alla probabilità di avere quaWro o meno giacin= rossi. Questa probabilità è 0.0059

Distribuzione Mul=nomiale   Questa è una generalizzazione della distribuzione binomiale al caso di n =pi di risultato. Esempio: risultato di una par=ta di calcio (1,0,2).

  Siano m i possibili risulta= e pi la probabilità che si realizzi l’i‐esimo risultato. Vale la condizione di normalizzazione:

  La probabilià in N esperimen= di avere n1 risulta= di =po 1, n2 risulta= di =po 2, … e nm risulta= di =po m è :

  Questa distribuzione è deWa mul=nomiale. n1, …, nm sono le variabili casuali mentre N e p1,… pm sono i parametri della distribuzione

  Il valore di aspeWazione e la varianza per il risultato i‐esimo E[ni] = Npi V[ni] = Npiqi = Npi (1 – pi)

Distribuzione di Poisson   Se in un distribuzione binomiale il numero di esperimen= N è molto grande e se la probabilità p di oWenere un par=colare valore della variabile è molto piccolo (evento raro) ma tale che il valore di aspeWazione del numero di successi sia un numero finito ν, allora la distribuzione binomiale diventa:

Questa distribuzione è deWa di Poisson. n è la variabile casuale e ν il parametro.

  Vediamo con un esempio come si passa dalla distribuzione binomiale a quella poissoniana. Prendiamo un intervallo di tempo [0, T] e dividiamolo in N soWointervalli di lunghezza T/N

Sia p = λ T/N la probabilità che l’evento si verifichi in uno di ques= intervalli (λ numero reale posi=vo). Sia n il numero di volte che si realizza l’evento. U=lizzando la distribuzione binomiale si ha:

Distribuzione di Poisson

  che possiamo riscrivere cosi:

  Facendo aumentare N possiamo approssimare :

  Ponendo poi ν = λ T (= Np costante), abbiamo:


  n è la variabile distribuita poissonianamente mentre ν è il parametro della distribuzione.

  Il valore di aspeWazione di n è:

  La varianza di n è:

  Vediamo ora come appaiono distribuzioni poissoniane con diversi valori di aspeWazione ν


n n

n n

f(n;N,p)

f(n;N,p)

f(n;N,p)

f(n;N,p)

Distribuzioni poissoniane con diversi valori di aspeWazione

f(n;N,p)

n n

f(n;N,p)


  In questa distribuzione binomiale (a sinistra) Np = 2. Confrontare questa distribuzione con quella poissoniana (a destra) con ν = 2.

  Con N molto grande e p molto piccolo in modo che Np res= un numero di even= finito e osservabile , allora la distribuzione binomiale diventa quella di Poisson.

  La distribuzione poissoniana è tra quelle più adoWate nella descrizione di fenomeni naturali (come nei decadimen= radioahvi, ecc)

n n

f(n;N,p)

f(n;ν)

Distribuzione Gaussiana

  Per ragioni che vedremo presto, la distribuzione gaussiana è la più importante e la più usata in Fisica e nella Sta=s=ca in generale.

  p.d.f. di una gaussiana con x variabile casuale , μ e σ2 due parametri

  Valore di aspeWazione di x:

  Varianza di x :

  La distrib. gaussiana (deWa anche normale) ha una forma a campana simmetr. aWorno all’asse x = μ con due pun= di flesso in x = μ – σ e in x = μ + σ

  È indicata cosi N(μ,σ2). Quando μ = 0 e σ = 1 si ha gaussiana standard N(0,1) e si scrive:

Distribuzione Gaussiana   La c.d.f. della gaussiana standard è definita da: È deWa anche funzione degli errori. Non è calcolabile esplicitamente. È calcolata in modo approssimato (calcolo numerico) ed è tabulata (vedi calcolatori sta=s=ci).

  Se una variabile Y ha distribuzione gaussiana N(μ, σ2), allora la variabile X = (Y – μ)/σ segua una distribuzione gaussiana standard N(0,1).

  Le corrisponden= c.d.f. sono uguali F(y) = Φ(x). I valori di Φ(x) ed i quan=li xα = Φ‐1(x) sono tabula=.

  Quindi data una generica funzione gaussiana la sua c.d.f. ed i suoi quan=li si oWengono da quelli della distribuzione gaussiana standard.

  Queste quan=tà si oWengono da tavole (ma oggi è più comodo oWenerli in rete con un calcolatore sta=s=co).

Gaussiane

  Gaussiana standard, gaussiana con μ = 3 e σ = 1.5 e gaussiana con μ = e σ=2 (in rosso)

  Le due linee ver=cali sono a distanza di 1 σ dal valore valore centrale. L’area compresa tra queste due linee è il 68.27% dell’area totale soWesa dalla curva gaussiana.

x

x

f(x;μ,σ)

f(x;μ,σ)

Esempio ‐ 1   Una variabile casuale X ha una p.d.f. gaussiana con valore medio 5 e varianza 4. Calcolare la probabilità p che la variabile assuma un valore minore di 2.

La variabile (X – 5)/2 ha una p.d.f. gaussiana standard e quindi:

  Si verifica facilmente che un intervallo centrale [μ – σ, μ + σ] soWende il 68.27 % dell’area soWesa dalla gaussiana; entro 2σ l’area soWesa è il 95.45 %, il 99% entro 3 σ.

  Entro 1.645 σ è soWesa il 90% dell’area totale; entro 1.960 σ è soWeso il 95% mentre entro 2.576 σ è soWeso il 99% dell’area. Qui si stanno considerando sempre intervalli centrali (aWorno al valore medio).

  Una variabile ha distribuzione gaussiana con media uguale a 10 e varianza uguale a 100. Calcolare la probabilità che 8 ≤ x ≤ 16 :

Gaussiana come Limite della Poissoniana

  Per valori di aspeWazione ν > 10 la distribuzione poissoniana è approssimata bene da una gaussiana di valore medio μ = ν e varianza σ2 = ν

  In figura alla distribuzione di probabilità poissoniana con ν =25 è sovrapposta una gaussiana con μ =25 e varianza σ2 = 25.

f(x;25,25)

f(n;25)

n

Esercizio   In una zona del Canada ci sono in media 2 alci per lago. 1) Quale potrebbe essere la distribuzione del numero di alci per lago ? 2) Se trovo 5 alci in un lago qual è la probabilità che ciò sia accaduto per caso? 3) Se si approssima la distribuzione con una gaussiana, qual è la probabilità di trovare in un lago 5 o più alci? 4) Cosa direste se dichiarassi che ciò è avvenuto dopo aver visitato altri 19 laghi ====== 1) La distribuzione è poissoniana con media 2

2) f(alci =5) = e‐2 25/5! = 0.0361 Probabilità di trovare 5 o più alci in un lago: f(alci ≥ 5) = 1‐ f(alci ≤ 4 ) = 0.0526

3) La distribuzione potrebbe essere approssimata da una gaussiana N(2,2). In questo caso la probabilità di osservare 5 o più alci è:

Approssimazione non buona. Valore medio troppo basso !

Esercizio

4) Dopo 20 laghi la probabilità di trovare 5 o più alci è data da:

f = 1 ‐ (1‐0.0526)20 = 0.66

dove 1 ‐ 0.0526 rappresenta la probabilità di non trovare 5 o più alci in un lago. Dopo 20 laghi elevo alla potenza di 20.

Di conseguenza non mi meraviglio affaWo di aver trovato più di 5 alci dopo ven= laghi .

Gaussiana come Limite della Binomiale

  Pe N grande e tenendo p e q costan= , allora la distribuzione binomiale tende ad una gaussiana di valore medio N p e varianza N p q

  La binomiale in figura con N = 30 e p =0.5 è ben approssimata da una gaussiana con valore medio N p = 15 e varianza N p q = 7.5

n

f(n;30

,0.5)

Diistribuzone Gaussiana Mul=dimensionale

  Supponiamo di avere n variabili x = (x1, … , xn ), ognuna distribuita gaussianamente e sia μ = (μ1, μ2, …, μn) il veWore dei valori medi. I due veWori x e μ sono veWori colonna.

  In generale le n variabili non sono scorrelate per cui nella p.d.f. bisogna tener conto delle loro eventuale correlazione :

dove i veWori xT e μT sono i veWori riga dei corrisponden= veWori colonna x e μ mentre V è la matrice degli errori (matrice di covarianza)

Distribuzione Binormale   La distribuzione gaussiana a due dimensioni è deWa generalmente binormale. La matrice degli errori in questo caso si scrive così:

  Questa matrice si può inver=re se e solo se ρ ≠ ±1 (ρ = ±1 significa che le due variabili sono correlate al 100 %).

  Se la matrice si può inver=re allora :

 La p.d.f. binormale si scrive così:

Distribuzione Binormale

  Si dicono linee di contorno (o di livello) le linee che si oWengono ponendo ad un valore costante il valore dell’esponente nella p.d.f. Servono a visualizzare la p.d.f.

  Questa è l’equazione di una ellisse.

  Se il valore costante del parametro è preso uguale a ‐1/2 , allora l’ellisse è centrata sui valore μx e μy . Le tangen= all’ellisse intersecano gli assi cartesiani nei pun= μx ± σx e μy ± σy

  Se fissiamo un valore di x, la distribuzione in y è una gaussiana con media uguale a μy + ρσy(x – μx)/σx e deviazione standard uguale a σy √(1 – ρ2)

Distribuzione Uniforme

  Serve a descrivere una variabile che ha probabilità di realizzarsi costante in un certo intervallo e zero all’esterno:

  Valore di aspeWazione

  Varianza

  No=amo che se a = 0 e b = 1 allora la c.d.f. G(x) della distribuzione uniforme della variabile casuale x è :

Distribuzione Esponenziale   Questa distribuzione della variabile casuale X (0≤ x < ∞ ) è definita da :

con ξ parametro della distribuzione.

  Valore di aspeWazione di x :

  Varianza di x :

  Questa distribuzione appare quando per esempio si misura il tempo di decadimento di una risonanza nel proprio sistema di riferimento. ξ in questo caso rappresenta il tempo di vita medio della par=cella.

  Si no= che non dipende dall’istante iniziale t0

Questa proprietà vale solo per questo =po di p.d.f.

Distribuzione Esponenziale

Distribuzione χ2

  La distribuzione χ2 della variabile casuale Z (0 ≤ z < ∞ ) è definita da :

con n parametro della distribuzione deWo numero di gradi di libertà .

  La funzione Γ è cosi definita ed ha queste proprietà:

  Valore di aspeWazione di z :

  Varianza di z :

Distribuzione χ2   La distribuzione χ2 è par=colarmente importante in sta=s=ca e molto comune in Fisica.

  Se si hanno N variabili casuali Xi tuWe distribuite gaussianamente con valore medio νi e varianza σ2i , allora la funzione :

è distribuita secondo una distribuzione del χ2 con N gradi di libertà.

  Questa distribuzione è par=colarmente importante nei test di bontà del fit.

  Applicazione: nella somma di probabilità di Poisson è comodo usare la

relazione:

con fχ2 e Fχ2 p.d.f. e c.d.f. del χ2

Esempio   Supponiamo che in un fascio di par=celle il numero di par=celle per impulso

abbia una distribuzione poissoniana con valore di aspeWazione 16.

Qual è la probabilità che un impulso abbia un numero di par=celle compreso

tra 12 e 20 ?

‐ La distribuzione di Poisson in questo caso è :

‐ La probabilità richiesta è quindi:

che possiamo calcolare così:

Distribuzione χ2

Distribuzione χ2

Distribuzione di Cauchy   Questa distribuzione, deWa anche Breit‐Wigner o anche Lorentziana, della variabile casuale X (0 ≤ x < ∞ ) è definita da :

con a > 0. In fisica subnucleare è usata nella descrizione di risonanze che decadono in altre par=celle più leggere.

  Gli integrali che definiscono il valore di aspeWazione e la varianza di questa distribuzione sono divergen=.

  Dato l’integrale di f(x) esteso da ‐∞ a + ∞ si dice valore principale di Cauchy

  U=lizzando i valori di Cauchy, a è legato al tasso di decadimento della par=cella (a=Γ/2) e b è interpretabile come valore medio x0. (x0 e Γ sono la massa e la larghezza della risonanza, rispehvamente)

Distribuzione di Cauchy

Distribuzione t di “Student”

  Distribuzione di notevole rilevanza in sta=s=ca.

  Sia Z una variabile casuale che segua una distribuzione gaussiana ed U un’altra variabile casuale, indipendente da Z, che segua una distribuzione χ2 con n gradi di libertà, allora la variabile casuale

segue la distribuzione

deWa distribuzione t di Student con n gradi di libertà. È una curva simmetrica (media = 0)

Distribuzione t di Student

Distribuzione t di Student

Legge dei Grandi Numeri   Data una serie di n misure (campione di dimensione n) di una variabile casule X posso estrarre informazioni su questa variabile da questo campione, per esempio la media (aritme=ca) xn ecc.

  Per il calcolo della media μ della variabile X dovrei conoscere tuh i possibili valori di X (popolazione), teoricamente infinita.

  Problema: A par=re dalla media xn , che chiamiamo media campionaria, posso fare delle inferenze sta=s=che sulla media (vera) μ ?

  Si, posso farlo grazie alla legge (debole) dei grandi numeri:

Si può determinare un intero posi?vo n tale che prendendo un campione casuale di dimensione maggiore o uguale ad n di una variabile casuale X, distribuita con valore di aspeEazione μ, la media campionaria xn differisca da μ per una quan?tà piccola a piacere.

  Questa legge ha un ruolo fondamentale nell’inferenza sta=s=ca

‐

‐

‐

Teorema Limite Centrale

  Questo teorema è molto importante

  Si abbiano n variabili casuali Xi (supposte con=nue ed indipenden= ) con media μi e varianza σi2. Il teorema limite centrale stabilisce che la variabile casuale per grandi n tende ad essere distribuita secondo una gaussiana con valore medio e varianza

  Notate bene che NON ha alcuna importanza la natura delle distribuzioni delle variabili Xi. L’effeWo cumula=vo di molte variabili (comunque distribuite) porta ad una distribuzione gaussiana. Pensate all’errore di misura casuale dovuto a tan=ssimi effeh indipenden= che si sommano incoerentemente.

  AWenzione nella pra=ca all’uso di questo teorema. Con un campione finito (e limitato) di misure ci sono situazioni in cui la distribuzione è tuW’altro che gaussiana. Ci sono cioè code non gaussiane.

  TraWazione di effeh non gaussiani pone spesso problemi delica=.

Documents

Lezione 3 Distribuzioni di Probabilità Notevolilxmi.mi.infn.it/~palombo/didattica/AnalisiStatistica/Lezioni/... · Quando crescono scopro che 16 sono blu. Qual è la ... Le due linee