44
LE PROBABILITA’ A PRIORI INFORMATIVE Corso di Laurea Magistrale in Scienze Statistiche A.A. 2008/2009

Probabilità a priori informative - Statistica bayesiana

Embed Size (px)

DESCRIPTION

Relazione di statistica bayesiana sulle probabilità a priori informative: - definizione - concetto di buona assegnazione di probabilità - formula di Bayes - esempi di aggiornamento delle probabilità per distribuzioni discrete e continue - misture di famiglie coniugate - probabilità a priori di massima entropia

Citation preview

Page 1: Probabilità a priori informative - Statistica bayesiana

LE PROBABILITA’ A PRIORIINFORMATIVE

Corso di Laurea Magistrale in Scienze Statistiche

A.A. 2008/2009

Page 2: Probabilità a priori informative - Statistica bayesiana

APPROCCIO DECISIONALE

Determinanti di una decisione:

esperienza a priori

campione

conseguenze potenziali

Fine di un paradigma o sua evoluzione?

Concetto di “informazione allargata”, che comprende anche quella inosservabile, consente di formalizzare l’esperienza a priori tramite modelli probabilistici.

Le probabilità a priori: una questione controversa

Page 3: Probabilità a priori informative - Statistica bayesiana

Fine di un paradigma o sua evoluzione?

SOGGETTIVITA’

nella scelta delle probabilità

mette in discussione la scientificità della statistica

mancanza di protezione da rappresentazioni distorte della realtà

Svantaggi controbilanciati dall’ipotesi di coerenza del decisore

Le probabilità a priori: una questione controversa

Page 4: Probabilità a priori informative - Statistica bayesiana

Le probabilità a priori: una questione controversa

La scelta dipende dall’ammontare di informazione disponibile

Se esiste tanta informazione in materia

In letteratura esiste una distribuzione a priori usata comunemente con valori dei parametri già specificati

Se l’informazione è parziale

Si ricorre alle probabilità a priori informative

Se non si hanno informazioni

Si utilizzano probabilità a priori non informative, tali da non veicolare alcun tipo di conoscenza a priori all’interno del modello utilizzato

Page 5: Probabilità a priori informative - Statistica bayesiana

Le probabilità a priori informative sono probabilità stabilite dal soggetto che effettua lo studio - prima di procedere all’osservazione della realtà - in base alla plausibilità che egli attribuisce a ciascun valore del parametro.

Legame indissolubile con il giudizio del soggetto “assertore”, che esprime il “grado di credibilità”– degree of belief – che egli attribuisce ad un insieme di valori plausibili del parametro.

Le probabilità a priori informative

Page 6: Probabilità a priori informative - Statistica bayesiana

Coerenza

Rispetto degli assiomi di Kolmogorov, così da garantire la comprensibilità del linguaggio probabilistico e l’assenza di contraddizioni

Regole nella scelta delle probabilità a priori

Osservabilità

Solo gli eventi verificabili (osservabili) nella realtà possono essere oggetto di assegnazione di probabilità

Le probabilità a priori informative

Page 7: Probabilità a priori informative - Statistica bayesiana

Una “buona” assegnazione di probabilità

Definizione A chi compete?

Bontà sostanziale

dipende dalla conoscenza che l’assertore ha riguardo l’oggetto dell’asserzione

all’ esperto in materia

Bontà normativa allo statistico

Necessità di una integrazione tra le due competenze per raggiungere un’assegnazione il più possibile vicina alla realtà.

legata all’abilità dell’assertore ad esprimere le sue opinioni in forma probabilistica.

Le probabilità a priori informative

Page 8: Probabilità a priori informative - Statistica bayesiana

Le probabilità a priori informative

Tipologie di probabilità a priori informative

Probabilità a priori di massima entropia

Probabilità a priori coniugate

Page 9: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Una probabilità a priori coniugata con la

funzione di

verosimiglianza consente la

semplificazione

matematica della formula di Bayes:

poiché la probabilità a posteriori apparterrà alla stessa famiglia

di quella a priori.

La trattabilità matematica della formula di Bayes

Page 10: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

La libertà di scelta è assicurata da:

i parametri della curva, che per certe distribuzioni – per es. la Beta – possono modificare radicalmente l’andamento della curva

l’esistenza di famiglie coniugate mistura, che ampliano lo spettro di distribuzioni che possono esser utilizzate

Page 11: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Definizione di famiglia coniugata

Sia F= una classe di funzioni di

verosimiglianza e P un insieme di funzioni di probabilità –

discrete o continue; se, per ogni x, ciascun F e

P, la risultante funzione di probabilità a posteriori

è ancora in P, allora P è

chiamata famiglia coniugata, o famiglia di probabilità a priori

coniugate, per F.

Sssxf X ),|(

)|( sxf X spS xspS | spS)|( sxf X

Page 12: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Caratteristiche di una famiglia coniugata

Le famiglie sono:

• il più piccole possibile

• parametrizzate

il calcolo delle probabilità a posteriori si riduce ad un aggiornamento dei parametri associati alla probabilità a priori coniugata.

Page 13: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Famiglie coniugate di particolari distribuzioni di probabilità

Page 14: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Esempio di updating per variabili aleatorie discrete

10,)1()()(

)(),;( 11

ba

ba

babag

yny

y

nyg

)1()|(

)()(

)(

ba

ba

y

n

Distribuzione a priori: Beta

Nel calcolo delle probabilità a posteriori le costanti e

possono essere omesse. Allora sarà:

Verosimiglianza del parametro rispetto alle osservazioni: Binomiale

Page 15: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Esempio di updating per variabili aleatorie discrete

1111 )1()1()1()|( ynbyaynybayg

),()|( ynbbyaaBetay

cioè la probabilità a posteriori è ancora della famiglia Beta, con i parametri aggiornati:

Page 16: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Esempio di updating per variabili aleatorie continue

)2

)(exp()(

2

2

s

mg

),( 2smN

)2

)(exp()|(

2

2

y

yf ),( 2Ny

Quando la probabilità a priori e la funzione di verosimiglianza sono entrambe normali, cioè:

-

-

Page 17: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Esempio di updating per variabili aleatorie continue

y

sn

nm

sn

s

nss

yyyg n

22

2

22

2

22

2221 11

1(

2

1exp),...,,|(

))(,( '2' smN

la probabilità a posteriori ha questa forma:

quindi la distribuzione a posteriori è ancora normale, ma con i parametri aggiornati

Page 18: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Esempio di updating per variabili aleatorie continue

22'21

)(1

sn

s 22

22'2 2)(ns

ss

Infatti, definendo la precisione di una distribuzione come il reciproco della varianza, con la proprietà dell’additività, la varianza a posteriori viene calcolata proprio dalla precisione a posteriori, ottenuta come somma tra la precisione a priori e la precisione delle osservazioni:

, da cui

mentre la media a posteriori è la media ponderata della media a priori e quella osservata, dove i pesi sono dati rispettivamente dalla proporzione della precisione a posteriori dovuta alla distribuzione a priori e da quella dovuta alla distribuzione campionaria:

y

sn

nm

sn

sm22

2

22

2

11

1'

Page 19: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilità a priori coniugate

- quota di mercato ottenuta da un nuovo brand.

)1,3(Beta- distribuzione triangolare, cioè g()=2(1-), o anche

.g(π)

π

Page 20: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilità a priori coniugate

.

Si estragga un campione casuale di 5 consumatori: solo uno dei 5 compra il nuovo prodotto.

)|( xf 445 )1(5)1(1

5)1(

5

xx

x

Dal momento che la quota di mercato è una proporzione e supponendo le decisioni degli individui estratti indipendenti, si può ipotizzare una f.d.v. Binomiale, cioè

.

Page 21: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilità a priori coniugate

..

55

1

0

5

5

1

0

4

4

1

0

)1(4242/10

)1(10

)1(10

)1(10

)1(5*) -2(1

)1(5*) -2(1

)|()(

)|()()|(

dddxfg

xfgxg

Calcolo delle probabilità a posteriori

La distribuzione a posteriori è quindi )2,8()|( Betax

Page 22: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Applicazione: studio della quota di mercato ottenuta da un nuovo brand con probabilità a priori coniugate

..

Posterior

-1

0

1

2

3

0 0.2 0.4 0.6 0.8 1

x

f

)2,8()|( Betax

In realtà, sarebbe bastato osservare che la distribuzione beta è la famiglia coniugata delle funzioni di verosimiglianza binomiali e, al fine di individuare le probabilità a posteriori, procedere all’updating dei parametri

Page 23: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Misture di famiglie coniugate

..

L’introduzione di misture di famiglie coniugate permette di raggiungere una maggiore libertà e flessibilità nella formalizzazione delle conoscenze a priori

Proprietà di approssimazione universale

Page 24: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Definizione di mistura di famiglie coniugate

Se P è una famiglia coniugata per F, lo è qualsiasi mistura m-dimensionale costruita con elementi di P.

Se però è la verosimiglianza ad essere una mistura di funzioni di F, la probabilità a posteriori risultante dalla combinazione di questa verosimiglianza con una probabilità a priori da P, non appartiene a P.

E’ possibile adottare una famiglia coniugata mistura per verosimiglianze di tipo mistura.

Page 25: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Applicazione sulle misture di famiglie coniugate

CAMPIONE

Sia S una quantità ignota osservata n volte (cioè si estrae un campione casuale composto da n unità x1,x2,…xn) da una popolazione che si suppone ),( 2s con varianza nota.

La funzione di verosimiglianza sarà:

Page 26: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Applicazione sulle misture di famiglie coniugate PROBABILITA’ A PRIORISi supponga che la conoscenza a priori del fenomeno spinga a

ritenere che:

- la probabilità che s sia vicina allo 0 è molto alta cioè

p(s=0)→1;

- c’è una probabilità positiva, ma bassa, che il parametro

assuma valori molto lontani dallo 0.Questo tipo di comportamento fa pensare ad una distribuzione a code pesanti, non contemplata nella famiglia coniugata normale. E’ quindi necessario ricorrere ad un modello mistura per le probabilità a priori:

Page 27: Probabilità a priori informative - Statistica bayesiana

Una distribuzione N(s| ), con =1

Probabilità a priori coniugate

Applicazione sulle misture di famiglie coniugate

20 Una distribuzione N(s| ), con

=20

21

20

21

Il modello mistura di a) e b), con

2.00

Page 28: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori coniugate

Applicazione sulle misture di famiglie coniugate

PROBABILITA’ A POSTERIORI NELLA MIXTURE FORM

Aggiornamento del peso:

Page 29: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

Il metodo della massima entropia ha come obiettivo la ricerca di una probabilità a priori il più oggettiva (il meno informativa) possibile, pur non rinunciando all’informazione parziale disponibile.

Page 30: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

L’informazione

L’informazione può essere rappresentata da un codice costituito da una sequenza di bit.

Quando viene posta una domanda, essa porta con sé una quantità di incertezza sulla risposta corretta proporzionale alle alternative disponibili.

Se la domanda (variabile) X ha N risposte alternative (determinazioni), l’incertezza (Uncertainty) ad essa associata è pari a:

XNXU 2log)(

Page 31: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

L’informazione

N2log

Numero di

Alternative

Probabilità logica delle

opzioniBits

1 1 0

2 0.5 1

4 0.25 2

… … …

256 0.00390625 8

N

N

1

Page 32: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

L’informazione

xX NNxUXUXxI 22 loglog)()()(

))(

1log())(log()(

xPxPxI

Se x è una risposta – o un insieme di risposte - alternativa alla domanda X (cioè una determinazione - o un insieme di determinazioni - della variabile X), allora l’informazione che essa trasmette può esser definita come la differenza tra due stati di incertezza:

tanto più alta quanto più è bassa la probabilità di quell’evento:

Page 33: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

L’entropia

)( ixI ),...,,( 21 nxxx associata a ciascuna delle realizzazioni della stessa”:

“L’entropia di una variabile aleatoria X è la media dell’ informazione

n

iiii xPxIxIEXH

1

)()()]([)(

dove con si indica la “quantità di incertezza associata ad

un evento, cioè l’informazione che si ottiene affermando che tale

evento si è realizzato”

)( ixI

Page 34: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

Probabilità a priori di massima entropia per problemi a natura discreta

MsssSs ,...,, 21)(spS

)](log[)])(

1[log(

)())(

1log()()(

iSSiS

S

iSSs iS

iS

spEsp

E

sIEsp

spSHi

Quando il parametro s può assumere un numero finito di valori:

l’entropia della funzione di probabilità

è definita come:a priori

Page 35: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

Il metodo dei moltiplicatori di Lagrange

Il metodo dei moltiplicatori di Lagrange è un metodo che serve “per trovare i massimi e i minimi di una funzione in più variabili soggetta ad uno o più vincoli”, che si pone “alla base dell’ottimizzazione lineare non vincolata.”

“Esso riduce la ricerca dei punti stazionari di una funzione vincolata in n variabili con k vincoli a trovare i punti stazionari di una funzione non vincolata in n+k variabili, introducendo una nuova variabile scalare incognita per ogni vincolo”, detta moltiplicatore di Lagrange, “e definisce una nuova funzione (la Lagrangiana) in termini della funzione originaria, dei vincoli e dei moltiplicatori di Lagrange.”

Page 36: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

Metodo dei moltiplicatori di Lagrange e massimizzazione dell’entropia per problemi a natura discreta

Poiché anche la massimizzazione dell’entropia rientra tra i problemi di ottimizzazione vincolata, essa viene trattata con il metodo dei moltiplicatori di Lagrange.

Ss

kikiS

i

sgsp )()(

1)(

iSSs

spi

Una probabilità a priori di massima entropia per problemi a natura discreta è una funzione di probabilità che massimizza l’entropia (l’incertezza) tra tutte le funzioni compatibili con l’informazione parziale disponibile che, per l’applicabilità del criterio, deve essere espressa formalmente (rappresenta i vincoli al problema di massimizzazione):

dove è il vincolo onnipresente.

per k=0,1,…,m,

Page 37: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

Metodo dei moltiplicatori di Lagrange e massimizzazione dell’entropia per problemi a natura discreta

m

kkk g

MES esp 1

0

)(

)(spMES

Sotto questo tipo di vincoli, la probabilità a priori di massima entropia

per problemi a natura discreta assume la forma:

, dove i valori dei parametri sono

soluzioni del problema di ottimizzazione vincolata di

k

Page 38: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

La distribuzione che massimizza l’entropia per problemi a natura discreta

Problema: ricerca della distribuzione di probabilità a priori discreta

),...,( 21 npppg che massimizza l’entropia:

)(121 )(maxln:),...,(

sp

n

kkkn

S

SHpppppg

dove l’unico vincolo è quello onnipresente.

Page 39: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

La distribuzione che massimizza l’entropia per problemi a natura discreta

0))1(( fgpk

Si possono usare i moltiplicatori di Lagrange per trovare il punto di massima entropia (dipendente dalle probabilità). Per tutti i k da 1 a n, si richieda che:

1exp)( kS sp

Questo dimostra che tutti i pk sono uguali (perché dipendono da λ soltanto).

Page 40: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

La distribuzione che massimizza l’entropia per problemi a natura discreta

Utilizzando il vincolo ∑k pk = 1, troviamo:

Npk /1

La distribuzione uniforme è la distribuzione di massima entropia

Page 41: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

La distribuzione che minimizza l’entropia per problemi a natura discreta

1)( kS sp

ik

kS sp )( 1

Distribuzione di probabilità discreta:

, dove e

La concentrazione della massa di probabilità su un solo punto massimizza la certezza e minimizza l’informazione.

Ma se tende a 0, allora devono farlo tutti i , cioè: )( kS sp

Page 42: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

Probabilità a priori di massima entropia per problemi a natura continua

L’informazione disponibile, che rappresenta i vincoli al problema di massimizzazione dell’entropia, è espressa come: k=0, 1,…, m

La probabilità a priori di massima entropia diventa

per ,

dove i parametri sono ricavati dai vincoli.

S

kkS dssgsp )()(

m

kkk sg

SMES esqsp 1

0 )(

)()(

Ss

Page 43: Probabilità a priori informative - Statistica bayesiana

Probabilità a priori di massima entropia

Probabilità a priori di massima entropia per problemi a natura continua

Non esiste la distribuzione che massimizza l’entropia, ma occorre di volta in volta scegliere una distribuzione a priori qS(s) non informativa.

Se non ci sono vincoli espliciti oltre la normalizzazione, allora la probabilità a priori di massima entropia coincide con la densità non-informativa qS(s) prescelta.

Page 44: Probabilità a priori informative - Statistica bayesiana

Grazie per l’attenzione!

Carla Guadalaxara