Text of Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità
Slide 1
Slide 2
Apprendimento Bayesiano Metodi di apprendimento di concetti
basati sul calcolo delle probabilit
Slide 3
http://infocom.uniroma1.it/alef/libro/html/libro/no de99.html
http://www.deis.unibo.it/Staff/Research/CCaini/teo
riaprob_file/v3_document.htm (corsi on-line di nozioni base sul
calcolo delle probabilit)
Slide 4
Probability Primer
Slide 5
Variabili aleatorie e probabilit Una variabile aleatoria X
descrive un evento non predicibile in anticipo (lancio di un dado,
infatti alea=dado in latino ) Lo spazio di campionamento (sample
space) S di X linsieme dei possibili valori della variabile (per il
dado, S={1,2,3,4,5,6} Un evento un subset di S, es: e ={1} La massa
di probabilit o probability mass definita come P(X=x) o P(x) o P x
La distribuzione di probabilit per una variabile discreta la lista
di probabilit associate a tutti i possibili eventi di S ASSIOMA 1 :
Se X una variabile discreta, allora
Slide 6
Funzione densit di probabilit Se X pu assumere infiniti valori,
la somma di questi valori non pu essere 1 Si definisce la funzione
densit di probabilit come: p(x) il limite per di 1/ volte la
probabilit che X assuma un valore nellintervallo x 0,x 0 + In tal
modo si ha, per una variabile aleatoria continua:
Slide 7
densit della probabilit di affitto di unautomobile in funzione
dellet
Slide 8
Densit e Distribuzione Cos come un oggetto non omogeneo pi o
meno denso in regioni differenti del suo volume complessivo, cos la
densit di probabilit mostra su quali valori della variabile
aleatoria si concentra la probabilit. Mentre la funzione
distribuzione di probabilit per la v.a. X definita come: X continua
X discreta
Slide 9
Esempi Distribuzione di probabilit per p D Probability mass per
X discreta (es. lancio del dado) Densit di prob. per X continua
Distribuzione di prob. per p X
Slide 10
Assiomi del calcolo delle probabilit Indichiamo con P(A) la
probabilit (probability mass) di un evento A (es: x=1, o x pari)
Per ogni coppia di eventi A,B:
Slide 11
Probabilit condizionali P(A/B): probabilit di un evento A
supponendo verificato levento B Es: A= Pr(studente segue IUM) B=
Pr(studente segue AA) AB A B
Slide 12
Teorema di Bayes Una formulazione alternativa della regola
vista prima: Esempio lancio di un dado: A numeri pari, P(A)=1/2 B
numero 2, P(B)=1/6 AB=(2), P(A B)=1/6
Slide 13
Propriet derivate: Se due eventi A e B sono disgiunti (A B=)
segue P(B|A)=0 e P(A|B)=0 poich il verificarsi di un evento esclude
il verificarsi dellaltro. Se b 1, b 2,b m sono mutuamente disgiunti
ed esaustivi: Es:
Slide 14
Medie e statistiche La media statistica (o valor medio, o
valore atteso) di una v.a. aleatoria X la somma dei suoi possibili
valori pesati per le rispettive probabilit. E indicata con m X, o
E(X) o E[X] o Per variabili discrete: Per variabili continue:
Slide 15
Esempi Se X uniformemente distribuita in [a,b],
E(X)=(b-a)/2
Slide 16
Esempio (continua) Nel discreto, supponiamo che X assuma i
valori 1,2,3,4,5 e 6 con probabilit uniforme, P(X)=1/6 X Allora: In
generale:
Slide 17
Varianza Varianza di una distribuzione di probabilit p X (x):
v.a. continua v.a. discreta La varianza indica la dispersione della
v.a. rispetto al suo valore medio Esempio 1: X pu assumere i due
valori -1 e 1 con uguale probabilit E[X]= X =0, p(-1)=p(+1)=0,5 Lo
scarto quadratico medio o deviazione standard definito come:
Slide 18
Esempi Stesso valore medio, ma scarto quadratico assai
diverso!!!
Slide 19
Funzione densit normale o gaussiana
Slide 20
Probabilit, stima di probabilit e probabilit a priori Stima di
una probabilit P X (x k ) dato un campione di N eventi (e 1,.. e N
) (e i : X=x k x k S) Probabilt a priori: STIMA di una probabilit P
X (A) prima di considerare levidenza Probabilit a posteriori: STIMA
di P X (A) dopo aver preso in considerazione levidenza
Slide 21
Riassunto dei concetti esposti Definizione di v.a. discreta e
continua Definizione di massa di probabilit, densit di probabilit
(per v.a. continue) e distribuzione di probabilit Media, scarto
quadratico e varianza Gaussiana Probabilit condizionata, somma i
probabilit, probabilit congiunte, propriet fondamentali Teorema di
Bayes Stima di una probabilit, probabilit a priori, a
posteriori
Slide 22
Apprendimento probabilistico
Slide 23
Il teorema di Bayes nellapprendimento di concetti Sia h
unipotesi in H e D sia il set di dati di apprendimento (x i, c(x i
)): Dove: P(h) la probabilit a priori dellipotesi h (precedente
allapprendimento) P(D) la probabilit a priori di D (la probabilit
di estrarre un campione D:x i X dallo spazio delle istanze X)
Obiettivo: scegliere lipotesi h pi probabile (che massimizzi
P(h/D)
Slide 24
Maximum A Posteriori hypothesis (MAP) Algoritmo: scegli
lipotesi Richiede la stima di P(h/D) per ogni h di H! Prob
dellipotesi h stante losservazione di D
Slide 25
MAP learning in un caso semplice(2) Ipotesi: D non contiene
errori c consistente con H a priori, le ipotesi h in H sono
equiprobabili: P(h)=1/ H h H P(D/h) la probabilit di osservare
certi valori (d1,d2,..dm) per le istanze di D (x1,x2,..xm),
condizionata alla veridicit dellipotesi h (d i =c(x i )=h(x i ) in
D), Dunque, P(D/h)=1 se h consistente con D, 0 altrimenti.
Dunque:
Slide 26
Per ogni h non consistente con D Per ogni h consistente con D
Se h consistente, appartiene allo spazio delle versioni
Slide 27
MAP learning (3) Cosa si pu concludere? Un apprendista
consistente un apprendista che impara ipotesi consistenti con D
Ogni apprendista consistente produce ipotesi MAP, se assumiamo una
distribuzione di probabilit uniforme su H (ovvero P(h i )=P(h j )
i,j), e se assumiamo che i dati di addestramento siano privi di
errori (cio P(D/h)=1 se D e h sono consistenti, 0 altrimenti) Il
teorema di Bayes ci aiuta a caratterizzare le assunzioni implicite
in un modello di apprendimento (ad es. Version Space), sotto le
quali il modello si comporta in maniera ottima.
Slide 28
Maximum Likelyhood learning Supponiamo di trovarci in una
situazione pi complessa, e pi realistica: Dobbiamo apprendere una
funzione obiettivo c che assume valori in, nel continuo Il campione
di addestramento produce errori, cio: D: di=c(x i )+e i, dove e i
una variabile aleatoria estratta indipendentemente per ogni x i
secondo una distribuzione gaussiana con media zero (errore) Quale
lipotesi massimamente probabile (ML)?? Questa situazione tipica di
molti metodi di apprendimento, come i metodi basati su reti
neurali, regressioni lineari, interpolazione di polinomi (metodi
algebrici)
Slide 29
Distribuzione gaussiana dellerrore Lerrore agisce sulla
funzione di classificazione generalmente casuale La distribuzione
gaussiana (introdotta precedentemente) ci aiuta a rappresentare la
densit di probabilit della variabile aleatoria e
Slide 30
Cosa una distribuzione gaussiana? Quando molti fattori casuali
ed indipendenti agiscono in modo additivo per creare fattori di
variabilit, i dati seguono un andamento a campana chiamato
distribuzione gaussiana, o anche distribuzione Normale. Molti dati
seguono una distribuzione che approssima la distribuzione Gaussiana
( e le sue propriet matematiche) media standard deviation
Slide 31
Ipotesi ML con rumore Gaussiano =c(x i ) densit di probabilit
(variabile aleatoria continua!!) Dato che gli esempi sono estratti
in modo indipendente, p(di dj)=p(di)p(dj) Lerrore segue una
distribuzione gaussiana, quindi anche i valori d i si
distribuiscono secondo una gaussiana, con scostamenti centrati
attorno al valore reale c(x i ) Poich stiamo esprimendo la
probabilit di di condizionata allessere h(x) una ipotesi corretta,
avremo =c(x)=h(x)
Slide 32
ML(2) Anzich massimizzare lespressione precedente,
massimizziamone il logaritmo questi fattori sono uguali per tutte
le h i non influenza argmax
Slide 33
ML(3) Dunque, lipotesi massimamente probabile h ML quella che
minimizza la somma degli errori quadratici (dellipotesi stessa):
di=c(x i )+e i Lipotesi sottostante : esempi in D estratti
indipendentemente, distribuzione gaussiana dellerrore Problema:
considera solo errori di classificazione (c(x i )), non errori nei
valori degli attributi degli x i in D
Slide 34
c(x) la funzione da apprendere, gli esempi d i (x) sono
rumorosi con distribuzione del rumore e i gaussiana (uniformemente
distribuio attorno al valore reale). h ML lipotesi che minimizza
lerrore quadratico medio e c h ML Una spiegazione intuitiva
Slide 35
ML e MAP servono a caratterizzare in termini di probabilit il
problema dellapprendimento di una ipotesi. Ora trattiamo il
problema di imparare a predire delle probabilit
Slide 36
Optimal Bayes classifier Supponiamo che c(x) sia una funzione
obiettivo discreta ed assuma valori in V:{v 1,v 2..v m } Supponiamo
che H sia lo spazio corrente delle ipotesi, D sia il set di
apprendimento, e P(h i /D) siano le probabilit a posteriori delle h
i dato D (calcolato come % dei casi in cui h i (x j )=c(x j ))
quindi non si richiede consistenza) Supponiamo che x k sia una
nuova istanza. Quale la classificazione ottima v opt V per x k ? v
opt= Si combinano le predizioni di tutte le ipotesi, pesate
rispetto alla loro probabilit a posteriori.
Slide 37
Esempio (% degli esempi che sono consistenti con h i )
Slide 38
Bayes Optimal classifier (conclusioni) Ottiene le migliori
prestazioni ottenibili, assegnati i dati di apprendimento D, e uno
spazio di ipotesi H Costoso: calcola la probabilit a posteriori per
ogni ipotesi, e combina le predizioni per classificare ogni nuova
istanza Assegna la stessa classificazione a tutti gli esempi non
visti!!
Slide 39
Naive Bayes Classifier Si applica al caso in cui le ipotesi in
H sono rappresentabili mediante una congiunzione di valori di
attributi (k-monomi), e f(x) pu assumere valori da un set finito V.
Le istanze x in X sono descritte mediante tuple di valori associati
agli n attributi a 1..a n Il classificatore naive si basa
sullassunzione semplificativa che i valori degli attributi siano
condizionalmente indipendenti, assegnato un valore della funzione
obiettivo, cio: NBC: un nuovo x da classificare
Slide 40
Stima delle probabilit Le probabilit P(val i /c j ) vengono
stimate osservando le frequenze nei dati di addestramento D Se D
include n i esempi classificati c i, e n ij di questi n i esempi
contengono lattributo a j =val j, allora:
Slide 41
Nave Bayes Esempio C = {allergia, raffreddore,
in_salute}(valori f(x)) a 1 = starnuti (si,no) ; a 2 = tosse
(si,no) ; a 3 = febbre (si,no) (attributi booleani) x = {a 1, a 2,
a 3 } come lo classifico?? ProbIn salute raffred dore allergia P(c
i ) 0.9 0.05 P( a 1 |c i ) 0.027 1.0 P( a 2 |c i ) 0.027 0.5 P( a 3
|c i ) 0.027 0.5 { Dal set D stimo le prob. a priori e condizionate
es:
Slide 42
Esempio (continua) 40 esempi, 36 classificati in salute, 2
raffreddore, 2 allergia Per stimare, ad esempio, P(a 1
=1/in-salute), contare sui 36 esempi nei quali c(x)= in-salute
quanti hanno a 1 =1 se 1 su 36, E( P(a 1 =1/in-salute))=1/36=0,027
Analogamente avr, ad es: E( P(a 1 =1/raffreddore))=2/2=1,0 E( P(a 1
=1/allergia))=2/2=1,0 ecc.
Slide 43
Esempio (continua) Devo calcolare il massimo al variare di c
di: Quindi ad esempio per c=raffreddore Analogamente, trover:
Slide 44
Problemi con il NBC Se D piccolo, le stime sono inaffidabili
(nellesempio precedente alcune stime sono=1!!). Un valore raro a k
=val k pu non capitare mai in D e dunque: c j : (a k =val k | c j )
= 0. Analogamente, se ho un solo esempio di una classe c j, val k :
(val i | c j ) = 1 o (val k | c j ) = 0. Se a k =val k capita in un
test set, T, il risultato che c i : (T | c i ) = 0 and c i : (c i |
T) = 0
Slide 45
Smoothing Per tener conto di eventi rari, si operano degli
aggiustamenti sulle probabilit detti smoothing. Laplace smoothing
con una m-stima assume che ogni evento e j abbia una probabilit a
priori P, che si assume essere stata osservata in un campione
virtuale di dimensione m>del campione reale Nellesempio
precedente, ad es Per attributi binari, m=0,5
Slide 46
Un esempio Classificazione automatica di documenti Un documento
rappresentato come un elenco di termini tj (j=1.|V|) Se V il
vocabolario, aj=1 se il termine tj presente x: D: c: X C : (sport,
politica, scienze..) Stimare, sulla base di D, le P(tj/ck)