of 45 /45
Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità

Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità

Embed Size (px)

Text of Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità

  • Slide 1
  • Slide 2
  • Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilit
  • Slide 3
  • http://infocom.uniroma1.it/alef/libro/html/libro/no de99.html http://www.deis.unibo.it/Staff/Research/CCaini/teo riaprob_file/v3_document.htm (corsi on-line di nozioni base sul calcolo delle probabilit)
  • Slide 4
  • Probability Primer
  • Slide 5
  • Variabili aleatorie e probabilit Una variabile aleatoria X descrive un evento non predicibile in anticipo (lancio di un dado, infatti alea=dado in latino ) Lo spazio di campionamento (sample space) S di X linsieme dei possibili valori della variabile (per il dado, S={1,2,3,4,5,6} Un evento un subset di S, es: e ={1} La massa di probabilit o probability mass definita come P(X=x) o P(x) o P x La distribuzione di probabilit per una variabile discreta la lista di probabilit associate a tutti i possibili eventi di S ASSIOMA 1 : Se X una variabile discreta, allora
  • Slide 6
  • Funzione densit di probabilit Se X pu assumere infiniti valori, la somma di questi valori non pu essere 1 Si definisce la funzione densit di probabilit come: p(x) il limite per di 1/ volte la probabilit che X assuma un valore nellintervallo x 0,x 0 + In tal modo si ha, per una variabile aleatoria continua:
  • Slide 7
  • densit della probabilit di affitto di unautomobile in funzione dellet
  • Slide 8
  • Densit e Distribuzione Cos come un oggetto non omogeneo pi o meno denso in regioni differenti del suo volume complessivo, cos la densit di probabilit mostra su quali valori della variabile aleatoria si concentra la probabilit. Mentre la funzione distribuzione di probabilit per la v.a. X definita come: X continua X discreta
  • Slide 9
  • Esempi Distribuzione di probabilit per p D Probability mass per X discreta (es. lancio del dado) Densit di prob. per X continua Distribuzione di prob. per p X
  • Slide 10
  • Assiomi del calcolo delle probabilit Indichiamo con P(A) la probabilit (probability mass) di un evento A (es: x=1, o x pari) Per ogni coppia di eventi A,B:
  • Slide 11
  • Probabilit condizionali P(A/B): probabilit di un evento A supponendo verificato levento B Es: A= Pr(studente segue IUM) B= Pr(studente segue AA) AB A B
  • Slide 12
  • Teorema di Bayes Una formulazione alternativa della regola vista prima: Esempio lancio di un dado: A numeri pari, P(A)=1/2 B numero 2, P(B)=1/6 AB=(2), P(A B)=1/6
  • Slide 13
  • Propriet derivate: Se due eventi A e B sono disgiunti (A B=) segue P(B|A)=0 e P(A|B)=0 poich il verificarsi di un evento esclude il verificarsi dellaltro. Se b 1, b 2,b m sono mutuamente disgiunti ed esaustivi: Es:
  • Slide 14
  • Medie e statistiche La media statistica (o valor medio, o valore atteso) di una v.a. aleatoria X la somma dei suoi possibili valori pesati per le rispettive probabilit. E indicata con m X, o E(X) o E[X] o Per variabili discrete: Per variabili continue:
  • Slide 15
  • Esempi Se X uniformemente distribuita in [a,b], E(X)=(b-a)/2
  • Slide 16
  • Esempio (continua) Nel discreto, supponiamo che X assuma i valori 1,2,3,4,5 e 6 con probabilit uniforme, P(X)=1/6 X Allora: In generale:
  • Slide 17
  • Varianza Varianza di una distribuzione di probabilit p X (x): v.a. continua v.a. discreta La varianza indica la dispersione della v.a. rispetto al suo valore medio Esempio 1: X pu assumere i due valori -1 e 1 con uguale probabilit E[X]= X =0, p(-1)=p(+1)=0,5 Lo scarto quadratico medio o deviazione standard definito come:
  • Slide 18
  • Esempi Stesso valore medio, ma scarto quadratico assai diverso!!!
  • Slide 19
  • Funzione densit normale o gaussiana
  • Slide 20
  • Probabilit, stima di probabilit e probabilit a priori Stima di una probabilit P X (x k ) dato un campione di N eventi (e 1,.. e N ) (e i : X=x k x k S) Probabilt a priori: STIMA di una probabilit P X (A) prima di considerare levidenza Probabilit a posteriori: STIMA di P X (A) dopo aver preso in considerazione levidenza
  • Slide 21
  • Riassunto dei concetti esposti Definizione di v.a. discreta e continua Definizione di massa di probabilit, densit di probabilit (per v.a. continue) e distribuzione di probabilit Media, scarto quadratico e varianza Gaussiana Probabilit condizionata, somma i probabilit, probabilit congiunte, propriet fondamentali Teorema di Bayes Stima di una probabilit, probabilit a priori, a posteriori
  • Slide 22
  • Apprendimento probabilistico
  • Slide 23
  • Il teorema di Bayes nellapprendimento di concetti Sia h unipotesi in H e D sia il set di dati di apprendimento (x i, c(x i )): Dove: P(h) la probabilit a priori dellipotesi h (precedente allapprendimento) P(D) la probabilit a priori di D (la probabilit di estrarre un campione D:x i X dallo spazio delle istanze X) Obiettivo: scegliere lipotesi h pi probabile (che massimizzi P(h/D)
  • Slide 24
  • Maximum A Posteriori hypothesis (MAP) Algoritmo: scegli lipotesi Richiede la stima di P(h/D) per ogni h di H! Prob dellipotesi h stante losservazione di D
  • Slide 25
  • MAP learning in un caso semplice(2) Ipotesi: D non contiene errori c consistente con H a priori, le ipotesi h in H sono equiprobabili: P(h)=1/ H h H P(D/h) la probabilit di osservare certi valori (d1,d2,..dm) per le istanze di D (x1,x2,..xm), condizionata alla veridicit dellipotesi h (d i =c(x i )=h(x i ) in D), Dunque, P(D/h)=1 se h consistente con D, 0 altrimenti. Dunque:
  • Slide 26
  • Per ogni h non consistente con D Per ogni h consistente con D Se h consistente, appartiene allo spazio delle versioni
  • Slide 27
  • MAP learning (3) Cosa si pu concludere? Un apprendista consistente un apprendista che impara ipotesi consistenti con D Ogni apprendista consistente produce ipotesi MAP, se assumiamo una distribuzione di probabilit uniforme su H (ovvero P(h i )=P(h j ) i,j), e se assumiamo che i dati di addestramento siano privi di errori (cio P(D/h)=1 se D e h sono consistenti, 0 altrimenti) Il teorema di Bayes ci aiuta a caratterizzare le assunzioni implicite in un modello di apprendimento (ad es. Version Space), sotto le quali il modello si comporta in maniera ottima.
  • Slide 28
  • Maximum Likelyhood learning Supponiamo di trovarci in una situazione pi complessa, e pi realistica: Dobbiamo apprendere una funzione obiettivo c che assume valori in, nel continuo Il campione di addestramento produce errori, cio: D: di=c(x i )+e i, dove e i una variabile aleatoria estratta indipendentemente per ogni x i secondo una distribuzione gaussiana con media zero (errore) Quale lipotesi massimamente probabile (ML)?? Questa situazione tipica di molti metodi di apprendimento, come i metodi basati su reti neurali, regressioni lineari, interpolazione di polinomi (metodi algebrici)
  • Slide 29
  • Distribuzione gaussiana dellerrore Lerrore agisce sulla funzione di classificazione generalmente casuale La distribuzione gaussiana (introdotta precedentemente) ci aiuta a rappresentare la densit di probabilit della variabile aleatoria e
  • Slide 30
  • Cosa una distribuzione gaussiana? Quando molti fattori casuali ed indipendenti agiscono in modo additivo per creare fattori di variabilit, i dati seguono un andamento a campana chiamato distribuzione gaussiana, o anche distribuzione Normale. Molti dati seguono una distribuzione che approssima la distribuzione Gaussiana ( e le sue propriet matematiche) media standard deviation
  • Slide 31
  • Ipotesi ML con rumore Gaussiano =c(x i ) densit di probabilit (variabile aleatoria continua!!) Dato che gli esempi sono estratti in modo indipendente, p(di dj)=p(di)p(dj) Lerrore segue una distribuzione gaussiana, quindi anche i valori d i si distribuiscono secondo una gaussiana, con scostamenti centrati attorno al valore reale c(x i ) Poich stiamo esprimendo la probabilit di di condizionata allessere h(x) una ipotesi corretta, avremo =c(x)=h(x)
  • Slide 32
  • ML(2) Anzich massimizzare lespressione precedente, massimizziamone il logaritmo questi fattori sono uguali per tutte le h i non influenza argmax
  • Slide 33
  • ML(3) Dunque, lipotesi massimamente probabile h ML quella che minimizza la somma degli errori quadratici (dellipotesi stessa): di=c(x i )+e i Lipotesi sottostante : esempi in D estratti indipendentemente, distribuzione gaussiana dellerrore Problema: considera solo errori di classificazione (c(x i )), non errori nei valori degli attributi degli x i in D
  • Slide 34
  • c(x) la funzione da apprendere, gli esempi d i (x) sono rumorosi con distribuzione del rumore e i gaussiana (uniformemente distribuio attorno al valore reale). h ML lipotesi che minimizza lerrore quadratico medio e c h ML Una spiegazione intuitiva
  • Slide 35
  • ML e MAP servono a caratterizzare in termini di probabilit il problema dellapprendimento di una ipotesi. Ora trattiamo il problema di imparare a predire delle probabilit
  • Slide 36
  • Optimal Bayes classifier Supponiamo che c(x) sia una funzione obiettivo discreta ed assuma valori in V:{v 1,v 2..v m } Supponiamo che H sia lo spazio corrente delle ipotesi, D sia il set di apprendimento, e P(h i /D) siano le probabilit a posteriori delle h i dato D (calcolato come % dei casi in cui h i (x j )=c(x j )) quindi non si richiede consistenza) Supponiamo che x k sia una nuova istanza. Quale la classificazione ottima v opt V per x k ? v opt= Si combinano le predizioni di tutte le ipotesi, pesate rispetto alla loro probabilit a posteriori.
  • Slide 37
  • Esempio (% degli esempi che sono consistenti con h i )
  • Slide 38
  • Bayes Optimal classifier (conclusioni) Ottiene le migliori prestazioni ottenibili, assegnati i dati di apprendimento D, e uno spazio di ipotesi H Costoso: calcola la probabilit a posteriori per ogni ipotesi, e combina le predizioni per classificare ogni nuova istanza Assegna la stessa classificazione a tutti gli esempi non visti!!
  • Slide 39
  • Naive Bayes Classifier Si applica al caso in cui le ipotesi in H sono rappresentabili mediante una congiunzione di valori di attributi (k-monomi), e f(x) pu assumere valori da un set finito V. Le istanze x in X sono descritte mediante tuple di valori associati agli n attributi a 1..a n Il classificatore naive si basa sullassunzione semplificativa che i valori degli attributi siano condizionalmente indipendenti, assegnato un valore della funzione obiettivo, cio: NBC: un nuovo x da classificare
  • Slide 40
  • Stima delle probabilit Le probabilit P(val i /c j ) vengono stimate osservando le frequenze nei dati di addestramento D Se D include n i esempi classificati c i, e n ij di questi n i esempi contengono lattributo a j =val j, allora:
  • Slide 41
  • Nave Bayes Esempio C = {allergia, raffreddore, in_salute}(valori f(x)) a 1 = starnuti (si,no) ; a 2 = tosse (si,no) ; a 3 = febbre (si,no) (attributi booleani) x = {a 1, a 2, a 3 } come lo classifico?? ProbIn salute raffred dore allergia P(c i ) 0.9 0.05 P( a 1 |c i ) 0.027 1.0 P( a 2 |c i ) 0.027 0.5 P( a 3 |c i ) 0.027 0.5 { Dal set D stimo le prob. a priori e condizionate es:
  • Slide 42
  • Esempio (continua) 40 esempi, 36 classificati in salute, 2 raffreddore, 2 allergia Per stimare, ad esempio, P(a 1 =1/in-salute), contare sui 36 esempi nei quali c(x)= in-salute quanti hanno a 1 =1 se 1 su 36, E( P(a 1 =1/in-salute))=1/36=0,027 Analogamente avr, ad es: E( P(a 1 =1/raffreddore))=2/2=1,0 E( P(a 1 =1/allergia))=2/2=1,0 ecc.
  • Slide 43
  • Esempio (continua) Devo calcolare il massimo al variare di c di: Quindi ad esempio per c=raffreddore Analogamente, trover:
  • Slide 44
  • Problemi con il NBC Se D piccolo, le stime sono inaffidabili (nellesempio precedente alcune stime sono=1!!). Un valore raro a k =val k pu non capitare mai in D e dunque: c j : (a k =val k | c j ) = 0. Analogamente, se ho un solo esempio di una classe c j, val k : (val i | c j ) = 1 o (val k | c j ) = 0. Se a k =val k capita in un test set, T, il risultato che c i : (T | c i ) = 0 and c i : (c i | T) = 0
  • Slide 45
  • Smoothing Per tener conto di eventi rari, si operano degli aggiustamenti sulle probabilit detti smoothing. Laplace smoothing con una m-stima assume che ogni evento e j abbia una probabilit a priori P, che si assume essere stata osservata in un campione virtuale di dimensione m>del campione reale Nellesempio precedente, ad es Per attributi binari, m=0,5
  • Slide 46
  • Un esempio Classificazione automatica di documenti Un documento rappresentato come un elenco di termini tj (j=1.|V|) Se V il vocabolario, aj=1 se il termine tj presente x: D: c: X C : (sport, politica, scienze..) Stimare, sulla base di D, le P(tj/ck)