Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Breve Introducción
al Aprendizaje A
utomático
con WE
KA
Procesam
iento delLenguaje N
aturalJosé M
aría Góm
ez Hidalgo
http://www.esp.uem.es/~jmgomez/
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Índice
•R
eferencias•
Motivación
•C
onceptos básicos•
El proceso de m
inería de datos•
Selección de atributos
•A
lgoritmos de aprendizaje
–P
RIS
M: Inducción de reglas
–B
ayes Ingenuo–
ID3: árboles de decisión
•E
valuación y visualización
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Breve Introducción al A
prendizaje A
utomático con W
EK
A
Referencias
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Referencias
•U
samos básicam
ente–
I. WIT
TE
N, E
. FR
AN
K, D
ata
Min
ing
: Pra
ctic
al M
ach
ine
L
earn
ing
Too
ls a
nd
Tech
niq
ues w
ithJava
Ap
plic
atio
ns,
Morgan K
aufmann P
ublishers, 1999 -2005
•Q
A76.9 .D
3 W58 -
QA
76.9 .D343 W
58 Bib. U
EM
•C
apítulos 1, 4 y 5
–W
EK
A: http://w
ww
.cs.waikato.ac.nz/~
ml/w
eka/–
Usam
a Fayyad, G
regory Piatetsky-S
hapiro, and Padhraic
Sm
yth. Fro
mD
ata
Min
ing
to K
no
wle
dg
e D
iscovery
in
Da
taba
ses. A
I Magazine
17(3), 37-54 http://w
ww
.kdnuggets.com/gpspubs/aim
ag-kdd-overview-
1996-Fayyad.pdf
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Breve Introducción al A
prendizaje A
utomático con W
EK
A
Motivación
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Motivación
•O
bjetivo–
(semi) autom
atización de múltiples tareas
•P
redicción de enfermedades
•Identificación de m
areas negras•
Prevención de fraude financiero
•D
eterminación del periodo fértil del ganado vacuno
•D
etección del correo basura o Spam
•A
nálisis de tendencias en mercados financieros
•E
tc. Hasta el infinito
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Motivación
•U
sualmente, dichas tareas realizadas por
experto humano
•P
ara automatizar
–E
xtraer su conocimiento (experiencia) y codificarlo
(posiblemente) com
o reglas–
Desarrollo de un sistem
a experto o sistema
basado en conocimiento
–T
area del ingeniero del conocimiento
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Motivación
•E
.g. Recom
endación de lentes de contacto–
En función de•
Edad (A
ge), prescripción ocular o enfermedad
(Spectacle prescription), astigm
atismo (A
stigmatism
), tasa de lágrim
as (Tear production rate)
–R
ecomendar a un paciente
•Lentes blandas (S
oft), duras (Hard) o ninguna (N
one)
–E
l experto puede sugerir la regla•
Si la tasa de lágrim
as es bajaentonces (recom
endar) ninguna
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Motivación
•P
roblemas
–C
uello de botella de adquisición del conocimiento
•C
onocimiento difícil de form
alizar•
Expertos no cooperativos
–C
arencia de portabilidad y escalabilidad–
Se prescinde tem
poralmente del experto durante
la adquisición
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Motivación
•A
lternativa–
Adquirir el conocim
iento de manera autom
ática a partir de ejem
plos
•A
prendizaje Autom
ático–
“sistemas que aprenden a cam
biar su com
portamiento de m
odo que resulten más
efectivos en el futuro”
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Motivación
•(A
lgunas) ventajas–
Proceso de adquisición autom
ático–
Podem
os prescindir del experto, y quedarnos con sus datos–
La tecnología es portable = aprender sobre datos distintos =
> aplicar sobre dom
inios nuevos–
La tecnología es (generalmente) escalable =
de hecho, cuantos m
ás (y mejores) datos, m
ejor funcionará–
Posibilidad de explotar la actual abundancia de datos
–IM
PO
RT
AN
TE
: mú
ltiple
s ta
rea
s d
e P
LN
se
resue
lve
n a
sí d
e
ma
ne
ra (re
lativ
am
en
te) s
en
cilla
, y e
xis
ten
mu
cho
s d
ato
s
–IM
PO
RT
AN
TE
: so
ftwa
re d
isp
on
ible
-W
EK
A
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Motivación
•(A
lgunas) desventajas–
No siem
pre se alcanza la efectividad del experto–
El proceso general es bastante m
ás sofisticado•
Selección de fuentes, recopilación de datos, selección
de los más adecuados, estructuración y representación,
aprendizaje, comprensión de resultados
•D
escubrimiento de conocim
iento en bases de datos (K
nowledge D
iscovery in Databases, K
DD
)
–Los datos son confusos, erroneos, incom
pletos, pocos, con ruido, etc.
–M
uchas técnicas disponibles =>
comparar
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Breve Introducción al A
prendizaje A
utomático con W
EK
A
Conceptos básicos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Conceptos básicos
•T
erminología
–D
atos de entrada = ejem
plos, ejemplares,
instancias = colección de entrenam
iento–
Caracterizados por atributos o rasgos
–P
roceso = entrenam
iento o aprendizaje–
Salida =
clasificador•
Capaz de clasificar nuevos ejem
plares (de prueba u operativos)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Conceptos básicos
•E
.g. Datos para recom
endación de lentes
Ag
e
Sp
ecta
cle
pre
scrip
tion
A
stig
matis
m
Tear p
rod
uctio
n ra
te
Co
nta
ct le
nses
young m
yope no
reduced none
young m
yope no
normal
soft young
myope
yes reduced
none young
hypermetrope
yes reduced
none young
hypermetrope
yes norm
al hard
pre-presbyopic m
yope no
reduced none
pre-presbyopic m
yope no
normal
soft pre-presbyopic
hypermetrope
yes norm
al none
presbyopic m
yope no
reduced none
presbyopic hyperm
etrope yes
reduced none
presbyopic hyperm
etrope yes
normal
none …
...
... ...
...
Ejem
plarA
tributoP
osibles valores
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Conceptos básicos
•E
.g. Idem en form
ato AR
FF
(WE
KA
) –A
ttribute R
elation File F
ormat
@relation contact-lenses
@attribute age
{young, pre-presbyopic, presbyopic}
@attribute spectacle-prescrip
{myope, hypermetrope}
@attribute astigmatism
{no, yes}
@attribute tear-prod-rate
{reduced, normal}
@attribute contact-lenses
{soft, hard, none}
@data
young,myope,no,reduced,none
young,myope,no,normal,soft
young,myope,yes,reduced,none
...
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Conceptos básicos
•E
.g. Clasificador generado por P
RIS
M–
Sistem
a de (9) reglas de clasificación, incluyendo
IF astigmatism
= no
and tear-prod-rate
= normal
and spectacle-prescrip
= hypermetrope THEN soft
IF astigmatism
= yes
and tear-prod-rate
= normal
and spectacle-prescrip
= myope THEN hard
IF tear-prod-rate
= reduced THEN none
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Conceptos básicos
•Iniciando el explorador de W
EK
A
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Conceptos básicos
•C
argando datos en WE
KA
(Open file...)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Conceptos básicos
•O
bservando los datos en WE
KA
Datos generales
de la colección
Datos del atributo
seleccionado
Visualización del
atributo seleccionado
Atributos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Breve Introducción al A
prendizaje A
utomático con W
EK
A
El proceso de m
inería de datos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El proceso de m
inería de datos
•M
ás terminología
–D
escubrimiento de conocim
iento en bases de datos . K
no
wle
dg
e D
iscovery
in D
ata
bases (K
DD
)
–D
esarrollo de técnicas y métodos para extraer conocim
iento (=
información útil) a partir de grandes volúm
enes de datos–
Proceso de convertir datos en bajo nivel (dem
asiados para ser com
prendidos y asimilados) en otras form
as•
más com
pactas (informe corto)
•m
ás abstractas (una aproximación o m
odelo de cómo se
generan los datos)
•m
ás útiles (un modelo predictivo para estim
ar casos futuros)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El proceso de m
inería de datos
•E
l proceso del KD
D–
Todas las fases son im
portantes
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El proceso de m
inería de datos
•M
ás terminología
–M
inería de datos –D
ata
Min
ing
–E
l paso del proceso del KD
D que consiste en
aplicar sobre los datos, algoritmos de análisis y
descubrimiento que producen determ
inados patrones y m
odelos–
Es la parte m
ás cercana a “aprender” en sentido abstracto
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
El proceso de m
inería de datos
•W
EK
A da soporte a m
uchas fases del proceso–
Selección de ejem
plares y atributos–
Preprocesado m
anual de la colección–
Transform
aciones vía filtros–
Minería de datos (clasificación, agrupam
iento, etc.)
–E
valuación y visualización
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Breve Introducción al A
prendizaje A
utomático con W
EK
A
Selección de atributos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Selección de atributos
•A
lgunos atributos–
Pueden ser irrelevantes•
Discrim
inar a jugadores de baloncesto y nadadores en función del color de los ojos
–P
ueden no aportar información o introducir ruido
•E
.g. Si sus valores aparecen de m
anera equiprobableen
todas las clases
•C
onviene usar sólo los atributos más
informativos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Selección de atributos
•E
xisten métricas de calidad de los atributos
–M
iden la capacidad predictivade un atributo en
función de la relación entre sus valores y los de la clase
–E
stadística y teoría de la información
•E
jemplos
–G
anancia de Información (In
form
atio
n G
ain)
–χ
2(“chi”
al cuadrado)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Selección de atributos
•S
e usan seleccionando los atributos con m
ayor valor predictivo–
Por encim
a de un valor en la medida (e.g. cero)
–Los m
ejor situados en un ranking (e.g. el 1%
superior)
•S
e puede ganar efectividad•
Se gana eficiencia
–M
enos atributos =>
más rápido, m
enos mem
oria
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Selección de atributos
•G
anancia de información
–C
oncepto de teoría de la información basado en la
entropía–
Usado tam
bién en aprendizaje de reglas y de árboles de decisión (entre otros)
–M
uy usada en contextos de clasificación de texto
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Selección de atributos
•G
anancia de información
–E
ntropía = im
pureza de una colección de ejem
plos–
Sea una colección E
de ejemplos, N
clases (C
1 ,...,CN ), y sea P
i = P
(Ci )
–La entropía H
(E) se m
ide como
()i
2
N1i
iP
log.
P)
E(H
∑=
−=
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Selección de atributos
•G
anancia de información
–E
.g. En la colección “C
ontact Lenses”•
Hay tres clases =
soft(5), hard(4), none (15)
•La entropía es(
)(
)(
)(
)(
)(
)33,1
42,0
43,0
45,0
24/
15log
.24
/15
24/
4log
.24
/4
24/
5log
.24
/5
)C
L(
H
2
2 2
=+
+
− − −
= =
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Selección de atributos
•G
anancia de información
–R
educción esperada en la entropía al separar los ejem
plos de acuerdo con un atributo–
Sea la colección E
, un atributo A con M
valores V
1 ,...,VM , y los conjuntos E
i de ejemplares con
valor de A igual a V
i
–La ganancia de inform
ación de A respecto E
es
()
∑=
−=
M
1i
ii
EH.
E E)
E(H
)A,
E(IG
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Selección de atributos
•G
anancia de información
–E
.g. En la colección “C
ontact Lenses”•
El atributo a
stig
ma
tism
tiene 2 valores = yes (12), no (12)
•La distribución de clases por valor es
–yes =
soft(0), hard(4), none
(8)–
no = soft(5), hard
(0), none(17)
•Las entropías de las sub-colecciones a =
yes (E1 ) y de a
= no (E
2 ) son H(E
1 ) = 0,92 y H
(E2 ) =
0,98, luego
()
()
()
()
0,3798,0
5,0
92,0
5,0
33,1
EH.
EE
EH.
EE
)E(
H)
A,E(
IG2
21
1
=×
−×
−=
=−
−=
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Selección de atributos
•G
anancia de información en W
EK
A
Selección de atributos
Métrica =
Ganancia de Inf.
Tipo de búsqueda =
ranker
= producir un ra
nkin
gde los
atributos
Ra
nkin
gde atributos
astig
ma
tism
es el segundom
ejor
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Breve Introducción al A
prendizaje A
utomático con W
EK
A
PR
ISM
: Inducción de reglas
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•U
no de los algoritmos m
ás simples
•A
lgoritmo de recubrim
iento (co
ve
ring)
–E
n cada paso, se construye una regla que cubre un subconjunto de ejem
plares–
Estrategia de “separa y vencerás” (s
epara
te a
nd
conq
uer )
•E
ncuentra una regla útil, separa los ejemplos cubiertos,
“vence” a los restantes
–N
o “divide y vencerás”, porque los elementos
cubiertos no se vuelven a examinar
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•C
ada regla se construye agregando un test sobre un atributo–
E.g. A
ge = young
•Los tests se seleccionan para m
aximizar la
efectividad (porcentajede acierto) de la regla
•C
ada nuevo testreduce la cobertura
Espacio de
ejemplos
Regla actual
Regla tras
nuevo test
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•S
elección del test–
T =
número de ejem
plares cubiertos por la regla–
P =
número de ejem
plos positivos (en la clase objetivo) cubiertos por la regla
–E
legir el test que maxim
iza P/T
•F
inalizar la regla cuando P/T
= 1 o no se
puede dividir más el conjunto de ejem
plares
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•E
.g. Em
pezamos la regla “IF
testT
HE
N hard”
–T
ests posiblesP
/TA
ge=
Young
2/8A
ge=
Pre-presbyopic
1/8A
ge=
Presbyopic
1/8S
pectacle prescription=
Myope
3/12S
pectacle prescription=
Hyperm
etrope1/12
Astigm
atism=
no0/12
Astigm
atism=
yes4/12
Tear production rate
= R
educed0/12
Tear production rate
= N
ormal
4/12
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•E
.g. Con el m
ejor testIF
Astigm
atism=
yesT
HE
N hard
–E
jemplos cubiertos
Ag
e
Sp
ecta
cle
pre
scrip
tion
A
stig
matis
m
Tear p
rod
uctio
n ra
te
Co
nta
ct le
nses
young m
yope yes
reduced none
young m
yope yes
normal
hard young
hypermetrope
yes reduced
none young
hypermetrope
yes norm
al hard
pre-presbyopic m
yope yes
reduced none
pre-presbyopic m
yope yes
normal
hard pre-presbyopic
hypermetrope
yes reduced
none pre-presbyopic
hypermetrope
yes norm
al none
presbyopic m
yope yes
reduced none
presbyopic m
yope yes
normal
hard presbyopic
hypermetrope
yes reduced
none presbyopic
hypermetrope
yes norm
al none
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•E
.g. Continuam
os con la reglaIF
Astigm
atism=
yesA
ND
testT
HE
N hard
–T
ests posiblesP
/TA
ge=
Young
2/4A
ge=
Pre-presbyopic
1/4A
ge=
Presbyopic
1/4S
pectacle prescription=
Myope
3/6S
pectacle prescription=
Hyperm
etrope1/6
Tear production rate
= R
educed0/6
Tear production rate
= N
ormal
4/6
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•E
.g. En el siguiente refinam
ientoIF
Astigm
atism=
yesA
ND
Tear production rate
= N
ormal T
HE
N hard
–E
jemplos cubiertos
Ag
e
Sp
ecta
cle
pre
scrip
tion
A
stig
matis
m
Tear p
rod
uctio
n ra
te
Co
nta
ct le
nses
young m
yope yes
normal
hard young
hypermetrope
yes norm
al hard
pre-presbyopic m
yope yes
normal
hard pre-presbyopic
hypermetrope
yes norm
al none
presbyopic m
yope yes
normal
hard presbyopic
hypermetrope
yes norm
al none
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•E
.g. Continuam
os con la reglaIF
Astigm
atism=
yesA
ND
Tear production rate
=
Norm
al AN
D te
stT
HE
N hard
–T
ests posiblesP
/TA
ge=
Young
2/2A
ge=
Pre-presbyopic
1/2A
ge=
Presbyopic
1/2S
pectacle prescription=
Myope
3/3S
pectacle prescription=
Hyperm
etrope1/3
–E
n caso de empate =
> cobertura
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•E
.g. En el siguiente refinam
ientoIF
Astigm
atism=
yesA
ND
T
ear production rate=
Norm
al AN
DS
pectacle prescription=
Myope
TH
EN
hard–
Ejem
plos cubiertosA
ge
S
pe
cta
cle
pre
sc
riptio
n
Astig
ma
tism
T
ea
r pro
du
ctio
n ra
te
Co
nta
ct le
nse
s
young m
yope yes
normal
hard young
hypermetrope
yes norm
al hard
pre-presbyopic m
yope yes
normal
hard presbyopic
myope
yes norm
al hard
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•E
.g. Regla final
IF A
stigmatism
= yes
AN
D
Tear production rate
= N
ormal A
ND
Spectacle prescription
= M
yopeT
HE
N hard
•O
tra regla derivada sobre los ejemplos no
cubiertos de la clase “hard”IF
Age
= young A
ND
Astigm
atism=
yesA
ND
Tear production rate
= norm
al TH
EN
hard
•E
l proceso se repite para cada clase
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•P
seudocódigo de PR
ISM
Para cada clase CInicializar E
al conjunto de ejemplares
Mientras E
contiene ejemplares en la clase C
Crear regla nueva R
con lado izdo vacío para clase CH
asta que R es perfecta (o no quedan m
ás atributos) hacerP
ara cada atributo A no en R
, y cada valor v,P
robar a agregar la condición A =
v al lado izdo de RS
eleccionar A y v to para m
aximizar P
/T(resolver em
pates con máxim
o P)
Agregar A
= v a R
Elim
inar ejemplares cubiertos por R
de E
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•Las reglas de P
RIS
M–
Se pueden aplicar sin orden explícito
–A
ctúan como fragm
entos de conocimiento
independientes
•P
roblemas
–S
i son aplicables varias (con clases distintas)•
Usualm
ente, elegir la clase más frecuente aplicable
–S
i no es aplicable ninguna•
Usualm
ente, elegir la clase más frecuente (global)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
PR
ISM
enWE
KA
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
PR
ISM
enWE
KA
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
PR
ISM
: Inducción de reglas
•O
tros algoritmos de inducción de reglas
–R
ipper•
Clásico de W
. Cohen
•M
uy efectivo
–P
AR
T•
Reciente, usa árboles
de decisión•
Muy efectivo
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Breve Introducción al A
prendizaje A
utomático con W
EK
A
Bayes Ingenuo
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•S
istema de aprendizaje basado en el
teorema de B
ayes–
Modelado estadístico / probabilístico
–C
lasificador = tabla de probabilidades
–S
imple y efectivo
•A
plica simplificaciones m
anifiestamente falsas...
•P
ero los resultados son frecuentemente buenos
–B
ien fundamentado, estable
•P
equeños cambios en los datos =
> pequeños cam
bios en el clasificador
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•T
res pasos–
Pre-com
putar un conjunto/tabla de probabilidades–
Averiguar la probabilidad de cada clase dado un
ejemplar objetivo (sin clasificar)
–S
eleccionar la clase más probable
•E
.g. Contact Lenses
()
()
eE
cC
Pm
axarg
cc
e}
none,
hard,
soft{
c=
==
⇔∈
∈
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
.g. Contact Lenses
–P
or el Teorem
a de Bayes
–E
rgo, hay que computar
–P
ero no P(E
) –idéntico denom
inador para toda C
()
()
()
()e
EP
cC
P.c
Ce
EP
eE
cC
P=
==
==
==
()
c dada e
ejem
plar
del
adprobabilid
cC
eE
P=
==
()
c clase
la de
adprobabilid
cC
P=
=
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
.g. Contact Lenses
–E
.g. Cóm
puto de P(C
=soft|E
=e) para
e = ⟨young, m
yope, yes, reduced⟩
–E
stimador de m
áxima verosim
ilitud = núm
ero de ejem
plares (de entrenamiento) en s
oftdividido por
el número total de ejem
plares (de entrenamiento)
()
N)
softC(
Nsoft
CP
==
=
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
.g. Contact Lenses
–E
.g. Cóm
puto de P(C
=soft|E
=e) para
e = ⟨young, m
yope, yes, reduced⟩
–A
tributo = fragm
ento IND
EP
EN
DIE
NT
Ede
evidencia = B
ayes ING
EN
UO
()
()
()
()
()
softC
reducedtpr
P
softC
yesastigs
P
softC
myope
prespec
P
softC
youngage
Psoft
Ce
EP
==
×=
=
×=
=−
×=
==
==
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
.g. Contact Lenses
–E
.g. Cóm
puto de P(C
=soft|E
=e) para
e = ⟨young, m
yope, yes, reduced⟩
–¡¡¡¡¡¡P
uede ocurrir P(C
=c|E
=e)=
0 ∀c!!!!!!
()
()
()
5 2soft
CN
softC
youngage
Nsoft
Cyoung
ageP
==
==
==
=
()
()
()
05 0
softC
N
softC
reducedtpr
Nsoft
Creduced
tprP
==
=
==
==
=
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
.g. Contact Lenses
–P
ara evitar P(C
=c|E
=e)=
0, usar el estimador de
Laplace (“sumar 1”)
•A
gregar 1 en el numerador, y el núm
ero de sucesos posibles en el denom
inador
•E
.g. age ∈{young, pre-presbyopic, presbyopic} =
> tres
sucesos
•E
.g. tpr∈
{normal, reduced} =
> dos sucesos
•A
la larga converge al EM
V =
equi-probabilidad en caso de inform
ación nula
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
.g. Contact Lenses
–E
.g. Cóm
puto de P(C
=soft|E
=e) para
e = ⟨young, m
yope, yes, reduced⟩
–G
arantía P(C
=c|E
=e) ≠
0 ∀c
()
()
()
8 33
softC
N
1soft
Cyoung
ageN
softC
youngage
P=
+=
+=
==
==
()
()
()
7 12
softC
N
1soft
Creduced
tprN
softC
reducedtpr
P=
+=
+=
==
==
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
n general, para calcular P(C
=c|E
=e) para
cualesquiera c, e, precisamos
–P
(C=
c) ∀c
–P
(C=
c|A=
a) ∀c, A
, a
•E
.g. Contact Lenses
–P
(C=
soft), P(C
=hard), P
(C=
none)–
P(C
=soft|age=
young), P(C
=soft|age=
pre-presbyopic), P
(C=
soft|age=prebyopic),
P(C
=soft|spe-pre=
myope), ...
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
.g. Contact Lenses*
* Para P
(C=c) se usa el estim
ador de Laplace (sumar 1)
Cla
se (c
) P
(C=
c|a
ge=
yo
un
g)
P(C
=c|a
ge=
pre
-pre
sb
)P
(C=
c|a
ge=
pre
sb
)
soft0,375
0,3750,250
hard0,429
0,2860,286
none0,278
0,3330,389
Cla
se (c
) P
(C=
c)
soft0,22
hard0,18
none0,59
Cla
se (c
) P
(C=
c|sp
e-p
re=
myo
pe
)P
(C=
c|sp
e-p
re=
hyp
er)
soft0,429
0,571hard
0,6670,333
none0,471
0,529
Cla
se (c
) P
(C=
c|a
st=n
o)
P(C
=c|a
st=ye
s)
soft0,857
0,143hard
0,1670,833
none0,471
0,529
Cla
se (c
) P
(C=
c|tp
r=re
du
ce
d)
P(C
=c|tp
r=n
orm
al)
soft0,143
0,857hard
0,1670,833
none0,765
0,235
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
.g. Contact Lenses
–E
.g. Cóm
puto de P(C
=soft|E
=e) para
e = ⟨young, m
yope, yes, reduced⟩
()
()
()
()
()
()e
EP 0,000695
eE
P14,0
14,0
43,0
37,0
22,0
eE
P
softC
P.soft
Ce
EP
eE
softC
P
==
=
××
××
=
=
==
==
==
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
.g. Contact Lenses
–E
.g. Cóm
puto de P(C
=c|E
=e) para
e = ⟨young, m
yope, yes, reduced⟩
()
()e
EP 0,000695
eE
softC
P=
==
=
()
()e
EP 0,007142
eE
hardC
P=
==
=
()
()
daselecciona
eE
P 0,031223e
Enone
CP
<=
==
==
==
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•S
i precisamos auténticas probabilidades =
>
Teorem
a de la Probabilidad T
otal–
Si existen M
clases c1 ,...,c
M
()
()
()
∑=
=×
==
==
M
1i
ii
cC
Pc
Ce
EP
eE
P
e
c1c
2
c3
c4c
5
c6
Espacio de sucesos
(clases,ejemplares)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
.g. Contact Lenses
–E
.g. Cóm
puto de P(E
=e) para
e = ⟨young, m
yope, yes, reduced⟩
–Los térm
inos coinciden con los numeradores
anteriores =>
proyección al intervalo [0,1]
()
()
()
()
()
()
()
noneC
Pnone
Ce
EP
hardC
Phard
Ce
EP
softC
Psoft
Ce
EP
eE
P
=×
==
=×
==
=×
==
==
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•E
.g. Contact Lenses
–E
.g. Cóm
puto de P(E
=e) para
e = ⟨young, m
yope, yes, reduced⟩
()
0,03906031223,0
007142,0
000695,0
eE
P=
++
==
()
()
0,01770,03906000695,0
eE
P 0,000695e
Esoft
CP
==
==
==
()
0,1828e
Ehard
CP
==
=
()
daselecciona
0,7993e
Enone
CP
<=
==
==
==
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
En W
EK
A
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
En W
EK
A
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Bayes Ingenuo
•V
ersiones + avanzadas
–N
aiveBayes
•A
mpliación a atributos
numéricos
•E
stimadores refinados
–B
ayesNet
•R
edes de inferencia bayesiana•
Reconocen explícitam
entelas dependencias entreatributos
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Breve Introducción al A
prendizaje A
utomático con W
EK
A
ID3: árboles de decisión
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
ID3: árboles de decisión
•Inducción de árboles de decisión =
uno de los m
étodos más clásicos (R
oss Quinlan)
•Á
rboles de decisión–
Buena representación del conocim
iento =
operativa, clara y sencilla
•A
lgoritmo de inducción
–E
strategia descendente y recursiva = divide y
vencerás
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
ID3: árboles de decisión
•E
squema del algoritm
o–
Seleccionar un atributo para el nodo raíz –
crear una ram
a para cada posible valor del atributo–
Separar los ejem
plares en subconjuntos, uno por cada ram
a, según el valor del atributo–
Repetir recursivam
ente para cada rama, usando
el subconjunto asignado como colección
–D
etenerse si todas los ejemplares pertenecen a
la mism
a clase o no hay más atributos
–C
lasificación = la clase m
ás frecuente de la hoja
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
ID3: árboles de decisión
•E
lección del atributo de partición–
Métrica de calidad del atributo =
> G
anancia de Inform
ación (IG)
–E
xisten múltiples m
étricas con diferentes pero sim
ilares resultados en la efectividad•
E.g. R
atio de ganancia (Gain R
atio) mejora los
problemas producidos por atributos con m
uchos valores (ver + adelante)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
ID3: árboles de decisión
•E
.g. Juego de tenis–
Recom
endar jugaro no al tenis segúncondicionesm
eteorológicas–
4 atributos y dosclases
Ou
tloo
kT
em
pH
um
idity
Wn
dy
Pla
y
sunnyhot
highF
ALS
Eno
sunnyhot
highTR
UE
noovercast
hothigh
FA
LSE
yesrainy
mild
highF
ALS
Eyes
rainycool
normal
FA
LSE
yesrainy
coolnorm
alTR
UE
noovercast
coolnorm
alTR
UE
yessunny
mild
highF
ALS
Eno
sunnycool
normal
FA
LSE
yesrainy
mild
normal
FA
LSE
yessunny
mild
normal
TRU
Eyes
overcastm
ildhigh
TRU
Eyes
overcasthot
normal
FA
LSE
yesrainy
mild
highTR
UE
no
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
ID3: árboles de decisión
IG(O
utlook)
= 0.247 bits
IG(T
emp)
= 0.029 bits
IG(H
umidity)
= 0.152 bits
IG(W
indy)
= 0.048 bits
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
ID3: árboles de decisión
IG(T
emp) =
0.571 bitsIG
(Windy) =
0.020 bitsIG
(Hum
idity) = 0.971 bits
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
ID3: árboles de decisión
•N
o todas las hojas tienen que ser puras (sólo elem
entos de una clase)–
El proceso se detiene cuando no es posible partir m
ás
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
ID3: árboles de decisión
•Los atributos con alto núm
ero de valores son problem
áticos para IG–
El caso extrem
o es un código de identificación único
–IG
muestra preferencia por ellos
–P
romueve el sobre-ajuste
•A
lta efectividad sobre los datos de entrenamiento...
•P
ero baja sobre los reales, operativos•
Porque hem
os particularizado demasiado
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
ID3: árboles de decisión
•O
tros algoritmos de inducción de árboles
–C
4.5 = ID
3 mejorado con m
étricas de calidad distintas, tratam
iento de atributos numéricos, poda
del árbol para evitar el sobre-ajuste, etc.•
Es J48 en W
EK
A
–C
5.0 = C
4.5 con mejoras propietarias
–C
AR
T sim
ilar a los anteriores
•E
n general, todos (los mejorados) son
equivalentes en efectividad
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
ID3: árboles de decisión
WE
KA
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
ID3: árboles de decisión
WE
KA
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Breve Introducción al A
prendizaje A
utomático con W
EK
A
Evaluación y visualización
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Evaluación de algoritm
os
•E
s importante evaluar la calidad del
aprendizaje–
Efectividad –
Grado de acierto
–E
ficiencia•
Tiem
po invertido en aprender, en clasificar nuevos ejem
plares, mem
oria
–C
laridad del conocimiento obtenido (clasificador)
•U
na regla es más sencilla de entender que una tabla de
probabilidades, etc.
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Evaluación de algoritm
os
•N
os concentramos en efectividad
•La evaluación se com
pone de–
Protocolo•
Procedim
iento de evaluación•
¿C
ómo se tratan los datos?
–M
edidas o métricas
•S
us valores definen la calidad del sistema
•¿
Qué se calcula?
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Evaluación de algoritm
os
•P
rotocolo 1: colección de entrenamiento
–C
omputar la m
edida objetivo sobre la propia cole
cció
n d
e e
ntre
na
mie
nto
–E
l más sim
ple–
Injusto, no generalizable
Usar colección de entrenam
iento
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Evaluación de algoritm
os
•P
rotocolo 2: (sub) colección de evaluación –
Sobre una colección de evaluación separada
–S
e puede tomar del entrenam
iento•
Proporción –
usualmente 66/33, 90/10
–S
e pierden datos de entrenamiento
•P
ero no para el entrenamiento final
–M
ás justo, relativa generalidad
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Evaluación de algoritm
os
•P
rotocolo 2: (sub) colección de evaluación
Extraída de la colección
de entrenamiento
Disponible por otros
medios
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Evaluación de algoritm
os
•P
rotocolo 3: Validación cruzada en K
carpetas–
Procedim
iento•
Se divide la colección de entrenam
iento en K partes
–A
leatoria, conservando la proporción entre clases•
En K
turnos, se reserva una parte para evaluar y se entrena sobre las K
-1 restantes•
Se prom
edian o acumulan los resultados de cada turno
–E
l más justo y generalizador
–F
recuentemente K
= 3, 5, 10
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Evaluación de algoritm
os
Protocolo 3: V
alidación cruzada en K carpetas
Opción y K
(carpetas ogrupos)
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Evaluación de algoritm
os
•M
étricas de evaluación–
Exactitud –
accura
cy
•P
orcentaje de aciertos sobre número de intentos
•La m
ás habitual
Clasificado com
o no K
Clasificado en K
En la clase K
En K
complem
entaria
A
B
C
D
Es
pa
cio
de
eje
mp
lare
s
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Evaluación de algoritm
os
•T
abla/matriz de contingencia/confusión
Clasificado com
o KC
lasificado como no K
En K
AB
No en K
CD
B +
C +
DA
A+
Daccura
cy
+=
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Evaluación de algoritm
os
•M
últiples métricas
–A
plicables en situaciones que lo requieran–
Error, error cuadrático m
edio, cobertura, precisión, tasa de falsos positivos, etc.
Procesam
iento del Lenguaje Natural –
José María G
ómez H
idalgo –U
. Europea M
adrid
Evaluación de algoritm
osAccuracy
Error
Medidas para
cada clase
Tabla de confusión