Upload
tangia
View
53
Download
1
Embed Size (px)
DESCRIPTION
Descubrimiento Automático de Hiperónimos en Texto no Estructurado. Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías del Lenguaje Instituto Nacional de Astrofísica, Óptica y Electrónica. Introducción. Relaciones semánticas: - PowerPoint PPT Presentation
Citation preview
1
Descubrimiento Automático de Hiperónimos en
Texto no Estructurado
Tomado deRosa María Ortega Mendoza,
Tesis de Maestría, INAOE
Laboratorio de Tecnologías del Lenguaje
Instituto Nacional de Astrofísica, Óptica y Electrónica
2
Introducción
Relaciones semánticas: Sinonimia, antonimia,
meronimia, hiperonimia, etc.
Hiperónimo: Palabra cuyosignificado incluye el deotra(s).
animal – gato color – azul país – México
Recursos lingüísticos
construcción
Manual Automática•Ejemplo: WordNet
•Gran esfuerzo
•Tiempo
•General
•Un sólo idioma
•Orientación a un dominio específico.
•Menos esfuerzo
•Menor precisión
3
Introducción Un paso hacia la
construcción automática de ontologías
Independiente del uso de recursos lingüísticos externos
Independencia del idioma Aprovechar información
léxica
fútbol----------
tenis----------
Atletismo----------
deportes
Ejemplo del uso / Clasificación de textos
4
Estado del ArteTrabajo Propósito Entrada Boot-
strappingEvaluación de patrones
Recursos Externos
(Denicia et al., 2006)
Respuesta a preguntas de definición
Semillas No No No
(Pasca, 2004) Relaciones is-a
Patrones léxico-Sintácticos
Si No Etiquetador
(Ravichandrany Hovi 2002)
Respuesta a Preguntas
Semillas Si Si No
(Ravichandran et al., 2004)
Relaciones is-a
Patrones léxico-sintácticos
Si ? Etiquetador
5
Objetivos Objetivo General: Desarrollar un método para extraer
automáticamente hiperónimos a partir de textos no estructurados tomados automáticamente la Web.
Objetivos Específicos: Definir y aplicar un método de minería de texto que permita
obtener patrones léxicos de extracción para la relación de hiperonimia.
Especificar y desarrollar un método incremental para enriquecer el conjunto de patrones de extracción.
Proponer y aplicar un método de selección de tuplas usando algoritmos de ordenamiento basados en grafos.
6
Método propuesto
7
Método propuesto Paso 1: Extraer patrones léxicos a través de la Web. Paso 2: Aplicar los patrones léxicos para extraer
tuplas asociadas al dominio específico. Paso 3: Pesar los patrones léxicos con base en un
método de recomendación. Paso 4: Pesar las tuplas (idem). Paso 5: Repetir todos los pasos anteriores, eligiendo
las tuplas más confiables como nuevas semillas.
8
Pesado patrones/tuplas Peso de la tupla:
Mientras más patrones extraigan la misma tupla tenemos más evidencia de que es correcta.
Peso del patrón: Mientras más tuplas correctas extraiga un patrón
tenemos más evidencia de que es relevante.
•Peso del patrón•Número de repeticiones•Número de patrones activados
9
Pesado patrones/tuplas Método de recomendación basado en grafos Ejemplo:
Tuplas(P3) Tuplas(P4)P1
P4P2
P3
w12
w13
w23
w34
País – TurquíaPaís – caballoPaís – México…
País – TurquíaPaís – Francia…
País – TurquíaPaís – costaPaís – Francia…
País – Egipto…
Tuplas(P1) Tuplas(P2) Tuplas(P2) Tuplas(P3)
Tuplas(P1) Tuplas(P3)
10
Evaluación El catálogo es muy grande por lo que su
evaluación manual es prácticamente imposible. La evaluación será a través de un método
estadístico Tomar una muestra aleatoria proporcional al tamaño
del catálogo Con un nivel de confianza definido
Medir la precisión del catálogo No. de instancias correctas/ No. total de instancias
11
1er Intento Experimento: probar un método semi-
supervisado para seleccionar tuplas correctas Minería de texto para obtener patrones léxicos Se utilizó el algoritmo Expectation- Maximization:
Entrena un clasificador usando los datos etiquetados disponibles y probabilísticamente etiqueta los datos no etiquetados.
Colección de noticias EFE de 1994 y 1995 457 mil documentos ( ~1 Gb ).
12
Resultados PreliminaresNo Patrón Léxico No Patrón Léxico1 <INSTANCIA>. <CLASE> 18 <INSTANCIA>, <CLASE> Para
2 <CLASE>. <INSTANCIA> 19 la <INSTANCIA>, <CLASE>
3 <CLASE> - <INSTANCIA> 20 <INSTANCIA>, <CLASE> del
4 <CLASE> (<INSTANCIA>, 21 <INSTANCIA>, <CLASE> y
5 : <INSTANCIA>, <CLASE> 22 la <CLASE> de <INSTANCIA>
6 <INSTANCIA> y otros <CLASE> 23 <INSTANCIA> ( <CLASE> )
7 - <INSTANCIA> - <CLASE> 24 la <INSTANCIA> como <CLASE>
8 <INSTANCIA> - <CLASE> - 25 <CLASE> GNU / <INSTANCIA>
9 los <CLASE> del <INSTANCIA> 26 el <INSTANCIA> es un <CLASE>
10 <INSTANCIA>: <CLASE> 27 el <INSTANCIA> es el <CLASE>
11 , <INSTANCIA>, <CLASE> 28 <INSTANCIA> es un <CLASE> muy
12 de <INSTANCIA>, <CLASE> 29 <INSTANCIA> es un <CLASE> que
13 <INSTANCIA>, <CLASE> de 30 el <INSTANCIA> es una <CLASE>
14 el <INSTANCIA> - <CLASE> 31 un <INSTANCIA> es una <CLASE>
15 el <INSTANCIA>, <CLASE> 32 , la <INSTANCIA> es una <CLASE>
16 <INSTANCIA> - <CLASE>. 33 la <INSTANCIA> es el tercer <CLASE>
17 <CLASE>: <INSTANCIA> de 34 <INSTANCIA> es una <CLASE> limitada por
A través de un conjunto de 17 semillas se descubrieron 34 patrones léxicos
Instancia Claseamor sentimientogirasol plantaoro metalpino árbollinux sistema
operativo
fútbol deportemanzana frutatierra planetaagua líquido
: :
13
Resultados Preliminares Se caracterizaron las tuplas en función de los patrones
Instancia P1 P2 P3 P4 … P33 P34 clasepais_Japon 0 0 0 2 … 0 0 1
pais_Guinea 1 0 0 0 … 0 0 1
pais_Moscu 0 0 1 0 … 0 0 1...
.
.
.
.
.
.
.
.
.
.
.
.
… ...
.
.
.
.
.
.
14
Resultados Preliminares Entrenamiento: 500 tuplas (218 positivas y 282 negativas)
etiquetadas manualmente Prueba: 16,450 tuplas Después de 8 iteraciones EM convergió.
Concepto Correctas Incorrectas
Animal 2 0
Equipo 76 18
Organismo 27 16
País 84 16
Países 0 0
Presidente 219 25
Total 408 75
Precisión 84.47% 15.53%
Concepto Correctas Incorrectas
Total 626 75
Precisión 89.30% 10.7%
Clasificación EM
Catálogo Completo: Clasificación EM + clasificación manual
15
2do Intento Experimento: proponer un método basado en el
pesado de semillas y patrones Minería de texto para obtener patrones léxicos
Se utilizó la Web para obtener los patrones utilizando semillas
Se utilizó la Web para recuperar tuplas usando los patrones descubiertos
16
Aplicar SFM’s. Recuperar únicamente aquellas secuencias que contengan ambas etiquetas <instancia> y
<concepto> Se obtuvieron 4 conjuntos de SFM´s. El umbral de soporte utilizado para cada conjunto fue: instancia(singular)/concepto(singular): instancia(singular)/concepto(plural): instancia(plural)/concepto(singular): instancia(plural)/concepto(plural):
Reunir los 4 conjuntos de SFM’s en un solo conjunto.
Encontrando patrones léxicos
Pertenecer a varios dominios Incluir semillas en género masculino y
femenino. Contemplar instancias y conceptos en
forma plural y en singular.
Seleccionar Semillas (instancia-concepto)
Reunir Ejemplos
Etiquetar Ejemplos
Aplicar y Filtrar SFM’s
1010
55
Resultado de esta Fase: Una lista compuesta de 184/156 patrones léxicos
1
2
3
4Se observó que las semillas deberían:
Todos los ejemplos son normalizados con etiquetas <instancia> <concepto>
Se utilizó el motor de búsqueda Google. Se bajaron 500 ejemplos de uso
(snippets) para cada semilla.
17
Análisis de los patrones léxicos
# Patrón1 <concepto>, <instancia>,2 , <instancia>, <concepto> y3 la <instancia> es un <concepto> 4 <instancia>, el <concepto> de5 <concepto> ( <instancia> )6 : <concepto> : <instancia>• •• •• •
184 las <concepto> de <instancia>
# Patrón1 las <instancia> son <concepto>2 los <concepto> de <instancia>3 del <concepto> de <instancia>4 de las <instancia> como <concepto>5 <concepto> de <instancia> y6 las <instancia> son <concepto>• •• •• •
64 las <concepto> de <instancia>
Análisis de los patrones léxicos obtenidos.
Algunos patrones son muy generales, pues carecen de alguna frontera.
Varios patrones contienen signos de puntuación. Sin embargo, Google no reconoce signos de puntuación en sus búsquedas.
Lo anterior puede tratarse de la sig. forma:
1. Filtrar los patrones, eligiendo solo aquellos que no contienen signos de puntuación.
2. Filtrar los patrones, recuperando aquellos que contienen por lo menos una frontera (izquierda o derecha).
59
18
Aplicación los patrones léxicos. En esta fase, los patrones son aplicados sobre la Web,
con la finalidad de obtener un conjunto de tuplas, asociadas a un dominio específico.
Una tupla se encuentra constituída por: (hipónimo, hiperónimo)
Experimento 1: Mostrar la utilidad de los patrones obtenidos, así como, comprobar que la Web puede ser utilizada como un corpus de texto para extraer hipónimos. Se buscarán conceptos (hiperónimos) para las palabras
(instancias) del vocabulario.
19
Experimento 1Fijar los patrones
Lanzar los patrones fijados a la Web
Casar patrones fijos con la colección
Aplicar y Filtrar SFM’s
1
2
3
4
Todos los patrones son fijados con cada una de las palabras del vocabulario.
El conjunto de snippets recolectados, representa la colección sobre la cual se se aplican los patrones.
El matching se realiza casando 1 sola palabra.
Se bajaron 100 ejemplos de uso (snippets) para cada patrón fijado.
Vocabulariojava
Méxicopetróleo
EuroPatrones p/
javaEl * de javaEl java es un * que
:
Patrones p/Euro
El * deEuro
:
. . .
Patrones p/ java
snippet 1
Patrones p/Euro
snippet1:
. . .
Lista de conceptos
p/javaIsla quelenguaje
:
Lista de conceptos
p/EuroLa moneda...
. . .
Se aplicó SFM’s a caada lista de conceptos (existe una para cada palabra del vocabulario).
Como resultado obtuvimos un catálogo de conceptos para cada instancia (del vocabulario).
..
. ...
20
Experimento 1
Análisis de resultados del experimento 1 Se obtuvo un catálogo de palabras relacionadas pero no
necesariamente relaciones is-a. Se piensa que con un número mayor de patrones la precisión mejoraría
Palabra del Vocabulario
java México Petróleo Euro
Ejemplo de las primeras SFM’s
islaappletsappletlenguajexml
ciudadestadogolfopaiseslos
gasbarrilprecioyacimientosbarrilesRecurso
centimosmonedabilletesmonedas
Número de palabras en el catálogo con Soporte >=10
23 palabras 11 palabras 17 palabras 14 palabras
Precisión 21.73%_ 63.63% 11.7% 28.57%
21
Experimento 2 Objetivo: Obtener tuplas con el nombre completo del(a) concepto/instancia
cuando se forman de más de una palabra. 1: Seleccionar un vocabulario y fijarlos como instancias y como conceptos.
2: Lanzar los patrones fijos a la Web. Se recolectaron 100 snippets por cada patrón fijo. Como resultado obtenemos una colección, sobre la cual aplicamos los patrones convertidos en expresiones regulares. El “matching” es realizado de la siguiente forma:
bancodoctordiccionariofelino
novelaprofesiónrocasvino
Vocabulario 46 patrones*8 palabras del vocabulario = 368 patrones fijos para obtener instancias
Matching Ejemplo de Instancia extraídaA: Normal tigre de bengalaB: Una sola palabra tigre
C: Limitado por palabras vacías tigre
D: Completo El tigre de bengala es un felino que
Patrón: el <instancia> es un felino queSnippet: El tigre de bengala es un felino que siempre le ha fascinado al hombre
Ejemplo:
3: Aplicar SFM’s
22
Resultados Experimento 2Opción B
Buscando conceptos Buscando instancias Bancoinstitucionbilletespresidentetornillogobernador
cajerodirectoriogerenteprestamotarjeta
pruebasdesarrollomexicosangreespaña
germoplasmacreditoinversionimagenespichincha
Tamaño del Catálogo =31 Tamaño del Catálogo = 15Precisión= 4/31=12.90% Precisión= 2/15=13.33%● Diccionarioformaataquesproyectoherramientadefinicion
enciclopediaespeciedefinicionesusoobra
lunfardolenguasinonimosterminosdatos
autoridadesfilosofiainglesfisicaescritores
Tamaño del Catálogo =12 Tamaño del Catálogo = 14
Precisión= 1/12=8.33% Precisión=3/14 = 21.42%
Opción ABuscando conceptos Buscando instancias
BancobilletesbancocuentainstituciónPresidente
tornillosistemacuentasgobernadorcajero
desarrollopruebasmexicoespañasangre
germoplasmacreditoinversiontejidosbancos
Tamaño del Catálogo = 37 Tamaño del Catálogo 47Precisión= 4/37=10.81% Precisión=5/47=10.63%● Diccionario
definicionesdefinicionayudaespecieherramienta
diccionarioproyectosignificadotextopalabra
terminosdiccionario deinglesautoridadesLa Real Academia Española
filosofiala lengua españolaespañolla RAEPalabras
Tamaño del Catálogo = 33 Tamaño del Catálogo = 21Precisión:4/33 =12.21% Precisión:4/21= 19.04%
23
Fase 2: Experimento 2
Opción CBuscando conceptos Buscando instancias
Banco[34] billetes[29] institucion[21] cuenta[20] presidente[19] banco
[14] gobernador[12] cuentas[11] tornillo[11] directorio[11] cajero
[38] pruebas[37] mexico[37] desarrollo[36] sangre[31] germoplasma
[24] inversion[24] credito[19] nacion[19] banco[18] pichincha
Tamaño del Catálogo = 16 Tamaño del Catálogo = 36Precisión= 2/16=12.5% Precisión= 4/36=11.11%● Diccionario
[22] especie[22] definicion[20] herramienta[17] forma[16] ataques
[15] ayuda[14] diccionario[14] definiciones[13] seccion[13] proyecto
[55] sinonimos[31] terminos[27] diccionario[27] datos[24] RAE
[20] autoridades[19] filosofia[16] ingles[14] Real Academia Española
Tamaño del Catálogo = 16 Tamaño del Catálogo = 14
Precisión= 3/16=18.75% Precisión= 4/14=28.57%
Opción DBuscando conceptos Buscando instancias
Banco[98] de banco o[89] banco como[74] de banco[48] el banco y las[44] el banco es la[15]cajero
[28] banco,de,desarrollo[21] banco,de,datos.[18] un,banco,de,datos[16] banco,de,mexico[16] banco,de,inversiones
Tamaño del Catálogo = 39 Tamaño del Catálogo = 45
Precisión= 4/39=10.25% Precisión= 15/45=33.33%
● DiccionarioEn forma de diccionarioDel diccionario comoEnciclopediaUna obraConcepto
banco,quebanco,de,inversionbanco,de,españa,yel,banco,del,pichinchael,banco,del,estado
Tamaño del Catálogo = 21 Tamaño del Catálogo = 31Precisión= 2/21=9.52% Precisión= 14/31=45.16%
24
Fase 4 y 5: Esquema general
el-<instancia>-y-las-<concepto> Fijar
patrones
el-*-es-un-felino-de Pesar
patrones
el-felino-es-un-*-de = 17 Matching
MatchingPesar las tuplas
Lista de patrones Patrones fijando
<concepto>
enfermedaddiccionario
felinorocas.
Vocabulario
FelinoPantera….16.5Fuego….....0.1Enfemedad
FelinoPanteraFuegoEnfemedad
Snippet1snippet2
... ...
...
... ...
......
NOTA: Repetir el proceso fijando <instancias> para encontrar <conceptos>
Patrones pesados Web
25
Fase 4 y 5:Esquema General Fijar los patrones con las palabras del vocabulario buscando que los patrones
resultantes sean completamente cerrados. Ejemplo:
Patrón Fijar cada palabra del vocabulario como:
el <instancia> es una <concepto> → Concepto<instancia> es un <concepto> muy → Instanciael <instancia> es un <concepto> que → Ambos
25 patrones fueron fijados con instancias
31 patrones fueron fijados con conceptos
Pesar los patrones: Definir una medida que evalúe la confiabilidad de cada patrón. Realizar el matching de los patrones fijos con la Web
Se bajaron en promedio 600 ejemplos (snippets) por cada uno de los 46 patrones fijados. Matching a la colección de snippets
Los patrones fueron convertidos a expresiones regulares para permitir extraer parejas (hiperónimo-hiponimo)
Pesar las Tluplas: Definir una medida que evalúe la confiabilidad de cada tupla.
26
Peso = Patrón.17/74 = de <instancia> y <concepto> 16/74 = <instancia> y <concepto> de 3/74 = del <concepto> del <instancia> 3/74 = el <instancia> es uno de los <concepto> mas
1/74 = las <instancia> marinas son <concepto>
Parámetros del Experimento
W(p) Inicial W(I)
Hipótesis: Un patrón es más confiable si proviene de varias semillas. Eliminar aquellos patrones cuyo peso <= 1/74 ya que son muy
específicos.
Fase 4 y 5: Experimento 3
• De los 59 patrones se eliminaron 13 por tener pesos <= 1/74.
• Finalmente se trabajó con 46 patrones....
Una de las conclusiones es que tenemos mucha información
•Una lista de palabras relacionadas||
||)(semillas
pgeneranquesemillaspW ii
n
jj
n
jj
i
PW
PWIW
1
1
)(
)()(
Donde n= |Patrones|
Si Pj no generó esa tuplaW(Pj)=min[W(Pj)]
27
Parámetros del Experimento
W(p) Inicial W(I)
Fase 4 y 5: Experimento 4 Hipótesis: Un patrón es más confiable si proviene de varias Eliminar
aquellos patrones cuyo peso <= 1 ya que son muy específicos. 13 patrones fueron eliminados, por lo tanto se trabajó con 46.
Únicamente extraer instancias que son generadas por 2 o más patrones.
Si Pj no generó esa tuplaW(Pj)=min[W(Pj)]
n
jji PWIW
1
)()(Donde n= |Patrones|
semillasdeTotalpgeneranquesemillasdepW i
i#)(
28
Fase 4 y 5: Conclusiones de los experimentos 3 y 4 Buscando Conceptos
Experimento 8 Experimento 9 Experimento 8 Experimento9Banco Rocas SUCURSAL 1.13E-54 SUCURSAL 1.50E-43 MINERALES 4.37E-55 MINERALES 5.62E-44 CAJERO 5.72E-55 CAJERO 7.49E-44 CAIDA 3.88E-55 CAIDA 5.00E-44 TARJETAS 1.98E-55 TARJETAS 2.50E-44 ACANTILADOS 1.51E-55 ACANTILADOS 1.87E-44 GERENTE 1.80E-55 GERENTE 1.87E-44 SUELOS 1.51E-55 SUELOS 1.87E-44 CUENTAS 1.34E-55 CUENTAS 1.67E-44 SECUENCIAS 1.34E-55 SECUENCIAS 1.67E-44 NUMERO 1.19E-55 NUMERO 1.43E-44 FORMACIONES 1.34E-55 FORMACIONES 1.67E-44 CUENTA 9.38E-56 CUENTA 9.37E-45 MECANICA 1.02E-55 MECANICA 1.25E-44 BILLETE 6.25E-56 BILLETE 6.25E-45 CAIDAS 6.82E-56 CAIDAS 8.33E-45SERVICIOS 5.21E-56 SUCURSAL 1.50E-43 GRIETAS 6.82E-56 HENDIDURAS 8.33E-45Enfermedad Diccionario RIESGO 1.64E-53 RIESGO 2.40E-42 DICCIONARIO 2.81E-54 DICCIONARIO 4.00E-43TRATAMIENTO 4.29E-54 TRATAMIENTO 6.00E-43 INSTRUMENTO 9.62E-56 INSTRUMENTO 1.00E-44 CAUSA 1.01E-54 CAUSA 1.12E-43 DEFINICIONES 6.82E-56 BASE 8.33E-45 PROCESO 5.63E-55 SINTOMA 6.25E-44 BASE 6.82E-56 DEFINICIONES 8.33E-45 SINTOMA 5.63E-55 PROCESO 6.25E-44 PROYECTO 6.25E-56 PROYECTO 6.25E-45 FORMA 2.69E-55 FORMA 2.81E-44 TERMINOS 5.21E-56 TERMINOS 6.25E-45 FENOMENO 7.59E-56 FENOMENO 8.92E-45 RECURSO 4.55E-56 RECURSO 5.35E-45
29
Fase 4 y 5: Conclusiones de los experimentos 3 y 4 Buscando Instancias
Experimento8 Experimento9 Experimento8 Experimento9Banco Rocas CREDITO 3.50E-53 CREDITO 3.93E-53 PORFIDOS 1.40E-53 PORFIDOS 1.45E-53 DATOS 8.18E-54 DATOS 8.73E-54 HIELO 4.19E-54 HIELO 4.36E-54DESARROLLO 6.21E-54 DESARROLLO 6.55E-54 GRANITO 2.46E-54 GRANITO 2.42E-54 BANCOS 4.78E-54 BANCOS 4.85E-54 GRANITOS 1.73E-54 BASALTOS 1.62E-54 OCCIDENTE 2.12E-54 OCCIDENTE 2.18E-54 BASALTOS 1.73E-54 GRANITOS 1.62E-54 COSTA RICA 7.69E-55 COSTA RICA 7.27E-55 ARENISCAS 1.01E-54 ARENISCAS 9.70E-55 GALICIA 7.69E-55 GALICIA 7.27E-55 CALIZA 7.42E-55 CALIZA 6.42E-55 RESERVA 7.42E-55 RESERVA 6.42E-55 ESQUISTOS 6.99E-55 ESQUISTOS 6.23E-55 BBVA 7.10E-55 BBVA 6.23E-55 MINERALES 2.56E-55 ALZHEIMER 5.13E-55Enfermedad Novela CANCER 7.12E-52 CANCER 8.08E-52 HISTORIA 3.50E-54 HISTORIA 3.12E-54 EPILEPSIA 2.16E-54 GUMBORO 2.18E-54 INTRIGA 2.12E-54 TERROR 2.18E-54 ALCOHOLISMO 2.13E-54 EPILEPSIA 1.87E-54 FICCION 2.12E-54 INTRIGA 2.18E-54 GUMBORO 2.12E-54 ALCOHOLISMO 1.87E-54 TERROR 2.12E-54 FICCION 2.18E-54 TUBERCULOSIS 1.28E-54 TUBERCULOSIS 1.04E-54 AMOR 7.69E-55 AMOR 7.27E-55 CARIES 1.06E-54 ASMA 8.31E-55 NOVELA 7.44E-55 NOVELA 6.23E-55 ASMA 1.01E-54 CARIES 8.31E-55 RELATO 3.72E-55 RELATO 3.12E-55
30
Fase 4 y 5: Resultados de los experimentos 3 y 4 Estadísticas
Vocabulario
Buscando instanciasExp 3 Exp 4
Precisión No. de tuplas Precisión No. de tuplas
Banco 1/20= 5% 3116 1/20= 5% 178Diccionario 1/20= 5% 1062 1/20= 5% 76Enfermedad 15/20= 75% 3203 15/20= 75% 256256Felino 5/20= 25% 236 4/8=50% 88Profesión 10/20= 50% 2543 10/20=50% 198198Rocas 8/20= 40% 1718 9/20=45% 114114
31
Parámetros del Experimento
W(P) Inicial W(I) W(P) a través de I
Fase 3 y 4: Experimento 10
||)( ii pgeneranquesemillaspW
Hipótesis: Un patrón es más confiable si proviene de varias semillas. El peso de los patrones no esta normalizado con la finalidad de evitar
cantidades muy pequeñas al momento de multiplicarlos. Eliminar aquellos patrones cuyo peso <= 1 ya que son muy
específicos. Únicamente extraer tuplas que son generadas por 2 o más patrones.
Donde n= |Patrones|
Si Pj no generó esa tuplaW(Pj)=min[W(Pj)]
nt
IWIgeneranquePatronesPW
nt
jjj
i
1
)(*)(
Donde nt= Num. de tuplas que genera undeterminado patrón
n
jji PWIW
1
)()(
32
Fase 3 y 4: Experimento 12 Hipótesis: Un patrón ideal tendría alto recuerdo y alta precisión F-measure da un promedio entre precisión y recuerdo
Únicamente extraer tuplas que son generadas por 2 o más patrones
rpprF
2
2 )1(
1
||||patrónelporextraídastuplas
extraídassemillasp
Parámetros del Experimento
W(P) Inicial W(I) W(P) a través de I
01.0*)(
)( donde
FMaxFpW i
n
jji PWIW
1
)()(
Donde n= |Patrones|
Si Pj no generó esa tupla W(Pj)=min[W(Pj)]
nt
IWIgeneranquePatronesPW
nt
jjj
i
1
)(*)(
Donde nt= |tuplas que genera un patrón específico|
Precisión Recuerdo ||
||semillas
patrónelporextraídassemillasr
33
Fase 3 y 4:Experimento 14 Información mutua. Pantel y Pennacchiotti (2006) utilizan una medida
basada en Información Mutua (pmi) para evaluar la fuerza de asociación entre una instancia y un patrón.
Ellos estiman la información mutua entre una tupla i y un patron p con:
Parámetros del Experimento
W(P) inicial W(I) W(P) a través de I
01.0*)(
)( donde
FMaxFpW i
nt
IWIgeneranquePatronesPW
nt
jjj
i
1
)(*)(
Donde nt= Num. De tuplas que genera unDeterminado patrón
)(iW
)(iW
34
Fase 3 y 4: Comparación de Resultados
BUSCANDO INSTANCIAS
Exp. 10 Exp 12 Exp14 BANCO CREDITO CREDITO BID BANCO MUNDIAL BID BID DATOS DESARROLLO CUAL BHU BANCO MUNDIAL BANCO MUNDIAL DESARROLLO DATOS CITIBANK BBVA BHU BHU BANCOS BANCOS HSBC RESULTADO CUAL HSBC OCCIDENTE BBVA BBVA FMI NO CITIBANK BANCO DEL ESTADO COSTA RICA ADN BANCO DEL ESTADO BNDES BBVA NACION GALICIA BID BANCO MUNDIAL PROGRAMA BANCO DEL ESTADO CUAL RESERVA OCCIDENTE BHU FNDR HSBC BSCH BBVA RESERVA CREDITO PERU CREDITO BBVA ADN CITIBANK BANCOS BANCO SANTANDER ADN REPUBLICA CEREBROS COSTA RICA NACION BANHVI BANCOS CITIBANK PREVISION SOCIAL GALICIA KFW BANCO KFW FMI NO LOS TRABAJADORES CUAL REPUBLICA BICE NACION BNDES INGLATERRA BANCO MUNDIAL PROGRAMA SISTEMA PROGRAMA RESULTADO CHILE BHU FIDUCIARIO ENTIDAD REPUBLICA ENTIDAD CORNEAS PROGRAMA ADN NACION ARGENTINA BSCH NACION ARGENTINA COMERCIO DEPOSITOS GALICIA FIRA FMI NO KFW INFORMACION PRESTAMO BSCH BANSEFI BNDES ADN ROCAS PORFIDOS PORFIDOS PORFIDOS ARENISCAS GRANITO GRANITO HIELO HIELO BASALTOS ARENA MARMOL BASALTOS GRANITO GRANITO GRANITOS PIEDRAS BASALTOS MARMOL BASALTOS BASALTOS MARMOL CHOCOLATE GRANITOS GRANITOS GRANITOS GRANITOS GRANITO YACIMIENTOS PORFIDOS PORFIDOS CUARZO ARENISCAS LAVAS ANDESITA CALIZA CUARZO ARENISCAS ESQUISTOS MINERALES LOS ACANTILADOS LAVAS LAVAS CALIZA CALIZA SEDIMENTOS LOS CERROS CUARZO CALIZA ESQUISTOS CUARZO CALIZA DESMONTE LOS GRANITOIDES LOS GRANITOIDES MINERALES CORALES HIELO ESCOMBROS OCEANO BASALTO SEDIMENTOS MATERIALES CUARZO NIEVE FONDO LAVA ARENA MINERALES CORALES LOS MINERALES PAISAJE ECLOGITAS PIEDRAS SEDIMENTOS MATERIALES PLANTAS BASALTO PIZARRAS MARMOL MARMOL SUELO VEGETACION LAVA LOS GRANITOS ORIGEN VOLCANICO ARENA FONDO COLINAS HIELO TOBAS FALLA PIEDRAS PAISAJE TIERRAS ECLOGITAS OCEANO CORALES LAVAS OCEANO CANTOS RODADOS PIZARRAS FONDO MATERIALES ORIGEN VOLCANICO CORAL TIERRA LOS GRANITOS PAISAJE
1ra Iteración
2da Iteración
35
Fase 3 y 4: Comparación de Resultados
Vocabulario
Buscando instanciasExp 10 Exp 12 Exp. 14
Precisión (20)
Precisión (30) Tuplas Precisió
n (20) (30) Tuplas Precisión (20)
Precisión (30) Tuplas
Banco 5% 6% 45% 46.6% 55% 46.6%Diccionario 5% 3.3% 15% 10% 15% 10%Enfermedad 75% 8% 95% 96.6% 100%100% 96.6%96.6%Felino 57.1% 57.1% 57.1% 57.1% 57.1%57.1% 57.1%57.1%Profesión 60% 50% 70% 66.66% 60%60% 63.3%63.3%Rocas 40% 30% 35% 36.6% 65%65% 50%50%
Buscando ConceptosBanco 15% 10% 20% 16.6% 5% 3%Diccionario 20% 16% 30% 20% 20% 23.3%Enfermedad 30% 23% 30% 26% 10% 10%Felino 16.6% 16.6% 18.1% 18.1% 18.1% 18.1%Profesión 15% 10% 15% 10% 10% 10%Rocas 30% 20% 25% 20% 10% 13.3%
36
Fase 3 y 4: Comparación de Resultados Buscando Instancias
Buscando Conceptos
0%
20%
40%
60%
80%
100%
120%
Banco Diccionario Enfermedad Felino Profesión Rocas
Exp 10
Exp 12
Exp 14
0.00%
5.00%
10.00%
15.00%
20.00%
25.00%
30.00%
35.00%
Banco Diccionario Enfermedad Felino Profesión Rocas
Exp10
Exp12
Exp14
37
Patrones# Patrón # Patrón
1 <concepto>, <instancia>, 22 del <concepto> del <instancia> 2 , <instancia>, <concepto> y 23 <instancia> como <concepto>. 3 la <instancia> es un <concepto> 24 la <instancia> una <concepto> 4 <instancia>, el <concepto> de 25 tecas / <instancia> por 260 euros <concepto>.
5 las <concepto> de <instancia> 26 <instancia> y otros <concepto>, 6 <instancia> de la facultad de <concepto> 27 peces, <instancia>, <concepto> 7 , <instancia>, <concepto>, etc 28 , <instancia> y otros <concepto> 8 de <instancia> y <concepto> 29 <instancia>, <concepto> natural 9 marmol, <instancia>, <concepto> 30 el <instancia>, <concepto> que 10 el <instancia> es el <concepto> que 31 anorexia y <instancia>, <concepto> 11 <instancia>, <concepto> en 32 perros, <instancia>, peces y pequeños
<concepto>. 12 <concepto> griego <instancia>13 las <instancia> marinas son <concepto> 33 ecobosques 12 tecas / <instancia> por 260 euros
<concepto> 14 la <instancia> es la <concepto> 15 <concepto> de <instancia> y 34 licenciado en <concepto> de la actividad
<instancia> y del deporte 16 los <instancia> y otros <concepto> 17 <instancia>, las <concepto> 35 anorexia y <instancia>, <concepto> 18 <instancia> e historia de las <concepto> 36 en <concepto> de <instancia>19 <concepto> ( <instancia> ) 37 . <instancia>. <concepto> 20 la <instancia> y otros <concepto> 38 la <instancia> es el <concepto> de21 el <instancia> es un <concepto> de 39 de las <instancia> como <concepto>
38
Patrones# Patrón # Patrón
40 <instancia> es un <concepto> muy 58 <instancia>, <concepto> o 41 de la <instancia>, <concepto> 59 los <concepto>, las <instancia> 42 <instancia> ; <concepto> 60 <concepto> / <instancia> 43 , <instancia> y <concepto> 61 , pintura, <instancia>, <concepto> 44 <instancia>. los <concepto> 62 <concepto> como la <instancia> 45 el <instancia> es el unico <concepto> 63 de los <concepto> de <instancia> 46 <instancia> y <concepto>. 64 la <instancia> ( <concepto> 47 hojuelas o copos de <instancia> ); <concepto> 65 > <concepto> > <instancia>
66 . el <instancia> es el <concepto> 48 <instancia> es una <concepto>. 67 de <concepto> como <instancia> y 49 <concepto>, la <instancia> 68 la <instancia> como una <concepto> 50 de la <concepto> de <instancia> 69 el <instancia>, un <concepto> 51 el <instancia>, la luna y las <concepto> 70 del <concepto> de <instancia>52 las <instancia> son <concepto> que 71 el <instancia> es un <concepto> que53 de los <instancia> y <concepto> 72 <concepto> eran <instancia>54 <concepto> aplicadas de la <instancia> 73 <instancia>, <concepto> aplicadas55 de <concepto> ( <instancia> 74 <instancia> es una <concepto> de 56 . <instancia>, materiales para la contruccion,
marmoles, <concepto> naturales, natural´marbles, granite and stones
75 de accesorios y alimentacion para perros, <instancia>, aves, reptiles, peces y pequeños <concepto>.
57 : <instancia>, <concepto>
39
Patrones# Patrón # Patrón
76 <instancia> y <concepto>, una <concepto> de <instancia>77 en <concepto> ( <instancia> de <instancia> ( <concepto> 78 <instancia>. la <concepto> la <instancia>, el <concepto> 79 la <instancia>, <concepto> de de <instancia> o <concepto>
80 : <concepto> : <instancia> de <instancia>, <concepto> y81 ( <instancia>, <concepto> , <instancia>, <concepto>.82 lunas, <instancia>, <concepto> los <instancia>, <concepto> 83 de <instancia> como <concepto> de de <instancia> y otros <concepto> 84 <instancia> y <concepto> y la <instancia>. <concepto> 85 en <instancia>, <concepto> el <instancia>, <concepto> de86 , <concepto> y <instancia> las <instancia> son <concepto>,87 el <instancia> es la <concepto> <instancia> : <concepto> 88 de <instancia>, <concepto> de <instancia> en estado <concepto> 89 el <instancia> y las <concepto> <instancia>, <concepto> griego0 los <instancia> son <concepto> el uso de la <instancia> como <concepto>
las <instancia> son una <concepto> de los <instancia> y los <concepto> las <concepto> son <instancia> <instancia> u otros <concepto> facultad de <concepto> de la actividad <instancia> y
<instancia>, la <concepto> aparte de segregar por el abdomen la <instancia> con la que fabrica las <concepto> de araña.el <instancia> es el <concepto> de mayor
longevidad
40
Patrones# Patrón # Patrón
<instancia> - <concepto> de <instancia>. <concepto> <instancia> y <concepto> naturales la <instancia> es una <concepto> queque la <instancia> es una <concepto> el <concepto> de la <instancia>la <instancia> es el unico <concepto> natural <instancia> ( <concepto> de
<instancia>. el <concepto> <instancia> ( <concepto> ) , <instancia>, <concepto> de la <instancia>, <concepto> graficas, el <instancia>, el <concepto> <concepto>. <instancia>al <instancia>, <concepto> el <instancia> es el <concepto> interno mas<instancia> / <concepto> del <instancia>, <concepto> <concepto> de los <instancia> de la <instancia> como <concepto> de<concepto> del grupo de las <instancia> 156 <instancia> y <concepto> de<instancia>, el <concepto> mas<instancia>, <concepto> caliza, <instancia>, <concepto> graficasdel <instancia> como <concepto> de <concepto> de <instancia>.. <instancia>, <concepto> <concepto> de la actividad <instancia> y el deporte<instancia>, <concepto> del