40
1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías del Lenguaje Instituto Nacional de Astrofísica, Óptica y Electrónica

Descubrimiento Automático de Hiperónimos en Texto no Estructurado

  • Upload
    tangia

  • View
    53

  • Download
    1

Embed Size (px)

DESCRIPTION

Descubrimiento Automático de Hiperónimos en Texto no Estructurado. Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías del Lenguaje Instituto Nacional de Astrofísica, Óptica y Electrónica. Introducción. Relaciones semánticas: - PowerPoint PPT Presentation

Citation preview

Page 1: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

1

Descubrimiento Automático de Hiperónimos en

Texto no Estructurado

Tomado deRosa María Ortega Mendoza,

Tesis de Maestría, INAOE

Laboratorio de Tecnologías del Lenguaje

Instituto Nacional de Astrofísica, Óptica y Electrónica

Page 2: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

2

Introducción

Relaciones semánticas: Sinonimia, antonimia,

meronimia, hiperonimia, etc.

Hiperónimo: Palabra cuyosignificado incluye el deotra(s).

animal – gato color – azul país – México

Recursos lingüísticos

construcción

Manual Automática•Ejemplo: WordNet

•Gran esfuerzo

•Tiempo

•General

•Un sólo idioma

•Orientación a un dominio específico.

•Menos esfuerzo

•Menor precisión

Page 3: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

3

Introducción Un paso hacia la

construcción automática de ontologías

Independiente del uso de recursos lingüísticos externos

Independencia del idioma Aprovechar información

léxica

fútbol----------

tenis----------

Atletismo----------

deportes

Ejemplo del uso / Clasificación de textos

Page 4: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

4

Estado del ArteTrabajo Propósito Entrada Boot-

strappingEvaluación de patrones

Recursos Externos

(Denicia et al., 2006)

Respuesta a preguntas de definición

Semillas No No No

(Pasca, 2004) Relaciones is-a

Patrones léxico-Sintácticos

Si No Etiquetador

(Ravichandrany Hovi 2002)

Respuesta a Preguntas

Semillas Si Si No

(Ravichandran et al., 2004)

Relaciones is-a

Patrones léxico-sintácticos

Si ? Etiquetador

Page 5: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

5

Objetivos Objetivo General: Desarrollar un método para extraer

automáticamente hiperónimos a partir de textos no estructurados tomados automáticamente la Web.

Objetivos Específicos: Definir y aplicar un método de minería de texto que permita

obtener patrones léxicos de extracción para la relación de hiperonimia.

Especificar y desarrollar un método incremental para enriquecer el conjunto de patrones de extracción.

Proponer y aplicar un método de selección de tuplas usando algoritmos de ordenamiento basados en grafos.

Page 6: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

6

Método propuesto

Page 7: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

7

Método propuesto Paso 1: Extraer patrones léxicos a través de la Web. Paso 2: Aplicar los patrones léxicos para extraer

tuplas asociadas al dominio específico. Paso 3: Pesar los patrones léxicos con base en un

método de recomendación. Paso 4: Pesar las tuplas (idem). Paso 5: Repetir todos los pasos anteriores, eligiendo

las tuplas más confiables como nuevas semillas.

Page 8: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

8

Pesado patrones/tuplas Peso de la tupla:

Mientras más patrones extraigan la misma tupla tenemos más evidencia de que es correcta.

Peso del patrón: Mientras más tuplas correctas extraiga un patrón

tenemos más evidencia de que es relevante.

•Peso del patrón•Número de repeticiones•Número de patrones activados

Page 9: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

9

Pesado patrones/tuplas Método de recomendación basado en grafos Ejemplo:

Tuplas(P3) Tuplas(P4)P1

P4P2

P3

w12

w13

w23

w34

País – TurquíaPaís – caballoPaís – México…

País – TurquíaPaís – Francia…

País – TurquíaPaís – costaPaís – Francia…

País – Egipto…

Tuplas(P1) Tuplas(P2) Tuplas(P2) Tuplas(P3)

Tuplas(P1) Tuplas(P3)

Page 10: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

10

Evaluación El catálogo es muy grande por lo que su

evaluación manual es prácticamente imposible. La evaluación será a través de un método

estadístico Tomar una muestra aleatoria proporcional al tamaño

del catálogo Con un nivel de confianza definido

Medir la precisión del catálogo No. de instancias correctas/ No. total de instancias

Page 11: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

11

1er Intento Experimento: probar un método semi-

supervisado para seleccionar tuplas correctas Minería de texto para obtener patrones léxicos Se utilizó el algoritmo Expectation- Maximization:

Entrena un clasificador usando los datos etiquetados disponibles y probabilísticamente etiqueta los datos no etiquetados.

Colección de noticias EFE de 1994 y 1995 457 mil documentos ( ~1 Gb ).

Page 12: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

12

Resultados PreliminaresNo Patrón Léxico No Patrón Léxico1 <INSTANCIA>. <CLASE> 18 <INSTANCIA>, <CLASE> Para

2 <CLASE>. <INSTANCIA> 19 la <INSTANCIA>, <CLASE>

3 <CLASE> - <INSTANCIA> 20 <INSTANCIA>, <CLASE> del

4 <CLASE> (<INSTANCIA>, 21 <INSTANCIA>, <CLASE> y

5 : <INSTANCIA>, <CLASE> 22 la <CLASE> de <INSTANCIA>

6 <INSTANCIA> y otros <CLASE> 23 <INSTANCIA> ( <CLASE> )

7 - <INSTANCIA> - <CLASE> 24 la <INSTANCIA> como <CLASE>

8 <INSTANCIA> - <CLASE> - 25 <CLASE> GNU / <INSTANCIA>

9 los <CLASE> del <INSTANCIA> 26 el <INSTANCIA> es un <CLASE>

10 <INSTANCIA>: <CLASE> 27 el <INSTANCIA> es el <CLASE>

11 , <INSTANCIA>, <CLASE> 28 <INSTANCIA> es un <CLASE> muy

12 de <INSTANCIA>, <CLASE> 29 <INSTANCIA> es un <CLASE> que

13 <INSTANCIA>, <CLASE> de 30 el <INSTANCIA> es una <CLASE>

14 el <INSTANCIA> - <CLASE> 31 un <INSTANCIA> es una <CLASE>

15 el <INSTANCIA>, <CLASE> 32 , la <INSTANCIA> es una <CLASE>

16 <INSTANCIA> - <CLASE>. 33 la <INSTANCIA> es el tercer <CLASE>

17 <CLASE>: <INSTANCIA> de 34 <INSTANCIA> es una <CLASE> limitada por

A través de un conjunto de 17 semillas se descubrieron 34 patrones léxicos

Instancia Claseamor sentimientogirasol plantaoro metalpino árbollinux sistema

operativo

fútbol deportemanzana frutatierra planetaagua líquido

: :

Page 13: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

13

Resultados Preliminares Se caracterizaron las tuplas en función de los patrones

Instancia P1 P2 P3 P4 … P33 P34 clasepais_Japon 0 0 0 2 … 0 0 1

pais_Guinea 1 0 0 0 … 0 0 1

pais_Moscu 0 0 1 0 … 0 0 1...

.

.

.

.

.

.

.

.

.

.

.

.

… ...

.

.

.

.

.

.

Page 14: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

14

Resultados Preliminares Entrenamiento: 500 tuplas (218 positivas y 282 negativas)

etiquetadas manualmente Prueba: 16,450 tuplas Después de 8 iteraciones EM convergió.

Concepto Correctas Incorrectas

Animal 2 0

Equipo 76 18

Organismo 27 16

País 84 16

Países 0 0

Presidente 219 25

Total 408 75

Precisión 84.47% 15.53%

Concepto Correctas Incorrectas

Total 626 75

Precisión 89.30% 10.7%

Clasificación EM

Catálogo Completo: Clasificación EM + clasificación manual

Page 15: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

15

2do Intento Experimento: proponer un método basado en el

pesado de semillas y patrones Minería de texto para obtener patrones léxicos

Se utilizó la Web para obtener los patrones utilizando semillas

Se utilizó la Web para recuperar tuplas usando los patrones descubiertos

Page 16: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

16

Aplicar SFM’s. Recuperar únicamente aquellas secuencias que contengan ambas etiquetas <instancia> y

<concepto> Se obtuvieron 4 conjuntos de SFM´s. El umbral de soporte utilizado para cada conjunto fue: instancia(singular)/concepto(singular): instancia(singular)/concepto(plural): instancia(plural)/concepto(singular): instancia(plural)/concepto(plural):

Reunir los 4 conjuntos de SFM’s en un solo conjunto.

Encontrando patrones léxicos

Pertenecer a varios dominios Incluir semillas en género masculino y

femenino. Contemplar instancias y conceptos en

forma plural y en singular.

Seleccionar Semillas (instancia-concepto)

Reunir Ejemplos

Etiquetar Ejemplos

Aplicar y Filtrar SFM’s

1010

55

Resultado de esta Fase: Una lista compuesta de 184/156 patrones léxicos

1

2

3

4Se observó que las semillas deberían:

Todos los ejemplos son normalizados con etiquetas <instancia> <concepto>

Se utilizó el motor de búsqueda Google. Se bajaron 500 ejemplos de uso

(snippets) para cada semilla.

Page 17: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

17

Análisis de los patrones léxicos

# Patrón1 <concepto>, <instancia>,2 , <instancia>, <concepto> y3 la <instancia> es un <concepto> 4 <instancia>, el <concepto> de5 <concepto> ( <instancia> )6 : <concepto> : <instancia>• •• •• •

184 las <concepto> de <instancia>

# Patrón1 las <instancia> son <concepto>2 los <concepto> de <instancia>3 del <concepto> de <instancia>4 de las <instancia> como <concepto>5 <concepto> de <instancia> y6 las <instancia> son <concepto>• •• •• •

64 las <concepto> de <instancia>

Análisis de los patrones léxicos obtenidos.

Algunos patrones son muy generales, pues carecen de alguna frontera.

Varios patrones contienen signos de puntuación. Sin embargo, Google no reconoce signos de puntuación en sus búsquedas.

Lo anterior puede tratarse de la sig. forma:

1. Filtrar los patrones, eligiendo solo aquellos que no contienen signos de puntuación.

2. Filtrar los patrones, recuperando aquellos que contienen por lo menos una frontera (izquierda o derecha).

59

Page 18: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

18

Aplicación los patrones léxicos. En esta fase, los patrones son aplicados sobre la Web,

con la finalidad de obtener un conjunto de tuplas, asociadas a un dominio específico.

Una tupla se encuentra constituída por: (hipónimo, hiperónimo)

Experimento 1: Mostrar la utilidad de los patrones obtenidos, así como, comprobar que la Web puede ser utilizada como un corpus de texto para extraer hipónimos. Se buscarán conceptos (hiperónimos) para las palabras

(instancias) del vocabulario.

Page 19: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

19

Experimento 1Fijar los patrones

Lanzar los patrones fijados a la Web

Casar patrones fijos con la colección

Aplicar y Filtrar SFM’s

1

2

3

4

Todos los patrones son fijados con cada una de las palabras del vocabulario.

El conjunto de snippets recolectados, representa la colección sobre la cual se se aplican los patrones.

El matching se realiza casando 1 sola palabra.

Se bajaron 100 ejemplos de uso (snippets) para cada patrón fijado.

Vocabulariojava

Méxicopetróleo

EuroPatrones p/

javaEl * de javaEl java es un * que

:

Patrones p/Euro

El * deEuro

:

. . .

Patrones p/ java

snippet 1

Patrones p/Euro

snippet1:

. . .

Lista de conceptos

p/javaIsla quelenguaje

:

Lista de conceptos

p/EuroLa moneda...

. . .

Se aplicó SFM’s a caada lista de conceptos (existe una para cada palabra del vocabulario).

Como resultado obtuvimos un catálogo de conceptos para cada instancia (del vocabulario).

..

. ...

Page 20: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

20

Experimento 1

Análisis de resultados del experimento 1 Se obtuvo un catálogo de palabras relacionadas pero no

necesariamente relaciones is-a. Se piensa que con un número mayor de patrones la precisión mejoraría

Palabra del Vocabulario

java México Petróleo Euro

Ejemplo de las primeras SFM’s

islaappletsappletlenguajexml

ciudadestadogolfopaiseslos

gasbarrilprecioyacimientosbarrilesRecurso

centimosmonedabilletesmonedas

Número de palabras en el catálogo con Soporte >=10

23 palabras 11 palabras 17 palabras 14 palabras

Precisión 21.73%_ 63.63% 11.7% 28.57%

Page 21: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

21

Experimento 2 Objetivo: Obtener tuplas con el nombre completo del(a) concepto/instancia

cuando se forman de más de una palabra. 1: Seleccionar un vocabulario y fijarlos como instancias y como conceptos.

2: Lanzar los patrones fijos a la Web. Se recolectaron 100 snippets por cada patrón fijo. Como resultado obtenemos una colección, sobre la cual aplicamos los patrones convertidos en expresiones regulares. El “matching” es realizado de la siguiente forma:

bancodoctordiccionariofelino

novelaprofesiónrocasvino

Vocabulario 46 patrones*8 palabras del vocabulario = 368 patrones fijos para obtener instancias

Matching Ejemplo de Instancia extraídaA: Normal tigre de bengalaB: Una sola palabra tigre

C: Limitado por palabras vacías tigre

D: Completo El tigre de bengala es un felino que

Patrón: el <instancia> es un felino queSnippet: El tigre de bengala es un felino que siempre le ha fascinado al hombre

Ejemplo:

3: Aplicar SFM’s

Page 22: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

22

Resultados Experimento 2Opción B

Buscando conceptos Buscando instancias Bancoinstitucionbilletespresidentetornillogobernador

cajerodirectoriogerenteprestamotarjeta

pruebasdesarrollomexicosangreespaña

germoplasmacreditoinversionimagenespichincha

Tamaño del Catálogo =31 Tamaño del Catálogo = 15Precisión= 4/31=12.90% Precisión= 2/15=13.33%● Diccionarioformaataquesproyectoherramientadefinicion

enciclopediaespeciedefinicionesusoobra

lunfardolenguasinonimosterminosdatos

autoridadesfilosofiainglesfisicaescritores

Tamaño del Catálogo =12 Tamaño del Catálogo = 14

Precisión= 1/12=8.33% Precisión=3/14 = 21.42%

Opción ABuscando conceptos Buscando instancias

BancobilletesbancocuentainstituciónPresidente

tornillosistemacuentasgobernadorcajero

desarrollopruebasmexicoespañasangre

germoplasmacreditoinversiontejidosbancos

Tamaño del Catálogo = 37 Tamaño del Catálogo 47Precisión= 4/37=10.81% Precisión=5/47=10.63%● Diccionario

definicionesdefinicionayudaespecieherramienta

diccionarioproyectosignificadotextopalabra

terminosdiccionario deinglesautoridadesLa Real Academia Española

filosofiala lengua españolaespañolla RAEPalabras

Tamaño del Catálogo = 33 Tamaño del Catálogo = 21Precisión:4/33 =12.21% Precisión:4/21= 19.04%

Page 23: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

23

Fase 2: Experimento 2

Opción CBuscando conceptos Buscando instancias

Banco[34] billetes[29] institucion[21] cuenta[20] presidente[19] banco

[14] gobernador[12] cuentas[11] tornillo[11] directorio[11] cajero

[38] pruebas[37] mexico[37] desarrollo[36] sangre[31] germoplasma

[24] inversion[24] credito[19] nacion[19] banco[18] pichincha

Tamaño del Catálogo = 16 Tamaño del Catálogo = 36Precisión= 2/16=12.5% Precisión= 4/36=11.11%● Diccionario

[22] especie[22] definicion[20] herramienta[17] forma[16] ataques

[15] ayuda[14] diccionario[14] definiciones[13] seccion[13] proyecto

[55] sinonimos[31] terminos[27] diccionario[27] datos[24] RAE

[20] autoridades[19] filosofia[16] ingles[14] Real Academia Española

Tamaño del Catálogo = 16 Tamaño del Catálogo = 14

Precisión= 3/16=18.75% Precisión= 4/14=28.57%

Opción DBuscando conceptos Buscando instancias

Banco[98] de banco o[89] banco como[74] de banco[48] el banco y las[44] el banco es la[15]cajero

[28] banco,de,desarrollo[21] banco,de,datos.[18] un,banco,de,datos[16] banco,de,mexico[16] banco,de,inversiones

Tamaño del Catálogo = 39 Tamaño del Catálogo = 45

Precisión= 4/39=10.25% Precisión= 15/45=33.33%

● DiccionarioEn forma de diccionarioDel diccionario comoEnciclopediaUna obraConcepto

banco,quebanco,de,inversionbanco,de,españa,yel,banco,del,pichinchael,banco,del,estado

Tamaño del Catálogo = 21 Tamaño del Catálogo = 31Precisión= 2/21=9.52% Precisión= 14/31=45.16%

Page 24: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

24

Fase 4 y 5: Esquema general

el-<instancia>-y-las-<concepto> Fijar

patrones

el-*-es-un-felino-de Pesar

patrones

el-felino-es-un-*-de = 17 Matching

MatchingPesar las tuplas

Lista de patrones Patrones fijando

<concepto>

enfermedaddiccionario

felinorocas.

Vocabulario

FelinoPantera….16.5Fuego….....0.1Enfemedad

FelinoPanteraFuegoEnfemedad

Snippet1snippet2

... ...

...

... ...

......

NOTA: Repetir el proceso fijando <instancias> para encontrar <conceptos>

Patrones pesados Web

Page 25: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

25

Fase 4 y 5:Esquema General Fijar los patrones con las palabras del vocabulario buscando que los patrones

resultantes sean completamente cerrados. Ejemplo:

Patrón Fijar cada palabra del vocabulario como:

el <instancia> es una <concepto> → Concepto<instancia> es un <concepto> muy → Instanciael <instancia> es un <concepto> que → Ambos

25 patrones fueron fijados con instancias

31 patrones fueron fijados con conceptos

Pesar los patrones: Definir una medida que evalúe la confiabilidad de cada patrón. Realizar el matching de los patrones fijos con la Web

Se bajaron en promedio 600 ejemplos (snippets) por cada uno de los 46 patrones fijados. Matching a la colección de snippets

Los patrones fueron convertidos a expresiones regulares para permitir extraer parejas (hiperónimo-hiponimo)

Pesar las Tluplas: Definir una medida que evalúe la confiabilidad de cada tupla.

Page 26: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

26

Peso = Patrón.17/74 = de <instancia> y <concepto> 16/74 = <instancia> y <concepto> de 3/74 = del <concepto> del <instancia> 3/74 = el <instancia> es uno de los <concepto> mas

1/74 = las <instancia> marinas son <concepto>

Parámetros del Experimento

W(p) Inicial W(I)

Hipótesis: Un patrón es más confiable si proviene de varias semillas. Eliminar aquellos patrones cuyo peso <= 1/74 ya que son muy

específicos.

Fase 4 y 5: Experimento 3

• De los 59 patrones se eliminaron 13 por tener pesos <= 1/74.

• Finalmente se trabajó con 46 patrones....

Una de las conclusiones es que tenemos mucha información

•Una lista de palabras relacionadas||

||)(semillas

pgeneranquesemillaspW ii

n

jj

n

jj

i

PW

PWIW

1

1

)(

)()(

Donde n= |Patrones|

Si Pj no generó esa tuplaW(Pj)=min[W(Pj)]

Page 27: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

27

Parámetros del Experimento

W(p) Inicial W(I)

Fase 4 y 5: Experimento 4 Hipótesis: Un patrón es más confiable si proviene de varias Eliminar

aquellos patrones cuyo peso <= 1 ya que son muy específicos. 13 patrones fueron eliminados, por lo tanto se trabajó con 46.

Únicamente extraer instancias que son generadas por 2 o más patrones.

Si Pj no generó esa tuplaW(Pj)=min[W(Pj)]

n

jji PWIW

1

)()(Donde n= |Patrones|

semillasdeTotalpgeneranquesemillasdepW i

i#)(

Page 28: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

28

Fase 4 y 5: Conclusiones de los experimentos 3 y 4 Buscando Conceptos

Experimento 8 Experimento 9 Experimento 8 Experimento9Banco Rocas SUCURSAL 1.13E-54 SUCURSAL 1.50E-43 MINERALES 4.37E-55 MINERALES 5.62E-44 CAJERO 5.72E-55 CAJERO 7.49E-44 CAIDA 3.88E-55 CAIDA 5.00E-44 TARJETAS 1.98E-55 TARJETAS 2.50E-44 ACANTILADOS 1.51E-55 ACANTILADOS 1.87E-44 GERENTE 1.80E-55 GERENTE 1.87E-44 SUELOS 1.51E-55 SUELOS 1.87E-44 CUENTAS 1.34E-55 CUENTAS 1.67E-44 SECUENCIAS 1.34E-55 SECUENCIAS 1.67E-44 NUMERO 1.19E-55 NUMERO 1.43E-44 FORMACIONES 1.34E-55 FORMACIONES 1.67E-44 CUENTA 9.38E-56 CUENTA 9.37E-45 MECANICA 1.02E-55 MECANICA 1.25E-44 BILLETE 6.25E-56 BILLETE 6.25E-45 CAIDAS 6.82E-56 CAIDAS 8.33E-45SERVICIOS 5.21E-56 SUCURSAL 1.50E-43 GRIETAS 6.82E-56 HENDIDURAS 8.33E-45Enfermedad Diccionario RIESGO 1.64E-53 RIESGO 2.40E-42 DICCIONARIO 2.81E-54 DICCIONARIO 4.00E-43TRATAMIENTO 4.29E-54 TRATAMIENTO 6.00E-43 INSTRUMENTO 9.62E-56 INSTRUMENTO 1.00E-44 CAUSA 1.01E-54 CAUSA 1.12E-43 DEFINICIONES 6.82E-56 BASE 8.33E-45 PROCESO 5.63E-55 SINTOMA 6.25E-44 BASE 6.82E-56 DEFINICIONES 8.33E-45 SINTOMA 5.63E-55 PROCESO 6.25E-44 PROYECTO 6.25E-56 PROYECTO 6.25E-45 FORMA 2.69E-55 FORMA 2.81E-44 TERMINOS 5.21E-56 TERMINOS 6.25E-45 FENOMENO 7.59E-56 FENOMENO 8.92E-45 RECURSO 4.55E-56 RECURSO 5.35E-45

Page 29: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

29

Fase 4 y 5: Conclusiones de los experimentos 3 y 4 Buscando Instancias

Experimento8 Experimento9 Experimento8 Experimento9Banco Rocas CREDITO 3.50E-53 CREDITO 3.93E-53 PORFIDOS 1.40E-53 PORFIDOS 1.45E-53 DATOS 8.18E-54 DATOS 8.73E-54 HIELO 4.19E-54 HIELO 4.36E-54DESARROLLO 6.21E-54 DESARROLLO 6.55E-54 GRANITO 2.46E-54 GRANITO 2.42E-54 BANCOS 4.78E-54 BANCOS 4.85E-54 GRANITOS 1.73E-54 BASALTOS 1.62E-54 OCCIDENTE 2.12E-54 OCCIDENTE 2.18E-54 BASALTOS 1.73E-54 GRANITOS 1.62E-54 COSTA RICA 7.69E-55 COSTA RICA 7.27E-55 ARENISCAS 1.01E-54 ARENISCAS 9.70E-55 GALICIA 7.69E-55 GALICIA 7.27E-55 CALIZA 7.42E-55 CALIZA 6.42E-55 RESERVA 7.42E-55 RESERVA 6.42E-55 ESQUISTOS 6.99E-55 ESQUISTOS 6.23E-55 BBVA 7.10E-55 BBVA 6.23E-55 MINERALES 2.56E-55 ALZHEIMER 5.13E-55Enfermedad Novela CANCER 7.12E-52 CANCER 8.08E-52 HISTORIA 3.50E-54 HISTORIA 3.12E-54 EPILEPSIA 2.16E-54 GUMBORO 2.18E-54 INTRIGA 2.12E-54 TERROR 2.18E-54 ALCOHOLISMO 2.13E-54 EPILEPSIA 1.87E-54 FICCION 2.12E-54 INTRIGA 2.18E-54 GUMBORO 2.12E-54 ALCOHOLISMO 1.87E-54 TERROR 2.12E-54 FICCION 2.18E-54 TUBERCULOSIS 1.28E-54 TUBERCULOSIS 1.04E-54 AMOR 7.69E-55 AMOR 7.27E-55 CARIES 1.06E-54 ASMA 8.31E-55 NOVELA 7.44E-55 NOVELA 6.23E-55 ASMA 1.01E-54 CARIES 8.31E-55 RELATO 3.72E-55 RELATO 3.12E-55

Page 30: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

30

Fase 4 y 5: Resultados de los experimentos 3 y 4 Estadísticas

Vocabulario

Buscando instanciasExp 3 Exp 4

Precisión No. de tuplas Precisión No. de tuplas

Banco 1/20= 5% 3116 1/20= 5% 178Diccionario 1/20= 5% 1062 1/20= 5% 76Enfermedad 15/20= 75% 3203 15/20= 75% 256256Felino 5/20= 25% 236 4/8=50% 88Profesión 10/20= 50% 2543 10/20=50% 198198Rocas 8/20= 40% 1718 9/20=45% 114114

Page 31: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

31

Parámetros del Experimento

W(P) Inicial W(I) W(P) a través de I

Fase 3 y 4: Experimento 10

||)( ii pgeneranquesemillaspW

Hipótesis: Un patrón es más confiable si proviene de varias semillas. El peso de los patrones no esta normalizado con la finalidad de evitar

cantidades muy pequeñas al momento de multiplicarlos. Eliminar aquellos patrones cuyo peso <= 1 ya que son muy

específicos. Únicamente extraer tuplas que son generadas por 2 o más patrones.

Donde n= |Patrones|

Si Pj no generó esa tuplaW(Pj)=min[W(Pj)]

nt

IWIgeneranquePatronesPW

nt

jjj

i

1

)(*)(

Donde nt= Num. de tuplas que genera undeterminado patrón

n

jji PWIW

1

)()(

Page 32: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

32

Fase 3 y 4: Experimento 12 Hipótesis: Un patrón ideal tendría alto recuerdo y alta precisión F-measure da un promedio entre precisión y recuerdo

Únicamente extraer tuplas que son generadas por 2 o más patrones

rpprF

2

2 )1(

1

||||patrónelporextraídastuplas

extraídassemillasp

Parámetros del Experimento

W(P) Inicial W(I) W(P) a través de I

01.0*)(

)( donde

FMaxFpW i

n

jji PWIW

1

)()(

Donde n= |Patrones|

Si Pj no generó esa tupla W(Pj)=min[W(Pj)]

nt

IWIgeneranquePatronesPW

nt

jjj

i

1

)(*)(

Donde nt= |tuplas que genera un patrón específico|

Precisión Recuerdo ||

||semillas

patrónelporextraídassemillasr

*
Falta un experimento antes
Page 33: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

33

Fase 3 y 4:Experimento 14 Información mutua. Pantel y Pennacchiotti (2006) utilizan una medida

basada en Información Mutua (pmi) para evaluar la fuerza de asociación entre una instancia y un patrón.

Ellos estiman la información mutua entre una tupla i y un patron p con:

Parámetros del Experimento

W(P) inicial W(I) W(P) a través de I

01.0*)(

)( donde

FMaxFpW i

nt

IWIgeneranquePatronesPW

nt

jjj

i

1

)(*)(

Donde nt= Num. De tuplas que genera unDeterminado patrón

)(iW

)(iW

Page 34: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

34

Fase 3 y 4: Comparación de Resultados

BUSCANDO INSTANCIAS

Exp. 10 Exp 12 Exp14 BANCO CREDITO CREDITO BID BANCO MUNDIAL BID BID DATOS DESARROLLO CUAL BHU BANCO MUNDIAL BANCO MUNDIAL DESARROLLO DATOS CITIBANK BBVA BHU BHU BANCOS BANCOS HSBC RESULTADO CUAL HSBC OCCIDENTE BBVA BBVA FMI NO CITIBANK BANCO DEL ESTADO COSTA RICA ADN BANCO DEL ESTADO BNDES BBVA NACION GALICIA BID BANCO MUNDIAL PROGRAMA BANCO DEL ESTADO CUAL RESERVA OCCIDENTE BHU FNDR HSBC BSCH BBVA RESERVA CREDITO PERU CREDITO BBVA ADN CITIBANK BANCOS BANCO SANTANDER ADN REPUBLICA CEREBROS COSTA RICA NACION BANHVI BANCOS CITIBANK PREVISION SOCIAL GALICIA KFW BANCO KFW FMI NO LOS TRABAJADORES CUAL REPUBLICA BICE NACION BNDES INGLATERRA BANCO MUNDIAL PROGRAMA SISTEMA PROGRAMA RESULTADO CHILE BHU FIDUCIARIO ENTIDAD REPUBLICA ENTIDAD CORNEAS PROGRAMA ADN NACION ARGENTINA BSCH NACION ARGENTINA COMERCIO DEPOSITOS GALICIA FIRA FMI NO KFW INFORMACION PRESTAMO BSCH BANSEFI BNDES ADN ROCAS PORFIDOS PORFIDOS PORFIDOS ARENISCAS GRANITO GRANITO HIELO HIELO BASALTOS ARENA MARMOL BASALTOS GRANITO GRANITO GRANITOS PIEDRAS BASALTOS MARMOL BASALTOS BASALTOS MARMOL CHOCOLATE GRANITOS GRANITOS GRANITOS GRANITOS GRANITO YACIMIENTOS PORFIDOS PORFIDOS CUARZO ARENISCAS LAVAS ANDESITA CALIZA CUARZO ARENISCAS ESQUISTOS MINERALES LOS ACANTILADOS LAVAS LAVAS CALIZA CALIZA SEDIMENTOS LOS CERROS CUARZO CALIZA ESQUISTOS CUARZO CALIZA DESMONTE LOS GRANITOIDES LOS GRANITOIDES MINERALES CORALES HIELO ESCOMBROS OCEANO BASALTO SEDIMENTOS MATERIALES CUARZO NIEVE FONDO LAVA ARENA MINERALES CORALES LOS MINERALES PAISAJE ECLOGITAS PIEDRAS SEDIMENTOS MATERIALES PLANTAS BASALTO PIZARRAS MARMOL MARMOL SUELO VEGETACION LAVA LOS GRANITOS ORIGEN VOLCANICO ARENA FONDO COLINAS HIELO TOBAS FALLA PIEDRAS PAISAJE TIERRAS ECLOGITAS OCEANO CORALES LAVAS OCEANO CANTOS RODADOS PIZARRAS FONDO MATERIALES ORIGEN VOLCANICO CORAL TIERRA LOS GRANITOS PAISAJE

1ra Iteración

2da Iteración

Page 35: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

35

Fase 3 y 4: Comparación de Resultados

Vocabulario

Buscando instanciasExp 10 Exp 12 Exp. 14

Precisión (20)

Precisión (30) Tuplas Precisió

n (20) (30) Tuplas Precisión (20)

Precisión (30) Tuplas

Banco 5% 6% 45% 46.6% 55% 46.6%Diccionario 5% 3.3% 15% 10% 15% 10%Enfermedad 75% 8% 95% 96.6% 100%100% 96.6%96.6%Felino 57.1% 57.1% 57.1% 57.1% 57.1%57.1% 57.1%57.1%Profesión 60% 50% 70% 66.66% 60%60% 63.3%63.3%Rocas 40% 30% 35% 36.6% 65%65% 50%50%

Buscando ConceptosBanco 15% 10% 20% 16.6% 5% 3%Diccionario 20% 16% 30% 20% 20% 23.3%Enfermedad 30% 23% 30% 26% 10% 10%Felino 16.6% 16.6% 18.1% 18.1% 18.1% 18.1%Profesión 15% 10% 15% 10% 10% 10%Rocas 30% 20% 25% 20% 10% 13.3%

Page 36: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

36

Fase 3 y 4: Comparación de Resultados Buscando Instancias

Buscando Conceptos

0%

20%

40%

60%

80%

100%

120%

Banco Diccionario Enfermedad Felino Profesión Rocas

Exp 10

Exp 12

Exp 14

0.00%

5.00%

10.00%

15.00%

20.00%

25.00%

30.00%

35.00%

Banco Diccionario Enfermedad Felino Profesión Rocas

Exp10

Exp12

Exp14

Page 37: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

37

Patrones# Patrón # Patrón

1 <concepto>, <instancia>, 22 del <concepto> del <instancia> 2 , <instancia>, <concepto> y 23 <instancia> como <concepto>. 3 la <instancia> es un <concepto> 24 la <instancia> una <concepto> 4 <instancia>, el <concepto> de 25 tecas / <instancia> por 260 euros <concepto>.

5 las <concepto> de <instancia> 26 <instancia> y otros <concepto>, 6 <instancia> de la facultad de <concepto> 27 peces, <instancia>, <concepto> 7 , <instancia>, <concepto>, etc 28 , <instancia> y otros <concepto> 8 de <instancia> y <concepto> 29 <instancia>, <concepto> natural 9 marmol, <instancia>, <concepto> 30 el <instancia>, <concepto> que 10 el <instancia> es el <concepto> que 31 anorexia y <instancia>, <concepto> 11 <instancia>, <concepto> en 32 perros, <instancia>, peces y pequeños

<concepto>. 12 <concepto> griego <instancia>13 las <instancia> marinas son <concepto> 33 ecobosques 12 tecas / <instancia> por 260 euros

<concepto> 14 la <instancia> es la <concepto> 15 <concepto> de <instancia> y 34 licenciado en <concepto> de la actividad

<instancia> y del deporte 16 los <instancia> y otros <concepto> 17 <instancia>, las <concepto> 35 anorexia y <instancia>, <concepto> 18 <instancia> e historia de las <concepto> 36 en <concepto> de <instancia>19 <concepto> ( <instancia> ) 37 . <instancia>. <concepto> 20 la <instancia> y otros <concepto> 38 la <instancia> es el <concepto> de21 el <instancia> es un <concepto> de 39 de las <instancia> como <concepto>

Page 38: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

38

Patrones# Patrón # Patrón

40 <instancia> es un <concepto> muy 58 <instancia>, <concepto> o 41 de la <instancia>, <concepto> 59 los <concepto>, las <instancia> 42 <instancia> ; <concepto> 60 <concepto> / <instancia> 43 , <instancia> y <concepto> 61 , pintura, <instancia>, <concepto> 44 <instancia>. los <concepto> 62 <concepto> como la <instancia> 45 el <instancia> es el unico <concepto> 63 de los <concepto> de <instancia> 46 <instancia> y <concepto>. 64 la <instancia> ( <concepto> 47 hojuelas o copos de <instancia> ); <concepto> 65 > <concepto> > <instancia>

66 . el <instancia> es el <concepto> 48 <instancia> es una <concepto>. 67 de <concepto> como <instancia> y 49 <concepto>, la <instancia> 68 la <instancia> como una <concepto> 50 de la <concepto> de <instancia> 69 el <instancia>, un <concepto> 51 el <instancia>, la luna y las <concepto> 70 del <concepto> de <instancia>52 las <instancia> son <concepto> que 71 el <instancia> es un <concepto> que53 de los <instancia> y <concepto> 72 <concepto> eran <instancia>54 <concepto> aplicadas de la <instancia> 73 <instancia>, <concepto> aplicadas55 de <concepto> ( <instancia> 74 <instancia> es una <concepto> de 56 . <instancia>, materiales para la contruccion,

marmoles, <concepto> naturales, natural´marbles, granite and stones

75 de accesorios y alimentacion para perros, <instancia>, aves, reptiles, peces y pequeños <concepto>.

57 : <instancia>, <concepto>

Page 39: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

39

Patrones# Patrón # Patrón

76 <instancia> y <concepto>, una <concepto> de <instancia>77 en <concepto> ( <instancia> de <instancia> ( <concepto> 78 <instancia>. la <concepto> la <instancia>, el <concepto> 79 la <instancia>, <concepto> de de <instancia> o <concepto>

80 : <concepto> : <instancia> de <instancia>, <concepto> y81 ( <instancia>, <concepto> , <instancia>, <concepto>.82 lunas, <instancia>, <concepto> los <instancia>, <concepto> 83 de <instancia> como <concepto> de de <instancia> y otros <concepto> 84 <instancia> y <concepto> y la <instancia>. <concepto> 85 en <instancia>, <concepto> el <instancia>, <concepto> de86 , <concepto> y <instancia> las <instancia> son <concepto>,87 el <instancia> es la <concepto> <instancia> : <concepto> 88 de <instancia>, <concepto> de <instancia> en estado <concepto> 89 el <instancia> y las <concepto> <instancia>, <concepto> griego0 los <instancia> son <concepto> el uso de la <instancia> como <concepto>

las <instancia> son una <concepto> de los <instancia> y los <concepto> las <concepto> son <instancia> <instancia> u otros <concepto> facultad de <concepto> de la actividad <instancia> y

<instancia>, la <concepto> aparte de segregar por el abdomen la <instancia> con la que fabrica las <concepto> de araña.el <instancia> es el <concepto> de mayor

longevidad

Page 40: Descubrimiento Automático de Hiperónimos en  Texto no Estructurado

40

Patrones# Patrón # Patrón

<instancia> - <concepto> de <instancia>. <concepto> <instancia> y <concepto> naturales la <instancia> es una <concepto> queque la <instancia> es una <concepto> el <concepto> de la <instancia>la <instancia> es el unico <concepto> natural <instancia> ( <concepto> de

<instancia>. el <concepto> <instancia> ( <concepto> ) , <instancia>, <concepto> de la <instancia>, <concepto> graficas, el <instancia>, el <concepto> <concepto>. <instancia>al <instancia>, <concepto> el <instancia> es el <concepto> interno mas<instancia> / <concepto> del <instancia>, <concepto> <concepto> de los <instancia> de la <instancia> como <concepto> de<concepto> del grupo de las <instancia> 156 <instancia> y <concepto> de<instancia>, el <concepto> mas<instancia>, <concepto> caliza, <instancia>, <concepto> graficasdel <instancia> como <concepto> de <concepto> de <instancia>.. <instancia>, <concepto> <concepto> de la actividad <instancia> y el deporte<instancia>, <concepto> del