25
Resolución de correferencias en discursos fragmentados para la captura de eventos Lucía Cantamutto, Josu Bermúdez, Joseba Abaitua, Rodrigo Agerri, David Buján, Josu K. Díaz-Labrador Universidad Nacional del Sur (Argentina), Universidad de Deusto XLIII Congreso de la Sociedad Española de Lingüística 2014

Resolución de correferencias en discursos fragmentados para la captura de eventos

Embed Size (px)

Citation preview

Page 1: Resolución de correferencias en discursos fragmentados para la captura de eventos

Resolución de correferencias en discursos fragmentados para la

captura de eventosLucía Cantamutto, Josu Bermúdez, Joseba Abaitua, Rodrigo Agerri,

David Buján, Josu K. Díaz-Labrador

Universidad Nacional del Sur (Argentina), Universidad de DeustoXLIII Congreso de la Sociedad Española de Lingüística 2014

Page 2: Resolución de correferencias en discursos fragmentados para la captura de eventos

Objetivos● Aplicar y evaluar herramientas de recuperación de

información / minería de datos (OpeNER)● Reconocer entidades y resolver correferencias

(Bermúdez 2013), (Agerri y otros 2013)● Capturar “eventos” a partir de textos informativos

culturales (Buján y otros 2013)● Contribuir a DBpedia, OpenData, Simple Event Model● Colaborar con EuskoMedia, Wikipedia, topHistoria

Page 3: Resolución de correferencias en discursos fragmentados para la captura de eventos

Clasificación de entidades onomásticas1. Antropónimos (nombres de persona)2. Organizaciones3. Topónimos (políticos o físicos)4. Títulos (películas, libros, canciones, acontecimientos, etc.)5. Expresiones numéricas fecha-tiempo 6. Otras NE (medidas --porcentajes, monetarias, pesos--, direcciones de

correo, direcciones Web, etc.)

(Martínez Rodríguez, 2009:12)

Named Entity (NE)

Page 4: Resolución de correferencias en discursos fragmentados para la captura de eventos

“Anaphora is the device of making in discourse an abbreviated reference to some entity (or entities) in the expectation that the perceiver of the discourse will be able to disabbreviate the reference and thereby determine the identity of the entity. The reference is called ANAPHOR, and the entity to which refers is the REFERENT or ANTECEDENT. A reference and its referent are said CORREFERENTIAL. The process of determining the referent of an anaphor is called RESOLUTION” (Hirst, 1981:4).

Revisado por Recasens (2008:2): carácter textual de la relación de interdependencia

Correferencia Anáfora

Page 5: Resolución de correferencias en discursos fragmentados para la captura de eventos

Anáfora

● Los elementos anafóricos siempre dependen de un antecedente en el texto

● Su significado no es pleno, requiere necesariamente de una mención anterior

Page 6: Resolución de correferencias en discursos fragmentados para la captura de eventos

Correferencia

● Plano pragmático: la relación depende del contexto comunicativo y situacional

● Ocurre entre dos unidades lingüísticas (plenas o anafóricas) que se relacionan porque tienen una “identidad en la referencia”; es decir, el mismo referente en el discurso

Recasens (2002:3) y Recasens y Vila (2010)

Page 7: Resolución de correferencias en discursos fragmentados para la captura de eventos

Correferencia y anáforaLa correferencia, a diferencia de la anáfora, no es una relación unidireccional y asimétrica sino simétrica y transitiva.

● Resolución de anáfora: nombre-pronombre

● Resolución de correferencia: cadenas de elementos que tienen idéntico referente

Page 8: Resolución de correferencias en discursos fragmentados para la captura de eventos

“Coreference resolution was thus born as the

process of linking in a string all those linguistic

units (mentions) that refer to the same entity in

the discourse model”(Recasens, 2002:4)

Correferencia

Page 9: Resolución de correferencias en discursos fragmentados para la captura de eventos

El rendimiento de Multi-Pass Sieve

Karthik Raghunathan, Heeyoung Lee, Sudarshan Rangarajan, Nathanael Chambers, Mihai Surdeanu, Dan Jurafsky, Christopher Manning (2010). A multi-pass sieve for coreference resolution. Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing: 492-501

Page 10: Resolución de correferencias en discursos fragmentados para la captura de eventos

Los módulos del Multi-Pass Sieve

1. Cotejo exacto 2. Construcciones previsibles 3. Cotejo estricto de núcleos4. Variante de 35. Variante de 36. Cotejo laxo de núcleos7. Pronombres

Page 11: Resolución de correferencias en discursos fragmentados para la captura de eventos

Módulos del Multi-Pass Sieve● Cotejo exacto (exactamente el mismo texto: the Shahab 3 ground-

ground missile)● Construcción previsible

○ Aposiciones: [Israel’s Deputy Defense Minister], [Ephraim Sneh]○ Cópulas: [College Board] is [a nonprofit organization]○ Apositivas: [[actress] Rebecca Schaeffer] (con heurística)

○ Pronombres relativos:[the finance street [which] has already formed in the Waitandistrict]

○ Acrónimos: [Agence FrancePresse]...[AFP]○ Gentilicios: [Israel] ...[Israeli]

Page 12: Resolución de correferencias en discursos fragmentados para la captura de eventos

Módulos del Multi-Pass Sieve● Cotejo estricto de núcleos

○ añade restricciones a núcleos idénticos■ v [Florida Supreme Court]...[the Florida court] ■ x [Yale University] ... [Harvard University]■ x The pilot had confirmed...he had turned onto [the correct

runway] but pilots behind him say he turned onto [the wrong runway].

○ Este pase mantiene alta la precisión (91%) mejorando la cobertura (entre 6-8 puntos).

Page 13: Resolución de correferencias en discursos fragmentados para la captura de eventos

Módulos del Multi-Pass Sieve● Cotejo laxo de núcleos

○ utiliza conjuntos de candidatos a antecedente■ [Sanders] … {Sauls, the judge, Circuit Judge N. Sanders Sauls}

○ Solo se aplica a NE y apenas incide en la mejora (1 punto).

Page 14: Resolución de correferencias en discursos fragmentados para la captura de eventos

Módulos del Multi-Pass Sieve● Pronombres

○ Los pases anteriores han ido creado listas de candidatos para la resolución de las correferencias pronominales

○ Cotejo de concordancia:■ Género, número, persona■ Animacidad■ Etiqueta NER

○ Sube la cobertura 22% aunque baja la precisión 8%

Page 15: Resolución de correferencias en discursos fragmentados para la captura de eventos

“Cuando el Imperio Romano de Occidente desapareció en el 476, el reino visigodo, que se extendía a los dos lados de los Pirineos, era el reino germánico más grande. Pese a la fama que se ha dado a los visigodos como aliados de Roma, con ningún otro pueblo luchó tanto tiempo el imperio en su último siglo de existencia en Occidente, ni ningún otro le arrebató tanto territorio. Así, en el 476 el reino visigodo, con capital en Tolosa, se extendía desde el Loira hasta una zona indeterminada de la mitad meridional de la península ibérica (no se puede precisar más porque se desconoce la cronología de la ocupación visigoda de gran parte de la Península). Nadie tenía entonces más territorios en Francia y en la península ibérica. Además, uno de los grandes reyes visigodos, Eurico (466-484) aprovechó la desaparición del Imperio Romano de Occidente para extender aún más sus dominios. Efectivamente el reino visigodo completó entonces la ocupación de toda la costa mediterránea francesa, una vieja aspiración que había sido combatida por los romanos.”

Armando Besga Marroquín (2007)

Page 16: Resolución de correferencias en discursos fragmentados para la captura de eventos

1. Cuando el Imperio Romano de Occidente desapareció en el 476, el reino visigodo era el reino germánico más extenso

2. En el 476 el reino visigodo se extendía por la Galia e Hispania a ambos lados de los Pirineos

3. Pese a la fama de los visigodos como aliados de Roma, contra ningún otro pueblo luchó tanto en su último siglo de dominio en Occidente

4. Nadie había arrebatado al Imperio tanto territorio como el pueblo visigodo5. El reino con capital en Tolosa se extendía desde el Loira hasta una zona

indeterminada de la mitad meridional de la península ibérica6. El rey visigodo Eurico (466-484) aprovechó la desaparición del Imperio de

Occidente para extender sus dominios7. Eurico completó la ocupación de toda la costa mediterránea francesa, una vieja

aspiración que había sido combatida por Roma

Page 17: Resolución de correferencias en discursos fragmentados para la captura de eventos

1. Cuando el Imperio Romano de Occidente desapareció en el 476, el reino visigodo era el reino germánico más extenso

2. En el 476 el reino visigodo se extendía por la Galia e Hispania a ambos lados de los Pirineos

3. Pese a la fama de los visigodos como aliados de Roma, contra ningún otro pueblo luchó PRO tanto en su último siglo de dominio en Occidente

4. Nadie había arrebatado al Imperio tanto territorio como el pueblo visigodo5. El reino con capital en Tolosa se extendía desde el Loira hasta una zona

indeterminada de la mitad meridional de la península ibérica6. El rey visigodo Eurico (466-484) aprovechó la desaparición del Imperio de

Occidente para extender sus dominios7. Eurico completó la ocupación de toda la costa mediterránea francesa, una vieja

aspiración que había sido combatida por Roma

Page 18: Resolución de correferencias en discursos fragmentados para la captura de eventos

● M1 Imperio Romano de Occidente, Roma, PRO, su, Occidente, Imperio, Imperio de Occidente, Roma

● M2 476, 476● M3 reino visigodo, reino visigodo, visigodos, pueblo visigodo,

reino con capital en Tolosa● M4 reino germánico● M5 Galia● M6 Hispania● M7 Pirineos● M8 Loira● M9 península ibérica● M10 Eurico, sus, Eurico● M11 costa mediterránea francesa

Page 19: Resolución de correferencias en discursos fragmentados para la captura de eventos

● M1 Wikipedia:es:Imperio romano de Occidente● M2 Wikipedia:es:476 ● M3 Wikipedia:es:reino visigodo● M4 Wikipedia:es:reinos germánicos● M5 Wikipedia:es:Galia● M6 Wikipedia:es:Hispania● M7 Wikipedia:es:Pirineos● M8 Wikipedia:es:río Loira● M9 Wikipedia:es:península ibérica● M10 Wikipedia:es:Eurico● M11 Wikipedia:es:Costa Azul (Francia) | costa mediterránea

francesa

Page 20: Resolución de correferencias en discursos fragmentados para la captura de eventos
Page 21: Resolución de correferencias en discursos fragmentados para la captura de eventos

1. Cuando el Imperio Romano de Occidente desapareció en el 476, el reino visigodo era el reino germánico más extenso

2. En el 476 el reino visigodo se extendía por la Galia e Hispania a ambos lados de los Pirineos

3. Pese a la fama de los visigodos como aliados de Roma, contra ningún otro pueblo luchó PRO tanto en su último siglo de dominio en Occidente

4. Nadie había arrebatado al Imperio tanto territorio como el pueblo visigodo5. El reino con capital en Tolosa se extendía desde el Loira hasta una zona

indeterminada de la mitad meridional de la península ibérica6. El rey visigodo Eurico (466-484) aprovechó la desaparición del Imperio de

Occidente para extender sus dominios7. Eurico completó la ocupación de toda la costa mediterránea francesa, una vieja

aspiración que había sido combatida por Roma

Page 22: Resolución de correferencias en discursos fragmentados para la captura de eventos

1. Cuando M1 desapareció en M2, M3 era el M4 más extenso2. En M2 M3 se extendía por M5 e M6 a ambos lados de M73. Pese a la fama de M3 como aliados de M1, contra ningún otro pueblo luchó M1

tanto en su último siglo de dominio en M14. Nadie había arrebatado a M1 tanto territorio como M35. M3 se extendía desde M8 hasta una zona indeterminada de la mitad meridional

de M96. El rey visigodo M10 (466-484) aprovechó la desaparición de M1 para extender

sus dominios7. M10 completó la ocupación de toda M11, una vieja aspiración que había sido

combatida por M1

Page 23: Resolución de correferencias en discursos fragmentados para la captura de eventos
Page 24: Resolución de correferencias en discursos fragmentados para la captura de eventos
Page 25: Resolución de correferencias en discursos fragmentados para la captura de eventos

Créditos● OpenNER (Agerri y otros 2013)

○ http://www.opener-project.org/● NeHL, BiDEI, TourExp (Buján y otros 2013)

○ http://linguamedia.deusto.es/○ http://morelab.deusto.es/

● Simple Event Model (van Hage y otros 2011)○ http://www.websemanticsjournal.org/index.php/ps/article/view/190/188○ Willem van Hage http://wrvh.home.xs4all.nl/wrvhage/

● DBpedia○ http://dbpedia.org/About

● WordNet○ http://wordnetweb.princeton.edu/perl/webwn