53

Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

Embed Size (px)

Citation preview

Page 1: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Analizador sintáctico probabilístico con clasi�cación

de argumentos de verbo para el idioma español.

John Alexander Vargas

Escuela de Ingeniería de Sistemas y Computación

Facultad de Ingeniería

Universidad del Valle

Trabajo de Investigación, 2015

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 2: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Agenda

1 Introducción

2 Marco TeóricoAnálisis Sintáctico Probabilístico

Modelo de CollinsImplementación de BikelEl corpus Ancora

Clasi�cador de Argumentos de verbo

3 Análisis sintáctico con clasi�cación de argumentosIntegración clasi�cador - analizador

4 Resultados

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 3: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Planteamiento del problema

Problema General

¾Cómo mejorar el nivel de precisión en el análisis sintácticoprobabilístico para el idioma español?

Problema Especí�co

¾Cómo puedo integrar un clasi�cador semántico de argumentos deverbo en un analizador sintáctico probabilístico para mejorar supuntaje de precisión?

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 4: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Planteamiento del problema

Problema General

¾Cómo mejorar el nivel de precisión en el análisis sintácticoprobabilístico para el idioma español?

Problema Especí�co

¾Cómo puedo integrar un clasi�cador semántico de argumentos deverbo en un analizador sintáctico probabilístico para mejorar supuntaje de precisión?

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 5: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Outline

1 Introducción

2 Marco TeóricoAnálisis Sintáctico Probabilístico

Modelo de CollinsImplementación de BikelEl corpus Ancora

Clasi�cador de Argumentos de verbo

3 Análisis sintáctico con clasi�cación de argumentosIntegración clasi�cador - analizador

4 Resultados

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 6: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Análisis Sintáctico

Tarea principal

Encontrar un algoritmo que reciba como entrada una frase escritaen lenguaje natural y retorne como salida la estructura sintácticaque esta basada en una gramática previamente establecida. Estaestructura sintáctica se encuentra representada en un árbol deestructura de frase.

Depende la correcta comprensión del mensaje escrito, que es labase de cualquier eventual interpretación del mismo.

Aplicaciones como la extracción de información

Traducción de textos

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 7: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Análisis Sintáctico

Tarea principal

Encontrar un algoritmo que reciba como entrada una frase escritaen lenguaje natural y retorne como salida la estructura sintácticaque esta basada en una gramática previamente establecida. Estaestructura sintáctica se encuentra representada en un árbol deestructura de frase.

Depende la correcta comprensión del mensaje escrito, que es labase de cualquier eventual interpretación del mismo.

Aplicaciones como la extracción de información

Traducción de textos

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 8: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Ejemplo

Ejemplo de una gramática libre de contexto y de un árbol sintáctico

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 9: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Gramáticas probabilísticas libres de contexto

La probabilidad de un árbol

La probabilidad de un árbol t con reglasα1→ β1,α2→ β2, . . . ,αn→ βn

es p(t) = ∏ni=1 q(αi → βi )

where q(α → β ) es la probabilidad de la regla α → β

S → NPVP 1,0NP → Sust 0,4NP → Det Sust 0,3VP → V NP 0,7

La probabilidad para el árbol seria

p(t) = 0,84

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 10: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Gramáticas probabilísticas libres de contexto

La probabilidad de un árbol

La probabilidad de un árbol t con reglasα1→ β1,α2→ β2, . . . ,αn→ βn

es p(t) = ∏ni=1 q(αi → βi )

where q(α → β ) es la probabilidad de la regla α → β

S → NPVP 1,0NP → Sust 0,4NP → Det Sust 0,3VP → V NP 0,7

La probabilidad para el árbol seria

p(t) = 0,84

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 11: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Algoritmo de programación dinámica

Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?

Notación:

n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática

De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)

La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 12: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Algoritmo de programación dinámica

Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?

Notación:

n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática

De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)

La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 13: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Algoritmo de programación dinámica

Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?

Notación:

n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática

De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)

La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 14: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

El algoritmo CKY

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 15: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Modelos de análisis de Collins

Tres modelos generativos lexicalizados propuestos por MichaelCollins

Modelo 1: Modelo generativo con cabezas lexicalizadas.

Modelo 2: Modelo 1 + distinción de complementos/adjuntos ysubcategorización.

Modelo 3: Modelo 2 + traza del movimiento de lanúcleo-cabeza.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 16: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Modelo básico

Lo primero que se nota en cada regla de una PCFGlexicalizada es la forma

P(h)→ Ln(ln) . . .L1(l1)H(h)R1(r1) . . .Rm(rm)

H es el núcleo sintáctico de la frase, el cuál hereda lapalabra-núcleo h, de su padre P .

L1 . . .Ln y R1 . . .Rm son modi�cadores de izquierda y derechadel núcleo H.

Tanto n como m pueden ser cero, Si n = m = 0, son reglasunarias.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 17: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Generación del modelo

La generación de RHS de cada regla, dada el LHS, ha sidodescompuesta en tres pasos:

1 Generación de la etiqueta del núcleo constituyente de la frase,con probabilidad PH(H|P,h).

2 Generación de modi�cadores a la izquierda del núcleo conprobabilidad ∏i=1...n+1PL(Li (li )|P,h,H), dondeLn+1(ln+1) = STOP . El símbolo STOP es adicionado alvocabulario de no-terminales, y el modelo para generandomodi�cadores a la izquierda donde ha sido generado.

3 Generación de modi�cadores a la derecha del núcleo conprobabilidad ∏i=1...n+1PR(Ri (ri )|P,h,H), Rm+1(rm+1) esde�nida como STOP.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 18: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Adicionando métrica de distancia

Collins introduce una medidad de distancia entre las palabras∆l y ∆r

No es una distancia real. Las funciones son heurísticas basadasen la dirección, adyacencia, posición y puntuación.

El modelo queda:

Pl(Li (li ) |H, P, h, L1(l1) . . .Li−1(li−1)) =Pl(Li (li ) |H, P, h, ∆l(i −1))

Pr (Ri (ri ) |H, P, h, R1(r1) . . .Ri−1(ri−1)) =Pl(Ri (ri ) |H, P, h, ∆r (i −1))

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 19: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Adicionando métrica de distancia

Collins introduce una medidad de distancia entre las palabras∆l y ∆r

No es una distancia real. Las funciones son heurísticas basadasen la dirección, adyacencia, posición y puntuación.

El modelo queda:

Pl(Li (li ) |H, P, h, L1(l1) . . .Li−1(li−1)) =Pl(Li (li ) |H, P, h, ∆l(i −1))

Pr (Ri (ri ) |H, P, h, R1(r1) . . .Ri−1(ri−1)) =Pl(Ri (ri ) |H, P, h, ∆r (i −1))

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 20: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Modelo 2: Clasi�cación de modi�cadores

Añadir un su�jo "C" a los no terminales en los datos deentrenamiento para los que:

El no terminal es un NP, SBAR, o S cuyo padre es una S, unaNP, SBAR, S, o el vicepresidente cuyo padre es unvicepresidente, o un S cuyo padre es un SBAR.La no-terminal no debe tener una de las etiquetas semánticas:ADV, COV, BNF, DIR, EXT, LOC, MNR, TMP, CLR, o PRP.

También marque el primer hijo después de una cabeza PP comocomplemento

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 21: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Marcos de subcategorización

De�ne un marco de subcategorización como una bolsa deno-terminales.

Genera la cabeza con probabilidad PH(H|P,h)

Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)

Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )

Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 22: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Marcos de subcategorización

De�ne un marco de subcategorización como una bolsa deno-terminales.

Genera la cabeza con probabilidad PH(H|P,h)

Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)

Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )

Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 23: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Marcos de subcategorización

De�ne un marco de subcategorización como una bolsa deno-terminales.

Genera la cabeza con probabilidad PH(H|P,h)

Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)

Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )

Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 24: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Modelo 3: Modelando trazas y movimientos de la cabeza

Los formalismos similares a GPSG manejan movmientos denúcleos sintácticos adicionando una característica de diferencia(brecha) para cada no-terminal en el árbol y propagando estasdiferencias a través de los árboles hasta que �nalmentedescargado como una traza de complemento.

hay tres formas de que el gap sea pasado hacia abajo a el RHS.

Head El gap es pasado al núcleo de la frase, como una regla.

Left, Right El gap es pasado recursivamente a uno de losmodi�cadores de la izquierda o derecha del núcleo, odescargando como un agrumento de traza a la izquierda oderecha del núcleo.

Se especi�ca un parámetro PG (G |P,h,H) donde G es otroHead, Left o Right.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 25: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Modelo 3: Modelando trazas y movimientos de la cabeza

Los formalismos similares a GPSG manejan movmientos denúcleos sintácticos adicionando una característica de diferencia(brecha) para cada no-terminal en el árbol y propagando estasdiferencias a través de los árboles hasta que �nalmentedescargado como una traza de complemento.

hay tres formas de que el gap sea pasado hacia abajo a el RHS.

Head El gap es pasado al núcleo de la frase, como una regla.

Left, Right El gap es pasado recursivamente a uno de losmodi�cadores de la izquierda o derecha del núcleo, odescargando como un agrumento de traza a la izquierda oderecha del núcleo.

Se especi�ca un parámetro PG (G |P,h,H) donde G es otroHead, Left o Right.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 26: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Trabajo de Bikel

Dan Bikel construye un motor de análisis sintácticomulti-lenguaje con la capacidad de instanciar una granvariedad de modelos analizadores probabilisticos.

Como modelo línea base apropiado se escoje instanciar losparámetros del modelo 2 de Collins.

Bikel identi�có once pasos de preprocesamiento necesariospara preparar los árboles de entrenamiento cuando se usa elmodelo de análisis de Collins.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 27: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Ancora

AnCOra (ANnotated CORpora) es un corpus del catalán(AnCOra-CA) y español (AnCOra-ES) con diferentes nivelesde anotación.

Cada corpus contiene 500.000 palabras que han sidoconstruidas de manera incremental a través de trabajos previoscomo el corpus 3LB: 3LB-CAT y 3LB-ESP

Ambos corpus estan automáticamente etiquetados coninformación morfosintáctica y chequeada manualmente.

Ampliamente usados como corpus de entrenamiento parasistemas de aprendizaje

Los corpus 3LB son sintácticamente etiquetados conconstituyentes y funciones de una manera manual.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 28: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Ancora

AnCOra (ANnotated CORpora) es un corpus del catalán(AnCOra-CA) y español (AnCOra-ES) con diferentes nivelesde anotación.

Cada corpus contiene 500.000 palabras que han sidoconstruidas de manera incremental a través de trabajos previoscomo el corpus 3LB: 3LB-CAT y 3LB-ESP

Ambos corpus estan automáticamente etiquetados coninformación morfosintáctica y chequeada manualmente.

Ampliamente usados como corpus de entrenamiento parasistemas de aprendizaje

Los corpus 3LB son sintácticamente etiquetados conconstituyentes y funciones de una manera manual.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 29: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Información del corpus usada para el entrenamiento del

analizador

Árbol sintáctico completo anotado con constituyentes.John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 30: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Funciones sintácticas

Sujeto -SUJObjeto directo -CDObjeto indirecto -CI

Atributo -ATRComplemento predicativo -CPREDComplemento preposicional -CREG

Complemento agente -CAGComplemento adverbial -CC

Complemento advervial (locativo) -CCLComplemento adverbial (temporal) -CCT

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 31: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Outline

1 Introducción

2 Marco TeóricoAnálisis Sintáctico Probabilístico

Modelo de CollinsImplementación de BikelEl corpus Ancora

Clasi�cador de Argumentos de verbo

3 Análisis sintáctico con clasi�cación de argumentosIntegración clasi�cador - analizador

4 Resultados

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 32: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Argumentos verbales

Los argumentos son expresiones lingüísticas exigidassemánticamente por el núcleo.

Los verbos tienen dos tipos básicos de argumentos:

Complementos: Necesarios para el verbo.Adjuntos (circunstancial): Son complementos no exigidos porel verbo.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 33: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Características para la implementación del SVM

Estas características son extraídas de los árboles de entrenamientopara poder generar los archivos de entrenamiento del SVM. Y seextraen de los subarboles que van a ser unidos mediante elalgoritmo CKY.

Posición del núcleo: Posición del núcleo sintáctico contandodesde 1, de izquierda a derecha.

Codicación de etiqueta: Asignación de codi�cación binariapara las etiquetas del nodo raíz.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 34: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Características para la implementación del SVM

Estas características son extraídas de los árboles de entrenamientopara poder generar los archivos de entrenamiento del SVM. Y seextraen de los subarboles que van a ser unidos mediante elalgoritmo CKY.

Posición del núcleo: Posición del núcleo sintáctico contandodesde 1, de izquierda a derecha.

Codicación de etiqueta: Asignación de codi�cación binariapara las etiquetas del nodo raíz.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 35: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Características para la implementación del SVM

Aridad: Número de hijos del nodo padre. Se re�ere a laanchura del segundo nivel del árbol.

Anchura: Número de nodos hojas. Se re�ere al número depalabras que conforman el constituyente sintáctico.

Longitud: Cantidad de nodos desde la raíz hasta la hoja máslejana.

Distancia: Número de palabras entre el nodo constituyentemodi�cador y el verbo.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 36: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

libSVM: una implementación de SVM

Implementa los tipos de entrenamiento y núcleos mascomunes.

Permite clasi�cación multiclase.

Implementa el procedimiento para realizar validación cruzada

Métodos para obtener máquinas que proporcionen además laprobabilidad de la clasi�cación.

Incluye técnicas para reducir el coste de la constante C .

Implementaciones en C++ y JAVA.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 37: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo

Parametrización de libSVM

Se usa un kernel gausiano (RBF) con γ = 2−7

Parámetro de costo C = 32

Se usa la técnica de validación cruzada para a�nar el conjuntode características.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 38: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Integración clasi�cador - analizador

Outline

1 Introducción

2 Marco TeóricoAnálisis Sintáctico Probabilístico

Modelo de CollinsImplementación de BikelEl corpus Ancora

Clasi�cador de Argumentos de verbo

3 Análisis sintáctico con clasi�cación de argumentosIntegración clasi�cador - analizador

4 Resultados

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 39: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Integración clasi�cador - analizador

Integración clasi�cador - analizador

Para usar el clasi�cador de argumentos como parte del proceso deanálisis se realizaron dos modi�caciones:

Se usa la información suministrada por el corpus Ancora paralos verbos, y crear las subcategorizaciones de los verbos.

Se modi�ca el algoritmo de unión de items que hace parte delCKY en la implementación de Bikel para veri�car losargumentos de verbo.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 40: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Integración clasi�cador - analizador

Información semántica de Ancora sobre los verbos

Ancora presenta dos lexicones verbales a gran escala para elespañol y el catalán que sirven de base para la anotaciónsemántica con argumentos y roles temáticos del corpus.

Contiene un total de 1965 verbos diferentes correspondientes a500.000 palabras contenidas en el corpus.

Se aplica el mismo principio del modelo 2 de Collins,obteniendo la bolsa de subcategorización a partir de lainformación proporcionada por los lexicones verbales delcorpus.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 41: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Integración clasi�cador - analizador

Modi�cación

En el agoritmo CKY, más precisamente en el método de uniónde items, se clasi�ca el item modi�cador, cuando el itemmodi�cado se trata de un verbo.

Si la clasi�cación del item se encuentra dentro de las posiblessubcategorizaciones del verbo, entonces se aumenta laprobabilidad de selección.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 42: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Integración clasi�cador - analizador

Modi�cación joinItems

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 43: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Integración clasi�cador - analizador

Procesos Fase de Entrenamiento

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 44: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Integración clasi�cador - analizador

Procesos Fase de Decodi�cación

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 45: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Resultados

Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.

Obtenemos un clasi�cador semántico de argumentos verbalesusando máquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.

Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 46: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Resultados

Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.

Obtenemos un clasi�cador semántico de argumentos verbalesusando máquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.

Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 47: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Resultados

Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.

Obtenemos un clasi�cador semántico de argumentos verbalesusando máquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.

Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 48: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Resultados

Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.

Obtenemos un clasi�cador semántico de argumentos verbalesusando máquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.

Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 49: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Conclusiones

Encontramos que adicionando un clasi�cador de argumentosde verbo, para ayudar en el razonamiento probabilístico desubcategorización, no aporta una mejora en la precisión delárbol sintáctico obtenido.

Se obtiene un analizador sintáctico probabilístico que clasi�cacomplementos y ajduntos entre los argumentos verbales. Yesto permite obtener una estructura básica sin

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 50: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Conclusiones

Encontramos que adicionando un clasi�cador de argumentosde verbo, para ayudar en el razonamiento probabilístico desubcategorización, no aporta una mejora en la precisión delárbol sintáctico obtenido.

Se obtiene un analizador sintáctico probabilístico que clasi�cacomplementos y ajduntos entre los argumentos verbales. Yesto permite obtener una estructura básica sin

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 51: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Referencias

Daniel M. Bikel. On the Parameter Space of GenerativeLexicalized Statistical Parsing Models. PhD thesis,Philadelphia, PA, USA, 2004. AAI3152016.

Michael Collins. Head-driven statistical models for naturallanguage parsing. Comput. Linguist., 29(4):589�637, December2003.

LIBSVM: A Library for Support Vector Machines. Chih-ChungChang and Chih-Jen Lin. 2001

Support Vector Learning for Semantic Argument Classi�cation.SAMEER PRADHAN, KADRI HACIOGLU. 2005

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 52: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Referencias

Using Machine-Learning to Assign Function Labels to ParserOutput for Spanish. Grzegorz Chrupaªa1 and Josef vanGenabith. 2004

LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs).GUSTAVO A. BETANCOURT. 2005

Miguel A. Alonso Carlos Gómez Jesús Vilares. AnálisisSintáctico. 2010

Natural Language Processing:Statistical Parsing. Raymond J.Mooney

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.

Page 53: Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español

IntroducciónMarco Teórico

Análisis sintáctico con clasi�cación de argumentosResultados

Referencias

Maria Antònia Martí, Mariona Taulé, Manu Bertran y LluísMàrquez. AnCora: Multilingual and Multilevel Annotated

Corpora. 2007

Aparicio, Juan, Mariona Taulé, M.Antònia Martí (2008)'AnCora-Verb: A Lexical Resource for the Semantic Annotationof Corpora'. Proceedings of 6th International Conference onLanguage Resources and Evaluation. Marrakesh (Morocco).

John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.