47
LN Análisis Morfológico 1 Análisis Morfológico Introducción Morfología Análisis morfológico Uso de técnicas de estados finitos en morfología Aprendizaje automático de la morfología de una lengua

Análisis Morfológico

  • Upload
    linus

  • View
    241

  • Download
    0

Embed Size (px)

DESCRIPTION

Análisis Morfológico. Introducción Morfología Análisis morfológico Uso de técnicas de estados finitos en morfología Aprendizaje automático de la morfología de una lengua. Morfología 1. Morfología Funciones Flexión Derivación Composición Resultado categorización morfosintáctica - PowerPoint PPT Presentation

Citation preview

Page 1: Análisis Morfológico

PLN Análisis Morfológico 1

Análisis Morfológico

• Introducción• Morfología• Análisis morfológico • Uso de técnicas de estados finitos en morfología• Aprendizaje automático de la morfología de una lengua

Page 2: Análisis Morfológico

PLN Análisis Morfológico 2

Morfología 1

• Morfología• Funciones

• Flexión

• Derivación

• Composición

• Resultado• categorización morfosintáctica

• Ej. categorías Parole

• Ej. Penn Treebank tagset

• rasgos morfológicos

• Problemas• alteraciones fonológicas

• morfotáctica

ej. VMIP1S0ej. VBD

Page 3: Análisis Morfológico

PLN Análisis Morfológico 3

Morfología 2

• Problemas• sufijos flexivos sufijos derivativos

• la derivación implica a veces cambio semántico que además no es siempre predecible

• ej. extensiones de significado

• reglas léxicas

• Un sufijo derivativo puede ir seguido de su flexión• amar => amante => amantes

• La flexión no cambia la categoría gramatical, la derivación a veces si

• La flexión afecta a otras palabras de la oración• concordancia

Page 4: Análisis Morfológico

PLN Análisis Morfológico 4

Morfología, Modelos Computacionales

• Funciones• Flexión, Derivación, Composición

• Morfotáctica• Reglas de formación de palabras

• Combinaciones posibles entre morfemas• Encadenamiento simple

• modelos complejos raiz/patrón

• Regularidad y cercanía dependientes de la lengua

• Alteraciones fonológicas (Morfofonología)• cambios al unir los morfemas

• origen: fonología, morfología, ortografía

• variables en número y complejidad

• p.ej. armonía vocálica

Page 5: Análisis Morfológico

PLN Análisis Morfológico 5

Morfemas

• 1 morfema:• evitar

• 2 morfemas:• evitable = evitar + able

• 3 morfemas:• inevitable = in + evitar + able

• 4 morfemas:• inevitabilidad = in + evitar + able + idad

Page 6: Análisis Morfológico

PLN Análisis Morfológico 6

Morfología Flexiva

• número• house houses• cheval chevaux• casa casas

• tiempo verbal• walk walkes walked walking• amo amas aman ...

• género• niño niña

Page 7: Análisis Morfológico

PLN Análisis Morfológico 7

Morfología Derivativa

• Forma de la derivación• sin cambio barcelonés

• prefijación inevitable

• sufijación importantísimo

• infijación

• Origen• verbo => adjetivo tardar => tardío

• verbo => nombre sufrir => sufrimiento

• nombre => nombre actor => actorazo

• nombre => adjetivo atleta => atlético

• adjetivo => adjetivo rojo => rojizo

• adjetivo => adverbio alegre => alegremente

Page 8: Análisis Morfológico

PLN Análisis Morfológico 8

Morfología Derivativa vs Flexiva

• sufijos flexivos <> sufijos derivativos• la derivación implica a veces cambio semántico que

además no es siempre predecible• ej. extensiones de significado

• reglas léxicas

• Un sufijo derivativo puede ir seguido de su flexión• amar => amante => amantes

• La flexión no cambia la categoría gramatical• La flexión afecta a otras palabras de la oración

Page 9: Análisis Morfológico

PLN Análisis Morfológico 9

Análisis morfológico 1

• Tipos de analizadores morfológicos• formarios

+ eficiencia

+ poca variación (ej. inglés)

+ extensibilidad

+ construcción a partir de un generador morfológico

– lenguas muy flexivas

– derivación, composición

• técnicas de estados finitos• autómatas

• analizadores de un nivel

• transductores• analizadores de dos o más niveles

Maco+Atserias et al, 1998

Martí, 1988Koskenniemi, 1983Sproat, 1993

Roche,Schabes, 1997Kornai, 1999

Page 10: Análisis Morfológico

PLN Análisis Morfológico 10

Modelos de cómputo 1

• Mezcla de conocimiento lingüístico y procedimental• Sistemas automáticos. Multilingüismo. Corpus• Problema de la eficiencia• Problema de la sobregeneración

Page 11: Análisis Morfológico

PLN Análisis Morfológico 11

Modelos de cómputo 2

• Criterios de clasificación• Poder descriptivo

• Flexión, Derivación, Composición

• Análisis y Generación

• Enfoque• Basados en léxico

• Basados en paradigma (Calder,89)

• Tratamiento de la morfotáctica• Estados Finitos

• Unificación

• Tratamiento de la morfofonología• Estados Finitos

• Métodos ad-hoc

• Elementos del léxico• Morfemas

• Segmentos de palabra

Page 12: Análisis Morfológico

PLN Análisis Morfológico 12

Morfología un nivel

Sistema AMCAS (Marti,89)

START RNA

RV1

RNA1

RV

F

INFIJ

RGN

Page 13: Análisis Morfológico

PLN Análisis Morfológico 13

SISTEMA AMCAS 1

DICCIONARIORAICES

ESTADOS

REGLAS

DICCIONARIOSUFIJOS

MODELOSSUFIJO

MODELOSRAIZ

AUTOMATA

ANALIZADOR MORFOLOGICOTEXTOENTRADA

TEXTOETIQUETADO

Page 14: Análisis Morfológico

PLN Análisis Morfológico 14

SISTEMA AMCAS 2

DICCIONARIO DE RAICES (FRAGMENTO)

RAIZ MODELO PROPIEDADES DIVISIBLE "d" D (("B1" "DORW")("TVM" "VI") ("SEM" "DECIR-1")) nil"de" PREP () nil"del" PREP () nil"deposit" AM (("TGN" "OM") ("BL" "&3")) nil"dese" AM (("TGN" "OM") ("B1" "OSOJ") ("TVM" "VI")) nil"dich" HECH (("TGN" "OM") ("CONJ" "3")) nil"dich" DETN (("DET" "DEM")) nil "dich" PRON (("PRN" "DEM") ) nil"diner" NOM ("B1" "DAF") ("B2" "ALM") ("SEM" "DINERO-1")) nil"directori" NOM () nil

Page 15: Análisis Morfológico

PLN Análisis Morfológico 15

SISTEMA AMCAS 3

DICCIONARIO DE SUFIJOS (FRAGMENTO)

SUFIJO MODELO PROPIEDADES DIVISIBLE "a" AASAM (("NUM" "SG")) nil "a AASFEM (("NUM" "SG")) nil "a" GAF (("GEN" "FEM")("NUM" "SG")) nil "a" GAM (("NUM" "SG")) nil "a" GBAJ (("GEN" "FEM")("NUM" "SG")) nil "a" GBAW (("GEN" "FEM")("NUM" "SG")) nil "a" GN1 (("GEN" "FEM")("NUM" "SG")) nil "a" GOAJ (("GEN" "FEM")("NUM" "SG")) nil "a" IMP (("NUM" "SG")("PERS" "2")) nil "a" IPO (("NUM" "SG")("PERS" "3")) nil "a" SP2 (("NUM" "SG")("PERS" "1/3")) nil "aba" IMA (("PERS" "1")("NUM" "SG")) nil "lo" PROE (("ENCL" "LO")("BL" "&1")) nil "me" PROE (("BL" "&1")) nil "&" GBF&1 (("NUM" "SG")) nil "&" GBM&1 (("NUM" "SG")) nil

Page 16: Análisis Morfológico

PLN Análisis Morfológico 16

SISTEMA AMCAS 4

DICCIONARIO DE MODELOS DE RAIZ (FRAGMENTO)

MODELO PROPIEDADES

CSS (("CAT" "CONJ") ("TCON" "CSS") ("BL" "SI"))D (("CAT" "VERB") ("TV" "D"))DETD1 (("CAT" "DET") ("PERS" "1") ("TGN" "EAO") ("BL" "SI") ("DET" "DEM"))

Page 17: Análisis Morfológico

PLN Análisis Morfológico 17

SISTEMA AMCAS 5

DICCIONARIO DE MODELOS DE SUFIJO (FRAGMENTO)

MODELO PROPIEDADES

AASAM (("GEN" "AMBI"))AASFEM (("GEN" "FEM") ("CAT" "ADJ"))GAF (("CAT" "NOM") ("GEN" "FEM"))GAM (("CAT" "NOM") ("GEN" "MASC"))GBAJ (("CAT" "ADJ"))GBAW (("CAT" "ADJ"))GN1 ()GOAJ (("CAT" "ADJ"))IMP (("CAT" "VERB") ("TEMP" "PRES") ("PROE" "SI") ("MODO" "IMP"))IPO (("CAT" "VERB") ("TEMP" "PRES") ("BL" "SI") ("MODO" "IND"))PROE ()SP2 (("CAT" "VERB") ("TEMP" "PRES") ("MODO" "SUBJ"))& ()

Page 18: Análisis Morfológico

PLN Análisis Morfológico 18

SISTEMA AMCAS 6

DICCIONARIO DE REGLAS (FRAGMENTO)

EST_INI EST_FIN MODELO CONDICIONES

RNA1 RGN OOSMAS (("TGN" "OAJ"))RV F BL (("BL" "SI"))RV F & (("BL" "&1"))RV RV PROE (("PROE" "SI"))RV1 INFIJ CC (("U" "CCVD"))RV1 RGN AASFEM (("T1" "OAJ"))RV1 RGN GAF (("T1" "AF")("TGN" "AF"))RV1 RGN GAM (("TGN" "AM"))RV1 RGN GOAJ (("B1" "TOJ"))RV1 RV IMP (("TV" "R")("TV" "ACUE) ("TV" "ADC")

("TV" "ADZ")("TV" "D"))RV1 RV IPO (("TV" "PONG")("TV" "R")("TV" "HIZ")

("TV" "PUED"))RV1 RV SPB (("TV" "PONG")("TV" "SEP")("TV" "D"))START RV1 D ()

Page 19: Análisis Morfológico

PLN Análisis Morfológico 19

Morfología de dos niveles 1

• Modelo general para lenguas con encadenamiento de morfemas

• Independencia entre información lingüística y analizador• Válido para análisis y generación• Distinción entre nivel léxico y superficial• Reglas paralelas para expresar la morfofonología• Implementación simple• Elementos: Sistema léxico + Reglas

Page 20: Análisis Morfológico

PLN Análisis Morfológico 20

Morfología de dos niveles 2

• Reglas morfológicas• Expresan las relaciones entre caracteres (superficie) y

morfemas y permiten la descomposición de una cadena de caracteres en una estructura morfémica de la palabra

• Reglas de deletreo (spelling rules)• Trabajan a nivel de las letras que constituyen la palabra

• Reglas gramática de la palabra (word grammar rule)• Permiten definir la composición entre morfemas en

términos de abstracciones sobre las propiedades de éstos, al margen de su realización léxica

• Ritchie,Pulman,Black,Russell,87

Page 21: Análisis Morfológico

PLN Análisis Morfológico 21

reglas gramática de la palabra 1

Caracterizan la morfología abstrayendo de los detalles de lascadenas concretas

Secuencias correctas de morfemasConcatenaciones válidasCategoría sintáctica de la palabra resultante

Categoría (de una palabra, morfema o fragmento) es un conjuntode pares <atributo, valor>

Ej. (GPSG): plural noun == ((N +) (V -) (PLU +) (BAR 0))

Page 22: Análisis Morfológico

PLN Análisis Morfológico 22

reglas gramática de la palabra 2

alias noun = ((N +) (V -) (BAR 0))alias verb = ((N -) (V +) (BAR 0))alias adj = ((N +) (V +) (BAR 0))

variable C = {noun, adj}

regla del plural:(C (PLU + )) --> (C (PLU - )), ((PLU +))

gatos ((N +) (V -) (PLU +) (BAR 0))

lexicón :gato => (noun (PLU -))...s => ((PLU +))...

Page 23: Análisis Morfológico

PLN Análisis Morfológico 23

reglas gramática de la palabra 3

regla de prefijación:((BAR 0)) --> ((FIX PRE)), ((BAR 0)).

regla de sufijación:((BAR 0) (N +)) --> ((BAR 0)), ((N +) (FIX SUF)).

regla de sufijación verbal:((N -) (V +) (AUX VAL) (BAR 0)) -->

((AUX VAL) (BAR 0)), ((FIX SUF) (N -) (V +)).

Page 24: Análisis Morfológico

PLN Análisis Morfológico 24

Análisis morfológico con FSA

• Entrada: • forma

• Salida• lema + rasgos morfológicos

Input Outputcat cat + N + sgcats cat + N + plcities city + N + plmerging merge + V + pres_partcaught (catch + V + past) or (catch + V + past_part)

Page 25: Análisis Morfológico

PLN Análisis Morfológico 25

Elementos del analizador

• Lexicon de morfemas• raiz (stem) + afijos

• Morfotáctica• qué combinaciones de morfemas son válidas

• cats = cat + s

• Alteraciones fonológicas• Reglas ortográficas (spelling rules): cambios al producirse la

combinación• city + s = cities

Page 26: Análisis Morfológico

PLN Análisis Morfológico 26

Ejemplo: flexión nominal en inglés

0 1 2

reg_noun plural (-s)

irreg_pl_noun

irreg_sg_noun

reg_noun irreg_pl_noun irreg_sg_noun pluralfox sheep sheep -scat mice mousedog

morfotáctica

Page 27: Análisis Morfológico

PLN Análisis Morfológico 27

Integración de lexicón y morfotáctica

fo

x

s

c at

d

og

n ey

em

ou

s

e

ic

fogcatdogdonkeymousemice

Letter Transducers

Page 28: Análisis Morfológico

PLN Análisis Morfológico 28

Morfología de dos niveles

upper level léxico cat + N cat + N + pllower level superficie cat cats

c:c a:a t:t +N: +pl:s

Page 29: Análisis Morfológico

PLN Análisis Morfológico 29

Utilización de un FST 1

• Como reconocedor• recibe dos cadenas de entrada (una léxica y una

superficial) y responde cierto o falso según una sea transducción de la otra

• Como generador• genera pares de cadenas

• Como traductor• recibe una cadena superficial y genera su transducción

léxica

Page 30: Análisis Morfológico

PLN Análisis Morfológico 30

Utilización de un FST 2

• Simplificaciones notacionales• default pairs

• a:a

• morpheme separator ^• end of word #• default correspondence pairs

• feasible pairs• default correspondences + explicit correspondences in the rules

• any @

a b c … z ‘ ^ #a b c … z ‘

Page 31: Análisis Morfológico

PLN Análisis Morfológico 31

Transductor con rasgos morfológicos

reg_noun irreg_pl_noun irreg_sg_noun pluralfox sheep sheep scat m o:i u: ce mousedog g o:e o:e se goose

0 1 2

reg_noun +pl:s

irreg_pl_noun

irreg_sg_noun

2

3

4

5

6

+N:

+N:

+N:

+sg:

+sg:

+pl:

Page 32: Análisis Morfológico

PLN Análisis Morfológico 32

Integración de morfotáctica y variación fonológica

nivel léxico f o x +N +pl

nivel intermedio f o x ^s

nivel superficial f o x es

morfotáctica

spelling rules

Page 33: Análisis Morfológico

PLN Análisis Morfológico 33

Integración de lexicón y morfotáctica

fogcatdogdonkeymousemice

fo

xc a

t

d

og

n ey

em

ou

se

o:i

+N:

+N:

+pl:^s

+sg:

+sg:

+u: ce

+N:

+pl:

Page 34: Análisis Morfológico

PLN Análisis Morfológico 34

spelling rules

name description example consonant doubling single letter consonant beg/begging

doubled before -ing/-ede deletion silent e dropped before

-ing/-ed make/makinge insertion e added after -s,-z,-x,-ch,-sh

before -s watch/watchesy replacement -y changes to -ie before -s, to

i before -ed try/triesk insertion verbs ending with voyel +c

add -k panic/panicked

Page 35: Análisis Morfológico

PLN Análisis Morfológico 35

Reglas de dos niveles

• a:b Contexto_izquierdo ___ Contexto_derecho• el item léxico a debe corresponder al item superficial b cuando se

encuentra en el contexto

• a:b Contexto_izquierdo ___ Contexto_derecho• el item léxico a sólo puede corresponder al item superficial b cuando se

encuentra en el contexto

• a:b Contexto_izquierdo ___ Contexto_derecho• el item léxico a debe corresponder al item superficial b cuando se

encuentra en el contexto y sólo entonces

• a:b / Contexto_izquierdo ___ Contexto_derecho• el item léxico a no puede corresponder al item superficial b cuando se

encuentra en el contexto

correspondencia operador contextos

Page 36: Análisis Morfológico

PLN Análisis Morfológico 36

ejemplo e-insertion

:e [xsz]^: ___ s#

descomposición

:e [xsz]^: ___ s# : / [xsz]^: ___ s#

/

Page 37: Análisis Morfológico

PLN Análisis Morfológico 37

Reglas de deletreo (spelling) 1

epenthesis

+ : e <=> {< {s:s c:c} h:h> s:s x:x z:z} --- s:s

<=>=> context restriction<= surface coercion

contexto

C: {...}V: {a,e,i,o,u,y}C2: {...}=: cualquiera

ejemplo: box + sbox e s

Page 38: Análisis Morfológico

PLN Análisis Morfológico 38

Reglas de deletreo 2

e-deletion

e : 0 <=> = :C2 --- <+:0 V:= > or <C:C V:V> --- < +:0 e:e >or <c:c g:g> --- < +:0 {e:e i:i} >or l:0 --- +:0or c:c --- < +:0 a:0 t:t b:b>

mov e + edmov ed

agre e + edagre ed

Page 39: Análisis Morfológico

PLN Análisis Morfológico 39

Reglas de deletreo 3

a-deletion

a : 0 <=> <c:c e:0 +:0> --- t:t

redu c e + a t ionredu c t ion

... contexto izdo foco contexto ... dcho

Page 40: Análisis Morfológico

PLN Análisis Morfológico 40

Transductor :e [xsz]^: ___ s#

estado\input s:s x:x z:z ^: #: :e @:@0 1 1 1 0 _ 0 0 1 1 1 1 2 _ 0 0 2 1 1 1 0 3 0 0 3 4 _ _ _ _ _ _ 4 _ _ _ _ _ 0 _

0 2 431

^:@:@#:#

z:zs:sx:x

z:zs:sx:x

z:zs:sx:x

#:#@:@#:#

@:@#:#

^: :s s:s

Page 41: Análisis Morfológico

PLN Análisis Morfológico 41

Transductor :e / [xsz]^: ___ s#

estado\input s:s x:x z:z ^: #:# @:@0 1 1 1 0 0 0 1 1 1 1 2 0 0 2 3 1 1 0 0 0 3 1 1 1 0 _ 0

0 2 31

^:@:@#:#

z:zs:sx:x

z:zs:sx:x

z:zx:x

@:@^:@:@

#:#^:

@:@#:#

^: s:s

z:zs:sx:x

Page 42: Análisis Morfológico

PLN Análisis Morfológico 42

Integración de morfotáctica y variación fonológica

Lexicon-FST

spelling rules

nivel léxico f o x +N +pl

nivel intermedio f o x ^s

nivel superficial f o x es

FST1 FST2 FSTn...

Page 43: Análisis Morfológico

PLN Análisis Morfológico 43

Intersección y composición de FST

Lexicon-FST

FST1 FSTn...

Lexicon-FST

FSTA= FST1 ... FSTn

Lexicon-FST•

FSTA

intersección composición

Page 44: Análisis Morfológico

PLN Análisis Morfológico 44

Aprendizaje automático de la morfología 1

• Problema• Paradigma raiz + afijos

• Obtención de las raices

• Clasificación de las raices en modelos

• Dos aproximaciones• Sin utilizar conocimiento morfológico alguno

• Goldsmith, 2001

• Brent, 1999

• Snover, Brent, 2001, 2002

• Cuando se dispone de conocimiento morfológico• Oliver at al, 2002

Page 45: Análisis Morfológico

PLN Análisis Morfológico 45

Aprendizaje automático de la morfología 2

• Análisis morfológico automático• Identificación de fronteras entre morfemas

• Zellig Harris• {prefix, suffix} conditional entropy

• bigrams y trigrams con alta probabilidad de constituir un morfema

• descubrimiento de patrones o reglas de correspondencia entre pares de palabras

• Aproximación global (top-down)• Golsdmith, Brent, de Marcken

Page 46: Análisis Morfológico

PLN Análisis Morfológico 46

Aprendizaje automático de la morfología 3

• Sistema de Goldsmith basado en MDL (Minimum Description Length)• Partición inicial: palabra -> raiz + sufijo

• split-all-words• Un buen candidato a {raiz, sufijo} en una palabra lo es

también en (muchas) otras palabras

• MI (mutual information) strategy• Convergencia más rápida

• Obtención de Signatures• Regular {signatures, stem, suffixes}

• Más de una raiz, más de un sufijo

• MDL

Page 47: Análisis Morfológico

PLN Análisis Morfológico 47

Aprendizaje automático de la morfología 4

• Análisis morfológico semi-automático• Oliver, 2004

• Parte de un paquete de reglas morfológicas escritas a mano

• TL:TF:Desc• terminación del lema• terminación de la forma• categoría morfológica

• Lista de clases no flexivas, clases cerradas y palabras irregulares

• Corpus• serbo-croata 9 Mw

• ruso 16 Mw