Upload
others
View
15
Download
0
Embed Size (px)
Citation preview
Aprendizaje no supervisado de morfología
Escuela Nacional de Antropología e Historia (ENAH)Agosto – diciembre de 2015
Morfología concatenativa
• niño
Antecedentes
2
• babis
babi (Indonesio)
Antecedentes
3
Morfotáctica
• anti-re-elec-cion-ista-s
Orden
• Prefijos + base + sufijos
• Circunfijos (en-roj-ecer)
• Afijos
Secuencialidad
• perfec-cion-ista-s
• *ista-perfec-cion-s
Antecedentes
4
O Morfología concatenativa
(prefijo* base sufijo*)+
Antecedentes
5
O Morfotáctica
ANTI~RE~ELEC~CIÓN~ISTA~S
prefijo – prefijo- base – sufijo – sufijo – sufijo
RE~ELEC~CIÓN~ES
Derivación - base – Derivación – Flexión
CANT~Á~BA~MOS
raíz – VT – TAM – NP
Planteamiento del problema
6
Lingüística
• Modelos morfológicos generativistas presuponen morfemas y su morfotáctica
• Están basados en la introspección de un solo hablante (sin corpus)
Planteamiento del problema
7
Lingüística computacional
• Métodos basados en reglas elaboradas por el investigador
• Morfología flexiva simple (inglés)
• La representación de la morfotáctica se hace manualmente (morfología de estados finitos)
• Fonología de dos niveles (Koskenniemi, 1983; 1984)
Planteamiento del problema
8
Lingüística computacional (actualmente)
• Búsqueda de un modelo morfológico optimizado e ideal que no toma en cuenta la variación
• Morfología = comprimir información
• Morfología = optimización de funciones
Métodos
9
• Zellig Harris (1955)
• Sucesor frecuente: contar los símbolos distintos después de una segmentación posible
• Las frecuencias más altas (menos predecibles) serán fronteras morfológicas
Métodos
10
gover~n,
gover~ned,
gover~ning,
gover~nment,
gover~nor,
gover~ns
govern,
govern~ed,
govern~ing,
govern~ment,
govern~or,
govern~s
Sucesor frecuente
(gover) = 1 (n).
Sucesor frecuente
(govern) = 6 (e, i, m, o,
s, espacio/signo).
Métodos
11
Minimum Description Lenght (MDL)
• M = Morfología
• La M que minimice la Longitud de Descripción será la mejor morfología
• El primer término es qué tan compacta es la morfología
• El segundo término explica qué tan bien la morfología describe al corpus
Aproximación
12
SALIDAPROCESOENTRADA
CorpusMétodo
computacional no supervisado
Descripción morfológica automática
Aprendizaje morfológico no supervisado
Objetivos de investigación
13
•Descubrir los sufijos y sufitáctica (morfotáctica de sufijos) del español mediante corpus y un método no supervisado de segmentación morfológica automática
Metodología
14
Cálculo de índice de afijalidad (Medina, 2000; 2003)
• Cuantificar características lingüísticas de unidades morfológicas
• Cuantificar la fuerza de adhesión entre unidades lingüísticas (glutinosidad)
• No busca un modelo ideal o morfología única
• Buscar regularidades en un corpus
Metodología
15
Cálculo de índice de afijalidad (Medina, 2000; 2003)
Los afijos:
• (i) no ocurren aislados, sino como parte de las palabras
• (ii) ocurren en contextos similares y se combinan con bases de relativa baja frecuencia
• (iii) tienen contenido más gramatical
16
Cálculo de índice de afijalidad (Medina, 2000; 2003)
Los afijos:
• (i) no ocurren aislados, sino como parte de las palabras (medida de cuadros)
• (ii) ocurren en contextos similares y se combinan con bases de relativa baja frecuencia (medida de economía)
• (iii) tienen contenido más gramatical (medida de entropía)
Metodología
Metodología
17
Cálculo de índice de afijalidad (Medina, 2000; 2003)
Medida de cuadros (Greenberg, 1967)
• Dos segmentos iniciales (cas~, sill~) y dos finales (~a, ~ita)
• Forman cuatro palabras del corpus (cas~a, cas~ita, sill~a , sill~ita)
Metodología
18
Cálculo de índice de afijalidad (Medina, 2000; 2003)
Medida de economía
• Dada ai::bi
• Si ai pertenece a un conjunto potencialmente infinito de segmentos poco frecuentes,
• y bi pertenece a un conjunto pequeño de segmentos muy frecuentes
• Entonces ai sería una base y bi un afijo
19
I
20
I N
21
I AN
22
I A UN
23
I A UN G
24
I A UN UG
25
I A UN UG R
26
I A UN UG R O
Cálculo de índice de afijalidad (Medina, 2000; 2003)
Medida de entropía (Shannon y Weaver, 1964)
• INAUGUR~ARON
• INAUGUR~ARSE
• INAUGUR~ASIÓN
• INAUGUR~E
• INAUGUR~Ó
Metodología
27
Metodología
Metodología
29
Cálculo de índice de afijalidad (Medina, 2000; 2003)
Metodología
30
NASION~AL~IDAD
Cálculo de índice de afijalidad (Medina, 2000; 2003)
Metodología
F U N D A M E N T A C I Ó N
Entropía 0 0 0 1.04 1.489 0.8778 0.5034 2.088 2.453 1.05 0.6541 1.336 1.468
Cuadros 0 0 0 0 84 2 0 0 65289 1057 0 388 0
Economía 0 0 0 0 0 0.5 0 0 0.7607 0 0 0.9974 0
Afijalidad 0 0 0 0.1413 0.2024 0.2864 0.0684 0.2837 0.9209 0.1427 0.08888 0.5168 0.1995
A C E P T A C I Ó N
Entropía 0 0.6931 0.5983 2.088 2.453 1.05 0.6541 1.336 1.468
Cuadros 0 0 0 17 65292 1069 0 388 0
Economía 0 0 0 0.4706 0.7568 0 0 0.9974 0
Afijalidad 0 0.09418 0.08129 0.4411 0.9196 0.1427 0.08888 0.5168 0.1995
C A N T A R E M O S
Entropía 1.895 0.9992 2.179 2.713 1.414 1.52 0.8699 1.216 1.301
Cuadros 3 0 303 274560 9016 12750 25991 0 0
Economía 0 0 0.1551 0.9296 0.8136 0.9385 0.9994 0 0
Afijalidad 0.2328 0.1228 0.3199 0.9767 0.456 0.5153 0.4718 0.1493 0.1598
MetodologíaN I Ñ O S
Entropía 1.643 1.32 1.216 1.301
Cuadros 0 0 230703 253968
Economía 0 0 0.9992 1
Afijalidad 0.3333 0.2678 0.8824 0.9305
Metodología
Generación de autómata morfológico
Metodología
Generación de autómata morfológico
Metodología
Resultados
/Base~GO/
• /ARTAS~GO/
• /AYAS~GO/
• /KASIKAS~GO/
• /Base~ASGO/*(–azgo)
Resultados
/Base~GA/
• /DELE~GA/
• /NABE~GA/
• /PUR~GA/
• /DISTRAI~GA/
• /INTERPON~GA/
• /SOBREBEN~GA/
• Aparición de /g/ en raíz verbal venir vs venga
Resultados
/Base~SO/
• /ASENDER/ vs / ASEN~SO/ (–so)
• /PERMITIR/ vs /PERMI~SO/ (–so)
• /MASO~SO/, /SELENIO~SO/, /NITRO~SO/ (–oso)
• /JENERALA~SO/, /SALIBA~SO/ (–azo)
Resultados
• /Base~Ó/
• /Base~I~Ó/
• /Base~T~Ó/
Resultados• /Base~Ó/ (pretérito de indicativo)
• /Base~I~Ó/ (pretérito de indicativo 2da. y 3ra. conjugación)
• /PROMET~I~Ó/, /DIFUND~I~Ó/
• /Base~T~Ó/ (cambio consonántico en derivados /T/ por /S/ en la base)
• /ADOPTAR/ vs /ADOPSIÓN/, /AFECTAR/ vs /AFECSIÓN/ o /INBENTAR/ vs /INBENSIÓN
Resultados
• /Base~ASIÓN/
• /Base~IS~ASIÓN/
Resultados
• /Base~ASIÓN/ (-ación, forma sustantivos a partir de verbos)
• /DEKLAR~ASIÓN/, /INAUGUR~ASIÓN/ y /SELEBR~ASIÓN/
• /Base~IS~ASIÓN/ (–izar, forma verbos de la primera conjugación a partir de sustantivos y adjetivos)
• /ESPESIAL~IS~ASIÓN/, /KAPITAL~IS~ASIÓN/ y /DEMOKRAT~IS~ASIÓN/
Resultados
Resultados
• /Base~AMENTE/ • /TONT~AMENTE/
• /Base~AD~AMENTE/ • /ORGANIS~AD~AMENTE/
• /Base~OS~AMENTE/• /AFECTU~OS~AMENTE/
• /Base~IK~AMENTE/• /DEMOKRAT~IK~AMENTE/
Resultados
Resultados
• /Base~AR/ • /ABANDON~AR/
• /Base~T~AR/ • /ADOPTAR/ vs /ADOPSIÓN/
• /Base~E~AR/• /BURBUJ~E~AR/
• /Base~IS~AR/• /EKONOM~IS~AR/
Resultados• /Base~ITA/• /Base~ITO/• /Base~IT~A/• /Base~IT~O/• /Base~ITAS/• /Base~ITOS/• /Base~ITO~S/• /Base~ITA~S/• /Base~IT~OS/• /Base~IT~AS/• /Base~IT~O~S/• /Base~CITO/
/EXIT~O~S/ se asocia a otro patrón
Resultados
• Patrones morfotácticos con sufijos derivativos intermedios tanto para derivación nominal como verbal
• /Base~AL~IDAD/,
• /Base~AL~MENTE/,
• /Base~E~AR/,
• /Base~IK~AMENTE/,
• /Base~IS~AR/.
Resultados
• Sufijos muy económicos son segmentados en palabras donde no son sufijos
• /MAR~SO/, /KAM~IÓN/.
• El autómata no representa la morfotáctica del encadenamiento de enclíticos. Separar sólo el clítico final.
Resultados
•Aparición de consonante /g/ en verbos irregulares• /INTERPONER/-/INTERPON~GA/
•Pérdida de vocal final de la base de derivación• /SILBATO/-/SILBAT~AZO/ o /AMBIENTE/-/AMBIENT~AL/
•Presencia de vocales temáticas de las tres conjugaciones• /Base~A~R/, /Base~E~R/ y /Base~I~R/
Resultados
•Aparición de vocal /i/ en pretérito de indicativo• /Base~I~Ó/ y /Base ~IÓ/.
•Cambios consonánticos en derivados• /ADOPTAR/-/ADOP~SIÓN/, /DESKRIBIR/-/DESKRIP~SIÓN/ o
/ESOFA~GO/-/ESOFA~JIKA/.
•Cambio de acento en presencia de marca de plural• /TRIPULA~SI~ÓN/-/TRIPULA~SI~ONES/
Resultados• /Base~AD~A/• /Base~AD~A~S/• /Base~AD~O/• /Base~AD~O~S/• /Base~AD~AS/• /Base~AD~OS/• /Base~ADA/• /Base~ADO/• /Base~ADA~S/• /Base~ADO~S/• /Base~ADAS/• /Base~ADOS/
Método
Conclusión
• Método no supervisado para descubrir la
morfotáctica de lenguas afijales
• Permitir comparaciones entre corpus de lenguas
o dialectos
• Este trabajo se inserta en el conjunto de estudios
que tratan de explicar la lengua a partir de datos
empíricos y no de la introspección de un analista