54
Aprendizaje no supervisado de morfología Escuela Nacional de Antropología e Historia (ENAH) Agosto – diciembre de 2015

Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

  • Upload
    others

  • View
    15

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Aprendizaje no supervisado de morfología

Escuela Nacional de Antropología e Historia (ENAH)Agosto – diciembre de 2015

Page 2: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Morfología concatenativa

• niño

Antecedentes

2

• babis

babi (Indonesio)

Page 3: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Antecedentes

3

Morfotáctica

• anti-re-elec-cion-ista-s

Orden

• Prefijos + base + sufijos

• Circunfijos (en-roj-ecer)

• Afijos

Secuencialidad

• perfec-cion-ista-s

• *ista-perfec-cion-s

Page 4: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Antecedentes

4

O Morfología concatenativa

(prefijo* base sufijo*)+

Page 5: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Antecedentes

5

O Morfotáctica

ANTI~RE~ELEC~CIÓN~ISTA~S

prefijo – prefijo- base – sufijo – sufijo – sufijo

RE~ELEC~CIÓN~ES

Derivación - base – Derivación – Flexión

CANT~Á~BA~MOS

raíz – VT – TAM – NP

Page 6: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Planteamiento del problema

6

Lingüística

• Modelos morfológicos generativistas presuponen morfemas y su morfotáctica

• Están basados en la introspección de un solo hablante (sin corpus)

Page 7: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Planteamiento del problema

7

Lingüística computacional

• Métodos basados en reglas elaboradas por el investigador

• Morfología flexiva simple (inglés)

• La representación de la morfotáctica se hace manualmente (morfología de estados finitos)

• Fonología de dos niveles (Koskenniemi, 1983; 1984)

Page 8: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Planteamiento del problema

8

Lingüística computacional (actualmente)

• Búsqueda de un modelo morfológico optimizado e ideal que no toma en cuenta la variación

• Morfología = comprimir información

• Morfología = optimización de funciones

Page 9: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Métodos

9

• Zellig Harris (1955)

• Sucesor frecuente: contar los símbolos distintos después de una segmentación posible

• Las frecuencias más altas (menos predecibles) serán fronteras morfológicas

Page 10: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Métodos

10

gover~n,

gover~ned,

gover~ning,

gover~nment,

gover~nor,

gover~ns

govern,

govern~ed,

govern~ing,

govern~ment,

govern~or,

govern~s

Sucesor frecuente

(gover) = 1 (n).

Sucesor frecuente

(govern) = 6 (e, i, m, o,

s, espacio/signo).

Page 11: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Métodos

11

Minimum Description Lenght (MDL)

• M = Morfología

• La M que minimice la Longitud de Descripción será la mejor morfología

• El primer término es qué tan compacta es la morfología

• El segundo término explica qué tan bien la morfología describe al corpus

Page 12: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Aproximación

12

SALIDAPROCESOENTRADA

CorpusMétodo

computacional no supervisado

Descripción morfológica automática

Aprendizaje morfológico no supervisado

Page 13: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Objetivos de investigación

13

•Descubrir los sufijos y sufitáctica (morfotáctica de sufijos) del español mediante corpus y un método no supervisado de segmentación morfológica automática

Page 14: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

14

Cálculo de índice de afijalidad (Medina, 2000; 2003)

• Cuantificar características lingüísticas de unidades morfológicas

• Cuantificar la fuerza de adhesión entre unidades lingüísticas (glutinosidad)

• No busca un modelo ideal o morfología única

• Buscar regularidades en un corpus

Page 15: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

15

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Los afijos:

• (i) no ocurren aislados, sino como parte de las palabras

• (ii) ocurren en contextos similares y se combinan con bases de relativa baja frecuencia

• (iii) tienen contenido más gramatical

Page 16: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

16

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Los afijos:

• (i) no ocurren aislados, sino como parte de las palabras (medida de cuadros)

• (ii) ocurren en contextos similares y se combinan con bases de relativa baja frecuencia (medida de economía)

• (iii) tienen contenido más gramatical (medida de entropía)

Metodología

Page 17: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

17

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Medida de cuadros (Greenberg, 1967)

• Dos segmentos iniciales (cas~, sill~) y dos finales (~a, ~ita)

• Forman cuatro palabras del corpus (cas~a, cas~ita, sill~a , sill~ita)

Page 18: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

18

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Medida de economía

• Dada ai::bi

• Si ai pertenece a un conjunto potencialmente infinito de segmentos poco frecuentes,

• y bi pertenece a un conjunto pequeño de segmentos muy frecuentes

• Entonces ai sería una base y bi un afijo

Page 19: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

19

I

Page 20: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

20

I N

Page 21: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

21

I AN

Page 22: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

22

I A UN

Page 23: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

23

I A UN G

Page 24: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

24

I A UN UG

Page 25: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

25

I A UN UG R

Page 26: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

26

I A UN UG R O

Page 27: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Medida de entropía (Shannon y Weaver, 1964)

• INAUGUR~ARON

• INAUGUR~ARSE

• INAUGUR~ASIÓN

• INAUGUR~E

• INAUGUR~Ó

Metodología

27

Page 28: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

Page 29: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

29

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Page 30: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

30

NASION~AL~IDAD

Cálculo de índice de afijalidad (Medina, 2000; 2003)

Page 31: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

F U N D A M E N T A C I Ó N

Entropía 0 0 0 1.04 1.489 0.8778 0.5034 2.088 2.453 1.05 0.6541 1.336 1.468

Cuadros 0 0 0 0 84 2 0 0 65289 1057 0 388 0

Economía 0 0 0 0 0 0.5 0 0 0.7607 0 0 0.9974 0

Afijalidad 0 0 0 0.1413 0.2024 0.2864 0.0684 0.2837 0.9209 0.1427 0.08888 0.5168 0.1995

A C E P T A C I Ó N

Entropía 0 0.6931 0.5983 2.088 2.453 1.05 0.6541 1.336 1.468

Cuadros 0 0 0 17 65292 1069 0 388 0

Economía 0 0 0 0.4706 0.7568 0 0 0.9974 0

Afijalidad 0 0.09418 0.08129 0.4411 0.9196 0.1427 0.08888 0.5168 0.1995

Page 32: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

C A N T A R E M O S

Entropía 1.895 0.9992 2.179 2.713 1.414 1.52 0.8699 1.216 1.301

Cuadros 3 0 303 274560 9016 12750 25991 0 0

Economía 0 0 0.1551 0.9296 0.8136 0.9385 0.9994 0 0

Afijalidad 0.2328 0.1228 0.3199 0.9767 0.456 0.5153 0.4718 0.1493 0.1598

MetodologíaN I Ñ O S

Entropía 1.643 1.32 1.216 1.301

Cuadros 0 0 230703 253968

Economía 0 0 0.9992 1

Afijalidad 0.3333 0.2678 0.8824 0.9305

Page 33: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

Generación de autómata morfológico

Page 34: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

Generación de autómata morfológico

Page 35: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Metodología

Page 36: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

/Base~GO/

• /ARTAS~GO/

• /AYAS~GO/

• /KASIKAS~GO/

• /Base~ASGO/*(–azgo)

Page 37: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

/Base~GA/

• /DELE~GA/

• /NABE~GA/

• /PUR~GA/

• /DISTRAI~GA/

• /INTERPON~GA/

• /SOBREBEN~GA/

• Aparición de /g/ en raíz verbal venir vs venga

Page 38: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

/Base~SO/

• /ASENDER/ vs / ASEN~SO/ (–so)

• /PERMITIR/ vs /PERMI~SO/ (–so)

• /MASO~SO/, /SELENIO~SO/, /NITRO~SO/ (–oso)

• /JENERALA~SO/, /SALIBA~SO/ (–azo)

Page 39: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• /Base~Ó/

• /Base~I~Ó/

• /Base~T~Ó/

Page 40: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados• /Base~Ó/ (pretérito de indicativo)

• /Base~I~Ó/ (pretérito de indicativo 2da. y 3ra. conjugación)

• /PROMET~I~Ó/, /DIFUND~I~Ó/

• /Base~T~Ó/ (cambio consonántico en derivados /T/ por /S/ en la base)

• /ADOPTAR/ vs /ADOPSIÓN/, /AFECTAR/ vs /AFECSIÓN/ o /INBENTAR/ vs /INBENSIÓN

Page 41: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• /Base~ASIÓN/

• /Base~IS~ASIÓN/

Page 42: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• /Base~ASIÓN/ (-ación, forma sustantivos a partir de verbos)

• /DEKLAR~ASIÓN/, /INAUGUR~ASIÓN/ y /SELEBR~ASIÓN/

• /Base~IS~ASIÓN/ (–izar, forma verbos de la primera conjugación a partir de sustantivos y adjetivos)

• /ESPESIAL~IS~ASIÓN/, /KAPITAL~IS~ASIÓN/ y /DEMOKRAT~IS~ASIÓN/

Page 43: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

Page 44: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• /Base~AMENTE/ • /TONT~AMENTE/

• /Base~AD~AMENTE/ • /ORGANIS~AD~AMENTE/

• /Base~OS~AMENTE/• /AFECTU~OS~AMENTE/

• /Base~IK~AMENTE/• /DEMOKRAT~IK~AMENTE/

Page 45: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

Page 46: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• /Base~AR/ • /ABANDON~AR/

• /Base~T~AR/ • /ADOPTAR/ vs /ADOPSIÓN/

• /Base~E~AR/• /BURBUJ~E~AR/

• /Base~IS~AR/• /EKONOM~IS~AR/

Page 47: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados• /Base~ITA/• /Base~ITO/• /Base~IT~A/• /Base~IT~O/• /Base~ITAS/• /Base~ITOS/• /Base~ITO~S/• /Base~ITA~S/• /Base~IT~OS/• /Base~IT~AS/• /Base~IT~O~S/• /Base~CITO/

/EXIT~O~S/ se asocia a otro patrón

Page 48: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• Patrones morfotácticos con sufijos derivativos intermedios tanto para derivación nominal como verbal

• /Base~AL~IDAD/,

• /Base~AL~MENTE/,

• /Base~E~AR/,

• /Base~IK~AMENTE/,

• /Base~IS~AR/.

Page 49: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

• Sufijos muy económicos son segmentados en palabras donde no son sufijos

• /MAR~SO/, /KAM~IÓN/.

• El autómata no representa la morfotáctica del encadenamiento de enclíticos. Separar sólo el clítico final.

Page 50: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

•Aparición de consonante /g/ en verbos irregulares• /INTERPONER/-/INTERPON~GA/

•Pérdida de vocal final de la base de derivación• /SILBATO/-/SILBAT~AZO/ o /AMBIENTE/-/AMBIENT~AL/

•Presencia de vocales temáticas de las tres conjugaciones• /Base~A~R/, /Base~E~R/ y /Base~I~R/

Page 51: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados

•Aparición de vocal /i/ en pretérito de indicativo• /Base~I~Ó/ y /Base ~IÓ/.

•Cambios consonánticos en derivados• /ADOPTAR/-/ADOP~SIÓN/, /DESKRIBIR/-/DESKRIP~SIÓN/ o

/ESOFA~GO/-/ESOFA~JIKA/.

•Cambio de acento en presencia de marca de plural• /TRIPULA~SI~ÓN/-/TRIPULA~SI~ONES/

Page 52: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Resultados• /Base~AD~A/• /Base~AD~A~S/• /Base~AD~O/• /Base~AD~O~S/• /Base~AD~AS/• /Base~AD~OS/• /Base~ADA/• /Base~ADO/• /Base~ADA~S/• /Base~ADO~S/• /Base~ADAS/• /Base~ADOS/

Page 53: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Método

Page 54: Aprendizaje no supervisado de morfología - UNAM...Planteamiento del problema 7 Lingüística computacional •Métodos basados en reglas elaboradas por el investigador •Morfología

Conclusión

• Método no supervisado para descubrir la

morfotáctica de lenguas afijales

• Permitir comparaciones entre corpus de lenguas

o dialectos

• Este trabajo se inserta en el conjunto de estudios

que tratan de explicar la lengua a partir de datos

empíricos y no de la introspección de un analista