35
CDMX, CU, 21 de febrero de 2018 Construcción de un espacio semántico (diccionario) para el idioma Español sobre el dominio de la Wikipedia. Igor Barahona

Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

  • Upload
    buidieu

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

CDMX, CU, 21 de febrero de 2018

Construcción de un espacio semántico (diccionario) para el idioma Español sobre el dominio de la Wikipedia.

Igor Barahona

Page 2: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

• Introducción

• Revisión de la literatura

• Objetivos de investigación

• Metodología

• Resultados

• Conclusiones

Contenido

Page 3: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

• Introducción

• Revisión de la literatura

• Objetivos de investigación

• Metodología

• Resultados

• Conclusiones

Page 4: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados Conclusiones

Definiciones básicas

➢El Análisis Semántico Latente (ASL) es una técnica que permite cuantificar la similitud de contenido entre dos piezas textuales (palabras, frases o documentos)

➢Mediante el método estadístico de descomposición en valores singulares, es posible hacer una representación de las piezas textuales que componen el espacio semántico.

Gutiérrez (2005)

Metodología

Page 5: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

Antecedentes

➢En las últimas dos décadas, con la aparición de computadoras mas potentes el ASL creció rápidamente

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

➢Básicamente el ASL caracteriza el significado de las “piezas lingüísticas” como vectores inmersos en un espacio semántico de alta dimensionalidad

➢Las “piezas lingüísticas” con significados similares tendrán posiciones cercanas en tal espacio semántico

Page 6: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Supuestos básicos del

ASL

1. El significado de cualquier pieza semántica es contextualmente dependiente

2. En tal uso contextual existen relaciones de similitud semántica que están latentes

Gutiérrez (2005)

Page 7: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

• Introducción

• Revisión de la literatura

• Objetivos de investigación

• Metodología

• Resultados

• Conclusiones

Page 8: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

Orígenes del ASL

➢ Landauer & Dumais (1997) afirman que el ASL puede emular la forma en que los humanos utilizan el lenguage.

➢Metodologías similares le precedieron. La ventana móvil de Lund & Dumais (1997) y el BEAGLE propuesto por Jones Kintsch, & Mewhort (2006)

➢ Gunther, Dudschig & Kaup (2014) afirman que el ASL es el modelo mas prominente, el cual, al estar basado en corpus de enorme tamaño, produce resultados confiables.

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Page 9: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Previo al análisis

➢ El ASL require de un corpus conformado por un número muy grande de documentos.

➢ Se trata de un corpus formado por textos en lenguage natural.

➢ Los textos que alimentan el corpus deden ser escritos por personas, con propósitos comunicativos reales.

➢ El lenguaje natural es aquel escrito o hablado por humanos para propósitos generales de comunicación.

Page 10: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

• Introducción

• Revisión de la literatura

• Objetivos de investigación

• Metodología

• Resultados

• Conclusiones

Page 11: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

Objetivos de investigación

1. Descargar la Wikipedia completa, en texto plano, sin imágenes, videos o sonido.

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

2. Construir una matriz documentos-palabras

3. Con los métodos estadísticos pertinentes, construir un espacio semántico para el español

4. Presentar conclusiones pertinentes

Page 12: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

• Introducción

• Revisión de la literatura

• Objetivos de investigación

• Metodología

• Resultados

• Conclusiones

Page 13: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Page 14: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Page 15: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

1

2

3

. . . . . . . .

1,300,485

ID. Doctos

Palabras

𝑓𝑗,𝑖

ncol(Y)=1,300,485

nrow(X)= 5,826,313

Docto Id

Familia Id

Letra abecedario

n.cat.row(X)=3𝑓𝑗,𝑖= frecuencia de la palabra j en el documento i

1 2 3 . . . . . . . .

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Page 16: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

Vector de documentos (ortogonal)

Vector de palabras (transpuesto)

Valores singulares

U=V= D=

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Page 17: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Lebart, Salem & Berry (1997)

Page 18: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Page 19: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Page 20: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Page 21: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

¿Qué podemos hacer con el campo semántico?

Page 22: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

• Introducción

• Revisión de la literatura

• Objetivos de investigación

• Metodología

• Resultados

• Conclusiones

Page 23: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Apariencia de la matriz documentos - palabras

Page 24: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Apariencia del campo semántico

Page 25: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

Veamos un ejemplo……………….

Page 26: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

Queda prohibida toda discriminación motivada por origen étnico o nacional, el género, la edad, las discapacidades, la condición social, las condiciones de salud, la religión, las opiniones, las preferencias sexuales, el estado civil o cualquier otra que atente contra la dignidad humana y tenga por objeto anular o menoscabar los derechos y libertades de las personas.

Artículo 1. (Constitución EUM)

Toda persona tiene todos los derechos y libertades proclamados en esta Declaración, sin distinción alguna de raza, color, sexo, idioma, religión, opinión política o de cualquier otra índole, origen nacional o social, posición económica, nacimiento o cualquier otra condición. Además, no se hará distinción alguna fundada en la condición política, jurídica o internacional del país o territorio de cuya jurisdicción dependa una persona, tanto si se trata de un país independiente, como de un territorio bajo administración fiduciaria, no autónomo o sometido a cualquier otra limitación de soberanía..

Artículo 2. (Declaración Universal de los derechos humanos)

Page 27: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

• Introducción

• Revisión de la literatura

• Objetivos de investigación

• Metodología

• Resultados

• Conclusiones

Page 28: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

IntroducciónRevisión literatura

Objetivos de investigación

Resultados ConclusionesMetodología

➢ Herramienta útil para comparar textos, discursos y obras literarias

➢ Se realiza una contribución novedosa en el contexto del idioma español

➢ Explorar otras metodologías como aprendizaje profundo o de máquina

Page 29: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

Cuadras, C. M. (2014). Nuevos métodos de análisis multivariante, CMC Editions.

Günther, F., Dudschig, C., & Kaup, B. (2015). LSAfun-An R package for computations

based on Latent Semantic Analysis. Behavior research methods, 47(4), 930-944.

Gutiérrez, R. M. (2005). Análisis semántico latente:¿ Teoría psicológica del

significado?. Revista signos, 38(59), 303-323.

Jones, M. N., Kintsch, W., & Mewhort, D. J. (2006). High-dimensional semantic space

accounts of priming. Journal of memory and language, 55(4), 534-552.

Landauer, T. K., & Dumais, S. T. (1997). A solution to Plato's problem: The latent semantic

analysis theory of acquisition, induction, and representation of

knowledge. Psychological review, 104(2), 211.

Landauer, T. K., Foltz, P. W., & Laham, D. (1998). An introduction to latent semantic

analysis. Discourse processes, 25(2-3), 259-284.

Lebart, L., Salem, A., & Berry, L. (1997). Exploring textual data(Vol. 4). Springer Science &

Business Media.

Referencias

Page 30: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

###################################################################################################################### 21/feb/2018 ########################################################################################################################################################### Applied Latent Semantic Analysis (LSA)######################### Cargar el campo semántico y paquete#######################################################################################

Library(LSAfun)load("mi.lsaV2.rda")

###################################################################################################################### 21/feb/2018 ####################################################################################################################################################### SIMILITUDES SEMÁNTICAS Y######################### VECINOS PRÓXIMOS. EJEMPLO CON 4 PALABRAS#######################################################################################

####### similitud semántica entre ciencia y matemáticasCosine("ciencia","matemáticas",tvectors=D)

####### similitud semántica entre imaginación y poesíaCosine("imaginación","poesía",tvectors=D)

####### similitud semántica entre imaginación y poesíaCosine("matemáticas","vaca",tvectors=D)

Apendice A. Scrip en R

Page 31: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

https://drive.google.com/file/d/19AR2RpaRTgCeMV60DGqmc575GQPyeAV2/view?usp=sharing

mi.lsaV2.rda

Apendice A. El campo semántico

El campo semántico se encuentra disponible para descarga en el siguiente enlace:

Page 32: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

matemáticas

matemáticamatemático

matemáticos

teoremasteórica

analítica

física

kuhn

axiomas

epistemología

empíricas

hilbert

álgebra

leibniz

geometría

fundamentos

teoría

empírica

conjetura

empírico

computacional

determinista

teorías

científica

lógica

enunciados

empíricos

formulación

algebraica

demostración

cálculo

formalismo

ciencia

euclides

lógicos

científico

exactas

infinitos

turing

-0.2

0.0

0.2

0.4

-0.2 0.0 0.2 0.4

x

y

Palabras semánticamente semejantes a “matemáticas”

Page 33: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

poesía

poetas

poéticopoética

poeta

poéticas

poéticos

poemario

poesías

poemas

poemarios

prosaliteraria

poemasonetos

soneto

versos

poetisa

epigramas

antologías

rimas

literario

rima

lírica

poems

antología

literatura

verso

ensayista

literaturas

odas

líricos

eliot

musicalidad

literarios

novelista

publicaría

epopeya

literarias

-0.1

0.0

0.1

0.2

-0.2 0.0 0.2

x

y

Palabras semánticamente semejantes a “poesía”

Page 34: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

Fin de la presentación.

Page 35: Presentación de PowerPoint - enjim.matem.unam.mxenjim.matem.unam.mx/images/2018/pdf/Igor_Barahona.pdf · como vectores inmersos en un espacio ... Se realiza una contribución novedosa

Fin de la presentación

¡Gracias por su atención!