Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Lingüística computacionalIntroducción al procesamiento del lenguaje natural
Jorge Mauricio MOLINA MEJIAFacultad de Comunicaciones – Pregrado en letras: Filología hispánica
09 de enero de 2016
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 1 / 24
Plan
1 Introducción
2 ¿Qué es la lingüística computacional ?
3 Terminología
4 Campos de utilización de la Lingüística computacional
5 Ejemplo de análisis 1
6 Ejemplo de análisis 2
7 Alcances y problemas en la LC
8 Conclusión y perspectivas
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 2 / 24
Plan
1 Introducción
2 ¿Qué es la lingüística computacional ?
3 Terminología
4 Campos de utilización de la Lingüísticacomputacional
5 Ejemplo de análisis 1
6 Ejemplo de análisis 2
7 Alcances y problemas en la LC
8 Conclusión y perspectivas
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 3 / 24
Procesar el lenguaje naturalLingüística computacional (LC)
Representación figurada de la LC en la IA (Lavocat, 2013).
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 4 / 24
Procesar el lenguaje natural
Algunas generalidades
La lingüística computacional es una ciencia interdisciplinaria (lingüística e informática) rela-tivamente reciente.
La lingüística computacional se interesa en el tratamiento informático de las lenguas natu-rales, utilizando para ello las potencialidades de los computadores.
La lingüística computacional se interesa tanto en el tratamiento de la lengua escrita como dela lengua hablada.
Los tratamientos informáticos pueden ser de tipo automático o manual.
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 5 / 24
Procesar el lenguaje natural
Algunas generalidades
La lingüística computacional es una ciencia interdisciplinaria (lingüística e informática) rela-tivamente reciente.
La lingüística computacional se interesa en el tratamiento informático de las lenguas natu-rales, utilizando para ello las potencialidades de los computadores.
La lingüística computacional se interesa tanto en el tratamiento de la lengua escrita como dela lengua hablada.
Los tratamientos informáticos pueden ser de tipo automático o manual.
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 5 / 24
Procesar el lenguaje natural
Algunas generalidades
La lingüística computacional es una ciencia interdisciplinaria (lingüística e informática) rela-tivamente reciente.
La lingüística computacional se interesa en el tratamiento informático de las lenguas natu-rales, utilizando para ello las potencialidades de los computadores.
La lingüística computacional se interesa tanto en el tratamiento de la lengua escrita como dela lengua hablada.
Los tratamientos informáticos pueden ser de tipo automático o manual.
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 5 / 24
Procesar el lenguaje natural
Algunas generalidades
La lingüística computacional es una ciencia interdisciplinaria (lingüística e informática) rela-tivamente reciente.
La lingüística computacional se interesa en el tratamiento informático de las lenguas natu-rales, utilizando para ello las potencialidades de los computadores.
La lingüística computacional se interesa tanto en el tratamiento de la lengua escrita como dela lengua hablada.
Los tratamientos informáticos pueden ser de tipo automático o manual.
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 5 / 24
Plan
1 Introducción
2 ¿Qué es la lingüística computacional ?
3 Terminología
4 Campos de utilización de la Lingüísticacomputacional
5 Ejemplo de análisis 1
6 Ejemplo de análisis 2
7 Alcances y problemas en la LC
8 Conclusión y perspectivas
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 6 / 24
¿Qué es la lingüística computacional ?Definición de un campo
Lingüística computacional o lingüística informática
"[...] estudio de los sistemas de computación utilizados para la comprensión y la generaciónde las lenguas naturales" (Grishman, 1986, citado en Moreno Sandoval, 1998).
"[...] es un área de conocimiento interdisciplinario en que confluyen la Lingüística Teóricay Aplicada, la Informática, la Inteligencia Artificial y la Ciencia Cognitiva. Más aún, coneste término a menudo se hace referencia a todo tipo de procesos informáticos que seaplican a los datos lingüísticos, puesto que el objetivo último de la lingüística computacionales la modelización del comportamiento lingüístico del hablante y del oyente, es decir, laconstrucción de programas informáticos que simulen los procesos que tienen lugar enlos individuos cuando estos se comunican" (Martí Antonin & Castellón Masalles, 2000).
Objeto de la LC
"[...] los tratamientos automáticos de las lenguas tienen como objeto los datos lingüísticos(textos), expresados en un lenguaje (natural), y que para poder procesar automáticamentedichos datos, se debe ser capaz de explicitar las reglas del lenguaje, de representarlos en for-malismos operatorios y calculables y de implementarlos con la ayuda de programas" (Fuchs,1993).
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 7 / 24
¿Qué es la lingüística computacional ?Definición de un campo
Lingüística computacional o lingüística informática
"[...] estudio de los sistemas de computación utilizados para la comprensión y la generaciónde las lenguas naturales" (Grishman, 1986, citado en Moreno Sandoval, 1998).
"[...] es un área de conocimiento interdisciplinario en que confluyen la Lingüística Teóricay Aplicada, la Informática, la Inteligencia Artificial y la Ciencia Cognitiva. Más aún, coneste término a menudo se hace referencia a todo tipo de procesos informáticos que seaplican a los datos lingüísticos, puesto que el objetivo último de la lingüística computacionales la modelización del comportamiento lingüístico del hablante y del oyente, es decir, laconstrucción de programas informáticos que simulen los procesos que tienen lugar enlos individuos cuando estos se comunican" (Martí Antonin & Castellón Masalles, 2000).
Objeto de la LC
"[...] los tratamientos automáticos de las lenguas tienen como objeto los datos lingüísticos(textos), expresados en un lenguaje (natural), y que para poder procesar automáticamentedichos datos, se debe ser capaz de explicitar las reglas del lenguaje, de representarlos en for-malismos operatorios y calculables y de implementarlos con la ayuda de programas" (Fuchs,1993).
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 7 / 24
¿Qué es la lingüística computacional ?Definición de un campo
Lingüística computacional o lingüística informática
"[...] estudio de los sistemas de computación utilizados para la comprensión y la generaciónde las lenguas naturales" (Grishman, 1986, citado en Moreno Sandoval, 1998).
"[...] es un área de conocimiento interdisciplinario en que confluyen la Lingüística Teóricay Aplicada, la Informática, la Inteligencia Artificial y la Ciencia Cognitiva. Más aún, coneste término a menudo se hace referencia a todo tipo de procesos informáticos que seaplican a los datos lingüísticos, puesto que el objetivo último de la lingüística computacionales la modelización del comportamiento lingüístico del hablante y del oyente, es decir, laconstrucción de programas informáticos que simulen los procesos que tienen lugar enlos individuos cuando estos se comunican" (Martí Antonin & Castellón Masalles, 2000).
Objeto de la LC
"[...] los tratamientos automáticos de las lenguas tienen como objeto los datos lingüísticos(textos), expresados en un lenguaje (natural), y que para poder procesar automáticamentedichos datos, se debe ser capaz de explicitar las reglas del lenguaje, de representarlos en for-malismos operatorios y calculables y de implementarlos con la ayuda de programas" (Fuchs,1993).
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 7 / 24
Esquema que define el procesamiento automático del lenguaje (Antoniadis,2008)
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 8 / 24
Plan
1 Introducción
2 ¿Qué es la lingüística computacional ?
3 Terminología
4 Campos de utilización de la Lingüísticacomputacional
5 Ejemplo de análisis 1
6 Ejemplo de análisis 2
7 Alcances y problemas en la LC
8 Conclusión y perspectivas
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 9 / 24
Algo de terminología
Términos
Lingüística computacional
Lingüística informática
Procesamiento del lenguaje natural
Ingeniería lingüística
Tecnologías del lenguaje
Ciencias afines
Lingüística teórica y aplicada
Informática
Inteligencia artificial
Ciencia cognitiva
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 10 / 24
Algo de terminología
Términos
Lingüística computacional
Lingüística informática
Procesamiento del lenguaje natural
Ingeniería lingüística
Tecnologías del lenguaje
Ciencias afines
Lingüística teórica y aplicada
Informática
Inteligencia artificial
Ciencia cognitiva
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 10 / 24
Algo de terminología
Términos
Lingüística computacional
Lingüística informática
Procesamiento del lenguaje natural
Ingeniería lingüística
Tecnologías del lenguaje
Ciencias afines
Lingüística teórica y aplicada
Informática
Inteligencia artificial
Ciencia cognitiva
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 10 / 24
Algo de terminología
Términos
Lingüística computacional
Lingüística informática
Procesamiento del lenguaje natural
Ingeniería lingüística
Tecnologías del lenguaje
Ciencias afines
Lingüística teórica y aplicada
Informática
Inteligencia artificial
Ciencia cognitiva
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 10 / 24
Plan
1 Introducción
2 ¿Qué es la lingüística computacional ?
3 Terminología
4 Campos de utilización de la Lingüísticacomputacional
5 Ejemplo de análisis 1
6 Ejemplo de análisis 2
7 Alcances y problemas en la LC
8 Conclusión y perspectivas
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 11 / 24
Campos de utilización de la Lingüística computacional
Tecnologías del lenguaje (Martí Antonin et al., 2003)
Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística
El procesamiento de corpusCorpus escritosCorpus orales
Hipertexto
La traducción automáticaLas interfaces en lenguaje natural
El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces
Recuperación y extracción de informaciónLas tecnologías del habla
La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24
Campos de utilización de la Lingüística computacional
Tecnologías del lenguaje (Martí Antonin et al., 2003)
Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística
El procesamiento de corpusCorpus escritosCorpus orales
Hipertexto
La traducción automáticaLas interfaces en lenguaje natural
El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces
Recuperación y extracción de informaciónLas tecnologías del habla
La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24
Campos de utilización de la Lingüística computacional
Tecnologías del lenguaje (Martí Antonin et al., 2003)
Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística
El procesamiento de corpusCorpus escritosCorpus orales
Hipertexto
La traducción automáticaLas interfaces en lenguaje natural
El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces
Recuperación y extracción de informaciónLas tecnologías del habla
La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24
Campos de utilización de la Lingüística computacional
Tecnologías del lenguaje (Martí Antonin et al., 2003)
Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística
El procesamiento de corpusCorpus escritosCorpus orales
Hipertexto
La traducción automática
Las interfaces en lenguaje naturalEl tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces
Recuperación y extracción de informaciónLas tecnologías del habla
La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24
Campos de utilización de la Lingüística computacional
Tecnologías del lenguaje (Martí Antonin et al., 2003)
Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística
El procesamiento de corpusCorpus escritosCorpus orales
Hipertexto
La traducción automáticaLas interfaces en lenguaje natural
El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces
Recuperación y extracción de informaciónLas tecnologías del habla
La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24
Campos de utilización de la Lingüística computacional
Tecnologías del lenguaje (Martí Antonin et al., 2003)
Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística
El procesamiento de corpusCorpus escritosCorpus orales
Hipertexto
La traducción automáticaLas interfaces en lenguaje natural
El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces
Recuperación y extracción de información
Las tecnologías del hablaLa síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24
Campos de utilización de la Lingüística computacional
Tecnologías del lenguaje (Martí Antonin et al., 2003)
Recursos de ayuda a la ediciónLa verificación ortográficaLa verificación sintácticaLa verificación estilística
El procesamiento de corpusCorpus escritosCorpus orales
Hipertexto
La traducción automáticaLas interfaces en lenguaje natural
El tratamiento lingüísticoArquitecturas sencillas y avanzadas en la tecnología de interfaces
Recuperación y extracción de informaciónLas tecnologías del habla
La síntesis del hablaEl reconocimiento del hablaLos sistemas de diálogo
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 12 / 24
Plan
1 Introducción
2 ¿Qué es la lingüística computacional ?
3 Terminología
4 Campos de utilización de la Lingüísticacomputacional
5 Ejemplo de análisis 1
6 Ejemplo de análisis 2
7 Alcances y problemas en la LC
8 Conclusión y perspectivas
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 13 / 24
Proceso de análisis (Martí Antonin et al., 2003)
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 14 / 24
Plan
1 Introducción
2 ¿Qué es la lingüística computacional ?
3 Terminología
4 Campos de utilización de la Lingüísticacomputacional
5 Ejemplo de análisis 1
6 Ejemplo de análisis 2
7 Alcances y problemas en la LC
8 Conclusión y perspectivas
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 15 / 24
Ejemplo de análisis ELiTe-[FLE]2 (Molina Mejia, 2015)
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 16 / 24
Plan
1 Introducción
2 ¿Qué es la lingüística computacional ?
3 Terminología
4 Campos de utilización de la Lingüísticacomputacional
5 Ejemplo de análisis 1
6 Ejemplo de análisis 2
7 Alcances y problemas en la LC
8 Conclusión y perspectivas
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 17 / 24
Alcances y limitaciones en la LC
AlcancesManejo de grandes masas de datos en tiempos reducidos.
Posibilidad de manejar los datos para realizar aplicaciones en la Red.
Los datos obtenidos a través del procesamiento del lenguaje pueden aplicarse en diversoscampos del conocimiento.
Limitaciones
Los sistemas mejor dotados sólo pueden llegar (en el mejor de los casos) a un nivel decertitud del 98% al 99%, por el momento el 100% es utópico.
Problemas de detección debidos a la ambigüedad del lenguaje.
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 18 / 24
Alcances y limitaciones en la LC
AlcancesManejo de grandes masas de datos en tiempos reducidos.
Posibilidad de manejar los datos para realizar aplicaciones en la Red.
Los datos obtenidos a través del procesamiento del lenguaje pueden aplicarse en diversoscampos del conocimiento.
Limitaciones
Los sistemas mejor dotados sólo pueden llegar (en el mejor de los casos) a un nivel decertitud del 98% al 99%, por el momento el 100% es utópico.
Problemas de detección debidos a la ambigüedad del lenguaje.
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 18 / 24
Errores de tratamiento
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 19 / 24
Ambigüedad lingüística
Ambigüedad morfológica
O = La pequeña viola la forma.[O ambigmorfo] – (Det(La) ; N(La) ; Pron(La) ; N(pequeña) ; Adj(pequeña) ; N(viola) ; V(viola) ;Det(la) ; N(la) ; Pron(la) ; N(forma) ; V(forma)).
Ambigüedad sintáctica
O = La pequeña viola la forma.[O ambigsint1] – (SN Det(La) N(pequeña)) (SV V(viola)) (SN Det(la) N(forma)).[O ambigsint2] – (SN Det(La) Adj(pequeña) N(viola)) (CI Pron(la)) (SV V(forma)).
Posibles soluciones
Métodos estadísticos (cadenas de Markov).
Métodos lingüísticos (análisis manual).
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 20 / 24
Ambigüedad lingüística
Ambigüedad morfológica
O = La pequeña viola la forma.[O ambigmorfo] – (Det(La) ; N(La) ; Pron(La) ; N(pequeña) ; Adj(pequeña) ; N(viola) ; V(viola) ;Det(la) ; N(la) ; Pron(la) ; N(forma) ; V(forma)).
Ambigüedad sintáctica
O = La pequeña viola la forma.[O ambigsint1] – (SN Det(La) N(pequeña)) (SV V(viola)) (SN Det(la) N(forma)).[O ambigsint2] – (SN Det(La) Adj(pequeña) N(viola)) (CI Pron(la)) (SV V(forma)).
Posibles soluciones
Métodos estadísticos (cadenas de Markov).
Métodos lingüísticos (análisis manual).
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 20 / 24
Ambigüedad lingüística
Ambigüedad morfológica
O = La pequeña viola la forma.[O ambigmorfo] – (Det(La) ; N(La) ; Pron(La) ; N(pequeña) ; Adj(pequeña) ; N(viola) ; V(viola) ;Det(la) ; N(la) ; Pron(la) ; N(forma) ; V(forma)).
Ambigüedad sintáctica
O = La pequeña viola la forma.[O ambigsint1] – (SN Det(La) N(pequeña)) (SV V(viola)) (SN Det(la) N(forma)).[O ambigsint2] – (SN Det(La) Adj(pequeña) N(viola)) (CI Pron(la)) (SV V(forma)).
Posibles soluciones
Métodos estadísticos (cadenas de Markov).
Métodos lingüísticos (análisis manual).
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 20 / 24
Plan
1 Introducción
2 ¿Qué es la lingüística computacional ?
3 Terminología
4 Campos de utilización de la Lingüísticacomputacional
5 Ejemplo de análisis 1
6 Ejemplo de análisis 2
7 Alcances y problemas en la LC
8 Conclusión y perspectivas
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 21 / 24
Conclusión y perspectivas
Conclusión
La lingüística computacional nos ha permitido, a través del procesamiento del lenguaje na-tural, la realización de aplicaciones informáticas que nos permiten el análisis de ese propiolenguaje.
Las técnicas de procesamiento han ido mejorando con el tiempo, hoy en día disponemos demejores analizadores morfo-sintácticos, de mejores instrumentos de anotación y etiquetaje.
Perspectivas
¿Qué podemos obtener como aspectos positivos del procesamiento del lenguaje natural ?
¿Que elementos de análisis podemos realizar basados en la lingüística computacional ?
¿Cómo consideran ustedes que puede utilizarse toda esta información en un proyecto delingüística o de literatura de los diferentes cursos de la carrera de filología ?
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 22 / 24
Conclusión y perspectivas
Conclusión
La lingüística computacional nos ha permitido, a través del procesamiento del lenguaje na-tural, la realización de aplicaciones informáticas que nos permiten el análisis de ese propiolenguaje.
Las técnicas de procesamiento han ido mejorando con el tiempo, hoy en día disponemos demejores analizadores morfo-sintácticos, de mejores instrumentos de anotación y etiquetaje.
Perspectivas
¿Qué podemos obtener como aspectos positivos del procesamiento del lenguaje natural ?
¿Que elementos de análisis podemos realizar basados en la lingüística computacional ?
¿Cómo consideran ustedes que puede utilizarse toda esta información en un proyecto delingüística o de literatura de los diferentes cursos de la carrera de filología ?
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 22 / 24
Bibliografía
Antoniadis, G. (2008). Du TAL et son apport aux systèmes d’apprentissage des langues :Contributions. Habilitation à diriger des recherches. Université Stendhal - Grenoble 3 : Gre-noble.
Fuchs, C. (1993). Linguistique et Traitements Automatiques des Langues. Hachette Supé-rieur : París.
Martí, M. A. & Llisterri, J. (2002). Tratamiento del lenguaje natural. Edicions Universitat deBarcelona : Barcelona.
Martí Antonin, M. A. & Castellón Masalles, I. (2000). Lingüística computacional. EdicionsUniversitat de Barcelona : Barcelona.
Martí Antonin, M. A. et al. (2003). Tecnologías del lenguaje. Editorial UOC : Barcelona.
Molina Mejia, J. M. (2015). ELiTe-[FLE]2 : Un environnement d’ALAO fondé sur la linguistiquetextuelle, pour la formation linguistique des futurs enseignants de FLE en Colombie. Thèsede Doctorat. Soutenue le 06 Novembre 2015, 442 pp. Université Grenoble Alpes : Grenoble.
Moreno Sandoval, A. (1998). Lingüística computacional. Editorial Síntesis : Madrid.
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 23 / 24
Lingüística computacionalIntroducción al procesamiento del lenguaje natural
Jorge Mauricio MOLINA MEJIAFacultad de Comunicaciones – Pregrado en letras: Filología hispánica
09 de enero de 2016
Facultad de Comunicaciones – UdeA Lingüística computacional 09/02/2016 24 / 24