34
FAQS ALINEACIÓN Y CORPUS ¿Qué es un corpus? ¿Por qué son útiles los corpora? ¿Qué tipos de corpora existen? ¿Hay subcategorías? ¿Dónde puedo encontrar corpora? ¿Cómo puedo hacer un corpus bilingüe? Una vez que tengo el corpus, ¿cómo puedo utilizarlo? ¿Qué es la alineación de textos? ¿Qué extensión debe tener cada fragmento? ¿Qué es una unidad de traducción? Si las unidades de traducción son unidades semánticas al fin y al cabo, estarán recogidas en los diccionarios. ¿Donde puedo encontrar entonces traducciones de este tipo de expr esiones? Si en mi alineación utilizo frases completas como unidades para m i memoria, no se corresponden con las unidades de traducción. ¿Có mo funciona entonces la memoria cuando la he alimentado con mi co rpus? ¿Qué ventaja tiene esto?

Faqs Corpora y Alineación de traducción

  • Upload
    mar-g

  • View
    1.428

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Faqs Corpora y Alineación de traducción

FAQS ALINEACIÓN Y CORPUS¿Qué es un corpus?

¿Por qué son útiles los corpora?¿Qué tipos de corpora existen?

¿Hay subcategorías?¿Dónde puedo encontrar corpora?

¿Cómo puedo hacer un corpus bilingüe?Una vez que tengo el corpus, ¿cómo puedo utilizarlo?

¿Qué es la alineación de textos?¿Qué extensión debe tener cada fragmento?

¿Qué es una unidad de traducción?Si las unidades de traducción son unidades semánticas al fin y al cabo, estarán recogidas en los diccionarios.¿Donde puedo encontrar entonces traducciones de este tipo de expresiones?  Si en mi alineación utilizo frases completas como unidades para mi memoria, no se corresponden con las unidades de traducción. ¿Cómo funciona entonces la memoria cuando la he alimentado con mi corpus?

¿Qué ventaja tiene esto?

Page 2: Faqs Corpora y Alineación de traducción

¿Y si no tengo ningún ejemplo del refrán que quiero traducir en mi memoria de traducción?Si hago la memoria de traducción con unidades muy pequeñas, tendré muchas coincidencias y tendré menos trabajo por hacer.

¿Cuál es el proceso que debo seguir para alinear dos textos?Después de esto el programa me alinea los segmentos automáticamente.

¿Con qué otros errores me puedo encontrar en la alineación?¿Es conveniente entonces preparar los textos de antemano?

¿Qué programas existen de alineación de textos?¿En qué formatos puedo tener mi texto una vez alineado?

-Si tengo mis corpora alineados en formato.tmx, ¿puedo compartirlo con quien quiera?

-¿Qué más utilidades tiene un corpus?¿Qué textos puedo incorporar en mi corpus?

Entonces, ¿puedo sacarlos de internet? ¿Qué es una concordancia?

¿Cómo puedo buscar concordancias en un corpus?¿Existen programas que busquen concordancias en corpus paralelos?

¿Qué son las anotaciones o etiquetas?¿Existe algún estándar para las anotaciones?

Page 3: Faqs Corpora y Alineación de traducción

¿Qué es un corpus?

Es una recolección de un conjunto de textos reales de diferentes ámbitos que nos permite ver el funcionamiento de una palabra o varias (por ejemplo colocaciones) en su contexto.

Page 4: Faqs Corpora y Alineación de traducción

¿Por qué son útiles los corpora?

Porque podemos ver la palabra en su contexto y evidenciar los detalles de significado en cada uno.

Page 5: Faqs Corpora y Alineación de traducción

¿Qué tipos de corpora existen?

Monolingües y multilingües.

Page 6: Faqs Corpora y Alineación de traducción

¿Hay subcategorías?Sí, pueden ser de textos orales, textos escritos, especializados, de un registro de terminado solamente (por ejemplo de lenguaje infantil)...Dentro de los que multilingües podemos encontrar también 3 tipos diferentes de corpora:    * comparables: no son traducción un texto del otro, pero sí versan sobre el mismo tema, tienen una extensión parecida, un origen similar...    * paralelos: un texto es traducción del otro y por lo tanto se pueden alinear.     * corpus de textos en distintos idiomas: la elección de los textos se puede hacer simplemente por la disponibilidad de los mismos hasta por rasgos parecidos, pero sin llegar a ser comparables.También existe el corpus monolingüe comparable, en el que se recogen el texto original en el idioma original y por otro lado las traducciones del mismo texto hechas a este mismo idioma original desde otros traducidos.

Page 7: Faqs Corpora y Alineación de traducción

¿Dónde puedo encontrar corpora?Por ejemplo tiene el Corpus del Español de Mark Davies de la Brigham Young University, el Corpus de Referencia del Español Actual (CREA) de la Real Academia Española, International Corpus of English (ICE) de University College London, Corpus lingüístico del español contemporáneo, Lexesp, Léxico informatizado del español, Corpus Diacrónico del Español (CORDE), Archivo de textos hispánicos de la Universidad de Santiago (ARTHUS), CUMBRE, Corpus de español de la República de Argentina, Corpus Chileno de Referencia, British National Corpus (BNC), Cobuild, the Bank of English, Multilingual Corpus de la European Corpus Initiative…

Page 8: Faqs Corpora y Alineación de traducción

¿Cómo puedo hacer un corpus bilingüe?

Simplemente hay que buscar textos en ambos idiomas que versen sobre el mismo tema (corpus comparable) o que sean uno traducción del otro (corpus paralelo).

Page 9: Faqs Corpora y Alineación de traducción

Una vez que tengo el corpus, ¿cómo puedo utilizarlo?

El corpus puede utilizarse simplemente para ver el uso de las palabras pero si lo alineamos podremos alimentar una memoria de traducción.

Page 10: Faqs Corpora y Alineación de traducción

¿Qué es la alineación de textos?

Consiste en comparar dos textos de un corpus paralelo haciendo coincidir cada fragmento con su traducción. Esto sirve como base para poder crear las memorias de traducción.

Page 11: Faqs Corpora y Alineación de traducción

¿Qué extensión debe tener cada fragmento?

Depende del usuario. Si buscamos la posibilidad de tener más coincidencias con la memoria de traducción, alinearemos fragmentos pequeños. Incluso podremos hacerlo por párrafos completos o por simples unidades de traducción.

Page 12: Faqs Corpora y Alineación de traducción

¿Qué es una unidad de traducción?

Existen muchas versiones. Según Vinay y Darbelnet es “el menor segmento del enunciado en el que la cohesión de los signos es tal que no se entenderían si fueran traducidos por separado”. Atendiendo a esta definición , la unidad se mide por el significado, pudiendo ser desde una palabra hasta una frase completa (como por ejemplo los refranes), pasando por colocaciones o perífrasis.

Page 13: Faqs Corpora y Alineación de traducción

Si las unidades de traducción son unidades semánticas al fin y al cabo, estarán recogidas en los

diccionarios.No, porque el recoger todos los giros, colocaciones, perífrasis... en un diccionario sería una tarea prácticamente imposible, debido a la exhaustividad que tendrían que tener. Existen algunos diccionarios más completos que pueden incorporar algunas pero no todas. 

Page 14: Faqs Corpora y Alineación de traducción

¿Donde puedo encontrar entonces traducciones de este tipo de

expresiones?  

En los corpora bilingües o multilingües.

Page 15: Faqs Corpora y Alineación de traducción

Si en mi alineación utilizo frases completas como unidades para mi memoria, no se

corresponden con las unidades de traducción. ¿Cómo funciona entonces la

memoria cuando la he alimentado con mi corpus?

Utiliza la traducción por comparación con otros ejemplos (la alineación incorporada), no por unidades de traducción (que utilizan los programas de traducción automática).

Page 16: Faqs Corpora y Alineación de traducción

¿Qué ventaja tiene esto?

Por ejemplo en el caso de tener que traducir frases hechas o refranes, en el caso de una traducción automática nos lo traduciría palabra por palabra, lo que no tendría sentido. Sin embargo, la memoria de traducción nos lo traduciría por su sentido si lo tenemos alineado e incorporado a nuestro software.

Page 17: Faqs Corpora y Alineación de traducción

¿Y si no tengo ningún ejemplo del refrán que quiero traducir en mi

memoria de traducción?

Entonces no lo traducirá. Tendremos que hacerlo manualmente.

Page 18: Faqs Corpora y Alineación de traducción

Si hago la memoria de traducción con unidades muy pequeñas, tendré

muchas coincidencias y tendré menos trabajo por hacer.

Sí, pero al carecer del contexto suficiente, muchas veces puede que la traducción no se ajuste aunque coincida al 100% con alguna ya introducida en la memoria de traducción.

Page 19: Faqs Corpora y Alineación de traducción

¿Cuál es el proceso que debo seguir para alinear dos textos?

Se deben escoger ambos archivos, especificar su formato, especificar sus lenguas, y seguir las instrucciones de cada programa.

Page 20: Faqs Corpora y Alineación de traducción

Después de esto el programa me alinea los segmentos

automáticamente.Sí, pero necesita revisión por parte de la persona. Los programas de alineación muchas veces basan la división de los segmentos por los signos de puntuación y puede no realizarlo bien, como por ejemplo considerando los puntos de detrás de abreviaturas como puntos de final de frase.

Page 21: Faqs Corpora y Alineación de traducción

¿Con qué otros errores me puedo encontrar en la alineación?

Hay muchas veces que una frase en un idioma corresponde a dos en otra lengua y esto tampoco lo reconocen los programas de alineación. Si el texto no tiene el formato correcto y se ha usado el retorno de carro varias veces en una frase para hacer las líneas más pequeñas (como por ejemplo en una poesía o en un título que queremos centrar en la página), el programa de alineación lo considerará como segmentos distintos.No hay que olvidar el ejemplo mencionado en la pregunta anterior. Los programas reconocen los puntos como final de segmentos (aunque esta función se puede modificar) y lo dividen tanto si es un punto de detrás de una abreviatura como si es el punto final de la frase.

Page 22: Faqs Corpora y Alineación de traducción

¿Es conveniente entonces preparar los textos de antemano?

Sí. Lo mejor es que los textos sean lo más homogéneos posibles y con las menos “trabas” para el programa. Conviene que los párrafos sean los mismos en ambos textos, que no haya divisiones de párrafo donde no existe una diferencia del mismo, que no haya frases sin correspondencia o que no se repita una frase innecesaria a lo largo de todo el documento (por ejemplo los títulos de la obra o capítulo). Todo el trabajo que realicemos antes de la alineación repercutirá positivamente en la misma y nos ahorrará trabajo en su corrección.

Page 23: Faqs Corpora y Alineación de traducción

¿Qué programas existen de alineación de textos?

Por ejemplo existen Trados Winalign, Déjà Vu X, PlusTools de Wordfast,

MultiTrans, Transit, SDLX…

Page 24: Faqs Corpora y Alineación de traducción

¿En qué formatos puedo tener mi texto una vez alineado?

Podemos volcarlo en formato .txt, el cual podremos exportar a casi cualquier programa que use texto. también podremos guardarlo en formato .tmx (Translation Memory Exchange Format) que nos sirve para exportarlo a otros programas de memorias de traducción.

Page 25: Faqs Corpora y Alineación de traducción

Si tengo mis corpora alineados en formato.tmx, ¿puedo compartirlo

con quien quiera?

Sí, con cualquiera que tenga una memoria de traducción. Con el inconveniente que presentan los derechos de autor de las traducciones para este intercambio, claro.

Page 26: Faqs Corpora y Alineación de traducción

¿Qué más utilidades tiene un corpus?

Por ejemplo podemos ver desde cuando se utiliza una palabra en el caso de que recoja textos antiguos, ver la frecuencia de uso de una palabra, compara los diferentes registros en los que se puede utilizar la palabra (prensa, lenguaje hablado, escrito)… 

Page 27: Faqs Corpora y Alineación de traducción

¿Qué textos puedo incorporar en mi corpus?

Cualquiera que esté en formato electrónico. Es más, existe software que usa todo Internet como si fuera una gran colección de textos y busca concordancias en cualquier texto que se encuentre en la red.

Page 28: Faqs Corpora y Alineación de traducción

¿Puedo sacarlos de internet?

Sí, pero tiene el problema de que en la red existen textos de todo tipo, tanto correctamente escritos como incorrectos, formales e informales, educados o no… hay que tener esto presente para poder seleccionar los que nos resulten adecuados a nuestras necesidades.

Page 29: Faqs Corpora y Alineación de traducción

¿Qué es una concordancia?

Son los resultados que nos da el software cuando buscamos una palabra en su contexto. Según cada programa puede darnos más número de palabras delante y detrás de la que buscamos en su texto original. Lo mejor para comprenderlo es ver la siguiente imagen

Page 30: Faqs Corpora y Alineación de traducción
Page 31: Faqs Corpora y Alineación de traducción

¿Cómo puedo buscar concordancias en un corpus?

Con un software determinado o si está en internet como el caso de los corpora de la RAE simplemente usando su web.Para poder ver listas de software que nos las busquen, incluimos dos links a webs que poseen una lista de estos programas.

www www

Page 32: Faqs Corpora y Alineación de traducción

¿Existen programas que busquen concordancias en corpus

paralelos?Sí, por ejemplo Multiconcord.

Page 33: Faqs Corpora y Alineación de traducción

¿Qué son las anotaciones o etiquetas?

Se trata de asignarle a cada palabra por ejemplo su análisis morfológico o sintático para poder obtener mejores estadísticas del corpus o un mejor análisis de las relaciones entre las palabras o significados. Estas deben poder eliminarse para poder ver el texto en su estado original.

Page 34: Faqs Corpora y Alineación de traducción

¿Existe algún estándar para las anotaciones?

Sí, por ejemplo el SGML (Standard Generalised Markup Language), que es el más extendido.