Faqs Corpora y Alineación de traducción

Preview:

Citation preview

FAQS ALINEACIÓN Y CORPUS¿Qué es un corpus?

¿Por qué son útiles los corpora?¿Qué tipos de corpora existen?

¿Hay subcategorías?¿Dónde puedo encontrar corpora?

¿Cómo puedo hacer un corpus bilingüe?Una vez que tengo el corpus, ¿cómo puedo utilizarlo?

¿Qué es la alineación de textos?¿Qué extensión debe tener cada fragmento?

¿Qué es una unidad de traducción?Si las unidades de traducción son unidades semánticas al fin y al cabo, estarán recogidas en los diccionarios.¿Donde puedo encontrar entonces traducciones de este tipo de expresiones?  Si en mi alineación utilizo frases completas como unidades para mi memoria, no se corresponden con las unidades de traducción. ¿Cómo funciona entonces la memoria cuando la he alimentado con mi corpus?

¿Qué ventaja tiene esto?

¿Y si no tengo ningún ejemplo del refrán que quiero traducir en mi memoria de traducción?Si hago la memoria de traducción con unidades muy pequeñas, tendré muchas coincidencias y tendré menos trabajo por hacer.

¿Cuál es el proceso que debo seguir para alinear dos textos?Después de esto el programa me alinea los segmentos automáticamente.

¿Con qué otros errores me puedo encontrar en la alineación?¿Es conveniente entonces preparar los textos de antemano?

¿Qué programas existen de alineación de textos?¿En qué formatos puedo tener mi texto una vez alineado?

-Si tengo mis corpora alineados en formato.tmx, ¿puedo compartirlo con quien quiera?

-¿Qué más utilidades tiene un corpus?¿Qué textos puedo incorporar en mi corpus?

Entonces, ¿puedo sacarlos de internet? ¿Qué es una concordancia?

¿Cómo puedo buscar concordancias en un corpus?¿Existen programas que busquen concordancias en corpus paralelos?

¿Qué son las anotaciones o etiquetas?¿Existe algún estándar para las anotaciones?

¿Qué es un corpus?

Es una recolección de un conjunto de textos reales de diferentes ámbitos que nos permite ver el funcionamiento de una palabra o varias (por ejemplo colocaciones) en su contexto.

¿Por qué son útiles los corpora?

Porque podemos ver la palabra en su contexto y evidenciar los detalles de significado en cada uno.

¿Qué tipos de corpora existen?

Monolingües y multilingües.

¿Hay subcategorías?Sí, pueden ser de textos orales, textos escritos, especializados, de un registro de terminado solamente (por ejemplo de lenguaje infantil)...Dentro de los que multilingües podemos encontrar también 3 tipos diferentes de corpora:    * comparables: no son traducción un texto del otro, pero sí versan sobre el mismo tema, tienen una extensión parecida, un origen similar...    * paralelos: un texto es traducción del otro y por lo tanto se pueden alinear.     * corpus de textos en distintos idiomas: la elección de los textos se puede hacer simplemente por la disponibilidad de los mismos hasta por rasgos parecidos, pero sin llegar a ser comparables.También existe el corpus monolingüe comparable, en el que se recogen el texto original en el idioma original y por otro lado las traducciones del mismo texto hechas a este mismo idioma original desde otros traducidos.

¿Dónde puedo encontrar corpora?Por ejemplo tiene el Corpus del Español de Mark Davies de la Brigham Young University, el Corpus de Referencia del Español Actual (CREA) de la Real Academia Española, International Corpus of English (ICE) de University College London, Corpus lingüístico del español contemporáneo, Lexesp, Léxico informatizado del español, Corpus Diacrónico del Español (CORDE), Archivo de textos hispánicos de la Universidad de Santiago (ARTHUS), CUMBRE, Corpus de español de la República de Argentina, Corpus Chileno de Referencia, British National Corpus (BNC), Cobuild, the Bank of English, Multilingual Corpus de la European Corpus Initiative…

¿Cómo puedo hacer un corpus bilingüe?

Simplemente hay que buscar textos en ambos idiomas que versen sobre el mismo tema (corpus comparable) o que sean uno traducción del otro (corpus paralelo).

Una vez que tengo el corpus, ¿cómo puedo utilizarlo?

El corpus puede utilizarse simplemente para ver el uso de las palabras pero si lo alineamos podremos alimentar una memoria de traducción.

¿Qué es la alineación de textos?

Consiste en comparar dos textos de un corpus paralelo haciendo coincidir cada fragmento con su traducción. Esto sirve como base para poder crear las memorias de traducción.

¿Qué extensión debe tener cada fragmento?

Depende del usuario. Si buscamos la posibilidad de tener más coincidencias con la memoria de traducción, alinearemos fragmentos pequeños. Incluso podremos hacerlo por párrafos completos o por simples unidades de traducción.

¿Qué es una unidad de traducción?

Existen muchas versiones. Según Vinay y Darbelnet es “el menor segmento del enunciado en el que la cohesión de los signos es tal que no se entenderían si fueran traducidos por separado”. Atendiendo a esta definición , la unidad se mide por el significado, pudiendo ser desde una palabra hasta una frase completa (como por ejemplo los refranes), pasando por colocaciones o perífrasis.

Si las unidades de traducción son unidades semánticas al fin y al cabo, estarán recogidas en los

diccionarios.No, porque el recoger todos los giros, colocaciones, perífrasis... en un diccionario sería una tarea prácticamente imposible, debido a la exhaustividad que tendrían que tener. Existen algunos diccionarios más completos que pueden incorporar algunas pero no todas. 

¿Donde puedo encontrar entonces traducciones de este tipo de

expresiones?  

En los corpora bilingües o multilingües.

Si en mi alineación utilizo frases completas como unidades para mi memoria, no se

corresponden con las unidades de traducción. ¿Cómo funciona entonces la

memoria cuando la he alimentado con mi corpus?

Utiliza la traducción por comparación con otros ejemplos (la alineación incorporada), no por unidades de traducción (que utilizan los programas de traducción automática).

¿Qué ventaja tiene esto?

Por ejemplo en el caso de tener que traducir frases hechas o refranes, en el caso de una traducción automática nos lo traduciría palabra por palabra, lo que no tendría sentido. Sin embargo, la memoria de traducción nos lo traduciría por su sentido si lo tenemos alineado e incorporado a nuestro software.

¿Y si no tengo ningún ejemplo del refrán que quiero traducir en mi

memoria de traducción?

Entonces no lo traducirá. Tendremos que hacerlo manualmente.

Si hago la memoria de traducción con unidades muy pequeñas, tendré

muchas coincidencias y tendré menos trabajo por hacer.

Sí, pero al carecer del contexto suficiente, muchas veces puede que la traducción no se ajuste aunque coincida al 100% con alguna ya introducida en la memoria de traducción.

¿Cuál es el proceso que debo seguir para alinear dos textos?

Se deben escoger ambos archivos, especificar su formato, especificar sus lenguas, y seguir las instrucciones de cada programa.

Después de esto el programa me alinea los segmentos

automáticamente.Sí, pero necesita revisión por parte de la persona. Los programas de alineación muchas veces basan la división de los segmentos por los signos de puntuación y puede no realizarlo bien, como por ejemplo considerando los puntos de detrás de abreviaturas como puntos de final de frase.

¿Con qué otros errores me puedo encontrar en la alineación?

Hay muchas veces que una frase en un idioma corresponde a dos en otra lengua y esto tampoco lo reconocen los programas de alineación. Si el texto no tiene el formato correcto y se ha usado el retorno de carro varias veces en una frase para hacer las líneas más pequeñas (como por ejemplo en una poesía o en un título que queremos centrar en la página), el programa de alineación lo considerará como segmentos distintos.No hay que olvidar el ejemplo mencionado en la pregunta anterior. Los programas reconocen los puntos como final de segmentos (aunque esta función se puede modificar) y lo dividen tanto si es un punto de detrás de una abreviatura como si es el punto final de la frase.

¿Es conveniente entonces preparar los textos de antemano?

Sí. Lo mejor es que los textos sean lo más homogéneos posibles y con las menos “trabas” para el programa. Conviene que los párrafos sean los mismos en ambos textos, que no haya divisiones de párrafo donde no existe una diferencia del mismo, que no haya frases sin correspondencia o que no se repita una frase innecesaria a lo largo de todo el documento (por ejemplo los títulos de la obra o capítulo). Todo el trabajo que realicemos antes de la alineación repercutirá positivamente en la misma y nos ahorrará trabajo en su corrección.

¿Qué programas existen de alineación de textos?

Por ejemplo existen Trados Winalign, Déjà Vu X, PlusTools de Wordfast,

MultiTrans, Transit, SDLX…

¿En qué formatos puedo tener mi texto una vez alineado?

Podemos volcarlo en formato .txt, el cual podremos exportar a casi cualquier programa que use texto. también podremos guardarlo en formato .tmx (Translation Memory Exchange Format) que nos sirve para exportarlo a otros programas de memorias de traducción.

Si tengo mis corpora alineados en formato.tmx, ¿puedo compartirlo

con quien quiera?

Sí, con cualquiera que tenga una memoria de traducción. Con el inconveniente que presentan los derechos de autor de las traducciones para este intercambio, claro.

¿Qué más utilidades tiene un corpus?

Por ejemplo podemos ver desde cuando se utiliza una palabra en el caso de que recoja textos antiguos, ver la frecuencia de uso de una palabra, compara los diferentes registros en los que se puede utilizar la palabra (prensa, lenguaje hablado, escrito)… 

¿Qué textos puedo incorporar en mi corpus?

Cualquiera que esté en formato electrónico. Es más, existe software que usa todo Internet como si fuera una gran colección de textos y busca concordancias en cualquier texto que se encuentre en la red.

¿Puedo sacarlos de internet?

Sí, pero tiene el problema de que en la red existen textos de todo tipo, tanto correctamente escritos como incorrectos, formales e informales, educados o no… hay que tener esto presente para poder seleccionar los que nos resulten adecuados a nuestras necesidades.

¿Qué es una concordancia?

Son los resultados que nos da el software cuando buscamos una palabra en su contexto. Según cada programa puede darnos más número de palabras delante y detrás de la que buscamos en su texto original. Lo mejor para comprenderlo es ver la siguiente imagen

¿Cómo puedo buscar concordancias en un corpus?

Con un software determinado o si está en internet como el caso de los corpora de la RAE simplemente usando su web.Para poder ver listas de software que nos las busquen, incluimos dos links a webs que poseen una lista de estos programas.

www www

¿Existen programas que busquen concordancias en corpus

paralelos?Sí, por ejemplo Multiconcord.

¿Qué son las anotaciones o etiquetas?

Se trata de asignarle a cada palabra por ejemplo su análisis morfológico o sintático para poder obtener mejores estadísticas del corpus o un mejor análisis de las relaciones entre las palabras o significados. Estas deben poder eliminarse para poder ver el texto en su estado original.

¿Existe algún estándar para las anotaciones?

Sí, por ejemplo el SGML (Standard Generalised Markup Language), que es el más extendido.