49
1 n° 115-S noviembre/diciembre de 2009 Suplemento VIII Jornada de AETER Terminología, ontologías y multilingualidad 2 GUADALUPE AGUADO DE CEA EcoLexicon. Tesoro visual sobre medio ambiente 11 MARÍA ROSA CASTRO PRIETO El diseño de aplicaciones terminológicas: los extractores de terminología 15 ROSA ESTOPÀ BAGOT El English-Spanish Accounting Dictionary: un diccionario de internet para traductores 22 PEDRO A. FUERTES-OLIVERA Terminología aplicada basada en corpus 29 XAVIER GÓMEZ GUINOVART Algunas experiencias de la integración de ontologías en proyectos de terminología 34 MERCÈ LORENTE CASAFONT DUFIE, Diccionario de unidades fraseológicas inglés- español: una ayuda para la traducción de unidades poliléxicas 37 SILVIA MOLINA Do-it-yourself IT for Terminology o experiencias de bricolaje informático en la elaboración de diccionarios terminológicos 42 CHELO VARGAS SIERRA En este suplemento, que puntoycoma publica de manera excepcional, se reúnen las contribucio- nes presentadas en la VIII Jornada de la Asociación Española de Terminología (AETER), que se celebró el 21 de noviembre de 2008 en la Escuela Técnica Superior de Ingenieros de Caminos de la Universidad Poli- técnica de Madrid con el título «Modelos, recursos y aplicaciones informáticas para la terminología». En la página web de AETER <http://www.aeter.org/home.asp> se ofrece información sobre las actividades de la asociación.

Eco Lexicon

Embed Size (px)

DESCRIPTION

Sobre eco lexicones

Citation preview

  • 1

    n 115-S noviembre/diciembre de 2009

    Suplemento VIII Jornada de AETER

    Terminologa, ontologas y multilingualidad 2 GUADALUPE AGUADO DE CEA

    EcoLexicon. Tesoro visual sobre medio ambiente 11 MARA ROSA CASTRO PRIETO

    El diseo de aplicaciones terminolgicas: los extractores de terminologa 15 ROSA ESTOP BAGOT

    El English-Spanish Accounting Dictionary: un diccionario de internet para traductores 22 PEDRO A. FUERTES-OLIVERA

    Terminologa aplicada basada en corpus 29 XAVIER GMEZ GUINOVART

    Algunas experiencias de la

    integracin de ontologas en proyectos de terminologa 34 MERC LORENTE CASAFONT

    DUFIE, Diccionario de unidades fraseolgicas ingls-espaol: una ayuda para la traduccin de unidades polilxicas 37 SILVIA MOLINA

    Do-it-yourself IT for Terminology o experiencias de bricolaje informtico en la elaboracin de diccionarios terminolgicos 42 CHELO VARGAS SIERRA

    En este suplemento, que puntoycoma publica de manera excepcional, se renen las contribucio-nes presentadas en la VIII Jornada de la Asociacin Espaola de Terminologa (AETER), que se celebr el 21 de noviembre de 2008 en la Escuela Tcnica Superior de Ingenieros de Caminos de la Universidad Poli-tcnica de Madrid con el ttulo Modelos, recursos y aplicaciones informticas para la terminologa. En la pgina web de AETER se ofrece informacin sobre las actividades de la asociacin.

  • noviembre/diciembre de 2009 n 115-S

    2

    Terminologa, ontologas y multilingualidad1 GUADALUPE AGUADO DE CEA Universidad Politcnica de Madrid, Ontology Engineering Group [email protected]

    Introduccin1

    a terminologa entendida como la descrip-cin y organizacin de los conceptos de un

    dominio de conocimiento, las relaciones entre los conceptos y los trminos o las definiciones que denotan esos conceptos estn presentes en diferentes mbitos. Esta organizacin concep-tual y la correspondiente manifestacin lin-gstica, grfica, formal o icnica de los con-ceptos pueden adoptar formas diferentes en los recursos que se utilizan en reas como la biblioteconoma y los sistemas de gestin do-cumental, o en las ontologas, como base de la web semntica2 y otros sistemas de represen-tacin de conocimiento en inteligencia artifi-cial. Entre los recursos ms habituales que, de una u otra forma, representan el conocimiento de un dominio, estn los tesauros, los vocabu-larios controlados, los lexicones, las redes se-mnticas y las ontologas. Lgicamente, la organizacin en estos recursos est influida por los principios de ordenacin semntica que cada comunidad cientfica considera ms relevantes para sus fines. Sin entrar a detallar cada uno de ellos, es conveniente que de for-ma somera veamos qu alcance tienen.

    En biblioteconoma, se entiende por tesauro una herramienta documental que se emplea

    1 Este trabajo se ha desarrollado dentro del proyecto

    NeOn (FP6-027595), del VI Programa Marco, . El modelo que aqu se propone se ha realizado por el Grupo de Ingeniera Ontolgica de la Universidad Politcnica de Madrid (OEG) y han participado, por orden alfabtico, Guada-lupe Aguado, Mauricio Espinoza, Asuncin Gmez-Prez y Elena Montiel-Ponsoda, en colaboracin con Wim Peters, de la Universidad de Sheffield.

    2 T. Berners-Lee / J. Hendler / O. Lassila, The Semantic Web, , Scientific Ameri-can, mayo 2001.

    para la indizacin y recuperacin de la infor-macin en entornos especializados. Para estos fines, las relaciones que se contemplan, por regla general, son las de equivalencia, las je-rrquicas y las asociativas. Los documentalis-tas, junto con los ingenieros del conocimiento, han dado grandes pasos para poder intercam-biar la informacin disponible en sus bibliote-cas en el entorno de la web. Es decir, el objeti-vo es disear modelos, lenguajes y herramien-tas que permitan representar el conocimiento y poder acceder a l a travs de la web. Para ello se ha adoptado el sistema SKOS, Simple Knowledge Organization System, cuyo objetivo es facilitar la publicacin de los datos necesa-rios para los documentalistas lo que se co-noce como lenguajes controlados para su uso en la web semntica.

    En cambio, en lingstica y en procesamien-to de lenguaje natural (PLN), un tesauro es un repertorio lexicogrfico que agrupa las unida-des lxicas segn su significado, ya sea similar o relacionado. En la actualidad, WordNet3 se utiliza como tesauro en lnea y, sin pretenderlo y sin que haya sido ese su objetivo, se ha con-vertido prcticamente en un estndar, a juzgar por la cantidad de trabajos de investigacin que lo toman como base o modelo para sus estudios o aplicaciones. De ah que muchos usuarios lo consideren un tesauro; otros, en cambio, una base de datos lxica, por ejemplo, los creadores; y otros, como Hirst, un conjunto de ambas: WordNet, the on-line English thesau-rus and lexical database [...] (Hirst 1999: 628). No faltan quienes estiman que es ms bien una red semntica ya que recoge diferentes tipos de relaciones, no solamente las jerrquicas

    3 .

    L

  • n 115-S noviembre/diciembre de 2009

    3

    (hiperonimia, hiponimia), sino tambin las relaciones de meronimia, holonimia, sinoni-mia y antonimia.

    Los lenguajes controlados o vocabularios controlados, que son subconjuntos del lengua-je natural cuya finalidad es reducir la ambi-gedad y la complejidad, adquieren gran rele-vancia en relacin con determinadas herra-mientas para el procesamiento y generacin de lenguaje natural, o la traduccin automtica.

    Por ltimo, una ontologa4, palabra que ha traspasado las fronteras de la filosofa para asentarse con fuerza en el mbito de la web semntica, es una representacin conceptual, inteligible tanto para el usuario como para la mquina, cuyo principal cometido es compar-tir el conocimiento del mundo real o de un determinado dominio, y que este conocimien-to est identificado de forma inequvoca. Los componentes de una ontologa son los concep-tos (denominados tambin clases), como obje-tos, eventos, procesos, mtodos; las propieda-des (que incluyen las caractersticas intrnsecas y extrnsecas de los conceptos y las relaciones entre conceptos, como subclase de, parte de, etc.); los axiomas, que son siempre verdade-ros, son los enunciados sobre los conceptos y sus relaciones; y, finalmente, las instancias, que son las entidades u objetos del mundo real. Una de las ventajas que aportan las onto-logas frente a otros modelos de representa-cin de conocimiento es la capacidad de inferir este conocimiento. Por ejemplo, una ontologa sobre arte podra incluir clases como Pintor, Cuadro, Estilo o Museo, y relaciones como autor de un cuadro, pintores pertenecientes a un esti-lo artstico u obras localizadas en un museo. Un programa que navegue por una red de este tipo puede reconocer las distintas unidades de informacin, obtener datos especficos o razo-nar sobre relaciones complejas. A partir de

    4 En filosofa, es la parte de la metafsica que trata del

    ser en general y sus propiedades transcendentales.

    esta organizacin, podremos distinguir entre un cuadro PINTADO_POR un artista y un RETRATO_DE un artista, obtener informacin sobre los cuadros que un determinado autor ha pintado en un periodo de tiempo determi-nado y que se encuentren en un museo concre-to.

    Desde esta perspectiva, las ontologas ofre-cen un enorme atractivo para los terminlo-gos, cuyo trabajo se dirige a identificar los conceptos y sus relaciones y encontrar los tr-minos que denotan esos conceptos dentro de un campo de conocimiento. Pero hacer una ontologa no es tarea fcil. Se requiere, adems de conocimiento del dominio que se vaya a modelar, una destreza informtica para mane-jar las herramientas de construccin de onto-logas y conocimientos de los lenguajes de ontologas, como OWL5. Por ello, dado que el sustrato de la web semntica son las ontolog-as, el nmero de ontologas crece constante-mente y uno de los objetivos es precisamente su reutilizacin. Ahora bien, pese a que se pueden encontrar en la web ms de mil onto-logas, casi el 98 % son monolinges y, de ellas, el 70 % est en ingls. Esto implica que el porcentaje de ontologas multilinges alcanza el 2 %.

    La multilingualidad en las ontologas

    Aun as, cada da es ms frecuente encontrar instituciones y organismos que requieren on-tologas multilinges, como la Organizacin Mundial de la Salud (OMS)6 o la Organizacin de las Naciones Unidas para la Agricultura y la Alimentacin (FAO) 7. La FAO, adems de manejar informacin en las seis lenguas oficia-

    5 Web Ontology Language: . 6 . 7 . La FAO est actualmente parti-

    cipando como Caso de Uso en el proyecto NeOn (FP6-027595), del VI Programa Marco. Para ms informa-cin, puede consultarse .

  • noviembre/diciembre de 2009 n 115-S

    4

    les (ingls, francs, espaol, rabe, chino y ruso) dispone de recursos en ms de quince lenguas en las que tambin ha de facilitar la informacin actualizada. Al igual que otras instituciones, la FAO ha manifestado su inte-rs por estructurar e integrar en ontologas toda esa ingente cantidad de informacin que tiene en sus glosarios, tesauros y bases de da-tos, con el fin de facilitar soluciones giles, consensuadas y multilinges sobre los pro-blemas relativos a las reas de su competencia.

    Esta integracin supone hacer frente a los problemas derivados de las diferencias cultu-rales que se reflejan en las manifestaciones lingsticas, ya que, a veces, las lenguas dis-ponen de trminos muy precisos para descri-bir y modelar diferentes partes del mundo real, mientras que otras carecen de ellos y se han de servir de nombres genricos o de expli-caciones. Son muchas las situaciones que se pueden mencionar, pero sirvan como ejemplo los diferentes nombres que existen en tailan-ds para referirse al arroz segn el estado de coccin: khao dip (arroz no cocinado), khao suk (arroz cocinado), khao niew (arroz meloso), khao chao (arroz seco). Para la FAO, todas estas categoras son necesarias, as como los equiva-lentes y sus definiciones en las dems lenguas.

    Dentro del proyecto NeOn, dedicado al de-sarrollo colaborativo de ontologas, se ha visto la necesidad de dotar de multilingualidad a las ontologas. Con este fin, una de las activi-dades propuestas en NeOn es la localizacin de ontologas8, entendida como la adaptacin

    8 El trmino localizacin, tambin conocido por la

    combinacin alfanumrica L10n, ha adquirido carta de ciudadana en informtica y se emplea para denotar las actividades de traduccin y adaptacin de un pro-grama a una lengua y cultura determinada. Este proce-so de adaptacin afecta no solo a las unidades lings-ticas, sino tambin a las unidades de programacin (cdigo, interfaces, direccin de la escritura, etc.). El trmino se opone generalmente a internacionaliza-cin (i18n), que es el proceso seguido en el diseo de una aplicacin de software de manera que, al adaptarse

    de una ontologa a la lengua y cultura de una comunidad (Surez-Figueroa / Gmez-Prez 2008).

    Este trabajo no pretende resolver el pro-blema de la multilingualidad en todos los po-sibles sistemas de representacin del conoci-miento, sino que trata de aportar una solucin para dotar de multilingualidad a las ontolo-gas. Para ello, hemos propuesto enlazar las ontologas de dominio con un modelo lings-tico, denominado LIR (Linguistic Information Repository), que est diseado a su vez como una ontologa, cuyas caractersticas ms rele-vantes son, por un lado, que proporciona un conjunto de datos lingsticos completo y a la vez complementario para localizar los com-ponentes de una ontologa a una lengua y cul-tura determinadas y, por otro, permite el acce-so unificado al conjunto de datos multilinges. Este proceso de localizacin se lleva a cabo automticamente mediante la herramienta LabelTranslator, desarrollada tambin dentro del proyecto NeOn y que se explica ms abajo.

    Antes de describir ambos componentes, veamos qu implica la localizacin de ontolo-gas y qu otros enfoques se han seguido en diferentes proyectos.

    Principales modalidades en localizacin de ontologas

    Cuando se habla de localizar ontologas, hay que tener en cuenta las diferentes capas que estn presentes en una ontologa. Tomando como base una terminologa lingstica, pue-den mencionarse, segn Barrasa (2007), las siguientes capas:

    a) capa lxica, formada por los caracteres y smbolos que constituyen la codificacin, que puede ser ASCII, Unicode, etc.;

    b) capa sintctica, que se ocupa de la estructu-ra y combinacin de caracteres, es decir de

    a una lengua concreta, se eviten el mayor nmero de cambios posibles en el diseo.

  • n 115-S noviembre/diciembre de 2009

    5

    la sintaxis. En el mbito de las ontologas, esta sintaxis est reflejada en los lenguajes de representacin como RDF(S), OWL, etc.;

    c) capa de representacin del conocimiento, que refleja el paradigma seguido en la re-presentacin de la ontologa: marcos, redes semnticas, lgica descriptiva, etc.;

    d) capa terminolgica, formada por los trmi-nos que designan los elementos de la onto-loga;

    e) capa conceptual relativa a las decisiones de conceptualizacin, tales como la expresivi-dad, la granularidad, la perspectiva, etc.;

    f) capa pragmtica, que se ocupa de la inter-faz, o disposicin del modelo de acuerdo con las necesidades del usuario.

    Siguiendo esta clasificacin por capas, pue-de decirse que la capa terminolgica, la con-ceptual y la pragmtica son las que estn pre-sentes en la localizacin de ontologas. Vea-mos ahora, de forma resumida9, los enfoques ms utilizados en la modelizacin de la multi-lingualidad en las ontologas:

    9 En Aguado / Montiel-Ponsoda / Ramos (2007) se en-

    cuentra una versin ms completa y detallada.

    a) Los datos multilinges se incluyen en el metamodelo de la ontologa de dominio mediante las propiedades rdfs:label y rdfs:comment, propias del lenguaje de onto-logas RDF(S) 10 . De esta forma se puede asociar una etiqueta (label) y un comentario o descripcin (comment) en lenguaje natural a cualquier clase o relacin de la ontologa. Es decir, generalmente se incluye la etique-ta que, segn ISO TC 37 639 (en, es, fr, de, etc.), indica la lengua, y el trmino o una explicacin en esa lengua. Esta opcin de modelado es la ms habitual en la comuni-dad ontolgica para obtener una ontologa multilinge, pues permite asociar tantas etiquetas (en diferentes lenguas) como sea necesario (ver figura 1)11. Esto quiere decir que la localizacin se lleva a cabo en la capa terminolgica, ya que los conceptos de la ontologa se expresan con trminos (etique-tas) en distintas lenguas. Sin embargo, en este caso se presupone la total sinonimia entre los trminos de las diferentes lenguas, algo que es muy difcil, y adems la canti-

    10 Resource Description Framework Schema. 11 Figuras extradas de Montiel-Ponsoda (2009).

    Figura 1

  • noviembre/diciembre de 2009 n 115-S

    6

    dad de informacin que se incluye es limi-tada. En cambio, tiene la ventaja de que puede ser el modelo ms adecuado para dominios tcnicos muy especializados y aceptados en diferentes lenguas, en los que no suele haber diferencias culturales.

    b) Correspondencia de conceptualizaciones en distintas lenguas. En este caso (figura 2), cada lengua representa la realidad acorde con sus caractersticas, y las distintas onto-logas se relacionan entre s mediante una interlingua que permite representar el con-junto de conceptos comunes. Es el caso de EuroWordNet (Vossen 2004). El problema ms importante es el gran esfuerzo que re-

    quiere la conceptualizacin en diferentes lenguas, y la dificultad de establecer las co-rrespondencias exactas. Ahora bien, tiene como ventaja la posibilidad de mantener las especificidades de cada lengua, por lo que resulta un modelo ms adecuado para los campos de conocimiento que son muy de-pendientes de una cultura, como el mbito jurdico, siempre que no se incorporen mu-chas lenguas, pues las correspondencias se-ran ms difciles.

    c) Por ltimo, la tercera modalidad (figura 3) es asociar el metamodelo de la ontologa con un modelo lingstico multilinge. El modelo lingstico puede ser una base de

    Figura 2

    Figura 3

  • n 115-S noviembre/diciembre de 2009

    7

    datos (como en Genoma-KB12 o en Onco-term13). En este caso, la capa conceptual y terminolgica se mantienen por separado y la localizacin se hace nicamente en la ca-pa terminolgica. El trabajo desarrollado por el grupo IULATERM se explica con mayor detalle en este mismo suplemento.

    Atendiendo a estas tres modalidades, pue-de decirse que el LIR es un enfoque hbrido, ya que su objetivo es, por un lado, asociar infor-macin multilinge a ontologas monolinges, al igual que lo hacen Genoma-KB y Oncoterm, aunque en nuestro caso con el fin primordial de localizarlas de forma automtica. Por otra parte, la conceptualizacin de la informacin lingstica, como una ontologa en OWL (Montiel-Ponsoda / Peters 2008), lo acerca ms a las nuevas propuestas que tratan de enlazar la informacin lingstica con las ontologas de dominio (Buitelaar et alii 2006, Cimiano et alii 2007).

    Conviene tener en cuenta tambin que el punto de partida es diferente. En el caso del LIR se parte de la existencia de ontologas y lo que se pretende es facilitar la incorporacin e integracin del conocimiento lingstico y, al mismo tiempo, mediante el LabelTranslator, se localiza la ontologa en la lengua meta de for-ma automtica. Adems, la comunidad a la que va destinada la ontologa que se ha locali-zado tambin es distinta, pues en Genoma-KB y Oncoterm los destinatarios pueden ser tra-ductores, mediadores lingsticos y, sin duda, cualquier persona interesada en esos temas, mientras que en el caso que presentamos aqu, los destinatarios sern, generalmente, los po-sibles usuarios de ontologas e ingenieros de conocimiento, as como todos aquellos que trabajen en representaciones de conocimiento lingstico cuyo objetivo sea el intercambio de datos en formato electrnico.

    12 . 13 .

    LIR (Linguistic Information Repository)

    Como ya se ha dicho, el LIR est organizado como una ontologa y toda la informacin lin-gstica que recoge est centrada en la clase LexicalEntry como se ve en la figura 4. La clase LexicalEntry se considera una unidad dotada de forma, Lexicalization, y significado, Sense, en una lengua dada. Gracias a la relacin hasVa-riant se reflejan las variantes terminolgicas intralinges correspondientes a un mismo concepto. Por ejemplo, la relacin hasVariant nos dira que FAO es la sigla correspondiente al trmino Food and Agriculture Organization y que ambas representan el mismo concepto. La clase Language permite hacer bsquedas de entradas lxicas en una lengua determinada y mostrar al usuario nicamente las entradas existentes en dicha lengua. La clase PartOfS-peech evita la repeticin de la categora grama-tical en cada una de las lexicalizaciones. La clase Sense representa el significado intensio-nal dentro de una lengua dada y se manifiesta a travs de la clase Definition, en lenguaje na-tural. Por tanto, en s misma, Sense es una clase vaca que adquiere su verdadero valor me-diante la Definition. Al mantener los significa-dos en el modelo lingstico independientes de los conceptos de la ontologa, LIR permite recoger las especificidades culturales que, de alguna manera, se alejan del concepto repre-sentado en la ontologa. Por otra parte, Lexica-lization est relacionada con a) Source, con el fin de preservar la fuente de donde se extrae la Definition; b) Note, para poder incluir informa-cin complementaria relativa al uso de un trmino en una lengua; y c) UsageContext, que aporta informacin sobre los posibles contex-tos en los que aparece un trmino dentro de una lengua. Asimismo se recogen las posibles equivalencias semnticas intralingsticas me-diante hasSynonym o hasAntonym e interlin-gsticas gracias a hasTranslation, aunque so-mos conscientes de la dificultad de lograr equivalentes exactos en diferentes lenguas. Finalmente, el LIR est unido a la ontologa

  • noviembre/diciembre de 2009 n 115-S

    8

    mediante la clase OntologyElement de OWL, con lo que queda garantizada la asociacin del conocimiento lingstico a los componentes de la ontologa.

    En resumen, como ya se ha apuntado, lo que diferencia al LIR de los dems enfoques son tanto los objetivos y los destinatarios como el tipo de informacin lingstica que se asocia a los componentes de la ontologa. Es decir, por un lado, las clases que componen el LIR cubren la posibilidad de representar tanto las diferentes variantes terminolgicas intralin-ges e interlinges, como las variantes concep-tuales y los vacos en las conceptualizaciones

    producidos por las diferencias culturales. Por otro lado, se mantiene tambin la informacin morfosintctica y lxica pertinente para los fines perseguidos. En resumen, el LIR no pre-tende ser un lexicn con equivalentes en dife-rentes lenguas, sino facilitar la asociacin del conocimiento lingstico multilinge al cono-cimiento conceptual representado en la onto-loga.

    Una vez explicado el modelo lingstico que facilita la inclusin de la multilingualidad en las ontologas, veamos ahora la herramien-ta que permite llevar a cabo este proceso, el LabelTranslator (Espinoza et alii 2008).

    Figura 4

  • n 115-S noviembre/diciembre de 2009

    9

    Label Translator (LT)

    El LabelTranslator localiza ontologas automti-camente en tres lenguas, ingls, espaol y alemn, y est preparado para que, en el futu-ro, puedan incluirse ms. LT inicia su actua-cin seleccionando una ontologa o los com-ponentes de esta que se pretenden localizar; esta ontologa puede importarse de los reposi-torios de la red o tomarse de cualquier otro sitio. A continuacin, LT accede directamente a diversos recursos lingsticos multilinges para buscar el equivalente lxico (Wiktiona-ry14, IATE15) o a recursos de traduccin dispo-nibles en la red (GoogleTranslate16, Babelfish17). Una vez obtenidos los equivalentes en la len-gua meta para los componentes de la ontolo-ga que se han seleccionado previamente, es decir, parte de la ontologa o toda ella, LT con-trasta el sentido adecuado de cada etiqueta consultando EuroWordNet (EWN18), u otros repositorios de ontologas como Watson 19 y Swoogle20, que tienen indexadas muchas de las ontologas disponibles en la red. Este pro-ceso es necesario para contextualizar el trmi-no, ya que en el proceso de desambiguacin se tiene en cuenta tambin el contexto de la onto-loga. LT obtiene una lista de candidatos y elige siempre la primera opcin en la lista de candidatos posibles. En ltimo extremo, es el usuario quien valida la opcin seleccionada. En otras palabras, cada trmino adquiere un determinado valor dependiendo de la presen-cia de otros en la ontologa. Por ejemplo, al traducir cabo, el sistema selecciona corporal, si la ontologa pertenece al mbito militar, y cape si estamos modelando el mbito geogrfi-co. Como resultado, se obtiene automtica-

    14 . 15 . 16 . 17 . 18 El uso de EWN se hace mediante licencia. 19 . 20 .

    mente la misma ontologa en la lengua meta y, al mismo tiempo, se actualiza dicha informa-cin en el LIR. Si los recursos consultados con-tienen otro tipo de informacin lingstica co-mo definiciones, categora gramatical, etc., es-tos datos tambin se almacenarn en el LIR y se podrn consultar mediante la interfaz que se puede ver en la figura 5.

    Ahora bien, si las ontologas corresponden a dominios muy especializados no es fcil en-contrar recursos lingsticos disponibles que sean fiables, con lo que el proceso se hace mu-cho ms complejo. Queda, pues, camino por recorrer en la confeccin de recursos termino-lgicos on-line que puedan ayudar en estas tareas.

    Reflexiones finales

    Como ya se ha mencionado, son muchas las iniciativas que han manifestado gran inters por disponer de ontologas y, en muchos ca-sos, por que sean multilinges, pero, dado que este trabajo se publica fundamentalmente para una comunidad de traductores, creo conve-niente presentar unas reflexiones finales.

    Un primer problema que, pese a los esfuer-zos realizados por diferentes comunidades y organismos de estandarizacin (W3C, ISO), queda an por resolver es la falta de unifor-midad terminolgica utilizada en cada repre-sentacin de conocimiento ya que esta suele estar, de alguna manera, mediatizada por la comunidad investigadora en la que se va a utilizar. De ah que se sigan manteniendo a veces las asimetras semnticas que, en princi-pio, las ontologas tratan de resolver. Esto, sin duda, dificulta el intercambio de informacin, que es uno de los objetivos ms importantes en la sociedad del siglo XXI y hacia donde van orientados muchos de los trabajos en el mbito de las tecnologas de la informacin.

    No obstante, es conveniente tener en cuenta que hasta ahora, pese a que algunas ontologas estn ms orientadas a la traduccin, como es

  • noviembre/diciembre de 2009 n 115-S

    10

    el caso de Mikrokosmos, el objetivo principal de la mayora de ellas no ha sido la traduccin, sino la interaccin entre diferentes sistemas basados en el conocimiento, as como la com-particin de informacin en la web semntica, procedente de fuentes diversas.

    Finalmente, creo importante sealar que el punto de mira en todos estos trabajos ha de centrarse en constatar si el modelo selecciona-do es til para la finalidad que se persigue y si funciona correctamente dentro del contexto para el que fue diseado. El modelo aqu pre-sentado se ha desarrollado teniendo in mente estas premisas.

    Referencias

    AGUADO DE CEA, G. / E. MONTIEL-PONSODA / J. C. RAMOS GARGANTILLA (2007), Multilingualidad en una aplicacin basada en el conocimiento, 77-98 en Procesamiento del Lenguaje natural, n 38.

    BARRASA, J. (2007), Modelo para la definicin autom-tica de correspondencias semnticas entre ontologas y modelos relacionales [tesis doctoral], UPM, Madrid.

    BUITELAAR, P. / M. SINTEK / M. KIESEL (2006), A Multilingual/Multimedia Lexicon Model for Ontologies, en Y. SURE / J. DOMINGUE eds. The Semantic Web: Research and Applications, 3rd Eu-ropean Semantic Web Conference ESWC 2006, Budva, Montenegro.

    CIMIANO, P. / P. HASSE / M. HEROLD / M. MANTEL / P. BUITELAAR (2007), LexOnto: A Model for Ontology Lexicons for Ontology-based NLP, en Proceedings of OntoLex'07, 6th International Semantic Web Conference, ISWC+ASWC 2007, Bu-san, Corea del Sur.

    ESPINOZA, M / A. GMEZ-PREZ / E. MENA (2008), Enriching an Ontology with Multilingual In-formation, 333-347 en S. BECHHOFER / M. HAUSWIRTH / J. HOFFMANN / M. KOUBARAKIS eds. The Semantic Web: Research and Applications, 5th European Semantic Web Conference, ESWC 2008, Springer Verlag.

    FELLBAUM, Ch. (1988), WordNet: An Electronic Lexi-cal Database, MIT Press.

    ISO TC 37/SC2 639 (2009), Codes for the Representa-tion of Names of Languages.

    MONTIEL-PONSODA, E. / W. PETERS coords. (2008), Multilingual and Localization Support for Ontolo-gies. NeOn Project Deliverable 2.4.2.

    Figura 5

  • n 115-S noviembre/diciembre de 2009

    11

    MONTIEL-PONSODA, E. (2009), Ontology Localiza-tion: a Key Issue in the Semantic Web of the Fu-ture, en G. WOTJAK / V. IVANOVA / E. TABARES PLASENCIA eds. Translatione via facienda. Fest-schrift fr Christiane Nord zum 65. Geburtstag. Homenaje a Christiane Nord en su 65 cum-pleaos. Peter Lang, Frankfurt.

    SUREZ-FIGUEROA, M. C. / A. GMEZ-PREZ (2008), First Attempt towards a Standard Glossary of On-

    tology Engineering Terminology, 8th International Conference on Terminology and Knowledge Engineering (TKE2008), Copenhague.

    VOSSEN, P. (2004), EuroWordNet: a Multilingual Database of Autonomous and Language Spe-cific Wordnets Connected via an Inter-Lingual-Index, en IJL 17/2 (Semi-special issue on multi-lingual databases).

    EcoLexicon. Tesoro visual sobre medio ambiente MARA ROSA CASTRO PRIETO Universidad de Granada [email protected]

    1. Introduccin

    l grupo de investigacin LexiCon1 Lexi-cografa contrastiva: aplicaciones a la tra-

    duccin, de la Universidad de Granada, se constituy en el ao 1994. En estos quince aos de andadura ha trabajado en diversas reas temticas del mbito cientfico-tcnico y, desde el ao 2003, se ha centrado en el mbito medioambiental.

    En las pginas que siguen presentaremos una herramienta terminolgica integrada en una plataforma informtica que permite acce-der a la informacin recopilada, mostrndola desde una perspectiva interactiva, y por lo tanto ms enriquecedora, y menos lineal de lo que habitualmente ofrecen otras aplicaciones.

    1 El Grupo LexiCon est integrado por: Pamela Faber

    Bentez (Investigadora Principal), Mara Rosa Castro Prieto, Mercedes Garca de Quesada, Catalina Jimnez Hurtado, Linus Jung, Pilar Len Araz, Clara Ins Lpez Rodrguez, Carlos Francisco Mrquez Linares, Silvia Montero Martnez, Antonio Moreno Ortiz, Chantal Prez Hernndez, Juan Antonio Prieto Velasco, Arianne Reimerink, Bryan Robinson Fryer, Claudia Seibel, Jos A. Senso, Maribel Tercedor Snchez, Jos Manuel Urea Gmez-Moreno y Miguel Vega Expsito.

    2. EcoSistema

    Entre los aos 2003 y 2006 se ha desarrollado el proyecto PuertoTerm estructuracin del conocimiento y generacin de recursos termi-nolgicos en ingeniera de puertos y costas, gracias a una colaboracin entre nuestro gru-po y el Grupo de Puertos y Costas del Centro Andaluz de Medio Ambiente. Este proyecto deriv en el proyecto MarcoCosta marcos de conocimiento multilinge en la gestin inte-grada de zonas costeras, elaborado durante los aos 2007-2008. Tiene su continuacin en EcoSistema Espacio niCO de SIStemas de informacin ontolgica y TEsaurus sobre el Medio Ambiente, cuyo plazo de ejecucin comienza en 2009 y acaba en 2011.

    Como es bien sabido, una de las cuestiones que ms preocupa en Terminologa es el mo-do de representacin de los conceptos, de modo que los usuarios legos tanto si son mediadores en la comunicacin como si acce-den desde un primer estadio del conocimien-to alcancen el significado de una manera sencilla y reciban el conocimiento deseado. Mientras que la representacin del concepto

    E

  • noviembre/diciembre de 2009 n 115-S

    12

    se ha sistematizado lingsticamente, no ha ocurrido lo mismo con la informacin grfica. Y a pesar de que se reconoce el valor de esta, no suele tener un tratamiento coherente y adolece de la falta de reflexin necesaria en aspectos como la relacin entre texto e ilus-tracin, la representacin conceptual median-te imgenes o el papel que desempea la ilus-tracin en la creacin de modelos mentales (Prieto Velasco 2008).

    EcoLexicon es un recurso terminolgico fru-to de los dos ltimos proyectos de investiga-cin realizados, un proyecto I+D financiado por el Ministerio de Ciencia y Tecnologa y un proyecto de excelencia financiado por la Junta de Andaluca, adems de ser punto de arran-que de EcoSistema. A partir de un extenso banco de imgenes y de los datos codificados, extrados de un corpus de textos trilinge en origen del mbito de la Ingeniera de Puertos y Costas y posteriormente ampliado al terreno medioambiental, se ha construido una re-presentacin conceptual modular, dinmica,

    visual y tridimensional de este campo de co-nocimiento.

    Los contenidos de la aplicacin estn orga-nizados sobre lo que hemos denominado Ma-croestructura Medioambiental Environmen-tal Event (Faber et alii 2005), que consiste en un conjunto organizado de marcos especiali-zados en el que, a su vez, cada uno contiene un sistema de conceptos relacionados, de tal manera que la sola utilizacin de uno de ellos activa toda la red conceptual.

    La articulacin bsica de la Macroestructu-ra Medioambiental (EE) se construye en torno a un proceso dinmico iniciado por un agente (natural o humano), que afecta a un tipo de paciente (entidad medioambiental) y produce un resultado (ya sea otra entidad modificada o un efecto medioambiental). De manera perif-rica, se han incluido otras categoras que re-presentan los instrumentos, las disciplinas y los procedimientos de anlisis utilizados en este dominio, tal y como se puede apreciar en la figura 1.

    Figura 1. Representacin de la Macroestructura Medioambiental (Environmental Event)

  • n 115-S noviembre/diciembre de 2009

    13

    3. Aplicacin EcoLexicon

    El recurso que se ha generado se denomina EcoLexicon y es un tesauro visual sobre el me-dioambiente creado sobre el programa Thinkmap . Este programa ofrece la posibilidad de elabo-rar un diccionario semntico, que crea campos de significado en una plataforma interactiva.

    Ya en la aplicacin, y a partir de la Ma-croestructura (EE), el usuario puede acceder a distintos niveles de conocimiento a travs de diferentes formas de representacin. Las rela-ciones globales incluidas en la macroestructu-ra reflejan el dinamismo de las principales macrocategoras, pues, por una parte, debido al fenmeno de la multidimensionalidad, los conceptos presentan mltiples aspectos desde los que ser clasificados; y, por otra parte, la interaccin entre las tres macrocategoras ne-cesita relaciones conceptuales ms complejas que las tradicionales. Partiendo de esta afir-macin, los conceptos pueden pertenecer a una o varias categoras y subcategoras, puesto que, por ejemplo, segn el proceso al que se vean expuestos, pueden ser paciente y resul-tado. A esto hay que aadir que, adems, se pueden relacionar a niveles ms especficos al margen de la macroestructura. Por ello, la aplicacin muestra distintas redes conceptua-les vinculadas a cada concepto a travs de las relaciones jerrquicas clsicas lgicas (genri-co-especficas) y ontolgicas (parte-todo), y las no jerrquicas, tales como: funcin, material, ubicacin, instrumento, etc., propias del mbi-to de especialidad.

    Al mismo tiempo que se muestra la organi-zacin conceptual subyacente al rea, la apli-cacin tambin puede ser consultada desde el concepto nicamente representado por la denominacin espaola o desde el trmino espaol, ingls y alemn. Es decir, pueden

    realizarse bsquedas en modo monolinge o trilinge, tal y como puede apreciarse en la parte superior derecha de la figura 2. Si el usuario introduce un trmino de bsqueda en cualquiera de las tres lenguas, obtendr una red compuesta por el primer nivel de repre-sentacin asociado al concepto y sus trminos equivalentes. Al colocar el ratn sobre cual-quiera de los conceptos, se podr visualizar su correspondiente definicin y, al hacer clic so-bre cualquiera de ellos, una nueva red, nica-mente conceptual, se desplegar en dos nive-les. De este modo tan sencillo, a partir del tr-mino de consulta, se crea un rbol de signifi-cados que es posible ir recorriendo y amplian-do con la ayuda del ratn.

    Si observamos la figura 2, podemos apre-ciar que a la derecha de cada red conceptual aparecen tres secciones: una lingstica, en la que se muestran los trminos asociados a cada concepto en las tres lenguas objeto de estudio y que se completa con informacin morfosin-tctica y contextual, que se activa al hacer clic con el ratn en cada uno de los trminos; otra consagrada a los recursos grficos que han sido incluidos segn la informacin contenida en la definicin; y, por ltimo, una seccin conceptual, de carcter ontolgico, en la que aparecen reflejados los dominios y subdomi-nios de la Macroestructura Medioambiental (EE) a los que pertenece cada concepto.

    4. Conclusin

    A travs de la recogida, manipulacin y orga-nizacin de informacin conceptual, lingsti-ca y grfica, los contenidos de la herramienta EcoLexicon cubren las necesidades comunicati-vas y cognitivas de diferentes tipos de usuario, como estudiantes, investigadores, traductores, redactores tcnicos e, incluso, expertos en la materia.

  • noviembre/diciembre de 2009 n 115-S

    14

    Figura 2. Niveles de conocimiento de EcoSistema

    5. Referencias bibliogrficas

    EcoLexicon. Tesauro visual sobre medio ambiente: [consulta 29.6.2009].

    FABER, P. / C. MRQUEZ LINARES / M. VEGA EXPSITO (2005), Framing Terminology: A Pro-cess-Oriented Approach, en Pour une traducto-logie proactive. Colloque international du 50e an-niversaire de Meta, Meta 50.4.

    PRIETO VELASCO, Juan Antonio (2008), Informacin grfica y grados de especialidad en el discurso cient-fico-tcnico: un estudio de corpus [tesis doctoral] ISBN: 9788469139400.

    Thinkmap. Visual Thesaurus: [consulta 29.6.2009].

  • n 115-S noviembre/diciembre de 2009

    15

    El diseo de aplicaciones terminolgicas: los extractores de terminologa ROSA ESTOP BAGOT Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra [email protected]

    1. Introduccin

    l campo del diseo de aplicaciones termi-nolgicas, durante dcadas, se restringi a

    la elaboracin de diccionarios, lxicos y voca-bularios especializados. A partir de los aos ochenta, en cambio, la actividad profesional motiv una diversificacin de las aplicaciones: surgieron nuevas necesidades relacionadas con la terminologa a las que haba que res-ponder con recursos adecuados. Estas nuevas necesidades terminolgicas de actividades como la traduccin especializada, la gestin de documentacin, el acceso a grandes cantida-des de informacin y los avances en la tec-nologa informtica sobre todo de la mi-croinformtica fueron los detonantes del cambio conceptual que sufri la prctica ter-minolgica. La nueva situacin profesional de finales de siglo motiv una nueva nocin de aplicacin terminolgica: ya no se trataba solo del diseo lexicogrfico, sino tambin de la creacin de sistemas y programas que gestio-nasen terminologa con finalidades muy di-versas.

    En este nuevo escenario profesional enten-demos por aplicacin terminolgica todo recurso lingstico que intenta dar respuesta a necesi-dades lingsticas y/o cognitivas en el marco de la informacin y de la comunicacin espe-cializadas. Bajo este nuevo paraguas, las apli-caciones terminolgicas pueden ser muy di-versas, y su diversidad es consecuencia de un cmulo de factores:

    Son diversas las necesidades sociales: difu-sin del conocimiento especializado, nue-vas tecnologas de la informacin y de la comunicacin, facilidad de intercambio de la informacin y de la comunicacin, cre-

    cimiento exponencial del conocimiento es-pecializado.

    Son varios los mbitos profesionales que se interesan por la terminologa: documenta-cin, lingstica, traduccin, interpretacin, divulgacin, enseanza, planificacin lin-gstica, informtica, lexicografa, revisin, edicin, etc.

    No son uniformes los contextos sociocultu-rales: sociedades monolinges, bilinges, plurilinges, sociedades ms o menos in-dustrializadas, con tradicin en trabajos terminolgicos, ms o menos prximas de las grandes potencias, etc.

    Mltiples son las actividades profesionales relacionadas con la terminologa: traducir asistidamente, traducir automticamente, generar automticamente memorias de tra-duccin, interpretar, elaborar diccionarios generales y especializados, vocabularios, glosarios, bases de datos, bancos termino-lgicos, elaborar tesaurus, clasificaciones, ontologas, indizar informacin, recuperar informacin, redactar y revisar textos espe-cializados, ensear discurso especializado, ensear lenguas extranjeras para finalida-des especficas, divulgar el conocimiento especializado, estandarizar internacional-mente, planificar la lengua, normalizar una lengua, tratar automticamente el lenguaje natural, analizar lingsticamente corpus especializados, etc.

    Y tambin son distintos los recursos que se tienen a disposicin: recursos tanto del equipo de trabajo de la aplicacin como de sus usuarios.

    Las listas de trminos, glosarios, dicciona-rios, terminologas, bases de datos, clasifica-ciones, tesaurus, ontologas, resolucin de

    E

  • noviembre/diciembre de 2009 n 115-S

    16

    consultas puntuales, sistemas informticos complejos como traductores automticos y asistidos, programas de resolucin de conflic-tos, extractores de terminologa, resumidores automticos, herramientas de ayuda al trabajo terminolgico, etc., son ejemplos de aplicacio-nes en las que el trabajo en terminologa es central o, en algunos casos, objeto de un m-dulo complementario. Incluso en la aplicacin terminolgica ms prototpica el vocabula-rio especializado se contemplan una multi-plicidad de diccionarios en funcin de las ne-cesidades profesionales concretas (diccionarios especializados monolinges, monolinges con equivalencias, multilinges, de aprendizaje, para el pblico general, para traductores, para indicar textos, etc.), que se deben corresponder con un proceso de trabajo tambin mltiple. La pluralidad de aplicaciones es tambin el correlato de una manera concreta de entender la terminologa. En el modelo de la Teora co-municativa de la Terminologa (Cabr 1999), por ejemplo, se conciben las aplicaciones como el resultado de un proceso de construccin lgica entre teora, metodologa y mtodos. En este modelo terico, pues, es pertinente la dis-tincin lgica entre teora, metodologa, mto-do y aplicacin, pues se sostiene la adecuacin de las aplicaciones a cada contexto de uso dis-tinto y cada aplicacin requiere unas estrate-gias de trabajo concretas.

    2. El Principio de adecuacin

    Cualquier producto el diseo de sillas, ga-fas, coches, ordenadores, juguetes, etc. se debera adecuar siempre a las necesidades que tienen sus usuarios potenciales. En el caso de productos lingsticos ese principio no debera ser una excepcin. La realidad, en cambio, es que muchas veces no se ha tenido, y no se tie-ne, en consideracin. En el marco de la TCT el Principio de la adecuacin adecuacin a los principios tericos y tambin adecuacin a la situacin comunicativa de uso es el eje ver-tebrador de todas las aplicaciones terminol-

    gicas. Segn este principio, cada trabajo en concreto adopta una estrategia en funcin de unas necesidades terminolgicas concretas (actividad profesional, contexto, temtica, objetivos, elementos implicados y recursos disponibles).

    El xito de una aplicacin, y el de una apli-cacin terminolgica, pasa por el respeto al Principio de adecuacin, principio que condi-ciona todas las decisiones que durante el pro-ceso de elaboracin se deben tomar. No de-bemos olvidar que una aplicacin es exitosa si resulta til para sus usuarios. Y el uso se con-sigue si la aplicacin es adecuada a las necesi-dades de quienes la van a usar. Lo que sucede a menudo es que los autores de las aplicacio-nes no delimitan con precisin los usuarios potenciales de una aplicacin y lo que es peor no conocen exactamente sus necesidades en relacin a la terminologa. Existen escasos es-tudios de necesidades terminolgicas por co-lectivos o actividades profesionales (Estop 1999, Snchez-Gijn 2004).

    El Principio de adecuacin adems nos conduce a la necesidad de discriminar el resul-tado para que se adecue a las necesidades terminolgicas de una actividad; lo que no implica hacer tantas aplicaciones como necesi-dades, sino a la multifuncionalidad de las aplicaciones.

    3. Los extractores de terminologa

    El reconocimiento de las unidades terminol-gicas de un texto especializado, conocido co-mo vaciado terminolgico, se considera una de las fases bsicas de todo trabajo en que se re-quiera terminologa (elaboracin de dicciona-rios, vocabularios, glosarios especializados, bases de datos terminolgicos, bases de cono-cimiento, tesauros, ontologas, preparacin de traducciones, indizacin de textos, construc-cin de correctores ortogrficos, etc.). Pero si bien es una tarea central, al mismo tiempo no es una tarea nada simple, sino que requiere mucho tiempo sobre todo cuando se mani-

  • n 115-S noviembre/diciembre de 2009

    17

    pulan volmenes de informacin importan-tes y rigor en la aplicacin de criterios de reconocimiento. En la prctica existe el riesgo de convertirse en una tarea poco sistemtica, subjetiva y, por consiguiente, los resultados pueden ser heterogneos e incluso poco tiles.

    A finales de la dcada de los ochenta, con la finalidad de ganar sobre todo rapidez y tam-bin sistematicidad, se concibi el primer ex-tractor automtico de terminologa, TERMINO 1988 (David / Plante 1991), que pretenda au-tomatizar la fase de vaciado manual de todo trabajo terminolgico. La heterogeneidad de los resultados entre diferentes vaciados ma-nuales no es solo una cuestin de tiempo ni de sistematicidad, sino tambin de concepcin terica de lo que es la terminologa, de lo que debe ser un extractor; seguramente por esto los extractores de terminologa despus de veinte aos de trabajo no son todava satisfac-torios para el usuario.

    Un extractor de terminologa se puede de-finir como un programa que permite extraer unidades terminolgicas a partir de un corpus. Generalmente los extractores de terminologa no generan una lista de unidades terminolgi-cas, sino que proponen una lista de candidatos a trmino que el usuario debe validar ma-nualmente. Los extractores de terminologa se aplican a corpus textuales. Teniendo en cuenta estas caractersticas podemos precisar la defi-nicin inicial: los extractores de terminologa son, pues, programas informticos que propo-nen candidatos a unidades terminolgicas a partir de un tratamiento automtico de un corpus de textos especializados.

    Los extractores son tiles para la recupera-cin de informacin, para la recopilacin de unidades terminolgicas a partir de corpus y de esta manera facilitan la elaboracin de un diccionario terminolgico o de una base de datos, o la alimentacin de memorias de tra-duccin o la perfeccin de correctores ortogr-ficos; tambin son aplicables en la indexacin automtica de textos o en la generacin de

    resmenes, etc. Y son muy tiles sobre todo cuando se trata de manejar grandes volme-nes de datos. As podemos acordar que sus principales logros son:

    1) velocidad de aplicacin, 2) aplicacin sistemtica de criterios de

    reconocimiento, 3) cobertura casi total en relacin a los cri-

    terios de reconocimiento1.

    Pero despus de tres dcadas desde la crea-cin de los primeros extractores de terminolo-ga, la pregunta obligada no se refiere a los logros sino al uso: Por qu hay pocos profe-sionales que los usan? La respuesta a esta cuestin puede resumirse en los dos puntos siguientes:

    Hay muchas unidades en el texto que no son seleccionadas por los extractores y, que, en cambio, transmiten un significa-do especializado y que el usuario hubie-ra podido remarcar (trminos monolxi-cos, formas latinas taxonmicas, trmi-nos polilxicos en los que uno de los constituyentes es un nmero, siglas, etc.: 'diagnstico', 'R. conorii', 'cultivo', 'ino-culacin', 'fibroblastos L. 929', 'sensibili-dad', 'IFI').

    Hay unidades que los extractores selec-cionan que los usuarios no hubieran in-cluido en su vaciado manual, muchas porque no son unidades terminolgicas, aunque algunos segmentos pueden ser discursivamente especializados ('utiliza-cin de clulas VERO', 'manera inde-pendiente', 'presencia de anticuerpos es-

    1 Hemos dicho que la cobertura es casi total y no total,

    porque existe lo que hemos llamado silencio intrnseco a los parmetros de bsqueda (Estop 1999, 2009), que es difcil todava hoy de tratar. El silencio intrnseco afecta aproximadamente a entre el 10 % y el 5 % de las unidades del texto. Las causas de este tipo de silencio en los extractores que utilizan conocimiento lingstico son bsicamente tres: errores de desambiguacin, su-perposicin de trminos, trminos escondidos discur-sivamente.

  • noviembre/diciembre de 2009 n 115-S

    18

    pecficos IgM', 'finalidad de distinguir', 'infeccin actual', etc.), otras porque no son pertinentes para su actividad.

    Constatadas estas dos observaciones, pare-ce lgico preguntarse por qu ocurren desajus-tes entre los vaciados manuales y los vaciados automticos. Diversos son los problemas pen-dientes todava para que el uso sea rentable para el profesional; estos retos pueden resu-mirse en:

    definicin del objeto de bsqueda, estrategias utilizadas no discriminan-

    tes, poca adecuacin a las necesidades

    terminolgicas reales.

    3.1. La definicin del objeto de trabajo

    La mayora de extractores de terminologa son muy restrictivos en relacin al objeto: se sue-len centrar en la deteccin de las unidades ter-minolgicas polilxicas (UTP), de categora gra-matical nominal, pues son las unidades ms prototpicas y las ms frecuentes de los textos especializados, y adems son las que presen-tan caractersticas morfosintcticas ms expl-citas que facilitan su extraccin.

    En los textos, en cambio, hay muchas uni-dades monolxicas con significado especiali-zado, de distinta categora gramatical, que podemos denominar silencio extrnseco al extracto porque la mayora de las veces no son objeto de extraccin del programa. El silencio extrnseco, causado por la definicin misma del objeto del sistema de extraccin automti-ca, puede afectar a un 48 % de las unidades que son unidades especializadas de un texto.

    Pero es el ruido, en general, el principal ca-ballo de batalla de los diseadores de extracto-res basados en conocimiento lingstico (sobre todo si se basan en patrones morfosintcticos). Entre el 45 % y el 75 % de los candidatos pro-puestos por estos programas se tienen que rechazar. Hay extractores que ofrecen unos resultados mejores pero utilizan estrategias

    mltiples y sobre todo se valen de una ontolo-ga lxica (aunque el problema de desambi-guacin semntica recae entonces en la elabo-racin de una ontologa), como YATE (Vivaldi, 2002). Cabe sealar, no obstante, que estos resultados se obtienen solo en reas muy es-tructuradas lxicamente como es la medicina o la biomedicina.

    La diversidad de las unidades especializa-das (por lo que se refiere a su naturaleza, cate-gora gramatical y estructura) que se usan en los textos especializados conduce a pensar que el objeto de un nuevo concepto de extractor tiene que abarcar todas las unidades de signi-ficacin especializada de un texto y no solo las unidades terminolgicas polilxicas. Por eso creemos que estas afirmaciones se podran reconsiderar porque, aunque sea cierto que las unidades lxicas simples son bastante idiosin-crsicas y muy polismicas (y, consiguiente-mente, es difcil discriminar lingsticamente cundo una unidad simple se utiliza con un sentido especializado o con uno general), dentro de las unidades monolxicas hay dife-rentes clases de palabras derivadas, com-puestas, abreviadas que presentan algunas peculiaridades formales en las que los extrac-tores, como aquellos de los que ya se sirven algunos como Yate, se podran basar para de-tectar gran parte de los trminos monolxicos. Los extractores que ya detectan unidades mo-nolxicas es obvio que disminuyen el silencio, pero generan ms problemas de ruido. Las unidades monolxicas son mucho ms poli-smicas que las polilxicas y uno de sus senti-dos puede ser general ('circulacin' versus 'cir-culacin sangunea'; 'base', 'clave', 'anillo', 'aguja', 'clavo', etc.); y por lo tanto es mucho ms difcil la desambiguacin de una unidad lxica especializada.

    3.2. El vaciado terminolgico modelo

    Cuando analizamos un vaciado manual de un especialista nos damos cuenta de que hay otras unidades que no son nominales ni refe-

  • n 115-S noviembre/diciembre de 2009

    19

    renciales que suelen estar marcadas. Qu debe hacer un extractor? seguir basndose solo en la unidad lxica nominal o ampliar su objeto de extraccin a otras unidades que hemos denominado USE (unidades de cono-cimiento especializado) (Estop 1999)?

    Sabemos qu tipo de unidades tienen sig-nificado especializado en los textos? Qu va-ciado manual deben tener como modelo los extractores de terminologa para medir su efi-cacia? Muchas veces se ha dicho que el espe-cialista es el que poda realizar un vaciado ms fiel de las unidades terminolgicas de un tex-to, pero hemos comprobado que no hay dos especialistas que coincidan en sus vaciados Existe realmente el vaciado modelo? Cul es el vaciado manual prototpico?

    3.3. La adecuacin a las necesidades de una actividad profesional

    La explicacin principal que hay detrs del escaso uso que los profesionales hacen de los extractores radica, segn mi opinin, en la adecuacin de estos extractores a un contexto de uso determinado. As, cuando los extracto-res han sido diseados para una actividad concreta en un contexto de trabajo definido, los extractores se han integrado en la cadena de trabajo del profesional por ejemplo LEXTER (Bourigault 1994). En cambio cuando el extractor no contempla quines son sus usuarios o se pretende que se use para todo tipo de actividades sin haberlas tenido en cuenta en su diseo su uso es escaso por poco prolfico. As pues, el verdadero proble-ma es no contar con los intereses reales de los usuarios. Los intereses terminolgicos de los usuarios no siempre estn explcitos: muchas veces desconocemos para qu se ha pensado que se utilicen e incluso en qu contextos se suelen utilizar realmente los extractores. Muy pocos autores de aplicaciones se han plantea-do cul debe ser la unidad de trabajo; se pre-supone que realizar una aplicacin terminol-gica significa partir de la unidad terminolgi-

    ca, que en el fondo se presupone que es perci-bida cognitivamente, requerida profesional-mente y utilizada operativamente por cual-quier colectivo profesional de forma homog-nea. Por lo tanto, parece obvio que en el dise-o de un extractor las preguntas siguientes son obligatorias: Para qu se utilizar este extractor?; cul ser su contexto prototpico de uso?

    4. Las necesidades terminolgicas de distintos profesionales

    Para mostrar que no todos los profesionales necesitan ni el mismo nmero ni el mismo tipo de unidades con significado especializado, nos basaremos en una prueba experimental (Es-top 1999) que consisti en dar un mismo tex-to de medicina a cuatro colectivos profesiona-les diferentes para que realizaran un vaciado de las unidades con significacin especializada pertinentes para una actividad profesional concreta.

    Seleccionamos tres profesionales de cuatro colectivos de usuarios especialistas, docu-mentalistas, traductores especializados y ter-mingrafos-lingistas prototpicamente re-lacionados con las siguientes cuatro activida-des profesionales: transmisin del conocimien-to especializado, indexacin de textos especia-lizados, traduccin de textos especializados y elaboracin de diccionarios especializados.

    El corpus de vaciado se extrajo de la obra de referencia Medicina interna de Farreras y Rozman (1997). En concreto, los profesionales vaciaron el texto Enfermedades infecciosas por Ricketsia, constituido por 10 069 ocurren-cias. Se trata de un documento escrito por es-pecialistas para especialistas o aprendices de especialista, de nivel de especializacin alto.

    Los datos de este experimento corroboran que las unidades de significacin especializa-da pertinentes para una actividad no lo son para otra, afirmacin que est totalmente de acuerdo con el principio vertebrador de la

  • noviembre/diciembre de 2009 n 115-S

    20

    metodologa de la Teora Comunicativa de la Terminologa propuesta por M. Teresa Cabr (Cabr 1999): el Principio de la adecuacin comunicativa, del que hemos hablado al inicio del texto, por el que las aplicaciones termino-lgicas deben adecuarse a los principios teri-cos y a la situacin comunicativa de uso. Vea-mos, empero, los resultados de la prueba con ms detalle.

    Los resultados de los vaciados (Estop 1999, 2001) reforzaron la idea de que cada co-lectivo tiene un criterio propio de seleccin de unidades y esta diversidad de criterios compor-ta una diversidad de unidades en relacin a:

    a) la naturaleza de la unidad, b) la categora gramatical, c) la estructura de la unidad, d) el nmero de unidades seleccionadas, e) la admisin de variacin denominativa, f) la frecuencia de uso.

    El experimento mostr que la finalidad pro-fesional condiciona la pertinencia de una uni-dad de significacin especializada. Cada colec-tivo realiza una mirada distinta a las unidades terminolgicas (y, en general, a las unidades de significacin especializada) de un texto. La pertinencia de una unidad depende de la acti-vidad profesional que se realice. As, para la transmisin del conocimiento especializado las unidades pertinentes son unidades que vehiculan conocimiento especializado; para la indexacin de textos, unidades representativas del contenido del texto que permiten identifi-carlo lo ms unnimemente posible; para la traduccin especializada, unidades que pue-den presentar problemas de traduccin; y, finalmente para la elaboracin de diccionarios especializados las unidades ms pertinentes son unidades lingsticas con significado es-pecializado representativas del mbito u obje-to del conocimiento sobre el que se realiza el diccionario.

    Todas estas consideraciones nos llevan a la conclusin de que no se puede construir un

    extractor con una nica opcin de resultados (una sola lista de candidatos independiente-mente de cul sea la aplicacin) y pretender que sirva para el trabajo en terminologa en general, pues esta pretensin hace que en la realidad no se utilicen. A partir de los vacia-dos manuales de diversos colectivos, como los que hemos llevado a cabo, se pueden estable-cer perfiles de necesidades terminolgicas en relacin a corpus de textos especializados. Perfiles que permitiran disear un extractor con mltiples salidas. Salidas que seran ms adecuadas a las necesidades reales que impli-caran la generacin de diversas listas de can-didatos a trminos, cada una pertinente a un contexto de uso. En el fondo se tratara de di-sear a partir de un mismo corpus textual una especie de coleccin de gold standards adecua-dos a necesidades profesionales distintas. Est claro que nosotros solo hemos querido mos-trar la diversidad de necesidades con un pe-queo experimento; se necesitaran estudios de necesidades ms completos, con poblacio-nes mayores, para poder acabar de perfilar estos patrones-modelo de necesidades termi-nolgicas.

    5. Vas de trabajo

    En el campo de las aplicaciones terminolgicas y en concreto de los extractores de terminolo-ga todava falta camino por recorrer para lle-gar al vaciado terminolgico esperado. Es ne-cesario seguir investigando y trabajar para facilitar al usuario la seleccin final de unida-des con significado especializado, ofreciendo informacin diversa sobre los candidatos y teniendo en cuenta sus necesidades profesio-nales. Los estudios se pueden plantear en las tres lneas siguientes:

    - trabajar para afinar los resultados de las unidades terminolgicas propuestas: redu-cir el ruido y el silencio (discriminar y cla-sificar los candidatos); - trabajar para afinar los resultados de las otras unidades de significacin especiali-

  • n 115-S noviembre/diciembre de 2009

    21

    zada que incluye el texto: reducir el silen-cio (discriminar y clasificar los candida-tos); - trabajar para adecuar los resultados a los perfiles de necesidades de las distintas ta-reas profesionales que requieren termino-loga.

    Estos retos pasan por un primer peldao: el trabajo emprico, que implica conocer las nece-sidades profesionales de las actividades que requieren trabajar en terminologa.

    Bibliografa

    BOURIGAULT, D. (1994), LEXTER, un Logiciel dEXtraction de TERminologie. Application lacquisition des connaissances partir de textes [te-sis doctoral], cole des Hautes tudes en Scien-ces Sociales, Pars.

    BOURIGAULT, D. / C. JACQUEMIN / M.-C. LHOMME (2001), Recent Advances in Computational Termi-nology, Benjamins, msterdam / Filadelfia.

    CABR, M. T. (1999), La terminologa: representacin y comunicacin. Una teora de base comunicativa y otros artculos, IULA, Universitat Pompeu Fabra, Barcelona.

    CABR, M. T. / R. ESTOP (2003), On the Units of Specialised Meaning Uses in Professional Communication, en Terminology Science and Re-search, 1-2.

    CABR, M. T. / R. ESTOP / J. VIVALDI (2001), Au-tomatic Term Detection: A Review of Current Systems, 53-87 en: D. BOURIGAULT / C. JACQUE-MIN / M.-C. L'HOMME eds. Recent Advances in

    Computational Terminology. Benjamins, mster-dam / Filadelfia.

    DAVID, S. / P. PLANTE (1991), Le progiciel TERMINO: de la necessit dune analyse mor-phosyntaxique pour le dpouillement termino-logique des textes, 71-88 en Procedings of the Montreal Colloquium Les industries de la Langue : perspectives des annes 1990, 1.

    ESTOP, R. (1999), Extracci de terminologia: elements per a la construcci dun SEACUSE (Sistema dExtracci Automtica de Candidats a Unitats de Significaci Especialitzada) [tesis doctoral], IULA, Universitat Pompeu Fabra, Barcelona.

    ESTOP, R. (2001), Les units de signification sp-cialises: largissant l'objet du travail en termi-nologie, 217-237 en Terminology, 7.2, mster-dam / Filadelfia.

    ESTOP, R. (2002), Extraccin de terminologa: elementos para la construccin de un extractor, 225-250 en Tradterm, 7, Sao Paulo.

    ESTOP, R. (2009), Los extractores de terminologa: logros y escollos, en A. ALCINA / E. VALERO / E. RAMBLA eds. Terminologa y Sociedad del conoci-miento, Peter Lang, Berna.

    SAGER, J.-C. (1990), A Practical Course in Terminology Processing, Benjamins, msterdam / Filadelfia.

    SNCHEZ-GIJN, P. (2004), L's de corpus en la tra-ducci especialitzada: compilaci de corpus ad hoc i extracci de recursos terminolgics, IULA, Univer-sitat Pompeu Fabra, Barcelona.

    VIVALDI, J. (2001), Extraccin de candidatos a trmino mediante combinacin de estrategias heterogneas, [tesis doctoral], Universitat Politcnica de Cata-lunya.

  • noviembre/diciembre de 2009 n 115-S

    22

    El English-Spanish Accounting Dictionary: un diccionario de internet para traductores PEDRO A. FUERTES-OLIVERA Escuela Universitaria de Estudios Empresariales, Universidad de Valladolid [email protected]

    1. Introduccin: el diccionario de internet

    or un diccionario de internet entende-mos una herramienta de consulta pensada

    y construida de acuerdo con las caractersticas fsicas, lgicas y funcionales de la red. Debe cumplir con los requisitos derivados de su naturaleza como material de referencia; tam-bin con los que demanda la red como soporte tecnolgico del diccionario de internet.

    Atendiendo a su naturaleza, todos los dic-cionarios son objetos de uso que estn, o de-ben estar, concebidos para satisfacer las nece-sidades lexicogrficamente relevantes de un grupo especfico de usuarios presentes en una situacin social especfica. Es decir, el grupo usuario, sus diferentes caractersticas y los problemas que tienen en diferentes situaciones de uso son los elementos bsicos de la lexico-grafa, o ciencia de los diccionarios (Bergen-holtz / Tarp 2002, 2003; Tarp 2008).

    Las caractersticas de la red nos permiten diferenciar entre el diccionario de internet y el diccionario en internet: el primero es aquel con diseo lexicogrfico original adap-tado a las caractersticas de internet mientras que el segundo es un diccionario en papel que tambin tiene una versin electrnica en inter-net. En los ltimos aos ha proliferado la apa-ricin en la red de diccionarios de internet dirigidos a satisfacer las necesidades de los traductores. Muchos de ellos son (o pueden ser) adecuados para la traduccin especializada.

    2. El diccionario de internet para la traduccin especializada

    Como hemos dicho en el prrafo anterior, un diccionario es un objeto de uso cuyo objetivo

    genuino es satisfacer los tipos de necesidades lexicogrficamente relevantes que puedan tener uno o varios tipos de usuarios potencia-les en uno o varios tipos de situaciones extra-lexicogrficas (Tarp 2007: 228). Desde este punto de vista un diccionario de internet pa-ra la traduccin especializada es un dicciona-rio de internet que tiene la misin de cubrir las necesidades de informacin que puedan tener los traductores durante las diferentes fases de la traduccin (Tarp 2007): preparacin de la traduccin, recepcin de la traduccin, trans-ferencia, produccin de la traduccin, revisin de la traduccin.

    La fase de preparacin comprende la fami-liarizacin del traductor con el tema de la tra-duccin. Un buen diccionario de internet para la traduccin especializada facilita el proceso de preparacin del traductor mediante la in-clusin de referencias cruzadas a textos exter-nos previamente seleccionados y la prepara-cin de una introduccin sistemtica adecuada para adquirir los fundamentos de un campo de especialidad.

    Las fases centrales de la traduccin se ini-cian con la recepcin del texto, es decir con la lectura del mismo y su comprensin. En esta fase un traductor necesita datos que expliquen el significado, principalmente el significado de los trminos. Una vez comprendido el texto, el traductor inicia la fase de transferencia del texto. Finalmente, la fase de produccin o tra-duccin propiamente dicha. Estas tres fases estn conectadas entre s y podemos decir que un traductor necesita datos que expliquen el significado, equivalentes precisos, fciles de comprender y datos gramaticales en un senti-do amplio. Por ejemplo, en el caso de una tra-

    P

  • n 115-S noviembre/diciembre de 2009

    23

    duccin al espaol, un traductor con el espa-ol como lengua materna necesita colocacio-nes, restricciones pragmticas/lingsticas (es decir, ser un diccionario proscriptivo), normas de uso de los trminos (si existen), ejemplos, sinnimos y antnimos. Esto puede conseguir-se en un diccionario de internet para la tra-duccin especializada que ofrezca lo siguiente: un lema, una definicin breve del lema en la L1 o lengua del lema, un nico equivalente en la L2 o lengua a la que se va a traducir el texto, sinnimos y/o antnimos, colocaciones lexico-grficas y ejemplos ilustrativos de la lengua en uso, y notas lexicogrficas. Adems, en un diccionario de internet todos estos datos de-ben estar interrelacionados permitiendo llevar a cabo diversas consultas y bsquedas inter-nas y externas, principalmente a uno o varios corpus conectados con el diccionario. Final-mente, tenemos la fase de correccin y revi-sin que obliga al traductor/revisor a consultar un diccionario que parta de la lengua de des-tino. Es decir, un diccionario de internet para la traduccin especializada exige la utilizacin de soluciones lexicogrficas integrales basadas en estos cuatro requisitos (Tarp 2007: 249-253):

    1. Combinacin de listados de palabras. Un diccionario de internet de traduccin debe incluir un listado bilinge, y un listado monolinge o bilinge en el sentido con-trario.

    2. Combinacin de funciones comunicativas. Un diccionario de internet de traduccin debe ayudar a traducir textos, incluyendo datos gramaticales, colocaciones lexicogr-ficas y ejemplos.

    3. Combinacin de funciones cognitivas y comunicativas. Un diccionario de internet para la traduccin de textos de especiali-dad debe incluir definiciones breves, in-troducciones sistemticas y referencias cruzadas a textos externos ilustrativos de los conceptos tratados. Tambin debe in-cluir datos gramaticales bsicos junto con colocaciones y ejemplos.

    4. Combinacin de diccionarios especializa-dos y generales. Al compilar un dicciona-rio de internet para la traduccin especia-lizada no debemos olvidar que alrededor del 85 % de las palabras de un texto espe-cializado no son trminos; tampoco debe-mos dejar a un lado los problemas con el lxico general, por lo que se necesita la construccin de paquetes integrados que conecten nuestros diccionarios de internet con diccionarios generales y con corpus, fciles de construir con textos de internet (ver Kilgarriff / Grefenstette 2003).

    Lo que acabamos de sealar en las seccio-nes anteriores constituye la base cientfica del English-Spanish Accounting Dictionary, un ejemplo prototpico de un diccionario de in-ternet que Fuertes-Olivera (2009a, b) define como an institutional Internet reference work, u obra de referencia de internet creada por una institucin con tradicin lexicogrfica, que tiene como objetivo la satisfaccin de las nece-sidades primarias de un grupo usuario identi-ficado: los traductores espaoles encargados de la traduccin de textos de contabilidad y finanzas originariamente escritos en ingls.

    3. El English-Spanish Accounting Dictionary

    El English-Spanish Accounting Dictionary forma parte de la coleccin conocida como The Ac-counting Dictionaries, un conjunto integrado de diccionarios de internet de contabilidad des-arrollados originariamente en el Centre for Lexicography, Aarhus School of Business. Hasta la fecha estn disponibles en internet cinco diccionarios: el Danske Regnskabsordbog (Diccionario de contabilidad dans), el Dansk-Engelske Regnskabsordbog (Diccionario de con-tabilidad dans-ingls), el Engelske Regnskab-sordbog (Diccionario de contabilidad ingls), el Engelsk-Danske Regnskabsordbog (Diccionario de contabilidad ingls-dans) y el English-Spanish Accounting Dictionary (Diccionario de contabilidad ingls-espaol). A lo largo de los aos 2010 y 2011 esperamos incorporar a la

  • noviembre/diciembre de 2009 n 115-S

    24

    misma red el Diccionario de contabilidad espaol-ingls y el Diccionario de contabilidad espaol. Los usuarios interesados en su consulta pue-den acceder gratis a estos diccionarios a travs de la pgina web del Centre for Lexicograp-hy1, o a travs de la pgina web del dicciona-rio2. En cualquiera de estas pginas web, y en , iremos in-formando sobre cualquier hecho relevante que afecte a estos productos lexicogrficos e incor-porando noticias relacionadas con aspectos tericos y aplicados de los mismos.

    Como hemos dicho antes, el English-Spanish Accounting Dictionary tiene la misin primaria de ayudar a los usuarios, fundamentalmente a

    1 Ver: . 2 Ver: .

    los que tienen el espaol como lengua mater-na, a solucionar los problemas que puedan presentarse en situaciones comunicativas y cognitivas. Las primeras estn relacionadas con la necesidad de comunicarse y las segun-das con el deseo de aprender algo.

    Cada entrada del diccionario consta de un lema en ingls, informacin gramatical sobre el mismo, una definicin en ingls, un equiva-lente en espaol, colocaciones en ingls y en espaol, ejemplos en ingls y en espaol. A veces hay enlaces a pginas externas y a otros trminos que aparecen como sinnimos y/o antnimos. Tambin puede haber notas lexi-cogrficas explicativas de diversos aspectos relevantes y referencias cruzadas:

    (1) Ejemplo de una pantalla en el English Spa-nish Accounting Dictionary

  • n 115-S noviembre/diciembre de 2009

    25

    El diccionario presta una gran ayuda al ofrecer lo siguiente:

    La ortografa correcta del lema ingls. En aquellos casos en los que exista variedad ortogrfica entre el ingls britnico y el in-gls de los Estados Unidos, el diccionario identifica cada variedad con las etiquetas UK y US respectivamente. Tambin se uti-lizan las etiquetas UK y US para mostrar la existencia de diferencias terminolgicas. Por ejemplo, los trminos income statement y profit and loss account tienen los mismos equivalentes espaoles ('cuenta de prdidas y ganancias', 'estado de resultados', 'cuenta de resultados'), y van seguidos de etiquetas que indican que income statement se usa en el ingls de los Estados Unidos, en las Normas Internacionales de Contabilidad (International Accounting Standards, IASs) y en las Normas Internacionales de Infor-macin Financiera (International Financial Reporting Standards, IFRSs); por su parte el trmino profit and loss account es el trmino equivalente en el ingls del Reino Unido.

    (2) Ejemplo en el English-Spanish Accounting Dictionary

    income statement US, IAS/IFRS cuenta de prdidas y ganancias estado de resultados (synonym) cuenta de resultado (synonym) profit and loss account UK cuenta de prdidas y ganancias estado de resultados (synonym) cuenta de resultados (synonym)

    Las etiquetas IAS/IFRS que corresponden a los trminos internacionales en ingls utili-zados en las International Accounting Standards (IASs) (Normas Internacionales de Contabilidad, NIC) y en las International Financial Reporting Standards (IFRSs) (Normas Internacionales de Informacin Financiera, NIIF).

    Informacin gramatical bsica sobre los nombres ingleses: nos dice si tiene o no tie-

    ne plural; si puede ir o no acompaado de un artculo definido y/o indefinido:

    (3) Informacin gramatical bsica sobre el nombre en el English-Spanish Accounting Dic-tionary

    insurance contract authority1 noun

    Esto significa que el trmino insurance con-tract puede usarse con un artculo indefinido: an insurance contract, con el artculo definido: the insurance contract, y que la forma plural se construye aadiendo s: insurance contracts. Por el contrario el trmino authority, cuyo equivalente espaol es 'autorizacin' (tener poder para actuar en nombre de otro), no puede usarse ni con el artculo indefinido ni en plural; s puede usarse con el artculo defi-nido: the authority.

    Informacin gramatical sobre el verbo: flexiones y posible uso en singular y/o plu-ral:

    (4) Informacin gramatical bsica sobre el ver-bo en el English-Spanish Accounting Dictionary

    accept verb passive

    Esto significa que el verbo ingls accept es un verbo regular cuyo sistema flexivo es tpico en la voz activa (accepts, accepted, has accepted, accepting) y en la pasiva (is accepted, was accep-ted).

    Informacin sobre una serie de trminos que, aunque puedan usarse, el diccionario no los recomienda. En vez de estos trmi-nos, el diccionario remite a trminos equi-valentes utilizando la etiqueta Not recom-mended, use instead con la que enviamos al usuario a la entrada del diccionario en la que se define el trmino y se incluyen colo-caciones y ejemplos:

  • noviembre/diciembre de 2009 n 115-S

    26

    (5) Ejemplo proscriptivo en el English-Spanish Accounting Dictionary

    gain on curtailment Not recommended, use instead: curtailment gain

    Informacin gramatical espordica prece-dida de la etiqueta Grammar note, que in-forma al usuario de propiedades ortogrfi-cas especficas, como observamos en la en-trada A rating: debe ir precedida de an y no de a, aunque pueden encontrarse textos in-gleses como a A rating.

    (6) Nota gramatical en el English-Spanish Ac-counting Dictionary

    A rating Grammar note According to the grammatical rules, the in-

    definite article before this expression is 'an'. We do not recommend the use of the article 'a', even though examples of this appear in a number of English accounting texts.

    Una definicin simple y precisa que acom-paa a cada lema permitiendo desambiguar y precisar el nico equivalente ofrecido. Funcin similar pueden tener los sinnimos y/o antnimos incluidos en algunas entra-das, tanto los que se refieren al lema como al equivalente. Los sinnimos, adems, ofrecen trminos alternativos:

    (7) Definicin y equivalente en el English-Spanish Accounting Dictionary

    balance sheet balance noun Definition The balance sheet is a statement of the en-

    terprise's assets, equity and liabilities at thebalance sheet date. The statement is astatus report estimating the enterprises as-sets, equity and liabilities as a snapshot at acertain date.

    (8) Ejemplo de sinnimo en el English-Spanish Accounting Dictionary

    admission for listing on the stock exchange admisin a cotizacin en bolsa Synonym: salida a bolsa Synonyms flotation inicial public offering IPO

    Informacin adicional sobre alguno de los trminos remitiendo al usuario, mediante la etiqueta Source, a un sitio de internet, nor-malmente un portal de la Unin Europea, en el que el usuario puede encontrar textos que ilustran el uso de la terminologa IAS/IFRS.

    Colocaciones y ejemplos que van precedi-das de las etiquetas Collocations y Examples. Las primeras son expresiones formadas por palabras recurrentes que suelen ir juntas. Los ejemplos estn sacados de textos de in-formes financieros y muestran el uso real del lema en una oracin completa. Pueden servir de inspiracin a la hora de escribir y traducir textos.

    4. Ayuda a la hora de traducir un texto de Contabilidad del ingls al espaol

    Adems de lo que ya hemos descrito, el dic-cionario es de gran ayuda para los traductores por lo siguiente:

    La mayora de las notas contrastivas se re-fieren a los trminos introducidos en espa-ol con las traducciones de las NIC y NIFF. Estn identificados con las etiquetas IAS/IFRS. Las notas contrastivas informan de la existencia de trminos tradicionales que conviven con los trminos IAS/IFRS. Por ejemplo, el trmino ingls incremental cost tiene este tratamiento lexicogrfico:

  • n 115-S noviembre/diciembre de 2009

    27

    (9) Ejemplo de nota contrastiva:

    incremental cost coste marginal Definition Incremental cost is the differential cost re-

    sulting from a decision, i.e. the difference in total cost between two alternatives, where the alternative includes the total cost plus additional costs.

    Contrastive note Although traditional Spanish accounting

    texts used 'coste marginal' the Nuevo Plan General Contable has adopted the IAS/IFRS term 'coste incremental'.

    Synonym: coste incremental

    Adems, existen notas lexicogrficas que pueden indicar la preferencia de un trmi-no frente a otro, (por ejemplo en la entrada account receivable), y alguna particularidad del trmino espaol, como puede ser que el denominado trmino IAS/IFRS es el resul-tado de una traduccin equivocada que convierte el trmino ingls en una palabra sin sentido en espaol (por ejemplo, la en-trada foreign currency hedging):

    (10) Ejemplo de nota lexicogrfica:

    account receivable US, IAS/IFRS cuenta deudora Definition An account receivable is an amount owed

    to an enterprise, generally by a customer,as a result of usual extension of credit.

    Contrastive note

    Spanish accountants prefer 'cuenta deu-dora' to the IAS/IFRS term 'cuenta a co-brar'.

    Synonym cuenta a cobrar Antonym cuenta a pagar cuenta acreedora

    foreign currency hedging cobertura por riesgo de cambio

    Definition Foreign currency hedging refers to an en-

    terprise's use of derivative financial instru-ments to hedge against risks of losses in re-lation to foreign exchange rate movements.

    Contrastive note Spanish accountants prefer 'cobertura por

    riesgo de cambio' to the IAS/IFRS term 'moneda extranjera cubierta de riesgo'. This IAS expression is nonsensical in Spanish.

    Synonym moneda extranjera cubierta de riesgo

    La seleccin del equivalente se ha limitado a uno por entrada (algunas con uno o va-rios sinnimos que son intercambiables con el equivalente).

    Se han incluido una gran cantidad de colo-caciones y ejemplos: alrededor de 27 000 co-locaciones y ms de 1 600 ejemplos. Todos ellos estn extrados de textos tpicos y pueden considerarse de gran ayuda a la hora de traducir.

    Este diccionario tambin puede usarse para aumentar nuestros conocimientos de la contabilidad. Aunque un diccionario como este no puede sustituir a un manual de con-tabilidad, su estructura y su diseo permi-ten aumentar los conocimientos sobre esta materia gracias al uso de referencias cruza-das, identificadas con la etiqueta See also, a la inclusin de definiciones breves, a los si-nnimos y antnimos y, fundamentalmen-te, a la inclusin de enlaces a pginas web que tratan temas de contabilidad, normal-mente pginas de la Unin Europea dedi-cadas a informar de cambios en las Normas Contables y las Normas Internacionales de Informacin financiera. Tambin est pre-vista la inclusin de una introduccin siste-mtica para semiexpertos. Por ejemplo:

    (11) Referencia cruzada a un texto de la Unin Europea:

    policyholder tenedor de una pliza de seguros noun

  • noviembre/diciembre de 2009 n 115-S

    28

    Definition The policyholder is the party (be it one

    or more persons, an enterprise or an in-stitution) in an insurance arrangementwho has a right to compensation from the insurer should an insured event oc-cur.

    Synonym tenedor de contrato (IAS/IFRS) Source IFRS 4, Appendix A

    Al pinchar en IFRS 4, Appendix A, acce-demos a la pgina de la Comisin Europea: , que contiene las Nor-mas Internacionales de Contabilidad y las Normas Internacionales de Informacin Fi-nanciera adoptadas por la Comisin Europea, en las que encontramos informacin relevante y definiciones en ingls y en otras lenguas oficiales de la Unin Europea.

    Antes de que finalice 2009, el English-Spanish Accounting Dictionary tendr ms de 6 000 entradas (o art-culos) disponibles en internet. Igualmente, esperamos que a finales de ao tambin est preparada la versin impresa, que aparecer de la siguiente forma:

    Pedro Fuertes Olivera, Pablo Gordo Gmez, Marta Nio Amo, ngel de los Ros Rodicio, ngeles Sastre Ruano, Sven Tarp, Marisol Ve-lasco Sacristn y Sandro Nielsen, Lise Mourier, Henning Bergenholtz: Diccionario de Contabilidad Ingls-Espaol.

    5. Conclusin

    El English-Spanish Accounting Dictionary es un diccionario de internet integrado en un paque-te de diccionarios interrelacionados que ha sido construido de acuerdo a los principios de la teora funcional de la lexicografa (Tarp 2008) con la intencin primaria de ayudar a hablan-

    tes espaoles nativos a traducir al espaol textos de contabilidad originariamente escritos en ingls.

    6. Referencias bibliogrficas

    BERGENHOLTZ, Henning / Sven TARP (2002), Die moderne lexikographische Funktionslehre. Dis-kussionsbeitrag zu neuen und alten Paradig-men, die Wrterbcher als Gebrauchsgegens-tnde verstehen, 253-263 en Lexicographica. In-ternational Annual for Lexicography 18.

    BERGENHOLTZ, Henning / Sven TARP (2003), Two Opposing Theories: On H. E. Wiegands Recent Discovery of Lexicographic Functions, 171-196 en Hermes. Journal of Linguistics 31.

    FUERTES-OLIVERA, Pedro A. (2009), The Function Theory of Lexicography and Electronic Diction-aries: Wiktionary as a Prototype of Collective Free Multiple-language Internet Dictionary, 99-134 en H. BERGENHOLTZ / S. NIELSEN / S. TARP eds. Lexicography at a Crossroads. Dictionar-ies and Encyclopedias Today, Lexicographical Tools Tomorrow.

    FUERTES OLIVERA, Pedro A. [en prensa]: Lexicog-raphy for The Third Millennium: Free Institu-tional Internet Terminological Dictionaries for Learners, en Pedro A. FUERTES-OLIVERA ed. Specialised Dictionaries for Learners. In Honour of Enrique Alcaraz Var, Lexicographica Series Maior, Niemeyer, Tubinga.

    KILGARRIFF, Adam / Gregory GREFENSTETTE eds. (2003), Special Issue on the Web as a Corpus en Computational Linguistics 29.3.

    TARP, Sven (2007), Qu requisitos debe cumplir un diccionario de traduccin del siglo XXI?, 227-256 en Pedro A. FUERTES-OLIVERA ed. Pro-blemas Lingsticos en la Traduccin Especializada, Universidad de Valladolid, Valladolid.

    TARP, Sven (2008), Lexicography in the Borderland Between Knowledge and Non-knowledge. General Lexicographical Theory with Particular Focus on Learners Lexicography, Lexicographica Series Maior, Niemeyer, Tubinga.

  • n 115-S noviembre/diciembre de 2009

    29

    Terminologa aplicada basada en corpus XAVIER GMEZ GUINOVART Universidade de Vigo [email protected]

    1. Introduccin

    a orientacin hacia la investigacin apli-cada basada en corpus textuales se ha con-

    solidado en los ltimos aos como una meto-dologa fructfera para la descripcin y anlisis de los fenmenos lingsticos en prcticamen-te todos sus aspectos. En este artculo, presen-tar una aproximacin a la investigacin basa-da en corpus en el mbito de los trabajos ter-minolgicos, ilustrando la aplicacin de esta metodologa con algunos trabajos realizados por nuestro grupo de investigacin de la Uni-versidad de Vigo en torno a la elaboracin de una base de conocimientos terminolgicos de la lengua gallega denominada Termoteca.

    2. Lexicografa y terminografa basada en corpus

    El estudio de la lengua a travs de los corpus textuales permite aproximarse de una manera emprica al uso real del lenguaje en su contex-to. El anlisis de las unidades lxicas de un corpus textual permite observar su potenciali-dad semntica, su frecuencia de uso y su com-binatoria de un modo muy realista y cierta-mente inalcanzable desde la pura reflexin introspectiva sobre el funcionamiento del len-guaje. Del mismo modo, en el estudio del dis-curso lingstico tcnico o especializado, la explotacin de corpus tcnicos con las herra-mientas informticas apropiadas facilita la tarea de identificar en los textos el repertorio utilizado de unidades lxicas con contenido terminolgico y permite al mismo tiempo observar su polisemia y su sinonimia, com-probar su frecuencia en los textos, obtener ejemplos reales de uso y contextos definito-rios e, incluso, descubrir las relaciones se-mnticas codificadas en los textos entre los

    trminos asociados a un mbito temtico de especialidad.

    Tradicionalmente, los autores de reperto-rios lxicos buscaban sus fuentes de informa-cin sobre los datos lingsticos en otros reper-torios lxicos, en citas selectas de textos del canon literario o en su propia intuicin como hablantes de la lengua. Este mtodo de trabajo supona limitaciones muy considerables para la prctica lexicogrfica, ya que, por una parte, las reflexiones propias de los lexicgrafos so-bre el uso del lxico podan no ser ajustadas a la realidad lingstica; por otra parte, la reco-pilacin manual de citas de obras cannicas resultaba un trabajo lento y muy poco produc-tivo; y, por ltimo, los diccionarios usados como fuente de inspiracin solan no estar actualizados o, en el peor de los casos, podan contener errores acumulados debidos a su sucesiva reproduccin a lo largo de los tiem-pos.

    La introduccin del uso de corpus textuales informatizados en la prctica lexicogrfica contribuye sin duda a la superacin de estas limitaciones de la metodologa tradicional, facilitando la observacin del lxico de una lengua en la realidad de su uso lingstico, es decir, en su prctica textual. El primer caso de xito en la introduccin del uso de los corpus textuales informatizados para la elaboracin de diccionarios le correspondi a la Universi-dad de Birmingham y a la editorial Collins, promotora del diccionario Cobuild (Sinclair 1987), cuya primera edicin vio la luz en 1987. En su momento, el proyecto Cobuild fue muy innovador, ya que por vez primera se utilizaba en lexicografa un corpus representativo de textos para facilitar el anlisis de los significa-dos de las palabras, la identificacin de patro-

    L

  • noviembre/diciembre de 2009 n 115-S

    30

    nes sintcticos y la descripcin de las coloca-ciones y de la fraseologa de una lengua, en concreto el ingls contemporneo. Tras el xito del Cobuild, la metodologa de trabajo de la lexicografa basada en corpus fue seguida por otras grandes editoriales, como Oxford Uni-versity Press, Longman y Larousse (que cola-boraron en la elaboracin del British National Corpus) y Cambridge University Press.

    En el caso del espaol, podemos ver ejem-plos recientes de la aplicacin de esta metodo-loga en el diccionario publicado por la edito-rial SGEL a partir del corpus Cumbre (Snchez 2001) o en el diccionario de colocaciones Redes (Bosque 2004) basado en un corpus periodsti-co de 250 millones de palabras de la editorial SM. La metodologa de trabajo de la lexicogra-fa basada en corpus se est empleando tam-bin para el cataln en la elaboracin por parte del IEC del Diccionari descriptiu de la llengua catalana basado en el Corpus Textual Informatit-zat de la Llengua Catalana (Rafel 1997). En Gali-cia, el corpus de referencia del gallego deno-minado Tesouro Informatizado da Lingua Galega (Santamarina 2003) constituye la base del di-cionario de uso de la lengua gallega dirigido por el profesor Antn Santamarina, en fase de preparacin; y el Corpus CLUVI (Gmez Gui-novart 2003), elaborado en el marco de nuestro grupo de investigacin de la Universidad de Vigo, es la fuente textual en la que se funda-menta el Dicionario CLUVI ingls-galego (G-mez Guinovart et alii 2008), disponible libre-mente en la red desde 2005 y de inminente aparicin en edicin impresa.

    Aunque las bases tericas para el trabajo en terminologa basada en corpus son similares a las de la lexicografa basada en corpus, la ter-minologa basada en corpus ha tardado ms tiempo en afi