TFM Trad

Embed Size (px)

Citation preview

  • 7/29/2019 TFM Trad

    1/160

  • 7/29/2019 TFM Trad

    2/160

  • 7/29/2019 TFM Trad

    3/160

  • 7/29/2019 TFM Trad

    4/160

  • 7/29/2019 TFM Trad

    5/160

    Traduccin y anlisis del artculo cientfico-tcnico OntologyMapping: the state of the art

    1

    1. Introduccin

    Las fronteras han dejado de existir. Nos encontramos en la era de la informacin, enla que es posible acceder al conocimiento de una manera sencilla y rpida,

    prcticamente desde cualquier lugar. Esto se logra, en gran parte, gracias al desarrollo

    de las nuevas tecnologas de la comunicacin y de la informacin. stas nos permiten

    acceder a una gran cantidad de informacin, en cualquier idioma, de cualquier pas y en

    una diversidad de campos o especialidades. Por tanto, el idioma no debe suponer una

    barrera que nos dificulte o impida este acceso al saber. Por eso es an ms importante la

    labor de los traductores.

    En este trabajo se ha propuesto la traduccin de un texto en ingls perteneciente al

    sector de la informtica y de las telecomunicaciones. Es un artculo que habla sobre las

    relaciones de correspondencia entre ontologas y recoge varios trabajos relacionados

    con este tema. El texto utiliza un lenguaje puramente cientfico-tcnico y se distinguen

    claramente las caractersticas habituales de este tipo de documentos, las cuales se

    analizarn ms adelante.

    El nmero de textos tcnicos que se redactan es cada vez mayor. La tecnologa y

    todo lo que se refiere a ella avanza muy rpido, dando lugar a diversas aplicaciones,

    nuevos programas, aparatos electrnicos, etc. Todo esto trae consigo la aparicin de una

    nueva terminologa tcnica, que avanza ms rpido que sus propias traducciones a otros

    idiomas. Por tanto, es importante que la formacin del traductor sea constante y

    mantenga una relacin estrecha con el campo que est tratando.

    Sin embargo, es fundamental no limitarse nicamente a la traduccin del nuevovocabulario, ya que existen otros muchos aspectos que un traductor debe tener en

    cuenta. Otras particularidades de la lengua es el empleo de las categoras de los

    trminos, su formacin, sus asociaciones y sus formas.

    Los textos cientfico-tcnicos los componen una gran diversidad de documentos.

    Los avances en el sector de las telecomunicaciones y la informtica hacen de la

    traduccin de sus textos una tarea complicada y, en muchas ocasiones, hay que ir por

  • 7/29/2019 TFM Trad

    6/160

    2

    delante del propio idioma de destino, ya que aparecen nuevos conceptos y pasa mucho

    tiempo hasta que se termina adaptando el trmino a la lengua meta.

    Por otra parte, es necesario destacar la relacin que debe existir entre la traduccin y

    la documentacin. No hay que olvidar que la labor del traductor cientfico o tcnico est

    destinada principalmente a satisfacer las necesidades de un organismo o servicio de

    documentacin. Por tanto, debemos tener en cuenta que la traduccin y la

    documentacin son dos actividades diferentes, pero que estn ntimamente relacionadas

    Los rpidos avances en el campo de la ciencia implican, a su vez, la aparicin de

    una gran cantidad de textos cientfico-tcnicos. Los interesados en un tema especfico

    necesitan acceder al conocimiento de los nuevos descubrimientos. La mayora de los

    artculos cientfico-tcnicos se redactan en ingls, y de ah la importancia de que el

    idioma no suponga una barrera o impedimento para acceder a este nuevo conocimiento.

    El texto que se ha escogido para la traduccin y posterior anlisis es un artculo

    publicado en el ao 2003 por Yannis Kalfoglou y Marco Schorlemmer, para la revista

    The Knowledge Engineering, de la Universidad de Cambridge. Esta revista recoge

    diversos artculos que cuyo tema principal es la inteligencia artificial. Se trata de una

    revista accesible a travs de la red, desde donde se puede obtener una gran variedad dedocumentos, artculos, investigaciones, encuestas, comentarios y debates acerca de la

    inteligencia artificial.

    Se trata de un artculo que, aunque no es de los ms recientes, recoge bastantes

    conceptos e ideas de las relaciones de correspondencia entre ontologas. Muchos de los

    trabajos que se han publicado acerca de esta tema aparecen evaluados en este artculo,

    adems de las investigaciones de los autores y sus impresiones.

    En referencia a los autores, Yannis Kalfoglou es doctor por la Open University,

    ingeniero informtico por la universidad de Portsmouth y fsico por la universidad de

    Edimburgo. Ha trabajado durante los diez ltimos aos investigando y desarrollando

    tecnologas para la Web Semntica. Aparte del artculo que se analiza en este trabajo,

    otros ttulos que ha escrito son, entre otros, Information flow ontology mapping

    (2002), Ontology Coordination (2004) o Portable Ontology Alignment (2008). Por

    otro lado, Marco Schorlemmer realiz su tesis doctoral en el Instituto de Investigacinen Inteligencia Artificial (IIA) en Espaa. Se licenci en ingeniera informtica en la

  • 7/29/2019 TFM Trad

    7/160

  • 7/29/2019 TFM Trad

    8/160

    4

  • 7/29/2019 TFM Trad

    9/160

    5

    2. Estructura del trabajoEste trabajo se divide en las siguientes partes:

    Contextualizacin: en este punto se especificarn los rasgos que caracterizan allenguaje cientfico-tcnico, dado que es el que se utiliza en el artculo que se ha

    traducido y analizado. Tambin se pretende establecer el marco temtico en el que se

    desarrolla.

    Es importante conocer bien las caractersticas de este tipo de lenguaje a la hora de

    realizar la traduccin, ya que nos permite conocer sus peculiaridades y las diferencias

    que se pueden dar entre el espaol y el ingls a la hora de traducir y analizar un texto de

    esta categora.

    Debemos tener en cuenta tambin que el escrito utiliza un lenguaje acadmico. Por

    tanto, consideraremos tambin los rasgos de ste: rigurosidad, impersonalidad y

    perfeccin. Adems, el lenguaje tcnico aporta precisin y claridad al texto, adems de

    incluir una gran cantidad de tecnicismos y vocabulario especfico de la temtica tratada.

    Traduccin: ste es el siguiente apartado del trabajo. Se aporta la traduccin

    completa de un artculo de carcter cientfico-tcnico que trata sobre las relaciones decorrespondencia entre ontologas. Para su realizacin se han tenido en cuenta los

    distintos aspectos del lenguaje (cientfico-tcnico) que se recogen en este tipo de textos.

    Anlisis de la traduccin: en este apartado se har un extenso anlisis del texto

    traducido. Se concretan, de manera detallada, las caractersticas textuales que se

    encuentran en el artculo. Durante el desarrollo del proceso de traduccin se han tenido

    en cuenta estas caractersticas y se han analizado con detalle. Comprobamos que el

    escrito original cumple las caractersticas tpicas de un texto tcnico y nos aseguramos

    de que su traduccin las respeta, teniendo en cuenta que los rasgos propios de la lengua

    meta se deben preservar. Adems, se exponen las dificultades que se han encontrado a

    lo largo del proceso de traduccin, y cmo se han solventado.

    Conclusiones: Una vez concluido el apartado de anlisis se aportan las conclusiones

    alcanzadas tras el trabajo realizado.

  • 7/29/2019 TFM Trad

    10/160

  • 7/29/2019 TFM Trad

    11/160

  • 7/29/2019 TFM Trad

    12/160

  • 7/29/2019 TFM Trad

    13/160

    9

    3.2.1. Criterios para la clasificacin de textos cientfico-tcnicosCuando se pretende hacer una tipologa de textos cientfico-tcnicos se

    plantea el problema de qu criterio se debe seguir para agruparlos en diferentes

    clases. Por ejemplo, si tuviramos en cuenta el grado de especializacin (desde

    el ms divulgativo hasta el ms especializado) se podra observar que, dentro de

    un mismo nivel de especializacin, existira una gran variedad de discursos de

    acuerdo a la intencionalidad de los mismos y segn su funcin, y que trataran de

    diversos temas. Pero si eligiramos alguna otra perspectiva para establecer un

    segundo nivel de tipificacin, en cada una de las clases del primer nivel nos

    encontraramos con una mezcla de textos muy heterognea en funcin de otros

    puntos de vista. Por ello, vamos a establecer varias clasificaciones teniendo encuenta otros tantos criterios, y para limitar el nmero de stos, nos atendremos a

    las caractersticas mencionadas por Gutirrez-Rodilla en su definicin de

    discurso cientfico-tcnico:

    Vamos a considerar que el lenguaje cientfico [y tcnico] es todo

    mecanismo utilizado para la comunicacin, cuyo universo se sita en

    cualquier mbito de la ciencia [y la tecnologa], ya se produzca esta

    comunicacin exclusivamente entre especialistas, o entre ellos y el

    gran pblico, sea cual sea la situacin comunicativa y el canal

    elegido para establecerla (Gutirrez Rodilla, 1998: 20).

    Siguiendo esta definicin, los aspectos que nos permiten realizar una

    tipologa de textos cientficos son los siguientes:

    El lenguaje cientfico-tcnico es todo mecanismo utilizado para lacomunicacin. sta no es una propiedad exclusiva del registro que estamos

    estudiando, pero s nos permite una primera clasificacin.

    El universo del discurso cientfico-tcnico se sita en cualquier mbito de laciencia y la tecnologa: la temtica de los textos nos permite agruparlos en

    las distintas ramas de especializacin.

    La comunicacin se puede producir exclusivamente entre especialistas oentre ellos y el pblico.

  • 7/29/2019 TFM Trad

    14/160

    10

    Todo discurso puede generarse en diferentes contextos, segn suintencionalidad, que relacionaremos con las funciones del lenguaje, y por

    el formato que requiera el texto en cada situacin, es decir, el gnero al

    que pertenece.

    Se pueden elegir diferentes canales para establecer la situacin comunicativa.3.2.2. Caractersticas del lenguaje cientfico-tcnico.

    A continuacin se detallarn las caractersticas del lenguaje cientfico-

    tcnico, cuya funcin principal es la de informar.

    PrecisinQuizs esta sea la cualidad ms importante del lenguaje cientfico-tcnico. A

    lo largo de los aos, los cientficos de cada materia se han esforzado en acuar

    una terminologa que sea propia del sector en el que se trabaja. Cada trmino

    debe responder unvocamente a un concepto o definicin, con el fin de evitar

    ambigedades. Esta caracterstica no siempre se da en el lenguaje comn, donde

    puede darse la sinonimia (dos o ms trminos tienen igual significado) y lapolisemia (una misma palabra tiene mltiples significados). Como consecuencia,

    la brillantez literaria es escasa o nula. Una imprecisin terminolgica suele ir

    acompaada por el error conceptual. Por tanto, es importante que un texto

    tcnico sea preciso y utilice la terminologa adecuada para cada concepto,

    evitando as posibles errores.

    En el sector de las telecomunicaciones y la informtica, esta tarea se hace

    cada vez ms difcil, debido a la cantidad de nueva terminologa que aparece.

    Claridad.Un estilo es claro cuando las ideas del autor que escribe el texto penetran sin

    esfuerzo en la mente del lector. Para que esto sea posible, es fundamental huir de

    cualquier tipo de rebuscamiento expresivo, escribir con suma sencillez y

    naturalidad. La mejor manera para lograr este objetivo es utilizar la va directa.

    Para ello se debe:

  • 7/29/2019 TFM Trad

    15/160

    11

    - Utilizar palabras sencillas y conocidas e intentar huir de tecnicismosinnecesarios y de jergas profesionales.

    - Emplear frases breves que contengan una estructura sintctica simple.- Respetar el orden natural de la frase en castellano, es decir, sujeto +

    verbo + complementos del verbo.

    Es fundamental cuidar la disposicin del escrito en prrafos, apartados y

    captulos y tener una tipografa, con el fin de facilitar su comprensin.

    En los textos tcnicos la claridad es, en muchas ocasiones, difcil de

    conseguir. Se debe intentar adaptar todo lo posible a estas caractersticas.

    Correccin.El lenguaje que se emplea no debe alejarse de la ortodoxia gramatical. Se

    deben respetar las normas relativas al lxico y a la sintaxis. La persona que

    redacta un texto cientfico no debe tener carencias en este campo.

    Brevedad y concisin.Se debe cuidar que la transmisin de la informacin sea de forma breve, es

    decir, que lo que se transmita sea conciso. La brevedad no debe ir en detrimento

    de la claridad. El lector ha de comprender lo que se quiere transmitir.

    Para que un texto sea breve y conciso debe:

    - Eliminar perfrasis y circunloquios innecesarios.- Usar palabras cortas en lugar de sus sinnimos con ms slabas.- Evitar redundancias.- Controlar el nmero de adjetivos y adverbios.

    Trato igualitario y no sexista.Los textos tcnicos deben evitar expresiones cariosas o serviles, y prestar

    atencin para no incurrir en actitudes sexistas. Esto no significa que un texto

  • 7/29/2019 TFM Trad

    16/160

  • 7/29/2019 TFM Trad

    17/160

    13

    caractersticas, se utilizan voces monosmicas para reproducir la observacin y

    el anlisis del fenmeno, de los procesos u objetos.

    Denotacin.Expresa el significado de las palabras, sin mezcla de una nota cualitativa. La

    significacin del vocabulario cientfico es denotativa. Son trminos inmviles,

    sin posibilidad de traslado de su significado.

    VerificabilidadEntre los objetivos de la ciencia est la demostracin de los saberes. Necesita

    que sus investigaciones y los resultados de ellas aporten pruebas suficientes parajustificar su veracidad.

    Arbitrariedad.Consiste en la inexistencia de una relacin de necesidad entre el significante

    y el significado.

    Funcin lingstica de los textos cientfico-tcnicos.La funcin esencial de estos mensajes es la simblica o referencial. La

    explicacin de la continua y abundante produccin de trminos y conceptos

    cientficos se apoya en la funcin metalingstica, que emplear la lengua para

    definirlos

    3.3. El lenguaje acadmico.

    El uso de la lengua en los mbitos acadmicos especializados se produce en uncontexto internacional, con el fin de convertirse en un medio de comunicacin

    intercultural. El lenguaje acadmico es un producto de dicha comunicacin. Sus

    rasgos lingsticos caractersticos, normas, formas y convenciones se han

    conformado a lo largo de la historia reciente y surgen de las propiedades

    comunicativas de la comunidad acadmica.

    A continuacin mostramos las caractersticas del lenguaje acadmico en

    espaol y en ingls.

  • 7/29/2019 TFM Trad

    18/160

  • 7/29/2019 TFM Trad

    19/160

  • 7/29/2019 TFM Trad

    20/160

  • 7/29/2019 TFM Trad

    21/160

  • 7/29/2019 TFM Trad

    22/160

  • 7/29/2019 TFM Trad

    23/160

  • 7/29/2019 TFM Trad

    24/160

  • 7/29/2019 TFM Trad

    25/160

  • 7/29/2019 TFM Trad

    26/160

  • 7/29/2019 TFM Trad

    27/160

  • 7/29/2019 TFM Trad

    28/160

  • 7/29/2019 TFM Trad

    29/160

  • 7/29/2019 TFM Trad

    30/160

  • 7/29/2019 TFM Trad

    31/160

  • 7/29/2019 TFM Trad

    32/160

  • 7/29/2019 TFM Trad

    33/160

  • 7/29/2019 TFM Trad

    34/160

  • 7/29/2019 TFM Trad

    35/160

  • 7/29/2019 TFM Trad

    36/160

  • 7/29/2019 TFM Trad

    37/160

    33

    Informes de la experiencia. Consideramos til incluir en nuestras investigaciones

    informes que hacen referencia a la correspondencia entre ontologas a grandes escalas,

    ya que nos dan una experiencia de primera mano acerca de los problemas de

    extensibilidad y sobre los recursos empleados.

    Sistemas Tericos. Probablemente sta es la categora ms interesante. Consideramos

    que los profesionales an no han aprovechado varios trabajos tericos.Esta categora

    tiene como objetivo destacar estos trabajos.

    Encuestas. Son parecidos a los informes de las experiencias, pero con un estilo ms

    comparativo.

    Ejemplos. sta es nuestra ltima categora y la ms ilustrativa. Pretende mostrar ladiversidad de aplicaciones en la correspondencia entre ontologas y la variedad de casos

    estudiados que las han aprovechado. Exponemos una seleccin de investigaciones que

    se han trabajado en las categoras anteriores.

    3 Estudio sobre la correspondencia entre ontologas

    3.1 Sistemas

    Seleccionamos los siguientes sistemas de entre los documentos estudiados: el

    sistema de integracin de ontologas de Fernndez-Breis y Martnez-Bjar (2002), el

    sistema MAFRA sobre ontologas distribuidas en la Web Semntica (Maedche y Staab,

    2000), el sistema OISs de sistemas de integracin de ontologas (Calvanese et al.,

    2001b), el sistema y lenguaje sobre la correspondencia entre ontologas de Madhavan

    et al.(2002), el sistema OntoMapO sobre ontologas de alto nivel integradas (Kiryakov

    et al.,2001), y el sistema IFF sobre la transferencia de ontologas (Kent, 2000).

    Fernndez-Breis y Martnez-Bjar (2002) describen un sistema para integrar

    ontologas. Particularmente, ste

    podra servir como un sistema de ontologas que se han construido de manera

    conjunta y se derivan de la integracin (por ejemplo, global).

    Su sistema tiene como objetivo la integracin de ontologas y se ofrece para que lo

    utilicen usuarios expertos y normales. Los primeros buscan informacin y ofrecen

  • 7/29/2019 TFM Trad

    38/160

    34

    informacin especfica sobre sus conceptos, mientras que los segundos construyen

    ontologas derivadas de la integracin. Mientras que los usuarios normales introducen

    informacin sobre los atributos de los conceptos, de las relaciones y de los trminos

    asociados en el sistema, los usuarios expertos procesan la informacin y el sistema los

    ayuda a derivar la ontologa integrada. El algoritmo se basa en caractersticas

    taxonmicas y en la deteccin de sinnimos en las dos ontologas. Tambin tiene en

    cuenta los atributos de los conceptos y los autores definen un criterio de igualdad para

    estos conceptos. Por ejemplo, cuando se utiliza un criterio de igualdad basado en un

    nombre, ambos conceptos deben tener los mismos atributos. Se incluye un ejemplo de

    su uso en la Seccin 4.

    Maedche and Staab (2000) disearon un sistema de correspondencia entreontologas distribuidas en la Web Semntica. Los autores exponen que crear una

    correspondencia con las ontologas ya existentes es ms sencillo que crear una ontologa

    comn, porque se utiliza una comunidad ms pequea durante el proceso. MAFRA es

    parte de un sistema multi-ontolgico y tiene como objetivo detectar automticamente

    semejanzas entre entidades que pertenecen a dos secciones distintas de ontologas.

    Maedche and Staab (2000) exponen que:

    Ambas ontologas se deben normalizar en una representacin uniforme, en

    nuestro caso RDF (S), para as eliminar diferencias sintcticas y hacer que las

    diferencias semnticas entre la ontologa de origen y la ontologa destino sean

    ms visibles.

    Este proceso de normalizacin se realiza mediante una herramienta, LIFT, que da lugar

    a varios DTD, Esquemas-XML y bases de datos relacionales a nivel estructural de la

    ontologa. Otra contribucin interesante del sistema MAFRA es la definicin de puentesemntico. Es un mdulo que establece correspondencias entre entidades de la ontologa

    de origen y de destino basndose en las semejanzas que existen entre ellas. Toda la

    informacin sobre el proceso de correspondencia se almacena y se introduce una

    ontologa de correspondencia, tambin llamada Ontologa de Puente Semntico (OPS).

    La OPS est en formato DAML+OIL, y los autores exponen que:

    Uno de los objetivos de la ontologa de puente semntico era mantener y

    aprovechar las formas existentes y minimizar las formas extra, lo cual podra

  • 7/29/2019 TFM Trad

    39/160

  • 7/29/2019 TFM Trad

    40/160

    36

    comn. El sistema utiliza un modelo de ayuda cuando no es posible la correspondencia

    directamente entre un par de modelos, y tambin permite representar correspondencias

    que estn incompletas o suponen una prdida de informacin. Los modelos que se

    presentan en sus sistemas son representaciones de un dominio en lenguaje formal, y las

    correspondencias entre modelos consisten en un conjunto de relaciones entre

    expresiones sobre los modelos dados. El lenguaje de expresin que se usa en las

    correspondencias vara dependiendo de los modelos con los que se estn realizando

    correspondencias. Los autores hablan de que la correspondencia formulada en su

    lenguaje puede ser bastante expresiva, lo cual hace posible representar relaciones

    complejas entre modelos. Aplicaron su sistema como ejemplo con modelos de bases de

    datos relaciones. Tambin definieron una tipologa de propiedades de correspondencia:

    soluciones a preguntas, inferencia de correspondencias y composicin de

    correspondencias. Los autores exponen que,

    una correspondencia entre dos modelos rara vez une todos los conceptos de un

    modelo con todos los conceptos de otro. En vez de eso, las correspondencias

    suelen perder informacin y estar incompletas.

    La respuesta a preguntas es una formalizacin de esta propiedad. La inferencia de

    correspondencias nos ofrece una herramienta para determinar tipos de correspondencias,

    concretamente correspondencias equivalentes y correspondencias mnimas; y la

    composicin de correspondencias permite la correspondencia entre modelos que se

    relacionan mediante modelos intermediarios. Se muestran ejemplos de sus sistemas en

    la seccin 4. Kiryakov et al. (2001) desarrollaron un sistema para acceder e integrar

    ontologas de alto nivel. Ofrecen un servicio que permite al usuario importar ontologas

    lingsticas a un servidor en la red, el cual har la correspondencia con otras ontologas.

    Los autores exponen que

    podra definirse una representacin uniforme de las ontologas y sobre las

    correspondencias entre ellas, una meta-ontologa relativamente simple

    (OntoMapO) con tipos de propiedades y de relaciones.

    Aparte de las primitivas de OntoMapO y del estilo del diseo, lo cual es secundario en

    nuestro estudio, los autores estudian un conjunto de primitivas que OntoMapO ofrece

    para la correspondencia. Hay dos conjuntos de primitivas definidas,InterOntologyRel e

  • 7/29/2019 TFM Trad

    41/160

    37

    IntraOntologyRel, cada una de las cuales tiene un nmero de relaciones cuyo objetivo es

    calcular la correspondencia entre conceptos que se originan en las diferentes ontologas

    (por ejemplo, meta-conceptos equivalentes y ms especficos). Se da una tipologa de

    estas relaciones en forma de jerarqua y los autores afirman que se ha usado un

    prototipo inicial para la unir partes de la ontologa CyCconEuroWordNet.

    Kent (2000) propuso un sistema para que las estructuras ontolgicas se pudieran

    compartir.Se basa en la teora de Barwise-Seligman del flujo de informacin (Barwise

    & Seligman, 1997). Kent expone que IFF representa el dinamismo y estabilidad del

    conocimiento. El primero se refiere a conjuntos de instancias, sus relaciones de

    clasificacin y a los vnculos entre ontologas que se especifican mediante una extensin

    ontolgica y mediante sinonimia (equivalencia de tipo); se relaciona con las lgicaslocales de Barwise and Seligmany sus transformaciones, que conservan las estructuras

    infomorfismos lgicos. La estabilidad se refiere a los smbolos de concepto/relacin y

    a las restricciones que se especifican en las ontologas; se relacionan con las teoras de

    Barwise and Seligman y sus interpretaciones tericas de transformaciones de

    estructuras. IFF representa las ontologas en forma de lgicas, y la transferencia de

    ontologas como una jerarqua de extensin de ontologas especficas. Una ontologa

    tiene una relacin de clasificacin entre instancias y smbolos de concepto/relacin, ytambin tiene un conjunto de limitaciones que modelan la semntica de la ontologa. En

    el sistema propuesto por Kent, una comunidad de ontologas es la base de la

    transferencia de ontologas; las comunidad de ontologas comparten terminologa y

    condiciones a travs de una ontologa genrica comn que se extiende a cada una de

    ellas, y estas condiciones son acuerdos entre esas comunidades. Las condiciones en las

    ontologas genricas tambin son acuerdos consensuados pero a travs de las

    comunidades. Ms tarde examinaremos el trabajo de Kent en la seccin 3.6.2, donde

    incluimos un debate sobre sistemas tericos.

    3.2 Mtodos y herramientas

    En esta seccin hablamos sobre el mtodo FCA-Merge de unin de ontologas

    (Stumme & Maedche,2001), el mtodo IF-Map de correspondencia entre ontologas

    (Kalfoglou & Schorlemmer, 2002), las herramientas SMART, PROMPT y

    PROMPTDIFF para el entorno de desarrollo de la ontologa de Protg de Noy y

    Musen, la herramienta Chimaera (McGuinness et al., 2000), los sistemas GLUE (Doan

  • 7/29/2019 TFM Trad

    42/160

  • 7/29/2019 TFM Trad

    43/160

    39

    Asocia palabras o expresiones compuestas con un concepto de la ontologa si

    existe una parte de la entrada correspondiente en la parte del dominio especfico

    del lxico.

    Usando este anlisis lxico, los autores relacionan expresiones complejas, como Hotel

    Schwarzer Adler con el concepto Hotel. Despus, los dos ndices formales se

    unen para generar un concepto reducido. Este paso requiere una separacin (ya que los

    dos ndices deben contener los mismos conceptos) por medio de la indexacin. El

    procesado del concepto reducido se hace mediante un algoritmo, TITANIC, el cual

    procesa ndices formales a travs de sus conjuntos clave (o generadores mnimos). En

    trminos de anlisis formales de conceptos, el alcance de los conceptos no se procesa

    (stos son los documentos de donde provienen, y no se necesitan para generar laontologa combinada, segn los autores), nicamente se tienen en cuenta los resultados

    (conjuntos de conceptos de las ontologas de origen). Finalmente, Stumme y Maedche

    no procesan el entramado de concepto completamente

    porque dara lugar a muchos conceptos especficos. Restringimos el

    procesamiento a aquellos conceptos formales generados por un concepto (de

    ontologa) de las ontologas de origen.

    Una vez que se ha generado el concepto reducido, FCA-Merge entra en su ltima fase,

    la construccin no automtica de la ontologa combinada, mediante la interaccin de

    una persona. Esta construccin es semiautomtica porque requiere conocimientos

    especficos sobre el dominio. La persona experta tiene que resolver posibles conflictos y

    duplicados, pero existe un soporte automtico de FCA-Merge para un mecanismo de

    preguntas/respuestas que tiene como objetivo guiar y focalizar la atencin del experto

    en las partes especficas del proceso de construccin. En esta fase se introduce unnmero de heursticas (como el uso de los conjuntos de conceptos clave como pruebas

    de que pertenecen a la clase), ya que el entramado es_un se deriva automticamente.

    Kalfoglou y Schorlemmer (2002) desarrollaron un mtodo automtico de

    correspondencia entre ontologas, IFMap, basado en la teora del flujo de informacin

    de Barwise-Seligman (Barwise y Seligman, 1997). Sus mtodos utilizan la base terica

    fundamentada de la teora de canales de Barwise y Seligman, y nos ofrecen una manera

    sistemtica y mecanizada para utilizarla en un entorno distribuido con el fin de construir

  • 7/29/2019 TFM Trad

    44/160

  • 7/29/2019 TFM Trad

    45/160

    41

    2 en ontologa Global. El ltimo es la suma de las ontologas locales mdulo

    ontologa de Referencia y los infomorfismos lgicos generados.

    En la Figura 3 mostramos el proceso de IF-Map. Los autores construyen un proceso

    por etapas formado por cuatro pasos fundamentales: (a) recogida de ontologas, (b)

    traduccin, (c) generacin de infomorfismo y (d) muestra de resultados. En el paso de la

    recogida de ontologas se lleva a cabo la adquisicin de ontologas. Usan varios

    mtodos: utilizan ontologas existentes, se descargan de bibliotecas de ontologas (por

    ejemplo, de los servidores de Ontolingua (Farquhar et al., 1997) o de OntoWeb

    (Domnguez, 1998) ), las editan en editores de ontologas (por ejemplo, en Protg

    (Grosso et al., 1999)), o las recogen de la red. Este paso de adquisicin de ontologas

    termina con una variedad de formatos de lenguajes de ontologas, desde KIF(Genesereth & Fikes, 1992) y Ontolingua a OCML (Motta, 1999), RDF (Lassila y

    Swick, 1999), Prolog y bases de conocimiento nativas de Protg. Esto lleva al segundo

    paso de su proceso, el de traduccin. Los autores exponen,

    Como hemos especificado de manera declarativa el mtodo IF-Map en lgica de

    Horn y lo hemos ejecutado con Prolog, traducimos parcialmente los formatos

    anteriores a clusulas de Prolog.

    A pesar de que el paso de traduccin es automtico, los autores exponen,

    Creemos que es prctico construir nuestros propios traductores. Lo hicimos para

    obtener una traduccin parcial y personalizada con el objetivo de la

    correspondencia entre ontologas. Adems, como se ha mostrado en un

    experimento a gran escala con traductores que estn disponibles pblicamente

    (Corra da Silva et al., 2002), el cdigo de Prolog que se crea no es distinguido ni

    ejecutable.

    El siguiente paso en su proceso es el mecanismo de correspondencia principal el

    mtodo IF-Map. Este paso encuentra infomorfismos, si los hay, entre dos ontologas

    examinndolas, y los muestra en formato RDF. Los autores muestran mediante una

    interfaz de usuario Java el programa IF-Map que est escrito en Prolog, de manera

    que se puede acceder a l a travs de la red, y permite escribir una interfaz de

    programacin de aplicaciones (API) Java para poder acceder de manera externadesde otros sistemas.

  • 7/29/2019 TFM Trad

    46/160

  • 7/29/2019 TFM Trad

    47/160

  • 7/29/2019 TFM Trad

    48/160

    44

    proceder. Cuando se compara con PROMPT, se parecen en que se insertan en entornos

    de edicin de ontologas, pero se diferencian en las sugerencias que hacen a sus usuarios

    en referencia a los pasos de unin.

    Doan et al. (2002) desarrollaron un sistema, GLUE, que emplea tcnicas de

    aprendizaje automtico para encontrar correspondencias. Dadas dos ontologas, para

    cada concepto en una ontologa, GLUE encuentra el concepto ms parecido en la otra

    ontologa usando definiciones probabilsticas mediante varias mediciones para encontrar

    semejanzas. Los autores exponen que sta es la diferencia cuando comparan su trabajo

    con otros mtodos de aprendizaje automtico, en los que se utiliza una sola medida para

    encontrar semejanzas. Adems, GLUE tambin

    utiliza diversas estrategias de aprendizaje, cada una de las cuales explora un tipo

    de informacin diferente tanto en las instancias de datos como en la estructura

    taxonmica de las ontologas

    La medicin de semejanzas que utilizan es la distribucin de la probabilidad de unin de

    los conceptos que aparecen , as que

    en lugar de comprometerse con una definicin particular de semejanza, GLUE

    calcula la distribucin de la unin de los conceptos, y permite a la aplicacin

    usar la distribucin de la unin para procesar cualquier medicin adecuada de

    semejanzas.

    GLUE utiliza un mtodo multi-aprendizaje porque hay varios tipos de informacin

    diferentes que un aprendiz puede recoger de los ejemplos de preparacin para hacer

    predicciones. Puede aprovechar la frecuencias con la que aparecen palabras en un texto,

    los nombres de las instancias, los valores de los formatos o las caractersticas de losvalores de las distribuciones. Para hacer frente a esta diversidad, los autores

    desarrollaron dos sistemas de aprendizaje: uno de ndices y otro de nombres. El primero

    usa un mtodo de clasificacin de textos, llamado aprendizaje Naive Bayes. El sistema

    de aprendizaje de nombres es parecido al de ndices pero utiliza el nombre completo de

    la instancia en lugar de su contenido. Ms tarde desarrollaron un meta-aprendiz que

    combina las predicciones de dos sistemas de aprendizaje. Asigna a cada uno un peso de

    aprendizaje que indica cunto se confa en sus predicciones. Los autores tambin usaronuna tcnica, etiquetado por relajacin, que asigna etiquetas a los nodos de un grafo,

  • 7/29/2019 TFM Trad

    49/160

  • 7/29/2019 TFM Trad

    50/160

  • 7/29/2019 TFM Trad

    51/160

  • 7/29/2019 TFM Trad

    52/160

    48

    herramienta de anlisis interactiva que gua al analista en el alineamiento de dos

    ontologas. Se representan como modelos mejorados de entidad relacin sumados a un

    razonador de lgica descriptiva. Tambin utilizan inferencias lingsticas y heursticas

    para comparar los atributos de los conceptos en ambos modelos y al analista le aparece

    un mensaje con informacin para resolver conflictos que pueda haber entre conceptos

    superpuestos. Su enfoque se parece al sistema MAFRA porque ambos definen puentes

    semnticos, como exponen los autores:

    Los conceptos solapados se unen entre s a travs de puentes semnticos. Cada

    puente permite la definicin de reglas de transformacin para eliminar las

    desigualdades semnticas entre conceptos.

    La metodologa que se sigue cuando usamos ConcepTool consta de seis pasos: (1)

    anlisis de los esquemas para obtener vnculos taxonmicos, (2) anlisis de ambos

    esquemas para identificar entidades superpuestas, (3) pedir al analista que defina las

    correspondencias entre entidades superpuestas, (4) generacin automtica de entidades

    en el esquema de articulacin para cada par de entidades, (5) pedir al analista que

    defina la correspondencia entre los atributos de las entidades y (6) anlisis del esquema

    de articulacin. En la Seccin 4 presentamos un ejemplo de cmo se genera una

    articulacin en ConcepTool.

    3.3 Traductores

    Tratamos dos sistemas de traduccin: OntoMorph, sobre el conocimiento simblico

    (Chalupksy, 2000) y W3TRANS, sobre datos heterogneos de integracin (Abiteboul et

    al., 2002).

    Chalupksy (2000) desarroll un sistema de traduccin del conocimiento simblico OntoMorph. Ofrece un lenguaje consolidado para representar transformaciones

    sintcticas complejas, y se integra con el sistema de representacin del conocimiento

    PowerLoom. El autor profundiza sobre un criterio de los sistemas de traduccin:

    las traducciones necesitan que todo vaya bien ms all de las transformaciones

    sintcticas y se presentan en varias dimensiones: como lenguajes de

    representacin, convenciones de modelado, modelo de cobertura y granularidad,

  • 7/29/2019 TFM Trad

    53/160

    49

    paradigmas de representacin, tendencias de sistemas de inferencia, etc., y

    cualquier combinacin de stos.

    OntoMorph usa la reescritura sintctica a travs de reglas de escritura que siguen un

    patrn, las cuales permiten la especificacin de transformaciones a nivel de oracin

    basadas en el emparejamiento de patrones; y la reescritura semntica, que regula la

    reescritura sintctica a travs de modelos semnticos (parciales) y de inferencia lgica

    que maneja PowerLoom. OntoMorph trabaja con la transformacin del conocimiento de

    manera opuesta a la traduccin. Citando a Chalupsky:

    un criterio de exactitud comn para los sistemas de traduccin es que conservan

    las semnticas. Por ejemplo, el significado de la fuente de origen y la traduccin

    debe ser el mismo. Esto no es precisamente lo que necesita nuestra funcin de

    transformacin T, ya que tendran que poder realizarse abstracciones o giros

    semnticos como parte de la traduccin. Por ejemplo, se podra desear hacer una

    relacin de correspondencia de una ontologa sobre automviles en una ontologa

    de los documentos que describen estos automviles. Como esto es diferente a la

    traduccin en el sentido habitual, preferimos utilizar el trmino transformacin del

    conocimiento.

    Una tcnica interesante de OntoMorph es la reescritura semntica. Cuando, por

    ejemplo, alguien quiere mezclar todas las clases de camin que aparecen en una

    ontologa sobre vehculos en una sola clase camin, la reescritura semntica nos permite

    usar las relaciones taxonmicas para comprobar si una clase en particular es una

    subclase de camin. Esto se consigue a travs de la unin de OntoMorph con

    PowerLoom, la cual accede a la base del conocimiento para importar las oraciones

    originales que representan las relaciones taxonmicas, como un subconjunto y un sperconjunto de afirmaciones.

    Abiteboul et al. (2002) profundizaron sobre un modelo de datos a travs de un

    programa mediador y sobre reglas declarativas para combinar los datos heterogneos. A

    pesar de que su trabajo est ms relacionado con el mundo de las bases de datos, sus

    tcnicas de integracin podran ser de utilidad en la correspondencia entre ontologas.

    En su modelo de datos, los autores utilizan una estructura que est constituida por

    rboles de clasificacin ordenados. Los autores exponen que

  • 7/29/2019 TFM Trad

    54/160

    50

    este modelo es suficientemente general para capturar los formatos que nos

    interesan. A pesar de que una correspondencia desde un modelo de datos ms

    completo a este modelo podra perder su semntica original, los datos se

    conservan por s solos y se facilita la integracin con otros modelos de datos.

    Definen un lenguaje de designacin de reglas de correspondencia entre elementos y una

    traduccin de datos bidireccional. Estas correspondencias podran servir para otros

    casos, por ejemplo, como soporte para la correspondencia entre ontologas. Estas ideas

    se implementan en un sistema prototipo, W3TRANS, el cual usa un programa de

    modelo de datos y un lenguaje de reglas para designar las correspondencias.

    3.4 Mediadores

    Realizamos una estudio sobre dos trabajos de mediadores indicativos. El lgebra

    basada en reglas de Jannink et al. (1998) y los algoritmos de mediacin de Campbell

    y Shapiro (1998).

    Jannink et al. (1998) desarrollaron un lgebra basada en reglas para agrupar

    ontologas por ndices. Definen las interfaces que unen los ndices que se extraen a las

    ontologas de origen. Debido a que en los ndices aparecen cambios, la ontologa

    original permanece sin cambiarse, y la interfaz es la responsable de asegurar que el

    contenido encaja de nuevo de manera coherente en la ontologa. Su trabajo pretende

    recoger ontologas de los ndices y crear nuevos ndices. Como exponen los autores,

    Los ndices garantizan el conocimiento que exportan y muestran interfaces factibles

    sobre estos conocimientos son los principales bloques de construccin de nuestra

    lgebra en grandes estructuras. La ontologa resultante de la correspondencia entre dos

    ontologas de origen se supone que es consistente nicamente en su propio contenido.

    Los autores ofrecen cuatro tipos de interfaces de ndices: interfaces de esquema

    (plantillas que especifican el conjunto de conceptos y relaciones en el contenido),

    interfaces de origen (acceden a las fuentes de entrada de datos para responder a las

    preguntas), interfaces de reglas (devuelven los conjuntos de reglas que se usan para

    transformar los datos de las fuentes con las que tratan a los objetos del esquema), e

    interfaces de dueo (tienen una marca de tiempo y los nombres de los propietarios de

    los ndices).

  • 7/29/2019 TFM Trad

    55/160

  • 7/29/2019 TFM Trad

    56/160

  • 7/29/2019 TFM Trad

    57/160

  • 7/29/2019 TFM Trad

    58/160

  • 7/29/2019 TFM Trad

    59/160

    55

    Informacin (IFF) (Kent, 2002). El IFF se basa en la teora del canal (Barwise &

    Seligman, 1997).

    Kent aprovecha la distincin que se hace en la teora del canal entre tipos- los

    elementos sintcticos, como conceptos y nombres de relacin, o sentencias lgicas- y

    muestraslos elementos semnticos, como instancias particulares, o modelos lgicos- y

    su organizacin por medio de tablas de clasificacin, para describir formalmente la

    estabilidad y dinamismo de la organizacin del conocimiento conceptual. Tiene en

    cuenta dos principios bsicos:

    1. Que una comunidad con una ontologa bien definida posee su conjunto deinstancias (controla las actualizaciones; puede tener solidez; controla los

    derechos de acceso al conjunto), y

    2. Que las instancias de comunidades separadas estn unidas a travs de conceptosde una ontologa genrica comn,

    Y luego continua describiendo un proceso de dos etapas que determina la ontologa

    base de las conexiones de la comunidad, capturando la organizacin del conocimiento

    conceptual a travs de comunidades (vea la Figura 4). El proceso comienza con el

    supuesto de que la ontologa genrica comn se especifica como una teora lgica y quevarias ontologas de las comunidades participantes extienden la ontologa genrica

    comn segn las interpretaciones de la teora (en su sentido tradicional, como

    consecuencia de la conservacin de correspondencias; vea Enderto (2001)). Consta de

    las siguientes etapas:

    1. Una etapa de inicio que va desde las teoras hasta las lgicas que incorporaninstancias a la imagen (instancias apropiadas para las ontologas de la

    comunidad, tambin llamadas instancias formales).

    2. Una etapa de unin donde las lgicas (teoras + instancias) de las ontologas deuna comunidad se unen a travs de una ontologa principal de conexiones de

    comunidades, lo cual depende de cmo se unen las instancias a travs de los

    conceptos de la ontologa genrica comn (vea el segundo principio ms arriba).

  • 7/29/2019 TFM Trad

    60/160

  • 7/29/2019 TFM Trad

    61/160

  • 7/29/2019 TFM Trad

    62/160

  • 7/29/2019 TFM Trad

    63/160

    59

    establecido un sistema convencional para estudiar los problemas en la traduccin de

    ontologas. Ofrece varios modos de traduccin basados en la estructura de las

    ontologas, dando por hecho que se especifican mediante un conjunto de axiomas

    estructurados que consisten en las teoras fundamentales, libreras de objetos que

    ofrecen definiciones terminolgicas y plantillas que determinan ciertas clases de

    axiomas. La traduccin depende de qu partes de la ontologa se comparten y cules no.

    El trabajo de Grninger es un mtodo basado en la lgica, en el que la traduccin

    de una ontologa se define en trminos de equivalencia lgica- las teoras se pueden

    traducir si las oraciones se pueden expresar usando las definiciones de otra teora, tal

    que son equivalentes respecto a las teoras fundamentales. Se le denomina traduccin

    slida. Grninger formaliza otro tipo de traduccin menos slida: la traduccin parcialse concibe si se puede establecer a travs de sub-ontologas o porque una de las

    ontologas es extensible mediante nuevas definiciones para hacer factible una traduccin

    ms slida.

    Las traducciones slidas y parciales se basan en ontologas que comparten las

    mismas teoras fundamentales. Si este no es el caso, se puede establecer una traduccin

    poco dbil, en la que una traduccin parcial (o slida) se puede definir despus de que

    una teora fundamental se interprete en la otra (en el sentido normal de una

    interpretacin terica; vea, por ejemplo, Enderton (2001)).

    Para determinar si dos ontologas de aplicacin se pueden intercambiar, Grninger

    propone utilizar una librera de una ontologa intercambiable que compile un conjunto

    de ontologas participantes, organizadas segn se estructuren sus teoras fundamentales

    y las libreras de objetos en base a la relacin de las teoras fundamentales y segn las

    definiciones de libreras de objeto. Para cualquiera de las dos ontologas participantes, ellxico de una no debera poder expresarse usando el lxico de la otra; se obtiene

    definindolas mediante del concepto de cierre-lxico.

    Dada una ontologa de aplicacin, es necesario tomar la ontologa participante de la

    librera con la que se puede intercambiar- se puede intuir que sta es la imagen de la

    ontologa de aplicacin en la librera de intercambio. El tipo de traduccin de

    ontologas de aplicacin que es factible podra determinarse y construirse a travs de la

    estructura de las ontologas participantes respecto de la librera.

  • 7/29/2019 TFM Trad

    64/160

  • 7/29/2019 TFM Trad

    65/160

  • 7/29/2019 TFM Trad

    66/160

  • 7/29/2019 TFM Trad

    67/160

    63

    contribuye a la dificultad en la identificacin y resolucin de la heterogeneidad

    semntica. Tambin es difcil desligar la heterogeneidad debida a las diferencias

    en las DBMS de aquellas que se obtienen de la heterogeneidad semntica.

    El esquema de base de datos consiste en un esquema de objetos y sus relaciones. Los

    objetos del esquema son normalmente definiciones de una clase (o descripciones de

    estructuras de datos, como por ejemplo, definiciones de tablas en un modelo relacional),

    y los tipos de entidad y de relacin en el modelo de entidad-relacin. La integracin de

    esquemas, que es seguramente el equivalente en el mundo de las bases de datos a la

    correspondencia entre ontologas, es un trabajo laborioso y manual. Como dicen los

    autores,

    El usuario es el responsable de entender las semnticas de los objetos en los

    esquemas de exportacin y de resolver las DBMS y la heterogeneidad

    semntica Un usuario de un sistema de bases de datos federado tiene que saber

    cmo encontrar los esquemas de exportacin apropiados que puedan proporcionar

    los datos necesarios y definir las correspondencias entre sus esquemas federados y

    los esquemas de exportacin. La falta de semnticas apropiadas de los

    componentes de los esquemas hacen esta tarea particularmente difcil.

    Otro mtodo que utiliza el administrador de la base de datos es escribir las reglas de

    correspondencia para generar el esquema de destino a partir del esquema de origen.

    Estas reglas especifican cmo cada objeto en el esquema de destino se deriva de objetos

    del esquema de origen. Se basan en las semejanzas sintcticas y estructurales del

    esquema. Los autores tambin estudiaron los tipos de relaciones que existen en los

    atributos del esquema de la base de datos y expusieron que,

    Dos atributos a1 y a2 deben relacionarse segn una de estas tres formas: a1

    es_esquivalente_a a2, a1 incluye a a2, a1est_desemparejado_de

    a2. Determinar dichas relaciones puede requerir mucho tiempo y ser tedioso

    Esta tarea no se puede automatizar, y por tanto dependemos de heursticas para

    identificar un nmero pequeo de parejas de atributos que pueden estar

    relacionados por medio de una relacin distinta de

    est_desemparejado_de.

  • 7/29/2019 TFM Trad

    68/160

  • 7/29/2019 TFM Trad

    69/160

  • 7/29/2019 TFM Trad

    70/160

  • 7/29/2019 TFM Trad

    71/160

  • 7/29/2019 TFM Trad

    72/160

  • 7/29/2019 TFM Trad

    73/160

  • 7/29/2019 TFM Trad

    74/160

  • 7/29/2019 TFM Trad

    75/160

    71

    Figura 9 Modelos de Madhavan et al. del dominio de un investigador.

    PROMPTDIFF En la Seccin 3.2 hablamos sobre las herramientas de Noy y Musen

    acerca del entorno de edicin de ontologas de Protg. En la Figura 9 vemos un

    ejemplo de una de su herramienta, PROMPTDIFF. Como podemos ver, hay dos

    versiones de una ontologa sobre vinos. La primera, en la parte izquierda de la figura

    (a), tiene una clase Vino con tres subclases, vino Rojo, vino Blanco y vino Tinto. La

    clase Vino tiene un campo productorcuyos valores son instancias de la clase Vinera.

    La clase vino Rojo tiene dos subclases, Chianti y Merlot. La segunda versin, en el

    medio de la Figura 9 (b) ha cambiado el nombre del cajn creadorporproducido_pory

    el nombre de la clase Vino Rosado por Vino Rosado; tambin hay un cajn de nivel de

    tanino en la clase Vino Rojo; yMerlottambin es una subclase de Vino Blanco. En la

    parte derecha de la Figura 9 (c), PROPTDIFF ha encontrado automticamente las

    diferencias en estas dos versiones de ontologas de vino. El nivel de correspondencia de

    la derecha de la columna indica si los sistemas de emparejamiento son suficientemente

    diferentes el uno del otro para llamar la atencin del usuario. Hay tres tipos de nivel de

    correspondencia definidos: sin cambio (nada ha cambiado), isomrfico (imgenes de

  • 7/29/2019 TFM Trad

    76/160

  • 7/29/2019 TFM Trad

    77/160

    73

    la regla heurstica de tener al menos cuatro caracteres unidos. El razonador de lgica

    descriptiva subyacente permite un anlisis formal de los dos esquemas y destaca que

    PROVEEDOR.PROVEEDOR y FBRICA.TRANSPORTISTA son sinnimos. Adems,

    los anlisis lingsticos que usan lxicos, como WordNet, establecen que

    PROVEEDOR.CAMIN es una subclase de FBRICA.CAMIN. El analista tiene un

    papel importante en el proceso porque necesita aprobar las correspondencias entre

    conceptos (las lneas de puntos en la figura). Una vez que se genera el esquema de

    articulacin, ConcepTool detecta conflictos u omisiones y pide al analista que los

    resuelva. Por ejemplo, la entidad COCHE en el esquema de articulacin solo contiene los

    atributos que son comunes a PROVEEDOR.COCHE y FBRICA.PASAJERO-

    VEHCULO.

    Figura 10 Articulacin de ConcepTool de dos modos independientes

    5 Pragmtica

    En las Secciones 3 y 4 hemos descrito y mostrado ejemplos de 35 trabajos

    relacionados con la correspondencia entre ontologas. En esta seccin profundizaremos

    en temas importantes que han surgido a la hora de examinar estos trabajos. Fuimos

  • 7/29/2019 TFM Trad

    78/160

  • 7/29/2019 TFM Trad

    79/160

  • 7/29/2019 TFM Trad

    80/160

  • 7/29/2019 TFM Trad

    81/160

  • 7/29/2019 TFM Trad

    82/160

  • 7/29/2019 TFM Trad

    83/160

  • 7/29/2019 TFM Trad

    84/160

    80

  • 7/29/2019 TFM Trad

    85/160

  • 7/29/2019 TFM Trad

    86/160

  • 7/29/2019 TFM Trad

    87/160

  • 7/29/2019 TFM Trad

    88/160

  • 7/29/2019 TFM Trad

    89/160

    85

    match(Defence,Defense) = 1.0 and match(Department,Ministry)=

    0.4. (pg. 25)

    Estructura por gneroComo se expuso en el apartado de contextualizacin, el texto analizado

    tiene la estructura propia de un artculo acadmico. Las partes que lo

    componen son:

    Ttulo: Ontology mapping: the state of the art. Es claro y preciso.Indica de manera breve el contenido sobre el que el texto se

    desarrolla.

    Abstract: aqu los autores realizan un resumen del contenido delescrito. Ofrecen informacin de lo que se va a encontrar en el texto:

    una recopilacin de trabajos relacionados con la realidad actual de la

    correspondencia entre ontologas y una definicin de este concepto

    propuesta por los autores:

    - Developing such mappings has been the focus of avariety of works originating from diverse communitiesover a number of years. In this article we comprehensively

    review and present these Works

    - We also provide insights on the pragmatics of ontologymapping and elaborate on a theoretical approach for

    defining ontology mapping.

    Cuerpo: Aqu los autores desarrollan la investigacin llevada acabo. La dividen en: Introduction; Survey style; Ontology

    mapping survey; Examples y Pragmatics.

    Conclusin: Por ltimo, los autores incluyen una conclusin sobreresumen la investigacin que han realizado y sus opiniones acerca

    del tema que se ha tratado.

  • 7/29/2019 TFM Trad

    90/160

    86

    5.1.2. Anlisis del lenguaje cientfico-tcnicoAl ser un texto de contenido cientfico-tcnico, podemos encontrar en l

    muchas de las caractersticas a las que hicimos referencia en el captulo de

    contextualizacin. Abunda el uso de tecnicismos, vocabulario especfico o la

    utilizacin de frmulas y lenguaje matemtico e informtico. A continuacin

    los rasgos que encontramos en el texto original.

    ConcrecinLos autores tratan de utilizar el trmino ms correcto en cada idea que

    exponen. El escrito, dada su naturaleza, implica cierta complejidad en las

    ideas y, por tanto, es de difcil comprensin. Por tanto, es fundamental el

    uso de una terminologa precisa. Adems, nos encontramos con trminos

    que tienen significados distintos si se utilizan en el mbito cientfico-

    tcnico. Se muestran a continuacin algunos de estos ejemplos:

    - Fusion: los autores utilizan este trmino refirindose a la unin delas ontologas para crear una nueva.

    - Mapping: este trmino genera varias dudas. No encontramos enespaol una traduccin exacta. Sin embargo, la mayora de los textos

    y documentos que tratan sobre este tema escritos en nuestro idioma, lo

    traducen como correspondencia. La creacin del corpus lxico virtual

    (anexo 1) ha sido de gran utilidad a la hora de analizar este tipo de

    trminos.

    - Survey: ms que en el sentido de cuestionario, los autores la utilizanpara hablar del estudio que han llevado a cabo.

    - Plugin: En terminologa informtica, este trmino se refiere a unaextensin o complemento que se instala en un programa para poder

    realizar nuevas funciones. No se traduce, por tanto, como enchufe o

    conector.

  • 7/29/2019 TFM Trad

    91/160

  • 7/29/2019 TFM Trad

    92/160

    88

    esta traduccin. El empleo de tecnicismos y trminos relacionados con aplicaciones

    informticas y referentes a ontologas es comn a lo largo del escrito, de ah la

    importancia de haber investigado antes de comenzar la traduccin.

    Aspectos temticosEn este apartado se analizarn algunos conceptos que trata el texto referentes a

    las ontologas y las aplicaciones informticas utilizadas para las relaciones de

    correspondencia. En varias ocasiones nos encontramos con el problema de obtener

    una traduccin exacta. Esto se debe a que se trata de investigaciones recientes que

    se encuentran en fase de desarrollo y an no existen estndares para muchos de los

    conceptos que aparecen en el escrito.

    Web Semntica:A finales de los 90 aparece por primera vez el concepto de Web Semntica.

    La World Wide Web (www) ha sufrido una importante evolucin a lo largo de

    los ltimos veinte aos. La bsqueda de informacin se convierte en uno de los

    mayores retos en la informtica actual. La Web Semntica es una corriente cuyo

    objetivo principal es lograr que las mquinas puedan entender y, por tanto,

    utilizar lo que la web contiene. Para conseguir esta meta, la Web Semntica

    propone describir los recursos de la web con representaciones que sean capaces

    de procesarlas no slo las personas, sino tambin programas que puedan asistir,

    representar, o reemplazar a las personas en tareas rutinarias o inabarcables para

    el ser humano. Las tecnologas de la web semntica buscan desarrollar una web

    ms cohesionada, donde sea an ms fcil localizar, compartir e integrar

    informacin y servicios, para sacar un partido todava mayor de los recursos

    disponibles en la web.

    XMLXML es un metalenguaje, el lenguaje de creacin de los lenguajes actuales

    de la Web. Gracias a XML podemos generar vocabularios especializados a

    cualquier nivel temtico. En lo que a las ontologas concierne, XML es utilizado

    como un lenguaje que nos permite crear vocabularios sobre un tema, es decir,

    nos sirve para la creacin del conocimiento.

  • 7/29/2019 TFM Trad

    93/160

    89

    RDF (Resource Description Framework-Marco de Descripcin deRecursos)

    El Marco de Descripcin de Recursos es uno de los pilares principales, junto

    con el lenguaje XML, de la Web Semntica. Se trata de un lenguaje general de

    representacin de informacin. Es lo que denominamos un lenguaje de

    metadatos.

    ProtgProtg es un programa de cdigo abierto, cuya funcin es la de crear, editar

    y mantener ontologas. Es capaz de generar de manera automtica el cdigo

    fuente de cualquier ontologa en formato RDF/OWL. Los autores hacen

    referencia a l en varias ocasiones dada la importancia que ha tenido este

    programa en el desarrollo de ontologas.

    Correspondencia entre ontologasEs el tema principal del artculo. Como ya se coment anteriormente, la

    correspondencia se utiliza para establecer relaciones entre los elementos de una

    o ms ontologas, para establecer conexiones, especializaciones,generalizaciones, etc. De esta manera se permite la reutilizacin de la

    informacin de una ontologa en otra distinta. Los autores examinan otras

    investigaciones y dan una definicin de relaciones de correspondencia.

    - We understand ontology mapping as the task of relating the vocabulary oftwo ontologies that share the same domain of discourse in such a way that

    the mathematical structure of ontological signatures and their intended

    interpretations, as specified by the ontological axioms, are respected.

    Entendemos por correspondencia entre ontologas la tarea de relacionar

    el vocabulario de dos ontologas que comparten el mismo dominio del

    discurso de tal manera que se mantienen la estructura matemtica de las

    marcas ontolgicas y las interpretaciones que se desee, como las

    especificadas en los axiomas ontolgicos.

  • 7/29/2019 TFM Trad

    94/160

    90

    Federated database systemsSistemas de bases de datos federadasEste trmino se defini en 1990 para representar las tcnicas utilizadas para

    proveer de un sistema integrado de acceso a un conjunto distribuido y

    heterogneo de bases de datos autnomas. Tienen la funcin de compartir slo la

    informacin que quieran las entidades participantes.

    Machine LearningAprendizaje automticoSe trata de una rama de la Inteligencia Artificial cuyo principal objetivo es

    desarrollar tcnicas que permitan a los ordenadores aprender. Una de sus

    aplicaciones ms importantes es la de los motores de bsqueda. En el campo de

    las ontologas, el aprendizaje automtico cobra especial importancia a la hora deelaborar y crear el conocimiento.

    Populated ontologiesOntologas pobladasCuando el autor habla de ontologas pobladas hace referencia a ontologas

    que estn definidas con todas sus propiedades y componentes (instancias y

    tipos). Por el contrario, una ontologa sin poblar nicamente tiene tipos, carece

    de instancias.

    - Populated ontologies Central to several approaches to ontology mappingis the concept of a populated ontology. In this case, classes of an

    ontological signature come equipped with their respective instances. A

    populated ontology can be characterized by augmenting the signature with

    a classification relation that defines the classification of instances to the

    concept symbols in the signature. This brings forth issues about the

    correctness of populated ontologies, namely if the classification ofinstances respects the structure of the ontological signature.

    El concepto de ontologas pobladas es fundamental para los distintos

    mtodos de la correspondencia entre ontologas. En este caso, las clases

    de una marca ontolgica aparecen con sus respectivas instancias. Una

    ontologa poblada se caracteriza por incrementar la marca mediante una

    relacin de clasificacin que define la clasificacin de instancias como los

    smbolos de concepto de la marca. Esto implica cuatro problemas acerca

  • 7/29/2019 TFM Trad

    95/160

  • 7/29/2019 TFM Trad

    96/160

    92

    ONION (ONtology compositION) Sistema ONION de composicin deOntologas.

    Gracias a este sistema se puede crear una biblioteca de ontologas

    provenientes de diferentes fuentes y resolver el problema de lasheterogeneidades en las ontologas. Las representaciones del conocimiento se

    realizan a travs de enlaces a una biblioteca de ontologas parciales e

    independientes.

    - ONION. () they use linguistic features to inform their heuristics in orderto define articulation rules for mapping. Their linguistic matcher looks at all

    possible pairs of terms from the two ontologies and assigns a similarity

    score to each pair.

    ONION. () utilizan propiedades lingsticas para mostrar sus heursticas

    con el fin de definir reglas de articulacin para las correspondencias. Su

    emparejador lingstico comprueba todas las parejas de trminos posibles

    de las dos ontologas y asigna una puntuacin similar a cada pareja.

    Ontology alignment, articulation and merging Alineamiento,articulacin y unin de ontologas.

    Muy relacionados con las relaciones de correspondencia entre ontologas

    aparecen los conceptos de alineamiento, articulacin y unin.

    El problema del alineamiento de ontologas consiste en que dadas dos

    ontologas, se trata de encontrar las relaciones de correspondencia existentes

    entre ellas.

    - We will call ontology alignment the task of establishing a collection ofbinary relations between the vocabularies of two ontologies. () we may

    describe the alignment of two ontologies O1 and O2 by means of a pair

    of ontology mappings from an intermediate source ontology O0.

    Llamamos alineamiento de ontologas a la tarea de establecer un

    conjunto de relaciones binarias entre los vocabularios de dos ontologas.

    () podemos describir el alineamiento de dos ontologas O1 y O2

  • 7/29/2019 TFM Trad

    97/160

    93

    mediante un par de relaciones de correspondencia a travs de una

    ontologa original intermediaria O0

    Las articulaciones, por otra parte, son las reglas que proporcionan eslabones a

    travs de dominios .

    - We shall call the intermediate ontology O0, together with its mappings,the articulation of two ontologies.

    Llamamos articulacin de dos ontologas a la ontologa intermediaria

    O0, junto con sus correspondencias.

    Por ltimo, la fusin de ontologas consiste en la elaboracin de una

    ontologa a partir de otras existentes sobre un mismo dominio, con el fin de

    reutilizarlas y obtener una recuperacin y acceso a la informacin ms efectiva.

    - The idea is to construct the minimal union of vocabularies S1 and S2 andaxioms A1 and A2 that respects the articulation, that is defined modulo the

    articulation.

    La idea es construir la unin mnima de los vocabularios S1 y S2 y los

    axiomas A1 y A2 que mantengan la articulacin definida, que se define comomdulo de la articulacin.

    Metodologa PROMPTSe trata de un algoritmo que proporciona una aproximacin semiautomtica

    a la fusin y alineamiento de ontologas.

    - PROMPT is a (semi-)automatic tool and provides guidance for the engineerthroughout the steps performed during merging or alignment.

    PROMPT es una herramienta semiautomtica y proporciona al ingeniero

    una gua a travs de los pasos que se han seguido durante la unin o el

    alineamiento.

    Aspectos lingsticosAnalizamos ahora ciertos elementos lingsticos que aparecen en la traduccin:

  • 7/29/2019 TFM Trad

    98/160

  • 7/29/2019 TFM Trad

    99/160

  • 7/29/2019 TFM Trad

    100/160

    96

    - This is essential when mapping involves a number of ontologiesoriginating from different communities: Esto es fundamental cuando la

    correspondencia implica un nmero de ontologas se originan en diferentes

    comunidades.

    - The mapping phase: la fase de relacin.- Ontology merging: fusin de ontologas. Empleo de sinnimos:

    El uso de sinnimos en los textos cientfico-tcnicos se debe evitar,

    especialmente a la hora de tratar tecnicismos. La terminologa especfica de estetipo de escritos hace que sea ms difcil emplear trminos que se consideren

    sinnimos, ya que pueden llegar a crear confusin o alejarse de su idea principal.

    Por tanto, en ocasiones encontramos numerosas repeticiones y reiteraciones a lo

    largo del texto, lo cual hace que pierda algo de esttica (aunque esto no es

    precisamente relevante en un texto cientfico-tcnico).

    - Among the most popular techniques we encountered is that of usingheuristics. It is not a surprise to everyone who has attempted to do ontologymappingheuristics are cheap to develop and easy to deploy, and support

    automation. However, the main problem with heuristics is that they are

    easily defeasible. Even well-crafted heuristics for a particular case can fail in

    similar situations

    - Their framework enables mapping between models in differentrepresentation languages without first translating the models into a common

    language, the authors claim. The framework uses a helper model when it is

    not possible to map directly between a pair of models, and it also enables

    representing mappings that are either incomplete or involve loose

    information. The models represented in their framework are representations

    of a domain in a formal language().

  • 7/29/2019 TFM Trad

    101/160

  • 7/29/2019 TFM Trad

    102/160

  • 7/29/2019 TFM Trad

    103/160

  • 7/29/2019 TFM Trad

    104/160

    100

    Desde una perspectiva ms filosfica, Priss (2001) investiga la manera de

    resolver los problemas que aparecen en el alineamiento y en la unin de

    ontologas utilizando el mtodo de Peircean, que se basa en las tradas de

    signos.

    - A populated ontology can be characterized by augmenting the signature with aclassification relation that defines the classification of instances to the concept

    symbols in the signature.

    Una ontologa poblada se caracteriza por incrementar la marca mediante

    una relacin de clasificacin que define la clasificacin de instancias como

    los smbolos de concepto de la marca.

    Oraciones subordinadas- ()consiste en tomar un mtodo Bayesiano que considere que la mejor

    relacin de correspondencia sea () (pg. 12).

    - El tipo de traduccin de ontologas de aplicacin que es factible podradeterminarse(pg. 19).

    Elementos conectores- Sin embargo, el paso inicial se puede saltar si hay instancias de intercambio

    clasificadas en ambas ontologas. (pg. 8).

    - Aunque Priss no habla de la parte matemtica ni expone ninguna metodologani implementacin informtica (pg. 18.)

    - Esta tarea no se puede automatizar y, por tanto, dependemos de heursticaspara identificar un nmero (pg. 21.)

    - No entraremos en detalle a la hora de describir los pasos que se han seguido ala hora de generar el esquema de articulacin, pero profundizamos algunos

    pasos indicativos (pg. 25).

  • 7/29/2019 TFM Trad

    105/160

    101

    Falsos amigos (false friends)Los falsos amigos son trminos de lenguas diferentes, de origen idntico, de

    forma semejante, que entre las distintas lenguas tiene un significado diferente. Es

    importante conocerlos y tener especial cuidado a la hora de su traduccin, pues

    aunque por su morfologa pueda parecer que estamos hablando del mismo

    significado, ste no es el mismo es una lengua u otra.

    En el texto encontramos algunos, como por ejemplo:

    - Constructs: formas (pg. 4).

    -

    Support: apoyar, permitir (pg. 5)

    - Approach: enfoque/mtodo (pg. 5).- Practitioner: profesional (pg. 20).- Satisfy: cumplir (pg. 23).- Populate: poblar (pg. 23).- Supporters: seguidores (pg. 26).- Former: primero (pg. 27).- Actual: real (pg. 28).- Target: objetivo (pg 28).

    Falta de equivalencia de nocionesA la hora de traducir un texto puede suceder que una nocin no est

    perfectamente definida o que slo lo est dentro de lmites que pueden diferir segn

    la lengua considerada. Por tanto, se debe buscar una aproximacin satisfactoria y

    que no se desve de la idea original que el autor pretende transmitir.

    En el ttulo del artculo que se ha traducido aparece el trmino mapping. A la

    hora de buscar una traduccin, nos encontramos con el problema de que no existe

    una trmino en nuestro idioma que lo identifique de manera exacta. Por ello se ha

  • 7/29/2019 TFM Trad

    106/160

    102

    recurrido a la creacin de un corpus lxico virtual, incluyendo documentos

    cientficos que corresponden a tesis, artculos encontrados en bases de datos

    cientficas, etc., donde se encuentra la terminologa ms adecuada para traducir de la

    forma ms fiel posible este trmino. Finalmente, se ha optado por traducirlo como

    relacin de correspondencia.

    Estructura de la lenguaPara el traductor no es suficiente tener un conocimiento del vocabulario tcnico de

    una lengua. Adems, es indispensable que conozca perfectamente las reglas que rigen

    las asociaciones de trminos, tanto en la lengua original como en la terminal.

    Verbos: es necesario que el traductor conozca la naturaleza de las formas verbales.En un texto tcnico, el uso de las primeras y segundas personas de los verbos no es

    comn, sobre todo en singular. En el texto aparece, por ejemplo, la forma shall, que

    no se debe traducir por el futuro (para eso se utiliza la forma will), sino por deber.

    - We shall adopt an algebraic approach and present ontologies as logicaltheories. (pg. 3).

    Debemos considerar un mtodo algebraico y mostrar las ontologas como

    teoras lgicas.

    Adjetivos: por definicin, un adjetivo no se emplea aisladamente. Suelen iracompaando a un nombre al que modifica. Sin embargo, esta modificacin puede

    hacerse a travs de otros sustantivos en aposicin.

    - hierarchical ontological relations: relaciones ontolgicas de jerarqua. Preposiciones: cada lengua ha desarrollado de manera independiente su sistema de

    preposiciones, y no hay correspondencia constante entre preposiciones consideradas

    equivalentes en la mayora de los casos. Por ejemplo:

    - Provided with:provisto de.- Under these conditions: en estas condiciones (pg. 26).- Prior to: antes de. (pg 27).

  • 7/29/2019 TFM Trad

    107/160

  • 7/29/2019 TFM Trad

    108/160

  • 7/29/2019 TFM Trad

    109/160

    105

    estructura (ontolgica) -que describe el vocabulario- yA es un conjunto de

    axiomas (ontolgicos) -que especifican la interpretacin del vocabulario

    deseado en algn dominio. (pg. 3).

    - El siguiente paso en su proceso es el mecanismo de correspondenciaprincipalel mtodo IF-Map (pg. 10)

    Definiciones:- () un valor semntico se define como una parte de datos junto con su

    contenido asociado (pg. 15).

    -

    () la definicin de puente semntico. Es un mdulo que establececorrespondencias entre entidades de la ontologa de origen y de destino

    basado en las semejanzas que existen entre ellas. (pg. 6).

    Abreviaturas y siglasLas abreviaturas encontradas en los textos cientficos y tcnicos pueden ser de

    naturaleza muy diferente. Podemos hablar, en primero lugar, de las abreviaturas de

    trminos pertenecientes al vocabulario comn, conocidas en general. En el texto nosencontramos con la abreviatura i.e. que se traduce de la siguiente manera:

    - un criterio de exactitud comn para los sistemas de traduccin es queconservan las semnticas. Por ejemplo, el significado de la fuente de origen

    y la traduccin debe ser el mismo(pg. 13).

    Encontramos tambin las siglas gpa (grade point average), que traducimos como

    media (promedio de notas). (pg. 23).

    Por ltimo, debemos prestar atencin a los acrnimos que aparecen en el texto. No

    se recomienda su traduccin literal. Un claro ejemplo lo encontramos en la pgina 3,

    cuando se habla de un conjunto parcialmente ordenado (poset), que en la lengua

    original es apartial ordered set:

    - Por ejemplo, podra ser una jerarqua de conceptos o de clases de smbolosque se presenta como un conjunto parcialmente ordenado (poset), junto con

  • 7/29/2019 TFM Trad

    110/160

  • 7/29/2019 TFM Trad

    111/160

    107

    6. ConclusionesLa elaboracin de este trabajado ha versado sobre la traduccin y el anlisis de un

    artculo acadmico de temtica cientfico-tcnica. Dada su naturaleza, ha sido necesario

    estudiar y conocer las caractersticas de ambos tipos de lenguaje. La eleccin delartculo estaba motivada por la asiduidad y relacin que mantengo con el campo en el

    que se trabajan las aplicaciones sobre ontologas: la informtica. Es un tema que est en

    continuo desarrollo y en el que aparecen una gran cantidad de estudios e investigaciones

    desde distintas partes del mundo, siendo la lengua inglesa la que ms documentos

    aporta en este mbito.

    El texto escogido para su traduccin es un artculo de los investigadores Yannis

    Kalfoglou, doctor por la Open University y Marco Schorlemmer, doctor por la

    Universidad de Edimburgo. El artculo fue publicado en 2003 en la revista The

    Knowledge Engineering Review, vol. 18:1, 1-31, en la Universidad de Cambridge.

    El trabajo ha constado de tres partes fundamentales:

    Contextualizacin: en esta seccin se han descrito los rasgos acadmicos ycientfico-tcnicos que caracterizan al lenguaje que se utiliza en el texto que se ha

    traducido. Adems, se ha establecido el marco temtico en el que se encuentra: el

    estado de la cuestin de las relaciones de correspondencia entre ontologas.

    Traduccin: en este apartado se ofrece la traduccin del artculo escogido. Lascaractersticas descritas en la seccin anterior y su anlisis han ayudado a mejorar el

    proceso de traduccin con ms garantas. Se ha intentado respetar al mximo las

    caractersticas del texto meta sin perder la idea principal del texto original. En todo

    momento se ha tenido en cuenta el tipo de lenguaje utilizado en el documento origen

    y se ha tratado de adaptar al texto meta con las peculiaridades que lo caracterizan.

    Adems, una profunda investigacin en el campo temtico que trata el texto ha sido

    fundamental para realizar una traduccin coherente con la idea principal del escrito.

    Anlisis: En este captulo se han estudiado y ejemplificado las caractersticastextuales tanto del texto original como del texto meta. Se han expuesto los rasgos

    que caracterizan ambos tipos de lenguajes y las diferencias que se han podido

    apreciar en la traduccin. De esta manera se han puesto de manifiesto los elementos

  • 7/29/2019 TFM Trad

    112/160

  • 7/29/2019 TFM Trad

    113/160

  • 7/29/2019 TFM Trad

    114/160

  • 7/29/2019 TFM Trad

    115/160

    111

    Recursos online

    http://www.linguee.es/espanol-ingles http://www.wordreference.com/es/ http://www.info.sciverse.com/scopus/ http://dialnet.unirioja.es/ http://www.antlab.sci.waseda.ac.jp/software.html

    http://www.semanticweb.org/ http://www.ontology.org/ http://www.kalfoglou.info/ http://www.arrakis.es/~cule/art.htm http://www2.uah.es/jmc/ http://www.elcastellano.org/gramatic.html http://www.iiia.csic.es/~marco/ http://citeseerx.ist.psu.edu/stats/articles?y=2010 http://roble.pntic.mec.es/~msanto1/ortografia/

    http://printfu.org/que+es+un+texto+cientifico

    http://www.info.sciverse.com/scopus/http://science.thomsonreuters.com/es/productos/wok/http://journals.cambridge.org/action/displayJournal?jid=KERhttp://www.uco.es/webuco/buc/

    http://www.linguee.es/espanol-ingleshttp://www.wordreference.com/es/http://www.info.sciverse.com/scopus/http://dialnet.unirioja.es/http://www.antlab.sci.waseda.ac.jp/software.htmlhttp://www.semanticweb.org/http://www.ontology.org/http://www.kalfoglou.info/http://www.arrakis.es/~cule/art.htmhttp://www2.uah.es/jmc/http://www.elcastellano.org/gramatic.htmlhttp://www.iiia.csic.es/~marco/http://citeseerx.ist.psu.edu/stats/articles?y=2010http://roble.pntic.mec.es/~msanto1/ortografia/http://printfu.org/que+es+un+texto+cientificohttp://printfu.org/que+es+un+texto+cientificohttp://www.info.sciverse.com/scopus/http://www.info.sciverse.com/scopus/http://science.thomsonreuters.com/es/productos/wok/http://science.thomsonreuters.com/es/productos/wok/http://journals.cambridge.org/action/displayJournal?jid=KERhttp://journals.cambridge.org/action/displayJournal?jid=KERhttp://www.uco.es/webuco/buc/http://www.uco.es/webuco/buc/http://www.uco.es/webuco/buc/http://journals.cambridge.org/action/displayJournal?jid=KERhttp://science.thomsonreuters.com/es/productos/wok/http://www.info.sciverse.com/scopus/http://printfu.org/que+es+un+texto+cientificohttp://roble.pntic.mec.es/~msanto1/ortografia/http://citeseerx.ist.psu.edu/stats/articles?y=2010http://www.iiia.csic.es/~marco/http://www.elcastellano.org/gramatic.htmlhttp://www2.uah.es/jmc/http://www.arrakis.es/~cule/art.htmhttp://www.kalfoglou.info/http://www.ontology.org/http://www.semanticweb.org/http://www.antlab.sci.waseda.ac.jp/software.htmlhttp://dialnet.unirioja.es/http://www.info.sciverse.com/scopus/http://www.wordreference.com/es/http://www.linguee.es/espanol-ingles
  • 7/29/2019 TFM Trad

    116/160

    112

  • 7/29/2019 TFM Trad

    117/160

    113

    ANEXO 1

    Creacin del corpus virtual lxico

    La traduccin de los textos tcnicos puede resultar una tarea complicada, sobre todosi se desconoce el tema que se est tratando. Las industrias y el desarrollo de las

    ciencias tcnicas hacen que salgan a la luz nuevas investigaciones. La gran mayora de

    los escritos de este tipo estn en lengua inglesa. Por tanto, todo aquel que est

    interesado en conocer trabajos un campo en concreto ha de estar familiarizado con la

    lengua origen del texto, o bien encontrar una traduccin fiel del escrito.

    Es por esto que la labor de un traductor se convierte en algo fundamental para los

    profesionales que necesiten acceder a diversas investigaciones, trabajos, documentos,

    etc. Sin embargo, supone una dificultad para el traductor el rpido avance de las

    investigaciones de perfil cientfico-tcnico. Aparecen nuevos trminos y conceptos con

    los que debe tratar. Por tanto, es importante que tenga una buena fuente de recursos para

    conseguir una labor traductolgica fiable. Estos recursos pueden ser muy diversos: tener

    contacto directo con la fuente de origen del texto, estar especializado en la materia que

    se trata o conocer herramientas informticas que ayuden a realizar esta labor.

    El texto que se ha traducido en este trabajo es un artculo de lenguaje cientfico-

    tcnico, y trata sobre un tema que ha tenido una evolucin reciente: la correspondencia

    entre ontologas. A la hora de traducir el escrito se han encontrado varias dificultades en

    referencia a la terminologa. Aparecen una gran variedad de tecnicismos y trminos

    especializados cuya traduccin a nuestra lengua puede ser un problema. Por ello, la

    creacin de un corpus virtual ha sido de gran ayuda para realizar la labor de traduccin.

    Un corpus consiste en una coleccin de textos (artculos, tesis doctorales,documentos oficiales) relacionados con un tema especfico.

    A collection of texts assumed to be representative of a given language,

    dialect, or other subset of a language, to be used for linguistic analysis

    (Francis, 1982)

    Un corpus virtual es un corpus creado exclusivamente a travs de documentos en

    lnea con el fin de llevar a cabo una traduccin especfica. Su objetivo principal esconstruir una fuente fiable de manera rpida y con coste mnimo, gracias a la

  • 7/29/2019 TFM Trad

    118/160

  • 7/29/2019 TFM Trad

    119/160

    115

    tipo de formato definido, en ingls y que trate de un tema especfico, podramos realizar

    la consulta definindolo estos parmetros.

    Figura 1. Bsqueda en Google.

    Tambin se puede acceder a documentos a travs de bases de datos virtuales en el

    idioma que necesitemos (en este caso, ingls y espaol). En estas bases de datos

    podemos encontrar una gran variedad de documentos, en funcin del tema que nos

    interese. Por ejemplo, para este trabajo, algunas de las bases de datos de donde se ha

    podido obtener bastante informacin son SCOPUS, ISI, DIALNET, Google

    Acadmico Podemos encontrar revistas cientficas, libros, artculos, captulos, tesisdoctorales digitalizadas, relacionados con las ontologas, y muchos de ellos a texto

    completo. Por ejemplo, una bsqueda desde la Web of Science es la siguiente:

  • 7/29/2019 TFM Trad

    120/160

    116

    Figura 2. Bsqueda en Web of Science

    De esta manera conseguimos acceso a la bibliografa que tenga como palabras clave

    Ontology mapping, que es el tema principal del texto traducido.

  • 7/29/2019 TFM Trad

    121/160

    117

    Figura 4. Bsqueda en la base de datos Journals Cambridge

  • 7/29/2019 TFM Trad

    122/160

  • 7/29/2019 TFM Trad

    123/160

  • 7/29/2019 TFM Trad

    124/160

    120

    Figura 7. El entorno AntConc.

    Bsqueda del trminoUna vez que tenemos todos los documentos cargados en el entorno de AntConc,

    podemos buscar el trmino concreto y ver el nmero de veces que se nombra, los

    documentos en los que aparece, etc. De esta manera nos aseguraremos de que

    utilizamos el trmino ms extendido y vemos si es el que mejor se adapta a nuestra

    traduccin.

  • 7/29/2019 TFM Trad

    125/160

    121

    Figura 9. Bsqueda del trmino.

  • 7/29/2019 TFM Trad

    126/160

    122

  • 7/29/2019 TFM Trad

    127/160

    123

    ANEXO 2

    Ontology Mapping: the state of the art

  • 7/29/2019 TFM Trad

    128/160

    124

  • 7/29/2019 TFM Trad

    129/160

    Ontology mapping: the state of the art*

    YA N N I S K A L F O G L O U 1 a n d M A R C O S C H O R L E M M E R 2 , 3

    1Advanced Knowledge Technologies, Department of Electronics and Computer Science, University of Southampton, UK; e-

    mail: [email protected] Knowledge Technologies, Centre for Intelligent Systems and their Applications, School of Informatics, The

    University of Edinburgh, UK; e-mail: [email protected] Superior de Tecnologies dInformaci i Comunicaci, Universitat Internacional de Catalunya, Spain

    Abstract

    Ontology mapping is seen as a solution provider in todays landscape of ontology research. As the

    number of ontologies that are made publicly available and accessible on the Web increases steadily, so

    does the need for applications to use them. A single ontology is no longer enough to support the tasks

    envisaged by a distributed environment like the Semantic Web. Multiple ontologies need to be accessed

    from several applications. Mapping could provide a common layer from which several ontologies

    could be accessed and hence could exchange information in semantically sound manners. Developing

    such mappings has been the focus of a variety of works originating from diverse communities over a

    number of years. In this article we comprehensively review and present these works. We also provide

    insights on the pragmatics of ontology mapping and elaborate on a theoretical approach for defining

    ontology mapping.

    1 Introduction

    Nowadays, the interested practitioner1 in ontology mapping is often faced with a knotty problem: there

    is an enormous amount of diverse work originating from different communities who claim some sort

    of relevance to ontology mapping. For example, terms and works encountered in the literature which

    claimed to be relevant include alignment, merging, articulation,fusion, integration, morphism and so

    on. Given this diversity, it is difficult to identify the problem areas and comprehend solutions provided.

    Part of the problem is the lack of a comprehensive survey, a standard terminology, hidden assumptions

    or undisclosed technical details, and the dearth of evaluation metrics.

    This article aims to fill in some of these gaps, primarily the first one: lack of a comprehensive survey.

    We scrutinised the literature and critically reviewed works originating from a variety of fields to

    provide a comprehensive overview of ontology mapping work to date. We also worked on the

    theoretical grounds for defining ontology mapping, which could act as the glue for better

    understanding similarities and pinpointing differences in the works reported.

    * This work is supported under the Advanced Knowledge Technologies (AKT) Interdisciplinary Research

    Collaboration (IRC), which is sponsored by the UK Engineering and Physical Sciences Research Council under

    grant number GR/N15764/01. The AKT IRC comprises the Universities of Aberdeen, Edinburgh, Sheffield and

    Southampton and the Open University. The views and conclusions contained herein are those of the authors and

    should not be interpreted as necessarily representing official policies or endorsements, either expressed or implied,

    of the EPSRC or any other member of the AKT IRC.1 We use a broad definition of the term, and when we refer to practitioners throughout the article, these could range

    from academics either students or members of staff to industrialists from software engineers to knowledge

    engineers or simply interested end-users.

    The Knowledge Engineering Review, Vol. 18:1, 131. 2003, Cambridge University Press

    DOI: 10.1017/S0269888903000651 Printed in the United Kingdom

  • 7/29/2019 TFM Trad

    130/160

    The overall goal of this paper is not only to give readers a comprehensive overview of ontology-

    mapping works to date, but also to provide necessary insights for the practical understanding of the

    issues involved. As such, we have been critiquing while reporting these works, and not just been

    descriptive. At the same time, though, we objectively review the works with emphasis given on a

    practitioners interests, and try to provide answers to the following questions:

    What are the lessons learnt from this work?

    How easily can this work be replicated in similar domains?

    We start by elaborating on the survey style we adopt in Section 2, where we also provide a theoretical

    definition of the term ontology mapping. As this article is mostly a descriptive exercise and not a

    normative one, we do not claim that this is the only one. We include it here for the sake of

    comprehending the issues involved in mapping, especially when these originate from different

    communities. We continue with the main section of the article, the actual survey, in Section 3, which

    also includes illustrative examples of ontology mapping usage. In Section 5 we discuss the pragmatics

    for ontology mapping, and we conclude the article in Section 6.

    2 Survey style

    Current practice in ontology mapping entails a large number offields ranging from machine learning,

    concept