148
INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN “BÚSQUEDA Y PONDERACIÓN DE INFORMACIÓN CONTENIDA EN BASES DE DATOS ESPACIALES, UTILIZANDO JERARQUÍAS” TESIS QUE PARA OBTENER EL GRADO DE MAESTRO EN CIENCIAS DE LA COMPUTACIÓN PRESENTA: GERARDO SARABIA LÓPEZ DIRECTOR DE TESIS: DR. SERGUEI LEVACHKINE México D. F. Diciembre, 2008

TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

  • Upload
    vodung

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

INSTITUTO POLITÉCNICO NACIONAL

CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN

“BÚSQUEDA Y PONDERACIÓN DE INFORMACIÓN CONTENIDA EN BASES DE DATOS ESPACIALES,

UTILIZANDO JERARQUÍAS”

TESIS

QUE PARA OBTENER EL GRADO DE

MAESTRO EN CIENCIAS DE LA COMPUTACIÓN

PRESENTA:

GERARDO SARABIA LÓPEZ

DIRECTOR DE TESIS:

DR. SERGUEI LEVACHKINE

México D. F. Diciembre, 2008

Page 2: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

Page 3: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

Page 4: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

I  

RESUMEN En este trabajo se presenta la metodología para la elaboración de un sistema encargado de

recuperar información contenida en bases de datos heterogéneas, utilizando jerarquías. La

recuperación de la información espacial se hace a través consultas procesadas en forma

“inteligente”, mediante inferencias automáticas. El enfoque de los sistemas actuales

dedicados a la búsqueda de información, va dirigido a evitar respuestas vacías y errores que

se producen al no encontrar coincidencias exactas en las bases de datos. En este sentido,

uno de los puntos importantes en esta investigación es proporcionar respuestas aproximadas

o similares, evitando respuestas nulas. Por ello empleamos jerarquías (caso particular de las

ontologías), ya que han sido tomadas como una alternativa que permite superar a otros

métodos de recuperación en precisión y relevancia.

Las etapas principales propuestas en esta investigación son: La etapa de Análisis de Datos,

Análisis Semántico, Procesamiento de la Información, y la Ponderación de Resultados. El

Análisis de Datos tiene como propósito verificar si la información cumple con las

condiciones necesarias para trabajar con jerarquías; el caso de estudio está basado en el uso

del Suelo y Vegetación en la República Mexicana y la información es obtenida de los

diccionarios de datos geográficos del Instituto Nacional de Estadística Geográfica e

Informática (INEGI) . En el Análisis Semántico se tienen las jerarquías que describen a los

diferentes tipos de vegetación, se emplea la teoría de confusión para medir la distancia

semántica existente entre conceptos propios de las jerarquías, así obtenemos las tablas de

similitud. El Procesamiento de la Información consiste en la manipulación de la base de

datos, además es donde se hacen peticiones de consulta y se ligan los resultados obtenidos

del Análisis Semántico. La Ponderación de los Resultados es controlada a través de la

confusión y se logra usando un razonamiento automático monotónico.

La recuperación de información está basada en el uso de Jena para acceder a las jerarquías,

por medio de consultas en SPARQL. La tendencia es dirigirnos hacia un marco conceptual

entendible para el usuario. En este sentido, se tiene una metodología dirigida a compartir la

información geoespacial.

Page 5: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

II  

ABSTRACT This thesis presents the methodology for developing a system to retrieve information in

heterogeneous databases, using hierarchies. The recovery of spatial information is

processed through queries in an intelligent manner, through automatic inferences. The

focus of current systems used to seek out information, is aimed at avoiding answers empty

and errors that occur when you do not find exact matches in databases. In this sense, one of

the important points in this research is to provide approximate or similar results, avoiding

answers invalid. To do this we employ hierarchies (particular case of ontologies), which

have already been taken as an alternative that allows other methods to overcome recovery

accuracy and relevance.

The main steps proposed in this research are: Step Data Analysis, Semantic Analysis,

Information Processing, and the Ranking Results. The Data Analysis aims to verify

whether the information meets the necessary conditions for working with hierarchies, our

case study is based on the use of Soil and Vegetation in Mexico and the information is

obtained from the dictionaries of geographic data National Geographic Institute of Statistics

and Informatics (INEGI). In the Semantic Analysis the hierarchies describe the several

types of vegetation, uses the theory of confusion to measure the distance between semantic

concepts of hierarchy, so we get the similarity tables. The Information Processing involves

the manipulation of the database, which is also made requests for queries and binds the

results of the Semantic Analysis. Ranking of the results is controlled through the confusion

and is accomplished using an automated reasoning monotonous.

Information retrieval is based on the use of Jena to access the hierarchies, through queries

in SPARQL. The tendency is to go towards a conceptual framework understandable to the

user. In this sense, we have a methodology to share geospatial information.

Page 6: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

III  

AGRADECIMIENTOS Dedico y agradezco enormemente a mi familia. Gracias mamá por estar en los

momentos más importantes de mi vida, por tu apoyo incondicional en los momento más difíciles, por compartir cada una de las metas cumplidas.

Gracias papá por ser el soporte, el amigo y la fuerza para seguir siempre adelante. Gracias a mi hermana Fabi por los momentos de diversión y por ser

la mejor hermana del mundo, los AMO a todos.

Gracias a mi novia Caro por apoyarme en todo momento, por aguantarme y por quererme tanto, TE AMO.

Gracias a mi tía Tere, a mi tío Nico, a mis primos Rosy, Raúl y Perla que siempre me han brindado su apoyo y su confianza.

Gracias a mi tía Angelina y a mi tío Donato por esos grandes momentos desde la infancia.

Mi más sincero agradecimiento a mi asesor el Dr. Serguei Levachkine por brindarme todo su apoyo durante mi estancia en la maestría.

A mis profesores del PIIG LAB Marco, Miguel, Rolando y Giovanni gracias por sus consejos, por los ratos de diversión y por su apoyo en todo momento.

A mis amigos Edgar, Rebeca, Valentín, Julio, Claudia, Ene, muchas gracias por aguantarme y por disfrutar los mejores momentos de mi vida.

Gracias a todos mis amigos y compañeros del PIIG LAB, Roby, Pao, Jhon, Félix y Child, por esos momentos de diversión y porque sin ustedes mi estancia en la

maestría no tendría historia, las platicas en las comidas, los momentos de reflexión, las alegrías y en especial por aquellos conciertos¡¡¡¡.

Gracias a todas aquellas personas que han dejado en mi sus enseñanzas y sus consejos. Y por último gracias a la vida por permitirme realizar mis sueños

 

 

 

Page 7: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

IV  

CONTENIDO RESUMEN .......................................................................................................................................... I

ABSTRACT ...................................................................................................................................... II

AGRADECIMIENTOS .................................................................................................................. III

LISTA DE FIGURAS .................................................................................................................. VIII

LISTA DE TABLAS ........................................................................................................................ X

CAPÍTULO 1. INTRODUCCIÓN ...................................................................................... 1

1.1. Motivación y justificación ........................................................................................... 3

1.2. Planteamiento del problema ......................................................................................... 4

1.2.1. Base de datos espacial ........................................................................................... 5

1.2.2. Definición de Jerarquía ......................................................................................... 5

1.3. Objetivos ...................................................................................................................... 5

1.3.1. Objetivo general .................................................................................................... 5

1.3.2. Objetivos particulares ............................................................................................ 6

1.4. Hipótesis ...................................................................................................................... 6

1.5. Organización de la tesis ............................................................................................... 7

CAPÍTULO 2. ESTADO DEL ARTE ................................................................................ 9

2.1. Uso de jerarquías para el cálculo de la similitud semántica ........................................ 9

2.2. Búsqueda y Recuperación de información ................................................................ 11

2.2.1. Recuperación de información geográfica ............................................................ 12

2.2.2. La Web Semántica .............................................................................................. 12

2.2.2.1. Web Semántica Geoespacial ........................................................................ 13

2.2.2.2. Comentarios sobre Web Semántica Geoespacial ......................................... 15

2.3. Modalidades en las búsquedas semánticas. ............................................................... 15

2.3.1. Introducción al uso de las medidas de similitud ................................................. 16

2.3.2. Un enfoque basado en clases para relaciones léxicas ......................................... 17

2.3.3. Información teórica sobre la definición de similitud .......................................... 18

2.3.4. Combinación de contexto local y similitud de WordNet para identificación del sentido de palabras ........................................................................................................ 19

Page 8: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

V  

2.3.5. Cadenas léxicas como representación de contexto para la detección y correlación de nodos entre conceptos .............................................................................................. 19

2.3.6. Ordenamiento de resultados en consultas semánticas sobre bases de datos ....... 19

2.4. Sistemas que emplean jerarquías ............................................................................... 23

2.4.1. Jerarquías eficientes empleando SQL ................................................................. 24

2.4.1.1. Descripción de los datos HierarchyID .......................................................... 25

2.4.1.2. Limitaciones de los HierarchyID .................................................................. 26

2.4.1.3. Comentarios sobre datos HierarchyID ......................................................... 26

2.5. Comentarios finales ................................................................................................... 27

CAPÍTULO 3. MARCO TEÓRICO ................................................................................. 29

3.1. Sistemas de Información Geográfica (GIS) ............................................................... 29

3.1.1. Definiciones globales, funcionales y tecnológicas de un GIS ............................ 29

3.1.1.1. Definiciones globales ................................................................................... 30

3.1.1.2. Definiciones funcionales .............................................................................. 30

3.1.1.3. Definiciones tecnológicas ............................................................................. 31

3.1.2. Componentes y características de un GIS ........................................................... 32

3.1.2.1. Componentes básicos de un GIS .................................................................. 32

3.1.2.2. Características principales de un GIS ........................................................... 33

3.2. Bases de datos espaciales ........................................................................................... 34

3.2.1. Datos espaciales .................................................................................................. 35

3.3. Ontologías .................................................................................................................. 36

3.3.1. Las ontologías como una conceptualización ....................................................... 37

3.3.2. Partes de una ontología ....................................................................................... 40

3.3.3. Tipos de ontologías ............................................................................................. 41

3.3.4. Editor de ontologías ............................................................................................ 43

3.3.5. Sistemas de almacenamiento ............................................................................... 43

3.3.5.1. Lenguajes de consultas ................................................................................. 44

3.4. Jerarquías y Teoría de Confusión .............................................................................. 45

3.4.1. ¿Por qué usar jerarquías? .................................................................................... 46

3.4.2. El concepto de Jerarquía ..................................................................................... 46

3.4.2.1. Jerarquía simple, ordenada, porcentual y mixta ........................................... 48

Page 9: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

VI  

3.4.3. Teoría de Confusión ............................................................................................ 49

3.4.3.1. Confusión de usar r en vez de s para jerarquías simples .............................. 50

3.4.3.2. Confusión de usar r en vez de s, para jerarquías ordenadas ......................... 50

3.4.3.3. Confusión de usar r en vez de s, para jerarquías porcentuales ..................... 51

3.4.3.4. Confusión de usar r en vez de s, para jerarquías mixtas ............................... 51

3.4.4. El conjunto de valores que son iguales a otros, dada una confusión .................. 51

3.4.5. Consultas empleando confusión ......................................................................... 52

3.4.6. Objetos idénticos, muy similares, algo similares. ............................................... 53

3.5. Comentarios finales ................................................................................................... 54

CAPÍTULO 4. METODOLOGÍA .................................................................................... 55

4.1. Arquitectura funcional del sistema ............................................................................ 57

4.2. Conceptualización del dominio geográfico ............................................................... 59

4.2.1. Características de los datos geográficos .............................................................. 59

4.2.2. Diseño de jerarquías ............................................................................................ 60

4.2.2.1. Diseño de la base de datos espacial .............................................................. 60

4.2.2.1.1. Diseño conceptual .................................................................................. 61

4.2.2.1.2. Diseño Lógico ........................................................................................ 64

4.2.2.1.2.1. Descripción de propiedades ............................................................ 65

4.2.2.1.3. Modelo físico ......................................................................................... 65

4.2.2.2. Jerarquías proveedoras de semántica ............................................................ 66

4.2.2.2.1. Jerarquía para la propiedad de “ubicación” ........................................... 67

4.2.2.2.2. Jerarquía para la propiedad de “producción” ........................................ 68

4.2.2.2.3. Jerarquía para la propiedad de “clima” ................................................. 69

4.3. Análisis Semántico .................................................................................................... 71

4.3.1. Confusión para jerarquías ................................................................................... 71

4.3.1.1. Confusión para jerarquías simples ................................................................ 71

4.3.1.2. Confusión para jerarquías de orden .............................................................. 73

4.3.2. Formas empleadas para consultas ....................................................................... 73

4.3.2.1. Confusión para predicados compuestos ....................................................... 74

4.3.2.2. Ponderación de resultados ............................................................................ 78

4.3.2.2.1. Consultas empleando el operador lógico AND .................................... 78

Page 10: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

VII  

4.3.2.2.2. Consultas empleando el operador OR.................................................... 79

4.3.2.2.3. Consultas empleando NOT .................................................................... 80

4.3.2.2.4. Consultas para jerarquías ordenadas ...................................................... 81

4.3.2.2.5. Consultas para jerarquías ordenadas y simples ...................................... 82

4.4. Procesamiento ............................................................................................................ 83

4.5. Presentación de resultados ......................................................................................... 86

CAPÍTULO 5. PRUEBAS Y RESULTADOS ................................................................. 88

5.1. Diseño de las jerarquías ............................................................................................. 88

5.1.1. Diseño de la base de datos conceptual ................................................................ 88

5.1.2. Jerarquías que describen las propiedades. ........................................................... 89

5.2. Consultas al modelo de datos ..................................................................................... 92

5.3. El sistema de búsqueda .............................................................................................. 95

5.3.1. Elementos de la interfaz grafica .......................................................................... 95

5.3.1.1. Interfaz de resultados .................................................................................... 96

5.3.2. Consultas empleando el operador lógico AND ................................................... 97

5.3.3. Consultas empleando el operador lógico OR .................................................... 102

CAPÍTULO 6. CONCLUSIONES Y TRABAJO A FUTURO .................................... 107

6.1. Conclusiones ............................................................................................................ 107

6.2. Trabajos a futuro ...................................................................................................... 109

ANEXO 1. CÓDIGO FUENTE ....................................................................................... 110

REFERENCIAS ............................................................................................................... 128

 

Page 11: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

VIII  

LISTA DE FIGURAS Figura 2.1. Jerarquía de CD`s de música empleado por Ganesan .......................................... 9

Figura 2.2. Representación de una ontología en su forma simple (jerarquía). ..................... 16

Figura 2.3. Ejemplo de ontología de carácter universitario .................................................. 21

Figura 2.4. Jerarquía Organizacional .................................................................................... 24

Figura 2.5. Ejemplo de una lista de adyacencia ................................................................... 24

Figura 2.6. Esquema general del Estado del Arte................................................................. 27

Figura 3.1. Tipo de ontologías .............................................................................................. 43

Figura 3.2. Jerarquía de ser vivo .......................................................................................... 52

Figura 4.1. Esquema general de la metodología propuesta .................................................. 56

Figura 4.2. Arquitectura funcional del sistema..................................................................... 58

Figura 4.3. Estructura de la base de datos ............................................................................ 64

Figura 4.4. Modelo físico de la base de datos ...................................................................... 66

Figura 4.5. Jerarquía simple H1 para la propiedad ubicación ............................................... 67

Figura 4.6. Jerarquía simple H2 para la propiedad producción ............................................ 69

Figura 4.7. Jerarquía de orden H3 ......................................................................................... 70

Figura 4.8. Elementos de una jerarquía simple para obtener la confusión ........................... 72

Figura 4.9. Elementos considerados para la confusión en una jerarquía de orden ............... 73

Figura 4.10. Elementos para las consultas compuestas. ....................................................... 75

Figura 4.11. Diagrama del modulo de búsqueda .................................................................. 84

Figura 4.12. Tabla de similitud de la propiedad ubicación .................................................. 85

Figura 5.1. Jerarquía que define la base de datos espacial ................................................... 89

Figura 5.2. Propiedades que caracterizan a los diferentes tipos de vegetación .................... 90

Figura 5.3. Jerarquía correspondiente a la propiedad de “ubicación” .................................. 90

Figura 5.4. Jerarquía correspondiente a la propiedad “producción” .................................... 91

Figura 5.5. Jerarquía correspondiente a la propiedad clima ................................................. 92

Figura 5.6. Programa que conecta al modelo de datos OWL ............................................... 93

Figura 5.7. Parámetros de consulta de SPARQL ................................................................. 94

Figura 5.8. Resultados que nos muestran el tipo de producción en las selvas ..................... 94

Figura 5.9. Resultados que nos muestran la ubicación de los bosques ................................ 95

Page 12: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

IX  

Figura 5.10. Interfaz de usuario para consultas .................................................................... 96

Figura 5.11. Elementos en las respuestas a una consulta ..................................................... 97

Figura 5.12. Elementos de consulta empleando el operador AND ...................................... 97

Figura 5.13. Resultados para una coincidencia exacta empleando el operador lógico AND .............................................................................................................................................. 98

Figura 5.14. Resultados empleando confusión con un grado de error de ε =1, para una consulta con operadores lógicos OR .................................................................................... 99

Figura 5.15. Resultados empleando confusión con un grado de error de ε = 2, para una consulta con operadores lógicos AND ............................................................................... 100

Figura 5.16. Resultados empleando confusión con un grado de error de ε=3, para una consulta con operadores lógicos AND ............................................................................... 101

Figura 5.17. Elementos de consulta usando el operador OR .............................................. 102

Figura 5.18. Resultados para una coincidencia exacta empleando el operador OR ........... 103

Figura 5.19. Resultados empleando confusión con un grado de error ε=1, para una consulta con operadores lógicos OR ................................................................................................. 104

Figura 5.20. Resultados empleando confusión con un grado de error ε=2, para una consulta con operadores lógicos OR ................................................................................................. 105

Figura 5.21. Resultados empleando confusión con un grado de error ε=3, para una consulta con operadores lógicos OR ................................................................................................. 106

Page 13: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

 

X  

LISTA DE TABLAS

Tabla 2.1. Evolución de las medidas de similitud según Ganesan y Molina ........................ 11 

Tabla 2.2. Componentes de la Web Semántica Geoespacial ............................................... 14 

Tabla 3.1. Resultados de acuerdo a los predicados P, Q, R. ................................................. 53 

Tabla 4.1. Tipos de Vegetación considerados por el INEGI .................................................. 63 

Tabla 4.2. Tipos de vegetación y propiedades ..................................................................... 76 

Tabla 4.3. Confusión con respecto al elemento Norte de México ....................................... 77 

Tabla 4.4. Confusión para el elemento Actividad Pecuaria.................................................. 77 

Tabla 4.5. Tabla de comparación para P = Norte de México ∧ Actividad pecuaria ............. 78 

Tabla 4.6. Consultas para un predicado P = Norte de México ∧ Actividad pecuaria ........... 79 

Tabla 4.7. Tabla de comparación para Q = Norte de México ∨  Actividad pecuaria ............ 80 

Tabla 4.8. Consulta para un predicado Q = Norte de México ∨  Actividad pecuaria ........... 80 

Tabla 4.9. Resultados para el predicado R= ¬ Norte de México .......................................... 81 

Tabla 4.10. Confusión para la jerarquía ordenada. .............................................................. 81 

Tabla 4.11. Confusión para las propiedades del predicado T = Norte de México ∧ Actividad pecuaria ∧ Tropical ............................................................................................................... 82 

Tabla 4.12. Resultados para el predicado T = Norte de México ∧ Actividad pecuaria ∧ Tropical .............................................................................................................................. 82 

Page 14: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 1. Introducción

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 1  

CAPÍTULO 1. INTRODUCCIÓN En la actualidad el uso de ontologías ha tomado mayor atención en las investigaciones en el

área de las ciencias de la información geográfica. La gran cantidad de información

geográfica nos lleva a la búsqueda de nuevas alternativas para representar, almacenar y

organizar los datos, hoy en día se argumenta que las ontologías juegan un rol importante en

aplicaciones en el campo de la Geoinformatica. Uno de los grandes problemas para los

sistemas dedicados a la búsqueda o recuperación de información, es la precisión con la que

se obtienen los datos después de una consulta, esto se debe a la carencia de semántica en los

datos. En este sentido la semántica de la información geográfica es de gran importancia en

las bases de datos espaciales.

El empleo de estructuras jerárquicas como alternativa para organizar los datos ha sido

probado en diversas áreas de investigación, incluyendo algunos trabajos relacionados con

los Sistemas de Información Geográfica (GIS). Las jerarquías son un caso particular de las

ontologías, pero no por ello dejan de tener gran utilidad; nuestro enfoque va dirigido al uso

de estas estructuras ya que con ellas se obtiene un modelo formal del mundo geoespacial.

Hoy en día el procesamiento inteligente de los datos espaciales es de suma importancia para

el mejoramiento de los sistemas de recuperación. Por ello, una de las principales

preocupaciones en el área de la Geocomputación es la adecuada representación de los datos

espaciales.

Una base de datos espacial permite describir los objetos espaciales que la forman a través

de tres características básicas: atributos, localización y topología. Los atributos representan

características de los objetos que nos permiten saber qué es lo que son. La localización,

representada por la geometría del objeto y su ubicación espacial de acuerdo a un sistema de

referencia, permite saber dónde está el objeto y qué espacio ocupa. Por último, la topología

definida por medio de las relaciones conceptuales y espaciales entre los objetos, permite

Page 15: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 1. Introducción

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 2  

mejorar la interpretación semántica del contexto y establecer ciertas jerarquías de

elementos a través de sus relaciones.

Con lo antes mencionado, decimos que las bases de datos geográficas son herramientas que

nos permiten manejar y procesar la información geoespacial, así mismo se busca que el

procesamiento de la información sea más simple y rápido para la computadora

La integración de datos y aplicaciones siempre han tenido que hacer frente a los problemas

que derivan de la heterogeneidad. El esfuerzo por resolver este problema ha sido notorio en

la actualidad. El uso de jerarquías sirve como soporte en determinadas aplicaciones donde

se presentan casos de similitud semántica entre los conceptos involucrados. El principio

fundamental sobre el que gira todo sistema de información que admite consultas por parte

del usuario o de una aplicación, es devolver resultados que coincidan con una petición

exacta a dicha consulta, sin embargo la tendencia de los sistemas actuales es evitar

respuestas vacías. Una de las alternativas para evitar las respuestas nulas, es emplear

herramientas que nos permitan medir la similitud semántica entre conceptos, de esta

manera se pueden ofrecer respuestas aproximadas o similares que pueden ser de utilidad

para el usuario.

La llegada de nuevas técnicas de recuperación de información ha permitido ir un paso más

allá y manejar conceptos en lugar de términos. La definición de los conceptos tiene lugar en

el marco de las ontologías, con ayuda de ellas podemos organizarlos jerárquicamente,

definir propiedades y relaciones. El uso de jerarquías como herramienta para representar el

conocimiento da lugar a una nueva variable a considerar al momento de ordenar los

resultados que se obtienen después de una consulta, la cual denominamos distancia

semántica. Esta variable es de gran utilidad para nuestro campo de aplicación en la

recuperación de información espacial.

En esta investigación se usan estructuras jerárquicas como modelo conceptual de un

dominio geográfico y se mide la similitud semántica para identificar qué elementos

comparten propiedades similares y así poder manejar un control de error en las respuestas.

Page 16: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 1. Introducción

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 3  

El caso de estudio de este trabajo está basado en los diferentes tipos de vegetación

existentes en México, se ocupa una base de datos espacial y se procesa la información en

un aspecto semántico con la finalidad de solucionar las necesidades existentes en el área de

la recuperación de la información geoespacial que no pueden ser resueltas con un enfoque

clásico.

1.1. Motivación y justificación Es necesario el uso de estructuras computacionales que almacenen la semántica

(significado) de los datos, a fin de buscar soluciones para la heterogeneidad y facilitar el

intercambio información. En este sentido, las ontologías representan una alternativa para

captar la semántica involucrada en la información de un dominio. Gruber las define como

especificaciones formales y específicas de los términos y relaciones entre ellos (Gruber,

1993).

Los sistemas de recuperación son el mecanismo por el cual la información almacenada

puede ser recuperada por el usuario. En este sentido, en los sistemas tradicionales de

búsqueda, la información solicitada a una consulta debe estar contenida en la fuente de

datos, de lo contrario se obtienen respuestas vacías o errores. Dada esta problemática la

motivación de la tesis se enfoca a emplear métodos alternos que nos permitan procesar la

información espacial de manera inteligente.

Una estructura jerárquica permite representar conceptos que van de lo general a lo

particular, la tendencia es evitar ambigüedades para mejorar el procesamiento e

interpretación de los datos espaciales en una computadora.

Dicho lo anterior, la presente investigación está centrada en “La Búsqueda y Ponderación

de Información Contenida en Bases de Datos Espaciales” y el enfoque de aplicación es la

recuperación de información geográfica usando confusión como medida de similitud

semántica y parámetro de control para la ponderación de los resultados.

Page 17: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 1. Introducción

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 4  

1.2. Planteamiento del problema El problema latente en los sistemas encargados de la recuperación de información

geoespacia actuales, radica en el hecho de que si se realiza una consulta y no se encuentra

en la fuente de datos, el sistema no es capaz de proporcionar información que se asemeje o

se aproxime a dicha consulta.

Las bases de datos espaciales requieren de semántica para procesar de mejor manera la

información geoespacial. Ahora bien, supongamos que se quiere responder a la siguiente

pregunta: ¿Cuál es la capital de Jalisco?

En un sistema tradicional de recuperación de información, si existe coincidencia a nuestra

consulta obtendremos resultados a nuestra petición, de lo contario se regresan valores nulos

que no sirven de nada. En este sentido, sería óptimo que al no encontrar una coincidencia

exacta pudiéramos obtener respuestas aproximadas o similares (Tlaquepaque, Puerto

Vallarta, Agave, entre otras) y evitar el clásico “no match found". Por tal motivo, se

considera a resolver esta problemática buscando nuevas alternativas de recuperación para

solucionarla.

La gran cantidad de información almacenada en las bases de datos geográficas demanda

nuevas técnicas que nos permitan organizar, almacenar y recuperar de manera eficiente la

información. El enriquecimiento de la semántica en los datos juega un rol de suma

importancia en los sistemas de información modernos, ya que sus tareas son cada vez más

complejas. El enfoque de esta tesis está basado en el dominio geográfico y como forma

alternativa para organizar la información se emplea la ontología en su forma simple

(Jerarquía), además se utilizan funciones semánticas como mecanismo de comparación de

objetos para controlar la recuperación de información.

Dicho lo anterior, para mejorar el funcionamiento de los sistemas que procesan la

información geoespacial, nos apoyamos en una conceptualización de objetos y relaciones

que ayudan a enriquecer la semántica de los datos geográficos.

Page 18: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 1. Introducción

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 5  

1.2.1. Base de datos espacial Una base de datos espacial "Es una colección de datos referenciados en el espacio que actúa

como un modelo de la realidad" (NCGIA, 1990). El espacio establece un marco de

referencia para definir la localización y relación entre objetos. El que normalmente se

utiliza es el espacio físico, el cual es un dominio manipulable, perceptible y que además

sirve de referencia. La construcción de una base de datos geográfica implica un proceso de

abstracción para pasar de la complejidad del mundo real a una representación simplificada

que pueda ser procesada por el lenguaje utilizado por las computadoras.

1.2.2. Definición de Jerarquía Una jerarquía se define como una representación gráfica en forma de árbol, donde la

partición de cada nodo es mostrada de manera descendente; es decir, los nodos hijos son un

subconjunto del nodo padre (Levachkine, et al., 2004).

1.3. Objetivos En este apartado se describen los objetivos generales y particulares del presente trabajo de

tesis.

1.3.1. Objetivo general Diseñar e implementar un sistema encargado de la recuperación de información contenida

en una base de datos espacial, dicho sistema permitirá obtener respuestas aproximadas y

controladas a una consulta realizada por el usuario. Se emplean jerarquías como medio para

organizar la información y mediante el uso de confusión se calcula la distancia semántica

entre conceptos para ponderar la información.

Page 19: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 1. Introducción

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 6  

1.3.2. Objetivos particulares • Definir un dominio geográfico de estudio en particular (Uso del suelo y Vegetación

de México) a partir de los diccionarios de datos geográficos del INEGI1.

• Elaboración de jerarquías correspondientes al dominio geográfico de Uso de Suelo

y Vegetación. En esta parte se hace la conceptualización de nuestro dominio con

base en las fuentes de información empleadas.

• Almacenar nuestro modelo jerárquico estructurado en herramientas de software que

permitan interpretar nuestra información para posteriormente interactuar con la

misma.

• Partiendo de predicados compuestos, realizar pruebas de consultas en la base de

datos espacial.

• Implementar el razonamiento automático monotónico, para la ponderación de los

resultados.

• Realizar un sistema que permita realizar consultas basadas en predicados

compuestos y que proporcione respuestas similares o aproximadas, evitando así

respuestas vacías.

1.4. Hipótesis Las hipótesis consideradas para este trabajo de tesis son las siguientes:

• Partimos de que la información debe estar organizada en jerarquías. La información

geográfica por naturaleza se representa de manera jerárquica.

• Con base en una medida de similitud entre conceptos (confusión) se proporcionan

respuestas útiles para el usuario al realizar consultas sobre una base de datos

espacial que contiene información sobre el Uso del Suelo y Vegetación en México.                                                             1 Instituto Nacional de Estadística, Geografía e Informática.

Page 20: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 1. Introducción

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 7  

• Las jerarquías nos sirven para dotar de semántica a la base de datos espacial. A

pesar de ser estructuras con menor complejidad que las ontologías, tienen las

características esenciales para poder manejar datos geoespaciales.

• Empleando razonamiento monotónico automático se obtendrán respuestas similares

o aproximadas.

1.5. Organización de la tesis Capítulo 1. En este capítulo se presenta una introducción general de la tesis, se menciona

la motivación y justificación por la cual se lleva a cabo el presente trabajo, además se

describe el planteamiento del problema, los objetivos y la hipótesis de esta investigación.

Capítulo 2. En este capítulo se menciona el estado del arte, se citan varios trabajos que

tienen relación con esta tesis, con el fin motivar y ubicar la presente tesis. Se menciona la

importancia del uso de jerarquías en diferentes áreas de investigación y las medidas de

similitud semántica propias de estas estructuras.

Capítulo 3. Este capítulo describe el marco teórico de la tesis, en el cual se describen

conceptos relacionados con el estudio de bases de datos espaciales, así como lo relacionado

con el uso de ontologías y jerarquías para la búsqueda y recuperación de información.

Capítulo 4. En dicho capitulo se describe la metodología propuesta y la arquitectura del

sistema encargado de la recuperación de la recuperación de información espacial, se

menciona como son empleadas las herramientas descritas en el marco teórico.

Capítulo 5. Este capítulo presenta los resultados obtenidos, de acuerdo con la metodología

propuesta. Tales resultados nos permiten validar la funcionalidad del sistema, mediante

ejemplos de prueba.

Capítulo 6. Por último, en este capítulo se presentan las conclusiones obtenidas de este

trabajo de investigación y se mencionan propuestas para trabajos a futuro.

Page 21: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 1. Introducción

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 8  

Como parte final de este trabajo de tesis, se presentan las referencias utilizadas; así como

los anexos.

Page 22: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 9  

CAPÍTULO 2. ESTADO DEL ARTE En este capítulo se mencionan algunos de los trabajos que forman parte del contexto de la

presente investigación. Se describen trabajos que emplean jerarquías como medio para

organizar la información, algunas modalidades de búsquedas semánticas y trabajos que

mencionan la importancia de la similitud semántica. Posteriormente daremos la propuesta

de este trabajo de tesis.

2.1. Uso de jerarquías para el cálculo de la similitud semántica La palabra similitud es empleada en varios contextos para identificar objetos que poseen

características similares.

En (Ganesan, et al., 2003) se propone la mejora a los modelos que miden la similitud que

están basados en la intersección de objetos, empleando una jerarquía que describa las

relaciones entre los elementos que la componen. El “conocimiento semántico” en la

jerarquía ayuda a identificar los objetos que tienen características en común, esto

beneficiando al mejoramiento de las medidas de similitud. Para Ganesan y Molina es

importante considerar una medida de similitud que sea intuitiva para el ser humano. En la

Figura 2.1 se muestra una jerarquía que representa diferentes géneros de música.

Figura 2.1. Jerarquía de CD`s de música empleado por Ganesan

Page 23: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 10  

Partiendo de la jerarquía anterior, donde se suponen distintos usuarios (A, B, C, D, E) que

compran un par de CD`s respectivamente, se trata de determinar que usuario es más similar

a otro considerando, el género de música que adquieren.

En la jerarquía mostrada en la Figura 2.1 se observa que el cliente A compra dos CD´s de

los Beatles (b1, b2), el cliente B (b3, b4), C (s1, s2), D (b1, m1) respectivamente.

Intuitivamente vemos que el cliente A y B son bastante similares ya que ellos adquirieron

dos discos de los Beatles, mientras que el cliente A y C son menos similares, ya que a pesar

de escuchar música rock prefieren diferentes bandas. En este sentido Ganesan y Molina se

enfocan a las medidas de similitud que se acercan más a la intuición humana

Las contribuciones del trabajo de Ganesan y Molina (Ganesan, et al., 2003) se resumen en

los siguientes puntos:

• Se introducen medidas de similitud que aprovechan la estructura jerárquica de un

dominio, proporcionando resultados que son intuitivamente más similares que los

generados por las medidas tradicionales de similitud.

• Se consideran múltiples ocurrencias al medir la similitud entre elementos de la

jerarquía.

• Se realizan comparaciones con las medidas de similitud que no explotan una

jerarquía de dominio.

Las jerarquías a menudo son empleadas para estructurar la información y se ha utilizado

para la clasificación de texto, la recuperación interactiva de información, entre otras tareas

donde la similitud juega un papel importante (Felman, et al., 1995), (Scott, et al., 1998),

que particularmente para esta investigación nos permiten almacenar de manera práctica la

información geográfica.

En la Tabla 2.1 se describe de forma general la evolución que han tenido las medidas de

similitud, partiendo de su criterio.

Page 24: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 11  

Tabla 2.1. Evolución de las medidas de similitud según Ganesan y Molina

Medidas

Tradicionales

Son las medidas que consideran un objeto C1 y C2

y de acuerdo con las características que tengan en

común se les asigna un valor en el rango de [0, 1],

considerando el 1 como mayor valor de semejanza

entre los objetos.

Primera

Generación

Medidas basadas en los métodos tradicionales,

aprovechando las jerarquías de dominio.

Segunda

Generación

En esta generación se emplean jerarquías de

dominio; sin embargo, a diferencia de la primera

generación, se consideran múltiples ocurrencias.

Para las medidas tradicionales no hay nociones universales de que las características que

son tomadas en cuenta para evaluar que tan similar es un objeto de otro, por lo tanto para

este caso el concepto de similitud es necesariamente subjetivo. Este tipo de medidas son

descritos en los trabajos de (Rusbergen, 1979), (Strehl, et al., 2000), (McGill, 1983),

(Salton, et al., 1998) y (Resnick, et al., 1994).

2.2. Búsqueda y Recuperación de información Decimos que el valor de un sistema de información no solo está regido por la gran cantidad

de información que contenga, sino también por la facilidad con la que se pueda acceder a

ella. El enfoque de esta investigación va dirigido a la búsqueda de información en el

dominio geográfico que sea de utilidad para el usuario.

La búsqueda y recuperación de la información se enfoca principalmente a la interrogación

(queryng) y a la exploración (browsing).

Page 25: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 12  

En el queryng el usuario introduce palabras clave (en estas se representan sus necesidades

de información), para este caso el sistema devuelve una serie de respuestas, generalmente

ordenadas por relevancia, Google es un claro ejemplo de este tipo de sistemas.

En la recuperación por browsing, a diferencia del queryng, el usuario se encarga de

explorar visualmente sin tener que expresar previamente cuáles son sus necesidades de

información; es decir, el usuario reconoce lo que está buscando.

2.2.1. Recuperación de información geográfica La recuperación de información geográfica (GIR en sus siglas en ingles) pertenece a una

rama especializada de la recuperación de información (IR en sus siglas en ingles)

tradicional. Incluye todas las áreas de investigación que tradicionalmente forman el núcleo

de la IR, pero además con un énfasis en la información geográfica espacial. La

recuperación de información geográfica se preocupa por la recuperación de información

que involucra algún tipo de percepción espacial (Bucher, et al., 2005).

La arquitectura de cualquier sistema GIR parte de un modelo básico de recuperación de

información. Por lo tanto, un elemento esencial en todos los sistemas encargados de esta

tarea es el motor de búsqueda.

Existe una amplia variedad de enfoques para resolver la tarea GIR, que van desde

aproximaciones simples de recuperación de información sin indexación de términos

geográficos a arquitecturas que hacen uso de técnicas de procesamiento de lenguaje natural

para extraer localizaciones e información topológica de los documentos y las consultas.

Algunas de las técnicas usadas en la actualidad incluyen extracción de entidades

geográficas, análisis semántico, bases de conocimiento geográfico (como ontologías) y

técnicas de expansión de consultas.

2.2.2. La Web Semántica En la Web actual el acceso a la información puede convertirse en una tarea difícil y

frustrante debido a diversos problemas habituales en la búsqueda de información. La Web

Page 26: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 13  

Semántica es una Web extendida basada en el significado, en donde cualquier usuario en

Internet podrá encontrar respuestas a sus consultas de forma más rápida y sencilla.

Tim Berners Lee, en el artículo (Berners-Lee, et al., 2001) menciona cuatro componentes o

características básicas necesarias para la evolución de la Web Semántica. Estos

componentes son los siguientes:

Expresar significado. La Web Semántica debe brindar una estructura y añadir semántica al

contenido de las páginas web, creando un entorno donde agentes de software puedan viajar

de una página a otra, llevando a cabo sofisticadas tareas para los usuarios.

Acceso a representaciones del conocimiento. La Web Semántica debe encargarse de

resolver las limitaciones de los sistemas de representación de conocimiento tradicionales,

creando lenguajes de reglas suficientemente expresivos como para permitir a la Web

razonar tan ampliamente como se desee.

Ontologías. Para conseguir que los computadores sean mucho más útiles, la Web

Semántica extiende la Web actual con conocimiento formalizado y datos que son

procesados por maquinas. Para ser capaz de buscar y procesar información relativa a alguna

materia de interés, los programas necesitan información que haya sido modelada de una

forma coherente.

Agentes. La potencia real de la Web Semántica se conoce cuando agentes capaces de

manejar contenido semántico son usados para recoger y procesar información Web e

intercambiar los resultados con otros agentes.

2.2.2.1. Web Semántica Geoespacial

La Web Semántica es una extensión de la Web actual en la que es proporcionada la

información con un significado bien definido, y se mejora la forma en la que las máquinas

y las personas trabajan en conjunto (Berners-Lee, et al., 2001). Otras definiciones de la

Web Semántica se pueden encontrar en (Herman, 2003) y (W3C, 2001).

Page 27: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 14  

La Web Semántica tiene como fin superar las limitaciones de la Web que existe en la

actualidad, mediante la introducción de descripciones explícitas de significado (Berners-

Lee, et al., 2001). Tiene como visión la búsqueda de una Web más inteligente, en la cual se

pueda conseguir una comunicación efectiva entre computadoras y sus esfuerzos están

enfocados principalmente en la búsqueda de descripciones enriquecidas semánticamente

para los datos que se encuentran en la Web, con esto se prometen mejores métodos de

recuperación. El desarrollo de la Web Semántica requiere de atención especial en el

dominio geográfico.

La Web Semántica Geoespacial será un importante avance en el uso de la información

espacial. Con la incorporación de la semántica Geoespacial en la Web, la recuperación de

información Geoespacial se hará precisa al nivel en que los resultados serán

inmediatamente útiles. La idea primordial es poder elaborar ambientes donde puedan

realizarse búsquedas para ubicar lugares dejando de usar sólo palabras clave. En el dominio

geoespacial existen aun varios desafíos y problemas por atacar, entre ellos se encuentran:

• Representación de la información geográfica.

• Integración de información.

• Consultas con operadores espaciales.

Existen tres componentes que engloban a la Web Semántica Geoespacial, estos se

mencionan en la Tabla 2.2.

Tabla 2.2. Componentes de la Web Semántica Geoespacial

Componente geoespacial

Mapas Objetos geográficos Relaciones geográficas Sistemas de referencia

Componente Web Interoperabilidad entre tecnologías Servicios compartidos

Componente semántica Razonamiento automático e inferencia

Algunas de las aplicaciones posibles en el campo de la Web Semántica Geoespacial son:

Page 28: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 15  

• Plataformas de búsqueda empleando componentes de tipo geográfico

• Descubrimiento de conocimiento a través de relaciones semánticas, espaciales y

temporales.

• Seguimiento al comportamiento de los usuarios de la Web Geoespacial.

El interés en la semántica geoespacial está centrada en la mejora de de los resultados en la

búsqueda e interoperabilidad de los datos espaciales. El UCGIS (University Consortium for

Geographic Information Science – por sus siglas en inglés) ha tomado el desafío de

profundizar la investigación de la web semántica geoespacial. Existen varios autores que

han tomado parte en esta área, tal es el caso de Egenhofer. En (Egenhofer, 2002), se

describe la necesidad de la semántica en los datos al realizar búsquedas en la web

2.2.2.2. Comentarios sobre Web Semántica Geoespacial

El consorcio Universitario para la Ciencia de la Información Geoespacial (UCGIS) ha

identificado a la Web Semantica Geoespacial como una prioridad en investigaciones

recientes. El desarrollo de las ontologías espaciales ha sido identificado como un

compromiso de investigación a largo plazo por el consorcio (Marcos et al., 2000). Las

principales áreas de interés generalmente están enfocadas a la recuperación de información

y la interoperabilidad de la información espacial.

2.3. Modalidades en las búsquedas semánticas. Existen varias modalidades de búsquedas semánticas en bases de datos. La más común es

aquella en la que los valores de uno o varios atributos de una tabla toman valores que

existen entre elementos de una o varias ontologías. En la Figura 2.2 tenemos una ontología

en su forma más simple.

Page 29: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 16  

Figura 2.2. Representación de una ontología en su forma simple (jerarquía).

En la figura anterior se observa que c2 y c3 son subconjuntos de la clase c1 y que c4 es

subclase de c3. Para una consulta sobre una clase de datos en la que un atributo A tenga que

ser igual a c1, la expansión de la consulta tras obtener los conceptos subclase de c1,

convertirá la consulta inicial a otra en la que se solicitarán los registros en los que A es

igual a c1, c2, c3 o c4.

El procedimiento mencionado nos da una expansión de la consulta que da lugar a los

resultados que tiene una distancia semántica respecto a la consulta original, lo cual permite

establecer un criterio para ordenar el conjunto de resultados. Existen trabajos que ordenan

los resultados según la relevancia de los atributos no presentes en la consulta, uno de ellos

es presentado en (Chaudhuri, et al., 2006).

Para el cálculo de la similitud semántica entre la consulta y los resultados es preciso tener

una medida de similitud entre conceptos, en nuestro caso la información se tiene

estructurada en jerarquías. Es aquí donde retoma gran importancia la medida de similitud

entre conceptos denominada confusión (Levachkine, et al., 2007).

2.3.1. Introducción al uso de las medidas de similitud El uso de las medidas de similitud es un área de investigación que ha sido explorado ya

hace varios años. Del año de 1965 encontramos un trabajo de Rubenstein y Goodenough

acerca de la similitud entre términos de idioma inglés con base en la semejanza del

contexto en que aparecen (Rubenstein, et al., 1965). Para validar su trabajo llevó a cabo un

c1

c2 c3

c4

Page 30: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 17  

experimento en donde dos grupos de personas, de 15 y 36 sujetos respectivamente,

evaluaban la similitud entre 65 pares de sustantivos. La evaluación constaba de un valor

numérico que iba de 0.0 para describir que no existía semejanza a 4.0 que era indicio de

existencia. Este experimento fue la base para que se siguieran realizando pruebas en el

campo de las medidas de similitud.

Sin embargo, el experimento con el cual diversos autores se identifican, es el que realizaron

Miller y Charles (Miller, et al., 1991) en relación con su trabajo realizado en WordNet

(Miller, et al., 1990). En este experimento fueron seleccionados 38 estudiantes de grado

para estimar la semejanza entre 30 pares de nombres. Esta semejanza, al igual que en el

trabajo de Rubenstein y Goodenough, también se expresaba con un valor entre 0.0 y 4.0. A

partir de este experimento se derivaron una serie de propuestas para medir la similitud entre

elementos de taxonomías. Principalmente estas propuestas están dirigidas hacia su uso en

WordNet.

2.3.2. Un enfoque basado en clases para relaciones léxicas Entre los algoritmos presentes en este apartado, uno de los que más destacan y de los

pioneros es el creado por (Resnik, 1993), el cual propone que la similitud entre dos

conceptos c1 y c2 de una taxonomía, puede ser obtenido mediante la siguiente expresión:

, , log p

En donde , representa el conjunto de conceptos de los cuales tanto c1 como c2

descienden.

Mientras que p es la probabilidad del concepto c. El término concepto hace referencia al

conjunto de términos que apuntan a una misma idea.

Page 31: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 18  

Ahora bien, para estimar la probabilidad de un concepto c, Resnik utiliza la frecuencia de

aparición de los términos de ese concepto en el Brown Corpus2 of American English

(Francis, et al., 1982).

2.3.3. Información teórica sobre la definición de similitud Existe otro trabajo que también hace uso de la probabilidad de un concepto, este trabajo es

el propuesto por Lin (Lin, 1998), el cual obtiene de forma teórica la expresión para el

cálculo de la similitud entre dos conceptos c1 y c2 en una taxonomía como la de WordNet.

Esta expresión es la siguiente:

,2

Donde c3 es el nodo padre común a c1 y c2 más próximo.

Lin pretende dar una definición universal de similitud en términos de la teoría de la

información. Para poder llegar a dicha definición Lin parte de tres premisas intuitivas.

1. La similitud entre A y B se relaciona con su entorno. Entre más características en

común compartan, más similares son.

2. La similitud entre A y B está relacionada con las diferencias que existen entre ellos.

Entre más diferencias hayan, menos similares son.

3. La máxima similitud entre A y B se alcanza cuando A y B son idénticos.

                                                            2 El “Brown Corpus” en una compilación de inglés estadounidense de aproximadamente un millón de palabras seleccionadas de una amplia variedad de fuentes.

Page 32: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 19  

2.3.4. Combinación de contexto local y similitud de WordNet para identificación del sentido de palabras Otra de las medidas de similitud es la de Leacock y Chodorow (Leacock, et al., 1998), estos

dos autores consideran que la similitud entre c1 y c2 puede ser obtenida con la siguiente

expresión:

, log ,

2

Donde , , es el número de saltos a dar entre c1 y c2, y MAX es el valor de saltos

que se pueden dar entre el nodo raíz y los nodos hoja de la taxonomía.

2.3.5. Cadenas léxicas como representación de contexto para la detección y correlación de nodos entre conceptos Uno de los trabajos que resultan relevantes en WordNet es el de Hirts y St-Onge (Hirts, et

al., 1998). En lugar de hacer uso de las ecuaciones basadas en la probabilidad de los

conceptos involucrados, o en encontrar el número de nodos entre dichos conceptos, lo que

hacen es introducir la idea de cadenas léxicas para poder obtener la similitud.

Tras este recorrido sobre trabajos que hacen referencia a la similitud semántica, podemos

observar la importancia de WordNet en la definición de las medidas de similitud, ya que

casi todas las propuestas que existen en la actualidad van dirigidas a ser usadas con esta

taxonomía. Aunque también existen trabajos como (Lord, et al., 2003) en los que son

aplicadas estas medidas de similitud, concretamente a la Gene Ontology.

2.3.6. Ordenamiento de resultados en consultas semánticas sobre bases de datos Tras el problema que existe entre las medidas de similitud en (Blázquez del Toro, et al.,

2006) se propone un algoritmo alterno. Los algoritmos encargados de medir la similitud

semántica no pueden ser aplicados en taxonomías en las que no exista forma de estimar la

Page 33: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 20  

probabilidad de un concepto c. Si observamos el ejemplo de Resnik, en el que estima la

probabilidad de un concepto por medio de la frecuencia de aparición de los términos

asociados a este concepto dentro de un corpus significativo, como el Brown Corpus of

American English. De esta manera, dicha probabilidad puede ser estimada aplicando la

siguiente expresión:

donde es el número de veces que aparecen en el corpus los nombres que

corresponden al concepto c o a sus subconceptos, y N es el número total de nombres

presentes.

Si quisiéramos hacer uso de la forma anterior para hacer un estimado de la probabilidad en

taxonomías diferentes de WordNet, se tendría que ver como se podría medir la frecuencia

de aparición de cada concepto. Una posible manera de hacer esto es partiendo de las

instancias que existen en la base de conocimiento. No obstante, esto genera dos problemas:

• Por una parte, las instancias de una ontología no tienen que ser algo estático. Se

puede pensar por ejemplo en una ontología de dominio geográfico, específicamente

turismo en el cual a medida que aparecen nuevos centros turísticos se van creando

nuevas instancias.

• Por otro lado, aun en el caso que se tuviera una ontología que no va a ser

modificada, existe otro problema de tipo conceptual. Suponemos que se tiene una

ontología de carácter universitario. Esta ontología puede verse representada en la

Figura 2.3.

Page 34: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 21  

Figura 2.3. Ejemplo de ontología de carácter universitario

Donde:

A = Profesor

B = Catedrático

C = Profesor Titular

D = Ayudante

E = Profesor Asociado

Ahora bien, si las instancias de la ontología reflejan el número total de individuos de cada

uno de estos elementos, lo más probable que la clase Catedrático sea menor que la clase

Profesor Titular. Si se empleara la expresión propuesta por Lin (Lin, 1998) para el cálculo

de similitud semántica, llegaríamos a la conclusión de que el concepto Catedrático es

menos similar a Profesor que el concepto Profesor Titular.

Debido a estos problemas existe otra propuesta (Blázquez del Toro, et al., 2006), en la cual

se suponen dos conceptos c0 y c1, en donde c1 es subclase de c0. Esto no implica que c1 sea

hijo directo de c0 en la ontología. Más adelante se amplía la discusión al caso general de

dos conceptos c1 y c2 que no son subclase uno del otro. Con estas premisas en mente, la

medida de similitud que se propone es expresada como:

, (1)

En donde N0, es el número de nodos que hay entre el nodo raíz y c0, con esto se permite

tener la noción de que descender un nivel en la ontología supone una mayor diferencia

semántica en la parte alta de la ontología (la de los conceptos màs genéricos) que en la

parte baja (donde están los conceptos más específicos).

El cociente representa la relación entre la información que aporta c0 y la información que

aporta c1. Si suponemos que el nodo raíz contiene el 100% de la información presente en la

Page 35: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 22  

ontología, cada uno de los nodos inferiores contendrá una porción de esa información. La

manera en que se modela el reparto de dicha información está relacionada con la estructura

de la ontología. Si una clase c tiene una cantidad de información E, lo que vamos a suponer

es que cada una de sus n subclases tendrá una cantidad de información , es decir, que la

información se va repartiendo equitativamente entre las clases hijas. Con esto lo que se

expresa es que, cuanto menor es el número de clases en que se divide una clase, mayor es el

parecido entre estas subclases y la clase padre. El motivo de esto es bien claro, las

taxonomías en general, y las ontologías en particular, se diseñan con el objetivo de

organizar la información de forma manejable. Para ello cuando una clase tiene un número

muy elevado de subclases, se suelen crear clases intermedias que permiten definir grupos

de tamaño razonable. La agrupación de las subclases en clases intermedias se hace a partir

de características cualitativas comunes. Por ello, cuanto más especificas sean estas

características, más especializada estará esta clase intermedia y más semejantes serán

respecto a ella las subclases que pasen a ser sus hijas. También se cumplirá que cuanto más

especifica sea la clase intermedia, habrá un menor número de subclases que puedan a pasar

a ser hijas suyas. Por esto se asume que existe una relación directa entre el número de

subclases de una clase y la similitud semántica entre la clase y sus subclases.

Retomando la ecuación propuesta en este apartado, se destaca que para el cálculo de no

en necesario obtener E0 y E1 por separado en relación al nodo raíz, puesto que E0 = r * E1,

donde r se puede obtener recorriendo la ontología desde E0 hasta E1, Es importe señalar que

el cálculo de la similitud se hace teniendo en cuenta que c0 es superclase de c1, de modo que

la tasa de información siempre se ha de obtener como y no como .

El elemento k permite ajustar el peso que se le asignan a las variables empleadas en la

fórmula: profundidad de c0 y tasa de información. Ésta debe ser obtenida empíricamente.

Después de realizar el cálculo de la similitud entre un concepto c0 y unos de sus

subconceptos c1 en este algoritmo, lo siguiente es ver la manera de extender esto al caso de

dos conceptos c1 y c2 que no son subclase uno del otro. Para ello, es necesario introducir el

término distancia. La medida propuesta en la expresión 1 da lugar a un valor entre 0.0

(donde se expresa que no existe similitud alguna) y 1.0 (se trata del mismo concepto). De

Page 36: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 23  

esta manera, la distancia dist entre dos conceptos se puede definir a partir de su similitud

semántica ssim como se muestra a continuación:

,,

1 (2)

Cuando c1 y c2 sean el mismo concepto, ssim valdrá 1 y la distancia entre ambos será 0.

Analógicamente, cuando ssim valga 0, la distancia entre ambos será infinita. Con esto en

mente se puede hacer el cálculo de la similitud entre c1 y c2 a partir de la distancia entre

ambos. Si C es el conjunto de conceptos que son superclase de c1 y c2, esta distancia se

puede expresar de la siguiente manera:

, , ,

Haciendo las sustituciones que se consideran pertinentes según la ecuación anterior, se

llega a que sim (c1, c2) tiene un valor de:

Esta última ecuación se obtiene haciendo una sustitución algebraica dejando todo en

términos , . En esta ecuación representa lo que se ha denominado

, ,

Este algoritmo no hace ninguna suposición sobre la taxonomía sobre la que se van a hacer

los cálculos, se puede usar esta medida en cualquier dominio. Como consecuencia

adicional, no precisa de datos externos, puesto que los cálculos sólo dependen de la

estructura de la ontología.

2.4. Sistemas que emplean jerarquías Las jerarquías son muy comunes en los sistemas de información, se utilizan para organizar

elementos por orden de importancia o por tamaño, como por ejemplo en un sistema de

archivos o en el organigrama de alguna empresa.

Page 37: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 24  

2.4.1. Jerarquías eficientes empleando SQL Por lo general cualquier conjunto de elementos en el cual todos los elementos exceptuando

al elemento raíz tienen un solo padre y cero o más hijos, puede ser considerado una

jerarquía. En la Figura 2.4 vemos un ejemplo de una jerarquía organizacional de una

empresa, cada nodo contiene un nombre que representa el nivel jerárquico administrativo

que ocupa cada persona en la empresa.

Figura 2.4. Jerarquía Organizacional

La forma más utilizada para almacenar la relación entre los elementos de la jerarquía es la

que se conoce como padre-hijo o lista de adyacencia, en la cual cada nodo del árbol guarda

una referencia a su padre o a NULL si es que es el nodo raíz del árbol (ver Figura 2.5).

Figura 2.5. Ejemplo de una lista de adyacencia

Page 38: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 25  

Las desventajas aparecen cuando se trata de recuperar la información de la jerarquía, puesto

que no es posible realizar una sola consulta a la base de datos que devuelva toda o parte de

la jerarquía.

Los esfuerzos por mejorar consultas sobre estructuras jerárquicas han traído innovaciones

en los gestores de base de datos. SQL Server 2008 admite un nuevo tipo de datos

(HierarchyID), que ayudan a resolver algunos de los problemas al modelar y consultar

información en una jerarquía. El tipo de datos HierarchyID permite construir relaciones

entre los elementos de datos de una tabla, sobre todo para representar una posición en una

jerarquía.

2.4.1.1. Descripción de los datos HierarchyID

En (Tegels, 2008) se menciona que el tipo de datos HierarchyID es una representación

binaria basada en CLR3 que está diseñada para almacenar una representación compacta y

binaria de una ruta de acceso ordenada. Puesto que se trata de un tipo de datos integrado, no

es necesario activar de manera específica la funcionalidad de SQL/CLR para usarlo.

HierarchyID resulta de utilidad siempre que tenga que representar una relación anidada

entre valores, en los que dicha relación se pueda expresar en una sintaxis de ruta de acceso

ordenada.

Una ruta de acceso ordenada tiene el aspecto de una ruta de acceso de archivo, pero en

lugar de usar los nombres de directorio y archivo, se usan valores numéricos. Como

cualquier otra relación de elemento primario/secundario, todas las rutas de acceso

ordenadas se deben delimitar mediante un nodo raíz. En SQL Server 2008, se usa un solo

carácter (/) para representar textualmente el nodo raíz. Los elementos con la ruta de acceso

ordenada suelen representarse mediante enteros, pero también se pueden usar valores

decimales. La ruta de acceso ordenada debe terminar con otro carácter único (/).

                                                            3 Common Language Runtime (CLR) es el núcleo de Microsoft .NET Framework y proporciona el entorno de ejecución de todo el código de .NET Framework. El CLR proporciona diversas funciones y servicios necesarios para la ejecución de los programas

Page 39: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 26  

Sin embargo, las rutas de acceso ordenadas no se almacenan en la base de datos como

texto. En cambio, se les aplica matemáticamente un algoritmo hash para obtener valores

binarios, que se almacenarán en las páginas de datos.

2.4.1.2. Limitaciones de los HierarchyID

Lamentablemente no todo puede ser tan bueno. Los HierarchyId no representan un árbol

automáticamente, lo que significa que cada fila almacena la información sobre la posición

que tiene en el árbol, algo que no garantiza que se pueda generar un árbol al tomar todas las

filas, puesto que puede haberse borrado un nodo padre o puede existir más de un nodo con

el mismo HierarchyId.

También es necesario controlar la concurrencia y la unicidad de los HierarchyId, puesto

que la base de datos no controla estos aspectos.

Por último, a diferencia de las referencias a otras entidades tradicionales (foreign key), los

HierarchyId no mantienen la integridad referencial, lo que permitiría eliminar un nodo que

era padre de otros nodos sin que la base de datos mande un error.

2.4.1.3. Comentarios sobre datos HierarchyID

Los HierarchyId son una nueva y poderosa herramienta que estará disponible para todas las

aplicaciones que requieran almacenar datos jerárquicos, como por ejemplo un organigrama,

una lista de materiales, las tareas de un proyecto o una estructura de directorios.

Esta forma de identificar los nodos de un árbol permite almacenar de forma muy eficiente

la información necesaria para navegar el árbol en todas las direcciones (padres, hijos,

descendientes y hermanos), pero requiere modificaciones a las aplicaciones y a las

consultas para obtener estos beneficios.

Page 40: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 27  

2.5. Comentarios finales En la Figura 2.6 se muestra el diagrama que engloba los tres puntos esenciales que se

mencionan en el estado del arte, por una parte se describen los trabajos relacionados con las

modalidades de búsqueda de información, también se menciona el rol que juegan las

jerarquías para poder medir la similitud semántica entre conceptos. En este sentido son

descritos algunos trabajos que han servido como base para el desarrollo de nuevas

investigaciones en este campo. Las estructuras jerárquicas son necesarias en diversas

ocasiones donde se necesita agrupar la información y generalizarla, por esta razón es

necesario elaborar herramientas que permitan el manejo de dichas estructuras.

Figura 2.6. Esquema general del Estado del Arte

Hablar de similitud semántica entre conceptos no es algo nuevo. Las investigaciones han

sido variadas; sin embargo, el mayor número de trabajos están enfocados a su uso en

WordNet.

Page 41: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 2. Estado del arte

 

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 28  

Dejando claro que el uso de jerarquías como medio para organizar la información es una

buena alternativa, en esta investigación se propone conceptualizar un dominio geográfico

con base en información ya existente.

Page 42: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 29  

CAPÍTULO 3. MARCO TEÓRICO

3.1. Sistemas de Información Geográfica (GIS) En la década de los setenta del presente siglo, con el avance en el desarrollo de la

tecnología informática, aparecen una serie de herramientas y programas que permiten

manejar datos espaciales georreferenciados. Estas herramientas son útiles y facilitan la

comprensión, el análisis y divulgación de los datos geográficos. Además, los Sistemas de

Información Geográfica (GIS) ofrecen numerosas ventajas respecto a la cartografía

convencional, puesto que de forma automática permiten manejar datos espaciales

internamente referenciados, producir mapas temáticos y realizar procesos de información,

de tipo digital (Conesa García, 1996).

Una de las metas es dar el paso siguiente a los GIS tradicionales empleando nuevas

técnicas que nos permitan recuperar la información basándonos en la riqueza semántica,

una de las alternativas latentes en el área de la Geoinformatica para el procesamiento de la

información geográfica usando ontologías.

3.1.1. Definiciones globales, funcionales y tecnológicas de un GIS En esta sección se presentan algunas definiciones de los SIG de diversos autores (Bosque

Sendra, 1992), (Cebrian, 1994), (Maguire, et al., 1991) (Aesigt, 1993), (Aronoff, 1991),

(Burrough, et al., 1997), (Huxhold, 1991) y (Rodríguez Pascual, 1993). Se clasifican

básicamente en tres categorías: globales, funcionales y tecnológicas.

Page 43: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 30  

3.1.1.1. Definiciones globales

Éstas son aquellas donde predomina la idea global y abstracta de la técnica. Se mencionan

los objetivos generales de los GIS. En estas definiciones se hace énfasis en el qué y no

importa tanto el cómo y con qué.

Un GIS es un intento más o menos logrado según los casos de constituir una visión

esquemática de una realidad compleja (Bosque Sendra, 1992).

Un Sistema de Información Geográfica puede ser concebido como una especialización de

un sistema de bases de datos, caracterizado por su capacidad de manejar datos geográficos,

que están georeferenciados y los cuales pueden ser visualizados como mapas (Braken, et

al., 1992).

Tambien se puede definir como una base de datos especializada que contiene objetos

geométricos (Cebrian, 1994).

Un GIS abarca tecnología de la información, gestión de la información, asuntos legales y

de negocios, y conceptos específicos de materias de un gran abanico de disciplinas, pero es

implícito en la idea de GIS como una tecnología usada para tomar decisiones en la solución

de problemas que tenga al menos una parte de componente espacial (Maguire, et al., 1991).

3.1.1.2. Definiciones funcionales

Las siguientes definiciones hacen mención a las tareas que pueden realizar. Estos sistemas

sirven básicamente para la comprensión y uso de datos espaciales.

• Software utilizado para automatizar, analizar y representar datos gráficos

georeferenciados y organizados según un modelo topológico (Aesigt, 1993).

• Sistema computarizado que provee los siguientes cuatro conjuntos de operaciones

para tratar datos Georeferenciados: 1) entrada de datos; 2) uso de los datos

(almacenamiento y recuperación); 3) manipulación y análisis; 4) salida (Aronoff,

1991).

Page 44: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 31  

• Un conjunto de herramientas para reunir, introducir, almacenar, recuperar,

transformar y cartografiar datos espaciales sobre el mundo real para un conjunto

particular de objetivos (Burrough, et al., 1997).

• Un sistema de base de datos computarizados para la captura, almacenaje,

recuperación, análisis y visualización de datos espaciales (Huxhold, 1991).

• Actualmente pueden ser considerado como GIS, los sistemas de software que

incluyen cuatro funciones (entrada, almacenaje, manipulación y análisis); y debe

realizar eficientemente las cuatro tareas (Marble, 1990).

• Un sistema de hardware, software y procedimientos elaborados para facilitar la

obtención, gestión, manipulación, análisis, modelado, representación y salida de

datos espacialmente referenciados para resolver problemas complejos de

planificación y gestión (NCGIA, 1990).

• Conjunto integrado de medios y métodos informáticos, capaz de recoger, verificar,

intercambiar, almacenar, gestionar, actualizar, manipular, recuperar, transformar,

analizar y mostrar datos espacialmente referenciados a la Tierra (Rodríguez Pascual,

1993).

• Un sistema de información geográfica (GIS) es un tipo particular de sistema de

información que permite a sus usuarios capturar, modelar, manipular, representar,

analizar y presentar datos geográficamente referenciados.

3.1.1.3. Definiciones tecnológicas

Definiciones Tecnológicas reflejan un interés de manera especial por la técnica utilizada,

se destaca el uso de la informática para la comprensión de los datos espaciales.

• Tecnología informática para gestionar y analizar la información espacial (Bosque

Sendra, 1992).

Page 45: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 32  

• GIS como denominación de bases de datos computacionales que contiene

información espacial (Cebrian, 1994).

• Modelo informatizado del mundo real, descrito en un sistema de referencia ligado a

la Tierra, establecido para satisfacer unas necesidades de información específicas

respondiendo a un conjunto de preguntas concretas (Rodríguez Pascual, 1993).

Englobando las definiciones dadas anteriormente se define a un Sistema de Información

Geográfica como un sistema de hardware y software que tiene como objeto la comprensión

y el análisis de los datos espaciales georeferenciados, para la ayuda de diversas actividades

humanas, donde los datos espaciales tienen un papel importante.

3.1.2. Componentes y características de un GIS A continuación se describen los componentes de un GIS y mencionamos sus características

principales.

3.1.2.1. Componentes básicos de un GIS

• Equipos (Hardware) permite la entrada y salida de la información geográfica en

diferentes medios y formas.

• Programas (Software) nos proporciona las herramientas necesarias para almacenar,

analizar y desplegar la información geográfica.

• Datos se hace referencia a la información que nos garantice el funcionamiento

analítico de nuestro GIS.

• Los datos geográficos pueden ser obtenidos directamente por la persona que

implementa el sistema o tomar la información ya disponible, por ejemplo

diccionarios de datos geográficos del INEGI.

Page 46: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 33  

• El sistema de información geográfica integra los datos espaciales con otros

recursos de datos y pueden incluso utilizar los manejadores de bases de datos

más comunes para manejar la información geográfica.

• Recursos Humanos este bloque hace referencia al personal que opera, desarrolla y

administra el sistema; y establece planes para aplicarlo en problemas del mundo

real.

• Metodologías el GIS debe operar bajo un plan bien diseñado para trabajar de

acuerdo con aplicación.

3.1.2.2. Características principales de un GIS

1. La capacidad de visualización de información geográfica compleja a través de mapas.

2. La funcionalidad de los GIS como una base de datos sofisticada, en la que se mantiene y

relaciona información espacial y temática.

3. La diferencia con las bases de datos convencionales estriba en que toda la información

contenida en un GIS está unida a entidades geográficamente localizadas. Por ello en un GIS

la posición de las entidades constituye el eje del almacenamiento, recuperación y análisis de

los datos.

4. Son una tecnología de integración de información.

5. Se han desarrollado a partir de innovaciones tecnológicas habidas en campos

especializados, de la geografía y otras ciencias (tratamiento de imágenes, análisis

fotogramétricos, cartografía automática, etc.), para constituir un sistema único, más potente

que la suma de las partes.

6. Permiten unificar la información en estructuras coherentes.

7. Este carácter integrador y abierto, hace de los GIS un área de contacto entre variados

tipos de aplicaciones informáticas, destinadas al manejo de información con propósitos y

Page 47: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 34  

formas diversas; por ejemplo: programas estadísticos, gestores de bases de datos,

programas gráficos, hojas de cálculo, procesadores de texto, etc.

8. Los límites y diferencias entre los GIS, los programas de diseño asistido por

computadora (CAD), los de cartografía temática y los de tratamiento de imágenes son

especialmente difusos. Aunque sus diferencias estriban sobre todo en el modelo de datos y

en las capacidades de análisis de información espacial.

3.2. Bases de datos espaciales Un modelo de datos geográfico es una abstracción del mundo real que emplea un conjunto

de objetos, para soportar el despliegue de mapas, consultas, edición y análisis. Los datos

geográficos, proporcionan la información en representaciones subjetivas a través de mapas

y símbolos, que denotan la geografía como formas geométricas, redes, superficies,

ubicaciones e imágenes, a los cuales se les asignan sus respectivos atributos que los definen

y describen.

En (Güting, 1994) se define al sistema de base de datos espacial como un sistema de datos

que ofrece tipos espaciales de datos en su modelo y su lenguaje de consulta.

Base de datos espacial es un sistema administrador de bases de datos que maneja datos

existentes en un espacio o datos espaciales. El espacio establece un marco de referencia

para definir la localización y relación entre objetos. El que normalmente se utiliza es el

espacio físico que es un dominio manipulable, perceptible y que sirve de referencia. La

construcción de una base de datos geográfica implica un proceso de abstracción para pasar

de la complejidad del mundo real a una representación simplificada que pueda ser

procesada por el lenguaje de las computadoras actuales. Este proceso de abstracción tiene

diversos niveles y normalmente comienza con la concepción de la estructura de la base de

datos, generalmente en capas; en esta fase, y dependiendo de la utilidad que se vaya a dar a

la información a compilar, se seleccionan las capas temáticas a incluir.

Page 48: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 35  

La estructuración de la información espacial procedente del mundo real en capas conlleva

cierto nivel de dificultad. En primer lugar, la necesidad de abstracción que requieren los

computadores implica trabajar con primitivas básicas de dibujo, de tal forma que toda la

complejidad de la realidad ha de ser reducida a puntos, líneas o polígonos. En segundo

lugar, existen relaciones espaciales entre los objetos geográficos que el sistema no puede

obviar; la topología, que en realidad es el método matemático-lógico usado para definir las

relaciones espaciales entre los objetos geográficos, puede llegar a ser muy compleja, ya que

son muchos los elementos que interactúan sobre cada aspecto de la realidad (Aronoff,

1991).

3.2.1. Datos espaciales En diversos campos hay una necesidad por manejar información geométrica, geográfica o

espacial, lo cual quiere decir que los datos guardan cierta relación con el espacio (Güting,

1994). El espacio de interés puede ser, por ejemplo, la abstracción de dos dimensiones de la

superficie de la tierra o en tres dimensiones, por ejemplo la representación del acomodo de

las cadenas de moléculas de proteína. Con la llegada de los modelos relacionales en las

bases de datos, se ha intentado manejar grandes colecciones de objetos geométricos

relativamente simples, por ejemplo, un conjunto de 100, 000 polígonos.

En (Wikipedia, 2008) se define dato espacial como una variable asociada a una localización

del espacio Generalmente se hace uso de datos vectoriales expresados mediante tres tipos

de objetos espaciales:

• Puntos Se encuentran determinados por las coordenadas terrestres medidas por

latitud y longitud.

• Líneas Objetos abiertos que cubren una distancia dada y comunican varios puntos o

nodos, aunque debido a la forma esférica de la tierra también se le consideran como

arcos (carreteras, líneas telefónicas, etc.).

Page 49: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 36  

• Polígonos Figuras planas conectadas por distintas líneas u objetos cerrados que

cubren un área determinada (países, regiones, lagos, etc.).

Los datos espaciales también son caracterizados por su naturaleza Georeferenciada y

multidireccional. La primera indica que los datos están referenciados con respecto a la

tierra. Por multidireccional decimos que existen diversas relaciones, es decir, todos se

relacionan entre sí pero las relaciones no tienen el mismo peso.

3.3. Ontologías Existen muchas definiciones de ontología con diferentes enfoques, tales como el enfoque

filosófico, cognitivo y computacional.

La Filosofía es el primer campo de conocimiento donde se utiliza el concepto de ontología.

El uso de dicho concepto se origina en la noción aristotélica, que por un lado estudia la

esencia del ser (el ser como ser), y por otro lado, estudia las características básicas de toda

la realidad como un todo. En la actualidad, es considerada una rama de la Filosofía que

tiene por objetivo la explicación de la existencia de una manera sistemática, trata sobre los

tipos y estructuras de objetos, propiedades, eventos, procesos y relaciones relativas a cada

porción de la realidad (Aristotle’s, 2003).

A partir de la década de los noventa, las ontologías comienzan a tener protagonismo en la

Inteligencia Artificial (IA), con especial énfasis en la Ingeniería del Conocimiento. En

(Studer, et al., 1998) se menciona que la (IA) se ocupa del razonamiento acerca de los

modelos del mundo. Por lo tanto, no es raro que los investigadores de IA adopten el

término ontología para describir lo que puede ser representado computacionalmente por

medio de un programa.

Por lo tanto, de manera general. Las ontologías son para la Inteligencia Artificial recursos

construidos que permiten representar el conocimiento compartido y común sobre algo.

En el siguiente apartado se presentan varias definiciones y características de las ontologías

como tales.

Page 50: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 37  

3.3.1. Las ontologías como una conceptualización A fin de comprender mejor el concepto de ontología, a continuación se analizan diferentes

definiciones.

Para (Neches, et al., 1991) una ontología define los términos básicos y las relaciones que

comprende el vocabulario de un área temática, así como las reglas para la combinación de

términos y relaciones para definir la extensión del vocabulario.

En esta definición, se detallan las partes que la componen, como son sus términos,

relaciones entre términos y reglas de combinación, e incluso se proponen elementos para su

elaboración.

• Identificar la terminología básica y las relaciones que se dan entre los términos.

• Identificar las reglas que permitan combinarlos.

• Proveer las definiciones correspondientes a los términos y sus relaciones.

La ontología se perfila como un recurso dinámico, en la medida que la constituyen términos

creados a partir de reglas, además de los que son explícitamente definidos.

Por otra parte (Gruber, 1993) dice que una ontología es una especificación explícita de una

conceptualización. El autor considera que una conceptualización está compuesta por

objetos, conceptos y otras entidades que existen en una determinada área, y las relaciones

que se dan entre ellos. Cuando el conocimiento de un dominio es representado en un

formalismo declarativo, el conjunto de objetos que pueden ser representados es

denominado universo de discurso. Este conjunto de objetos, y las relaciones entre ellos, se

reflejan en el vocabulario con el que se representa el conocimiento. En una ontología se

asocian mediante definiciones los nombres de las entidades en el universo de discurso, (por

ejemplo clases, relaciones, funciones u otros objetos) con un texto legible por el hombre

que las describe y con axiomas que restringen la interpretación y otorgan la característica

de bien formados a dichos términos. Formalmente, una ontología es la declaración de una

teoría lógica.

Page 51: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 38  

En 1995, Guarino y Giaretta realizan un estudio en el que recopilan siete definiciones

donde el concepto de ontología tiene distintas interpretaciones (Guarino, et al., 1995).

1. La ontología como una disciplina filosófica.

2. La ontología como un sistema conceptual informal.

3. Ontología como una cuenta formal de la semántica.

4. Ontología como una especificación de una conceptualización

5. Ontología como una representación de un sistema conceptual de la teoría por medio

de la lógica.

a. Caracterizado por propiedades formales específicas

b. Caracterizada por sus fines específicos.

6. Ontología como el vocabulario utilizado por una teoría lógica.

7. Ontología como una meta de la especificación de una teoría lógica

Estas definiciones (exceptuando la de contenido filosófico) pueden ser clasificadas en dos

grupos:

• Las que conciben la ontología como un marco conceptual a nivel semántico

(definiciones 2 y 3).

• Las que la conciben como un objeto concreto a nivel sintáctico con un uso guiado

por un propósito específico (definiciones de la 4 a la 7). Para Guarino una ontología

es un artefacto de ingeniería, construido por un vocabulario específico utilizado para

describir una cierta realidad, más un conjunto de hipótesis explícitas en relación con

el significado de las palabras del vocabulario (Guarino, 1998).

Se considera que estamos ante un recurso de la ingeniería compuesto por un vocabulario

con un significado acotado, cuya finalidad es la descripción de una porción de la realidad.

Page 52: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 39  

En 1996, Bernaras propone su definición y dice que una ontología proporciona los medios

para describir explícitamente lo que hay detrás de la conceptualización del conocimiento

(Bernaras, et al., 1996).

Además de las características ya mencionadas en otras definiciones -descripción explícita

de una conceptualización, que aporta el significado, Bernaras nuevamente hace referencia a

la ontología como recurso destinado a representar el conocimiento en una base de

conocimiento.

Para Swartout una ontología es un conjunto estructurado de términos que describen algún

dominio o tema. La idea es que una ontología proporciona el esqueleto de una base de

conocimientos (Swartout, et al., 1997).

Esta definición no aporta información nueva sobre las características que se han estado

perfilando a partir de los demás autores citados, sin embargo es interesante rescatar el

entorno del cual surge: la preocupación por compartir conocimiento entre sistemas a fin de

reducir costos, dificultades y la conexión explícita como parte de una base de datos de

conocimiento.

Uschold y Gruninger, en cambio entienden que la ontología es el término utilizado para

referirse a la comprensión común de algún dominio de interés y puede ser usado como un

marco unificador para resolver problemas. Una ontología implica necesariamente una

especie de visión del mundo con respecto a un determinado dominio. La visión del mundo

se suele concebir como un conjunto de conceptos (por ejemplo, entidades, atributos,

procesos) sus definiciones e interrelaciones; esto es lo que se denomina conceptualización

(Uschold, et al., 1996).

Estos autores también insisten sobre la naturaleza explícita de la representación que la

ontología aporta sobre una conceptualización.

En 1997, Borst reformula la definición de Gruber precisando que las ontologías son

definidas como la especificación formal de la conceptualización compartida (Borst, 1997).

El aporte de dicha precisión es incluir la calificación de compartida a la noción de

Page 53: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 40  

conceptualización, cuando en el carácter de compartido subyace una de las razones de la

existencia de las ontologías como recursos.

Studer considera que, de las múltiples definiciones dadas sobre ontologías, la de (Gruber,

1993) y la de (Borst, 1997) son las que logran captar lo fundamental de dicho concepto, y

son fusionadas en la siguiente definición: Una ontología es una especificación explicita

formal de una conceptualización compartida (Studer, et al., 1998).

Los elementos que componen esta definición, son explicados por los autores de la siguiente

forma:

a) Conceptualización: se refiere a un modelo abstracto de algún fenómeno en el

mundo proveniente de haber identificado los conceptos relevantes de dicho

fenómeno.

b) Explícita: alude a que el tipo de concepto usado y las restricciones para su uso

son explícitamente definidas.

c) Formal: se refiere al hecho de que la ontología debería ser legible por una

maquina.

d) Compartida: refleja la noción de que una ontología captura conocimiento

consensual, que no es objeto de un solo individuo, sino aceptado por un grupo.

Las definiciones expuestas anteriormente nos muestran que hay una gran variedad de

interpretaciones que se enfocan al concepto de ontología, sintetizando se puede decir que

una ontología es: una representación explícita y formal de una conceptualización

compartida que da una perspectiva de la realidad y constituye una estructura conceptual de

una base de conocimiento, con la finalidad de compartir el conocimiento que representa.

3.3.2. Partes de una ontología En (Gruber, 1993) y (Torres, et al., 2008) se definen las partes que componen a las

ontologías. Es importante mencionar que estos puntos son la esencia de una ontología

Page 54: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 41  

Clases: Son las ideas a formalizar y representan los conceptos en el sentido más amplio.

Las clases en una ontología se suelen organizar en taxonomías a las que se les pueden

aplicar los mecanismos de herencia.

Contexto: Circunstancia bajo la cual un concepto está siendo ocupado.

Conceptos: Son las ideas básicas que se intentan formalizar. Los conceptos pueden ser

clases de objetos, métodos, planes, estrategias, procesos de razonamiento, etc.

Relaciones: Representan la interacción y enlace entre los conceptos del dominio. Suelen

formar la taxonomía del dominio. Por ejemplo: subclase-de, parte-de, parte-exhaustiva-de,

conectado-a, etc.

Instancias. Concepto particular que ya no puede ser partido (concepto atómico o concepto

terminal).

Axiomas Los axiomas formales sirven para modelar sentencias que son siempre ciertas.

Además también se usan para verificar la consistencia de la propia ontología.

Restricciones: Manejadas para omitir algunos casos.

Atributos. Ayudan a entender mejor a una relación.

3.3.3. Tipos de ontologías Guarino en (Guarino, et al., 1995) clasifica las ontologías de acuerdo con su dependencia y

relación con una tarea específica desde un punto de vista (ver Figura 3.1).

• Ontologías de Alto Nivel o Genéricas: Describen conceptos más generales. En

relación con los Sistemas de Información, estas ontologías describirían conceptos

básicos. Por ejemplo, una teoría describiría partes y todos, y sus relaciones con la

topología.

Page 55: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 42  

• Ontologías de Dominio: Describen un vocabulario relacionado con un dominio

genérico. Por ejemplo, podría ser una descripción de datos y entidades relacionados

con la sensorización remota con un ambiente urbano.

• Ontologías de Tareas o de Técnicas básicas: Describen una tarea, actividad o

artefacto. Por ejemplo, la evaluación de la contaminación sonora en ambientes

urbanos o la descripción de características generales de componentes, procesos o

funciones.

• Ontologías de Aplicación: Describen conceptos que dependen tanto de un dominio

específico como de una tarea específica y, generalmente son una especialización de

ambas. Fonseca propone que este tipo de ontologías nazcan a partir de una

combinación de ontologías de niveles superiores (Fonseca, 2000). Ellas representan

las necesidades de los usuarios relacionados con una aplicación específica.

Otra clasificación es la propuesta por Van Heijst (Van Heijst, et al., 1996) :

• Ontologías terminológicas: Especifican los términos que son usados para

representar el conocimiento en el universo del discurso. Suelen ser usadas para

unificar vocabulario en un campo determinado.

• Ontologías de información: Especifican la estructura de almacenamiento de bases

de datos. Ofrecen un marco para el almacenamiento estandarizado de información.

• Ontologías de modelado de conocimiento: Especifican conceptualizaciones del

conocimiento. Contienen una rica estructura interna y suelen estar ajustadas al uso

particular del conocimiento que describen.

Page 56: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 43  

Figura 3.1. Tipo de ontologías

3.3.4. Editor de ontologías Para la construcción de una ontología es necesario contar con un editor que nos permita

almacenar el conocimiento de una manera organizada.

Protégé (Protégé, 2008) fue desarrollado por Stanford Medical Informatics (SMI) en la

Universidad de Stanford. Actualmente es uno de los editores de ontologías más usados por

investigadores para desarrollar sus ontologías, ya que es una herramienta que se actualiza

con bastante regularidad y a la que se le pueden añadir módulos y plugins con nuevas

funcionalidades y que además son gratuitos. Permite que la ontología desarrollada se

exporte a los diferentes lenguajes de especificación más empleados actualmente (RDF,

DAML, OWL, etc.). También podemos exportar nuestra ontología a modelos de bases de

datos persistentes y emplear algún gestor de base de datos para almacenar nuestro

conocimiento, tal es el caso de Mysql.

3.3.5. Sistemas de almacenamiento Los sistemas de almacenamiento de ontologías nos permiten mantener las ontologías en

bases de datos e ir añadiendo nueva información y con ayuda de razonadores podemos

probar la consistencia de la ontología. La mayoría de los sistemas de almacenamiento están

orientados a descripciones de conceptos escritos en RDF.

Page 57: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 44  

Existe una gran cantidad de herramientas que nos permiten manipular y almacenar los

archivos propios que describen a las ontologías, sin embargo, para esta investigación

hacemos uso de un marco de trabajo de Java llamado Jena. A continuación damos una

breve descripción:

Jena 2 (Jena, 2007) colección de herramientas desarrollado por Hewlett- Packard enfocado

a la Web Semántica. En esta colección, hay un parser para RDF, un API, el lenguaje de

consulta RDQL, soporte para ontologías RDFS, DAML + OIL y OWL y un sistema de

almacenamiento basado en bases de datos BerkeleyDB4.

3.3.5.1. Lenguajes de consultas

RQL (RDF Query Language – por sus siglas en ingles) es un lenguaje de consulta para

RDF y RDF Schema basado en OQL (Object Query Language). RQL nos permite navegar

por los grafos que hay en el modelo RDF y proporciona un mecanismo para preguntar y

seleccionar los nodos del modelo que queramos recuperar (RQL, 2007).

La característica primordial de este lenguaje es que tiene construcciones propias específicas

para las relaciones semánticas dentro del RDF Schema, como pueden ser las relaciones de

clase/instancia, clase/propiedad o el dominio y rango de una propiedad, esto hace más fácil

la recuperación de información de los nodos del modelo.

RDQL (RDF Data Query Language – en sus siglas en ingles) (SPARQL, 2007) fue

desarrollado por HP para que fuese el lenguaje de consulta para RDF en los modelos de

Jena, con la idea de convertirse en un modelo de consulta orientado a datos por ser una

aproximación más declarativa. Debido a esto, sólo se pueden hacer consultas sobre la

información que hay en el modelo, por lo que la inferencia o razonamiento no es posible.

RDQL deriva de SquishQL que es un lenguaje de consulta para RDF, que a la vez deriva de

                                                            4 BerkeleyDB es una base de datos enlazable con C, C++, Java, Perl, Python, TCL y muchos otros lenguajes. Soporta múltiples datos para una misma clave.

Page 58: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 45  

rdfDB5, y son una clase de lenguajes para RDF, no para el RDF Schema a no ser que esté

explícitamente en el modelo que se maneje (RDQL, 2007).

Como RDF provee una estructura de grafos, donde los nodos son recursos o literales,

RDQL permite especificar el patrón de la tripleta <sujeto, predicado, objeto> que queremos

buscar en el grafo del modelo para poder recuperar cualquier parte de la tripleta,

devolviendo todas las tripletas que cumplan el patrón que se le pasa como parámetro (muy

parecido a cómo actúa RQL).

Tiene la desventaja de no permitir realizar ninguna inferencia, la utilización para obtener

resultados es limitada. Por otro lado las ventajas radican en la sencillez de manejo, ya que

solo es necesario tener claro que tripleta <sujeto, predicado, objeto> se quiere preguntar y

la facilidad de integración con el lenguaje Java.

SPARQL (SPARQL, 2007) es un lenguaje de consultas para grafos RDF propuesto

recientemente por W3C. Ofrece a los desarrolladores y usuarios finales un camino para

presentar y utilizar los resultados de búsquedas a través de una gran variedad de

información como puede ser datos personales, redes sociales y metadatos sobre recursos

digitales, como música e imágenes. SPARQL también proporciona un camino de

integración sobre recursos diferentes. Este lenguaje permite:

• Extraer información en diversas formas, incluyendo URIs.

• Extraer subgrafos RDF.

• Construir nuevos grafos RDF basados en la información de los grafos consultados.

3.4. Jerarquías y Teoría de Confusión En este apartado se explican algunos conceptos básicos que son útiles para el entendimiento

del uso de jerarquías y la teoría de confusión (Levachkine, et al., 2004).

                                                            5rdfDB es un proyecto que está pensado para ser una base de datos de código abierto para RDF simple y escalable.

Page 59: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 46  

3.4.1. ¿Por qué usar jerarquías? Una jerarquía la podemos definir de forma sencilla como una representación gráfica en

forma de árbol, donde la partición de cada nodo es mostrada de manera descendente, es

decir, los nodos hijos serán subconjuntos del nodo padre, además las jerarquías mantienen

una relación única. Consideramos a la Jerarquía como un caso particular de la ontología.

Se hace uso de las jerarquías para la recuperación de objetos en una base de datos espacial

y así mismo definir una semejanza semántica entre los objetos recuperados con ayuda de la

teoría de Confusión.

Las jerarquías son más fáciles de entender y de poner en ejecución a diferencia de una

ontología como tal.

3.4.2. El concepto de Jerarquía En (Levachkine, et al., 2007) se dan las siguientes definiciones, las cuales son de gran

utilidad para comprender de manera más precisa el concepto de Jerarquía.

Definición (Conjunto de elementos). Un conjunto E cuyos elementos se definen

explícitamente.

Ejemplo: {rojo, azul, verde, naranja, amarillo}.

Definición (Conjunto ordenado). Un conjunto de elementos cuyos valores están ordenados

por la relación < (“menor que”)

Ejemplo: {muy frío, frío, templado, tibio, caliente, muy caliente}.

Definición (Cubrimiento). K es un cubrimiento del conjunto E si K es un conjunto de

subconjuntos ei ⊂ E, tal que ∪iei = E.

Page 60: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 47  

Cada elemento de E está en algún subconjunto ei ∈ K. Si K no es un cubrimiento de E,

podemos hacerlo añadiendo un nuevo ej, denominado “otros”, que contiene todos los

elementos restantes de E que no pertenecen a ningún ei previo.

Definición (Conjunto exclusivo). K es un conjunto exclusivo si ei ∩ ej = ∅, para

cada ei, ej ∈ K

Sus elementos son mutuamente exclusivos. Si K no es un conjunto exclusivo, podemos

hacerlo reemplazando cada par que se traslape ei, ej ∈K con tres: ei – ej, ej - ei, y ei ∩ ej.

Definición (Partición). P es una partición del conjunto E, si P es cubrimiento y conjunto

exclusivo de E.

Definición (Variable cualitativa). Una variable uni-valuada que toma valores simbólicos.

Su valor no puede ser un conjunto. Por simbólico entendemos que es cualitativo, opuesto a

numérico, o variables cuantitativas.

Definición (Valor Simbólico). Un valor simbólico v representa al conjunto E, descrito por

v ∝ E, si v puede considerado un nombre o una representación de E.

Definición (Jerarquía). Para un elemento del conjunto E, una jerarquía H de E es otro

conjunto de elementos, donde cada ei es un valor simbólico que representa a cualquier

elemento de E o una partición; y ∪ι { ρι | ει ∝ ρι } = E (La unión de todos los conjuntos

representados por los ei de E).

Suponga una Jerarquía H1, Para un conjunto E = {Canada, USA, México, Cuba,

Puerto_Rico, Jamaica, Guatemala, Honduras, Costa_Rica}, la jerarquía H1 es

{Norte_America, Islas_Caribe, America_Central}, donde Norte_America ∝ {Canada,

USA, Mexico}; Islas_Caribe ∝ {Islas_Hispano-parlantes, English_Speaking_Island};

Islas_Hispano-parlantes∝ {Cuba, Puerto_Rico}; English_Speaking_Island ∝ {Jamaica};

America_Central ∝ {Guatemala, Honduras, Costa_Rica}.

Page 61: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 48  

Las jerarquías facilitan la comparación de los valores cualitativos que pertenecen a ella.

Definición (Variable Jerárquica) Una variable jerárquica es una variable cualitativa cuyos

valores pertenecen a la jerarquía (El tipo de dato de una variable jerárquica es jerarquía).

Ejemplo: lugar_de_origen toma valores de H1.

Definición Se utilizará la siguiente notación: a) padre_de (v). En un árbol que representa

una jerarquía, el nodo padre_de un nodo es aquel del cual desciende; b) los hijos_de (v)

son los valores que cuelgan de v. Los nodos con el mismo padre son hermanos; c) abuelo

de, hermano_de, tío_de, ascendentes, descendientes... son definidos, cuando ellos

existen; d) La raíz es el nodo que no tiene padre.

3.4.2.1. Jerarquía simple, ordenada, porcentual y mixta

Una jerarquía describe la estructura de valores cualitativos en un conjunto E. Son definidas

las siguientes jerarquías:

Definición (Jerarquía Simple): Una jerarquía simple (normal) es un árbol con raíz E y si

un nodo tiene un hijo, éste forma una partición del padre.

Una jerarquía simple describe una jerarquía donde E es un conjunto (así sus elementos no

se repiten ni son ordenados).

Ejemplo: ser viviente {animal {mamífero, pez, reptil, otro animal}, planta {árbol, otra

planta}}.

Definición (Jerarquía Ordenada): En una jerarquía ordenada, los nodos de algunas

particiones obedecen una relación de orden.

Ejemplo objeto {diminuto, pequeño, mediando, grande}

Definición (Jerarquía Porcentual): En una jerarquía porcentual, el tamaño de cada

conjunto es conocido.

Page 62: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 49  

Ejemplo: Continente Americano (740M) {Norteamérica (430M) {USA(300M),

Canadá(30M), México(100M)} América Central (10M), Sudamérica(300M)}.

Definición (Jerarquía Mixta): Una jerarquía mixta combina los tres casos anteriores

Para cada uno de los tipos de jerarquías se define conf(r,s) como el error de usar un valor r

en vez de s.

3.4.3. Teoría de Confusión El cambio cualitativo y cuantitativo en las necesidades de la información de la sociedad,

obligan a elaborar un sistema más eficiente para agilizar los procesos de información

geográfica, por esta razón se necesita elaborar un modelo alterno para representar la misma.

Las investigaciones recientes en la recuperación de datos y la integración de los datos han

acentuado el uso de ontologías y de funciones semánticas de la semejanza como

mecanismo para comparar los objetos que se pueden recuperar o integrar a través de los

depósitos heterogéneos. En este contexto, una ontología es un tipo de base de conocimiento

que describe conceptos con definiciones suficientes para obtener la semántica de un

dominio. Una ontología representa cierta vista del mundo, apoya preguntas intencionales

con respecto al contenido de la base de datos, y refleja la importancia de datos

proporcionando una descripción declarativa (Levachkine, et al., 2004).

Con el fin de modelar la similitud semántica entre una o varias jerarquías empleamos una

medida asimétrica dependiente del contexto denominada confusión, que es definido como

el grado de error que existe entre elegir un concepto u otro. Esto nos permite ponderar los

valores esperados en una consulta realizada a nuestra base de datos espacial. El término

confusión fue pensado para medir distancias entre conceptos de una forma sencilla

respetando algunas reglas propuestas.

Page 63: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 50  

3.4.3.1. Confusión de usar r en vez de s para jerarquías simples

Definición. Si r, s ∈ H, entonces la confusión de usar r en vez de s, que se escribe como

conf(r, s), es:

• conf (r, r) = conf (r, s) = 0, donde s es cualquier ascendente de r; (regla 1)

• conf (r, s) = 1 + conf (r, padre_de(s)) . (regla 2)

Para medir conf, se cuentan los enlaces descendentes de r a s, al valor reemplazado.

3.4.3.2. Confusión de usar r en vez de s, para jerarquías ordenadas

Definición. Para jerarquías simples compuestas por conjuntos ordenados, la confusión de

usar r en vez de s, conf’ (r, s), se define como:

• conf’ (r, r) = conf (r, cualquier ascendente de r) = 0;

• Si r y s son hermanos distintos, conf’ (r, s) = 1 Si el padre no está en un conjunto

ordenado; entonces, conf’ (r, s) es igual a la distancia relativa de r a s es y a la vez

es igual el número de pasos requeridos para llegar de r a s en el orden definido,

dividido entre la cardinalidad-1 del padre; (regla 3)

• conf’ (r, s) = 1 + conf’(r, padre_de(s)).

Esto es como conf para las jerarquías constituidas por conjuntos, excepto que allí el error

entre dos hermanos es 1, y aquí es un número ≤ 1.

Por ejemplo: Temperatura ={congelado, frío, normal, tibio, caliente, ardiendo}; en esta

listaconf’ (congelado, frío) = 1/5, mientras que la conf’ (congelado, ardiendo) = 5/5 = 1.

Page 64: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 51  

3.4.3.3. Confusión de usar r en vez de s, para jerarquías porcentuales

Considerando la jerarquía H (de un elemento del conjunto E) pero compuesta por un

conjunto desordenado en vez de un conjunto ordenado.

Definición. Para conjuntos desordenados, la confusión de usar r en lugar de s, conf’’ (r, s),

es:

• conf’’ (r, r) = conf’’ (r, s) = 0, cuando s es cualquier ascendente de r;

• conf’’ (r, s) = 1 – proporción relativa de s en r. (regla 4)

3.4.3.4. Confusión de usar r en vez de s, para jerarquías mixtas

Definición. Para calcular conf’’’(r, s) en una jerarquía mixta:

• Aplicar (regla 1) para la ruta ascendente de r a s;

• En la ruta descendente, usar (regla 3) en vez de (regla 2), si p es un conjunto

ordenado; o usar (regla 4) en vez de (regla 2), cuando los tamaños de p y q son

conocidos.

Es decir, usar (regla 4) para las jerarquías porcentuales en lugar de (regla 2). Esta definición

es consistente y reduce las definiciones previas de jerarquías porcentuales, simples,

ordenadas y mixtas.

3.4.4. El conjunto de valores que son iguales a otros, dada una confusión Definición. Un valor u es igual al valor v, dentro de una confusión dada ε, escrita u =ε v, ssi

conf(u, v) ≤ ε (Esto significa que el valor u puede ser usado en vez de v, con un error ε).

Page 65: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 52  

Ejemplo: Si v = limón (Figura 3.2), entonces (a) el conjunto de valores es igual a v con

confusión 0 es {limón}; (b) el conjunto de valores iguales a v con confusión 1 es {cítrico,

limón}; (c) el conjunto de valores iguales a v con confusión 2 es {planta, cítrico, pino,

limón}.

Figura 3.2. Jerarquía de ser vivo

3.4.5. Consultas empleando confusión Objetos que poseen muchas propiedades (o variables), algunos de ellos probablemente

como variables jerárquicas, pueden ser almacenados como renglones en una base de datos

relacional. Se extiende la noción de consulta en tablas con variables jerárquicas, definiendo

el conjunto de objetos que satisfacen un predicado P dada una confusión ε.

Definición. P se cumple para el objeto o con una confusión ε, o P se cumple para o con ε,

1. Cuando P está formado por variables no-jerárquicas, Ssi P es verdadero para o;

2. Cuando pr (propiedad) es una variable jerárquica y P es de la forma (pr = c), ssi

para el valor v de la propiedad pr en el objeto o, v =ε c (si el valor v del objeto puede

ser usado en vez de c con confusión ε);

3. Cuando P es de la forma P1∨ P2, ssi P1 se cumple para o con ε o P2 se cumple para

o con ε;

Page 66: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 53  

4. Cuando P es de la forma P1∧ P2, ssi P1 se cumple para o con ε y P2 se cumple para

o con ε;

5. Cuando P es de la forma ¬ P1, ssi P1 no se cumple para o con ε.

Ejemplo: Definiendo una serie de predicados P = (vive_en = USA) ∨ (mascota = gato), Q

= (vive_en = USA) ∧ (mascota = gato), R = ¬ (vive_en = Spanish_Speaking_Island); y los

objetos (Ann (vive_en USA) (mascota víbora)), (Bill (vive_en English_Speaking_Island)

(mascota cítrico)), (Fred (vive_en USA) (mascota gato)), (Tom (vive_en México) (mascota

gato)), (Sam (vive_en Cuba) (mascota pino)). Los resultados son mostrados en la Tabla 3.1.

Tabla 3.1. Resultados de acuerdo a los predicados P, Q, R.

  P con εpara  Q con εpara  R con εpara ε=0  Ann, Fred, Tom Fred Ann, Bill, Fred, Tomε=1  Ann, Fred, Tom Fred, Tom Ann, Fred, Tom ε=2  Ann, Fred, Tom, Sam Ann, Fred, Tom Nada 

3.4.6. Objetos idénticos, muy similares, algo similares. Los objetos son entidades descritas por pares k (propiedades, valores), que en la notación se

hará referencia como pares (variable, valor) (Levachkine, et al., 2007) . En bases de datos

son denominados como pares (relación, atributo). Un objeto o con k pares (variable, valor)

es escrita como (o (v1 a1) (v2 a2)... (vk ak)).

Se desea estimar el error de utilizar el objeto o’ en vez del objeto o. Para un objeto o con k

(tal vez jerárquica) variables v1, v2 ,…, vk y valores a1 , a2 ,…, ak, decimos que otro objeto

o’ con las mismas variables v1, v2 ,…, vk pero con valores a’1, a’2 ,…, a’k, se presentan las

siguientes definiciones:

Definición o’ es idéntico a o, if a’i = ai para todas 1≤ i ≤ k. Los valores correspondientes

son idénticos.

Page 67: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 3. Marco teórico

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 54  

Si todo lo que sabemos sobre o y o’ son los valores de las variables v1 , v2 ,…, vk, y ambos

objetos tienen valores idénticos, podemos decir que “con todo lo que sabemos,” o y o’ son

el mismo.

Definición o’ es substituto para o, si conf (a’i , ai) = 0 para todo 1≤ i ≤ k.

No se trata de una confusión entre el valor del atributo de o’ y el valor correspondiente de

o. Se puede usar o’ en vez del o solicitado con confusión 0.

Definición o’ es muy similar a o, si Σi conf (a’i, ai) = 1.

Definición o’ es similar a o, si Σi conf (a’i, ai) = 2.

Definición o’ es algo similar a o, si Σi conf (a’i, ai) = 3.

Definición En general, o’ es similarn a o, si Σi conf (a’i, ai) = n.

3.5. Comentarios finales En este capítulo presentamos algunos aspectos y características de los GIS, bases de datos

espaciales, ontologías, jerarquías y teoría de confusión. Estos temas son descritos con la

finalidad de fortalecer la presente investigación. Es necesario tener conocimiento sobre los

GIS, ya que estos han tomado auge en los últimos años y se han encargado de procesar la

información geográfica, sin embargo el enfoque de esta tesis va dirigido a buscar nuevas

formas de representación de la información geográfica, el uso de las ontologías en su forma

simple (jerarquías), es la alternativa que se propone para mejorar el procesamiento de la

información geográfica y con ayuda de la teoría de confusión se pretende dotar de

inteligencia a nuestro sistema de recuperación.

Page 68: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 55  

CAPÍTULO 4. METODOLOGÍA En este capítulo se describe la metodología propuesta para llevar a cabo la búsqueda de

información contenida en una base de datos conceptual heterogénea, dicha base es generada

a partir de una conceptualización del dominio geográfico.

La tendencia de los sistemas actuales de recuperación de información geográfica va dirigida

a evitar valores nulos; es decir, si no se encuentra coincidencia exacta, presentar respuestas

similares. Usando Jerarquías (caso específico de las ontologías) podemos evaluar la

similitud semántica que existe entre los conceptos de la misma.

De igual manera ponderar y controlar los resultados de las búsquedas. En este sentido, el

empleo de ontologías es un recurso que nos permite representar el conocimiento a nivel

computacional. Según la definición de Gruber “Una ontología es una especificación

explícita de una conceptualización”. Una conceptualización es una abstracción, una vista

simplificada del mundo que se desea representar. De manera general decimos que las

ontologías son el resultado de seleccionar un dominio (en nuestro caso el dominio

geográfico) y aplicar sobre dicho dominio un método para obtener una representación

formal de los conceptos que contiene y las relaciones que existen entre éstos.

Las fuentes de información empleadas en este trabajo son obtenidas de los diccionarios de

datos geográficos que maneja el INEGI (INEGI, 1995), siendo este el coordinador de los

sistemas y servicios nacionales de Estadística y de Información Geográfica de México.

En el contexto de esta investigación, a partir de los datos proporcionados por el INEGI de

uso de suelo y vegetación, se elabora una base de datos conceptual. La semántica de los

datos se obtiene a partir de estructuras jerárquicas y por medio de confusión podemos

ponderar y controlar con un cierto grado de error la información que consulte el usuario.

Page 69: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 56  

La metodología propuesta en esta investigación la conforman cuatro etapas: Análisis de los

datos, Análisis Semántico, Procesamiento y Presentación de resultados. En la Figura 4.1 se

muestra el diagrama general de la metodología a desarrollar.

Figura 4.1. Esquema general de la metodología propuesta

Basándonos en datos ya existentes se realiza una conceptualización que posteriormente es

almacenada en una base de datos y a través de un modelo de abstracción se recupera la

información.

Análisis de datos: En esta etapa la información proporcionada por el INEGI es organizada

y almacenada en una base de datos espacial. Por un lado, los datos se guardan en un

modelo persistente (duradero) y por otro, se determina qué información será estructurada de

manera jerárquica en ficheros OWL (almacenamiento en memoria) para dotar de semántica

al modelo persistente.

Análisis semántico: En esta etapa se emplea la teoría de confusión para determinar la

distancia semántica que existe entre conceptos de las jerarquías. Esta etapa es el corazón de

nuestro sistema dado que partiendo de las distancias semánticas es posible ponderar la

información. Las estructuras jerárquicas empleadas en esta investigación son de dos tipos,

Page 70: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 57  

simples y ordenadas. Nuestro caso de estudio se basa en los diccionarios de datos

geográficos de Uso del Suelo y Vegetación de México, para el diseño de las jerarquías se

consideran algunas propiedades importantes como son: ubicación, producción y clima.

Procesamiento: Consiste en la búsqueda y el manejo de los datos tanto del modelo

persistente como del modelo almacenado en memoria respectivamente. Esto se logra

usando Jena, un marco de trabajo de Java empleado principalmente para aplicaciones en la

Web semántica. Jena incluye un motor de consultas llamado SPARQL (SPARQL Protocol

and RDF Query Language – por sus siglas en inglés), el cual es un lenguaje de

recuperación para archivos propios de ontologías (XML, RDF, OWL, entre otros).

Presentación de resultados: Es la parte final del esquema general donde se visualizan los

resultados mediante una aplicación Web y un servidor de mapas. Es la interfaz gráfica

donde el usuario interactúa con el sistema para obtener respuesta a sus consultas.

La base de datos espacial es generada con base en un modelo jerárquico elaborado en el

sistema Protégé, posteriormente mediante una herramienta de dicho sistema exportamos la

información al gestor de base de datos MySql. El modelo jerárquico facilita la organización

de la información y permite emplear métodos que miden la similitud entre elementos del

mismo modelo. El hecho de almacenar nuestra información en MySql no implica que se

puedan hacer consultas con lenguaje SQL como se haría con una base de datos tradicional,

el modelo necesita ser consultado con un lenguaje propio y especializado para buscar datos

en este tipo de estructuras, para ello se ocupa SPARQL.

4.1. Arquitectura funcional del sistema En el apartado anterior, se mencionaron los cuatro bloques generales de la metodología que

se propone en esta investigación. En esta sección se describe la arquitectura funcional del

sistema, así mismo se describen los componentes que la integran.

Page 71: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 58  

Partiendo del conocimiento del dominio geográfico podemos realizar una

conceptualización por medio de una clasificación jerárquica. A continuación se muestra la

arquitectura funcional del sistema (ver Figura 4.2).

Figura 4.2. Arquitectura funcional del sistema

En la Figura 4.2 se observa que todo inicia a partir de los datos proporcionados por el

INEGI, posteriormente se realiza la conceptualización del dominio geográfico y se

organizan los datos en estructuras jerárquicas.

Con la conceptualización realizada se define la información que estará contenida en la base

de datos espacial, así como las propiedades que servirán para enriquecer semánticamente a

dicha base. Estas propiedades son características que consideramos relevantes para

describir nuestro dominio y también se estructuran en jerarquías; a partir de dichas

propiedades se hace el cálculo de la similitud semántica empleando confusión.

Jena en conjunto con el lenguaje de consultas SPARQL son los encargados de analizar

tanto el modelo persistente donde se encuentra la información, como el almacenamiento en

Page 72: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 59  

memoria representado por archivos OWL que simbolizan las propiedades que caracterizan

a la base de datos.

Finalmente se presentan los resultados mediante una aplicación Web y un servidor de

mapas que nos permite desplegar los resultados de manera gráfica.

4.2. Conceptualización del dominio geográfico La conceptualización del dominio geográfico denota el principio de esta investigación y por

ende es de suma importancia, ya que con base en ella se obtiene la base de datos conceptual

y se crean las jerarquías donde posteriormente se aplica confusión para determinar la

similitud semántica ente conceptos. Esta tesis está dirigida al almacenamiento y

procesamiento de datos geográficos considerando a la semántica un factor principal para su

manejo, a diferencia de los sistemas actuales que dan mayor importancia a la parte

alfanumérica, en la medida de que es esta la que nos permite hablar de entidades

geográficas y no solamente de objetos gráficos. Además, mientras que las operaciones

topológicas puedan ser limitadas, los procesos limitados con las tablas de una base de datos

están limitados solo por cantidad de información disponible.

4.2.1. Características de los datos geográficos En (Moreno Ibarra, 2007) se describe que las bases de datos espaciales almacenan datos

descriptivos y espaciales. Los descriptivos están orientados a las características atributivas

de los datos, tales como área de los objetos, identificadores, entre otros. Por otra parte, los

datos geoespaciales o datos geográficos son instancias de los objetos geográficos que

existen en la realidad

Cuando se desea modelar datos se tropieza con serios problemas para identificar las

características que debe tener algún tipo de dato; así abstraer la realidad para modelarla a

través de datos sigue siendo una tarea difícil.

Page 73: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 60  

4.2.2. Diseño de jerarquías La información está organizada en forma de jerarquías, lo cual implica que los datos son

definidos de un nivel general a uno particular.

Para propósitos de esta tesis las jerarquías estarán compuestas por:

• Clases. Una clase define un grupo de individuos que pertenecen a la misma ya que

comparten algunas propiedades.

• Propiedades. Las propiedades pueden utilizarse para establecer relaciones entre

individuos.

• Relaciones. Las relaciones son propiedades que conectan dos conceptos de manera

biunívoca. Dado que tratamos con jerarquías, cada estructura maneja una relación

única.

4.2.2.1. Diseño de la base de datos espacial

El diseño de la base de datos espacial está elaborado con base en los datos que proporciona

el INEGI, dicha base se genera a partir de una estructura jerárquica que se elabora mediante

el sistema Protégé. En esta base se almacenan los datos correspondientes al dominio

geográfico en estudio.

Para el diseño de la base de dados se consideran tres etapas básicas:

• Diseño conceptual: En esta etapa son identificados los requerimientos de

información, así como los datos disponibles en el dominio geográfico que se

analiza.

• Diseño lógico: En esta etapa se analizan los datos con el fin de evitar redundancias

y se realiza una optimización general para construir el sistema formal de la base de

datos.

Page 74: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 61  

• Modelo físico: Consiste en la representación computacional (esto incluye archivos,

métodos de búsqueda, algoritmos de recuperación de información, análisis

semántico, entre otros.).

4.2.2.1.1. Diseño conceptual

Para el desarrollo de esta investigación partimos de la definición de un dominio geográfico;

con el objetivo de contribuir a la representación de una porción de dicho dominio se eligió

el uso del suelo y vegetación de México. Los datos se obtienen del diccionario de datos

geográfico de Uso del Suelo y Vegetación escala 1: 250 000 y algunas obras que

contribuyeron a la elaboración de estos diccionarios (Miranda, et al., 1963), (Rzedowsky,

1978).

El INEGI es un órgano autónomo del gobierno mexicano que coordina los sistemas y

servicios nacionales de estadística e información geográfica. Este órgano tiene entre otros

objetivos, reproducir la información geográfica que el país requiere para planificar y

conducir el aprovechamiento optimo de sus recursos naturales y culturales (INEGI, 1995).

En esta documentación se describen conceptos, restricciones y relaciones entre los datos.

En la carta de Uso de Suelo y Vegetación, se representa la localización y extensión de los

diferentes tipos de vegetación y agricultura, incluye también símbolos que indican

actividades de uso pecuario y forestal, y códigos de cultivos y diversas especies vegetales.

En relación con la clasificación y la nomenclatura de las comunidades vegetales de México,

se han presentado algunos problemas. Entre otros podemos mencionar:

• Inconsistencia en la diferenciación y clasificación de las comunidades vegetales.

• Inconsistencia en la denominación de las unidades de la vegetación.

• Categorías insuficientes y a menudo no bien delimitadas.

• Criterios subjetivos para clasificar y denominar las comunidades vegetales.

Page 75: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 62  

• Mezcla de diferentes sistemas de clasificación y denominación, originando

confusión.

Los objetivos para tener una clasificación y nomenclatura adecuadas para las comunidades

vegetales del país, son las siguientes.

• Mostrar la similitud y las diferencias de la composición florística y la estructura

entre las comunidades.

• Mostrar las relaciones de las comunidades con su hábitat, aunque a veces se

enfatizan más las características del ambiente que las de la vegetación.

• Con un criterio económico, las comunidades vegetales se clasifican por su uso real o

potencial, ya sea forestal, agrícola, pecuario, recreativo, entre otros.

El INEGI en la cartografía de Uso del Suelo y Vegetación escala 1:250, 000 considera los

tipos de vegetación mostrados en la 4; dichos tipos de vegetación fueron empleados para la

elaboración del reporte de la evaluación de los Recursos Forestales Mundiales.

Page 76: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 63  

Tabla 4.1. Tipos de Vegetación considerados por el INEGI

Tipos de

Vegetación

Clases de Uso del Suelo y Vegetación del INEGI

Bosque

Bosque de ayarín Bosque de cedro Bosque de oyamel Bosque de pino Bosque de pino-encino Bosque de encino

Bosque de encino – pino Bosque mesófilo de montaña Bosque de galería Bosque cultivado Bosque inducido

Selva

Selva alta perennifolia Selva alta subperennifolia Selva mediana perennifoliaSelva mediana subperennifolia Selva baja perennifolia Selva mediana subcaducifolia

Selva baja subcaducifolia Selva mediana caducifolia Selva baja caducifolia Selva baja espinosa Selva baja subperennifolia Selva de galería Petén

Comunidades

áridas y

semiáridas

Matorral de coníferas Bosque de táscate Matorral subtropical Mezquital (MKE) Mezquital (MK) Matorral submontano Matorral espinosos tamaulipeco Matorral sarcocaule Matorral sarco-crasicaule Matorral sarco-crasicaule de neblina Chaparral Mezquital (MKX)

Matorral crasicaule Matorral desértico micrófilo Matorral desértico rosetófilo Matorral rosetófilo costero Vegetación de desierto arenosos Vegetación de dunas costeras Vegetación gipsófila Vegetación halófila Vegetación halófila hidrófila Vegetación de galería

Manglar Manglar

Palmar Palmar natural Palmar inducido

Comunidades

subacuáticas Popal Tular

Page 77: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 64  

Con base en los datos descritos en la tabla anterior elaboramos nuestra base de datos

conceptual. Los tipos de vegetación representan los objetos que serán devueltos en las

consultas, para definir cada uno de estos objetos se definen algunas propiedades que los

caracterizan.

4.2.2.1.2. Diseño Lógico

En esta fase los datos son organizados a fin de evitar redundancias y así obtener un

esquema formal. En la Figura 4.3 se muestra la estructura definida para la base de datos

espacial, basada en la tabla de la sección anterior.

Propiedades heredadas a todas las subclases

Figura 4.3. Estructura de la base de datos

Nótese que la información tiene una estructura jerárquica, donde se definen tres

propiedades (ubicación, producción y clima) consideradas como básicas para caracterizar a

los diversos tipos de vegetación. Referirnos a una jerarquía es definir los datos de un nivel

general a uno particular.

Page 78: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 65  

Por otro lado, el almacenamiento de los datos es un reto superado, sin embargo la búsqueda

de información y la integración de la misma es un reto que aun se tiene que superar, a pesar

de la cantidad de información con la que se cuente aun existen ciertas preguntas por

responder, por ejemplo: ¿Se encuentra lo que se busca? o ¿Cómo se hacen las búsquedas?

La estructura jerárquica es elaborada en Protége y posteriormente es almacenada en un

modelo persistente de datos. Jena permite crear modelos persistentes, los cuales son

mantenidos de forma transparente al usuario en una base de datos relacional.

4.2.2.1.2.1. Descripción de propiedades

Las propiedades nos sirven para caracterizar los conceptos contenidos en la jerarquía.

Consideramos tres propiedades básicas:

• Ubicación. Propiedad que describe la localización geográfica de los diversos tipos

de vegetación existente en la República Mexicana.

• Producción. Esta propiedad describe la actividad productiva que se lleva a cabo en

las diferentes zonas vegetales de México.

• Clima. Se refiere a los climas dominantes en los tipos de vegetación.

Las propiedades pueden tener diferentes características, tales como el rango de valores

permitidos o la cardinalidad. Algunas de estas características son altamente dependientes de

la aplicación a la que se enfoque.

4.2.2.1.3. Modelo físico

A medida que más datos se almacenan en formatos como RDF/OWL, surge la necesidad de

encontrar una forma sencilla para la localización de información específica. SPARQL es un

nuevo y potente lenguaje de consultas, por lo que es fácil encontrar datos en archivos

RDF/OWL.

Page 79: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 66  

En la Figura 4.4 se muestra la estructura del modelo físico de la base de datos. La

arquitectura funcional de este módulo está compuesta por un bloque de consulta que se

encarga de la búsqueda de información en la base de datos, esto lo hace a través de

SPARQL.

Figura 4.4. Modelo físico de la base de datos

Como lenguaje de consulta SPARQL es orientado a datos, en el sentido de que puede

responder a la información contenida en los modelos, por otro lado Jena puede considerarse

como una herramienta que permite procesar la información de forma “inteligente” ya que

da la impresión de tener más parámetros para manipular la información e incluye un

razonador para OWL.

4.2.2.2. Jerarquías proveedoras de semántica

Con base en las propiedades definidas para la base de datos (ubicación, producción y clima)

son elaboradas las jerarquías, en las cuales mediremos la distancia semántica entre los

conceptos que las componen para poder ponderar los resultados de las consultas.

En el área de las ciencias de la información geográfica y de acuerdo con nuestra línea de

investigación, siempre ha sido de vital importancia responder a dos preguntas básicas:

Page 80: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 67  

• ¿Qué es?

• ¿Dónde está?

Para responder la primera pregunta basta mencionar que consideramos ciertas propiedades

que caracterizan los diferentes tipos de vegetación existentes en México. No obstante, para

responder la segunda es necesario incluir una referencia geográfica expresada por

coordenadas (latitud – longitud).

4.2.2.2.1. Jerarquía para la propiedad de “ubicación”

En la Figura 4.5 se encuentran organizados los 32 estados que conforman en territorio

mexicano de acuerdo a su ubicación.

  Incluimos una referencia geográfica para cada uno de los

32 estados

(Latitud, Longitud)

Figura 4.5. Jerarquía simple H1 para la propiedad ubicación

Page 81: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 68  

Los Estados Unidos Mexicanos presenta en su territorio diferentes divisiones, la principal

corresponde a la político-administrativa, la cual es considerada para la clasificación

mostrada en la figura anterior.

Nótese que la jerarquía correspondiente a la propiedad de producción, está compuesta por

un conjunto de clases y subclases que describen la distribución geográfica de los estados

dentro de la República Mexicana (norte, centro y sur), para elaborar esta jerarquía fueron

considerados aspectos contenidos en (INEGI, 2006). Aunado a esto incluimos la

coordenada geográfica que nos permite ubicar un punto sobre la superficie terrestre.

Es importante mencionar que sólo se consideran 32 puntos de localización, representando

así a cada uno de los estados de la República Mexicana.

4.2.2.2.2. Jerarquía para la propiedad de “producción”

En la carta de Uso del Suelo y Vegetación (INEGI, 1995), se representa la localización y

extensión de los diferentes tipos de vegetación y agricultura. Incluye también símbolos que

indican actividades de uso pecuario, forestal y códigos de cultivos y diversas especies

vegetales. La carta involucra información de campo acerca de prácticas agrícolas y cultivos,

así como estructura, composición, uso y dinámica de la vegetación.

En la Figura 4.6 se muestra la jerarquía simple que describe a la propiedad producción.

Considerando las actividades productivas que se realizan dentro del territorio nacional

mexicano y basándonos en los datos del INEGI se obtiene la jerarquía de clases

correspondiente.

Page 82: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 69  

Figura 4.6. Jerarquía simple H2 para la propiedad producción

4.2.2.2.3. Jerarquía para la propiedad de “clima”

Hasta el momento sólo hemos hablado de jerarquías simples, sin embargo, en ocasiones las

jerarquías obedecen a una relación de orden, tal es el caso de la jerarquía que describe los

climas principales de México (ver Figura 4.7).

Page 83: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 70  

Figura 4.7. Jerarquía de orden H3

En la figura anterior se muestra que la jerarquía obedece a una relación de orden, va de un

tipo de clima caluroso a un tipo de clima frio.

Una de las clasificaciones más conocidas y utilizadas para los climas es la que Wilhelm

Köppen propuso (Koeppen, 1948). En ella se contemplan cinco grupos climáticos

representados por las letras mayúsculas A (tropical), B (seco), C (templado), D (frío) y E

(polar). En México predominan los climas A, B y C; sólo en las partes más altas de su

territorio se encuentran climas fríos, debido a que son los climas que prevalecen en nuestro

país, fueron considerados para elaborar la jerarquía H3 de orden.

Los climas tropicales(A). Los climas tropicales se distribuyen en las llanuras costeras y en

parte de los estados de Jalisco, Colima, Michoacán, Guerrero, Oaxaca, Chiapas, Morelos,

Puebla, Veracruz, Tabasco y la mayor parte de la superficie de la península de Yucatán.

El clima templado (C). En México este tipo de clima se presenta en las zonas montañosas y

la parte sur de la Mesa Central.

Climas secos (B). En México, los climas secos se distribuyen en una amplia porción del

norte del país en los estados de Baja California, Sonora, Sinaloa, Chihuahua, Durango,

Coahuila, San Luis Potosí, Nuevo León, Zacatecas y Tamaulipas; aunque en los estados de

Yucatán, Puebla, Tlaxcala e Hidalgo existen porciones que presentan este clima.

El clima frío de altura (ETH) y el muy frío de altura (EFH). Sólo se presentan en las

mayores elevaciones del país, como el Popocatépetl y el Nevado de Toluca, cuyas cumbres

siempre están cubiertos de nieve.

Page 84: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 71  

4.3. Análisis Semántico Hasta el momento solo se ha hablado de organizar la información. En esta sección se hace

énfasis en el procedimiento que se lleva a cabo para proveer de amantica a los datos El uso

de jerarquías proporciona una forma de representar y compartir el conocimiento haciendo

uso de un vocabulario común para lograr la interoperabilidad y minimizar los problemas

relacionados con la heterogeneidad de datos descriptivos.

4.3.1. Confusión para jerarquías El cálculo de las distancias semánticas mediante la teoría de confusión es la parte medular

de esta investigación, para nuestro caso de estudio nos avocamos al uso de jerarquías

simples y de orden exclusivamente.

4.3.1.1. Confusión para jerarquías simples

Basándonos en las jerarquías ya elaboradas es necesario considerar una serie de reglas ya

establecidas que nos permiten calcular la similitud semántica entre elementos de una

jerarquía simple.

En la Figura 4.8 se eligen dos elementos de la jerarquía y se realiza el cálculo de la

distancia semántica por medio de confusión.

Page 85: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 72  

Figura 4.8. Elementos de una jerarquía simple para obtener la confusión

conf (SurDeMexico, Tamaulipas) = 1 + conf(SurDeMexico, NorteDeMexico)

= 1 + 1 + conf(SurdeMexico,RepublicaMexicana)

= 1 + 1+ 0

= 2

En la figura anterior se eligen dos elementos de la jerarquía (SurDeMexico, Tamaulipas) y

se obtiene un valor de confusión de 2, ahora bien, dado que la confusión está definida como

una medida asimétrica, no es lo mismo hacer el cálculo de la confusión de:

conf (Tamaulipas, SurDeMexico) = 1 + conf(Tamaulipas, RepublicaMexicana)

=1 + 0

=1

Page 86: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 73  

Obsérvese que el orden de los elementos si altera el resultado, sin embargo, estandarizando

y definiendo cual será el elemento de consulta no se tendrá ningún problema.

4.3.1.2. Confusión para jerarquías de orden

Para determinar la similitud semántica entre elementos de una jerarquía de orden también

existen ciertas reglas a seguir:

Consideremos la jerarquía de orden presentada en la Figura 4.7, tomando en cuenta la regla

adicional presentada para las jerarquías de orden se calcula la confusión tomando dos

elementos de la lista ordenada que denota los principales climas que prevalecen en México

(ver Figura 4.9).

Figura 4.9. Elementos considerados para la confusión en una jerarquía de orden

La confusión correspondiente conf(Tropical, Frio) para la Figura 4.9 es de 3/3=1. Nótese

que

4.3.2. Formas empleadas para consultas Las consultas se hacen hacia objetos que poseen propiedades (o variables), algunas de estas

tienen una estructura jerárquica. Ahora bien, las consultas se hacen con base en estas

variables jerárquicas que definen un conjunto de objetos que satisfacen a un predicado P

con un valor de confusión ε.

Los objetos para nuestro caso de estudio están definidos por los tipos de vegetación que

existen en México, los cuales poseen propiedades de ubicación, producción y clima, que a

su vez caracterizan a nuestros objetos

Page 87: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 74  

4.3.2.1. Confusión para predicados compuestos

Para predicados compuestos, es necesario tener un control más estricto de la confusión, es

decir, para este caso se propone un umbral definido por un valor de ε, el cual no deberá

excederse.

Para realizar una consulta compuesta es necesario considerar ciertos elementos. En la

Figura 4.10 se observan dos jerarquías, H1 y H2 respectivamente, se elige un elemento de

cada jerarquía y se forma un predicado mediante un conector lógico6.

Definimos formalmente a predicado, mediante la siguiente expresión:

donde:

• es un conjunto de elementos pertenecientes a una jerarquía que

cumplen con un valor de ε.

• k representa a las propiedades que se definen (producción, ubicación, clima).

Para ejemplificar las formas las formas de las consultas se proponen tres predicados de la

siguiente manera:

• P = Norte de México ∧ Actividad pecuaria

• Q = Norte de México ∨ Actividad pecuaria

• R = ¬ Norte de México

                                                            6 Los “conectores lógicos” permiten representaciones compuestas complejas, agrupando objetos y relaciones entre objetos

Page 88: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 75  

Figura 4.10. Elementos para las consultas compuestas.

Page 89: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 76  

En la figura anterior se muestra como se estructura una consulta compuesta empleando

elementos de diferentes jerarquías. Partiendo de un conjunto de datos se obtienen los

valores de confusión correspondientes, se considera el predicado P compuesto de dos

propiedades (ubicación, producción) y unido por el conector lógico AND.

Veamos una muestra de datos como una tabla donde cada tipo de vegetación tiene ciertas

propiedades que lo caracterizan. Hay que recordar que la base de datos está elaborada a

partir de una estructura jerárquica, representar estos datos en una tabla solamente nos sirve

para ilustrar gráficamente la correspondencia de propiedades a cada elemento de la

jerarquía (ver Tabla 4.2).

Tabla 4.2. Tipos de vegetación y propiedades

Tipo de vegetación (Objeto)

Ubicación (Propiedad)

Producción (Propiedad)

Clima (Propiedad)

Bosque de encino Nayarit Actividad forestal Húmedo Bosque de ayarin Durango Guayaba Seco Sabana Guerrero Frutas Tropical Pastizal Natural Chihuahua Bovinos Seco Bosque bajo abierto Durango Actividad pecuaria Templado Bosque de táscate Aguascalientes Actividad forestal Templado Bosque cultivado Estado de México Actividad forestal Seco Selva alta perennifolia Chiapas Frutas Tropical Matorral subtropical Sonora Actividad agrícola Seco Matorral crasicaule Zacatecas Frutas Seco

La columna denotada por los tipos de vegetación representa los objetos que recuperaremos

por medio de una consulta. Las propiedades de ubicación, producción y clima son

elementos que nos permitirán recuperar a los objetos, ya que estas propiedades los

caracterizan.

Como ya se menciono en secciones anteriores, cada una de las propiedades (ubicación,

producción y clima) tiene una estructura jerárquica sobre las cuales se calcula la distancia

semántica que nos permitirá ponderar los resultados a una consulta.

Ahora bien, es necesario calcular la confusión de manera independiente, es decir, para cada

elemento se obtiene los valores correspondientes a su distancia semántica, obteniendo así

Page 90: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 77  

una tabla que muestra al elemento seleccionado comparado con los demás elementos de la

base de datos conceptual.

En la Tabla 4.3 se muestran los valores de confusión obtenidos para el elemento de la

jerarquía de la propiedad ubicación (NorteDeMexico).

Tabla 4.3. Confusión con respecto al elemento Norte de México

Norte de México Nayarit 0 Durango 0 Guerrero 2 Chihuahua 0 Durango 0 Aguascalientes 2 Estado de México 2 Chiapas 2 Sonora 0 Zacatecas 0

En la Tabla 4.4 se muestran los resultados obtenidos después de calcular la confusión para el elemento seleccionado de la jerarquía que representa la propiedad producción.

Tabla 4.4. Confusión para el elemento Actividad Pecuaria

Actividad pecuaria Actividad forestal 1 Guayaba 3 Frutas 2 Bovinos 0 Actividad pecuaria 0 Actividad forestal 1 Actividad forestal 1 Frutas 2 Actividad agrícola 1 Frutas 2

Se han obtenido los valores de cada uno de los elementos que conforman el predicado P, el

siguiente paso es determinar cuáles de estos serán validos de acuerdo con el conector lógico

usado. Nótese que algunos elementos se repiten, esto se debe a que la comparación se hace

considerando el orden en el que se encuentran los objetos.

Page 91: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 78  

4.3.2.2. Ponderación de resultados

En este apartado ejemplificamos las consultas empleando los diferentes operadores lógicos

considerados para esta investigación (AND, OR, NOT).

4.3.2.2.1. Consultas empleando el operador lógico AND

En la Tabla 4.5 se observan los objetos y sus propiedades con los valores de confusión

correspondientes.

La regla para ponderar los resultados cuando empleamos un conector lógico AND es:

• Los valores de confusión de cada propiedad, no deben sobrepasar un umbral de

valor de ε, es decir, si queremos una respuesta sin error, los valores de confusión

calculados para cada propiedad no deberán sobrepasar el valor de ε=0, ya que esta

representa una coincidencia exacta con la consulta.

Tabla 4.5. Tabla de comparación para P = Norte de México ∧ Actividad pecuaria

Tipo de vegetación (Objeto)

Ubicación (Propiedad)

Norte de México

Producción (Propiedad)

Actividad pecuaria

AND

Bosque de encino Nayarit 0 Actividad forestal 1 1 Bosque de ayarin Durango 0 Guayaba 3 3 Sabana Guerrero 2 Frutas 2 2 Pastizal Natural Chihuahua 0 Bovinos 0 0 Bosque bajo abierto Durango 0 Actividad pecuaria 0 0 Bosque de táscate Aguascalientes 2 Actividad forestal 1 2 Bosque cultivado Estado de México 2 Actividad forestal 1 2 Selva alta perennifolia Chiapas 2 Frutas 2 2 Matorral subtropical Sonora 0 Actividad agrícola 1 1 Matorral crasicaule Zacatecas 0 Frutas 2 2

La columna denotada por AND muestra los valores obtenidos de acuerdo a la regla

correspondiente. Para ilustrar mejor los resultados, ordenamos los objetos de acuerdo a la

tabla de comparación anterior (ver Tabla 4.6).

Page 92: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 79  

Tabla 4.6. Consultas para un predicado P = Norte de México ∧ Actividad pecuaria

ε = 0 Pastizal Natural, Bosque Bajo Abierto

ε =1 Bosque de encino - Matorral subtropical - Pastizal Natural – Bosque

Bajo abierto

ε = 2 Sabana – Bosque de táscate – Bosque cultivado – Selva alta

perennifolia – Matorral crasicuale - Bosque de encino - Matorral

subtropical - Pastizal Natural – Bosque Bajo abierto

ε =3 BosqueAyarin - Sabana – Bosque de táscate – Bosque cultivado –

Selva alta perennifolia – Matorral crasicuale - Bosque de encino -

Matorral subtropical - Pastizal Natural – Bosque Bajo abierto

De la tabla anterior se observa que conforme aumenta el valor de ε, incrementa el número

de respuestas posibles, dicho de otra manera, el nivel superior se hace subconjunto del nivel

inferior inmediato. En este sentido, los resultados para un valor ε = 0 son: Pastizal natural y

Bosque bajo abierto, mientras que para un valor de ε = 1, los resultados obtenidos son

Bosque de encino, Matorral subtropical, Pastizal Natural y Bosque Bajo abierto. A esto es

lo que se denomina razonamiento monotónico en Inteligencia Artificial.

4.3.2.2.2. Consultas empleando el operador OR

En la Tabla 4.7 se muestran los resultados de comparación para el predicado Q = Norte de

México ∨ Actividad pecuaria.

La regla para ponderar los resultados cuando empleamos un conector lógico OR es:

• El umbral de confusión debe corresponder para una u otra propiedad que componga

el predicado, es decir, si una propiedad tiene un valor de confusión ε=0 y otra un

valor de ε = 2, el objeto corresponderá a los dos casos.

Page 93: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 80  

Tabla 4.7. Tabla de comparación para Q = Norte de México ∨ Actividad pecuaria

Tipo de vegetación (Objeto)

Ubicación (Propiedad)

Norte de México

Producción (Propiedad)

Actividad pecuaria

Bosque de encino Nayarit 0 Actividad forestal 1 Bosque de ayarin Durango 0 Guayaba 3 Sabana Guerrero 2 Frutas 2 Pastizal Natural Chihuahua 0 Bovinos 0 Bosque bajo abierto Durango 0 Actividad pecuaria 0 Bosque de táscate Aguascalientes 2 Actividad forestal 1 Bosque cultivado Estado de México 2 Actividad forestal 1 Selva alta perennifolia Chiapas 2 Frutas 2 Matorral subtropical Sonora 0 Actividad agrícola 1 Matorral crasicaule Zacatecas 0 Frutas 2

Ahora analizamos las respuestas obtenidas partiendo de un predicado compuesto por los

mismos elementos que en la sección anterior, pero conectados por un operador lógico OR

(ver Tabla 4.8).

Tabla 4.8. Consulta para un predicado Q = Norte de México ∨ Actividad pecuaria

ε = 0 Bosque de encino – Bosque de ayarin – Pastizal natural – Bosque

bajo abierto – Matorral subtropical – Matorral crasicaule

ε =1 Bosque de encino – Bosque de táscate – Bosque cultivado – Matorral

subtropical

ε = 2 Sabana – Bosque de táscate – Bosque cultivado – Selva alta

perennifolia – Matorral crasicaule

ε = 3 Bosque de ayarin

El comportamiento de los resultados al usar el conector lógico OR es diferente que al

emplear el conector AND, nótese que el rango de respuestas es más amplio cuando se tiene

ε = 0 y en la medida que incrementa ε, se acorta el rango de respuestas, esto se debe a que

es suficiente con que alguna de las propiedades cumpla con un valor de ε.

4.3.2.2.3. Consultas empleando NOT

Por último consideramos una consulta simple empleando un operador lógico NOT (ver

Tabla 4.9).

Page 94: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 81  

Tabla 4.9. Resultados para el predicado R= ¬ Norte de México

ε = 0

Guerrero

Aguascalientes

Estado de México

Chiapas

En la tabla anterior se obtienen los resultados para un predicado R con un valor de ε = 0.

Como se observa, los resultados obtenidos corresponden a otras zonas que no están dentro

del Norte de México.

4.3.2.2.4. Consultas para jerarquías ordenadas

El procedimiento para obtener los valores de confusión de una jerarquía ordenada varía con

respecto al que empleado en las jerarquías simples (ver Tabla 4.10).

Tabla 4.10. Confusión para la jerarquía ordenada.

conf Tropical Seco Templado Frio Tropical 0 1/3 2/3 3/3 Seco 1/3 0 1/3 2/3 Templado 2/3 1/3 0 1/3 Frio 3/3 2/3 1/3 0

 

Para obtener los resultados de la tabla anterior consideramos el siguiente conjunto

ordenado.

Clima = {Tropical, Seco, Templado, Frio}

Nótese que se consideran los saltos que se dan de un elemento a otro, por ejemplo:

conf(Tropical, Templado) = 2/3

Page 95: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 82  

La distancia entre el clima Tropical y el clima Templado es de dos, este es representado por

el numerador de la fracción, la máxima distancia que puede existir entre los elementos del

conjunto ordenado es representada por el denominador y tiene un valor de 3.

4.3.2.2.5. Consultas para jerarquías ordenadas y simples

En secciones anteriores se propusieron una serie de predicados utilizando solamente

jerarquías simples, ahora se propone un predicado basado en la combinación de jerarquías

simples y ordenadas.

T = Norte de México ∧ Actividad pecuaria ∧ Tropical

El número de propiedades aumenta y la complejidad de la consulta también, ahora hay que

considerar los dos procedimientos para determinar la distancia semántica entre elementos

de las jerarquías (ver Tabla 4.11).

Tabla 4.11. Confusión para las propiedades del predicado T = Norte de México ∧ Actividad pecuaria

∧ Tropical

Tipo de vegetación (Objeto)

Ubicación (Propiedad)

conf Producción (Propiedad)

conf Clima (Propiedad)

conf

Bosque de encino Nayarit 0 Actividad forestal 1 Templado 2/3 Bosque de ayarin Durango 0 Guayaba 3 Seco 1/3 Sabana Guerrero 2 Frutas 2 Tropical 0 Pastizal Natural Chihuahua 0 Bovinos 0 Seco 1/3 Bosque bajo abierto Durango 0 Actividad pecuaria 0 Templado 2/3 Bosque de táscate Aguascalientes 2 Actividad forestal 1 Templado 2/3 Bosque cultivado Estado de México 2 Actividad forestal 1 Seco 1/3 Selva alta perennifolia Chiapas 2 Frutas 2 Tropical 0 Matorral subtropical Sonora 0 Actividad agrícola 1 Seco 1/3 Matorral crasicaule Zacatecas 0 Frutas 2 Seco 1/3

La tabla anterior es similar a la Tabla 4.5, solo que se agrega la propiedad clima con su

valor correspondiente de confusión. Para combinar el valor de confusión de la jerarquía

ordenada con los valores de las jerarquías simples consideramos solo el valor del

numerador, así entonces obtenemos la siguiente tabla de resultados.

Tabla 4.12. Resultados para el predicado T = Norte de México ∧ Actividad pecuaria ∧ Tropical

Page 96: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 83  

ε = 0

----------

ε =1

Pastizal Natural – Matorral subtropical

ε = 2 Sabana – Bosque de táscate – Bosque cultivado – Selva alta

perennifolia – Matorral crasicuale - Bosque de encino - Matorral

subtropical - Pastizal Natural – Bosque Bajo abierto

ε =3 BosqueAyarin - Sabana – Bosque de táscate – Bosque cultivado –

Selva alta perennifolia – Matorral crasicuale - Bosque de encino -

Matorral subtropical - Pastizal Natural – Bosque Bajo abierto

Es interesante mencionar que no existe coincidencia exacta en esta consulta, esto se debe a

que las restricciones en la consulta han aumentado, sin embargo para nuestro trabajo de

investigación esto no representa mayor problema ya que se pueden obtener respuestas

aproximadas o similares.

Los resultados que corresponden a ε =1 nos dan aproximaciones a la consulta; es decir, se

quiere encontrar un objeto (tipo de vegetación) que es caracterizado con las propiedades

Norte de México, Actividad Pecuaria y clima Tropical, donde los objetos más próximos

semánticamente son: Pastizal Natural y Matorral Subtropical. Estos objetos comparten

propiedades similares, esta similitud es proporcionada por la teoría de confusión.

Lo antes mencionado es una de las aportaciones del trabajo de investigación, evitar

respuestas vacías y tener la opción de considerar respuestas aproximadas o similares.

4.4. Procesamiento El procesamiento se refiere al funcionamiento interno de la aplicación, esto incluye la

manera en que son recuperados los datos, así como el algoritmo de confusión que permite

medir la distancia semántica entre conceptos. En esta sección se describe la funcionalidad

del módulo de búsqueda.

Page 97: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 84  

Se ha descrito el modelo físico de datos y la manera en la cual se organizo la información

en jerarquías correspondientes a las propiedades que describen a cada tipo de vegetación.

En este sentido es necesario describir la forma en la que estos datos se procesan para

satisfacer las consultas del usuario.

Para manejar los resultados obtenidos del cálculo de la confusión, nos apoyamos en lo que

denominamos tablas de similitud, aquí se almacenan los valores de confusión obtenidos de

acuerdo con el elemento seleccionado en la consulta. Tenemos definidas tres tablas de

similitud que corresponden a las propiedades ubicación, producción y clima. Por otro lado,

las tablas de comparación tienen la función de determinar qué elementos cumplen con las

reglas para cada conector lógico y así ponderar los resultados.

En la Figura 4.11 se muestra el que describe el modulo de búsqueda.

Figura 4.11. Diagrama del modulo de búsqueda

Page 98: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 85  

En el modelo físico de datos (BDE7) se encuentra almacenada toda la información

correspondiente a nuestro dominio geográfico. Este modelo está elaborado a partir de una

estructura jerárquica, misma que manejamos con el marco de trabajo Jena. Esta API

permite realizar consultas avanzadas empleando el lenguaje de consultas SPARQL. Por

otro lado, se tienen las propiedades representadas por jerarquías que se encuentran

almacenadas en archivos OWL.

Jena además de proporcionar un lenguaje especializado de consulta, ofrece métodos que

permiten navegar y manipular las estructuras jerárquicas. Considerando las reglas que

definen la teoría de confusión obtenemos las tablas de similitud.

Al definir un elemento de consulta se hace la comparación con cada uno de los elementos

que conforman la jerarquía obteniendo así una tabla e similitud (ver Figura 4.12).

Figura 4.12. Tabla de similitud de la propiedad ubicación

El lenguaje de recuperación SPARQL ha sido diseñado para un uso a escala de la Web, así

permite hacer consultas sobre orígenes de datos distribuidos, independientemente del

formato. A la hora de recuperar información la creación de una sola consulta a través de

diferentes almacenes es mejor que múltiples consultas, además de tener un costo menor y

de ofrecer mejores resultados.

El lenguaje SPARQL posee tres componentes importantes: URIs, literales y variables

procedentes del lenguaje RDF.

                                                            7 BDE Base de datos espacial elaborada a partir de los datos del INEGI

Page 99: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 86  

• URIs sirven para especificar las URLs.

• Literales se describen como una cadena de caracteres encerradas entre " ".

• Variables estas variables son globales, además debe de ser prefijadas por "?" ó "$"

no formando parte del nombre de la variable.

SPARQL tiene cuatro tipos de consultas, éstas con sus respectivas descripciones se pueden

observar a continuación:

• SELECT. Devuelve todo, o un conjunto de las variables que coinciden con el

patrón de búsqueda.

• CONSTRUCT. Devuelve un grafo RDF construido por la sustitución de variables

en un conjunto de tres plantillas.

• ASK. Devuelve un boolean indicando si los patrones de la consulta coinciden o no.

• DESCRIBE. Devuelve un grafo RDF que describe los recursos encontrados.

El sistema pretende que el usuario pueda realizar consultas basándose en un predicado

como forma de expresar dichas peticiones. Como respuesta mostrarán atributos del

contenido seleccionado y también se proporciona información que se asemeja

semánticamente a la consulta, esta función está a cargo de la teoría de confusión.

4.5. Presentación de resultados Los resultados de una consulta, se presentan como una lista de instancias que satisfacen a

un predicado compuesto. La interfaz es una aplicación Web que controla todos los

elementos mencionados en la arquitectura funcional del sistema: una base de datos

conceptual, archivos OWL, Jena y SPARQL como motor de búsqueda.

Page 100: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 4. Metodología

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 87  

Por medio de confusión es posible ponderar la información, es decir, tener un control de

error en las respuestas. El usuario tendrá la opción de ir obteniendo respuestas aproximadas

o similares a su consulta inicial.

Como se ha mencionado en este capítulo la metodología propuesta va dirigida al uso de una

representación alterna para el procesamiento inteligente de los datos geográficos. Se maneja

una base de datos conceptual que contiene objetos y propiedades que los describen, estas

propiedades permiten proveer de semántica a los datos. Con base es las jerarquías, se mide

la similitud semántica entre los elementos que la conforman y así poder controlar las

respuestas a una consulta.

Page 101: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 88  

CAPÍTULO 5. PRUEBAS Y RESULTADOS En este capítulo presentamos los resultados obtenidos de acuerdo con metodología

propuesta, la cual está basada en la conceptualización del dominio geográfico. Esta

investigación se enfoca al procesamiento y a la recuperación de información contenida en

una base de datos conceptual. El sistema propuesto está basado en tecnología Java y la

interfaz gráfica de consulta es desplegada mediante una aplicación Web y la API de Google

Maps como servidor de mapas. Se ocupa el sistema Protégé para organizar los datos y

posteriormente obtener la base de datos conceptual.

Los datos principales utilizados provienen de las cartas del Uso del Suelo y Vegetación en

México a escala 1:250,000 del INEGI. Dichos datos fueron organizados en jerarquías para

poder hacer uso de confusión y así obtener las distancias semánticas entre elementos que

conforman dichas jerarquías. Obtener las distancias semánticas permite identificar que

elementos son más próximos conceptualmente, con esto podemos dar respuestas próximas

o cercanas a una consulta que se haga a la base de datos.

5.1. Diseño de las jerarquías Los datos geográficos por naturaleza están organizados en jerarquías, el caso de estudio es

el uso del suelo y vegetación en México. Una vez definido nuestro dominio geográfico de

estudio, es necesario emplear herramientas que nos permitan almacenar este tipo de

estructuras. En este apartado se mencionan las herramientas y los métodos empleados para

organizar y almacenar la información.

5.1.1. Diseño de la base de datos conceptual La base de datos conceptual es generada a partir de una jerarquía que describe los

diferentes tipos de vegetación de la república Mexicana. Una vez almacenados los datos

Page 102: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 89  

mediante el sistema Protégé, la información se exporta a un modelo persistente en el gestor

de base de datos Mysql. El modelo persistente permite almacenar los datos de forma

duradera, en este modelo se pueden añadir y eliminar datos, además maneja un lenguaje

propio de consulta.

En la Figura 5.1 se muestra la estructura jerárquica de la base de datos, cada nodo

representa un concepto.

Figura 5.1. Jerarquía que define la base de datos espacial

La figura anterior representa el modelo conceptual de la base de datos, las consultas se

enfocaran hacia el último nivel de esta jerarquía, que es donde se localizan los tipos de

vegetación que consideramos como objetos en nuestras consultas.

5.1.2. Jerarquías que describen las propiedades. Cada tipo de vegetación tienen tres propiedades lo caracterizan (ubicación, producción y

clima), es importante mencionar que con base en estas propiedades se realizan las

consultas, es decir, con ellas formamos los predicados de consulta (ver Figura 5.2).

Page 103: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 90  

Figura 5.2. Propiedades que caracterizan a los diferentes tipos de vegetación

En la Figura 5.3 se muestra la jerarquía que describe la propiedad de ubicación, esta

jerarquía es organizada en Protégé y se almacena en un archivo OWL. La propiedad

ubicación organiza los estados de la república en tres zonas principales (norte, centro y sur).

Figura 5.3. Jerarquía correspondiente a la propiedad de “ubicación”

Page 104: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 91  

En la Figura 5.4 se muestra la jerarquía que describe a la propiedad de producción, en esta

se mencionan las principales actividades productivas de México.

Figura 5.4. Jerarquía correspondiente a la propiedad “producción”

En la Figura 5.5 se muestra la jerarquía que describe a los diferentes tipos de clima que

prevalecen en el país. A diferencia de las demás las jerarquías descritas anteriormente, esta

tiene una relación de orden; es decir, para nuestro caso de estudio la organizamos de un

clima Tropical a un clima Frio.

Page 105: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 92  

Figura 5.5. Jerarquía correspondiente a la propiedad clima

Nótese que el editor Protégé no muestra en el grafo de manera ordenada, sin embargo el

orden se lo daremos posteriormente cuando sean procesados los datos mediante Jena.

Las jerarquías antes mencionadas son de suma importancia, ya que mediante el manejo de

ellas se hace el procesamiento para la recuperación de información, además estas

estructuras jerárquicas dotan de semántica a la base de datos conceptual.

5.2. Consultas al modelo de datos Empleamos la API de Jena para acceder al modelo jerárquico de datos. Para realizar la

conexión al modelo de datos es necesario conocer el namespace de la ontología, este lo

podemos obtener al abrir el archivo OWL en el editor de ontologías Protégé. Empleando

los métodos correspondientes se accede a los datos (ver Figura 5.6)

Page 106: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 93  

Figura 5.6. Programa que conecta al modelo de datos OWL

Una vez obtenida la conexión al modelo de datos, se determinan los parámetros de consulta

que requiere SPARQL. Estos parámetros mantienen cierta similitud con los que emplea

SQL, sin embargo es especializado para realizar consultas sobre modelos ontológicos (ver

Figura 5.7)

Page 107: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 94  

Figura 5.7. Parámetros de consulta de SPARQL

Una de las primeras pruebas realizadas, fue acceder al modelo de datos y extraer las propiedades que caracterizan a los diferentes tipos de vegetación. En la Figura 5.8 se muestra la consulta que obtiene los tipos de producción que le corresponde a cada tipo de vegetación.

Figura 5.8. Resultados que nos muestran el tipo de producción en las selvas

Page 108: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 95  

La Figura 5.9 muestra los tipos de vegetación y despliega su propiedad de ubicación, para

obtener solo los datos que nos interesan empleamos JDOM8 y almacenamos los resultados

en vectores, para posteriormente procesarlos e mostrarlos en la interfaz.

Figura 5.9. Resultados que nos muestran la ubicación de los bosques

5.3. El sistema de búsqueda El sistema de búsqueda fue descrito en la sección 4.1. El sistema tiene como fin realizar

consultas a la base de datos conceptual, basadas en un predicado compuesto de propiedades

que definen a los objetos (Tipos de vegetación). Los resultados obtenidos de la

implantación de la metodología son descritos en esta sección. Para la verificación de

resultados se tomo la muestra de datos considerada en la metodología.

5.3.1. Elementos de la interfaz grafica La interfaz grafica está conformada por una sección de consultas y una sección que permite

seleccionar de grado de error a las respuestas, las consultas están definidas por predicados

compuestos de propiedades y conectados mediante un operador lógico, por otro lado

tenemos la opción de elegir un grado de error en las respuestas, con esto evitamos las

respuestas vacías (ver Figura 5.10).

                                                            8 JDOM es una biblioteca de código fuente para manipulaciones de datos XML optimizados para Java.

Page 109: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 96  

Se proponen dos modos de consulta, por un lado tenemos una consulta compuesta de tres

propiedades conectadas por el operador lógico AND y por el otro, tenemos las mismas tres

propiedades pero conectadas con el operador lógico OR. El usuario selecciona los tres

elementos que le sean de interés y envía la solicitud de consulta.

Los resultados esperados corresponden a obtener uno o varios tipos de vegetación que

cumplan con las propiedades que los describen.

Figura 5.10. Interfaz de usuario para consultas

Las listas de propiedades están definidas por las jerarquías contenidas en archivos OWL.

5.3.1.1. Interfaz de resultados

Los resultados son descritos mediante una lista que contiene los tipos de vegetación que

satisfacen al predicado de consulta. No obstante se emplea la API de Google Maps para

representar gráficamente la ubicación de los diferentes tipos de vegetación obtenidos en la

respuesta.

Page 110: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 97  

En caso de obtener una respuesta vacía, solo se muestra el mapa y se lanza un mensaje para

invitar al usuario a realizar la misma consulta pero ahora eligiendo un grado de error, es así

como se obtiene una respuesta similar o aproximada.

Figura 5.11. Elementos en las respuestas a una consulta

5.3.2. Consultas empleando el operador lógico AND Ahora veremos la funcionalidad del sistema, consideremos los siguientes elementos para la

búsqueda (ver Figura 5.12)

Figura 5.12. Elementos de consulta empleando el operador AND

Page 111: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 98  

Obsérvese que la casilla de error tiene un valor de 0; es decir, estamos pidiendo una

consulta exacta. En la Figura 5.13 se observan los resultados a esta consulta.

Figura 5.13. Resultados para una coincidencia exacta empleando el operador lógico AND

El sistema de búsqueda no encontró elementos en la base de datos que cumplan con el

predicado compuesto por las propiedades (ActividadPecuaria, NorteDeMexico, Tropical)

seleccionadas. Entonces se sugiere incrementar el grado de error en las respuestas y volver

a procesar la consulta.

Seguimos considerando las mismas propiedades, pero ahora posicionamos el grado de error

en 1, obtenemos los siguientes resultados (ver Figura 5.14).

Page 112: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 99  

Figura 5.14. Resultados empleando confusión con un grado de error de ε =1, para una consulta con

operadores lógicos OR

Eligiendo un valor de ε =1 obtenemos Pastizal Natural y Matorral Subtropical como

resultado, esto implica que estos dos elementos tienen propiedades similares a las

seleccionadas en la consulta. En el mapa se marca la ubicación de estos tipos de vegetación,

nótese que los dos resultados están localizados en estados que pertenecen al norte de

México, esto da una similitud con respecto a la propiedad de ubicación seleccionada.

Ahora verificaremos los resultados con un grado de error igual a 2. Cambiaremos la

visualización del mapa a una imagen satelital y se obtienen los resultados siguientes (ver

Figura 5.15)

Page 113: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 100  

Figura 5.15. Resultados empleando confusión con un grado de error de ε = 2, para una consulta con

operadores lógicos AND

Para un ε=2 obtenemos nueve elementos, nótese que conforme se incrementa el grado de

error, también incrementa el número de respuestas posibles, esto se debe a que el

procesamiento de la información se lleva a cabo mediante un razonamiento monotónico

automático.

Ahora veamos los resultados que se obtienen al proponer un grado de error ε=3.

Considerando el patrón de resultados para esta consulta, lo lógico sería que para este caso el

él número de respuestas posibles incremente.

Page 114: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 101  

Figura 5.16. Resultados empleando confusión con un grado de error de ε=3, para una consulta con

operadores lógicos AND

Como era de esperarse, el número de respuestas posibles incremento, y su ubicación es

desplegada en el mapa.

Los resultados obtenidos son los esperados de acuerdo con la metodología propuesta,

obsérvese que para esta consulta no existe una coincidencia exacta, sin embargo se tiene la

posibilidad de obtener respuestas que se asemejan con la petición solicitada.

Ahora bien, en el caso donde se emplea el operador lógico AND para conectar a cada uno

de las propiedades, al incrementar el valor de error de ε aumenta el número de respuestas

posibles.

Page 115: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 102  

5.3.3. Consultas empleando el operador lógico OR Ahora partiremos de una consulta que al igual que en el caso anterior, está compuesta por

tres elementos que describen las propiedades de los distintos tipos de ubicación.

Consideraremos los elementos seleccionados en la consulta anterior y se compararan las

diferencias en el rango de respuestas que se obtengan (ver Figura 5.17).

Figura 5.17. Elementos de consulta usando el operador OR

Comenzaremos con las respuestas exactas asignando un valor de error ε=0. Entonces las

propiedades para esta consulta son: ActividadPecuaria, NorteDeMexico, Tropical (ver

Figura 5.18).

Intuitivamente el rango de respuestas incrementará con respecto a las obtenidas en el caso

anterior cuando usamos el operador lógico AND.

Page 116: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 103  

Figura 5.18. Resultados para una coincidencia exacta empleando el operador OR

En este caso se tienen 8 elementos que satisfacen la consulta, era de esperarse ya que al

usar el operador lógico OR basta con que haya coincidencia en alguna de las propiedades

de consulta. Consideramos a este operador como un operador de expansión.

Ahora se realiza la misma consulta, pero se varia el grado de error ε=1 (ver Figura 5.19).

Page 117: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 104  

Figura 5.19. Resultados empleando confusión con un grado de error ε=1, para una consulta con

operadores lógicos OR

Al usar un grado de error ε=1 obtenemos 7 elementos para esta consulta, un elemento

menos que en la consulta anterior.

Ahora analicemos los resultados que se obtienen al variar el grado de error ε=2 (ver Figura

5.20).

Page 118: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 105  

Figura 5.20. Resultados empleando confusión con un grado de error ε=2, para una consulta con

operadores lógicos OR

Para esta consulta se obtienen, al igual que en el caso anterior 7 elementos a la salida, sin

embargo nótese que solo el número de elementos es igual, pero los resultados varían.

Ahora veamos lo que ocurre cuando solicitamos una consulta con un grado de error ε=3

(ver Figura 5.21)

Page 119: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 5. Pruebas y resultados

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 106  

Figura 5.21. Resultados empleando confusión con un grado de error ε=3, para una consulta con

operadores lógicos OR

Solo nos arroja el objeto BosqueDeAyarin con ubicación en Durango, es importante

mencionar que para este caso al variar el grado de error, el número de respuestas posibles

va disminuyendo, es decir, se tiene un razonamiento monotónico de forma inversa.

Dados los resultados obtenidos en las pruebas, se desarrollo un sistema de recuperación de

información espacial capaz de proporcionar un control de error a las respuestas de una

consulta.

Los resultados obtenidos cumplen con los objetivos planteados en este trabajo de

investigación, se pueden evitar respuestas vacías, se proporcionan respuestas aproximadas y

la recuperación de información es controlada por medio de la teoría de confusión.

 

 

Page 120: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 6. Conclusiones y trabajo a futuro

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 107  

CAPÍTULO 6. CONCLUSIONES Y TRABAJO A FUTURO

6.1. Conclusiones En esta tesis se ha desarrollado un sistema encargado de la recuperación de información

espacial, nos basamos en la teoría de confusión para tener un control de error a la solicitud

de una consulta. El sistema de salida es una aplicación Web encargada de visualizar los

datos después de ser procesados.

Parte de los resultados que se describen en el Capítulo 5 se basan en la verificación de la

funcionalidad del sistema, es importante mencionar que la semántica de la base de datos

está definida por las jerarquías que describen las propiedades de producción, ubicación y

clima. Los conceptos de las jerarquías están fundamentados en los diccionarios de datos del

INEGI.

Por otra parte es importante decir que la metodología propuesta en esta tesis puede ser

empleada para otros dominios de aplicación. En otras palabras, la funcionalidad del sistema

no está ligada directamente con el dominio geográfico, dicha metodología está compuesta

por cuatro etapas:

Análisis de datos en la cual se verifica que sea factible manejar los datos en estructuras

jerárquicas, Procesamiento semántico es la parte medular de esta investigación, ya que en

esta etapa se calculan las distancias semánticas entre elementos de las jerarquías,

Procesamiento, es la parte donde se recupera la información del modelo de datos y se

verifica que datos cumplen con las condiciones de salida y la Presentación de resultados,

es la parte visual donde se aprecian los resultados.

Page 121: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 6. Conclusiones y trabajo a futuro

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 108  

Para el mecanismo de recuperación de información se empleo el editor de ontologías

Protégé como herramienta para almacenar las jerarquías, además se utilizo el marco de

trabajo Jena y SPARQL como lenguaje de consulta. Las consultas están basadas en

predicados compuestos conectados con operadores lógicos. Las respuestas a una solicitud

de consulta se dirigen a obtener los tipos de vegetación que cumplan con las propiedades

seleccionadas en una consulta.

En resumen se engloban en cuatro puntos las aportaciones principales de este trabajo de

tesis:

• Se evitan respuestas vacías y errores que generan gestores de bases de datos

tradicionales.

• Se tiene un sistema que proporciona respuestas inteligentes mediante razonamiento

automático monotónico para procesar la información espacial.

• Se pondera la información manteniendo un control de error en los resultados

(respuestas controladas). Esto permite obtener respuestas similares o aproximadas a

una consulta realizada.

• El desarrollo de esta investigación contribuye al afianzamiento de los buscadores

semánticos sobre bases de datos heterogéneas.

Evitar las respuestas vacías a una consulta es uno de los puntos esenciales en esta

investigación. Cabe mencionar que el sistema da respuestas nulas en caso de no encontrar

coincidencias, sin embargo el sistema posee la ventaja de poder obtener respuestas

aproximadas o similares mediante un procesamiento inteligente de la información, usando

razonamiento automático monotónico

Destacamos el uso de herramientas que se enfocan a calcular la similitud semántica

(confusión), permiten desarrollar nuevas técnicas más eficientes para la recuperación de

información del dominio geográfico.

Page 122: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

Capitulo 6. Conclusiones y trabajo a futuro

  

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 109  

El desarrollo de esta investigación utiliza un enfoque diferente a los trabajos que emplean

confusión para medir la distancia semántica entre conceptos, dado que estos trabajos van

dirigidos al uso de bases de datos relacionales; en nuestro caso se emplean herramientas

propias de la web semántica (Jena, archivos OWL y SPARQL).

6.2. Trabajos a futuro Los trabajos a futuro van dirigidos a intentar dar solución a algunos aspectos que limitan el

presente trabajo de tesis. La solución de estos problemas permitirá dar mejor desempeño a

los sistemas de recuperación. A continuación se describen algunos puntos que pueden ser

considerados para fortalecer la presente línea de investigación.

• En la presente investigación solo se emplean dos de las cuatro jerarquías definidas,

ocupar jerarquías mixtas u ontologías empleando la misma metodología seria una

aportación de un trabajo a futuro.

• Enfocar formalmente el sistema a la Web Semántica Geoespacial y extender las

medidas de similitud semántica para obtener un buscador más eficiente que emplee

información contenida en la Web.

• Realizar consultas basándonos en predicados que hagan una combinación de

conectores lógicos.

• Añadir un modulo que permita cargar la estructura jerárquica desde una interfaz

grafica.

Como se observa, la solución de cada uno de los problemas descritos implica trabajos de

investigación que ayudaran a fortalecer el área de “Recuperación y Procesamiento de Datos

Geoespaciales”.

Page 123: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 110  

ANEXO 1. CÓDIGO FUENTE

Clase de control: ServletController

package com.busqueda.databases; import java.io.IOException; import java.sql.SQLException; import javax.servlet.ServletException; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; import javax.servlet.http.HttpSession; public class ServletController extends javax.servlet.http.HttpServlet implements javax.servlet.Servlet { static final long serialVersionUID = 1L; /* (non-Java-doc) * @see javax.servlet.http.HttpServlet#HttpServlet() */ public ServletController() { super(); } protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { // TODO Auto-generated method stub } protected void doPost(HttpServletRequest request, HttpServletResponse response)throws ServletException, IOException { int control = Integer.parseInt(request.getParameter("idOpcion")); switch (control){ case 0: { ResqunoTO datosBean = new ResqunoTO(); //RESULTADOS PARA EL JSP DE RESPUESTA ConsultaBO logica = new ConsultaBO(request); // CONSULTAS A EJECUTAR Y DEFINES LOS PARAMETROS try { datosBean = logica.consulta1(); ///datosBean = logica.consulta11(); } catch (Exception e) { e.printStackTrace(); } HttpSession sesion = request.getSession(); sesion.setAttribute("datos",datosBean); // PASAS LOS DATOS AL JSP response.sendRedirect("resultadosJSP.jsp"); System.out.println("Imprimiendo desde el servlet..."+datosBean.getNum_registros());

Page 124: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 111  

} break; case 1:{ ResqdosTO datosBean = new ResqdosTO(); //RESULTADOS PARA EL JSP DE RESPUESTA ConsultaBO logica = new ConsultaBO(request); // CONSULTAS A EJECUTAR Y DEFINES LOS PARAMETROS try { datosBean = logica.consulta2(); ///datosBean = logica.consulta11(); } catch (Exception e) { e.printStackTrace(); } HttpSession sesion = request.getSession(); sesion.setAttribute("datos",datosBean); // PASAS LOS DATOS AL JSP response.sendRedirect("resultadosJSP2.jsp"); System.out.println("Imprimiendo desde el servlet..."+datosBean.getNum_registros()); } break; } } }

Clase de procesamiento (base de datos): ConsultaBO

package com.busqueda.databases; import javax.servlet.http.HttpServletRequest; public class ConsultaBO { private ConsultaTO parametros = new ConsultaTO(); Busqueda mysql = new Busqueda(); private int gradconf; // private int gradconfusion; public ConsultaBO(){ gradconf=0; //gradconfusion=0; } public ConsultaBO(HttpServletRequest request){ parametros.setProduccion(request.getParameter("produccion")); parametros.setUbicacion(request.getParameter("ubicacion")); parametros.setClima(request.getParameter("clima")); gradconf=Integer.parseInt(request.getParameter("gradconf")); //gradconfusion=Integer.parseInt(request.getParameter("gradconfusion")); } //Consulta AND ResqunoTO consulta1() throws Exception{ mysql.connect();

Page 125: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 112  

ResqunoTO resultados=mysql.verDatos3(parametros,gradconf); return resultados; } //consulta OR ResqdosTO consulta2() throws Exception{ mysql.connect(); ResqdosTO resultados=mysql.verDatos4(parametros, gradconf); return resultados; } void consulta3() throws Exception{ mysql.connect(); //mysql.verDatos4(); //return null; } }

Clase de procesamiento (base de datos): Búsqueda

package com.busqueda.databases; import java.sql.*; import java.util.*; public class Busqueda { String error; Connection con; public Busqueda() { } public void connect() throws ClassNotFoundException, SQLException, Exception { try { Class.forName("com.mysql.jdbc.Driver").newInstance(); con = DriverManager.getConnection("jdbc:mysql://localhost/geobusqueda","root","99011445"); System.out.println("Conexion con la base de datos establecida"); } catch (ClassNotFoundException cnfe) { cnfe.printStackTrace(); error = "ClassNotFoundException: No se localiza el Driver."; throw new ClassNotFoundException(error); } catch (SQLException cnfe) { cnfe.printStackTrace(); error = "SQLException: No se puede hacer conexión con la base de datos."; throw new SQLException(error); } catch (Exception e) { e.printStackTrace(); error = "Exception: Un error desconocido durante la conexión " + "para la base de datos."; throw new Exception(error); } } public void disconnect() throws SQLException { try {

Page 126: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 113  

if ( con != null ) { con.close(); } } catch (SQLException sqle) { error = ("SQLException: Unable to close the database connection."); throw new SQLException(error); } } public ResultSet verDatos() throws SQLException, Exception { ResultSet rs = null; connect(); try { String queryString = ("SELECT * FROM produccion;"); Statement stmt = con.createStatement(); rs = stmt.executeQuery(queryString); while (rs.next()) { System.out.println("<option value='"+rs.getString("produccion")+"'>"+rs.getString("produccion")+"</option>"); } } catch (SQLException sqle) { sqle.printStackTrace(); error = "SQLException: No se puede ejecutar el query."; throw new SQLException(error); } catch (Exception e) { e.printStackTrace(); error = "Una exepcion ocurrida en ecosistema."; throw new Exception(error); } rs.beforeFirst(); return rs; } public ResultSet verDatos1() throws SQLException, Exception { ResultSet rs = null; connect(); try { String queryString = ("SELECT * FROM ubicacion;"); Statement stmt = con.createStatement(); rs = stmt.executeQuery(queryString); while (rs.next()) { System.out.println("<option value='"+rs.getString("ubicacion")+"'>"+rs.getString("ubicacion")+"</option>"); } } catch (SQLException sqle) { sqle.printStackTrace(); error = "SQLException: No se puede ejecutar el query."; throw new SQLException(error); } catch (Exception e) { e.printStackTrace(); error = "Una exepcion ocurrida en ecosistema."; throw new Exception(error); } rs.beforeFirst(); return rs; }

Page 127: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 114  

public ResultSet verDatos2() throws SQLException, Exception { ResultSet rs = null; connect(); try { String queryString = ("SELECT * FROM clima;"); Statement stmt = con.createStatement(); rs = stmt.executeQuery(queryString); while (rs.next()) { System.out.println("<option value='"+rs.getString("clima")+"'>"+rs.getString("clima")+"</option>"); } } catch (SQLException sqle) { sqle.printStackTrace(); error = "SQLException: No se puede ejecutar el query."; throw new SQLException(error); } catch (Exception e) { e.printStackTrace(); error = "Una exepcion ocurrida en ecosistema."; throw new Exception(error); } rs.beforeFirst(); return rs; } /*COMSULTA AND, CONFUSION 0*/ public ResqunoTO verDatos3(ConsultaTO parametros,int gradconf) throws SQLException, Exception { RegistrounoTO registro_temp=new RegistrounoTO(); ResqunoTO resultados = new ResqunoTO(); Vector registros_vegetacion=new Vector(); ResultSet rs = null; connect(); try { String queryString = ("SELECT ecosistema.vegetacion, ecosistema.ubicacion, ubicacion.Latitud, ubicacion.Longitud FROM ecosistema,produccion,ubicacion,clima" + "WHERE (produccion.produccion=ecosistema.produccion)AND(produccion."+parametros.getProduccion()+"<="+gradconf+")"+ "AND(ubicacion."+parametros.getUbicacion()+"<="+gradconf+")AND(ubicacion.ubicacion=ecosistema.ubicacion)"+ "AND(clima."+parametros.getClima()+"<="+gradconf+")AND(clima.clima=ecosistema.clima);"); System.out.println("verdatos 3 Query1: "+queryString); Statement stmt = con.createStatement(); rs = stmt.executeQuery(queryString); while (rs.next()) { registro_temp= new RegistrounoTO(); registro_temp.setLatitud(rs.getDouble("Latitud")); registro_temp.setLongitud(rs.getDouble("Longitud")); registro_temp.setUbicacion(rs.getString("ubicacion")); registro_temp.setVegetacion(rs.getString("vegetacion")); registros_vegetacion.add(registro_temp); } resultados.setRegistros(registros_vegetacion); resultados.setNum_registros(registros_vegetacion.size()); } catch (SQLException sqle) { sqle.printStackTrace(); error = "SQLException: No se puede ejecutar el query."; throw new SQLException(error); } catch (Exception e) { e.printStackTrace(); error = "Una exepcion ocurrida en ecosistema."; throw new Exception(error); } return resultados;

Page 128: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 115  

} /*COMSULTA OR CONFUSION 0*/ public ResqdosTO verDatos4(ConsultaTO parametros, int gradconfusion) throws SQLException, Exception { RegistrodosTO registro_temp=new RegistrodosTO(); ResqdosTO resultados = new ResqdosTO(); Vector registros_vegetacion=new Vector(); ResultSet rs = null; connect(); try { String queryString = ("SELECT ecosistema.vegetacion, ecosistema.ubicacion, ubicacion.Latitud, ubicacion.Longitud FROM ecosistema,produccion,ubicacion,clima" + " WHERE ((produccion.produccion=ecosistema.produccion)AND(ubicacion.ubicacion=ecosistema.ubicacion))"+ "AND(clima.clima=ecosistema.clima)AND((produccion.ActividadPecuaria="+gradconfusion+")"+ "OR(ubicacion.NorteDeMexico="+gradconfusion+")OR(clima.Tropical="+gradconfusion+"))"); System.out.println("verdatos 3 Query1: "+queryString); Statement stmt = con.createStatement(); rs = stmt.executeQuery(queryString); while (rs.next()) { registro_temp= new RegistrodosTO(); registro_temp.setLatitud(rs.getDouble("Latitud")); registro_temp.setLongitud(rs.getDouble("Longitud")); registro_temp.setVegetacion(rs.getString("vegetacion")); registro_temp.setUbicacion(rs.getString("ubicacion")); registros_vegetacion.add(registro_temp); } resultados.setRegistros(registros_vegetacion); resultados.setNum_registros(registros_vegetacion.size()); } catch (SQLException sqle) { sqle.printStackTrace(); error = "SQLException: No se puede ejecutar el query."; throw new SQLException(error); } catch (Exception e) { e.printStackTrace(); error = "Una exepcion ocurrida en ecosistema."; throw new Exception(error); } return resultados; } public static void main(String args[]) throws Exception{ new Busqueda().connect(); new Busqueda().verDatos(); new Busqueda().verDatos2(); //new Busqueda().verDatos3(); new Busqueda().disconnect(); //new Busqueda().verDatos3(); } }

Clase para encapsular datos: ConsultaTO

package com.busqueda.databases;

Page 129: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 116  

public class ConsultaTO { public ConsultaTO(){} private int idconsulta; private int resultado; private String produccion; private String ubicacion; private String clima; public String getClima() { return clima;} public String getProduccion() { return produccion;} public String getUbicacion() { return ubicacion;} public int getIdconsulta() { return idconsulta;} public void setIdconsulta(int idconsulta) { this.idconsulta = idconsulta;} public void setClima(String clima) { this.clima = clima;} public void setProduccion(String produccion) { this.produccion = produccion;} public void setUbicacion(String ubicacion) { this.ubicacion = ubicacion;} public int getResultado() { return resultado} public void setResultado(int resultado) {this.resultado = resultado;} }

Clase para encapsular datos: RegistrodosTO

package com.busqueda.databases; public class RegistrodosTO{ double latitud; double longitud; String vegetacion; String ubicacion; public RegistrodosTO(){ latitud=0.0; longitud=0.0; vegetacion="ESTA VACIO"; ubicacion="ESTA VACIO"; //gradoConfusion=-1; } public double getLatitud() { return latitud;} public void setLatitud(double latitud) {this.latitud = latitud; } public double getLongitud() { return longitud;} public void setLongitud(double longitud) { this.longitud = longitud;} public String getVegetacion() { return vegetacion;} public void setVegetacion(String vegetacion) { this.vegetacion = vegetacion;} public String getUbicacion() {return ubicacion;} public void setUbicacion(String ubicacion) { this.ubicacion = ubicacion;} }

Clase para encapsular datos: RegistrounoTO

package com.busqueda.databases; ESTA CLASE DEFINE UN REGISTRO EN UN TABLA Y CONTIENE LOS DATOS QUE QUIERES REGRESAR AL USUARIO public class RegistrounoTO{

Page 130: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 117  

double latitud; double longitud; String vegetacion; String ubicacion; public RegistrounoTO(){ latitud=0.0; longitud=0.0; vegetacion="ESTA VACIO"; ubicacion="ESTA VACIO"; } public double getLatitud() {return latitud;} public void setLatitud(double latitud) {this.latitud = latitud;} public double getLongitud() {return longitud;} public void setLongitud(double longitud) {this.longitud = longitud;} public String getVegetacion() {return vegetacion;} public void setVegetacion(String vegetacion) {this.vegetacion = vegetacion;} public String getUbicacion() {return ubicacion;} public void setUbicacion(String ubicacion) {this.ubicacion = ubicacion;} }

Clase para encapsular datos: ResqdosTO

package com.busqueda.databases; import java.util.Vector; public class ResqdosTO { int num_registros; int index_registro; Vector registros=new Vector(); double latitud; double longitud; String vegetacion; String ubicacion; //int gradoConfusion; public ResqdosTO(){ num_registros=-111; index_registro=0; latitud=0.0; longitud=0.0; vegetacion="NULOooooo"; ubicacion="Nuloooo"; setIndex_registro(0); //Vector registros=new Vector(); } public void print(){ System.out.println(num_registros); System.out.println(getVegetacion()); System.out.println(getUbicacion()); } public Vector getRegistros() {return registros;}

Page 131: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 118  

public void setRegistros(Vector registros) {this.registros = registros;} public double getLatitud() { RegistrodosTO temp=(RegistrodosTO)registros.get(index_registro); return temp.getLatitud(); } public double getLongitud() { RegistrodosTO temp=(RegistrodosTO)registros.get(index_registro); return temp.getLongitud(); } public String getVegetacion() { RegistrodosTO temp=(RegistrodosTO)registros.get(index_registro); return temp.getVegetacion(); } public String getUbicacion() { RegistrodosTO temp=(RegistrodosTO)registros.get(index_registro); return temp.getUbicacion(); } public int getNum_registros() {return num_registros; } public void setNum_registros(int num_registros) {this.num_registros = num_registros; } public int getIndex_registro() {return index_registro; } public void setIndex_registro(int index_registro) {this.index_registro = index_registro; } }

Clase para encapsular datos: ResqunoTO

package com.busqueda.databases; import java.util.Vector; public class ResqunoTO { int num_registros; int index_registro; Vector registros=new Vector(); double latitud; double longitud; String vegetacion; String ubicacion; //int gradoConfusion; public ResqunoTO(){ num_registros=-111; index_registro=0; latitud=0.0; longitud=0.0; vegetacion="NULOooooo"; ubicacion="Nuloooooo"; setIndex_registro(0); //Vector registros=new Vector(); } public void print(){ System.out.println(num_registros); System.out.println(getVegetacion());

Page 132: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 119  

System.out.println(getUbicacion()); } public Vector getRegistros() {return registros;} public void setRegistros(Vector registros) { this.registros = registros; } public String getUbicacion() { RegistrounoTO temp=(RegistrounoTO)registros.get(index_registro); return temp.getUbicacion(); } public double getLatitud() { RegistrounoTO temp=(RegistrounoTO)registros.get(index_registro); return temp.getLatitud(); } public double getLongitud() { RegistrounoTO temp=(RegistrounoTO)registros.get(index_registro); return temp.getLongitud(); } public String getVegetacion() { RegistrounoTO temp=(RegistrounoTO)registros.get(index_registro); return temp.getVegetacion(); } public int getNum_registros() {return num_registros;} public void setNum_registros(int num_registros) {this.num_registros = num_registros;} public int getIndex_registro() { return index_registro; } public void setIndex_registro(int index_registro) { this.index_registro = index_registro; } }

Interfaz Web para el cliente (consultas), archivo: index.jsp

<%@ page language="java" import="java.sql.*, java.io.*, java.util.*, com.busqueda.databases.*" errorPage="error.jsp" %> <jsp:useBean id="busq" class="com.busqueda.databases.Busqueda" /> <html> <head> <title> Busqueda de Informacion Geografica </title> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"><style type="text/css"> <!-- body { background-color: #34558a; } .Estilo3 { font-size: 36px; font-weight: bold; color: #FFFFFF; } .Estilo4 { font-size: 24px; font-weight: bold; color: #000000; font-family: Geneva, Arial, Helvetica, sans-serif;

Page 133: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 120  

} .Estilo5 { font-family: Arial, Helvetica, sans-serif; font-weight: bold; } --> </style></head> <body> <table width="1024" height="191%" align="center" cellpadding="0" cellspacing="0" background="Images/imagen01.png" bgcolor="#34558a"> <tr> <td height="111" valign="top"><table width="100%" height="100%" border="0" cellpadding="0" cellspacing="0"> <tr> <td width="11%"><div align="center"><img src="Images/logocic.gif" alt="cic" width="83" height="62" longdesc="cic imagen"></div></td> <td width="76%" class="Estilo3"><div align="center"> <p>B&uacute;squeda y Ponderaci&oacute;n de Informaci&oacute;n Geogr&aacute;fica </p> <p>PIIG LAB </p> </div></td> <td width="13%"><div align="center"><img src="Images/logoipn.jpg" alt="ipn" width="58" height="88" longdesc="ipn imagen"></div></td> </tr> </table></td> </tr> <tr> <td valign="top"><table width="100%" height="40" border="0" cellpadding="0" cellspacing="0"> <tr> <td width="6%">&nbsp;</td> <td width="88%"><p> <%busq.connect();%> </p> <h1 align="center">&nbsp;</h1> <table width="100%" border="2" cellpadding="0" cellspacing="0" bordercolor="#000099" bgcolor="#FFFFFF"> <tr> <td height="41" bgcolor="34558a"><p align="left" class="Estilo4">Par&aacute;metros de consulta</p></td> </tr> <tr> <td height="81" bgcolor="#CCCCCC"><form name='formulario_query' method='post' action='ServletController'> <table width="100%" border="0" cellspacing="0" cellpadding="0"> <tr> <td width="29%"><div align="left" class="Estilo5">Producci&oacute;n</div></td> <td width="25%"><div align="left" class="Estilo5">Ubicacion</div></td> <td width="20%"><span class="Estilo5">Clima</span></td> <td width="15%">&nbsp;</td> <td width="11%"><div align="left"></div></td> </tr> <tr> <td><select name="produccion" id="produccion"> <% ResultSet rs1 = busq.verDatos(); while (rs1.next()) { out.println("<option value='"+rs1.getString("produccion")+"'>"+rs1.getString("produccion")+"</option>"); }

Page 134: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 121  

%> </select> <span class="Estilo5"> AND</span></td> <td><select name="ubicacion" id="ubicacion"> <% ResultSet rs2 = busq.verDatos1(); while (rs2.next()) { out.println("<option value='"+rs2.getString("ubicacion")+"'>"+rs2.getString("ubicacion")+"</option>"); } %> </select> <span class="Estilo5">AND</span></td> <td><select name="clima" id="clima"> <% ResultSet rs3 = busq.verDatos2(); while (rs3.next()) { out.println("<option value='"+rs3.getString("clima")+"'>"+rs3.getString("clima")+"</option>"); } %> </select></td> <td><input type="submit" id="Enviar" name="Submit" value="Enviar"/></td> <td><label>Error <select name="gradconf" id="gradconf"> <option value="0">0</option> <option value="1">1</option> <option value="2">2</option> <option value="3">3</option> </select> </label></td> </tr> </table> <label></label> <label></label> <p><input name="idOpcion" type="hidden" id="idOpcion" value="0"/> </p> </form> </td> </tr> </table> <p align="center">&nbsp;</p> <table width="100%" border="2" cellpadding="0" cellspacing="0" bordercolor="#000099" bgcolor="#FFFFFF"> <tr> <td height="41" bgcolor="34558a"><p align="left" class="Estilo4">Par&aacute;metros de consulta</p></td> </tr> <tr> <td height="81" bgcolor="#CCCCCC"><form name='formulario_query' method='post' action='ServletController'> <table width="100%" border="0" cellspacing="0" cellpadding="0"> <tr> <td width="29%"><div align="left" class="Estilo5">Producci&oacute;n</div></td> <td width="25%"><div align="left" class="Estilo5">Ubicacion</div></td> <td width="20%"><span class="Estilo5">Clima</span></td> <td width="15%">&nbsp;</td>

Page 135: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 122  

<td width="11%"><div align="left"></div></td> </tr> <tr> <td><select name="select" id="select"> <% ResultSet rs4 = busq.verDatos(); while (rs4.next()) { out.println("<option value='"+rs4.getString("produccion")+"'>"+rs4.getString("produccion")+"</option>"); } %> </select> <span class="Estilo5"> OR</span></td> <td><select name="select" id="select2"> <% ResultSet rs5 = busq.verDatos1(); while (rs5.next()) { out.println("<option value='"+rs5.getString("ubicacion")+"'>"+rs5.getString("ubicacion")+"</option>"); } %> </select> <span class="Estilo5">OR</span></td> <td><select name="select" id="select3"> <% ResultSet rs6 = busq.verDatos2(); while (rs6.next()) { out.println("<option value='"+rs6.getString("clima")+"'>"+rs6.getString("clima")+"</option>"); } %> </select></td> <td><input type="submit" id="Submit" name="Submit2" value="Enviar"/></td> <td><label>Error <select name="gradconf" id="gradconf"> <option value="0">0</option> <option value="1">1</option> <option value="2">2</option> <option value="3">3</option> </select> </label></td> </tr> </table> <label></label> <label></label> <p> <input name="idOpcion" type="hidden" id="idOpcion" value="1"/> </p> </form></td> </tr> </table> <p align="center">&nbsp;</p> <p align="center">&nbsp;</p> <p align="center">&nbsp;</p> <p align="center">&nbsp;</p> <% busq.disconnect(); %></td> <td width="6%"><p>&nbsp;</p> <p>&nbsp;</p> <p>&nbsp;</p>

Page 136: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 123  

<p>&nbsp;</p> <p>&nbsp;</p> <p>&nbsp;</p></td> </tr> </table></td> </tr> <tr> <td>&nbsp;</td> </tr> </table> <p>&nbsp;</p> </body> </html>

Interfaz Web para el cliente, archivo (resultados): resultadosJSP.jsp

<%@ page contentType="text/html; charset=iso-8859-1" language="java" import="java.sql.*" errorPage="" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /> <title>Untitled Document</title> <jsp:useBean id="datos" scope="session" class="com.busqueda.databases.ResqunoTO" /> <script src="http://maps.google.com/maps?file=api&amp;v=2&amp;key=ABQIAAAAzr2EBOXUKnm_jVnk0OJI7xSosDVG8KKPE1-m51RBrvYughuyMxQ-i1QfUnH94QxWIa6N4U6MouMmBA" type="text/javascript"></script> <script type="text/javascript"> function initialize() { if (GBrowserIsCompatible()) { var map = new GMap2(document.getElementById("map_canvas")); map.setCenter(new GLatLng(24.327077, -101.77734), 5); // Add 10 markers to the map at random locations var bounds = map.getBounds(); var southWest = bounds.getSouthWest(); var northEast = bounds.getNorthEast(); var lngSpan = northEast.lng() - southWest.lng(); var latSpan = northEast.lat() - southWest.lat(); <% int num1 = datos.getNum_registros(); for (int i=0;i<num1;i++) { datos.setIndex_registro(i); out.println("var point = new GLatLng("+datos.getLatitud()+","+datos.getLongitud()+");"); out.println("map.addOverlay(new GMarker(point));"); } %> } } </script> <style type="text/css"> <!--

Page 137: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 124  

.Estilo1 {font-family: "Courier New", Courier, monospace} --> </style> </head> <body background="#76a0ca" onload="initialize()" onunload="GUnload()"> <center> <table width="1024" border="7" bordercolordark="#000099" height="1200" border="0" cellpadding="0" cellspacing="0" bgcolor="#34558a"> <tr> <td height="50" valign="top" bgcolor="#999999">&nbsp;</td> </tr> <tr> <td height="1240" valign="top"><table width="1024" height="1240" border="0" align="center" cellpadding="0" cellspacing="0"> <tr> <td height="1240" valign="top"><table width="100%" height="1104" border="0" cellpadding="0" cellspacing="0"> <tr> <td width="9%" height="1104" valign="top"><img src="Images/logocic.gif" alt="CIC" width="91" height="61" longdesc="CICIMAGEN" /></td> <td width="84%" valign="top"><table width="100%" border="0" cellspacing="0" cellpadding="0"> <tr> <td height="61" bgcolor="#34558a"><h1 align="center" class="Estilo1">B&uacute;squeda y Ponderaci&oacute;n de Informaci&oacute;n Geogr&aacute;fica </h1> <h1 align="center" class="Estilo1">PIIG LAB </h1> <h1 align="center" class="Estilo1">&nbsp;</h1></td> </tr> </table> <table width="100%" height="952" border="0" cellpadding="0" cellspacing="0"> <tr> <td height="519"><center> <div id="map_canvas" style="width: 725px; height: 500px"></div> </center> </td> </tr> <tr> <td height="433" valign="top"><div align="center">Numero de elementos: <jsp:getProperty name="datos" property="num_registros" /> </div> <table border="2" align="center" bordercolor="#000000"> <tr> <td><div align="right"> <% int num = datos.getNum_registros(); if(num ==0) out.println("<center>"+"<h2>"+"LA RESPUESTA ES NULA, TE SUGERIMOS ELEGIR UNA RESPUESTA APROXIMADA"+"</h2>"+"</center>"); else{ out.println("<tr><td>RESULTADOS TIPOS DE VEGETACION</td><td>UBICACIÓN</td><td>LATITUD</td><td>LONGITUD</td></tr>"); for (int i=0;i<num;i++) { datos.setIndex_registro(i); out.println("<tr><td>"+datos.getVegetacion()+"</td><td>"+datos.getUbicacion()+"</td><td>"+datos.getLatitud()+"</td><td>"+datos.getLongitud()+"</td></tr>"); }

Page 138: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 125  

} %> </div></td> </tr> </table></td> </tr> </table></td> <td width="7%" valign="top"><img src="Images/logoipn.jpg" alt="IPN" width="69" height="87" longdesc="IPNIMAGEN" /></td> </tr> </table> </td> </tr> </table></td> </tr> <tr> <td>&nbsp;</td> </tr> </table></center> </body> </html>

Interfaz Web para el cliente, archivo (resultados): resultadosJSP_2.jsp

<%@ page contentType="text/html; charset=iso-8859-1" language="java" import="java.sql.*" errorPage="" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /> <title>Untitled Document</title> <jsp:useBean id="datos" scope="session" class="com.busqueda.databases.ResqdosTO" /> <script src="http://maps.google.com/maps?file=api&amp;v=2&amp;key=ABQIAAAAzr2EBOXUKnm_jVnk0OJI7xSosDVG8KKPE1-m51RBrvYughuyMxQ-i1QfUnH94QxWIa6N4U6MouMmBA" type="text/javascript"></script> <script type="text/javascript"> function initialize() { if (GBrowserIsCompatible()) { var map = new GMap2(document.getElementById("map_canvas")); map.setCenter(new GLatLng(24.327077, -101.77734), 5); // Add 10 markers to the map at random locations var bounds = map.getBounds(); var southWest = bounds.getSouthWest(); var northEast = bounds.getNorthEast(); var lngSpan = northEast.lng() - southWest.lng(); var latSpan = northEast.lat() - southWest.lat(); <% int num1 = datos.getNum_registros(); for (int i=0;i<num1;i++) { datos.setIndex_registro(i);

Page 139: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 126  

out.println("var point = new GLatLng("+datos.getLatitud()+","+datos.getLongitud()+");"); out.println("map.addOverlay(new GMarker(point));"); } %> } } </script> </head> <body background="#76a0ca" onload="initialize()" onunload="GUnload()"> <table width="102%" height="261" border="0" cellpadding="0" cellspacing="0" bgcolor="#34558a"> <tr> <td>&nbsp;</td> </tr> <tr> <td valign="top"><table width="1024" height="866" border="0" align="center" cellpadding="0" cellspacing="0"> <tr> <td height="866" valign="top">&nbsp; <table width="100%" height="712" border="0" cellpadding="0" cellspacing="0"> <tr> <td width="9%">&nbsp;</td> <td width="84%" valign="top"><table width="100%" border="0" cellspacing="0" cellpadding="0"> <tr> <td height="61">&nbsp;</td> </tr> </table> <table width="100%" height="974" border="0" cellpadding="0" cellspacing="0"> <tr> <td height="413"> <center><div id="map_canvas" style="width: 725px; height: 500px"></div></center> &nbsp;</td> </tr> <tr> <td height="496" valign="top"><div align="center">Numero de elementos: <jsp:getProperty name="datos" property="num_registros" /> </div> <table border="2" align="center" bordercolor="#000000"> <tr> <td> <div align="right"> <% int num = datos.getNum_registros(); if(num ==0) out.println("<center>"+"<h2>"+"LA RESPUESTA ES NULA, TE SUGERIMOS ELEGIR UNA RESPUESTA APROXIMADA"+"</h2>"+"</center>"); else{ out.println("<tr><td>RESULTADOS TIPOS DE VEGETACION</td><td>UBICACIÓN</td><td>LATITUD</td><td>LONGITUD</td></tr>"); for (int i=0;i<num;i++) { datos.setIndex_registro(i); out.println("<tr><td>"+datos.getVegetacion()+"</td><td>"+datos.getUbicacion()+"</td><td>"+datos.getLatitud()+"</td><td>"+datos.getLongitud()+"</td></tr>"); } }

Page 140: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 127  

%> </div></td> </tr> </table></td> </tr> </table></td> <td width="7%">&nbsp;</td> </tr> </table> <center> </center> </td> </tr> </table></td> </tr> <tr> <td>&nbsp;</td> </tr> </table> </body> </html>

Page 141: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 128  

REFERENCIAS (Aesigt, 1993)

1. Aesigt. 1993. Diccionario glosario de términos SIG. Madrid, AESIGT. 1993.

(Aristotle’s, 2003)

2. Aristotle’s. 2003. Methaphysics, IV, 1, “The Subject Matter of Aristotle’s Methaphysics”, Stanford Encyclopedia of Philosophy. 2003.

(Aronoff, 1991)

3. Aronoff, S. 1991. Geographic Information Systems: A Management Perspective. Ottawa, WDL Publications. 1991.

(Bernaras, et al., 1996)

4. Bernaras, A., Laresgoiti, I. and Corera, J. 1996. Building and Reusing Ontologies for Electrical. Network Applications. Proceedings of the European Conference on Artificial Intelligence (ECAI96). 1996. pp. 298-302.

(Berners-Lee, et al., 2001)

5. Berners-Lee, T. and Hendler, J. 2001. The Semantic Web: A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities, Scientific American. 2001.

(Blázquez del Toro, et al., 2006)

6. Blázquez del Toro, J. M., et al. 2006. Ordenacion de resultados en consultas semánticas sobre base de datos. Madrid : s.n., 2006.

(Borst, 1997)

7. Borst, W. N. 1997. Construction of engineering ontologies for knowledge sharing and reuse. Doctoral Thesis. Centre for Telematics and Information Technology, Universiteit Twente. de la Morena A. XVIII Congreso Nacional de la SEAP. Benalmádena. 1997.

(Bosque Sendra, 1992)

8. Bosque Sendra, J. 1992. Sistemas de Información Geográfica. Madrid, Rialp. 1992.

(Braken, et al., 1992)

Page 142: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 129  

9. Braken, I. and Webster, C. 1992. Information technology in geography and planning. Londres & New York, Routledge. 1992.

(Bucher, et al., 2005)

10. Bucher, B. P., Clough, H. and Joho, R. 2005. Geographic IR Systems: Requirements and Evaluation. En Proceedings of the 22nd International Cartographic Conference. 2005.

(Burrough, et al., 1997)

11. Burrough, P. A. and Mcdonnell, R. A. 1997. Principles of geographical information systems. Nueva York, Oxford University Press. 1997.

(Cebrian, 1994)

12. Cebrian, J. A. 1994. GIS Concepts. Cáceres, Departamento de Geografía y Ordenación del Territorio de la Universidad de Extremadura. 1994.

(Chaudhuri, et al., 2006)

13. Chaudhuri, S., et al. 2006. Probabilistic information retrieval approach for ranking of database query results. ACM Press. 2006. pp. 1134-1168.

(Conesa García, 1996)

14. Conesa García, C. 1996. Área de aplicación medio ambiental de los SIG. Modelizacion y avances recientes”. Papeles de Geografía, nº 23-24. 1996. pp. 101-115.

(Egenhofer, 2002)

15. Egenhofer, M. J. 2002. Max J. Egenhofer, Toward the semantic geospatial web, Proceedings of the 10th ACM international symposium on Advances in geographic information systems. 2002.

(Felman, et al., 1995)

16. Felman, R. and Dagan, I. 1995. Knowledge discovery in textual databases. In Proceedings of KDD. 1995.

(Fonseca, 2000)

17. Fonseca, F. 2000. Users, Ontologies and Information Sharing inUrbanGIS in ASPRS. 2000.

(Francis, et al., 1982)

Page 143: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 130  

18. Francis, W. and Kucera, H. 1982. Frequency Analysis of English Usage, Houghton Mifflin Co. 1982.

(Ganesan, et al., 2003)

19. Ganesan, P., Garcia-Molina, H. and Widom, J. 2003. Exploiting hierarchical domain structure to compute similarity. ACM Trans. Inf. Syst. 21(1). 2003. pp. 64-93.

(Gruber, 1993)

20. Gruber, T. R. 1993. A translation approach to portable ontology specifications. Knowledge Adquisition, 5(2). 1993.

(Guarino, et al., 1995)

21. Guarino, N. and Giaretta, P. 1995. Ontologies and knowledge bases: towards a terminological clarification. Trento, Roma: Laboratory for Applied Ontology. 1995.

(Guarino, 1998)

22. Guarino, N. 1998. Formal ontology and information systems. Trento, Roma: Laboratory for Applied Ontology (LOA). 1998.

(Güting, 1994)

23. Güting, R. 1994. An introduction to spatial database systems. The International Journal on Very Large Data Bases 3(4). 1994. págs. 357-399.

(Herman, 2003)

24. Herman, I. 2003. W3C Head of Offices Helsinki, Introduction to the Semantic Web. 2003.

(Hirts, et al., 1998)

25. Hirts, G. and St-Onge, D. 1998. Lexical chains as representation of context for the detection and correction of malapropisms, en Fellbaum, C., WordNet: An Electronic Lexical Database, MIT Press. 1998. pp. 265–283.

(Huxhold, 1991)

26. Huxhold, W. E. 1991. An introduction to urban geographic information systems New York, Oxford University Press. 1991.

(INEGI, 2006)

Page 144: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 131  

27. INEGI. 2006. Instituto Nacional de Estadistica, Atlas. Situación Actual de la División Político-Administrativa Interestatal Estados Unidos Mexicanos . 2006.

(INEGI, 1995)

28. INEGI. 1995. Instituto Nacional de Estadistica, Base de datos geograficos. Diccionario del uso del suelo y vegetación Escalas 1:250,000. 1995.

(Jena, 2007)

29. Jena. 2007. Jena 2. “A Semantic Web Framework”. URL: http//www.hp1.hp.com/semweb/jena.html. 2007.

(Koeppen, 1948)

30. Koeppen, Wilhelm. 1948. Climatología. Con un estudio de los climas de la tierra. Version directa de Pedro R. Hendrischs Pérez. Fondo de Cultura Economica. México : s.n., 1948.

(Leacock, et al., 1998)

31. Leacock, C. and Chodorow, M. 1998. Combining local context and WordNet similarity for word sense identification, en Fellbaum, C., WordNet: An Electronic Lexical Database, MIT Press. 1998. pp. 265–283.

(Levachkine, et al., 2004)

32. Levachkine, S. and Guzmán-Arenas, A. 2004. Hierarchies measuring qualitative variables. Lecture Notes in Computer Science. v2945. 2004. pp. 262-274.

(Levachkine, et al., 2007)

33. Levachkine, S. and Guzmàn-Arenas, A. 2007. Hierarchy as a new data type for qualitative variables. Expert Systems with Applications: An International Journal, 32(3). 2007. pp. 899-910.

(Lin, 1998)

34. Lin, D. 1998. An information-theoretic definition of similarity, Proc 15th International Conference on Machine Learning. 1998. pp. 296–304.

(Lord, et al., 2003)

35. Lord, P. W., et al. 2003. Investigating semantic similarity measures across the Gene Ontology: the relationship between sequence and annotation, Bioinformatics, 19(10). 2003. pp. 1275– 1283.

(Maguire, et al., 1991)

Page 145: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 132  

36. Maguire, D. J., Goodchild, M. F. and Rhind, D. W. 1991. Geographical information systems: principles and applications. Harlow, Longman/New York, John Wiley & Sons Inc. 1991.

(Marble, 1990)

37. Marble, D. 1990. “Geographic information systems: an overview”. En Peuquet, J. y Marble, D. F., Introductory reading in geographic information systems. Londres. 1990. pp. 8-18.

(McGill, 1983)

38. McGill, M. J. 1983. Introduction to Modern Information Retrieval. McGraw-Hill, New York. 1983.

(Miller, et al., 1991)

39. Miller, G. A. and Chrales, W. G. 1991. Contextual Correlates of Semantic Similarity. Language and Cognitive Processes. 1991. pp. 6(1):1–28.

(Miller, et al., 1990)

40. Miller, G. A., et al. 1990. WordNet: an on-line lexical database. International Journal of Lexicography, 3(4). 1990.

(Miranda, et al., 1963)

41. Miranda, F. G. and Hernandez-X. 1963. Los tipos de vegetaciónde México y su clasificación. Bol. Soc. Bot. México. 1963. pp. 29-179.

(Moreno Ibarra, 2007)

42. Moreno Ibarra, M. A. 2007. Similitud semántica entre sistemas de objetos geográficos aplicada a la generalización de datos geoespaciales. Tesis Doctoral. México : s.n., 2007.

(NCGIA, 1990)

43. NCGIA. 1990. National Center for Geographical Information and Analysis, vol.1. Santa Bárbara, Universidad de California. 1990.

(Neches, et al., 1991)

44. Neches, R., et al. 1991. Enabling Technology for Knowledge Sharing. Magazine, vol 12, number 3,1991. 1991.

(Protégé, 2008)

Page 146: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 133  

45. Protégé. 2008. The Protégé Ontology Editor and Knowledge Acquisition System. URL: http//protege.stanford.edu. 2008.

(RDQL, 2007)

46. RDQL. 2007. RDQL Query de HP. URL: http://www.hpl.hp.com/semweb/rdql.htm. 2007.

(Resnick, et al., 1994)

47. Resnick, P., et al. 1994. An open architecture for collaborative filtering of netnews. In Proceedings of the Computer Supported Collaborative Work Conference. 1994.

(Resnik, 1993)

48. Resnik, P. 1993. Selection and Information: A Class-Based Approach to Lexical Relationships, Ph.D Dissertation. 1993.

(Rodríguez Pascual, 1993)

49. Rodríguez Pascual, A. 1993. “Proposición de una definición profunda de SIG”. II Congreso de AESIG. Los Sistemas de Información Geográfica en el umbral del S XXI. Madrid. 1993. pp. 127-143.

(RQL, 2007)

50. RQL. 2007. "The RDD Query Language" URL: http://139.91.183.30:9090/RDF/RQL/ Forth Institute of Computer Sciences. 2007.

(Rubenstein, et al., 1965)

51. Rubenstein, H. and Goodenough, J. B. 1965. Contextual Correlates of Synonymy. Communications of the ACM, 8(10). 1965. pp. 627-663.

(Rusbergen, 1979)

52. Rusbergen, C. J. 1979. Information Retrieval. 2nd ed., Butterworths. London : s.n., 1979.

(Rzedowsky, 1978)

53. Rzedowsky, J. 1978. Vegetación de México. Limusa, México. 1978.

(Salton, et al., 1998)

54. Salton, G. and Buckley, C. 1998. Term-weighting approaches in automatic text retrieval. Inf. Process. Manage, 24(5). 1998. pp. 513-523.

Page 147: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 134  

(Scott, et al., 1998)

55. Scott, S. and Matwin, S. 1998. Text classification using WordNet hypernyms. In Proceedings of the Use of WordNet in Natural Language Processing Systems. Association for Computational Linguistics. 1998.

(SPARQL, 2007)

56. SPARQL. 2007. SPARQL W3C. URL: http://www.w3.org/TR/rdf-sparql-query/. 2007.

(Strehl, et al., 2000)

57. Strehl, A., Ghosh, J. and Mooney, R. 2000. Impact of similarity measures on Web-page clustering. In Proceedings of the AAAI Workshop on AI for Web Search. 2000.

(Studer, et al., 1998)

58. Studer, S., Benjamins, R. and Fensel, D. 1998. “Knowledge Engineering: Principles and Methosds,” Data and Knowledge Engineering, 25. 1998. pp. 167-197.

(Swartout, et al., 1997)

59. Swartout, B., Patil, R. and Knight, K. 1997. Toward distributed use of large-scale ontologies. In AAAI-97 Spring Symposium Series on Ontological Engineering. 1997.

(Tegels, 2008)

60. Tegels. 2008. "Model Your Data Hierarchies With SQL Server 2008". URL: http://msdn.microsoft.com/en-us/magazine/cc794278.aspx. 2008.

(Torres, et al., 2008)

61. Torres M. and Levachkine S. 2008. “Towards a methodology to conceptualize the geographic domain”, In A. Gelbukh & E.F. Morales (Eds.), Lecture Notes in Artificial Intelligence, Vol. 5317, Springer-Verlag, Berlin Heidelberg, 2008, pp. 111-122.

(Uschold, et al., 1996)

62. Uschold, M. and Grüninge, M. 1996. Ontologies: Principles, methods and applications. Knowledge Engineering Review, 11(2). 1996.

(Van Heijst, et al., 1996)

Page 148: TESIS - levashkin.comlevashkin.com/files/Gerardo Sarabia Lopez.pdf · recuperación de la información espacial se hace a través consultas procesadas en forma ... in SPARQL. The

   

   

Búsqueda y ponderación de información contenida en bases de datos espaciales, utilizando jerarquías 135  

63. Van Heijst, G., Schereiber, A. T. and Wielinga, B. J. 1996. "Using Explicit Ontologies in KBS Development" en International Journal of Human and Computer Studies. 1996.

(W3C, 2001)

64. W3C. 2001. URL: http://www.w3.org/2001/sw/. 2001.

(Wikipedia, 2008)

65. Wikipedia. 2008. Enciclopedia libre. URL: http://es.wikipedia.org/. 2008.