Geo-Information Retrieval · Geo-Information Retrieval M. Andrea Rodr guez Tastets...

Preview:

Citation preview

Geo-Information Retrieval

M. Andrea Rodríguez Tastets

DIICC-Universidad de Concepción

CIW - Universidad de Chile

andrea@udec.cl

Geo-IR?

Refiere a enfoques destinados a la

recuperación con criterios geográficos

de información de objetos geo-

referenciados (GIOs):

Objetos o documentos que hablan de un

lugar específico

Refiere a enfoques destinados a la

recuperación con criterios geográficos

de información de objetos geo-

referenciados (GIOs):

Geo-IR?

Refiere a enfoques destinados a la

recuperación con criterios geográficos

de información de objetos geo-

referenciados (GIOs):

Source: USGS

Datos geo-espaciales (mapas, imágenes satelitales, etc..)

que representan un elemento espacial o conjunto de

elementos con sus respectivos atributos

Geo-IR?

Refiere a enfoques destinados a la

recuperación con criterios geográficos

de información de objetos geo-

referenciados (GIOs):

• Referencia a un lugar en particular:

¿Qué información se tiene de Santiago?

• Referencia a una ventana espacial

¿Qué información se tiene de la zona contenida en

la ventana W(x1,y1,x2,y2)?

• Referencia a una relación entre lugares

¿Qué información se tiene de 60 km al Sur de

Santiago?

Búsqueda Espacial

La búsqueda por criterios espaciales está basado

en la integración de representaciones espaciales y

relaciones espaciales.

Dos enfoques son:

Cuantitativo: basado en las propiedades

geométricas

Cualitativo: basado en propiedades no geométricas

Geometría en la Web:Estándares

GML- Geographic Markup Language

Web Map Services

Estándares para Información

Geo-Espacial

• Existen múltiples actores con distintos roles y

responsabilidades involucrados en la construcción de

Infraestructuras Digitales Espaciales (IDE):

– Organización Internacional de Estándares (ISO TC 211, TC

204, JTC-1)

– World Wide Web Consortium (W3C)

– OpenGIS Consortium (OGC)

– Normas de Organizaciones nacionales

Estándares en el Ambito Geo-Espacial

OpenGIS OpenGIS

ConsortiumConsortium, W3C, W3C

Especificaciones

de Implementación

ISO TC 211ISO TC 211

Normas

Generales

NormasNormas

NacionalesNacionalesEstándares de Datos

Autoridad de Datos

IDE

Otros

IDEs

Establish

definition of

and terms of

engagement

in *SDI

Interacciones

ISO

TC 211 TC 204

JTC-1

National

Standards

Organizations

Provide

expertise &

candidate stds.

Review &

approve

stds.

Adopter/

Implementer

Community

OpenGIS

Consortium

(OGC)

World Wide

Web Consortium

(W3C)

Internet Engineering

Task Force (IETF)

Facilitation Bodies

• GSDI

• ANZLIC

• PCGIAP

• FGDC

• PC-IDEA

• INSPIRE

• GeoConnections

• CODI/UNECA

• AGI

• …

W3C: HTTP, PNG, RDF, SOAP/XMLP

(Web Services Activity), XML, Xlink,

Xpath, Xpointer, XSL/XSLT, XML

Schema

OGC: Web Map

Server, Web Feature

Server, GML, Web

Coverage Server,

Style Layer

Descriptor, Catalog

Service

ISO: Ref Model, Terminology,

Conformance testing, Profiles, Spatial

Schema, Temporal Schema, Feature

Cataloguing Methodology, Spatial Ref by

Coords and Ids, Quality, Metadata, WMS,

GML, LBS, Registration of Geo-information

Items

Metadata Profile,

Data Content

Standards, etc.

XML Protocol (XMLP),

XML Signature, I18N

XML, I18N

OpenGIS Consorcio: GML

• OpenGIS es una organización sin afán de lucro

• Creada en 1994 para promover la interoperabilidad

• Compuesta de una comunidad internacional (204) de:

•Empresas

•Agencias gubernamentales

•Instituciones académicas

Objetivos de GML

• Orientado para aplicaciones GIS en la Internet

• Abierto, independiente del vendedor

• Soporta esquemas

• Comparte, enlaza y almacena esquemas y datos

• Extensible para soportar análisis

• Soporta interoperabilidad

Estructura de GML• Documentos GML contienen una colección de “features”

(GML-FCs)

• GML-FC es en sí misma una “feature” GML con una extensión

espacial • “Features” complejas pueden estar compuestas de otras

“features”

• Una “feature” GML tiene propiedades, una o más de las cuales

pueden ser geométricas

• Una colección de gemetría GML es una geometría GML

• Geometría GML:

- contiene coordenadas

- especifica un sistema de referencia en un archivo separado

GML v2.0: Esquema de Geometría

GML v2.0: Esquema de “Features”

GML y XML Schema

• GML usa W3C XML Schema Definition Language

para definir y restringir los contenidos de sus

documentos XML.

XML/Schema (XSD)

• Especificación desarrollada por W3C

• Part 0: Primer - http://www.w3.org/TR/xmlschema-0/

• Part 1: Structure - http://www.w3.org/TR/xmlschema-1/

• Tres recomendaciones propuestas

• Part 2: Datatypes - http://www.w3.org/TR/xmlschema-2/

• Reemplazá definiciones complejas de TDT

• Tipos simples o complejos definidos por el usuario

• Tipo de herencia/ derivación por entensión o restricción

• Soporta tipos simples definidos o derivados

• Soporta XML Namespaces, XLink / XPointer / XPath

GML v2.0 en XML/Schema

• Define tipos de base compleja para geometrías y “features”

• XML/Schema para “features” geográficas de OpenGIS

• Define XLink Attribute Group para asociaciones

de propiedades

• Modelo de contenido para propiedades geométricas y “features”

<Class>

<property>

<Class> … </Class>

</property>

<remoteProperty xlink:href=“http://…”/>

</Class>

Codificando “Features” sin Geometría

<element name="Dean" type="ex:DeanType" />

<complexType name="DeanType">

<sequence>

<element name="familyName" type="string"/>

<element name="age" type="integer"/>

<element name="nickName" type="string"

minOccurs="0" maxOccurs="unbounded"/>

</sequence>

</complexType>

<Dean>

<familyName>Smith</familyName>

<age>42</age>

<nickName>Smithy</nickName>

<nickName>Bonehead</nickName>

</Dean>

XMLXML/Schema

<element name="Dean" type="ex:DeanType"

substitutionGroup="gml:_Feature" />

<complexType name="DeanType">

<complexContent>

<extension base="gml:AbstractFeatureType">

<sequence>

<element name="familyName" type="string"/>

<element name="age" type="integer"/>

<element name="nickName" type="string"

minOccurs="0" maxOccurs="unbounded"/>

</sequence>

</extension>

</complexContent>

</complexType>

Schema

Codificando “Features” GML sin

Geometría

<Dean fid="D1123” >

<gml:description>A nice old chap</gml:description>

<familyName>Smith</familyName>

<age>42</age>

<nickName>Smithy</nickName>

<nickName>Bonehead</nickName>

</Dean>

<Dean>

<familyName>Smith</familyName>

<age>42</age>

<nickName>Smithy</nickName>

<nickName>Bonehead</nickName>

</Dean>

XML GML

Codificando “Features” GML sin

Geometría

• Point

• LineString

• LinearRing

• Polygon

• MultiPoint

• MultiLineString

• MultiPolygon

• MultiGeometry

<element name="coord" type="gml:CoordType" />

<complexType name="CoordType">

<sequence>

<element name="X" type="decimal"/>

<element name="Y" type="decimal" minOccurs="0"/>

<element name="Z" type="decimal" minOccurs="0"/>

</sequence>

</complexType>

<Point srsName="http://www.opengis.net/gml/srs/epsg.xml#4326">

<coord><X>5.0</X><Y>40.0</Y></coord>

</Point>

Codificando Geometría con GML

Definiendo Propiedad de Geometría en

GML/Schema

<element name="_geometryProperty" type="gml:GeometryPropertyType"

abstract="true"/>

<complexType name="GeometryPropertyType">

<annotation>

<documentation>A simple geometry property encapsulates a geometry element.

Alternatively, it can function as a pointer (simple-type link) that refers to a

remote geometry element. </documentation>

</annotation>

<sequence minOccurs="0">

<element ref="gml:_Geometry"/>

</sequence>

<attributeGroup ref="gml:AssociationAttributeGroup"/>

</complexType>

<element name="pointProperty" type="gml:PointPropertyType"

substitutionGroup="gml:_geometryProperty"/>

<complexType name="PointPropertyType">

<annotation>

<documentation>Encapsulates a single point to represent position,

location, or centerOf properties.</documentation>

</annotation>

<complexContent>

<restriction base="gml:GeometryPropertyType">

<sequence minOccurs="0">

<element ref="gml:Point"/>

</sequence>

<attributeGroup ref="gml:AssociationAttributeGroup"/>

</restriction>

</complexContent>

</complexType>

Definiendo Propiedad de Geometría en

GML/Schema

<element name="Dean" type="ex:DeanType" substitutionGroup="gml:_Feature"/>

<element name="deanLocation" type="gml:PointPropertyType"

substitutionGroup="gml:pointProperty"/>

<complexType name="DeanType">

<complexContent>

<extension base="gml:AbstractFeatureType">

<sequence>

<element name="familyName" type="string"/>

<element name="age" type="integer"/>

<element name="nickName" type="string"

minOccurs="0" maxOccurs="unbounded"/>

<element ref="ex:deanLocation" />

</sequence>

</extension>

</complexContent>

</complexType>

Definiendo “Features” con Geometría en

GML/Schema

Codificando “Features” GML con

Geometría<Dean fid="D1123” >

<gml:description>A nice old chap</gml:description>

<familyName>Smith</familyName>

<age>42</age>

<nickName>Smithy</nickName>

<nickName>Bonehead</nickName>

<deanLocation>

<Point srsName="http://www.opengis.net/gml/srs/epsg.xml#4326">

<coord><X>5.0</X><Y>40.0</Y></coord>

</Point>

</deanLocation>

</Dean>

Definiendo Colección de “Features” en

GML/Schema<element name="CityModel" type="ex:CityModelType"

substitutionGroup="gml:_FeatureCollection"/>

<element name="River" type="ex:RiverType"

substitutionGroup="gml:_Feature"/>

<element name="Road" type="ex:RoadType" substitutionGroup="gml:_Feature"/>

<complexType name="CityModelType">

<complexContent>

<extension base="gml:AbstractFeatureCollectionType">

<sequence>

<element name="dateCreated" type="month"/>

</sequence>

</extension>

</complexContent>

</complexType>

<complexType name="RiverType">

<complexContent>

<extension base="gml:AbstractFeatureType">

<sequence>....</sequence>

</extension>

</complexContent>

</complexType>

<complexType name="RoadType">

<complexContent>

<extension base="gml:AbstractFeatureType">

<sequence>.....</sequence>

</extension>

</complexContent>

</complexType>

Definiendo Colección de “Features” en

GML/Schema

<CityModel fid="Cm1456">

<dateCreated>Feb 2000</dateCreated>

<gml:featureMember xlink:type="simple"

xlink:href="http://www.myfavoritesite.com/rivers.xml#Rv567"/>

<gml:featureMember xlink:type="simple"

xlink:href="http://www.myfavoritesite.com/rivers.xml#Rv568"/>

<gml:featureMember>

<Road fid="Rd812">....</Road>

</gml:featureMember>

</CityModel>

Miembros de asociación remota

Codificando Colección de “Features”

<fema:Hurricane fid=”H1456">

<name>Kurt</name>

<dateTime>2000-08-21T13:20:00-06:00</dateTime>

<noaa:stormMember xlink:type="simple"

xlink:href="http://www.noaa.gov/stormsurge.xml#S567"/>

<ace:leveeMember xlink:type="simple"

xlink:href="http://www.ace.gov/levees.xml#Lv568"/>

<fl:hospitalMember xlink:type=“simple”

xlink:href=“http://www.fl.state.us/hospitals.xml#H235”/>

<dot:interstateMember xlink:type=“simple”

xlink:href=“http://www.dot.gov/interstates.xml#I95”/>

<tgr:countyMember xlink:type=“simple”

xlink:href=“http://www.census.gov/counties.xml#SC12011”/>

</fema:Hurricane>

con “features” compartidas

Colección de “Features” Distribuidas

Web Map Service

Información geométrica en la Web es típicamente

manejada a través de Web Mapping Services

(WPS) los cuales se caracterizan por ser:

- relativamente fáciles de usar,

- específicos para ciertas tareas,

- limitados en:

compartir información y

compartir servicios.

= Datos ! Aplicaciones

GeoMedia™ WebMap

MapGuide™

MapObjects IMSMapXtreme™

ELVIS

GIS ViewerModelServer Imager

Spatial Web Broker

CARIS Internet Server

OGDINetGIS

STAR Next Surf

TerraServer

Orthophoto Browser

Mapquest Internet

PARC Map Viewer

Internet Map ServerTIGER Map Server

GLOBE VisualizationEnviroMapper

Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

GISDATA

Web B rowser Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

Web B rowser

GISDATA

X X X X X X X X X X X X X X X X X X X

Web B rowser

Algunos WMS

Objetivos de WMS

Whov ille

Whov illeCedar Lake

Vista integrada

Internet

•Descubrir, accesar y

recuperar vistas desdemúltiples servidores

•Desplegar múltipes “layers”de datos geográficos usando

una misma aplicación Web

•Consultar y actualizar

•Proveer una visualización

•Soportar datos tipo raster,

vector, etc..

Crimen

Social

Transporte

Uso

Clima

Medio Ambiente

Caminos

ParcelasComunas

...

Catálogo

Servicios

WMS - Web Map Server

WMS

Request

GIF, JPEGResponse

• Get Map

Gracias por la buena imagen de un

mapa…

Pero ahora quiero los datos

WMS - Web Map Server

WMS

• Get Map

Request

• Get Feature Info

• Get Data

ResponseGML

WFS - Web Feature Server

• Get Capabilities

• Describe Feature Type

• Get Features

• Lock Feature

• Transaction

- Insert

- Update

- Delete

XML

GML

GML

Schema

El Futuro de WMS in la Web

• Compartir objectos espaciales en GML usandoXlinks

• Datos actualizados servidos por losgeneradores de datos (descentralización)

Localización en el Contenido Textual

Memoria Chilena: Portal de la Cultura

Hoy, probablemente, muchos chilenos pueden acordarsedónde se encontraban durante los terremotos ocurridosen las ciudades de Concepción y Valdivia en 1960 ySantiago en 1985, e incluso los de más edad recordaránel de Chillán en 1939. En este sentido, los terremotoshan sido una constante en toda la historia de Chile.Ubicado en el llamado Cinturón de Fuego del Pacífico,Chile es una de las regiones más sísmicas del planeta.Bajo su territorio convergen la placa de Nazca y la placacontinental americana, provocando periódicamentemovimientos telúricos de diversa magnitud que enocasiones provocan gigantescas catástrofes.

Memoria Chilena: Portal de la Cultura

Tiempo

Hoy, probablemente, muchos chilenos pueden acordarsedónde se encontraban durante los terremotos ocurridosen las ciudades de Concepción y Valdivia en 1960 ySantiago en 1985, e incluso los de más edad recordaránel de Chillán en 1939. En este sentido, los terremotoshan sido una constante en toda la historia de Chile.Ubicado en el llamado Cinturón de Fuego del Pacífico,Chile es una de las regiones más sísmicas del planeta.Bajo su territorio convergen la placa de Nazca y la placacontinental americana, provocando periódicamentemovimientos telúricos de diversa magnitud que enocasiones provocan gigantescas catástrofes.

Memoria Chilena: Portal de la Cultura

Tiempo Espacio

Hoy, probablemente, muchos chilenos pueden acordarsedónde se encontraban durante los terremotos ocurridosen las ciudades de Concepción y Valdivia en 1960 ySantiago en 1985, e incluso los de más edad recordaránel de Chillán en 1939. En este sentido, los terremotoshan sido una constante en toda la historia de Chile.Ubicado en el llamado Cinturón de Fuego del Pacífico,Chile es una de las regiones más sísmicas del planeta.Bajo su territorio convergen la placa de Nazca y la placacontinental americana, provocando periódicamentemovimientos telúricos de diversa magnitud que enocasiones provocan gigantescas catástrofes.

Memoria Chilena: Portal de la Cultura

Tiempo Espacio Tema

Hoy, probablemente, muchos chilenos pueden acordarsedónde se encontraban durante los terremotos ocurridosen las ciudades de Concepción y Valdivia en 1960 ySantiago en 1985, e incluso los de más edad recordaránel de Chillán en 1939. En este sentido, los terremotoshan sido una constante en toda la historia de Chile.Ubicado en el llamado Cinturón de Fuego del Pacífico,Chile es una de las regiones más sísmicas del planeta.Bajo su territorio convergen la placa de Nazca y la placacontinental americana, provocando periódicamentemovimientos telúricos de diversa magnitud que enocasiones provocan gigantescas catástrofes.

Consultas

• Encontrar pasajes que hablen de

terremotos en el siglo pasado en :

– Sur de Chile

– Chile central

– Centro y Sur de Chile

Localizaciones en Páginas Web

• Categorías de localizaciones en laWeb:– Provider location: localización del propietario

de la página

– Content location: el contenido geográfico queuna página describe o contiene

– Serving location: el dominio geográfico que unapáginas puede alcanzar

• Categorías de localizaciones en laWeb:– Provider location: localización del propietario

de la página

– Content location: el contenido geográfico queuna página describe o contiene

– Serving location: el dominio geográfico que unapáginas puede alcanzar

Localizaciones en Páginas Web

Localización de Contenido

• Es el reconocimiento de la

localización en el contenido de

documentos textuales.

Gazetteers

• Es un diccionario espacial de nombres ytipos de lugares

• Contiene una representación espacial(footprints):– Puntos

– Rectángulos mínimos (bounding boxes)

– Polígonos generalizados

– Polígonos complejos

– Relaciones espaciales

Gazetteer (1)

Gazetteer (2)

• Maneja aspectos temporales tales como:– Nombres históricos

– Extensión espacial asociada al tiempo

– Relaciones administrativas históricas

– Atributos variables en el tiempo

– ..

• Algunas Gazetter:– Alexandria Digital Library http://www.alexandria.ucsb.edu/

– Getty Thesaurus of Geographic Nameshttp://www.getty.edu/research/conducting_research/vocabularies/tgn/

Determinando Geo-referencias

• Encontrar geo-referencias en páginas

Web a través de:

- códigos postales

- Teléfonos

- Nombre de lugares

Consideraciones de Geo-referencias

• Alta agregación de localidades

geográficas:

– Ciudades, comunas, regiones…

• La ocurrencia de un nombre de lugar no

implica necesariamente que la página

hable de ella.

• Ambigüedad en el uso de términos

!

Power(w,l) =References(w,l)

Locations(w)

Contenido Geográfico: Power

• Medida de interés de la localización l

en la página Web w :

!

Spread(w,l) =

"Power(w,li)

Power(w,l j )j=1

n

#$ log(

Power(w,li)

Power(w,l j )j=1

n

#i=1

n

# )

log(n)

Contenido Geográfico: Spread

• Medida de distribución del interes en

localización l de la página Web w:

Dominio Geográfico

• Candidatos CGS(w): conjunto de nodes (l) en la

jerarquía espacial tal que:– Spread(w,l) " #c

– Para todo l’ que es ancestro de l, Spread(w,l’) < #c

• Dominio estimado EGS(w): conjunto de

localizaciones de CGS(w) usando alguna de las

estretegias de “poda”:– Top-k pruning

– Absolute-threshold pruning

– Relative-threshold pruning

Procesando Referencias

• Tagging: extraer nombre propios de lenguaje

natural

• Normalización y manejo de ambigüedad:– Alias: sinónimos

– Ambigüedad: heurísticas definidas a priori

– A top-down enfoque de manera que se propagan top-level

referencias

Casos en la Web Chilena

• Uso gazetteer

• Uso de relaciones espaciales

• Dos casos de estudio:

– Turismo (http://www.turistel.cl, 3672)

– Noticias (http://www.emol.cl, 1307)

www.turismochile.cl

www.emol.cl

Similitud - Ranking

Indexación

Similitud Espacial: Geometría

• Similitud espacial es un indicador de relevancia decuánto el contenido espacial de un documento seasemeja al de una consulta

• Similitud espacial se aplica a:– Geometría de objetos

– Relaciones espaciales entre objetos

Similitud Espacial de Objetos

• Superposición simple

• Superposición topológica

• Grado de superposición

Similitud Espacial: Objetos

http://calsip.regis.berkeley.edu/pattyf/mapserver/cheshire2/cheshire_init.html

Aproximaciones geométricas

1) Minimum Bounding Circle (3) 2) MBR: Minimum aligned

Bounding rectangle (4)3) Minimum Bounding Ellipse (5)

6) Convex hull (varies)5) 4-corner convex polygon (8)4) Rotated minimum bounding rectangle (5)

After Brinkhoff et al, 1993b

Ranking

0.94

0.71

0.70

0.72

Precision

Where

Q = area de consulta

C = area de candidato GIO

O= area de superposición entre Q y C

Larson and

Frontiera 2004

Beard and

Sharma 1997

Walker et al

1992

Hill 1990

FormulaReferencia

!

Range = 2O

Q+ C

!

Range = MIN(O

Q,O

C)

!

Range1

=C

Q,Range

2=

%O

1"%O+100,Range

3=Q

C

!

Range = P(R |Q,D) = c0 + c1O

Q+ c2

O

C

Similitud de Relaciones Espaciales

• Relaciones Topológicas

• Relaciones de Orientación

• Relaciones de Distancia

Esfoque Cualitativo:

covered by contains

disjoint meet overlap equal

covers inside

Esfoque Cuantitativo:

aa

A

B

C

de

di

!"C

!

F(A,B) =area(A) " 2area(A# B)

area(A)+distance($A,$B)

diagonal($B)

Similitud de Relaciones (Godoy and Rodríguez

2004)

!

S(A,B) =area(A) " 2area(A# B)

area(A)+distance($A,$B)

diagonal($B)

0.46

0.55

0.66

PrecisionFormula

!

S(A,B) =area(A)

area(A" B)!

S(A,B) =diagonal(A)

diagonal(A" B)

Similitud: contextual

[cuantificador][tipo][zona]

La mitad de las comunas de la región del BioBio

La ciudad de concepción

Ranking: Cuantificación

Consulta= !!!"Comunas al norte de Concepción"

P1= La mitad de las comunas al norte de Concepción

P2= Todas las comunas al norte de Concepción

P3= !30 de las comunas al norte de Concepción

r=50%

r=100%

r=i/n=20/50=60%

1

2

3

rank

Indexación

Conclusiones

• Geo- IR no es sólo geometría, sino texto

• Ciertas nociones clásica de IR pueden ser

aplicadas a Geo-IR

• Explotar las característcias del dominio

• Incorporar técnicas de NLP

• Necesidad de estándares para datos y

procedimientos de evaluación

Recommended