33
Curso Integración Web Semántica Jose María Álvarez Rodríguez WESO-Universidad de Oviedo E-mail: [email protected] WWW: http://josemalvarez.es Estadísticas 25 Octubre 2011

Curso Integración Web Semántica Estadísticas

Embed Size (px)

Citation preview

Page 1: Curso Integración Web Semántica Estadísticas

Curso Integración Web Semántica

Jose María Álvarez RodríguezWESO-Universidad de Oviedo

E-mail: [email protected]: http://josemalvarez.es

Estadísticas25 Octubre 2011

Page 2: Curso Integración Web Semántica Estadísticas

Recordando…

Page 3: Curso Integración Web Semántica Estadísticas

Receta• Elegir el dataset a RDFizar• Analizar los datos a convertir• Buscar cómo modelar estos datos

• Reutilizar vocabularios + Nuevas definiciones

• Enriquecer• Con qué datasets tengo/debo/quiero

enlazar y qué operación• Servicios de acceso a esos datasets

• Herramientas de generación• Validen los datos generados• Datos estáticos o dinámicos• Provenance …• Descripción del dataset generado

Page 4: Curso Integración Web Semántica Estadísticas

Mi Receta• Noménclator 2010 de Asturias• Formato MSExcel, Códigos, Descripciones

textuales, jerarquía de entidades y datos estadísticos

• SKOS, Dublin Core, SCOVO, Cube+SDMX, Organizations Ontology, FOAF, NUTS, etc.

• DBPedia-SPARQL-Reconciliar• Google Maps API-REST WS-Buscar

• Google Refine+ RDF extension• Valida RDF de salida• Datos estáticos • Provenance, licencia …• Descripción del dataset generado

Page 5: Curso Integración Web Semántica Estadísticas
Page 6: Curso Integración Web Semántica Estadísticas

Estadísticas con The RDF Data Cube vocabulary

http://publishing-statistical-data.googlecode.com/svn/trunk/specs/src/main/html/c ube.html

Page 7: Curso Integración Web Semántica Estadísticas

Definiciones The RDF Data Cube vocabulary

• Dataset estadístico: colección de observaciones, definida por un conjunto de dimensiones: tiempo, superficie, población + metadatos

• Cubo: conjunto de dimensiones+atributos+medidas• Dimensión : identifica observaciones• Medida: fenómeno observado• Atributo: cualifica y sirve para interpretar las

observaciones• Slices : cada subconjunto de observaciones en un

dataset

Page 8: Curso Integración Web Semántica Estadísticas

Esqueleto de una entidad de poblaciónTipo Valor

Código Concejo 53 (QUIRÓS)

Parroquia 08 (LLANUCES)

Entidad 02

Nombre (es) Llanuces

Nombre (ast) Chanuces

Tipo Entidad Lugar

Superficie (sólo parroquias y concejos)

Distancia 7,00

Altitud 870

Total población 28

Hombres 17

Mujeres 11

Total Viviendas 59

Viviendas Principales 15

Viviendas No Principales 44

Page 9: Curso Integración Web Semántica Estadísticas

• Región: cada una de las entidades de población

• Superficie• Altitud• Distancia• Período: constante 2010• Género: Hombre o Mujer• Tipo de Vivienda: Principales y No

Principales

Dimensiones Noménclator 2010

Page 10: Curso Integración Web Semántica Estadísticas

• Superficie: Km2• Altitud: metros• Distancia: metros• Género: nº de personas• Tipo de Vivienda: nº de viviendas

Medidas Noménclator 2010

Page 11: Curso Integración Web Semántica Estadísticas

• Región + Intervalo 2010+• Superficie• Altitud• Distancia• Género

• Hombres• Mujeres

• Tipo de Vivienda• …

SlicesNoménclator 2010

Page 12: Curso Integración Web Semántica Estadísticas

Generar datos de n dimensiones

Altitud+

Género

Page 13: Curso Integración Web Semántica Estadísticas

URIs Utilizadasnomen-stats:

http://localhost/nomenclator/stats/definitions

nomen-obs:

http://localhost/nomenclator/stats/observations

URI de una observación:

nomen-obs:{slice}/{ID_Concejo}/{ID_Parroquia}/{ID_Entidad}

Page 14: Curso Integración Web Semántica Estadísticas

nomen-stats:refArea a rdf:Property , qb:DimensionProperty ; rdfs:label “Región"@es ;

rdfs:subPropertyOfsdmx-dimension:refArea ;

rdfs:range skos:Concept ; (Concejo…) qb:concept sdmx-concept:refArea .

Modelo Región

Page 15: Curso Integración Web Semántica Estadísticas

nomen-stats:refPeriod a rdf:Property , qb:DimensionProperty ;

rdfs:label “Período"@es ;

rdfs:subPropertyOfsdmx-dimension:refPeriod ;

rdfs:range interval:Interval;qb:concept sdmx-concept:refPeriod .

Modelo Tiempo

Page 16: Curso Integración Web Semántica Estadísticas

nomen-stats:physicalData a rdf:Property , qb:DimensionProperty ;

rdfs:label “Datos físicos"@es ;

rdfs:range rdf:Resource.

Modelo Datos Físicos

Page 17: Curso Integración Web Semántica Estadísticas

Medida Altitud

nomen-stats:altitude a rdf:Property , qb:MeasureProperty ;

rdfs:label “Altitud"@es ;

rdfs:subPropertyOfsdmx-measure:obsValue;

rdfs:range xsd:decimal .

Page 18: Curso Integración Web Semántica Estadísticas

nomen-stats:population a rdf:Property , qb:MeasureProperty ;

rdfs:label “Población"@es ;

rdfs:subPropertyOfsdmx-measure:obsValue;

rdfs:range xsd:integer .

Medida Población

Page 19: Curso Integración Web Semántica Estadísticas

nomen-stats:nomenclator2010 a qb:DataStructureDefinition; rdfs:comment “Noménclator 2010"@es; dcterms:date "2011-10-25"^^xsd:date;qb:slice nomen-stats:region/sex;qb:slice nomen-stats:region/physicaldata;qb:component[qb:dimension nomen-stats:refPeriod; ], [qb:dimension nomen-stats:refArea; ], [qb:dimension sdmx-dimension:sex; ], [qb:dimension nomen-stats:physicalData; ], [qb:measure nomen-stats:population; ] ,[qb:measure nomen-stats:altitud; ].

Descripción Datasetcon qb:Dataset

Page 20: Curso Integración Web Semántica Estadísticas

“Número de personas de género masculino en

Llanuces en el año 2010”

3 dimensiones1 unidad de medida

Page 21: Curso Integración Web Semántica Estadísticas

nomen-stats: sliceByRegionSex a qb:SliceKey;

rdfs:label “Slice por cada región"@es;

rdfs:comment “Año fijo, región y sexo cambian"@es;

qb:componentProperty

nomen-stats:refPeriod; //El que queda fijo

.

Descripción de un Slice(Subconjunto del Dataset)

Page 22: Curso Integración Web Semántica Estadísticas

nomen-stats: spopulation a qb:DataStructureDefinition;

qb:component

[qb:dimension nomen-stats:refPeriod; ],

[qb:dimension nomen-stats:refArea; ],

[qb:dimension sdmx-dimension:sex; ],

[qb:measure nomen-stats:population; ];

qb:sliceKey nomen-stats: sliceByRegionSex .

Descripción de un Slice(Estructura)

Page 23: Curso Integración Web Semántica Estadísticas

nomen-stats:region/sex a qb:Slice;

qb:sliceStructure

nomen-stats: sliceByRegionSex;

nomen-stats:refPeriod<http://reference.data.gov.uk/id/gregorian-interval/2010-01-01T00:00:00/P1Y> ;

qb:observation

nomen-obs:region/sex/m/53/08/02, ….

Descripción de un Slice(Definición)

Page 24: Curso Integración Web Semántica Estadísticas

nomen-obs:region/sex/m/53/08/02 a qb:Observation; qb:dataSet nomen-stats:nomenclator2010;

nomen-stats:refArea<http://localhost/nomenclator/asturias/2010/53/08/0 2> ;

nomen-stats:refPeriod<http://reference.data.gov.uk/doc/gregorian-interval/2010-01-01T00:00:00/P1Y> ;

sdmx-dimension:sex sdmx-code:sex-M ;

sdmx-attribute:unitMeasure<http://dbpedia.org/resource/Person>

nomen-stats:population 17 ; . .

Finalmente en RDF…

Page 25: Curso Integración Web Semántica Estadísticas

“ Altitud en metros de Llanuces en el año 2010”

3 dimensiones, …bueno la altitud puede cambiar en cierto intervalo

¿2M años?

1 unidad de medida

Page 26: Curso Integración Web Semántica Estadísticas

nomen-stats: sliceByRegion a qb:SliceKey;

rdfs:label “Slice por cada región"@es;

rdfs:comment “Año y datos físicos fijos, la región cambia"@es;

qb:componentProperty nomen-stats:refPeriod;

qb:componentProperty

nomen-stats:physicalData;

.

Descripción de un Slice(Subconjunto del Dataset)

Page 27: Curso Integración Web Semántica Estadísticas

nomen-stats: saltitude a qb:DataStructureDefinition; qb:component

[qb:dimension nomen-stats:refPeriod; ],

[qb:dimension nomen-stats:refArea; ],

[qb:dimension nomen-stats:physicalData; ],

[qb:measure nomen-stats:altitude; ] ;

qb:sliceKey nomen-stats: sliceByRegion .

Descripción de un Slice(Estructura)

Page 28: Curso Integración Web Semántica Estadísticas

nomen-stats:region/physicaldata a qb:Slice;

qb:sliceStructure

nomen-stats: sliceByRegion;

nomen-stats:refPeriod<http://reference.data.gov.uk/id/gregorian-interval/2010-01-01T00:00:00/P1Y> ;

nomen-stats:physicalData<http://dbpedia.org/resource/Altitude >;

qb:observationnomen-obs:region/physicaldata/altitude/53/08/02, …

.

Descripción de un Slice(Definición)

Page 29: Curso Integración Web Semántica Estadísticas

nomen-obs:region/physicaldata/altitude/53/08/02 a qb:Observation; qb:dataSet nomen-stats:nomenclator2010;

nomen-stats:refArea<http://localhost/nomenclator/asturias/2010/53/08/02>;

nomen-stats:refPeriod<http://reference.data.gov.uk/doc/gregorian-interval/2010-01-01T00:00:00/P1Y> ;

nomen-stats:physicalData<http://dbpedia.org/resource/Altitude >;

sdmx-attribute:unitMeasure<http://dbpedia.org/resource/Metro>

nomen-stats:altitude 870 ; . .

Finalmente en RDF…

Page 30: Curso Integración Web Semántica Estadísticas

Guardar el proyecto con los “datos

limpios”+

Crear un nuevo proyecto sólo para

estadísticas

Page 31: Curso Integración Web Semántica Estadísticas

Volvemos a Google Refine…

Crear un nuevo RDF con 3 nodos raíz (hombres, mujeres

y altitud)…mapear, producir…publicar!

Ver fichero: recursos/rdf/nomenclator-stats-definitions.ttl

Page 32: Curso Integración Web Semántica Estadísticas

@prefix sdmx: <http://purl.org/linked-data/sdmx#> .

@prefix sdmx-concept: <http://purl.org/linked-data/ sdmx/2009/concept#> .

@prefix sdmx-dimension: <http://purl.org/linked-data /sdmx/2009/dimension#> .

@prefix sdmx-attribute: <http://purl.org/linked-data /sdmx/2009/attribute#> .

@prefix sdmx-measure: <http://purl.org/linked-data/s dmx/2009/measure#> .

@prefix sdmx-metadata: <http://purl.org/linked-data /sdmx/2009/metadata#> .

@prefix sdmx-code: <http://purl.org/linked-data/sdm x/2009/code#> .

@prefix sdmx-subject: <http://purl.org/linked-data/ sdmx/2009/subject#> .

@prefix dcterms: <http://dublincore.org/documents/d cmi-terms/>.

@prefix qb: <http://purl.org/linked-data/cube#> .

Algunos prefijos…

Page 33: Curso Integración Web Semántica Estadísticas

Curso Integración Web Semántica

Jose María Alvarez RodríguezWESO-Universidad de Oviedo

E-mail: [email protected]: http://josemalvarez.es

…Consumo , Introducción OWL+Ejemplo ,

Debate+Conclusiones …