Upload
weso-oviedo-semantic-web
View
478
Download
3
Embed Size (px)
Citation preview
Curso Integración Web Semántica
Jose María Álvarez RodríguezWESO-Universidad de Oviedo
E-mail: [email protected]: http://josemalvarez.es
Estadísticas25 Octubre 2011
Recordando…
Receta• Elegir el dataset a RDFizar• Analizar los datos a convertir• Buscar cómo modelar estos datos
• Reutilizar vocabularios + Nuevas definiciones
• Enriquecer• Con qué datasets tengo/debo/quiero
enlazar y qué operación• Servicios de acceso a esos datasets
• Herramientas de generación• Validen los datos generados• Datos estáticos o dinámicos• Provenance …• Descripción del dataset generado
Mi Receta• Noménclator 2010 de Asturias• Formato MSExcel, Códigos, Descripciones
textuales, jerarquía de entidades y datos estadísticos
• SKOS, Dublin Core, SCOVO, Cube+SDMX, Organizations Ontology, FOAF, NUTS, etc.
• DBPedia-SPARQL-Reconciliar• Google Maps API-REST WS-Buscar
• Google Refine+ RDF extension• Valida RDF de salida• Datos estáticos • Provenance, licencia …• Descripción del dataset generado
Estadísticas con The RDF Data Cube vocabulary
http://publishing-statistical-data.googlecode.com/svn/trunk/specs/src/main/html/c ube.html
Definiciones The RDF Data Cube vocabulary
• Dataset estadístico: colección de observaciones, definida por un conjunto de dimensiones: tiempo, superficie, población + metadatos
• Cubo: conjunto de dimensiones+atributos+medidas• Dimensión : identifica observaciones• Medida: fenómeno observado• Atributo: cualifica y sirve para interpretar las
observaciones• Slices : cada subconjunto de observaciones en un
dataset
Esqueleto de una entidad de poblaciónTipo Valor
Código Concejo 53 (QUIRÓS)
Parroquia 08 (LLANUCES)
Entidad 02
Nombre (es) Llanuces
Nombre (ast) Chanuces
Tipo Entidad Lugar
Superficie (sólo parroquias y concejos)
Distancia 7,00
Altitud 870
Total población 28
Hombres 17
Mujeres 11
Total Viviendas 59
Viviendas Principales 15
Viviendas No Principales 44
• Región: cada una de las entidades de población
• Superficie• Altitud• Distancia• Período: constante 2010• Género: Hombre o Mujer• Tipo de Vivienda: Principales y No
Principales
Dimensiones Noménclator 2010
• Superficie: Km2• Altitud: metros• Distancia: metros• Género: nº de personas• Tipo de Vivienda: nº de viviendas
Medidas Noménclator 2010
• Región + Intervalo 2010+• Superficie• Altitud• Distancia• Género
• Hombres• Mujeres
• Tipo de Vivienda• …
SlicesNoménclator 2010
Generar datos de n dimensiones
Altitud+
Género
URIs Utilizadasnomen-stats:
http://localhost/nomenclator/stats/definitions
nomen-obs:
http://localhost/nomenclator/stats/observations
URI de una observación:
nomen-obs:{slice}/{ID_Concejo}/{ID_Parroquia}/{ID_Entidad}
nomen-stats:refArea a rdf:Property , qb:DimensionProperty ; rdfs:label “Región"@es ;
rdfs:subPropertyOfsdmx-dimension:refArea ;
rdfs:range skos:Concept ; (Concejo…) qb:concept sdmx-concept:refArea .
Modelo Región
nomen-stats:refPeriod a rdf:Property , qb:DimensionProperty ;
rdfs:label “Período"@es ;
rdfs:subPropertyOfsdmx-dimension:refPeriod ;
rdfs:range interval:Interval;qb:concept sdmx-concept:refPeriod .
Modelo Tiempo
nomen-stats:physicalData a rdf:Property , qb:DimensionProperty ;
rdfs:label “Datos físicos"@es ;
rdfs:range rdf:Resource.
Modelo Datos Físicos
Medida Altitud
nomen-stats:altitude a rdf:Property , qb:MeasureProperty ;
rdfs:label “Altitud"@es ;
rdfs:subPropertyOfsdmx-measure:obsValue;
rdfs:range xsd:decimal .
nomen-stats:population a rdf:Property , qb:MeasureProperty ;
rdfs:label “Población"@es ;
rdfs:subPropertyOfsdmx-measure:obsValue;
rdfs:range xsd:integer .
Medida Población
nomen-stats:nomenclator2010 a qb:DataStructureDefinition; rdfs:comment “Noménclator 2010"@es; dcterms:date "2011-10-25"^^xsd:date;qb:slice nomen-stats:region/sex;qb:slice nomen-stats:region/physicaldata;qb:component[qb:dimension nomen-stats:refPeriod; ], [qb:dimension nomen-stats:refArea; ], [qb:dimension sdmx-dimension:sex; ], [qb:dimension nomen-stats:physicalData; ], [qb:measure nomen-stats:population; ] ,[qb:measure nomen-stats:altitud; ].
Descripción Datasetcon qb:Dataset
“Número de personas de género masculino en
Llanuces en el año 2010”
3 dimensiones1 unidad de medida
nomen-stats: sliceByRegionSex a qb:SliceKey;
rdfs:label “Slice por cada región"@es;
rdfs:comment “Año fijo, región y sexo cambian"@es;
qb:componentProperty
nomen-stats:refPeriod; //El que queda fijo
.
Descripción de un Slice(Subconjunto del Dataset)
nomen-stats: spopulation a qb:DataStructureDefinition;
qb:component
[qb:dimension nomen-stats:refPeriod; ],
[qb:dimension nomen-stats:refArea; ],
[qb:dimension sdmx-dimension:sex; ],
[qb:measure nomen-stats:population; ];
qb:sliceKey nomen-stats: sliceByRegionSex .
Descripción de un Slice(Estructura)
nomen-stats:region/sex a qb:Slice;
qb:sliceStructure
nomen-stats: sliceByRegionSex;
nomen-stats:refPeriod<http://reference.data.gov.uk/id/gregorian-interval/2010-01-01T00:00:00/P1Y> ;
qb:observation
nomen-obs:region/sex/m/53/08/02, ….
Descripción de un Slice(Definición)
nomen-obs:region/sex/m/53/08/02 a qb:Observation; qb:dataSet nomen-stats:nomenclator2010;
nomen-stats:refArea<http://localhost/nomenclator/asturias/2010/53/08/0 2> ;
nomen-stats:refPeriod<http://reference.data.gov.uk/doc/gregorian-interval/2010-01-01T00:00:00/P1Y> ;
sdmx-dimension:sex sdmx-code:sex-M ;
sdmx-attribute:unitMeasure<http://dbpedia.org/resource/Person>
nomen-stats:population 17 ; . .
Finalmente en RDF…
“ Altitud en metros de Llanuces en el año 2010”
3 dimensiones, …bueno la altitud puede cambiar en cierto intervalo
¿2M años?
1 unidad de medida
nomen-stats: sliceByRegion a qb:SliceKey;
rdfs:label “Slice por cada región"@es;
rdfs:comment “Año y datos físicos fijos, la región cambia"@es;
qb:componentProperty nomen-stats:refPeriod;
qb:componentProperty
nomen-stats:physicalData;
.
Descripción de un Slice(Subconjunto del Dataset)
nomen-stats: saltitude a qb:DataStructureDefinition; qb:component
[qb:dimension nomen-stats:refPeriod; ],
[qb:dimension nomen-stats:refArea; ],
[qb:dimension nomen-stats:physicalData; ],
[qb:measure nomen-stats:altitude; ] ;
qb:sliceKey nomen-stats: sliceByRegion .
Descripción de un Slice(Estructura)
nomen-stats:region/physicaldata a qb:Slice;
qb:sliceStructure
nomen-stats: sliceByRegion;
nomen-stats:refPeriod<http://reference.data.gov.uk/id/gregorian-interval/2010-01-01T00:00:00/P1Y> ;
nomen-stats:physicalData<http://dbpedia.org/resource/Altitude >;
qb:observationnomen-obs:region/physicaldata/altitude/53/08/02, …
.
Descripción de un Slice(Definición)
nomen-obs:region/physicaldata/altitude/53/08/02 a qb:Observation; qb:dataSet nomen-stats:nomenclator2010;
nomen-stats:refArea<http://localhost/nomenclator/asturias/2010/53/08/02>;
nomen-stats:refPeriod<http://reference.data.gov.uk/doc/gregorian-interval/2010-01-01T00:00:00/P1Y> ;
nomen-stats:physicalData<http://dbpedia.org/resource/Altitude >;
sdmx-attribute:unitMeasure<http://dbpedia.org/resource/Metro>
nomen-stats:altitude 870 ; . .
Finalmente en RDF…
Guardar el proyecto con los “datos
limpios”+
Crear un nuevo proyecto sólo para
estadísticas
Volvemos a Google Refine…
Crear un nuevo RDF con 3 nodos raíz (hombres, mujeres
y altitud)…mapear, producir…publicar!
Ver fichero: recursos/rdf/nomenclator-stats-definitions.ttl
@prefix sdmx: <http://purl.org/linked-data/sdmx#> .
@prefix sdmx-concept: <http://purl.org/linked-data/ sdmx/2009/concept#> .
@prefix sdmx-dimension: <http://purl.org/linked-data /sdmx/2009/dimension#> .
@prefix sdmx-attribute: <http://purl.org/linked-data /sdmx/2009/attribute#> .
@prefix sdmx-measure: <http://purl.org/linked-data/s dmx/2009/measure#> .
@prefix sdmx-metadata: <http://purl.org/linked-data /sdmx/2009/metadata#> .
@prefix sdmx-code: <http://purl.org/linked-data/sdm x/2009/code#> .
@prefix sdmx-subject: <http://purl.org/linked-data/ sdmx/2009/subject#> .
@prefix dcterms: <http://dublincore.org/documents/d cmi-terms/>.
@prefix qb: <http://purl.org/linked-data/cube#> .
Algunos prefijos…
Curso Integración Web Semántica
Jose María Alvarez RodríguezWESO-Universidad de Oviedo
E-mail: [email protected]: http://josemalvarez.es
…Consumo , Introducción OWL+Ejemplo ,
Debate+Conclusiones …