Gestão de dados de investigação da recolha até ao depósito
!Uma abordagem baseada em ontologias e dados ligados
Cristina Ribeiro [email protected] DEI—Faculdade de
Engenharia da Universidade do
Porto / INESC TECJoão Correia Lopes [email protected]ão Rocha da Silva [email protected]
Faculdade de Engenharia da
Universidade do Porto / INESC TEC
João Aguiar Castro [email protected]
Ricardo Amorim [email protected]
CONFOA 2014, 6-7 outubro 2014, Coimbra
1
Conteúdo• Gestão de dados de investigação no “long tail”
• “Linked Open Data”: porque é importante?
• Colaboração para facilitar a criação de metadados
• A plataforma Dendro
• Recolha de metadados no laboratório: LabTablet
• Conclusões
2
Gestão de dados de investigação no “long tail”
Porque é preciso começar cedo
3
2011: a revista “Science” inquiriu os revisores do ano anterior sobre as suas práticas de uso e disponibilização de dados
A “cauda longa” da investigação
4
2011: a revista “Science” inquiriu os revisores do ano anterior sobre as suas práticas de uso e disponibilização de dados
~1700 respostas
A “cauda longa” da investigação
4
Dealing with data. Challenges and opportunities. Introduction. (2011). Science (New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692
Source
5
Dealing with data. Challenges and opportunities. Introduction. (2011). Science (New York, N.Y.), 331(6018), 692–3. doi:10.1126/science.331.6018.692
Source
6
Recolha
Processamento
Escrita de artigo
Preservação, Partilha
7
Recolha
Processamento
Escrita de artigo
8
Recolha
Processamento
Escrita de artigo
8Investigador sai
Recolha
Processamento
Escrita de artigo
8Investigador sai
Metadata
Recolha
Processamento
Escrita de artigo
9
Recolha
Processamento
Escrita de artigo
9Projeto termina
Recolha
Processamento
Escrita de artigo
10
“Onde estão os dados?”“Como / quando / por quem foram
produzidos?”
Os investigadores têm de participar na gestão dos dados desde o início
São eles os especialistas do domínio
Os curadores não conseguem lidar com a descrição a posteriori
11
Dados Abertos Ligados (“Linked Open Data”)
O que são? Porque precisamos deles ?
12
Linked Open Data• Simplicidade!
- O LOD é um modelo muito simples para representar dados
• Significado!
- Recursos são ligados por propriedades com significados bem estabelecidos
• Interoperabilidade!
- Métodos normalizados para interrogar dados - SPARQL
- Representações em formatos normalizados - RDF, OWL
13
14
!!!!!!
http://dendro.fe.up.pt/project/datanotes/data/base
%20data.xls
14
!!!!
http://dendro.fe.up.pt/project/datanotes/data
nie:isLogicalPartOf
!!!!!!
http://dendro.fe.up.pt/project/datanotes/data/base
%20data.xls
14
!!!!
http://dendro.fe.up.pt/project/datanotes/data
nie:isLogicalPartOf
rdf:type
nie:File
!!!!!!
http://dendro.fe.up.pt/project/datanotes/data/base
%20data.xls
14
!!!!
http://dendro.fe.up.pt/project/datanotes/data
nie:isLogicalPartOf
“Base data of the DCB experiments”
dc:titlerdf:type
nie:File
!!!!!!
http://dendro.fe.up.pt/project/datanotes/data/base
%20data.xls
14
!!!!
http://dendro.fe.up.pt/project/datanotes/data
nie:isLogicalPartOf
“Base data of the DCB experiments”
dc:title
base data.xls
nie:title
rdf:type
nie:File
!!!!!!
http://dendro.fe.up.pt/project/datanotes/data/base
%20data.xls
14
!!!!
http://dendro.fe.up.pt/project/datanotes/data
nie:isLogicalPartOf
“Base data of the DCB experiments”
dc:title
base data.xls
nie:title
rdf:type
nie:File
180mm
dcb:initialCrackLength
!!!!!!
http://dendro.fe.up.pt/project/datanotes/data/base
%20data.xls
14
Dataset de Química Analítica
Dataset de Mecânica de Fratura …
GenéricosAuthor
Description Creation date
…
Author Description
Creation date …
…
Específicos do Domínio
Sample Count Analysed Substance
…
Initial Crack Length Specimen Type
…
15
ColaboraçãoNa criação de metadados úteis agora e no futuro
16
Recolha
Processamento
Escrita de artigo
Preservação, Partilha
17
Recolha
Depósito
Depósito a longo prazo
Colaboração Descrição
Partilha
18
Gathering
…19
DendroUma plataforma de código aberto para “Linked
Open Data” em ambientes de investigação
20
21
Metadados
Ontologias
• Armazenamwento de dados suportado em “Linked Data”
• Sem base de dados relacional
• Modelo cresce com carregamento de ontologias
• Sistemas externos recuperam recursos via SPARQL
Descrição
22
Metadata
Ontologies
File Storage !
!
• Cluster HFS para ficheiros grandes ou numerosos
• Construído para a nuvem
Depósito
23
Metadata
Ontologies
File Storage !
!
Business Logic
• Controlo de acessos flexível
• Histórico de versões
• Pré-visualização de dados
• Salvaguarda / Restauro
• Integração • DSpace (SWORD)
• ePrints (SWORD)
• CKAN
• Figshare
Colaboração
24
Metadata
Ontologies
File Storage !
!
Business Logic
API
Partilha
• Todas as operações disponíveis via API RESTful usando JSON
• Todos os recursos des-referenciáveis (HTTP content negotiation)
• Arquitetura de “plugins” permite integração com sistemas externos
Web UI
25
Para os curadores• Os curadores podem trabalhar com os investigadores
para construir ontologias usando ferramentas (ex: Protégé)
• Ontologias estabelecidas podem ser carregadas (DC, FOAF…)
• As ontologias amadurecem (com reutilização em instâncias Dendro)
• Dados, metadados e o seu significado mantêm-se juntos
Creating lightweight ontologies for dataset description: Practical applications in a cross-domain research data management workflow Castro, J., Rocha da Silva, J., Ribeiro, C. Digital Libraries 2014 (DL2014) (pre-print available at http://dendro.fe.up.pt/)
Beyond INSPIRE: An ontology for biodiversity metadata records !Rocha da Silva, J., Castro, J., Ribeiro, C., Honrado, J., Lomba, A., Gonçalves, J. 10th International Workshop on Ontology Content (OntoContent 2014) (pre-print available at http://dendro.fe.up.pt/) 26
Para os programadores
• 100% software de código aberto
• Uma API rica permite ligar o Dendro a qualquer sistema (ex: aplicações móveis)
LabTablet: semantic metadata collection on a multi-domain laboratory notebook Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 8th Metadata and Semantics Research Conference (MTSR 2014) (pre-print available at http://dendro.fe.up.pt/)
Ontology-based multi-domain metadata for research data management using triple stores Rocha da Silva, J., Ribeiro, C., Correia Lopes, J. 18th International Database Engineering & Applications Symposium (IDEAS 2014) (pre-print available at http://dendro.fe.up.pt/) 27
Usando a API: LabTablet
• Cadernos de laboratório: fonte de metadados do domínio
• Caderno de laboratório eletrónico: metadados importados para Dendro
LabTablet: semantic metadata collection on a multi-domain laboratory notebook Amorim,R., Castro, J., Rocha da Silva, J., Ribeiro, C. 8th Metadata and Semantics Research Conference (MTSR 2014) (pre-print available at http://dendro.fe.up.pt/) 28
29
30
LabTablet: uso dos sensores do dispositivo
31
�
�
�
�
32
Triple Store Ontologias
Independência da aplicação
“Base de Dados” “Documentação”
33
Conclusões• Gestão de dados de investigação deve começar cedo
• “Linked Open Data”: simples, flexível, interoperável
• O suporte à colaboração ajuda os investigadores a recolher metadados tendo em vista o depósito
• Dendro: uma plataforma completamente “open-source” para RDM, construída sobre “Linked Open Data”
• O Dendro integra com as principais plataformas de repositórios
34
Conclusões (cont.)• Outras aplicações: comunicação via API
• Ontologias: fonte de descritores para metadados
• O modelo de dados cresce à medida que se acrescentam ontologias
• Os curadores podem modelar e partilhar as ontologias
• As ontologias dos domínios evoluem com a reutilização
35
Extras
37
Graph Database(LOD)
Distributed document index
File Storage Cluster
Business Logic
Web Interface
Openlink Virtuoso 7 ElasticSearch MongoDB
(GridFS)
NodeJS (JavaScript)
AngularJS (JavaScript)
DB Adapter ES Endpoint GridFS Client
Human UsersWeb
JSON JSON JSON
RDF/XML, SPARQL Endpoint
JSON API
HTML
Data
Logic
Presentation
38
CuratedDataset
Curator
WorkingFiles
Dendro
FOAF
DC
dc:titlenie:isPartOfdcb:specimenLength
Ontology concept reuse
SPARQLEndpoint
Sharing & evolution
“Mature”ontologies on the web
Metadatavalidation
Deposit
Data producers
Free-TextSearch
API
CKANDryad
Web Portal
Domain-Specific Lightweight Ontologies
dcbdcb
Data reuser
dcb
Specification of new metadata ontologies
1
2
3
4
39