Upload
jhonatan-c-morais
View
3
Download
0
Embed Size (px)
Citation preview
1
UNIVERSIDADE FEDERAL DE SANTA CATARINA
JEAN CARLOS DE MORAIS JHONATAN CARLOS DE MORAIS
AUTOMAO DA PUBLICAO E MANUTENO DE LINKED DATA USANDO A LDWPO
FLORIANPOLIS, 2015
2
JEAN CARLOS DE MORAIS JHONATAN CARLOS DE MORAIS
AUTOMAO DA PUBLICAO E MANUTENO DE LINKED DATA USANDO A LDWPO
Trabalho de concluso de curso
apresentado como parte das atividades
para obteno do grau de Bacharel em
Sistemas de Informao pela
Universidade Federal de Santa Catarina.
Orientador: Prof. Dr. Jos Leomar
Todesco
FLORIANPOLIS, 1 SEMESTRE DE 2015.
3
FOLHA DE APROVAO DE PROPOSTA DE TCC
Acadmico(s) Jean Carlos de Morais
Jhonatan Carlos de Morais
Ttulo do trabalho (subttulo)
AUTOMAO DA PUBLICAO E MANUTENO DE LINKED DATA USANDO A LDWPO
Curso Sistemas de Informao/INE/UFSC
rea de Concentrao Web Semntica
Instrues para preenchimento pelo ORIENTADOR DO TRABALHO:
- Para cada critrio avaliado, assinale um X na coluna SIM apenas se considerado aprovado. Caso contrrio, indique as alteraes necessrias na coluna Observao.
4
RESUMO
A manuteno de conjuntos de dados Linked Data uma atividade demorada
e cara, que envolve muitos recursos. O custo de manuteno pode ser reduzido pela
automao do fluxo de trabalho de publicao de dados, a qual proporciona
mtodos para suportar o ciclo de vida dos conjuntos de dados RDF de uma forma
sistemtica. O grupo AKSW, de Leipzig, desenvolveu uma ontologia para a
orquestrao de fluxos de trabalho de processamento de dados ligados apelidado de
Linked Data Ontology Workflow Project. Na ontologia apresentado o plano, mtodo
e conceitos de execuo, que permitem descrever as tarefas de manuteno
importantes na publicao de Linked Data. Este trabalho tem como objetivo aplicar a
ontologia LDWPO atravs de ferramentas abertas para a publicao de dados
ligados abertos de modo a maximizar a automatizao deste processo de
publicao.
Palavras-chave: Linked Data, RDF, Ontologias, Web Semntica.
5
LISTA DE ABREVIATURAS E SIGLAS
AKSW Agile Knowledge Engineering and Semantic Web
LDWPO Linked Data Worflow Project Ontology
RDF Resource Description Framework
XML EXtensible Markup Language
URI Universal Resource Identifier
HTTP Hypertext Transfer Protocol
SPARQL SPARQL Protocol and RDF Query Language
6
SUMRIO
1. Introduo ....................................................................................................... 7
2. Objetivos ......................................................................................................... 8
2.1. Objetivo Geral ....................................................................................... 8
2.2. Objetivos Especficos .......................................................................... 8
2.3. Entregas do Projeto ............................................................................. 9
2.4. Restries ............................................................................................. 9
2.5. Premissas ............................................................................................. 9
3. Mtodo de Pesquisa ....................................................................................... 9
4. Cronograma .................................................................................................. 10
5. Custos ........................................................................................................... 10
6. Recursos Humanos ...................................................................................... 11
7. Comunicao ................................................................................................ 11
8. Riscos ............................................................................................................ 12
Referncias ................................................................................................... 13
7
1. Introduo
A Web Semntica foi projetada para expandir a Web que conhecemos
atualmente, possibilitando que a imensa quantidade de dados disponveis na Web
possa ser compreendida no s por pessoas, mas tambm por mquinas.
(BATISTA; LSCIO, 2013). Segundo Berners-Lee (2001), ela no uma web
separada, mas uma extenso da atual, em que a informao fornecida atravs de
um significado bem definido, permitindo que computadores e pessoas trabalhem em
cooperao. A disponibilizao de recursos informacionais melhor estruturados e
representados, de modo a construir uma rede de informaes conectadas possvel
atravs de ferramentas tecnolgicas tais como agentes de software, XML, RDF.
ontologias, padres ou formatos e metadados. A definio de como construir esta
rede informaes ligadas surgiu com os princpios de Linked Data, introduzidos por
Berners-Lee em 2006.
Linked Data um conjunto de melhores prticas para publicao e conexo
de dados estruturados na web, permitindo estabelecer links entre itens de diferentes
fontes de dados para formar um nico espao de dados global (HEATH; BIZER,
2011). Este conjunto de melhores prticas so sumarizados em quatro princpios: i)
Use URIs para nomear as coisas; ii) Use URIs HTTP para que as pessoas possam
procurar o desejado; iii) Quando algum olha para um URI, fornea informaes
teis, usando os padres (RDF, SPARQL); iv) Incluir links para outros URIs, para
que eles possam descobrir explorar mais as coisas. Estes novos princpios abriram
uma vasta gama de oportunidades, permitindo a publicao de dados acerca dos
mais diversos temas e o desenvolvimento novas aplicaes para interagirem com
estes dados, de modo a construir uma Web de Dados.
Junto com estes novos horizontes, propiciados pelos dados ligados, surgem
as dificuldades da manuteno destes dados publicados. A manuteno de
conjuntos de dados Linked Data complicada e envolve uma srie de atividades
bastante onerosas. Em contrapartida, o custo destas atividades de manuteno dos
conjuntos de dados possvel de ser reduzido, atravs da automatizao do fluxo
de trabalho de publicao de dados, que proporciona mtodos para suportar o ciclo
8
de vida destes conjuntos de dados, representados em formato RDF, de uma forma
sistemtica.
Desenvolvida pelo grupo Agile Knowledge Engineering and Semantic Web, a
ontologia LDWPO (Linked Data Ontology Workflow Project) uma ontologia para a
orquestrao de fluxos de trabalho de processamento de dados ligados. A LDWPO
apresenta plano, mtodo e conceitos de execuo, permitindo e realizao de uma
descrio detalhada das tarefas de manuteno importantes na publicao de dados
no padro Linked Data. A ontologia permite: i) Descrever o fluxo de trabalho de
produo completa para conjuntos de dados RDF, permitindo assim
reprodutibilidade ao longo do tempo; ii) Descrever os mtodos e ferramentas
utilizadas em tal fluxo de trabalho; e iii) Executar os fluxos de trabalho descritos
numa forma semi-automatizada, utilizando tecnologias de dados vinculados
(RAUTENBERG, 2015).
Este trabalho pretende aplicar a ontologia LDWPO atravs de ferramentas
abertas de publicao de dados ligados na web, de modo a maximizar a
automatizao deste processo. Para tal, ser necessrio definir um conjunto de
dados abertos, publicado nos padres Linked Data, para a efetuao de testes da
ontologia e das ferramentas associadas ao processo de publicao e manuteno
de dados ligados.
2. Objetivos
Nesta seo sero apresentados os objetivos deste trabalho.
2.1. Objetivo Geral
Aplicar a ontologia LDWPO e automatizar o processo de publicao e
manuteno de Linked Data.
2.2. Objetivos especficos
9
Propor por meio de uma ferramenta de software a automatizao do
processo de publicao e manuteno, fazendo com que este
processo seja intuitivo e eficiente;
Oferecer uma ferramenta amigvel para que a ontologia LDWPO
consiga ser explorada de uma maneira concisa;
Pesquisar metodologias de manipulao de dados Linked Data.
2.3. Entregas do Projeto
Relatrio de Projetos I;
Relatrios de Projetos II juntamente com o projeto.
2.4. Restries
O projeto dever estar concludo at junho de 2016;
Dever ser respeitada a integridade do modelo ontolgico da LDWPO.
2.5. Premissas
Dever ser cedido por meio de repositrio pblico o projeto LDWPO,
com seus fontes, assim como documentao do mesmo.
3. Mtodo de Pesquisa
Este um projeto de cunho tecnolgico que visa inicialmente identificao
das melhores tecnologias disponveis para a auxiliar nos processos identificados.
Sero exploradas as possveis solues e discutidas as melhores formas de
implementar o conjunto de aes necessrios para atingir os objetivos propostos.
Inicialmente, o tipo de pesquisa a ser adotada ser a pesquisa exploratria,
de modo a obter um maior grau de conhecimento sobre o cenrio a ser trabalhado,
dado o alto grau de especificidade do mesmo. Os dados necessrios sero obtidos
atravs de estudos, manipulao e experimentao sobre o projeto LDWPO. A
10
anlise e validao das informaes obtidas, de modo a consolidar o conhecimento,
permitindo o constante avano do trabalho ser realizada com frequncia, quando
necessrio, com membros da equipe do projeto LDWPO e com o professor
orientador.
Durante todo o desenvolvimento do projeto almejar-se- seguir as melhores
prticas, tcnicas e conceitos aprendidos nas diversas disciplinas durante o curso de
Bacharelado em Sistemas de Informao da Universidade Federal de Santa
Catarina. O ambiente de trabalho utilizado pelos membros da equipe para o
desenvolvimento do mesmo se dividir entre residncia e universidade, sendo o
objeto de trabalho utilizado fundamentalmente o computador. Buscar-se- o uso de
softwares livres, sempre quando possvel.
4. Cronograma
Etapas Meses
ago. set. out. nov. dez. fev. mar. abr. mai. jun.
Estudo da fundamentao terica
Reviso do estado da arte & prtica
Estruturao do modelo de trabalho
Entrega do relatrio de Projeto 15/12
Desenvolvimento da soluo
Redao do rascunho do TCC
Entrega do rascunho do TCC 20/05
Preparao da defesa pblica
Defesa pblica 10/06
Ajustes no relatrio final do TCC
5. Custos
Sero utilizados neste projeto apenas computadores pessoais dos autores,
portanto gastos com equipamentos fsicos no sero descritos no quadro de custos.
Quanto s ferramentas de desenvolvimento, visa-se a no utilizao de softwares
11
proprietrios, todavia no descarta-se esta possibilidade. A ideia inicial utilizar
apenas softwares, ferramentas e tecnologias de mercado que sejam gratuitas.
Item Quantidade Valor
unitrio (R$)
Valor
Total
(R$)
Outros recursos e servios
Fotocpias 1.000 R$ 0,10
R$ 100,00
TOTAL R$ 100,00
6. Recursos Humanos
Nome Funo
Jean Carlos de Morais Autor
Jhonatan Carlos de Morais Autor
Jos Leomar Todesco Orientador
Membro da banca
Membro da banca
7. Comunicao
O que precisa ser comunicado
Por quem Para quem Melhor forma de
comunicao Quando e com que
freqncia
Proposta de TCC Jean e
Jhonatan Coordenador de
projetos Via site de projetos
Prazo da entrega 20/07/2015
Reunio sobre andamento do
projeto
Jean e Jhonatan
Jos Leomar Todesco
Encontro presencial Mensalmente
12
Relatrio de andamento do
projeto
Jean e Jhonatan
Jos Leomar Todesco
E-mail Quinzenalmente
Relatrio Final Projetos I
Jean e Jhonatan
Coordenador de projetos
Via site de projetos
Prazo da entrega 15/12/2015
Relatrio Final Projetos II
Jean e Jhonatan
Coordenador de projetos
Via site de projetos
Prazo da entrega 20/07/2016
8. Riscos
Risco Probabilidade Impacto Prioridade Estratgia de
resposta Aes de preveno
Dificuldade com
tecnologias utilizadas Alta Alto Alta
Capacitao dos
membros do
projeto para
utilizao das
tecnologias
adequadas
Verificar ferramentas de
mercado, que sejam
difundidas e com boa
documentao
Descontinuidade do
projeto LDWPO Baixa Alto Alta
Redefinio do
escopo do
trabalho ou
mudana de tema
Manter-se informado
sobre o projeto, se
possvel, manter contato
com algum membro da equipe do mesmo
Perda de membro da
equipe durante o
projeto
Baixa
Alto
Baixa
Reestruturar o
cronograma e
ajustar as
atividades
Definio de um tema
que seja de acordo para
ambos os membros da
equipe
13
Referncias
[1] RAUTENBERG, S. Linked Data Workflow Project Ontology. Ontology Development
Process Technical Report, Document Version 0.1. (2015). Disponvel em:
. Acesso em: 7 jul. 2015.
[2] BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. "The Semantic Web" by, Scientific
American. (2001). Disponvel em . Acesso em: 7 jul. 2015.
[3] BERNERS-LEE, T. Linked Data - Design Issues. (2006). Disponvel em
. Acesso em: 7 jul. 2015.
[4] BATISTA, M. G. R; LSCIO, B. F. OpenSBBD: Usando Linked Data para Publicao de
Dados Abertos sobre o SBBD. (2013) Disponvel em
. Acesso em: 7 jul. 2015.
[5] HEATH, T; BIZER, C. Linked Data: Evolving the Web into a Global Data Space. Morgan
& Claypool, 1st edition. Disponvel em . Acesso em: 7 jul.
2015.