13
  1 UNIVERSIDADE FEDERAL DE SANTA CATARINA JEAN CARLOS DE MORAIS JHONATAN CARLOS DE MORAIS AUTOMAÇÃO DA PUBLICAÇÃO E MANUTENÇÃO DE LINKED DATA USANDO A LDWPO FLORIANÓPOLIS, 2015

Proposta TCC - Automação da publicação e manutenção de Linked Data usando a LDWPO - Jean Carlos de Morais e Jhonatan Carlos de Morais.pdf

Embed Size (px)

Citation preview

  • 1

    UNIVERSIDADE FEDERAL DE SANTA CATARINA

    JEAN CARLOS DE MORAIS JHONATAN CARLOS DE MORAIS

    AUTOMAO DA PUBLICAO E MANUTENO DE LINKED DATA USANDO A LDWPO

    FLORIANPOLIS, 2015

  • 2

    JEAN CARLOS DE MORAIS JHONATAN CARLOS DE MORAIS

    AUTOMAO DA PUBLICAO E MANUTENO DE LINKED DATA USANDO A LDWPO

    Trabalho de concluso de curso

    apresentado como parte das atividades

    para obteno do grau de Bacharel em

    Sistemas de Informao pela

    Universidade Federal de Santa Catarina.

    Orientador: Prof. Dr. Jos Leomar

    Todesco

    FLORIANPOLIS, 1 SEMESTRE DE 2015.

  • 3

    FOLHA DE APROVAO DE PROPOSTA DE TCC

    Acadmico(s) Jean Carlos de Morais

    Jhonatan Carlos de Morais

    Ttulo do trabalho (subttulo)

    AUTOMAO DA PUBLICAO E MANUTENO DE LINKED DATA USANDO A LDWPO

    Curso Sistemas de Informao/INE/UFSC

    rea de Concentrao Web Semntica

    Instrues para preenchimento pelo ORIENTADOR DO TRABALHO:

    - Para cada critrio avaliado, assinale um X na coluna SIM apenas se considerado aprovado. Caso contrrio, indique as alteraes necessrias na coluna Observao.

  • 4

    RESUMO

    A manuteno de conjuntos de dados Linked Data uma atividade demorada

    e cara, que envolve muitos recursos. O custo de manuteno pode ser reduzido pela

    automao do fluxo de trabalho de publicao de dados, a qual proporciona

    mtodos para suportar o ciclo de vida dos conjuntos de dados RDF de uma forma

    sistemtica. O grupo AKSW, de Leipzig, desenvolveu uma ontologia para a

    orquestrao de fluxos de trabalho de processamento de dados ligados apelidado de

    Linked Data Ontology Workflow Project. Na ontologia apresentado o plano, mtodo

    e conceitos de execuo, que permitem descrever as tarefas de manuteno

    importantes na publicao de Linked Data. Este trabalho tem como objetivo aplicar a

    ontologia LDWPO atravs de ferramentas abertas para a publicao de dados

    ligados abertos de modo a maximizar a automatizao deste processo de

    publicao.

    Palavras-chave: Linked Data, RDF, Ontologias, Web Semntica.

  • 5

    LISTA DE ABREVIATURAS E SIGLAS

    AKSW Agile Knowledge Engineering and Semantic Web

    LDWPO Linked Data Worflow Project Ontology

    RDF Resource Description Framework

    XML EXtensible Markup Language

    URI Universal Resource Identifier

    HTTP Hypertext Transfer Protocol

    SPARQL SPARQL Protocol and RDF Query Language

  • 6

    SUMRIO

    1. Introduo ....................................................................................................... 7

    2. Objetivos ......................................................................................................... 8

    2.1. Objetivo Geral ....................................................................................... 8

    2.2. Objetivos Especficos .......................................................................... 8

    2.3. Entregas do Projeto ............................................................................. 9

    2.4. Restries ............................................................................................. 9

    2.5. Premissas ............................................................................................. 9

    3. Mtodo de Pesquisa ....................................................................................... 9

    4. Cronograma .................................................................................................. 10

    5. Custos ........................................................................................................... 10

    6. Recursos Humanos ...................................................................................... 11

    7. Comunicao ................................................................................................ 11

    8. Riscos ............................................................................................................ 12

    Referncias ................................................................................................... 13

  • 7

    1. Introduo

    A Web Semntica foi projetada para expandir a Web que conhecemos

    atualmente, possibilitando que a imensa quantidade de dados disponveis na Web

    possa ser compreendida no s por pessoas, mas tambm por mquinas.

    (BATISTA; LSCIO, 2013). Segundo Berners-Lee (2001), ela no uma web

    separada, mas uma extenso da atual, em que a informao fornecida atravs de

    um significado bem definido, permitindo que computadores e pessoas trabalhem em

    cooperao. A disponibilizao de recursos informacionais melhor estruturados e

    representados, de modo a construir uma rede de informaes conectadas possvel

    atravs de ferramentas tecnolgicas tais como agentes de software, XML, RDF.

    ontologias, padres ou formatos e metadados. A definio de como construir esta

    rede informaes ligadas surgiu com os princpios de Linked Data, introduzidos por

    Berners-Lee em 2006.

    Linked Data um conjunto de melhores prticas para publicao e conexo

    de dados estruturados na web, permitindo estabelecer links entre itens de diferentes

    fontes de dados para formar um nico espao de dados global (HEATH; BIZER,

    2011). Este conjunto de melhores prticas so sumarizados em quatro princpios: i)

    Use URIs para nomear as coisas; ii) Use URIs HTTP para que as pessoas possam

    procurar o desejado; iii) Quando algum olha para um URI, fornea informaes

    teis, usando os padres (RDF, SPARQL); iv) Incluir links para outros URIs, para

    que eles possam descobrir explorar mais as coisas. Estes novos princpios abriram

    uma vasta gama de oportunidades, permitindo a publicao de dados acerca dos

    mais diversos temas e o desenvolvimento novas aplicaes para interagirem com

    estes dados, de modo a construir uma Web de Dados.

    Junto com estes novos horizontes, propiciados pelos dados ligados, surgem

    as dificuldades da manuteno destes dados publicados. A manuteno de

    conjuntos de dados Linked Data complicada e envolve uma srie de atividades

    bastante onerosas. Em contrapartida, o custo destas atividades de manuteno dos

    conjuntos de dados possvel de ser reduzido, atravs da automatizao do fluxo

    de trabalho de publicao de dados, que proporciona mtodos para suportar o ciclo

  • 8

    de vida destes conjuntos de dados, representados em formato RDF, de uma forma

    sistemtica.

    Desenvolvida pelo grupo Agile Knowledge Engineering and Semantic Web, a

    ontologia LDWPO (Linked Data Ontology Workflow Project) uma ontologia para a

    orquestrao de fluxos de trabalho de processamento de dados ligados. A LDWPO

    apresenta plano, mtodo e conceitos de execuo, permitindo e realizao de uma

    descrio detalhada das tarefas de manuteno importantes na publicao de dados

    no padro Linked Data. A ontologia permite: i) Descrever o fluxo de trabalho de

    produo completa para conjuntos de dados RDF, permitindo assim

    reprodutibilidade ao longo do tempo; ii) Descrever os mtodos e ferramentas

    utilizadas em tal fluxo de trabalho; e iii) Executar os fluxos de trabalho descritos

    numa forma semi-automatizada, utilizando tecnologias de dados vinculados

    (RAUTENBERG, 2015).

    Este trabalho pretende aplicar a ontologia LDWPO atravs de ferramentas

    abertas de publicao de dados ligados na web, de modo a maximizar a

    automatizao deste processo. Para tal, ser necessrio definir um conjunto de

    dados abertos, publicado nos padres Linked Data, para a efetuao de testes da

    ontologia e das ferramentas associadas ao processo de publicao e manuteno

    de dados ligados.

    2. Objetivos

    Nesta seo sero apresentados os objetivos deste trabalho.

    2.1. Objetivo Geral

    Aplicar a ontologia LDWPO e automatizar o processo de publicao e

    manuteno de Linked Data.

    2.2. Objetivos especficos

  • 9

    Propor por meio de uma ferramenta de software a automatizao do

    processo de publicao e manuteno, fazendo com que este

    processo seja intuitivo e eficiente;

    Oferecer uma ferramenta amigvel para que a ontologia LDWPO

    consiga ser explorada de uma maneira concisa;

    Pesquisar metodologias de manipulao de dados Linked Data.

    2.3. Entregas do Projeto

    Relatrio de Projetos I;

    Relatrios de Projetos II juntamente com o projeto.

    2.4. Restries

    O projeto dever estar concludo at junho de 2016;

    Dever ser respeitada a integridade do modelo ontolgico da LDWPO.

    2.5. Premissas

    Dever ser cedido por meio de repositrio pblico o projeto LDWPO,

    com seus fontes, assim como documentao do mesmo.

    3. Mtodo de Pesquisa

    Este um projeto de cunho tecnolgico que visa inicialmente identificao

    das melhores tecnologias disponveis para a auxiliar nos processos identificados.

    Sero exploradas as possveis solues e discutidas as melhores formas de

    implementar o conjunto de aes necessrios para atingir os objetivos propostos.

    Inicialmente, o tipo de pesquisa a ser adotada ser a pesquisa exploratria,

    de modo a obter um maior grau de conhecimento sobre o cenrio a ser trabalhado,

    dado o alto grau de especificidade do mesmo. Os dados necessrios sero obtidos

    atravs de estudos, manipulao e experimentao sobre o projeto LDWPO. A

  • 10

    anlise e validao das informaes obtidas, de modo a consolidar o conhecimento,

    permitindo o constante avano do trabalho ser realizada com frequncia, quando

    necessrio, com membros da equipe do projeto LDWPO e com o professor

    orientador.

    Durante todo o desenvolvimento do projeto almejar-se- seguir as melhores

    prticas, tcnicas e conceitos aprendidos nas diversas disciplinas durante o curso de

    Bacharelado em Sistemas de Informao da Universidade Federal de Santa

    Catarina. O ambiente de trabalho utilizado pelos membros da equipe para o

    desenvolvimento do mesmo se dividir entre residncia e universidade, sendo o

    objeto de trabalho utilizado fundamentalmente o computador. Buscar-se- o uso de

    softwares livres, sempre quando possvel.

    4. Cronograma

    Etapas Meses

    ago. set. out. nov. dez. fev. mar. abr. mai. jun.

    Estudo da fundamentao terica

    Reviso do estado da arte & prtica

    Estruturao do modelo de trabalho

    Entrega do relatrio de Projeto 15/12

    Desenvolvimento da soluo

    Redao do rascunho do TCC

    Entrega do rascunho do TCC 20/05

    Preparao da defesa pblica

    Defesa pblica 10/06

    Ajustes no relatrio final do TCC

    5. Custos

    Sero utilizados neste projeto apenas computadores pessoais dos autores,

    portanto gastos com equipamentos fsicos no sero descritos no quadro de custos.

    Quanto s ferramentas de desenvolvimento, visa-se a no utilizao de softwares

  • 11

    proprietrios, todavia no descarta-se esta possibilidade. A ideia inicial utilizar

    apenas softwares, ferramentas e tecnologias de mercado que sejam gratuitas.

    Item Quantidade Valor

    unitrio (R$)

    Valor

    Total

    (R$)

    Outros recursos e servios

    Fotocpias 1.000 R$ 0,10

    R$ 100,00

    TOTAL R$ 100,00

    6. Recursos Humanos

    Nome Funo

    Jean Carlos de Morais Autor

    Jhonatan Carlos de Morais Autor

    Jos Leomar Todesco Orientador

    Membro da banca

    Membro da banca

    7. Comunicao

    O que precisa ser comunicado

    Por quem Para quem Melhor forma de

    comunicao Quando e com que

    freqncia

    Proposta de TCC Jean e

    Jhonatan Coordenador de

    projetos Via site de projetos

    Prazo da entrega 20/07/2015

    Reunio sobre andamento do

    projeto

    Jean e Jhonatan

    Jos Leomar Todesco

    Encontro presencial Mensalmente

  • 12

    Relatrio de andamento do

    projeto

    Jean e Jhonatan

    Jos Leomar Todesco

    E-mail Quinzenalmente

    Relatrio Final Projetos I

    Jean e Jhonatan

    Coordenador de projetos

    Via site de projetos

    Prazo da entrega 15/12/2015

    Relatrio Final Projetos II

    Jean e Jhonatan

    Coordenador de projetos

    Via site de projetos

    Prazo da entrega 20/07/2016

    8. Riscos

    Risco Probabilidade Impacto Prioridade Estratgia de

    resposta Aes de preveno

    Dificuldade com

    tecnologias utilizadas Alta Alto Alta

    Capacitao dos

    membros do

    projeto para

    utilizao das

    tecnologias

    adequadas

    Verificar ferramentas de

    mercado, que sejam

    difundidas e com boa

    documentao

    Descontinuidade do

    projeto LDWPO Baixa Alto Alta

    Redefinio do

    escopo do

    trabalho ou

    mudana de tema

    Manter-se informado

    sobre o projeto, se

    possvel, manter contato

    com algum membro da equipe do mesmo

    Perda de membro da

    equipe durante o

    projeto

    Baixa

    Alto

    Baixa

    Reestruturar o

    cronograma e

    ajustar as

    atividades

    Definio de um tema

    que seja de acordo para

    ambos os membros da

    equipe

  • 13

    Referncias

    [1] RAUTENBERG, S. Linked Data Workflow Project Ontology. Ontology Development

    Process Technical Report, Document Version 0.1. (2015). Disponvel em:

    . Acesso em: 7 jul. 2015.

    [2] BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. "The Semantic Web" by, Scientific

    American. (2001). Disponvel em . Acesso em: 7 jul. 2015.

    [3] BERNERS-LEE, T. Linked Data - Design Issues. (2006). Disponvel em

    . Acesso em: 7 jul. 2015.

    [4] BATISTA, M. G. R; LSCIO, B. F. OpenSBBD: Usando Linked Data para Publicao de

    Dados Abertos sobre o SBBD. (2013) Disponvel em

    . Acesso em: 7 jul. 2015.

    [5] HEATH, T; BIZER, C. Linked Data: Evolving the Web into a Global Data Space. Morgan

    & Claypool, 1st edition. Disponvel em . Acesso em: 7 jul.

    2015.