View
792
Download
0
Category
Preview:
Citation preview
1
Uma Estratégia para Publicação dos DadosUma Estratégia para Publicação dos Dadosda Base do CEB-INEP/MEC no Padrãoda Base do CEB-INEP/MEC no Padrão
Linked Open DataLinked Open Data
Fernando Maia da Mota
2
• Objetivos• Conceitos e Definições• A Estratégia• Conclusão
AGENDA
3
• Estudo do CEB, Web semântica, RDF, SPARQL.Estudo do CEB, Web semântica, RDF, SPARQL.
• Pesquisa das ferramentas STDTRIP, TRIPLIFY e Pesquisa das ferramentas STDTRIP, TRIPLIFY e OPEN LINK VIRTUOSO.OPEN LINK VIRTUOSO.
• Definição e implementação da estratégiaDefinição e implementação da estratégia para a publicação dos dados da base de dados do Censo Escolar Brasileiro(CEB) no padrão Linked Open Data do ano de 1995.
OBJETIVOS
4
•PROJETO WEB-PIDE
• Parceria entre UFMS e UFSCar
• Censo Educacional Brasileiro(CEB)
• Magnitude e abrangência(Rigotti,2001)
• Dados sobre os estabelecimentos de ensino, matrículas, funções dos docentes e rendimento escolar.
CONCEITOS E DEFINIÇÕES
5
• WEB SEMÂNTICA
• Situação atual - “a Web atual pode ser definida como a Web Sintática, onde os computadores são responsáveis apenas por apresentar as informações, mas a interpretação fica a cargo do usuário, ocasionando dificuldades em encontrar informações de forma eficiente e eficaz na Web.”(Breitman,2005)
• Definição - A Web Semântica é uma extensão da Web atual, na qual é dada a informação um significado bem definido, permitindo que computadores e pessoas trabalhem em cooperação.(Benners-Lee, Hendler e Lassila,2001)
CONCEITOS E DEFINIÇÕES
6
• ONTOLOGIAS
Definição - Uma ontologia define os termos utilizados para descrever
e representar uma área de conhecimento e são utilizadas por
pessoas, bases de dados e aplicações que necessitam partilhar
informação sobre um domínio (um domínio é apenas uma área
temática ou área do conhecimento, como medicina, construção,
fabricação de ferramenta, bens imobiliários, gestão financeira, etc.).
(W3C,2011)
CONCEITOS E DEFINIÇÕES
7
• ONTOLOGIAS –> REUSO (INTEROPERABILIDADE)
O reuso de ontologias existentes é um ponto crítico na Web
semântica pois cada vez mais ontologias estão surgindo e precisam
ser adaptadas de um domínio para outro, ou estendidas na sua
abrangência.(Cantele,2009)
CONCEITOS E DEFINIÇÕES
8
• WEB ONTOLOGY LANGUAGE (OWL)
• Definição - OWL é uma linguagem semântica, que é utilizada para
publicação e compartilhamento de recursos semânticos.
(Baldus,2011)
• Seu objetivo é ser uma linguagem disponível para aplicações que
não irão apenas exibir as informações, mas que necessitem
compreender o significado das informações, seus relacionamentos
entre classes, disjunções e metadados mais complexos dos que os
suportados pelo RDF.(Baldus,2011)
CONCEITOS E DEFINIÇÕES
9
• RESOURCE DESCRIPTION FRAMEWORK (RDF)
• Definição - O RDF é um XML padrão para intercâmbio de metadados.
(Baldus,2011)
• Função do metadado – Descrever um documento através de atributos
conferidos a um objeto, retratando as suas características como dimensão,
formato, autoria, localização e outros com o objetivo de intercambiar dados.
(Oliveira,2002)
• Uso de metadados - Sobre um recurso Web, o uso de metadados permite
o conhecimento de seu significado, características, uso, localização e
relacionamento com outros recursos.(Vanni, 2009)
CONCEITOS E DEFINIÇÕES
10
CONCEITOS E DEFINIÇÕES
11
• DADOS GOVERNAMENTAIS ABERTOS
• Definição1 - São a publicação e disseminação das informações do
setor público na Web, compartilhadas em formato bruto e aberto,
compreensíveis logicamente, de modo a permitir a sua reutilização
em aplicações digitais desenvolvidas pela sociedade.(W3C,2011)
• Definição2 - Consistem na publicação de dados sobre informações
públicas em formatos que permitem o seu compartilhamento, acesso,
descoberta e fácil manipulação pelos consumidores desses dados.
(Breitman,2010)
CONCEITOS E DEFINIÇÕES
12
• DADOS GOVERNAMENTAIS ABERTOS –> TRÊS LEIS
(EAVES,2009)
• Lei1 - Se o dado não pode ser encontrado e indexado na Web, ele
não existe.
• Lei2 - Se não estiver aberto e disponível em formato compreensível
por máquina, ele não pode ser reaproveitado.
• Lei3 - Se algum dispositivo legal não permitir sua reaplicação, ele
não é útil.
CONCEITOS E DEFINIÇÕES
13
• DADOS GOVERNAMENTAIS ABERTOS –> OITO PRINCÍPIOS
(OPENGOVDATA.ORG, 2007)
1. Completos
2. Primários
3. Atuais
4. Acessíveis
5. Compreensíveis por máquinas
6. Não discriminatórios
7. Não proprietários
8. Livres de licenças
CONCEITOS E DEFINIÇÕES
14
• LINKED OPEN DATA (LOD)
LOD usa tecnologias da Web semântica para publicar dados estruturados na Web e criar ligações entre dados de diferentes fontes de dados, de acordo com os seguintes princípios.(Berners-Lee & Hendler, 2001):1. Usar URIs como nomes para recursos.2. Usar URIs HTTP de forma que pessoas possam procurar por estesnomes.3. Quando alguém procura uma URI, fornecer informação RDF útil(SPARQL).4. Incluir sentenças RDF que ligam a outras URIs para que possamdescobrir outros recursos.
CONCEITOS E DEFINIÇÕES
15
• LINKED OPEN DATA (LOD) -> Situação Atual (Cyganiak,2010)
CONCEITOS E DEFINIÇÕES
16
A ESTRATÉGIA
17
• ETAPA 1 –> DISPONIBILIZAÇÃO DOS DADOS
• Dados disponibilizados em microdados, no site do próprio INEP
• Os microdados são formados por arquivo ASCII(dados brutos), pelos arquivos de leitura e por um arquivo em Portable document format(PDF) chamado de "Leia-me“.
A ESTRATÉGIA
18
• Etapa 1 –> Disponibilização dos dados –>Exemplo –> Leia-me.pdf
A ESTRATÉGIA
19
• Etapa 1 –> Disponibilização dos dados –>Exemplo –> ASCII (dados brutos)
A ESTRATÉGIA
20
• Etapa 1 –> Disponibilização dos dados –>Exemplo –> Arquivo de Leitura
A ESTRATÉGIA
21
• Etapa 1 –> Carga dos dados –> DEAR(Siqueira,2009)
A ESTRATÉGIA
22
• Etapa 1 –> Carga dos dados –> Dados Carregados no PostgreSQL
A ESTRATÉGIA
23
• ETAPA 2 –> NORMALIZAÇÃO
• Triplification é o processo pelo qual um banco de dados e sua estâncias são transformados em um conjunto de dados RDF. Isto é feito mapeando conceitos de bancos de dados para uma ontologia, para ser utilizado como base para se gerar as triplas RDF.(Salas et al,2010)
• É pré-requisito um banco de dados normalizado para utilização das ferramentas TRIPLIFY e STDTRIP.
A ESTRATÉGIA
24
• Etapa 2 –> Normalização
A ESTRATÉGIA
25
• Etapa 2 –> 1º Modelo
A ESTRATÉGIA
26
• ETAPA 2 –> 1º MODELO –> RESULTADO
• Ao aplicar a ferramenta STDTRIP a este modelo os resultados com
relação a reutilização de termos das ontologias padrões da Web (ontologias
em grande escala de uso) se mostrou ineficiente, isto evidenciou a
superficialidade deste modelo, portanto seria necessário um modelo
normalizado muito mais consistente para que o trabalho obtivesse o
sucesso esperado.
A ESTRATÉGIA
27
• Etapa 2 –> 2º Modelo –> Analise
• Docentes no pré-escolar com capacitação e 1º grau completo
• Docentes de 1º a 4º série com capacitação e magistério completo
• Docentes no 2º grau com magistério completo
A ESTRATÉGIA
28
• Etapa 2 –> 2º Modelo –> Analise -> Identificação de Padrões
• Docentes no pré-escolar com capacitação e 1º grau completo
• Docentes de 1º a 4º série com capacitação e magistério completo
• Docentes no 2º grau com magistério completo
A ESTRATÉGIA
29
• Etapa 2 –> 2º Modelo –> Analise –> Exemplo Normalização
A ESTRATÉGIA
30
• Etapa 2 –> 2º Modelo –> Analise –> Modelo Final
A ESTRATÉGIA
31
• Etapa 3 –> Carga dos Dados –> Data Extractor PostgreSQL to MySQL(DEPOM)
A ESTRATÉGIA
32
• ETAPA 4 –> STDTRIP
• A maioria das ferramentas de triplifying hoje dão apoio ao processo mecânico de transformação dos dados existentes. No entanto, nenhuma fornece suporte ao usuário durante a fase de modelagem conceitual.(Salas et al,2010)
• A arquitetura do processo da STDTRIP se divide em 6 etapas seqüenciais: Conversion, Alignment, Selection, Inclusion, Completion e Output. Sendo que as etapas de Inclusion e Completion não são obrigatórias.
A ESTRATÉGIA
33
• Etapa 4 –> STDTRIP –> Arquitetura(Conversion, Alignment, Selection)
A ESTRATÉGIA
34
• Etapa 4 –> STDTRIP –> Resultados
A ESTRATÉGIA
35
• ETAPA 5 –> TRIPLIFY
• A ferramenta TRIPLIFY tem como objetivo explorar a estrutura de
dados em bancos de dados relacionais utilizados em aplicações Web,
para criar representações semânticas na Web. A maioria das aplicações
Web possuem banco de dados relacionais, porem estes dados não
estão disponíveis para pesquisa nos motores de busca ou outras
aplicações semânticas.(Baldus, 2011)
A ESTRATÉGIA
36
• Etapa 5 –> TRIPLIFY –> Aplicação e Resultados
• Após a execução da ferramenta TRIPLIFY, a mesma gerou um arquivo RDF de 1.1 gigabytes.
A ESTRATÉGIA
37
• Etapa 6 –> OPENLINK VIRTUOSO
• OPENLINK VIRTUOSO é um middleware e sistema gerenciador de
banco de dados que combina a funcionalidades de um banco de dados
convencional com banco de dados RDF e pode ser utilizado como um
servidor de aplicação para serviços Web e oferece um interface Web
para consultas em SPARQL, normalmente chamado de
SPARQLEndPoint. .(LinkedDataBR, 2011)
A ESTRATÉGIA
38
• Etapa 6 –> OPENLINK VIRTUOSO –> Utilização e Resultados
• Para carga do arquivo RDF com as triplas geradas na etapa 5, foiutilizado o modulo "isql" do OPENLINK VIRTUOSO, que oferece uma interface Web para execução de comandos.
A ESTRATÉGIA
39
• Etapa 6 –> OPENLINK VIRTUOSO –> Lista das Classes Carregadas
A ESTRATÉGIA
40
e ae? e ae?
A ESTRATÉGIA
41
• CONTRIBUIÇÕES
• Desenvolvimento da ferramenta DEPOM de extração e carga de dados.
• Objetivo principal foi conceber, implementar e demonstrar a estratégia de
publicação dos dados do CEB do ano de 1995 no padrão Linked Open Data.
Através dos resultados positivos deste trabalho houve a oportunidade de
apresentá-los a uma equipe de TI do INEP.
• Oportunidades de cooperação entre o CPCX/UFMS com a PUC-Rio.
• Oportunidade de amadurecimento acadêmico, pois neste trabalho foi possível
pesquisar e enriquecer o conhecimento adquirido durante a graduação e no
projeto de iniciação cientifica e gerar conhecimento.
CONCLUSÃO
42
• Dificuldades Encontradas
• Tamanho da base de dados
• Tradução dos nomes das entidades e atributos do modelo de banco de dados normalizado criado
• Trabalho a distância
CONCLUSÃO
43
• Trabalhos Futuros
• Estender este trabalho aos outros anos da base de dados do CEB.
• Estudar outras estratégias de publicação de dados no formato Linked Open Data.
• Criação de Marshups, que são aplicações Web que produzem informações aos usuários utilizando dados de fontes distintas.
CONCLUSÃO
44
• (Baldus, 2011) Baldus, Luís Henrique Sirtoli. 2011. Estratégia para publicação de dados governamentais abertos no padrão linked data. Monografia apresentada ao Curso de Pós-Graduação Lato Sensu, Especialização em Banco de Dados da UFMT.• (Berners-Lee & Hendler, 2001) Berners-Lee, T., & Hendler, J. 2001. Scientific publishing on the semantic seb. Nature 410, 1023 - 1024Abril, 2001. Disponível em: http://www.nature.com/nature/debates/e-access/Articles/bernerslee.htm. Acesso em: 21 dez. 2010.• (Breitman, 2005) Breitman, K. K. 2005. Web semântica: a internet do futuro. Rio de Janeiro: LTC.• (Breitman et al, 2010) Breitman, K. K., Filho, J. V., & Salas, P. E. R. 2010. Publicação e uso de dados governamentais abertos. Mini curso. Escola Regional de Informática. Cuiabá. UFMT.•(Cantele, 2009) Cantele, R. C. 2009. Construindo ontologias a partir de recursos existentes: uma prova de conceito no domínio da educacão. São Paulo: USP, 2009. 226 p. Tese (Doutorado em Engenharia Elétrica) - Escola Politécnica da Universidade de São Paulo. Departamento de Engenharia de Computação e Sistemas Digitais, São Paulo.• (Eaves, 2009) Eaves, D. 2009. The three laws of open government data. Disponível em: http://eaves.ca/2009/09/30/three-law-of-open-government-data/. Acesso em 01 Junho 2011.• (INEP, 2011) INEP. 2011. Instituto nacional de estudos e pesquisas educacionais. Disponível em: www.inep.gov.br. Acesso em 01 junho 2011.• (LinkedDataBR, 2011) LinkedDataBR, G. T. 2011. Exposição, compartilhamento e conexão de recursos de dados abertos na web. Tech. rept. RNP.• (Oliveira, 2002) Oliveira, R. M. V. B. 2002. Web semântica: Novo desafio para os profissionais da informação. Disponível em: www.sibi.ufrj.br/snbu/snbu2002/oralpdf/124.a.pdf. Acesso em 01 junho 2011.• (Rigotti, 2001) Rigotti, C. A. C. I. R. 2001. As bases de dados do inep e os indicadores educacionais: conceitos e aplicações. In: Proceedings of the international union for scientific study of population.• (Salas et al, 2010a) Salas, P. E., Breitman, K. K., Casanova, M. A., & Viterbo, J. 2010a. Stdtrip: An a priori design approach and process for publishing open government data. • (Salas et al, 2010b) Salas, P. E. R., Breitman, K. K., Filho, J. V., & Casanova, M. A. 2010b. Interoperability by design using the stdtrip tool: An a priori approach.• (Siqueira, 2009) Siqueira, T. 2009. Sb-index: Um Indice espacial baseado em bitmap para data warehouse geográfico. M.Phil. thesis, UFSCar.• (W3C, 2011) W3C. 2011. Consórcio world wide web. Disponível em: http://www.w3c.br/Home/WebHome. Acesso em 01 junho 2011.
REFERÊNCIAS
45
• Orientadora Profa Ma. Karen kiomi Nakazato• Coorientador Prof. Dr. Marcelo Augusto dos Santos Turine
• Equipe de Web semântica da PUC-Rio• Prof. Me. Percy Enrique Rivera Salas• Profa. Dra. Karin Breitman• Prof. Dr. José Viterbo
• Prof. Dr. Gedson faria• Prof. Ma. Leila Lisiane Rossi
AGRADECIMENTOS
Recommended