28
Um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais Exame de qualificação Mestrando: Norton Coelho Guimarães Orientador: Dr. Cedric Luiz de Carvalho

Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Embed Size (px)

DESCRIPTION

Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais apresentado no exame de qualificação do mestrado no INF/UFG.

Citation preview

Page 1: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Um arcabouço computacional paraaprendizagem semi-automatizada de

ontologias a partir de documentos textuais

Exame de qualificação

Mestrando: Norton Coelho Guimarães

Orientador: Dr. Cedric Luiz de Carvalho

Page 2: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Sumário

Introdução

Fundamentação Teórica

Proposta de trabalho

Estudo de Caso

Resultados Esperados

Planejamento

Page 3: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais
Page 4: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

O que são Ontologias?

Servem como esquemas de metadados

[MAEDCHE, 2001];

Fornecendo um vocabulário

controlado de conceitos

[MAEDCHE, 2001];

Compostas por [DRUMOND, 2009]:• conceitos,

relacionamentos taxonômicos e não taxonômicos, instâncias dos conceitos e asserções/regras;

Podem definir um conjunto de primitivas de

representação para modelar um domínio

de conhecimento [GRUBER, 2008].

É uma visão abstrata do mundo que se

deseja representar. [GRUBER, 1995]

Page 5: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Problemas Encontrados

Inexistência de um arcabouço computacional para a construção de ontologias na língua portuguesa.

Poucas ontologias construídas na língua portuguesa.

Poucos trabalhos científicos sobre construção de ontologias na língua portuguesa

Reduzido o número de Grupos de Pesquisa no Brasil sobre construção de Ontologias.

A aprendizagem das ontologias depende da linguística utilizada.

Page 6: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Hipótese

Como criar ontologias de forma semi-automatizada a partir de

documentos textuais que descrevem o modelo de

domínio da Segurança Pública?

Page 7: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Objetivos

1 - Projetar um arcabouço computacional

2 - Criar um arcabouço

computacional

3 - Realizar o Estudo de

Caso na área de Segurança

Pública

4 - Validar a construção de ontologias na

área estudada.

Page 8: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Processo de Extração de Ontologias

Pré-Processamento

Extração Termos Identificação de Conceitos

Extração de Relações

Gerador de Ontologias Ontologias

[CIMIANO, 2006] adaptado

Page 9: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Componentes

Page 10: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Pré-Processamento

Analisador

Seleção Importador

Conversor

PDF/Doc/XLS e etc UTF-8

Streaming/ Tokenização

Saída StopList

Page 11: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Extração de Termos

Pesagem dos Termos

métodos estatísticos

TF-DCF

[LOPES, 2012]

Filtragem de Lixo

Entrada StopList Refinagem

Gerador de Termos

Candidatos

UTF-8

Page 12: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Identificador de Conceitos

Etiquetagem

Morfossintática [DOMINGUES, 2007]

hipótese de Markov [DOMINGUES, 2011]

Gerador da Lista de Conceitos

UTF-8

Page 13: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Extração de Relações

Taxonômicas

Relações hierárquicas

Não-taxonômicas

Abordagem de SERRA

Gerador da Lista de Relações

UTF-8

Page 14: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Estruturação das Ontologias

Gerador da estrutura

Memória RAM

Exportador

OWL RDF

Page 15: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Visualização

Integrador

Protegé

Validação

Manual

Exportador

PDF

Page 16: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Estudo de Caso

Segurança Pública – Convênio entre SSP/GO e UFG

Documentos digitais disponíveis (Livros, Trabalhos Acadêmicos, Periódicos).

Etapa manual de treinamento e validação

Page 17: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Resultados Esperados

Sabença: Um arcabouço computacional

Semi-automatizado

Desenvolvido na linguagem

Java

Extensível para novos métodos e padrões

Modelo documentado

Ontologias na área de

Segurança Pública.

Page 18: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Cronograma

Page 19: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

Conclusão

A automatização completa da aprendizagem de ontologias é algo estudado por décadas e de difícil realização.

O maior desafio é a criação das regras (axiomas) que acredito ser o gargalo da automatização. As regras são dificílimas para o ser humano construir e não chegamos a técnicas satisfatórias que recriem esse intelecto humano.

O arcabouço proposto se enquadra como semi-automatizado por não implementar os axiomas e a sua validação será manual com ajuda de especialista de domínio.

Page 20: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

ReferênciasBUITELAAR, P.; BUITELAAR, P.; CIMIANO, P. Ontology Learning and

Population: Bridging the Gap between Text and Knowledge - Volume 167 Frontiers in Artificial Intelligence and Applications. IOS Press, Amsterdam, The Netherlands, The Netherlands, 2008.

BUITELAAR, P.; OLEJNIK, D.; SINTEK, M. A protege plug-in for ontology extraction from text based on linguistic analysis. In: Proceedings of the 1st European Semantic Web Symposium (ESWS), Heraklion, Greece, 2004.

Page 21: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

ReferênciasCAO, Y.; WANG, X.; ZHANG, F.; YANG, W. Ontology-based domain

knowledge acquisition technology. In: Computational Intelligence and Design (ISCID), 2012 Fifth International Symposium on, volume 2, p. 487–490, Oct 2012.

CARVALHEIRA, L. C. D. C. Método semi-automático de construção de ontologias parciais de domínio com base em textos. Master’s thesis, Escola Politécnica da Universidade de São Paulo, Departamento de Engenharia da Computação e Sistemas Digitais, ago 2007.

Page 22: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

ReferênciasCIARAMITA, M.; GANGEMI, A.; RATSCH, E.; ŠARIC, J.; ROJAS, I.

Unsupervised learning of semantic relations between concepts of a molecular biology ontology. In: Proceedings of the 19th International Joint Conference on Artificial Intelligence, IJCAI’05, p. 659–664, San Francisco, CA, USA, 2005. Morgan Kaufmann Publishers Inc.

CIMIANO, P.; VÖLKER, J. Text2onto: A framework for ontology learning and data-driven change discovery. In: Proceedings of the 10th International Conference on Natural Language Processing and Information Systems, NLDB’05, p. 227–238, Berlin, Heidelberg, 2005. Springer-Verlag.

Page 23: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

ReferênciasCONRADO, M. D. S.; FELIPPO, A. D.; PARDO, T. A. S.; REZENDE, S. O. A

survey of automatic term extraction for brazilian portuguese. Journal of the Brazilian Computer Society, 20(1):12, 2014.

DOMINGUES, M. L.; FAVERO, E. L.; MEDEIROS, I. P. Etiquetagem de palavras para o português do brasil. In: Proceedings of TIL - V Workshop em tecnologia da informação e da linguagem humana, p. 4, Rio de Janeiro, Brazil, 06 2007. Anais do XXVII Congresso da SBC.

DRUMOND, L. R. Aquisição automatizada de hierarquias de conceitos de ontologias utilizando aprendizagem estatística relacional. Master’s thesis, UFMA, Engenharia de Eletricidade, 2009.

Page 24: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

ReferênciasGRUBER, T. Ontology (Computer Science) - definition in Encyclopedia of

Database Systems. In: Liu, L.; Özsu, T. M., editors, Encyclopedia of Database System, 2008.

FERREIRA, V. H. Uma proposta para descoberta automática de relações não-taxonômicas a partir de corpus em língua portuguesa. Master’s thesis, Universidade Católica do Rio Grande do Sul, Faculdade de Informática, dez 2012.

GAMMA, E.; JOHNSON, R.; HELM, R.; VLISSIDES, J. Padrões de Projetos:

Soluções Reutilizáveis. BOOKMAN COMPANHIA ED, 2006.

Page 25: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

ReferênciasLEE, C.-S.; KAO, Y.-F.; KUO, Y.-H.; WANG, M.-H. Automated ontology

construction for unstructured text documents. Data Knowl. Eng., 60(3):547–566, Mar. 2007.

LOPES, L. Extração automática de conceitos a partir de textos em língua portuguesa. Master’s thesis, Universidade Católica do Rio Grande do Sul - PUCRS, Faculdade de Informática, jan 2012.

LOPES, L.; FERNANDES, P.; VIEIRA, R. Domain term relevance through tf-dcf. In: Proceedings of the 2012 International Conference on Artificial Intelligence (ICAI 2012), ICAI 2012, p. 1001–1007, Las Vegas, USA, 2012. CSREA Press.

Page 26: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

ReferênciasMAEDCHE, A.; STAAB, S. Ontology Learning for the Semantic Web. IEEE

Intelligent Systems, 16(2):72–79, Mar. 2001.

MENDONÇA, F.; ALMEIDA, M. B.; SOUZA, R. R.; SILVA, D. L. Extração automática de termos candidatos às ontologias: um estudo de caso no domínio da hemoterapia. In: Malucelli, A.; Bax, M. P., editors, ONTOBRAS-MOST, volume 938 de CEUR Workshop Proceedings, p. 170–175. CEUR-WS.org, 2012.

MORAES, S. M. W. Construção de estruturas ontológicas a partir de textos: Um estudo baseado no método Formal Concept Analysis e em papéis semânticos. Master’s thesis, PUC-RS, Faculdade de Informática, mar 2012.

Page 27: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

ReferênciasSAINCHEZ, D.; MORENO, A. Learning non-taxonomic relationships from

web documents for domain ontology construction. Data and Knowledge Engineering, 64(3):600 – 623, 2008.

SERRA, I.; GIRARDI, R.; NOVAIS, P. Parnt: A statistic based approach to extract non-taxonomic relationships of ontologies from text. In: Information Technology: New Generations (ITNG), 2013 Tenth International Conference on, p.561–566, April 2013.

SILVA, J.; BRANCO, A.; CASTRO, S.; REIS, R. Out-of-the-box robust parsing of portuguese. In: Pardo, T.; Branco, A.; Klautau, A.; Vieira, R.; de Lima, V., editors, Computational Processing of the Portuguese Language, volume 6001 de Lecture Notes in Computer Science, p. 75–85. Springer Berlin Heidelberg, 2010.

Page 28: Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais

ReferênciasSTANFORD.EDU. The Protégé project. http://protege.stanford.edu, último

acesso em julho de 2013.

TELINE, M. F. Avaliação de métodos de extração automática de terminologias para textos em portugues. Master’s thesis, Universidade de São Paulo, ICMCUSP São Carlos, fev 2004.

WONG, W.; LIU, W.; BENNAMOUN, M. Ontology learning from text: A look back and into the future. ACM Comput. Surv., 44(4):20:1–20:36, Sept. 2012.

ZAHRA, F. M.; MALUCELLI, A.; FREDDO, A. R.; TACLA, C. A. Ferramentas para aprendizagem de ontologias a partir de textos. In: Perspectivas em Ciência da Informação, volume 19, p. 3–21, 2014.