Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir...

Preview:

DESCRIPTION

Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais apresentado no exame de qualificação do mestrado no INF/UFG.

Citation preview

Um arcabouço computacional paraaprendizagem semi-automatizada de

ontologias a partir de documentos textuais

Exame de qualificação

Mestrando: Norton Coelho Guimarães

Orientador: Dr. Cedric Luiz de Carvalho

Sumário

Introdução

Fundamentação Teórica

Proposta de trabalho

Estudo de Caso

Resultados Esperados

Planejamento

O que são Ontologias?

Servem como esquemas de metadados

[MAEDCHE, 2001];

Fornecendo um vocabulário

controlado de conceitos

[MAEDCHE, 2001];

Compostas por [DRUMOND, 2009]:• conceitos,

relacionamentos taxonômicos e não taxonômicos, instâncias dos conceitos e asserções/regras;

Podem definir um conjunto de primitivas de

representação para modelar um domínio

de conhecimento [GRUBER, 2008].

É uma visão abstrata do mundo que se

deseja representar. [GRUBER, 1995]

Problemas Encontrados

Inexistência de um arcabouço computacional para a construção de ontologias na língua portuguesa.

Poucas ontologias construídas na língua portuguesa.

Poucos trabalhos científicos sobre construção de ontologias na língua portuguesa

Reduzido o número de Grupos de Pesquisa no Brasil sobre construção de Ontologias.

A aprendizagem das ontologias depende da linguística utilizada.

Hipótese

Como criar ontologias de forma semi-automatizada a partir de

documentos textuais que descrevem o modelo de

domínio da Segurança Pública?

Objetivos

1 - Projetar um arcabouço computacional

2 - Criar um arcabouço

computacional

3 - Realizar o Estudo de

Caso na área de Segurança

Pública

4 - Validar a construção de ontologias na

área estudada.

Processo de Extração de Ontologias

Pré-Processamento

Extração Termos Identificação de Conceitos

Extração de Relações

Gerador de Ontologias Ontologias

[CIMIANO, 2006] adaptado

Componentes

Pré-Processamento

Analisador

Seleção Importador

Conversor

PDF/Doc/XLS e etc UTF-8

Streaming/ Tokenização

Saída StopList

Extração de Termos

Pesagem dos Termos

métodos estatísticos

TF-DCF

[LOPES, 2012]

Filtragem de Lixo

Entrada StopList Refinagem

Gerador de Termos

Candidatos

UTF-8

Identificador de Conceitos

Etiquetagem

Morfossintática [DOMINGUES, 2007]

hipótese de Markov [DOMINGUES, 2011]

Gerador da Lista de Conceitos

UTF-8

Extração de Relações

Taxonômicas

Relações hierárquicas

Não-taxonômicas

Abordagem de SERRA

Gerador da Lista de Relações

UTF-8

Estruturação das Ontologias

Gerador da estrutura

Memória RAM

Exportador

OWL RDF

Visualização

Integrador

Protegé

Validação

Manual

Exportador

PDF

Estudo de Caso

Segurança Pública – Convênio entre SSP/GO e UFG

Documentos digitais disponíveis (Livros, Trabalhos Acadêmicos, Periódicos).

Etapa manual de treinamento e validação

Resultados Esperados

Sabença: Um arcabouço computacional

Semi-automatizado

Desenvolvido na linguagem

Java

Extensível para novos métodos e padrões

Modelo documentado

Ontologias na área de

Segurança Pública.

Cronograma

Conclusão

A automatização completa da aprendizagem de ontologias é algo estudado por décadas e de difícil realização.

O maior desafio é a criação das regras (axiomas) que acredito ser o gargalo da automatização. As regras são dificílimas para o ser humano construir e não chegamos a técnicas satisfatórias que recriem esse intelecto humano.

O arcabouço proposto se enquadra como semi-automatizado por não implementar os axiomas e a sua validação será manual com ajuda de especialista de domínio.

ReferênciasBUITELAAR, P.; BUITELAAR, P.; CIMIANO, P. Ontology Learning and

Population: Bridging the Gap between Text and Knowledge - Volume 167 Frontiers in Artificial Intelligence and Applications. IOS Press, Amsterdam, The Netherlands, The Netherlands, 2008.

BUITELAAR, P.; OLEJNIK, D.; SINTEK, M. A protege plug-in for ontology extraction from text based on linguistic analysis. In: Proceedings of the 1st European Semantic Web Symposium (ESWS), Heraklion, Greece, 2004.

ReferênciasCAO, Y.; WANG, X.; ZHANG, F.; YANG, W. Ontology-based domain

knowledge acquisition technology. In: Computational Intelligence and Design (ISCID), 2012 Fifth International Symposium on, volume 2, p. 487–490, Oct 2012.

CARVALHEIRA, L. C. D. C. Método semi-automático de construção de ontologias parciais de domínio com base em textos. Master’s thesis, Escola Politécnica da Universidade de São Paulo, Departamento de Engenharia da Computação e Sistemas Digitais, ago 2007.

ReferênciasCIARAMITA, M.; GANGEMI, A.; RATSCH, E.; ŠARIC, J.; ROJAS, I.

Unsupervised learning of semantic relations between concepts of a molecular biology ontology. In: Proceedings of the 19th International Joint Conference on Artificial Intelligence, IJCAI’05, p. 659–664, San Francisco, CA, USA, 2005. Morgan Kaufmann Publishers Inc.

CIMIANO, P.; VÖLKER, J. Text2onto: A framework for ontology learning and data-driven change discovery. In: Proceedings of the 10th International Conference on Natural Language Processing and Information Systems, NLDB’05, p. 227–238, Berlin, Heidelberg, 2005. Springer-Verlag.

ReferênciasCONRADO, M. D. S.; FELIPPO, A. D.; PARDO, T. A. S.; REZENDE, S. O. A

survey of automatic term extraction for brazilian portuguese. Journal of the Brazilian Computer Society, 20(1):12, 2014.

DOMINGUES, M. L.; FAVERO, E. L.; MEDEIROS, I. P. Etiquetagem de palavras para o português do brasil. In: Proceedings of TIL - V Workshop em tecnologia da informação e da linguagem humana, p. 4, Rio de Janeiro, Brazil, 06 2007. Anais do XXVII Congresso da SBC.

DRUMOND, L. R. Aquisição automatizada de hierarquias de conceitos de ontologias utilizando aprendizagem estatística relacional. Master’s thesis, UFMA, Engenharia de Eletricidade, 2009.

ReferênciasGRUBER, T. Ontology (Computer Science) - definition in Encyclopedia of

Database Systems. In: Liu, L.; Özsu, T. M., editors, Encyclopedia of Database System, 2008.

FERREIRA, V. H. Uma proposta para descoberta automática de relações não-taxonômicas a partir de corpus em língua portuguesa. Master’s thesis, Universidade Católica do Rio Grande do Sul, Faculdade de Informática, dez 2012.

GAMMA, E.; JOHNSON, R.; HELM, R.; VLISSIDES, J. Padrões de Projetos:

Soluções Reutilizáveis. BOOKMAN COMPANHIA ED, 2006.

ReferênciasLEE, C.-S.; KAO, Y.-F.; KUO, Y.-H.; WANG, M.-H. Automated ontology

construction for unstructured text documents. Data Knowl. Eng., 60(3):547–566, Mar. 2007.

LOPES, L. Extração automática de conceitos a partir de textos em língua portuguesa. Master’s thesis, Universidade Católica do Rio Grande do Sul - PUCRS, Faculdade de Informática, jan 2012.

LOPES, L.; FERNANDES, P.; VIEIRA, R. Domain term relevance through tf-dcf. In: Proceedings of the 2012 International Conference on Artificial Intelligence (ICAI 2012), ICAI 2012, p. 1001–1007, Las Vegas, USA, 2012. CSREA Press.

ReferênciasMAEDCHE, A.; STAAB, S. Ontology Learning for the Semantic Web. IEEE

Intelligent Systems, 16(2):72–79, Mar. 2001.

MENDONÇA, F.; ALMEIDA, M. B.; SOUZA, R. R.; SILVA, D. L. Extração automática de termos candidatos às ontologias: um estudo de caso no domínio da hemoterapia. In: Malucelli, A.; Bax, M. P., editors, ONTOBRAS-MOST, volume 938 de CEUR Workshop Proceedings, p. 170–175. CEUR-WS.org, 2012.

MORAES, S. M. W. Construção de estruturas ontológicas a partir de textos: Um estudo baseado no método Formal Concept Analysis e em papéis semânticos. Master’s thesis, PUC-RS, Faculdade de Informática, mar 2012.

ReferênciasSAINCHEZ, D.; MORENO, A. Learning non-taxonomic relationships from

web documents for domain ontology construction. Data and Knowledge Engineering, 64(3):600 – 623, 2008.

SERRA, I.; GIRARDI, R.; NOVAIS, P. Parnt: A statistic based approach to extract non-taxonomic relationships of ontologies from text. In: Information Technology: New Generations (ITNG), 2013 Tenth International Conference on, p.561–566, April 2013.

SILVA, J.; BRANCO, A.; CASTRO, S.; REIS, R. Out-of-the-box robust parsing of portuguese. In: Pardo, T.; Branco, A.; Klautau, A.; Vieira, R.; de Lima, V., editors, Computational Processing of the Portuguese Language, volume 6001 de Lecture Notes in Computer Science, p. 75–85. Springer Berlin Heidelberg, 2010.

ReferênciasSTANFORD.EDU. The Protégé project. http://protege.stanford.edu, último

acesso em julho de 2013.

TELINE, M. F. Avaliação de métodos de extração automática de terminologias para textos em portugues. Master’s thesis, Universidade de São Paulo, ICMCUSP São Carlos, fev 2004.

WONG, W.; LIU, W.; BENNAMOUN, M. Ontology learning from text: A look back and into the future. ACM Comput. Surv., 44(4):20:1–20:36, Sept. 2012.

ZAHRA, F. M.; MALUCELLI, A.; FREDDO, A. R.; TACLA, C. A. Ferramentas para aprendizagem de ontologias a partir de textos. In: Perspectivas em Ciência da Informação, volume 19, p. 3–21, 2014.