View
118
Download
2
Category
Preview:
DESCRIPTION
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de ontologias a partir de documentos textuais apresentado no exame de qualificação do mestrado no INF/UFG.
Citation preview
Um arcabouço computacional paraaprendizagem semi-automatizada de
ontologias a partir de documentos textuais
Exame de qualificação
Mestrando: Norton Coelho Guimarães
Orientador: Dr. Cedric Luiz de Carvalho
Sumário
Introdução
Fundamentação Teórica
Proposta de trabalho
Estudo de Caso
Resultados Esperados
Planejamento
O que são Ontologias?
Servem como esquemas de metadados
[MAEDCHE, 2001];
Fornecendo um vocabulário
controlado de conceitos
[MAEDCHE, 2001];
Compostas por [DRUMOND, 2009]:• conceitos,
relacionamentos taxonômicos e não taxonômicos, instâncias dos conceitos e asserções/regras;
Podem definir um conjunto de primitivas de
representação para modelar um domínio
de conhecimento [GRUBER, 2008].
É uma visão abstrata do mundo que se
deseja representar. [GRUBER, 1995]
Problemas Encontrados
Inexistência de um arcabouço computacional para a construção de ontologias na língua portuguesa.
Poucas ontologias construídas na língua portuguesa.
Poucos trabalhos científicos sobre construção de ontologias na língua portuguesa
Reduzido o número de Grupos de Pesquisa no Brasil sobre construção de Ontologias.
A aprendizagem das ontologias depende da linguística utilizada.
Hipótese
Como criar ontologias de forma semi-automatizada a partir de
documentos textuais que descrevem o modelo de
domínio da Segurança Pública?
Objetivos
1 - Projetar um arcabouço computacional
2 - Criar um arcabouço
computacional
3 - Realizar o Estudo de
Caso na área de Segurança
Pública
4 - Validar a construção de ontologias na
área estudada.
Processo de Extração de Ontologias
Pré-Processamento
Extração Termos Identificação de Conceitos
Extração de Relações
Gerador de Ontologias Ontologias
[CIMIANO, 2006] adaptado
Componentes
Pré-Processamento
Analisador
Seleção Importador
Conversor
PDF/Doc/XLS e etc UTF-8
Streaming/ Tokenização
Saída StopList
Extração de Termos
Pesagem dos Termos
métodos estatísticos
TF-DCF
[LOPES, 2012]
Filtragem de Lixo
Entrada StopList Refinagem
Gerador de Termos
Candidatos
UTF-8
Identificador de Conceitos
Etiquetagem
Morfossintática [DOMINGUES, 2007]
hipótese de Markov [DOMINGUES, 2011]
Gerador da Lista de Conceitos
UTF-8
Extração de Relações
Taxonômicas
Relações hierárquicas
Não-taxonômicas
Abordagem de SERRA
Gerador da Lista de Relações
UTF-8
Estruturação das Ontologias
Gerador da estrutura
Memória RAM
Exportador
OWL RDF
Visualização
Integrador
Protegé
Validação
Manual
Exportador
Estudo de Caso
Segurança Pública – Convênio entre SSP/GO e UFG
Documentos digitais disponíveis (Livros, Trabalhos Acadêmicos, Periódicos).
Etapa manual de treinamento e validação
Resultados Esperados
Sabença: Um arcabouço computacional
Semi-automatizado
Desenvolvido na linguagem
Java
Extensível para novos métodos e padrões
Modelo documentado
Ontologias na área de
Segurança Pública.
Cronograma
Conclusão
A automatização completa da aprendizagem de ontologias é algo estudado por décadas e de difícil realização.
O maior desafio é a criação das regras (axiomas) que acredito ser o gargalo da automatização. As regras são dificílimas para o ser humano construir e não chegamos a técnicas satisfatórias que recriem esse intelecto humano.
O arcabouço proposto se enquadra como semi-automatizado por não implementar os axiomas e a sua validação será manual com ajuda de especialista de domínio.
ReferênciasBUITELAAR, P.; BUITELAAR, P.; CIMIANO, P. Ontology Learning and
Population: Bridging the Gap between Text and Knowledge - Volume 167 Frontiers in Artificial Intelligence and Applications. IOS Press, Amsterdam, The Netherlands, The Netherlands, 2008.
BUITELAAR, P.; OLEJNIK, D.; SINTEK, M. A protege plug-in for ontology extraction from text based on linguistic analysis. In: Proceedings of the 1st European Semantic Web Symposium (ESWS), Heraklion, Greece, 2004.
ReferênciasCAO, Y.; WANG, X.; ZHANG, F.; YANG, W. Ontology-based domain
knowledge acquisition technology. In: Computational Intelligence and Design (ISCID), 2012 Fifth International Symposium on, volume 2, p. 487–490, Oct 2012.
CARVALHEIRA, L. C. D. C. Método semi-automático de construção de ontologias parciais de domínio com base em textos. Master’s thesis, Escola Politécnica da Universidade de São Paulo, Departamento de Engenharia da Computação e Sistemas Digitais, ago 2007.
ReferênciasCIARAMITA, M.; GANGEMI, A.; RATSCH, E.; ŠARIC, J.; ROJAS, I.
Unsupervised learning of semantic relations between concepts of a molecular biology ontology. In: Proceedings of the 19th International Joint Conference on Artificial Intelligence, IJCAI’05, p. 659–664, San Francisco, CA, USA, 2005. Morgan Kaufmann Publishers Inc.
CIMIANO, P.; VÖLKER, J. Text2onto: A framework for ontology learning and data-driven change discovery. In: Proceedings of the 10th International Conference on Natural Language Processing and Information Systems, NLDB’05, p. 227–238, Berlin, Heidelberg, 2005. Springer-Verlag.
ReferênciasCONRADO, M. D. S.; FELIPPO, A. D.; PARDO, T. A. S.; REZENDE, S. O. A
survey of automatic term extraction for brazilian portuguese. Journal of the Brazilian Computer Society, 20(1):12, 2014.
DOMINGUES, M. L.; FAVERO, E. L.; MEDEIROS, I. P. Etiquetagem de palavras para o português do brasil. In: Proceedings of TIL - V Workshop em tecnologia da informação e da linguagem humana, p. 4, Rio de Janeiro, Brazil, 06 2007. Anais do XXVII Congresso da SBC.
DRUMOND, L. R. Aquisição automatizada de hierarquias de conceitos de ontologias utilizando aprendizagem estatística relacional. Master’s thesis, UFMA, Engenharia de Eletricidade, 2009.
ReferênciasGRUBER, T. Ontology (Computer Science) - definition in Encyclopedia of
Database Systems. In: Liu, L.; Özsu, T. M., editors, Encyclopedia of Database System, 2008.
FERREIRA, V. H. Uma proposta para descoberta automática de relações não-taxonômicas a partir de corpus em língua portuguesa. Master’s thesis, Universidade Católica do Rio Grande do Sul, Faculdade de Informática, dez 2012.
GAMMA, E.; JOHNSON, R.; HELM, R.; VLISSIDES, J. Padrões de Projetos:
Soluções Reutilizáveis. BOOKMAN COMPANHIA ED, 2006.
ReferênciasLEE, C.-S.; KAO, Y.-F.; KUO, Y.-H.; WANG, M.-H. Automated ontology
construction for unstructured text documents. Data Knowl. Eng., 60(3):547–566, Mar. 2007.
LOPES, L. Extração automática de conceitos a partir de textos em língua portuguesa. Master’s thesis, Universidade Católica do Rio Grande do Sul - PUCRS, Faculdade de Informática, jan 2012.
LOPES, L.; FERNANDES, P.; VIEIRA, R. Domain term relevance through tf-dcf. In: Proceedings of the 2012 International Conference on Artificial Intelligence (ICAI 2012), ICAI 2012, p. 1001–1007, Las Vegas, USA, 2012. CSREA Press.
ReferênciasMAEDCHE, A.; STAAB, S. Ontology Learning for the Semantic Web. IEEE
Intelligent Systems, 16(2):72–79, Mar. 2001.
MENDONÇA, F.; ALMEIDA, M. B.; SOUZA, R. R.; SILVA, D. L. Extração automática de termos candidatos às ontologias: um estudo de caso no domínio da hemoterapia. In: Malucelli, A.; Bax, M. P., editors, ONTOBRAS-MOST, volume 938 de CEUR Workshop Proceedings, p. 170–175. CEUR-WS.org, 2012.
MORAES, S. M. W. Construção de estruturas ontológicas a partir de textos: Um estudo baseado no método Formal Concept Analysis e em papéis semânticos. Master’s thesis, PUC-RS, Faculdade de Informática, mar 2012.
ReferênciasSAINCHEZ, D.; MORENO, A. Learning non-taxonomic relationships from
web documents for domain ontology construction. Data and Knowledge Engineering, 64(3):600 – 623, 2008.
SERRA, I.; GIRARDI, R.; NOVAIS, P. Parnt: A statistic based approach to extract non-taxonomic relationships of ontologies from text. In: Information Technology: New Generations (ITNG), 2013 Tenth International Conference on, p.561–566, April 2013.
SILVA, J.; BRANCO, A.; CASTRO, S.; REIS, R. Out-of-the-box robust parsing of portuguese. In: Pardo, T.; Branco, A.; Klautau, A.; Vieira, R.; de Lima, V., editors, Computational Processing of the Portuguese Language, volume 6001 de Lecture Notes in Computer Science, p. 75–85. Springer Berlin Heidelberg, 2010.
ReferênciasSTANFORD.EDU. The Protégé project. http://protege.stanford.edu, último
acesso em julho de 2013.
TELINE, M. F. Avaliação de métodos de extração automática de terminologias para textos em portugues. Master’s thesis, Universidade de São Paulo, ICMCUSP São Carlos, fev 2004.
WONG, W.; LIU, W.; BENNAMOUN, M. Ontology learning from text: A look back and into the future. ACM Comput. Surv., 44(4):20:1–20:36, Sept. 2012.
ZAHRA, F. M.; MALUCELLI, A.; FREDDO, A. R.; TACLA, C. A. Ferramentas para aprendizagem de ontologias a partir de textos. In: Perspectivas em Ciência da Informação, volume 19, p. 3–21, 2014.
Recommended