Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Extração da Informação

Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Índice

Motivação Introdução Processo de extração da informação Abordagens para um sistema de EI Desafios Conclusão

Motivação

Problema:

Documentos na Web

Web-service -> Banco de Dados

Motivação

O que se quer?

Resposta aos usuários

Resumos de textos

Preencher Base de dados

Mineração de dados

Introdução

O que é EI?

Identificar dados relevantes presentes nos documentos sem estruturação precisa.

Conversão para estruturas tabular

Exibição dos dados de forma legível

Introdução

Sistema de

Extração de

Informação

Sistema de

Extração de

Informação

ClusterizaçãoAssociaçãoClassificação

Introdução

Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

EI

Segmentação

Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation

Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation

Cluster A

Cluster B

Cluster C

Introdução

História

JASPER (1980s) Sistema para finanças

MUC-Message Understanding Conference [final da década de 80]

Internet/Web [década de 90]

EI x Processamento de Linguagem Natural(PLN)

Processamento de Linguagem Natural Completa análise dos documentos Complexidade algorítmica alta

Extração de Informação Interesse em partes especificas do texto Menor esforço computacional


Mineração na web

Recuperação de informação x EI

Recuperação de Informação Recuperação de documentos relevantes ao usuário baseando-

se em cálculos estatísticos sobre os termos que ocorrem no documento.

Uso do conteúdo sintático dos documentos Visualiza o documento apenas como um conjunto de palavras.

Extração de Informação Extrai informações relevantes baseando-se no provável

domínio de conhecimento do documento Filtrar o resultado de uma tarefa de RI graças a restrição do

domínio Busca derivar conhecimento de documentos recuperados

segundo a forma como o documento está estruturado e representado.

Processo de extração de informação

Trata o problema de extração de dados relevantes a partir de uma coleção de documentos.

Os dados a serem extraídos são previamente definidos em um template (formulário)

CriaçãoDos slots

Documentocom tags

Tabelas com campos pré-definidos ou templates



Documento

Reconhecimento de

entidades

Análise Léxica e Morfológica

Análise Sintática

Análise de relacionamentos e contexto

Análise semântica

Inferência

Informação

estruturada e

contexto

Extração individual

Integração

Abordagens para um Sistema de EI

Observamos nos sistemas de Extração de Informação a distinção entre duas abordagens:

Engenharia de conhecimento

Treinamento automático

As abordagens são diferenciadas pela forma com que as regras são definidas


Engenharia de conhecimento

Construção de regras é feita manualmente.

Requer que um especialista em sistemas de Extração de Informação participe efetivamente da criação das regras.

Construção baseada no conhecimento que o engenheiro possui do cenário e domínio com o qual vai se trabalhar.

Precisão nos resultados é maior.

O tempo de desenvolvimento é maiorAlana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

Treinamento automático

Utiliza algoritmos de Inteligência Artificial Algoritmo de treino

Uma quantidade de documentos é utilizada no treinamento e geração das regras Treinamento do sistema para novos textos

Interação com o usuário pode ser feita Aprende regras com a interação com o usuário

Tempo menor de desenvolvimento

Menor precisão nos resultados

Abordagens para um Sistema de EI

Processamento de Linguagem Natural – PLN Wrappers

Processamento de Linguagem Natural - PLN

Utilizado no tratamento de documentos com pequeno ou nenhum grau de estruturação

Processamento de Língua Natural caracteriza-se pela análise e manipulação ou codificação de informações expressas em língua natural a fim de encontrar os dados relevantes a serem extraídos

Visão Geral

Nível Morfológico: estudo da constituição das palavras em elementos básicos;

Nível Sintático: determinação da relação (papel) de um conjunto de palavras em uma sentença;

Nível Semântico: determinação do significado e inter-relacionamento semântico das palavras;

Nível Discursivo: objetiva-se em determinar o significado de um conjunto de sentenças;

Nível Pragmático: Visa determinar o objetivo do uso da língua

Nível Morfológico

A análise Morfológica determina: O radical + sufixo da palavra, e geralmente constrói um dicionário adicionando informações relacionadas como: Classe da palavra Conjugação Pessoa A análise morfológica pode ser implementada através de algorítmos baseados em regras

eats eat + s verbo, singular, 3rd persdog dog nome, singular

Nível Sintático

A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras.

As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica

Tem como saída a representação da sentença que representa as dependências entre palavras

As sentenças de exemplo apenas diferem na sintáxi e apresentam significados diferentes

‘The dog chased the cat.’ ‘The cat chased the dog.’

Nível Semântico

Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado

O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença

Desambigüidade semântica

A cabeça une-se ao tronco pelo pescoçoEle é o cabeça da rebeliãoSabrina tem boa cabeça

Nível Discursivo

Analisa textos maiores que sentenças Foca nas propriedades do texto como um

todo, determinando significado através das conexões de sentenças

Resolução de Anáfora: Substituição de pronomes pelas entidades que eles referenciam

Reconhecimento de Estrutura de Texto: Em um jornal temos; Artigos de capa, opniões, eventos passados, anúcios

Nível Pragmático

Foca no significado que vai além do contexto do texto

Requer um conhecimento global Os exemplos seguintes utilizam anáforas mas as

resoluções necessitam de um conhecimento global

Os vereadores recusaram receber os manifestantes, porque eles temiam o confrontoOs vereadores recusaram receber os manifestantes, porque eles defendiam a revolução.

Wrappers

Maior desenvolvimento da WEB nos anos 90. Necessidade de sistemas mais eficientes com

capacidade suficiente para extrair informação dos textos da WEB.

Extraem a informação de documentos e a exportam como parte de uma estrutura de dados.

Wrappers

Textos são principalmente: Estruturados: com formato predefinido e rígido. Semi-estruturados: sem formatação rígida,

permitem a ocorrência de variações na ordem dos dados.

Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras, etc.

Técnicas de Extração

Autômatos finitos

Casamento de padrões

Classificadores de texto

Modelos de Markov escondidos (HMM)

Autômatos Finitos

Bons para textos estruturados.

Definidos manualmente ou aprendidos automaticamente.

Tipos: Acceptors: com resposta sim ou não Recognizers: um ou mais estados finais

(categorização) Transducers

Casamento de Padrões

Textos estruturados, semi-estruturados e livres.

Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações.

ER mais intuitivas do que autômatos.

Classificadores de Texto

Textos semi-estruturados

Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras)

Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento

Modelos de Markov Escondidos (HMM)

Textos livres e semi-estruturados.

Verifica a ocorrência de padrões em sequência no texto de entrada.

Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente.

Maximiza a probabilidade de acerto para o conjunto todo de padrões.

Construção de wrappers

Automática Define regras de extração com um corpus de

treinamento com de técnicas de aprendizagem de máquina.

Semi-automática Auxiliado por ferramentas, o usuário especifica a

estrutura e o contexto dos dados a serem extraídos.

Manual Mais demorada e trabalhosa, porém com maior

precisão nos dados extraídos.

Desafios

Técnicas de Extração “Dividir pra Conquistar” Classes de conhecimento Linguagem natural Idiomas Métricas de avaliação Classificar stop words Apredizagem

Desafios

Ontologias Acesso do Usuário Conteúdo preciso, claro Padrões Ontologia

Aplicações de EI

Filtragem de Fóruns Controle de Conteúdo Assunto do Dialogo

Monitoramento da WEB Buscar por Hackers Busca por Terroristas

Conclusões Extrair Informação é preciso WEB é um pandemônio de informações Soluções inteligentes

Dúvidas

Referências MANFREDINI, V. H.; Proposta de uma Técnica

de Extração de Informação de Arquivos de Log de Servidores Proxy

Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados

http://en.wikipedia.org/wiki/Information_extraction

Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf



http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf

http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf

Referências

Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf

Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO

Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR

http://143.54.31.10/reic/edicoes/2003e2/tutoriais/MineracaoNaWeb.pdf

http://moschneider.tripod.com/pln.pdf

Referências

www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt

http://sare.unianhanguera.edu.br/index.php/rcext/article/viewFile/413/409

MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc

http://www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt

http://www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt

http://www.cin.ufpe.br/~tg/2000-2/tmlm.doc

Documents

Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha