41
Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Embed Size (px)

Citation preview

Page 1: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Extração da Informação

Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Page 2: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Índice

Motivação Introdução Processo de extração da informação Abordagens para um sistema de EI Desafios Conclusão

Page 3: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Motivação

Problema:

Documentos na Web

Web-service -> Banco de Dados

Page 4: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Motivação

O que se quer?

Resposta aos usuários

Resumos de textos

Preencher Base de dados

Mineração de dados

Page 5: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Introdução

O que é EI?

Identificar dados relevantes presentes nos documentos sem estruturação precisa.

Conversão para estruturas tabular

Exibição dos dados de forma legível

Page 6: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Introdução

Sistema de

Extração de

Informação

Sistema de

Extração de

Informação

Page 7: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

ClusterizaçãoAssociaçãoClassificação

Introdução

Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

EI

Segmentação

Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation

Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation

Cluster A

Cluster B

Cluster C

Page 8: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Introdução

História

JASPER (1980s) Sistema para finanças

MUC-Message Understanding Conference [final da década de 80]

Internet/Web [década de 90]

Page 9: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

EI x Processamento de Linguagem Natural(PLN)

Processamento de Linguagem Natural Completa análise dos documentos Complexidade algorítmica alta

Extração de Informação Interesse em partes especificas do texto Menor esforço computacional

Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

Page 10: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Mineração na web

Page 11: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Recuperação de informação x EI

Recuperação de Informação Recuperação de documentos relevantes ao usuário baseando-

se em cálculos estatísticos sobre os termos que ocorrem no documento.

Uso do conteúdo sintático dos documentos Visualiza o documento apenas como um conjunto de palavras.

Extração de Informação Extrai informações relevantes baseando-se no provável

domínio de conhecimento do documento Filtrar o resultado de uma tarefa de RI graças a restrição do

domínio Busca derivar conhecimento de documentos recuperados

segundo a forma como o documento está estruturado e representado.

Page 12: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Processo de extração de informação

Trata o problema de extração de dados relevantes a partir de uma coleção de documentos.

Os dados a serem extraídos são previamente definidos em um template (formulário)

CriaçãoDos slots

Documentocom tags

Tabelas com campos pré-definidos ou templates

Page 13: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Processo de extração de informação

Page 14: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Processo de extração de informação

Documento

Reconhecimento de

entidades

Análise Léxica e Morfológica

Análise Sintática

Análise de relacionamentos e contexto

Análise semântica

Inferência

Informação

estruturada e

contexto

Extração individual

Integração

Page 15: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Abordagens para um Sistema de EI

Observamos nos sistemas de Extração de Informação a distinção entre duas abordagens:

Engenharia de conhecimento

Treinamento automático

As abordagens são diferenciadas pela forma com que as regras são definidas

Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

Page 16: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Engenharia de conhecimento

Construção de regras é feita manualmente.

Requer que um especialista em sistemas de Extração de Informação participe efetivamente da criação das regras.

Construção baseada no conhecimento que o engenheiro possui do cenário e domínio com o qual vai se trabalhar.

Precisão nos resultados é maior.

O tempo de desenvolvimento é maiorAlana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

Page 17: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Treinamento automático

Utiliza algoritmos de Inteligência Artificial Algoritmo de treino

Uma quantidade de documentos é utilizada no treinamento e geração das regras Treinamento do sistema para novos textos

Interação com o usuário pode ser feita Aprende regras com a interação com o usuário

Tempo menor de desenvolvimento

Menor precisão nos resultados

Page 18: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Abordagens para um Sistema de EI

Processamento de Linguagem Natural – PLN Wrappers

Page 19: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Processamento de Linguagem Natural - PLN

Utilizado no tratamento de documentos com pequeno ou nenhum grau de estruturação

Processamento de Língua Natural caracteriza-se pela análise e manipulação ou codificação de informações expressas em língua natural a fim de encontrar os dados relevantes a serem extraídos

Page 20: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Visão Geral

Nível Morfológico: estudo da constituição das palavras em elementos básicos;

Nível Sintático: determinação da relação (papel) de um conjunto de palavras em uma sentença;

Nível Semântico: determinação do significado e inter-relacionamento semântico das palavras;

Nível Discursivo: objetiva-se em determinar o significado de um conjunto de sentenças;

Nível Pragmático: Visa determinar o objetivo do uso da língua

Page 21: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Nível Morfológico

A análise Morfológica determina: O radical + sufixo da palavra, e geralmente constrói um dicionário adicionando informações relacionadas como: Classe da palavra Conjugação Pessoa A análise morfológica pode ser implementada através de algorítmos baseados em regras

eats eat + s verbo, singular, 3rd persdog dog nome, singular

Page 22: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Nível Sintático

A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras.

As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica

Tem como saída a representação da sentença que representa as dependências entre palavras

As sentenças de exemplo apenas diferem na sintáxi e apresentam significados diferentes

‘The dog chased the cat.’ ‘The cat chased the dog.’

Page 23: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Nível Semântico

Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado

O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença

Desambigüidade semântica

A cabeça une-se ao tronco pelo pescoçoEle é o cabeça da rebeliãoSabrina tem boa cabeça

Page 24: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Nível Discursivo

Analisa textos maiores que sentenças Foca nas propriedades do texto como um

todo, determinando significado através das conexões de sentenças

Resolução de Anáfora: Substituição de pronomes pelas entidades que eles referenciam

Reconhecimento de Estrutura de Texto: Em um jornal temos; Artigos de capa, opniões, eventos passados, anúcios

Page 25: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Nível Pragmático

Foca no significado que vai além do contexto do texto

Requer um conhecimento global Os exemplos seguintes utilizam anáforas mas as

resoluções necessitam de um conhecimento global

Os vereadores recusaram receber os manifestantes, porque eles temiam o confrontoOs vereadores recusaram receber os manifestantes, porque eles defendiam a revolução.

Page 26: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Wrappers

Maior desenvolvimento da WEB nos anos 90. Necessidade de sistemas mais eficientes com

capacidade suficiente para extrair informação dos textos da WEB.

Extraem a informação de documentos e a exportam como parte de uma estrutura de dados.

Page 27: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Wrappers

Textos são principalmente: Estruturados: com formato predefinido e rígido. Semi-estruturados: sem formatação rígida,

permitem a ocorrência de variações na ordem dos dados.

Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras, etc.

Page 28: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Técnicas de Extração

Autômatos finitos

Casamento de padrões

Classificadores de texto

Modelos de Markov escondidos (HMM)

Page 29: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Autômatos Finitos

Bons para textos estruturados.

Definidos manualmente ou aprendidos automaticamente.

Tipos: Acceptors: com resposta sim ou não Recognizers: um ou mais estados finais

(categorização) Transducers

Page 30: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Casamento de Padrões

Textos estruturados, semi-estruturados e livres.

Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações.

ER mais intuitivas do que autômatos.

Page 31: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Classificadores de Texto

Textos semi-estruturados

Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras)

Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento

Page 32: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Modelos de Markov Escondidos (HMM)

Textos livres e semi-estruturados.

Verifica a ocorrência de padrões em sequência no texto de entrada.

Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente.

Maximiza a probabilidade de acerto para o conjunto todo de padrões.

Page 33: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Construção de wrappers

Automática Define regras de extração com um corpus de

treinamento com de técnicas de aprendizagem de máquina.

Semi-automática Auxiliado por ferramentas, o usuário especifica a

estrutura e o contexto dos dados a serem extraídos.

Manual Mais demorada e trabalhosa, porém com maior

precisão nos dados extraídos.

Page 34: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Desafios

Técnicas de Extração “Dividir pra Conquistar” Classes de conhecimento Linguagem natural Idiomas Métricas de avaliação Classificar stop words Apredizagem

Page 35: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Desafios

Ontologias Acesso do Usuário Conteúdo preciso, claro Padrões Ontologia

Page 36: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Aplicações de EI

Filtragem de Fóruns Controle de Conteúdo Assunto do Dialogo

Monitoramento da WEB Buscar por Hackers Busca por Terroristas

Page 37: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Conclusões Extrair Informação é preciso WEB é um pandemônio de informações Soluções inteligentes

Page 38: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Dúvidas

Page 39: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Referências MANFREDINI, V. H.; Proposta de uma Técnica

de Extração de Informação de Arquivos de Log de Servidores Proxy

Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados

http://en.wikipedia.org/wiki/Information_extraction

Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf

Page 40: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Referências

Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf

Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO

Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR

http://143.54.31.10/reic/edicoes/2003e2/tutoriais/MineracaoNaWeb.pdf

Page 41: Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Referências

www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt

http://sare.unianhanguera.edu.br/index.php/rcext/article/viewFile/413/409

MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc