19
Gerência e Recuperação de Informação em Documentos Eletrônicos

Gerência e Recuperação de Informação em Documentos Eletrônicos

Embed Size (px)

DESCRIPTION

Gerência e Recuperação de Informação em Documentos Eletrônicos. Objetivo Geral. O projeto visa: Desenvolver novos algoritmos para gerência e recuperação de informação em documentos Gerar novas tecnologias a partir de resultados de pesquisa. Motivação. Crescimento da Web - PowerPoint PPT Presentation

Citation preview

Page 1: Gerência e Recuperação de Informação em Documentos Eletrônicos

Gerência e Recuperação de Informação em Documentos Eletrônicos

Page 2: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 2

Objetivo Geral

O projeto visa: Desenvolver novos algoritmos para

gerência e recuperação de informação em documentos

Gerar novas tecnologias a partir de resultados de pesquisa

Page 3: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 3

Motivação Crescimento da Web Abundância de documentos em instituições Facilidade de acesso via rede Crescente demanda por software para prover

acesso eficiente e eficaz à informação Mercado com forte tendência de crescimento

nos próximos anos

Page 4: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 4

Objetivos Específicos Desenvolvimento de novos algoritmos em RI Criação de um repositório central para

software, artigos, dissertações e outras fontes relacionadas ao projeto

Coleta de páginas da Web brasileira e disponibilização de estatísticas

Realização de trabalhos integrados com pesquisadores dos três grupos

Busca de parceiros para a transferência de novas tecnologias para a sociedade

nivio
- Da ordem de dezenas de novos algoritmos- Repositorio: + de 200 GB em colecoes teste, aprox. 250.000 linhas de codigo- Colecoes Web: WebBR99: 6 milhoes; WebBR03: 10 milhoes; WebBR04: 11 milhoes; WebTREC: 100 GB; Logs de consulta: + de 200 milhoes- 4 parceiros
Page 5: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 5

Participantes Três Grupos, dez pesquisadores

UFMG Alberto H.F. Laender Berthier Ribeiro-Neto Nivio Ziviani (Coordenador) Renato A. Ferreira Wagner Meira Jr.

UFAM Altigran S. da Silva Edleno S. de Moura João M.B. Cavalcanti

UFRGS Carlos A. Heuser Mara Abel

nivio
UFAM- Mestrado aprovado- Altigran (Laender), Edleno (Nivio)- Edleno: unico BP do norte; 1 de 8 da Amazonia, 1 de 3 da UFAM
Page 6: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 6

Solução aberta, amplamente usada e ambiente flexível Armazenamento e recuperação de software,

coleções teste, produção científica Documentação via Internet Controle automático de versões

Ambiente de desenvolvimento que favorece: Metodologia Colaboração Publicação externa ao GERINDO Adoção de outros padrões de desenvolvimento

(codificação e documentação)

Repositório: Savannah

Page 7: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 7

Tópicos de Pesquisa Categorização de Documentos Gerência de Dados Semi-Estruturados Modelos de Recuperação de Informação Eficiência em Recuperação de Informação Mineração de Dados

nivio
Categorizacao: classifica docs por categoriaSemi-estruturados: pag.Web, pobres em estruturaModelos de RI: melhorar a precisao das respostasEficiencia em RI: eficiencia de tempo e espacoMineracao: regras de associacao em modelos RI; mineracao de ocorrencias em BD distribuidos
Page 8: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 8

Web Classification

Cade12 Classification

0

10

20

30

40

50

60

70

80

Cocita

tion

Amsle

r

Cauth

TF-ID

F

Chub

Coupli

ng

kNN varations (red = baseline)

Pre

cisi

on

Fonte: Cristo, Calado, Moura, Ziviani and B. Ribeiro-Neto, Link Information as a Similarity Measure in Web Classification, SPIRE 2003

Cade188 Classification

01020304050607080

Cocita

tion

Amsle

r

Cauth

TF-ID

F

Chub

Coupli

ng

kNN varations (red = baseline)

Pre

cisi

on

Page 9: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 9

Web Classification

Fonte: Calado, Cristo, Moura, Ziviani, Ribeiro-Neto, and Gonçalves, Combining Link-Based and Content-Based Methods for Web Document Classification, ACM CIKM 2003

Link Similarity Measures

Cade12 Cade188

kNN SVM NB kNN SVM NB

B. Coupling 36.31 40.02 39.30 22.32 23.08 22.70

Amsler 81.26 77.65 58.80 70.57 68.91 47.01

Co-citation 81.55 77.89 59.03 71.07 69.53 47.31

Companion 73.00 63.66 42.76 68.54 73.63 29.82

Baseline 39.45 40.86 39.38 24.45 24.31 22.82

Page 10: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 10

Conjunctive and Phrase Queries

Fonte: Pôssas, B., Ziviani, N., Ribeiro-Neto, B., and Meira, W. (2004). Processing conjunctive and phrase queries with the set-based model. In 11th International Symposium on String Processing and Information Retrieval (SPIRE 2004), Padova, Itália.

Page 11: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 11

Image Retrieval

Fonte: Coelho, T., Calado, P., Souza, L., Ribeiro-Neto, B., and Muntz, R. (2003). Image retrieval using multiple evidence ranking. IEEE Transactions on Knowledge and Data Engineering, 16(4):408–417.

Page 12: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 12

Related Queries

Fonte: Fonseca, B., Golgher, P., Moura, E. S., Pôssas, B. and Ziviani, N. (2004). Discovering Search Engine Related Queries Using Association Rules. Journal of Web Engineering (JWE), to appear.

Page 13: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 13

Keyword-based Queries over Web Databases

Fonte: Calado, Silva, Vieira, Laender and Ribeiro-Neto, A Bayesian Network Approach Searching Databases Through keyword-based Queries. IP&M, 40(5): 773-790.

Page 14: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 14

Produção Científica

Tipo Internacional Nacional

Livros - 1

Capítulos de livros 3 -

Anais Conferências (Eds.) 2 -

Artigos em Periódicos 9 -

Artigos em Conferências 18 8

TOTAL 32 9

Page 15: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 15

Qualidade dos Trabalhos Periódicos:

ACM Transactions on Information Systems (TOIS) Data and Knowledge Engineering Information Processing and Management (2) IEEE Transactions on Knowledge and Data Engineering (TKDE) Journal of Web Engineering (JWE) Knowledge and Information Systems Systems, Man and Cybernetics Theoretical Computer Science

Conferências Internacionais Mais Importantes: ACM CIKM 2003 e 2004 (Poster) ACM/IEEE JCDL 2003 e 2004 (Best Student Paper) Conference on Conceptual Modeling (ER 2004) Very Large Database (VLDB 2004) WWW 2004

Page 16: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 16

Formação de Pessoal

Nível Concluído Em andamento

Doutorado 1 10

Mestrado 8 20

Graduação 2 10

TOTAL 11 30

Page 17: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 17

Parcerias

Akwan Information Technologies (www.akwan.com.br) Disponibilidade de dados (logs) reais

Fabriq Gestão eletrônica de documentos Programa de gestão da lei de informática da Zona Franca

de Manaus Philips MDS

Gerente de conteúdos para portais Web Singol Tecnologia da Informação

Sistema de verificação de plágio em documentos Web

Page 18: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 18

Impacto na Infra-estrutura UFMG:

Máquina paralela com 8 processadores Renovação do laboratório com aquisição de equipamentos

e discos magnéticos para armazenar grandes coleções UFAM

Laboratório suporta o trabalho de mais de 20 alunos Recursos da Philips-MDS, que serviram para reforçar a

infra-estrutura do laboratório UFRGS

Renovação do laboratório com aquisição de equipamentos

Page 19: Gerência e Recuperação de Informação em Documentos Eletrônicos

14 de setembro de 2004 Gerindo - Reunião de Avaliação 19

Próximos Dois Anos Continuar atividades de pesquisa seguindo

objetivos do projeto Projeto aprovado para 4 anos Realizar eventos

Workshops internos 28th ACM SIGIR (Salvador, 2005), SPIRE (B. Aires, 2005)

Continuar atualizando o repositório Biblioteca de softwares Coleções teste

Formação de doutores, mestres e bacharéis Estabelecer novas parcerias com empresas Atualizar equipamentos dos laboratórios