View
23
Download
0
Category
Preview:
DESCRIPTION
Gerência e Recuperação de Informação em Documentos Eletrônicos. Objetivo Geral. O projeto visa: Desenvolver novos algoritmos para gerência e recuperação de informação em documentos Gerar novas tecnologias a partir de resultados de pesquisa. Motivação. Crescimento da Web - PowerPoint PPT Presentation
Citation preview
Gerência e Recuperação de Informação em Documentos Eletrônicos
14 de setembro de 2004 Gerindo - Reunião de Avaliação 2
Objetivo Geral
O projeto visa: Desenvolver novos algoritmos para
gerência e recuperação de informação em documentos
Gerar novas tecnologias a partir de resultados de pesquisa
14 de setembro de 2004 Gerindo - Reunião de Avaliação 3
Motivação Crescimento da Web Abundância de documentos em instituições Facilidade de acesso via rede Crescente demanda por software para prover
acesso eficiente e eficaz à informação Mercado com forte tendência de crescimento
nos próximos anos
14 de setembro de 2004 Gerindo - Reunião de Avaliação 4
Objetivos Específicos Desenvolvimento de novos algoritmos em RI Criação de um repositório central para
software, artigos, dissertações e outras fontes relacionadas ao projeto
Coleta de páginas da Web brasileira e disponibilização de estatísticas
Realização de trabalhos integrados com pesquisadores dos três grupos
Busca de parceiros para a transferência de novas tecnologias para a sociedade
14 de setembro de 2004 Gerindo - Reunião de Avaliação 5
Participantes Três Grupos, dez pesquisadores
UFMG Alberto H.F. Laender Berthier Ribeiro-Neto Nivio Ziviani (Coordenador) Renato A. Ferreira Wagner Meira Jr.
UFAM Altigran S. da Silva Edleno S. de Moura João M.B. Cavalcanti
UFRGS Carlos A. Heuser Mara Abel
14 de setembro de 2004 Gerindo - Reunião de Avaliação 6
Solução aberta, amplamente usada e ambiente flexível Armazenamento e recuperação de software,
coleções teste, produção científica Documentação via Internet Controle automático de versões
Ambiente de desenvolvimento que favorece: Metodologia Colaboração Publicação externa ao GERINDO Adoção de outros padrões de desenvolvimento
(codificação e documentação)
Repositório: Savannah
14 de setembro de 2004 Gerindo - Reunião de Avaliação 7
Tópicos de Pesquisa Categorização de Documentos Gerência de Dados Semi-Estruturados Modelos de Recuperação de Informação Eficiência em Recuperação de Informação Mineração de Dados
14 de setembro de 2004 Gerindo - Reunião de Avaliação 8
Web Classification
Cade12 Classification
0
10
20
30
40
50
60
70
80
Cocita
tion
Amsle
r
Cauth
TF-ID
F
Chub
Coupli
ng
kNN varations (red = baseline)
Pre
cisi
on
Fonte: Cristo, Calado, Moura, Ziviani and B. Ribeiro-Neto, Link Information as a Similarity Measure in Web Classification, SPIRE 2003
Cade188 Classification
01020304050607080
Cocita
tion
Amsle
r
Cauth
TF-ID
F
Chub
Coupli
ng
kNN varations (red = baseline)
Pre
cisi
on
14 de setembro de 2004 Gerindo - Reunião de Avaliação 9
Web Classification
Fonte: Calado, Cristo, Moura, Ziviani, Ribeiro-Neto, and Gonçalves, Combining Link-Based and Content-Based Methods for Web Document Classification, ACM CIKM 2003
Link Similarity Measures
Cade12 Cade188
kNN SVM NB kNN SVM NB
B. Coupling 36.31 40.02 39.30 22.32 23.08 22.70
Amsler 81.26 77.65 58.80 70.57 68.91 47.01
Co-citation 81.55 77.89 59.03 71.07 69.53 47.31
Companion 73.00 63.66 42.76 68.54 73.63 29.82
Baseline 39.45 40.86 39.38 24.45 24.31 22.82
14 de setembro de 2004 Gerindo - Reunião de Avaliação 10
Conjunctive and Phrase Queries
Fonte: Pôssas, B., Ziviani, N., Ribeiro-Neto, B., and Meira, W. (2004). Processing conjunctive and phrase queries with the set-based model. In 11th International Symposium on String Processing and Information Retrieval (SPIRE 2004), Padova, Itália.
14 de setembro de 2004 Gerindo - Reunião de Avaliação 11
Image Retrieval
Fonte: Coelho, T., Calado, P., Souza, L., Ribeiro-Neto, B., and Muntz, R. (2003). Image retrieval using multiple evidence ranking. IEEE Transactions on Knowledge and Data Engineering, 16(4):408–417.
14 de setembro de 2004 Gerindo - Reunião de Avaliação 12
Related Queries
Fonte: Fonseca, B., Golgher, P., Moura, E. S., Pôssas, B. and Ziviani, N. (2004). Discovering Search Engine Related Queries Using Association Rules. Journal of Web Engineering (JWE), to appear.
14 de setembro de 2004 Gerindo - Reunião de Avaliação 13
Keyword-based Queries over Web Databases
Fonte: Calado, Silva, Vieira, Laender and Ribeiro-Neto, A Bayesian Network Approach Searching Databases Through keyword-based Queries. IP&M, 40(5): 773-790.
14 de setembro de 2004 Gerindo - Reunião de Avaliação 14
Produção Científica
Tipo Internacional Nacional
Livros - 1
Capítulos de livros 3 -
Anais Conferências (Eds.) 2 -
Artigos em Periódicos 9 -
Artigos em Conferências 18 8
TOTAL 32 9
14 de setembro de 2004 Gerindo - Reunião de Avaliação 15
Qualidade dos Trabalhos Periódicos:
ACM Transactions on Information Systems (TOIS) Data and Knowledge Engineering Information Processing and Management (2) IEEE Transactions on Knowledge and Data Engineering (TKDE) Journal of Web Engineering (JWE) Knowledge and Information Systems Systems, Man and Cybernetics Theoretical Computer Science
Conferências Internacionais Mais Importantes: ACM CIKM 2003 e 2004 (Poster) ACM/IEEE JCDL 2003 e 2004 (Best Student Paper) Conference on Conceptual Modeling (ER 2004) Very Large Database (VLDB 2004) WWW 2004
14 de setembro de 2004 Gerindo - Reunião de Avaliação 16
Formação de Pessoal
Nível Concluído Em andamento
Doutorado 1 10
Mestrado 8 20
Graduação 2 10
TOTAL 11 30
14 de setembro de 2004 Gerindo - Reunião de Avaliação 17
Parcerias
Akwan Information Technologies (www.akwan.com.br) Disponibilidade de dados (logs) reais
Fabriq Gestão eletrônica de documentos Programa de gestão da lei de informática da Zona Franca
de Manaus Philips MDS
Gerente de conteúdos para portais Web Singol Tecnologia da Informação
Sistema de verificação de plágio em documentos Web
14 de setembro de 2004 Gerindo - Reunião de Avaliação 18
Impacto na Infra-estrutura UFMG:
Máquina paralela com 8 processadores Renovação do laboratório com aquisição de equipamentos
e discos magnéticos para armazenar grandes coleções UFAM
Laboratório suporta o trabalho de mais de 20 alunos Recursos da Philips-MDS, que serviram para reforçar a
infra-estrutura do laboratório UFRGS
Renovação do laboratório com aquisição de equipamentos
14 de setembro de 2004 Gerindo - Reunião de Avaliação 19
Próximos Dois Anos Continuar atividades de pesquisa seguindo
objetivos do projeto Projeto aprovado para 4 anos Realizar eventos
Workshops internos 28th ACM SIGIR (Salvador, 2005), SPIRE (B. Aires, 2005)
Continuar atualizando o repositório Biblioteca de softwares Coleções teste
Formação de doutores, mestres e bacharéis Estabelecer novas parcerias com empresas Atualizar equipamentos dos laboratórios
Recommended