28
1 Sistema de Recomendação de Artigos Científicos a Partir de um Texto Exemplo Christiano Avila Stanley Loh Frederico Fonseca

Webmedia2007 V4

Embed Size (px)

DESCRIPTION

Apresentação Webmedia

Citation preview

Page 1: Webmedia2007 V4

1

Sistema de Recomendação de Artigos Científicos a Partir de um Texto Exemplo Christiano Avila

Stanley LohFrederico Fonseca

Page 2: Webmedia2007 V4

2

Sumário

Introdução SisRecAC Experimentos Resultados Considerações Finais / Conclusões Apoio

Page 3: Webmedia2007 V4

3

Introdução

Segundo Spink et al.[19]: 52% das consultas submetidas aos mecanismos de

buscas são reformuladas 32,5% das consultas modificadas sofreram alterações nos

termos submetidos, mas não no número total de termos 41,6% incluíram termos novos 25,9% eram relativas a consultas modificadas pela exclusão de

termos.

Pesquisa da iProspect concluiu que 82% dos usuários de mecanismos de busca refazem consultas não bem sucedidas acrescentando mais palavras.

Page 4: Webmedia2007 V4

4

Introdução

Silverstein et al. [17], Lau & Horvitz [10], Spink et al. [19], Teevan et al. [20] constatam que usuários utilizam entre 2 e 3 termos em média

Entretanto, Kraft et al. [8], concluíram que o número ideal de palavras a serem submetidas para busca nos mecanismos deve ficar entre 5 e 9.

Page 5: Webmedia2007 V4

5

Introdução Belkin et al. [2] e o Estado Anômalo de Conhecimento

(ASK - Anomalous State of Knowledge). Problema para especificar precisamente os termos Os mecanismos de busca tradicionais exigem que o

usuário tenha algum conhecimento Contradição pedir ao usuário para formular o que

precisa se é isto justamente o que falta. “Método” de tentativa e erro que toma tempo e pode

gerar frustração com o mecanismo de busca.

Page 6: Webmedia2007 V4

6

Introdução

Motivação dificuldade para determinar as palavras-chave. Aplicações na área de apoio ao ensino

Page 7: Webmedia2007 V4

7

SisRecAC

Sistema de recomendação de artigos científicos (SisRecAC)

Baseado no paradigma de “query by example” É um sistema de metabusca

Page 8: Webmedia2007 V4

8

Paradigma 1 Query by exemplo Paradigma 2

Descrição O usuário deve saber informar corretamente as palavras-chave

O usuário informa um exemplo do que precisa

O sistema constrói um perfil dos usuários (filtragem colaborativa, baseado em conteúdo)

Exemplos Google, Yahoo, outros

SisRecAC Movielens, Grupolens, diversos sistemas de e-commerce

Problemas ASK Ter o documento de exemplo

Partida a frio (Cold start), pouca possibilidade de surpresa (serendipity)

SisRecAC

Page 9: Webmedia2007 V4

9

SisRecAC1) Faz upload de um Documento (.pdf, .txt)

2) Escolhe um método

usuário

3) Extrai palavras-chave do Documento

5)Links para Artigos científicos

4) Submete Palavras-chave

6) Recebe as recomendações

7) Faz a avaliação

Page 10: Webmedia2007 V4

10

SisRecAC

Page 11: Webmedia2007 V4

11

Tags

Upload

Page 12: Webmedia2007 V4

12

Upload

Recomendação 1

Recomendação 2

Recomendação 3

Page 13: Webmedia2007 V4

13

SisRecAC

Métodos Identificar ou extrair de características do

documento Submeter consulta ao mecanismo de busca. Comparar diferentes métodos de extração de

palavras-chave de textos. Utilizar título e “tags” informadas pelos

usuários.

Page 14: Webmedia2007 V4

14

SisRecAC

Expressões Método 1 – uma expressão Método 2 – 2 expressões Método 3 - 3 expressões

Page 15: Webmedia2007 V4

15

SisRecAC

Palavras com maior freqüência Método 4 - 4 palavras de maior freqüência no

documento. Métodos 5, 6, 7, 8 e 9 – idem, porém 5, 6, 7, 8 e

9 palavras.

Page 16: Webmedia2007 V4

16

SisRecAC

Outros métodos Método 10 - título do documento Método 11 – tags

Page 17: Webmedia2007 V4

17

Experimentos

Seleção do Método Escolhido em função da quantidade de

avaliações realizadas

Page 18: Webmedia2007 V4

18

Experimentos

Os usuários do SisRecAc são convidados a avaliar as recomendações do sistema.

Podem informar se consideram a recomendação: Totalmente relevante Parcialmente relevante Irrelevante

Page 19: Webmedia2007 V4

19

Upload

Recomendação 1

Recomendação 2

Recomendação 3

Avaliação

Page 20: Webmedia2007 V4

20

Resultados

Gráfico

Expressões Termos simples Título Tags

Page 21: Webmedia2007 V4

21

Conclusões Este projeto confirma Kraft et al. [8] que descobriu que o número ideal de

termos em uma consulta deve estar entre 5 e 9 Demonstra que sistemas de recomendação baseados no paradigma de

“query by example” são uma alternativa viável pois o uso de exemplos minimiza o esforço do usuário para selecionar palavras-chave para representar sua intenção de busca.

O sistema apresentado nesse artigo mostra que técnicas automáticas podem alcançar boa precisão quando recomenda documentos baseados em um exemplo.

O algoritmo que extrai as palavras-chave dos documentos é relativamente simples e com baixo custo computacional se comparado a outros algoritmos com fins semelhantes.

O sistema apresenta um excelente potencial de utilização na área acadêmica, onde manuais, artigos, apostilas e conteúdos programáticos poderiam ser utilizados como texto base para recomendação.

Page 22: Webmedia2007 V4

22

Trabalhos futuros

Descoberta de conhecimento em “folksonomias” Uso de tags com expansão baseada em folksonomias Ampliar os recursos do SisRecAc (agentes, convites, uso de perfil, …) Integração com o Sistema de Apoio da UCPEL (conteúdos programáticos,

uploads de professores, …)

Page 23: Webmedia2007 V4

23

Apoio

Este trabalho é parcialmente apoiado pela FAPERGS (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul).

Page 24: Webmedia2007 V4

24

Sistema de Recomendação de Artigos Científicos a Partir de um Texto Exemplo

Christiano Avila – chris AT direto2.ucpel.tche.brStanley Loh - loh AT ucpel.tche.br

Frederico Fonseca - frederico12345 AT gmail.com

Page 25: Webmedia2007 V4

25

Page 26: Webmedia2007 V4

26

Page 27: Webmedia2007 V4

27

Page 28: Webmedia2007 V4

28

Experimentos

Total de usuários:32 Total de documentos:179 Total de avaliações:929