Upload
duongliem
View
215
Download
0
Embed Size (px)
Citation preview
1
Busca, Recuperação eBusca, Recuperação eMineração na WebMineração na Web
Carlos Bazilio
Depto de ComputaçãoInstituto de Ciência e TecnologiaUniversidade Federal Fluminense
2
Estrutura do Grafo WebEstrutura do Grafo Web
https://www.cs.cornell.edu/home/kleinber/networks-book/ (Cap. 13)
3
Arquitetura Típica deArquitetura Típica deuma Engine de Busca [1]uma Engine de Busca [1]
4
Arq uit etu ra b as ea da em
Arq uit etu ra b as ea da emC
lu ste r p ara Bu sc a
Clu ste r p ara B
u sc a
5
Arq uit etu ra T
íp ica de umA
rq uit etu ra Típ ica de um
Cra w
le rC
ra wle r
6
Consultando umConsultando umServidor WebServidor Web
Conexão a um servidor web utilizando oaplicativo telnetNum prompt, digite o comando abaixo:
> curl <url>
7
Uma Taxonomia paraUma Taxonomia paraCrawlersCrawlers
Questões a se considerar noprojeto/implementação de um crawler
Atualização das páginas: páginas maisatualizadas possível x páginas “estáticas”Qualidade: poucas páginas com muitaqualidade x muitas páginas com diferentesníveis de qualidadeQuantidade: muitas páginas x maioratualização e/ou qualidade
8
O que é Web Mining?O que é Web Mining?
Web Mining = Web + Data Mining– Information Retrieval, Machine Learning,
Statistic, Pattern Recognition
9
O que é Web Mining?O que é Web Mining?
● Fontes para Mineração na Web:● Conteúdo: textos, mídias, …● Estrutura: links, âncoras, …● Uso: navegação (“wisdom of crowds”)
10
Web Mining – Fontes Web Mining – Fontes
11
Exemplos de AplicaçõesExemplos de Aplicações
PageRank (Algoritmos de“ranqueamento”)
Mineração na estrutura das páginasUma página tem um bom pagerank seapontam para ela muitas outrasEste valor aumenta se as páginas queapontam possuem um bom valor
12
Exemplos de AplicaçõesExemplos de Aplicações
Google AdWords (Propaganda)Mineração nas queries / conteúdoExibe conteúdo relacionado aos termospesquisados
● Google AdWords (Propaganda)
13
Exemplos de AplicaçõesExemplos de Aplicações
Internet Archive (crawler de amplitudeglobal)
http://archive.org/index.phpProjeto para armazenamento de imagensde versões de páginas webExemplos: “www.nytimes.com, 11/09/2001”,“www.cade.com.br”
14
Exemplos de AplicaçõesExemplos de Aplicações
WolframAlpha (Engine para Consulta deInformações http://www.wolframalpha.com/ Utiliza uma base de conhecimento para
resposta às consultas No site não descreve se há mineração
para busca de informações adicionais Exemplo de busca: “16h President of
Brazil”, “Hebe Camargo birthdate”
15
Exemplos de AplicaçõesExemplos de Aplicações
Netflix (Mineração no Uso) Netflix Prize
(http://en.wikipedia.org/wiki/Netflix_Prize) Algoritmos para Recomendação baseado
em Visualização Entrevista com funcionários da Netflix:
http://www.wired.com/underwire/2013/08/qq_netflix-algorithm/
16
Exemplos de AplicaçõesExemplos de Aplicações
NSA (Mineração ???) U.S. National Security Agency Imagens seguintes extraídas do site
archive.org
17
Exemplos de AplicaçõesExemplos de Aplicações
18
Exemplos de AplicaçõesExemplos de Aplicações
19
Exemplos de AplicaçõesExemplos de Aplicações
Google Knowledge Graph Facebook Open Graph IBM Watson
20
Desafios na Análise deDesafios na Análise deDados na WebDados na Web
Dados distribuídos Dados voláteis Grande volume de dados Dados não estruturados e redundantes Qualidade dos dados Formatos heterogêneos
21
Desafios na Análise deDesafios na Análise deDados na WebDados na Web
Como expressar consultas Como interpretar os resultados
22
ReferênciasReferências
[1] Searching the Web, Arvind Arasu et. al,Journal ACM Transactions on InternetTechnology
[2] Web Mining Research Survey, https://arxiv.org/pdf/cs/0011033.pdf
[3] Web Mining: Examples and Applications, Arne Pottharst