105
Um Ambiente para Um Ambiente para Mineração de Mineração de Utilização Web Utilização Web José Roberto de Freitas Boullosa

Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Embed Size (px)

Citation preview

Page 1: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Um Ambiente para Mineração de Um Ambiente para Mineração de Utilização WebUtilização Web

José Roberto de Freitas Boullosa

Page 2: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

IntroduçãoIntrodução

ApresentaçãoMotivaçãoEstrutura do trabalho

– Mineração de dados– Mineração de utilização da Web– Ambiente proposto– Conclusões

Page 3: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dadosMineração de dados

Mineração de dados

(data mining)

x

Descoberta do conhecimento

(knowledge discovery)

Piatestky-Shapiro:

Workshop in Knowledge Discovery in Databases

Detroit 1989

Page 4: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dadosMineração de dados

“Estilos” de mineração de dados– Descoberta de conhecimento

• Bottom-up• Indução

– Testes de hipóteses• Top-down• Dedução

Page 5: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dadosMineração de dados

Descoberta de conhecimento (Fayyad et al.)1. Definição dos domínios

2. Criação do conjunto de dados, seleção de fontes

3. Pré-processamento

4. Transformação dos dados

5. MINERAÇÃO DE DADOS– Técnicas e algoritmos

6. Análise e interpretação dos resultados

Page 6: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dadosMineração de dados

Modelos para mineração de dados– Preditivos– Classificação– Agrupamento– Séries temporais

Page 7: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dadosMineração de dados

Métodos de mineração de dados– Geração de regras de associação

• Banco de dados de transações• “Market-basket analysis”

– Análise de seqüências• Teoria dos grafos• Padrões seqüenciais

Page 8: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dadosMineração de dados

Métodos de mineração de dados– Classificação

• Conhecimento apriorístico sobre classes• Perfis de itens com atributos em comum

– Agrupamento (clustering)• Sem conhecimento prévio sobre classes• Dados similares• Métricas para “distância”• Clusters

Page 9: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dadosMineração de dados

Métodos de mineração de dados– Árvores de Decisão

• Indução de regras• CART (Classification and Regression Tree)• CHAID (chi-squared automatic induction) • Algoritmos principais: ID3, C4.5

Page 10: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dadosMineração de dados

Métodos de mineração de dados– MBR (Memory-based reasoning)

– Predição de novos itens a partir de itens já conhecidos

– Redes neurais– Modelos simuladores das conexões neuronais– Dificuldades: sensibilidade, entendimento dos modelos

gerados

– GA - Algoritmos genéticos– Mecanismos da genética e seleção natural

• Seleção, cross-over, mutação– Gerações sucessivas de soluções– Soluções “sobreviventes”

Page 11: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dadosMineração de dados

Data Warehousing– Conjunto de dados integrados, não-voláteis,

orientados por assunto e variáveis no tempo, utilizados primordialmente como ponto de apoio a decisões gerenciais. (INMON)

Page 12: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dadosMineração de dados

Data Warehousing– Modelo multidimensional

• Vantagens em relação ao MER• Cubo

– Fatos– n Dimensões

• Atributos• Hierarquias

• Operações de manipulação– Slice & dice, roll-up, drill-down

• Esquemas– Estrela (Star schema)– Flocos de neve (snow flakes)

Page 13: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dadosMineração de dados

OLAPOn-line Analytical Processing

x

On-line Transaction Processing

– Cubos– Categorias

• MOLAP (OLAP Multidimensional)• ROLAP (OLAP Relacional)• HOLAP (OLAP Híbrido)

Page 14: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Aplicação das técnicas de mineração de dados para a extração de dados da Web

Termos úteis• Visita / acesso (page view)• Clickstream• Sessão de usuário• Episódio• URL (Universal Resource Locator)

esquema://host:porta/path/querystring

• URI (Universal Resource Identifier) • Referidor (referrer) • Cookie • Programas CGI (Common Gateway Interface)

Page 15: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Modelos de navegação– WWW (World Wide Web)

• Ecologia de Informações dinâmica (Catledge & Pitkow)– Sistema hipermídia aberto– Colaborativo – Altamente dinâmico

Page 16: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Modelos de navegação– WWW

• Estratégias de utilização– Busca

• Orientação quanto ao objetivo– Navegação

• Similaridade entre itens– Navegação serendípica (serendipitious

browsing)• Aleatoriedade

Page 17: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Modelos de navegação– Etapas da busca de informações na

Web (Levene & Loizou)1. Especificação da consulta

2. Recuperação da informação

3. Navegação

4. Modificação da consulta Nielsen (1990):

“Perdido no hiperespaço” (lost in hyperspace)

Page 18: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Modelos de navegação– Objetivos no projeto de um site

Buscax

Navegação

• Análise dos padrões de navegação– Mineração de utilização

Page 19: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Modelos de navegação– Revisitação de páginas

• Taxa de recorrência R – Probabilidade de que uma página já tenha sido

acessada na mesma sessão– Tauscher & Greenberg : R = 61%, D.P. 9%

• Navegação Web: Sistema recorrente

Page 20: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Modelos de navegação– Razões para revisitação

• Páginas mudam• Explorar com mais detalhes• Páginas especiais (busca, etc.)• Edição de páginas• Páginas são caminho de navegação

– Razões para acessar novas páginas• Mudanças nas necessidades de informações• Exploração de novos sites• Recomendação de amigos• Encontrar nova página interessante ao navegar

Page 21: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Modelos de navegação– Padrões de navegação (Tauscher &

Greenberg)• Visitas iniciais a grupo de páginas• Revisitas a páginas• Visitas a páginas em edição• Visitas a páginas criadas por aplicações• Hub-and-spoke• Navegação dirigida• Navegação de profundidade

Page 22: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Modelos de navegação– Modelos estocásticos (Borges, Levene, Loizou)

• Estrutura do site: grafo direcionado• Nós = páginas• Arestas = links entre páginas• Conjunto de trilhas do grafo: Visão Web• Cada página representa um estado• Cada link tem uma probabilidade associada

– Freqüência de utilização do link– Peso relativo dos links para os usuários

• Cadeia de Markov

Page 23: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Modelos de navegação– Modelos estocásticos (Huberman et al.)

• Comportamento do usuário– Maximizar utilidade ou valor das páginas– Reduzir custo ou esforço de navegação

• Lei de Zipf (Levene e Borges)– P = Probabilidade de trilha de comprimento t ser percorrida

• P = t –3/2 – Usuários preferem trilhas curtas– Número de trilhas curtas exponencialmente maior que o de

trilhas longas– Razão = Valor agregado / esforço despendido

• Maior para as trilhas curtas

Page 24: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Tipo Carac. Físicas Carac. UsoCabeçalho Links de entrada partem de várias

páginas

Raiz do site

Início das sessões

Conteúdo Muitos textos e gráficos em relação a links

Tempo médio de visita longo

Navegação Poucos textos e gráficos em relação a links

Tempo médio de visitação curto

Não é Ref.P.Máxima

Look-up Poucos links de entrada

Poucos links de saída

Conteúdo reduzido

Tempo médio de visitação curto

É Ref.P.Máxima

Pessoal Sem características comuns Baixa freqüência de visitação

Page 25: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Modelos de navegação– Classificação das páginas

• Manual – Uma-a-uma– Meta-dados HTML, XML (RDF)

• Automática – Algoritmos

Page 26: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Tipos de mineração de dados da Web– Zaïane

• Mineração de conteúdo (Web content mining)• Mineração de estrutura (Web structure

mining)• Mineração de utilização (Web usage mining)

– Cooley et al.• Mineração de conteúdo (Web content mining)• Mineração de utilização (Web usage mining)

Page 27: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Problemas da mineração de dados da Web

– Necessidade de filtragem dos dados– Integração das fontes de dados– Identificação de usuários– Identificação de sessões– Identificação de transações

Page 28: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Mineração de conteúdo da Web– Agentes (Cooley)

• Agentes de busca inteligente– Domínios e perfis

– ParaSite, ShopBot…

– Crawlers, spiders, robots…

• Personalizados e baseados em filtragem/categorização– Preferências dos usuários, perfis

– WebWatcher, Letizia…

– Relacionam-se também com a mineração de utilização

Page 29: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de dados da WebMineração de dados da Web

Mineração de conteúdo da Web– Abordagens baseadas em bancos de

dados• Estruturar a Web

– Meta-dados– Multicamadas

• Mecanismos de consulta• UnQL, W3QL…

Page 30: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Objetivos de um site– Acesso às páginas “importantes”– Exibição de links relevantes– Evitar desorientação

Page 31: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

A estrutura do site reflete:– Comportamento esperado dos visitantes– Expectativas do projetista quanto ao

comportamento O site deveria refletir TAMBÉM:

– Comportamento real dos visitantes

Page 32: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Solução: – Analisar os padrões de utilização do site

• Fontes:– Logs dos servidores Web– Estruturas dos sites (Pirolli)– Logs gerados por agentes e outros programas

– Mineração de utilização da Web• Chen et al. (1996)• Mannila & Toivonen (1996)• Yan et al. (1996)

Page 33: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Aspectos complementares:– Analisar sistematicamente o

comportamento dos usuários– Servir como apoio para a tomada de

decisões sobre o que deve ser modificado no site

Page 34: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Classificação (Cooley)– Descoberta de padrões gerais

• Tendências de uso genéricas

– Descoberta de padrões customizados• Tendências de uso de determinado visitante• Adaptação do site ao visitante

– Sites adaptativos: Perkowitz & Etzione, Maedche

Page 35: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Aplicações das informações obtidas– Utilização em campanhas promocionais– Análise de estratégias de marketing– Reestruturação e adaptação automática do site– Gerenciamento mais efetivo das comunicações

de um grupo de trabalho e da infraestrutura organizacional

– Distribuição de propaganda para usuários específicos

– Venda de espaços de publicidade

Page 36: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Produtos comerciais– Webtrends, NetTracker, NetGenesis– Analog– Análises estatísticas– Estrutura proprietárias– Deficientes em relação a análises mais

profundas

Page 37: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Tipos de ferramentas para mineração de utilização (Cooley)

– Descoberta de padrões• WebMiner, Joshi & Krishnapuram, …

– Análise de padrões• WebViz, WebLogMiner…

– * Mistas• WebMiner, WebSift

Page 38: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Etapas da mineração de dados (Cooley et al.)

– Preparação de dados– Descoberta de padrões– Análise e visualização de padrões

Page 39: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Preparação de dados– Fontes de dados

• Logs de servidores Web• Agentes autônomos• Outras interfaces• Páginas dinâmicas, scripts, programas CGI

Page 40: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Preparação de dados– Logs de servidores Web

• Itens irrelevantes• Ausência de identificação de usuários e

sessões• Falta do registro de muitos acessos

– Páginas em cache

Page 41: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Preparação de dados: etapas– Filtragem dos dados– Identificação dos usuários– Identificação das sessões– Identificação das transações

Page 42: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Filtragem de dados– Formatos de logs

• Common Log Format • Extended Log Format

– Arquivos indesejados

Page 43: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Identificação de usuários– Cache (local e de servidor)

• Cache busting

– Proxy servers• Cookies

• Registro explícito– Privacidade

• Heurísticas de identificação– Mudanças nas entradas do log– Tempo entre acessos– Topologia do site

Page 44: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Identificação de sessões– Uso de time-out de controle

• Entre acessos• Para a duração total da sessão

– Preenchimento de “vazios” da sessão• Uso da topologia do site• Tempo médio de acesso

Page 45: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Identificação de transações– Transação: unidade semântica– Tipos

• Transações de navegação– Caminhos comuns até uma página

• Transações de conteúdo– Relacionamentos entre páginas de conteúdo

– Implicações• Regra A->B analisada a partir de transações de

diferentes tipos

Page 46: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Identificação de transações– Abordagens

• Divisão em transações menores• Agrupamento em transações maiores

– Seqüência de passos• Primeiro passo : divisão

Page 47: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Identificação de transações– L : Conjunto de entradas de log– l.ip : IP do cliente– l.uid : Identificador do usuário– l.URL : URL da página acessada– I.tempo : momento do acesso

t = < ipt, uidt, {(lt1.URL, lt1.tempo), ...ltm.URL, ltm.tempo)} >

onde, para 1 k m:

ltkL, ltk.ip=ipt, ltk.uid=uidt

Page 48: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Identificação de transações– Métodos

• Duração da referência– Divisão das transações

• Referências posteriores máximas (Chen et al.)– Divisão das transações

• Janelas de tempo– Não utiliza o modelo de páginas de conteúdo e

navegação– Agrupamento ou divisão das transações

Page 49: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Identificação de transações– Método de referências posteriores máximas

• Referências reversas (backward references)• Referências posteriores (forward references)• Maximal forward references• Algoritmo MF (maximal forward)

– Seqüências longas de referências– Algoritmo FS (full-scan)– Algoritmo SS (selective-scan)

Page 50: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Identificação de transações– Análise dos métodos

• Duração de referência– Encontra regras que os outros não encontram

• Referências posteriores– Ruim para achar transações de conteúdo em sites com

alto grau de conectividade– Muitas transações de navegação

• Janelas de tempo– Pode ser usado juntamente com os outros métodos

Page 51: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Descoberta de padrões– Análises estatísticas

• Caráter geral• Hits por página• Páginas mais acessadas• Páginas mais usadas como partida ou saída• Tempo médio por página• Comum nos pacotes comerciais

Page 52: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Descoberta de padrões– Análise dos caminhos percorridos

• Grafos direcionados– Nós

• Páginas– Arestas

• Links• Similaridades entre páginas• Número de usuários que percorreram o link

• Caminhos mais freqüentes• Seqüências longas de referências

Page 53: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Descoberta de padrões– Regras de associação

• Aplicadas a BDs de transações, onde cada transação é um conjunto de itens– Item = página acessada– Transação = conjunto de páginas acessadas

Page 54: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Descoberta de padrões– Regras de associação

• A → B• Na Web, A pode ser:

– Página individual– Seqüência não ordenada de páginas– Seqüência ordenada de páginas

Page 55: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Descoberta de padrões– Regras de associação

• Confiança– Percentual entre as transações que contêm todos

os itens de uma regra e as transações que contêm os antecedentes da regra

• Suporte– Percentual das transações que contêm o padrão

Page 56: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Descoberta de padrões– Padrões seqüenciais

• Percentual de usuários que acessaram X e depois Y num determinado intervalo

• Intervalos em que certas páginas foram mais acessadas

• Características em comum dos visitantes de uma página num determinado período

Page 57: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Descoberta de padrões– Padrões seqüenciais

• Mineradores convencionais procuram os padrões mais freqüentes

• Muitas vezes, são buscados padrões raros, mas “interessantes”– Zaki et al.: remoção das seqüências não

interessantes– Spiliopoulou et al.: WUM

Page 58: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Descoberta de padrões– Classificação e agrupamento

• Reunião de páginas semelhantes• Detecção de seqüências semelhantes

– Comparação com perfis de usuários

• Informações demográficas

• Su et al.: RDBC (Recursive density based clustering)– Agrupamento de páginas com base na freqüência de sua

utilização, não no conteúdo

Page 59: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Descoberta de padrões– Cooley et al.

• Filtro de sites– Diminuição do tempo de processamento

– Redução do número de regras inúteis

– Diminuição das medidas de suporte e confiança

– Maior número de padrões úteis

• Ignorar regras triviais – Ex.: regra que apenas confirme um link direto entre as

páginas

Page 60: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Análise dos padrões– Ferramentas

• Programas estatísticos• Gráficos• Linguagens de consulta

– Kato et al. • Ferramenta de análise de padrões• Relevância entre páginas e conectividade dos links• Co-ocorrência de acessos entre páginas diferentes• Mostra ao administrador as páginas que não são úteis

Page 61: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Análise dos padrões– WebViz (Pitkow & Bharat)

• Web paths• Visualização de trechos dos grafos

– Webminer• Linguagem de consulta

– Linguagem MINT (WUM)• Especificação de critérios de consulta

– Conteúdo– Estatística– Estrutura– Interestingness

Page 62: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Análise dos padrões– Data warehousing e OLAP

• Zaïane – OLAP

• Kimball– “Data webhousing”

Page 63: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– Webminer (Mobasher, Cooley et al)

• Arquitetura genérica de mineração de utilização

• Definição das fases da mineração• Linguagem de consulta

Page 64: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– WebSIFT (Web Site Information Filter)

• Hipóteses– É possível inferir, a partir do ECLF, as páginas não

registradas no log– Tipo de utilização de uma página pode ser inferido

a partir do tempo gasto na mesma– Dados do ECLF são suficientes para identificar com

precisáo as sessões

Page 65: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– Mannilla & Toivonen (1996)

• Logs dão visão exata da utilização

– Yan et al. (1996)• Agrupamento de usuários• Links mostrados de acordo com as páginas mais

visitadas pelo grupo do usuário

– Amir et al.• Agregação dos dados em seqüências de itens• Combinam seqüências com prefixos iguais

Page 66: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– SiteHelper (1997)

• Recomenda páginas a partir da análise do log

– PageGather (Perkowitz & Etzione, 1998)• Agrupamento de páginas visitadas juntas• Não leva em conta o caminho que conduz à

página• Propuseram sites adptativos

Page 67: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– WebLogMiner - Zaïane et al, 1998

• Técnicas de OLAP e mineração de dados• Ferramenta DBMINER (IBM)• Arquitetura com 4 etapas

– Pré-processamento– Construção de cubo– Técnicas OLAP no cubo– Mineração de dados

Page 68: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– FootPrints (Wexelblat & Maes, 1999)

• Caminhos freqüentes são armazenados para serem usados por futuros visitantes

– Schechter et al. (1998)• Path profiles• Geração dinâmica do conteúdo acessado• Ignoram problemas causados pelo cache

Page 69: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– WUM (Spiliopoulou, 1999)

• Mineração de seqüências eficiente• Transações agrupadas em trilhas• Tráfego = quantidade de transações que acessaram uma trilha• Árvore agregada de trilhas (log agregado)

– Prefixos iguais– Suporte: quantidade de usuários que chegaram ao nó– Redução do espaço de armazenamento

• Consultas em MINT – Descritores, máscaras– Padrão de navegação – generalização da árvore

Page 70: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– Gaul et al. (2000)

• Ao invés de seqüências generalizadas a partir de descritores, encontram TODAS as subseqüências

– Borges & Levene (1998)• Modelos estocásticos • HPG – hypertext probabilistic grammar

– Gramática regular– Símbolos não-terminais – páginas– Regras de produção – links– Cálculo da entropia

• Alta – elevado grau de incerteza da navegação• Baixa – alto conhecimento sobre o comportamento do usuário

Page 71: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– Larsen et al. (2000)

• Visão estocástica • Algoritmo GGM (generalizable gaussian

mixture)– Generalização dos padrões de navegação para se

obter aprendizado supervisionado a partir de um modelo de distribuição gaussiano

– Segmentação do comportamento dos usuários– Segmentação das páginas

Page 72: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– Joshi & Krishnapuram (2000)

• Agrupamento fuzzy para a identificação de sessões• Algoritmos: FCMdd, FCTMdd)

– Tveit (2000)• Programação lógica indutiva – PROGOL• Regras de primeira ordem que representam as sessões• Melhoria da qualidade e desempenho do site

Page 73: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– Andersen et al. (2000)

• Projeto comercial em empresa dinamarquesa• Análise de eficácia de banners• Killer sessions• Data warehousing

– Fatos: subsessões

Page 74: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– Nanopoulos & Manolopoulos (2001)

• Busca de conjuntos de seqüências, como em Gaul

• Consideram a estrutura do site

– Anderson et al. (2001)• Sistemas de personalização

– Proteus, MinPath

• Dispositivos móveis, PDAs, celulares, pagers

Page 75: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– Nanopoulos & Manolopoulos (2001)

• Busca de conjuntos de seqüências, como em Gaul

• Consideram a estrutura do site

– Anderson et al. (2001)• Sistemas de personalização

– Proteus, MinPath

• Dispositivos móveis, PDAs, celulares, pagers

Page 76: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Trabalhos relacionados– XML

• LOGML (Punin et al., 2001)– Site como um grafo Web– XGMML

Page 77: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Mineração de utilização da WebMineração de utilização da Web

Segurança e privacidade– Registro das ações dos usuários enquanto estes

navegam– Necessidades de informação x direito à

privacidade– UE : Directive on Data Protection – Processos contra empresas on-line– Normas auto-impostas pelas empresas

• Limites para a coleta de dados• Pedido de autorização dos usuários

Page 78: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

Dificuldades dos sistemas existentes– Proprietários– Fechados– Pouco espaço para configuração,

ampliação– Limitados a um determinado experimento

ou análise

Page 79: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

Proposta• Ambiente modularizável, aberto e expansível• Aberto a novos métodos de leitura, filtragem,

pré-processamento• Dados em um SGBD relacional• Qualquer linguagem de programação• Algoritmos modificáveis e configuráveis• Agregação de ferramentas de terceiros• Apoio à construção de sites adaptativos

Page 80: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

Mineraweb– Administrador de sites

• Definir dados a serem analisados• Fazer análises• Utilizar análises para projetar, incrementar o site

– Pesquisador de mineração de utilização• Desenvolver novos métodos de mineração e análise• Testar e comparar métodos existentes

Page 81: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

Page 82: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

Fases da mineração1. Integração e preparação de dados

2. Descoberta de padrões

3. Análise dos padrões

4. Aplicação dos padrões

Page 83: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

1. Integração e preparação de dados– Logs de servidores Web– Agentes– Filtragem– Transformação– Armazenamento em SGBDR– Identificação de usuários– Identificação de sessões– Identificação de transações

Page 84: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

2. Descoberta de padrões– Algoritmos de busca– MineraWebCenter– Ferramentas de terceiros

3. Análise de padrões– MineraWebCenter– Ferramentas de terceiros

4. Aplicação dos padrões– Adaptação de páginas e sites

Page 85: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraData– Base de dados– Espinha dorsal do ambiente– Integração de fontes de dados– Modelo lógico

• ERWIn 3.52

– Modelo físico do protótipo• SQL Server 2000• * Oracle 8i

Page 86: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

ACESSAMEXECUTAM

SÃO VISITADOS

Referenciam

ACESSAM

SÃO VISITADASPOSSUEM

REALIZAM

EXECUTAM

São acessadas

ACESSAM

ARMAZENAM

USUARIOS

CODUSUARIO

CODUSUARIO_IDENT (FK)NOMEUSUARIOCOOKIE

ENTRADAS_TRANSACOES

CODTRANSACAO (FK)CODPAGINA (FK)

ORDEMENTRADA

VISITAS

CODVISITA

CODUSUARIO (FK)CODCLIENTE_SOFTWARE (FK)CODSERVER_SOFTWARE (FK)CODSERVIDOR (FK)CODSITE (FK)CODCLIENTE (FK)CODPAGINA_REFERRER (FK)CODPAGINA (FK)CODSESSAO (FK)HORAVISITADURACAOVISITAMETODOPROTOCOLOSTATUS_PROTOCOLOSTATUS_SOURI_QUERYPORTA_SERVIDORCOOKIEAGENTEORDEMSESSAO

SITES

CODSITE

CODDOMINIO_PARTE (FK)NOMESITEURLSITE

PAGINAS

CODPAGINA

CODSITE (FK)URIPAGINANOMEPAGINATAMANHOTIPOPAGINAEXTENSAO

TRANSACOES

CODTRANSACAO

CODCLIENTE (FK)

SESSOES

CODSESSAO

CODUSUARIO (FK)CODCLIENTE (FK)INICIOSESSAOFINALSESSAODURACAOSESSAO

CLIENTES

CODCLIENTE

CODCLIENTE_SOFTWARE (FK)CODDOMINIO_PARTE (FK)CODDOMINIO (FK)NOMECLIENTEIPCLIENTE

Page 87: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

Page 88: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraWebCenter– Módulo principal– Borland C++ Builder 4– Configuração do ambiente– Carga, pré-processamento dos dados– Geração de arquivos customizados e

dados de teste

Page 89: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraWebCenter– Carga dos dados

• Formatos dos logs

– Filtragem• Regras de filtragem

– @METODO IN (“GET”, “POST”)– @EXTENSAO NOT IN (“GIF”, “JPG”, “BMP )

Page 90: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraWebCenter– Campos lidos

• IP Cliente, Usuario• Servidor, IP Servidor, Porta• Método• URI, URI Query• Status protocolo, Status SO• Bytes enviados e recebidos• Duração acesso• Versão protocolo• Host• Agente, cookie• Referido

Page 91: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraWebCenter– Stored procedures

• INSERE_ENTRADA• EXTRAI_ENTRADA

Page 92: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraWebCenter– Identificação de sessões

• Janelas de tempo – default de 25 min• Stored procedure

– IDENTIFICA_SESSOES_TEMPO

– Identificação de transações• Transações de conteúdo• Limite de tempo• Stored procedure

– IDENTIFICA_TRANSACOES_TEMPO

Page 93: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraWebCenter– Classificação de páginas

• Tipos de páginas– Navegação

– Conteúdo

– Tempos médios de referência

• Classificação manual• Classificação automática

– Stored procedure

• CLASSIFICA_PAGINAS

Page 94: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraWebCenter– Busca de padrões

• Regras de associação• Parâmetros

– Suporte– Confiança

• Stored Procedure– IDENTIFICA_REGRAS_1

Page 95: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraWebCenter– Análise de padrões

• Ferramentas de terceiros• Cubos OLAP

– MS Analysis Services – VISITAS

• Domínios• Clientes• Páginas

Page 96: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraCrawler– Extração da estrutura de um site– Delphi 5– Nível de profundidade– Breadth-first

Page 97: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

PARTICIPAM DE

PARTICIPAM DE

POSSUEM

POSSUEM

PERTENCEM A

PERTENCEM A

SÃO VISITADASPOSSUEM

ARMAZENAM

REGRAS_POST

CODREGRA (FK)CODPAGINA (FK)

REGRAS_ANT

CODREGRA (FK)CODPAGINA (FK)

ORDEM

REGRAS

CODREGRA

CODSITE (FK)SUPORTECONFIANCA

ENTRADAS_TRANSACOES

CODTRANSACAO (FK)CODPAGINA (FK)

ORDEMENTRADA

SITES

CODSITE

CODDOMINIO_PARTE (FK)NOMESITEURLSITE

PAGINAS

CODPAGINA

CODSITE (FK)URIPAGINANOMEPAGINATAMANHOTIPOPAGINAEXTENSAO

TRANSACOES

CODTRANSACAO

CODSITE (FK)CODCLIENTE (FK)

Page 98: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

Page 99: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraRedirect– Delphi 5– Biblioteca HTTP– Agente de apoio à navegação– Enquadramento das páginas– Redirecionamento dos links– Cadastro de perfis do usuário– Log das ações

• Tipos de páginas registradas

Page 100: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraRedirect– Implementação

• ISAPI• CGI• MS IIS (Information Services)• Windows 2000• Testes do redirecionamento

Page 101: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

MineraRedirect– Dificuldades

• Frames dentro de frames– Scripts

• Páginas já redirecionadas

Page 102: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

ACESSAM

SÃO IDENTIFICADOSUTILIZAM

SÃO UTILIZADOS

PERTENCEM A

SÃO UTILIZADOS

UTILIZAM

DisponibilizamFAZEM PARTE DE

PERTENCEM A

SÃO ESCOLARIZADOS

TRABALHAM EM

ACESSAM

USUARIOS

CODUSUARIO

CODUSUARIO_IDENT (FK)NOMEUSUARIOCOOKIE

CLIENTE_SOFTWARES

CODCLIENTE_SOFTWARE

NOMESOFTWARE_CLIENTEVERSAO

SERVER_SOFTWARES

CODSERVER_SOFTWARE

NOMESERVER_SOFTWAREVERSAO

SERVIDORES

CODSERVIDOR

CODDOMINIO_PARTE (FK)CODSERVER_SOFTWARE (FK)CODSITE (FK)NOMESERVIDORIPSERVIDORPORTA

DOMINIOS_PARTES

CODDOMINIO_PARTE

NOMECOD_PAI (FK)

VISITAS

CODVISITA

CODUSUARIO (FK)CODCLIENTE_SOFTWARE (FK)CODSERVER_SOFTWARE (FK)CODSERVIDOR (FK)CODSITE (FK)CODCLIENTE (FK)CODPAGINA_REFERRER (FK)CODPAGINA (FK)CODSESSAO (FK)HORAVISITADURACAOVISITAMETODOPROTOCOLOSTATUS_PROTOCOLOSTATUS_SOURI_QUERYPORTA_SERVIDORCOOKIEAGENTEORDEMSESSAO

CLIENTES

CODCLIENTE

CODCLIENTE_SOFTWARE (FK)CODDOMINIO_PARTE (FK)CODDOMINIO (FK)NOMECLIENTEIPCLIENTE

USUARIOS_IDENT

CODUSUARIO_IDENT

CODNIVELESCOLAR (FK)CODPROFISSAO (FK)CODPAIS (FK)NOMEUSUARIO_IDENTENDERECOCIDADEESTADODATANASCIMENTOSEXO

PROFISSOES

CODPROFISSAO

NOME

NIVEIS_ESCOLARIDADE

CODNIVELESCOLAR

NOME

Page 103: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

Adaptação de páginas– Banco de dados– Páginas ASP– Páginas “reservas””– Navegação serendípica

Page 104: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

Conclusões– Definição de ambiente

• Administrador de sites• Pesquisador em mineração• Integração de várias propostas

– SGBD

– Técnicas de visualização

– Crawler

– Incorporação de novas características

– Adaptação de páginas

Page 105: Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

MineraWebMineraWeb

Conclusões– Direcionamentos

• Filtragem• Descoberta de padrões• Eficiência dos métodos• Logs distribuídos• XML• E-commerce : “Killer domain”