37
Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Embed Size (px)

Citation preview

Page 1: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Mineração de Bancos de Dados Não Convencionais

André NovaesRafael Palermo

CIn-UFPE

Page 2: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

RoteiroRoteiro• Bancos de dados não convencionais

• consultar BD multimídia (baseado em metadados ou contéudo)

• BD O-R e OO• generalização por indução orientada a atributos e OLAP

• BD de planos• BD espaciais

• generalização por indução orientada a atributos e OLAP• regras de associação• clustering• classificação• series espaço-temporais

• BD multimídia• Generalização por indução orientada a atributos e OLAP• regras de associação• Classificação e predição

Page 3: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

RoteiroRoteiro

• Bancos de dados não convencionais• BD O-R e OO• BD de planos• BD espaciais• BD multimídia

Page 4: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Bancos de dados não convencionaisBancos de dados não convencionais

• BD dedutivo• BD probabilista• BD indutivo• BD temporal• BD de restrições• BD semi-estruturado• Páginas web• BD espacial• BD objeto-relacional• BD orientado a objetos• BD multimídia

Page 5: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Bds MultimidiaBds Multimidia• Armazena grande coleção de objetos multimidia

• Audio• Imagem• Video• hipertexto

Page 6: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Revisão de alguns conceitos de Revisão de alguns conceitos de representação de imagensrepresentação de imagens

Representações matriciais e vetoriais de imagens Orientação, textura (layout, density) Wavelet

Page 7: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Consultar Bds MultimidiaConsultar Bds Multimidia

• Recuperação baseada em descrição– Palavras chaves, titulos, tamanho, tempo de criação– Manualmente: trabalhoso– Automatizado: resultado de pouca qualidade

• Recuperação baseada em conteudo– Histograma de cor

• Não leva em conta fatores espaciais– Multiplas Caracteristicas– Wavelet

– Captura forma, textura– Problemas

– Wavelet baseada em regiões

Page 8: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Multi-Dimensional Search in Multi-Dimensional Search in Multimedia DatabasesMultimedia DatabasesColor layout

Page 9: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Histograma de Cor Layout de textura

Multi-Dimensional Analysis in Multi-Dimensional Analysis in Multimedia DatabasesMultimedia Databases

Page 10: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Refining or combining searches

Search for “blue sky”(top layout grid is blue)

Search for “blue sky andgreen meadows”(top layout grid is blue and bottom is green)

Search for “airplane in blue sky”(top layout grid is blue and keyword = “airplane”)

Mining Multimedia DatabasesMining Multimedia Databases

Page 11: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

RoteiroRoteiro

• Bancos de dados não convencionais• BD O-R e OO• BD de planos• BD espaciais• BD multimídia

Page 12: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Minerando Tipos de Dados Minerando Tipos de Dados Complexos:Complexos:

Generalização de Dados Generalização de Dados EstruturadosEstruturados

• Set-valued• Generalização de cada valor do conjunto em seu

correspondente um nível acima de abstração• Derivação do comportamento geral do conjunto, tal como

o número de elementos, os tipos ou intervalo de valores, ou a média para dados numéricos

• hobby = {tênis, hóquei, xadrez, violino, atari} pode ser genérico para {esportes, música, vídeo_games}

• List-valued ou sequence-valued• Igual a set-valued exceto que a ordem dos elementos deve

ser mantida na generalização

Page 13: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Generalizando Dados Espaciais e Generalizando Dados Espaciais e MultimídiaMultimídia

• Dados espaciais:• Generaliza pontos geográficos detalhados agrupados em

regiões, tal como business, residencial, industrial, ou agricultural, de acordo com o uso

• Requer a união de um conjunto de áreas geográficas através de operações espaciais

• Dados de imagem:• Extraídos por agregação e/ou aproximação• Tamanho, cor, forma, textura, orientação, e posições relativas

dos objetos contidos ou regiões na imagem• Dados musicais:

• Resumir esta melodia: baseado nos padrões aproximados que ocorrem repetidamente

• Resumir este estilo: baseado no tom, tempo, ou nos principais instrumentos tocados

Page 14: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Generalizando Dados do ObjetoGeneralizando Dados do Objeto• Identificador do objeto: generaliza para um nível menor na

hierarquia de classes• Hierarquia da composição das classes

• generaliza estruturas de dados aninhadas• generaliza apenas objetos mais semelhantes semanticamente ao

atual• Construção e mineração de cubos de objetos

• Estende o método de indução orientado a atributo• Aplica uma seqüência de operadores de generalizações baseadas em

classes sobre os atributos• Continua até conseguir um pequeno número de objetos genéricos que

podem ser resumidos e concisos em termos de alto nível• Por uma implementação eficiente

• Examina cada atributo, generaliza para um dado simple-valued• Constrói um cubo de dados multi-dimensional• Problema: nem sempre é desejável generalizar um conjunto de valores

em um dado single-valued

Page 15: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

RoteiroRoteiro

• Bancos de dados não convencionais• BD O-R e OO• BD de planos• BD espaciais• BD multimídia

Page 16: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Um Exemplo: Planejamento de Um Exemplo: Planejamento de mineraçãomineração

• Planejamento: uma seqüência variável de ações• Viagem (vôo): <viajante, partida, chegada, hora-p, hora-c,

companhia, preço, assento>• Planejamento de mineração: extração de padrões genéricos

mais significativos de uma base de planejamentos• Descobrir padrões de viagens em uma base de vôos, ou• achar padrões significativos em uma seqüência de ações no

reparo de automóveis• Método

• Indução orientada a atributo sobre uma seqüência de dados• Um plano de viagem genérico: <pequeno-grande*-pequeno>

(tamanho do aeroporto)• Divide & conquer: Minera características para cada subseqüência

• grande*: mesma companhia aérea, pequeno-grande: região próxima

Page 17: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Uma Base de Viagens para um Uma Base de Viagens para um Planejamento de MineraçãoPlanejamento de Mineração

• Exemplo: Minerando uma base de planejamento de viagens

plan# action# departure depart_time arrival arrival_time airline …1 1 ALB 800 JFK 900 TWA …1 2 JFK 1000 ORD 1230 UA …1 3 ORD 1300 LAX 1600 UA …1 4 LAX 1710 SAN 1800 DAL …2 1 SPI 900 ORD 950 AA …. . . . . . . .. . . . . . . .. . . . . . . .

airport_code city state region airport_size …1 1 ALB 800 …1 2 JFK 1000 …1 3 ORD 1300 …1 4 LAX 1710 …2 1 SPI 900 …. . . . .. . . . .. . . . .

Tabela de planos de viagens

Tabela de informações de aeroportos

Page 18: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Modelo multi-dimensional para uma base deplanejamento

Análise Multi-dimensionalAnálise Multi-dimensional• Estratégia

• Generaliza a base de planejamento em diferentes direções

• Procura por padrões seqüenciais nos planejamentos genéricos

• Deriva planejamentos de alto nível

tamanho_aeroporto

localização

linha_aérea

categoria

#_passageiros

companhiaparceiros

cidade estado região

subir hierarquicamente

Page 19: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Generalização Multi-dimensionalGeneralização Multi-dimensionalGeneralização multi-dimensional de uma base de planejamento

Unindo ações idênticas e consecutivas nos planos

Vôo(x,y) ^ tamanho_aeroporto(x,S) ^ tamanho_aeroporto(y, L) > região(x) = região(y) [75%]

Plan# Loc_Seq Size_Seq State_Seq 1 ALB - JFK - ORD - LAX - SAN S - L - L - L - S N - N - I - C - C2 SPI - ORD - JFK - SYR S - L - L - S I - I - N - N. . .. . .. . .

Plan# Size_Seq State_Seq Region_Seq …1 S - L+ - S N+ - I - C+ E+ - M - P+ …2 S - L+ - S I+ - N+ M+ - E+ …. . .. . .. . .

Page 20: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Mineração em Seqüência Baseada Mineração em Seqüência Baseada em Generalizaçãoem Generalização

• Generaliza uma base de planejamento de forma multi-dimensional usando tabelas dimensionais

• Usa # para valores distintos (cardinalidade) a cada nível para determinar o nível correto da generalização (planejamento de níveis)

• Usa operadores * para unir (merge) e [] (opcional) para facilitar a generalização de padrões

• Retém padrões com apoio significativo

Page 21: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Padrões de Seqüência GenéricosPadrões de Seqüência Genéricos• Numa seqüência de tamanho_aeroporto, ficará uma que

engloba todas as outras (aplicando o operador de união)

S - L* - S [35%], L* - S [30%], S - L* [24.5%], L* [9%]

• Depois de aplicar o operador opcional:

[S] - L* - [S] [98.5%]

• Na maioria das vezes, as pessoas viajam de grandes aeroportos para chegar ao destino

• Outro planos: 1.5% de chances, existem outros padrões:

S - S, L- S - L

Page 22: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

RoteiroRoteiro• Bancos de dados não convencionais• BD O-R e OO• BD de planos• BD espaciais• BD multimídia

Page 23: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Banco de dados espacialBanco de dados espacial

• Dados relacionados ao espaço• Mapas• Sensoriamento remoto• Chips VLSI• Imagens médicas

• Informações topologicas e de distancia• Mineração:

• relações espaciais• Padrões

Page 24: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Dimensões e medidas em Data Dimensões e medidas em Data Warehouses espaciaisWarehouses espaciais

• Dimensões– Não-espacial

• E.x. temperatura: 25-30– Espacial para não espacial

• E.x. acre(objeto espacial) generalizado para string “região norte”

– Espacial para espacial• e.x. acre (objeto espacial)

para região norte (objeto espacial)

• Medidas

– numericas

• distributivo (e.x. count, sum)

• algebricas (e.x. média)

• holistica (e.x. mediana)

– espaciais

• Coleção de ponteiros para objetos espaciais em uma mapa (e.x. regiões com temperatura de 25-30 graus em julho)

Page 25: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Esquema estrela of the BC Weather Esquema estrela of the BC Weather WarehouseWarehouse

– Dimensões• Nome da região• tempo• temperatura• precipitação

– Medidas• Região do mapa• area• contador

Tabela de fatosTabela de dimensão

•3000 medidores do clima na Columbia Britanica(BC)•Cada medidor mede Temperatura e Precipitação

Page 26: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Roll-upRoll-up

Por Temperatura Por Precipitação

Page 27: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Metodos para computação de Metodos para computação de cubos espaciaiscubos espaciais

• Não armazenar medidas• Pré-computar todas as possiveis medidas• Pré-computar estimativas• Pré-computar apenas as mais acessadas

Page 28: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Regras de associaçãoRegras de associação• Regra de associação: A B [s%, c%]

– A e B são conjuntos de predicados• Relações topologicas• Orientação espacial• Informação de distancia

– s% suporte e c% confidencia– e_um(x,cidade) e intercepta(x,estrada) -> adjacente(x,agua)

[7%, 85%]– e_um(X,”escola”) e perto_de(X,”centro esportivo” ) ->

perto_de(X,”parque”) [0.5%,80%]

Page 29: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Regras de associaçãoRegras de associação• Refinamento Progressivo

– Deve preservar todas as respostas possiveis• Minerar relação perto_de

– Aplicar algoritmo impreciso– Intersecção entre retangulos

Page 30: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Classificação e Analise de tendenciasClassificação e Analise de tendencias• Classificação

• Exemplo: regiões ricas x regiões pobres• Determinar regiões

• Tendencias• Espaciais• Temporais

Page 31: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

RoteiroRoteiro• Bancos de dados não convencionais• BD O-R e OO• BD de planos• BD espaciais• BD multimídia

Page 32: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Análise Multidimensional e OLAP Análise Multidimensional e OLAP

• MultiMediaMiner• Descritor de caracteristicas

• Conjunto de vetores para caracteristicas visuais• Histograma de cores quantizado• Cor mais frequente

• Descritor de layout• Imagens transformadas em grade 8X8• Armazena informações para celulas da grade

Page 33: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Minerando banco de dados Minerando banco de dados multimidia multimidia

Page 34: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

REDWHITEBLUE

GIFJPEG

By Format

By Colour

Sum

Cross Tab

REDWHITEBLUE

Colour

Sum

Group By

Measurement

JPEGGIF Small

Very Large

REDWHITEBLUE

By Colour

By Format & Colour

By Format & Size

By Colour & Size

By FormatBy Size

Sum

The Data Cube and the Sub-Space Measurements

MediumLarge

• Format of image• Duration• Colors• Textures• Keywords• Size• Width• Height• Internet domain of image• Internet domain of parent pages• Image popularity

Minerando banco de dados multimidiaMinerando banco de dados multimidia

Page 35: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Regras de associaçãoRegras de associação

• Entre imagem – não imagem• 50% de azul no topo da figura -> representa céu

• Entre imagens sem relação espacial• figura contem dois quadrados azuis -> circulo vermelho

• Entre imagens relacionadas espacialmente• Triangulo vermelho entre dois quadrados amarelos -> grande

circulo abaixo • Uso de resolução progressiva

• Garantir completude• Recorrencia• Relações espaciais

Page 36: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Relações espaciais

property P1 next-to property P2property P1 on-top-of property P2

Different Resolution Hierarchy

Minerando banco e dados multimidiaMinerando banco e dados multimidia

Page 37: Mineração de Bancos de Dados Não Convencionais André Novaes Rafael Palermo CIn-UFPE

Predição e ClassificaçãoPredição e Classificação•Pré-computação para descobrir atributos•Exemplo de interface: