Upload
diogo-lobo-quintanilha
View
213
Download
0
Embed Size (px)
Citation preview
Mineração de Bancos de Dados Não Convencionais
André NovaesRafael Palermo
CIn-UFPE
RoteiroRoteiro• Bancos de dados não convencionais
• consultar BD multimídia (baseado em metadados ou contéudo)
• BD O-R e OO• generalização por indução orientada a atributos e OLAP
• BD de planos• BD espaciais
• generalização por indução orientada a atributos e OLAP• regras de associação• clustering• classificação• series espaço-temporais
• BD multimídia• Generalização por indução orientada a atributos e OLAP• regras de associação• Classificação e predição
RoteiroRoteiro
• Bancos de dados não convencionais• BD O-R e OO• BD de planos• BD espaciais• BD multimídia
Bancos de dados não convencionaisBancos de dados não convencionais
• BD dedutivo• BD probabilista• BD indutivo• BD temporal• BD de restrições• BD semi-estruturado• Páginas web• BD espacial• BD objeto-relacional• BD orientado a objetos• BD multimídia
Bds MultimidiaBds Multimidia• Armazena grande coleção de objetos multimidia
• Audio• Imagem• Video• hipertexto
Revisão de alguns conceitos de Revisão de alguns conceitos de representação de imagensrepresentação de imagens
Representações matriciais e vetoriais de imagens Orientação, textura (layout, density) Wavelet
Consultar Bds MultimidiaConsultar Bds Multimidia
• Recuperação baseada em descrição– Palavras chaves, titulos, tamanho, tempo de criação– Manualmente: trabalhoso– Automatizado: resultado de pouca qualidade
• Recuperação baseada em conteudo– Histograma de cor
• Não leva em conta fatores espaciais– Multiplas Caracteristicas– Wavelet
– Captura forma, textura– Problemas
– Wavelet baseada em regiões
Multi-Dimensional Search in Multi-Dimensional Search in Multimedia DatabasesMultimedia DatabasesColor layout
Histograma de Cor Layout de textura
Multi-Dimensional Analysis in Multi-Dimensional Analysis in Multimedia DatabasesMultimedia Databases
Refining or combining searches
Search for “blue sky”(top layout grid is blue)
Search for “blue sky andgreen meadows”(top layout grid is blue and bottom is green)
Search for “airplane in blue sky”(top layout grid is blue and keyword = “airplane”)
Mining Multimedia DatabasesMining Multimedia Databases
RoteiroRoteiro
• Bancos de dados não convencionais• BD O-R e OO• BD de planos• BD espaciais• BD multimídia
Minerando Tipos de Dados Minerando Tipos de Dados Complexos:Complexos:
Generalização de Dados Generalização de Dados EstruturadosEstruturados
• Set-valued• Generalização de cada valor do conjunto em seu
correspondente um nível acima de abstração• Derivação do comportamento geral do conjunto, tal como
o número de elementos, os tipos ou intervalo de valores, ou a média para dados numéricos
• hobby = {tênis, hóquei, xadrez, violino, atari} pode ser genérico para {esportes, música, vídeo_games}
• List-valued ou sequence-valued• Igual a set-valued exceto que a ordem dos elementos deve
ser mantida na generalização
Generalizando Dados Espaciais e Generalizando Dados Espaciais e MultimídiaMultimídia
• Dados espaciais:• Generaliza pontos geográficos detalhados agrupados em
regiões, tal como business, residencial, industrial, ou agricultural, de acordo com o uso
• Requer a união de um conjunto de áreas geográficas através de operações espaciais
• Dados de imagem:• Extraídos por agregação e/ou aproximação• Tamanho, cor, forma, textura, orientação, e posições relativas
dos objetos contidos ou regiões na imagem• Dados musicais:
• Resumir esta melodia: baseado nos padrões aproximados que ocorrem repetidamente
• Resumir este estilo: baseado no tom, tempo, ou nos principais instrumentos tocados
Generalizando Dados do ObjetoGeneralizando Dados do Objeto• Identificador do objeto: generaliza para um nível menor na
hierarquia de classes• Hierarquia da composição das classes
• generaliza estruturas de dados aninhadas• generaliza apenas objetos mais semelhantes semanticamente ao
atual• Construção e mineração de cubos de objetos
• Estende o método de indução orientado a atributo• Aplica uma seqüência de operadores de generalizações baseadas em
classes sobre os atributos• Continua até conseguir um pequeno número de objetos genéricos que
podem ser resumidos e concisos em termos de alto nível• Por uma implementação eficiente
• Examina cada atributo, generaliza para um dado simple-valued• Constrói um cubo de dados multi-dimensional• Problema: nem sempre é desejável generalizar um conjunto de valores
em um dado single-valued
RoteiroRoteiro
• Bancos de dados não convencionais• BD O-R e OO• BD de planos• BD espaciais• BD multimídia
Um Exemplo: Planejamento de Um Exemplo: Planejamento de mineraçãomineração
• Planejamento: uma seqüência variável de ações• Viagem (vôo): <viajante, partida, chegada, hora-p, hora-c,
companhia, preço, assento>• Planejamento de mineração: extração de padrões genéricos
mais significativos de uma base de planejamentos• Descobrir padrões de viagens em uma base de vôos, ou• achar padrões significativos em uma seqüência de ações no
reparo de automóveis• Método
• Indução orientada a atributo sobre uma seqüência de dados• Um plano de viagem genérico: <pequeno-grande*-pequeno>
(tamanho do aeroporto)• Divide & conquer: Minera características para cada subseqüência
• grande*: mesma companhia aérea, pequeno-grande: região próxima
Uma Base de Viagens para um Uma Base de Viagens para um Planejamento de MineraçãoPlanejamento de Mineração
• Exemplo: Minerando uma base de planejamento de viagens
plan# action# departure depart_time arrival arrival_time airline …1 1 ALB 800 JFK 900 TWA …1 2 JFK 1000 ORD 1230 UA …1 3 ORD 1300 LAX 1600 UA …1 4 LAX 1710 SAN 1800 DAL …2 1 SPI 900 ORD 950 AA …. . . . . . . .. . . . . . . .. . . . . . . .
airport_code city state region airport_size …1 1 ALB 800 …1 2 JFK 1000 …1 3 ORD 1300 …1 4 LAX 1710 …2 1 SPI 900 …. . . . .. . . . .. . . . .
Tabela de planos de viagens
Tabela de informações de aeroportos
Modelo multi-dimensional para uma base deplanejamento
Análise Multi-dimensionalAnálise Multi-dimensional• Estratégia
• Generaliza a base de planejamento em diferentes direções
• Procura por padrões seqüenciais nos planejamentos genéricos
• Deriva planejamentos de alto nível
tamanho_aeroporto
localização
linha_aérea
categoria
#_passageiros
companhiaparceiros
cidade estado região
subir hierarquicamente
Generalização Multi-dimensionalGeneralização Multi-dimensionalGeneralização multi-dimensional de uma base de planejamento
Unindo ações idênticas e consecutivas nos planos
Vôo(x,y) ^ tamanho_aeroporto(x,S) ^ tamanho_aeroporto(y, L) > região(x) = região(y) [75%]
Plan# Loc_Seq Size_Seq State_Seq 1 ALB - JFK - ORD - LAX - SAN S - L - L - L - S N - N - I - C - C2 SPI - ORD - JFK - SYR S - L - L - S I - I - N - N. . .. . .. . .
Plan# Size_Seq State_Seq Region_Seq …1 S - L+ - S N+ - I - C+ E+ - M - P+ …2 S - L+ - S I+ - N+ M+ - E+ …. . .. . .. . .
Mineração em Seqüência Baseada Mineração em Seqüência Baseada em Generalizaçãoem Generalização
• Generaliza uma base de planejamento de forma multi-dimensional usando tabelas dimensionais
• Usa # para valores distintos (cardinalidade) a cada nível para determinar o nível correto da generalização (planejamento de níveis)
• Usa operadores * para unir (merge) e [] (opcional) para facilitar a generalização de padrões
• Retém padrões com apoio significativo
Padrões de Seqüência GenéricosPadrões de Seqüência Genéricos• Numa seqüência de tamanho_aeroporto, ficará uma que
engloba todas as outras (aplicando o operador de união)
S - L* - S [35%], L* - S [30%], S - L* [24.5%], L* [9%]
• Depois de aplicar o operador opcional:
[S] - L* - [S] [98.5%]
• Na maioria das vezes, as pessoas viajam de grandes aeroportos para chegar ao destino
• Outro planos: 1.5% de chances, existem outros padrões:
S - S, L- S - L
RoteiroRoteiro• Bancos de dados não convencionais• BD O-R e OO• BD de planos• BD espaciais• BD multimídia
Banco de dados espacialBanco de dados espacial
• Dados relacionados ao espaço• Mapas• Sensoriamento remoto• Chips VLSI• Imagens médicas
• Informações topologicas e de distancia• Mineração:
• relações espaciais• Padrões
Dimensões e medidas em Data Dimensões e medidas em Data Warehouses espaciaisWarehouses espaciais
• Dimensões– Não-espacial
• E.x. temperatura: 25-30– Espacial para não espacial
• E.x. acre(objeto espacial) generalizado para string “região norte”
– Espacial para espacial• e.x. acre (objeto espacial)
para região norte (objeto espacial)
• Medidas
– numericas
• distributivo (e.x. count, sum)
• algebricas (e.x. média)
• holistica (e.x. mediana)
– espaciais
• Coleção de ponteiros para objetos espaciais em uma mapa (e.x. regiões com temperatura de 25-30 graus em julho)
Esquema estrela of the BC Weather Esquema estrela of the BC Weather WarehouseWarehouse
– Dimensões• Nome da região• tempo• temperatura• precipitação
– Medidas• Região do mapa• area• contador
Tabela de fatosTabela de dimensão
•3000 medidores do clima na Columbia Britanica(BC)•Cada medidor mede Temperatura e Precipitação
Roll-upRoll-up
Por Temperatura Por Precipitação
Metodos para computação de Metodos para computação de cubos espaciaiscubos espaciais
• Não armazenar medidas• Pré-computar todas as possiveis medidas• Pré-computar estimativas• Pré-computar apenas as mais acessadas
Regras de associaçãoRegras de associação• Regra de associação: A B [s%, c%]
– A e B são conjuntos de predicados• Relações topologicas• Orientação espacial• Informação de distancia
– s% suporte e c% confidencia– e_um(x,cidade) e intercepta(x,estrada) -> adjacente(x,agua)
[7%, 85%]– e_um(X,”escola”) e perto_de(X,”centro esportivo” ) ->
perto_de(X,”parque”) [0.5%,80%]
Regras de associaçãoRegras de associação• Refinamento Progressivo
– Deve preservar todas as respostas possiveis• Minerar relação perto_de
– Aplicar algoritmo impreciso– Intersecção entre retangulos
Classificação e Analise de tendenciasClassificação e Analise de tendencias• Classificação
• Exemplo: regiões ricas x regiões pobres• Determinar regiões
• Tendencias• Espaciais• Temporais
RoteiroRoteiro• Bancos de dados não convencionais• BD O-R e OO• BD de planos• BD espaciais• BD multimídia
Análise Multidimensional e OLAP Análise Multidimensional e OLAP
• MultiMediaMiner• Descritor de caracteristicas
• Conjunto de vetores para caracteristicas visuais• Histograma de cores quantizado• Cor mais frequente
• Descritor de layout• Imagens transformadas em grade 8X8• Armazena informações para celulas da grade
Minerando banco de dados Minerando banco de dados multimidia multimidia
REDWHITEBLUE
GIFJPEG
By Format
By Colour
Sum
Cross Tab
REDWHITEBLUE
Colour
Sum
Group By
Measurement
JPEGGIF Small
Very Large
REDWHITEBLUE
By Colour
By Format & Colour
By Format & Size
By Colour & Size
By FormatBy Size
Sum
The Data Cube and the Sub-Space Measurements
MediumLarge
• Format of image• Duration• Colors• Textures• Keywords• Size• Width• Height• Internet domain of image• Internet domain of parent pages• Image popularity
Minerando banco de dados multimidiaMinerando banco de dados multimidia
Regras de associaçãoRegras de associação
• Entre imagem – não imagem• 50% de azul no topo da figura -> representa céu
• Entre imagens sem relação espacial• figura contem dois quadrados azuis -> circulo vermelho
• Entre imagens relacionadas espacialmente• Triangulo vermelho entre dois quadrados amarelos -> grande
circulo abaixo • Uso de resolução progressiva
• Garantir completude• Recorrencia• Relações espaciais
Relações espaciais
property P1 next-to property P2property P1 on-top-of property P2
Different Resolution Hierarchy
Minerando banco e dados multimidiaMinerando banco e dados multimidia
Predição e ClassificaçãoPredição e Classificação•Pré-computação para descobrir atributos•Exemplo de interface: