Download pdf - Slides

Transcript
Page 1: Slides

Mineração de Dados: Conceitos e Aplicações por: Ronnie Alves ([email protected])

Jiawei Han, Micheline Kamber, and Jian Pei

University of Illinois at Urbana-Champaign &

Simon Fraser University

©2011 Han, Kamber & Pei. All rights reserved.

Adaptação slides:

http://www.inf.ufrgs.br/~ralves

November 4, 11 1 Mineração de Dados -- Ronnie Alves

Page 2: Slides

Mineração de Dados: Conceitos e Aplicações por: Ronnie Alves ([email protected])

Parte 1 – Visão Geral da Área Parte 2 – Lidando com BIG DATA! Parte 3 – Mineração de Dados Biológicos

November 4, 11 2 Mineração de Dados -- Ronnie Alves

Page 3: Slides

Big Data!

  966 exabytes: esta é a quantidade de dados que trafegarão na internet em 2015   Pesquisa da Cisco aponta que o tráfego na rede

quadruplicará em quatro anos, com a América Latina liderando o crescimento

  1 exabyte = 1 milhão de terabytes, ou 1 bilhão de gigabytes, ou cerca de 250 milhões de DVDs

November 4, 11 3 Mineração de Dados -- Ronnie Alves

Page 4: Slides

Big Prize!

11/4/11 Mineração de Dados -- Ronnie Alves 4

http://www.kaggle.com/

Page 5: Slides

Mineração de Dados

  Crescimento exponencial dos dados: de terabytes a exabytes

  Coleção e disponibilidade dos dados

  Ferramentas automatizadas para coleta de dados, banco de

dados, Web, sociedade computadorizada

  Fontes abundantes de dados

  Negócio: Web, e-commerce, transações, ações, …

  Ciência: Sensores, bioinformática, simulação científica, …

  Sociedade: Jornais, câmeras digitais, filmadoras, YouTube

  Dados em abundância, mas o conhecimento é raro!

  “Necessity is the mother of invention”—Mineração de Dados—Análise

automatizada de grandes quantidades de dados

November 4, 11 5 Mineração de Dados -- Ronnie Alves

Page 6: Slides

Evolução das Ciências

  ..1600, ciência empírica   1600-1950s, ciência teórica

  1950s-1990s, ciência computacional   1990-now, ciência dos dados

  Dilúvio de dados oriundos de experimentos científicos

  Abilidade econômica para lidar com dados na ordem de petabytes

  Internet, Cloud computing, Grids,…

  Jim Gray and Alex Szalay, The World Wide Telescope: An Archetype for Online Science, Comm. ACM, 45(11): 50-54, Nov. 2002

November 4, 11 6 Mineração de Dados -- Ronnie Alves

Page 7: Slides

Evolução dos Bancos de Dados

  1960s:   Coleção de dados, criação de dados, DBMS

  1970s:   Modelo de dados relacional

  1980s:   RDBMS, modelos avançados (extended-relational, OO, deductive, etc.)

  Orientados a aplicação (spatial, scientific, engineering, etc.)

  1990s:   Mineração de dados, data warehousing, banco de dados multimídia, Web,

Científicos

  2000s   Stream data management and mining

  Mineração de dados e suas aplicações

  Web (XML, integração de dados) e sistemas de informação globais

November 4, 11 7 Mineração de Dados -- Ronnie Alves

Page 8: Slides

O que é Mineração de dados?

  Data mining (knowledge discovery from data)   Extração de padrões ou conhecimento (não-trivial, implícito,

desconhecido e potencialmente útil) a partir de uma grande coleção de dados

  Data mining: a misnomer?

  Nominações alternativas   Knowledge discovery (mining) in databases (KDD), knowledge

extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc.

  Cuidado: então TUDO é “data mining”?   Busca simples e processamento de consultas (SQL)

November 4, 11 8 Mineração de Dados -- Ronnie Alves

Page 9: Slides

Processo de KDD

  Visão típica da comunidade de BD   Mineração tem um papel chave no

processo de KDD

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

November 4, 11 9 Mineração de Dados -- Ronnie Alves

Page 10: Slides

Exemplo: Mineração da Web

  Quais são as tarefas?   Data cleaning   Integração de dados (múltiplas fontes)

  Warehousing   Data cubing

  Seleção de dados para mineração

  Mineração de dados

  Apresentação/Visualização dos dados

  Padrões armazenados num knowledge-base

November 4, 11 10 Mineração de Dados -- Ronnie Alves

Page 11: Slides

index.html

A B

C D

E

A D Obs.:

Rules: A E D

A D F

A B D F

A D

D X

(conf: 0,8)

(conf: 0,7)

(conf: 0,6)

(conf: 0,5)

(conf: 0,4)

Recommendations (top 2):

F

X

(0,6)

(0,4)

click stream

Exemplo: Mineração da Web

November 4, 11 11 Mineração de Dados -- Ronnie Alves

Page 12: Slides

Mineração em Business Intelligence

Increasing potential to support business decisions End User

Business Analyst

Data Analyst

DBA

Decision Making

Data Presentation Visualization Techniques

Data Mining Information Discovery

Data Exploration Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses

Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems

November 4, 11 12 Mineração de Dados -- Ronnie Alves

Page 13: Slides

Processo KDD: Visão Machine Learning

Input Data Data Mining

Data Pre-Processing

Post-Processing

Data integration Normalization Feature selection Dimension reduction

Pattern discovery Association & correlation Classification Clustering Outlier analysis … … … …

Pattern evaluation Pattern selection Pattern interpretation Pattern visualization

November 4, 11 13 Mineração de Dados -- Ronnie Alves

Page 14: Slides

Exemplo: Mineração de dados clínicos

  Health care & medical data mining – frequentemente adota uma abordagem ML

  Pré-processamento (incluindo seleção de features e redução da dimensionalidade)

  Classificação ou/e agrupamentos

  Pós-processamento - Visualização

November 4, 11 14 Mineração de Dados -- Ronnie Alves

Page 15: Slides

Visão Multidimensional

  Dado a ser minerado   BDs (extended-relational, object-oriented, heterogeneous, legacy),

data warehouse, transactional data, stream, spatiotemporal, time-series, sequence, text and web, multi-media, graphs & social and information networks

  Conhecimento a ser minerado (ou: Funções de Mineração)   Caracterização, discriminação, associação, classificação,

agrupamentos, tendências/desvios, outlier analysis, etc.   Descritivo vs. preditivo   Múltiplo/funções integradas e mineração em vários níveis

  Técnicas utilizadas   Data-intensive, data warehouse (OLAP), machine learning, statistics,

reconhecimento de padrões, visualização, high-performance, etc.   Aplicações

  Varejo, telecom, bancos, fraude, bio-data mining, ações, text mining, Web mining, etc.

November 4, 11 15 Mineração de Dados -- Ronnie Alves

Page 16: Slides

Mineração: Em que tipo de dados?

  Aplicações tradicionais, SGBDs

  Relacional, data warehouse, transacional

  Aplicações avançadas

  Data streams e sensores

  Séries temporais, sequências (incl. bio-sequences)

  Dados estruturados, grafos, redes sociais e multi-linked data

  SGBD objeto-relacional

  SGBD legados

  Espaciais e espaço temporais

  Multimídia

  Texto

  WWW

November 4, 11 16 Mineração de Dados -- Ronnie Alves

Page 17: Slides

Função de Mineração: (1) Generalização

  Integração e construção de DWs

  Data cleaning, transformação, integração, e modelagem multidimensional

  Data cubing

  Métodos escaláveis (i.e., materialização) agregados multidimensionais

  OLAP (online analytical processing)

  Multidimensional concept description: Caracterização e discriminação

  Generalizar, sumariar, e contrastar características dos dados, ex., seco vs. molhado (região)

November 4, 11 17 Mineração de Dados -- Ronnie Alves

Page 18: Slides

Função de Mineração: (1) Generalização

November 4, 11 18 Mineração de Dados -- Ronnie Alves

all cube

dimensions cells

Bottom-up Top-down

Page 19: Slides

Função de Mineração: (2) Associação e Correlação

  Padrões frequentes (or itemsets frequentes)

  Quais items são comprados com que frequência num supermercado?

  Associação, correlação vs. causalidade

  Uma regra clássica de associação

  Diaper Beer [0.5%, 75%] (support, confidence)   Forte associação significa forte correlação?

  Como minerar estes tipos de padrões de forma eficiente?

  Como utilizar estes padrões para outros tipos de análise, ex., classificação, agrupamentos…outras aplicações?

November 4, 11 19 Mineração de Dados -- Ronnie Alves

Page 20: Slides

Sta$s$calsignificance

Biologicalrelevance

20

Page 21: Slides

gene‐to‐targetgene‐to‐gene 21

Page 22: Slides

Função de Mineração: (3) Classificação

  Classificação, predição de classes

  Construir modelos (funções) como base em casos de exemplo

  Descrever e diferenciar classes ou conceitos para predição futura

  Ex., classificar pacientes com base no (perfil clínico), or classificar modelos de carros com base nas características

  Predizer uma classe desconhecida

  Técnicas clássicas

  Árvores de decisão, modelos bayesianos, support vector machines (SVM), redes neurais, classificação com base em regras, classificação com base em padrões, modelos de regressão, …

  Aplicações

  Detecção de fraudes, marketing direto, classificar estrelas, estágios doenças, páginas webs, …

November 4, 11 22 Mineração de Dados -- Ronnie Alves

Page 23: Slides

Critérios: 1-Seleção 2-Parada 3-Classe

Page 24: Slides

24

Classificação via SVM

Vetores de suporte

Margem pequena Margen grande

November 4, 11 Mineração de Dados -- Ronnie Alves

Page 25: Slides

IRIS dataset

Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.1 3.5 1.4 0.2 2 4.9 3.0 1.4 0.2 3 4.7 3.2 1.3 0.2 4 4.6 3.1 1.5 0.2 5 5.0 3.6 1.4 0.2 6 5.4 3.9 1.7 0.4 Species 1 setosa 2 setosa 3 setosa 4 setosa 5 setosa 6 setosa

Classe setosa versicolor virginica 50 50 50

November 4, 11 25 Mineração de Dados -- Ronnie Alves

Page 26: Slides

SVM ideal – IRIS dataset

November 4, 11 26 Mineração de Dados -- Ronnie Alves

Page 27: Slides

Exemplo SVM: Estágios Câncer

  Matrix confusão

[1] "Confusion matrix" Classes rawPred3 Blue Green Pink Blue 7 0 2 Green 0 4 0 Pink 7 1 19

“boa” precisão!

[1] "Accuracy" $diag [1] 0.75

$kappa [1] 0.5490417

$rand [1] 0.6615385

$crand [1] 0.3241301

27 November 4, 11 Mineração de Dados -- Ronnie Alves

Page 28: Slides

Exemplo SVM: Estágios Câncer

Fronteiras de decisão (SVM):

Green/Blue Green/Pink Blue/Pink CTR1 -0.7787868 -0.9786317 -0.594154347 CTR2 1.0000748 0.1763757 0.072577609 CTR3 0.9419003 0.9997077 0.606152507 CTR4 1.0002048 0.9994451 0.406974675 CTR5 0.3025673 0.6752318 0.779507524 GBM1 -1.2456031 -0.7679936 -0.616816974 GBM2 -0.9999810 -2.0731869 -0.222945787 GBM3 -0.7094478 -0.8122750 -0.679318857 GBM4 -1.8236925 -1.0429250 1.000364004 GBM5 -1.6827481 -1.6305349 -1.151401027 …

Predição vs classe original: rawPred3 labelClasses CTR1 Pink Green CTR2 Green Green CTR3 Green Green CTR4 Green Green CTR5 Green Green GBM1 Pink Blue GBM2 Pink Blue GBM3 Pink Blue GBM4 Blue Blue GBM5 Pink Blue …

28 November 4, 11 Mineração de Dados -- Ronnie Alves

Page 29: Slides

Função de Mineração: (4) Agrupamentos

  Aprendizado não supervisionado (classe desconhecida)

  Agrupamentos formam novas categorias (i.e., clusters), ex., agrupar clientes segundo perfil de consumo

  Princípio: Maximizar similariedade dos elementos no grupo & minimizar similariedade entre elementos de grupos distintos

  Uma gama diversificada de métodos   Clustering hierárquico, k-means, k-medoids, SOM, etc…

November 4, 11 29 Mineração de Dados -- Ronnie Alves

Page 30: Slides

Clustering Hierárquico

n genes en n clusters

n genes en 1 cluster

divisive

aggl

omer

ativ

e

Junta-se (ou se divide) os nós com base na noção de similaridade máxima ou mínima.

Distância

Euclideana Correlação de

Pearson

Source: J-Express Manual

November 4, 11 30 Mineração de Dados -- Ronnie Alves

Page 31: Slides

Heatmap Scale

31

Função de Mineração: (4) Agrupamentos

Agrupa pacientes

Agrupa genes

November 4, 11 Mineração de Dados -- Ronnie Alves

Page 32: Slides

Função de Mineração: (5) Outliers

  Análise de padrões desviantes

  Outlier: Uma observação que não segue o padrão geral de comportamento dentro do conjunto de dados observados

  Ruído ou exceção? ― O que pode ser “lixo” para uma pessoa pode ser um “tesouro” para outra…

  Métodos: resultantes de aplicações de clustering ou análise de regressão, …

  Bastante usado para detectar casos de fraude, eventos raros

November 4, 11 32 Mineração de Dados -- Ronnie Alves

Page 33: Slides

Projeto FRATELO   Agrupamentos dinâmicos

  Residual dos quadrados mínimos ~ 8 clusters

(+)

(-)

(+)

November 4, 11 33

Mineração de Dados -- Ronnie Alves

Page 34: Slides

Potenciais casos de FRAUDE

969843678 Seg 2 F 0.886 0.0 Ter 8 V 0.829 8.91 (A) Qua 5 V 0.871 -0.54 Sab 6 V 0.939 -7.75

969660610 Seg 1 F 0.895 0.0 Ter 8 V 0.84 8.86 (A) Qua 7 V 0.863 2.29 Sab 3 V 0.929 -7.5

969892861 Seg 8 F 0.87 0.0 Ter 8 F 0.821 5.6 Qua 8 F 0.897 -9.31 (A) Sab 7 V 0.946 -4.98

969777979 Seg 6 F 0.878 0.0 Ter 8 V 0.814 8.39 (A) Qua 8 F 0.811 0.31 Sab 3 V 0.927 -13.83 (A)

969847283 Seg 3 F 0.888 0.0 Ter 6 V 0.832 8.5 (A) Qua 5 V 0.864 -0.73 Sab 7 V 0.928 -7.4

969654530 Seg 3 F 0.896 0.0 Ter 2 V 0.821 8.53 (A) Qua 8 V 0.781 8.89 (A) Sab 2 V 0.928 -18.21 (A)

8 (11.4)

6 (6.7)

5 (4.5)

7 (3.2)

1 (2.7)

4 (2.2)

2 (1.6)

3 (1.2)

Clusters by number of calls

Day, Cluster, Migrating, Absolute Distance, Relative Distance

Increasing number of calls = may be FRAUD

November 4, 11 34 Mineração de Dados -- Ronnie Alves

Page 35: Slides

Potenciais casos de Churn

969729940 Seg 7 F 0.853 0.0 Ter 8 V 0.893 4.23 Qua 6 V 0.842 8.18 (A) Sab 6 F 0.934 -10.96

969902910 Seg 8 F 0.881 0.0 Ter 7 V 0.865 8.44 (A) Qua 6 V 0.84 4.99 Sab 5 V 0.935 -11.27

969990853 Ter 4 F 0.902 0.0 Qua 2 V 0.856 8.1 (A) Sab 2 F 0.927 -8.26

969855539 Seg 6 F 0.86 0.0 Ter 8 V 0.874 3.16 Qua 7 V 0.859 8.04 (A) Sab 7 F 0.932 -8.48

969657285 Seg 5 F 0.941 0.0 Ter 5 F 0.94 0.1 Qua 3 V 0.862 9.04 (A) Sab 3 F 0.939 -8.94

969757484 Ter 5 F 0.908 0.0 Qua 2 V 0.844 11.25 (A) Sab 2 F 0.925 -9.62

8 (11.4)

6 (6.7)

5 (4.5)

7 (3.2)

1 (2.7)

4 (2.2)

2 (1.6)

3 (1.2)

Clusters by number of calls

Decreasing number of calls = may be CHURN

Day, Cluster, Migrating, Absolute Distance, Relative Distance

November 4, 11 35 Mineração de Dados -- Ronnie Alves

Page 36: Slides

Tempo e Ordem: Padrões sequenciais, tendências e análise de evoluções

  Sequência, tendência e evolução   Tendência, série-temporal, e padrões desviantes: ex.,

regressão e predição   Mineração de padrões sequenciais

  Ex., primeiro compra uma câmera, então compra um cartão de memória SD

  Análise de periodicidade   Pesquisa de motivos em sequências

  Aproximação, motivos consecutivos   Análise com base em similariedades

  Mineração de streams de dados   Ordenados, temporais, infinitos, data streams

November 4, 11 36 Mineração de Dados -- Ronnie Alves

Page 37: Slides

Análise de Periodicidades

[YNL082W] -> [YLR151C] (confidence: 0.957)

[YLR151C] -> [YNL082W] (confidence: 0.957)

[YNL082W] -> [YFR002W] (confidence: 0.957)

[YFR002W] -> [YNL082W] (confidence: 0.957)

[YCR042C] -> [YNL082W] (confidence: 0.957)

[YLR151C] -> [YFR002W] (confidence: 0.957)

[YFR002W] -> [YLR151C] (confidence: 0.957)

[YNL082W] -> [YCR042C] (confidence: 1.000)

cell cycles yeast association patterns

from t15 (cdc15 – 180min) –[down]> t16(cdc15 – 190min) –[up]> t17(cdc15 – 200min) significant changes

co-regulated gene profiles 1. gene interactions 2. tagging time frames 3. grouping patterns

November 4, 11 37 Mineração de Dados -- Ronnie Alves

Page 38: Slides

Análise de Redes (Grafos)

  Mineração de Grafos   Buscar sub-grafos frequentes (ex, componentes químicos), árvores

(XML), sub-estruturas (fragmentos web)   Análise de Redes de Informação

  Redes sociais: atores (vértices) e relacionamentos (arestas)   ex, autores em MD, redes terroristas

  Múltiplas redes   Uma pessoa participa de diferentes redes: amigos, familiares,

colegas de classes, …   Links carregam a semântica da relação: Link mining

  Mineração da Web   Web: do PageRank ao Google   Análise da Web

  Comunidades, opiniões, utilização, …

November 4, 11 38 Mineração de Dados -- Ronnie Alves

Page 39: Slides

•  Hi

Análise de Redes (Grafos)

Do experimento transcriptômico A rede de co-expressão gênica

November 4, 11 39 Mineração de Dados -- Ronnie Alves

Page 40: Slides

GSE13270

PRKAA2, KRAS, PDPK1

CBLB,…

MOBIO: Cliques consensuais em Diabetes T2

40 November 4, 11 Mineração de Dados -- Ronnie Alves

Page 41: Slides

Avaliação do Conhecimento

  São todos os padrões realmente interessantes?   Muitos dados >> Muitos Padrões >> ?? conhecimento

  Pode ser dimensionalmente relevante (tempo, espaço, …)

  Pode não ser representativo, pode ser transiente, …

  Avaliação do conhecido gerado → minerar apenas padrões interessantes?   Descritivo vs. preditivo

  Cobertura

  Típico vs. novidade

  Precisão

  Independente do tempo, espaço,…

  … November 4, 11 41 Mineração de Dados -- Ronnie Alves

Page 42: Slides

Mineração de Dados: Multidisciplinar

Data Mining

Machine Learning

Statistics

Applications

Algorithm

Pattern Recognition

High-Performance Computing

Visualization

Database Technology

November 4, 11 42 Mineração de Dados -- Ronnie Alves

Page 43: Slides

Faz sentido todas essas áreas em MD?

  Gigantescas montanhas de dados   Algoritmos precisam ser escaláveis (exabytes…)

  Multidimensionalidade   Dados biológicos

  Complexidade inerente dos dados   Data streams e sensores   Séries temporais, dados temporais, sequenciais   Grafos, redes e múltiplos links   Heterogeneidade SGBDs e legados   Espacial, espaço-temporal, multimídia, texto e Web   Software, simulações científicas

  Aplicações mais sofisticadas

November 4, 11 43 Mineração de Dados -- Ronnie Alves

Page 44: Slides

Aplicações de Mineração de Dados

  Web: classificação de páginas, agrupamentos, rankings: PageRank & HITS algorithms

  Sistemas de Recomendação

  Análise do cesto de compra, perfil de consumo, marketing

  Médica e Biológica: classificação, análise de agrupamentos (microarray data analysis), sequências biológicas, biologia de sistemas (genômica, proteômica, transcriptômica, etc…)

  Mineração e engenharia de software (e.g., IEEE Computer, Aug. 2009 issue)

  Mineração de constelações

  Mineração de caminhos, trajetórias…

November 4, 11 44 Mineração de Dados -- Ronnie Alves

Page 45: Slides

Nem tudo são flores… (1)

  Metodologia de Mineração

  Minerar vários tipos de dados distintos, granularidades…

  Conhecimento em espaço multidimensional

  Mineração: Esforço constante e multidisciplinar

  Boosting the power of discovery

  Lidar com ruídos, incerteza, e dados incompletos

  Avaliação de padrões, utilização de restrições

  Interatividade

  Mineração interativa

  Incorporação de conhecimento prévio

  Apresentação e visualização

November 4, 11 45 Mineração de Dados -- Ronnie Alves

Page 46: Slides

Nem tudo são flores… (2)

  Eficiência e escalabilidade dos algoritmos

  Paralelo, distribuído, stream, e incrementais

  Diversidade

  Complexidade na formação dos dados

  Impactos na sociedade

  Questões sociais de comportamento

  Mineração vs Privacidade

  Mineração pervasiva

November 4, 11 46 Mineração de Dados -- Ronnie Alves

Page 47: Slides

Onde buscar referências? DBLP, CiteSeer, Google

  Data mining and KDD (SIGKDD: CDROM)   Conferences: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, etc.   Journal: Data Mining and Knowledge Discovery, KDD Explorations, ACM TKDD

  Database systems (SIGMOD: ACM SIGMOD Anthology—CD ROM)   Conferences: ACM-SIGMOD, ACM-PODS, VLDB, IEEE-ICDE, EDBT, ICDT, DASFAA   Journals: IEEE-TKDE, ACM-TODS/TOIS, JIIS, J. ACM, VLDB J., Info. Sys., etc.

  AI & Machine Learning   Conferences: Machine learning (ML), AAAI, IJCAI, COLT (Learning Theory), CVPR, NIPS, etc.   Journals: Machine Learning, Artificial Intelligence, Knowledge and Information Systems,

IEEE-PAMI, etc.

  Web and IR   Conferences: SIGIR, WWW, CIKM, etc.   Journals: WWW: Internet and Web Information Systems,

  Statistics   Conferences: Joint Stat. Meeting, etc.   Journals: Annals of statistics, etc.

  Visualization   Conference proceedings: CHI, ACM-SIGGraph, etc.   Journals: IEEE Trans. visualization and computer graphics, etc.

November 4, 11 47 Mineração de Dados -- Ronnie Alves

Page 48: Slides

Resumo

  Mineração: Descoberta de padrões interessantes e conhecimento a partir de grandes quantidades de dados

  Evolução natural das mais diversas tecnologias, grande demanda, com uma imensa abrangência

  Processo de KDD: limpeza, integração, seleção, transformação, mineração, avaliação, e representação do conhecimento

  Mineração pode ser aplicada numa gama diversa de dados

  Funcionalidades: caracterização, discriminação, associação, classificação, agrupamentos, outliers, tendências, etc.

  Mineração orientada a aplicação (contexto de uso)

  Existem diversas questões em aberto…

November 4, 11 48 Mineração de Dados -- Ronnie Alves

Page 49: Slides

Referências   S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data. Morgan

Kaufmann, 2002

  R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience, 2000

  T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003

  U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996

  U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2001

  J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 3rd ed., 2011

  D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001

  T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd ed., Springer-Verlag, 2009

  B. Liu, Web Data Mining, Springer 2006.

  T. M. Mitchell, Machine Learning, McGraw Hill, 1997

  G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991

  P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005

  S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998

  I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2nd ed. 2005

November 4, 11 49 Mineração de Dados -- Ronnie Alves

Page 50: Slides

Mineração de Dados: Conceitos e Aplicações por: Ronnie Alves ([email protected])

Parte 1 – Visão Geral da Área Parte 2 – Lidando com BIG DATA! Parte 3 – Mineração de Dados Biológicos

November 4, 11 50 Mineração de Dados -- Ronnie Alves

Page 51: Slides

Era de Ouro!

Powerful multi-core processors

General purpose graphic

processors

Superior software

methodologies

Virtualization leveraging

the powerful hardware

Wider bandwidth for

communication

Proliferation of devices

Explosion of domain

applications

November 4, 11 51 Mineração de Dados -- Ronnie Alves

Page 52: Slides

  Alinhar necessidades do negócio / utilizador / especialistas / comunidade e sociedade

  Questões de escalabilidade: BIG DATA, computação de alta performance, automação, tempo de resposta, prototipação rápida, produção

  Transformar dados de diversas fontes em inteligência e compartilha-la na direção certa pessoa/utilizador/sistemas

  Baixo custo!

November 4, 11 52 Mineração de Dados -- Ronnie Alves

Page 53: Slides

  Cloud computing is Internet-based computing, whereby shared resources, software and information are provided to computers and other devices on-demand, like the electricity grid.   on-demand computing, utility computing, ubiquitous

computing, autonomic computing, platform computing, edge computing, elastic computing, grid computing, …

November 4, 11 53 Mineração de Dados -- Ronnie Alves

Page 54: Slides

  Amazon AWS: EC2 & S3 (among the many infrastructure services)   Linux machine   Windows machine   A three-tier enterprise application

  Google app Engine   Eclipse plug-in for GAE   Development and deployment of an application

  Windows Azure   Storage: blob store/container   MS Visual Studio Azure development and production

environment

November 4, 11 54 Mineração de Dados -- Ronnie Alves

Page 55: Slides

  Mineração em grandes quantidades de dados em diversas áreas científicas, astronomia, genômica

  Economia baseada no conhecimento   Dados, importantes para a sobrevivência do negócio   Descobrir o conhecimento, utilizar o conhecimento; Anotações…   Modelos computacionais mais complexos   Um ambiente simples computational não é suficiente: need elastic,

on-demand capacities   Extrema necessidade

  Modelos de programação, e   Algoritmos e estrutura de dados

November 4, 11 55 Mineração de Dados -- Ronnie Alves

Page 56: Slides

  Internet introduziu um novo desafio na forma de web logs, dados de web crawlers: large scale “peta scale”

  Estes dados tem uma característica única: “write once read many (WORM)” ;

•  Informações em sistemas de saúde sobre pacientes •  Histórico financeiro; •  Dados históricos…

  Google explorou estas características no seu Google file system (GFS)

November 4, 11 56 Mineração de Dados -- Ronnie Alves

Page 57: Slides

MapReduce

November 4, 11 57 Mineração de Dados -- Ronnie Alves

Page 58: Slides

  No Google a operação de MapReduce rodam no Google File System (GFS) que é otimizado para esse propósito

  GFS não é open source   Doug Cutting e outros na Yahoo! trabalharam na

engenharia reversa do GFS e criaram o Hadoop Distributed File System (HDFS).

  Todo suporte de software via HDFS, MapReduce e outras entidades relacionadas compõem o project Hadoop ou apenas Hadoop.

  Hadoop é open source via Apache.   Tolerância a falhas está no core do Hadoop.

November 4, 11 58 Mineração de Dados -- Ronnie Alves

Page 59: Slides

  MapReduce é um modelo de programação criado no Google, e tem sido usado com sucesso para processar “big-data” sets (~ 20000 peta bytes per day)   Uma função “map” extrai inteligência do dado cru.   Uma função “reduce” realiza agregação dos dados obtidos na etapa

de mapeamento.   Todo problema é mapeado segundo a programação Map->Reduce   Paralelização automatizada via clusters   Tolerância a falhas, comunicação tratada de forma transparente

-- Reference: Dean, J. and Ghemawat, S. 2008. MapReduce: simplified data processing on large clusters. Communication of ACM 51, 1 (Jan. 2008), 107-113.

November 4, 11 59 Mineração de Dados -- Ronnie Alves

Page 60: Slides

  Benchmark for comparing: Jim Gray’s challenge on data-intensive computing. Ex: “Sort”

  Google utiliza para wordcount, adwords, pagerank, indexing data.

  Algoritmos de busca textual como grep, text-indexing, reverse indexing

  Classificação bayesiana: mineração de dados   Facebook usa em várias operações: dados demográficos   Serviços financeiros balanços analíticos   Astronomia: Análise Gaussiana para localizar objetos em galaxias

distantes.   É esperado um papel crítico de MapReduce na web semântica e

web 3.0…aplicações massivas de dados

November 4, 11 60 Mineração de Dados -- Ronnie Alves

Page 61: Slides

Mineração de Dados a la MapReduce

  Fitness, Summation form...   locally weighted linear regression (LWLR),   k-means,   logistic regression(LR),   naive Bayes (NB),   SVM,   ICA, PCA,   gaussian discriminant analysis (GDA), EM, and

backpropagation (NN).

Map-Reduce for Machine Learning on Multicore By Chu et al. (NIPS’2006)

November 4, 11 61 Mineração de Dados -- Ronnie Alves

Page 62: Slides

  MapReduce precisa de um DFS e um engine que possa distribuir, coordenar, monitorar e coletar os resultados.

  Hadoop fornece essa engine e JobTracker + TaskTracker system.

  JobTracker é um escalonador.   TaskTracker controla um Map ou Reduce (ou

outras operações); Map ou Reduce rodar no nó e assim como o TaskTracker; cada tarefa roda na sua própria JVM do nó.

November 4, 11 62 Mineração de Dados -- Ronnie Alves

Page 63: Slides

Referências

  Jeffrey Dean and Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large

Clusters http://labs.google.com/papers/mapreduce.html

  Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung, The Google File System

http://labs.google.com/papers/gfs.html

November 4, 11 63 Mineração de Dados -- Ronnie Alves

Page 64: Slides

Mineração de Dados: Conceitos e Aplicações por: Ronnie Alves ([email protected])

Parte 1 – Visão Geral da Área Parte 2 – Lidando com BIG DATA! Parte 3 – Mineração de Dados Biológicos

November 4, 11 64 Mineração de Dados -- Ronnie Alves

Page 65: Slides

Adaptação dos tutoriais produzidos por: (1)  Steffen Durinck, Robert Gentleman and

Sandrine Dudoit (2)  Laurent Gautier (3)  Matt Ritchie (4)  Jean Yang

http://www.bioconductor.org/help/course-materials/

November 4, 11 65 Mineração de Dados -- Ronnie Alves

Page 66: Slides

Bioconductor

  Bioconductor é uma plataforma open source/open development de software para a análise de dados bioquímicos e genômicos.

  O projeto teve início no outono de 2001, abrange mais de 25 core developers nos US, Europe, and Australia.

  Releases   v 1.0: May 2nd, 2002, 15 packages.   v 1.1: November 18th, 2002, 20 packages.   v 1.2: May 28th, 2003, 30 packages.   v 1.9: October 4, 2006, 188 packages.   …………………………..

  Bioconductor 2.6, April 23, 2010, 389 packages.

  Bioconductor 2.8, Outubro 2011, 460 packages

November 4, 11 66 Mineração de Dados -- Ronnie Alves

Page 67: Slides

Mineração de dados transcriptômicos em R

CEL, CDF

affy vsn

.gpr, .Spot, MAGEML

Pré-processamento

exprSet

graph RBGL

Rgraphviz

edd samr

genefilter limma

multtest ROC

+ CRAN

annotate annaffy

+ metadata packages

CRAN class

cluster MASS mva

gplots geneplotter

hexbin + CRAN

marray limma vsn

Diferenciação de Expressão

Biologia de Sistemas

Clustering Annotação

CRAN class e1071 ipred

LogitBoost MASS nnet

randomForest rpart

Classificação/ Predição

Gráficos

estrogen AMLL

Dados

RNAseq

baySeq DEGseq DESeq edgeR

reads

November 4, 11 67 Mineração de Dados -- Ronnie Alves

Page 68: Slides

Instalação

1.  R software: CRAN (cran.r-project.org) 2.  Bioconductor packages: Bioconductor site

(www.bioconductor.org)

Disponível para as plataformas Linux/Unix, Windows, e Mac OS.

November 4, 11 68 Mineração de Dados -- Ronnie Alves

Page 69: Slides

Instalação

•  Uma vez instalado o R, instalar os pacotes Bioconductor usando a função getBioC.

•  No console do R executar source("http://bioconductor.org/biocLite.R") biocLite()

•  Geralmente, os pacotes R são instalados a partir da função install.packages.

•  Em ambiente Windows/MAC OS, é possível utilizar o menu “Packages” no console do R.

•  Em ambiente Linux/UNIX é necessário instalar ferramentas adicionais para utilizar uma console R

–  Sugestões: RStudio, Eclipse+StatET

November 4, 11 69 Mineração de Dados -- Ronnie Alves

Page 70: Slides

Bioconductor na NUVEM... (1)  Bioconductor-AMI: We have developed an

Amazon Machine Image (AMI) that is optimized for running Bioconductor in the Amazon Elastic Compute Cloud (or EC2) for sequencing tasks…

  http://www.bioconductor.org/help/bioconductor-cloud-ami/

(2)  R-Cloud Workbench: Remote access to R/Bioconductor on EBI's 64-bit Linux Cluster

  http://www.ebi.ac.uk/Tools/rcloud/

November 4, 11 70 Mineração de Dados -- Ronnie Alves

R

Page 71: Slides

RHIPE

  Uma interface entre Hadoop e R para analisar BIG DATA   Invenção de Saptarshi que trabalha na

Revolution Analytics em Palo Alto…

http://www.lecturemaker.com/2011/02/rhipe/ November 4, 11 71 Mineração de Dados -- Ronnie Alves

Page 72: Slides

Links

  R www.r-project.org, cran.r-project.org   software (CRAN);   documentação;   newsletter: R News;   mailing list.

  Bioconductor www.bioconductor.org   software, dados, e documentação (vignettes);   Tutoriais e cursos rápidos;   mailing list.

November 4, 11 72 Mineração de Dados -- Ronnie Alves

Page 73: Slides

ICDM’10: DM Open Problems!!!

  1. Developing a Unifying Theory of Data Mining   2. Scaling Up for High Dimensional Data/High Speed

Streams   3. Mining Sequence Data and Time Series Data   4. Mining Complex Knowledge from Complex Data   5. Data Mining in a Graph Structured Data   6. Distributed Data Mining and Mining Multi-agent Data   7. Data Mining for Biological and Environmental Problems   8. Data-Mining-Process Related Problems   9. Security, Privacy and Data Integrity   10. Dealing with Non-static, Unbalanced and Cost-

sensitive Data

November 4, 11 73 Mineração de Dados -- Ronnie Alves

Page 74: Slides

KDnuggets: Algoritmos

30.Oct.2011

November 4, 11 74

Page 75: Slides

KDnuggets: Linguagens

Aug.2011

November 4, 11 75 Mineração de Dados -- Ronnie Alves

Page 76: Slides

KDnuggets: Ferramentas

May.2011

November 4, 11 76 Mineração de Dados -- Ronnie Alves

Page 77: Slides

KDnuggets: Aplicações

Dec.2009

November 4, 11 77 Mineração de Dados -- Ronnie Alves

Page 78: Slides

R/Bioconductor: Hands-on

http://www.inf.ufrgs.br/~ralves/mtbsb.html November 4, 11 78 Mineração de Dados -- Ronnie Alves

Page 79: Slides

Mineração de Dados: Conceitos e Aplicações por: Ronnie Alves ([email protected])

Jiawei Han, Micheline Kamber, and Jian Pei

University of Illinois at Urbana-Champaign &

Simon Fraser University

©2011 Han, Kamber & Pei. All rights reserved.

Adaptação slides:

http://www.inf.ufrgs.br/~ralves

OBRIGADO!!!!

November 4, 11 79 Mineração de Dados -- Ronnie Alves