Slides

  • View
    27

  • Download
    3

Embed Size (px)

Text of Slides

Minerao de Dados:Conceitos e Aplicaespor: Ronnie Alves (ralves@inf.ufrgs.br) http://www.inf.ufrgs.br/~ralves Adaptao slides:Jiawei Han, Micheline Kamber, and Jian Pei University of Illinois at Urbana-Champaign & Simon Fraser University 2011 Han, Kamber & Pei. All rights reserved.

November 4, 11

Minerao de Dados -- Ronnie Alves

1

Minerao de Dados:Conceitos e Aplicaespor: Ronnie Alves (ralves@inf.ufrgs.br)

Parte 1 Viso Geral da rea Parte 2 Lidando com BIG DATA! Parte 3 Minerao de Dados Biolgicos

November 4, 11

Minerao de Dados -- Ronnie Alves

2

Big Data!

966 exabytes: esta a quantidade de dados que trafegaro na internet em 2015

Pesquisa da Cisco aponta que o trfego na rede quadruplicar em quatro anos, com a Amrica Latina liderando o crescimento

1 exabyte = 1 milho de terabytes, ou 1 bilho de gigabytes, ou cerca de 250 milhes de DVDs

November 4, 11

Minerao de Dados -- Ronnie Alves

3

Big Prize!

http://www.kaggle.com/11/4/11 Minerao de Dados -- Ronnie Alves

4

Minerao de Dados

Crescimento exponencial dos dados: de terabytes a exabytes

Coleo e disponibilidade dos dados

Ferramentas automatizadas para coleta de dados, banco de dados, Web, sociedade computadorizada

Fontes abundantes de dados

Negcio: Web, e-commerce, transaes, aes, Cincia: Sensores, bioinformtica, simulao cientfica, Sociedade: Jornais, cmeras digitais, filmadoras, YouTube

Dados em abundncia, mas o conhecimento raro!

Necessity is the mother of inventionMinerao de DadosAnlise automatizada de grandes quantidades de dados

November 4, 11

Minerao de Dados -- Ronnie Alves

5

Evoluo das Cincias

..1600, cincia emprica 1600-1950s, cincia terica 1950s-1990s, cincia computacional 1990-now, cincia dos dados

Dilvio de dados oriundos de experimentos cientficos Abilidade econmica para lidar com dados na ordem de petabytes Internet, Cloud computing, Grids,

Jim Gray and Alex Szalay, The World Wide Telescope: An Archetype for Online Science, Comm. ACM, 45(11): 50-54, Nov. 2002

November 4, 11

Minerao de Dados -- Ronnie Alves

6

Evoluo dos Bancos de Dados

1960s:

Coleo de dados, criao de dados, DBMS Modelo de dados relacional RDBMS, modelos avanados (extended-relational, OO, deductive, etc.) Orientados a aplicao (spatial, scientific, engineering, etc.) Minerao de dados, data warehousing, banco de dados multimdia, Web, Cientficos

1970s:

1980s:

1990s:

2000s

Stream data management and miningMinerao de dados e suas aplicaes Web (XML, integrao de dados) e sistemas de informao globaisMinerao de Dados -- Ronnie Alves

November 4, 11

7

O que Minerao de dados?

Data mining (knowledge discovery from data)

Extrao de padres ou conhecimento (no-trivial, implcito, desconhecido e potencialmente til) a partir de uma grande coleo de dados

Data mining: a misnomer? Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc.Busca simples e processamento de consultas (SQL)

Nominaes alternativas

Cuidado: ento TUDO data mining?

November 4, 11

Minerao de Dados -- Ronnie Alves

8

Processo de KDD

Viso tpica da comunidade de BD Minerao tem um papel chave no processo de KDD

Pattern Evaluation

Data Mining Task-relevant Data Data Warehouse Data Cleaning Data Integration DatabasesNovember 4, 11 Minerao de Dados -- Ronnie Alves

Selection

9

Exemplo: Minerao da Web

Quais so as tarefas?

Data cleaning Integrao de dados (mltiplas fontes) Warehousing Data cubingSeleo de dados para minerao Minerao de dados Apresentao/Visualizao dos dados Padres armazenados num knowledge-base

November 4, 11

Minerao de Dados -- Ronnie Alves

10

Exemplo: Minerao da WebC A index.html B E D click stream

Obs.: A

D A A A B F D (conf: 0,8) (conf: 0,7) (conf: 0,6) (conf: 0,5) (conf: 0,4)Minerao de Dados -- Ronnie Alves

Recommendations (top 2): F X (0,6) (0,4)

Rules:

E D D F

A D D XNovember 4, 11

11

Minerao em Business IntelligenceIncreasing potential to support business decisions

Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery

End User

Business Analyst Data Analyst

Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database SystemsNovember 4, 11 Minerao de Dados -- Ronnie Alves

DBA

12

Processo KDD: Viso Machine Learning

Input Data

Data PreProcessing

Data Mining

PostProcessing

Data integration Normalization Feature selection Dimension reduction

Pattern discovery Association & correlation Classification Clustering Outlier analysis

Pattern Pattern Pattern Pattern

evaluation selection interpretation visualization

November 4, 11

Minerao de Dados -- Ronnie Alves

13

Exemplo: Minerao de dados clnicos

Health care & medical data mining frequentemente adota uma abordagem MLPr-processamento (incluindo seleo de features e reduo da dimensionalidade) Classificao ou/e agrupamentos Ps-processamento - Visualizao

November 4, 11

Minerao de Dados -- Ronnie Alves

14

Viso Multidimensional

November 4, 11

Dado a ser minerado BDs (extended-relational, object-oriented, heterogeneous, legacy), data warehouse, transactional data, stream, spatiotemporal, timeseries, sequence, text and web, multi-media, graphs & social and information networks Conhecimento a ser minerado (ou: Funes de Minerao) Caracterizao, discriminao, associao, classificao, agrupamentos, tendncias/desvios, outlier analysis, etc. Descritivo vs. preditivo Mltiplo/funes integradas e minerao em vrios nveis Tcnicas utilizadas Data-intensive, data warehouse (OLAP), machine learning, statistics, reconhecimento de padres, visualizao, high-performance, etc. Aplicaes Varejo, telecom, bancos, fraude, bio-data mining, aes, text mining, Web mining, etc.Minerao de Dados -- Ronnie Alves

15

Minerao: Em que tipo de dados?

Aplicaes tradicionais, SGBDs

Relacional, data warehouse, transacional Data streams e sensores Sries temporais, sequncias (incl. bio-sequences) Dados estruturados, grafos, redes sociais e multi-linked data SGBD objeto-relacional SGBD legados Espaciais e espao temporais Multimdia Texto WWWMinerao de Dados -- Ronnie Alves

Aplicaes avanadas

November 4, 11

16

Funo de Minerao: (1) Generalizao

Integrao e construo de DWs

Data cleaning, transformao, integrao, e modelagem multidimensional Mtodos escalveis (i.e., materializao) agregados multidimensionais OLAP (online analytical processing)

Data cubing

Multidimensional concept description: Caracterizao e discriminao

Generalizar, sumariar, e contrastar caractersticas dos dados, ex., seco vs. molhado (regio)Minerao de Dados -- Ronnie Alves

November 4, 11

17

Funo de Minerao: (1) GeneralizaoTop-down Bottom-up

cube

all

dimensions cellsNovember 4, 11 Minerao de Dados -- Ronnie Alves

18

Funo de Minerao: (2) Associao e Correlao

Padres frequentes (or itemsets frequentes)

Quais items so comprados com que frequncia num supermercado? Uma regra clssica de associao

Associao, correlao vs. causalidade

Diaper Beer [0.5%, 75%] (support, confidence) Forte associao significa forte correlao?

Como minerar estes tipos de padres de forma eficiente? Como utilizar estes padres para outros tipos de anlise, ex., classificao, agrupamentosoutras aplicaes?19

November 4, 11

Minerao de Dados -- Ronnie Alves

Sta$s$calsignicance

Biologicalrelevance20

genetogene

genetotarget

21

Funo de Minerao: (3) Classificao

Classificao, predio de classes

Construir modelos (funes) como base em casos de exemplo Descrever e diferenciar classes ou conceitos para predio futura

Ex., classificar pacientes com base no (perfil clnico), or classificar modelos de carros com base nas caractersticas

Predizer uma classe desconhecida rvores de deciso, modelos bayesianos, support vector machines (SVM), redes neurais, classificao com base em regras, classificao com base em padres, modelos de regresso, Deteco de fraudes, marketing direto, classificar estrelas, estgios doenas, pginas webs, Minerao de Dados -- Ronnie Alves

Tcnicas clssicas

Aplicaes

November 4, 11

22

Critrios: 1-Seleo 2-Parada 3-Classe

Classificao via SVM

Margem pequena

Margen grande Vetores de suporte

November 4, 11

Minerao de Dados -- Ronnie Alves

24

IRIS datasetSepal.Length Sepal.Width Petal.Length Petal.Width 1 5.1 3.5 1.4 0.2 2 4.9 3.0 1.4 0.2 3 4.7 3.2 1.3 0.2 4 4.6 3.1 1.5 0.2 5 5.0 3.6 1.4 0.2 6 5.4 3.9 1.7 0.4 Species 1 setosa 2 setosa setosa versicolor virginica 3 setosa Classe 50 50 50 4 setosa 5 setosa 6 setosaNovember 4, 11 Minerao de Dados -- Ronnie Alves

25

SVM ideal IRIS dataset

November 4, 11

Minerao de Dados -- Ronnie Alves

26

Exemplo SVM: Estgios Cncer

Matrix confuso

[1] "Confusion matrix" Classes rawPred3 Blue Green Pink Blue 7 0 2 Green 0