Minería de Datos Arturo Olvera Lópezaolvera/MD-V17/D-MD-II-Ver2017.pdf · 2017. 6. 6. ·...

Preview:

Citation preview

By A. OlveraBy A. Olvera

111

Benemérita Universidad Autónoma de Puebla

Facultad de Ciencias de la Computación

Minería de Datos

Arturo Olvera Lópezaolvera@cs.buap.mx

By A. Olvera

2121

Pre-Procesamiento

By A. Olvera

2222

Pre-Procesamiento

� Necesidad de pre-procesamiento

By A. Olvera

Tipos de Atributos

By A. Olvera

Tipos de atributos

Datos

-Numéricos -Nominales

-Binarios

-n-arios

-Ordinales

By A. Olvera

2525

Data Summarization

By A. Olvera

2626

Data Summarization

� Es útil tener conocimiento global de los datos

– Métricas de dispersión

– Métricas tendencia central

� Con base en estas técnicas se puede tener un

panorama general de las características de

los datos

By A. Olvera

2727

Tendencia central

� Media aritmética

� Media ponderada

� Media recortada??

By A. Olvera

2828

Mediana

� Comúnmente cuando los datos son

asimétricos

� Mediana, métrica holística

– Interpolada:

� Moda

� Midrange (Promedio�mayor y menor)

By A. Olvera

2929

Tendencia central

By A. Olvera

3030

Métricas de dispersión

� Rangos, cuantiles, IQR, Desv. Estándar

� kth-percentil

� Cuartil

� IQR-> Dispersión

– Detección de outliers

� Five-number summary:

<Min,Q1,Median,Q3,Max>

By A. Olvera

3131

Boxplots

Q3

Mediana

Q1

Maxc

Min

5-Number Summary

By A. Olvera

3232

Varianza:

σ suele emplearse como métrica de dispersión

– Sólo si se ha seleccionado la media

– Qué ocurre con σ=0????

• Por qué??

Desviación estándar:

By A. Olvera

3333

Gráficas/Visualización

By A. Olvera

3434

Gráficas/Visualización

� De manera gráfica, se resume la información:

� Histogramas

� Quantile plot

By A. Olvera

3535

Gráficas/Visualización

� Quantile-Quantile plot

By A. Olvera

3636

Gráficas/Visualización

� Scatter plot

By A. Olvera

3737

Gráficas/Visualización

� Scatter plot

By A. Olvera

3838

Scatter 3D

By A. Olvera

3939

Chernoff faces

By A. Olvera

4040

Tag Cloud

By A. Olvera

Limpieza de datos

By A. Olvera

4242

Limpieza de datos

� Valores faltantes

– Al menos 6 soluciones a este fenómeno

� Datos con ruido

– Técnicas de Suavizado

By A. Olvera

4343

Limpieza de datos

� Suavizado� Binning

By A. Olvera

4444

Limpieza de datos

� Suavizado�Regresión

-funciones locales

� Suavizado�Clustering

By A. Olvera

Integración de datos

By A. Olvera

4646

Integración de datos

� Recolección de datos -> Redundancia

� Análisis de correlación

– Coeficiente de correlación:

By A. Olvera

4747

Data Integration

� Análisis de correlación

– Chi-cuadrada

By A. Olvera

Ejemplo

By A. Olvera

Chi squared

By A. Olvera

5050

Transformación de Datos

Incluye :

�Suavizado

�Agregación

�Generalización

�Normalización

�Construcción de atributos

By A. Olvera

5151

Normalización

� Min-max

� Z-score

� Decimal scaling

By A. Olvera

Tarea

Considere los siguientes datos:

300,123,356,89,150,600,450,970, 1078, 1998

a) Normalizar los datos mediante min-max con min=5 y max=10

b) Normalizar los datos mediante z-score

c) Normalizar los datos mediante decimal scaling

By A. Olvera

5353

Data reduction

By A. Olvera

5454

Data reduction

-Data cube aggregation

-Attribute/Instance subset selection

-Dimensionality reduction

-Numerosity reduction

-Discretization and concept

hierarchy generation

By A. Olvera

5555

Attribute Subset Selection

Métodos óptimos, subóptimos, locales

By A. Olvera

5656

Instance Selection

By A. Olvera

5757

Dimensionality reduction

� Wavelet

By A. Olvera

5858

Dimensionality reduction

� PCA

By A. Olvera

5959

Numerosity reduction

� Regression and Log-Linear models

� Histogramas:

� Al menos 4 reglas de división para histogramas

– Igual ancho

– Igual Frecuencia

– V-óptimo

– Maxdiff

By A. Olvera

6060

Numerosity reduction

� Clustering

� Sampling

� Discretization

By A. Olvera

6161

Sampling

� With/

WithoutReplacement

� Cluster Sample

� Stratiffied

By A. Olvera

6262

Data discretization

� Numérico -> No numérico

� Concept Hierarchy

By A. Olvera

6363

Discretization methods

---BinningBinning�������� un solo valorun solo valor

--HistogramHistogram analysisanalysis �������� IntervalosIntervalos

--EntropyEntropy

--ChiMergeChiMerge

By A. Olvera

6464

Entropy based discretization

MIN

By A. Olvera

6565

Interval Merging by χχχχ2 Analysis

� Análogo al caso discreto

� Valores pequeños de χ2 indican distribuciones

similares

� Umbral pequeño: 0.1, 0.01

Recommended