51
 Facultad de Ingeniería Escuela de Ingeniería de Sistemas y Computación  Preprocesamiento

Preprocesamiento

Embed Size (px)

Citation preview

Page 1: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 1/51

 

Facultad de Ingeniería Escuela de Ingeniería de Sistemas y Computación 

Preprocesamiento

Page 2: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 2/51

 

 Facultad de Ingeniería

Escuela de Ingeniería de Sistemas y Computación

Preprocesado de Datos

• ¿Por qué es necesario?• Limpieza

• Integración y Transformación• Reducción

• Discretización y Generalización

Page 3: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 3/51

 

 Facultad de Ingeniería

Escuela de Ingeniería de Sistemas y Computación

¿Por qué es necesario?• Los datos reales están “sucios” Incompletos: Se han perdido valores

de atributos, atributos de interés o losdatos están resumidos

Ruido: errores y “outliers” Inconsistentes: hay discrepancias en

los nombres y/o en los valores

 

Page 4: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 4/51

 Facultad de Ingeniería

Escuela de Ingeniería de Sistemas y Computación

¿Por qué es necesario?

• calidad de los datos calidad en losresultados de Data Mining.

• Las decisiones de calidad se basan endatos con calidad.

 

Page 5: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 5/51

 Facultad de Ingeniería

Escuela de Ingeniería de Sistemas y Computación

Principales tareas

de preprocesado

Limpieza de los datos

Completar valores nulos, identificar y/oeliminar los outliers, resolver

inconsistencias, tratar valores conruido

Integración de datos

Integración de distintas bases dedatos, archivos, …

 

Page 6: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 6/51

 Facultad de Ingeniería

Escuela de Ingeniería de Sistemas y Computación

Principales tareas

de preprocesado

Transformación de los datosNormalización y agregación

Reducción de los datosSe obtiene representación reducidaproduce los mismos ( o similares)

resultados después de su análisis

 

Page 7: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 7/51

 Facultad de Ingeniería

Escuela de Ingeniería de Sistemas y Computación

Principales tareas de

preprocesado

Discretización de los datos

Es un caso especial de la reduccióncon especial importancia cuando se

tratan atributos numéricos

 

Page 8: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 8/51

 Facultad de Ingeniería

Escuela de Ingeniería de Sistemas y Computación

Limpieza de los datos

Tareas de la limpieza

Completar valores nulos

Identificar outliers y suavizar el ruido

Corregir los datos inconsistentes

 

Page 9: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 9/51

 Facultad de Ingeniería

Escuela de Ingeniería de Sistemas y Computación

Valores nulosLos datos no siempre están disponibles

Ej. muchas tuplas no tienen el valor delingreso del cliente en la base de datosde ventas

Es posible que se tenga que inferir un

valor

 

Page 10: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 10/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Valores nulosLos valores nulos se pueden deber a:

Mal funcionamiento del equipoInconsistencias con otros datos

almacenadosNo se insertan por no enteder elsignificado

No se consideraron importantes en elmomento de la captura

 

Page 11: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 11/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

¿Como tratar los nulos?

Ignorar la tupla— no es muy efectivo si

el porcentaje de valores nulos poratributo varia considerablemente

Completar valor manualmente: tedioso yde dudosa fiabilidad

Usar una constante para completar el

valor e.g., “desconocido”

 

Page 12: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 12/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

¿Como tratar los nulos?

Utilizar la media para completar todos

los valoresUtilizar la media dentro de la clase: mas

eficaz??Utilizar el valor más probable: medianteun árbol de decisión, Bayes, …

 

Page 13: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 13/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Datos con ruidoRuido: error aleatorio en una variable

Los valores incorrectos se pueden deberError en la captura

Problemas en la transformaciónLimitación de la tecnologíaInconsistencia en el nombrado de los

valores

 

Page 14: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 14/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Datos con ruido

Otros problemas que requieren limpiezaRegistros duplicados

Datos inconsistentes

 

Page 15: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 15/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

¿Como tratar el ruido?

Método de los cubos (binning):Ordenar los datos y dividirlos en cubos

de igul longitudDespués se suaviza cada cubo por lamedia, la mediana, la varianza, los

límites del cubo, etc.

 

Page 16: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 16/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

¿Como tratar el ruido?

Clustering: detecta y elimina los outliersCombinar tratamiento automático con

métodos manualesRegresión: suaviza el ruido mediante lafunción obtenida

 

Page 17: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 17/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Método de los cubos (I)Particionamiento de igual ancho (distancia)

Divide el rango en N intervalos de igualtamaño

Si A y B son los valores mínimo ymáximo del atributo, el ancho de losintervalos es

W = (B-A)/N

 

Page 18: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 18/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Método de los cubos (I)

Es el método más directoHace que los outliers dominen

No es aconsejable con distribucionesmuy heterogéneas

 

Page 19: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 19/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Método de los cubos (II)Particionamiento de igual profundidad

(frecuencia) :Divide el rango en N intervalos, cada

uno conteniendo aproximadamente elmismo número de ejemplos

El tratamiento de los datos categóricos

es complejo con este método

 

Page 20: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 20/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Ejemplo del método

de los intervalos

Datos ordenados de precio:

4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34

Intervalos de igual número de elementos:Bin 1: 4, 8, 9, 15Bin 2: 21, 21, 24, 25

Bin 3: 26, 28, 29, 34

 

Page 21: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 21/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Ejemplo del método

de los intervalos

Partición por la media:Bin 1: 9, 9, 9, 9

Bin 2: 23, 23, 23, 23Bin 3: 29, 29, 29, 29

 

Page 22: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 22/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Ejemplo de

discretización (II)Datos:

4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34Intervalos basados en los límites

Bin 1: 4, 4, 4, 15Bin 2: 21, 21, 25, 25

Bin 3: 26, 26, 26, 34

 

Page 23: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 23/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Análisis mediante cluster

 

Page 24: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 24/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Regresión

x

y

y = x + 1

X1

Y1

Y1’

 

Page 25: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 25/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Integración de DatosIntegración de datos:

Combina datos de fuentes diversas

Integración de esquemasIntegra metadatos de distintas fuentes

Problema de identificación deentidades: A. códigocli B. cliente#

 

Page 26: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 26/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Integración de Datos

Detección y resolución de los conflictosPara la misma entidad los valores de

diferentes fuentes son diferentesRazones: distintas representaciones,métricas, escalas, ….

 

Page 27: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 27/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Datos redundantesLa redundancia se da cuando se integran

múltiples bases de datosEl mismo atributo tiene distintosnombres

Un atributo es un atributo derivado enotra tabla e.g., beneficio anual

 

Page 28: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 28/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Datos redundantes

Se pueden detectar por medio deanálisis de correlaciónLa integración cuidadosa puede ayudara prevenir/reducir las redundancias einconsistencias mejorando losresultados.

 

Page 29: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 29/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Transformación

Eliminar el ruidoAgregados: construcción de cubos dedatosGeneralizaciónConstrucción de nuevos atributos

 

Page 30: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 30/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Transformación

Normalización: escalar los valores paraque caigan en un rango específico

min-maxz-scoreNormalización basada en

escalamiento decimal

 

T f ió d d

Page 31: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 31/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Transformación de datos:

Normalizaciónmin-max

z-score

Normalización decimal

 A A A

 A A

 A

minnewminnewmaxnewminmax

minvv _)__(' +−

−=

 A

 A

devstand 

meanvv_

'−

=

 j

vv

10' = Where  j is the smallest integer such that Max(| |)<1'v

 

Page 32: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 32/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Reducción de datos

Reducción de datosObtiene una representación reducidadel conjunto de datos que es muchomás pequeña en volumen peroproduce los mismos (o casi losmismo ) resultados

 

Page 33: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 33/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Reducción de datos

Estrategias de reducción de datosAgregados

Reducción de dimensionesDiscretización y generación de jerarquias de conceptos

 

Page 34: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 34/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Reducción de atributosSelección de caracteríticas:

Métodos heurísticosSelección hacia delante

Selección hacia atrásCombinación de estrategiasÁrboles de decisión

 

Page 35: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 35/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Compresión de datosCompresión de cadenas

Existen numerosos algoritmosGeneralmente sin pérdidas

Compresión de Audio/video

Generalmente se pierde informaciónSe puede reconstruir parte de la señal

 

Page 36: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 36/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Compresión de datos

Datos originales DatosComprimidos

Sin pérdida

Original Data

Approximated

  C o  n   p

 é  r d  i d a

 

Análisis de las

Page 37: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 37/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Análisis de las

componentes principalesDados N vectores de k-dimensiones, encontrar

c≤≤≤≤

K vectores ortogonales que se puedenutilizar para representar los datosEl conjunto original de datos se reduce auno de N vectores sobre c componentesprincipalesCada vector es una combinación lineal delos c vectores de componentes principales

(dimensiones resucidas)Solo se puede usar con datos numéricos

 

Page 38: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 38/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

X1

X2Y1

Y2

Análisis de componentes principales

 

Page 39: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 39/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

HistogramasTécnica

popular dereducciónDivide los

datos encubos yalmacena la

media (suma)de cada cubo 0

5

10

15

20

25

30

35

40

10000 30000 50000 70000 90000

 

Page 40: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 40/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Muestreo

Elegir un subconjunto representativo delos datos

El muestreo aleatorio puede serpeligroso dependiendo de ladistribución de los datos

 

Page 41: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 41/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

MuestreoDesarrollar un métodos de muestreo

adaptativosMuestreo estratificado

Que exista el mismo (o aproximado)porcentaje de cada cada clase (osubpoblación de interés) que en la

base de datos total

 

Page 42: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 42/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

 m u e s t r e o

 

 s i n

  r e e m p l a z a

 m i e n t o

C o n  

r e e m  p l a z a m i e n t o Datos

Muestreo

 

Page 43: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 43/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

MuestreoDatos originales Muestra estratificada

 

Page 44: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 44/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

DiscretizaciónTres tipos de atributos

Nominal — valores en un conjunto noordenado

Ordinal — valores en un conjuntoordenado

Continuo — números reales

 

Page 45: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 45/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

DiscretizaciónDiscretización

Divide el rango en de un atributo enintervalos

Algunos algoritmos de clasificaciónsólo aceptan atributos categóricos

Se reduce el tamaño del conjunto de

datos

 

Discretización y jerarquias

Page 46: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 46/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Discretización y jerarquias

de conceptosDiscretización

Reduce el número de valores de unatributo continuo dividiendo el rangodel atributo en intervalos. Las etiquetasde los intervalos se pueden usar parareemplazar los valores reales

 

Discretización y jerarquias

Page 47: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 47/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Discretización y jerarquias

de conceptos

Jerarquías de ConceptosReduce los datos mediante la

sustitución de los valores particularespor conceptos mas generales.

 

Discretización para datos

Page 48: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 48/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Discretización para datos

numéricosIntervalos (“cubos”)

Análisis de histogramasAnálisis de cluster

Discretización basada en la entropíaSegmentación por particionamiento

natural

 

Discretización basada en la

Page 49: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 49/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Discretización basada en la

entropiaDado un conjunto de ejemplos S, si S se

divide en dos intervalos S1 y S2 demanera que se minimize la entropía

El proceso se aplica de manera recursivahasta que se encuentre un criterio de

finalización

  E S T 

S

 Ent 

S

 Ent S

SS

S( , )| |

| |

( )| |

| |

( )= +1

12

2

 

Jerarquías para datos

Page 50: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 50/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

Jerarquías para datos

categóricosSe pueden generar automáticamente

basándose en el número de valores distintosde cada atributo. El atributo con más valoresse sitúa como hoja del árbol

pais

ciudad

calle

15 valores

3500 valores

674.339 valores

 

Page 51: Preprocesamiento

5/13/2018 Preprocesamiento - slidepdf.com

http://slidepdf.com/reader/full/preprocesamiento 51/51

 Facultad de IngenieríaEscuela de Ingeniería de Sistemas y Computación

ResumenLa preparación de los datos en

importantísima en cualquier proceso deanálisis de datos

Incluye

Limpieza e integración

Reducción

Discretización