81
1 CONVOCATORIA 2018 Fundamentos de la Minería de Datos 1 Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Fundamentos de la Minería de Datos

1

Fundamentos de la Minería de Datos

CONVOCATORIA 2018

Fundamentos de la Minería de Datos

1

Fundamentos de la Minería de Datos

Page 2: Fundamentos de la Minería de Datos

2

Fundamentos de la Minería de Datos

I. Introducción

II. Métodos para el tratamiento y análisis de datos

III. Proceso de análisis supervisado

IV. Proceso de análisis no supervisado

V. Métodos estimadores de error

VI. Métodos para análisis del índice de acierto.

PROGRAMA DE LA U.A.

Page 3: Fundamentos de la Minería de Datos

3

• Al término del curso el estudiante conocerá yaplicara las metodologías para la predicciónde datos que permitan pronosticar salidas dedatos y revelar sus relaciones a partir dealgoritmos empleados en la minería de datos:supervisados y no supervisados.

OBJETIVO DE LA UNIDAD DE APRENDIZAJE

Fundamentos de la Minería de Datos

Page 4: Fundamentos de la Minería de Datos

4

• Esta presentación esta desarrollada con base a la unidad deaprendizaje (UA) de Minería de Datos (MD) del programa deestudios de la Maestría en Ciencias de la Computación (MACSCO) como un apoyo para abordar los contenidosdel curso teórico-práctico e ir desarrollando los temas duranteel transcurso del semestre.

• Se aborda el 100% del contenido del temario de la UA a manera introductoria, sin embargo el curso se complementará y profundizará con la práctica mediante el desarrollo e implementación de los algoritmos de MD en el Software Licenciado Matlab, así como en el Software Libre WEKA.

Descripción del Material

Fundamentos de la Minería de Datos

Page 5: Fundamentos de la Minería de Datos

5

UNIDAD I: INTRODUCCIÓN

Fundamentos de la Minería de Datos

Page 6: Fundamentos de la Minería de Datos

6

Introducción Día a día generamos información y esto nos lleva a tener una gran cantidad de esta, lo cual implica que el generar información, nos puede ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier ámbito según el dominio en que nos desarrollemos.

Fundamentos de la Minería de Datos

Page 7: Fundamentos de la Minería de Datos

7

¿Qué es Minería de Datos?

- La extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de datos. (1)

-  La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión(2)

Fundamentos de la Minería de Datos

Page 8: Fundamentos de la Minería de Datos

8

Proceso de Minería de Datos 1/2

Los pasos a seguir para la realización de un proyecto de minería de datos son:

1. La Determinación de los Objetivos. Trata sobre ladelimitación de los objetivos que se requieran

2. Pre procesamiento de los Datos. Se refiere a la selección, lalimpieza, el enriquecimiento, la reducción y transformación de las bases de datos.

Fundamentos de la Minería de Datos

Page 9: Fundamentos de la Minería de Datos

9

3. Determinación del Modelo. Se comienza realizando unosanálisis estadísticos de los datos y después se lleva a cabouna visualización gráfica de los mismos para tener unaprimera aproximación. Según los objetivos planteados y latarea que debe llevarse a cabo son los algoritmos autilizarse.

4. Análisis de los Resultados. Verifica si los resultadosobtenidos son coherentes con los obtenidos por el análisis y la visualización gráfica. Y el cliente determina si le aporta nuevos conocimientos que le permita la toma de decisiones.

9

Proceso de Minería de Datos 2/2

Fundamentos de la Minería de Datos

Page 10: Fundamentos de la Minería de Datos

10

Características de MD ü  Explorarlosdatosqueseencuentranenlasprofundidadesdelas

bases de datos, o almacenes de datos, que algunas vecesconBeneninformaciónalmacenadadurantevariosaños.

ü  Elentornode lamineríadedatos suele tenerunaarquitecturacliente-servidor.

ü  Las herramientas de la minería de datos ayudan a extraer elmineralde la informaciónenterradoenarchivoscorporaBvosoenregistrospúblicosarchivados.

ü  Lasherramientasdelamineríadedatossecombinanfácilmenteypuedenanalizarseyprocesarserápidamente.

ü  LamineríadedatosproducecincoBposdeinformación:• Asociaciones.• Secuencias.• Clasificaciones.• Agrupamientos.• PronósBcos. Fundamentos de la Minería de Datos

Page 11: Fundamentos de la Minería de Datos

11

Aplicaciones de Minería de Datos

Fundamentos de la Minería de Datos

Page 12: Fundamentos de la Minería de Datos

12

UNIDAD II: Métodos para el Tratamiento y

Análisis de Datos.

Fundamentos de la Minería de Datos

Page 13: Fundamentos de la Minería de Datos

13

Introducción 1/2

La disponibilidad de grandes volúmenes deinformación y el uso generalizado deherramientas informáBcas ha transformado elaná l i s i s de datos or ientándolo hac iadeterminadas técn icas espec ia l i zadasenglobadasbajoelnombredemineríadedatoso DataMining.

Fundamentos de la Minería de Datos

Page 14: Fundamentos de la Minería de Datos

14

Los métodos Benen como objeBvo descubrirpatrones, perfiles y tendencias a través delanálisis de los datos uBlizando tecnologías dereconocimiento de patrones, redes neuronales,lógica difusa, algoritmos genéBcos y otrastécnicasavanzadasdeanálisisdedatos.

Introducción 2/2

Fundamentos de la Minería de Datos

Page 15: Fundamentos de la Minería de Datos

15

• DATO:Un dato es un conjuntodiscreto de factores sobe unhecho real. Dentro de uncontexto empresarial, elconcepto de dato esdefinido como, un registrode transacciones.

Conceptos Básicos 1/2

Fundamentos de la Minería de Datos

Page 16: Fundamentos de la Minería de Datos

16

• INFORMACIÓN:A diferencia de los datos la información tienesignificado (relevancia y propósito). No solopueden formar potencialmente al que la recibe, sino que esta organizada para algún propósito.

Conceptos Básicos 2/2

Fundamentos de la Minería de Datos

Page 17: Fundamentos de la Minería de Datos

17

KDDExtraccióndeinformación

KDDtratade interpretargrandescanBdadesdedatosparaencontrarrelacionesopatrones.

Fundamentos de la Minería de Datos

Page 18: Fundamentos de la Minería de Datos

18

¿Cómofunciona?

1. SeiniciaconlaidenBficacióndelosdatos• Quédatossenecesitan• Dondeencontrarlos• Comoconseguirlos

2. SeleccionarlosdatosúBles.

3. Seleccionarlasherramientasytécnicasadecuadas.

Fundamentos de la Minería de Datos

Page 19: Fundamentos de la Minería de Datos

19

Fases de la Minería de Datos 1/3

Fundamentos de la Minería de Datos

Page 20: Fundamentos de la Minería de Datos

20

Selección• Recopilareintegrarlasfuentesdedatosexistentes.• IdenBficaryseleccionarlasvariablesrelevantesenlosdatos.

• Aplicarlastécnicasdemuestreoadecuadas.

Exploración• UBlizarlastécnicasdeanálisisexploratoriodedatos.• Deducirladistribucióndelosdatos,simetríaynormalidad.

• Analizarlascorrelacionesexistentesenlainformación.

Fases de la Minería de Datos 2/3

Fundamentos de la Minería de Datos

Page 21: Fundamentos de la Minería de Datos

21

Limpieza• Detectarytratarlapresenciadevaloresinconsistentes.

• Imputarlainformaciónfaltanteovaloresperdidos.• Eliminardatoserróneoseirrelevantes.

Transformación• UBlizartécnicasdereducciónyaumentodeladimensión.

• Aplicartécnicasdenumerización.

Fases de la Minería de Datos 3/3

Fundamentos de la Minería de Datos

Page 22: Fundamentos de la Minería de Datos

22

RedesneuronalesarAficiales:

Modelos predecible no-lineales que

aprenden a través del entrenamiento y

semejan la estructura de una red neuronal

biológica.

TÉCNICAS DE MINERÍA DE DATOS 1/6

Fundamentos de la Minería de Datos

Page 23: Fundamentos de la Minería de Datos

23

ArbolesdeDecisión:

Estructuras de forma de árbol que

representan conjuntos de decisiones. Estas

decis iones generan reglas para la

clasificacióndeunconjuntodedatos.

TÉCNICAS DE MINERÍA DE DATOS 2/6

Fundamentos de la Minería de Datos

Page 24: Fundamentos de la Minería de Datos

24

AlgoritmosgenéAcos:

TécnicasdeopBmizaciónqueusanprocesos

tales como combinaciones genéBcas,

mutacionesyselecciónnaturalenundiseño

basadoenlosconceptosdeevolución.

TÉCNICAS DE MINERÍA DE DATOS 3/6

Fundamentos de la Minería de Datos

Page 25: Fundamentos de la Minería de Datos

25

MétododelVecinoMásCercano:

Técnica que clasifica cada registro en un

conjunto de datos basado en una

combinación de las clases de los registros

similaresaél.

25

TÉCNICAS DE MINERÍA DE DATOS 4/6

Fundamentos de la Minería de Datos

Page 26: Fundamentos de la Minería de Datos

26

RegladeInducción:

Extracción de reglas de datos basados en

significadoestadísBco,parapoderextraero

determinarlainformaciónimportanteenun

volumenampliodedatos.

TÉCNICAS DE MINERÍA DE DATOS 5/6

Fundamentos de la Minería de Datos

Page 27: Fundamentos de la Minería de Datos

27

Clustering(agrupamiento):Procesodedividirunconjuntodedatosengruposmutuamenteexcluyentesde talmaneraquecadamiembro de un grupo esté lo "más cercano"posible a otro, y grupos diferentes estén lo "máslejos"posibleunodelotro,dondeladistanciaestámedida con respecto a todas las variablesdisponibles.

TÉCNICAS DE MINERÍA DE DATOS 6/6

Fundamentos de la Minería de Datos

Page 28: Fundamentos de la Minería de Datos

28

UNIDAD III: Proceso de Análisis

Supervisado.

Fundamentos de la Minería de Datos

Page 29: Fundamentos de la Minería de Datos

29

• Lastécnicasdelamineríadedatosprovienendelainteligencia arBficial y de la estadísBca. Dichastécnicas,nosonmásquealgoritmos,másomenossofisBcados que se aplican sobre un conjunto dedatos para obtener unos resultados. De entre lasvariadas técnicas, existen las llamadas reglas deasociación.

• Reglas de asociación: Se uBlizan para descubrirhechos que ocurren en común dentro de undeterminadoconjuntodedatos.SegúnelobjeBvodelanálisisdelosdatos,losalgoritmosuBlizadosseclasificanensupervisadosynosupervisados(WeissyIndurkhya,1998).

Introducción 1/2

Fundamentos de la Minería de Datos

Page 30: Fundamentos de la Minería de Datos

30

• Algoritmossupervisados(opredicBvos):predicenundato(ounconjuntodeellos)desconocidoapriori,aparBrdeotrosconocidos.

• Algoritmosnosupervisados(odeldescubrimientodelconocimiento):sedescubrenpatronesytendenciasenlosdatos.

Introducción 2/2

Fundamentos de la Minería de Datos

Page 31: Fundamentos de la Minería de Datos

31

AprendizajeSupervisado1/2• DependiendodesiseesBmaunafunciónounacorrespondencia:– Categorización:SeesBmaunacorrespondencia(lasclasespuedensolapar).

• Ejemplo:determinardeunconjuntodetemasdequétemastrataunadeterminadapáginaweb(cadapáginapuedetratardevariostemas).

– Clasificación:SeesBmaunafunción(lasclasessondisjuntas).

• Ejemplo:determinarelgruposanguíneoaparBrdelosgrupossanguíneosdelospadres.

• Ejemplo:Determinarsiuncompuestoquímicoescancerígeno.

Fundamentos de la Minería de Datos

Page 32: Fundamentos de la Minería de Datos

32

• Técnicas:– k-NN(NearestNeighbor).– k-means(compeBBvelearning).– PerceptronLearning.– MulBlayerANNmethods(e.g.backpropagaBon).– RadialBasisFuncBons.– SupportVectorMachines– DecisionTreeLearning(e.g.ID3,C4.5,CART).– BayesClassifiers.– CenterSplihngMethods.– Rules(CN2)– Pseudo-relaBonal:Supercharging,Pick-and-Mix.– RelaBonal:ILP,IFLP,SCIL.

AprendizajeSupervisado2/2

Fundamentos de la Minería de Datos

Page 33: Fundamentos de la Minería de Datos

33

k-NN(NearestNeighbour):

•  1.Semiranloskcasosmáscercanos.•  2.Sitodossondelamismaclase,elnuevocasoseclasificaenesaclase.

•  3.Sino,secalculaladistanciamediaporclaseoseasignaalaclaseconmáselementos.

Fundamentos de la Minería de Datos

Page 34: Fundamentos de la Minería de Datos

34

Radial-BasisFuncAon

• PRIMERPASO:AlgoritmoClustering:1. Dividiraleatoriamentelosejemplosenkconjuntosycalcularlamedia(elpuntomedio)decadaconjunto.2. Reasignarcadaejemploalconjuntoconpuntomediomáscercano.3. Calcularlospuntosmediosdeloskconjuntos.4. RepeBrlospasos2y3hastaquelosconjuntosnovaríen.

• SEGUNDOPASO:Recodificarlosejemploscomodistanciasaloscentrosynormalizar.

Fundamentos de la Minería de Datos

Page 35: Fundamentos de la Minería de Datos

35

Radial-BasisFuncAon• TERCERPASO:Conunperceptrondekelementosdeentradayunasalida,aplicarelalgoritmovistoantes.

• SeconvierteenunaparBciónlineal(hiperplano)enunespaciode4dimensionesconlosejemplossiendolasdistanciasaloscentros.

Fundamentos de la Minería de Datos

Page 36: Fundamentos de la Minería de Datos

36

MáquinasdeVectoresSoporte1/2

• Sebasanenunclasificadorlinealmuysencillo,precedidodeunatransformacióndeespacio(atravésdeunnúcleo)paradarlepotenciaexpresiva.

Fundamentos de la Minería de Datos

Page 37: Fundamentos de la Minería de Datos

37

MáquinasdeVectoresSoporte2/2

• Elclasificadorlinealqueseusasimplementesacalalínea(enmásdimensiones,elhiperplano)quedividalimpiamentelasdosclasesyademásquelostresejemplosmáspróximosalafronteraesténlomásdistantesposibles.

Fundamentos de la Minería de Datos

Page 38: Fundamentos de la Minería de Datos

38

ÁrbolesdeDecisión(ID3(Quinlan),C4.5(Quinlan),CART)1/4

AlgoritmoDivideyVencerás:1. Secreaunnodoraízcontodoslosejemplos.2. SitodosloselementosdeSsondelamisma

clase,elsubárbolsecierra.Soluciónencontrada.

3. SeeligeunacondicióndeparBciónsiguiendouncriteriodeparBción(splitcriterion).

4. Elproblemaquedasubdividoendossubárboles(losquecumplenlacondiciónylosqueno)ysevuelvea2paracadaunodelosdossubárboles.

Fundamentos de la Minería de Datos

Page 39: Fundamentos de la Minería de Datos

39

• AlgoritmoDivideyVencerás:

ÁrbolesdeDecisión(ID3(Quinlan),C4.5(Quinlan),CART)2/4

Fundamentos de la Minería de Datos

Page 40: Fundamentos de la Minería de Datos

40

ÁrbolesdeDecisión(ID3(Quinlan),C4.5(Quinlan),CART)3/4

Fundamentos de la Minería de Datos

Page 41: Fundamentos de la Minería de Datos

41

ÁrbolesdeDecisión(ID3(Quinlan),C4.5(Quinlan),CART)4/4

Fundamentos de la Minería de Datos

Page 42: Fundamentos de la Minería de Datos

42

CenterSpli`ng1/2

Algoritmo:1. Inicializarelprimercentroenlamediade

losejemplos.2. Asignartodoslosejemplosasucentromás

cercano.3. SihayalgúncentroqueBeneejemplosde

diferenteclase,borrarelcentroycreartantosnuevoscentrosdisBntoscomoclaseshaya,cadaunosiendolamediadelosejemplosdelaclase.Ira2.

Fundamentos de la Minería de Datos

Page 43: Fundamentos de la Minería de Datos

43

CenterSpli`ng2/2

Fundamentos de la Minería de Datos

Page 44: Fundamentos de la Minería de Datos

44

UNIDAD IV: Proceso de Análisis No

Supervisado.

Fundamentos de la Minería de Datos

Page 45: Fundamentos de la Minería de Datos

45

Los métodos no supervisados o también

conocidos como el descubrimiento del

conocimiento Bene como objeBvo principal

descubrir patrones, tendencias en los datos

actuales y determinar que elementos ya sean

genesomuestraspresentanunpatrónsimilar.

Introducción 1/2

Fundamentos de la Minería de Datos

Page 46: Fundamentos de la Minería de Datos

46

Laaplicacióndelosmétodosnosupervisadoses

descubrir los patrones de expresión que

posteriormente podrán usarse en análisis

supervisados.

Introducción 2/2

Fundamentos de la Minería de Datos

Page 47: Fundamentos de la Minería de Datos

47

Técnicas de los Métodos No Supervisados

TenemoslasSiguientes:

• Deteccióndedesviaciones

• Segmentación

• Agrupamiento(“Clustering”)

• Reglasdeasociación

• Patronessecuenciales

• RedesneuronalesnosupervisadasFundamentos de la Minería de Datos

Page 48: Fundamentos de la Minería de Datos

48

Detección de Desviación

Frecuentemente estos objetos son conocidos comoOutlier, la detección de anomalías también esconocida como detección de desviaciones , porqueobjetosanómalosBenenvaloresdeatributosconunadesviación significaBva respecto a los valores mpicosesperados.

Son tratados como ruido o error en muchasoperaciones.

Fundamentos de la Minería de Datos

Page 49: Fundamentos de la Minería de Datos

49

Agrupamiento o Clustering

El agrupamiento se puede considerar como laaproximación mas uBlizada en aprendizaje nosupervisado.

Su objeBvo general es encontrar algún Bpo deestructuraenunacoleccióndedatossineBquetarosinclasificar,yaqueen lamayoríade loscasosnosedisponedeesteBpodeinformación.

Fundamentos de la Minería de Datos

Page 50: Fundamentos de la Minería de Datos

50

Redes Neuronales No Supervisadas

Estas redes son capaces de modificar susparámetros internamente sin necesidad desupervisión.

Las redes neuronales no supervisadas por logeneral Benen una arquitectura sencilla y secaracterizan por ser mas similares a los modelosbiológicosquelasredesneuronalessupervisadas.

Fundamentos de la Minería de Datos

Page 51: Fundamentos de la Minería de Datos

51

Reglas de Asociación

Las reglasdeasociaciónen lamineríadedatos

se uBlizan para encontrar hechos que ocurren

en común dentro de un conjunto de datos.

Dicho de otramanera que debe ocurrir ciertas

condiciones para que se produzca cierta

condición.

Fundamentos de la Minería de Datos

Page 52: Fundamentos de la Minería de Datos

52

Patrones Secuenciales

Laminería de patrones secuenciales es laminería

de patrones que ocurren frecuentemente

relacionadosalBempouaotrassecuencias.

Aplicacionesdelamineríadepatronessecuenciales

Patrones de llamadas telefónicas, flujos de

navegaciónenlaweb.

EstructurasdeADNygenes.

Fundamentos de la Minería de Datos

Page 53: Fundamentos de la Minería de Datos

53

Proceso de un Aprendizaje No Supervisado

Fundamentos de la Minería de Datos

Page 54: Fundamentos de la Minería de Datos

54

Fases del Proceso No Supervisado 1/2

• Las primeras fases son la obtención de datos y supreproceso(selecciónyextraccióndecaracterísBcas).

• En la fase selección y extracción de caracterísBcas elaprendizaje no es la misma, al no disponer deinformaciónacercadelasalida.

• En la fase de entrenamiento no se puede reajustar elmodelo en base al error. Pero sigue siendo necesariosepararlosdatosdeentrenamientoydatosdevalidaciónparadecidirsielmétodoesbuenoono.

Fundamentos de la Minería de Datos

Page 55: Fundamentos de la Minería de Datos

55

• LafasedeseleccióndelalgoritmoyelentrenamientotambiénsemanBenen,enestecasolaposibilidaddevalidarsilosresultadossoncorrectosnoesfrecuente,puestoquenosedisponedeinformacióndesalida.

• La manera de decidir cuando se ha aprendido esviendo si el sistema converge o estableciendo uncriterio de parada como puede ser un numero deiteracionesdefuncionamientomáximo.

Fases del Proceso No Supervisado 2/2

Fundamentos de la Minería de Datos

Page 56: Fundamentos de la Minería de Datos

56

UNIDAD V: Métodos Estimadores de Error.

Fundamentos de la Minería de Datos

Page 57: Fundamentos de la Minería de Datos

57

Tareas de la Minería de Datos 1/2

El proceso de minería involucra ajustar

modelos o determinar patrones a parBr de

datos. Este ajuste normalmente es de Bpo

estadísBco, en el senBdo que se permite un

ciertoruidooerrordentrodelmodelo.

Fundamentos de la Minería de Datos

Page 58: Fundamentos de la Minería de Datos

58

A la hora de evaluar la capacidad predicBva deuna herramienta de DM, el parámetro másimportante suele ser la precisión de laspredicciones que realiza. Para los sistemas deaprendizaje no supervisado, como análisis deconglomerados o generación de reglas deasociación.

Tareas de la Minería de Datos 2/2

Fundamentos de la Minería de Datos

Page 59: Fundamentos de la Minería de Datos

59

La tasa de error es el complemento de la

precisión, mide el porcentaje de las

predicciones que son erróneas. Se suele

uBlizar cuando los niveles de precisión son

muy altos, pues resulta más fácil apreciar la

mejora.

Tasa de Error 1/2

Fundamentos de la Minería de Datos

Page 60: Fundamentos de la Minería de Datos

60

Por ejemplo, la mejora de la precisión del

99,0% al 99,5% puede parecer menos

importantequelamejoradel50%al75%,sin

embargo,enamboscasos latasadeerrorse

reducealamitad(unamejoraespectacular).

Tasa de Error 2/2

Fundamentos de la Minería de Datos

Page 61: Fundamentos de la Minería de Datos

61

A menudo, al realizar la predicción, el

algoritmo de DM proporciona tanto la

predicción como la confianza de que dicha

predicciónseacorrecta.

Tasa de Error en Rechazo 1/3

Fundamentos de la Minería de Datos

Page 62: Fundamentos de la Minería de Datos

62

Por ejemplo, el algoritmo del vecino más

cercano puede proporcionar la misma

predicciónpara todos los vecinos o para una

mayoría.Lapredicciónpuedeserlamismaen

ambos casos, peroenel casodeunanimidad

laconfianzaenlapredicciónesmásalta.

Tasa de Error en Rechazo 2/3

Fundamentos de la Minería de Datos

Page 63: Fundamentos de la Minería de Datos

63

Las prediccionespuedenordenarse según su

confianza y las que menos confianza

"inspiran"puedenrechazarse.Deestaforma,

sepuededuplicarlaprecisiónrechazandoun

80%depredicciones.

Tasa de Error en Rechazo 3/3

Fundamentos de la Minería de Datos

Page 64: Fundamentos de la Minería de Datos

64

Para las variables conBnuas, el grado de mal

emparejamiento entre la predicción y el valor

realpuedencalcularserestandolosdosvaloresy

elevando el resultado al cuadrado. Este "error

cuadrado" puede promediarse sobre todas las

predicciones para esBmar la distancia entre los

valoresrealesylaspredicciones.

Error Cuadrático Medio 1/2

Fundamentos de la Minería de Datos

Page 65: Fundamentos de la Minería de Datos

65

LaelevaciónalcuadradoBenedosventajas:

1. Porunlado,daunmayorpesoaloserrores

graves.

2. Por otro lado, asegura que todos los

erroressonposiBvosysesumana lahora

decalcularlamedia.

Error Cuadrático Medio 1/2

Fundamentos de la Minería de Datos

Page 66: Fundamentos de la Minería de Datos

66

Que consiste en dividir el conjunto de

entrenamiento en n subconjuntos n-1 de los

cuálesserviránrealmenteparaelentrenamiento

del sistemay1para la esBmacióndel error. Sin

embargo,elproblemaesquelaconstruccióndel

clasificadorsellevaacaboconmenosejemplos.

Reduced-Error Pruning

Fundamentos de la Minería de Datos

Page 67: Fundamentos de la Minería de Datos

67

UNIDAD VI: Métodos para Análisis del

Índice de Acierto.

Fundamentos de la Minería de Datos

Page 68: Fundamentos de la Minería de Datos

68

FormasdeAnálisis

• Asumirdistribucionesapriori.

• Criterio de simplicidad, de descripción o

transmisiónmínimas.

• Separar:TrainingSetyTestSet.– Cross-validaBon.

• Basadasenrefuerzo.

Fundamentos de la Minería de Datos

Page 69: Fundamentos de la Minería de Datos

69

EvaluaciónporTécnicasBayesianas1/2

• Lamejorhipótesiseslamásprobable.

• BasadasenelteoremadeBayes.DespejanP(h|D).

• La distribución de hipótesis a priori P(h) y la

probabilidad de unas observaciones respecto a cada

hipótesisP(D|h)debenserconocidas.

• Son sólo técnicas evaluadoras aunque si el conjunto

de hipótesis H es reducido se pueden uBlizar en

algoritmosdeaprendizaje.Fundamentos de la Minería de Datos

Page 70: Fundamentos de la Minería de Datos

70

• Permiten acomodar hipótesis probabilísBcas tales

como “este paciente de neumonía Bene un 93% de

posibilidadesderecuperarse”.

• Muchas veces no se conoce P(h) o incluso P(D|h).

Sehacensuposiciones:distribuciónuniforme,normal

o universal.

EvaluaciónporTécnicasBayesianas2/2

Fundamentos de la Minería de Datos

Page 71: Fundamentos de la Minería de Datos

71

TeoremadeBayesTeoremadeBayes,yMaximumLikelihood(ProbabilidadMáxima):• P(h|D):probabilidaddeunahipótesisdadounconjuntodedatos.

• P(h):probabilidadaprioridelashipótesis.• P(D|h):probabilidaddeDdadalahipótesis.• P(D):probabilidadaprioridelosdatos(sinotrainformación).

Fundamentos de la Minería de Datos

Page 72: Fundamentos de la Minería de Datos

72

MAP(MaximumaPosteriori)

ElMáximoaPosterioriserepresentaconlasiguienteexpresión:

Fundamentos de la Minería de Datos

Page 73: Fundamentos de la Minería de Datos

73

MaximumLikelihood

ElMáximodeLikelihoodserepresentaconlasiguienteexpresión:

Fundamentos de la Minería de Datos

Page 74: Fundamentos de la Minería de Datos

74

ElPrincipioMDL(MinimumDescripBonLength)

Asumimos P(h) como la distribución universal (Occam’s Razor):

FORMALIZACIÓNDELANAVAJADEOCCAM:

“Lashipótesisconmínimadescripciónmáspequeñasonmásprobables”.

donde K(·) es la complejidad descriptiva (Kolmogorov) de H.

Fundamentos de la Minería de Datos

Page 75: Fundamentos de la Minería de Datos

75

ParBcióndelaMuestra

• EvaluarunahipótesissobrelosmismosdatosquehanservidoparagenerarladasiempreresultadosmuyopBmistas.Solución:PARTIREN:TrainingSetyTestSet.

• Silosdatosdisponiblessongrandes(oilimitados):– TrainingSet:conjuntoconelqueelalgoritmoaprendeunao máshipótesis.

– TestSet:conjuntoconelqueseseleccionalamejordelasanterioresyseesBmasuvalidez.

• Paraproblemasconclasediscreta,secalculala“accuracy”,quesemidecomoelporcentajedeaciertossobreeltestset.

• Paraproblemasconclasecon@nua,seuBlizalamediadelerrorcuadráBcouotrasmedidassobreeltestset.

Fundamentos de la Minería de Datos

Page 76: Fundamentos de la Minería de Datos

76

Accuracy• SuponiendolamuestraSdenejemplos,lahipótesishes

discretaysonindependientes.• Sin>=30,nospermiteaproximarladistribuciónbinomial

conlanormal.• Calculadoelerrors(h)sobrelamuestracomonºerrores/n

Podemosobtenerunintervalodeconfianzaaunnivelc:

Algunos valores de la tabla normal: Niveldeconfianzac: 50 68 80 90 95 98 99

ConstanteZc: 0.67 1.00 1.28 1.64 1.96 2.33 2.58

Fundamentos de la Minería de Datos

Page 77: Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos 77

EjemploPrácBco

𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ)± 𝑍↓𝑖 √𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ)(1− 𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ))/𝑛  =0.3±1.96√0.3(1−0.3)/40  =0.3±0.14

Porlotanto,paraconseguirunniveldeconfianzadel95%,esnecesarioque:

𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ)=0.3±0.14

𝑐𝑜𝑚𝑜 0.3+0.14=0.44 𝑦 0.3−0.14=0.16, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠,

𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑝𝑒𝑟𝑚𝑖𝑡𝑖𝑑𝑜 𝑒𝑠𝑡á 𝑒𝑛𝑡𝑟𝑒 17.6 𝑦 6.4

Considerando que una hipótesis da 12 errores sobre 40 ejemplos, por tanto, que con confianza 95% (Zc = 1.96):

𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ)= 12/40 

𝑒𝑟𝑟𝑜𝑟↓𝑠 (ℎ)=0.3

Page 78: Fundamentos de la Minería de Datos

78

BIBLIOGRAFÍA

Fundamentos de la Minería de Datos

Page 79: Fundamentos de la Minería de Datos

Fundamentos de la Minería de Datos 79

• SumathiS.,SivanandamS.N.(2006).IntroducBontodatamininganditsapplicaBons.Springer.

• VermaB.,BlumensteinM.(2008).PawernRecogniBonTechnologiesandApplicaBons:RecentAdvances.IGIGlobal.

• Eldén L. (2007). Matrix Methods in Data Mining and PawernRecogniBon(FundamentalsofAlgorithms).SocietyforIndustrialandAppliedMathemaBcs.

• SkillicornD. (2007).UnderstandingComplexDatasets:DataMiningwithMatrixDecomposiBons.Chapman&Hall/CRCPress.

• WuX.,KumarV.(2009).Thetoptenalgorithmsindatamining.CRCPress.

• TanP.,SteinbachM.,KumarV.(2006).IntroducBontoDataMining.PearsonAddisonWesley.

BIBLIOGRAFÍA

Page 80: Fundamentos de la Minería de Datos

80

REFERENCIAS WEB

• http://www.it.uc3m.es/jvillena/irc/practicas/03-04/20.pres.pdf

• http://users.dsic.upv.es/~jorallo/cursoDWDM/dwdm-III-1.ppt

• http://exa.unne.edu.ar/informatica/SO/IM_2006.pdf

• http://inacap.serveftp.com/tic2/2_Prueba/02102014/mineria%20de

%20datos.ppt

• http://adimen.si.ehu.es~rigauteachingEHUABDCurs%202005-

2006EntregesBD%20emergetsPresentacion%20Data%20Mining.ppt

* De las cuales se tomaron imágenes para ilustrar este material.

Fundamentos de la Minería de Datos

Page 81: Fundamentos de la Minería de Datos

81

® Derechos Reservados: Universidad Autónoma del Estado de México

2018

Fundamentos de la Minería de Datos