Mineria de Datos Final

Embed Size (px)

Citation preview

INSTITUTO TECNOLOGICO DE ACAPULCO

MINERIA DE DATOSTrabajo final

MAXIMILIANO FUENTES FLORES MIGUEL ANGELITO DORANTES ANALILIAN GARCIA LOZANO OTNIEL ABARCA GARCIA RAUL ESPINOZA TORRES

Este trabajo fue realizado con la finalidad de servir como apoyo acadmico a los titulares de la materia de minera de datos, proporcionando informacin recopilada de diferentes autores.

INDICE UNIDAD 1 Minera de datos1.1. Qu es minera de datos. 1.2. Tipos de datos. 3pa 1.3. Tipos de modelos de datos. 1.4. Proceso de descubrimiento de conocimiento. 1.5. Sistemas para el soporte de decisiones. 1.6. Sistemas operacionales vs Sistemas para la toma de decisiones. 1.7. Herramientas para la minera de datos. 8 11 18 22 23 3

UNIDAD 2 Proceso de extraccin.2.1. Introduccin. 2.2. Etapas del proceso de extraccin del conocimiento. 2.3. Etapa de recopilacin e integracin. 2.4. Etapa de seleccin, limpieza y transformacin. 2.5. Etapa de minera de datos. 2.6. Etapa de evaluacin e interpretacin. 2.7. Etapa de difusin. 25 26 27 28 28 29 29

UNIDAD 3 Exploracin de Datos3.1 Estadsticas de resumen 30

1

3.2 Visualizacin 3.3 OLAP

32 34

UNIDAD 4 Programacin Lgica Inductiva (ILP)4.1 Nociones de Lgica. 4.2 Programacin Lgica Inductiva (ILP) 37 42

UNIDAD 5 Mtodos de Aprendizaje5.1Aprendizaje Inductivo 5.2 Espacio de Versiones 5.3 Espacio de Versiones Generalizado 5.4 Aprendizaje basado en similaridades (SBL) 5.5 Induccin de rboles de Decisin Aprendizaje de Reglas 52 58 68 70 71

2

UNIDAD 1MINERIA DE DATOS 1.- Qu es la Minera de Datos? La minera de datos (DM, Data Mining) consiste en la extraccin no trivial de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea y explora los datos para sacar la informacin oculta en ellos. Bajo el nombre de minera de datos se engloba todo un conjunto de tcnicas encaminadas a la extraccin de conocimiento procesable, implcito en las bases de datos. Est fuertemente ligado con la supervisin de procesos industriales ya que resulta muy til para aprovechar los datos almacenados en las bases de datos. El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Bsicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en algunos casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las redes neuronales.

1.2.- Tipos de Datos Existen bsicamente dos tipos de modelos de datos que pueden generar estas tcnicas de Minera de Datos, estos dos tipos son: Predictivos y/o Descriptivos

PredictivosUn modelo predictivo, como su propio nombre indica, intenta predecir o responder a preguntas futuras en base a un estudio de su comportamiento pasado. Algunas de las preguntas que podramos responder con este tipo de modelo de datos son:

3

Qu tal se vender el prximo ao un producto X? o X tipo de persona, qu producto comprar? o Dnde se producir el siguiente atentado terrorista? o Qu riesgo tiene cierta persona de contraer una enfermedad X en base a sus caractersticas? o Qu clientes tienen ms riesgos de darse de baja de nuestra empresa? o

Ejemplo de Modelo PredictivoVamos a predecir si jugaremos a ftbol hoy o no. Hemos recogido los siguientes datos de experiencias pasadas:

Construimos el rbol de decisin asociado:

4

Con este modelo, podemos predecir si jugaremos o no. Por ejemplo: (Si Cielo = Soleado, Temperatura = Calor, Humedad = Alta y Viento = Fuerte) Resultado = No Descriptivos Este tipo de modelo, trata de proporcionar informacin entre las relaciones de los datos y sus caractersticas.

Algunas de las preguntas que se podran tratar de responder con este tipo de modelo son: Los clientes que compran X tambin compran Y. Los nios que no tienen X son muy distintos del resto. X e Y son los factores ms influyentes en contraer la enfermedad Z.

5

Ejemplo de Modelo Descriptivo En este ejemplo queremos hacer una categorizacin de los empleados que tenemos actualmente en plantilla. Tenemos los siguientes datos:

Para este ejemplo, utilizaremos un algoritmo de clustering K-means.

Aplicando este algoritmo, el resultado son 3 clusters:

6

Por tanto, nos da como resultado 3 grupos principales con sus caractersticas, estos son: Cluster 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas. Cluster 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres. Cluster 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres

7

1.3.- Tipos de Modelos de DatosUn modelo de datos es bsicamente una "descripcin" de algo conocido como contenedor de datos (algo en donde se guarda la informacin), as como de los mtodos para almacenar y recuperar informacin de esos contenedores. Los modelos de datos no son cosas fsicas: son abstracciones que permiten la implementacin de un sistema eficiente de base de datos; por lo general se refieren a algoritmos, y conceptos matemticos. Algunos modelos con frecuencia utilizados en las bases de datos: Bases de datos jerrquicas stas son bases de datos que, como su nombre indica, almacenan su informacin en una estructura jerrquica. En este modelo los datos se organizan en una forma similar a un rbol (visto al revs), en donde un nodo padre de informacin puede tener varios hijos. El nodo que no tiene padres es llamado raz, y a los nodos que no tienen hijos se los conoce como hojas. Las bases de datos jerrquicas son especialmente tiles en el caso de aplicaciones que manejan un gran volumen de informacin y datos muy compartidos permitiendo crear estructuras estables y de gran rendimiento. Una de las principales limitaciones de este modelo es su incapacidad de representar eficientemente la redundancia de datos. Base de datos de red ste es un modelo ligeramente distinto del jerrquico; su diferencia fundamental es la modificacin del concepto de nodo: se permite que un mismo nodo tenga varios padres (posibilidad no permitida en el modelo jerrquico). Fue una gran mejora con respecto al modelo jerrquico, ya que ofreca una solucin eficiente al problema de redundancia de datos; pero, aun as, la dificultad que significa administrar la informacin en una base de datos de red ha significado que sea un modelo utilizado en su mayora por programadores ms que por usuarios finales. Bases de datos transaccionales Son bases de datos cuyo nico fin es el envo y recepcin de datos a grandes velocidades, estas bases son muy poco comunes y estn dirigidas por lo general al entorno de anlisis de calidad, datos de produccin e industrial, es importante entender que su fin nico es recolectar y recuperar los datos a la mayor velocidad posible, por lo tanto la redundancia y duplicacin de informacin no es un problema como con las dems bases de datos, por lo general para poderlas

8

aprovechar al mximo permiten algn tipo de conectividad a bases de datos relacionales. Un ejemplo habitual de transaccin es el traspaso de una cantidad de dinero entre cuentas bancarias. Normalmente se realiza mediante dos operaciones distintas, una en la que se decrementa el saldo de la cuenta origen y otra en la que incrementamos el saldo de la cuenta destino. Para garantizar la atomicidad del sistema (es decir, para que no aparezca o desaparezca dinero), las dos operaciones deben ser atmicas, es decir, el sistema debe garantizar que, bajo cualquier circunstancia (incluso una cada del sistema), el resultado final es que, o bien se han realizado las dos operaciones, o bien no se ha realizado ninguna. Bases de datos relacionales ste es el modelo utilizado en la actualidad para modelar problemas reales y administrar datos dinmicamente. Tras ser postulados sus fundamentos en 1970 por Edgar Frank Codd, de los laboratorios IBM en San Jos (California), no tard en consolidarse como un nuevo paradigma en los modelos de base de datos. Su idea fundamental es el uso de "relaciones". Estas relaciones podran considerarse en forma lgica como conjuntos de datos llamados "tuplas". Pese a que sta es la teora de las bases de datos relacionales creadas por Codd, la mayora de las veces se conceptualiza de una manera ms fcil de imaginar. Esto es pensando en cada relacin como si fuese una tabla que est compuesta por registros (las filas de una tabla), que representaran las tuplas, y campos (las columnas de una tabla). En este modelo, el lugar y la forma en que se almacenen los datos no tienen relevancia (a diferencia de otros modelos como el jerrquico y el de red). Esto tiene la considerable ventaja de que es ms fcil de entender y de utilizar para un usuario espordico de la base de datos. La informacin puede ser recuperada o almacenada mediante "consultas" que ofrecen una amplia flexibilidad y poder para administrar la informacin. El lenguaje ms habitual para construir las consultas a bases de datos relacionales es SQL, StructuredQueryLanguage o Lenguaje Estructurado de Consultas, un estndar implementado por los principales motores o sistemas de gestin de bases de datos relacionales. Durante su diseo, una base de datos relacional pasa por un proceso al que se le conoce como normalizacin de una base de datos. Durante los aos 80 la aparicin de dBASE produjo una revolucin en los lenguajes de programacin y sistemas de administracin de datos. Aunque nunca debe olvidarse que dBase no utilizaba SQL como lenguaje base para su gestin. Bases de datos multidimensionales

9

Son bases de datos ideadas para desarrollar aplicaciones muy concretas, como creacin de Cubos OLAP. Bsicamente no se diferencian demasiado de las bases de datos relacionales (una tabla en una base de datos relacional podra serlo tambin en una base de datos multidimensional), la diferencia est ms bien a nivel conceptual; en las bases de datos multidimensionales los campos o atributos de una tabla pueden ser de dos tipos, o bien representan dimensiones de la tabla, o bien representan mtricas que se desean estudiar. [Bases de datos orientadas a objetos Artculo principal:Base de datos orientada a objetos Este modelo, bastante reciente, y propio de los modelos informticos orientados a objetos, trata de almacenar en la base de datos los objetos completos (estado y comportamiento). Una base de datos orientada a objetos es una base de datos que incorpora todos los conceptos importantes del paradigma de objetos:

Encapsulacin - Propiedad que permite ocultar la informacin al resto de los objetos, impidiendo as accesos incorrectos o conflictos. Herencia - Propiedad a travs de la cual los objetos heredan comportamiento dentro de una jerarqua de clases. Polimorfismo - Propiedad de una operacin mediante la cual puede ser aplicada a distintos tipos de objetos.

En bases de datos orientadas a objetos, los usuarios pueden definir operaciones sobre los datos como parte de la definicin de la base de datos. Una operacin (llamada funcin) se especifica en dos partes. La interfaz (o signatura) de una operacin incluye el nombre de la operacin y los tipos de datos de sus argumentos (o parmetros). La implementacin (o mtodo) de la operacin se especifica separadamente y puede modificarse sin afectar la interfaz. Los programas de aplicacin de los usuarios pueden operar sobre los datos invocando a dichas operaciones a travs de sus nombres y argumentos, sea cual sea la forma en la que se han implementado. Esto podra denominarse independencia entre programas y operaciones. SQL:2003, es el estndar de SQL92 ampliado, soporta los conceptos orientados a objetos y mantiene la compatibilidad con SQL92. Bases de datos documentales Permiten la indexacin a texto completo, y en lneas generales realizar bsquedas ms potentes. Tesaurus es un sistema de ndices optimizado para este tipo de bases de datos.

10

Bases de datos deductivas Un sistema de base de datos deductiva, es un sistema de base de datos pero con la diferencia de que permite hacer deducciones a travs de inferencias. Se basa principalmente en reglas y hechos que son almacenados en la base de datos. Las bases de datos deductivas son tambin llamadas bases de datos lgicas, a raz de que se basa en lgica matemtica. Este tipo de base de datos surge debido a las limitaciones de la Base de Datos Relacional de responder a consultas recursivas y de deducir relaciones indirectas de los datos almacenados en la base de datos.

1.4 PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO

En este tipo de aprendizaje el individuo tiene una gran participacin. El instructor no expone los contenidos de un modo acabado; su actividad se dirige a darles a conocer una meta que ha de ser alcanzada y adems de servir como mediador y gua para que los individuos sean los que recorran el camino y alcancen los objetivos propuestos. En otras palabras, el aprendizaje por descubrimiento es cuando el instructor le presenta todas las herramientas necesarias al individuo para que este descubra por si mismo lo que se desea aprender. Constituye un aprendizaje bastante til, pues cuando se lleva a cabo de modo idneo, asegura un conocimiento significativo y fomenta hbitos de investigacin y rigor en los individuos. Jerome Bruner atribuye una gran importancia a la actividad directa de los individuos sobre la realidad. FORMAS DE DESCUBRIMIENTOS: El mtodo de descubrimiento tiene variadas formas que son apropiadas para alcanzar diferentes tipos de objetivos, adems sirve para individuos con diferentes niveles de capacidad cognitiva. Descubrimiento inductivo:Este tipo de descubrimiento implica la coleccin y reordenacin de datos para llegar a una nueva categora, concepto o generalizacin. Pueden identificarse dos tipos de lecciones que usan la forma inductiva de descubrimiento. a)La leccin abierta de descubrimiento inductivo: es aquella cuyo fin principal es proporcionar experiencia a los nios en un proceso particular de bsqueda: el

11

proceso de categorizacin o clasificacin. No hay una categora o generalizacin particulares que el profesor espera que el nio descubra. La leccin se dirige a "aprender cmo aprender", en el sentido de aprender a organizar datos. En este tipo de descubrimiento, la capacidad de categorizar se desarrolla gradualmente en los nios con edades comprendidas entre los seis y los once aos (estadio intuitivo o concreto Piaget). Un ejemplo de leccin abierta de descubrimiento inductivo sera aquella en que la que se dieran a los nios fotografas de varias clases de alimentos y se les pidiera que las agruparan. Algunos nios podran categorizarlas como "alimentos del desayuno", "alimentos de la comida" y "alimentos de la cena". Otros podran agrupar los alimentos como carnes, verdura, frutas, productos lcteos, etc. Otros incluso podran agruparlos en base al color, la textura o el lugar de origen. La leccin abierta de descubrimiento inductivo, pues, es aquella en que el nio es relativamente libre de dar forma a los datos a su manera. Se espera que el hacerlo as vaya aprendiendo a observar el mundo en torno suyo y a organizarlo para sus propios propsitos. b)La leccin estructurada de descubrimiento inductivo: es aquella cuyo fin principal es que los nios adquieran un concepto determinado. El objetivo principal es la adquisicin del contenido del tema a estudiar dentro del marco de referencia del enfoque de descubrimiento. En este tipo de descubrimiento, el desarrolla es gradualmente en los nios con edades comprendidas entre los ocho aos en adelante (estadio concreto o formal Piaget). Un ejemplo de este tipo de descubrimiento seria darles una cantidad de fotos a los nios y pedirles que colocaran cada una en un grupo. Esas fotos podran incluir compradores en una tienda, un padre leyendo un cuento a dos nios y un grupo de nios trabajando en una clase. La discusin sobre las fotos se referira a las semejanzas y diferencias entre los grupos. Finalmente, se desarrollaran los conceptos de grupos primarios, secundarios y no integrados. La leccin estructurada de descubrimiento inductivo utiliza materiales concretos o figurativos. Se desarrollan conceptos propios de las ciencias descriptivas. Lo que destaca es la importancia de la organizacin de los datos. Descubrimiento deductivo: El descubrimiento deductivo implicara la combinacin o puesta en relacin de ideas generales, con el fin de llegar a enunciados especficos, como en la construccin de un silogismo. Un ejemplo de silogismo seria Me dijeron que no soy nadie. Nadie es perfecto. Luego, yo soy perfecto. Pero slo Dios es perfecto. Por tanto, yo soy Dios.

12

a)La leccin simple de descubrimiento deductivo: Esta tcnica de instruccin implica hacer preguntas que llevan al estudiante a formar silogismos lgicos, que pueden dar lugar a que el estudiante corrija los enunciados incorrectos que haya hecho. En este tipo de descubrimiento, el desarrolla es gradualmente en los nios con edades comprendidas entre los 11 y 12 aos en adelante (estadio formal Piaget). En este tipo de leccin el profesor tiende a controlar los datos que usan los estudiantes, ya que sus preguntas deben estar dirigidas a facilitar proposiciones que lleven lgicamente a una conclusin determinada. En este tipo de enfoque, el estudiante debe pensar deductivamente y los materiales son esencialmente abstractos. Esto es, el estudiante trata con relaciones entre proposiciones verbales. El fin primario de este tipo de leccin es hacer que los estudiantes aprendan ciertas conclusiones o principios aceptados. Sin embargo, esas conclusiones se desarrollan haciendo que el estudiante utilice el proceso deductivo de bsqueda y no simplemente formulando la conclusin. b)La leccin de descubrimiento semideductivo: Es en la que los nios piensan inductivamente en un sistema deductivo. Llegan a reglas o propiedades observando datos especficos. Pero las reglas o propiedades que pueden descubrir estn controladas por el sistema en que trabajan. El sistema (esto es, los elementos con los que se trabaja y la operacin que se utiliza) limita los posibles resultados. El resultado educativo es que el proceso de enseanza se simplifica, ya que se reduce en gran medida la probabilidad de que los nios lleguen a una conclusin inesperada. En este tipo de descubrimiento, el desarrolla es gradualmente en los nios con edades comprendidas entre los 8 aos en adelante (estadio concreto o formal Piaget). Un ejemplo de leccin de descubrimiento semideductivo sera aquel en que se pidiera a los nios que hicieran una lista de veinte nmeros enteros que ellos mismos eligieran. Se les podra pedir entonces que dividieran cada nmero por dos. Finalmente, se les podra decir que vieran cuntos restos diferentes obtenan y que agruparan el nmero de acuerdo con el resto obtenido. Cuando la clase comparara los resultados, encontrara que hay dos grupos de nmeros: los de resto cero, llamados pares, y los de resto uno llamados nmeros impares. Los nios habran llegado a estas dos categoras por observacin de ejemplos especficos. Pero los datos que hubieran observado habran sido seleccionados en gran parte por los propios nios ms que por el profesor. El resultado (la generalizacin de los nios) est determinado por las reglas del sistema, ms que por la seleccin y organizacin de los datos.

13

c) La leccin de descubrimiento hipottico-deductivo: es aquella en que los nios utilizan una forma deductiva de pensamiento. En general, esto implicar hacer hiptesis respecto a las causas y relaciones o predecir resultados. La comprobacin de hiptesis o la prediccin sera tambin una parte esencial de la leccin. En este tipo de descubrimiento, el desarrolla es gradualmente en los nios con edades comprendidas entre los 11 y 12 aos en adelante (estadio formal Piaget). Un ejemplo de este tipo de leccin sera aquel en que se mostrara a los estudiantes un experimento tradicional, tal como una jarra de agua puesta a calentar, cerrada, y enfriada, con la consiguiente rotura de la jarra. Se les pedira despus que determinaran qu aspectos de este procedimiento no podran cambiarse sin que cambiaran los resultados. Esto requerira que identificaran las variables y las cambiaran de una en una, o en otras palabras, que pusieran a prueba el efecto de cada variable. Ya que las hiptesis necesitaran ser contrastadas con la realidad, en la leccin de descubrimiento hipottico deductivo se requerirn frecuentemente materiales concretos. Del mismo modo, como el nio propone hiptesis, tiende a ejercer algn control sobre los datos especficos con los que trabaja. Descubrimiento transductivo: En el pensamiento transductivo el individuo relaciona o campar dos elementos particulares y advierte que son similares en uno o dos aspectos. Por ejemplo, un canguro es como una zarigeya, porque los dos llevan a sus bebs en bolsas. Una jirafa es como un avestruz, porque ambos tienen el cuello largo. Un coche es como un caballo de carreras, porque los dos van deprisa. El pensamiento transductivo puede llevar a la sobregeneralizacin o al pensamiento estereotipado, y as mucha gente sugiere que es un pensamiento no lgico. Sin embargo, el mismo proceso puede llevar a percepciones divergentes o imaginativas del mundo, y por eso mucha gente caracteriza al pensamiento transductivo como altamente creativo. El razonamiento transductivo se conoce ms comnmente como pensamiento imaginativo o artstico. Es el tipo de pensamiento que produce analogas o metforas. Por ejemplo la frase "la niebla viene a pasos de un gato pequeo...". Aqu, las caractersticas particulares de la niebla se relacionan con las caractersticas particulares de un gato. a) La leccin de descubrimiento transductivo: es aquella en que se anima a los nios a que usen el pensamiento transductivo. El fin general de la leccin sera desarrollar destrezas en los mtodos artsticos de bsqueda. La seleccin y organizacin de los "datos" o materiales especficos estar en gran parte controlada por el nio.

14

En este tipo de descubrimiento, el desarrolla es gradualmente en los nios con edades comprendidas entre los 8 aos en adelante (estadio concreto o formal Piaget). Los factores que afectan al descubrimiento en la leccin transductiva son cosas tales como el tipo de material, la familiaridad del nio con los materiales y la cantidad de tiempo disponible para le experimentacin con los materiales, por mencionar solamente unos pocos.

CONDICIONES DE APRENDIZAJE POR DESCUBRIMIENTO: Las condiciones que se deben presentar para que se produzca un aprendizaje por descubrimiento son:

El mbito de bsqueda debe ser restringido, ya que as el individuo se dirige directamente al objetivo que se planteo en un principio. Los objetivos y los medios estarn bastante especificados y sern atrayentes, ya que as el individuo se incentivara a realizar este tipo de aprendizaje. Se debe contar con los conocimientos previos de los individuos para poder as guiarlos adecuadamente, ya que si se le presenta un objetivo a un individuo del cual ste no tiene la base, no va a poder llegar a su fin. Los individuos deben estar familiarizados con los procedimientos de observacin, bsqueda, control y medicin de variables, o sea, tiene el individuo que tener conocimiento de las herramientas que se utilizan en el proceso de descubrimiento para as poder realizarlo. Por ultimo, los individuos deben percibir que la tarea tiene sentido y merece la pena, esto lo incentivara a realizar el descubrimiento, que llevara a que se produzca el aprendizaje. PRINCIPIOS DEL APRENDIZAJE POR DESCUBRIMIENTO: Los principios que rigen este tipo de aprendizaje son los siguientes:

o

Todo el conocimiento real es aprendido por uno mismo, es decir, que el individuo adquiere conocimiento cuando lo descubre por el mismo o por su propio discernimiento.

15

o

El significado es producto exclusivo del descubrimiento creativo y no verbal, es decir, que el significado que es la relacin e incorporacin de forma inmediata de la informacin a su estructura cognitiva tiene que ser a travs del descubrimiento directo y no verbal, ya que los verbalismos son vacos. El conocimiento verbal es la clave de la transferencia, es decir, que la etapa sub.verbal, la informacin que es entendida no esta con claridad y precisin, pero cuando el producto de este se combina o refina con la expresin verbal adquiere poder de transferencia. El mtodo del descubrimiento es el principal para transmitir el contenido de la materia, es decir, que las tcnicas de aprendizaje por descubrimiento pueden utilizarse en la primera etapa escolar (para mayor comprensin verbal) para entender mejor lo que se explica pero en las etapas posteriores no es factible por el tiempo que este lleva. En forma contraria se ha dicho que el aprendizaje por recepcin verbal es el mtodo ms eficaz para transmitir la materia. La capacidad para resolver problemas es la meta principal de la educacin, es decir, la capacidad de resolver problemas es la finalidad educativa legtima, para esto es muy razonable utilizar mtodos cientficos de investigacin. En un sentido contradictorio, se encuentra lejos que la capacidad de resolver problemas sea una funcin primaria en la educacin. El entrenamiento en la Heurstica del descubrimiento es ms importante que la enseanza de la materia de estudio, es decir, la enseanza de materia no produce un mejoramiento en la educacin, por lo cual el descubrimiento seria ms importante, aunque en forma contraria, se ha dicho que el aprendizaje por descubrimiento tampoco es importante en la educacin. Cada nio debiera ser un pensador creativo y critico, es decir, se puede mejorar y obtener nios pensadores, creativos y crticos mejorando el sistema de educacin y as obtendramos alumnos capaces de dominar el mbito intelectual as como un incremento del entendimiento de las materias de sus estudios. La enseanza expositiva es autoritaria, es decir, que este tipo de enseanza si se les obliga explicita o tcitamente a aceptarlas como dogmas es autoritario, pero si no cumple estos requisitos no se puede decir que es autoritaria ya que la idea en si es explicar ideas a otros individuos sin que se transformes en dogmas. El descubrimiento organiza de manera eficaz lo aprendido para emplearlo ulteriormente, es decir, ejecuta una accin basada en los conocimientos cuando esta estructurada, simplificada y programada para luego incluir varios ejemplares del mismo principio en un orden de dificultad. El descubrimiento es el generador nico de motivacin y confianza en si mismo, es decir, que la exposicin diestra de ideas puede ser tambin la estimulacin

o

o

o

o

o

o

o

o

16

intelectual y la motivacin hacia la investigacin genuina aunque no en el mismo grado que el descubrimiento.o

El descubrimiento es una fuente primaria de motivacin intrnseca, es decir, que el individuo sin estimulacin intrnseca adquiere la necesidad de ganar smbolos (elevadas calificaciones y la aprobacin del profesor) como tambin la gloria y el prestigio asociados con el descubrimiento independiente de nuestra cultura. El descubrimiento asegura la conservacin del recuerdo, es decir, que a travs de este tipo de aprendizaje es ms probable de que el individuo conserve la informacin.

o

El proceso de Descubrimiento de Conocimiento en Bases de Datos (mas conocido por su nombre en ingles, KnowledgeDiscovery in Databases) es el proceso de extraccin de conocimiento util, implcito y previamente desconocido a partir de grandes volmenes de datos. Dicho proceso se compone de diferentes etapas entre las que cabe destacar la etapa de Data Mining, en la que se analizan los datos y se extrae conocimiento util de ellos haciendo uso de un conjunto de algoritmos. Data Mining ofrece una gran variedad de tcnicas para resolver diferentes tipos de problemas. En los ltimos anos, dichas tcnicas han sido empleadas en multitud de dominios en los que el anlisis se ha centrado en individuos cuya informacion se representa habitualmente mediante una tabla de atributos univaluados de tipo entero, real o enumerado. Sin embargo, existen muchos dominios en los que cada individuo no se representa mediante una simple tabla de atributos sino mediante un conjunto de datos con estructura ms compleja, incluyendo tanto atributos univaluados como series temporales. El KDD ( KnowledgeDiscoveryfromDatabases) es el proceso no trivial de identi-car patrones vlidos, novedosos, potencialmente tiles y en ltima instancia, comprensibles a partir de los datos. [10] El objetivo fundamental del KDD ( KnowledgeDiscoveryfromDatabases), es encontrar conocimiento til, vlido, relevante y nuevo sobre una determinada actividad mediante algoritmos, dadas las crecientes rdenes de magnitud en los datos (ver fig. 1.1).

17

Figura 1.1: Proceso del KDD( Knowledge Discovery from Databases).

Al mismo tiempo hay un profundo inters por presentar los resultados de manera visual o al menos de manera que su interpretacin sea muy clara. El resultado de la exploracin deber ser interesante y su calidad no debe ser afectada por ruido en los datos.

1.5 Sistema para el soporte de decisionesUn Sistema de Soporte a la Decisin (DSS) es una herramienta de Business Intelligence enfocada al anlisis de los datos de una organizacin. En principio, puede parecer que el anlisis de datos es un proceso sencillo, y fcil de conseguir mediante una aplicacin hecha a medida o un ERP sofisticado. Sin embargo, no es as: estas aplicaciones suelen disponer de una serie de informes predefinidos en los que presentan la informacin de manera esttica, pero no permiten profundizar en los datos, navegar entre ellos, manejarlos desde distintas perspectivas... etc.

18

El DSS es una de las herramientas ms emblemticas del Business Intelligence ya que, entre otras propiedades, permiten resolver gran parte de las limitaciones de los programas de gestin. Estas son algunas de sus caractersticas principales: Informes dinmicos, flexibles e interactivos, de manera que el usuario no tenga que ceirse a los listados predefinidos que se configuraron en el momento de la implantacin, y que no siempre responden a sus dudas reales. No requiere conocimientos tcnicos. Un usuario no tcnico puede crear nuevos grficos e informes y navegar entre ellos, haciendo drag&drop o drillthrough. Por tanto, para examinar la informacin disponible o crear nuevas mtricas no es imprescindible buscar auxilio en el departamento de informtica. Rapidez en el tiempo de respuesta, ya que la base de datos subyacente suele ser un datawarehouse corporativo o un datamart, con modelos de datos en estrella o copo de nieve. Este tipo de bases de datos estn optimizadas para el anlisis de grandes volmenes de informacin (veasenalisis OLTP-OLAP). Integracin entre todos los sistemas/departamentos de la compaa. El proceso de ETL previo a la implantacin de un Sistema de Soporte a la Decisin garantiza la calidad y la integracin de los datos entre las diferentes unidades de la empresa. Existe lo que se llama: integridad referencial absoluta. Cada usuario dispone de informacin adecuada a su perfil. No se trata de que todo el mundo tenga acceso a toda la informacin, sino de que tenga acceso a la informacin que necesita para que su trabajo sea lo ms eficiente posible.

19

Disponibilidad de informacin histrica. En estos sistemas est a la orden del da comparar los datos actuales con informacin de otros perodos histricos de la compaa, con el fin de analizar tendencias, fijar la evolucin de parmetros de negocio... etc.

Diferencia con otras herramientas de Business Intelligence El principal objetivo de los Sistemas de Soporte a Decisiones es, a diferencia de otras herramientas como los Cuadros de Mando (CMI) o los Sistemas de Informacin Ejecutiva (EIS), explotar al mximo la informacin residente en una base de datos corporativa (datawarehouse o datamart), mostrando informes muy dinmicos y con gran potencial de navegacin, pero siempre con una interfaz grfica amigable, vistosa y sencilla.

Otra diferencia fundamental radica en los usuarios a los que estn destinadas las plataformas DSS: cualquier nivel gerencial dentro de una organizacin, tanto para situaciones estructuradas como no estructuradas. (En este sentido, por ejemplo, los CMI estn ms orientados a la alta direccin). Por ltimo, destacar que los DSS suelen requerir (aunque no es imprescindible) un motor OLAP subyacente, que facilite el anlisis casi ilimitado de los datos para hallar las causas raices de los problemas/pormenores de la compaa.

Tipos de Sistemas de Soporte a Decisiones Sistemas de informacin gerencial (MIS) Los sistemas de informacin gerencial (MIS, Management InformationSystems), tambien llamados Sistemas de Informacin

20

Administrativa (AIS) dan soporte a un espectro ms amplio de tareas organizacionales, encontrndose a medio camino entre un DSS tradicional y una aplicacin CRM/ERP implantada en la misma compaa. Sistemas de informacin ejecutiva (EIS) Los sistemas de informacin ejecutiva (EIS, ExecutiveInformationSystem) son el tipo de DSS que ms se suele emplear en Business Intelligence, ya que proveen a los gerentes de un acceso sencillo a informacin interna y externa de su compaa, y que es relevante para sus factores clave de xito. Sistemas expertos basados en inteligencia artificial (SSEE) Los sistemas expertos, tambin llamados sistemas basados en conocimiento, utilizan redes neuronales para simular el conocimiento de un experto y utilizarlo de forma efectiva para resolver un problema concreto. Este concepto est muy relacionado con el datamining. Sistemas de apoyo a decisiones de grupo (GDSS) Un sistema de apoyo a decisiones en grupos (GDSS, GroupDecisionSupportSystems) es "un sistema basado en computadoras que apoya a grupos de personas que tienen una tarea (u objetivo) comn, y que sirve como interfaz con un entorno compartido". El supuesto en que se basa el GDSS es que si se mejoran las comunicaciones se pueden mejorar las decisiones.

21

1.6 Sistemas operacionales vs Sistemas para la toma de decisionesSistema Operacional (OLTP) - almacena datos actuales - almacena datos de detalle -bases de datos medianas (100Mb-1Gb) - los datos son dinmicos (actualizables) - los procesos (transacciones) son repetitivos - el nmero de transacciones es - tiempo de respuesta pequeo (segundos) - dedicado al procesamiento de transacciones - orientado a los procesos de la organizacin - soporta decisiones diarias - sirve a muchos usuarios (administrativos) Debido a que hay muchos enfoques para la toma de decisiones y debido a la amplia gama de mbitos en los cuales se toman las decisiones, el concepto de sistema de apoyo a las decisiones (DSS por sus siglas en ingls Decisionsupportsystem) es muy amplio. Un DSS puede adoptar muchas formas diferentes. En general, podemos decir que un DSS es un sistema informtico utilizado para servir de apoyo, ms que automatizar, el proceso de toma de decisiones. La decisin es una eleccin entre alternativas basadas en estimaciones de los valores de esas alternativas. El apoyo a una decisin significa ayudar a las personas que trabajan solas o en grupo a reunir inteligencia, generar alternativas y tomar decisiones. Apoyar el proceso de toma de decisin implica el apoyo a la estimacin, la evaluacin y/o la comparacin de alternativas. En la prctica, las referencias a DSS suelen ser referencias a aplicaciones informticas que realizan una funcin de apoyo

22

1.7 Herramientas para la minera de DatosExisten muchas herramientas de software para el desarrollo de modelos de minera de datos tanto libres como comerciales como, por ejemplo: KNIME (o KonstanzInformationMiner) es una plataforma de minera de datos que permite el desarrollo de modelos en un entorno visual. Est construido bajo la plataforma Eclipse. KNIME est desarrollado sobre la plataforma Eclipse y programado, esencialmente, en java. Est concebido como una herramienta grfica y dispone de una serie de nodos (que encapsulan distintos tipos de algoritmos) y flechas (que representan flujos de datos) que se despliegan y combinan de manera grfica e interactiva. Los nodos implementan distintos tipos de acciones que pueden ejecutarse sobre una tabla de datos:

Manipulacin de filas, columnas, etc., como muestreos, transformaciones, agrupaciones, etc. Visualizacin (histogramas, etc.). Creacin de modelos estadsticos y de minera de datos, como rboles de decisin, mquinas de vector soporte, regresiones, etc. Validacin de modelos, como curvas ROC, etc. Scoring o aplicacin de dichos modelos sobre conjuntos nuevos de datos. Creacin de informes a medida gracias a su integracin con BIRT.

El carcter abierto de la herramienta hace posible su extensin mediante la creacin de nuevos nodos que implementen algoritmos a la medida del usuario. Adems, existe la posibilidad de utilizar de llamar directa y transparentemente a Weka y o de incorporar de manera sencilla cdigo desarrollado en R o python/jython. KNIME integra diversos componentes para aprendizaje automtico y minera de datos a travs de su concepto de fraccionamiento de datos (data pipelining) modular. La interfaz grfica de usuario permite el montaje fcil y rpido de nodos para preprocesamiento de datos (ETL: extraccin, transformacin, carga), para el anlisis de datos y modelado y visualizacin. KNIME es desde 2006 utilizado en la investigacin farmacutica,1 pero tambin se utiliza en otras reas, como: anlisis de datos de cliente de CRM, inteligencia de negocio y anlisis de datos financieros. RapidMiner (anteriormente, YALE, YetAnotherLearningEnvironment) es un programa informtico para el anlisis y minera de datos. Permite el desarrollo de procesos de anlisis de datos mediante el encadenamiento de operadores a travs de un entorno grfico. Se usa en investigacin educacin, capacitacin,

23

creacin rpida de prototipos y en aplicaciones empresariales. En una encuesta realizada por KDnuggets, un peridico de minera de datos, RapidMiner ocup el segundo lugar en herramientas de analtica y de minera de datos utilizadas para proyectos reales en 20091 y fue el primero en 2010.2 La versin inicial fue desarrollada por el departamento de inteligencia artificial de la Universidad de Dortmund en 2001. Se distribuye bajo licencia AGPL y est hospedado en Source Forge desde el 2004. RapidMiner proporciona ms de 500 operadores orientados al anlisis de datos, incluyendo los necesarios para realizar operaciones de entrada y salida, preprocesamiento de datos y visualizacin. Tambin permite utilizar los algoritmos incluidos en Weka. Weka (WaikatoEnvironmentforKnowledgeAnalysis - Entorno para Anlisis del Conocimiento de la Universidad de Waikato) es una plataforma de software para aprendizaje automtico y minera de datos escrito en Java y desarrollado en la Universidad de Waikato. Weka es un software libre distribuido bajo licencia GNUGPL. El paquete Weka4 contiene una coleccin de herramientas de visualizacin y algoritmos para anlisis de datos y modelado predictivo, unidos a una interfaz grfica de usuario para acceder fcilmente a sus funcionalidades. La versin original de Weka fue un front-end en TCL/TK para modelar algoritmos implementados en otros lenguajes de programacin, ms unas utilidades para preprocesamiento de datos desarrolladas en C para hacer experimentos de aprendizaje automtico. Esta versin original se dise inicialmente como herramienta para analizar datos procedentes del dominio de la agricultura, pero la versin ms reciente basada en Java (WEKA 3), que empez a desarrollarse en 1997, se utiliza en muchas y muy diferentes reas, en particular con finalidades docentes y de investigacin. Orange es un programa informtico para realizar minera de datos y anlisis predictivo desarrollado en la facultad de informtica de la Universidad de Ljubljana. Consta de una serie de componentes desarrollados en C++ que implementan algoritmos de minera de datos, as como operaciones de preprocesamiento y representacin grfica de datos. Los componentes de Orange pueden ser manipulados desde programas desarrollados en Python o a travs de un entorno grfico.

24

UNIDAD 2 2.1 INTRODUCCINKDD: Proceso de Extraccin de conocimiento La Extraccin de conocimiento est principalmente relacionado con el proceso de descubrimiento conocido como Knowledge Discovery in Databases (KDD), que se refiere al proceso no-trivial de descubrir conocimiento e informacin potencialmente til dentro de los datos contenidos en algn repositorio de informacin. No es un proceso automtico, es un proceso iterativo que exhaustivamente explora volmenes muy grandes de datos para determinar relaciones. Es un proceso que extrae informacin de calidad que puede usarse para dibujar conclusiones basadas en relaciones o modelos dentro de los datos. La siguiente figura ilustra las etapas del proceso KDD:

Proceso KDD Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son: 1. Seleccin de datos. En esta etapa se determinan las fuentes de datos y el tipo de informacin a utilizar. Es la etapa donde los datos relevantes para el anlisis son extrados desde la o las fuentes de datos. 2. Preprocesamiento. Esta etapa consiste en la preparacin y limpieza de los datos extrados desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que estn fuera de rango, obtenindose al final una estructura de datos adecuada para su posterior transformacin.

25

3. Transformacin. Consiste en el tratamiento preliminar de los datos, transformacin y generacin de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aqu se realizan operaciones de agregacin o normalizacin, consolidando los datos de una forma necesaria para la fase siguiente. 4. Data Mining. Es la fase de modelamiento propiamente tal, en donde mtodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, vlidos, nuevos, potencialmente tiles y comprensibles y que estn contenidos u ocultos en los datos. 5. Interpretacin y Evaluacin. Se identifican los patrones obtenidos y que son realmente interesantes, basndose en algunas medidas y se realiza una evaluacin de los resultados obtenidos. Adems de las fases descritas, frecuentemente se incluye una fase previa de anlisis de las necesidades de la organizacin y definicin del problema, en la que se establecen los objetivos de la minera de datos. Tambin es usual incluir una etapa final, donde los resultados obtenidos se integran al negocio para la realizacin de acciones comerciales.

2.2 ETAPAS DE EXTRACCION DEL CONOCIMIENTO

En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido bsicamente al gran poder de procesamiento de las mquinas como a su bajo costo de almacenamiento. Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de informacin oculta, de gran importancia estratgica, a la que no se puede acceder por las tcnicas clsicas de recuperacin de la informacin. El descubrimiento de esta informacin oculta es posible gracias a la Minera de Datos (DataMining), que entre otras sofisticadas tcnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacin de modelos, es decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento (KDD, por sus siglas en ingls) que se encarga de la preparacin de los datos y la interpretacin de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados. As el valor real de los datos reside en la informacin que se puede extraer de ellos, informacin que ayude a tomar decisiones o mejorar nuestra comprensin de los fenmenos que nos rodean. Hoy, ms que nunca, los mtodos analticos avanzados son el arma secreta de muchos negocios exitosos.

26

Empleando mtodos analticos avanzados para la explotacin de datos, los negocios incrementan sus ganancias, maximizan la eficiencia operativa, reducen costos y mejoran la satisfaccin del cliente. El Descubrimiento de Conocimiento en Bases de Datos (KDD) apunta a procesar automticamente grandes cantidades de datos para encontrar conocimiento til en ellos, de esta manera permitir al usuario el uso de esta informacin valiosa para su conveniencia. El KDD es el Proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y, en ltima instancia, comprensibles a partir de los datos.

FIGURA: KDD 2.3 ETAPA DE RECOPILACION E INTEGRACION El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idneo, y la mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera sobre los datos en bruto.

27

Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no vlidos, desconocidos... segn las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el nmero de valores posibles (mediante redondeo, clustering,...).

2.4ETAPA DE SELECCIN, LIMPIEZA Y TRANSFORMACIONAn despus de haber sido preprocesados, en la mayora de los casos se tiene una cantidad ingente de datos. La seleccin de caractersticas reduce el tamao de los datos eligiendo las variables ms influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera. Los mtodos para la seleccin de caractersticas son bsicamente dos: Aquellos basados en la eleccin de los mejores atributos del problema. Y aquellos que buscan variables independientes mediante tests de sensibilidad. algoritmos de distancia o heursticos.

2.5 ETAPA DE MINERIA DE DATOS

Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables.

Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos.

28

2.6 ETAPA DE EVALUACION E INTERPRETACIONUna vez obtenido el modelo, se debe proceder a su validacin, comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

2.7 ETAPA DE DIFUSION

Cada ao, en los diferentes congresos, simposios y talleres que se realizan en el mundo se renen investigadores con aplicaciones muy diversas. Sobre todo en los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que estn interesadas en explorar sus bases de datos.

El FBI analizar las bases de datos comerciales para detectar terroristas. A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunci que el Departamento de Justicia comenzar a introducirse en la vasta cantidad de datos comerciales referentes a los hbitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una accin. Algunos expertos aseguran que, con esta informacin, el FBI unir todas las bases de datos probablemente mediante el nmero de la Seguridad Social y permitir saber si una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos polticos u organizaciones no gubernamentales, sus enfermedades crnicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversin inicial ronda los setenta millones de dlares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir informacin e implementar nuevo software analtico y de visualizacin.

29

UNIDAD 3: Exploracin de los datos.

3.1 ESTADISTICAS DE RESUMEN.Estadsticas de resumen son nmeros que resumen las propiedades delos datos. Ciertamente, la minera de datos bebe de la estadstica, de la que toma las siguientes tcnicas:

Anlisis de varianza, mediante el cual se evala la existencia de diferencias significativas entre las medias de una o ms variables continas en poblaciones distintas. Regresin: define la relacin entre una o ms variables y un conjunto de variables predictoras de las primeras. Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hiptesis de dependencia entre variables. Anlisis de agrupamiento o clustering: permite la clasificacin de una poblacin de individuos caracterizados por mltiples atributos (binarios, cualitativos o cuantitativos) en un nmero determinado de grupos, con base en las semejanzas o diferencias de los individuos. Anlisis discriminante: permite la clasificacin de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificacin de los elementos de estos grupos, y por tanto una mejor identificacin de cules son las variables que definan la pertenencia al grupo. Series de tiempo: permite el estudio de la evolucin de una variable a travs del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales. Medidas de localizacin. La media, mediana, moda y cuartiles. Media: El valor promedio del conjunto de datos. La media es igual a la suma de todas las observaciones dividida por el nmero de observaciones.

30

Mediana: El valor medio de modo que la mitad de las observaciones son mayores y menos de la mitad. La media es muy sensible a valores extremos (los valores extremos o inusuales). Modo: El valor que se produce con mayor frecuencia en el conjunto de datos. Cuartiles: Puntos de Divisin que dividir los datos en cuatro partes iguales. Cada puntos de divisin se llaman Q1 (primer cuartil), Q2 (el segundo cuartil o mediana) y Q3 (tercer cuartil).Deciles y percentiles se utilizan a veces.

Medidas

de

dispersin.

Desviacin estndar, varianza, rango intercuartil y el rango. Medidas de la varianza en qu medida los valores de datos se encuentran de la media. Se define como el promedio de los cuadrados de las diferencias entre la media y los valores de datos individuales. Desviacin Estndar: La raz cuadrada de la varianza. Rango intercuartil (RIC): La diferencia entre Q3 y Q1. Alcance: La diferencia entre el mximo y mnimo. Medidas de asimetra: Medidas o no una distribucin tiene una colalarga solo. Medir la asimetra se define como

En forma de campana o simtrica

31

Izquierda sesgada

Derecha sesgada

3.2 VISUALIZACIN.

Visualizacin de datos es el estudio de la representacin visual de los datos, es decir, "la informacin que ha sido extrada de una forma esquemtica, incluidos los atributos o variables de las unidades de informacin". Segn Friedman (2008) el objetivo "principal de visualizacin de datos es comunicar informacin clara y eficaz a travs de medios grficos. Esto no significa que la visualizacin de datos tiene que mirar aburrido para ser funcional o extremadamente sofisticados para lucir bella. Para transmitir ideas de manera efectiva , tanto en su forma esttica y la funcionalidad que ir de la mano, y proporciona informacin en una base de datos ms bien escasa y complejo conjunto de la comunicacin de sus aspectos clave de una manera ms intuitiva. Sin embargo, los diseadores a menudo no logran alcanzar un equilibrio entre diseo y funcionalidad, creando magnficos visualizaciones de datos que no cumplen su objetivo principal para comunicar la informacin "

32

De hecho, Fernanda Viegas y Martn M. Wattenberg han sugerido que una visualizacin ideal no slo deben comunicar con claridad, sino que estimulan la participacin y la atencin de espectador. Visualizacin de datos est estrechamente relacionado con los grficos de la informacin, visualizacin de informacin, visualizacin cientfica y grficos estadsticos. En el nuevo milenio, la visualizacin de datos se ha convertido en un rea activa de investigacin, la docencia y el desarrollo. Segn Post et al. (2002), se ha unido el campo dela visualizacin cientfica y la informacin. Como se ha demostrado por Brian Willison, visualizacin de datos ha sido tambin ha sido vinculada a promover el desarrollo gil de software y compromiso con el cliente.

KPI Biblioteca ha desarrollado la "Tabla Peridica de Mtodos de Visualizacin", un grfico interactivo que muestra los diversos mtodos de visualizacin de datos. En l se detallan los 6 tipos de mtodos de visualizacin de datos: datos, informacin, concepto, laestrategia, la metfora y compuesto.

Una visualizacin de datos de Wikipedia, como parte de la World Wide Web, lo que demuestra hipervnculos.

33

3.3 OLAP.

OLAP es el acrnimo en ingls de procesamiento analtico en lnea (On-Line AnalyticalProcessing). Es una solucin utilizada en el campo de la llamada Inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de direccin, minera de datos y reas similares. La razn de usar OLAP para las consultas es la rapidez de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta. Un modelo mejor para bsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional. La principal caracterstica que potencia a OLAP, es que es lo ms rpido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposicin con OLTP que es la mejor opcin para operaciones de tipo INSERT, UPDATE Y DELETE. Funcionalidad. En la base de cualquier sistema OLAP se encuentra el concepto de cubo OLAP (tambin llamado cubo multidimensional o hipercubo). Se compone de hechos numricos llamados medidas que se clasifican por dimensiones. El cubo de metadatos es tpicamente creado a partir de un esquema en estrella o copo de nieve, esquema de las tablas en una base de datos relacional. Las medidas se obtienen de los registros de una tabla de hechos y las dimensiones se derivan de la dimensin de los cuadros. Tipos de sistemas OLAP. Tradicionalmente, los sistemas OLAP se clasifican segn las siguientes categoras:

34

ROLAP Implementacin OLAP que almacena los datos en un motor relacional. Tpicamente, los datos son detallados, evitando las agregaciones y las tablas se encuentran desnormalizadas Los esquemas ms comunes sobre los que se trabaja son estrella copo de nieve, aunque es posible trabajar sobre cualquier base de datos relacional. La arquitectura est compuesta por un servidor de banco de datos relacional y el motor OLAP se encuentra en un servidor dedicado. La principal ventaja de esta arquitectura es que permite el anlisis de una enorme cantidad de datos. MOLAP Esta implementacin OLAP almacena los datos en una base de datos multidimensional. Para optimizar los tiempos de respuesta, el resumen de la informacin es usualmente calculado por adelantado. Estos valores precalculados o agregaciones son la base de las ganancias de desempeo de este sistema. Algunos sistemas utilizan tcnicas de compresin de datos para disminuir el espacio de almacenamiento en disco debido a los valores precalculados. HOLAP (Hybrid OLAP) Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional. Comparacin. Cada sistema OLAP tiene ciertos beneficios (aunque existe desacuerdo acerca de las caractersticas especficas de los beneficios entre los proveedores). Algunas implementaciones MOLAP son propensas a la "explosin" de la base de datos; este fenmeno provoca la necesidad de grandes cantidades de espacio de almacenamiento para el uso de una base de datos MOLAP cuando se dan ciertas condiciones: elevado nmero de dimensiones, resultados precalculados y escasos datos multidimensionales. Las tcnicas habituales de atenuacin de la explosin de la base de datos no son todo lo eficientes que sera deseable. Por lo general MOLAP ofrece mejor rendimiento debido a la especializada indexacin y a las optimizaciones de almacenamiento. MOLAP tambin necesita menos espacio de almacenamiento en comparacin con los especializados ROLAP porque su almacenamiento especializado normalmente incluye tcnicas de compresin. ROLAP es generalmente ms escalable. Sin embargo, el gran volumen de preprocesamiento es difcil de implementar eficientemente por lo que con

35

frecuencia se omite; por tanto, el rendimiento de una consulta ROLAP puede verse afectado. Desde la aparicin de ROLAP van apareciendo nuevas versiones de bases de datos preparadas para realizar clculos, las funciones especializadas que se pueden utilizar tienen ms limitaciones. HOLAP (OLAP Hbrido) engloba un conjunto de tcnicas que tratan de combinar MOLAP y ROLAP de la mejor forma posible. Generalmente puede preprocesar rpidamente, escala bien, y proporciona una buena funcin de apoyo. Otros tipos Los siguientes acrnimos a veces tambin se utilizan, aunque no son sistemas tan generalizados como los anteriores:

WOLAP o Web OLAP: OLAP basado u orientado para la web. DOLAP o Desktop OLAP: OLAP de escritorio RTOLAP o Real Time OLAP: OLAP en tiempo real SOLAP o Spatial OLAP: OLAP espacial

36

UNIDAD 4 Programacin Lgica Inductiva (ILP)

4.1 Nociones de lgica

Figura 6.1: Las dos caras de la Lgica. Importante: que las cosas que queremos que sean verdaderas coicidan con las que podemos probar. Osea: lo que nos implica la teora es lo que podemos computar. Caractersticas:

sintxis y semntica bien definidas reglas de inferencia

Un alfabeto consiste de variables (aqu la primera letra en mayscula), smbolos de predicados y de funciones (la primera letra en minscula). Trminos = Funciones (smbolo funcional + argumentos) y Variables. Un predicado (smbolo + argumentos) es una frmula atmica o simplemente un tomo.

37

vlido

invlido

siempre cierto a veces T o F siempre falso

satisfacible Una frmula frmulas interpretacin entonces para

insatisfacible se dice que es una consequencia lgica de un conjunto de , la denotado cual por si para cada ,

Satisfacibilidad, valides, equivalencia y consecuencia lgica son nociones semnticas (generalmente establecidas por medio de tablas de verdad). Para derivar consecuencias lgicas tambin se pueden hacer por medio de operaciones exclusivamente sintctivas (e.g., modus ponens, modus tollens). Las clusulas, son la forma utilizada en prueba de teoremas y programacin lgica. Una literal: un tomo o su negacin Una clsula: es una frmula cerrada de la forma:

donde cada las literales. Equivalencias:

es una literal y las

son todas las variables que aparecen en

38

Se escribe normalmente como:

Una clusula de Horn: a lo ms una literal positiva.

Una clusula definitiva (definite clause) es una clusula con una literal positiva ( o ).

Razonamiento en lgica: reglas de inferencia Estas reglas solo hacen manipulacin sintctica (son formas procedurales). Lo interesante es ver como las formas procedurales semnticas estn relacionadas con las sintcticas.

Una regla de inferencia es robusta/vlida (sound) si

entonces

.

sea una coleccin de reglas de inferencia es vlida si preserva la nocin de verdad bajo las operaciones de derivacin.

Una regla de inferencia es completa (complete) si Resolucin Resolucin solo sirve para frmulas en forma de clusulas. Idea: prueba por refutacin

entonces

.

39

Para probar: Ejemplo sencillo:

, hacer

y probar que

es insatisfacible

Sean

y

dos

clusulas La y

con

literales de y

y

(donde

y

son complementarias). donde:

resolucin

produce:

(eliminando literales redundantes)

Figura 6.2: Un rbol de derivacin proposicional. Para lgica de primer orden: substitucin y unificacin.

Una substitucin trminos. La aplicacin

es una funcin de variables a de una substitucin a una wff se obtiene al por el mismo trmino una nueva .

reemplazar todas las ocurrencias de cada variable Al aplicar una (una instancia). Una substitucin a una wff se

genera

expresin

substitucin

es si

un unificador de

un

conjunto

de

expresiones

40

Un unificador , es el unificador ms general (mgu) de un conjunto de expresiones , si para cada unificador de , existe una substitucin tal que Para hacer resolucin en lgica de primer orden tenemos que comparar si dos literales complementarias unifican. El algoritmo de unificacin construye un mgu de un conjunto de expresiones.

Sean y

y tienen

dos clusulas con literales un mgu ,

y

respectivamente. Si y es la

el resolvente de (ver figura 6.3).

clusula:

El algoritmo de unificacin no es determinstico (se pueden seleccionar las clusulas de varias formas).

Figura 6.3: Un rbol de derivacin lineal de primer orden. Existen diferentes estrategias de resolucin, e.g., semntica, lineal, SLD, etc., para restringir el nmero de posibles clusulas redundantes. Resolucin SLD Seleccionar una literal, clusulas Definitivas. Resolucin lineal: usando una estrategia Lineal, restringido a

41

El ltimo resolvente se toma como clusula padre. La otra clusula padre se toma de otro resolvente o del conjunto original.

Una forma especial de resolucin lineal es: input resolution. En esta estrategia, cada paso de resolucin, exceptuando el primero, se toma del ltimo resolvente (clusulas metas) y del conjunto original (clusulas de entrada). Input resolution es completa para clusulas de Horn, pero no para clusulas en general. Una variante de input resolution es resolucin SLD para clusulas de Horn. Resolucin de entrada se extiende con una regla de seleccin que determina en cada paso que literal de la clusula meta es seleccionada. La estrategia de bsqueda afecta el resultado. Aunque resolucin SLD es sound y refutation complete para clusulas de Horn, en la prctica (por razones de eficiencia) se hacen simplificaciones:

eliminar el ``occur check'' de unificacin usar un orden especfico

Esto es lo que usa bsicamente PROLOG

4.2 Programacin Lgica Inductiva (ILP)Dentro de los algoritmos de aprendizaje computacional ms exitosos, se encuentran los que inducen rboles de decisin (v.g., C4.5) o reglas de clasificacin (v.g., CN2), sin embargo, su lenguaje de representacin o expresividad es escencialmente proposicional. Esto es, cada prueba que se hace sobre un atributo en un rbol o en una condicin de una regla se puede ver como una proposicin. Por lo mismo, hablan de un solo objeto a la vez y no podemos relacionar propiedades de dos o ms objetos a menos que definamos una propiedad que exprese esa relacin para todos los objetos de nuestro dominio. La Programacin Lgica Inductiva o ILP (Inductive Logic Programming) combina los resultados experimentales y mtodos inductivos del aprendizaje computacional con el poder de representacin y formalismo de la lgica de primer orden para poder inducir conceptos representados por programas lgicos. Para entender las ventajas que tiene aprender representaciones relaciones, supongamos que queremos aprender (y por lo tanto representar con nuestro

42

sistema de aprendizaje) los movimientos de una torre en ajedrez. Si asumimos que representamos los movimientos de las piezas de ajedrez con cuatro atributos, y , representando la columna y rengln de una pieza antes y despus del movimiento, un sistema proposicional aprendera algo parecido a esto: If If If If If If and and and and and and Then Then Then Then Then mov_torre mov_torre mov_torre mov_torre mov_torre = = = = = true true true true true

Then mov_torre = true

Representando que la torre se puede mover slo sobre el mismo rengln o sobre la misma columna. En una representacin relacional, si asumimos que tenemos un predicado cuyos argumentos representan igualmente la posicin en columna y rengln de cada pieza antes y despus del movimiento, nuestra sistema necesitara aprender lo siguiente:

Adems de aprender una representacin ms compacta y contar con la capacidad de relacionar propiedades de ms de un objeto a la vez, otra ventaja de un sistema de ILP es que puede incluir conocimiento del dominio dentro del proceso de aprendizaje. Consideremos el problema de aprender el concepto de hija definida entre dos personas. hija6.1

es verdadero si

es hija de

. Podemos definir la relacin hija como padre y femenino.

, en trminos de las relaciones

En ILP, el problema se plantea de la siguiente forma:

Ejemplos

positivos

(

)

y

negativos

(

):

43

Conocimiento

del

Dominio:

Resultado:

Finalmente, algunos sistemas de ILP pueden introducir nuevos predicados automticamente durante el aprendizaje, simplificando la representacin de los conceptos aprendidos. Por ejemplo, introducir el predicado progenitor refiriendose a padre o madre, para simplificar una representacin de un concepto que utilice indistintantemente a las relaciones de padre y madre. Ms adelante proporcionamos un ejemplo de esto. Estos ejemplos ilustran algunas limitaciones de muchos de los sistemas de aprendizaje actuales:

44

Representacin Restringida: inadecuados en reas que requieren expresar conocimiento relacional (v.g., razonamiento temporal y/o espacial, planificacin, lenguaje natural, razonamiento cualitativo, etc.). Conocimiento del Dominio: son incapaces de incorporar conocimiento del dominio (utilizan un conjunto fijo de atributos). Vocabulario Fijo: no pueden inventar nuevo vocabulario con conocimiento insuficiente del dominio.6.2

Otro ejemplo (ver figura 6.4):

Figura 6.4: Grafo conectado. Ejemplos (en ILP): conectados(0,1). conectados(1,8). ... Conocimiento del dominio: liga(0,1). liga(0,3). liga(1,0). liga(3,2). liga(3,4). liga(4,5). liga(6,8). liga(7,6). liga(7,8). liga(8,7). liga(1,2). liga(4,6). liga(2,3). liga(5,4). +

La idea en ILP, como en aprendizaje inductivo, es aprender una hiptesis que cubra los ejemplos positivos y no cubra los negativos. Para verificar la covertura

45

de ejemplos en ILP, se usa normalmente algn algoritmo de inferencia basado en resolucin.

Un programa lgico todos los ejemplos Un programa lgico ningn ejemplo

se dice completo (con respecto a , se dice consistente (con respecto a ,

) sii para

) sii para

El entorno terico de ILP lo podemos caracterizar entonces como sigue: Dados un un

conjunto conjunto

de de

ejemplos ejemplos , tal que

positivos negativos para al menos

un programa lgico consistente, un Encontrar consistente: un programa y lgico

tal .

que

y

sea

completo

y

normalmente se refiere a conocimiento del dominio o conocimiento a priori. Desde un punto de vista semntico la definicin de ILP es:

Satisfactibilidad previa: Satisfactibilidad posterior (correcto o consistente): Necesidad previa: Suficiencia posterior (completo):

En la mayoria de los casos, se limita al caso de clusulas definitivas. Esto es mucho ms fcil, porque una teora de clusulas definitivas tiene un modelo de Herbrand mnimo nico falsas. y todas las frmulas lgicas son o verdaderas o

46

Interpretaciones y Modelos de Herbrand La teora de modelos nos permite asignar significado a cualquier expresin en lgica. La idea es asociar valores de verdad dentro de un dominio o hacer una interpretacin. Asignamos constantes a elementos del dominio y los smbolos funcionales y de predicados a funciones y relaciones del dominio. Por ejemplo, si tenemos: gusta(juan,ana). Tenemos que asociar ``juan'' y ``ana'' a elementos del dominio, y tenemos que asociar la relacin ``gusta/2'' en el dominio. Por ejemplo, ``juan'' con ``persona-juan'', ``ana'' con ``persona-ana'' y ``gusta/2'' con ``persona-juan, persona-juan'', ``persona-ana, persona-ana'' y ``persona-juan, persona-ana'' (por ejemplo). Bajo esta interpretacin, la relacin: gusta(juan,ana) es verdadera. Sin embargo, si asignamos ``juan'' a ``persona-ana'' y ``ana'' a ``persona-juan'' y mantenemos la misma interpretacin de la relacingusta(juan,ana) es falsa. Una interpretacin que nos da un valor de verdad para una sentencia lgica se dice que la satisface y a la interpretacin se le llama un modelo de la sentencia. Para programas lgicos podemos hablar de modelos e interpretaciones de Herbrand. Por ejemplo, si tenemos:

Tomando, solo las constantes: juan, ana y vino, todas las instanciaciones aterrizadas (ground) del programa lgico son:

47

Podemos asignar valores de verdad a todos estos elementos y obtener modelos para ciertas interpretaciones. En particular, los modelos se pueden organizar en un lattice. Desde asignar a todos los elementos un valor de verdad (mximo) hasta al menor nmero posible (mnimo). En el ejemplo de arriba, el modelo mnimo de Herbrand es: asignar el valor de verdad a: gusta(ana,vino). (a fuerzas) y a gusta(juan,ana) gusta(ana,vino). (derivado del primero). Esto es importante, porque las consecuencias lgicas aterrizadas de un programa lgico son su modelo mnimo ( ) y tambin es lo que podemos derivar con resolucin SLD en programas con clusulas definitivas.

Satisfactibilidad previa:

son falsos en son falsos

Satisfactibilidad posterior (correcto o consistente): en

Necesidad previa: algunos

son falsos en

48

Suficiencia en

posterior

(completo):

son

verdaderos

Un caso especial, el que ms se usa en ILP, en cuando todos los ejemplos son hechos sin variables. Bsqueda de Hiptesis El proceso de induccin puede verse como un proceso de bsqueda de una hiptesis dentro del espacio de hiptesis , esto es dentro del conjunto de todas las hiptesis que el algoritmo de aprendizaje est diseado a producir. En ILP este espacio puede ser demasiado grande por lo que normalmente se disean estrategias de bsqueda que consideren slo un nmero limitado de alternativas. Para realizar una bsqueda eficiente de hiptesis, normalmente es necesario estructurar el espacio de hiptesis, lo cual se puede hacer con un modelo de generalizacin. Esto es, con un modelo que me diga si una hiptesis es ms general o ms especfica que otra. Esta estructuracin permite cortar ramas durante la bsqueda sabiendo que especializaciones o generalizaciones de hiptesis hereden alguna propiedad. Las propiedades ms comunes son: incapacidad de cubrir un ejemplo conocido como verdadero o probar un ejemplo conocido como falso. Por ejemplo, si sabemos que una hiptesis cubre un ejemplo negativo, podemos eliminar del espacio de bsqueda todas sus generalizaciones ya que van a seguir cubriendo ese ejemplo. Por el contrario, si una hiptesis no cubre un ejemplo positivo, podemos eliminar del espacio de bsqueda todas sus especializaciones ya que tampoco lo van a cubrir.

Esta estructuracin del espacio de hiptesis se puede hacer utilizando subsumption. Una clusula , -subsume (o es una generalizacin de) una clusula como si existe una substitucin . tal que . Usualmente se escribe

49

Por ejemplo: Sea vaca, subsume a

. Con la substitucin

Con a

la ,

substitucin

,

subsume

, y con la substitucin a

,

subsume

subsumption introduce una nocin de generalizacin. Una clusula es ms general que si -subsume a y no al revs. Tambin se dice que es una especializacin (o refinamiento) de . Si , ejemplo: . subsume ( ). -subsume , a pero , entonces al revs y pero no es una no consecuencia se lgica de Por

cumple.

sii es una tautologa o prueba de resolucin de clusulas. En particular, la prueba.

es usada exactamente una vez en una , donde es un conjunto arbitrario de

no puede aplicarse a si mismo directa o indirectamente durante

El uso de subsumtion se justifica por el hecho de que es decidible entre clusulas, es fcil de calcular (aunque es NP) y mientras que implicacin no es decidible. crea un lattice. Esto es importante porque permite buscar en ese lattice por hiptesis.

50

La bsqueda puede hacerse: (i) de especfico a general, buscando clusulas que subsuman a la hiptesis actual, (ii) de general a especfico, buscando clusulas subsumidas por la hiptesis actual, (iii) en ambos sentidos. Ejemplo:

51

UNIDAD 5 5.1 aprendizaje inductivoEl aprendizaje inductivo puede verse como el proceso de aprender una funcin. Por ejemplo, en aprendizaje supervisado, al elemento de aprendizaje se le d un valor correcto (o aproximadamente correcto) de una funcin a aprender para entradas particulares y cambia la representacin de la funcin que est infiriendo, para tratar de aparear la informacin dada por la retroalimentacin que ofrecen los ejemplos.

Un ejemplo es un par vector) y

, donde

es la entrada (que generalmente es un

la salida. El proceso de inferencia inductiva pura (o induccin) es: , regresar una funcin tal que se

dada una coleccin de ejemplos de aproxime a . A la funcin

se le llama la hiptesis.

En principio existen muchas posibilidades para escoger , cualquier preferencia se llama bias o sesgo. Todos los algoritmos de aprendizaje exhiben algn tipo de sesgo. La seleccin de una representacin para la funcin deseada es probablemente el factor ms importante en el diseo de un sistema de aprendizaje. Desde un punto de vista ms tradicional (hablando de representaciones simblicas/reglas,...), podemos decir que una buena parte de ML est dedicada a inferir reglas a partir de ejemplos. Descripciones generales de clases de objetos, obtenidas a partir de un conjunto de ejemplos, pueden ser usadas para clasificar o predecir. En general, el interes no est en aprender conceptos de la forma en que lo hacen los humanos, sino aprender representaciones simblicas de ellos. Angluin y Smith listan cinco elementos que deben de especificarse para caracterizar un problema de inferencia inductiva: 1. 2. 3. 4. 5. La clase de reglas El espacio de hiptesis El conjunto de ejemplos y su presentacin La clase del mtodo de inferencia El criterio de xito

52

La clase de reglas: La clase de reglas denota la clase de funciones o lenguaje bajo consideracin. Por ejemplo, todas las expresiones regulares sobre un alfabeto especfico, lenguajes libres de contexto, funciones recursivamente enumerables, programas en Prolog, etc. El espacio de hiptesis: El espacio de hiptesis es el conjunto de descripciones tal que cada regla en la clase tiene por lo menos una descripcin en el espacio de hiptesis. Diferentes espacios de hiptesis pueden usarse para la misma clase de reglas. El lenguaje de hiptesis debe de tener descripciones para todas las reglas en la clase, pero puede contener ms. Por conveniencia, normalmente se asume que el lenguaje descrito por el espacio de hiptesis (i.e., el lenguaje de hiptesis) es el mismo que el de la clase de reglas:

Lenguaje de Hiptesis: la sintxis usada en la construccin de hiptesis Espacio de Hiptesis: el conjunto de todas las posibles hiptesis dentro del lenguaje de hiptesis

El lenguaje de hiptesis determina el espacio de hiptesis del cual el mtodo de inferencia selecciona sus reglas. El lenguaje impone ciertas restricciones (o preferencias) en lo que puede ser aprendido y qu estrategias de razonamiento son permitidas. Al escoger un lenguaje, debemos de considerar no slo lo que queremos que el sistema realice, sino tambin qu informacin se le debe de proporcionar al sistema de entrada para permitirle resolver el problema, y si lo va a resolver a tiempo. Al igual que en los mecanismos de razonamiento utilizados para representar conocimiento, aqu existe un balance fundamental entre la expresividad y la eficiencia (ver figura 1.7 y 1.8).

53

Figura 1.7: El espacio de hiptesis depende de la expresividad del lenguaje.

Figura 1.8: Qu tan bien se ajusta el modelo depende de la expresividad del lenguaje.

54

El lenguaje de hiptesis depende del rea de aplicacin. Una vez definido, una buena parte del tiempo de desarrollo se dedica a seleccionar cuidadosamente las estructuras de conocimiento adecuadas para la tarea de aprendizaje. Este tiempo se vuelve ms crtico cuando el lenguaje de hiptesis restringe la expresividad de tal forma que el conocimiento del dominio tiene que adaptarse al formalismo adoptado. El proceso de inducin puede verse como una bsqueda de hiptesis o reglas. El espacio puede buscarse sistemticamente, hasta encontrar la regla adecuada. Dado un espacio de hiptesis particular, podemos tener una enumeracin de descripciones, digamos , tal que cada regla en el espacio de hiptesis tiene una o ms descripciones en esta enumeracin. Dada una coleccin de ejemplos, identificacin en el lmite recorre esta lista encontrando la primera descripcin, digamos ejemplos vistos y conjetura a . , que es compatible con los

Este mtodo a pesar de ser poderoso y general es imprctico, para todos exceptuando un nmero limitado de casos, debido al tamao del espacio de bsqueda. Para que el aprendizaje puede realizarse en forma eficiente, es normalmente crucial estructurar el espacio de hiptesis. Esto se puede hacer con un modelo de generalizacin.

A grandes razgos una regla especfica que resultados que

es ms general que otra regla

(o

es ms

), si en cualquier mundo

puede mostrar los mismos

Esta estructuracin permite cortar ramas durante la bsqueda sabiendo que especializaciones o generalizaciones de reglas hereden alguna propiedad. Las propiedades ms comunes son: incapacidad de cubrir un ejemplo conocido como verdadero o probar un ejemplo conocido como falso. Conjunto de ejemplos y su presentacin:

55

Existen diferentes tipos de presentacin de datos y sus efectos en la inferencia de lenguajes. Los ejemplos pueden dar una retroalimentacin directa o indirecta. Por ejemplo, al aprender a jugar un cierto juego, la retroalimentacin se puede dar en cada jugada o al final del juego o despus de un conjunto de jugadas que provocaron una prdida de material, etc. Aqu, surge el problema de asignacin de crdito (cul jugada es responsable del xito o fracaso). Una presentacin puede consistir en: (i) slo ejemplos positivos y (ii) positivos y negativos. Casi todos los algoritmos requieren presentaciones admisibles, esto es, para cada regla falsa que es consistente con los ejemplos positivos, existe un ejemplo negativo que la refuta (se relaciona con Popper: Las teoras deben de ser refutables con hechos). Los ejemplos se usan para probar y formar hiptesis. En la prctica una seleccin de ejemplos se hace sobre el espacio de ejemplos. Esta seleccin puede hacerla un: orculo, el medio ambiente, seleccionada en forma aleatoria, propuesta por el sistema. Una ``buena'' seleccin de ejemplos puede mejorar el desempeo de un sistema (ver por ejemplo Active Learning). A veces esa seleccin puede mejorarse con conocimiento del dominio. Es deseable que la distribucin que sigan los ejemplos sea similar a la que van a tener ejemplos futuros. Finalmente, si el sistema es quin tiene el control sobre cundo experimentar situaciones novedosas o no, entonces se tiene el problema de formar un balance entre exploracin y explotacin. Mtodos de inferencia: Intuitivamente un mtodo de inferencia es un proceso computacional de algn tipo que lee ejemplos y produce hiptesis del espacio de hiptesis. Existe una gran cantidad de mtodos. Algunos realizan ajustes graduales en base a refuerzos sobre predicciones sucesivas (e.g., aprendizaje por refuerzo, redes neuronales, regresin, etc.). Otros construyen incrementalmente hiptesis tratando de cubrir la mayor parte de un conjunto de ejemplos (e.g., reglas de clasificacin, programas lgicos) o en base a mejores particiones de ejemplos (e.g., rboles de decisin). Otros, guardan ejemplos prototpicos (e.g., aprendizaje basado en casos

56

y aprendizaje basado en instancias). Algunos buscan relaciones entre variables (e.g., redes Bayesianas). Finalmente, algunos algoritmos combinan o modifican hiptesis promisorias (e.g., algoritmos genticos). Criterio de xito: Un componente importante dentro de la especificacin de un problema de inferencia es el criterio de xito. Identificacin en el lmite es uno de ellos, sin embargo, normalmente es difcil saber cundo el mtodo ha convergido. Recientemente Valiant, propuso un criterio de identificacin correcta de una regla a partir de ejemplos usando un criterio estocstico. La idea es que despus de un muestreo aleatorio de ejemplos positivos y negativos de una regla, un procedimiento de identificacin debe de producir una regla que con ``alta probabilidad'' no sea ``muy diferente'' de la regla correcta. Esto se basa en dos parmetros: y . es una medida de tolerancia o un lmite de la diferencia permitida entre la regla correcta y la hiptesis generada. es una medida de confianza. Informalmente, un procedimiento de identificacin se dice ser probablemente aproximadamente correcto o PAC si la diferencia entre la regla correcta y la hiptesis es menos que con probabilidad mayor a .

En la prctica queremos ciertas garantias de la calidad de la hiptesis. Las ms comunes son que sea completo y consistente (ver figura 1.9):

Una hiptesis es completa si cubre todos los ejemplos positivos Una hiptesis es consistente si no cubre a ninguno de los ejemplos negativos

A veces el usuario determina el criterio de paro. Si el sistema genera sus propios ejemplos, ste lo determina.

57

Figura 1.9: Completo y Consistente (X positivos y O negativos).

5.2 espacio de versionesDesde el punto de vista de lgica, en aprendizaje computacional, normalmente empezamos con un predicado meta ( ) y tratamos de encontrar una expresin lgica equivalente que nos sirva para clasificar ejemplos correctamente. Cada hiptesis propone una expresin, y la llamaremos la definicin candidata del predicado meta. Como lo mencionamos antes, el espacio de hiptesis H es el conjunto de todas las hiptesis producir. , que el algoritmo de aprendizaje est diseado a

Cada hiptesis predice que un cierto conjunto de ejemplos (aquellos que satisfacen su definicin candidata) son ejemplos del predicado meta. A estos ejemplos tambin se les llama la extensin del predicado. En este sentido dos hiptesis son lgicamente equivalentes si tienen la misma extensin.

58

Los ejemplos son objetos para los cuales el predicado meta puede o no satisfacerse. Una hiptesis es consistente lgicamente con los ejemplos si se cumple o no dependiendo si el ejemplo es positivo o negativo. Las condiciones por las cuales una hiptesis puede ser inconsistente con algn ejemplo son:

Un ejemplo es un negativo falso para la hiptesis (i.e., la hiptesis dice que debe de ser negativo y en realidad es positivo) Un ejemplo es un positivo falso para la hiptesis (i.e., la hiptesis dice que debe de ser positivo y en realidad es negativo)

Si asumimos que el ejemplo es una observacin correcta, un falso positivo o negativo implica que la hiptesis tiene que ser rechazada. Desde un esquema de lgica, podemos caracterizar el aprendizaje inductivo eliminando gradualmente hiptesis que sean inconsistentes con los ejemplos (ver figura 1.10).

59

Figura 1.10: Proceso de eliminacin de hiptesis. Sin embargo, el espacio es muy grande (e incluso infinito en muchos casos) haciendo su implantacin directa imprctica (sino imposible). Bsqueda de la mejor hiptesis actual: La idea es mantener una sola hiptesis, e irla ajustando conforme nuevos ejemplos se consideran, manteniendo consistencia. El algoritmo bsico puede encontrarse descrito desde 1943 (John Stuart Mill).

60

Si tenemos una hiptesis y recibimos un negativo falso, entonces la extensin de la hiptesis debe aumentarse para incluirlo. A esto se le llama generalizacin. Si tenemos un positivo falso, entonces la extensin de la hiptesis debe reducirse para excluirlo. A esto se le llama especializacin.

Figura 1.11: Proceso de especializar y generalizar. Definimos generalizacin y especializacin como operaciones que cambian la extensin de una hiptesis (ver figura 1.11). Intuitivamente si la ``cubre''. Ahora debemos de ver cmo implementarlas como operaciones sintcticas. Una posible forma de generalizar es eliminando condiciones volviendo las definiciones ms dbiles y por lo tanto cubriendo un conjunto mayor de ejemplos o aadiendo disjunciones (ver tabla 1.1). es ms general que

61

De forma dual, podemos especializar aadiendo condiciones o eliminando disjunciones.

Tabla 1.1: Algoritmo de Mejor Hiptesis Actual.

La estrategia de la tabla 1.1, sigue bsicamente una bsqueda en profundidad. Podemos empezar con una generalizacin o con una especializacin que sea consistente con los ejemplos. Las ideas de ste algoritmo se han usado en varios sistemas de aprendizaje, sin embargo, tiene algunos problemas: 1. Verificar todas las instancias anteriores cada vez que se hace una modificacin 2. Es difcil encontrar buenas heursticas de bsqueda y el hacer backtracking puede volverse ``eterno'' El hacer backtracking sucede porque en el algoritmo anterior escoge una hiptesis particular como la mejor (aunque no se tenga suficiente informacin para estar seguros de tal decisin). Alternativamente, podemos seguir una bsqueda a lo ancho (i.e., mantener varias hiptesis a la vez). Si seguimos una estrategia de especfico a general, podemos tratar de tener en el conjunto todas las generalizaciones ms especficas que son

62

consistentes con las observaciones (tambin podemos hacerlo de general a especfico). Ver tabla 1.2.

Tabla 1.2: Algoritmo de Especfico a General a lo ancho.

Los ejemplos positivos forzan las generalizaciones y los negativos eliminan generalizaciones. Sigue un proceso monotnico de especfico a general. Sin embargo, cada vez que generalizamos, seguimos teniendo que verificar consistencia con todos los ejemplos positivos. Bsqueda con el menor compromiso Una alternativa es mantener todas y slo aquellas hiptesis que son consistentes con todos los datos. Con cada instancia nueva, o no se hace nada, o se eliminan algunas hiptesis. Asumiendo que el espacio de hiptesis inicial tiene una respuesta correcta, la disjuncin de hiptesis reducida, va a seguir teniendola. Al conjunto de hiptesis que quedan se le llama espacio de versiones (version space).

63

Una propiedad importante del algoritmo es que es incremental (nunca se tiene que regresar para examinar ejemplos viejos). Problema obvio: si el espacio es gigantesco, como podemos escribir la disjuncin completa de hiptesis. El punto es que no la tenemos que escribir! Se puede hacer una analoga con nmeros reales. Si queremos representar todos los nmeros entre y

Esto lo podemos hacer porque existe un ordenamiento. La generalizacin / especializacin tambin nos da un orden, en este caso un orden parcial (ver figura 1.12).

Figura 1.12: Orden parcial entre hiptesis. En este caso, las fronteras no son puntuales, sino conjuntos de hiptesis o conjuntos frontera (boundary sets). Lo bueno es que podemos representar todo el espacio de versiones usando slo 2 conjuntos de frontera:

la frontera ms general (el conjunto G) la frontera ms especfica (el conjunto S)

64

Todo lo que est entre S y G est garantizado a ser consistente con los ejemplos (el tamao de S y G depende del lenguaje). Resumiendo:

el espacio de versiones actual es el conjunto de hiptesis consistente con todos los ejemplos vistos cada elemento del conjunto S es consistente con todas las observaciones hasta el momento y no existen hiptesis consistentes que sean ms especficas cada elemento del conjunto G es consistente con todas las observaciones hasta el momento y no existen hiptesis consistentes que sean ms generales

El espacio de versiones inicial tiene que representar a todas las hiptesis. Esto se puede lograr haciendo G = True (contiene todo) y S = False (su extensin es vaca). Se tienen que cumplir dos propiedades:

Toda hiptesis consistente est entre S y G Toda hiptesis entre S y G es consistente

Lo nico que queda es como actualizar S y G. Si una en G (ver figura 1.13):

es una de las hiptesis en S y

65

Figura 1.13: Actualizacin en el espacio de versiones

1. Positivo falso para especializacin de

:

es muy general, pero por definicin no existe una

consistente, por lo que la eliminamos

2. Negativo falso para : es muy especfico y tenemos que substituirlo por su generalizacin in