Click here to load reader

Data Mining Practical Machine Learning Tools and Techniques Traducido

  • View
    28

  • Download
    2

Embed Size (px)

DESCRIPTION

El libro de Data Mining Practical Machine Learning Tools and Techniques de Ian H. Witten - Eibe Frank - Mark A. Hall, Traducido al español

Text of Data Mining Practical Machine Learning Tools and Techniques Traducido

De qu se trata?

La fecundacin humana in vitro consiste en recoger varios vulos de los ovarios de una mujer, que, despus de la fertilizacin con pareja o donante de esperma, producen varios embriones. Algunos de ellos son seleccionados y transferidos al tero de la mujer. El desafo es para seleccionar los "mejores" embriones para utilizar-los que tienen ms probabilidades de sobrevivir. Seleccin se basa en alrededor de 60 caractersticas registradas de los embriones-caracterizando su morfologa, ovocito, y el folculo, y la muestra de esperma. El nmero de caractersticas es lo suficientemente grande como para que sea difcil para un embrilogo para evaluar todos de forma simultnea y correlacionar los datos histricos con el resultado crucial de si ese embrin se produjo o no dar lugar a un nio vivo. En un proyecto de investigacin en Inglaterra, la mquina de aprendizaje ha sido investigada como una tcnica para hacer la seleccin, utilizando histrica registros de los embriones y su resultado como datos de entrenamiento. Cada ao, los productores de leche en Nueva Zelanda tienen que tomar una decisin empresarial difcil: que las vacas para retener en su rebao y que para vender a un matadero. Tpicamente, una quinta parte de las vacas en un hato lechero son sacrificados cada ao cerca del final del ordeo temporada como reserva de alimentacin se reducen. La cra y la produccin de leche La historia de cada vaca influye en esa decisin. Otros factores incluyen la edad (una vaca se acerca al final de su productiva vida a los ocho aos), problemas de salud, antecedentes de un parto difcil, indeseable rasgos de temperamento (patadas o saltando vallas), y no estar embarazada con el becerro para la temporada siguiente. Cerca de 700 atributos para cada uno de varios millones de vacas tienen ha registrado en los ltimos aos. El aprendizaje automtico se ha investigado como una forma de la determinacin de lo que se tienen en cuenta los factores de xito de los agricultores-no automatizar la decisin, pero para propagar sus conocimientos y experiencia a los dems. La vida y la muerte. De Europa a las Antpodas. La familia y los negocios. Mquina el aprendizaje es una nueva tecnologa emergente para el conocimiento de la minera de datos, una tecnologa que mucha gente est empezando a tomar en serio.1.1 MINERA DE DATOS Y EL APRENDIZAJE DE LA MQUINA Estamos abrumados con datos. La cantidad de datos en el mundo y en nuestras vidas Parece cada vez ms-y no hay final a la vista. Computadoras omnipresentes hacen demasiado fcil para guardar cosas que antes nos hubiera papelera. discos econmicos y almacenamiento en lnea que sea muy fcil posponer las decisiones sobre qu hacer con todo esto-simplemente obtenemos ms memoria y guardamos todo. Electrnica ubicua grabar nuestras decisiones, nuestras opciones en el supermercado, nuestros hbitos financieros, nuestro idas y venidas. Acercamos nuestro camino a travs del mundo, cada golpetazo un registro en una base de datos. El (WWW) World Wide Web nos abruma con la informacin; Mientras tanto, cada eleccin que hacemos se graba. Y todas estas son opciones, slo personales que tienen un sinnmero de contrapartes en el mundo del comercio y la industria. Podramos todos dan testimonio de la creciente brecha entre la generacin de los datos y el conocimiento de la misma. Como el volumen de datos aumenta, inexorablemente, la proporcin de que la gente entender disminuye alarmantemente. Mentir escondido en todos estos datos es la informacin- potencialmente til la informacin-que rara vez se hace explcito o aprovechado. Este libro trata de buscar patrones en los datos. No hay nada nuevo en esto. La gente ha estado buscando patrones en los datos desde que comenz la vida humana. Los cazadores buscan patrones en el comportamiento de la migracin animal, los agricultores buscan patrones en el crecimiento de los cultivos, los polticos buscar patrones en opinin de los votantes, y los amantes buscan patrones en sus socios ' respuestas. El trabajo de un cientfico (como la de un beb) es de dar sentido a los datos, para descubrir la patrones que rigen la forma en que funciona el mundo fsico y los encapsula en las teoras que se puede utilizar para predecir lo que suceder en las nuevas situaciones. Del empresario trabajo es identificar las oportunidades-es decir, los patrones de comportamiento que se pueden convertir en un negocio rentable y explotarlos. En la minera de datos, los datos se almacenan electrnicamente y la bsqueda se automatiza-o al menos aumentada por ordenador. Incluso esto no es particularmente nueva. Economistas, estadsticos, los meteorlogos e ingenieros de la comunicacin han trabajado durante mucho tiempo con el idea de que los patrones en los datos se pueden buscar de forma automtica, identificadas, validadas y utilizadas para la prediccin. Lo que es nuevo es el espectacular aumento de las oportunidades para la bsqueda de patrones en los datos. El crecimiento desenfrenado de las bases de datos en los ltimos aos, las bases de datos para actividades tales cotidianos como las opciones del cliente, aporta la minera de datos a la vanguardia de la nuevas tecnologas empresariales. Se ha estimado que la cantidad de datos almacenados en las bases de datos del mundo se duplica cada 20 meses, y aunque seguramente sera difcil justificar esta cifra en un sentido cuantitativo, todos podemos relacionar con el ritmo de crecimiento cualitativamente. A medida que el flujo de datos se hincha y mquinas que pueden llevar a cabo la bsqueda convertido en algo comn, las oportunidades para el aumento de la minera de datos. Como el mundo crece en complejidad, abrumarnos con los datos que genera, datos la minera se convierte en nuestra nica esperanza para elucidar patrones ocultos. Inteligentemente analizado datos es un recurso valioso. Puede conducir a nuevos conocimientos, y, en los entornos comerciales, de ventajas competitivas. La minera de datos se trata de resolver los problemas mediante el anlisis de los datos ya presentes en bases de datos. Supongamos, para tomar un ejemplo muy usado, el problema es del cliente voluble lealtad en un mercado altamente competitivo. Una base de datos de opciones del cliente, a lo largo de con perfiles de clientes, es la clave para este problema. Los patrones de comportamiento de los ex los clientes pueden ser analizados para identificar las caractersticas distintivas de las que es probable para cambiar los productos y las que puedan permanecer fieles. Una vez que tales caractersticas son encontrados, se pueden poner a trabajar para identificar a los clientes actuales que tienen probabilidades de saltar nave. Este grupo puede ser objeto de un tratamiento especial, el tratamiento demasiado costoso para aplicar a la base de clientes en su conjunto. Ms positivamente, las mismas tcnicas se pueden utilizar para identificar clientes que podran ser atrados a otro servicio de la empresa ofrece, uno que no estn actualmente disfrutando, de dirigirse a ellos para las ofertas especiales que promover este servicio. En el actual altamente competitivo, centrado en el cliente, serviceoriented economa, los datos son la materia prima que alimenta el crecimiento del negocio, aunque slo se puede ser extrado. La minera de datos se define como el proceso de descubrimiento de patrones en los datos. El proceso debe ser automtico o (ms habitualmente) semiautomtica. Los patrones descubiertos deben sentido en que conducen a alguna ventaja, por lo general de carcter econmico. La datos es invariablemente presentes en cantidades sustanciales. Y cmo se expresan los patrones? Patrones tiles nos permiten hacer trivial predicciones sobre los nuevos datos. Hay dos extremos para la expresin de un patrn: como una caja de negro cuyas entraas son efectivamente incomprensible, y como transparente cuadro cuya construccin revela la estructura del patrn. Tanto, estamos asumiendo, hacer buenas predicciones. La diferencia es si los patrones que se extraen se representan en trminos de una estructura que puede ser examinada, razonada acerca, y utilizado para informar las decisiones futuras. Tales patrones que llamamos estructural porque capturar la estructura de decisin de manera explcita. En otras palabras, que ayudan a explicar algo acerca de los datos. Ahora, una vez ms, se puede decir lo que trata este libro: Se trata de tcnicas para la bsqueda de y describir los patrones estructurales en los datos. La mayora de las tcnicas que cubrimos tiene desarrollado dentro de un campo conocido como el aprendizaje de mquina. Pero primero echemos un vistazo a lo que patrones estructurales son.

Describiendo los Patrones EstructuralesQu se quiere decir con patrones estructurales? Cmo describes ellos? Y qu forma toma la entrada? Vamos a responder a estas preguntas a modo de ilustracin y no que por intentar definiciones formales, y en ltima instancia, estriles,. Habr un montn de ejemplos ms adelante en este captulo, pero vamos a examinar uno ahora mismo para hacerse una idea por lo que estamos hablando. Observe los datos de lentes de contacto en la Tabla 1.1. Se da las condiciones bajo las cuales un ptico podra querer prescribir lentes blandas de contacto, lentes de contacto duras, o no lentes de contacto en absoluto; diremos ms sobre cules son las caractersticas individuales significan ms tarde. Cada lnea de la tabla es uno de los ejemplos. Parte de una descripcin estructural de este informacin podra ser la siguiente:Va tablaSi la tasa de produccin de lgrimas = despus se redujo recomendacin = ningunoDe lo contrario, si la edad = joven y astigmtica = no despusrecomendacin = suaveIf tear production rate = reduced then recommendation = noneOtherwise, if age = young and astigmatic = no thenrecommendation = softDescripciones estructurales no necesitan necesariamente ser expresada como reglas de este tipo. Decisin rboles, que especifican las secuencias de decisiones que necesitan ser hecho junto con la recomendacin resultante, son otra forma popular de