48
1 1. Áreas de estudio de la inteligencia artificial INTELIGENCIA ARTIFICIAL En la actualidad son muchas las áreas en las cuales tiene influencia la inteligencia artificial. SIMULACIÓN DE LA CAPACIDAD SENSORIAL HUMANA. La simulación de la capacidad sensorial humana es área de estudio de la inteligencia artificial, que a través de las computadoras persigue la imitación de las capacidades o habilidades sensoriales humanas tales como vista, oído, habla y tacto. ROBOTICA. La robótica es el área de la inteligencia artificial que estudia la imitación del movimiento humano a través de robots, los cuales son creados con el fin de apoyar procesos mecánicos repetitivos que requieren gran precisión. LENGUAJES NATURALES. Esta rama del estudio de la inteligencia artificial se enfoca en el diseño y desarrollo de software capaz de aceptar, interpretar y ejecutar instrucciones dadas por los usuarios en su lenguaje nativo. SISTEMAS EXPERTOS. Los sistemas expertos constituyen el área de la inteligencia artificial que quizá en este momento tiene más relación con el apoyo al proceso de la toma de decisiones en las organizaciones. Estos sistemas, denominados también sistemas basados en el conocimiento, permiten cargar bases de conocimientos integradas por una serie de reglas de sentido común o conocimiento heurístico; es decir, conocimiento basados u obtenidos a través de la experiencia de un especialista o experto. REDES NEURALES. Las redes neurales permiten que las máquinas aprendan, el nombre de redes neurales proviene de la similitud con la forma de operar del cerebro humano en donde las neuronas forman enlaces unas con otras con bases en pulsos eléctricos. LÓGICA DIFUSA. La lógica difusa es una técnica matemática para el tratamiento de datos imprecisos y problemas que tienen más de una solución. La lógica difusa puede tratar con valores entre 0 y 1, es más parecido a la lógica humana que la lógica binaria tradicional de las computadoras digitales.

Aplicaciones Difusas

Embed Size (px)

DESCRIPTION

aplicaciones difusas

Citation preview

  • 1

    1. reas de estudio de la inteligencia artificial

    INTELIGENCIA ARTIFICIAL

    En la actualidad son muchas las reas en las cuales tiene influencia la inteligencia artificial.

    SIMULACIN DE LA CAPACIDAD SENSORIAL HUMANA. La simulacin de la capacidad sensorial humana es rea de estudio de la inteligencia artificial, que a travs de las computadoras persigue la imitacin de las capacidades o habilidades sensoriales humanas tales como vista, odo, habla y tacto.

    ROBOTICA. La robtica es el rea de la inteligencia artificial que estudia la imitacin del movimiento humano a travs de robots, los cuales son creados con el fin de apoyar procesos mecnicos repetitivos que requieren gran precisin.

    LENGUAJES NATURALES. Esta rama del estudio de la inteligencia artificial se enfoca en el diseo y desarrollo de software capaz de aceptar, interpretar y ejecutar instrucciones dadas por los usuarios en su lenguaje nativo.

    SISTEMAS EXPERTOS. Los sistemas expertos constituyen el rea de la inteligencia artificial que quiz en este momento tiene ms relacin con el apoyo al proceso de la toma de decisiones en las organizaciones. Estos sistemas, denominados tambin sistemas basados en el conocimiento, permiten cargar bases de conocimientos integradas por una serie de reglas de sentido comn o conocimiento heurstico; es decir, conocimiento basados u obtenidos a travs de la experiencia de un especialista o experto.

    REDES NEURALES. Las redes neurales permiten que las mquinas aprendan, el nombre de redes neurales proviene de la similitud con la forma de operar del cerebro humano en donde las neuronas forman enlaces unas con otras con bases en pulsos elctricos. LGICA DIFUSA. La lgica difusa es una tcnica matemtica para el tratamiento de datos imprecisos y problemas que tienen ms de una solucin. La lgica difusa puede tratar con valores entre 0 y 1, es ms parecido a la lgica humana que la lgica binaria tradicional de las computadoras digitales.

  • 2

    AGENTES INTELIGENTES. Programa diseado con conocimiento para realizar ciertas tareas especficas, normalmente repetitivas. Un agente inteligente puede ser programado para tomar decisiones con base en las preferencias de una persona. El propsito principal es poder asignar tareas al agente inteligente, las cuales harn ms rpido, ms frecuentemente y con mayor eficacia que el ser humano, tal como lo haran los asistentes de ayuda que hoy tienen algunos paquetes para ensear al usuario a realizar una actividad especfica. Los agentes se clasifican en dos tipos:

    Agentes cognitivos: Aquellos capaces de efectuar operaciones complejas. Son individualmente inteligentes. Pueden comunicarse con los dems agentes y llegar a un acuerdo con todos o alguno de ellos.

    Agentes reactivos: Son agentes de bajo nivel y no disponen de un protocolo ni de un lenguaje de comunicacin; su nica capacidad es responder a estmulos.

    TARJETAS INTELIGENTES (SMART CARDS)

    Una smart card es un pedazo de plstico del mismo tamao que una tarjeta de crdito con chip de silicio integrado en ella.

    La tarjeta es inteligente porque est activa; es decir, puede recibir informacin, procesarla y tomar una informacin.

    Algunas de las ventajas de una smart card en comparacin con una tarjeta tradicional son las siguientes:

    Mayor seguridad: los datos almacenados en una smart card estn protegidos por complejos mecanismos de seguridad. Estos hace difcil y costoso copiar (o clonar ) las tarjetas.

    Mayor rapidez: las smart cards pueden realizar transacciones seguras fuera de lnea que generalmente tardan menos que las tarjetas que requieren transacciones en lnea.

    Mayor capacidad para datos: una smart card puede almacenar ms datos que una tarjeta tradicional de cinta magntica. De esta manera en una misma tarjeta se puede tener varios tipos de servicios, como por ejemplo transacciones comerciales de crdito, de dbito, programa de puntos, etc.

    Algunas aplicaciones de las tarjetas inteligentes son:

    Tarjetas telefnicas: una smart card puede identificar a la persona que llama desde un telfono pblico y cargar el costo de la llamada a una cuenta de telfono

  • 3

    Tarjetas de asistencia de salud: las tarjetas inteligentes pueden almacenar expedientes mdicos, informacin para casos de emergencia, etctera.

    Control de seguridad: pueden programarse para permitir el acceso a edificios o datos, dependiendo del cargo y puesto en una organizacin.

    Tarjetas de fidelidad para clientes: en varios programas de fidelidad de clientes de lneas areas, hoteles, etc. Se utilizan smart cards para que registren puntos y premios, logrando ofrecer detalle sobre los hbitos de los clientes a los operadores de dichos programas, con el fin de elaborar campaas de promocin con mayor precisin.

    2. SISTEMA DE CONTROL DIFUSO

    Difuso: Borroso, confuso, vago, con incertidumbre

    Ejemplos: Conduccin en una carretera Operador de una planta industrial Control de la temperatura de un recinto

    Justificaciones para la teora de Sistemas Difusos:

    1. Demasiada complejidad para la obtencin de descripciones precisas en

    algunos sistemas reales. Es necesario introduccin aproximacin. 2. Es necesaria una teora que permita formular el conocimiento humano de

    forma sistemtica e incluirlo en sistemas de ingeniera.

    Qu son Sistemas Difusos?.- Sistemas basados en el conocimiento o sistemas basados en reglas;

    Regla SI_ENTONCES: Describe qu hacer cuando se

    presenta una determinada situacin

    SI la velocidad del coche es alta ENTONCES pisar con fuerza baja el acelerador

    Ejemplos: Control de la velocidad de un mvil Control de temperatura Descripciones sobre un sistema

  • 4

    Principales Campos de Investigacin

    Control Procesamiento de seales Circuitos integrados Sistemas expertos

    Economa Medicina Psicologa

    Sistemas Difusos para Control

    Definicin.- Sistema experto en tiempo real que implementa una parte de la forma de operar de una persona o de un proceso con experiencia en ingeniera que no puede expresarse fcilmente como parmetros PID (mecanismo de control por realimentacin. Tiene 3 acciones: Proporcional, Integral, y Derivativa) o como ecuaciones diferenciales, sino como reglas situacin accin.

    Ventajas y lmites del control difuso 1.- Emplea el conocimiento experto para conseguir un grado de automatizacin mayor:

    En algunos casos de control de procesos industriales (p.ej., industria qumica) el grado de automatizacin es muy bajo. Muchas de las acciones son realizadas por operadores que basan su conocimiento en la experiencia pero que difcilmente se puede expresar con ecuaciones diferenciales

    PERO, slo si existe conocimiento relevante del proceso y su control que pueda expresarse en trminos de lgica difusa

    2.- Control no lineal robusto:

    En situaciones de perturbacin externa, un controlador PID afronta el problema con una compensacin entre reacciones rpidas con excesos significativos o reacciones suaves pero lentas. El control difuso cubre un amplio rango de parmetros del sistema y puede afrontar la mayora de las perturbaciones

  • 5

    PERO, aunque generalmente es as, an no estn bien formalizadas las caractersticas necesarias para que el control difuso sea robusto y estable

    3.- Reduce el tiempo de desarrollo y mantenimiento:

    El control difuso posee dos niveles de abstraccin (reglas y parmetros) que permite un diseo conjunto entre expertos en el problema e ingenieros electrnicos.

    Generalmente s, PERO la adquisicin de conocimiento, codificacin, prueba y depuracin necesaria en control difuso requiere un alto grado de preparacin del experto.

    Recomendaciones de uso del control difuso El control difuso es recomendable:

    Para procesos muy complejos, cuando no hay un modelo matemtico simple Para procesos altamente no lineales

    Si el procesamiento del (lingsticamente formulado) conocimiento experto puede ser desempeado

    El control difuso no es una buena idea si:

    El control convencional tericamente rinde un resultado satisfactorio Existe un modelo matemtico fcilmente soluble y adecuado El problema no es soluble Si ya existe una solucin basada en sistemas difusos para resolver una

    problema similar, estamos en la lnea correcta

    Si tenemos una buena solucin en trminos de control PID, con rendimiento del sistema, costes de desarrollo y mantenimiento satisfactorios debemos mantenernos en esa lnea.

    Si no estamos satisfechos con la solucin existente respecto a alguno de estos criterios o es un problema que no se puede resolver con control clsico, hay que analizar el motivo.

    Si ciertas partes del sistema son desconocidas, no medibles, o con incertidumbre, se debe optar por un diseo basado en lgica difusa.

    Si se desconoce el modelo matemtico del sistema o ste es complejo, un sistema difuso puede ser la solucin.

    Ejemplos de sistemas difusos de control comerciales Productos de consumo:

  • 6

    Lavadoras

    Hornos microondas Cmaras de videos Televisores Traductores

    Sistemas:

    Ascensores

    Trenes Gras Automocin (motores, transmisin, frenos...) Control de trfico

    Software:

    Diagnstico mdico Seguridad Comprensin de datos

    3. SISTEMAS EXPERTOS

    DEFINICIN

    Un Sistema Experto se puede definir como un sistema computacional interactivo que permite la creacin de bases de conocimiento, las cuales una vez cargadas responden a preguntas, despejan dudas y sugieren cursos de accin emulando/simulando el proceso de razonamiento de un experto para resolver problemas en un rea especfica del conocimiento humano. De esta definicin se desprenden las dos habilidades fundamentales que poseen los Sistemas Expertos:

    Habilidad de aprendizaje. Habilidad para simular el proceso de razonamiento humano.

    La habilidad de aprendizaje requiere la interaccin de un experto en alguna rama especfica del saber y un ingeniero de conocimiento, que se encarga de traducir este conocimiento del experto a reglas heursticas para formar la base de conocimiento.

  • 7

    La habilidad para imitar el razonamiento que posee el Sistemas Experto se desprende de caminar a lo largo de las reglas heursticas introducidas o enseadas al sistema por un experto, a travs del proceso de aprendizaje durante la carga o generacin de las bases del conocimiento.

    BENEFICIOS EN EL USO DE SISTEMAS EXPERTOS.

    La utilizacin de los Sistemas Expertos en las organizaciones pueden traer varios beneficios, los cuales sern comentados a continuacin:

    REDUCCIN EN LA DEPENDENCIA DE PERONAL CLAVE. Esto se debe a que los conocimientos del personal especializado son retenidos durante el proceso de aprendizaje, y estn listos para ser utilizados por diferentes personas. Esto es til cuando la experiencia es escasa o costosa, o bien, cuando los expertos no se encuentran disponibles para la solucin de un problema en particular.

    FACILITA EL ENTRENAMIENTO DEL PERSONAL. El Sistema Expertos puede ayudar de manera importante, y a costo menor, a la capacitacin y adiestramiento del personal sin experiencia.

    MEJORA EN LA CALIDAD Y EFICIENCIA EN EL PROCESO DE LA TOMA DE DECISIONES. Lo anterior implica que las decisiones podrn tomarse de una forma ms gil con el apoyo de un Sistema Experto. Incuso, las decisiones podrn ser consistentes al presentarse situaciones equivalentes. Esto significa que un Sistema Expertos responder siempre de la misma forma ante las mismas situaciones, lo cual no necesariamente ocurre con las personas.

    TRANFERENCIA DE LA CAPACIDAD DE DECISIONES. Un Sistema Experto puede facilitar la descentralizacin de datos en el proceso de la toma de decisiones en aquellos casos que se consideren convenientes. Asi, el conocimiento de un experto puede transferirse a varias personas, de tal forma que las decisiones sean tomadas en el nivel ms bajo.

    COSTOS QUE INVOLUCRAN.

    El Shell o paquete generador del Sistema Experto. El equipo computacional o hardware que se requiera. Consultora especializada. El tiempo de los expertos. Costos de implantacin. Costos involucrados con el mantenimiento y seguimiento del sistema.

    COMPONENTES:

    EL GENERADOR DE SISTEMAS EXPERTOS O SHELL.

  • 8

    El generador de Sistemas Expertos o Shell es el programa o software que permite desarrollar el Sistema Experto. Especficamente, el Shell constituye la herramienta que apoya el proceso de creacin de las bases de conocimiento y facilita la utilizacin del modelo por parte de los usuarios. A continuacin se dar una breve descripcin de los componentes del Shell:

    INGENIERO DEL CONOCIMIENTO. El ingeniero del conocimiento es el especialista en el uso del Shell y tcnicas de entrevistas. Es la persona que entrevista al experto y se encarga de traducir sus conocimientos y experiencias en reglas heursticas, las cuales integran la base de conocimiento de un problema en particular.

    EXPERTO.

    Es la persona que interacta con el ingeniero del conocimiento, aportando su conocimiento y su experiencia de un rea particular del saber humano.

    BASE DEL CONOCIMIENTO.

    Una vez que se realizan las entrevistas entre el ingeniero del conocimiento y el experto, se codifican y capturan todas las reglas heursticas, para integrar la base del conocimiento que posteriormente ser utilizada para apoyar la solucin de problemas reales y especficos que se le presenten al usuario.

    MOTOR DE INFERENCIA.

    Es la parte del Shell que se encarga de razonar, es decir a partir de un problema o hecho real aplica las reglas y llega a su solucin. Este motor es el vehculo a travs del cual las reglas que estn en la base del conocimiento se utilizan y aplican para la solucin de un problema particular. El motor de inferencia puede operar de dos formas diferentes, de acuerdo con el razonamiento que se emplee:

    Razonamiento hacia delante. En este razonamiento se transita a travs de las reglas, partiendo de hechos o situaciones reales, hasta encontrar las adecuadas para llegar a una solucin o recomendacin.

    Razonamiento hacia atrs. En este razonamiento se transita a travs de las reglas partiendo de alguna hiptesis y buscando las reglas o hechos reales que hagan cierta la hiptesis o la idea que se tiene del problema.

    INTERFASE DE USUARIO.

    Es la parte del Shell que permite al usuario interactuar con el sistema para resolver sus problemas cotidianos. En este contexto, el usuario tiene un problema,

  • 9

    y a travs del uso de Shell, llega a las soluciones o recomendaciones.

    SELECCIN DE APLICACIONES PARA SISTEMAS EXPERTOS.

    Las caractersticas que deben tener los problemas para considerarlos susceptibles de resolver a travs de un Sistema Experto son:

    Utilizacin de varios expertos dentro del trabajo rutinario. Las decisiones que se tornan complejas y siguen una secuencia lgica. Las decisiones lgicas, as como las soluciones del problema, pueden

    expresarse o traducirse a reglas heursticas. El conocimiento que se est modelando se encuentra bien delimitado y es

    profundo, no amplio y superficial. El problema no tiene solucin analtica, de lo contrario se sugiere la

    solucin a travs de tcnicas analticas. Cuando las reglas del juego no cambian con demasiada frecuencia, en

    cuyo caso ser incosteable el desarrollo del modelo experto. Cuando hay pocos expertos en otras reas de la organizacin o localidades

    remotas.

    HERRAMIENTAS PARA EL DESARROLLO DE SISTEMAS EXPERTOS.

    Para desarrollar Sistemas Expertos es necesario utilizar una herramienta apropiada. Las herramientas pueden ser lenguajes de programacin o sistemas de ayuda para la generalizacin de Sistemas Expertos, los cuales son llamados Shells.

    TENDENCIAS FUTURAS.

    Los Sistemas Expertos se estn utilizando cada vez ms en las organizaciones, debido a que la tecnologa tambin es cada vez ms accesible para una gran mayora de las empresas.

    Se piensa que en el futuro las interfaces de los Sistemas Expertos sern en leguaje natural, lo cual facilitar la comunicacin entre usuarios y el sistema.

    Los Sistemas Expertos darn mayor soporte en el proceso de toma de decisiones, permitiendo tener el conocimiento del experto capturando en una base de conocimiento y utilizarlo cuando se requiera sin que est l presente.

    Se manejarn herramientas inteligentes para explotar la informacin que contengan las bases de datos, permitiendo con ello un mejor uso de la informacin.

  • 10

    Los Sistemas Expertos se integrarn a otras tecnologas para dar un mayor soporte en todas las reas de la empresa.

    4. REDES NEURONALES ARTIFICIALES

    El Modelo Biolgico

    Se estima que en cada milmetro del cerebro hay cerca de 50.000 neuronas,

    conteniendo en total ms de cien mil millones de neuronas y sinapsis en el

    sistema nervioso humano.

    La teora y modelado de redes neuronales est inspirada en la estructura y funcionamiento de los sistemas nerviosos, donde la neurona es el elemento fundamental.

    En general, una neurona consta de un cuerpo celular ms o menos esfrico, de 5 a 10 micras de dimetro, del que salen una rama principal, el axn, y varias ramas ms cortas, llamadas dendritas.

    http://www.monografias.com/trabajos4/epistemologia/epistemologia.shtmlhttp://www.monografias.com/trabajos15/todorov/todorov.shtml#INTROhttp://www.monografias.com/trabajos/redesneuro/redesneuro.shtml
  • 11

    El tamao y la forma de las neuronas es variable, pero con las mismas

    subdivisiones:

    1. El cuerpo de la neurona,

    2. Ramas de extensin llamadas dendritas para recibir las entradas, y

    3. Un axn que lleva la salida de la neurona a las dendritas de otras neuronas.

    El cuerpo de la neurona o Soma contiene el ncleo. Se encarga de todas las

    actividades metablicas de la neurona y recibe la informacin de otras neuronas

    vecinas a travs de las conexiones sinpticas (algunas neuronas se comunican

    solo con las cercanas, mientras que otras se conectan con miles).

    Las dendritas, parten del soma y tienen ramificaciones. Se encargan de la recepcin de seales de las otras clulas a travs de conexiones llamadas sinpticas. Si pensamos, desde ahora, en trminos electrnicos podemos decir que las dendritas son las conexiones de entrada de la neurona. Por su parte el axn es la "salida" de la neurona y se utiliza para enviar impulsos o seales a otras clulas nerviosas. Cuando el axn est cerca de sus clulas destino se divide en muchas ramificaciones que forman sinapsis con el soma o axones de otras clulas. Esta unin puede ser "inhibidora" o "excitadora" segn el transmisor que las libere. Cada neurona recibe de 10.000 a 100.000 sinapsis y el axn realiza una cantidad de conexiones similar. Se estia que en el cerebro humano existen del orden de 1015 conexiones.

    Las seales que se utilizan son de dos tipos: elctrica y qumica. La seal generada por la neurona y transportada a lo largo del axn es un impulso elctrico, mientras que la seal que se transmite entre los terminales axnicos de una neurona y las dendritas de la otra es de origen qumico.

    Para establecer una similitud directa entre la actividad sinptica y la analoga con las redes neuronales artificiales podemos considerar: Las seales que llegan a la sinapsis son las entradas a la neurona; estas son ponderadas (atenuadas o simplificadas) a travs de un parmetro, denominado peso asociado a la sinapsis correspondiente. Estas seales de entrada pueden excitar a la neurona (sinapsis con peso positivo) o inhibirla (peso negativo). El efecto es la suma de las entradas ponderadas. Si la suma es igual o mayor que el umbral de la neurona, entonces la neurona se activa (da salida. La facilidad de transmisin de seales se altera mediante la actividad del sistema nervioso. Las sinapsis son susceptibles a la fatiga, deficiencia de oxgeno y la presencia de anestsicos, entre otro. Esta habilidad de ajustar seales es un mecanismo de aprendizaje.

    http://www.monografias.com/Quimica/index.shtmlhttp://www.monografias.com/trabajos11/sisne/sisne.shtmlhttp://www.monografias.com/trabajos14/falta-oxigeno/falta-oxigeno.shtmlhttp://www.monografias.com/trabajos5/teap/teap.shtml
  • 12

    ELEMENTOS DE UNA RNA

    Las redes neuronales artificiales (RNA) son modelos que intentan reproducir el comportamiento del cerebro. Como tal modelo, realiza una simplificacin, averiguando cules son los elementos relevantes del sistema, bien porque la cantidad de informacin de que se dispone es excesiva o bien porque es redundante. Unidad de proceso: La neurona Artificial. Existen tres tipos de unidades en cualquier sistema: entradas, salidas y ocultas. Las unidades de entrada reciben seales desde el entorno; las de salida envan la seal fuera de la red, y las unidades ocultas son aquellas cuyas entradas y salidas se encuentran dentro del sistema.

    Se conoce como capa o nivel a un conjunto de neuronas cuyas entradas provienen de la misma fuente y cuyas salidas se dirigen al mismo destino.

    1. Estado de Activacin. Los estados del sistema en un tiempo t se representan por un vector A(t). Los valores de activacin pueden ser continuos o discretos, limitados o ilimitados. Si son discretos, suelen tomar un conjunto discreto de valores binarios, as un estado activo se indicara con un 1 y un estado pasivo se representara por un cero. En otros modelos se considera un conjunto de estados de activacin, cuyo valor est entre [0,1], o en el intervalo [-1,1], siendo una funcin sigmoidal.

    2. Funcin de Salida o de Transferencia. Asociada con cada unidad hay una funcin de salida, que transforma el estado actual de activacin en una seal de salida.

    Existen cuatro funciones de transferencia tpicas que determinan distintos tipos de neuronas:

    Funcin Escaln Funcin Lineal y Mixta Sigmoidal Funcin Gaussiana

    Aunque su estructura vara segn el tipo de red, lo ms usual es que haya tres capas de neuronas, una de entrada, que recoge los estmulos, otra oculta, que procesa la informacin, y otra de salida, que ejecuta la respuesta.

    http://www.monografias.com/trabajos16/comportamiento-humano/comportamiento-humano.shtmlhttp://www.monografias.com/trabajos11/teosis/teosis.shtmlhttp://www.monografias.com/trabajos6/meti/meti.shtmlhttp://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtmlhttp://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtmlhttp://www.monografias.com/trabajos12/elorigest/elorigest.shtmlhttp://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtmlhttp://www.monografias.com/trabajos7/mafu/mafu.shtmlhttp://www.monografias.com/trabajos12/elorigest/elorigest.shtmlhttp://www.monografias.com/trabajos15/todorov/todorov.shtml#INTRO
  • 13

    MECANISMO DE APRENDIZAJE. El aprendizaje es el proceso por el cual

    una red neuronal modifica sus pesos en respuesta a una informacin de

    entrada. Los cambios que se producen durante el proceso de aprendizaje

    se reducen a la destruccin, modificacin y creacin de conexiones entre

    las neuronas, la creacin de una nueva conexin implica que el peso de la

    misma pasa a tener un valor distinto de cero, una conexin se destruye

    cuando su peso pasa a ser cero. Se puede afirmar que el proceso de

    aprendizaje ha finalizado (la red ha aprendido) cuando los valores de los

    pesos permanecen estables (dwij / dt = 0).

    Se suele considerar dos tipos de reglas de aprendizaje: las de aprendizaje supervisado y las de aprendizaje no supervisado, estas reglas dan pie a una de las clasificaciones que se realizan de las RNA: Redes neuronales con aprendizaje supervisado y Redes neuronales con aprendizaje no supervisado. La diferencia fundamental entre ambos tipos estriba en la existencia o no de un agente externo (supervisor) que controle el aprendizaje de la red.

    REDES CON APRENDIZAJE SUPERVISADO. El proceso de aprendizaje se realiza mediante un entrenamiento controlado por un agente externo (supervisor, maestro) que determina la respuesta que debera generar la red a partir de una entrada determinada. El supervisor comprueba la salida de la red y en el caso de que sta no coincida con la deseada, se proceder a modificar los pesos de las conexiones, con el fin de conseguir que la salida se aproxime a la deseada.

    Se consideran tres formas de llevar a cabo este tipo de aprendizaje:

    http://www.monografias.com/trabajos14/mocom/mocom.shtml
  • 14

    Aprendizaje por correccin de error: Consiste en ajustar los pesos en funcin de la diferencia entre los valores deseados y los obtenidos en la salida de la red; es decir, en funcin del error.

    Aprendizaje por refuerzo: Se basa en la idea de no indicar durante el entrenamiento exactamente la salida que se desea que proporcione la red ante una determinada entrada. La funcin del supervisor se reduce a indicar mediante una seal de refuerzo si la salida obtenida en la red se ajusta a la deseada (xito=+1 o fracaso=-1), y en funcin de ello se ajustan los pesos basndose en un mecanismo de probabilidades.

    Aprendizaje estocstico: Este tipo de aprendizaje consiste bsicamente en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y evaluar su efecto a partir del objetivo deseado y de distribuciones de probabilidad.

    REDES CON APRENDIZAJE NO SUPERVISADO. Estas redes no requieren influencia externa para ajustar los pesos de las conexiones entre neuronas. La red no recibe ninguna informacin por parte del entorno que le indique si la salida generada es o no correcta.

    En algunos casos, la salida representa el grado de familiaridad o similitud entre la informacin que se le est presentando en la entrada y las informaciones que se le han mostrado en el pasado. En otro caso podra realizar una codificacin de los datos de entrada, generando a la salida una versin codificada de la entrada, con menos bits, pero manteniendo la informacin relevante de los datos, o algunas redes con aprendizaje no supervisado lo que realizan es un mapeo de caractersticas, obtenindose en las neuronas de salida una disposicin geomtrica que representa un mapa topogrfico de las caractersticas de los datos de entrada.

    En general en este tipo de aprendizaje se suelen considerar dos tipos:

    Aprendizaje Hebbiano: Consiste bsicamente en el ajuste de los pesos de las conexiones de acuerdo con la correlacin, as si las dos unidades son activas (positivas), se produce un reforzamiento de la conexin. Por el contrario cuando una es activa y la otra pasiva (negativa), se produce un debilitamiento de la conexin.

    Aprendizaje competitivo y cooperativo: Las neuronas compiten (y cooperan) unas con otras con el fin de llevar a cabo una tarea dada. Con este tipo de aprendizaje se pretende que cuando se presente a la red cierta informacin de entrada, solo una de las neuronas de salida se active (alcance su valor de respuesta mximo). Por tanto las neuronas compiten por activarse , quedando finalmente una, o una por grupo, como neurona vencedora.

    http://www.monografias.com/trabajos16/objetivos-educacion/objetivos-educacion.shtmlhttp://www.monografias.com/trabajos11/tebas/tebas.shtmlhttp://www.monografias.com/trabajos11/basda/basda.shtmlhttp://www.monografias.com/trabajos14/dinamica-grupos/dinamica-grupos.shtml
  • 15

    Requieren de algn tipo de patrn

    La clase de problemas que mejor se resuelven con las redes neuronales son los mismos que el ser humano resuelve mejor: Asociacin, evaluacin, y reconocimiento de patrones. Las redes neuronales son perfectas para problemas que son muy difciles de calcular pero que no requieren de respuestas perfectas, slo respuestas rpidas y buenas. Tal y como acontece con el escenario burstil en el que se quiere saber compro?, vendo?, mantengo?, o en el reconocimiento cuando se desea saber se parece? es el mismo pero tienen una ligera modificacin?

    Por otra parte, las redes neuronales son muy malas para clculos precisos, procesamiento en serie, y no son capaces de reconocer nada que no tenga inherentemente algn tipo de patrn. Es por esto, que no pueden predecir la lotera, ya que por definicin es un proceso al azar.

    Ejemplo: la figura 8 muestra una red neuronal que, a partir de dos entradas

    activadas entre los elementos A1,A2,A3, B1,B2,B3 (los tres primeros de la clase A

    y los tres ltimos de la clase B), reconoce si stos son de igual o distinta clase.

    Para solucionar este problema se realiza la red neuronal mostrada en la figura

    anterior, que consta de una capa de nodos ocultos y una capa de nodos de salida

    que emiten las conclusiones. Se muestran los pesos asignados a las entradas

    adems de los umbrales de cada nodo.

    Si por ejemplo, slo se activan las entradas A1 y A3:

    o el nodo11 computa 1*A1+1*A2+1*A3 = 1*1+1*0+1*1 = 2, y como 2 >0.5 su salida S11=1

    o el nodo12 computa 1*B1+1*B2+1*B3 = 1*0+1*0+1*0 = 0, y como 0

  • 16

    o el nodo21 computa 1*S11+1*S12 = 1*1+1*0 = 1, y como 1 (-1.5) su salida S22=1.

    La interpretacin de las salidas nos indica que las entradas A1 y A3 son de igual

    clase. Queda como ejercicio pendiente el probar con entradas de distinta clase,

    por ejemplo A1 y B1.

    MODELOS DE RNA

    Existe una serie de modelos que aparecen en la mayora de estudios acadmicos y la bibliografa especializada.

    Perceptrn simple

    Adaline

    Perceptrn multicapa

    Memorias asociativas

    Mquina de Bolzman

    Mquina de Cauchy

    Redes de Elman

    Redes de Hopfield

    Redes de neuronas de base radial

    Redes de neuronas de aprendizaje competitivo

    Redes de Kohonen o mapas autoorganizados

    Redes ART (Adaptative Resonance Theory)

    http://es.wikipedia.org/w/index.php?title=Perceptr%C3%B3n_simple&action=edithttp://es.wikipedia.org/w/index.php?title=Adaline&action=edithttp://es.wikipedia.org/wiki/Perceptrn_multicapahttp://es.wikipedia.org/w/index.php?title=Memoria_asociativa_%28RNA%29&action=edithttp://es.wikipedia.org/w/index.php?title=M%C3%A1quina_de_Bolzman&action=edithttp://es.wikipedia.org/w/index.php?title=M%C3%A1quina_de_Cauchy&action=edithttp://es.wikipedia.org/w/index.php?title=Elman_%28RNA%29&action=edithttp://es.wikipedia.org/w/index.php?title=Hopfield_%28RNA%29&action=edithttp://es.wikipedia.org/w/index.php?title=RNA_de_base_radial&action=edithttp://es.wikipedia.org/w/index.php?title=LVQ&action=edithttp://es.wikipedia.org/w/index.php?title=Kohonen_%28RNA%29&action=edithttp://es.wikipedia.org/w/index.php?title=ART_%28RNA%29&action=edit
  • 17

    5. ALGORITMOS GENTICOS

    INTRODUCCION

    De vez en cuando, los creacionistas acusan a la evolucin de que carece de

    utilidad como teora cientfica porque no produce beneficios prcticos y no tiene

    relevancia en la vida diaria. Sin embargo, tan slo la evidencia de la biologa

    demuestra que esta afirmacin es falsa. Hay numerosos fenmenos naturales

    para los que la evolucin nos ofrece un slido fundamento terico. Por nombrar

    uno, el desarrollo observado de la resistencia -a los insecticidas en las plagas de

    cultivos, a los antibiticos en las bacterias, a la quimioterapia en las clulas

    cancerosas, y a los frmacos antiretrovirales en virus como el VIH- es una

    consecuencia abierta de las leyes de la mutacin y la seleccin, y comprender que

    estos principios nos ha ayudado a desarrollar estrategias para enfrentarnos a

    estos nocivos organismos. El postulado evolutivo de la descendencia comn ha

    ayudado al desarrollo de nuevos medicamentos y tcnicas, al proporcionar a los

    investigadores una buena idea de con qu organismos deben experimentar para

    obtener resultados que probablemente sern relevantes para los seres humanos.

    Finalmente, el hombre ha utilizado con grandes resultados el principio de cra

    selectiva para crear organismos personalizados, distintos a cualquiera que se

    pueda encontrar en la naturaleza, para beneficio propio. El ejemplo cannico, por

    supuesto, es la diversidad de variedades de perros domsticos (razas tan diversas

    como los bulldogs, chihuahuas y dachshunds han sido producidas a partir de lobos

    en slo unos pocos miles de aos), pero ejemplos menos conocidos incluyen al

    maz cultivado (muy diferente de sus parientes salvajes, que carecen de las

    familiares ``orejas'' del maz cultivado), a los peces de colores (como los perros,

    hemos criado variedades cuyo aspecto es drsticamente distinto al del tipo

    salvaje), y a las vacas lecheras (con ubres inmensas, mucho mayores que las

    necesarias para alimentar a una cra).

    Los crticos pueden argumentar que los creacionistas pueden explicar estas cosas

    sin recurrir a la evolucin. Por ejemplo, a menudo los creacionistas explican el

    desarrollo de la resistencia a los agentes antibiticos en las bacterias, o los

    cambios forjados en los animales domsticos por seleccin artificial, asumiendo

    que Dios decidi crear a los organismos en grupos fijos, llamados ``tipos'' o

    baramins. Aunque la microevolucin natural o la seleccin artificial dirigida por

    humanos pueden producir diferentes variedades dentro de los ``tipo-perro'', ``tipo-

    vaca'' o ``tipo-bacteria'', creados originalmente.

  • 18

    Sin embargo, nunca se explica cmo determinan los creacionistas lo que es un

    ``tipo'', o qu mecanismo impide a los seres vivos evolucionar ms all de sus

    lmites.

    Pero en las ltimas dcadas, el continuo avance de la tecnologa moderna ha

    producido algo nuevo. Ahora la evolucin est produciendo beneficios prcticos en

    un campo muy distinto y, esta vez, los creacionistas no pueden afirmar que su

    explicacin se adapte a los hechos igual de bien. Este campo es la informtica, y

    los beneficios provienen de una estrategia de programacin llamada algoritmos

    genticos.

    Qu es un algoritmo gentico?

    Expuesto concisamente, un algoritmo gentico (o AG para abreviar) es una tcnica de programacin que imita a la evolucin biolgica como estrategia para resolver problemas. Dado un problema especfico a resolver, la entrada del AG es un conjunto de soluciones potenciales a ese problema, codificadas de alguna manera, y una mtrica llamada funcin de aptitud que permite evaluar cuantitativamente a cada candidata. Estas candidatas pueden ser soluciones que ya se sabe que funcionan, con el objetivo de que el AG las mejore, pero se suelen generar aleatoriamente.

    Luego el AG evala cada candidata de acuerdo con la funcin de aptitud. En un acervo de candidatas generadas aleatoriamente, por supuesto, la mayora no funcionarn en absoluto, y sern eliminadas. Sin embargo, por puro azar, unas pocas pueden ser prometedoras -pueden mostrar actividad, aunque slo sea actividad dbil e imperfecta, hacia la solucin del problema.

    Estas candidatas prometedoras se conservan y se les permite reproducirse. Se realizan mltiples copias de ellas, pero las copias no son perfectas; se introducen cambios aleatorios durante el proceso de copia. Luego, esta descendencia digital prosigue con la siguiente generacin, formando un nuevo acervo de soluciones candidatas, y son sometidas a una ronda de evaluacin de aptitud. Las candidatas que han empeorado o no han mejorado con los cambios en su cdigo son eliminadas de nuevo; pero, de nuevo, por puro azar, las variaciones aleatorias introducidas en la poblacin pueden haber mejorado a algunos individuos, convirtindolos en mejores soluciones del problema, ms completas o ms eficientes. De nuevo, se seleccionan y copian estos individuos vencedores hacia la siguiente generacin con cambios aleatorios, y el proceso se repite.

    Aunque a algunos les puede parecer asombroso y anti intuitivo, los algoritmos genticos han demostrado ser una estrategia enormemente poderosa y exitosa para resolver problemas, demostrando de manera espectacular el poder de los principios evolutivos. Se han utilizado algoritmos genticos en una amplia variedad de campos para desarrollar soluciones a problemas tan difciles o ms difciles que

  • 19

    los abordados por los diseadores humanos. Adems, las soluciones que consiguen son a menudo ms eficientes, ms elegantes o ms complejas que nada que un ingeniero humano producira.

    MTODOS DE REPRESENTACIN

    Antes de que un algoritmo gentico pueda ponerse a trabajar en un problema, se necesita un mtodo para codificar las soluciones potenciales del problema de forma que una computadora pueda procesarlas. Un enfoque comn es codificar las soluciones como cadenas binarias: secuencias de 1s y 0s, donde el dgito de cada posicin representa el valor de algn aspecto de la solucin. Otro mtodo similar consiste en codificar las soluciones como cadenas de enteros o nmeros decimales, donde cada posicin, de nuevo, representa algn aspecto particular de la solucin. Este mtodo permite una mayor precisin y complejidad que el mtodo comparativamente restringido de utilizar slo nmeros binarios.

    Un tercer mtodo consiste en representar a los individuos de un AG como cadenas de letras, donde cada letra, de nuevo, representa un aspecto especfico de la solucin. Un ejemplo de esta tcnica es el mtodo basado en ``codificacin gramatical'' de Hiroaki Kitano, en el que a un AG se le encarg la tarea de evolucionar un sencillo conjunto de reglas llamadas gramtica libre de contexto, que a su vez se utilizaban para generar redes neuronales para una variedad de problemas.

    La virtud de estos tres mtodos es que facilitan la definicin de operadores que causen los cambios aleatorios en las candidatas seleccionadas: cambiar un 0 por un 1 o viceversa, sumar o restar al valor de un nmero una cantidad elegida al azar, o cambiar una letra por otra.

    Otra estrategia para representar a los programas son las estructuras de datos ramificadas llamadas rboles. En este mtodo, los cambios aleatorios pueden generarse cambiado el operador o alterando el valor de un cierto nodo del rbol, o sustituyendo un subrbol por otro.

  • 20

    Figure: Tres sencillos rboles de programa del tipo utilizado normalmente en la

    programacin gentica. Debajo se proporciona la expresin matemtica que

    representa cada uno.

    MTODOS DE SELECCIN

    Un algoritmo gentico puede utilizar muchas tcnicas diferentes para seleccionar a los individuos que deben copiarse hacia la siguiente generacin. Algunos de estos mtodos son mutuamente exclusivos, pero otros pueden utilizarse en combinacin, algo que se hace a menudo.

    Seleccin elitista: se garantiza la seleccin de los miembros ms aptos de cada generacin. (La mayora de los AGs no utilizan elitismo puro, sino que usan una forma modificada por la que el individuo mejor, o algunos de los mejores, son copiados hacia la siguiente generacin en caso de que no surja nada mejor).

    Seleccin proporcional a la aptitud: los individuos ms aptos tienen ms probabilidad de ser seleccionados, pero no la certeza.

    Seleccin por rueda de ruleta: una forma de seleccin proporcional a la aptitud en la que la probabilidad de que un individuo sea seleccionado es proporcional a la diferencia entre su aptitud y la de sus competidores. (Conceptualmente, esto puede representarse como un juego de ruleta -cada individuo obtiene una seccin de la ruleta, pero los ms aptos obtienen secciones mayores que las de los menos aptos. Luego la ruleta se hace girar, y en cada vez se elige al individuo que ``posea'' la seccin en la que se pare la ruleta).

    Seleccin escalada: al incrementarse la aptitud media de la poblacin, la fuerza de la presin selectiva tambin aumenta y la funcin de aptitud se hace ms discriminadora. Este mtodo puede ser til para seleccionar ms tarde, cuando todos los individuos tengan una aptitud relativamente alta y slo les distingan pequeas diferencias en la aptitud.

  • 21

    Seleccin por torneo: se eligen subgrupos de individuos de la poblacin, y los miembros de cada subgrupo compiten entre ellos. Slo se elige a un individuo de cada subgrupo para la reproduccin.

    Seleccin por rango: a cada individuo de la poblacin se le asigna un rango numrico basado en su aptitud, y la seleccin se basa en este ranking, en lugar de las diferencias absolutas en aptitud. La ventaja de este mtodo es que puede evitar que individuos muy aptos ganen dominancia al principio a expensas de los menos aptos, lo que reducira la diversidad gentica de la poblacin y podra obstaculizar la bsqueda de una solucin aceptable.

    Seleccin generacional: la descendencia de los individuos seleccionados en cada generacin se convierte en toda la siguiente generacin. No se conservan individuos entre las generaciones.

    Seleccin por estado estacionario: la descendencia de los individuos seleccionados en cada generacin vuelven al acervo gentico prexistente, remplazando a algunos de los miembros menos aptos de la siguiente generacin. Se conservan algunos individuos entre generaciones.

    Seleccin jerrquica: los individuos atraviesan mltiples rondas de seleccin en cada generacin. Las evaluaciones de los primeros niveles son ms rpidas y menos discriminatorias, mientras que los que sobreviven hasta niveles ms altos son evaluados ms rigurosamente. La ventaja de este mtodo es que reduce el tiempo total de clculo al utilizar una evaluacin ms rpida y menos selectiva para eliminar a la mayora de los individuos que se muestran poco o nada prometedores, y sometiendo a una evaluacin de aptitud ms rigurosa y computacionalmente ms costosa slo a los que sobreviven a esta prueba inicial.

    MTODOS DE CAMBIO

    Una vez que la seleccin ha elegido a los individuos aptos, stos deben ser alterados aleatoriamente con la esperanza de mejorar su aptitud para la siguiente generacin. Existen dos estrategias bsicas para llevar esto a cabo. La primera y ms sencilla se llama mutacin. Al igual que una mutacin en los seres vivos cambia un gen por otro, una mutacin en un algoritmo gentico tambin causa pequeas alteraciones en puntos concretos del cdigo de un individuo.

    El segundo mtodo se llama cruzamiento, e implica elegir a dos individuos para que intercambien segmentos de su cdigo, produciendo una ``descendencia'' artificial cuyos individuos son combinaciones de sus padres. Este proceso pretende simular el proceso anlogo de la recombinacin que se da en los cromosomas durante la reproduccin sexual. Las formas comunes de cruzamiento incluyen al cruzamiento de un punto, en el que se establece un punto de intercambio en un lugar aleatorio del genoma de los dos individuos, y uno de los individuos contribuye todo su cdigo anterior a ese punto y el otro individuo contribuye todo su cdigo a partir de ese punto para producir una descendencia, y

  • 22

    al cruzamiento uniforme, en el que el valor de una posicin dada en el genoma de la descendencia corresponde al valor en esa posicin del genoma de uno de los padres o al valor en esa posicin del genoma del otro padre, elegido con un 50% de probabilidad.

    Figura: Cruzamiento y mutacin. El diagrama de arriba ilustra el efecto de estos

    dos operadores genticos en los individuos de una poblacin de cadenas de 8

    bits. El diagrama superior muestra a dos individuos llevando a cabo un

    cruzamiento de un punto; el punto de intercambio se establece entre las

    posiciones quinta y sexta del genoma, produciendo un nuevo individuo que es

    hbrido de sus progenitores. El segundo diagrama muestra a un individuo

    sufriendo una mutacin en la posicin 4, cambiando el 0 de esa posicin de su

    genoma por un 1.

    Un algoritmo gentico es un termino empleado para describir sistemas de

    resolucin de problemas de optimizacin o bsqueda basados en el computador;

    que emplean modelos computacionales de algn conocido mecanismo de

    evolucin como elemento clave en su diseo e implementacin.

    t :=0;

    Inicializar P(t);

    Evaluar P(t)

    While no se termine do

    begin

  • 23

    P(t) := variacin [P(t)];

    evaluar [P(t)];

    P(t+1) := seleccione[P(t)Q];

    t:=t+1;

    end

    6. ALMACENES DE DATOS Y MINERA DE DATOS

    SISTEMAS DE INFORMACION

    Los sistemas de informacin se han dividido de acuerdo al siguiente esquema:

    Sistemas Estratgicos, orientados a soportar la toma de decisiones, facilitan la labor de la direccin, proporcionndole un soporte bsico, en forma de mejor informacin, para la toma de decisiones. Se caracterizan porque son sistemas sin carga peridica de trabajo, es decir, su utilizacin no es predecible, al contrario de los casos anteriores, cuya utilizacin es peridica.

    Destacan entre estos sistemas: los Sistemas de Informacin Gerencial (MIS), Sistemas de Informacin Ejecutivos (EIS), Sistemas de Informacin Georeferencial (GIS), Sistemas de Simulacin de Negocios (BIS y que en la prctica son sistemas expertos o de Inteligencia Artificial-AI).

  • 24

    Sistemas Tcticos, diseados para soportar las actividades de coordinacin de actividades y manejo de documentacin, definidos para facilitar consultas sobre informacin almacenada en el sistema, proporcionar informes y, en resumen, facilitar la gestin independiente de la informacin por parte de los niveles intermedios de la organizacin.

    Destacan entre ellos: los Sistemas Ofimticos (OA), Sistemas de Transmisin de Mensajera (E-mail y Fax Server), coordinacin y control de tareas (Work Flow) y tratamiento de documentos (Imagen, Trmite y Bases de Datos Documentarios).

    Sistemas Tcnico-Operativos, que cubren el ncleo de operaciones tradicionales de captura masiva de datos (Data Entry) y servicios bsicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturacin, almacn, presupuesto, personal y otros sistemas administrativos). Estos sistemas estn evolucionando con la irrupcin de censores, autmatas, sistemas multimedia, bases de datos relacionales ms avanzadas y data warehousing.

    Sistemas Interinstitucionales, este ltimo nivel de sistemas de informacin recin est surgiendo, es consecuencia del desarrollo organizacional orientado a un mercado de carcter global, todo sto a partir de la generalizacin de las redes informticas de alcance nacional y global (INTERNET), que se convierten en vehculo de comunicacin entre la organizacin y el mercado, no importa dnde est la organizacin (INTRANET), el mercado de la institucin (EXTRANET) y el mercado (Red Global).

    Sin embargo, la tecnologa data warehousing basa sus conceptos y diferencias entre dos tipos fundamentales de sistemas de informacin en todas las organizaciones: los sistemas tcnico-operacionales y los sistemas de soporte de decisiones. Este ltimo es la base de un data warehouse.

  • 25

    Relacin entre Dato, Informacin y conocimiento

    Qu es Data Warehousing?

    Es un proceso, no un producto. Es una tcnica para consolidar y administrar datos de variadas fuentes con el propsito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora.

    Consolidar datos desde una variedad de fuentes, dentro del marco conceptual de Data Warehousing es el proceso de Transformacin de Datos.

    Manejar grandes volmenes de datos de una forma que no era posible, o no era costo efectiva, a estos medios se agrupan en Procesamiento y Administracin de Datos.

    Acceder a los datos de una forma ms directa, en "el lenguaje del negocio", y analizarlos para obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos categoras: Acceso a los Datos y Descubrimiento o Data Mining.

    Estos desarrollos tecnolgicos, correctamente organizados e interrelacionados, constituyen lo que se ha dado en llamar un Data Warehouse o Bodega de Datos.

    La definicin ms conocida para el DW, fue propuesta por Inmon [MicroSt96] (considerado el padre de las Bases de Datos) en 1992: Un DW es una coleccin

    file:///D:/APLICACIONES%20DIFUSAS/MineriaDatosBressan.htm%23%25BFQu%25E9+es+Data+Warehousing%3f
  • 26

    de datos orientados a temas, integrados, no-voltiles y variante en el tiempo, organizados para soportar necesidades empresariales.

    Caractersticas

    Segn, Bill Inmon, existen generalmente cuatro caractersticas que describen un almacn de datos:

    1. orientado al sujeto: los datos se organizan de acuerdo al sujeto en vez de la aplicacin, por ejemplo, una compaa de seguros usando un almacn de datos podra organizar sus datos por cliente, premios, y reclamaciones, en lugar de por diferentes productos (automviles, vida, etc.). Los datos organizados por sujetos contienen solo la informacin necesaria para los procesos de soporte para la toma de decisiones.

    Las diferencias entre la orientacin de procesos y aplicaciones; y la orientacin a temas, radican en el contenido de la data a nivel detallado. En el data warehouse se excluye la informacin que no ser usada por el proceso de sistemas de soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones. Otra diferencia importante est en la interrelacin de la informacin. Los datos operacionales mantienen una relacin continua entre dos o ms tablas basadas en una regla comercial que est vigente. Las del data warehouse miden un espectro de tiempo y las relaciones encontradas en el data warehouse son muchas.

  • 27

    El ambiente operacional se disea alrededor de las aplicaciones y funciones tales como prstamos, ahorros, tarjeta bancaria y depsitos para una institucin financiera. Por ejemplo, una aplicacin de ingreso de rdenes puede acceder a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicacin.

  • 28

    En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, stos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal mdico, medicamentos, etc.

    2. integrados: cuando los datos residen en muchas aplicaciones separados por los distintos entornos operacionales, la descodificacin de los datos es a menudo inconsistente. Por ejemplo, en una aplicacin, la palabra gender podra codificarse como "m" y "f" en otra como "0" y "1". cuando los datos fluyen de un entorno operacional a un entorno de almacn de datos o de data warehouse, ellos asumen una codificacin consistente, por ejemplo gender siempre se transformara a "m" y f

  • 29

    3. variacin-temporal: el almacn de datos contiene un lugar para guardar datos

    con una antigedad de 5 a diez aos, o incluso ms antiguos, para poder ser

    usados en comparaciones, tendencias y previsiones. Estos datos no se

    modificarn.

    4. no son inestables (no voltil): los datos no sern modificados o cambiados de

    ninguna manera una vez ellos han sido introducidos en el almacn de datos,

    solamente podrn ser cargados, ledos y/o accedidos.

    Data Warehouse

    Es el sistema para el almacenamiento y distribucin de cantidades masivas de

    datos. El Data Warehouse analtico resultante puede ser aplicado para mejorar

    procesos de negocios en toda la organizacin, en reas tales como manejo de

    campaas promocionales, deteccin de fraudes, lanzamiento de nuevos

    productos, etc.

    Los procesos que conforma el datawarehouse son:

    1-Extraccin

    2-Elaboracin

    3-Carga

    4-Explotacin

    Objetivos del Data Warehouse

    Proveer una visin nica de los clientes en toda la empresa

    Poner tanta informacin comercial como sea posible en manos de tantos

    usuarios diferentes como sea posible.

    Mejorar el tiempo de espera que insumen los informes habituales

    Monitorear el comportamiento de los clientes

  • 30

    Predecir compras de productos

    Mejorar la capacidad de respuesta a problemas comerciales

    Incrementar la precisin de las mediciones

    Aumentar la productividad

    Incrementar y distribuir las responsabilidades.

    Cmo trabaja el Data Warehouse?

    Extrae la informacin operacional.

    Transforma la operacin a formatos consistentes.

    Automatiza las tareas de la informacin para prepararla a un anlisis

    eficiente.

    En qu se lo puede usar?

    o Manejo de relaciones de marketing.

    o Anlisis de rentabilidad.

    o Reduccin de costos.

    Olap - procesamiento analtico on-line (On Line Analitic prossesing)

    Se refiere a aplicaciones de bases de datos orientadas a array que permite a los

    usuarios ver, navegar, manipular y analizar bases de datos multidimensionales.

    Un server multidimensional OLAP permite que un modelo de negocios ms

    sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las

    estructuras multidimensionales permiten que el usuario analice los datos de

    acuerdo a como quiera mirar el negocio, por lnea de producto, u otras

    perspectivas claves para su negocio. El server de Data Mining debe estar

    integrado con el data warehouse y el server OLAP para insertar el anlisis de

    negocios directamente en esta infraestructura. Un avanzado, metadato centrado

    en procesos define los objetivos del Data Mining para resultados especficos tales

    como manejos de campaa, prospecting, y optimizacin de promociones. La

    integracin con el data warehouse permite que decisiones operacionales sean

    implementadas directamente y monitoreadas.

  • 31

    Sistemas de Data Warehouse y Oltp

    Una base de datos para soportar procesos transaccionales en lnea (OLTP),

    puede no ser adecuada para el Data Warehouse ya que ha sido diseada para

    maximizar la capacidad transaccional de sus datos y tpicamente tiene cientos de

    tablas la gran mayora normalizadas. Su diseo tambin ha sido condicionado por

    los procesos operacionales que deber soportar para la ptima actualizacin de

    sus datos, normalmente muchas de sus tablas en constantes y continuos cambios.

    Los sistemas Data Warehouse estn orientados a procesos de consultas en

    contraposicin con los procesos transaccionales.

    Diferencias del Data Warehouse vs Oltp

    Los sistemas tradicionales de transacciones y las aplicaciones de Data

    Warehousing son polos opuestos en cuanto a sus requerimientos de diseo y sus

    caractersticas de operacin.

    Las aplicaciones de OLTP estn organizadas para ejecutar las transacciones para

    los cuales fueron hechos, como por ejemplo: mover dinero entre cuentas, un cargo

    o abono, una devolucin de inventario, etc. Por otro lado, un Data Warehouse est

    organizado en base a conceptos, como por ejemplo: clientes, facturas, productos,

    etc.

    Otra diferencia radica en el nmero de usuarios. Normalmente, el nmero de

    usuarios de un Data Warehouse es menor al de un OLTP. Es comn encontrar

    que los sistemas transaccionales son accedidos por cientos de usuarios

    simultneamente, mientras que los Data Warehouse slo por decenas. Los

    sistemas de OLTP realizan cientos de transacciones por segundo mientras que

    una sola consulta de un Data Warehouse puede tomar minutos. Otro factor es que

    frecuentemente los sistemas transaccionales son menores en tamao a los Data

    Warehouses, esto es debido a que un Data Warehouse puede estar formado por

    informacin de varios OLTPs.

    Existen tambin diferencia en el diseo, mientras que el de un OLTP es

    extremadamente normalizado, el de un Data Warehouse tiende a ser

    desnormalizado. El OLTP normalmente est formado por un nmero mayor de

  • 32

    tablas, cada una con pocas columnas, mientras que en un Data Warehouse el

    nmero de tablas es menor, pero cada una de stas tiende a ser mayor en nmero

    de columnas.

    Los OLTP son continuamente actualizados por los sistemas operacionales del da

    con da, mientras que los Data Warehouse son actualizados en batch de manera

    peridica.

    Las estructuras de los OLTP son muy estables, rara vez cambian, mientras las de

    los Data Warehouses sufren cambios constantes derivados de su evolucin. Esto

    se debe a que los tipos de consultas a los cuales estn sujetos son muy variados y

    es imposible preverlos todos de antemano.

    Mejorar la Entrega de Informacin: informacin completa, correcta, consistente,

    oportuna y accesible. Informacin que la gente necesita, en el tiempo que la

    necesita y en el formato que la necesita.

    Mejorar el Proceso de Toma de Decisiones: con un mayor soporte de informacin

    se obtienen decisiones ms rpidas; as tambin, la gente de negocios adquiere

    mayor confianza en sus propias decisiones y las del resto, y logra un mayor

    entendimiento de los impactos de sus decisiones.

    Impacto Positivo sobre los Procesos Empresariales: cuando a la gente se le da

    acceso a una mejor calidad de informacin, la empresa puede lograr por s sola:

    Eliminar los retardos de los procesos empresariales que resultan de

    informacin incorrecta, inconsistente y/o no existente.

    Integrar y optimizar procesos empresariales a travs del uso compartido e

    integrado de las fuentes de informacin.

    Eliminar la produccin y el procesamiento de datos que no son usados ni

    necesarios, producto de aplicaciones mal diseados o ya no utilizados.

    El descubrimiento del conocimiento (KDD)

    Se define como la extraccin no trivial de informacin implcita, desconocida, y

    potencialmente til de los datos. Hay una distincin clara entre el proceso de

  • 33

    extraccin de datos y el descubrimiento del conocimiento. Bajo sus convenciones,

    el proceso de descubrimiento del conocimiento toma los resultados tal como

    vienen de los datos (proceso de extraer tendencias o modelos de los datos)

    cuidadosamente y con precisin los transforma en informacin til y entendible.

    Esta informacin no es tpicamente recuperable por las tcnicas normales pero es

    descubierta a travs del uso de tcnicas de AI.

    KDD puede usarse como un medio de recuperacin de informacin, de la misma

    manera que los agentes inteligentes realizan la recuperacin de informacin en la

    Web. Nuevos modelos o tendencias en los datos podrn descubrirse usando estas

    tcnicas. KDD tambin puede usarse como una base para las interfaces

    inteligentes del maana, agregando un componente del descubrimiento del

    conocimiento a una mquina de bases de datos o integrando KDD con las hojas

    de clculo y visualizaciones.

    Al Descubrimiento de Conocimiento de Bases de Datos (KDD) a veces tambin se

    le conoce como minera de datos (Data Mining).

    Sin embargo, muchos autores se refieren al proceso de minera de datos como el

    de la aplicacin de un algoritmo para extraer patrones de datos y a KDD al

    proceso completo (pre-procesamiento, minera, post-procesamiento).

    El proceso de KDD consiste en usar mtodos de minera de datos (algoritmos)

    para extraer (identificar) lo que se considera como conocimiento de acuerdo a la

    especificacin de ciertos parmetros usando una base de datos junto con pre-

    procesamientos y post-procesamientos.

    Metas de KDD

    procesar automticamente grandes cantidades de datos crudos,

    identificar los patrones ms significativos y relevantes, y

    presentarlos como conocimiento apropiado para satisfacer las metas del

    usuario.

  • 34

    Tcnicas de KDD

    Los algoritmos de aprendizaje son una parte integral de KDD. Las tcnicas de aprendizaje pueden ser supervisadas o no supervisadas.

    El descubrimiento de la mquina es uno de los campos ms recientes que han contribuido para KDD. Mientras el descubrimiento de la mquina confa solamente en mtodos autnomos para el descubrimiento de la informacin, KDD tpicamente combina mtodos automatizados con la interaccin humana para asegurar resultados exactos, tiles, y entendibles.

    Hay muchos mtodos diferentes que son clasificados como las tcnicas de KDD. Hay mtodos cuantitativos, como los probabilsticos y los estadsticos. Hay mtodos que utilizan las tcnicas de visualizacin. Hay mtodos de clasificacin como la clasificacin de Bayesian, lgica inductiva, descubrimiento de modelado de datos y anlisis de decisin. Otros mtodos incluyen la desviacin y tendencia al anlisis, algoritmos genticos, redes neuronales y los mtodos hbridos que combinan dos o ms tcnicas.

    Debido a las maneras en que estas tcnicas pueden usarse y combinarse, hay una falta de acuerdos de cmo estas tcnicas deben categorizarse. Por ejemplo, el mtodo de Bayesian puede agruparse lgicamente con los mtodos probabilsticos, de clasificacin o de visualizacin. Por causa de la organizacin, cada mtodo descrito aqu es incluido en el grupo que mejor encaje. Sin embargo, esta seleccin no implica una categorizacin estricta.

    Mtodo Probabilstico. Esta familia de tcnicas KDD utiliza modelos de representacin grfica para comparar las diferentes representaciones del conocimiento. Estos modelos estn basados en las probabilidades e independencias de los datos. Las tcnicas probabilsticas pueden usarse en los sistemas de diagnstico, planeacin y sistemas de control.

    Mtodo estadstico. El mtodo estadstico usa la regla del descubrimiento y se basa en las relaciones de los datos. El algoritmo de aprendizaje inductivo puede seleccionar automticamente trayectorias tiles y atributos para construir las reglas de una base de datos con muchas relaciones''. El proceso analtico en lnea (OLAP) es un ejemplo de un mtodo orientado a la estadstica.

    Mtodo de clasificacin. La clasificacin es probablemente el mtodo ms viejo y mayormente usado de todos los mtodos de KDD. Este mtodo agrupa los datos de acuerdo a similitudes o clases. Hay muchos tipos de clasificacin de tcnicas y numerosas herramientas disponible que son automatizadas.

    Mtodo Bayesian de KDD "es un modelo grfico que usa directamente los arcos exclusivamente para formar una grfica acclica". Aunque el mtodo Bayesian usa

  • 35

    los medios probabilsticos y grficos de representacin, tambin es considerado un tipo de clasificacin.

    Se usan muy frecuentemente las redes de Bayesian cuando la incertidumbre se asocia con un resultado que puede expresarse en trminos de una probabilidad. Este mtodo cuenta con un dominio del conocimiento codificado y ha sido usado para los sistemas de diagnstico.

    Data Marts

    Es un pequeo Data Warehouse, para un determinado nmero de usuarios, para un arrea funcional, especifica de la compaa. Tambin podemos definir que un Data Marts es un subconjunto de una bodega de datos para un propsito especfico. Su funcin es apoyar a otros sistemas para la toma de decisiones.

    Se puede concluir que los Data marts son subconjuntos de datos de un data

    warehouse para reas especficas.

    Entre las caractersticas de una data mart destacan:

    Usuarios limitados. rea especfica. Tiene un propsito especfico. Tiene una funcin de apoyo.

    Cubos de informacin

    Los cubos de informacin o cubos OLAP (online analitical processing) funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos.

    Dimensiones Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (forman parte de la tabla de dimensiones). Son catlogos de informacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc.

    http://es.wikipedia.org/wiki/Hipercubo
  • 36

    Variables Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman parte de la tabla de hechos. Ms formalmente, las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Ejemplos de dimensiones podran ser: productos, localidades (o zonas), el tiempo (medido en das, horas, semanas, etc.),

    Ejemplos de variables podran ser:

    Beneficios Gastos Ventas etc.

    Ejemplos de dimensiones podran ser:

    producto (diferentes tipos o denominaciones de productos) localidades (o provincia, o regiones, o zonas geogrficas) tiempo (medido de diferentes maneras, por horas, por das, por meses, por

    aos, ...) tipo de cliente (casado/soltero, joven/adulto/anciano, ...) etc.

    Segn lo anterior, podramos construir un cubo de informacin sobre el ndice de ventas (variable a estudiar) en funcin del producto vendido, la provincia, el mes del ao y si el cliente est casado o soltero (dimensiones). Tendramos un cubo de 4 dimensiones.

    Metadatos

    Uno de los componentes ms importantes de la arquitectura de un almacn de datos son los metadatos. Se define comnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cul es la estructura de los datos que se van a almacenar y cmo se relacionan.

    http://es.wikipedia.org/wiki/Metadato
  • 37

    Funciones ETL (extraccin, transformacin y carga)

    Los procesos de extraccin, transformacin y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un data warehouse (o en cualquier base de datos). Implican las siguientes operaciones:

    Extraccin.- Accin de obtener la informacin deseada a partir de los datos almacenados en fuentes externas.

    Transformacin.- Cualquier operacin realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de ste a otra base de datos.

    Carga.- Consiste en almacenar los datos en la base de datos final, por ejemplo el data warehouse objetivo.

    Middleware es un trmino genrico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogneas.

    MINERA DE DATOS

    Es un mecanismo de explotacin, consistente en la bsqueda de informacin

    valiosa en grandes volmenes de datos. Est muy ligada a las bodegas de datos

    que proporcionan la informacin histrica con la cual los algoritmos de minera de

    datos tienen la informacin necesaria para la toma de decisiones.

    La md puede ser dividida en:

    minera de datos predictiva (mdp): usa primordialmente tcnicas

    estadsticas.

    minera de datos para descubrimiento de conocimiento (mddc): usa

    principalmente tcnicas de inteligencia artificial

    "La minera de datos es un proceso no trivial de identificacin vlida, novedosa,

    potencialmente til y entendible de patrones comprensibles que se encuentran

    ocultos en los datos" (Fayyad y otros, 1996).

    http://es.wikipedia.org/wiki/ETL
  • 38

    "Es la integracin de un conjunto de reas que tienen como propsito la

    identificacin de un conocimiento obtenido a partir de las bases de datos que

    aporten un sesgo hacia la toma de decisin" (Molina y otros, 2001).

    Se denomina minera de datos (data mining) al anlisis de archivos y bitcoras de

    transacciones, trabaja a nivel del conocimiento con el fin de descubrir patrones,

    relaciones, reglas, asociaciones o incluso excepciones tiles para la toma de

    decisiones. Por ejemplo, qu productos se comercializan mejor en la temporada

    navidea, en qu regiones es productivo sembrar caf, qu reas de una zona

    urbana incrementarn su demanda de escuelas primarias.

    Por eso la minera de datos revela patrones o asociaciones que usualmente nos

    eran desconocidas, se la ha llamado tambin Descubrimiento de Conocimiento,

    este tiene sus inicios en el Aprendizaje Automtico o la Estadstica.

    Un proceso de apoyo a la toma de decisiones de negocio debe incluir 2

    componentes: el de verificacin, y el de descubrimiento.

    El anlisis de verificacin nos permite obtener conclusiones basadas en el

    comportamiento pasado.

    La minera de datos con enfoque en el descubrimiento, puede ayudar a descubrir

    nuevas oportunidades de negocio.

    El anlisis de verificacin nos ayuda a confirmar o rechazar los "descubrimientos"

    obtenidos con el nuevo enfoque.

    La minera es un tema para grandes bases de datos, ayuda a descubrir a estas

    bases informacin rpida. Es una herramienta relacionada directamente al

    negocio.

    Se empieza a hablar de minera de datos cuando en el mercado se pone atencin

    en el producto y el cliente. Esta herramienta existe hace varios aos, el problema

    es que trabaja con grandes bases de datos.

    Aplicaciones de MD

    En la actualidad, existe una gran cantidad de aplicaciones, en reas tales como:

    * Astronoma: clasificacin de cuerpos celestes.

  • 39

    * Aspectos climatolgicos: prediccin de tormentas, etc.

    * Medicina: caracterizacin y prediccin de enfermedades, probabilidad de

    respuesta satisfactoria a tratamiento mdico.

    * Industria y manufactura: diagnstico de fallas.

    * Mercadotecnia: identificar clientes susceptibles de responder a ofertas de

    productos y servicios por correo, fidelidad de clientes, seleccin de sitios de

    tiendas, afinidad de productos, etc.

    * Inversin en casas de bolsa y banca: anlisis de clientes, aprobacin de

    prstamos, determinacin de montos de crdito, etc.

    * Deteccin de fraudes y comportamientos inusuales: telefnicos, seguros, en

    tarjetas de crdito, de evasin fiscal, electricidad, etc.

    * Anlisis de canastas de mercado para mejorar la organizacin de tiendas,

    segmentacin de mercado (clustering)

    * Determinacin de niveles de audiencia de programas televisivos

    * Normalizacin automtica de bases de datos

    FUENTES DE INFORMACION DEL DM:

    Mtodos especficos de rboles de decisin incluyen:

    - CART rboles de clasificacin y regresin: tcnica usada para la clasificacin de

    un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un

    nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un

    cierto resultado. Segmenta un conjunto de datos creando 2 divisiones.

    - CHAID Deteccin de interaccin automtica de Chi cuadrado: tcnica similar a la

    anterior, pero segmenta un conjunto de datos utilizando tests de chi cuadrado para

    crear mltiples divisiones.

    Reglas de Asociacin: establece asociaciones en base a los perfiles de los

    clientes sobre los cuales se est realizando el data mining. Las reglas de

    Asociacin estn siempre definidas sobre atributos binarios.

  • 40

    Algoritmos Genticos: son tcnicas de optimizacin que usan procesos tales

    como combinaciones genticas, mutaciones y seleccin natural en un diseo

    basado en los conceptos de evolucin.

    Redes Bayesianas: buscan determinar relaciones causales que expliquen un

    fenmeno en base a los datos contenidos en una base de datos. Se han usado

    principalmente para realizar prediccin.

    Procesamiento Analtico en Lnea (OLAP): estas herramientas ofrecen un

    mayor poder para revisar, graficar y visualizar informacin multidimensional, en

    caractersticas temporales, espaciales o propias. Se valen de lenguajes menos

    restringidos y estructurados como lo es SQL. Requieren todava de una alta

    participacin de un usuario humano, pues son interactivas y requieren la gua del

    experto.

    Redes neuronales artificiales: son modelos predecibles, no lineales que

    aprenden a travs del entrenamiento y semejan la estructura de una red neuronal

    biolgica.

    Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un

    conjunto de datos basado en una combinacin de las clases de k registro/s ms

    similar/es a l en un conjunto de datos histricos. Algunas veces se llama la

    tcnica del vecino k-ms cercano.

    Regla de induccin: la extraccin de reglas if-then de datos basados en

    significado estadstico.

    La tcnica usada para realizar estas hazaas en Data Mining se llama Modelado:

    es simplemente el acto de construir un modelo en una situacin donde usted

    conoce la respuesta y luego la aplica en otra situacin de la cual desconoce la

    respuesta.

    La Minera de Datos es una herramienta explorativa y no explicativa. Es decir,

    explora los datos para sugerir hiptesis. Es incorrecto aceptar dichas hiptesis

    como explicaciones o relaciones causa-efecto. Es necesario coleccionar nuevos

    datos y validar las hiptesis generadas ante los nuevos datos, y despus descartar

    aquellas que no son confirmadas por los nuevos datos.

  • 41

    La Minera de Datos no puede ser experimental. En muchas circunstancias, no es

    posible reproducir las condiciones que generaron los datos (especialmente si son

    datos del pasado, y una variable es el tiempo).

    Algoritmos de Minera de Datos

    Se clasifican en dos grandes categoras: supervisados o predictivos y no

    supervisados o de descubrimiento del conocimiento [Weiss y Indurkhya, 1998].

    Los algoritmos supervisados o predictivos predicen el valor de un atributo

    (etiqueta) de un conjunto de datos, conocidos otros atributos (atributos

    descriptivos). A partir de datos cuya etiqueta se conoce se induce una relacin

    entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven para realizar

    la prediccin en datos cuya etiqueta es desconocida. Esta forma de trabajar se

    conoce como aprendizaje supervisado y se desarrolla en dos fases:

    Entrenamiento (construccin de un modelo usando un subconjunto de datos con

    etiqueta conocida) y prueba (prueba del modelo sobre el resto de los datos).

    Cuando una aplicacin no es lo suficientemente madura no tiene el potencial

    necesario para una solucin predictiva, en ese caso hay que recurrir a los mtodos

    no supervisados o del descubrimiento del conocimiento que descubren patrones y

    tendencias en los datos actuales (no utilizan datos histricos). El descubrimiento

    de esa informacin sirve para llevar a cabo acciones y obtener un beneficio

    (cientfico o de negocio) de ellas.

    Retos de la minera de datos

    que los productos a comercializar son, en la actualidad, significativamente

    costosos, y los consumidores pueden hallar una relacin costo/beneficio

    improductiva.

    que se requiera de mucha experiencia para utilizar herramientas de la

    tecnologa, o que sea muy fcil hallar patrones equvocos, triviales o no

    interesantes.

    que exista una reaccin del pblico por el uso indiscriminado de datos

    personales para ejercicios de Minera de Datos.

  • 42

    tambin es muy posible que se deseen hacer inferencias y anlisis de datos

    sobre un periodo determinado, pero que durante dicho periodo no se haya

    registrado el mismo nmero de variables, o que stas no tengan la misma

    precisin, o carezcan de la misma interpretacin.

    Etapas principales del proceso de data mining

    1. Determinacin de los objetivos: delimitar los objetivos que el cliente desea

    bajo la orientacin del especialista en data mining.

    2. Preprocesamiento de los datos: se refiere a la seleccin, la limpieza, el

    enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta

    etapa consume generalmente alrededor del setenta por ciento del tiempo total de

    un proyecto de data mining.

    3. Determinacin del modelo: se comienza realizando un anlisis estadstico de

    los datos, y despus se lleva a cabo una visualizacin grfica de los mismos para

    tener una primera aproximacin. Segn los objetivos planteados y la tarea que

    debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes

    reas de la Inteligencia Artificial.

    4. Anlisis de los resultados: verifica si los resultados obtenidos son coherentes

    y los coteja con los obtenidos por el anlisis estadstico y de visualizacin grfica.

    El cliente determina si son novedosos y si le aportan un nuevo conocimiento que

    le permita considerar sus decisiones.

    Respecto a los modelos inteligentes, se ha comprobado que en ellos se utilizan

    principalmente rboles y reglas de decisin, reglas de asociacin, redes

    neuronales, redes Bayesianas, conjuntos aproximados (rough sets), algoritmos de

    agrupacin (clustering), mquinas de soporte vectorial, algoritmos genticos y

    lgica difusa.

    Extensiones del data mining

  • 43

    Web mining: consiste en aplicar las tcnicas de minera de datos a documentos y

    servicios del Web (Kosala y otros, 2000). Todos los que visitan un sitio en Internet

    dejan huellas digitales (direcciones de IP, navegador, etc.) que los servidores

    automticamente almacenan en una bitcora de accesos (Log). Las herramientas

    de Web mining analizan y procesan estos logs para producir informacin

    significativa. Debido a que los contenidos de Internet consisten en varios tipos de

    datos, como texto, imagen, vdeo, metadatos o hiperligas, investigaciones

    recientes usan el trmino multimedia data mining (minera de datos multimedia)

    como una instancia del Web mining (Zaiane y otros, 1998) para tratar ese tipo de

    datos. Los accesos totales por dominio, horarios de accesos ms frecuentes y

    visitas por da, entre otros datos, son registrados por herramientas estadsticas

    que complementan todo el proceso de anlisis del Web mining.

    Text mining: dado que el ochenta por ciento de la informacin de una compaa

    est almacenada en forma de documentos, las tcnicas como la categorizacin de

    texto, el procesamiento de lenguaje natural, la extraccin y recuperacin de la

    informacin o el aprendizaje automtico, entre otras, apoyan al text mining

    (minera de texto). En ocasiones se confunde el text mining con la recuperacin de

    la informacin (Information Retrieval o IR) (Hearst, 1999). Esta ltima consiste en

    la recuperacin automtica de documentos relevantes mediante indexaciones de

    textos, clasificacin, categorizacin, etc. Generalmente se utilizan palabras clave

    para encontrar una pgina relevante. En cambio, el text mining se refiere a

    examinar una coleccin de documentos y descubrir informacin no contenida en

    ningn documento individual de la coleccin; en otras palabras, trata de obtener

    informacin sin haber partido de algo (Nasukawa y otros, 2001).

    Por qu usar data mining?

    Si bien la data mining se presenta como una tecnologa emergente, posee ciertas

    ventajas, como son:

    Resulta un buen punto de encuentro entre los investigadores y las personas

    de negocios.

  • 44

    Ahorra grandes cantidades de dinero a una empresa y abre nuevas

    oportunidades de negocios.

    Trabajar con esta tecnologa implica cuidar un sin nmero de detalles

    debido a que el producto final involucra "toma de decisiones".

    Contribuye a la toma de decisiones tcticas y estratgicas proporcionando

    un sentido automatizado para identificar informacin clave desde

    volmenes de datos generados por procesos tradicionales y de e-Business.

    Permite a los usuarios dar prioridad a decisiones y acciones mostrando

    factores que tienen un mayor en un objetivo, qu segmentos de clientes son

    desechables y qu unidades de negocio son sobrepasados y por qu.

    Proporciona poderes de decisin a los usuarios del negocio que mejor

    entienden el problema y el entorno; y es capaz de medir la acciones y los

    resultados de la mejor forma.

    Genera Modelos descriptivos: en un contexto de objetivos definidos en los

    negocios permite a empresas, sin tener en cuenta la industria o el tamao,

    explorar automticamente, visualizar y comprender los datos e identificar

    patrones, relaciones y dependencias que impactan en los resultados finales

    de la cuenta de resultados (tales como el aumento de los ingresos,

    incremento de los beneficios, contencin de costes y gestin de riesgos).

    Genera Modelos predictivos: permite que relaciones no descubiertas e

    identificadas a travs del proceso del Data Mining sean expresadas como

    reglas de negocio o modelos predictivos. Estos outputs pueden

    comunicarse en formatos tradicionales (presentaciones, informes,

    informacin electrnica compartida, embebidos en aplicaciones, etc.) para

    guiar la estrategia y planificacin de la empresa.

    Conclusiones

    El desarrollo de la tecnologa de Minera de Datos est en un momento crtico.

    Existe una serie de elementos que la hacen operable, sin embargo, existen

    algunos factores que pueden crear un descrdito a la Minera de Datos, como ser:

  • 45

    Que los productos a comercializar son, en la actualidad, significativamente

    costosos, y los consumidores pueden hallar una relacin costo/beneficio

    improductiva

    Que se requiera de mucha experiencia para utilizar herramientas de la

    tecnologa, o que sea muy fcil hallar patrones equvocos, triviales o no

    interesantes,

    Que no sea posible resolver los aspectos tcnicos de hallar patrones en

    tiempo o en espacio,

    Adems, hoy en da, las corporaciones comercializan con millones de

    perfiles personales, sin que aquellos a que se refieren los datos

    intercambiados, estn en posibilidad de intervenir, entonces, se llegue a

    pensar que presenta un peligro o riesgo para la privacidad de los clientes.

    LOS DSS (DECISION SUPPORT SYSTEM)

    Breve historia

    A partir de 1990 aproximadamente, los almacenes de datos y el procesamiento analtico en lnea (OLAP) comenzaron a ampliar el mbito de los DSS. Como el cambio de milenio, se introdujeron nuevas aplicaciones analticas basadas en la web.

    Es evidente que los DSS pertenecen a un entorno con fundamentos multidisciplinarios, incluyendo (pero no exclusivamente) la investigacin en base de datos, inteligencia artificial, Interaccin hombre-mquina, mtodos de simulacin, ingeniera de software y telecomunicaciones. Los DSS tambin tienen una dbil conexin con el paradigma de la interfaz de usuario de hipertexto. Tanto el sistema PROMIS (para la toma de decisiones mdicas) de la Universidad de Vermont, como el sistema ZOG/KMS (para la toma de decisiones militares y de negocios) de la Universidad Carnegie Mellon fueron dos sistemas de apoyo a las decisiones que constituyeron grandes avances en la investigacin de interfaz de usuario.

    http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datoshttp://es.wikipedia.org/wiki/OLAPhttp://es.wikipedia.org/wiki/Base_de_datoshttp://es.wikipedia.org/wiki/Base_de_datoshttp://es.wikipedia.org/wiki/Inteligencia_artificialhttp://es.wikipedia.org/wiki/Interacci%C3%B3n_Persona-ordenadorhttp://es.wikipedia.org/wiki/Simulaci%C3%B3nhttp://es.wikipedia.org/wiki/Ingenier%C3%ADa_de_softwarehttp://es.wikipedia.org/wiki/Telecomunicacioneshttp://es.wikipedia.org/wiki/Interfaz_de_usuariohttp://es.wikipedia.org/wiki/Hipertextohttp://en.wikipedia.org/wiki/Problem-Oriented_Medical_Information_Systemhttp://en.wikipedia.org/wiki/The_University_of_Vermonthttp://en.wikipedia.org/wiki/The_University_of_Vermonthttp://en.wikipedia.org/wiki/ZOG_(hypertext)http://es.wikipedia.org/w/index.php?title=KMS_(Hypertext)&action=edit&redlink=1http://es.wikipedia.org/wiki/Universidad_Carnegie_Mellon
  • 46

    Funcin y caractersticas

    Los DSS son herramientas de mucha utilidad en Inteligencia empresarial (Business Intelligence), permiten realizar el anlisis de las diferentes variables de negocio para apoyar el proceso de toma de decisiones de los directivos:

    Permite extraer y manipular informacin de una manera flexible. Ayuda en decisiones no estructuradas. Permite al usuario definir interactivamente qu informacin necesita y cmo

    combinarla. Suele incluir herramientas de simulacin, modelizacin, etc. Puede combinar informacin de los sistemas transaccionales internos de la

    empresa con los de otra empresa externa.

    Su principal caracterstica es la capacidad de anlisis multidimensional (OLAP) que permite profundizar en la informacin hasta llegar a un alto nivel de detalle, analizar datos desde diferentes perspectivas, realizar proyecciones de informacin para pronosticar lo que puede ocurrir en el futuro, anlisis de tendencias, anlisis prospectivo, etc.

    Un DSS da soporte a las personas que tienen que tomar decisiones en cualquier nivel de gestin, ya sean individuos o grupos, tanto en situaciones semiestructuradas como en no estructuradas, a travs de la combinacin del juicio humano e informacin objetiva:

    Soporta varias decisiones interdependientes o secuenciales. Ofrece ayuda en todas las fases del proceso de toma de decisiones -

    inteligencia, diseo, seleccin, e implementacin- as como tambin en una variedad de procesos y estilos de toma de decisiones.

    Es adaptable por el usuario en el tiempo para lidiar con condiciones cambiantes.

    Genera aprendizaje, dando como resultado nuevas demandas y refinamiento de la aplicacin, que a su vez da como resultado un aprendizaje adicional.

    Generalmente utiliza modelos cuantitativos (estndar o hechos a la medida).

    Los DSS avanzados estn equipados con un componente de administracin del conocimiento que permite una solucin eficaz y eficiente de problemas muy complejos.

    Puede ser implantado para su uso en Web, en entornos de escritorio o en dispositivos mviles (PDA).

    Diferentes autores proponen diferentes clasificaciones. Utilizando la relacin con el usuario como criterio:

    http://es.wikipedia.org/wiki/Herramientahttp://es.wikipedia.org/wiki/Inteligencia_empresarialhttp://es.wikipedia.org/wiki/An%C3%A1lisishttp://es.wikipedia.org/wiki/Variablehttp://es.wikipedia.org/wiki/Negociohttp://es.wikipedia.org/wiki/Toma_de_decisioneshttp://es.wikipedia.org/wiki/Informaci%C3%B3nhttp://es.wikipedia.org/wiki/Toma_de_decisiones#Decisiones_no_programadashttp://es.wikipedia.org/wiki/Informaci%C3%B3nhttp://es.wikipedia.org/wiki/Simulaci%C3%B3nhttp://es.wikipedia.org/wiki/Modelizaci%C3%B3nhttp://es.wikipedia.org/wiki/Informaci%C3%B3nhttp://es.wikipedia.org/wiki/Empresahttp://es.wikipedia.org/w/index.php?title=An%C3%A1lisis_multidimensional&action=edit&redlink=1http://es.wikipedia.org/wiki/OLAPhttp://es.wikipedia.org/wiki/Informaci%C3%B3nhttp://es.wikipedia.org/wiki/Procesohttp://es.wikipedia.org/wiki/Toma_de_decisioneshttp://es.wikipedia.org/wiki/Aprendizajehttp://es.wikipedia.org/wiki/Administraci%C3%B3nhttp://es.wikipedia.org/wiki/Conocimientohttp://es.wikipedia.org/wiki/Webhttp://es.wikipedia.org/wiki/Entorno_de_escritoriohttp://es.wikipedia.org/wiki/Mobilehttp://es.wikipedia.org/wiki/PDA
  • 47

    DSS pasivo.- Es un sistema de ayudas para el proceso de toma de decisiones, pero que no puede llevar a cabo una decisin explcita sugerencias o soluciones.

    DSS activo.- P