Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
INSTITUTO POLITECNICO NACIONAL
ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELÉCTRICA SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN
UNIDAD PROFESIONAL “ADOLFO LÓPEZ MATEOS”
DESARROLLO DE REDES NEURONALES ARTIFICIALES PARA DETERMINAR LA TENACIDAD A LA FRACTURA POR
MICROINDENTACIÓN EN CAPAS BORURIZADAS
TESIS QUE PARA OBTENER EL GRADO DE:
MAESTRO EN CIENCIAS CON ESPECIALIDAD EN INGENIERÍA
DE SISTEMAS
PRESENTA:
ING. CINTHYA IVONNE MOTA HERNÁNDEZ
DIRECTORES:
DR. OSWALDO MORALES MATAMOROS DR. IVÁN ENRIQUE CAMPOS SILVA
MÉXICO, 2007
CAPAS BORURIZADAS”
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
INDICE
Dedicatorias …………………………………………………….. ………………………… I Agradecimientos ……………………………………………….. ………………………… II Índice de Figuras …...………………………………………….. ………………………… III Índice de Tablas ……..………………………………………… ………………………… IV Glosario…………………………….……………………………. ………………………… V Nomenclatura …………………………………………..………. ………………………… VI RESUMEN ……………………………………………………… ………………………… 1 ABSTRACT……………………………………………………… ………………………… 3 INTRODUCCIÓN ….….……………………………..………… ………………………… 5 Estado del Arte………………………………………….……… ………………………… 9 Problemática…………………………………………………..… ………………………… 11 Justificación …..………………………………………………… ………………………… 12 Objetivo general …..…………………………………………… ………………………… 13 Objetivos particulares …………………………………………. ………………………… 13 Esquema de la Tesis …………………………………………. ………………………… 14
1. CAPITULO 1 METODOLOGIA………………………..………. ………………………… 15 1.1. Teoría General de Sistemas…………………………….. ………………………… 17
1.1.1. Enfoque Sistémico……....………………………... ………………………… 18 1.1.2. Sistemas…….…….……...………………………... ………………………… 19
1.2. Metodología de Jenkins ..………………………………... ………………………… 21
2. CAPITULO 2 MARCO CONCEPTUAL………………………. ………………………… 25 2.1. Inteligencia artificial……………………………………….. ………………………… 27
2.1.1. Redes neuronales artificiales…………………….. ………………………… 27 Modelos de redes neuronales artificiales………. ………………………… 35
Perceptrón multicapa………………………... ………………………… 36 Redes de neuronas de base radial....……... ………………………… 41
2.2. Conclusiones………………………………………………. ………………………… 48
3. CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES……………………………... ………………………… 49
3.1. Proceso experimental de la fractura por
microindentación en capas borurizadas………………... ………………………… 51 3.2. Desarrollo de redes neuronales artificiales…………….. ………………………… 53
3.2.1. Diseño de la arquitectura del percceptron multicapa.…… ……….……….……….……….……... ………………………… 53
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
3.2.2. Diseño de la arquitectura de base radial……….. ………………………… 54 3.2.3. Combinación de la arquitectura de de base
radial con el perceptrón multicapa…………..…....... ………………………… 56 3.3. Entrenamiento y validación de las redes neuronales
artificiales………………………………………………..…. ………………………… 56 3.4. Conclusiones…………………………………….………… ………………………… 58
4. CAPITULO 4 ANÁLISIS Y DISCUSIÓN DE RESULTADOS ………………………… 61 4.1. Análisis y discusión de resultados……….……………… ………………………… 63 4.2. Conclusiones………………………………….…………… ………………………… 66 CONCLUSIONES………………………………………………. ………………………… 67 REFERENCIAS BIBLIOGRAFICAS…………………………. ………………………… 70 RECOMENDACIONES PARA TRABAJOS FUTUROS…………………………………..…………………… ………………………… 72 ANEXOS………………………………………………………… ………………………… 73 Anexo A – Funciones de activación...……………………… ………………………… 74 Anexo B – Modelos de Redes Neuronales Artificiales…….. ………………………… 75 Anexo C – Borurización….…………………………………… ………………………… 79 Anexo D – Datos de entrenamiento………………………….. ………………………… 88 Anexo E – Neurosolutions………...………………...……… ………………………… 90 Anexo F – Componentes de la red…………………………… ………………………… 92 Anexo G – Datos obtenidos de la red………………..……… ………………………… 94 Anexo H - Publicaciones……………………………..……… ………………………… 97 Anexo I - Ponencias…………………………………………… ………………………… 99 Anexo J - Reconocimientos…………………………...……… ………………………… 107
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
I
DEDICATORIAS
A mi abue Esperanza
A mis padres
A mi hermana
A todos mis primos, tios y amigos
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
II
AGRADECIMIENTOS
Doy gracias a dios por darme vida y fuerza para seguir cumpliendo mis objetivos.
A mis padres y mi hermana por que sin ellos no hubiera podido iniciar
este trabajo.
A la Escuela Superior de Ingeniería Mecánica y Eléctrica del Instituto Politécnico Nacional por abrirme las puertas desde mi preparación
profesional.
Al Programa de Formación de Investigadores, por la beca otorgada en mis estudios de maestría.
Al Dr. Oswaldo Morales Matamoros por su dirección, su confianza y
apoyo para la realización de este trabajo.
Al Dr. Iván Enrique Campos Silva por todo el conocimiento que me aporto, su confianza y su paciencia.
Al M. en C. Efraín José Martínez Ortíz por considerarme una gran
estudiante, por el apoyo y el interés que mostro en mi trabajo
A todo mi jurado por darme parte de su tiempo para la evaluación de mi trabajo.
A mi amiga Doricela Gutiérrez, por brindarme su amistad y apoyo
desinteresado.
A Rafael Alvarado por hacerme sentir segura y apoyada, por estar conmigo y escucharme en todo momento.
A todos ellos por hacerme sentir grande e importante en los momentos
más difíciles y porque siempre han estado conmigo.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
III
ÍNDICE DE FIGURAS
DESCRIPCIÓN PÁG. Figura 1.1. Elementos de un sistema 20 Figura 1.2. Mapa mental de la Metodología de Jenkins 23 Figura 2.1. Componentes de una Neurona y conexión entre neuronas 28 Figura 2.2. Funcionamiento de una RNA mediante el modelo de McCulloch-Pitts 29 Figura 2.3. Función de activación Sigmoidal 31 Figura 2.4. Función de activación Tanhl 31 Figura 2.5. Función de activación Lineal 31 Figura 2.6. Función de activación Gaussiana 31 Figura 2.7. Evolución del error a lo largo del proceso de aprendizaje 34 Figura 2.8. Evolución de los errores de entrenamiento y validación a lo largo del
proceso de aprendizaje 35
Figura 2.9. Arquitectura del Perceptrón Multicapa 36 Figura 2.10. Arquitectura de la red de neuronas de base radial 42 Figura 3.1. Criterio de medición para encontrar el valor de c (1000X) 51 Figura 3.2. MLP realizado en Neurosolution v.5.0 con tres capas ocultas
entrenada con datos de los aceros borurados AISI 1045, AISI 1018 y AISI M2
54
Figura 3.3. RBFN realizado en Neurosolution v.5.0 con tres capas ocultas entrenada con datos de los aceros borurados AISI 1045, AISI 1018 y AISI M2
55
Figura 3.4. RBFN-MLP realizado en Neurosolution v.5.0 con tres capas ocultas entrenada con datos de los aceros borurados AISI 1045, AISI 1018 y AISI M2
56
Figura 4.1. Gráficas comparativas de la información generada de KIC obtenida por el MLP, RBFN y RBFN-MLP con la KIC deseada del conjunto de entrenamiento
63
Figura 4.2. Gráficas comparativas de la información generada de KIC obtenida por el MLP, RBFN y RBFN-MLP con la KIC deseada del conjunto de validación
64
Figura 4.3. Gráficas comparativas de la información generada de KIC obtenida por el MLP, RBFN y RBFN-MLP con la KIC deseada del conjunto de producción de datos
65
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
IV
ÍNDICE DE TABLAS
DESCRIPCIÓN PÁG. Tabla 1.1. Metodología de Jenkins 22 Tabla 2.1. Principales funciones de activación para las RNA’s 31 Tabla 3.1. Características de la estructura del MLP para los aceros borurados 54 Tabla 3.2. Características de la RBFN para los aceros borurados 55 Tabla 3.3. Características de la RBFN-MLP para los aceros borurados 56 Tabla 3.4. Comparación de las características del entrenamiento de las RNA’s
diseñadas
58
Tabla 3.5. Errores obtenidos en el entrenamiento y la validación de las RNA’s diseñadas
58
Tabla 4.1. Tabla comparativa de los errores obtenidos en el MLP, RBFN y RBFN-MLP para los aceros borurados AISI 1045, AISI M2 y AISI 1018
66
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
V
GLOSARIO
Algoritmo. Representación simbólica de instrucciones consistentes y lógicas que buscan dar solución a un problema. Conjunto de pasos lógicos para solucionar un problema. Análisis. Estudio de los requerimientos dados por el usuario de la información de los procesos que tienen como fin desarrollar un software. Aprendizaje. Adquisición de conocimiento por medio de estudio o experiencias. Cambio adaptativo que permite, al repetir una tarea sobre la misma población, realizarla más efectivamente. Proceso de las RNA’s de modificar los pesos entre elementos de procesamiento según el error. Proceso (en seres humanos) de adquirir conocimiento y utilizarlo para solucionar problemas. Artificial. Algo no natural hecho por el ser humano. Borurización. Es uno de los mejores tratamientos termoquímicos para la obtención de superficies extremadamente duras, resistentes al desgaste, a la abrasión y a la corrosión en medios ácidos o alcalinos. Borurización en pasta. Proceso empleado para endurecer superficialmente secciones específicas de una pieza. Capa o nivel. Conjunto de neuronas cuyas entradas provienen de la misma fuente y cuyas salidas son dirigidas a otras neuronas. Conexión. Elemento que un dos neuronas en una red neuronal; permite el paso de la salida de la neurona origen a la neurona destino. Criterio. Característica que permite reconocer la veracidad material o formal de una proposición. Dato. Es lo fundamental u objeto indivisible en una aplicación de computador. Error Cuadrático Medio (MSE). Se define el error cuadrático medio como el valor esperado del cuadrado de la diferencia entre el estimador T y el parámetro q que trata de estimar. Error Cuadrático Medio Normalizado (NMSE). Relación entre el exceso de error cuadrático medio en el estado estacionario y el mínimo error cuadrático medio. Fractura. Es la separación bajo presión en dos o más piezas de un cuerpo sólido. Función de Activación. Función aplicada por la neurona a la suma ponderada de sus entradas para producir un valor de salida. Indentación. Impresión que queda en un material después de presionar un indentador sobre su superficie.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
VI
Información. Es la organización metódica y sistemática de conocimiento expresado por símbolos o caracteres perfectamente cuantificables y transmisibles. Colección de símbolos o signos que poseen un significado. Inteligencia. Facultad de comprender y conocer. Inteligencia Artificial. Ama de las ciencias de la computación que busca con métodos heurísticos de procesamiento de información, diseñar y construir maquinas que exhiban características asociadas con la inteligencia humana. Modelo. Representación esquemática y simplificada de la realidad. Momentum. Parámetro del algoritmo de aprendizaje de propagación inversa. Neurona. Célula nerviosa especializada en conducir impulsos electroquímicos. Neurona Artificial. Modelo matemático de una neurona biológica. Red. Conjunto de elementos interconectados para cumplir un objetivo. Red neuronal artificial. Red de neuronas artificiales compuesta de un gran numero interconectado de elementos de procesamiento que trabajan en cooperación para resolver problemas específicos. Regla. Enunciado que indica cómo hay que proceder en un ambiente real y lógico. Sinergia. Acción conjunta de dos o más órganos, elementos o sistemas hacia un fin común. Sistema. Conjunto de objetos interrelacionados que buscan cumplir un objetivo. Procesos termoquímicos. Reacción química mediante la cual se libera energía directamente o se convierte. Porcentaje de error. Porcentaje de inexactitud o equivocación al realizar una operación matemática. Substrato. Es una especie química que se considera, de forma explícita, objeto de la acción de otros reactivos.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
VII
NOMENCLATURA
zj Estímulos externos
yj Actividad de salida
f(zj) Función de activación
wij Peso de interconexión
C Capas
nc Neuronas en la capa c
Wc Matriz de pesos asociada a las conexiones de la capa c
Uc Vector de umbrales de las neuronas de la capa c
aic Activación de la neurona i de la capa c
X Vector o patrón de entrada a la red.
Y Valor de la red.
Rn1
Espacio de los patrones de entrada
RnC
Espacio de los patrones de salida Y Vector formado por las salidas de la red X Vector de entrada a la red W Conjunto de todos los parámetros de la red E Función error N Número de patrones o muestras e(n) Error cometido por la red para el patrón n ∅i Funciones de base radial
Número real positivo que marca la finalización del algoritmo. di Amplitudes ab Longitud de la diagonal del indentador Vickers c Tamaño de la grieta desde la mitad de la diagonal del indentador Vickers hasta
la punta de la grieta E Modulo de Young FeB Boruro de Hierro Fe2B Biboruro de Hierro HV Dureza Vickers KIC Tenacidad a la fractura l Longitud de la mitad de la diagonal de la indentación P Carga t tiempo T Temperatura δ Espesor de la capa Fe
2B.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
1
RESUMEN
En este trabajo se evalúo la tenacidad a la fractura en aceros borurados AISI 1045, AISI 1018 y AISI M2, expuestos al tratamiento de borurización en pasta, mediante el modelo de grietas tipo Palmqvist. El modelo de agrietamiento para la evaluación experimental de la tenacidad a la fractura es propuesto por Balankin y Campos a través de la modificación del modelo de T. Laugier. Por otro lado, se implementaron tres modelos de redes neuronales, desarrollados bajo arquitecturas feedforward: redes perceptrónicas multicapa, redes de función de base radial y la combinación de ambos modelos para obtener el valor de tenacidad a la fractura para los aceros borurados AISI 1045, AISI 1018 y AISI M2. Los datos de entrada para cada modelo de red toman en cuenta el tipo de acero borurado, el espesor de capa generado, la distancia y la carga de indentación la mitad de la diagonal de la indentación y la longitud de la grieta generada en los vértices de la microindentación. Las redes fueron entrenadas con datos obtenidos experimentalmente bajo el ensayo de microindentación Vickers sobre las capas de boruros de hierro a diferentes cargas. Los datos de la tenacidad a la fractura de las capas de boruros de hierro son comparados con datos experimentales, obteniendo errores del 5% para ambos modelos de redes neuronales.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
2
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
3
ABSTRACT
This study was evaluated the fracture toughness in AISI 1045, AISI 1018 and AISI M2 boride iron, as a result of paste boriding process, by means of the model of Palmqvist cracks. The cracking model for the fracture toughness experimental evaluation is proposed by Balankin and Campos through the modification of the T. Laugier model. In addition, it was implemented three neural networks models, developed under feedforward architectures: Multilayer perceptrón, radial base function networks and the both models combination to get the fracture toughness from AISI 1045, AISI 1018 and M2 boride iron. The input data for each model of neural network was the kind of iron, the iron boride layers, the differents indentation distance and load. Networks were trained with Experimental data implemented Vickers microindentation essay on iron boride layers to different loads. The iron boride layers to differents load for boruride AISI 1045, AISI 1018 and AISI M2 boride iron. The fracture toughness data of iron boride layers are compared to experimental data, getting minor errors from the 5 % for both models of neural networks.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
4
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
5
IIINNNTTTRRROOODDDUUUCCCCCCIIIÓÓÓNNN
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
6
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
7
En la actualidad, la Ciencia de Sistemas ha dejado de ser interdisciplinaria y
multidisciplinaria, para convertirse en transdisciplinaria. La interdisciplina no existe sin las disciplinas ni tampoco se puede prescindir de los especialistas. Es más, el desarrollo de las ciencias ha estado marcado por un continuo proceso de diferenciación e integración que genera cambios constantes. Muchos campos interdisciplinarios constituyen formas de especialización que poseen el potencial de, eventualmente, convertirse en nuevas disciplinas. Así mismo, la interacción de varias disciplinas, característica común en la mayoría de las definiciones de interdisciplina, puede presentar toda una gama de posibilidades cuyos casos extremos son la multidsciplina y la transdisciplina.
Si algún hipotético presidente de la República Mexicana decidiera resolver los
problemas del estado de Chiapas, entonces mandaría diseñar un proyecto que contemplara mejorar los caminos, la agricultura, la educación, los servicios de salud, etcétera. Para ello se ocuparían ingenieros, médicos, agrónomos y pedagogos – militares, para no perder el control. El proyecto global es multidisciplinario en su conjunto porque involucra la participación de trabajadores de muchas disciplinas distintas, pero cada campo mantiene su método, lenguaje y perspectiva. La multidisciplina es meramente aditiva y no conlleva la integración ni el enriquecimiento mutuo.
En cambio, en la interdisciplina la colaboración traspasa las fronteras disciplinarias y,
aunque los especialistas participantes mantienen la identidad de sus ramas, existe la disposición de estudiar lo necesario de las otras con el propósito de sentar las bases para una comprensión mutua. Un médico aprende el sentido de modelar con ecuaciones diferenciales y un matemático entiende cómo se propaga una epidemia, el resultado- la epidemiologia matemática- transciende tanto la medicina como la teoría de ecuaciones diferenciales. Surgen interrogantes nuevas que no se les ocurrían a los investigadores por separado, y se crean o definen viejos conceptos como complejidad, caos y frustración, hasta eventualmente llegar a la creación de nuevas especialidades institucionalizadas. La interdisciplina puede considerarse como el resultado de un proceso de sinergia que requiere el concurso de las partes y propicia la emergencia de cosas nuevas.
Así como en la multidisciplina los campos del saber marchan en conjunto, pero sin
revolverse y en la interdisciplina la colaboración permite saltar los muros que separan las disciplinas, en la transdisciplina, como su nombre lo indica, las metas son mucho más ambiciosas: la desaparición de las fronteras. Por ahora, esta propuesta es la más progresista y la más cercana de aquella unidad perdida o nunca alcanzada de las ciencias. La transdiciplina penetra el sistema entero de la ciencia y, al eliminar la fragmentación arbitraria, lleva a la búsqueda ya no de leyes particulares de la física, la biología o la sociedad, sino de leyes de la naturaleza.
Dado lo anterior, en esta investigación se plantea optimizar el proceso de cálculo para
determinar el comportamiento de un sistema físico (acero borurado), mediante el uso de la Inteligencia Artificial.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
8
La Inteligencia Artificial comenzó como el resultado de la investigación en psicología cognitiva y lógica matemática, es combinación del computador, fisiología y filosofía debido a que interactúa en varios campos como los sistemas expertos.
El objetivo es tratar de reproducir la manera en que las personas identifican, estructuran y resuelven problemas, en otras palabras se estableció como conclusión fundamental la posibilidad de simular inteligencia humana en una máquina.
El algoritmo genético utiliza la cruza como operador principal, mutación como operador secundario u opcional funciona recibiendo ciertas entradas y produce las salidas deseadas, no necesitan entrenarse puesto que son capaces de generar la evolución a partir de poblaciones iniciales.
Los mecanismos de selección del más apto y de reproducción sexual del algoritmo genético preservan las características más adecuadas.
Un conjunto de neuronas no sirve para nada si previamente no se le enseña qué debe hacer; el proceso de aprendizaje implica mucho tiempo, debido a eso todavía no se ha estudiado a fondo. Aunque las redes neuronales se han desarrollado desde hace tiempo, aún se debe estudiar para qué sirven realmente, conocer en qué tareas pueden resultar realmente útiles, ya que, por ejemplo, es difícil saber cuánto tiempo necesita una red para aprender cierta tarea, cuántas neuronas se necesitan como mínimo para realizar cierta tarea, etc. A continuación se presenta una breve semblanza del desarrollo de redes neuronales artificiales.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
9
ESTADO DEL ARTE
El proceso de borurización es un proceso termoquímico que actualmente se aplica a elementos mecánicos que trabajan en diferentes condiciones de explotación, extendiéndose su aplicación a piezas que están sometidas a desgastes abrasivos, con el objetivo de obtener mejores propiedades al desgaste. Para lograr la saturación con boro se utilizan temperaturas superiores a los 1000 ºC.
Estos procesos poco a poco se han ido perfeccionando y desarrollando mas y mas a
través de investigaciones y experimentos, combinando métodos que faciliten su incremento y efectividad en las pruebas. Entre las investigaciones que se han implementado para ayudar a la investigación se encuentra la implementación y el estudio de la Inteligencia Artificial (IA), las redes neuronales y los algoritmos genéticos.
En un principio los esfuerzos estuvieron dirigidos a la obtención de máquinas que realizaran, con más o menos éxito, alguna función típica de los seres humanos.
A pesar de disponer de herramientas y lenguajes de programación diseñados expresamente para el desarrollo de máquinas inteligentes, existe un enorme problema que limita los resultados que se pueden obtener: estas máquinas se implementan sobre computadoras basadas en la filosofía de Von Neumann, y que se apoyan en una descripción secuencial del proceso de tratamiento de la información.
La otra línea de la investigación ha tratado de aplicar principios físicos que rigen en la naturaleza para obtener máquinas que realicen trabajos pesados en nuestro lugar. De igual manera se puede pensar respecto a la forma y capacidad de razonamiento humano; se puede intentar obtener máquinas con esta capacidad basadas en el mismo principio de funcionamiento.
Actualmente son numerosos los trabajos que se realizan y se publican, las aplicaciones nuevas que surgen y las empresas que lanzan al mercado productos nuevos, tanto hardware como software, sobre todo para simulación.
Las redes neuronales artificiales son una técnica efectiva en problemas de gran complejidad, es por esto que se implementa cada vez más la IA a la resolución de problemas.
El proceso de aprendizaje tiene un gran coste de tiempo. Debido a eso, todavía no se ha estudiado a fondo. Las redes neuronales todavía no se han de desarrollar mucho. Aún se debe estudiar para qué sirven realmente, conocer en qué tareas pueden resultar realmente útiles, ya que por ejemplo, es difícil saber cuánto tiempo necesita una red para aprender cierta tarea, cuántas neuronas se necesitan como mínimo para realizar cierta tarea, etcétera
Se han desarrollado diversos trabajos analizando y buscando la mejor solución a los problemas de desgaste y corrosión en materiales de la industria. Sin embargo la implementación de la inteligencia artificial para estos procesos, específicamente el de Borurización, son pocos, siendo de los primeros el de Kenan Genel a través de redes neuronales en el 2002, el cual analiza la dureza y el espesor de las capas formadas en el
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
10
proceso. Se establecieron relaciones empíricas entre parámetros del proceso y capa borurizada, así como microdureza.
Se utilizan dos estructuras iguales para poder obtener dos variables diferentes. En la primera, con las variables de entrada de tiempo y distancia desde la superficie se obtiene dureza; mientras que en la segunda al introducir el tiempo y temperatura se obtiene espesor de la capa.
En relación a los problemas de desgaste y corrosión en materiales de la industria, la implementación de la IA sólo ha sido abordada por pocos investigadores, siendo Kenan Genel pionero en el año 2000, a través de su trabajo de redes neuronales, mediante el cual analiza la dureza y el espesor de capa formadas en el proceso. Sin embargo, para determinar la tenacidad a la fractura se han realizado determinados trabajos utilizando el software Matlab, en el cual el porcentaje de error obtenido es elevado (9%) utilizando la red interna del software, lo que ocasiona que haya bastantes limitantes y que el tiempo de entrenamiento sea lento, por lo que en este trabajo se propone reducir el error de este parámetro al 5% como máximo, de ahí que se plantee el siguiente objetivo general.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
11
PROBLEMÁTICA
La utilización de procesos en tratamientos termoquímicos tiene una gran importancia en las diferentes ramas de construcción de maquinaria y equipo, lográndose con estos un aumento de la durabilidad y propiedades mecánicas de sus elementos, teniendo en cuenta que pueden obtenerse aleaciones superficiales de alta calidad sobre metales de bajas cualidades, aumentando la resistencia al contacto, a la fatiga, a la oxidación y al desgaste. Una manera de determinar esto es mediante el conocimiento de la elasticidad y que tan tenaz es el material, medido con el coeficiente de tenacidad a la fractura.
Para determinar el coeficiente de tenacidad a la fractura en este trabajo, se requieren
pruebas experimentales y cálculos laboriosos que implican muchas variables y, por consiguiente, tiempo y dinero. Por ende, es necesario desarrollar y/o aplicar nuevas herramientas, tal vez con enfoques no lineales, que permitan ahorra tiempo, dinero y esfuerzo en el cálculo del coeficiente de tenacidad a la fractura.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
12
JUSTIFICACIÓN Una herramienta matemática (no lineal) que podría evitar el proceso experimental y
reducir el tiempo de estos cálculos es la inteligencia artificial (IA), la cual abarca redes neuronales artificiales, algoritmos genéticos y lógica difusa.
Al implementar la inteligencia Artificial se busca entender con mayor facilidad todos
estos fenómenos que conlleva dicho proceso, así que al implementar redes neuronales artificiales se obtendrá una posible solución a reducir la complejidad y el tiempo de encontrar parámetros necesarios para obtener un coeficiente.
Debido a que el proceso de borurización es una técnica poco estudiada, no se cuenta
con las herramientas suficientes para calcular las variables que involucran a dicho proceso y a su vez las variables de las pruebas experimentales que se aplican después para corroborar la eficiencia.
Normalmente se necesitan datos a partir de las pruebas de microindentación tipo
Vickers para poder de calcular la tenacidad a la fractura, lo que implica un gran número de
pruebas experimentales, que se traduce en mayor tiempo para obtener valores de KIC. Al
realizar estas pruebas también los aceros borurados quedan inservibles para su nueva
utilización y con mucho menos razón en la industria lo que ocasiona el incremento de
costos.
Por lo tanto, es conveniente hallar herramientas matemáticas (no lineales) que
permitan optimizar el cálculo de KIC, a fin de reducir el tiempo, sin descuidar la precisión
de los resultados. En este trabajo se propone el desarrollo y aplicación de redes
neuronales artificiales para optimizar el cálculo de KIC en capas boruradas obtenidas por
el tratamiento de borurización en pasta.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
13
OBJETIVO GENERAL
Determinar la tenacidad a la fractura de aceros sometidos al proceso de borurización en pasta, a partir del desarrollo de redes neuronales artificiales.
OBJETIVOS PARTICULARES
Para alcanzar el objetivo anterior, se establecieron los siguientes objetivos particulares:
Calcular la Tenacidad a la fractura para los aceros borurados AISI 1045, AISI 1018 Y
M2
Desarrollar modelos de Redes Neuronales Artificiales que más se adapten al sistema.
Validar los resultados experimentales vs resultados obtenidos por las redes con un
error no mayor al 5%.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
14
ESQUEMA DE LA TESIS
El presente trabajo se divide en cuatro capítulos, sobre los cuales se presenta una
breve descripción a continuación: Capítulo 1 (Metodología)
Se dan a conocer los conceptos relacionados con la Teoría General de Sistemas y
se describe la metodología que se siguió en la realización de esta tesis para cumplir con los objetivos planteados. Capítulo 2 (Marco Conceptual) Se presentan los conceptos de los modelos de redes neuronales artificiales (MLP y RBFN) utilizadas en el presente trabajo junto con sus principales características. Capítulo 3 (Desarrollo de Redes Neuronales Artificiales), Se detalla el desarrollo de los modelos de redes Neuronales Artificiales, así como las principales características con las que se diseñaron Capítulo 4 (Análisis y Discusión de Resultados), Se indica cuál de las tres Redes Neuronales Artificiales genera resultados más consistentes. Posteriormente, se exponen las conclusiones alcanzadas durante el proceso de análisis y se presentan las recomendaciones pertinentes al tema. Por último, se presentan las Referencias Bibliográficas y los anexos.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 1 METODOLOGÍA
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
15
CCCaaapppííítttuuulllooo 111 MMMEEETTTOOODDDOOOLLLOOOGGGÍÍÍAAA
En este capítulo se describe la Metodología utilizada para la elaboración del proyecto, en este caso, la metodología de Jenkins. El enfoque sistémico y la relación con el presente proyecto
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 1 METODOLOGÍA
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
16
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 1 METODOLOGÍA
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
17
1.1. TEORÍA GENERAL DE SISTEMAS
La Teoría General de Sistemas, (TGS), es el resultado de gran parte del movimiento de investigación general de los sistemas constituyendo una unión de principios e ideas que han establecido un grado superior de orden y comprensión científicos, en muchos campos del conocimiento. La moderna investigación de los sistemas puede servir de base a un marco más adecuado para hacer justicia a las complejidades y propiedades dinámicas de los sistemas [1]. La TGS puede definirse como una forma sistemática y científica de aproximación y representación de la realidad y, al mismo tiempo, como una orientación hacia una práctica estimulante para formas de trabajo transdisciplinarias; se caracteriza por su perspectiva holística e integradora, en donde lo importante son las relaciones y los conjuntos, que a partir de ellas, emergen; además, ofrece un ambiente adecuado para la interrelación y comunicación entre especialistas y especialidades al promover la unidad de las ciencias y obtener la uniformidad del lenguaje científico [2-5]. La TGS es una teoría de principios universales aplicables a los sistemas en general, la cual, no busca solucionar problemas o intentar soluciones prácticas, pero sí producir teorías y formulaciones conceptuales que puedan crear condiciones de aplicación en la realidad empírica. Es considerada como una ciencia de la globalidad, en donde las ciencias rigurosas y exactas (como la ingeniería y la organización) pueden convivir con las ciencias humanas (ciencias políticas y morales, sociología, psicología) ó las que han sido integradas casi desde su nacimiento, (informática, inteligencia artificial y ecología) [3]. La TGS, muy relacionada también con las teorías matemáticas de juegos, fractales y redes, modelos estocásticos, física del caos y la teoría de las catástrofes, tiene como vocación superar los estrechos límites de la especialización científica y abocar a una teoría unificadora general, aplicable a todos los sistemas en los que descubren homologías estructurales e isomorfismos, y principios y leyes aplicables a todos ellos [6]. Los objetivos originales de la TGS son los siguientes: a. Impulsar el desarrollo de una terminología general que permita describir las características, funciones y comportamientos sistémicos. b. Desarrollar un conjunto de leyes aplicables a todos estos comportamientos. c. Promover una formalización (matemática) de estas leyes. El biólogo Ludwig von Bertalanffy (1901-1972), quien dio el nombre de Teoría General de Sistemas, pensó que ésta debería constituirse en un mecanismo de integración entre las ciencias naturales y sociales y ser, al mismo tiempo, un instrumento básico para la formación y preparación de científicos. Bertalanffy reconoce que la TGS comprende un conjunto de enfoques que difieren en estilo y propósito, entre las cuales se encuentra la teoría de conjuntos (Mesarovic), teoría de las redes (Rapoport), cibernética (Wiener), teoría de la información (Shannon y Weaver), teoría de los autómatas (Turing), teoría de juegos (von Neumann), entre otras. Por eso, la práctica del análisis aplicado de sistemas tiene que utilizar diversos modelos, de acuerdo con la naturaleza del caso y con criterios operacionales, aun cuando algunos conceptos, modelos y principios de la TGS -como el orden jerárquico, la diferenciación progresiva, o la retroalimentación- son aplicables a grandes rasgos a sistemas materiales, psicológicos y socioculturales. Sobre estas bases,
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 1 METODOLOGÍA
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
18
en 1954 fue constituida la Sociedad para la Investigación de Sistemas Generales (the Society for General Systems Research), cuyos objetivos fueron los siguientes: a. Investigar el isomorfismo de conceptos, leyes y modelos en varios campos y facilitar
las transferencias entre ellos. b. Promover y desarrollar modelos teóricos en campos que carecen de ellos. c. Reducir la duplicación de los esfuerzos teóricos. d. Promover la unidad de la ciencia a través de principios conceptuales y metodológicos
unificadores. Si bien el campo de aplicaciones de la TGS no reconoce limitaciones, al usarla en fenómenos humanos, sociales y culturales se advierte que sus raíces están en el área de los sistemas naturales (organismos) y en el de los sistemas artificiales (máquinas). Mientras más equivalencias sean reconocidas entre organismos, máquinas, hombres y formas de organización social, mayores serán las posibilidades para aplicar correctamente el enfoque de la TGS [1]. El objetivo primordial de von Bertalanffy, el desarrollo y difusión de una única teoría de sistemas formalizada matemáticamente, no ha llegado a cumplirse. En su lugar, se puede hablar de un enfoque de sistemas o un pensamiento sistémico que se basa en la utilización del concepto de sistema como un todo irreducible.
1.1.1. ENFOQUE SISTÉMICO
El enfoque sistémico es una combinación de filosofía y de metodología general, unida a una función de planeación y diseño. El análisis de sistemas se basa en la metodología interdisciplinaria que integra técnicas y conocimientos de diversos campos fundamentalmente a la hora de planificar y diseñar sistemas complejos que realizan funciones específicas, entonces, el enfoque de sistemas es un marco de trabajo conceptual común [7]. Los sistemas se han originado en campos divergentes, aunque tienen varias características en común: • Propiedades y estructuras. Uno de los objetivos del enfoque de sistemas, y de la TGS de la cual se deriva, es buscar similitudes y propiedades, así como fenómenos comunes en sistemas de diferentes disciplinas, al hacerlo así, busca “aumentar el nivel de generalidad de las leyes” que se aplican a campos estrechos de experimentación. El enfoque de sistemas busca generalizaciones (isomorfismos), que se refieran a la forma en que están organizados los sistemas, a los medios por los cuales los sistemas reciben, almacenan, procesan y recuperan información, y a la forma en que funcionan; es decir, la forma en que se comportan, responden y se adaptan ante diferentes entradas del medio. El nivel de generalidad se puede dar mediante el uso de una notación y terminología comunes, como el pensamiento sistemático se aplica a campos aparentemente no relacionados.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 1 METODOLOGÍA
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
19
• Métodos de solución y modelos. El nivel de generalidad también puede tener lugar en aquellas áreas donde los mismos modelos describen lo que superficialmente parece ser un fenómeno sin relación. El enfoque de sistemas busca encontrar la relación de métodos de solución, a fin de extender su dominio de aplicación y facilitar la comprensión de nuevos fenómenos. Siempre que sea posible, se debe combatir la especialización. Se quiere extender y generalizar el conocimiento que ya se posee a disciplinas y problemas adicionales. • Dilemas y paradojas. Al igual que otros enfoques científicos, el enfoque de sistemas no trata problemas metodológicos –dificultades- que no puede resolver a su propia satisfacción. Tan pronto como se adopta el enfoque de sistemas, aparecen problemas de dualismo o dualidad. El enfoque sistémico abarca los principios de la teoría general de sistemas. La TGS intenta alcanzar el estatus de una ciencia general a la par de las matemáticas y la filosofía, proporcionando la capacidad de investigación al enfoque de sistemas, el cual investiga los conceptos, métodos y conocimientos pertenecientes a los campos y pensamiento de sistemas.
1.1.2. SISTEMAS
En las definiciones más simples se identifica a los sistemas como conjuntos de elementos interrelacionados que mantienen al sistema directa o indirectamente unido de modo más o menos estable y cuyo comportamiento global persigue un objetivo. Esas definiciones que se centran en procesos sistémicos internos son complementadas con una concepción de sistemas abiertos, en donde queda indicada como condición para la continuidad sistémica el establecimiento de un flujo de relaciones con el ambiente [1-6]. Las partes o cosas que forman al sistema como un todo pueden ser, a su vez, sistemas, llamados subsistemas (o microsistemas), ya que cada uno conforma un todo en sí mismo y tiene un rango menor. Un suprasistema (o macrosistema) es un sistema de mayor rango [7]. Un sistema tiene las siguientes características (figura 1.1): • Entradas: son los ingresos del sistema, pueden ser recursos materiales, recursos humanos, energía o información. • Elementos: componentes del sistema, los cuales pueden ser, a su vez, sistemas (subsistemas). • Proceso: es el fenómeno que produce cambios, es el mecanismo de conversión y transformación de las entradas en salidas, cuando se conoce cómo se efectúa el cambio, el proceso se llama “caja blanca”. Generalmente, no se conoce en sus detalles el proceso porque la transformación es demasiado compleja, en este caso se llama “caja negra”.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 1 METODOLOGÍA
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
20
• Salidas: resultados obtenidos al procesar las entradas. Son el resultado del funcionamiento del sistema. • Relaciones: son los enlaces que vinculan entre sí a los objetos o subsistemas que componen a un sistema. Se pueden clasificar en:
- Simbióticas: aquellas en que los sistemas conectados no pueden seguir funcionando solos. A su vez puede subdividirse en unipolar o parasitaria, que es cuando un sistema (parásito) no puede vivir sin el otro sistema (planta); y bipolar o mutual, que es cuando ambos sistemas dependen entre si. - Sinérgica: es una relación que no es necesaria para el funcionamiento, pero que resulta útil, ya que su desempeño mejora al desempeño del sistema. En las relaciones sinérgicas la acción cooperativa de subsistemas semi-independientes, tomados en forma conjunta, origina un producto total mayor que la suma de sus productos tomados de una manera independiente. - Superflua: Son las que repiten otras relaciones. La razón de las relaciones superfluas es la confiabilidad; aumentan la probabilidad de que un sistema funcione todo el tiempo y no una parte del mismo.
• Contexto, medio o ambiente: un sistema siempre estará relacionado con los objetos exteriores que influyen en él. • Frontera: es la línea que separa al sistema de su entorno y que define lo que le pertenece y lo que queda fuera de él. La TGS da lugar a dos grandes grupos de estrategias para la investigación en sistemas generales: a. La perspectiva de sistemas en donde las distinciones conceptuales se concentran en una relación entre el todo (sistema) y sus partes (elementos), es decir, los procesos internos de cómo el sistema realiza sus operaciones. b. La perspectiva de sistemas en donde las distinciones conceptuales se concentran en los procesos de frontera (sistema/ambiente), esto es, como se relaciona el sistema con su entorno [4,8 -10].
{
6
'
¿
R
(
%
M
N
V
Z
J
O
I
Y
Procesos
Frontera
Ambiente
Entradas Salidas
Relaciones
Elementos
Figura 1.1. Elementos de un sistema.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 1 METODOLOGÍA
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
21
En el primer caso, la cualidad esencial de un sistema está dada por la interdependencia de las partes que lo integran y el orden que subyace a tal interdependencia. En el segundo, lo central son las corrientes de entradas y de salidas mediante las cuales se establece una relación entre el sistema y su ambiente. Ambos enfoques son complementarios. Los sistemas pueden clasificarse de las siguientes maneras bajo los enfoques de la TGS [4,7]: a. Según su definición, los sistemas pueden ser agrupados en reales, ideales y modelos. Mientras los primeros presuponen una existencia independiente del observador (quien los puede descubrir), los segundos son construcciones simbólicas, como el caso de la lógica y las matemáticas, mientras que el tercer tipo corresponde a abstracciones de la realidad, en donde se combina lo conceptual con las características de los objetos. b. Con relación a su origen, los sistemas pueden ser naturales o artificiales, distinción que apunta a destacar la dependencia o no en su estructuración por parte de otros sistemas. c. Con relación al ambiente o grado de aislamiento, los sistemas pueden ser cerrados o abiertos, según el tipo de intercambio que establecen con sus ambientes. En los primeros, las variaciones del medio que afectan al sistema son conocidas, su ocurrencia no puede ser predicha y la naturaleza de sus variaciones es conocida. En los segundos, existe un intercambio de energía de información entre el sistema y su medio o entorno; el intercambio es de tal naturaleza que logra mantener alguna forma de equilibrio continuo, y las relaciones con el entorno son tales que admiten cambios y adaptaciones, como el crecimiento en el caso de los organismos biológicos. Otra clasificación de los sistemas los divide en lineales y no lineales. Los lineales no presentan “sorpresas”, ya que son “agregados”, con poca interacción entre las partes que los componen: se pueden descomponer en sus elementos y recomponer nuevamente; el determinismo está siempre presente y, reduciendo las interacciones a valores pequeños, puede considerarse que el sistema lineal está compuesto de partes independientes. El mundo de los sistemas no lineales, en cambio, es totalmente diferente: puede ser impredecible y violento; un pequeño cambio en un parámetro puede causar la variación de la solución poco a poco y, repentinamente, variar a un tipo totalmente nuevo de solución; estos sistemas deben ser captados desde dentro de sí mismos y su situación debe evaluarse paralelamente con su desarrollo [11].
1.2. METODOLOGÍA DE JENKINS
De acuerdo a las tres formas anteriores de clasificar los sistemas, el tipo de sistema
en este trabajo es un modelo, es artificial y es abierto, ya que se trata de modelos no lineales: Redes Neuronales Artificiales. Además es un sistema rígido ya que involucra relaciones matemáticas no lineales (ciencias exactas). Por lo tanto, esta investigación se apoya en la metodología sistémica desarrollada en 1969 por G. M. Jenkins [12], la cual consta de cuatro etapas (tabla 1.1).
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 1 METODOLOGÍA
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
22
Tabla 1.1. Metodología de Jenkins
FASES SUBFASES
ANALISIS DE SISTEMAS El Ingeniero de Sistemas inicia su actividad con un análisis de lo que está sucediendo y por qué está sucediendo, así como también de cómo puede hacerse mejor. De esta manera el sistema y sus objetivos podrán definirse, de forma tal que resuelva el problema identificado
Identificación y formulación del problema
Organización del proyecto
Definición del sistema
Definición del suprasistema
Definición de los objetivos del suprasistema
Definición de los objetivos del sistema
Definición de las medidas de desempeño del sistema
Recopilación de datos e información
DISEÑO DE SISTEMA Primeramente se pronostica el ambiente futuro del sistema. Luego se desarrolla un modelo cuantitativo del sistema y se usa para simular o explorar formas
diferentes de operarlo, creando de esta manera alternativas de solución. Por último, en base a una evaluación de las alternativas generadas, se selecciona la que optimice la operación
del sistema.
Modelación y simulación del sistema
Optimización de la operación del sistema
Control de la operación del sistema
Confiabilidad del sistema
IMPLANTACION DE SISTEMAS Después de que el sistema se haya diseñado en detalle, tendrá que probarse para
comprobar el buen desempeño de su operación, confiabilidad, etc.
Documentación y autorización del sistema
Construcción e instalación del sistema
OPERACIÓN Y APRECIACION RETROSPECTIVA DE SISTEMAS La eficiencia de la operación del sistema debe apreciarse, dado que estará operando en un ambiente dinámico y cambiante que probablemente tendrá características diferentes a las
que tenía cuando el sistema fue diseñado
Operación inicial del sistema
Apreciación retrospectiva de la operación del sistema
Mejoramiento de la operación del sistema diseñado
Como se mencionó, el sistema a desarrollar es un modelo matemático, es rígido y es
abierto, a saber: modelos de redes neuronales artificiales aplicadas al proceso termoquímico de Borurización en pasta. A continuación se describe lo relacionado al objeto de estudio en esta investigación.
Para lograr los objetivos planteados se empleo la Metodología de Jenkins (tabla 1.1), lo cual se muestra en un mapa mental (figura 1.2)
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 1 METODOLOGÍA
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
23
Desarrollo de RNA’s para
determinar KIC en aceros
borurados
Análisis
Implantación
Diseño
Operación y
apreciación
Identificación y formulación
del problema
Organización del proyecto
Definición del sistema y
suprasistema
Definición de los objetivos
del sistema y suprasistema
Definición de las medidas de
desempeño del sistema
Recopilación de Datos e
Información
Modelación y simulación
del sistema
Optimización de la
operación del sistema
Control de la operación del
sistema
Confiabilidad del sistema
Documentación
y autorización
del sistema
Pronósticos
Construcción e
instalación del
sistema
Apreciación retrospectiva
de la operación del
sistema
Operación inicial del
sistema
1
2
3
4
Planeacion
del tema
Elección de
Asesores
Introducción
Capítulo 2
Marco
Teórico
Capítulo 3
Desarrollo de
RNA’sCapítulo 4
Análisis de
resultados
Anexos
Objetivo
general
Capítulo 3
Desarrollo de
RNA’s
Objetivos
particulares
Captura de Tesis
Capítulo 3
Desarrollo de
RNA’s
Conclusiones
Objetivos
Capítulo 3
Desarrollo de
RNA’s
Capítulo 4
Análisis de
resultados
Capítulo 4
Análisis de
resultados
Conclusiones
Mejoramiento de la
operación del sistema
diseñado
Trabajos a Futuro
Capitulo 1
Metodología
Introducción
Figura 1.2. Mapa Mental de la Metodología de Jenkins
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
24
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
25
CCCaaapppííítttuuulllooo 222 MMMAAARRRCCCOOO CCCOOONNNCCCEEEPPPTTTUUUAAALLL
En este capítulo se introduce al lector en dos áreas: Redes Neuronales Artificiales y proceso de borurización en pasta.
En lo que respecta a las Redes Neuronales Artificiales (RNA’s), se describen los modelos de RNA’s, la forma de crearlas, entrenarlas y validarlas, dando mayor énfasis al perceptrón multicapa y las redes de Funciones de base radial, puesto que son los dos modelos que se utilizan a lo largo de este trabajo.
En lo que se refiere al proceso de borurización en pasta, se describen los conceptos básicos de las técnicas de microindentación y del agrietamiento tipo Palmqvist.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
26
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
27
2.1. INTELIGENCIA ARTIFICIAL
La inteligencia artificial consiste en la búsqueda y desarrollo de sistemas de procesamientos de datos que sean capaces de imitar a la inteligencia humana, realizando tareas que requieran aprendizaje, solución de problemas y decisiones. La meta final consiste en crear un sistema capaz de reproducir todas las facetas de la inteligencia humana [13].
En esta disciplina científico-técnica, que trata de crear sistemas artificiales capaces de comportamientos inteligentes, se conocen dos metodologías:
La lógica difusa: permite tomar decisiones bajo condiciones de incertidumbre.
Redes Neuronales Artificiales: esta tecnología es poderosa en ciertas tareas como la clasificación y reconocimiento de patrones, funciones de aproximación y agrupamientos, entre otros, y está basada en el concepto de "aprender" por agregación de un gran número de elementos muy simples.
En este capítulo, y a lo largo del desarrollo de este trabajo, el enfoque que se verá será de redes neuronales artificiales (RNA’s), por lo que a continuación se describen éstas.
2.1.1. REDES NEURONALES ARTIFICIALES
A continuación se mencionan brevemente los antecedentes históricos de cómo nacieron las RNA’s, así como su desarrollo y evolución a lo largo de los años.
1936 - Alan Turing. Primero en estudiar el cerebro como una forma de ver el mundo de la computación.
1943 - Warren McCulloch/Walter Pitts. Lanzaron una teoría acerca de la forma de trabajar de las neuronas y modelaron una red neuronal simple mediante circuitos eléctricos.
1949 - Donald Hebb. Primero en explicar los procesos del aprendizaje desarrollando una regla de cómo ocurría. Estableció las bases de la Teoría de las Redes Neuronales.
1950 - Karl Lashley. Encontró que la información era distribuida encima del cerebro.
1956 - Congreso de Dartmouth. Indica el nacimiento de la Inteligencia Artificial.
1957 - Frank Rosenblatt. Comenzó el desarrollo del Perceptrón.
1959 - Frank Rosenblatt. Teorema de Convergencia del Perceptrón.
1960 - Bernard Widrow/Marcial Hoff. Desarrollaron el modelo Adaline (ADAptative LINear Elements).
1961 - Karl Steinbeck: Die Lernmatrix. memoria asociativa.
1967 - Stephen Grossberg. Realizó una red: Avalancha para reconocimiento continúo de habla y aprendizaje de los brazos de un robot.
1969 - Marvin Minsky/Seymour Papert. En este año surgieron críticas que frenaron, hasta 1982, el crecimiento que estaban experimentando las investigaciones sobre redes neuronales.
1974 - Paul Werbos. Desarrolló la idea básica del algoritmo backpropagation.
1977 - Stephen Grossberg. Teoría de Resonancia Adaptada (TRA): memoria a largo y corto plazo.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
28
1977 - Teuvo Kohonen. Desarrolló los modelos conocidos como los mapas de Kohonen.
1980 - Kunihiko Fukushima. Desarrollo de RNA para el reconocimiento de patrones visuales.
1985 - John Hopfield. “Computación neuronal de decisiones en problemas de optimización.”
1986 - David Rumelhart/G. Hinton. Redescubrieron el algoritmo de aprendizaje de propagación hacia atrás (backpropagation) [13].
A partir de 1986, el panorama fue alentador, con respecto a las investigaciones y el desarrollo de las redes neuronales. En la actualidad son numerosos los trabajos que se realizan y publican cada año, las aplicaciones nuevas que surgen.
Debido a que las RNA’s toman como modelo la estructura básica de una neurona natural. En la figura 2.1 se presentan los principales elementos involucrados con la misma.
Figura. 2.1. Componentes de una Neurona y conexión entre neuronas.
Cada neurona puede tener infinitas entradas, llamadas dendritas, que condicionan el
estado de su única salida, el axón. Este axón puede ir conectado a una dendrita de otra neurona mediante la sinapsis correspondiente como se observa en la figura 2.1.
El axón da un nivel eléctrico correspondiente a sus entradas y a la importancia que le da a cada una de ellas. De esta forma, una neurona puede no reaccionar ante un nivel muy alto de una de sus entradas, o dar una salida muy favorable cuando otra de ellas está mínimamente activa [14].
Por lo tanto, en esta investigación se puede definir una RNA como: “estructura basada
en la biofísica del cerebro humano, que intenta reproducir su comportamiento permitiendo optimizar diversas tareas y realizar Funciones complejas en variados campos de aplicación”.
El funcionamiento de una RNA que intenta simular el de una neurona biológica se
representa en la figura 2.2, en donde se puede ver que el cuerpo de la neurona se representa como un sumador lineal de los estímulos externos, zj, seguida de una función
no lineal, yj = f(zj) [15].
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
29
La función f(zj), llamada la función de activación, utiliza la suma de estímulos para
determinar la actividad de salida de la neurona [15].
Figura 2.2. Funcionamiento de una RNA mediante el modelo de McCulloch-Pitts.
Este modelo se conoce como perceptrón de McCulloch-Pitts, y es la base de la mayor parte de las arquitecturas de las RNA’s que se interconectan entre sí. Las neuronas emplean Funciones de activación diferentes, según la aplicación. La eficiencia sináptica se representa por factores de peso de interconexión, wij, desde la neurona i hasta la
neurona j [15].
Los pesos pueden ser positivos (excitación) o negativos (inhibición). Los pesos, junto con las funciones f(z), dictan la operación de la red neuronal. Normalmente, las funciones no se modifican, de tal forma que el estado de la red neuronal depende del valor de los factores de peso (sinapsis) que se aplica a los estímulos de la neurona [15].
En un perceptrón cada entrada es multiplicada por el peso W correspondiente, y los resultados son sumados, siendo evaluados contra el valor de umbral, si el resultado es mayor al mismo, el perceptrón se activa [15].
Para poder crear una RNA es importante conocer, antes que nada, los elementos que la componen, siendo los mismos para todas. Los componentes más importantes de una RNA son siete [14,16]. 1. Unidades de procesamiento.
Cualquier modelo de red neuronal consta de su unidad básica, que son las neuronas. Dentro de la estructura de las RNA’s se pueden encontrar tres tipos de neuronas que agrupadas se denominan capa o nivel, el cual consta de un conjunto de neuronas cuyas entradas provienen de la misma fuente y cuyas salidas se dirigen al mismo destino:
Las que reciben estímulos externos, es decir, información del exterior denominadas de entrada o capa de entrada.
Las que reciben la información de la capa de entrada a elementos internos para procesarse, llamadas neuronas ocultas o pertenecientes a las capas ocultas.
DENDRITAS CUERPO
AXON
AXONES SINAPSIS
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
30
Y por último, aquellas que se encargan de dar la respuesta del sistema, llamadas de salida o pertenecientes a la capa de salida [14].
2. Estado de activación de cada neurona.
Cada neurona artificial es un elemento que posee un estado interno, llamado nivel de activación, y recibe señales que le permiten cambiar de estado, a esta función que les permite cambiar dicho nivel partiendo de las señales recibidas se le conoce como función o estado de activación. El nivel de activación de una neurona depende de las entradas recibidas y de los valores de las conexiones (sinapsis); asociado a cada neurona [16].
3. Patrón de conectividad entre cada neurona.
Entre las neuronas que forman una RNA existe un conjunto de conexiones (sinapsis), las cuales tiene asociadas un peso, que unen unas con otras. Cada neurona transmite señales a aquellas que están conectadas a su salida [13].
4. Regla de propagación.
Muestra el procedimiento a seguir para combinar los valores de entrada a una neurona con los pesos de las conexiones que le llegan [13].
5. Función de activación.
Muestra el procedimiento a seguir para combinar las entradas con el estado actual de la neurona para producir un nuevo estado de activación a partir de la regla de propagación [16].
Existe una función de salida, que transforma el estado actual de activación en una
señal de salida. Dicha señal es enviada a través de las conexiones a otras neuronas de la red, modificándose de acuerdo sus pesos según una determinada regla [16].
Las funciones de activación más comunes pueden ser de las formas que se
muestran en la tabla 2.1 [14,16,17,18].
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
31
Tabla 2.1. Principales Funciones de activación para las RNA’s
FUNCIÓN GRÁFICA
Sigmoidal f1 x =1
1+e-x
Figura 2.3. Función de activación Sigmoidal.
Tangente hiperbólica
f2 x =1-e-x
1+e-x
Figura 2.4. Función de activación Tanhl.
Lineal o identidad
f4 x =x
Figura 2.5. Función de activación Identidad.
Gaussiana ∅1 r =e-r2
2
Figura 2.6. Función de activación Gaussiana.
Aunque estas funciones son las más utilizadas como función de activación en la mayoría de RNA’s existen otras funciones de activación que se presentan en el Anexo A.
6. Regla de aprendizaje [16].
Dentro de la regla de aprendizaje se deben considerar:
Características del conjunto de ejemplos o muestras. Las RNA’s son sistemas de aprendizaje basados en ejemplos o muestras. La capacidad de una red de resolver un problema está ligada al tipo de ejemplos y éstos, a su vez, deben de poseer las siguientes características:
x
f(x)
x
f(x)
f(x)
x
x
f(x)
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
32
Ser significativo: debe ser un número suficiente de ejemplos.
Ser representativos: los componentes del conjunto de aprendizaje deberán ser diversos.
Criterio de convergencia. Es el punto en el cual el periodo de aprendizaje finaliza y depende del tipo de red utilizado o del tipo de problema a resolver. Este puede ser determinado:[16].
Mediante un número fijo de ciclos: se decide cuántas veces será introducido todo el conjunto de muestras y, una vez alcanzado dicho número, se detiene el proceso y se da por aceptada la red resultante.
Cuando el error desciende por debajo de una cantidad preestablecida: habrá que definir una función de error. Se decide un valor aceptable para dicho error, y sólo para el proceso de aprendizaje cuando la red produzca un valor de error por debajo del prefijado.
Cuando la modificación de los pesos sea irrelevante: en alguno de los modelos se define un esquema de aprendizaje que hace que las conexiones, modificándose cada vez con menor intensidad. Si el proceso de aprendizaje continua, llegará un momento en que ya no se producirán variaciones de los pesos de ninguna conexión; en ese momento se detiene el proceso [16].
7. Esquemas de aprendizaje.
Dependiendo del esquema de aprendizaje y del problema a resolver Se pueden distinguir:
Aprendizaje supervisado. El proceso de aprendizaje se realiza mediante un entrenamiento controlado por un agente externo (supervisor o maestro) que determina la respuesta que debería generar la red a partir de una entrada determinada. El supervisor comprueba la salida de la red y en caso de que ésta no coincida con la deseada, se procederá a modificar los pesos de las conexiones, con el fin de que la salida obtenida se aproxime a la deseada.
Aprendizaje por corrección de error. Consiste en ajustar los pesos de las conexiones de la red en función de la diferencia entre los valores deseados y los obtenidos en la salida de la red; es decir, en función del error cometido en la salida [16].
Aprendizaje por refuerzo. Es un aprendizaje más lento que el anterior, que se basa en la idea de no disponer de un ejemplo completo del comportamiento deseado; es decir, de no indicar durante el entrenamiento exactamente la salida que se desea que proporcione la red ante una determinada entrada. En el aprendizaje por refuerzo la función del supervisor se reduce a indicar mediante una señal de refuerzo si la salida obtenida en la red se ajusta a la deseada (éxito=+1 o fracaso=-1) y, en función de ello, se ajustan los pesos, basándose en un mecanismo de probabilidades [16].
Aprendizaje estocástico. Este tipo de aprendizaje consiste básicamente en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y evaluar su efecto a partir del objetivo deseado y de distribuciones de probabilidad [14].
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
33
Aprendizaje no supervisado. Las redes con dicho aprendizaje no requieren de influencia externa para ajustar los pesos de las conexiones entre sus neuronas. La red no recibe ninguna información por parte del entorno que le indique si la salida generada en respuesta de una entrada es o no correcta. Suele decirse que estas redes son capaces de auto-organizarse [16].
Aprendizaje hebbiano. Este tipo de aprendizaje se basa en el postulado formulado por Donald O. Hebb en 1949: “Cuando un axón de una celda A está suficientemente cerca como para conseguir excitar a una celda B y repetidamente toma parte en su activación, algún proceso de crecimiento o cambio metabólico tiene lugares en una o ambas celdas, de tal forma que la eficiencia de A, cuando la celda a activar es B, aumenta [14].
Aprendizaje competitivo y cooperativo. En dicho aprendizaje suele decirse que las neuronas compiten (y cooperan) unas con otras con el fin de llevar a cabo una tarea dada. La competición entre neuronas se realiza en todas las capas de la red, existiendo en estas neuronas conexiones recurrentes de auto-excitación y conexiones de inhibición por parte de neuronas vecinas. Si el aprendizaje es cooperativo, estas conexiones con las vecinas serán de excitación [14].
Aprendizaje hibrido. Cuando hay una combinación de aprendizaje supervisado y apredizaje no supervisado [16].
Sin embargo, desde un punto de vista y a la hora de implementar el proceso de
aprendizaje en una RNA, se suele fijar un número de ciclos para detener el proceso. En este punto se analiza si es necesario realizar o no más ciclos de aprendizaje basándose en observar si el error cometido por la red se mantiene prácticamente constante de una iteración a otra o si, por el contrario, el error sigue decreciendo. Así, por ejemplo, si se representa el error de entrenamiento cometido por la red en función del número de ciclos, en el caso de la situación presentada en la figura 2.7(a), sería necesario realizar más ciclos de aprendizaje, mientras que en el caso de la figura 2.7(b), es posible detener el proceso de aprendizaje de la red.
Al evaluar el comportamiento de una red de neuronas, más que una red que haya
aprendido correctamente las muestras de entrenamiento, se necesita una red que responda correctamente a muestras diferentes. Esto se conoce como la capacidad de la red para generalizar las características presentes en el conjunto de muestras o capacidad de generalización de la red, que es imprescindible en el proceso.
Por tanto, es necesario disponer de dos conjuntos de muestras o patrones; uno
para entrenar la red y modificar sus pesos y umbrales -conjunto de entrenamiento-, y otro para medir la capacidad de la red para responder correctamente ante patrones que no han sido utilizados durante el entrenamiento -conjunto de validación o test-. Estos conjuntos se obtienen de las muestras disponibles sobre el problema y es conveniente que la separación sea aleatoria, con el fin de tener conjuntos lo más representativos posible, tanto de entrenamiento como de validación. Ambos conjuntos deben cumplir con las características de las muestras [16].
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
34
(a) (b)
Figura 2.7. Evolución del error a lo largo del proceso de aprendizaje.
Al igual que se analiza la evolución del error de entrenamiento a lo largo de los
ciclos de aprendizaje, se debe analizar también la evolución del error de validación. Al observar la evolución de ambos errores, se pueden encontrar las siguientes situaciones. Primera, ambos errores, de entrenamiento y validación, permanecen estables después de un cierto número de ciclos (figura 2.8(a)). En este caso, se puede decir que el aprendizaje ha acabado con éxito, pues la red ha sido capaz de extraer las características del problema, alcanzando un buen nivel de generalización [16].
Y segunda, a partir de un cierto número de ciclos, el error de validación comienza
a aumentar (figura 2.8(b)). En este caso, se puede decir que el número de ciclos realizado es adecuado para encontrar un mínimo del error de entrenamiento, pero a costa de perder propiedades de generalización de la red. Por tanto, no se puede afirmar que el aprendizaje haya acabado con éxito, sino que hubiera sido conveniente detener el proceso de aprendizaje en el momento en el que el error de validación comienza a crecer, para poder disponer así de una red con mejor capacidad de generalización. En estas situaciones se suele decir que se ha producido sobreentrenamiento, y por lo tanto sobreaprendizaje en la red [16].
Error de Entrenamiento
0
0 3000 6000 9000 Ciclos de aprendizaje
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8 Error de Entrenamiento
0
0 3000 6000 9000 Ciclos de aprendizaje
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
35
(a)
(b)
Figura. 2.8. Evolución de los errores de entrenamiento y validación a lo largo del proceso de aprendizaje.
2.1.1.1. MODELOS DE REDES NEURONALES ARTIFICIALES
Para crear una RNA lo primordial es identificar el tipo de tarea a realizar, la cual puede ser de cuatro tipos: clasificación, predicción, minería de datos y aproximación de funciones.
Dependiendo del tipo de tarea a realizar, se elige el modelo de RNA que más se
adapte a nuestras necesidades. Se explicarán brevemente el perceptrón multicapa y la red de función de base radial, puesto que fueron los dos modelos desarrollados en esta investigación, ya que son dos modelos de redes para problemas de aproximación de funciones [14,16,17,18].
Error de Entrenamiento Error de validación
0
0 3000 6000 9000 Ciclos de aprendizaje
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Err
or C
uadr
átic
o M
edio
Error de Entrenamiento
Error de validación
0
0 3000 6000 9000 Ciclos de aprendizaje
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Err
or C
uadr
átic
o M
edio
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
36
Se explicaran brevemente el perceptrón multicapa y la red de función de base radial, puesto que son los dos modelos desarrollados en esta investigación debido a que la finalidad del presente trabajo es realizar un tipo de tarea de aproximación de funciones y estos dos modelos son los que más aplican en estos casos
Perceptrón Multicapa
El perceptrón multicapa (MLP) es un modelo adecuado para abordar problemas reales, ya que tiene gran habilidad para aprender a partir de un conjunto de ejemplos aproximando relaciones no lineales y filtrando ruido de datos entre otras funciones.
A pesar de ser una de las redes más conocidas y utilizadas, no implica que sea una
de las más potentes y con mejores resultados en las diferentes áreas de aplicación, teniendo como la principal límite el largo proceso de aprendizaje para problemas complejos dependientes de un gran número de variables [16].
Arquitectura de perceptrón multicapa Se caracteriza porque tiene sus neuronas agrupadas en capas de diferentes niveles.
Las neuronas de la capa de entrada reciben las señales del exterior para propagarlas a todas las neuronas de la siguiente capa. La última capa actúa como salida de la red, proporcionando al exterior la respuesta de la red para cada uno de los patrones de entrada. Las neuronas de las capas ocultas realizan un procesamiento no lineal de los patrones recibidos [16].
Como se observa en la figura 2.9, las conexiones del MLP siempre están dirigidas
hacia adelante, es decir, las neuronas de una capa se conectan con las neuronas de la siguiente capa, de ahí que reciban el nombre de redes alimentadas hacia adelante o redes “feedforward”. Las conexiones entre las neuronas llevan asociado un número real, llamado peso de la conexión (sinapsis). Todas las neuronas de la red llevan también asociado un umbral, que en el caso del perceptrón multicapa suele tratarse como una conexión mas a la neurona, cuya entrada es constante e igual a 1. Se dice entonces que existe conectividad total o que la red está totalmente conectada [16].
Figura 2.9. Arquitectura del Perceptrón Multicapa.
…
…
…
…
…
…
…
…
…
…
…
… x1
n2 xn1
n3 n1 nC−1 nC
y1
ynC
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
37
Propagación de los patrones de entrada El MLP define una relación entre las variables de entrada y las de salida de la red,
propagando hacia adelante los valores de las variables de entrada, cada neurona procesa la información recibida por sus entradas produciendo una respuesta o activación que se propaga, hacia las neuronas de la siguiente capa [16].
A continuación, se muestran las expresiones para calcular las activaciones de las
neuronas de la red. Sea un MLP con C capas –C-2 capas ocultas– y nc neuronas en la
capa c, para c=1,2,...,C. Sea Wc= (wij
c) la matriz de pesos asociada a las conexiones de la
capa c a la capa c+1 para c=1,2,...,C-1, donde wijc representa el peso de la conexión de la
neurona i de la capa c a la neurona j de la capa c+1; y sea Uc= (ui
c) el vector de umbrales
de las neuronas de la capa c para c=2,...,C. Se denota aic a la activación de la neurona i
de la capa c; calculándose del siguiente modo:
Activación de las neuronas de la capa de entrada (ai1). Las neuronas de la capa de
entrada se encargan de transmitir hacia la red las señales recibidas del exterior. Por tanto:
ai1=xi para i=1,2,…,nc y para i=1,2,…,n1
(2.1)
donde X= x1,x2,…,xn1 , es el vector o patrón de entrada a la red.
Activación de las neuronas de la capa oculta c aic . Las neuronas ocultas de la red
procesan la información recibida aplicando la función de activación f a la suma de los productos de las activaciones que recibe por sus correspondientes pesos, es decir:
aic= wji
c-1ajc-1+ui
c
nc-1
j=1
para i= 1,2,…,nc y c=2,3,…,C-1
(2.2)
donde ajc-1
son las activaciones de las neuronas de la capa c-1.
Activación de las neuronas de la capa de salida aiC . Al igual que en el caso anterior la
activación de estas neuronas viene dada por la función de activación f aplicada a la suma de los productos de las entradas que recibe por sus correspondientes pesos.
yi=ai
c=f wjiC-1aj
C-1+uiC
nC-1
j=1
para i=1,2,…,nC
(2.3)
donde Y= y1,y
2,…,y
nC es el valor de la red.
La función f es la llamada función de activación. Para el MLP las funciones más
utilizadas son la sigmoidal y la tangente hiperbólica.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
38
Generalmente, la función de activación en el MLP es elegida por el diseñador, elección que se realiza únicamente basándose en los valores de activación que se desee que alcancen las neuronas.
En ocasiones, y dependiendo la naturaleza del problema las neuronas de salida, se
distinguen del resto de las neuronas de la red, utilizando otro tipo de función de activación. En este caso, las más utilizadas son la función identidad y la función escalón.
De las Ecuaciones (2.1), (2.2) y (2.3), se observa que el perceptrón multicapa define, a
través de sus conexiones y neuronas, una función continua no lineal del espacio Rn1
-
espacio de los patrones de entrada- al espacio RnC
-espacio de los patrones de salida-. Se puede escribir, por tanto, que:
Y=F X,W
(2.4) donde Y es el vector formado por las salidas de la red, X es el vector de entrada a la red, W es el conjunto de todos los parámetros de la red -pesos y umbrales- y F es una función continua no lineal dada por las Ecuaciones (2.1), (2.2) y (2.3).
Algoritmo de Retropropagación
La regla o algoritmo de aprendizaje es el mecanismo mediante el cual se van adaptando y modificando todos los parámetros de la red. En el caso del MLP, se trata de un algoritmo de aprendizaje supervisado, es decir, la modificación de los parámetros se realiza para que la salida de la red sea lo más próxima posible a la salida proporcionada por el supervisor o salida deseada. Por tanto, para cada patrón de entrada a la red es necesario disponer de un patrón de salida deseada [17].
Puesto que el objetivo es que la salida de la red sea lo más próxima posible a la salida
deseada, el aprendizaje de la red se formula como un problema de minimización:
MinWE
(2.5) siendo W el conjunto de parámetros de la red –pesos y umbrales- y E una función error que evalúa la diferencia entre las salidas de la red y las salidas deseadas. En la mayor parte de los casos, la función error se define como:
E=1
N e n
N
n=1
(2.6)
donde N es el número de patrones o muestras y e(n) es el error cometido por la red para el patrón n, dado por:
e n =1
2 Si n -y
i n
2nC
i=1
(2.7)
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
39
siendo Y n = y1 n ,…,y
nC n y S n = s1 n ,…,snC
n los vectores de salidas de la red
y salidas deseadas para el patrón n, respectivamente. De este modo, si W* es un mínimo de la función error E. En dicho punto el error es
próximo a cero, lo cual implica que la salida de la red es próxima a la salida deseada, alcanzando así la meta de la regla de aprendizaje.
Por tanto, el aprendizaje del MLP es equivalente a encontrar un mínimo de la función
error. La presencia de funciones de activación no lineales hace que la respuesta de la red sea no lineal respecto a los parámetros ajustables, por lo que el problema de minimización es un problema no lineal, y, como consecuencia, tienen que utilizarse técnicas de optimización no lineales para su resolución. En el contexto de redes de neuronas, y en particular para el MLP, la dirección de búsqueda más comúnmente usada es la dirección negativa del gradiente de la función E -método de descenso del gradiente-, pues, conforme al cálculo de varias variables, ésta es la dirección en la que la función decrece [16].
El aprendizaje de la red debe realizarse para minimizar el error total (ecuación 2.5), el
procedimiento más utilizado está basado en el algoritmo del descenso acelerado, los cuales consisten en una sucesiva minimización de los errores para cada patrón, e(n), en lugar de minimizar el error total E. Por tanto, aplicando el algoritmo de descenso acelerado, cada parámetro w de la red se modifica para cada patrón de entrada n, de acuerdo con la siguiente ley de aprendizaje:
w n =w n-1 -∝∂e n
∂w
(2.8) donde e(n) es el error para el patrón n dado por la ecuación (2.7) y a es la razón o tasa de aprendizaje, parámetro que influye en la magnitud del desplazamiento en la superficie del error, como se analizará más adelante.
Debido a que las neuronas de la red están agrupadas en capas de distintos niveles, es
posible aplicar el método del gradiente de forma eficiente, resultando el conocido algoritmo de retropropagación o regla delta generalizada. El término retropropagación se utiliza debido a la forma de implementar el algoritmo de descenso acelerado en el peceptrón hacia atrás, transformándolo en un error para cada una de las neuronas ocultas de la red [16].
Esta generalización es necesaria debido a la presencia de neuronas ocultas en la red,
para las cuales no se conoce el error cometido. Como se ha visto anteriormente, esto se resuelve mediante la aplicación de la regla de la cadena que actúa de la siguiente manera. Cada neurona de salida distribuye hacia atrás su error o valor δ a todas las neuronas ocultas que se conectan a ella, ponderando por el valor de la conexión. De este modo, cada neurona oculta recibe un error o valor δ de cada neurona de salida, y la suma
de estas cantidades es el término 𝛿 asociado a la neurona oculta. Dichos valores 𝛿 de las neuronas ocultas de la capa anterior y asi sucesivamente hasta llegar a la primera capa
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
40
oculta. De ahí viene el nombre de algoritmo de retropropagación hacia todas las neuronas de la capa anterior [16,17].
Regla Delta Generalizada
Las expresiones que definen a la regla delta son las siguientes: pesos de la capa oculta C-1 a la capa de salida y umbrales de la capa de salida.
Pesos:
wjiC-1 n =wji
C-1 n-1 +∝δiC n aj
C-1 n
(2.9) Para j=1,2,…,nC-1 y i=1,2,…, ,nC.
Umbrales:
uiC n =ui
C n-1 +∝δiC n
(2.10) Para i=1,2,…, ,𝑛𝐶
donde:
δiC n =- si n -y
i n f' wji
C-1ajC-1+ui
C
nC-1
j=1
(2.11) Pesos de la capa c a la capa c+1 y umbrales de las neuronas de la capa c+1 para
c=1,2,…,C-2. Pesos:
wkjc n =wkj
c n-1 +∝δjc+1 n ak
c n
(2.12)
Para k=1,2,…,nC-1 y j=1,2,…, ,nC y c=1,2,…,C-2
Umbrales:
ujc+1 n =uj
c+1 n-1 +∝δjc+1 n
(2.13) Para 𝑗 = 1,2, … , , 𝑛𝐶 y 𝑐 = 1,2, … , 𝐶 − 2
donde:
δjc+1 n =f´ wkj
c akc+uji
c
nc
k=1
δic+2 n wji
c
nc+1
i=1
(2.14)
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
41
Proceso de aprendizaje del perceptrón multicapa
Los pasos que componen el proceso de aprendizaje del MLP son siete: Paso 1 Se inicializan los pesos y umbrales de la red. Generalmente esta
inicialización es aleatoria y con valores alrededor del cero. Paso 2 Se toma un patrón n del conjunto de entrenamiento (X(n), S(n)), y se
propaga hacia la salida de la red el vector de entrada X(n), utilizando las ecuaciones (2.1)-(2.3), obteniéndose así la respuesta de la red para dicho vector de entrada, Y(n).
Paso 3 Se evalúa el error cuadrático cometido por la red para el patrón n utilizando
la ecuación (2.5). Paso 4 Se aplica la regla delta generalizada para modificar los pesos y umbrales
de la red. Para ello se realiza lo siguiente:
4.1. Se calculan los valores 𝛿 para todas las neuronas de la capa de salida utilizando la ecuación (2.11).
4.2. Se calculan los valores 𝛿 para el resto de las neuronas de la
red utilizando la ecuación (2.14), empezando desde la última capa oculta y retropropagando dichos valores hacia la capa de entrada.
4.3. Se modifican pesos y umbrales de la red siguiendo las
ecuaciones (2.9) y (2.10) para los pesos y umbrales de la capa de salida y (2.12) y (2.13) para el resto de los parámetros de la red.
Paso 5 Se repiten los pasos 2, 3 y 4 para todos los patrones de entrenamiento,
completando así una iteración o ciclo de aprendizaje. Paso 6 Se evalúa el error total E (ecuación 2.6) cometido por la red. Dicho error
también recibe el nombre de error de entrenamiento, pues se calcula uti-lizando los patrones de entrenamiento.
Paso 7 Se repiten los pasos 2, 3, 4, 5 y 6 hasta alcanzar un mínimo del error de
entrenamiento, para lo cual se realizan m ciclos de aprendizaje.
Redes de Neuronas de Base Radial
Las redes de neuronas de base radial (RBFN, por sus siglas en ingles) son redes multicapas con conexiones hacia adelante, se caracterizan porque están formadas por una única capa oculta, son aproximadores universales y han sido aplicadas a una gran variedad de problemas, aunque es necesario señalar que su aplicación no ha sido tan extendida como en el caso del MLP [18].
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
42
Arquitectura de las redes de Función de base radial
Las redes de neuronas de base radial están formadas por tres capas de neuronas: la capa de entrada, una única capa oculta y la capa de salida, como se muestra en la figura 1.32. La capa de entrada la componen un conjunto de neuronas que reciben las señales del exterior, transmitiéndolas a la siguiente capa sin realizar ningún procesado sobre dichas señales. Las neuronas de la capa oculta reciben las señales de la capa de entrada y realizan una transformación local y no lineal sobre dichas señales. Este carácter local es lo que las diferencia del MPL, tanto en arquitectura como en comportamiento. Esta capa es la única que incluye componentes no lineales en las redes de función de base radial. Y, finalmente, la capa de salida que realiza una combinación lineal de las activaciones de las neuronas ocultas, que actúa además como salida de la red [18].
Figura 2.10. Arquitectura de la red de neuronas de base radial.
La red se caracteriza porque las conexiones de la capa de entrada a la capa oculta no
llevan asociado ningún peso, mientras que, y como es habitual en el contexto de redes de neuronas, las conexiones de la capa oculta a la capa de salida sí llevan asociado un número real o peso de la conexión. En lo referente a los umbrales de las neuronas, en las RBFN únicamente las neuronas de salida poseen un umbral, que también se suele tratar como una conexión más de la neurona cuya entrada es constante e igual a 1.
Las RBFN definen una relación no lineal entre las variables de entrada y las variables
de salida de la red, propagando hacia la salida las señales o muestras recibidas en la entrada.
Propagación de los patrones de entrada
A continuación, se presentan las expresiones para calcular las activaciones de las neuronas de las RBFN [17].
Dada una RBFN con p neuronas en la capa de entrada, m neuronas en la capa oculta
y r neuronas en la capa de salida, las activaciones de las neuronas de salida para el
patrón de entrada n, X n = (x1 n ,x2 n ,…,xp n denotadas como yk n , vienen dadas
por la siguiente expresión:
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
43
yk n = wik∅i n +uk para k=1,2,…,r
m
i=1
(2.15) donde wik representa el peso de la conexión de la neurona oculta i a la neurona de salida
k, uk es el umbral de la neurona de salida k y ∅i n son las activaciones de las neuronas ocultas para el patrón de entrada X(n). Se observa en la ecuación (2.15) que las neuronas de salida de la red utilizan la función de activación identidad, realizando una transferencia lineal de las activaciones de todas las neuronas ocultas.
Las funciones ∅i, también conocidas como funciones de base radial, determinan las
activaciones de las neuronas ocultas de la red en función del vector de entrada a la red X(n) y vienen dadas por la siguiente expresión:
∅i n =∅ X n -Ci
di
(2.16) para i=1,2,…,m
donde ∅ es una función de base radial; Ci= ci1,…,cip son vectores que representan los
centros de la función de base radial; di son números reales que representan la desviación, anchura o dilatación de la función de base radial; y es la distancia euclideanas del vector de entrada X(n) al centro Ci, definida como:
X n -Ci = xj n -cij 2
p
j=1
12
(2.17)
Por tanto, la activación de una neurona oculta en las RBFN depende de la distancia
del patrón de entrada X(n) al centro Ci de la función de base radial. Estas funciones bases ∅ poseen un carácter local, pues son funciones que alcanzan un nivel cercano al máximo de su recorrido cuando el patrón de entrada X(n) está próximo al centro de la neurona; a medida que el patrón se aleja del centro, el valor de función va tendiendo al valor mínimo de su recorrido.
La función de base radial ∅ puede adoptar diferentes formas y expresiones como
función gaussiana, inversa cuadrática e inversa multicuadrática, sin embargo, la gaussiana es la más utilizada [18].
Aprendizaje de las redes de función de base radial
El proceso de aprendizaje implica la determinación de todos los parámetros que intervienen en la RBFN. Estos parámetros son: los centros y las desviaciones de las neuronas ocultas y los pesos de la capa oculta a la capa de salida, así como los umbrales de las neuronas de salida [18].
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
44
Debido a que las capas de neuronas en una RBFN realizan tareas diferentes, es razonable separar el proceso de optimización de los parámetros de la capa oculta y los de la capa de salida mediante la utilización de diferentes técnicas. Sin embargo, para los parámetros de la capa de salida la optimización se debe realizar con base a las salidas que se desea obtener o salidas deseadas, ya que las RBFN se utilizan para aproximar relaciones entre el conjunto de variables de entrada y salida que definen el problema [18].
El aprendizaje de una red RBFN es la combinación de dos métodos:
Hibrido: combina dos fases; una fase no supervisada para la determinación de los centros y otra supervisada para la determinación de los pesos y umbrales.
Totalmente supervisado: realiza una adaptación supervisada de todos los parámetros de la red.
Esta combinación consiste en inicializar los centros y desviaciones de las funciones de base radial utilizando el método hibrido y, posteriormente, adaptarlos de manera supervisada utilizando el método totalmente supervisado.
La combinación de ambos métodos se da en los siguientes pasos:
1. Se calculan los centros de las funciones de base radial aplicando el algoritmo de K-
medias sobre el conjunto de patrones de entrada {(X (n)) } n-1,..,n. Este algoritmo de k-medias es un algoritmo de clasificación no supervisada mediante el cual el espacio de patrones de entrada se divide en K regiones o clases. El representante de cada una de estas clases, Ci, será el centro de la neurona oculta i. Dichos centros se determinan con el objetivo de minimizar las distancias euclideanas entre los patrones de entrada y el centro más cercano, es decir:
J= Min
N
n=1
X n Ci
k
i=1
(2.18)
donde N es el número de patrones, es la distancia euclideana, X(n) es el patrón de entrada n y Min es la función de pertenencia, que vale 1 si el centro Ci es el más cercano al patrón X(n), y 0 en otro caso, es decir:
Min 10 Si X n -Ci < X n -Cs ∀ s≠i, s=1,2,…,K
en otro caso
(2.19)
Dado K, es el número de clases, X n = x1 n ,x2 n ,…,xp n n=1…N
, el conjunto
de patrones de entrada y Ci= Ci1,Ci2,…,Ci3 n=1…K, los centros de las clases, los pasos para la aplicación del algoritmo son los siguientes:
Paso 1 Se inicializan con los centros de las K clases. Pueden inicializarse a K
patrones aleatorios del conjunto de patrones disponibles, o bien puede
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
45
realizarse aleatoriamente, en cuyo caso es conveniente que se inicialicen dentro del rango de valores de los patrones de entrada.
Paso 2 Se asignan Ni patrones de entrada a cada clase i del siguiente modo: el
patrón X(n) pertenece a la clase i Si X n -Ci < X n -Cs ∀ s≠i, s=1,2,…,K.
Por tanto, asociado a cada clase tendrá un determinado número de patrones de entrada, aquellos más cercanos al centro de la clase.
Paso 3 Se calcula la nueva posición de los centros de las clases como la media de
todos los patrones que pertenecen a su clase, es decir:
cij =1
Ni
Minxj n para j=1,2,…,p, i=1,2,…,K
N
n=1
(2.20) Paso 4 Se repiten los pasos 2 y 3 hasta que las nuevas posiciones de los centros
no se modifiquen, respecto a su posición anterior, es decir, hasta que:
Ci
nuevo-Ci
anterior <ε∀i=1,2,…,K
(2.21)
Siendo un número real positivo próximo a cero que marca la finalización del algoritmo.
El algoritmo de K- medias es un método fácil de implementar y usar; suele ser un algoritmo bastante eficiente en problemas de clasificación, pues converge en pocas iteraciones hacia un mínimo de la función J dada por la ecuación (2.18).
2. Se calculan las amplitudes o desviaciones de las funciones de base radial utilizando
alguna de las expresiones dadas por las ecuaciones (2.22) o (2.23). Media uniforme de las distancias euclideanas del centro Ci a los p centros más cercanos
di=1
p Ci-Cp
p
(2.22) Otra opción bastante efectiva es determinar la amplitud de la función de base radial como la media geométrica de la distancia del centro a sus dos vecinos más cercanos
di = Ci-Ct Ci-Cs
(2.23)
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
46
3. Se aplica el algoritmo de los mínimos cuadrados para el cálculo de los pesos y umbrales de la red (ecuaciones 2.30 y 2.31). El algoritmo de mínimos cuadrados se explica a continuación. En la ecuación (2.15) se observa que las salidas de la RBFN dependen linealmente de los pesos y umbrales, por lo que un método bastante simple y eficiente es el algoritmo de los mínimos cuadrados. De este modo, los pesos y umbrales de la red se determinan mediante un proceso iterativo gobernado por la siguiente ley:
wik n =wik n-1 -α1
∂e n
∂wik
(2.24)
uik n =uik n-1 -α1
∂e n
∂wk
(2.25)
para k=1,2,…,r, i=1,2,…,m
donde e(n) es el error dado por la ecuación (2.7) y α1 es la razón o taza de aprendizaje de los pesos.
Teniendo en cuenta la expresión del error (2.7) y que el peso wik y el umbral uik únicamente afectan a la neurona de salida k, se obtiene que:
∂e n
∂wik
=- sk n -yk n
∂yk n
∂wik
(2.26)
∂e n
∂uk
=- sk n -yk n
∂yk n
∂uk
(2.27)
Derivando la salida yk n de la red RBFN dada en la ecuación (2.15), respecto a
los pesos y umbrales, se obtiene que:
∂yk n
∂wik
=∅i n
(2.28)
donde ∅i n es la activación de la neurona oculta i para el patrón de entrada X(n), y
∂yk n
∂uk
=1
(2.29) Por tanto, las leyes dadas por las ecuaciones (2.24) y (2.25) para adaptar los pesos y umbrales de la capa de salida de la RBFN se pueden escribir de la siguiente forma:
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
47
wik n =wik n-1 α1 sk n -yk n ∅i n
(2.30)
uk n =uk n-1 α1 sk n -yk n
(2.31) para k=1,2,…,r, i=1,2,…,m
Cuando se calculan los pesos mediante la ley de aprendizaje dada por las ecuaciones (2.30) y (2.31), la convergencia es bastante rápida, consiguiendo una solución en un número pequeño de iteraciones o ciclos de aprendizaje.
4. Se toma un patrón del conjunto de patrones disponibles (X(n),S(n)) y se calcula la
salida de la red, Y(n), para el patrón de entrada X(n).
5. Se evalúa el error e(n) cometido por la red para dicho patrón (ecuación 2.7).
6. Se modifican los pesos, umbrales, centros y amplitudes de la red utilizando las ecuaciones (2.30)-(2.33), respectivamente.
Centros:
Ley para modificar los centros de las funciones de base radial:
Cik n =Cik n-1 α2 𝑠𝑘 𝑛 − 𝑦𝑘 𝑛 𝑤𝑖𝑘
𝑟
𝑘=1
∅i n 𝑥𝑗 − 𝐶𝑖𝑗
𝑑𝑖2
(2.32) para j=1,2,…,p, i=1,2,…,m
donde α2 es la razón o taza de aprendizaje de los centros.
Amplitudes:
Ley para modificar los centros de las funciones de base radial:
di n =dik n-1 α3 𝑠𝑘 𝑛 − 𝑦𝑘 𝑛 𝑤𝑖𝑘
𝑟
𝑘=1
∅i n 𝑋 𝑛 − 𝐶𝑖
2
𝑑𝑖3
(2.33) para i=1,2,…,m
donde α3 es la razón o taza de aprendizaje de las amplitudes.
En este punto es necesario prestar especial atención a las razones o tasas de aprendizaje de los centros y amplitudes, α2 y α3. Al aplicar las leyes dadas por las ecuaciones (2.32) y (2.33), los centros y desviaciones no deben sufrir cambios bruscos respecto a los valores obtenidos en los pasos 1 y 2, pues, en ese caso, la información obtenida en la fase no supervisada se perdería.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 2 MARCO CONCEPTUAL
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
48
7. Se repiten los pasos 4, 5 y 6 para todos los patrones de entrenamiento.
8. Se repiten los pasos 4, 5, 6 y 7 hasta conseguir la convergencia, es decir, hasta que la
suma de los errores para todos los patrones (ecuación 2.6) se estabilice, momento en el que se alcanza un mínimo de dicha función.
2.2. CONCLUSIONES
El MLP y RBFN son tipos de redes con características similares, ya que ambas son con conexiones dirigidas hacia adelante y además son aproximadores universales, pero lo importante de estos dos modelos de red son sus diferencias como el número de capas ocultas, la distribución de los pesos, el tipo de aprendizaje y el número de muestras necesarias para el entrenamiento.
Sin embargo, la principal diferencia entre estas dos redes está en la función de activación de las neuronas ocultas de la red. El entrenamiento de MLP es lento y se necesitan muchas muestras en contraparte con la RBFN que es más rápido y no se necesita un conjunto de muestras mayor a 150.
Y por último, para la RBFN se necesita un número significativo de neuronas en la capa
oculta, mientras que para el MLP no es tan relevante.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
49
CCCaaapppiiitttuuulllooo 333
CCCOOONNNSSSTTTRRRUUUCCCCCCIIIOOONNN DDDEEE RRREEEDDDEEESSS NNNEEEUUURRROOONNNAAALLLEEESSS
AAARRRTTTIIIFFFIIICCCIIIAAALLLEEESSS
El capítulo 2 se divide en dos partes. En la primera parte se ilustran los resultados obtenidos en el proceso experimental de fractura por microindentación en capas boruradas, que son los datos que posteriormente se utilizaron para el entrenamiento y validación de las RNA’s. Así mismo, se presenta el modelo de agrietamiento tipo Palmqvist, propuesto por A. Balankin e I. Campos, utilizado para el cálculo de la tenacidad a la fractura de los aceros endurecidos AISI 1045. AISI 1018 y AISI M2.
La segunda parte consiste en la creación y desarrollo de los modelos de redes neuronales tipo perceptrón multicapa y tipo base radial, empleando el software neurosolutions v. 5.0. Dichos modelos se aplicaron para optimizar el cálculo de la tenacidad a la fractura de los aceros endurecidos AISI 1045. AISI 1018 y AISI M2.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
50
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
51
3.1. PROCESO EXPERIMENTAL DE LA FRACTURA POR MICROINDENTACIÓN EN CAPAS BORURIZADAS
En primer lugar, se recopilaron datos obtenidos experimentalmente de aceros AISI
1045, AISI 1018 y AISI M2 sometidos al proceso de borurización. El proceso de borurización, puede lograr alta dureza en aceros con aleaciones, el
material borurado aumenta su resistencia a temperaturas criticas y a exposición a ácidos, así mismo, este proceso se puede aplicar en materiales que ya fueron previamente tratados, y se puede utilizar en un área específica del material que se requiera endurecer y en superficies irregulares [19]. Todos los materiales ferrosos, como el acero estructural, los aceros grado maquinaria, los aceros grado herramienta, aceros colados, los hierros y aceros sinterizados, y materiales no ferrosos, como el níquel, tungsteno, molibdeno, cobalto y titanio, son propicios a ser borurados [19]. El proceso de borurización se explica a detalle en el anexo C.
Cada uno de los aceros se sometieron a diferentes condiciones de borurado, a saber:
espesor de pasta de Boro aplicada en la superficie de cada acero, temperatura (oC) y tiempo de tratamiento (horas), obteniendo así un espesor de capa diferente para cada
acero (). Posteriormente, se aplicaron pruebas estandarizadas de microdureza Vickers a los
aceros anteriormente señalados a diferentes distancias y con diferentes cargas, a fin de
obtener la mitad de la diagonal de la indentación (a) y la longitud de la grieta (l) (figura
3.1), el modulo de Young (E), la carga (P) y la dureza (Hv), para determinar el valor de la
tenacidad a la fractura (KIC), que se presenta en la tabla 1.4. Cabe mencionar que en el
anexo D se muestran los datos experimentales obtenidos bajo la técnica de fractura por
microindentación tipo Vickers para los aceros borurados AISI 1045, AISI M2 y AISI 1018
empleados durante el entrenamiento de las redes neuronales artificiales (RNA’s)
desarrolladas.
Figura 3.1. Criterio de medición para encontrar el valor de c (1000X).
a l
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
52
En este trabajo, para la determinación de KIC obtenida por microindentación en la fase
Fe2B formada sobre la superficie de un acero estructural AISI 1045 y un acero AISI 1018,
se aplico la ecuación (3.1). La ecuación 3.1 ha sido propuesta por Balankin-Campos a
partir de la ecuación de T. Laugier (ver anexo C), en donde existen restricciones de rango
para el valor de l/a ≤ 3 [20].
Kc=0.028 E
HV
2 3
l
a
1 2
P
c3 2
(3.1) Por otra parte, para la determinación de KIC por microindentación en la capa borurada
FeB /Fe2B formada sobre la superficie de un acero estructural AISI M2, se aplica la
ecuación (3.2). De igual forma, la ecuación 3.2 ha sido propuesta por Balankin-Campos a
partir de la ecuación de T. Laugier (ver anexo C), en donde existen restricciones de rango
para el valor de l/a [21].
Kc=0.010 E
HV
2 3
l
a
1 2
P
c3 2
(3.2)
Al aplicar las ecuaciónes (3.1) y (3.2) para el acero correspondiente a los datos
obtenidos en la prueba de microdureza Vickers a las diferentes distancias de la superficie con diferentes cargas y con diferentes espesores de capa, se obtuvieron 87 valores de KIC para el acero AISI 1045, 16 valores para el acero AISI M2 Y 45 valores para el acero AISI 1018 (ver anexo D).
De acuerdo a lo visto en este apartado 3.1, normalmente se necesitan datos a partir
de las pruebas de microindentación tipo Vickers: modulo de Young (E), la carga (P), la
dureza (Hv), longitud de la grieta (l), la mitad de la diagonal de la indentación (a) y c (l+a),
lo que implica un gran número de pruebas experimentales, que se traduce en mayor
tiempo para obtener valores de KIC. Por lo tanto, es conveniente hallar herramientas
matemáticas (no lineales) que permitan optimizar el cálculo de KIC, a fin de reducir el
tiempo, sin descuidar la precisión de los resultados. En este trabajo se propone el
desarrollo y aplicación de redes neuronales artificiales para optimizar el cálculo de KIC en
capas boruradas obtenidas por el tratamiento de borurización en pasta.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
53
3.2. DESARROLLO DE REDES NEURONALES ARTIFICIALES
Debido a su constitución y a sus fundamentos, las RNA’s artificiales presentan un gran número de características semejantes a las del cerebro, es por esta razón que se implementaron las RNA’s para la optimización del cálculo de KIC en capas boruradas; sin embargo, hay diversas topologías, (anexo B), siendo el diseño diferente para cada una de ellas donde la creación de las redes es a base de prueba y error.
Para esta investigación se utilizaron los modelos de perceptrón multicapa (MLP, por
sus siglas en ingles) y red de función de base radial (RBFN), por ser las más populares y apropiadas para una gran variedad de problemas en ingeniería, y posteriormente se diseña un modelo de red que combina ambos modelos. El entrenamiento es supervisado en el caso del MLP e hibrido para la RBFN. En el caso de estas RNA´s, las neuronas de entrada fueron elegidas por variables que no se obtienen mediante las pruebas de indentación tipo Vickers a fin de omitir este proceso experimental, las cuales son: 1. Tipo de acero(que puede ser AISI 1045, AISI 1018 y AISI M2)
2. Espesor de Capa (en función de la temperatura, tiempo y espesor de pasta del
proceso de borurización)
3. Distancia (es la distancia en la superficie del acero donde se hizo la indentación)
4. Carga (a la que se va a realizar la prueba de indentación)
Y el número de neuronas en la capa de salida será únicamente una para determinar KIC.
3.2.1. DISEÑO DE LA ARQUITECTURA DEL PERCEPTRÓN MULTICAPA
Cuando se aborda un problema utilizando el MLP, uno de los primeros pasos a realizar es el diseño de la arquitectura de la red. Este diseño implica la determinación de la función de activación a emplear, el número de neuronas y el número de capas en la red [21].
Como se comentó en el capítulo 2, la elección de la función de activación se suele
hacer basándose en el recorrido deseado, y el hecho de elegir una u otra, generalmente, no influye en la capacidad de la red para resolver el problema.
En lo que respecta al número de neuronas y capas, algunos de estos parámetros
vienen dados por el problema y otros deben ser elegidos por el diseñador. El número de neuronas en la capa de entrada y el número de neuronas en la capa de salida están determinadas por las variables que definen el problema. En algunas aplicaciones prácticas, no hay lugar a duda sobre el número de entradas y salidas. El número de capas ocultas y el número de neuronas en estas capas deben ser elegidos por el diseñador. No existe un método o regla que determine el número óptimo de neuronas ocultas para resolver un problema establecido. En la mayor parte de las aplicaciones prácticas, estos parámetros se determinan por prueba y error. Partiendo de una arquitectura ya entrenada, se realizan cambios aumentando y disminuyendo el número de neuronas ocultas y el
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
54
número de capas hasta conseguir una arquitectura adecuada para el problema a resolver, que pudiera no ser la óptima, pero que proporciona una solución [22].
Si bien el número de neuronas ocultas puede influir en el comportamiento de la red,
generalmente, el número de neuronas ocultas no es parámetro significativo, puesto que en un problema, pueden existir una gran cantidad de arquitecturas capaces de resolver de manera adecuada dicho problema. Además, añadir o eliminar una neurona oculta no influye, de manera significativa, en la capacidad de la red.
El Diseño del MLP utilizado para la obtención de KIC para los aceros borurados AISI 1045, AISI M2 y AISI 1018 se ilustra en la figura 3.2.
Figura. 3.2. MLP realizado en Neurosolution v.5.0 con tres capas ocultas entrenada con datos de los aceros borurados AISI 1045, AISI 1018 y AISI M2.
El MLP está adiestrado con el algoritmo estándar de retropropagación del error con los
datos obtenidos experimentalmente de espesor de capa, la distancia y la carga de la indentación y el tipo de acero teniendo como salida deseada el valor de KIC.
Las características de la MLP multicapa diseñada para la obtención de KIC de los aceros borurados AISI 1045, AISI M2 y AISI 1018 se muestran en la tabla 3.1.
Tabla 3.1. Características de la estructura del MLP para los aceros borurados.
NO. DE NEURONAS FUNCIÓN DE ACTIVACIÓN
CAPA DE ENTRADA 4 a11=EC; a2
1=d; a31=P; a4
1=TA
CAPAS OCULTAS 1ª capa oculta 30 Sigmoidal
2ª capa oculta 20 Lineal sigmiodal
3ª capa oculta 30 lineal
CAPA DE SALIDA 1 a15=kIC
3.2.2. DISEÑO DE LA ARQUITECTURA DE BASE RADIAL
El número de entradas y salidas en una RBFN están establecidas por el numero de
variables que definen el problema, al igual que en el MLP. El número de neuronas ocultas
en la red se determina por prueba y error, variando el número de neuronas hasta
conseguir una red capaz de resolver el problema. Sin embargo, el añadir o eliminar el
número de neuronas ocultas puede influir significativamente en los resultados obtenidos
por la red, al contrario que con el MLP [21].
Capa de entrada Capas ocultas Capa de Salida
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
55
Hay investigaciones donde se trata de desarrollar algoritmos que, partiendo de una
única neurona oculta, van incorporando nuevas neuronas a medida que se reciben
patrones de entrada que no están representados con las neuronas ocultas existentes. La
mayor parte de estos métodos tratan no sólo de encontrar el número óptimo de neuronas,
sino también los parámetros asociados a dichas neuronas, es decir, centros y amplitudes.
De igual forma que con el diseño del MLP, el diseño de la RBFN, mostrada en la figura
3.3, se utiliza para los aceros borurados AISI 1045, AISI 1018 y AISI M2.
Figura. 3.3. RBFN realizada en Neurosolution 5.0 con una única capa oculta entrenada con datos de los aceros borurados AISI 1045, AISI 1018 y AISI M2.
La RBFN, diseñada para la presente investigación, está constituida por una función
estática de Gauss en su única capa oculta y al igual que el MLP, está entrenada con los mismos datos de las variables de entrada y salida (EC, TA, d, P, KIC).
Las características de la red de función de base radial, diseñada para la obtención de KIC de los aceros AISI 1045, AISI M2 y AISI 1018, se muestran en la tabla 3.2.
Tabla 3.2. Características de la estructura de la RBFN para los aceros borurados.
NO. DE NEURONAS FUNCIÓN DE ACTIVACIÓN
CAPA DE ENTRADA 4 a11=EC; a2
1=d; a31=P; a4
1=TA
CAPAS OCULTAS 5000 Gauss
CAPA DE SALIDA 1 a13=kC lineal
Capa de entrada Capas ocultas Capa de Salida
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
56
3.2.3. COMBINACION DE LA ARQUITECTURA DE BASE RADIAL CON EL PERCEPTRON MULTICAPA
Al combinar la RBFN y el MLP obtenemos el mostrado en la figura 3.4, también
utilizada para los aceros borurados AISI 1045, AISI 1018 y AISI M2.
Figura. 3.4. RBFN-MLP realizada en Neurosolution 5.0 entrenada con datos de los Aceros borurados AISI 1045, AISI 1018 y AISI M2.
La combinación de RBFN y MLP, diseñada para la presente investigación, está
constituida por una función estática de Gauss en la primera capa oculta y en las dos siguientes capas con funciones sigmoidal y tangencial, respectivamente.
Las características de la red diseñada para la obtención de KIC de los aceros AISI 1045, AISI M2 y AISI 1018, se muestran en la tabla 3.3.
Tabla 3.3. Características de la estructura de la RBFN-MLP para los aceros borurados
NO. DE NEURONAS FUNCIÓN DE ACTIVACIÓN
CAPA DE ENTRADA 4 a11=EC; a2
1=d; a31=P; a4
1=TA
CAPAS OCULTAS 1ª capa oculta 500 Gauss
2ª capa oculta 20 Sigmiodal
3ª capa oculta 30 Tangencial
CAPA DE SALIDA 1 a15=kIC
Como ya se mencionó al inicio de este apartado, las RNA’s fueron realizadas en el
software Neurosolutions v.5.0, el cual permite al usuario construir, entrenar y probar redes neuronales completamente desde diversas aplicaciones y programas como Matlab, Excel, entre otras funciones. Esto se explica más a detalle en el anexo E.
Las características de cada componente utilizado en los modelos de RNA’s desarrollados, tanto para la MLP como para la RBFN, son propios de Neurosolutions v.5.0 y se pueden consultar en el anexo F.
3.3. ENTRENAMIENTO Y VALIDACION DE LAS REDES NEURONALES ARTIFICIALES
Una vez desarrolladas ambas redes, el siguiente paso consistió en introducir datos obtenidos en el proceso experimental (ver apartado 3.1 y anexo D), a fin de entrenar y
Capa de entrada Capas ocultas Capa de Salida
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
57
validar la red. Por ende, en este punto se habla, por una parte, del entrenamiento de las redes desarrolladas y, por otra parte, de la validación de dichas redes. Cabe mencionar que dichos procesos se realizan de manera simultánea.
A continuación se explica el entrenamiento y validación de las RNA’s desarrolladas. A
partir del diseño de una RNA, un paso fundamental es establecer el mínimo de error que se desea tener en los datos resultantes de la red. Sin embargo, este error no lo determina el entrenamiento de una RNA, sino su validación. Cabe aclarar que no se debe confundir la validación de datos con la producción de datos. Como ya se explicó en el capítulo 2, el conjunto de muestras que se tiene se debe dividir en un conjunto de entrenamiento y otro de validación de datos.
El error que se desea obtener en los datos resultantes de las RNA’s para esta
investigación es por debajo del 5%. Dentro del entrenamiento se puede poner como limitante el error esperado y el número de ciclos con los que se va a alimentar la red, y esperar a que finalice el entrenamiento cuando ocurra cualquiera de las dos limitantes. Esto es poco factible, puesto que en la validación puede ocurrir, que aunque el error de entrenamiento sigua decreciendo, ocurra un sobreentrenamiento. Por lo tanto, las limitantes para el entrenamiento en una RNA es fijar un número de ciclos considerable en el entrenamiento, y el momento en el que el error de validación comience a aumentar, considerando así los factores principales para un buen entrenamiento.
Las fases que se sugieren realizar durante el entrenamiento de una RNA son tres.
Primera Fase: se entrena la red hasta que se obtienen los mejores pesos y se
estabiliza. Durante la etapa de entrenamiento, al número de veces que se deben
ingresar los datos de entrada y los deseados se le conoce como número de ciclos
(Ver tablas 3.1, 3.2 y 3.3). Cuando la red aprende, el error tiende a cero [21].
Segunda Fase: se valida la red. Durante el entrenamiento, la red es alimentada
también con los datos de entrada del conjunto de validación, y la información
generada es comparada con los datos de salida del mismo conjunto de validación.
El rendimiento de la red es recopilado y se crea un informe que exhibe los
resultados, tanto del entrenamiento como de la comprobación dentro de la
validación [22].
El informe generado en el entrenamiento y la validación contiene la información siguiente [24]:
1. Gráfica de salida en la red y salida deseada, ambas se grafican (figuras
4.1 y 4.2). 2. Se informa el error cuadrático medio (MSE), el error cuadrático medio
normalizado (NMSE) y el porcentaje de error generado. (tabla 3.1, 3.2, 3.3)
Tercera Fase: se aplican los datos desconocidos a la RNA, ya entrenada y
validada, para observar los resultados que brinda la RNA.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
58
Para el entrenamiento de las RNA´s se utilizaron el tipo de acero, el valor de espesor de capa obtenido durante el tratamiento de borurización, la distancia y la carga de la indentación y los calculados de KIC (del anexo D).
Dentro de las características del entrenamiento se consideró el número de ciclos, el
número de muestras obtenidas y el tipo de regla de aprendizaje que se muestran en la tabla 3.4.
Tabla 3.4. Comparación de las características del entrenamiento de las RNA’s diseñadas.
MULTICAPA RADIAL MULTICAPA Y RADIAL
Número de ciclos para el entrenamiento 1,000,000 100,000 100,000 Número de muestras para el entrenamiento 74 74 74 Número de muestras para la validación 49 49 49 Tipo de regla utilizada: Quick propagation Quick propagation Quick propagation Fin del entrenamiento: 15,569 211,423 52,910
En la tabla 3.5 se presentan el error cuadrático medio, el error cuadrático medio normalizado y el porcentaje de error obtenido en el momento que se detuvo el entrenamiento para cada tipo de RNA.
Tabla 3.5. Errores obtenidos en el entrenamiento y la validación de las RNA’s diseñadas.
MULTICAPA RADIAL MULTICAPA Y RADIAL
Entrenamiento validación entrenamiento validación entrenamiento validación
MSE 0.011913357092 0.011913357092 0.000259134731 0.002599095630 0.001903972684 0.009305074846
NMSE 0.078219031841 0.078219031841 0.004283520360 0.068259095144 0.007868209834 0.061093941874
% Error 5.135535386902 5.135535386902 3.298075309588 5.240541807799 3.053076769486 4.143595939590
3.4. CONCLUSIONES
La confiabilidad de los datos obtenidos por la técnica de fractura por microindentación tipo Vickers, en capas boruradas formadas en las superficies de aceros AISI 1045, AISI 1018 y AISI M2, ha sido validada en el presente proyecto de investigación por el modelo propuesto por A. Balankin e I. Campos a partir de la ecuación de T. Laugier para la determinación de KIC. Los datos de la tenacidad a la fractura, en las capas boruradas formadas en los aceros propuestos en este estudio, son a diferentes distancias de microindentación, espesor de capa (en donde intervienen tiempo, temperatura y espesor de pasta del proceso de borurización), el tipo de acero y la carga utilizada en cada prueba experimental de microindentación tipo Vickers.
Los datos experimentales de KIC, obtenidos por el modelo empírico, propuesto por A.
Balankin e I. Campos, fueron utilizados en el entrenamiento y validación de las RNA´s descritas en este capítulo.
Por otro lado, se concluye que para la implementación de las RNA’s, es imprescindible
escoger el modelo de red que más se adecue a la resolución del problema (en este caso MLP y RBFN son modelos de red tipo aproximación), al número de muestras que se tienen y al error esperado.
Así mismo, es importante la elección de las Funciones de activación que se van a
utilizar en el modelo de red seleccionado. El MLP, debido al uso de Funciones de
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
59
activación sigmoidal, construye relaciones globales entre los datos de entrada y salida disponibles, esto ocasiona que el aprendizaje de la red sea lento, pues el cambio en un solo peso de la red provoca cambios en la salida para todos los patrones de entrada. Mientras que en la RBFN, cada neurona oculta se especializa en una determinada región del espacio de entrada y se construye una aproximación local en dicha región; esto hace que el aprendizaje sea más rápido, ya que el cambio en un solo peso de red afecta únicamente a la neurona oculta asociada a dicho peso y, por tanto, a un determinado grupo de patrones de entrada, los pertenecientes a la clase que representa la neurona oculta en cuestión.
En muchos casos, sin embargo, ocurre que para poder construir una aproximación
mediante la suma de aproximaciones locales se requiere un alto número de neuronas ocultas, que fue en este caso de 5,000 neuronas en la capa oculta de la RBFN.
Finalmente, para ambas redes, el número de neuronas de entrada y de salida está
determinado por la cantidad de variables que definen el problema y, a pesar de que actualmente hay fórmulas para calcular el comportamiento de la red por capas, el mejoramiento y perfeccionamiento de una red se realiza, generalmente, por prueba y error. También hay que contemplar el tipo de regla de aprendizaje y utilizar un porcentaje de las muestras para el entrenamiento y otro para la valoración de la red creada.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 3 CONSTRUCCION DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
60
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 4 ANALISIS Y DISCUSION DE RESULTADOS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
61
CCCaaapppííítttuuulllooo 444
AAANNNAAALLLIIISSSIIISSS YYY DDDIIISSSCCCUUUSSSIIIOOONNN DDDEEE RRREEESSSUUULLLTTTAAADDDOOOSSS
En este capítulo se analizan y discuten los resultados obtenidos en el capítulo 3, explicándose el error obtenido en cada etapa de la red y el por qué se obtuvo el error menor a lo establecido en los objetivos planteados al inicio del trabajo (5% como máximo) y cuál fue la RNA ideal.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 4 ANALISIS Y DISCUSION DE RESULTADOS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
62
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 4 ANALISIS Y DISCUSION DE RESULTADOS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
63
4.1. ANÁLISIS Y DISCUSIÓN DE RESULTADOS
Una vez desarrolladas y entrenadas ambas RNA’s, con las respectivas muestras de los aceros borurados AISI 1045, AISI 1018 y AISI M2, se corroboran los datos que genero la red con los conjuntos de entrenamiento y de validación (ver figuras 4.1 y 4.2).
En la etapa de entrenamiento de las 3 RNA’s desarrolladas, el comportamiento de los
valores generados de KIC en el conjunto de muestras introducidas para dicha etapa son muy similares a los datos de KIC obtenidos a partir de las ecuaciones (3.1) y (3.2). Observando que la RNA con el menor error fue la RBFN-MLP: 3.05% (figura 4.1).
Figura 4.1. a) Gráfica comparativa de la información generada de KIC obtenida por el MLP con la KIC deseada del conjunto de entrenamiento. b) Gráfica comparativa de la información generada de KIC obtenida por la RBFN con la KIC
deseada del conjunto de entrenamiento. c) Gráfica comparativa de la información generada de KIC obtenida por la EBFN-MLP con la KIC deseada del conjunto de entrenamiento.
0
1
2
3
4
5
6
7
8
9
0 10 20 30 40 50 60 70 80
KIC
(MP
a·m
½)
Número de Muestra
K deseadaRBFN-MLP
IC
0
1
2
3
4
5
6
7
8
9
0 10 20 30 40 50 60 70 80
KIC
(MP
a·m
½)
Número de Muestra
K deseadaRBFN
IC
0
1
2
3
4
5
6
7
8
9
0 10 20 30 40 50 60 70 80
KIC
(MP
a·m
½)
Número de Muestra
K deseada
MLPIC
(a) (b)
(c)
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 4 ANALISIS Y DISCUSION DE RESULTADOS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
64
En la figura 4.2 se observa la salida deseada para el conjunto de validación, comparada con la información generada por las RNA’s al finalizar el entrenamiento.
Figura 4.2. a) Gráfica comparativa de la información generada de KIC obtenida por el MLP con la KIC deseada en el conjunto de validación. b) Gráfica comparativa de la información generada de KIC obtenida por la RBFN con la KIC
deseada en el conjunto de validación. c) Gráfica comparativa de la información generada de KIC obtenida por la EBFN-MLP con la KIC deseada en el conjunto de validación.
El último paso consistió en la etapa de producción, en donde se introducen
únicamente los datos de entrada a las RNA’s para que la red genere la información del valor de tenacidad a la fractura, KIC (ver figura 4.3).
0
1
2
3
4
5
6
7
8
9
10
0 10 20 30 40 50
KIC
(MP
a·m
½)
Número de Muestra
K deseada
MLPIC
0
1
2
3
4
5
6
7
8
9
10
0 10 20 30 40 50
KIC
(MP
a·m
½)
Número de Muestra
K deseada
RBFN
IC
0
1
2
3
4
5
6
7
8
9
10
0 10 20 30 40 50
KIC
(MP
a·m
½)
Número de Muestra
K deseada
RBFN-MLP
IC
(a) (b)
(c)
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 4 ANALISIS Y DISCUSION DE RESULTADOS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
65
Figura 4.3. a) Gráfica comparativa de la información generada de KIC obtenida por el MLP con la KIC deseada en la etapa
de producción de datos. b) Gráfica comparativa de la información generada de KIC obtenida por la RBFN con la KIC deseada en la etapa de producción de datos. c) Gráfica comparativa de la información generada de KIC obtenida por la
EBFN-MLP con la KIC deseada en la producción de datos.
La tabla 4.1 muestra una comparación de los resultados obtenidos en las tres RNA’s. En dicha tabla se observa que el porcentaje de error más bajo se obtuvo en el RBFN-MLP, el cual fue de 4.14% en el conjunto de validación. Cabe mencionar que a pesar de que el error de entrenamiento más bajo obtenido (red RBFN-MLP) fue de 3.05%, se toma en cuenta el error de la validación ya que es el que determina el que se obtendrá en la producción de datos.
Algunos factores que intervinieron para obtener porcentajes de error bajos fueron el
número de capas ocultas y el número de neuronas contenidas en cada capa oculta. Cabe señalar que, para el caso del MLP, mayor número de capas ocultas generará mayor exactitud en el resultado obtenido. En el caso de la RBFN, la exactitud del resultado obtenido depende del número de elementos en su única capa oculta.
0
1
2
3
4
5
6
7
8
9
10
0 5 10 15 20 25 30
KIC
(MP
a·m
½)
Número de Muestra
K deseada
MLPIC
0
1
2
3
4
5
6
7
8
9
10
0 5 10 15 20 25 30
KIC
(MP
a·m
½)
Número de Muestra
K deseada
RBFNIC
0
1
2
3
4
5
6
7
8
9
10
0 5 10 15 20 25 30
KIC
(MP
a·m
½)
Número de Muestra
K deseada
RBFN-MLP
IC
(a) (b)
(c)
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CAPITULO 4 ANALISIS Y DISCUSION DE RESULTADOS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
66
Sin embargo, para la RBFN-MLP es todavía más importante el número de elementos en cada capa oculta que la cantidad de capas ocultas que tenga la red, lo cual se refleja en el error del 4.14%.
Tabla 4.1. Tabla comparativa de los errores obtenidos en el MLP, RBFN y RBFN-MLP para los aceros borurados AISI 1045, AISI M2 y AISI 1018.
4.2. CONCLUSIONES
De acuerdo a lo expuesto en este capítulo, se concluye que para la implementación de
las redes neuronales es imprescindible escoger el modelo de red que más se adecue a la resolución del problema, al número de muestras que se tienen y al error esperado.
El MLP es un modelo RNA de tipo aproximación porque lo que se busca generar un
valor aproximado de algún parámetro, en este caso KIC de los aceros borurados AISI 1045, AISI 1018, AISI M2. Sin embargo, la RBFN es una buena opción para casos en los que no se tiene gran número de muestras como es este caso (74). Es por esta razón que al combinar ambos modelos de RNA’s el error generado fue mucho menor, ya que tanto el MLP y la RBFN son factibles para resolver problemas del mismo tipo, ambas poseen sus neurona agrupadas en capas y las conexiones están dirigidas hacia adelante, es decir, no son recurrentes.
Sin embargo, estos dos tipos de redes presentan también algunas diferencias:
El número de capas ocultas. Una única capa para la RBFN y tantas capas como se
desee para el MLP.
La distribución de los pesos. En la RBFN las conexiones de la capa de entrada a la
oculta no llevan pesos asociados.
La linealidad en la capa de salida. En la RBFN es indispensable una función lineal, en
tanto que en el MLP puede ser un axón simple.
La función de activación de las neuronas ocultas de la red. La RBFN está compuesta
de una función de Gauss y el MLP permite escoger la función que más se adecue
(anexo A). Esta última diferencia es la más importante.
RNA NO. DE CAPAS
OCULTAS
NO. DE ELEMENTOS
NO. DE MUESTRAS NO. DE CICLOS
MSE NMSE % ERROR
Entrenamiento Validación Entrenamiento Validación Entrenamiento Validación Entrenamiento Validación
MLP 3
1 30
74 49
15,569 0.011913 0.011913 0.078219 0.078219 5.135535 5.135535 2 20
3 30
RBFN 1 5000 211,423 0.000259 0.002599 0.004283 0.068259 3.298075 5.240541
RBFN Y MLP
3
1 500
52,910 0.001903 0.009305 0.007868 0.061093 3.053076 4.143595 2 20
3 30
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CONCLUSIONES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
67
CCCOOONNNCCCLLLUUUSSSIIIOOONNNEEESSS
En este apartado se presentan las conclusiones finales a través del desarrollo de esta investigación, recopilando las conclusiones desde el capítulo 1 hasta el capítulo 4.
También se justifica el cumplimiento de los objetivos
particulares, las metas establecidas al inicio de la investigación y la explicación del correcto funcionamiento del Sistema.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CONCLUSIONES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
68
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
CONCLUSIONES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
69
El MLP y la RBFN son tipos de redes con características similares, ya que ambas
contienen conexiones dirigidas hacia adelante y son aproximadores universales; la diferencia entre ambos modelos radica en el número de capas ocultas, la distribución de los pesos, el tipo de aprendizaje, el número de muestras necesarias para el entrenamiento y, la principal, la función de activación de las neuronas ocultas de la red.
El MLP puede contener las capas ocultas deseadas ocasionando que sea poco
probable que cada capa esté compuesta por muchas neuronas, en tanto que la RBFN está compuesta por una sola capa oculta con un número significativo de neuronas.
Debido a que el aprendizaje de la RBFN es de dos tipos, supervisado y no
supervisado, y el número de muestras que se necesitan para su entrenamiento no debe ser mayor a 150, el entrenamiento es más rápido, en comparación con el MLP que sólo utiliza entrenamiento supervisado y está diseñado para cuando se tiene un conjunto de muestras significativo.
El RBFN-MLP fue la red con mayor confiabilidad, ya que, aunque no se contaba con
un gran número de muestras. La RBFN es el modelo ideal cuando se entrena con un conjunto menor a 150. Y en el MLP, mientras mayor número de capas ocultas tenga, generará mayor exactitud en el resultado obtenido debido al número de elementos en la capa de entrada.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
REFERENCIAS BIBLIOGRAFICAS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
70
REFERENCIAS BIBLIOGRÁFICAS [1] Bertalanffy, Ludwing Von, Teoría General de los Sistemas. Fondo de Cultura
Económica. Decimoquinta reimpresión, Octubre 2003. pp. 311. [2] Francois Charles, Sistémica y Cibernética: Elementos de la Complejidad.
http://www.tendencias21.net/Sistemica-y-Cibernetica,-elementos-de-lacomplejidad_a924.html. (15-01-2006).
[3] Grupo de Estudio de Sistemas Integrados (GESI). http://www.intelligentsystems.com.ar/GESI/gesiTGS.html. (17-01-2006). [4] Arnold Marcelo y Osorio Francisco. Introducción a los conceptos básicos de la
Teoría General de Sistemas. Departamento de Antropología, Universidad de Chile. http://www.moebio.uchile.cl/03/frprinci.htm. (15-01-2006).
[5] Teoría General de Sistemas.
http://www.aprendizaje.com.mx/TeoríaSistemas. (15-01-2006). [6] Salinas, Carlos. Teoría General de los Sistemas.
http://usuarios.iponet.es/ddt/l12-neutro.htm. (17-01-2006). [7] P. Van Gigch John, Teoría General de Sistemas Ed. Trillas pp. 578. [8] Rincón, Juana. Concepto de Sistema y Teoría General de Sistemas.
http://members.tripod.com/~gepsea/sistema.htm. (19-01-2006). [9] D.R. SANLOZ holonic. Teoría General de Sistemas, pensamiento holónico.
http://www.geocities.com/sanloz.geo/holones.html. (19-01-2006). [10] Arnold Marcelo y Osorio Francisco. Teoría General de Sistemas.
http://www.inf.udec.cl/~tgs/docs/moebio.pdf. (20-01-2006). [11] Blochm, Roberto. Del Caos al Orden.
http://www.enfasis.com/logistica/historiadeldetalle.asp. (15-01-2006). [12] Ing. María Paz Gpe. Acosta Q.Metodologia de Jenkins.
http://www.itson.mx/dii/mpacosta/archivos/Metodologia_de_Jenkins.doc. (17-01-
2007). [13] WINSTON, Patrick H., Inteligencia Artificial. Addison-Wesley Iberoamericana, 3ª
ed., 1994. [14] José R. Hilera y Víctor J Martínez, “Redes Neuronales Artificiales”, 2000.
Alfaomega. Madrid. España. [15] S. Y. Kung, “DIGITAL Neural Networks", 1993. PTR Prentice Hall, Inc. [16] Martín Bonafio, “Redes neuronales y Sistemas Difusos”, Madrid, Ediciones
Alfaomega, 2001.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
REFERENCIAS BIBLIOGRAFICAS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
71
[17] Montaño Moreno Juan José, “Redes Neuronales Artificiales aplicadas al Análisis de Datos”, Universitat De Les Illes Balears Facultad de Psicología, Palma De Mallorca, 2002 Tesis doctoral.
[18] Horacio Paggi, “Predicción de series de datos utilizando redes neuronales”,
Montevidel Uruguay, 2003, Instituto De Computación, Universidad De La República, Tesis De Maestria.
[19] Manuel F. González Penedo, Redes de Base Radial.
http://www.lfcia.org/~cipenedo/cursos/scx/archivospdf/Tema5-6.pdf. [20] Giselle Ramírez Sandoval, “Caracterización De Grietas Auto-Afines En Capas
Borurizadas Para Aceros Estructurales AISI 1045” Tesis de maestría, Instituto Politécnico Nacional, 2006.
[21] José R. Hilera y Víctor J Martínez, “Redes Neuronales Artificiales”, 2000.
Alfaomega. Madrid. España. [22] S. Y. Kung, “Digital Neural Networks", 1993. PTR Prentice Hall, Inc. [23] Martín Bonafio, “Redes Neuronales y Sistemas Difusos”, Madrid, Ediciones
Alfaomega, 2001.
[24] Manual Neurodimentions, Neurosolutions.
http://www.nd.com.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
RECOMENDACIONES PARA TRABAJOS FUTUROS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
72
RRREEECCCOOOMMMEEENNNDDDAAACCCIIIÓÓÓNNNEEESSS PPPAAARRRAAA TTTRRRAAABBBAAAJJJOOOSSS FFFUUUTTTUUURRROOOSSS
a) Aplicación de técnicas alternativas de inteligencia artificial (lógica difusa, técnica de clusters, algoritmos genéticos) para la determinación de la tenacidad a la fractura en aceros borurados empleados en la industria metal-mecánica. b) Modificación de las redes neuronales planteadas en el presente proyecto de investigación, considerando parámetros experimentales alternos e independientes en la evaluación de KIC en las capas de boruros de hierro. El planteamiento podría consistir en introducir parámetros de entrada como el tiempo y la temperatura de borurización, siendo variables no consideradas en la técnica de fractura por microindentación, y confrontar los valores de KIC obtenidos de la red neuronal con modelos de agrietamiento propuestos por otros autores. c) Elaboración de un algoritmo de programación para la construcción de una red neuronal para la optimización y automatización del proceso de borurización, tomando en cuenta las diferentes condiciones experimentales del proceso y las diversas formas de caracterización de las fases boruradas creadas en la superficie aleaciones ferrosas.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
73
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
74
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO A FUNCIONES DE ACTIVACIÓN
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
75
ANEXO A FUNCIONES DE ACTIVACIÓN Tabla 1. Principales Funciones de activación para las RNA’s.
FUNCIÓN GRÁFICA
Sigmoidal f1 x =1
1+e-x
Figura 1.3. Función de activación Sigmoidal.
Tangente hiperbólica f2 x =
1-e-x
1+e-x
Figura 1.4. Función de activación Tanhl.
Escalón
f3 x = 1 si x≥0
0 si x<0
y/o
f3 x = 1 si x≥0
-1 si x<0
Figura 1.5. Función de activación Escalón.
Lineal o identidad
f4 x =x
Figura 1.6. Función de activación Identidad.
Mixta f5 x = b si x≤b+θi
x-θi si b+θi<x<B+θi
B si x≥B
Figura 1.7. Función de activación Mixta.
Gaussiana ∅1 r =e-r2
2
Figura 1.8. Función de activación Gaussiana.
Inversa Cuadrática ∅2 r =
1
1-r2
Figura 1.9. Función de activación Inversa Cuadrática.
Inversa Multi-cuadrática
∅3 r =1
1-r2
Figura 1.10. Función de activación Inversa Multicuadrática.
REFERENCIAS BIBLIOGRAFICAS Martín Bonafio, “Redes neuronales y Sistemas Difusos”, Madrid, Ediciones Alfaomega, 2001. Manual Neurodimentions, Neurosolutions http://www.nd.com José R. Hilera y Víctor J Martínez, “Redes Neuronales Artificiales”, 2000. Alfaomega. Madrid, España.
x
f(x)
x
f(x)
x
f(x)
f(x)
x
x
f(x)
x
f(x)
x
f(x)
x
f(x)
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO B MODELOS DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
76
ANEXO B MODELOS DE REDES NEURONALES ARTIFICIALES
Tabla 1.2. Características de tipos de redes neuronales más importantes.
RED ESTRUCTURA APLICACION DESCRIPCIÓN LIMITACIONES CREADOR
Avalancha (1967)
Reconocimiento de habla continua.
Control de Brazos
Ninguna red sencilla puede hacer todo esto
No es fácil alterar la velocidad o interpolar el movimiento
Stephen Grossberg
Figura. 1.13. Red Avalancha.
ART Teoría de
Resonancia Adaptativa
(1986)
Reconocimiento de Patrones
(radar, sonar, etc.)
Sofisticada. Poco utilizada
Sensible a la translación,
distorsión y escala
Gail Carpenter, Stephen
Grossberg
Figura. 1.14. Red ART.
Adaline/ Madaline
(1960)
Filtrado de señales.
Ecualizador adaptativo, módems
Rápida, fácil de implementar con
circuitos analógicos
Sólo es posible clasificar espacios
linealmente separados
Bernand Widrow
Figura. 1.15. Red Adaline/Madaline.
Multicapa (1974-1986)
Síntesis de voz desde texto. Control de
robots. Predicción.
Reconocimiento de patrones.
Red más popular. Numerosas
aplicaciones con éxito. Facilidad de
aprendizaje Potente
Necesita mucho tiempo para el aprendizaje y
muchos ejemplos
Paul Werbos, David Parker,
David Rumenhart
Figura. 1.16. Perceptrón Multicapa.
Memoria Asociativa
bidireccional (1985)
Memoria heteroasociativa de acceso por
contenido
Aprendizaje y arquitectura
simples
Baja capacidad de almacenamiento. Los datos deben ser codificados
Bart Kosko
Figura. 1.17. Red de Memoria Asociativa Bidireccional.
Maquina de Boltzmann y
Cauchy (1985-1986)
Reconocimiento de patrones (imágenes,
sonar y radar). Optimización
Redes simples. Capacidad de representación
optima de patrones
Necesita un tiempo muy largo de aprendizaje
Jeffrey hinton, terry
sejnowski, harold szu.
Figura. 1.18. Máquina de Bolzmann.
Figura. 1.19. Máquina de Cauchy.
… …
… …
…
…
…
…
…
…
…
…
…
…
…
…
… …
…
… …
… …
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO B MODELOS DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
77
Tabla 1.2. Características de tipos de redes neuronales más importantes.
RED ESTRUCTURA APLICACION DESCRIPCIÓN LIMITACIONES CREADOR
Brain-State-in-a-Box
(1977)
Extracción de conocimiento de bases de
datos
Posiblemente mejor realización que las redes de
Hopfield
Aplicaciones no estudiadas totalmente
James Anderson
Figura. 1.20. Brain-State-in-a-Box.
Cerebellatron (1969)
Control de movimiento de los brazos de
un robot
Semejante a Avalancha
Requiere complicadas
entradas de control
David Marr, James Albus,
Andrés Pellionez
Figura. 1.21. Red Cerebellatrum (Cerellum).
Counter-propagation
(1986)
Comprension de imágenes
Combinación de Perceptron y
mapas de Kohonen
Numerosas neuronas y conexiones
Robert Hecht-Nielsen
Figura. 1.22. Brain-State-in-a-Box
Hopfield (1982)
Reconstrucción de patrones y optimización
Fácil de conceptualizar
Capacidad y estabilidad
John Hopfield.
Figura. 1.23. Red Hopfield.
Neocognitron (1978-1984)
Reconocimiento de caracteres manuscritos
Insensible a traslación rotación
y escala
Requiere muchos elementos de
proceso, niveles y conexiones
K. Fukushima.
Figura. 1.24. Red Neocognitrón.
Perceptron (1957)
Reconocimiento de caracteres
impresos La red más antigua
No puede reconocer caracteres complejos
Frank Rosenblat
Figura. 1.25. Perceptrón.
Mapas auto-organizativos de Kohonen (1980-
1984)
Reconocimiento de patrones,
codificación de datos,
optimización
Realiza mapas de características comunes de los
datos aprendidos
Requiere mucho entrenamiento
Teuvo Kohonen
Figura. 1.26. Mapas de Kohonen.
…
…
…
…
…
…
…
••••• • •
••••• • •
••••• • •
••••• • •
••••• • •
••••• • •
••••• • •
••••• • •
••••• • •
••••• • •
••••• • •
••••• • •
••••• • •
••••• • •
••••• • •
… …
o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o
…
. . . . . . . . . . . . …
. . . . . . . . . . . .
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO B MODELOS DE REDES NEURONALES ARTIFICIALES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
78
Tabla 1.2. Características de tipos de redes neuronales más importantes.
RED ESTRUCTURA APLICACION DESCRIPCIÓN LIMITACIONES CREADOR
Red de Neuronas de Base Radial (1985-1988)
- Aproximación Funcional
- Reconocimiento
de patrones
Interpretación matemática
directa, realizar una buena
inicialización de los pesos de la red,
acelera el proceso de aprendizaje.
Estima la salida
El procesamiento realizado es algo
más complejo que en el caso del
perceptrón multicapa
M.J.D. Powell D.S.
Broomhead y D. Lowe
Figura. 1.27. Red de Neuronas de Base Radial.
Red de Ligaduras
Funciónales (1988)
- Aproximación Funcional
- Reconocimiento
de patrones
Sólo consta de dos capas de
elementos de proceso
Entrenamiento muy rápido
Es difícil identificar las Funciones de
las ligaduras Y.H. Pao
Figura. 1.28. Red de Ligadoras Funciónales.
Perceptrón Multicapa
Recurrente (1987)
- Control -
Reconocimiento del habla
- Predicción de secuencias
Capaz de tratar información
temporal
Estructuras muy complicadas. El
aprendizaje puede resultar muy
difícil
Almeida Pineda
Figura. 1.29. Perceptrón Multicapa Recurrente.
Red de Retardos
Temporales (1987)
Reconocimiento del habla
Reconocimiento con una rapidez de
proceso mucho mayor
La ventana temporal es de
tamaño fijo
D.W. Tank y J.J. Hopfield K.J. Lang y G.E. Hinton
Figura. 1.30. Red de Retardos Temporales.
REFERENCIAS BIBLIOGRAFICAS Martín Bonafio, “Redes neuronales y Sistemas Difusos”, Madrid, Ediciones Alfaomega, 2001. José R. Hilera y Víctor J Martínez, “Redes Neuronales Artificiales”, 2000. Alfaomega. Madrid, España.
…
…
… …
…
…
…
… …
…
f1
f2
f3
…
…
…
…
…
…
…
…
…
… …
…
…
…
…
…
…
…
…
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO C BORURIZACIÓN
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
79
ANEXO C BORURIZACIÓN
Un tratamiento superficial se define como un procedimiento, cuyo objetivo es cambiar las propiedades mecánicas de la superficie de una pieza, lográndose por diversas técnicas, ya sea por remoción, recubrimiento de conversión, deposición, recubrimientos orgánicos y tratamientos térmicos superficiales [1].
Existen dos métodos de tratamientos térmicos en la ingeniería de superficies. El primero es el endurecimiento superficial selectivo, el cual consiste en calentar áreas limitadas sin llegar a producir cambios químicos. Existen diferentes técnicas para realizar endurecimiento. El segundo método de endurecimiento es el tratamiento termoquímico, el cual se caracteriza por cambios en la composición y propiedades sobre la superficie del material por medio de la difusión de algún elemento que la distorsione, pudiendo ser estos elementos carbono, nitrógeno y boro [2].
La abrasión y la adherencia son las formas de desgaste principales en componentes ingenieriles de aplicaciones
industriales. Los aceros borurados son extremadamente resistentes a la abrasión a causa de su superficie extremadamente dura. Por lo tanto, la borurización es el proceso termoquímico de superficie en el cual los átomos de boro son difundidos en la superficie de un acero; fundiendo el boro con la base del material, se satura de boro en la superficie del metal y con esto se eleva la dureza, la resistencia al desgaste, abrasión y corrosión en dichos materiales [2].
Con este proceso se puede lograr alta dureza en aceros con aleaciones, el material borurado aumenta su resistencia a
temperaturas criticas y a exposición a ácidos, así mismo, este proceso se puede aplicar en materiales que ya fueron previamente tratados, y se puede utilizar en un área específica del material que se requiera endurecer y en superficies irregulares [2].
Todos los materiales ferrosos, como el acero estructural, los aceros grado maquinaria, los aceros grado herramienta,
aceros colados, los hierros y aceros sinterizados, y materiales no ferrosos, como el níquel, tungsteno, molibdeno, cobalto y titanio, son propicios a ser borurados [3].
Debido a que la capa borurada es la que está sujeta al desgaste, y no el sustrato, éste debe coincidir en su
composición con los siguientes puntos:
Ser extremadamente duro y resistente al desgaste.
Tratable térmicamente.
Tener las características necesarias como alta dureza y, por consiguiente, alto esfuerzo de fluencia para resistir la aplicación de altos esfuerzos.
Una gran variedad de aleaciones ferrosas pueden ser tratadas con boro y esto da una gran ventaja al proceso, ya que se obtienen aceros de mejor calidad para diversas aplicaciones como en las industrias del vidrio, textil y del plástico. Se utilizan aceros estructurales, aceros templados y revenidos, aceros herramienta, inoxidables, así como hierros de fundición. La figura 1 presenta las secciones transversales de aceros borurados estructurales, aceros borurados AISI 1045 y AISI M2 a la temperatura de 1000°C con tiempo de tratamiento de 6 horas y espesores de pasta de boro de 3 y 4 mm, respectivamente, que rodeó la superficie del sustrato al inicio del tratamiento termoquímico [4].
La morfología de las capas es aserrada, en donde el grado de aserración entre la capa y el substrato depende
esencialmente de la cantidad de elementos aleantes que contiene el material, generalmente los aceros de baja y media aleación, generan capas de mayor aserración, en comparación con los aceros de alta aleación, cuyos frentes de crecimiento de las fases boruradas tienden a ser planos [4].
(a) (b)
(c) (d)
Figura 1. Sección transversal de muestras borurizadas (aceros borurados AISI 1045 y AISI M2) tratados a 1000°C con 6 h de tratamiento con espesores de pasta de boro de (a)-(b) 3 mm y (c)-(d) 4 mm (Cortesía Dr. Iván E. Campos, IPN SEPI-ESIME Zacatenco).
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO C BORURIZACIÓN
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
80
El mecanismo de formación y crecimiento de las fases FeB y Fe2B en hierro ARMCO y aceros de baja y alta aleación
ha sido establecido por C. Martini et al [5]. Su estudio establece que el crecimiento de la fase FeB en la parte más superficial de la muestra, se da como consecuencia de la transformación de cristales de Fe2B que se encuentran en esa zona, además de los altos potenciales de boro sobre la superficie. Conforme los tiempos y temperaturas de tratamiento aumentan, las regiones de FeB se hacen mucho más profundas, y crecen a partir de cristales compactos y orientados de Fe2B. El crecimiento de las fases se da preferencialmente sobre el plano, aumentando el esfuerzo mecánico sobre la interfase FeB/Fe2B. En el caso de aceros de alta aleación, el crecimiento de las fases boruradas se da en la misma orientación (002), donde la presencia de los elementos aleantes genera interfases con frentes planos en comparación con aceros de baja aleación y hierro puro, cuyas interfases son aserradas.
Los elementos de aleación, en aceros aleados, se introducen en forma sustitucional y tienden a concentrarse en los
extremos de las aserraciones de la capa del boruro formado, reduciendo el flujo de boro activo en esa zona y disminuyendo la columnaridad de los frentes generados en la interfase Fe2B/substrato. El mismo fenómeno se presenta en la interfase FeB/Fe2B.
La borurización es un método que incrementa considerablemente las propiedades mecánicas, físicas y químicas de la superficie de materiales expuestos a dicho proceso. En la tabla 1 se muestran algunas de las aplicaciones industriales para diferentes tipos de aceros borurados.
Tabla 1. Aplicaciones industriales de diferentes aceros borurados [5].
ACERO APLICACIÓN
1015 Ejes, engranes y diversos elementos de maquinaria
1045 Pernos y discos abrasivos
4140 Pistones
E52100 Cojinetes y guías
D2, D3 Bujes y herramientas para estampado
H11, H13 Herramientas para moldes de inyección
L6 Pernos y dados para forja
O2, O7 Rodillos para grabados
302, 316 Partes para la industria química y textil
410 Moldes
BORURIZACION POR PASTA
La borurización por pasta es un proceso empleado para endurecer superficialmente secciones específicas de una
pieza. La aplicación de la pasta se facilita modificando su viscosidad, sin alterar el efecto de difusión de boro, al añadir un máximo de agua entre el 10 y 20% de la masa total [6]. La reducción del trabajo manual y selectividad del proceso permiten elevar los índices de producción en la industria.
La composición química de la pasta es B4C con 76% de peso en boro y un activador Na3AlF6 (criolita). El rango de
temperaturas para llevar a cabo el tratamiento se encuentra entre los 850 y 1050ºC, si se exceden estos límites, se produce una fusión en la superficie del material, particularmente en aceros de alta aleación. Se requiere una atmósfera inerte de argón o una combinación de nitrógeno con hidrogeno en una proporción 90:10 ó 95:5 para garantizar la formación de boruros y evitar la oxidación de la muestra [7]. El potencial de boro puede ser controlado con el espesor de pasta en la superficie de la muestra, siendo recomendado un espesor entre 1.5 y 3 mm de espesor [7]. En un horno convencional, el tiempo de tratamiento puede estar en un rango de 1 a 12 horas, pero si el calentamiento es por inducción el tiempo puede reducirse de 5 a 15 minutos [8,9]. Bajo las mismas condiciones de tratamiento (tiempo y temperatura), las capas producidas por gas son más pequeñas que las obtenidas por pasta, en general, representa un 50% de reducción en tiempo de tratamiento.
La borurización en pasta es un método alternativo de preparación de las muestras cuando se requiere reducir el
trabajo manual utilizado en la borurización en polvo, además su ventaja radica en altos volúmenes de trabajo y en tratamientos selectivos [9].
De acuerdo con el diagrama de fases Fe-B (figura 2), el recubrimiento formado puede constar de boruro rómbico FeB
con un contenido de boro aproximado del 16% en peso (cuyas dimensiones de la celda unitaria son a=0.4053 nm, b=0.5495 nm, c=0.2946 nm) y boruro tetragonal Fe2B con un contenido de boro aproximado del 9% en peso (los parámetros de celda son de a=0.5978 nm y c=0.4249 nm), que forman cristales columnares característicos cuyo crecimiento se da preferencialmente en la dirección cristalográfica, debido a que la densidad de los átomos de boro es máximo a lo largo de esta dirección [21,22]. El recubrimiento formado depende del potencial de boro que rodea a la muestra, en donde se ha establecido que con potenciales de boro bajos a intermedios se da un crecimiento preferencial de la fase Fe2B [22]. La formación de la fase FeB requiere de un alto potencial de boro, aunado con la influencia de los elementos de aleación que contiene el acero, especialmente con cantidades altas de cromo, niquel y carbono [13].
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO C BORURIZACIÓN
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
81
Figura 3. Diagrama de fases Hierro–Boro [11].
FRACTURA POR MICROINDENTACIÓN Las pruebas por indentación representan una herramienta potencial para la medición de parámetros intrínsecos de
fractura en materiales sólidos, en particular, información básica de su energía de superficie, constantes de velocidad de fractura y factores de distribución de flujo, los cuales son extraídos de datos experimentales. Durante mucho tiempo, la mecánica de fractura por indentación estuvo dirigida a la configuración de la grieta generada por indentadores esféricos, también conocida como fractura cónica de Hertzian [12], debido a que el área de contacto previa a la fractura es predominantemente elástica. Por el contrario, los indentadores piramidales y cónicos (conocidos como “agudos”) producen patrones de fractura más complejos, pues están limitados a flujos irreversibles cerca del punto de contacto y sirven como precursores para el crecimiento de grieta. Sin embargo, para analizar situaciones de contacto real, donde la prioridad es el daño superficial, como es el caso de los materiales cerámicos opacos, se recomienda la aplicación de indentadores agudos [12,23]. Por lo tanto, se requiere examinar el comportamiento del campo de esfuerzos al inicio, durante y al final de la aplicación de la carga, con el fin de visualizar físicamente el proceso de propagación de la grieta.
Campo de esfuerzos para un indentador agudo
En esta sección se analiza el campo de esfuerzos producido en la zona de contacto, el cual depende predominantemente de la forma del indentador. Boussinesq [13] propuso la solución del campo de esfuerzos para un espacio medio linealmente elástico sometido a una carga normal P (la figura 4(a)). En aplicaciones reales, el punto de
contacto puede ser ajustado elástica o plásticamente en un área diferente a 0 y con una dimensión lineal de αb. Posteriormente, el campo puede ser caracterizado por dos valores escalares: el espacial y la intensidad. El primero está
dado por la dimensión αb y el segundo por la presión de contacto p0=
P
α0αb2, donde α0 es una constante geométrica
adimensional, para un contacto circular α0=π. La deformación inelástica alivia altas concentraciones de esfuerzos cerca del punto de indentación, distribuyendo la carga en un área de contacto de α0>0; por lo tanto, la distribución de esfuerzos en un campo elástico y lejano del punto de origen se representa con la siguiente ecuación,
ζij
P0
=α0 αb
ρ
2
fij ∅ v ρ≫αb
(1)
La ecuación (1) se encuentra en coordenadas esféricas (ρ,θ,) donde fij ∅ es una función definida por la relación de
Poisson. (a) (b)
Figura 4. a) Trayectorias de campos de esfuerzos Boussinesq para contacto puntual y con singularidad en la magnitud del esfuerzo; b) Contornos de los esfuerzos principales [12].
σij
P0
=α0 αb
ρ
2
fij ∅ v αb→0 ∴ ρ→0
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO C BORURIZACIÓN
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
82
Las gráficas de la figura 4(b) representan los esfuerzos normales principales en el campo Boussinesq: a) trayectorias (tangentes que denotan dirección); b) contornos (puntos que denotan magnitud). Estos esfuerzos también son definidos
como ζ11≥ζ22≥ζ33 donde: ζ11 está sometido a tensión en todos los puntos del campo, teniendo su máximo en ∅=0 y a lo
largo del eje de contacto ∅=π
2 está en tensión por debajo de la superficie; ζ33 en cualquier punto está sometido a
compresión. Generalmente, las grietas de los materiales frágiles se propagan en trayectorias donde existe mayor tensión, si esta tensión se suprime justo por debajo del punto de contacto, el material tenderá a deformarse irreversiblemente dejando esfuerzos residuales y creando una impresión plástica. Este efecto sucede cuando se utilizan indentadores agudos, físicamente se evita la singularidad en la magnitud del esfuerzo producida por un indentador esférico. Para simplificar el análisis elasto-plástico se asume una simetría esférica en el campo de deformación y se evita el empleo de indentadores cónicos o piramidales con ángulos muy pequeños, los cuales producen formas muy irregulares en la zona plástica [13, 23].
Los indentadores piramidales de diamante, Vickers y Knoop, producen dos tipos de patrones de fractura en la
superficie del material: radiales y laterales. La evolución de estas fracturas (figura 5) es de la siguiente forma: a) la punta induce a una deformación inelástica e irreversible; b) cuando se alcanza una carga crítica, la zona de deformación se vuelve inestable con la aparición de defectos y comienzan a surgir grietas radiales en los planos medios de tensión por debajo de la superficie; c) con el incremento de carga la grieta se propaga inmediatamente hacia abajo; d) en la descarga, las grietas radiales comienzan a cerrarse, pero simultáneamente comienzan a abrirse en la superficie del material dentro de la zona de tensiones residuales, esto es conforme el punto de contacto recupera su componente elástica; e) justo antes de remover el indentador, el campo residual se vuelve dominante produciendo una expansión en la superficie esférica, generando el segundo sistema de falla conocido como grietas laterales; y f) la expansión de ambas grietas continua hasta que se remueve por completo la carga [13-23]. Una vez descrita la propagación física de la grieta, se procederá a la obtención de ecuaciones que se emplearan para el cálculo de la tenacidad a la fractura en la fase Fe2B.
Figura 5. Sistema de formación de grietas superficiales radiales y laterales [17].
Mecánica de la fractura para indentadores agudos
El crecimiento de la grieta se cuantifica en función de dos variables importantes: la carga P y la dimensión de la grieta c.
Asimismo, es necesario obtener un criterio de fractura, y como se observó en la sección anterior, no es suficiente postular que la grieta se propagará cuando el espécimen exceda un esfuerzo crítico, debido a la presencia de esfuerzos residuales que intervienen en el proceso. Por lo anterior, Lawn et al [23] postula dos condiciones básicas: el equilibrio termodinámico, basado en la ecuación de Griffith; y la cinética en la función de velocidad de fractura.
En la Mecánica de la Fractura Lineal Elástica (MFLE), existen tres sistemas de carga para evaluar el campo de
esfuerzos en la punta de la grieta: el modo I (apertura), el modo II (corte) y el modo III (desgarre) [14]. El objetivo principal es determinar el factor de intensidad de esfuerzos, de acuerdo a la norma establecida ASTM 399. Cada prueba se diferencia por el diseño geométrico de los especímenes y la forma de aplicar la carga. El modo I es el sistema más empleado en pruebas experimentales, debido a que requiere de menor energía para la propagación de la grieta.
El factor de intensidad de esfuerzos para un espécimen en modo I, con una carga ζA (figura 6), se define:
KI=ΨζAc1
2 (2)
donde Ψ es un factor geométrico adimensional, y c es el tamaño de grieta. Para un frente de grieta en forma recta, (figura 6), Ψ se define como,
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO C BORURIZACIÓN
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
83
Figura 6. Espécimen en modo I aplicando flexión cargada en tres puntos [14].
Ahora, si se considera un frente de fractura circunferencial (figura 7) en un espécimen de longitudes infinito, se obtiene:
Figura 7. Frente de fractura en forma circunferencial [13].
Lawn [13] plantea una analogía entre el modo I y las grietas radiales producidas por la aplicación de una carga con un indentador agudo (piramidal o cónico), con el fin de obtener el factor de intensidad de esfuerzos en un material linealmente
elástico. El autor propone, en el modo I (figura 8(a)), que la carga se distribuye sobre el plano de la grieta ζ1 x,0 =ζ1 x ; y en la grieta radial (figura 8(b)), la carga se aplica axialmente ζ1 ρ,0 =ζ1 ρ . Por lo tanto, el factor de intensidad de esfuerzos para especímenes infinitos se define como:
Kc=2 c
π
12
ζ1 x
c2-x2 1
2
c
0
dx
Modo I (3)
Kc=2
πc 1
2
ρζ1 ρ
c2-ρ2 1
2
c
0
dρ
Grietas radiales (4)
a) (b)
Figura 8. a) Probeta Modo I con la carga distribuida en el plano de la grieta; b) grieta radial con la carga aplicada axialmente [13].
Pero si el espécimen es semi-infinito, las ecuaciones se reducen a:
Ψ= 2𝜋
12
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO C BORURIZACIÓN
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
84
Kc=2𝛼𝐹
πc 1
2
Modo I (5)
Kc=2𝛼𝑃
πc 3
2
Grietas radiales (6)
donde α es un factor de corrección. De acuerdo a la ecuación (7), el factor de intensidad de esfuerzos para una configuración de grieta radial ideal generada por un indentador agudo es:
KR=χP
c3
2
, P>Pc≫αb
(7)
donde χ es una constante adimensional, c la dimensión de la grieta, P es la carga aplicada, Pc carga crítica, KR=KIC, y para
conservar la condición de equilibrio Pαc3
2
. En la figura 1.40 se muestran los resultados de un estudio realizado sobre un cerámico (vidrio) donde se comprueba que la carga es independiente del tamaño de la grieta.
Figura 9. Relación de equilibrio 23cPα, donde se demuestra que la carga es una variable independiente del tamaño de la grieta.
El coeficiente χ se obtiene del campo de esfuerzos residuales producidos por el acomodo del volumen generado por la impresión del indentador justo después de la descarga. Dicho acomodo se debe a la expansión de la zona plástica y la compresión de la matriz elástica, lo cual se puede analizar con la siguiente ecuación, [23].
χ=ξ0 cotΦ
23
E
H
23
(8)
donde Φ es la mitad del ángulo interplanar del indentador y ξ0 es una constante adimensional que depende de la naturaleza
de la deformación.
Finalmente, se calcula el coeficiente χ para un indentador piramidal tipo Vicker y se sustituye en la ecuación (9), dando como resultado la tenacidad a la fractura por microindentación [24],
KIC=0.028 E
H
12
P
c3
2
(9) Es importante mencionar las ventajas que reporta el análisis de la fractura por indentación con respecto a los procesos
convencionales, los cuales son: economía en el material por realizar numerosas pruebas en zonas muy pequeñas; reproducibilidad de resultados debido a la posibilidad de aplicar diferentes condiciones de prueba sobre la misma superficie; simplicidad en el método experimental con un soporte de instrumentos de medición estandarizados; finalmente, la posibilidad de realizar las pruebas en zonas muy específicas del material. Sin embargo, la mayor desventaja de este método es la falta de exactitud para acoplarse a la complejidad del campo de esfuerzos generado por la indentación, provocando en ocasiones que la constante de proporcionalidad de la ecuación de fractura tenga un factor de incertidumbre de 2 [12]..
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO C BORURIZACIÓN
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
85
Microindentación
El término 'microdureza' es realmente erróneo. No hay nada de 'micro' sobre la dureza de los materiales que se ensayan. Sólo el tamaño que resulta de las huellas es 'micro'. El término 'micro-indentación' de dureza sería quizás una mejor descripción.
La prueba de micro-indentación es la más generalizada para caracterizar mecánicamente los materiales. Eso se debe a
su coste reducido y a su facilidad de realización. Permite determinar la resistencia que el material va a oponer a la penetración de un indentador. La prueba consiste en presionar un indentador contra el material a probar.
Hay dos tipos de tipos predominantes de ensayos de microdureza. El primero es el método de ensayo de microdureza es el Knoop. Este método se desarrolló por el National Bureau of Standards (USA) en 1939. Se emplea un penetrador de diamante piramidal de base rómbica de geometría mostrada en la figura 10. El penetrador Knoop produce una huella relativamente poco profunda (1/30 de la longitud de de la diagonal mayor) cuando se compara con una carga realizada por penetrador Vickers.
Figura 10. Forma de la huella del indentador Knoop.
El segundo método es el de Vickers, que fue introducido en Inglaterra en 1925. La figura 11( a) muestra una típica
huella Vickers, el cual, usa un indentador de diamante en forma de pirámide, se puede hacer como ensayo de macro y microdureza.
(a) (b)
Figura 11. (a) Micrografía indentación Vickers a 1Kg hecha sobre BaTiO3, grietas radiales son claramente visibles.(b) Huella Vickers.
En la figura 12 se observan las indentaciones realizadas sobre un acero borurado mediante el método Vickers. Las
variables que influyen en la aplicación de la prueba de microdureza Vickers son las siguientes:
1. Carga aplicada. 2. Tiempo de aplicación de la carga. 3. Distancia entre cada indentación. 4. Alineación de la muestra con respecto al indentador.
Figura 12. (a) Esquema de la distribución de las indentaciones sobre la fase Fe2B
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO C BORURIZACIÓN
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
86
AGRIETAMIENTO TIPO PALMQVIST
La estructura de las grietas generadas puede verse en la figura. 13 de las diagonales de la impresión, en la superficie del material, surgen cuatro grietas en forma de cruz. Estas cuatro grietas forman el sistema de grietas llamado grietas radiales. Estas grietas se propagan debajo de la superficie en el plano central de la huella, dando continuidad a las grietas radiales enfrentadas dos a dos. A estas grietas se les denomina grietas medias. Adicionalmente, si la deformación plástica ha sido muy grande surgen grietas laterales, y son las responsables de que en algunas ocasiones se observe desconchamiento del material alrededor de la huella [23].
Figura 13. Propagación de la grieta.
Debajo de las indentaciones Vickers (figura 14(c)) se pueden encontrar dos geometrías de fisuras propagándose en los planos centrales debajo de la indentación: geometrías radiales o de Palmqvist (figura 14(a)) y geometrías medio-radiales o semicirculares (figura 16(b)). Ambas configuraciones no son más que un caso particular del segundo, cuando el nivel de carga es todavía bajo como para hacer crecer la grieta lo suficiente.
Figura 14. (a) Grietas Superficiales generadas con una punta Vickers, (a) Sección a lo largo de una diagonal a bajo nivel de carga. (b) Sección a lo largo de una diagonal de alto nivel. (c) Vista normal a la superficie [24].
La aparición de grietas en los ensayos de penetración fue observada por primera vez por Palmqvist trabajando en metales duros (Palmqvist 1957). Este fenómeno se consideró en principio como un inconveniente para poder medir la dureza de los materiales frágiles. No fue hasta la publicación del trabajo seminal de Lawn en 1957 cuando se utilizó para la determinación de la tenacidad de fractura en materiales cerámicos (Lawn y Fuller 1957). La idea básica del método consiste en relacionar la longitud de las grietas radiales generadas con el tamaño de la diagonal de la impresión, y la carga aplicada es
KI=XP
C3/2
(10)
Basados en esta relación, y teniendo en cuenta la geometría de las grietas, la zona plástica gener
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO C BORURIZACIÓN
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
87
ada debajo de la impresión, el rozamiento entre el indentador y el material, la estructura en que se generan las grietas, diversos autores han propuesto fórmulas cada vez más complejas para la determinación de la tenacidad a la fractura. El principal inconveniente es que todas estas expresiones precisan de una calibración empírica de la fórmula propuesta, a partir de los resultados obtenidos por otros métodos de medidas de la tenacidad para diversos materiales Esto puede inducir a graves confusiones, ya que si el método de medida de la tenacidad utilizando para la calibración no es adecuado, la expresión deducida puede no ser correcta. También, hay que tener en cuenta que el patrón de grietas obtenidas en el material debe ajustarse al propuesto por el modelo. En la tabla 1.4 se muestran las principales fórmulas propuestas, clasificadas según sean aplicables a geometrías de grietas del tipo Palmqvist, media-radial, o aplicables a ambas geometrías de forma general [25].
Tabla 1.4. Fórmulas normalizadas propuestas por distintos autores para la determinación de la tenacidad a la fractura [25].
Su uso se restringe a materiales muy frágiles: vidrios, cerámicas, monolasticas, cermets, No es un método científico sino que se basa en correlaciones obtenidas con la tenacidad medida por otros métodos. A partir de las esquinas de una indentación Vickers se producen grietas radiales que pueden ser de dos tipos REFERENCIAS BIBLIOGRAFICAS
[1] Gerardo Colmenares, CAPITULO 4 FUNCION DE BASE RADIAL Radial Basis Function (RBF).
http://webdelprofesor.ula.ve/economia/gcolmen/programa/redes_neuronales/capitulo4_funciones_bases_radiales.pdf.
[2] Especificaciones técnicas de la empresa Borotec GmbH www.borotec.de (2001). [3] I. Campos, G. Ramírez, U. Figueroa, J. Martínez, O. Morales, App. Surf. Sci. 253 (2007) 3469-3475. [4] C. Martini, G. Palombarini, M. Carbucicchio, Journal of Materials Science 39 (2004) 933-937. [5] G. Ramírez, I. Campos, A. Balankin. Fracture toughness of iron boride layers obtained by paste boriding process.
Proceedings of the Second International Conference on Diffusion in Solids and Liquids. Materials Science Forum. In press.
[6] G. Palombarini, G. Sambogna, M. Carbucicchio. Role of oxygen in iron boriding using boron carbide. Journal of Materials Science Letters. 12 (1999) pp 741 – 742.
[7] C. Martini, G. Palombarini, M. Carbucicchio, J. Mater. Sci. 39 (2004) 933-937. [8] G. Wahl, Durrferrit Paste Technical Information. Reprint from VDI-Z117, (1975) pp. 785-789. [9] A.K. Sinha, Boronizing, ASM Handbook, OH, USA, J. Heat Treat. 4 (1991) 437. [10] A. Graf von Matuschka: Boronizing, 1980, Carl Hanser Verlag, Munich, FRG. [11] Wahl G. Durferrit-Technical Information. Reprint from VDI-Z117 (1975), pp 785/789. [12] I. Campos, R. Torres, O. Bautista, G. Ramírez, L. Zúñiga, App. Surf. Sci. 252 (2006) 2396-2403. [23] I. Campos, O. Bautista, G. Ramírez, M. Islas, J. de la Parra, L. Zuñiga, App. Surf. Sci. 243 (2005) 429-436. [22] I. Campos, M. Islas, E. González, P. Ponce, Surf. Coat. Technol. 201 (2006) 2717-2723 [23] I. Uslu, H. Comert, M. Ipek, O. Ozdemir, C. Bindal. Evaluation of borides formed on AISI P20 steel. Materials and
Design. Article in press. [24] Pedro Morais, Propiedades mecánicas de las barreras térmicas.
http://biblioteca.universia.net/html_bura/ficha/params/id/3906625.html. [25] Jose Ygnacion Pastor Caño, Fractura de materials ceramicos estructurales avanzados Facultad de ciencias
departamentode fisica de materials Universidad commplutense de Madrid, Madrid 2003.
AUTOR ECUACION PARA EL CALCULO DE KC (MPa·M1/2
)
Niihara et al. 1982 0.0089 (E/Hv)2/5
P/(al)1/2
; 0.25≤l/a≤2.5
Niihara 1983 0.0122 (E/Hv)2/5
P/(al)1/2
; 1≤l/a≤2.5
Shetty et al.1985 0.0319 P/(al1/2
)
Laugier 1987 0.0143 (E/Hv)2/3
(P/c1/2
)(a/l)1/2
Dub y Maistrenko 1992 0.0784 Hva1/2
c/(a-l)-0.34
c/a≤2.5
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO D DATOS DE ENTRENAMIENTO
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
88
ANEXO D DATOS DE ENTRENAMIENTO
Datos de Entrada Datos de Salida
Tipo de Acero (TA) Espesor de capa () µm Distancia (d) µm Carga (P) kg Tenacidad a la Fractura (KIC) MPa·m½
1045 160.9 25 0.2 4.16620926
1045 160.9 35 0.2 3.96564432
1045 203.32 15 0.2 4.48614763
1045 203.32 35 0.2 4.48692371
1045 175.6 15 0.2 4.23911771
1045 175.6 25 0.2 4.21525681
1045 197.56 15 0.2 4.17265863
1045 197.56 25 0.2 4.26772762
1045 197.56 35 0.2 4.04113685
1045 208.31 15 0.2 4.336495
1045 208.31 35 0.2 4.3065839
1045 208.31 45 0.2 4.26923723
1045 208.31 55 0.2 3.9959485
1045 273.3 25 0.2 4.40626549
1045 273.3 35 0.2 4.42618295
1045 273.3 45 0.2 4.29784538
1045 273.3 65 0.2 4.49854904
M2 81.403308 15 0.1 1.16749885
M2 52.491336 10 0.1 1.21253173
M2 52.491336 15 0.1 1.13871418
M2 76.464876 10 0.1 1.24612249
M2 76.464876 15 0.1 1.28870401
M2 76.464876 20 0.1 1.42882419
M2 76.464876 25 0.1 1.43867485
M2 58.289764 20 0.1 1.64984466
M2 54.727092 10 0.1 1.03271344
M2 54.727092 15 0.1 1.60418367
1018 45.641 25 0.2 6.66178337
1018 53.1416 25 0.2 6.65196198
1018 72.7908 25 0.2 6.58048028
1018 116.3352 25 0.2 6.68734227
1018 69.041 25 0.2 6.46390109
1018 99.214 25 0.2 6.68396785
1018 134.377 25 0.2 6.67168262
1018 161.516 25 0.2 6.49499228
1018 213.3614 25 0.2 6.63389103
1018 116.3352 25 0.3 7.36308884
1018 69.041 25 0.3 7.26031297
1018 99.214 25 0.3 7.14125854
1018 134.377 25 0.3 7.12722662
1018 161.516 25 0.3 6.40689226
1018 213.3614 25 0.3 7.04862008
1018 99.214 40 0.5 6.87939045
1018 134.377 40 0.5 7.87357457
1018 161.516 40 0.5 7.14608797
1018 213.3614 40 0.5 7.86172892
1018 124.1292 50 1 7.26485854
1018 161.516 50 1 6.89144064
1045 39.7961468 15 0.2 6.69229541
1045 65.1635808 15 0.2 5.90175226
1045 65.1635808 35 0.2 6.66420803
1045 78.877616 15 0.2 5.1109185
1045 78.877616 35 0.2 6.42226124
1045 78.877616 55 0.2 6.57693374
1045 92.4292344 25 0.2 5.57613677
1045 92.4292344 45 0.2 5.94427611
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO D DATOS DE ENTRENAMIENTO
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
89
Datos de Entrada Datos de Salida
Tipo de Acero (TA) Espesor de capa () µm Distancia (d) µm Carga (P) kg Tenacidad a la Fractura (KIC) MPa·m½
1045 92.4292344 65 0.2 6.38154611
1045 92.4292344 85 0.2 6.72171569
1045 92.4292344 95 0.2 6.67190411
1045 65.1635808 25 0.3 6.93959538
1045 78.877616 15 0.3 5.97239304
1045 78.877616 35 0.3 7.14806115
1045 78.877616 45 0.3 7.21130121
1045 92.4292344 15 0.3 5.79183393
1045 92.4292344 35 0.3 6.50026813
1045 92.4292344 55 0.3 7.24505001
1045 92.4292344 75 0.3 7.45196839
1045 65.1635808 35 0.5 7.75078564
1045 78.877616 45 0.5 7.35695797
1045 92.4292344 25 0.5 6.57151234
1045 92.4292344 35 0.5 7.00453023
1045 92.4292344 55 0.5 7.56106045
1045 78.877616 25 1 8.47566548
1045 92.4292344 45 1 8.30304504
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO E NEUROSOLUTIONS v.5.0
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
90
ANEXO E NEUROSOLUTIONS
Al igual que cualquier programa desarrollado en un lenguaje de programación, las redes neuronales requieren de un entorno de desarrollo o IDE para su entrenamiento. En el mercado existen varias alternativas, cada una de ellas con una serie de paquetes que permiten trabajar con uno u otro tipo de red. A continuación se detallarán dos de las más relevantes.
Desde 1995, la empresa NeuroDimension proporciona herramientas que juegan un papel básico en la resolución de
este tipo de problemáticas, haciendo accesible su tecnología a miles de usuarios en todo el mundo. Neurosolutions es una herramienta de desarrollo Gráfica para la creación de sistemas de redes neuronales que permite diseñar y parametrizar modelos de redes destinados a análisis de datos. Esta aplicación combina una interfaz de diseño modular con avanzados procedimientos de aprendizaje, proporcionándole así la potencia y flexibilidad necesaria para la resolución de problemas. Tanto si está desarrollando una aplicación basada en redes neuronales como si tiene interés en conocer las capacidades y prestaciones que puede obtener utilizando esta tecnología es bastante apropiada.
Neurosolutions es uno de los programas más utilizados para la simulación de redes neuronales bajo plataformas
Windows n donde destaca:
• Su enorme variedad de redes para poder trabajar • La posibilidad de generar redes propias • Interfaz gráfico y amigable • Posibilidad de programación gráfica • Asistentes para la creación y entrenamiento de redes • Permite la integración con Excel y Matlab®. En este caso se añade como un Toolbox adicional
Dispone de un interfaz gráfico totalmente intuitivo y permite una programación gráfica de diferentes tipos de red como:
• Perceptron Multicapa • Red feed-fordward • Redes modulares • Redes Jordan-Elman • Redes para el análisis de componentes principales • Redes de Función de base radial • Mapas autoorganizativos de Cohonen • Redes recurrentes • Redes de regresión generalizada
Y entre los métodos de aprendizaje que proporciona están:
• Backpropagation • Backpropagation a través del tiempo (BPTT) • Backpropagation recurrente • Gradientes conjugados • Forcing/Predicciones iterativas • Aprendizaje No-Supervisado • Hebbian • Ojas • Sangers • Kohonen
Las redes neuronales han sido definidas en ocasiones como tecnologías de caja negra, debido a que en muchas ocasiones los algoritmos utilizados son opacos al programador e ingeniero. NeuroSolutions es una aplicación de arquitectura totalmente abierta, lo que permite conocer, sea cual fuese la fase del diseño, parámetros y datos internos como:
• Entradas y Salidas • Gradientes • Estados ocultos • Correlaciones • Errores • Pesos • Sensitividades • Resultados de clasificación
Algunas de las características más destacadas proporcionadas con el producto incluyen:
• Topologías de red definibles por el usuario.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO E NEUROSOLUTIONS v.5.0
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
91
• Pueden realizarse cambios arbitrarios en las interconexiones, en los flujos de datos y añadir nuevos componentes neuronales a la red.
• Algoritmos neuronales definibles por usuario. • Es posible integrar algoritmos propios en NeuroSolutions, mostrándose el código C fuente de un componente
y modificándose según las necesidades. • Generación de código C++. • Un algoritmo de la red neuronal (la parte no gráfica) puede convertirse y transformarse de modo automático
en código fuente ANSI C++ para posteriormente incrustarlo/incorporarlo en la aplicación o proceso correspondiente.
• Análisis de sensitividad. • Mediante esta característica puede analizarse el significado relativo de cada una de las entradas de la red
para así eliminar selectivamente aquellas que no resulten significativas. • Automatización OLE.
Permite controlar NeuroSolutions desde aplicaciones externas escritas en Visual C++, Visual Basic, Excel, Access o Delphi, por ejemplo. REFERENCIAS BIBLIOGRAFICAS Manual Neurodimentions, Neurosolutions. http://www.nd.com
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO F COMPONENTES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
92
ANEXO F COMPONENTES UTILIZADOS PARA LA CREACIÓN DE LAS RNA
Nombre: Axon
Descripción: Capa de procesos elementales con función de activación elemental (identificación de datos)
Utilidad: Actúa como punto de partida para los componentes del archivo en la capa de entrada , o como una capa de salida lineal
Nombre: GaussianAxon
Descripción: Capa de procesos elementales con función de activación gaussiana (identificación de datos)
Utilidad: Se implementa en redes de función de base radial y actúa a diferencia de otros axones en un área local de la capa, es decir, en cada neurona y no en cada capa
Nombre: LinearAxon
Descripción: Capa de procesos elementales con función de activación lineal (identificación de datos)
Utilidad: Implementa un axón lineal con el control de la pendiente.
Nombre: LinearSigmoidAxon
Descripción: Capa de procesos que sustituye la porción intermedia de la función sigmiodal por una línea de pendiente
Utilidad: Este componente es computacionalmente más eficiente que la SigmoidAxon para la resolución de problemas que no sea necesario un aprendizaje amplio
Nombre: SigmiodAxon
Descripción: Capa de procesos con función de activación sigmoidal (identificación de datos)
Utilidad: El rango de valores para cada neurona en la capa está entre 0 y 1. Para problemas no lineales proporciona a la red la capacidad de suavizar la función para estandarizar datos.
Nombre: FullSynapsis
Descripción: Sinapsis
Utilidad: Conectar dos axones o capas
Nombre: L2Criterion
Descripcion: Cuadro de criterio de error
Utilidad: Procesa el error entre la salida de la red y la señal deseada y lo pasa a la red de backpropagation.
Nombre: BackAxon
Descripcion: Capa de procesos elementales con Función de activación elemental (identificación de datos)
Utilidad: Actúa como punto de partida para los componentes del archivo en la capa de entrada, o como una capa de salida lineal con entrenamiento de Backpropagation.
Nombre: BackCriteriaAxon
Descripcion: Axon para establecer el criterio de error
Utilidad: Se comunica con los componentes de la familia de backpropagation y establece el criterio de error para el aprendizaje de la red.
Nombre: FullSynapsis
Descripcion: Sinapsis
Utilidad: Para el entrenamiento de todo tipo de redes en donde se cuenten con pocos datos y sean muy parecidos, este tipo de aprendizaje es lento.
Nombre: DeltaBarDelta
Descripcion: Gradiente de Aprendizaje
Utilidad: Para el entrenamiento de redes de aproximación de funciones en donde se cuenta con un gran número de muestras bien definidas para llegar al erro propuesto con un mínimo de ciclos o interacciones.
Nombre: StaticControl
Descripcion: Control
Utilidad: Implementa el flujo de datos estático de backpropagation. Se espera una entrada y una respuesta deseada, de la que se obtiene un error.
Nombre: BackStaticControl
Descripcion: Control
Utilidad: Es utilizado conjuntamente con la StaticControl este componente asume que la salida de una red es una función estrictamente de su actual entrada. Utilizado para componentes temporales en la red.
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO F COMPONENTES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
93
Nombre: ThresholdTransmitter
Descripcion: Transmisor de umbral
Utilidad: Envía mensajes de control a otros componentes de la red en el Breadboard sobre la base de los datos del componente adjunto cuando rebasa la frontera de un criterio o umbral establecido.
Nombre: BarChar
Descripcion: Representación de datos
Utilidad: Crea una vista de la observación de datos numéricos como una serie de barras horizontales.
Nombre: DataGraph
Descripcion: Representación de datos
Utilidad: Representación grafica para que pueda tener una mejor perspectiva sobre los datos que la red está determinado.
Nombre: MatrixViewer
Descripcion: Representacion de datos
Utilidad: Se utiliza para observar los datos como una matriz numérica. Las dimensiones de Matriz están dictadas por las dimensiones de los componentes.
Nombre: BackAxon
Descripcion: Representación de datos
Utilidad: Proporciona un medio para reunir los datos de los componentes de red durante la simulación.
Nombre: File
Descripcion: Componente de archivo
Utilidad: Lee datos desde un archivo de computadora.
REFERENCIAS BIBLIOGRAFICAS Manual Neurodimentions, Neurosolutions. http://www.nd.com
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO G RESULTADOS OBTENIDOS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
94
ANEXO G
COMPARACION DE DATOS EXPERIMENTALES CON DATOS OBTENIDOS POR LA RED
MPa·m½ SALIDA % ERROR
KIC DESEADA MLP RBFN RBFN-MLP MLP RBFN RBFN-MLP
ENTR
ENA
MIE
NTO
4.16620926 4.26489303 4.16595555 4.11834897 2.36867064 0.00608968 1.14877305
3.96564432 4.21741595 4.01965278 3.92472049 6.34882024 1.36190873 1.03195931
4.48614763 4.275283 4.32882637 4.35225635 4.70034973 3.50682303 2.98454908
4.48692371 4.25988719 4.29176522 4.27373897 5.05995945 4.34949446 4.75124504
4.23911771 4.23159318 4.28016499 4.1976674 0.17750238 0.96829778 0.97780521
4.21525681 4.2816177 4.0968457 4.13845398 1.57430241 2.80910798 1.82202022
4.17265863 4.26611057 4.3222269 4.31758698 2.2396257 3.58448369 3.4732855
4.26772762 4.30752194 4.27091864 4.2679005 0.93244745 0.07477095 0.00405089
4.04113685 4.25256073 4.20868874 4.2241994 5.23179193 4.14615712 4.52997627
4.336495 4.28328302 4.34299756 4.38183004 1.22707347 0.14994983 1.04543042
4.3065839 4.26630815 4.36162962 4.30949949 0.93521346 1.27817587 0.06770085
4.26923723 4.20966784 4.20485689 4.24029068 1.39531685 1.5080057 0.67802622
3.9959485 4.15104435 4.02791826 4.25334893 3.88132741 0.80005421 6.44153506
4.40626549 4.37918907 4.40183561 4.46004913 0.61449814 0.10053574 1.22061747
4.42618295 4.35579008 4.39357795 4.33661141 1.59037403 0.73663924 2.02367448
4.29784538 4.30352028 4.40493477 4.30380826 0.13204045 2.49169933 0.13874108
4.49854904 4.19067198 4.43611318 4.40258885 6.84391909 1.38791096 2.13313653
1.16749885 1.29239729 1.1828973 1.34877484 10.6979495 1.31892651 15.5268664
1.21253173 1.19519249 1.61849254 1.21445228 1.43000338 33.4804279 0.15839175
1.13871418 1.31337791 1.37746678 1.27839707 15.3386809 20.9668595 12.2667213
1.24612249 1.14502613 1.22099077 1.23267164 8.11287475 2.01679346 1.07941625
1.28870401 1.33135457 1.13408458 1.32712338 3.3095701 11.9980563 2.98124097
1.42882419 1.45046248 1.42457713 1.42286771 1.51441187 0.29724143 0.41687973
1.43867485 1.57053221 1.69030891 1.49525414 9.16519524 17.4906831 3.93273632
1.64984466 1.43657122 1.33204645 1.35391861 12.9268799 19.2623111 17.936601
1.03271344 1.19671366 1.52925373 1.21280195 15.8805151 48.0811291 17.4383812
1.60418367 1.31490143 1.31118443 1.27849829 18.0329878 18.2646943 20.3022502
6.66178337 6.60358077 6.61444399 6.60807995 0.87367903 0.71061127 0.80614182
6.65196198 6.61480756 6.60973783 6.61481195 0.55854831 0.63476238 0.55848236
6.58048028 6.63443818 6.58343073 6.6040197 0.81996905 0.04483633 0.3577158
6.68734227 6.62937381 6.68402101 6.55431278 0.86683855 0.0496648 1.98927295
6.46390109 6.63395041 6.58308778 6.60793959 2.63075369 1.84388167 2.22835236
6.68396785 6.63362726 6.67387274 6.5722018 0.75315423 0.15103472 1.67215116
6.67168262 6.62747217 6.60932727 6.53999925 0.66265823 0.93462711 1.97376557
6.49499228 6.62722904 6.54600853 6.53871879 2.03598026 0.7854706 0.67323423
6.63389103 6.4484844 6.52584487 6.66845149 2.79483994 1.62869975 0.52096807
7.36308884 7.17405994 7.2306837 7.15651971 2.56725006 1.79822826 2.80546846
7.26031297 7.17021327 7.14379364 7.31539837 1.24098925 1.60488029 0.75871933
7.14125854 7.17405994 7.38347023 7.20829598 0.4593224 3.39172279 0.93873432
7.12722662 7.17405994 6.89998247 7.11402793 0.65710445 3.18839511 0.1851869
6.40689226 7.17455895 6.67996589 7.07751086 11.9818884 4.26218533 10.4671433
7.04862008 7.20434649 7.0560954 7.13457338 2.2093176 0.10605358 1.21943442
6.87939045 7.17405994 6.99226032 7.28183192 4.2833663 1.64069584 5.84995834
7.87357457 7.17405994 7.59268275 7.29640061 8.88433363 3.56752602 7.33052003
7.14608797 7.17405994 7.35202914 7.28741573 0.3914305 2.88187286 1.9776941
7.86172892 7.17405994 7.76500256 7.32707266 8.74704514 1.23034462 6.80074649
7.26485854 7.27631688 7.06690527 7.14981385 0.15772292 2.72480546 1.58357774
6.89144064 7.22333303 7.0527757 7.13283402 4.81600888 2.34109344 3.50279999
6.69229541 6.35320507 6.65407217 6.40446913 5.06687645 0.57115295 4.30086039
5.90175226 5.78031092 5.77493668 5.87959777 2.05771669 2.14877848 0.37538843
6.66420803 6.42225948 6.61506225 6.68070682 3.63056718 0.73745872 0.24757315
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO G RESULTADOS OBTENIDOS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
95
MPa·m½ SALIDA % ERROR
KIC DESEADA MLP RBFN RBFN-MLP MLP RBFN RBFN-MLP
5.1109185 5.47028568 5.29550101 5.53092619 7.03136194 3.611533 8.21785139
6.42226124 6.1005168 6.41910136 6.36401057 5.00983104 0.04920193 0.90701179
6.57693374 6.56662896 6.52296508 6.61240427 0.1566806 0.82057476 0.5393172
5.57613677 5.54969437 5.53428223 5.56035597 0.47420644 0.75060099 0.2830059
5.94427611 6.01682925 5.99892422 6.21530387 1.22055478 0.91934011 4.55947466
6.38154611 6.48056529 6.41567397 6.46962661 1.55164886 0.53478983 1.38023774
6.72171569 6.80021301 6.57980935 6.66586345 1.16781668 2.11116244 0.83092247
6.67190411 6.74527776 6.80493566 6.67968335 1.09974074 1.99390673 0.11659696
6.93959538 6.92305201 6.88730596 6.80931355 0.23839099 0.75349372 1.87736928
5.97239304 6.31027771 5.95367169 6.05750994 5.65744195 0.31346481 1.4251725
7.14806115 6.88567753 6.96618441 6.91416773 3.67069629 2.54442052 3.27212383
7.21130121 7.17229886 7.11790253 7.15407258 0.54085041 1.29517096 0.7935965
5.79183393 5.9902454 5.72607717 5.70709131 3.42571068 1.13533576 1.46313962
6.50026813 6.56482058 6.68611989 6.59496128 0.99307358 2.85913989 1.4567576
7.24505001 7.13728175 7.24443717 7.0783759 1.48747431 0.00845875 2.30052396
7.45196839 7.26805318 7.43615839 7.26566318 2.46800842 0.21215867 2.50008053
7.75078564 7.38717706 7.60259426 7.42300103 4.69124812 1.91195306 4.22905018
7.35695797 7.37970758 7.4754206 7.62636152 0.30922577 1.61021218 3.66188789
6.57151234 7.33611494 6.55303619 6.63869653 11.6351087 0.2811551 1.02235517
7.00453023 7.34854356 7.06135617 7.05062939 4.91129766 0.81127416 0.65813352
7.56106045 7.3717303 7.48058493 7.81652834 2.50401578 1.06434166 3.37873088
8.47566548 8.33431965 8.30164381 8.32989188 1.66766644 2.05319177 1.71990742
8.30304504 8.35998893 8.47495316 8.45771473 0.68581938 2.07042266 1.86280681
VA
LID
AC
IÓN
4.17893915 4.20870203 4.26039072 4.15788914 0.71221151 1.94909683 0.50371662
4.46615391 4.31449872 4.34368279 4.30375271 3.39565529 2.7422057 3.63626527
3.48192898 4.2254773 3.95120852 3.96336705 21.3544943 13.4775738 13.8267633
3.65569249 4.19540814 4.12907526 4.16225161 14.763705 12.9491958 13.8567215
4.25554906 4.32060343 4.4102633 4.3322683 1.52869518 3.63558815 1.8028047
4.45786049 4.3074821 4.28040826 4.74215655 3.37333087 3.98065908 6.37741058
4.39397713 4.24837612 4.42230611 4.32773523 3.31364972 0.64472302 1.50756146
1.46946596 1.45460871 1.4141134 1.45417377 1.01106494 3.76684902 1.04066337
1.36989757 1.55267391 1.83158969 1.39803142 13.3423366 33.7026748 2.0537189
6.54472863 6.44812805 6.05628898 6.72725661 1.47600589 7.46310012 2.78893123
6.65342477 6.61682467 6.60739174 6.61516938 0.55009411 0.69186967 0.57497289
6.66772057 6.63314613 6.68105407 6.56918053 0.51853465 0.19997091 1.47786701
6.31753831 6.63339379 6.67774116 6.57067065 4.99966071 5.70163296 4.00681914
6.7258515 6.62654904 6.66118053 6.54740501 1.47642963 0.96152843 2.6531435
6.51074262 6.62435778 6.61653212 6.56895954 1.74504157 1.62484538 0.89416726
6.66784951 7.17405994 6.97531769 7.12181052 7.59180952 4.61120458 6.80820719
7.01750544 7.17405994 7.37857945 7.20382964 2.23091384 5.1453328 2.65513446
6.91887035 7.17405994 7.10210985 7.13660695 3.68831291 2.64840194 3.14699643
6.51460347 7.1861039 6.77990975 7.07987773 10.3076179 4.0724856 8.67703262
8.04789276 7.14263593 7.36371337 7.20365483 11.248371 8.50134818 10.4901737
7.56684585 7.17405994 7.0020826 7.28365236 5.19088029 7.4636547 3.74255656
6.95387889 7.17405994 7.40483599 7.29773489 3.16630542 6.484972 4.94480858
7.80355777 7.17405994 6.98030051 7.28994665 8.0668056 10.5497683 6.58175588
8.13093949 7.18890735 8.06878701 7.38582749 11.5857723 0.76439477 9.16391025
8.7533164 7.19422187 7.24036547 7.12481117 17.8114723 17.2843167 18.604437
6.94407132 6.78364634 6.31807154 6.79218276 2.31024375 9.01488117 2.1873127
6.47814929 6.18769933 6.10801138 6.31960769 4.483533 5.71363668 2.44732859
6.9202593 6.65584356 6.32801123 6.80584997 3.82089367 8.55817751 1.65325206
5.90898416 5.86616991 5.80416947 5.96454375 0.72456193 1.77381909 0.94025633
6.53883758 6.33410601 6.20809837 6.55165885 3.13100865 5.05807349 0.1960787
5.17437679 5.16458491 5.04314029 5.16360202 0.18923795 2.53627652 0.20823333
6.08084905 5.78353262 6.12778549 5.96966556 4.88939006 0.77187314 1.82842051
6.1376668 6.24927471 6.56612697 6.34831882 1.8184095 6.98083138 3.43211889
6.57081991 6.71040598 6.36648564 6.58776685 2.12433255 3.10972257 0.25791207
6.26375833 6.63497382 6.18208769 6.37434236 5.9264018 1.30386007 1.76545813
7.36001403 7.21045033 7.04701785 7.1701519 2.03211169 4.25265745 2.57964363
7.00734368 6.59810331 6.58028859 6.50152772 5.840164 6.09439333 7.21836952
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO G RESULTADOS OBTENIDOS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
96
MPa·m½ SALIDA % ERROR
KIC DESEADA MLP RBFN RBFN-MLP MLP RBFN RBFN-MLP
7.37220106 7.2634442 7.21052683 7.27912457 1.47522923 2.19302528 1.26253332
6.42455888 6.27744678 6.16483429 6.14205787 2.28983973 4.04268361 4.39720489
7.03856531 6.85166601 7.02502783 6.89869182 2.65536074 0.19233292 1.98724426
7.35429931 7.26974998 7.31743416 7.19618763 1.1496585 0.50127344 2.14992175
6.43183206 7.37478407 6.92397941 7.09125598 14.6607063 7.65174446 10.2525052
6.53672344 7.36787549 7.43946215 7.24663606 12.7151173 13.8102632 10.8603741
8.1278684 7.39087612 7.64730478 7.91581881 9.06747313 5.9125419 2.60892008
7.116977 7.36043471 7.18129498 7.48423851 3.42080217 0.90372614 5.16035822
7.83757087 7.38237517 7.80848729 8.0113522 5.80786717 0.37107898 2.21728558
8.26413492 8.35788757 8.43009083 8.40732152 1.13445207 2.00814609 1.73262658
8.35796946 8.33733828 8.46292357 8.3795493 0.24684441 1.25573695 0.25819473
8.84717677 8.38131053 8.41362926 8.51419203 5.26570506 4.90040519 3.76374005
PR
OD
UC
CIÓ
N
4.10777231 4.44492608 3.8457314 3.98941459 8.20770363 6.37914877 2.88131162
4.22661966 4.20300132 4.17619894 4.2062291 0.55879977 1.19293258 0.4824319
2.72667468 4.16747431 3.87311545 3.97047165 52.8409071 42.0453814 45.6158916
3.41738681 4.13643803 3.94196214 4.21795755 21.0409667 15.3501891 23.4264011
4.11322349 4.09082971 3.90657367 4.41786604 0.54443389 5.02403573 7.40641844
1.99923304 1.57463836 1.57499381 1.53605986 21.2378782 21.2200988 23.1675433
1.67982311 1.67369556 2.13080177 1.42017869 0.36477355 26.8467944 15.4566523
1.97076887 1.69151637 1.84591737 1.53787561 14.1697236 6.3351674 21.9657045
1.75033483 1.55670111 1.92554187 1.40615077 11.0626671 10.0099157 19.6638983
6.73800645 6.63386192 6.58341249 6.60849335 1.54562821 2.2943576 1.9221279
6.5566476 6.62710988 6.63038017 6.54244234 1.07466927 1.12454677 0.21665439
6.19268734 6.62764565 6.59573898 6.53866441 7.02374088 6.50850949 5.58686494
6.49493543 5.56111366 5.36461252 6.75246565 14.3776913 17.4031431 3.96509276
6.28974562 7.17405994 6.85454069 7.10946374 14.0596197 8.97961703 13.0326116
7.24592218 6.77779287 6.84864915 7.19612178 6.46058974 5.48271176 0.68728861
8.65674625 7.17405994 7.621684 7.29573778 17.1275242 11.9567123 15.7219401
7.64259049 7.17405994 8.30132574 7.09578587 6.13052011 8.61926667 7.15470251
6.82156116 6.88814588 6.4694469 6.80801754 0.97609215 5.16178399 0.19854134
6.45832081 6.79778484 6.47703283 6.68553584 5.25622753 0.28973508 3.51817504
6.64667966 6.69227366 7.30003669 6.63579031 0.68596666 9.8298259 0.16383142
7.36586556 7.25706778 7.09694675 7.34907782 1.47705352 3.65087865 0.22791263
7.36494366 7.26169839 7.13916912 7.36804405 1.40184743 3.06552975 0.04209664
7.42334083 7.26645144 7.42261771 7.27518651 2.11346068 0.00974106 1.99579034
8.28446707 7.40132555 7.85083383 8.08752188 10.6602092 5.23429248 2.37728254
7.90552908 7.39231881 7.94072015 8.09497169 6.49178896 0.44514504 2.3963306
TOTAL 5.08058467 5.10486032 4.4361303
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO H PUBLICACIONES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
97
ANEXO H
ARTICULOS PUBLICADOS
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO H PUBLICACIONES
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
98
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO I PONENCIAS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
99
ANEXO I PONENCIAS
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO I PONENCIAS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
100
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO I PONENCIAS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
101
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO I PONENCIAS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
102
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO I PONENCIAS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
103
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO I PONENCIAS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
104
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO I PONENCIAS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
105
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO I PONENCIAS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
106
INSTITUTO POLITECNICO NACIONAL SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
ANEXO J RECONOCIMIENTOS
MAESTRIA EN CIENCIAS DE INGENIERIA DE SISTEMAS
107
ANEXO J
RECONOCIMIENTOS