Informe Final - CGPI 20050626sappi.ipn.mx/cgpi/archivos_anexo/20050626_2129.pdf · herramientas necesarias para superar las deficiencias académicas. ... los que derivan de disponer

INSTITUTO POLITÉCNICO NACIONAL

Escuela Superior de Ingeniería Mecánica y Eléctrica

Unidad Culhuacan

Departamento de Ingeniería en Computación

INFORME FINAL

Proyecto Individual de Investigación

Febrero 2005 - Enero 2006

SISTEMA DE PREDICCIÓN OPORTUNA DE DESERCIÓN ESCOLAR DE ALUMNOS DEL NIVEL SUPERIOR EN EL IPN

UTILIZANDO REDES NEURONALES ARTIFICIALES

Director del Proyecto: M. en C. Rogelio Reyes Reyes Clave de Registro de la CGPI: 20050626

Febrero de 2006

INTRODUCCIÓN

La deserción escolar del nivel superior en México es más frecuente que en otros niveles, por lo que es un problema de trascendental importancia que afecta a la familia y la sociedad; basándonos en estudios elaborados por distintas universidades de México, medios de comunicación, e instituciones gubernamentales; se han detectado diversos factores que influyen en la deserción de un alumno, entre ellos se encuentran: las condiciones económicas y el deficiente nivel cultural de la familia, las responsabilidades familiares, la incompatibilidad de tiempo, el poco interés por el estudio, el bajo rendimiento académico y el no estar en la carrera deseada.

Debido a que las relaciones familiares, los niveles socioeconómicos y culturales en los

que se desenvuelven los alumnos del nivel superior en México son diferentes para cada uno de ellos, ocasiona el problema de que no se puede generar un patrón especifico de deserción que sea aplicable en todos los casos; basándose en esto se utilizaron las redes neuronales artificiales (RNA's) las cuales integran diferentes métodos de resolución de problemas que no pueden ser descritos fácilmente mediante enfoques algorítmicos tradicionales (probabilidad, estadística), e intentan expresar la solución de problemas complejos no como una secuencia de pasos, sino como la evolución de sistemas de computación inspirados en el funcionamiento del cerebro humano y dotados por cierta inteligencia, las cuales consiguen resolver problemas relacionados con la predicción.

Interés por la deserción y su definición El interés por el fenómeno de la deserción, constatado por el aumento en el número de

estudios al respecto, ha fortalecido no tan sólo la aceptación sobre la importancia del mismo, sino que se ha convertido en materia de controversia teórica y empírica. En consecuencia, su naturaleza amerita que se le ubique con el propósito de clarificarlo a través de su análisis preciso.

Para la definición del termino “deserción”, la adoptaremos como la relación comparativa entre el número de alumnos que se inscriben por primera vez en una carrera profesional formando, a partir de este momento una determinada generación, y los de la misma generación que logran egresar, al haber acreditado todas las asignaturas correspondientes al currículo de cada carrera, en los tiempos estipulados por los diferentes planes de estudio, ocasionando un nuevo termino, la “Eficiencia Terminal”.

Durante la observación de algunos términos relacionados con la deserción, se señalan como sinónimos a: “traición, alevosía, abandono, apostasía, huida, felonía, perfidia, infidelidad, abjuración”, características que se refieren a actos y actitudes asumidas por el individuo desertor, en este caso, el alumno.

En la bibliografía norteamericana, el término utilizado con más frecuencia es el de “drop out”, que tendría como equivalente directo el de desaparecer, término que alude a algo que hace el individuo: el alumno desaparece como tal. En algunos textos se utiliza el término “student

attrition”, que es el equivalente de rozadura, colisión, trituración o molimiento de una cosa sobre otra, aludiendo todos ellos a un proceso de pérdida, desgaste o merma.

En México, por el año de 1979, aparece un estudio muy extenso en el que el fenómeno es identificado bajo el término de abandono. Cabe mencionar que a su vez, la deserción se concibe también como la falta de inscripción por parte del alumno en las fechas correspondientes al plan de estudios de su carrera, ni reinscripción en períodos ya cursados, Así también como el abandono del sistema por voluntad del educando; considerando desertor al alumno que ha abandonado todo sistema escolar, y asumiéndola como proceso que se inicia con el retraso progresivo, el enlentecimiento del ritmo de los estudios hasta el desenlace final: el abandono definitivo.

La deserción en México. La asociación entre pobreza y educación es significativa: los grupos sociales menos

favorecidos son los que cuentan con menores oportunidades educativas. En el caso de México se dio mayor énfasis a los programas de formación para el trabajo destinados a los grupos de población que no tuvieron acceso a niveles superiores del sistema educativo formal. La deserción escolar constituye por su magnitud un problema importante del sistema nacional de educación formal. Las altas tasas de abandono de los estudios que se producen en todos los niveles educativos tienen incidencia negativa sobre los procesos políticos, económicos, sociales y culturales del desarrollo nacional. Por tal motivo, se propone que deben combatirse las causas que inciden desfavorablemente en la reprobación y deserción escolar que se traducen en baja eficiencia terminal de los diferentes niveles educativos y en desperdicio de los recursos que la sociedad destina a la educación.

Durante la última década del siglo XX, México ha canalizado gran cantidad de recursos

en el reforzamiento del sector educativo. Se han diseñado políticas de desarrollo, estrategias y acciones tendientes a mejorar la oferta educativa, que permita diversificar las oportunidades para la población demandante, que crece a gran velocidad en nuestro país. Sin embargo se pueden observar los resultados finales del siglo XX, que si bien es cierto han logrado mayor cobertura y mayor diversidad de opciones, no se han cumplido los objetivos y parámetros de calidad con que fueron programados. Los problemas más complejos y frecuentes que enfrentan las instituciones de educación superior del país, en el nivel de licenciatura, se encuentra la deserción, el rezago estudiantil y los bajos índices de eficiencia. Tanto la deserción como el rezago son condiciones que afectan el logro de una alta eficiencia terminal en las instituciones. En cifras generales y como promedio nacional, de cada 100 alumnos que inician estudios de licenciatura; entre 50 y 60 alumnos concluyen las materias del plan de estudios cinco años después y de estos, tan solo 20 obtienen su titulo. De los que se titulan solamente un 10%, es decir 2 egresados, lo hacen a la edad considerada como deseable (24 o 25 años), los demás lo hacen entre los 27 y los 60 años (UAM, 1998). Información que proviene de la ANUIES (Asociación Nacional de Universidades e Instituciones de Educación Superior) (Camarena, 1985), indica que aproximadamente 25 de cada 100 estudiantes que ingresan al nivel universitario, abandonan sus estudios sin haber promovido las asignaturas correspondientes al primer semestre.

De acuerdo a un estudio realizado por la Universidad Nacional Autónoma de México, los problemas económicos, personales, falta de orientación vocacional y de salud, son las causas principales por las que los jóvenes abandonan sus estudios. Hasta el año 2000, los niveles de deserción escolar eran:

Porcentaje de alumnos que desertan en promedio por nivel académico

Primaria Secundaria Profesional Técnico Bachillerato Licenciatura 2% 8% 25% 18% 20%

Es posible suponer con cierto grado de certeza que los estudiantes que ingresan a la

educación superior no dominan las habilidades ni la información y conocimientos indispensables para utilizar, de la mejor manera posible, los recursos que la universidad pone a su disposición.

La deserción entendida como una forma de abandono de los estudios superiores, adopta

distintos comportamientos en los estudiantes que afecta la continuidad de sus trayectorias escolares (Tinto, 1982). Estos comportamientos se caracterizan por: • Abandono o suspensión voluntaria y definitiva de los estudios superiores. • Salida del alumno debido a deficiencias académicas y consecuente bajo rendimiento escolar. • Cambio de carrera o de institución. • Baja de los alumnos que alteran el orden y la disciplina institucional.

Factores principales que propician la deserción. Se ha detectado que la deserción responde a una multiplicidad de factores que afectan a

los estudiantes (Osorio, J., 1982). Entre ellos, principalmente durante el primer año posterior a su ingreso a la licenciatura, se encuentran: • Condiciones económicas desfavorables. • Deficiente nivel cultural de la familia. • Bajas expectativas respecto a la

importancia de la educación. • Incompatibilidad del tiempo dedicado

al trabajo y a los estudios. • Matrimonio.

• Falta de actitud. • Poco interés por los estudios. • Deficiente desarrollo académico en

niveles previos. • Deficiente orientación vocacional

recibida antes de ingresar a la licenciatura.

Podrían señalarse tres periodos esenciales en la explicación del fenómeno de la deserción:

• Primer periodo critico: Se presenta en la transición entre el nivel medio superior y la licenciatura y se caracteriza por el paso de un ambiente conocido a un ambiente de apariencia impersonal, lo que implica serios problemas de ajuste para los estudiantes.

• Segundo periodo critico: Ocurre durante el proceso de admisión cuando el estudiante se forma expectativas equivocadas sobre las instituciones y concisiones de la vida estudiantil, pueden conducir a decepciones tempranas y, por consiguiente, a la deserción.

• Tercer periodo critico: Se origina cuando el estudiante no logra un adecuado rendimiento académico en las asignaturas del plan de estudios y la institución no le proporciona las herramientas necesarias para superar las deficiencias académicas.

Costos sociales y privados de la deserción escolar

La deserción escolar genera elevados costos sociales y privados. Los primeros no son fáciles de estimar, pero entre ellos se mencionan los que derivan de disponer de una fuerza de trabajo menos competente y más difícil de calificar, cuando las personas no han alcanzado ciertos niveles mínimos de educación para aprovechar los beneficios de programas de entrenamiento ofrecidos por el Estado o por las empresas, y cuya manifestación extrema es por ejemplo el analfabetismo. La baja productividad del trabajo, y su efecto en el (menor) crecimiento de las economías, se considera también como un costo social del bajo nivel educacional que produce el abandono de la escuela durante los primeros años del ciclo escolar.

Asimismo, representan un costo social los mayores gastos en los que es necesario incurrir para financiar programas sociales y de transferencias a los sectores que no logran generar recursos propios. En otro orden de factores, se mencionan igualmente como parte de los costos de la deserción la reproducción intergeneracional de las desigualdades sociales y de la pobreza y su impacto negativo en la integración social, lo que dificulta el fortalecimiento.

Solución Propuesta

Si consideramos el mercado de las computadoras encontramos que casi en su totalidad se basan en plataformas Windows ® proporcionadas por Microsoft ®, esto nos orienta a la idea de desarrollar un ambiente amigable y conocido para usuarios de este tipo, ambiente que dentro de él se contendrá los recursos necesarios para la evaluación y su pronta respuesta a la existente probabilidad de deserción. Es correcto pensar que no se requerirá de más elementos que no sea la interfaz ofrecida para poder dar una respuesta satisfactoria en cuanto la predicción de la deserción, ya que dentro de este ambiente se tendrá como enfoque principal para el usuario final el llenado de un cuestionario sencillo pero previamente estudiado en base a metodología de estudio social, cuestionario que proporcionará patrones de evaluación para la red neuronal que se utilizará y así mismo evaluará en base las características implicadas dentro de la misma ya con previos entrenamientos.

MÉTODOS Y MATERIALES

Introducción a las Redes Neuronales

¿Porqué no podemos construir una computadora que piense? ¿Porqué no se puede esperar que máquinas capaces de realizar l00 millones de operaciones en punto flotante por segundo, sean capaces de entender el significado de las formas en imágenes visuales, o incluso distinguir

entre distintas clases de objetos similares? ¿Porqué no puede esa misma máquina aprender a partir de la experiencia, en lugar de repetir indefinidamente un conjunto explícito de instrucciones generadas por un programador humano?.

Estas son solamente unas pocas de las preguntas a las que se enfrentan los que diseñan computadoras, los ingenieros y los programadores, todos los cuales se esfuerzan por crear sistemas de computadoras “más inteligentes”. La incapacidad de la generación actual de computadoras para interpretar el mundo en general no indica, sin embargo, que estas máquinas sean completamente inadecuadas. Hay muchas tareas que resultan especialmente adecuadas para ser resueltas mediante computadoras convencionales: resolución de problemas matemáticos y científicos; creación, manipulación y mantenimiento de bases de datos; comunicaciones electrónicas; procesamiento de textos, gráficos y autoedición; incluso las sencillas funciones de control que dan inteligencia a los electrodomésticos y los hacen más fáciles de usar son gestionadas muy eficientemente por las computadoras.

En contraste, hay muchas aplicaciones que desearíamos automatizar, pero que no se han automatizado cómo consecuencia de las complejidades que implica la programación de un computador para llevar a cabo esas tareas. En un elevado porcentaje, los problemas no son irresolubles; lo que sucede más bien, es que son difíciles de resolver empleando sistemas de computadoras secuenciales. Esta distinción es importante. Si la única herramienta de la que disponemos es una computadora secuencial, entonces, de forma natural, intentaremos resolver todos los problemas en términos de algoritmos secuenciales. Hay muchos problemas que no son adecuados para ser resueltos de esta manera, lo que sin embargo, hace que se inviertan grandes esfuerzos para desarrollar sofisticados algoritmos, e incluso que no se llegue a alcanzar una solución admisible.

La computación paralela y las redes neuronales son dos paradigmas que han despertado, en los últimos años, un gran interés en los campos de la computación y la inteligencia artificial. El elemento clave de estos paradigmas es una nueva estructura computacional compuesta de un gran número de pequeños elementos procesadores interconectados (neuronas) trabajando en paralelo. Esta nueva estructura paralela permite realizar muchas operaciones simultáneamente, en contraposición al proceso en serie tradicional en el que los cálculos han de ser realizados en un orden secuencial. En los años 50 se construyeron redes neuronales sencillas, pero se hicieron menos progresos de los esperados debido a la escasez de tecnología apropiada y a la ruptura con otras áreas de la inteligencia artificial. El vertiginoso aumento de recursos computacionales producido en los años 70 y el desarrollo de técnicas eficientes de computación paralela han renovado el interés en este campo. Actualmente, las redes neuronales han probado ya su valía para resolver problemas complejos que a primera vista parecen intratables y son difíciles de formular usando técnicas de computación convencionales.

Conseguir diseñar y construir máquinas capaces de realizar procesos con cierta inteligencia ha sido uno de los principales objetivos y preocupaciones de los científicos a lo largo de la historia. Con las diferentes líneas de investigación sobre el desarrollo de máquinas que lleven a cabo ciertas funciones que realiza el ser humano, no se trata de que estas compitan con los seres humanos sino de que desarrollen ciertas tareas que les da cierto rango intelectual para ayudarle a este último.

Definición de red neuronal

Existen numerosas formas de definir lo que son las redes neuronales, desde las definiciones cortas y genéricas hasta las que intentan explicar más detalladamente lo que significa red neuronal o computación neuronal. Veamos algunos ejemplos de ambos casos:

Un modelo matemático compuesto por un gran número de elementos procesales organizados en niveles.

“... un sistema de computación hecho por un gran número de elementos simples, elementos de proceso muy interconectados, los cuáles procesan información por medio de su estado dinámico como respuesta a entradas externas”.

"Redes neuronales artificiales son redes interconectadas masivamente en paralelo de elementos simples (usualmente adaptivos) y con organización jerárquica, las cuáles intentan interactuar con los objetos del mundo real del mismo modo que lo hace el sistema nervioso biológico".

Es necesario destacar que tales computadores neuronales no ejecutan las típicas instrucciones de máquina de los computadores digitales, a menos que estén hechos para emular el comportamiento de las redes neuronales físicas. En principio, la operación de proceso básico realizada por todos los procesadores elementales es una operación análoga de transformación de sus señales de entrada.

En las redes neuronales biológicas, las células neuronales (neuronas) corresponden a los elementos de proceso anteriores. Las interconexiones se realizan por medio de las ramas de salida (axones) que producen un número variable de conexiones (sinapsis) con otras neuronas (o quizá con otras partes, como músculos y glándulas). Las redes neuronales son sistemas de simples elementos de proceso muy interconectados.

La compleja operación de las redes neuronales es el resultado de abundantes lazos de realimentación junto con no linealidades de los elementos de proceso y cambios adaptivos de sus parámetros, que pueden definir incluso fenómenos dinámicos muy complicados.

Una peculiaridad de las redes neuronales biológicas es su tamaño: en todo el sistema nervioso central hay del orden: de 1011 neuronas, pero el número de interconexiones es aún mayor, probablemente sobre las 1015. No parece posible programar las funciones de dicho sistema de acuerdo con un plan principal, teniendo en cuenta además que el tamaño y la estructura de la red están cambiando radicalmente durante y después de la niñez, cuando está ya en uso.

Es verdad que ciertos caracteres textuales de la red son inherentes, y durante la ontogénesis las proyecciones neuronales crecen aproximadamente hacia aquellos lugares en los cuáles serán necesitados más tarde. En otras palabras, la distribución de los recursos y los caminos de comunicación más importantes están formados de acuerdo con un plan genético, mientras que el resto del aprendizaje en especial la memoria, debe ser adquirido después de nacer.

Programar tal red puede significar sólo dos cosas: a) Las estructuras de interconexión

entre las células son alteradas, y b) Las fuerzas de estas interconexiones son cambiadas. Parece que existen bastantes estrategias claras de cómo cambiar las fuerzas en la dirección correcta, mientras que cambios en las interconexiones son más difíciles de definir, por que suelen tener efectos radicales en el comportamiento de la red, especialmente en lo concerniente a la operación secuencial y las funciones jerárquicas.

Es muy difícil imaginar cómo una red tan enorme puede ser programada. Una posibilidad, con relación a los subsistemas sensoriales, podría ser que la estructura del sistema, o el proceso dinámico definido por él, de alguna forma tiende a imaginar las experiencias sensoriales de otros acontecimientos.

Otra función importante del sistema nervioso es definir acciones que son parte del comportamiento, y controlar el estado del organismo en relación con su entorno.

Mientras que las representaciones internas en las cuáles está basado el comportamiento pueden ser derivadas de las entradas de forma bastante directa, las definiciones de las salidas deben estar basadas en estrategias completamente diferentes. De hecho, apenas existe otra posibilidad para programar las acciones que aplicar el principio de “retroceso” y “empuje” para alterar los mecanismos que son responsables de ellas. Algún tipo de “retropropagación” de la información es, por tanto, necesario.

Por otro lado, el significado y la calidad de las acciones deben ser juzgados no desde los movimientos inmediatos, sino desde la realización de criterios que tienen en cuenta el resultado requerido, a veces bastante indirectamente. A menudo, las acciones son solamente corregidas si se realizan con cierta frecuencia, donde el mecanismo que las provoque debe contener circuitos que definan tales frecuencias y que se cambien en relación con los resultados aprendidos. Está claro que programar las acciones es un proceso mucho más indirecto que programar las representaciones internas; el factor aleatorio no puede ser evitado.

Programando las funciones de entrada y de salida nos lleva sólo a una operación de comportamiento en la que el estímulo y la respuesta son consideradas muy relevantes. Ciertamente, es posible realizar autómatas bastante complejos y comportamientos necesidad-conducta de este modo. Sin embargo, se mantiene la expectativa sobre la posibilidad de que las redes neuronales puedan actuar cómo ordenadores para algunos problemas abstractos y también donde la computación se realice en el estado interno de la red.

Ventajas de las redes neuronales

Debido a su constitución y a sus fundamentos, las redes neuronales artificiales presentan un gran número de características semejantes a las del cerebro. Por ejemplo, son capaces de generalizar casos anteriores a nuevos casos, de abstraer características esenciales a partir de entradas que representan información irrelevante, etc. Esto hace que ofrezcan numerosas ventajas y que este tipo de tecnología se esté aplicando en múltiples áreas. Estas ventajas incluyen:

• Aprendizaje adaptivo. Capacidad de aprender a realizar tareas basada en un entrenamiento o una experiencia inicial.

• Autoorganización. Una red neuronal puede crear su propia organización o

representación de la información que recibe mediante una etapa de aprendizaje.

• Tolerancia a fallos. La destrucción parcial de una red conduce a una degradación de su estructura; sin embargo, algunas capacidades de la red se pueden retener, incluso sufriendo un gran daño.

• Operación en tiempo real. Los computadores neuronales pueden ser realizados en

paralelo, y se diseñan y fabrican máquinas con hardware especial para obtener esta capacidad.

• Fácil inserción dentro de la tecnología existente. Se pueden obtener chips

especializados para redes neuronales que mejoran su capacidad en ciertas tareas. Ello facilitará la integración modular en los sistemas existentes.

Aprendizaje adaptivo

La capacidad de aprendizaje adaptivo es una de las características más atractivas de las redes neuronales. Esto es, aprenden a llevar a cabo ciertas tareas mediante un entrenamiento con ejemplos ilustrativos. Cómo las redes neuronales pueden aprender a diferenciar patrones mediante ejemplos y entrenamiento, no es necesario que elaboremos modelos a priori ni necesitamos especificar funciones de distribución de probabilidad.

Las redes neuronales son sistemas dinámicos autoadaptivos. Son adaptables debido a la capacidad de autoajustarse de los elementos procesales (neuronas) que componen el sistema. Son dinámicos, pues son capaces de estar constantemente cambiando para adaptarse a las nuevas condiciones.

En el proceso de aprendizaje, los enlaces ponderados de las neuronas se ajustan de manera que se obtengan resultados específicos. Una red neuronal no necesita un algoritmo para resolver un problema, ya que ella puede generar su propia distribución de los pesos de los enlaces mediante el aprendizaje.

La función del diseñador es únicamente la obtención de la arquitectura apropiada. No es problema del diseñador el cómo la red aprenderá a discriminar; sin embargo, sí es necesario que desarrolle un buen algoritmo de aprendizaje que proporcione a la red la capacidad de discriminar mediante un entrenamiento con patrones.

Autoorganización

Las redes neuronales usan su capacidad de aprendizaje adaptivo para autoorganizar la información que reciben durante el aprendizaje y/o la operación. Mientras que el aprendizaje es la modificación de cada elemento procesal, la autoorganización consiste en la modificación de la red neuronal completa para llevar a cabo un objetivo específico.

Cuando las redes neuronales se usan para reconocer ciertas clases de patrones, ellas autoorganizan la información usada. Por ejemplo, la red llamada backpropagation, creará su propia representación característica, mediante la cual puede reconocer ciertos patrones.

Esta autoorganización provoca la generalización: facultad de las redes neuronales de responder apropiadamente cuando se les presentan datos o situaciones a los que no habían sido expuestas anteriormente. El sistema puede generalizar la entrada para obtener una respuesta. Esta característica es muy importante cuando se tienen que solucionar problemas en los cuáles la información de entrada es poco clara; además, permite que el sistema dé una solución incluso cuando la información de entrada está especificada de forma incompleta.

Tolerancia a fallos

Las redes neuronales son los primeros métodos computacionales con la capacidad inherente de tolerancia a fallos. Comparados con los sistemas computacionales tradicionales, los cuáles pierden su funcionalidad en cuanto sufren un pequeño error de memoria; en las redes neuronales, si se produce un fallo en un pequeño número de neuronas, el comportamiento del sistema si se ve afectado, sin embargo no sufre una caída repentina.

Hay dos aspectos distintos respecto a la tolerancia a fallos:

a) Las redes pueden aprender a reconocer patrones con ruido, distorsionados o incompletos, ésta es una tolerancia a fallos respecto a los datos.

b) Las redes pueden seguir realizando su función (con cierta degradación) aunque se

destruya parte de la red.

La razón por la que las redes neuronales son tolerantes a los fallos es que tienen su información distribuida en las conexiones entre neuronas, existiendo cierto grado de redundancia en este tipo de almacenamiento. La mayoría de los ordenadores algorítmicos y sistemas de recuperación de datos almacenan cada pieza de información en un espacio único, localizado y direccionable. Las redes neuronales almacenan información no localizada. Por tanto, la mayoría de las interconexiones entre los nodos de la red tendrán unos valores en función de los estímulos recibidos, y se generará un patrón de salida que represente la información almacenada.

Operación en tiempo real

Una de las mayores prioridades de la mayoría de las áreas de aplicación, es la necesidad de realizar grandes procesos con datos de forma muy rápida. Las redes neuronales se adaptan

bien a esto debido a su implementación paralela. Para que la mayoría de las redes puedan operar en un entorno de tiempo real, la necesidad de cambio en los pesos de las conexiones o entrenamiento es mínima. Por tanto, de todos los métodos posibles, las redes neuronales son la mejor alternativa para reconocimiento y clasificación de patrones en tiempo real.

Fácil inserción dentro de la tecnología existente

Una red individual puede ser entrenada para desarrollar una única y bien definida tarea (tareas complejas, que hagan múltiples selecciones de patrones, requerirán sistemas de redes interconectadas). Debido a que una red puede ser rápidamente entrenada, comprobada, verificada y trasladada a una implementación hardware de bajo costo, es fácil insertar redes neuronales para aplicaciones específicas dentro de sistemas existentes. De esta manera, las redes neuronales se pueden utilizar para mejorar sistemas de forma incremental, y cada paso puede ser evaluado antes de acometer un desarrollo más amplio.

La neurona biológica. Una neurona biológica tiene un cuerpo celular con forma aproximadamente esférica, la

cual mide de 5 a 10 micras de diámetro; de este cuerpo celular sale una rama principal llamada axón, y varias ramas más cortas, llamadas dendritas. El axón tiene como característica principal la de producir ramas en torno a su punto de arranque, y con frecuencia se ramifica extensamente cerca de su extremo. Las neuronas se diferencian del resto de las células vivas principalmente por su capacidad de comunicarse entre ellas. Por lo general, una neurona recibe información de miles de otras neuronas y a su vez, envía información a miles de neuronas más. Se han hecho cálculos de que aproximadamente en el cerebro humano existen alrededor de 1015 conexiones.

La neurona artificial. A partir del funcionamiento de las neuronas biológicas (actividad sináptica), se hizo una

analogía con las redes neuronales artificiales: las señales que llegan a la sinapsis son las entradas a la neurona artificial; éstas son ponderadas (atenuadas o amplificadas) a través de un parámetro, que se denomina peso, el cual esta asociado a la sinapsis correspondiente. Estas señales de entrada pueden excitar o inhibir a la neurona (sinapsis con peso positivo o negativo respectivamente). El efecto (o salida de la neurona) es la suma de las entradas ponderadas. Si la suma es igual o mayor que el umbral de la neurona, entonces la neurona se activa (brinda una salida), por lo tanto; cada neurona dentro de la red neuronal se activa o no se activa (Freeman J. A., 1993).

La neurona es el elemento fundamental de proceso en una red neuronal artificial, cada

neurona está caracterizada en cualquier instante por un valor numérico denominado valor o

estado de activación, , asociado a cada neurona existe una función de salida, , que

transforma el estado actual de activación en una señal de salida, . Dicha señal es enviada a

( )tai if

iy

través de los canales de comunicación unidireccionales a otras unidades de la red; en estos

canales la señal se modifica de acuerdo con la sinapsis (el peso, ) asociada a cada uno de ellos según una determinada regla. Las señales moduladas que han llegado a la unidad j-ésima se

combinan entre ellas, generando así la entrada total, (Hilera J. R., 2000).

jiw

jNet

Estructura de una Red Neuronal Artificial Los componentes más importantes de una RNA (microestructura de la red) son: • Unidades de procesamiento (la neurona artificial). • Estado de activación de cada neurona. • Patrón de conectividad entre neuronas. • Regla de propagación. • Función de transferencia. • Regla de activación. • Regla de aprendizaje. Ahora veamos cómo está organizada dicha red (mesoestructura de la red) (ver figura

siguiente): • Número de niveles o capas. • Número de neuronas por nivel. • Patrones de conexión. • Flujo de información.

Factores modificables de una red neuronal a nivel de mesoestructura.

Capas o niveles de neuronas

Las neuronas que forman parte de una RNA se encuentran distribuidas dentro de ella formando niveles o capas, las cuáles contienen un número determinado de neuronas cada una. A partir de su localización dentro de la red, se pueden distinguir tres diferentes tipos de capas:

• De entrada: Es la capa que recibe directamente la información proveniente de las

fuentes externas a la red.

• Ocultas: Son internas a la red y no tienen contacto directo con el entorno exterior. El número de niveles ocultos puede estar entre cero y un número elevado. Las neuronas de las capas ocultas pueden estar interconectadas de distintas maneras, lo que determina, junto con su número, las distintas topologías de redes neuronales.

• De salida: Transfieren información de la red hacia el exterior. En la figura se muestra el esquema de la estructura de una posible red multicapa en la que

cada nodo o neurona únicamente está conectada con neuronas de un nivel superior. A partir de este esquema podemos notar que hay muchas más conexiones que nodos.

Estructura de una red multicapa.

Características Principales de las Redes Neuronales Artificiales Las principales características de una RNA son: su topología, el mecanismo de

aprendizaje, tipo de asociación realizada entre la información de entrada y de salida, y por último, la forma de representación de estas informaciones.

Topología La arquitectura o topología de las redes neuronales consiste en la organización y

disposición de las neuronas en la red formando capas o agrupaciones de neuronas, de esta manera, los parámetros fundamentales de la red son: el número de capas, el número de neuronas por capa, el grado de conectividad y el tipo de conexiones entre neuronas. En una clasificación de las redes neuronales en base a su topología, se pueden distinguir entre las redes con una sola capa o nivel de neuronas y las redes con múltiples capas (2, 3, etc.).

Mecanismo de aprendizaje De acuerdo a lo estudiado, en lo cual se llego a la conclusión de que el aprendizaje de una

red neuronal es el proceso mediante el cual la misma red modifica sus pesos en respuesta a una información de entrada; por lo tanto, los cambios que se producen durante el proceso de aprendizaje de una RNA se reducen a la modificación de las conexiones entre las neuronas (pesos de la red), de tal manera que, se puede afirmar que el proceso de aprendizaje de la red ha terminado cuando los valores de los pesos permanecen estables, es decir, la red ha aprendido a solucionar el problema para el cual fue creada.

Por lo tanto es importante conocer como se modifican los valores de los pesos de la red

durante el proceso de aprendizaje; es decir, cuáles son los criterios que se siguen para cambiar el valor asignado a las conexiones cuando se pretende que la red aprenda una nueva información. A estos criterios que determinan como aprende la red se les conoce como regla de aprendizaje.

Estas reglas de aprendizaje suelen ser divididas en dos tipos: las reglas con aprendizaje

supervisado, y las reglas con aprendizaje no supervisado. Con lo cual, es posible clasificar a las redes neuronales artificiales basándose en su regla de aprendizaje como:

• Redes neuronales con aprendizaje supervisado. • Redes neuronales con aprendizaje no supervisado. Teniendo como diferencia fundamental entre ambos tipos la existencia o no de un agente

externo (supervisor) que controle el proceso de aprendizaje de la red.

Redes neuronales con aprendizaje supervisado En una RNA con aprendizaje supervisado, el proceso de aprendizaje se realiza mediante

un entrenamiento controlado por un agente externo (supervisor), el cual determina la respuesta que debe entregar la RNA a partir de una entrada determinada, es decir, el supervisor le indica la salida deseada a la red para cada uno de los patrones de entrenamiento. De esta manera, el supervisor comprueba la salida de la red para un determinado patrón de entrenamiento, y si ésta no coincide con la salida deseada para ese patrón, se procede a modificar los pesos de las conexiones, con el fin de conseguir que la salida obtenida se aproxime a la salida deseada para ese patrón en especifico.

Redes neuronales con aprendizaje no supervisado En las redes con aprendizaje no supervisado (o autosupervisado) no se necesita la

influencia de un agente externo (o supervisor) para ajustar los pesos de las conexiones entre sus neuronas, de esta manera, la red no recibe ninguna información por parte del entorno que le

indique si la salida generada en respuesta a una determinada entrada es o no correcta; por ello, suele decirse que estas redes son capaces de autoorganizarse.

Por lo tanto, estas redes deben encontrar las características, regularidades, correlaciones o

categorías que se puedan establecer entre los datos que se presenten en su entrada. En algunos casos, la salida representa el grado de familiaridad o similitud entre la información que se le está presentando en la entrada y las informaciones que se le han mostrado hasta entonces (en el pasado). En otro caso, podría realizar un establecimiento de categorías, indicando la red a la salida a qué categoría pertenece la información presentada a la entrada, siendo la propia red quien debe encontrar las categorías apropiadas a partir de correlaciones entre las informaciones presentadas.

Tipo de asociación entre las informaciones de entrada y salida Una red neuronal es un sistema o dispositivo que almacena cierta información aprendida;

esta información se registra de forma distribuida en los pesos asociados a las conexiones entre neuronas. Por lo tanto, una RNA puede considerarse como cierto tipo de memoria que almacena unos datos de forma estable, datos que se grabarán en dicha memoria como consecuencia del aprendizaje de la red y que podrán ser leídos a la salida como respuesta a cierta información de entrada, comportándose entonces la red como lo que habitualmente se conoce por memoria asociativa; es decir, cuando se aplica un estímulo (dato de entrada); la red responde con una salida asociada a dicha información de entrada. De esta manera, existen dos formas primarias de realizar esta asociación entrada/salida que se corresponden con la naturaleza de la información almacenada en la red: la heteroasociación y la autoasociación.

La heteroasociación, se refiere al caso en el que la red aprende parejas de datos [(A1,B1),

(A2,B2), ..., (AN,BN)], de tal forma que cuando se presente cierta información de entrada Ai, deberá responder generando la correspondiente salida asociada BBi.

La autoasociación, se refiere a que la red aprende ciertas informaciones A1, A2, ..., AN, de

tal forma que cuando se le presenta una información de entrada realizará una autocorrelación, respondiendo con uno de los datos almacenados, el más parecido al de entrada.

De esta manera, estos dos mecanismos de asociación de la información entrada/salida dan

lugar a dos tipos de redes neuronales: las redes heteroasociativas y las autoasociativas. Una red heteroasociativa podría considerase aquella que computa cierta función, que en

la mayoría de los casos no podrá expresarse analíticamente, entre un conjunto de entradas y un conjunto de salidas, correspondiendo a cada posible entrada una determinada salida, y una red autoasociativa es una red cuya principal misión es reconstruir una determinada información de entrada que se presenta incompleta o distorsionada, asociándola con el dato almacenado más parecido.

Tipo de información de entrada y de salida En la mayoría de las redes neuronales los datos de entrada y de salida son de naturaleza

analógica; es decir, son valores reales continuos, los cuáles normalmente estarán normalizados y su valor absoluto será menor que la unidad. Cuando esto ocurre, las funciones de activación de las neuronas serán también continuas, del tipo lineal o sigmoidal.

Mientras que otras redes neuronales, solo admiten valores discretos o binarios {0,1} a su

entrada, generando también unas respuestas en la salida de tipo binario. En este caso, las funciones de activación de las neuronas serán del tipo escalón.

Sin embargo, existe también un tipo de redes (que podrían denominarse híbridas) en las

que las informaciones de entrada pueden ser valores continuos, aunque las salidas de la red son discretas.

La red backpropagation. La red backpropagation o red de retropropagación, fue creada por Rumelhart, Hinton y

Williams en el año de 1986 (Rumelhart D. E., 1986), se formalizó un método para que una red neuronal multinivel, aprendiera la asociación que existe entre los patrones de entrada y las clases correspondientes, este método, generalmente conocido como backpropagation (propagación del error hacia atrás), está basado en la generalización de la regla delta y, a pesar de sus propias limitaciones, ha ampliado de forma considerable el rango de aplicaciones de las redes neuronales. Una característica importante de este algoritmo es la representación interna del conocimiento que es capaz de organizar en la capa intermedia de las neuronas para conseguir cualquier correspondencia entre la entrada y la salida de la red. El funcionamiento de una red backpropagation (BPN) consiste en un aprendizaje de un conjunto predefinido de pares de entradas-salidas dados como ejemplo; empleando un ciclo propagación-adaptación de dos fases: primero se aplica un patrón de entrada como estimulo para la primera capa de las neuronas de la red, se va propagando a través de todas las capas superiores hasta generar una salida, se compara el resultado obtenido en las neuronas de salida con la salida que se desea obtener y se calcula un valor del error para cada neurona de salida. A continuación, estos errores se transmiten hacia atrás, partiendo de la capa de salida, hacia todas las neuronas de la capa intermedia que contribuyan directamente a la salida, recibiendo el porcentaje de error aproximado a la participación de la neurona intermedia en la salida original. Este proceso se repite, capa por capa, hasta que todas las neuronas de la red hayan recibido un error que describa su aportación relativa al error total. Basándose en el valor del error recibido, se reajustan los pesos de conexión de cada neurona, de manera que en la siguiente vez que se presente el mismo patrón, la salida esté más cercana a la deseada; es decir, el error disminuya.

La importancia de la red backpropagation consiste en su capacidad de autoadaptar los

pesos de las neuronas de las capas intermedias para aprender la relación que existe entre un conjunto de patrones dados como ejemplo y sus salidas correspondientes. Para poder aplicar esa misma relación, después del entrenamiento, a nuevos vectores de entrada con ruido o incompletas, dando una salida activa si la nueva entrada es parecida a las presentadas durante el aprendizaje.

Esta característica importante, que se exige a los sistemas de aprendizaje, es la capacidad de generalización, entendida como la facilidad de dar salidas satisfactorias a entradas que el sistema no ha visto nunca en su fase de entrenamiento. La red debe encontrar una representación interna que le permita generar las salidas deseadas cuando se le dan las entradas de entrenamiento, y que pueda aplicar, además a entradas no presentadas durante la etapa de aprendizaje para clasificarlas según las características que compartan con los ejemplos de entrenamiento.

La regla delta generalizada utiliza una función o superficie de error asociada a la red

neuronal, buscando el estado estable de mínima energía o de mínimo error a través del camino descendente de la superficie del error. Por ello, realimenta el error del sistema para realizar la modificación de los pesos en un valor proporcional al gradiente decreciente de dicha función de error.

De acuerdo a lo estudiado en temas anteriores, existen cuatro aspectos que caracterizan

una red neuronal: su topología, el mecanismo de aprendizaje, tipo de asociación realizada entre la información de entrada y de salida, y por último, la forma de representación de estas informaciones. Basándose en estos estudios, la red backpropagation tiene como características principales las siguientes:

a) Topología: Es una red multicapas, del tipo feedforward. b) Mecanismo de aprendizaje: supervisado y utiliza un algoritmo de corrección de error

(regla delta generalizada). c) Tipo de asociación entre la información de entrada y de salida: Heteroasociativa. d) Forma de representación de la información de entrada y salida: Analógica.

Algoritmo de aprendizaje de la red backpropagation. En una red backpropagation (ver siguiente figura), existe una capa de entrada con n

neuronas, una capa de salida con m neuronas y al menos una capa oculta de neuronas internas. Cada neurona de una capa (excepto las de entrada) recibe entradas de todas las neuronas de la capa anterior y envía su salida a todas las neuronas de la capa posterior (excepto las de salida). No hay conexiones hacia atrás feedback ni laterales entre neuronas de la misma capa.

Arquitectura de una red backpropagation. A continuación se presentan, los pasos y fórmulas a utilizar para aplicar el algoritmo de

entrenamiento por retropropagación del error, usando una función de activación logística:

Paso 1 Inicializar los pesos de la red con valores aleatorios pequeños. Paso 2

pNppp xxxX ,,, 21 K=Presentar un patrón de entrada, , y especificar la salida deseada

que debe generar la red para dicho patrón: . Mddd ,,, 21 K

Paso 3 Calcular la salida actual de la red, para ello presentamos las entradas a la red y vamos

calculando la salida que presenta cada capa hasta llegar a la capa de salida ésta será la salida de la

red . Myyy ,,, 21 K

Los pasos son los siguientes:

- Se calculan las entradas para las neuronas ocultas procedentes de las neuronas de entrada. Para una neurona j oculta:

∑=

=N

ipi

hji

hpj xwnet

1 , en donde el superíndice h se refiere a magnitudes de la capa oculta (hidden); el subíndice

p, al p-ésimo vector de entrenamiento, y j a la j-ésima neurona oculta.

- Se calculan las salidas de las neuronas ocultas:

( )hpj

hjpj netfy =

.

- Se realizan los mismos cálculos para obtener las salidas de las neuronas de salida (capa o: output):

∑=

=L

jpj

okj

opk ywnet

1 ,

( )opk

okpk netfy =

. Paso 4 Calcular los términos de error para todas las neuronas.

- Si la neurona k es una neurona de la capa de salida, el valor de la delta es:

)y(y)y(d pkpkpkpkopk −−= 1δ

.

- Si la neurona j no es una neurona de la capa de salida, entonces la derivada parcial del error no puede ser evaluada directamente como ya se estudio anteriormente, y el valor de la delta es:

)x(xw pipi

k

okj

opk

hpj −=∑ 1δδ

, donde k se refiere a todas las neuronas de la capa superior a la de la neurona j. Así, el

error que se produce en una neurona oculta es proporcional a la suma de los errores conocidos que se producen en las neuronas a las que está conectada la salida de ésta, multiplicado cada uno de ellos por el peso de la conexión. Los umbrales internos (Bias) de las neuronas se adaptan de forma similar, considerando que están conectados con pesos desde entradas auxiliares de valor constante 1.

Paso 5 Actualización de los pesos. Para ello, utilizamos el algoritmo recursivo, comenzando por las neuronas de salida y

trabajando hacia atrás hasta llegar a la capa de entrada, ajustando los pesos de la forma siguiente:

- Para los pesos de las neuronas de la capa de salida:

( ) ( ) ( )11 +Δ+=+ twtwtw okj

okj

okj ,

obtenemos que:

( ) pjopk

okj ytw δα=+Δ 1

.

- Para los pesos de las neuronas de la capa oculta:

( ) ( ) ( )11 +Δ+=+ twtwtw hji

hji

hji ,

obtenemos que:

( ) pihpj

hji xtw δα=+Δ 1

. Paso 6 El proceso se repite hasta que él termino de error resulta aceptablemente pequeño.

P

ee

P

pp∑

== 1

, donde

∑=

−=M

kpkpkp )y(de

1

2

21

.

Consejos prácticos para el diseño de redes de retropropagación A continuación se estudiaran algunos consejos prácticos para un correcto y mejor

funcionamiento de la red de retropropagación, así como también algunas dificultades o problemas que presentan las redes de retropropagación.

Patrones de entrenamiento Desafortunadamente no existe una definición concisa y sencilla que sea aplicable a todos

los casos de los términos suficientes y adecuados con respecto a la selección de los vectores de entrenamiento para la red de retropropagación. Al igual que muchos aspectos de los sistemas de redes neuronales, la experiencia suele ser la mejor maestra. A medida que va uno adquiriendo soltura en la utilización de redes, se adquiere también un conocimiento acerca de la forma de seleccionar y preparar conjuntos de entrenamiento. Por tanto, lo que se va a dar aquí son unas cuantas ideas generales. En general, se pueden utilizar todos los datos que estén disponibles para entrenar la red, aunque quizá no sea necesario utilizarlos todos. Con cierta frecuencia, lo único que se necesita para entrenar con éxito una red es un pequeño subconjunto de los datos de entrenamiento de los que se dispone. Los datos restantes pueden emplearse para probar la red, con objeto de verificar que la red pueda llevar a cabo la asociación deseada al utilizar vectores de entrada que nunca haya encontrado durante el entrenamiento (capacidad de generalización de la red neuronal).

Si se está entrenando una red para que funcione en un entorno con ruido, entonces hay que

incluir unos cuantos vectores de entrada con ruido en el conjunto de datos. Algunas veces la adición de ruido a los vectores de entrada durante el entrenamiento ayuda a la red a converger, incluso en el caso de que no se espere ruido en las entradas.

La red de retropropagación admite bien la generalización. Lo que quiere decir aquí

generalización es que dados varios vectores de entrada distintos, todos los cuáles pertenecen a una misma clase, una red de retropropagación aprenderá a adaptarse a las similitudes significativas de los vectores de entrada. Los datos irrelevantes serán ignorados.

En contraste con las generalizaciones, la red de retropropagación, no extrapolará bien, si

esta se entrena de modo inadecuado o insuficiente empleando una clase concreta de patrones de entrada, la posterior identificación de miembros de esa clase puede ser imprecisa. Por lo tanto, debe asegurarse de que los datos de entrenamiento cubran todo el espacio posible de entradas esperado. Durante el proceso de entrenamiento, seleccione aleatoriamente los pares de patrones de entrenamiento del conjunto. En todo caso, no entrene por completo a la red con patrones de una misma clase, pasando después a otra clase; la red se olvidará del entrenamiento original.

Si la función de salida es una sigmoide, entonces será preciso aplicar una escala a los

vectores de entrada. Como consecuencia de la forma de la función sigmoidal, las salidas de la red nunca pueden alcanzar el cero ni el uno. Por tanto, hay que utilizar valores como 0.1 y 0.9 para representar los valores de entrada más pequeños y más grandes. Hay muchas posibilidades como éstas que dependen fuertemente del problema que se esté resolviendo.

Dimensionamiento de la red ¿Cuántos nodos se necesitan, exactamente, para resolver un problema concreto? ¿Basta

siempre con tres capas? Al igual que en el caso de las preguntas que se refieren a los datos correctos para el entrenamiento, no hay respuestas tajantes para preguntas de este tipo. En general, tres capas son suficientes. Hay veces, sin embargo, en que parece que un problema es más fácil de resolver con más de una capa oculta. En este caso, más fácil quiere decir que la red aprende más deprisa.

El tamaño de la capa de entrada suele venir dictado por la naturaleza de la aplicación. A

menudo, es posible determinar el número de nodos de salida decidiendo si se desean valores analógicos o valores binarios en las unidades de salida. Determinar el número de unidades que hay que utilizar en la capa oculta no suele ser tan evidente como lo es para las capas de entrada y de salida. La idea principal consiste en utilizar el menor número posible de unidades en la capa oculta, porque cada unidad supone un incremento en el número de cálculos. Seria muy atrevido ofrecer ideas generales muy concretas, sin embargo, de acuerdo a la experiencia, para redes de un tamaño razonable (cientos o miles de entradas), el tamaño de la capa oculta sólo necesita ser una fracción relativamente pequeña del que tiene la capa de entrada. Si la red no llega a converger para llegar a una solución, cabe en lo posible que se necesiten más nodos ocultos. Si converge, se puede probar con un número inferior de nodos ocultos y determinar un tamaño final basándose en el rendimiento global del sistema.

Pesos y parámetros de aprendizaje Los pesos deben inicializarse con valores pequeños y aleatorios (digamos entre ±0.5), al

igual que los pesos del Bias, θi, que aparecen en las ecuaciones de la entrada neta a cada unidad. Se suele tratar a este valor de umbral θi (Bias) como a un peso más, que está conectado a una unidad ficticia cuya salida es siempre 1, y como tal participa en el proceso de aprendizaje.

La selección de un valor para el parámetro de velocidad de aprendizaje α tiene un efecto

significativo en el rendimiento de la red. Normalmente, α debe ser un número pequeño (del orden de 0.05 a 0.25) para asegurar que la red llegue a asentarse en una solución. Un valor pequeño de α significa que la red tendrá que hacer un gran numero de iteraciones, pero este es el coste en que se incurre. Suele ser posible incrementar el valor de α a medida que progresa el aprendizaje. Aumentando a medida que disminuye el error de la red suele acelerar la convergencia incrementando el tamaño del paso conforme el error alcanza un valor mínimo, pero la red puede rebotar, alejándose demasiado del valor mínimo verdadero, si α llegara a ser demasiado grande.

Mínimos locales y mínimo global En las técnicas de gradiente decreciente es conveniente avanzar por la superficie de error

con incrementos pequeños de los pesos. Esto se debe a que tenemos una información local de la superficie y no se sabe lo lejos o lo cerca que se está del punto mínimo. Con incrementos grandes, se corre el riesgo de pasar por encima del punto mínimo sin conseguir estacionarse en él. Con incrementos pequeños, aunque se tarde más en llegar, se evita que ocurra esto. El elegir un incremento o paso adecuado influye en la velocidad con la que converge el algoritmo.

El algoritmo de backpropagation encuentra un valor mínimo de error (local o global)

mediante la aplicación de pasos descendentes (gradiente descendente). Cada punto de la superficie de la función de error corresponde a un conjunto de valores de los pesos de la red. Con el gradiente descendente, siempre que se realiza un cambio en todos los pesos de la red, se asegura el descenso por la superficie del error hasta encontrar el valle más cercano, lo que puede hacer que el proceso de aprendizaje se detenga en un mínimo local de error.

Por tanto, uno de los problemas que presenta este algoritmo de entrenamiento de redes

multicapa es que busca minimizar la función de error, pudiendo caer en un mínimo local o en algún punto estacionario, con lo cual no se llega a encontrar el mínimo global de la función del error. Sin embargo, ha de tenerse en cuenta que no tiene porqué alcanzarse el mínimo global en todas las aplicaciones, sino que puede ser suficiente con un error mínimo preestablecido.

Sección transversal de una superficie de error hipotética dentro del espacio de pesos.

El Cuestionario Esta técnica consiste en proporcionar a los encuestados, por escrito, una serie de preguntas

que devolverán después de haberlas contestado. En esta forma de acopio de datos, las preguntas se dan si en auxilio directo de quien hace la encuesta; por esta razón, la elaboración del cuestionario requiere de la suficiente claridad y precisión en las preguntas para evitar ambigüedades y prevenir posibles errores de interpretación. De hecho se puede intentar una aplicación preliminar, también llamada “cuestionario piloto”, pidiendo a compañeros que expliquen las preguntas para que se corrobore, antes de dirigirse a la muestra de la investigación, si efectivamente es lo que se quiere indagar.

Instrumentos para el uso del Cuestionario

• Cartas de presentación y de solicitud de colaboración. • Directorio. • Cuestionario. • Mapas y cuadros de control de la encuesta. • Permiso o franquicia postal.

Forma de las Preguntas Las preguntas pueden formularse de tres maneras: abiertas, cerradas y de elección

múltiple. Las preguntas abiertas son las que no presentan ninguna restricción a la respuesta; en este

tipo de pregunta el informante puede abundar hasta donde su capacidad y es espacio se lo permitan.

Por ejemplo: ¿A qué atribuye usted los problemas económicos de nuestro país? Se ha de considerar que este tipo de preguntas dificulta el manejo de la información

proporcionada. Las preguntas cerradas son un tipo de interrogantes que no dejan al informante más

opción que contestar con un “si” o un “no”, o “no se”. Por ejemplo: ¿Piensa que los problemas económicos de nuestro país se deben a la deuda externa? Si ( ) No ( ) No sé ( ) Debido a la facilidad para cuantificarse, este tipo de pregunta simplifica el manejo de las

respuestas. Las preguntas de elección múltiple son una variable de las preguntas cerradas. Consiste en

presentar junto a las preguntas las respuestas probables para que el interrogado las seleccione u ordene, según sea el caso. Por ejemplo:

Para cada pregunta que sigue, marque sólo una respuesta. ¿De qué origen son las causas de la actual crisis económica? Externo ( ) Administrativo ( ) Propio del sistema capitalista ( ) Dentro de este tipo de cuestiones caben las interrogantes con respuesta de abanico. Este

tipo de preguntas presenta al interrogado varias respuestas para que escoja una o más, según se le indique. Por ejemplo:

Señale tres respuestas a la siguiente pregunta: ¿Cuáles son las principales causas de la crisis económica de nuestro país? La carestía de los productos y los servicios ( ) El pago de intereses por la deuda externa ( ) El despilfarro de los recursos nacionales ( ) La baja productividad ( ) El exceso de importaciones ( ) La sobre valuación del dólar ( ) Los bajos salarios ( ) Los altos salarios de los funcionarios públicos ( ) La corrupción de los funcionarios públicos ( ) La falta de planificación ( ) La baja del precio del petróleo ( ) La ineptitud en la tona de decisiones en la política económica ( )

En este tipo de preguntas se abre la posibilidad de que el informante proporcione otra respuesta diferente a las presentadas, si al final se agrega “indique otras”.

Una variante de las cuestiones de opción múltiple la constituyen las preguntas de

estimación, las cuales presentan diversos grados referentes a la pregunta planteada. Por ejemplo: ¿Cómo considera las medidas adoptadas por el gobierno para neutralizar la crisis

económica? Muy adecuada ( ) Acertadas ( ) Aceptables ( ) Carecen de fundamento ( ) Son un desacierto ( ) Torpes ( ) Existe otra forma de plantear las preguntas, en la que las respuestas de unas generan una

nueva pregunta, llamada “preguntas en cascada”; al utilizarla conviene limitar la continuidad de las cuestiones únicamente a lo necesario y, si éstas son demasiadas, interrumpirlas de vez en cuando con las llamadas preguntas “colchón”.

Ejemplo de preguntas que generan otras:

• ¿Se han equivocado alguna vez en los resultados de los análisis que le han practicado? Si ( ) No ( )

• Si la respuesta anterior es positiva, señale cuáles fueron las consecuencias: o Buscaron los resultados correctos ( ) o Le volvieron a practicar otros análisis ( ) o Agravó porque pasó tiempo mientras le practicaban otros análisis ( )

• Si buscaron los resultados correctos, ¿Cuánto tiempo trascurrió hasta que se los

entregaron? o Un día ( ) o Más de tres días ( ) o Una semana ( )

En ocasiones, para confirmar, se reitera el contenido de la pregunta y se intercala entre las

demás. Este recurso (pregunta prueba) se usa para verificar que el entrevistado es constante en sus juicios. Por ejemplo:

• ¿Qué opina de su viaje?

Fue bueno ( ) Regular ( ) Malo ( )

• ¿Le gustaría regresar? Si ( ) No ( )

• ¿Lo recomendaría a sus amigos que aprecia?

Si ( ) No ( )

• ¿Es lo que usted esperaba? Si ( ) No ( ) Es muy importante, al formular las preguntas, cuidar que en su redacción no haya el

menor indicio que sugiera una respuesta. Ejemplo de preguntas que imponen la respuesta al entrevistado:

• Usted no quiere hablar ahora de política. Simplemente hable de usted y de su tierra que debe ser lo que realmente le interesa, ¿o no?

Técnicas para el empleo del cuestionario Las preguntas deben formularse con toda claridad. Recordemos que no es posible asistir al

interrogado en caso de dudas; por lo que deben hacerse todas las aclaraciones que sean necesarias. Debemos tomar en cuenta las demoras de correo, en el caso de que la encuesta sea por correo. Además:

• Procurar que los cuestionarios estén en manos de los informantes en días en que no tienen

mucho trabajo. Evitar las fechas que representan mucha actividad o que sean días festivos.

• Enviar previamente una nota explicando el trabajo que se realiza y agradecer de antemano la colaboración que se espera del destinatario.

• Manifestar también nuestra intención de divulgar el resultado del estudio, indicando en dónde se publicará o de qué forma los informantes podrán enterarse de él.

• Enviar, junto con el cuestionario, una nota con indicaciones precisas de cómo devolverlo.

• Dar una presentación al cuestionario, pues ello resulta importante, funcional y agradable (buen papel, formato y tipo de letra apropiados).

Desarrollo de la Interfaz

En la etapa de desarrollo de sistemas siempre es una parte cardinal la selección de plataformas de ejecución para los mismos, esta en la mayoría de las ocasiones y claro, en el mejor de los casos no define el uso del lenguaje a utilizar para programar cierto sistema, por ejemplo el lenguaje C, puede ser programado y pueden compilarse u utilizarse los códigos fuente sin cambios significativos en diferentes plataformas como lo son los sistemas Linux, Windows y también MAC OS X, lo que provee de una gran portabilidad al programa en sí.

En la actualidad cuando se escucha el termino “Programa” viene a la mente un software

que es capaz de realizar determinadas tareas o procesos con beneficios y bondades que lo caractericen, sin embargo para las personas que tienen un grado de familiarización en el mundo de la computación la idea que generaron no es monopolizada por la idea que el programa debe de ser una o varias “Ventanas”, que proporcionen determinados resultados, sino que también viene a la mente aplicaciones y herramientas monitor de consola en comandos, aplicaciones Web, Scripts, entre otras.

Desafortunadamente para las personas que comienzan por el camino de la computación muchos términos son desconocidos y por tanto sus principales conceptos de los programas son ventanas que se abren y cierran teniendo así muy lejana el saber de la existencia de programas como los mencionados anteriormente.

Cuando principalmente se plantea la idea de llevar a cabo la programación de una red neuronal, se tiene en mente que se deben de realizar un determinado número de operaciones matemáticas, operaciones que tendrán predeterminadas características, haciendo esto una inclinación de los programadores hacia los lenguajes que proporcionen facilidades en el manejo de estos requerimientos, por mencionar algunos tenemos a Derive, Octave, Matemática, Maple, Matlab entre otros, programas que son especializados para el manejo de expresiones matemáticas y calculo de las mismas, cabe mencionar que en algunos software es posible crear un archivo binario, mejor conocido como ejecutable que se puede llevar de un equipo a otro sin la necesidad de tener el lenguaje origen donde se escribió, así como se hace en los programas “C” es posible por ejemplo en Matlab, esto siguiendo una serie de pasos predefinidos.

Cuando se habla de un archivo ejecutable proporcionado por los lenguajes anteriormente mencionados es bien sabido que las características graficas son secundarias y no muy atractivas y a veces incompletas para el fácil manejo de personas que no estén relacionadas con ejecuciones que deban de cumplir ciertas condiciones, por ejemplo determinada memoria RAM, cierta velocidad en el procesador, un espacio en disco duro necesario, etc. Es así que en base a que Microsoft ® ha establecido algún tipo de estándares para la ejecución de sus programas basados en ventanas la opción de desarrollar en el lenguaje de Visual Basic ha sido muy tentadora de utilizar, debido que nos proporciona un ambiente conocido por la mayoría de las computadoras y de las personas usuarios de PC. Este ambiente es de fácil manejo he incluso un paquete puede ser de fácil distribución y instalación, sin embargo no es completamente utilizable en sistemas como Linux o MAC OS X, lo cual hace que para muchos proyectos que requieren de la participación de usuarios (sin importar que tipo de computadora tengan o que sistema operativo, siempre y cuando este o esta sea capaz de navegar o visualizar una página de Internet) sea indistinta a su ejecución y siempre igual al modo operativo para entregar resultados, orienta al programador hacia el rumbo de aplicaciones Web y el manejo de la información, como el procesado o almacenamiento de información en un sistema que le acomode a sus necesidades y que tenga acceso para poder ofrecer el sistemas a demás usuarios.

Así las necesidades de poder utilizar el sistema en diferentes plataformas nos ha orientado al uso de tecnologías de aplicaciones Web, dentro de las cuales existen diferentes tipos de herramientas como por ejemplo Formularios, Bases de Datos, Servicios http, entre varios más, donde cabe mencionar que el uso del lenguaje a utilizar para programar no deja de convenir uno

que sea poderoso en cuanto a características especificas de manejo de información y trabajo o creación de funciones matemáticas.

Entonces con lo mencionado anteriormente se toma la decisión de orientar el sistema más aya de solo plataformas Windows ®, llevando los alcances de aplicación a toda aquella plataforma operativa capaz de conectarse a un servicio “http” y mostrar información en formato HTML, lo que se adoptan herramientas como las siguientes:

• Servidor http: Apache 2 • Lenguaje de programación: PHP 5 • Manejador de B.D.: MySQL Server 5 • S.O. para el servidor: Microsoft Windows XP SP 2 en red LAN o WAN

Servidor HTTP Apache

El servidor HTTP Apache es un servidor HTTP de código abierto para plataformas Unix (BSD, GNU/Linux, etcétera), Windows y otras, que implementa el protocolo HTTP/1.1 (RFC 2616) y la noción de sitio virtual. Cuando comenzó su desarrollo en 1995 se basó inicialmente en código del popular NCSA HTTPd 1.3, pero más tarde fue reescrito por completo. Su nombre se debe a que originalmente Apache consistía solamente en un conjunto de parches a aplicar al servidor de NCSA. Era, en inglés, a patchy server (un servidor parcheado).

El servidor Apache se desarrolla dentro del proyecto HTTP Server (httpd) de la Apache Software Foundation.

Apache presenta entre otras características mensajes de error altamente configurables, bases de datos de autenticación y negociado de contenido, pero fue criticado por la falta de una interfaz gráfica que ayude en su configuración.

En la actualidad (2005), Apache es el servidor HTTP más usado, siendo el servidor HTTP del 70% de los sitios web en el mundo y creciendo aún su cuota de mercado (estadísticas históricas y de uso diario proporcionadas por Netcraft).

Lenguaje de programación PHP

PHP (acrónimo recursivo de "PHP: Hypertext Preprocessor", originado inicialmente del nombre PHP Tools, o Personal Home Page Tools) es un lenguaje de programación interpretado, con licencia open-source.

Visión General

El fácil uso y la similaridad con los más comunes lenguajes de programación estructurada, como C y Perl, permiten a la mayoría de los programadores experimentados crear aplicaciones

complejas con una curva aprendizaje muy suave. También les permite envolverse con aplicaciones de contenido dinámico sin tener que aprender todo un nuevo grupo de funciones y prácticas.

Debido al diseño de PHP, también es posible crear aplicaciones con una interfaz gráfica para el usuario o GUI, utilizando la PHP-GTK. También puede ser usado desde la Línea de comandos, como Perl o Python.

Su interpretación y ejecución se da en el servidor en el cual se encuentra almacenada la página y el cliente solo recibe el resultado de la ejecución. Cuando el cliente hace una petición al servidor para que le envíe una página web, enriquecida con código PHP, el servidor interpretará las instrucciones mezcladas en el cuerpo de la página y las sustituirá con el resultado de la ejecución antes de enviar el resultado a la computadora del cliente. Además es posible utilizarlo para generar archivos PDF, Flash o JPG, entre otros.

Permite la conexión a numerosas bases de datos de forma nativa tales como MySQL, Postgres, Oracle, ODBC, IBM DB2, Microsoft SQL Server y SQLite, lo cual permite la creación de Aplicaciones web muy robustas.

PHP tiene la capacidad de ser ejecutado en la mayoría de los sistemas operativos tales como UNIX, Linux, Windows y Mac OS X, y puede interactuar con los servidores de web más populares.

El modelo PHP puede ser visto como una alternativa al sistema de Microsoft que utiliza ASP.NET/C#/VB.NET, a ColdFusion de la compañía Macromedia, a JSP/Java de Sun Microsystems, y al famoso CGI/Perl. Aunque su creación y desarrollo se da en el ámbito de los sistemas libres, bajo la licencia GNU, existe además un compilador comercial denominado Zend Optimizer.

Usos de PHP

Los principales usos del PHP son los siguientes:

• Programación de páginas web dinámicas, habitualmente en combinación con el motor de base datos MySQL, aunque cuenta con soporte nativo para otros motores, incluyendo el estándar ODBC, lo que amplia en gran medida sus posibilidades de conexión.

• Programación en consola, al estilo de Perl, en Linux, Windows y Macintosh.

• Creación de aplicaciones gráficas independientes del navegador, por medio de la

combinación de PHP y GTK (GIMP Tool Kit), que permite desarrollar aplicaciones de escritorio tanto para los sistemas operativos basados en Unix, como para Windows y Mac OS X.

Ventajas de PHP

• Capacidad de conexión con la mayoría de los manejadores de base de datos que se utilizan en la actualidad.

• Leer y manipular datos desde diversas fuentes, incluyendo datos que pueden ingresar los usuarios desde formularios HTML

• Capacidad de expandir su potencial utilizando la enorme cantidad de módulos (llamados ext's o extensiones).

• Posee una muy buena documentación en su página oficial. • Es Libre, por lo que se presenta como una alternativa de fácil acceso para todos. • Permite las técnicas de Programación Orientada a Objetos.

MySQL

MySQL es uno de los Sistemas Gestores de bases de Datos (SQL) más populares desarrolladas bajo la filosofía de código abierto.

La desarrolla y mantiene la empresa MySQL AB pero puede utilizarse gratuitamente y su código fuente está disponible.

Características

Inicialmente, MySQL carecía de elementos considerados esenciales en las bases de datos relacionales, tales como integridad referencial y transacciones. A pesar de ello, atrajo a los desarrolladores de páginas web con contenido dinámico, justamente por su simplicidad; aquellos elementos faltantes fueron llenados por la vía de las aplicaciones que la utilizan.

Poco a poco los elementos faltantes en MySQL están siendo incorporados tanto por desarrollos internos, como por desarrolladores de software libre. Entre las características disponibles en las últimas versiones se puede destacar:

• Amplio subconjunto del lenguaje SQL. Algunas extensiones son incluidas igualmente. • Disponibilidad en gran cantidad de plataformas y sistemas. • Diferentes opciones de almacenamiento según si se desea velocidad en las operaciones o

el mayor número de operaciones disponibles. • Transacciones y claves foráneas. • Conectividad segura. • Replicación. • Búsqueda e indexación de campos de texto.

MySQL en cifras

Según las cifras del fabricante, existirian más de seis millones de copias de MySQL funcionando en la actualidad, lo que supera la base instalada de cualquier otra herramienta de bases de datos. El tráfico del sitio web de MySQL AB supera en 2004 el tráfico del sitio de IBM.

Qué licencia utilizar

La licencia GPL de MySQL obliga a distribuir cualquier producto derivado (aplicación) bajo esa misma licencia. Si un desarrollador desea incorporar MySQL en su producto pero no desea distribuirlo bajo licencia GPL, puede adquirir la licencia comercial de MySQL que le permite hacer justamente eso.

Sistema Propuesto La figura siguiente muestra un diagrama a bloques del sistema propuesto, posteriormente

se explica a detalle cada uno de los bloques que componen el sistema.

Selección dealumnos

Aplicación decuestionarios

Captura dedatos

Entrenamientode la RNA

Prueba de laRNAResultados

Arquitecturade la RNA

Conclusiones

Diagrama a bloques del sistema propuesto.

Selección de alumnos. En la fase de selección de alumnos se tomo una muestra de 180, de los cuales 80 de ellos

ya habían desertado de la escuela por los diversos factores mencionados ya anteriormente, los restantes 100 alumnos fueron seleccionados de acuerdo a su perfil académico, se seleccionaron alumnos regulares, es decir, aquellos que nunca han reprobado materias, o aquellos que han reprobado materias pero no adeudan ninguna hasta el momento.

Aplicación de cuestionarios. A continuación se muestran las pantallas de la interfaz de cómputo realizada para llevar a

cabo la captura de los datos de los cuestionarios aplicados a los alumnos. Antes de que se pueda entrar a realizar el cuestionario de evaluación es necesario que el usuario se de de alta en el sistema solo para conocer algunos datos como su nombre, grupo, boleta y carrera únicamente para tener un registro de las personas que han dado uso al sistema.

Asignación de Usuarios y Contraseñas Una vez realizada la acción de registro en el sistema se le proporcionará al usuario un

campo “login” y un campo de contraseña que le servirán para poder identificarse con el sistema y acceder al cuestionario, estos datos son permanentes y son almacenados en la base de datos en tablas diferentes a las que contienen los datos personales del usuario.

Paso del cuestionario a aplicar Consistiendo en tres fases de preguntas, se llevó a cabo el traslado del cuestionario a

formato de formularios en HTML que se relación con ayuda de PHP a sesiones por usuario que guardan las respuesta que se proporcionan durante todo el recorrido del cuestionario.

Sección Económica

Sección Social

Sección Académica

Captura de datos. En esta fase a cada una de las preguntas del cuestionario se le asigno un valor decimal en

un rango de -1 a 1, debido a que se utilizo una función de activación de tipo tangencial para el entrenamiento de la red. Se generaron dos grupos de patrones (archivos de datos), el primero corresponde a los patrones de entrenamiento de la red neuronal, formado por 150 muestras de las cuales 80 corresponden a alumnos regulares y los restantes a alumnos desertores. Al segundo grupo se le clasifica como patrones de prueba y esta compuesto por 30 muestras donde 20 corresponden a alumnos regulares y las muestras restantes corresponden a alumnos desertores.

Arquitectura de la red neuronal. La arquitectura de la red neuronal empleada para este sistema es 39-20-2, es decir 39

neuronas en la capa de entrada; 20 neuronas en la capa oculta (el numero de neuronas de la capa oculta se obtiene a partir de prueba y error, ya que no existe una regla en particular para determinar la cantidad de neuronas en la capa oculta, se probo la red para 10, 15 , 20 y 25 neuronas en la capa oculta, observando que con 20 neuronas se obtuvo un buen porcentaje de reconocimiento) y por ultimo 2 neuronas en la capa de salida, ya que el sistema requiere de dos tipos de respuesta, la primera de ellas indica que el alumno tiene un alto riesgo de deserción, es decir una de las neuronas esta activa y la otra esta inactiva, para la segunda respuesta sucede el caso contrario y se determina que el alumno no esta en riesgo de deserción.

Entrenamiento de la red neuronal. El entrenamiento se llevo a acabo para encontrar los pesos adecuados que generalicen el

problema en base a los patrones de entrenamiento. Los factores que intervienen en el entrenamiento de la red neuronal tienen los siguientes valores:

• Patrones de entrenamiento: 150 • Función de activación: tangencial. • Error cuadrático medio (MSE):0.1 • Factor de convergencia (α): 0.05 • Número de iteraciones (epochs):6x104

Prueba de la red neuronal. Una vez encontrados los pesos adecuados para resolver este problema, es decir cuando el

error cuadrático medio mínimo (MSE) es menor a 0.1, se probo la red neuronal con 30 patrones de prueba, esto con la finalidad de determinar la capacidad de generalización de la red neuronal, con patrones los cuales no fueron incluidos durante el entrenamiento de la red (30 patrones los cuales incluye 20 patrones de alumnos regulares y 10 de alumnos desertores), reconociendo por medio de los resultados que alumnos están en riesgo de deserción y cuales no.

RESULTADOS Como se mostró anteriormente se hizo una amplia investigación sobre los conceptos y

antecedentes necesarios para abordar el tema de la deserción y así de esta manera proponer una forma innovadora de resolución de este grave problema. Dentro de estos conceptos sobresale la manera en que se abordo el problema de los cuestionarios al tener una descripción clara de lo que son, para que sirven y como se elabora un cuestionario.

Posteriormente se hizo una amplia investigación sobre las redes neuronales, sus

capacidades, características, ventajas, desventajas y posible aplicación de las mismas en la solución del problema planteado, dando como resultado un buen desempeño de estas al resolver el problema.

También se llevo a cabo el diseño de una interfaz de computo la cual era muy sencilla de

utilizar para el estudiante, de la cual se muestran las diferentes pantallas utilizadas en la misma al llenar un cuestionario por un alumno, cabe mencionarse que la interfaz fue desarrollada para ser aplicada sobre Internet con las herramientas que se mencionaron en párrafos anteriores.

La tabla siguiente muestra los resultados obtenidos en la fase de entrenamiento y prueba de la red neuronal de retropropagación.

Patrones de Entrenamiento

Porcentaje de Reconocimiento

Patrones de Prueba Porcentaje de Reconocimiento

150 94.72 % 30 83.35 %

Porcentaje de reconocimiento de los patrones de entrenamiento. En la fase de entrenamiento el reconocimiento fue del 94.72%, con lo que 5 patrones no

fueron reconocidos por la red, este resultado nos indica que la red fue capaz de generalizar los patrones de entrenamiento encontrando los pesos adecuados, utilizando dichos pesos se obtuvo un 83.35% de reconocimiento en la fase de prueba, es decir de los 30 patrones tomados para la prueba solo 5 de ellos no fueron reconocidos por la red.

IMPACTO De acuerdo a los resultados anteriores cabe señalar que el empleo de una red neuronal

para predecir que alumnos necesitan orientación para evitar la deserción es eficiente. Por tal motivo este sistema se puede aplicar a alumnos que ingresen al nivel superior en el área de ciencias físico matemáticas del IPN, detectando y canalizándolos de manera oportuna al área correspondiente, previniendo y evitando así todos los problemas familiares y sociales que conlleva la deserción escolar. Basándonos en los resultados obtenidos, se puede concluir que los patrones no aprendidos por la red neuronal, se debieron a que en esos casos en especifico, las preguntas no fueron contestadas de manera veraz, con lo cual la red no pudo generalizar el problema; debido a esto se recomienda que se haga mucho hincapié en que los cuestionarios sean contestados de manera veraz, ya que esto servirá para el propio beneficio del alumno. Una meta futura para esta investigación es incrementar el porcentaje de reconocimiento en los patrones de prueba, esto se lograra incrementando la base de datos con el objetivo de que la red neuronal generalice el problema con un universo más amplio, tomando en cuanta también a otras escuelas del propio instituto.

REFERENCIAS

Camarena, C., Rosa M. et. al., (1985). Reflexiones en torno al rendimiento escolar y a la eficiencia terminal. Revista de la Educación Superior, (53), ANUIES, pp. 34-63. Freeman, JA .y Skapura, DM. (1993). Redes Neuronales, algoritmos, aplicaciones y técnicas de programación. México: Addison-Wesley. Hilera, JR. y Martínez, VJ. (2000) Redes Neuronales Artificiales, fundamentos, modelos y aplicaciones. México: Alfaomega. Universidad Autónoma Metropolitana. (1988). Análisis cuantitativo de la deserción escolar, DIPLADI-UAM, 250 p. Osorio, J., (1982). Factores que inciden en la deserción escolar a nivel superior, Reporte de investigación, No. 68, Universidad Autónoma Metropolitana Azcapotzalco, 53 p. Rumelhart, DE. and McClelland, JL. (1986). Parallel Distributed Processing. EUA: MIT Press. Tinto, V. (1982). Definir la deserción: una cuestión de perspectiva. San Francisco: New Directions Institutional Research.

Documents

Informe Final - CGPI 20050626sappi.ipn.mx/cgpi/archivos_anexo/20050626_2129.pdf · herramientas necesarias para superar las deficiencias académicas. ... los que derivan de disponer