Métodos Matemáticos para la Minería de Datos: La red ... análisis, sino de metodologías completas deﬁnidas para su implementación en sistemas de software. En cuanto a la etapa

Métodos Matemáticos para la Minería de Datos:La red neuronal SOM como Herramienta para elAnálisis y Visualización de grandes volumenes

de información Digital

Elio Atenógenes Villaseñor García

18 de octubre de 2006

Índice

1. Introducción 2

2. Análisis Exploratorio de Datos 42.1. Visualización de Datos . . . . . . . . . . . . . . . . . . . . . . . . 42.2. Cuantización Vectorial . . . . . . . . . . . . . . . . . . . . . . . . 62.3. Métodos de Proyección . . . . . . . . . . . . . . . . . . . . . . . . 92.4. Métodos de Clustering . . . . . . . . . . . . . . . . . . . . . . . . 10

3. El algoritmo SOM 163.1. Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.3. Etapas del entrenamiento . . . . . . . . . . . . . . . . . . . . . . 19

4. Análisis Exploratorio con el SOM. 204.1. El SOM como método de proyección . . . . . . . . . . . . . . . . 204.2. La cuantización vectorial en el SOM. . . . . . . . . . . . . . . . . 214.3. Problemas Matemáticos en el Análsis del SOM . . . . . . . . . . 224.4. Convergencia y Auto-organización . . . . . . . . . . . . . . . . . 224.5. Preservación de la Topología . . . . . . . . . . . . . . . . . . . . 25

5. Aplicaciones y Desarrollo de Sistemas de Software Basados enel SOM 265.1. Sistema de Software para el análisis del SOM . . . . . . . . . . . 265.2. Metodología ViBlioSOM . . . . . . . . . . . . . . . . . . . . . . . 275.3. Aplicación del SOM a la Bibliometría . . . . . . . . . . . . . . . 28

6. Conclusiones 33

1

1. IntroducciónEn el contexto tecnológico actual es común encontrar campos en donde se

producen grandes cantidades de datos digitales, estos datos son acumulados enautenticas bodegas y en muchas ocasiones la información contenida en estosdatos no es aprovechada. "La tecnología actual hace muy fácil colectar datos,sin embargo, el análisis tiende a ser lento y computacionalmente costoso"[29].Los sistemas de “Descubrimiento de Conocimiento en Bases de Datos” (KDD

por sus siglas en ingles), surgen como respuesta a esta problemática; tienen co-mo principal etapa a la “Minería de Datos”, donde se aplican métodos de lainteligencia computacional en combinación con métodos del análisis explorato-rio de datos, con la finalidad de buscar patrones, clasificar datos o encontrarrelaciones entre las variables.Los sistemas de KDD son herramientas interactivas que involucran proce-

sos automáticos de análisis de información, pero también toma de decisiones.Brachman & Anand [6] señalan que antes de iniciar el proceso es necesario desar-rollar un entendimiento del dominio de la aplicación, de manera que sea posibleidentificar la meta del proceso KDD desde el punto de vista del beneficiario.En la figura 1 se despliega de manera esquemática la sucesión de etapas queconstituyen el proceso KDD:

Figura 1: Representación esquemática del proceso KDD.

El diseño y desarrollo de sistemas KDD plantea varios retos que van desdela conformación de las bases de datos, hasta la representación visual de la infor-mación extraída. Ésto implica la necesidad no sólo de métodos y herramientas

2

de análisis, sino de metodologías completas definidas para su implementaciónen sistemas de software.En cuanto a la etapa de Minería de Datos, dado el gran volumen de datos y

su alta dimensionalidad, resulta poco factible la aplicación de técnicas clásicaspara la exploración de datos, como son: el análisis por componentes principaleso los métodos de clustering.Las redes neuronales poseen la capacidad de procesar grandes cantidades

de datos multidimensionales; sin embargo, algunos de los algoritmos de entre-namiento, suponen que se cuenta con información que es utilizada para çorre-gir"el desempeño de la red por medio de un proceso de entrenamiento super-visado. Por lo tanto también resulta poco factible abordar esta problemáticautilizando una red neuronal de este tipo.Una alternativa para la solución a esta problemática es el uso de redes neu-

ronales de aprendizaje no supervisado. Por ejemplo, el modelo SOM (Self Or-ganizing Maps) es una red neuronal de aprendizaje no supervisado, capaz deencontrar y descubrir, de manera automática, patrones de similitud dentro delconjunto de datos de entrenamiento [2]; y agrupar a los elementos de este enlas distintas neuronas de la capa de salida, de manera que datos similares seagrupen dentro de la misma neurona o en neuronas cercanas. Estas estructuraspueden descubrirse sin ningún tipo de retroalimentación con el medio externo ysin la utilización de información a priori.La ausencia de información previa hace necesario contar con algún mecan-

ismo auto-organizante. Este mecanismo debe estar basado en algún criterio desimilitud para que así, la organización de los datos corresponda a grupos de datossemejantes entre sí. De esta manera la evolución de la red neuronal, durante elproceso de entrenamiento, estará dirigida a hacer emerger una representaciónde las relaciones derivadas a partir de la similitud entre los datos.El mecanismo auto-organizante que se propone en el SOM tiene como resul-

tado una representación de la estructura geométrica (orden topológico) subya-cente en el conjunto de datos de entrenamiento, dicha representación es posi-ble gracias a la auto-organización topográfica de las neuronas de acuerdo a lasrelaciones de similitud entre los datos representadas por la cercanía entre lasneuronas.En este sentido, el SOM constituye un mecanismo que brinda la posibilidad

de producir automáticamente una representación visual del conjunto de datospor medio de un mapa bidimensional. De manera que en dicha representaciónse haga evidente la emergencia de propiedades que ayuden a entender el ordengeométrico subyacente en el conjunto de datos.La capacidad de procesar y organizar de manera automática grandes can-

tidades de datos de los cuales no se cuenta con información previa, hacen quelas redes neuronales artificiales de aprendizaje no supervisado, constituyan her-ramientas idóneas para la minería de datos.A pesar de su amplio uso y del éxito que han tenido en el terreno de las apli-

caciones, estos métodos de generación de mapas auto-organizados no están sufi-cientemente fundamentados: aún no se cuenta con demostraciones matemáticasformales que garanticen la exactitud o la veracidad, de los resultados obtenidos

3

con algoritmos SOM.En este trabajo se hace una descripción matemática de los métodos clásicos

del análisis exploratorio de datos así como del SOM. Posteriormente, se ilustranlas formas en las cuales se relacionan los resultados obtenidos por la red neuronalcontra los obtenidos por los métodos clásicos. También se hace un revisión delos problemas matemáticos que trae consigo el análisis del SOM y las formasen que han sido abordados. En la última sección se reportan el desarrollo desistemas de software y aplicaciones bibliométricas basadas en el SOM, en loscuales he colaborado en los últimos años.

2. Análisis Exploratorio de DatosPara cubrir la necesidad de contar con métodos para la exploración de

grandes conjuntos multidimensionales, surge en los años setenta la escuela delanálisis exploratorio de datos (EDA). Este planteamiento, con origen en eltrabajo de Tukey [29], tiene como principal fundamento al método científico;por lo tanto, el primer paso en el análisis de datos debe ser la observación yla generación de hipótesis acerca de propiedades subyacentes en el conjunto dedatos.Debido a que los problemas que se tratan involucran un gran número de

variables y de datos, la eficiencia computacional y la escalabilidad son temas degran importancia para la aplicación de estos métodos. Por ejemplo, técnicas de-sarrolladas dentro del enfoque estadístico, normalmente involucran operacionescomputacionalmente costosas (por ejem. inversión de matrices). En consecuen-cia, la aplicación directa de estos métodos sobre grandes conjuntos de datos, enmuchos casos resulta inoperante. Por lo tanto, es apremiante contar con métodosque reduzcan el volumen de datos.La mayoría de estos métodos consideran un universo muestral U, de manera

que los conjunto de datos X consisten de una colección finita de elementos deU, i.e. X = {x1, x2, ..., xm} ⊆ U. En muchos casos se considera que U ⊆ M con(M.d) un espacio métrico, normalmente U ⊆ Rn.En los casos donde n < 4, el problema de ilustrar las estructuras se reduce

a un problema de graficación. Sin embargo, se está suponiendo que n ≥ 4, porlos tanto los métodos de visualización de los resultados deben ser capaces derepresentar visualmente estructuras que se presentan en espacios multidimen-sionales.

2.1. Visualización de Datos

Existen métodos para representar visualmente un vector multidimensional,uno de los más simples es una gráfica bidimensional en la cual cada una delas componentes están enumeradas en el eje las abscisas y sus correspondientesvalores en el eje ordenadas, teniendo como resultado un gráfica de barras. Unmétodo muy similar es el de la curva de Andrews [?], en donde los valoresen las componentes de los vectores de datos son utilizados como coeficientes

4

Figura 2: Técnicas de Visualización de Datos: (a) Histograma o Perfil, (b) Es-trella, (c) Curva de Andrews, (d) Cara de Chernoff.

de una senoidal. Otro ejemplo es dejando que las componentes representen lalongitudes de los rayos emanantes del centro de una estrella.El más famoso de estos despliegues visuales son las caras de Chernoff [?].

Cada componente determina el tamaño, localización o forma de algún rasgo deuna caricatura facial. Por ejemplo, una componente es asociada con la boca, otracon la separación de los ojos, otra con el tamaño de la nariz, etc. En la figura2 se puede observar la aplicación de cada uno de estos métodos a un vectorde datos de dimensión 10. Una vez elegido el método de representación visual,cada dato quedará representado por un ícono. Para la visualización de todo elconjunto de datos, una alternativa es la utilización de una gráfica bidimensionalde dispersión. En esta gráfica se deja que dos componentes de los vectores dedatos sean asignados a la localización de un ícono en el plano cartesiano y elresto de las dimensiones serán asignadas a propiedades del ícono. En la figura3 se puede apreciar la aplicación de este método utilizando caras de Chernoff.La mayor desventaja de estos métodos es que no reducen la cantidad de

datos. Si el conjunto de datos es muy grande, el despliegue consistente de lasrepresentaciones de todos los datos presentados por separado, será muy difícilde interpretar o incluso incomprensible. Sin embargo, los métodos pueden serútiles para ilustrar algunos sumarios producidos a partir del conjunto de datos.

5

Figura 3: Visualización con caras de Chernoff y proyección en el plano.

2.2. Cuantización Vectorial

Una alternativa para reducir el número de datos se encuentra en los méto-dos de cuantización vectorial. En estos métodos se parte del supuesto de queU ⊆M con (M.d) un espacio métrico. La principal idea de estos métodos cosisteen comprimir la información al representar a todos los elementos de un conjuntode datos X ⊆ U, por un conjunto finito de vectores W = {w1, w2, ...wk} ⊆ M,donde se piensa que k << m. Al conjunto W se le llama vectores codifi-cadores y dado elemento x ∈ U, el codificador en W de x, wc(x) ∈ W , sedetermina de la siguiente manera:

d(x,wc(x)) = mın {d(x,wi) | i = 1, ..., k} , (1)

Dado un elemento w ∈ W se puede considerar el conjunto Vw de todos loselementos codificados por w:

Vw =©x ∈ X | wc(x) = w

ª, (2)

el cual se conoce como conjunto de Voronoi. Nótese que X =S

υ∈WVυ, ya que

para x ∈ X la función d(x, )|W tiene un w mínimo en W por lo tanto x ∈ Vw.Del mismo modo se pueden considerar todos los elementos del universo, de

manera que cada w ∈W determina una región de Vw ⊆ U denominada regiónde Voronoi:

Vη =©x ∈ U | wc(x) = η

ª, (3)

6

por la misma razón que el caso de los conjuntos de Voronoi, se tiene queU =

Sυ∈W

Vυ.

Los métodos de cuantización vectorial buscan encontrar un conjunto óptimode vectores codificadores W . Dado un conjunto de datos X ⊆ U y un conjuntoW de vectores codificadores para este conjunto, se pueden definir medidas paradeterminar qué tan bien se representa el conjunto de datos por los vectorescodificadores; una de estas medidas es la conocida como promedio de erroresde cuantización cuadrados que se expresa de la siguiente manera:

errV Q =X

w∈W∗

Xx∈Vη

d(x,wi)2

#(Vη)(4)

donde W ∗ = {w ∈W | Vw 6= ∅}.En el caso de que U ⊆ Rn, normalmente se utiliza la métrica Euclidiana

como función de distancia. La siguiente proposición caracterisa a las regionesde Voronoi en estos casos.

Proposition 1 Supongase que d es la métrica Euclidiana y U = Rn, sea w ∈W ∗, entonces:

1. Vw es cerrado.

2. x ∈ ∂Vw ⇔ ∃υ ∈W,d(x,w) = d(x, υ).

3. La frontera de Vw cumple con:

∂Vw = Vw ∩ ([

υ∈W∗\{w}Vυ). (5)

4. Si Vw ∩ Vυ 6= ∅ entonces es un subconjunto de un hiperplano de dimensiónn− 1.

Proof.

1. Sea {xn} ⊂ Vw tal que xn −→ x. {xn} ⊂ Vw ⇔ ∀nf ∀υ ∈ W,d(xn, w) ≤d(xn, υ) y como ∀w ∈ Rn, d( , w) : Rn −→ R es continua entonces, sixn −→ x =⇒ ∀i, d(x,w) ≤ d(x− wi) ∴ x ∈ Vw.

2. Sea x ∈ ∂Vw, x ∈ Vw,⇔ x /∈ intVw ⇔ @ > 0 tal que ∀y ∈ B (x)∀υ, d(y,w) <d(y, υ)⇔ ∃υ ∈W,d(x,w) = d(x, υ).

3. Si ∂Vw = ∅ ⇒ ∀x ∈ Vw, x es punto interior⇒ Vw es abierto y por elinciso anterior Vw es cerrado ⇒ Vw = ∅ g Vw = Rn, por hipótesis Vw 6=∅ ⇒ Vw = Rn ⇒ W = {w} ⇒ Vw ∩ (

Sυ∈W∗\{w}

Vυ) = ∅. Por el inciso 2,

x ∈ ∂Vw ⇔ ∃υ ∈ W,d(x,w) = d(x, υ) ⇔ ∃υ ∈ W, x ∈ Vw ∩ Vυ ⇔ x ∈Vw ∩ (

Sυ∈W∗\{w}

Vυ).

7

Figura 4: Cuantización vectorial en R2

4. Por el inciso 2 y 3, x ∈ Vw ∩ Vυ ⇔ d(x,w) = d(x, υ) ⇔nPi=1(xi − wi)

2 =

nPi=1(xi − υi)

2 ⇔nPi=12(υi − wi)xi −

nPi=1(υ2i − w2i ) = 0 pero esta es una

ecuación de un hiperplano de dimensión n− 1.

Suponiendo que (Rn,B(Rn), P ) es un espacio de probabilidad y x una vari-able aleatoria con función de distribución F entoncesse puede calcular la esper-anza de los errores cuadrados de la siguiente manera:

E(errV Q) =Xw∈W

ZVw

d(x,w)2dF ,

ya que de la proposición anterior se sigue que Vw ∈ B(Rn) y P (S

w∈W∂Vw) = 0.

En la figura 4 se puede apreciar un conjunto de datos en R2 (puntos negrospequeños), que están asociados a un conjunto de codificadores (puntos grisesgrandes); en este caso las fronteras entre las regiones corresponden a segmentosde líneas.Además de reducir el número de datos, la cuantización vectorial puede ser

útil para descubrir estructuras en el conjunto de datos que en los casos de altadimensión no pueden ser vistas. Estas estructuras se establecen a partir de ladefinición de una gráfica conocida como Teselación de Voronoi; esta gráficaconcidera al conjunto V = {Vw | w ∈W} como conjunto de vértices y las aristasde manera que:

VwadyVυ ⇐⇒ Vw ∩ Vυ 6= ∅.El principal problema a resolver en estos métodos es determinar valores apropia-

8

Figura 5: Teselación de Voronoi asociada a la cuantización vectorial de la figura4.

dos para los vectores del conjuntoW . En general, el problema puede ser plantea-do como un problema de optimización, una alternativa es determinar los valoresóptimos de los vectores, utilizando como función objetivo a minimizar el er-ror de cuantización 4, con la restricción W ∗ = W . Como se puede apreciar,este es un problema de optimización que involucra un total de nk variables;ya que cada entrada de cada vector codificador es una variable. Cabe señalarque no siempre está claro cuanto debe valer k. Estas circunstancias hacen quesea dificil establecer un método general y factible para resolver el problema decuantización vectorial. En la actualidad este problema es abordado mediante eluso distintas herramientas, entre las que sobresalen las redes neuronales.

2.3. Métodos de Proyección

El objetivo de los métodos de proyección es representar los vectores de datosde entrada en un espacio de dimensión menor, la proyección debe ser tal quepreserve aspectos interesantes e inherentes a la forma en la que los datos sedistribuyen en el espacio multidimensional. Los métodos de proyección se puedenclasificar en dos tipos: lineales y no lineales.En el caso de los métodos lineales, lo que se busca es encontrar un subespacio

lineal de Rn de dimensión baja, en el cual sea proyectado el conjunto de datospor medio de una transformación lineal.El más famoso de estos métosdos es el de análisis de componentes prin-

cipales (PCA), el cual tiene su origen en un trabajo de Karl Pearson en 1901aunque no fue sino hasta 1933 que Harold Hotelling lo desarrolló con todo elrigor matemático. Se trata de una técnica descriptiva, por lo que no se requiereusar un modelo estadístico predeterminado, en particular no se hace ningunasuposición acerca de la distribución de probabilidad de las variables originales,

9

aunque se puede dar más significado a las componentes en el caso donde sesupone que las observaciones tienen una distribución normal multivariada.La idea básica del método es transformar un conjunto de variables multi-

variadas (datos multidimensionales) altamente correlacionadas, en un conjuntomenor de variables no correlacionadas llamadas componentes principales,dichas componentes son una combinación lineal particular de las variables deorigen y se definen como los vectores propios de la matriz de covarianza quetienen los valores propios con mayor valor absoluto.Estos métodos son poco adecuados en los casos donde la estructura global

del conjunto de datos es sumamente no-lineal. Además, en el caso del método deanálisis de componentes principales, se requiere el cómputo de determinantes yla inversión de matrices de n× n. Estas operaciones suelen tener una alta com-plejidad computacional, lo que implica que es muy difícil (o tal vez imposible)aplicarlas sobre conjuntos cuya dimensión rebasa el orden de las centenas.

Por otro lado, han sido propuestos distintos enfoques para reproducir es-tructuras no-lineales de dimensión alta, en espacios de dimensión menor. Losmétodos más comunes consisten en determinar una representación de cada datoen un espacio de dimensión menor y tratan de optimizar estas representacionesde manera que las distancias entre los puntos preserven más posible las distan-cias correspondientes entre los vectores de los datos originales.Uno de los ejemplos más famosos son los métodos denominados escalamien-

to multidimensional (MDS), estos métodos tienen como objetivo reducir ladimensión del conjunto de datos, a una suficientemente pequeña que permita lainspección visual.En el método MDS original se parte de la matriz de distancias entre los vec-

tores de datos y se busca una configuración de puntos en un espacio de dimensiónmenor que la original que representen a los datos y distancias originales. A cadaxi ∈ X se le asocia con un vector y ∈ R2, de manera que si xi, xj ∈ X sonasociados con yi, yj ∈ R2 este método busca que d(xj , xi) sea lo más cercanoposible a d(yj , yi). Una manera de lograr esto es considerando

errMDS =X

1≤i<j≤k[d(xi, xj)− d(yi, yj)]

2

como una función objetivo a minimizar.Otro método interesante el de análisis de curvas principales (PC) [15]

que puede ser visto como una generalización del método de PCA, ya que en estemétodo se buscan variedades no lineales; en lugar de subespacios lineales.

2.4. Métodos de Clustering

El problema de clustering consiste en encontrar una partición de X óptima,en el sentido de que los elementos de la partición se entiendan como clases otipos de datos similares. De acuerdo con [23] "los algoritmos de clusteringson métodos para dividir un conjunto X de m observaciones en k grupos, donde

10

k << m, de tal manera que miembros del mismo grupo son más similares quemiembros de distintos grupos".Un clustering deX es una familia de subconjuntos deX, C = {C1, C2, ...CK}

tal que C es una partición de X, la cual se obtiene por medio de la aplicaciónde un algoritmo de clustering. A cada elemento C ∈ C del clustering se ledenomina cluster.La mayoría de los algoritmos de clustering suponen que se cuenta con una

forma de medir la similitud entre los elementos de X.Un índice de similitud para U es una función s : U×U −→ [smın, smax] donde

smın y smax son la mínima y la máxima similitud. Esta función debe cumplir lassiguiente propiedades:

s(x, x) = smax para toda x ∈ U.

s(x, z) = s(z, x) para toda x, z ∈ U.

De manera que dados x, z ∈ X y s un índice de similitud, s(x, z)indica que tan similares son x y z.

Una vez definido un índice de similitud, lo que sigue es definir relaciones desimilitud entre los datos a partir de este índice.Sea s : X × X −→ [smın, smax] un índice de similitud para X, y γ ∈

[smın, smax]. La relación binaraia ργ ⊆ X ×X definida por:

(x, z) ∈ ργ ⇐⇒ s(x, z) ≥ γ

es la relación de simililitud inducida por s con umbral de similitud γ.Es facil observar que la relación binaria ργ , es una relación reflexiva y simétri-

ca, pero no necesariamente transitiva. Por tal motivo, las relaciones de simil-itud no necesariamente implican un clustering, ya que una particón implicanecesariamente una relación transitiva. Es decir, si consideramos ργ ⊆ X ×Xuna relación de similitud y para x ∈ X consideramos su clase de similitudργ(x) = {y ∈ X | (x, y) ∈ ργ} dado que ργ no necesariamente es transitiva,puede ocurrir que exista y ∈ ργ(x) tal que ργ(x) 6= ργ(y).La transición entre una relación de similitud y una relación de equivalencia

es una de las tareas más importantes a resolver en los métodos de clustering. Esdecir ¿De que manera se pueden definir relaciones de equivalencia que considerena las relaciones de similitud?. Existen casos en los cuales esta pregunta tieneuna respuesta trivial: cuando existe γ ∈ [smın, smax] tal que ργ ⊆ X ×X es unarelación de equivalencia.Por ejemplo, si se cumple s(x, y) = smax ⇐⇒ x = y entonces ρsmax es

relación de equivalencia pero la partición que induce es la trivial, en donde cadaconjunto formado por un solo elemento es una clase. En clustering el problema esencontrar particiones no triviales en donde las clases de equivalencia considerenlas relaciones de similtud.Dentro de esta problemática es importante poder medir la separación entre

una relación de similitud ρ y una relación de equivalencia r. Una manera natural

11

de medir la separación entre dos relaciones binarias cualesquiera es la siguiente:

D(ρ, r) =X

x,y∈Xx6=y

[[(x, y) ∈ ρ] 6= [(x, y) ∈ r]] = #(ρ ∨ r)

donde [ ] representa el signo de Kronecker:

[p] = 1 si p es verdadera

[p] = 0 si p es falsa

y ρ ∨ r = (A ∪B) ∩ (A ∩B)c. Notese que D(ρ, r) = 0⇐⇒ ρ = r.En un grán número de las aplicaciones es muy conveniente e intuitivo medir

la similitud entre los objetos a partir de la distancia y a partir de dicha distanciadefinir una función de similitud. En el caso donde U ⊆ M, donde (M, d) es unespacio métrico, suele interpretarce la distancia d como medida de disimilitud;de manera que a menor distancia, mayor similitud.

Proposition 2 Sea (M, d) un espacio métrico tal que U ⊆M y sea F : [0,∞) −→[smın, smax] una función decreciente tal que F (0) = smax; entonces

1. s(x, y) = F (d(x, y)) : U×U −→ [smın, smax] es un índice de similitud sobreU.

2. a menor distancia, mayor similitud.

3. Dado X ⊆ U y ργ una relación de similitud inducida por s, ∀x ∈ X,∃δ(x) ≥0

y ∈ ργ ⇔ d(x, y) ≤ δ(x)

Proof.

1. s(x, x) = F (d(x, x)) = F (0) = smax

s(x, y) = F (d(x, y)) = F (d(y, x)) = s(x, y)

2. Sean x, y, z ∈M tal que d(x, y) ≤ d(x, z) como F es decreciente F (d(x, y)) ≥F (d(x, z)) por lo tanto s(x, y) ≥ s(x, z).

3. Sea x ∈ X, definase δ(x) = max{d(x, y) | y ∈ ργ}⇒ ∀y ∈ ργ(x), d(x, y) ≤δ(x). Para el regreso, por definición de δ(x) existe y∗ ∈ ργ(x) tal queδ(x) = d(x, y∗) y s(x, y∗) = F (δ(x)) ≥ γ; si d(x, y) ≤ δ(x) ⇒ s(x, y) =F (d(x, y)) ≥ F (δ(x)) ≥ γ ⇒ y ∈ ργ(x).

El último resultado nos indica que las clases de similitud determinadas apartir de índices de similitud que se construyen considerando distancias, sonintersecciones del conjunto X con bolas centradas.

12

Una vez introducidos los índices de similitud y su relación con las distancias,volvamos a la problemática del clustering. Losmétodos de clustering puedenser divididos en dos tipos básicos: jerárquicos y particionales [14].En los métodos de clustering jerárquicos, se supone que el índice se

similitud se puede extender de manera que sea posible evaluar la similitud entredos subconjuntos de U, finitos y no vacios. Dado s : U × U −→ [smın, smax] yX ⊆ U finito, una manera de extender s es la siguiente:

S : 2X∗ × 2X∗ −→ [smın, smax]

S(A,B) =X

(x,y)∈X×Xx6=y

s(x, y)

(#A)(#B).

donde 2X∗ = 2X \ {∅}.

Dado X = {x1, x2, ..., xm} y una extensión S de un índice de similitu ssobre 2X∗ , existen dos esquemas básicos de algoritmo de clustering jerárquico:los algoritmos divisivos y los aglomerativos.El esquema aglomerativo es el siguiente:

1. Sea C1 = {{x1}, {x2}, ..., {xm}}

2. ∀r = 2 : m,Cr = (Cr−1 \ {Ar, Br}) ∪ {Dr},

donde Ar, Br ∈ Cr−1 y Dr ∈ 2X∗ , son tales que

S(Ar, Br) = max(A,B)∈Cr−1×Cr−1

A6=B

{S(A,B)}

Dr = Ar ∪Br.

Por otro lado, el esquema divisivo procede de manera opuesta al aglomer-ativo: en lugar de ir uniendo a los elementos de los clusterings que son mássimilires, va separando a los que menos se parecen. Su esquema es el siguiente:

1. Sea Cm = {X}

2. ∀r = 1 : m− 1,Cr = (Cr+1 \ {Dr}) ∪ {Ar, Br},

donde Dr ∈ Cr+1 y Ar, Br ∈ 2Dr∗ , son tales que

S(Ar, Br) = mınA,B∈2Dr∗

A6=B,A∪B=Dr

{S(A,B)} = mınC∈Cr+1

mınA,B∈2C∗

A6=B,A∪B=C

{S(A,B)}.

Claramente, en los dos esquemas (aglomerativo y divisivo)∀r = 1 : m, Cres un clustering de X. En los casos extremos, C1 es un clustering trivial dondecada elemento es un cluster y Cm es el otro clustering trivial en donde el único

13

elemento es X. Además se cumple que si 1 ≤ r < m, ∀C ∈ Cr∃C0 ∈ Cr(C ⊆ C 0).A los conjuntos de particiones {C1, ..., Cm} que cumplen con estas propiedadesse les denomina jerarquías. De manera que, todos los algoritmos de clusteringjerárquicos tienen como resultado una jerarquía {C1, ..., Cm}. Apartir de estasjerarquías es posible dibujar los diagramas conocidos como dendogramas (verfigura 6), en los cuales es posible visualizar como se va contruyendo la jerarquíaa distintos niveles de similitud.

Figura 6:

Una vez aplicado algún algoritmo de clustering jerárquico, queda pendientedecidir cual de todos los clusterings de la jerarquía es la partición que mejorrepresenta la estructura del conjunto de datos. Para ésto, se definen criteriosde evaluación de clusterings. Una condición previa para un criterio es que éstemodele la aplicación de manera adecuada. En general se espera que un criterioevalúe como bueno a un clustering que tenga clusters con una alta homogeneidadintracluster (elementos muy similares en su interior) y una alta separabilidadinterclusters (poco similar a los demás clusters). Existe una gran cantidad deejemplos en donde se construyen criterios a partir de funciones de similitud odistancias.En losmétodos de clustering particional se trata de descomponer direc-

tamente los datos en conjuntos de clusters. La función criterio que el algoritmode clustering trata de minimizar suele enfatizar las estructuras locales de simil-itud entre los datos, así como asignar clusters que aproximen alguna función dedensidad de la probabilidad predeterminada o alguna estructura global conoci-da. Muchas de estas técnicas comienzan suponiendo la existencia de k clusteringsy lo que hacen es encontrar la partición optima con este número de elementos.En el caso de los métodos particionales, el principal problema es que la elec-

ción del número de clusters puede ser crítica, ya que diferencias sensibles entre

14

clusters pueden surgir cuando K es cambiado. Además, una buena iniciaciónpara los centroides de cluster puede ser crucial; algunos cluster inclusive podríanquedar vacíos si sus centroides quedan inicialmente lejos de la distribución delos datos.Uno de los métodos particionales más famosos es el llamado k − medias,

este método supone que U ⊆ Rn y su objetivo es proporcionar un clusteringde X = {x1, x2, ..., xm} con k elementos, donde se supone que k << m. Elalgoritmo k −medias es el siguiente:

1. Selecciona aleatoriamenteM(0) = {µ1(0), ...µk(0)} ⊆ X, t = 1, > 0.

2. Calculese

µi(t) =1

#Vµi(t−1)

Xx∈Vµi(t−1)

x,

C(t) = {Vµi(t) | i = 1, ..., k}.

3. t = t+ 1, y repite 2. hasta que

∀i = 1, ..., k, kµi(t+ 1)− µi(t)k < .

De manera que el algoritmo determina un clustering final C(t) con k ele-mentos Vµi(t), cada uno de los cuales es el conjuto de Voronoi de µi(t). Cabela observación de que el algoritmo k − medias es un método de cuantizaciónvectorial.En general, el principal problema con los métodos de clustering es la inter-

pretación de los clusters. La mayoría de los algoritmos de clustering tiendena sobrepoblar cierto tipo de cluster ya que asignan la mayoría de los datos aestos tipos de cluster, aún cuando los datos dentro del cluster no tengan lasimilitud esperada. Si el objetivo no es únicamente comprimir el conjunto dedatos sino también hacer inferencias acerca de las estructuras definidas a partirde las relaciones de similitud, es esencial analizar cuando el conjunto de datosexhibe la tendencia inducida por la partición. En este sentido, resulta util com-binar los métodos de clustering para poder explorar las estructuras inducidaspor distintos métodos de clustering y poder interpretar y validar los resultadosobtenidos.

15

3. El algoritmo SOMEl SOM (Self-Organizing Map) es un algoritmo nuevo y eficiente para llevar

a cabo la visualización de grandes conjuntos de datos multidimensionales. Elalgoritmo define una función del espacio de entrada a una red de neuronasen el plano. A su vez, esta función define una proyección del conjunto de datosmultidimensionales (invisible) a un espacio visible (normalmente bidimensional).La visualización del conjunto de datos permite que las relaciones de similitudque se presentan entre los datos dentro del espacio multidimensional puedan serobservadas en un despliegue bidimensional denominado "mapa".El SOM fue presentado en 1982 por T. Kohonen [17], desde entonces se

han producido miles de artículos de investigación (una gran lista de artículos sepuede cosultar en [?]) y ha sido aplicado en una amplia variedad de campos deinvestigación [19]. Sin embargo, el algoritmo SOM, tal y como lo define Kohonen,en realidad representa toda una familia de métodos numéticos que tienen comoprincipal objetivo el definir una proyección φ : X −→ N , del conjunto de datosde "datos de entrenamiento"X a una retícula bidimensional finita N , en dondecada nodo de la retícula funciona como una neurona artificial. La proyección φse obtiene como resultado de un proceso de aprendizaje no supervisado.

3.1. Arquitectura

El SOM se conforma por un conjunto de neuronas sobre una retícula N ={η1, ..., ηk} que se conectan de manera idéntica a la entrada x, la cual toma dis-tintos valores en el tiempo de acuerdo a un conjunto de datos de entrenamientoX = {x(t) | t ∈ T} ⊆ U. Por simplicidad se considerará U ⊆ Rn.La arquitectura de la red es una retícula normalmente bidimensional, con

una configuración regular, usualmente rectangular o hexagonal. La localizaciónde cada neurona sobre la retícula está representada por su vector de localizaciónri = (pi,qi). Una de las razones por las cuales es conveniente utilizar vectores delocalización es que durante el proceso de entrenamiento se requiere conocer ladistancia d(ηi, ηj) entre las neuronas sobre la retícula. En la figura 7 se muestranlas configuraciones o tipo de retícula más usados con los correspondientes ri =(pi,qi) en cada nodo.Si los vectores de localización se asignan como en la figura 7 la distancia

d(ηi, ηj) entre las neuronas se calcula a partir de la métirca euclidana kk entrelos vectores de localización:

d(ηi, ηj) = kri − rjk . (6)

Las neuronas de la retícula N interactuan entre ellas por medio de relacioneslaterales que se activan durante el proceso de entrenamiento, estas relacionesestán reguladas por una función H : [0,∞) −→ [0, 1], denominada funciónvecindad de modo que H(kri − rjk) mide la intencidad de la relación lateral,normalmente se supone que la interacción entre dos neuronas (intercambio deinformación) es más fuerte cuando la distancia entre las neuronas es pequeña

16

Figura 7:

(ver figura 8 ), es decir, H(d) es decreciente con las siguientes propiedades:

H(0) = 1 y lımd→∞

H(d)→ 0.

Figura 8:

También se que H tiene un parametro ρ el cual representa el radio de lavecindad de las que serán concideradas neuronas çercanas". Una de las defini-ciones comunes más simples que se encuentran de la función vecindad es lasiguiente:

Hρ(d) =

½1 si d ≤ ρ0 si d > ρ.

(7)

Otra definición común está dada en términos de la función Gausiana:

Hρ(d) = exp(−d2

2ρ2). (8)

De acuerdo con la proposición 2, Hρ(d(ηi, ηj)) define un índice de simili-tud entre las neuronas de la malla de manera que entre más cercanas sean lasneuronas ηi y ηj , son más similares.

17

3.2. Entrenamiento

Durante el proceso de entrenamiento del SOM, se utiliza un conjunto finitode datos X = {x1, ..., xm} ⊂ Rn. Para cada tiempo t, se puede determinar undato de entrada x(t) para la red neuronal, una forma de hacer esto es reciclandoel conujunto X, de manera que x : N −→ X se puede definir como una variableperiódica, de periodo m, i.e.

x(t) = xt,∀1 ≤ t ≤ m.

x(t+m) = x(t),∀t ∈ N.

En cada momento t del proceso de entranamiento, el vector de entrada x(t) ∈ Rnes conectado a todas las neuronas en paralelo vía los vectores de referenciawi ∈ Rn de cada neurona. Las neuronas compiten para ver cual de ellas escapaz de representar de mejor manera al dato de entrada. Es decir, para todot ∈ T la competencia en ese momento consiste en encontrar la neurona wc(t)

—neurona ganadora en el tiempo t— tal que, su vector de referencia wc(t) cumplacon:

°°x− wc(t)

°° = k

mıni=1

{kx− wik} . (9)

En caso de que el índice c(t) no esté bien definido, es decir, cuando para un datox(t) existan dos ηp, ηq ∈ N tal que

kx− wpk =k

mıni=1

{kx− wik} = kx− wqk ,

la selección de un único c(t) debe hacerse de manera aleatoria. Por lo tanto, encada proceso de entrenamiento se define una función c( ) : N→N tal que ηc(t)es la neurona ganadora en el tiempo t.Una vez expuesto el mecanismo de competencia, el algoritmo de entre-

namiento con tiempo de paro τ ∈ N queda definido de la siguiente manera:

1. Se define W (0) = (w1(0), ..., wk(0)) condiciones iniciales aleatorias.

2. Para todo 1 ≤ t ≤ τ ,

wi(t) = wi(t− 1) + α(t)Hρ(t)(d(ηc(t), ηi))(x(t)− wi(t− 1))

La variación del radio ρ a través del tiempo se hace con la finalidad de irrealizando actualizaciones a distintos umbrales de similaridad. Recordemos quela función vecindad es un índice de similitud entre las neuronas. Al actualizar endistintos radios se están considerando distintas relaciones de similaridad entrelas neuronas, estas relaciones corresponden a relaciones de similaridad entre losdatos, lo que se busca es que datos similares correspondan a neuronas similares.

18

De manera que la variación en el radio de la vecindad se hace reduciendoel tamaño de la vecindad, de manera que ti ≤ tj =⇒ ρ(ti) ≥ ρ(tj) y ademásρ(t)→ 0 cuando t→∞.Para efectos de la convergencia del algoritmo, se incorpora a la función α(t),

a la cual se conoce como factor de aprendizaje y cumple con 0 < α(t) < 1 y esdecreciente de forma que α(t) −→ 0 cuando t −→ ∞. La variación en el factorde aprendizaje congela gradualmente el cambio en los vectores de refenerencia.Durante la evolución del proceso de entrenamiento, los vectores de pesos son

modificados de manera que cada uno de estos se vuelva representante de unaporción en el espacio de entrada. Durante esta evolución es común observar dosetapas: ordenamiento global y refinamiento.

3.3. Etapas del entrenamiento

Ordenamiento Global: Esta etapa consiste en establecer los pesos decada una de las neuronas, para que éstas sean capaces de identificar ciertosubconjunto característico dentro del conjunto de datos X y para que lasrelaciones de cercanía entre las distintas neuronas del mapa, reflejen lasimilitud entre los datos. Es importante señalar que la selección óptimade estas funciones y sus parámetros, solo pueden ser determinadas ex-perimentalmente; ya que no existe algún resultado analítico que garanticedicha selección óptima.

Refinamiento: Después de la fase de ordenamiento, los valores de α(t)deben ser pequeños y decrecer lineal o exponencialmente. La precisiónfinal del mapa dependerá del número de pasos en esta etapa final de laconvergencia, la cual debe ser razonablemente larga. Cabe señalar que lacardinalidad del conjunto X no es relevante para determinar este númerode pasos. Nótese que el algoritmo es computacionalmente ligero y que elconjuntoX puede ser reciclado para lograr tantos pasos como sea necesario[19].

En la figura 9 se pueden observar los vectores de pesos de un SOM bidimen-sional de 100 neuronas con una condición inicial de los vectores de referenciaaleatoria y entrenado a partir de un conjunto de 2000 puntos distribuidos uni-formemente en la superficie de un toro umbilical, este conjunto es reciclado en 10ocasiones durante el proceso de entrenamiento. El algoritmo de entrenamientoimplementado utiliza como función vecindad como la dada en 8, con un factorde aprendizaje lineal escalonado y al igual que el radio de vecindad. Estas ima-genes fueron generadas por el sistema LabSOM que se está desarrollando en elLaboratorio de Dinámica no-Lineal, de la Facultad de Ciencias de la U.N.A.M.

del cual se hablará un poco más en la sección 5.

19

Figura 9: Visualización de los vectores de referencia durante distintas etapas delentrenamiento.

4. Análisis Exploratorio con el SOM.La principal razón de la popularidad del SOM es su capacidad de producir

automáticamente una representación visual en forma de mapa en el que se pre-senta una descripción intuitiva de las relaciones de similitud entre los datos;estas similitudes, son inducidas a partir de relaciones de cercanía entre las neu-ronas. Esta capacida y su baja complejidad computacional, hacen del SOM unaherramienta muy útil y viable en la realización de tareas del análisis exploratoriode datos. A continuación se describen las relaciones ente el algoritmo SOM ylos métodos para el EDA descritos anteriormente.

4.1. El SOM como método de proyección

El resultado final del entrenamiento del SOM es una configuración Wω devectores de referencia wi, la cual resulta en la última actualización; i.e.,

Wω = {w1(τ), ..., wk(τ)} = {w1, ..., wk}.

Dado Wω se define la proyección φ : X −→ N , de la siguiente manera:

φ(x) = ηi ⇐⇒ i = c(τ).

20

Por lo tanto, el entrenamiento del SOM define una proyección de un conjuntode datos multidimensional a una retícula bidimensional. Este mapeo, presum-iblemente, representará las relaciones de similitud entre los datos mediante lacercanía entre las neuronas, de manera que:

si s(x, y) es grande entonces d(φ(x), φ(y)) es pequeño. (10)

.A la propiedad 10 se le suele denominar "preservación de la topología".

Muchos autores coínciden en mensionar a esta propiedad com la más importantedel SOM; ya que permíte utilizar a los mapas como representaciones visuales delas relaciones de similitud entre los datos.

4.2. La cuantización vectorial en el SOM.

Los vectores de referencia definenen una cuantización vectorial al funcionarcomo vectores codificadores del conjunto X. Así, para cada neurona ηi ∈ N sedefine el conjunto de Voronoi Vi de wi a partir del mapeo φ, como sigue:

Vi = {x ∈ X | φ(x) = ηi}.

Por lo tanto, se puede utilizar el error de cuantización 4 como un criterio deevaluación del resultado obtenido por la red neuronal; i.e.,

errV Q =Xη∈N∗

Xx∈Vη

kx− wik2

#(Vη),

y de esta manera, comparar al SOM con otros métodos de cuantización vectorial.Además, si se define c( ) como en (1), se puede determinar la región de

Voronoi para wi como:

Vi = {x ∈ U | c(x) = wi}.

De esta forma se puede extender el mapeo φ : X −→ N a un mapeo φ : U∗ −→N , donde U∗ = U \ ∪∂Vi. Por lo tanto, el mapeo φ está casi seguramente biéndefinido sobre U.Una de las ventajas de la cuantización vectorial es que hace posible visualizar

la Teselación de Voronoi, que resulta isomorfa a la gráfica (N , A) con vértices enel conjunto de neuronas N y aristas A de manera que ηi ady ηj ⇔ Vi ∩ Vj 6= ∅.

21

4.3. Problemas Matemáticos en el Análsis del SOM

El SOM debe si popularidad a su simpleza computacional y su habilidadpara exhibir, de manera automática, relaciones de similitud entre datos datosmultidimencionales.Sin embargo, salvo en casos particulares, no existen demostraciones matemáti-

cas formales que garanticen que efectivamente las relaciones de similitud queexisten entre los datos, se vean reflejadas por las relaciones de cercania entre lasneuronas. "Se podría pensar que después de veinte años de investigación inten-siva este tipo de resultados teóricos ya estarían establecidos” [19] , M. Cottrell,una de las principales investigadoras de los aspectos téoricos del SOM opina alrespecto: “El algoritmo SOM es muy raro. Por un lado, es muy sencillo escribirloy programarlo; sus propiedades en la práctica son claras y fáciles de observar.Pero por otro lado, a pesar de los grandes esfuerzos de varios autores, no ex-isten demostraciones que garanticen el cumplimiento de dichas propiedades..."[8]. “El algoritmo de Kohonen es sorprendentemente resistente a un estudiomatemático” [9].Dentro de los aspectos teóricos que han llamado la atención a los investi-

gadores, los más desarrollados son: la convergencia y auto-organización, y lapreservación de la topología. En el primer caso, lo que se pretende es demostrarde manera analítica que el algoritmo de aprendizaje en le SOM, exhibe un proce-so de auto-organización; mientras que en el segundo lo que se busca es construiruna forma de medir que tan buena es la representación bidimensional de losdatos, en terminos de las relaciones de cercanía que se establecen en el espaciode entrada multidimensional. A continuación se describen brevemente estas doslineas de investigación.

4.4. Convergencia y Auto-organización

Hasta donde nosotros sabemos, el único caso en el que se han podido es-tablecer demostraciones matemáticas de que se da la auto-organización y laconvergencia, es en el caso unidimensional. En este caso, los datos de entra-da son unidimensionales, por lo que los vectores de referencia son escalares.Además, las neuronas están situadas a lo largo de un arreglo lineal (ver figura10).En general, los estudios de auto-organización en el algoritmo de aprendizaje

para el SOM parten de una definición de lo que sería una configuración ordenadade los vectores de referencia, de manera que la auto-organización se lleva acabo cuando los cambios producidos durante el entrenamiento, producen unaconfiguración ordenada en los vectores de referencia. Si se considera a W comoel espacio de todas las posibles configuraciones de los vectores de referencia enun SOM, este espacio lo podemos pensar comoW ∼= Rn×k, ya que por cada unade las k neuronas, se está considerando un vector de referencia en Rn. Al definiruna configuración ordenada, se pretende establecer una subconjunto W ⊆ Wde manera que todo elemento W ∈ W es una çonfiguración ordenada"de losvectores de referencia, de acuerdo al .orden topológico"del espacio W.

22

Figura 10: Arquitectura de SOM unidimensional con k neuronas

En el caso unidimensional es facil definir lo que sería una configuración or-denada de acuerdo al orden topológico de W. En este caso los vectores de ref-erencia son escalares unidimensionales, es decir W ∼= Rk y W ∈ W tal queW = (w1, ..., wk) es una configuración ordenada de los vectores de referencia, siel ordenamiento daso por los subindices en los vectores de referencia, es consis-tente con el ordenamiento de los vectores de referencia dado por el orden linealde R. Es decir, el conjunto de configuraciones ordenadas queda definido de lasiguiente manera:

W = {(w1, ..., wk) ⊂ Rk | w1 ≤ w2 ≤ ... ≤ wk ó wk ≤ wk−2 ≤ ... ≤ w1}. (11)

Si se considera un SOM unidimensional de k neuronas N = {η1, ..., ηk}, or-denadas en una retícula lineal (como en la figura 10) y donde la configuraciónde los vectores de referencia en el tiempo de iteración t ∈ N, está dada porW (t) = (w1(t), w2(t), ..., wk(t)) donde wj(t) (como en (??) es el vector de refer-encia de la neurona j en el tiempo t. Se dice que la auto-organización se lleva acabo durante el proceso de entrenamiento del SOM, si existe un tiempo τ ∈ Ntal que W (τ) ∈W.Para probar que la auto-organización se lleva a cabo, se usan principalmente

técnicas de cadenas de Markov. Para lo que es necesario cosiderar una funcióndistribución de probabilidad F para el espacio de datos U. De manera que sedefine un proceso estocástico a tiempo discreto {Xt | t = 1, 2, ...}, donde cadaXt

es una variable aleatoria con distribución F . De esta manera, en cada tiempo deiteración del proceso de entrenamiento, se considera al dato de entrada x(t) comoel resultado de la variable aleatoria Xt . Nótese que en este caso el conjunto deentranamiento es un proceso estocástico, a diferencia del planteamiento originaldonde el conjunto de datos de entranamiento es un reciclamiento (??) de unconjunto finito X.El proceso estocástico {Xt}, junto con el algoritmo de actualización del los

vectores de referencia (??) del SOM y la condición inicial aleatoria de los vectoresde referencia W0 = (w1(0), w2(0), ..., wk(0)), determinan el proceso estocástico{Wt = W (t)}t∈N con espacio de estados W. Este proceso es una cadena de

23

Markov, ya que la probabilidad de que Wt+1 =W (t+1) solo depende de W (t),y no de las configuraciones de los tiempos anteriores.En las pruebas de auto-organización para el caso unidimensional, lo que se

trata es probar que el subconjunto W ⊆W definido como en (11), es una çlaseabsorbente"del proceso estocástico. Es decir, se demuestra que la probabilidadde que exista un tiempo τ ∈ N tal que Wτ ∈W, es mayor que cero.Un primer esbozo de esta prueba se establece en los artículos originales de

Kohonen en 1982 [17], [18]; y más recientemente en su libro [19]. Sin embargo,la primera demostración completa para la convergencia y auto-organización,la establece Cottrell en 1987 [7]. En este trabajo se considera F como unadistribución uniforme y como función vecindad una función de salto (como en??). Posteriormente, Bouton, Pagès y Fort en 1993 dan una prueba rigurosa parala convergencia casi segura a un estado único y estable de autoorganización [3],considerando una clase más general de función vecindad [21]. Posteriormente,Sadeghi en 1998 [24], [25] probó que se alcanza la auto-organización para clasesmuy generales de datos de entrada y de función vecindad.Recientemente sobresale el trabajo de Flanagan [11], [12], [13], en este últi-

mo artículo del 2001 se presenta una demostración para la existencia de auto-organización en el caso unidimensional con una función vecindad más generalaun y donde la función de distribución de las entradas puede ser discontinua. Elcaso unidimensional del SOM tiene muy poca importancia práctica. Sin embar-go, un profundo entendimiento de sus propiedades es un primer paso necesariopara lograr entender como funciona en casos de dimensión mayor.Para los casos de una retícula y un espacio de datos, de dimensión mayor

o igual a dos, existe la dificultad natural para establecer el concepto de con-figuración ordenada. Después de una serie de fracasos, actualmente se piensaque: “no es posible determinar que sería una configuración ordenada que fueraestable para el algoritmo SOM” [19].Una línea de investigación interesante para el caso multidimensional es la

que se deriva de la teoría general de sistemas dinámicos. En esta linea existendiversos enfoques, uno de ellos hace uso de las funciones de energía que apare-cen en los sistemas mecánicos. Erwin, Obermayer y Shulten [10] prueban queel algoritmo SOM, tal y como lo presentamos en este artículo, no puede serderivado a partir de funciones (potenciales) de energía, cuando la función dedistribución de los datos es contínua. Sin embargo, Heskes [16] prueba que conun cambio en la definición de la neurona ganadora es posible definir una funciónde energía para el SOM. Otro trabajo con este enfoque es el de Tolat [28], dondese establece un sistema de funciones de energía de manera que a cada neuronale corresponde una de estas funciones.Otra forma de estudiar al SOM como sistema dinámico es por medio de la

ecuación diferencial ordinaria (ODE) que describe el comportamiento promedioen la actualización de los vectores de referencia. “Sin embargo, actualmente elestudio de la ODE en el caso multidimensional parece ser intratable. "Se tienenque verificar algunas suposiciones globales acerca de la función vecindad y loscálculos explícitos son muy difíciles y tal vez imposibles"[22].

24

4.5. Preservación de la Topología

Otra línea de investigación es el establecimiento de indicadores que determi-nen la eficiencia del SOM en lo que se refiere a preservación de la topología. Hayque recordar que el SOM busca mapear el conjunto de entrenamientoX ⊆ Rn enun arreglo bidimensional de neuronas, de manera que cualquier relación topológ-ica entre los elementos de X se vea reflejada en la red neuronal, de acuerdo a ladistribución espacial de las unidades ganadoras. Es decir, entre más cercanos es-tén dos datos en el espacio de entrada, la posición de las dos unidades ganadoraspara estos datos, será más cercana en el arreglo bidimensional. En otras pal-abras, si x1 y x2 son similares o son vecinos topológicos en Rn, y si los vectoresr1 y r2 son los correspondientes vectores de localización de las neuronas ganado-ras, entonces es de esperarce que la distancia kr1 − r2k sea pequeña. De hechose pretende que kr1 − r2k −→ 0 cuando x1 −→ x2.Para construir una forma de medir la preservación de la topología lo primero

es considerar a cada uno de los vectores de referencia wj ∈ Rn como el repre-sentante de una región Vj en el espacio de datos de entrada U.Dado que a cada neurona le corresponde un conjunto de Voronoi, es de es-

perarce que la cercanía entre las neuronas pueda ser interpretada como cercaníaentre las regiones de Voronoi. De ser así, la cercanía entre dos neuronas ηi y ηjsignificaría que los datos del conjunto Vi son similares a los del conjunto Vi.Para deterninar que tan bién se preserva la topología, se han vertido varias

propuestas, la mayoría de éstas se enfocan en determinar una medida de erroraplicando métodos lineales estadísticos. Un ejemplo de estos trabajos es el deBauer [1]. Sin embargo, estas medidas fallan en el caso en que los datos selocalizan sobre variedades no linealizables.Otra propuesta interesante es la expuesta por Martinetz en [20], en donde

se propone una medida que toma en cuenta la no-linealidad de los datos. Elobjetivo de este trabajo es establecer una forma de medir la preservación dela topología, considerando la proyección de los datos como una función entredos espacios topológicos. Sin embargo, en esta propuesta se establecen cambiossignificativos en lo que se refiere a la determinación de la neurona ganadora ylas funciones de distancia. La mayor desventaja de estos métodos es que suelenser computacionalmente más pesados que el algoritmo SOM.

25

5. Aplicaciones y Desarrollo de Sistemas de Soft-ware Basados en el SOM

5.1. Sistema de Software para el análisis del SOM

Mi investigación acerca de las redes neuronales con capacidades de auto-organziación, tiene una componente computacional y para llevar a cabo losexperimentos he diseñado un programa que se está desarrollando con apoyotécnico del personal del Laboratorio de Dinámica no-Lineal de la Facultad deCiencias. A este sistema lo hemos denominado LabSOM y está programado enC# y la visualización se hace con OpenGL.

Figura 11: Antes de comenzar el proceso de entrenamiento.

Figura 12: Al final del proceso de entrenamiento.

El programa permite configurar una red neuronal SOM permitiendo fijar:

26

numero de neuronas, factor de aprendizaje, función vecindad. Asi mismo, se vi-sualiza la dinámica del entrenamiento del SOM configurado, utilizando conjun-tos de datos de que se distribuyen de manera uniforme en superficies conocidas.De esta manera se puede evaluar el desempeño del SOM utilizando distintas fun-ciones vecindad y factores de aprendizaje. En la figura 11 y 12 se observan losvectores de referencia del SOM (puntos naranjas) y los datos de entrenamiento(puntos verdes) que en este caso, se encuentran sobre la superficie de un toro.

5.2. Metodología ViBlioSOM

La cienciometría se ha valido de técnicas de visualización de información,durante muchos años, (ej, gráfica de burbujas, dendogramas, etc.), sin embargoen la actualidad esta se ha fortalecido con las nuevas técnicas de visualizacióncomo Tree-map (Shneiderman, 1992), las redes neuronales artificiales (Koho-nen, 1995), Pathfinder network scaling (Chen, 2001), escalado multidimensional(Kealy, 2001) y Landscape metaphor (INFOVIZ, http://availabletechnologies.pnl.gov/),entre otros.Desde hace cinco años, un grupo de investigadores del Laboratorio de Dinámi-

ca no Lineal de laUniversidad Nacional Autónoma de México y del Instituto Finlay de Cu-

ba, se han avocado a explorar las bases digitales de información biomédicaaprovechando las nuevas tecnologías para el análisis inteligente de datos y eldescubrimiento de conocimiento, salvando así las limitaciones que tiene la apli-cación de otros métodos tradicionales a tan grandes volúmenes de datos. Suaportación metodológica es conocida como ViBlioSOOM.La metodología ViBlioSOM [26] permite realizar análisis bibliométricos has-

ta llegar a la visualización de los resultados. Con esta metodología se lleva acaboel proceso KDD mediante la utilización conjunta de diversos sitemas de softwarepropietario (ver figura 13). Como técnica de minería de datos y visualizaciónutiliza el algoritmo SOM, implementado en el sistema de software ViscoverySOMine.

Figura 13: Metodología ViBlioSOM

Las fuentes de datos son grandes almacenes de información científica (ficherosbibliográficos digitalizados, archivos de citas, articulos en formato electrónico)

27

Figura 14: Comportamiento de la indización por años en MedLine. (CantidadAproximada de Documentos 15, 200, 000 hasta finales del 2004)

y tecnológica (patentes).Un ejemplo de estas bases de datos es pubmed (base de ficheros bibliográficos

de temas biomédicos) de la National Library of Medicine de Estados Unidos. Enesta base de datos existen más de 15 millones de ficheros bibliográficos que hacenreferencia a documentos públicados en más de 4900 revistas de biomedicina, dedatan desde 1966 a la fecha.Parte de mi trabajo utilizando está metodología se presenta en [4] y [5].

5.3. Aplicación del SOM a la Bibliometría

Desde el año de 1950 hasta el primer semestre del año 2005, la BibliotecaNacional de Medicina de Estados Unidos ha indizado alrededor de 15, 301,768 documentos relacionados con temas de Biomedicina (medicina, enfermería,odontología, oncología, medicina veterinaria, salud pública, ciencias preclínicasy de otras áreas de las ciencias de la vida). En la figura 14 se muestra el númerode documentos indizados por año en los últimos 55 años en MedLine.la Biblioteca Nacional de Medicina de Estados Unidos utiliza la ontología

MeSH (Medical Subjet Heading) para indizar la literatura biomédica. El MeSHVocabulary está organizado en 15 categorías principales (ver figura 15) y cadacategoría se ramifica en series de subcategorías cada vez más concretas o especí-ficas. Esta ontología es revisada anualmente por un equipo de profesionales conla finalidad de incorporar temas emergentes.La Categoría de Ciencias Físicas (Physical Sciences Category) es una de las

15 categorías que integran el MeSH Vocabulary. En esta categoría se encuentran

28

Figura 15: Categorías principales de la ontología MeSH

subcategorías relacionadas con temas físicos, químicos, matemáticos, biológicos,etc. En la figura 16 se observa la ramificación de la subcategoría Mathematics.

Figura 16: Ramificación de la subcategoría Mathematics.

En la aplicación que aquí se presenta, se pretende estudiar la penetraciónde las matemáticas en los temas biológicos. De manera que se consideran lostérminos pertenecientes a Mathematics como las componentes del espacio deentrada y a los temas biológicos como los datos.Para producir la representación vectorial de los temas biológicos en términos

de los temas matemáticos, se hizo una consulta a MedLine en donde se le pideque arroje todos los documentos que están indexados con algún tema matemáti-co, esta consulta arroja un total de 1, 055, 800 documentos. Lo primero que seobserva es que la gran mayoría (887, 877) estos documentos están indizados conalgún tema dentro de la subcategoría Statistics.Sin embargo, también se observa que en las últimas décadas se ha incremen-

tado el uso de otras ramas de las matemáticas (ver figura 18).

29

Figura 17: Distribución de documentos indizados con algun tema de matemati-cas.

Figura 18: Comportamiento de las otras ramas de las matemáticas.

Sobresale el incremento que en los últimos años ha tenido Algorithms yNonlinear Dynamics.Considerando todos los temas biológicos en el MeSH, hay un total de 1970,

cada uno de estos temas será considerado como un dato de entrada. La rep-resentación vectorial de cada dato en cada componente está determinado porla coocurrencia del tema biológico con el tema matemático correspondiente ala componente. Es decir, si Bio = {Temas biológicos}, entonces b ∈ Bio tieneuna representación vectorial de la forma b = (b1, ..., b14) donde bi = #{artículosindizados con b y el tema matemático i}. Mediante la aplicación del índice deJacard, se obtiene un conjuto de datos X normalizado, de manera que cadab ∈ Bio es asociado a x = (x1, ..., x13) de la siguiente manera:

xi =bi

fi + fb − bi,

donde fi = #{ documentos indizados con el tema matemático i} y fb = #{documentos indizados con el tema biológico i}.

30

Alimentando al SOM con el conjunto de datos X, el Viscovery arroja elmapa de clusters de la figura 19. Este mapa es el resultado de aplicar algoritmo

Figura 19: Mapa de clusters obtenido por el sistema Viscovery.

de Clustering jerárquico SOM-Ward a los vectores de referencia de las neuronas,éste algortimo garantiza qu los clusters obtenidos, sean regiones conexas en elmapa. El Viscovery aplica un criterio para determinar que el número óptimo declusters es 13.Además, el Viscovery proveé las visualizaciones denominadas mapas de com-

ponentes. El despliegue de losMapas de Componentes tiene la particularidadde representar la distribución de los valores de cada variable de los datos en unmapa. Es decir, cada variable tiene asociado un mapa de componenete. El colorde cada neurona en este mapa representa el promedio de los valores de la vari-able en su respectivo conjunto de Voronoi. La distribución de estos promediosse puede visualizar por medio de una escala de color que corresponde al ran-go de valores que los datos toman en la variable correspondiente. Los valoresmínimos están representados por azules, los intermedios por verdes y amarillos,y los valores máximos por rojos. La exploración de los mapas de componentespuede ayudar a establecer relaciones entre las distintas variables y a interpretarlos clusters. En este caso, los mapas de componentes obtenidos se muestran enla figura 20. Los valores en cada componente varian entre cero y uno, ya quese ha aplicado la normalización por el índice de Jacard. Se puede observar quecada componente predomina en una cierta región del mapa, a saber, la regiónque en el mapa de esa componente es roja.Se observa que las regiones en las que predomina cada componente, corre-

sponden con las regiones determinadas por el algoritmo de clustering. Aunqueeste hecho podría parecer muy natural, en general no ocurre de esta manera.Gracias a esta observación pordemos concluir que cada cluster corresponde

a una región en la que predomina alguna rama de las matemáticas. Finalmente,el Viscovery permite visualizar las etiquetas de los datos que caen en cada una

31

Figura 20: Mapas de componentes.

32

Figura 21: Mapas de Clusters etiquetados.

de las nuronas. De este modo es pocible apreciar la agrupación de los temasbiológicos de acuerdo a su relación con temas matemáticos. En la figura semuestran dos mapas de clester, en el primero (de izquierda a derecha) se etiqueracada cluster con la término de matemáticas que ahí predomina; en el segundose ponen las etiquetas de la subcategoría Biological Sciences.

6. ConclusionesLas técnicas clásicas del Análisis Exploratorio de Datos tienen la gran limi-

tante de poseer una alta complejidad computacional y por lo tanto su aplicaciónen el análisis de grandes conjuntos de datos es poco viable. La alternativa quese propuso para resolver esta problemática es la utilización de Redes NeuronalesArtificiales, en particular el algoritmo SOM. Dadas las propiedades expuestasde este modelo, se puede concluir que efectivamente representa una herramientade gran utilidad en el análisis de grande conjuntos de datos multidimensionales.Una de las propiedades más útiles del SOM es que brinda una forma de visu-alizar las relaciones de similitud subyacentes en el conjunto de datos. Además, seobservó que el SOM es una alternativa viable para la realización de las tareas declustering, proyección y cuantización. En este sentido el SOM es una herramien-ta que por si sola aproxima una solución a varios de los problemas clásicos enel Análisis Exploratorio de Datos. La versatilidad del SOM invita a pensar quemuy pronto, el uso de esta herramienta será más común y se presentará en unagran variedad de campos de aplicación.Sin embargo, aún hay muchas preguntas, por hacerse y por responder, con

relación a resultados teóricos que ayuden reconocer y entender propiedades gen-erales del algoritmo. En este trabajo los aspectos teóricos del algoritmo fueron

33

tratados de una manera muy breve; sin embargo, es evidente que un análisismatemático de las propiedades del SOM, requiere la utilización de diversas ra-mas de las matemáticas y por lo tanto representa un reto muy interesante parala investigación matemática.Las capacidades del SOM son de una utilidad tal que la ausencia de resulta-

dos teóricos no ha impedido que el algoritmo sea considerado por importantesempresas de desarrollo de software e incluido en una buena cantidad de sistemaspara la minería de datos y la visualización de información.En el ejemplo de aplicación al análisis de información científica se mostró

como el SOM puede ser utilizado con fines de investigación académica y comouna herramienta para el análisis de la actividad científica y tecnológica. La ade-cuada explotación de este potencial puede permitir, a especialistas en diversoscampos, interactuar de manera muy cercana con la información almacenada ensus bases de datos y por medio de esta interacción descubrir conocimiento utilpara la toma de decisiones.

Referencias[1] Bauer H. U., K. R. Pawelzik, “Quantifying the Neighborhood Preservation

of Self-Organizing Feature Maps”, IEEE Transactions on Neural Networks,vol. 3, No. 4. 1992.

[2] Bigus J., “Data Mining with neural networks”, Mc GrawHill, USA, 1996.

[3] Bouton C., Pagès G., “Self-organization and the a.s. convergence of the one-dimensional Kohonen algorithm with non-uniformly distributed stimuli”,Appl. Stochastic Process, 47, 1993.

[4] H. Carrillo, M.V. Guzmán, E. Villaseñor, E. Valencia, R. Calero, L. E.Morán y A. Acosta. “Minería de Datos con Redes Neuronales Artificiales:Aplicación en Vacunas - Tuberculosis”. Congreso Internacional de la Infor-mación. INFO’2004.LA HABANA. Abril del 2004. ISBN 95923404044.

[5] Carrillo-Calvet, H; Trejo-Avila, MC; Villaseñor-García, EA; Guzmán-Sánchez, MV: “Data SOMining: Software para el Descubrimiento deConocimiento en Grandes Bases de Datos de Información Científico-Tecnológica”, Congreso Internacional de la Información. INFO’2004.LAHABANA. Abril del 2006.

[6] Brachman R. , Anand R., “The Process of Knowledge Discovery in Databas-es: A human centered approach”, Advantedge in Knowledge Discovery inDatabases Magazine, MIT Press, 1996.

[7] Cottrell M., Pagès J. C., “Etude d‘un algorithme d‘auto-organisation” Ann.Inst. Henri Poncaré 23 (1), (1987).

34

[8] Cottrell M., Fort J.C. , Pagès G., In Proc. WSOM’97, Workshop on Self-Organizing Maps, Helsinski University of Technology, Neural Networks Re-search Centre, Espoo, Finland 1997.

[9] Cottrell M., Fort J.C. ,Pagès G., “Theorical aspects of the SOM algorithm”,Neurocomputing 21, 1998.

[10] Erwin E., Obermayer K., Shulten K., “Self-organizing maps: stationarystates, metastability and convergence rate”, Biological Cybernetics 67, 1992

[11] Flanagan A., “Self-organization in Kohonen’s SOM”, Neural Networks 9,1996.

[12] Flanagan A., “Sufficient conditions for self-organization in the one-dimensional SOM with a reduced width neighbourhood”, Neurocomputing21, 1998.

[13] Flanagan A., “Self-organization in the one-dimensional SOM with a de-creasing neighborhood”, Neural Networks 14, 2001.

[14] Grabmeier J., Rudolph A., “Techniques of Cluster Algorithms in Data Min-ing”, Data Mining and Knowledge Discovery, vol. 6, 2002.

[15] Hastie T., Stuetzle W. "Principal Curves", Journal of American StatisticalAssociation 8, pp.. 502-516, 1989.

[16] Heskes T., “Energy functions for self-organizing maps”, Theorical Founda-tion SNN, University of Nijmegen, 1999.

[17] Kohonen T. , “Self-organizad formation of topologically correct featuremaps”, Biological Cybernetics, 43, 1982.

[18] Kohonen T., “Analysis of a simple self-organizing process”, Biological Cy-bernetics, 44, 1982.

[19] Kohonen T., “Self-Organizing Maps”, 3ra Edición, Springer-Verlag, 2001.

[20] Martinetz T.M., Villmann T., Der R. , Herrmann M., “Toplogy Preserva-tion in Self-Organizing Feature Maps: Exact Definition and Measurement”,IEEE Trasactions on Neural Networks, vol. 8, no. 2, 1997.

[21] Fort J.C., Pagès G., “On the a.s. convergence of the Kohonen algorithmwith a general neighborhood function”, Ann. Appl. Probab. 28 (4), 1996.

[22] Fort J.C., Pagès G., “Convergence of stochastic algorithms” Add. Appl.Probab. 28 (4), 1996.

[23] Ripley B.D. ed., "Pattern Recognition and Neural Networks", CambridgeUniversity Press, 1996.

[24] Sadeghi A., “Self-Organizing property of Kohonen’s map with general typeof stimuli distribution” Neural Networks, aceptado en 1997.

35

[25] Sadeghi A., “Asymptotic behavior of self-organizing maps with non-uniformstimuli distribution”, Ann. Appl. Probab. 8 (1) 1998.

[26] Sotolongo G., Guzmán M. V., Saavedra O., Carrillo H., “Mining Informet-rics Data with Self-organizing Maps”, in: M. Davis, C.S. Wilson, (Eds.),“Proceedings of the 8 th International Society for for Scientometrics andInformetrics”, ISBN:0-7334-18201. Sydney, Australia July 16-20. Sydney:BIRG; 2001: 665-673.

[27] Sotolongo G., Guzmán M. V., Carrillo H., “ViBlioSOM: visualización deinformación bibliométrica mediante el mapeo autoorganizado”, Revista Es-pañola de Documentación Científica, 2002, 25(4):477-484.

[28] Tolat V.V., “An analysis of Kohonen´s self-organizing maps using a systemof energy functions”, Biological Cybernetics 64, 1990.

[29] Tukey J. W., “Exploratory data analisys”, Addison Wesley, 1977.

36

Documents

Métodos Matemáticos para la Minería de Datos: La red ... análisis, sino de metodologías completas deﬁnidas para su implementación en sistemas de software. En cuanto a la etapa