363
NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE IMÁGENES TOMOGRÁFICAS CEREBRALES. TESIS DOCTORAL. Antonio Romero Moreno. Directores: Dr. Javier Ramírez Pérez de Inestrosa. Dr. Juan Manuel Górriz Sáez. Dr. Manuel Gómez Río.

NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Embed Size (px)

Citation preview

Page 1: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

NUEVOS PARADIGMAS PARA EL

ANÁLISIS ESTADÍSTICO DE

IMÁGENES TOMOGRÁFICAS CEREBRALES.

TESIS DOCTORAL.

Antonio Romero Moreno.

Directores: Dr. Javier Ramírez Pérez de Inestrosa. Dr. Juan Manuel Górriz Sáez. Dr. Manuel Gómez Río.

Page 2: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Editor: Editorial de la Universidad de GranadaAutor: Antonio Romero MorenoD.L.: GR 2007-2011ISBN: 978-84-694-1176-6

Page 3: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 4: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

D. Javier Ramírez Pérez de Inestrosa, Doctor por la Universidad de Granada y Profesor Titular del Departamento Teoría de la Señal, Telemática y Comunicaciones de la Universidad de Granada, D. Juan Manuel Górriz Sáez, Doctor por la Universidad de Cádiz y la Universidad de Granada y Profesor Titular del Departamento de Teoría de la Señal, Telemática y Comunicaciones de la Universidad de Granada, y D. Manuel Gómez Río, Doctor por la Universidad de Granada y Facultativo Especialista del Servicio de Medicina Nuclear del Hospital Universitario Virgen de las Nieves de Granada MANIFIESTAN: Que la presente Memoria titulada “Nuevos paradigmas para el análisis estadístico de imágenes tomográficas cerebrales”, presentada por Antonio Romero Moreno para optar al grado de Doctor por la Universidad de Granada, ha sido realizada bajo nuestra dirección. Con esta fecha, autorizamos la presentación de la misma.

Granada, a 26 de Octubre de 2010

Fdo: Javier Ramírez Pérez de Inestrosa Fdo: Juan Manuel Górriz Sáez

Fdo: Manuel Gómez-Río Memoria presentada por Antonio Romero Moreno para optar al Grado de Doctor por la Universidad de Granada.

Fdo: Antonio Romero Moreno

Page 5: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 6: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

A mis Sobrinos Daniel y Álvaro.

A mis Padres Mª Victoria y Antonio.

A mi Hermana Mª Jesús.

A mi Cuñado Joaquín.

Page 7: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 8: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

AGRADECIMIENTOS.

Cuando se consigue alcanzar una meta no resulta tan difícil caer en la tentación de mentirse creyendo que se ha conseguido el objetivo gracias y exclusivamente a uno mismo… ¡Nada más lejano de la realidad! Siempre hay un grupo de personas que sin su ayuda nunca se hubiese podido comenzar el camino y menos aún llegar al final de éste. En mi caso estas personas han influido de forma muy directa en el resultado final de este trabajo: corrigiendo mis errores, aconsejándome, ofreciéndome su tiempo, su total disposición, su paciencia, su entrega y un largo etc., los cuales merecen una mención muy especial porque sin ellos no se hubiese podido realizar la presente Tesis, son los profesores Dr. Javier Ramírez, Dr. Juan Manuel Górriz, junto con la imprescindible colaboración recibida por parte de Dr. Manuel Gómez, del servicio de Medicina Nuclear del Hospital Virgen de las Nieves de Granada, quien además se encargó de coordinar el tedioso trabajo manual, del diagnóstico y etiquetado de las imágenes SPECT de los pacientes que constituyeron la base de datos para la parte experimental. También es justo nombrar a la residente Alicia Chinchilla que siempre me ofreció su ayuda para la realización de dicha base de datos. Y al Dr. Nicolás Olea, jefe del departamento de Radiología y Medicina Física, junto a sus compañeros de departamento, por toda su colaboración e interés mostrado para que esta Tesis, se lea a través de su departamento de la Facultad de Medicina.

Page 9: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 10: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

RESUMEN.

Actualmente, la precisión con que se realiza el diagnóstico precoz de ciertas enfermedades de tipo neurodegenerativo tales como la enfermedad de Alzheimer no supera el 70% y, en muchas ocasiones, éstas no reciben el tratamiento adecuado. La presente Tesis contribuye al desarrollo de los sistemas automáticos de ayuda al diagnóstico (CAD) precoz de la enfermedad de Alzheimer por medio de técnicas de reconstrucción, normalización y clasificación supervisada de imágenes de tomografía computarizada de emisión de fotón único (SPECT) con el doble objetivo de:

i) mejorar la sensibilidad en la detección de enfermedades neurodegenerativas, y

ii) reducir la variabilidad en la interpretación de la imagen por parte del explorador.

Para ello, se parte de la base de que las técnicas de SPECT proporcionan información funcional (riego sanguíneo cerebral) y permiten diagnosticar anormalidades en tejidos internos u órganos, incluso antes de que se produzcan alteraciones anatómicas o estructurales y sean observables. La investigación se ha centrado en el diseño completo de un sistema CAD que considera la selección de algoritmos robustos de reconstrucción tomográfica, normalización espacial y en intensidad, extracción de características y clasificación supervisada utilizando diferentes clasificadores entre los que se encuentran las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales discriminantes, árboles de decisión o redes neuronales. La Tesis propone diferentes técnicas para la representación cuantitativa de imágenes SPECT mediante características discriminantes que permiten mejorar la precisión en el diagnóstico precoz, así como el estudio y la optimización de clasificadores lineales, no lineales y basados en aprendizaje estadístico para detección efectiva de enfermedades neurodegenerativas.

Page 11: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 12: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

ÍNDICE GENERAL: Capítulo 0......................................................................................................................... 1

INTRODUCCIÓN. .......................................................................................................... 1

0.1 Justificación de la Tesis. ........................................................................................... 3

0.2 Estado Actual. ............................................................................................................ 4

0.3 Objetivo. ..................................................................................................................... 7

Capítulo 1....................................................................................................................... 11

RESEÑA SOBRE LA NEURODEGENERACIÓN: ORÍGENES, SÍNTOMAS Y EFECTOS. ..................................................................................................................... 11

1.1 El Cerebro. ............................................................................................................... 13

1.2 La Vejez.................................................................................................................... 14 1.2.1 Efecto del Envejecimiento de la Población en la Sociedad....................................... 14

1.3 Funciones Cognitivas. ............................................................................................. 15 1.3.1 Medición Clínica del Deterioro Cognitivo. ................................................................ 17 1.3.2 Juicio Clínico en el Deterioro Cognitivo. ................................................................... 19

1.4 Síndrome Demencial. .............................................................................................. 21 1.4.1 Clasificación de las Demencias. .................................................................................. 22 1.4.2 Evaluación de los Pacientes con Sospecha de Demencia. ......................................... 24 1.4.3 Escala de Demencias. ................................................................................................... 25 1.4.4 Exámenes Complementarios....................................................................................... 26

1.5 Trastornos Cognitivos Asociados a la Enfermedad de Alzheimer......................... 27 1.5.1 Síntomas Cognitivos y Enfermedad de Alzheimer.................................................... 28

1.6 Descubrimiento de la Enfermedad de Alzheimer. .................................................. 28

1.7 Patología de la Enfermedad de Alzheimer. ............................................................ 31 1.7.1 Neuropatología. ............................................................................................................ 32 1.7.2 Aspectos Morfológicos. ................................................................................................ 34

Capítulo 2....................................................................................................................... 37

TÉCNICAS DE ADQUISICIÓN DE IMÁGENES EN MEDICINA NUCLEAR...... 37

2.1 Historia de la Imagen Médica................................................................................. 39

2.2 Imagen Médica. Información Estructural y Funcional del Cuerpo Humano in vivo. ................................................................................................................................ 40

2.2.1 Definición y Conceptos Básicos................................................................................... 40

Page 13: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

VI Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

2.2.2 Evolución del Diagnóstico Mediante Imagen Médica............................................... 41 2.2.3 Diagnóstico Mediante Imagen Nuclear. ..................................................................... 42 2.2.4 SPECT vs PET. ............................................................................................................ 44 2.2.5 Aplicaciones de la Medicina Nuclear. ........................................................................ 45 2.2.6 Realización de la Exploración..................................................................................... 47 2.2.7 Los Equipos de Detección Empleados en Medicina Nuclear. .................................. 47 2.2.8 Beneficios y Riesgos de la Imagen en Medicina Nuclear. ......................................... 48 2.2.9 Limitaciones de la Medicina Nuclear. ........................................................................ 48

2.3 La Tomografía Computarizada de Emisión. .......................................................... 49 2.3.1 Tomografía por Emisión de Positrones (PET). ......................................................... 49 2.3.2 Tomografía por Emisión de Fotón Único (SPECT). ................................................. 55

Capítulo 3....................................................................................................................... 65

PREPROCESADO DE IMÁGENES TOMOGRÁFICAS SPECT/PET..................... 65

3.1 Introducción............................................................................................................. 67

3.2 Desarrollo Preliminar.............................................................................................. 67

3.3 Los Orígenes. ........................................................................................................... 70

3.4 Proyección Ideal de un Rayo Gamma. ................................................................... 70

3.5 Proyección Real de un Rayo Gamma. .................................................................... 72

3.6 Construcción de Imágenes de Prueba. ................................................................... 72

3.7 El Teorema de Corte de Fourier. ............................................................................ 75

3.8 Pre-Procesado de Imágenes. ................................................................................... 78 3.8.1 Adquisición de la Imagen. ........................................................................................... 78 3.8.2 Reconstrucción de Imágenes. ...................................................................................... 79 3.8.3 Registro de Imágenes. .................................................................................................. 80 3.8.4 Normalización de Intensidad. ..................................................................................... 80 3.8.5 Normalización Espacial. .............................................................................................. 84 3.8.6 Normalización Espacial para las Imágenes Utilizadas en la Presente Tesis. .......... 87 3.8.7 Normalización de Intensidad para las Imágenes Utilizadas en la Presente Tesis. . 88

Capítulo 4....................................................................................................................... 91

EXTRACCIÓN DE CARACTERÍSTICAS DE IMÁGENES FUNCIONALES. ....... 91

4.1 Diagnóstico Asistido por Computador. ................................................................... 93

4.2 Statistical Parametric Mapping (SPM)................................................................... 94

4.3 Procesado en SPM................................................................................................... 95

4.4 Análisis Estadístico.................................................................................................. 95

4.5 Voxels-as-Features (VAF). ..................................................................................... 97

4.6 Extracción de Características. ................................................................................ 98

Page 14: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

ÍNDICE GENERAL. VII _____________________________________________________________________________

4.6.1 Características Regionales. Caracterización para la Textura. ................................ 99 4.6.2 Estadística de Primer Orden para Características. .................................................. 99 4.6.3 Características Estadísticas de Segundo Orden (matrices co-ocurrentes). .......... 100

4.7 Selección del Subconjunto de Características. ..................................................... 105

4.8 Métodos de Filtrado............................................................................................... 107 Ejemplo 1: Máscara............................................................................................................ 107 Ejemplo 2: Transformación Lineal. .................................................................................. 109

4.9 Métodos de Envoltura............................................................................................ 111

4.10 Componentes........................................................................................................ 111 4.10.1 Métodos de Componentes........................................................................................ 111 4.10.2 Extracción de Características Basadas en Factorización. .................................... 112

4.11 Componentes Principales. ................................................................................... 114 4.11.1 Análisis de Componentes Principales..................................................................... 114

4.11.1.1 Transformación de Karhumen-Loéve. ..............................................................................114 4.12 Reducción de la Dimensionalidad Mediante Selección de Componentes Principales. .................................................................................................................. 116

4.12.1 Eigenbrains............................................................................................................... 117 4.12.2 Selección de Características a Partir de Componentes Principales. ................... 119 4.12.3 Selección Mediante el Criterio de Fisher. .............................................................. 120

4.13 Reducción de la Dimensionalidad Mediante Componentes Independientes. ... 120

4.14 Método de Extracción de Diferencias................................................................. 121 4.14.1 Tratamiento de las Imágenes. ................................................................................. 121 4.14.2 Modelo de Cortes Bidimensionales......................................................................... 122 4.14.3 Modelo de Clusters. ................................................................................................. 124

Capítulo 5..................................................................................................................... 129

TEORÍA DEL APRENDIZAJE ESTADÍSTICO BASADO EN COMPUTADOR.. 129

5. Introducción............................................................................................................. 131

5.1 Máquinas de Vectores de Soporte (SVM). ............................................................ 131 5.1.1 SVM Lineal................................................................................................................. 131 5.1.2 SVM No Lineal........................................................................................................... 139 5.1.3 Conjunto de SVMs..................................................................................................... 143

5.2 k Nearest Neighbors (k-NN).................................................................................. 145 5.2.1 Espacios Métricos. ..................................................................................................... 147 5.2.2 Consultas por Proximidad. ....................................................................................... 149 5.2.3 Maldición de la Dimensionalidad. ............................................................................ 150 5.2.4 Fundamentos del Método del Vecino más Cercano (k Nearest Neighbors k-NN)............................................................................................................................................... 152 5.2.5 Clasificación k-NN. .................................................................................................... 155

Page 15: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

VIII Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

5.2.6 Regla de los k-Vecinos de Centroide más Cercano. ................................................ 156 5.3 Clasificación Basada en Funciones Discriminantes. .......................................... 157

5.3.1 Funciones Discriminantes y Superficies de Decisión. ............................................. 157 5.3.1.1 Discriminante Lineal Binario..............................................................................................158 5.3.1.2 Funciones Discriminantes Generalizadas............................................................................162

5.3.2 Clasificación por Funciones de Distancia. ............................................................... 164 5.3.3 Estudio de Caso: Distribución Normal. ................................................................... 170

5.4 Árboles de Decisión. .............................................................................................. 174 5.4.1 Construcción de Árboles de Decisión. ...................................................................... 175 5.4.2 Reglas de Producción................................................................................................. 176 5.4.3 Reglas de Asociación.................................................................................................. 176 5.4.4 Resolución de un Problema de Clasificación Utilizando Árboles de Decisión...... 177 5.4.5 Reglas de División. ..................................................................................................... 178 5.4.6 La Ganancia de Información. ................................................................................... 178 5.4.7 El Criterio de Proporción de Ganancia. ................................................................. 179 5.4.8 El Índice de Diversidad de Gini. .............................................................................. 180 5.4.9 MAX........................................................................................................................... 180 5.4.10 MAXDIF. .................................................................................................................. 183 5.4.11 Reglas de Parada...................................................................................................... 183 5.4.12 Reglas de Poda. ........................................................................................................ 184

5.4.12.1 Poda por Estimación del Error. .........................................................................................185 5.4.12.2 Poda por Coste-Complejidad. ...........................................................................................185 5.4.12.3 Poda Pesimista. .................................................................................................................186

5.4.13 Tests Considerados. ................................................................................................. 186 5.4.14 Información Incompleta. ......................................................................................... 187 5.4.15 Generación de Reglas. ............................................................................................. 187

5.4.15.1 Generalización de Reglas..................................................................................................188 5.5 Redes Neuronales Artificiales. .............................................................................. 189

5.5.1 Sistema Neuronal Artificial....................................................................................... 189 5.5.2 El Asociador Lineal.................................................................................................... 195 5.5.3 El Perceptrón Simple................................................................................................. 196 5.5.4 El Perceptrón Multicapa. .......................................................................................... 201

5.6 Evaluación del Rendimiento de los Clasificadores. ............................................. 205 5.6.1 Leave-One-Out........................................................................................................... 205 5.6.2 Parámetros de Valoración del Rendimiento de un Clasificador. .......................... 206

Capítulo 6..................................................................................................................... 209

RESULTADOS EXPERIMENTALES. ...................................................................... 209

6.1 Introducción........................................................................................................... 210

6.2 Diagnóstico de la Demencia de Tipo Alzheimer Mediante SPECT..................... 211

Page 16: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

ÍNDICE GENERAL. IX _____________________________________________________________________________

6.3 Estadísticos para la Discriminación de la Demencia del Tipo Alzheimer........... 213 6.3.1 Estadístico de Primer Orden..................................................................................... 213 6.3.2 Estadístico de Segundo Orden. ................................................................................. 213 6.3.3 Selección de Características. ..................................................................................... 214

6.4 Base de Datos......................................................................................................... 215

6.5 Resultados Experimentales. .................................................................................. 218 6.5.1 Análisis Experimental Usando SVMs. ..................................................................... 218 6.5.2 Resultados de Evaluación.......................................................................................... 220

6.6 Resultados de Clasificación para el Modelo NMSE de Cortes Bidimensionales.224 6.6.1 Clasificador SVM....................................................................................................... 224 6.6.2 Clasificador k-NN. ..................................................................................................... 232 6.6.3 Análisis Discriminante de Clases. ............................................................................. 239 6.6.4 Árboles de Decisión.................................................................................................... 246 6.6.5 Redes Neuronales. ...................................................................................................... 247

6.6.5.1 Perceptrón. ..........................................................................................................................247 6.6.5.2 Red de Feedforward. ..........................................................................................................248

6.7 Resultados de Clasificación para el Modelo NMSE de ROIs Extraidas Mediante Clustering GMM.......................................................................................................... 252

Capítulo 7..................................................................................................................... 255

DISCUSIÓN Y CONCLUSIONES. ............................................................................ 255

7.1 Conclusiones. ......................................................................................................... 257

7.2 Discusión................................................................................................................ 258

7.3 Trabajo Futuro. ..................................................................................................... 259

APÉNDICE A. ............................................................................................................. 261

ATLAS VISUAL DEL CEREBRO. ............................................................................ 261

A.1 Sistema Nervioso. .................................................................................................. 263

A.2 Cortes Transversales. ............................................................................................ 264

A.3 Cortes Frontales.................................................................................................... 265

A.4 Amígdalas. ............................................................................................................. 266

A.5 Corteza Cerebral. .................................................................................................. 267

A.6 Cerebelo................................................................................................................. 269

A.7 Diencéfalo. ............................................................................................................ 270

A.8 Hipocampo. ........................................................................................................... 272

A.9 Sistema Límbico. ................................................................................................... 273

A.10 Corteza Somatosensorial. ................................................................................... 274

APÉNDICE B. ............................................................................................................. 277

GRÁFICAS. ................................................................................................................. 277

Page 17: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

X Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

B.1 Gráficas de Resultados Experimentales para el Método Basado en Máquinas de Vectores Soporte (SVM). ............................................................................................. 279

B.2 Gráficas de Resultados Experimentales para el Método Basado en K-Nearest-Neighbors (k-NN). ....................................................................................................... 284

B.3 Gráficas de Resultados Experimentales para el Método Basado en Análisis Discriminante de Clases. ............................................................................................. 289

B.4 Gráficas de Resultados Experimentales para el Método Basado en Red de Feedforward................................................................................................................. 294

APÉNDICE C. ............................................................................................................. 299

PROTOCOLO DE ADQUISICIÓN DE UNA SPECT. ............................................. 299

BIBLIOGRAFÍA. ........................................................................................................ 309

Page 18: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

ÍNDICE DE FIGURAS:

Figura 1.1 Organización funcional del Cerebro. ...............................................................................13 Figura 1.2 Árbol de toma de decisiones en el diagnóstico del deterioro cognitivo...........................20 Figura 1.3 Aloïs Alzeimer.................................................................................................................29 Figura 1.4 Auguste D........................................................................................................................29 Figura 1.5 Escritura de Auguste D....................................................................................................30 Figura 1.6 Laminilla con la preparación histológica del cerebro original de Auguste D. ................30 Figura 1.7 Cerebro de un individuo normal v paciente con Alzheimer. ...........................................32 Figura 1.8 Tangles Neurofibrilares intracelulares. Neurona superior sana v neurona inferior enferma...........................................................................................................................................................33 Figura 2.1 Grabado de la época en el que se muestra la realización de las primeras radiografías. ..39 Figura 2.2 Módulo de síntesis de Radiofármacos. ............................................................................51 Figura 2.3 Izquierda, fotomultiplicador planar sensible a la posición, utilizado en PET y en gamma-cámaras. Derecha, cristales de LSO cortados antes de ensamblarlos en una matriz para formar una cabeza de un detector para PET. .......................................................................................................51 Figura 2.4 Tomógrafo PET. ..............................................................................................................53 Figura 2.5 Esquema de la detección de fotones γ emitidos por un cuerpo, en una gammacámara. ..56 Figura 2.6 Gammacámara PickerPrism 3000, de tres cabezales giratorios.......................................56 Figura 2.7 Esquema de una proyección usando una gammacámara, donde se muestra el efecto del colimador. Idealmente sólo los fotones que inciden en la dirección de los agujeros del colimador serán detectados. ...............................................................................................................................58 Figura 2.8 Configuración de colimadores usados en SPECT. Fila superior: (a) configuración de agujeros paralelos y (b) configuración convergente fan-beam. Fila inferior: (c) configuración divergente y (d) configuración de un pinhole. ..................................................................................59 Figura 2.9 Respuesta del sistema a una fuente puntual colocada a distintas distancias del plano del colimador. En este caso se trata de un colimador de agujeros paralelos. ..........................................60 Figura 2.10 Efecto del ruido en las proyecciones de SPECT............................................................61 Figura 3.1 Proyección sobre una línea recta. ....................................................................................67 Figura 3.2 Proyección representada por una banda sobre una rejilla. ...............................................69 Figura 3.3 Sistema de coordenadas e imagen de un objeto cuya sección transversal es una elipse. .71 Figura 3.4 Sistema de coordenadas y puntos de intersección de un rayo con la imagen de un objeto cuya sección transversal es una elipse. .............................................................................................73 Figura 3.5 Elipse y su sinograma. .....................................................................................................74 Figura 3.6 Fantomas de Shepp-Logan y su sinograma. ....................................................................75 Figura 3.7 Representación esquemática del teorema de corte de Fourier. ........................................77 Figura 3.8 Representación esquemática de las proyecciones. Los puntos representan el objeto en el dominio de frecuencias espaciales. ...................................................................................................77 Figura 3.9 Modelos de perfusión: paciente afectado por demencia tipo Alzheimer en fase inicial. .78 Figura 3.10 20 histogramas de intensidad de diferentes imágenes de la base de datos SPECT empleada en la presente Tesis. ..........................................................................................................89 Figura 4.1 Resultados de SPM para clasificación con el modelo descrito en el texto. .....................97 Figura 4.2 Las cuatro orientaciones empleadas para construir la matriz de co-ocurrencia. ............101 Figura 4.3 Probabilidad de agrupar n puntos en un espacio de características m-dimensional en 2 clases linealmente separables..........................................................................................................106 Figura 4.4 Secciones transversales. Columna izquierda: Un paciente normal. Columna central: Un paciente DTA. Columna derecha: Máscara. ...................................................................................109 Figura 4.5 Cortes sagital, coronal y transversal de una imagen SPECT cerebral con la componente de la imagen remarcada. .................................................................................................................114 Figura 4.6 Cortes transaxial, coronal y sagital del cerebro de un paciente. ....................................122 Figura 4.7 Cortes coronales: a) Prototipo paciente sano, b) Paciente sano, c) Paciente con EA. ...124 Figura 4.8 Máscara que define los clusters de las imágenes SPECT. .............................................126

Page 19: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

XII Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Figura 4.9 Máscara que define los cluster para: a) h=5%, b) h=15%, c) h=25%, d) h=50%, e) h=75% y f) h=90%..........................................................................................................................127 Figura 5.1 Geometría de la línea de decisión. En un lado se cumple ( ) 0>xg y en el otro

( ) 0<xg ........................................................................................................................................132 Figura 5.2 Ejemplo de dos clases linealmente separables con dos posibles clasificadores lineales.........................................................................................................................................................133 Figura 5.3 El margen para la dirección 2 es mayor que para la dirección 1....................................134 Figura 5.4 En el caso de clases no separables, los puntos caen dentro de la banda de separación de clases...............................................................................................................................................137 Figura 5.5 La arquitectura de SVM usando las funciones de kernel...............................................142 Figura 5.6 Un ejemplo de consulta por rango (a) y k-vecinos más cercanos (b) sobre un conjunto de R2. ...................................................................................................................................................150 Figura 5.7 Un histograma de distancias para un espacio métrico de dimensión baja (izquierda) y de dimensión alta (derecha). ................................................................................................................151 Figura 5.8 Ubicación de un dato nuevo entre datos conocidos. ......................................................153 Figura 5.9 Predicción de la clase de un dato nuevo con respecto al vecino más cercano. ..............153 Figura 5.10 Predicción de la clase de un dato nuevo con respeto al vecino más cercano, los datos conocidos contienen ruido. .............................................................................................................154 Figura 5.11 Predicción de la clase de un dato nuevo con respecto a los cinco vecinos más cercanos, los datos conocidos contienen ruido. ..............................................................................................154 Figura 5.12 Recta de Decisión en el Plano de Características. .......................................................159 Figura 5.13 Esquema del Clasificador Lineal entre dos clases. ......................................................159 Figura 5.14 Configuración de vectores del análisis de la Función de Decisión. .............................161 Figura 5.15 Izquierda: dos regiones linealmente separables. Derecha: no linealmente separables.........................................................................................................................................................162 Figura 5.16 Izquierda: muestra clasificable fácilmente por concepto de proximidad. Derecha: muestra no fácilmente clasificable. .................................................................................................165 Figura 5.17 Distancia de Mahalanobis para características no correlaciones (a la izquierda) y correlacionadas (derecha). ..............................................................................................................167 Figura 5.18 Clases adecuadas para la medida de semejanza...........................................................168 Figura 5.19 Neurona y sus partes....................................................................................................190 Figura 5.20 Sistema global de proceso de una red neuronal. ..........................................................192 Figura 5.21 Modelo de Neurona Artificial Standard.......................................................................193 Figura 5.22 Arquitectura unidireccional con tres capas de neuronas: una capa de entrada, una capa oculta y una capa de salida..............................................................................................................194 Figura 5.23 Diferentes arquitecturas de redes neuronales. Izquierda: Monocapa realimentada, derecha: Multicapa unidireccional. .................................................................................................194 Figura 5.24 Arquitectura (izquierda) y función de activación (derecha) del asociador lineal.........196 Figura 5.25 Arquitectura (izquierda) y función de transferencia (derecha) de un perceptrón simple.........................................................................................................................................................198 Figura 5.26 Región de decisión correspondiente a un perceptrón simple con dos neuronas de entrada.............................................................................................................................................199 Figura 5.27 Evolución de las regiones de decisión establecidas por el perceptrón simple. ............200 Figura 5.28 Arquitectura (izquierda) y función de activación (derecha) para el perceptrón multicapa.........................................................................................................................................................202 Figura 5.29 Arquitectura del perceptrón multicapa. .......................................................................202 Figura 6.1 Modelos de perfusión: a) individuo normal, b) paciente afectado por Demencia Tipo Alzheimer en fase inicial. ...............................................................................................................212 Figura 6.2 Desviación típica, correlación y valores de FDR de las secciones sagitales, coronales y transversales para sujetos normales y pacientes con DTA..............................................................215 Figura 6.3 Preclínico: DTA-1. ........................................................................................................217 Figura 6.4 Moderado: DTA-2. ........................................................................................................217 Figura 6.5 Severo: DTA-3. .............................................................................................................218 Figura 6.6 Efecto de mapear el espacio de entrada en un espacio de características que puede separarse por medio de una frontera lineal. ....................................................................................219 Figura 6.7 Precisión del sistema VAF con SVM-lineal evaluada usando la estrategia de validación cruzada de dejar 5 fuera (leave 5-out).............................................................................................221

Page 20: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

ÍNDICE DE FIGURAS. XIII _____________________________________________________________________________

Figura 6.8 Exactitud y dimensión del espacio de entrada para un sistema de SVM con núcleo RBF donde se emplearon la desviación típica y la correlación de las secciones con el FDR normalizado superior a un umbral en particular. .................................................................................................222 Figura 6.9 Funciones de decisión para un espacio de entrada bidimensional con vector de entrada formado por los mejores discriminantes (desviación típica coronal y correlación sagital) de las secciones. ........................................................................................................................................223 Figura A.1 El Sistema Nervioso. ....................................................................................................263 Figura A.2 Corte Transversal del Cerebro 1. ..................................................................................264 Figura A.3 Corte Transversal del Cerebro 2. ..................................................................................264 Figura A.4 Corte Transversal del Cerebro 3. ..................................................................................265 Figura A.5 Corte Frontal del Cerebro 1. .........................................................................................265 Figura A.6 Corte Frontal del Cerebro 2. .........................................................................................266 Figura A.7 Localización de las Amígdalas. ...................................................................................266 Figura A.8 Corteza Cerebral. ..........................................................................................................267 Figura A.9 Constituyentes que forman la Corteza Cerebral. ..........................................................268 Figura A.10 Constituyentes que forman el Cerebelo. ....................................................................269 Figura A.11 Localización del Diencéfalo. ......................................................................................270 Figura A.12 Componentes del Diencéfalo. .....................................................................................270 Figura A.13 Localización del Hipocampo. .....................................................................................272 Figura A.14 Izquierda vista Lateral, derecha vista Ventral del Hipocampo. ..................................272 Figura A.15 Localización del Sistema Límbico..............................................................................273 Figura A.16 Corteza Somatosensorial.............................................................................................274 Figura B.1 Exactitud para el método SVM, con distintos núcleos..................................................279 Figura B.2 Sensibilidad para el método SVM, con distintos núcleos. ............................................280 Figura B.3 Especificidad para el método SVM, con distintos núcleos. ..........................................280 Figura B.4 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método SVM, con distintos núcleos, en la base de 54 pacientes. ..................................................281 Figura B.5 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método SVM, con distintos núcleos, en la base de 82 pacientes. ...................................................281 Figura B.6 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método SVM, con distintos núcleos, en la base de 91 pacientes. ...................................................282 Figura B.7 Fracción de probabilidad positiva para el método SVM, con distintos núcleos............282 Figura B.8 Fracción de probabilidad negativa para el método SVM, con distintos núcleos...........283 Figura B.9 Cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa para el método SVM, con distintos núcleos. ....................................................................283 Figura B.10 Exactitud para el el método k-NN, con diferentes valores de k. .................................284 Figura B.11 Sensibilidad para el método k-NN, con diferentes valores de k..................................285 Figura B.12 Especificidad para el método k-NN, con diferentes valores de k................................285 Figura B.13 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método k-NN, con diferentes valores de k, en la Base de 54 Pacientes..........................................286 Figura B.14 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método k-NN, con diferentes valores de k, en la Base de 82 pacientes. .........................................286 Figura B.15 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método k-NN, con diferentes valores de k, en la Base de 91 pacientes. .........................................287 Figura B.16 Fracción de probabilidad positiva para el método k-NN, con diferentes valores de k.........................................................................................................................................................287 Figura B.17 Fracción de probabilidad negativa para el método k-NN, con diferentes valores de k.........................................................................................................................................................288 Figura B.18 Cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa para el método k-NN, con diferentes valores de k............................................................288 Figura B.19 Exactitud para el método basado en el Análisis Discriminante de Clases, con distintos núcleos. ...........................................................................................................................................289 Figura B.20 Sensibilidad para el método basado en el Análisis Discriminante de Clases, con distintos núcleos..............................................................................................................................290 Figura B.21 Especificidad para el método basado en el Análisis Discriminante de Clases, con distintos núcleos..............................................................................................................................290 Figura B.22 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método basado en el Análisis Discriminante de Clases, con distintos núcleos en la base de 54 pacientes. ........................................................................................................................................291

Page 21: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

XIV Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Figura B.23 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad basado en el Análisis Discriminante de Clases, con distintos núcleos en la base de 82 pacientes. ................291 Figura B.24 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad basado en el Análisis Discriminante de Clases, con distintos núcleos en la base de 91 pacientes. ................292 Figura B.25 Fracción de probabilidad positiva basado en el método de Análisis Discriminante de Clases, con distintos núcleos...........................................................................................................292 Figura B.26 Fracción de probabilidad negativa basado en el Análisis Discriminante de Clases, con distintos núcleos..............................................................................................................................293 Figura B.27 Cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa basado en el Análisis Discriminante de Clases, con distintos núcleos. ............................293 Figura B.28 Exactitud para el método basado en Red de Feedforward, con distinto número de neuronas en la capa oculta. .............................................................................................................294 Figura B.29 Sensibilidad para el método basado en Red de Feedforward, con distinto número de neuronas en la capa oculta. .............................................................................................................295 Figura B.30 Especificidad para el método basado en Red de Feedforward, con distinto número de neuronas en la capa oculta. .............................................................................................................295 Figura B.31 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método Red de Feedforward, con distinto número de neuronas en la capa oculta, en la Base de 54 pacientes. ........................................................................................................................................296 Figura B.32 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método Red de Feedforward, con distinto número de neuronas en la capa oculta, en la Base de 82 pacientes. ........................................................................................................................................296 Figura B.33 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método Red de Feedforward, con distinto número de neuronas en la capa oculta, en la Base de 91 pacientes. ........................................................................................................................................297 Figura B.34 Fracción de probabilidad positiva para el método Red de Feedforward, con distinto número de neuronas en la capa oculta.............................................................................................297 Figura B.35 Fracción de probabilidad negativa para el método Red de Feedforward, con distinto número de neuronas en la capa oculta.............................................................................................298 Figura B.36 Cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa para el método Red de Feedforward, con distinto número de neuronas en la capa oculta.........................................................................................................................................................298

Page 22: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

ÍNDICE TABLAS:

Tabla 1.1 Esperanza de vida a diferentes edades. Unión Europea. ...................................................15 Tabla 1.2 Falsos positivos v falsos negativos en el Mini-Mental. ....................................................18 Tabla 1.3 Actividades cotidianas instrumentales: escalas de Lawton y Brody. ................................18 Tabla 1.4 Test del informador (TIN). Características principales del test del informador................19 Tabla 1.5 Functional Assessmente Stages (FAST). ..........................................................................27 Tabla 2.1 Modalidades de Imagen Médica. ......................................................................................41 Tabla 2.2 Algunos radioisótopos utilizados en PET y SPECT. ........................................................45 Tabla 3.1 Parámetros del fantomas de Shepp-Logan. .......................................................................75 Tabla 4.1 Características clásicas....................................................................................................104 Tabla 5.1 Tabla de contingencia. ....................................................................................................188 Tabla 6.1 Bases de datos de pacientes con sus respectivas clases que las constituyen. ..................216 Tabla 6.2 Valores de exactitud, sensibilidad, especificidad obtenidos con diferentes núcleos en las distintas bases de pacientes, mediante el clasificador SVM. ..........................................................224 Tabla 6.3 Valores de exactitud expresados en orden decrecientemente para los distintos núcleos y bases empleadas, mediante el clasificador SVM. ...........................................................................225 Tabla 6.4 Núcleos ordenados decrecientemente para cada base de pacientes, según el valor de la exactitud que toman dichos núcleos, mediante el clasificador SVM. .............................................226 Tabla 6.5 Bases ordenadas decrecientemente para cada núcleo según el valor de la exactitud que toman en dichas bases, mediante el clasificador SVM. .................................................................226 Tabla 6.6 Valores de sensibilidad expresados en orden decrecientemente para los distintos núcleos y bases empleadas, mediante el clasificador SVM. ...........................................................................227 Tabla 6.7 Núcleos ordenados decrecientemente para cada base de pacientes según el valor de la sensibilidad que toman dichos núcleos, mediante el clasificador SVM..........................................227 Tabla 6.8 Bases ordenadas decrecientemente para cada núcleo según el valor de la sensibilidad que toman con dichos núcleos, mediante el clasificador SVM..............................................................228 Tabla 6.9 Valores de especificidad expresados en orden decrecientemente para los distintos núcleos y bases empleadas, mediante el clasificador SVM. ........................................................................229 Tabla 6.10 Núcleos ordenados decrecientemente para cada base, según el valor de la especificidad que toman dichos núcleos, mediante el clasificador SVM..............................................................229 Tabla 6.11 Bases ordenadas decrecientemente para cada núcleo, según el valor de la especificidad que toman con dichos núcleos, mediante el clasificador SVM.......................................................229 Tabla 6.12 Valores de fpp, fpn, fpp/fpn obtenidos mediante el clasificador SVM con diferentes núcleos en las distintas bases de pacientes......................................................................................231 Tabla 6.13 Valores de exactitud, sensibilidad y especificidad obtenidos mediante el clasificador k-NN con distinto número de k-vecinos............................................................................................233 Tabla 6.14 Valores de fpp, fpn, fpp/fpn obtenidos mediante el clasificador k-NN con distinto número de k-vecinos. .....................................................................................................................236 Tabla 6.15 Valores de exactitud, sensibilidad, especificidad obtenidos mediante Análisis Discriminante de Clases con diferentes núcleos en distintas bases de pacientes. ...........................239 Tabla 6.16 Valores de exactitud obtenidos mediante Análisis Discriminante de Clases con diferentes núcleos en las distintas bases de pacientes. ....................................................................240 Tabla 6.17 Núcleos ordenados decrecientemente para cada base de pacientes según el valor de la exactitud que toman dichos núcleos, mediante Análisis Discriminante de Clases.........................240 Tabla 6.18 Bases ordenadas decrecientemente para cada núcleo según el valor de la exactitud que toman con dichos núcleos, mediante Análisis Discriminante de Clases. ........................................241 Tabla 6.19 Valores de sensibilidad obtenidos mediante Análisis Discriminante de Clases con diferentes núcleos en las distintas bases de pacientes. ....................................................................241 Tabla 6.20 Núcleos ordenados decrecientemente para cada base de pacientes según el valor de la sensibilidad que toman dichos núcleos, mediante Análisis Discriminante de Clases. ....................242 Tabla 6.21 Bases ordenadas decrecientemente para cada núcleo según el valor de la sensibilidad que toman con dichos núcleos, mediante Análisis Discriminante de Clases. .................................242

Page 23: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

XVI Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Tabla 6.22 Valores de especificidad obtenidos mediante Análisis Discriminante de Clases con diferentes núcleos en distintas bases de pacientes. .........................................................................243 Tabla 6.23 Núcleos ordenados decrecientemente para cada base, según el valor de la especificidad que toman dichos núcleos, mediante Análisis Discriminante de Clases. ........................................244 Tabla 6.24 Bases ordenadas decrecientemente para cada núcleo, según el valor de la especificidad que toman con dichos núcleos, mediante Análisis Discriminante de Clases. .................................244 Tabla 6.25 Valores de fpp, fpn, fpp/fpn obtenidos mediante Análisis Discriminante de Clases con diferentes núcleos en distintas bases de pacientes. ........................................................................245 Tabla 6.26 Valores de exactitud, sensibilidad, especificidad obtenidos mediante Árboles de Decisión. .........................................................................................................................................247 Tabla 6.27 Valores de fpp, fpn, fpp/fpn obtenidos mediante Árboles de Decisión.........................247 Tabla 6.28 Valores de exactitud, sensibilidad, especificidad obtenidos mediante Perceptrón........247 Tabla 6.29 Valores de fpp, fpn, fpp/fpn obtenidos mediante Perceptrón.......................................248 Tabla 6.30 Valores de exactitud, sensibilidad, especificidad obtenidos mediante Red de Feedforward con distinto número de neuronas en la capa oculta....................................................249 Tabla 6.31 Valores de fpp, fpn, fpp/fpn obtenidos mediante Red de Feedforward con distinto número de neuronas en la capa oculta.............................................................................................251 Tabla 6.32 Precisión o exactitud obtenida para el sistema de extracción de ROIs basado en clustering GMM y clasificador SVM con kernel lineal para umbrales del 25%, 50%, 75% y 90%.........................................................................................................................................................254 Tabla C.1 La dosis estimada absorbida en órganos y tejidos de un sujeto estándar (70 Kg.) tras la administración i.v. de 20 mCi de 99mTc-HMPAO /ECD.................................................................308

Page 24: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Abreviaturas. AD Alzheimer’s Disease. ADNI Alzheimer Disease Neuroimaging Initiative. ART Algebraic Reconstruction Technique. CAD Computer Aided Diagnosis. CDR Clinical Dementia Rating. CMRgl Cerebral Metabolic Rate for glucose. CP Componentes Principales. DTA Demencia de Tipo Alzheimer. EA Enfermedad de Alzheimer. ETC Emission Computed Tomography. FDG [18F]-flúor-desoxiglucosa. FDR Fisher Discriminant Ratio. FWHM Full Width at Half Maximum. GDS Global Deterioration Scale. GMM Gaussian Mixture Modeling. IA Inteligencia Artificial. ICA Independent Component Analysis. KKT Karush-Kuhn-Tucker k-NN k Nearest Neighbors. LEHR Low Energy High Resolution. LEHS Low Energy High Sensitivity. LSE Least Squares Estimation. MCI Mild Congnitive Imapirmente. MEGP Médium Energy General Purpose. MMSE Mini-mental State Exam. MRI Magnetic Resonance Imaging. MSE Mean Square Error. NCN Nearest Centroid Neighborhood. NMSE Normalizad Mean Square Error. ONF Ovillos Neurofibrilares. PCA Principal Component Analysis. PET Positron Emission Tomography. PSF Point Spread Function. rCBF regional Cerebral Blood Flow. rCBV regional Cerebral Blood Volume. RMN Resonancia Magnética Nuclear. ROIs Regions of Interest. SPECT Single Photon Emission Computerized Tomography. SPM Statistical Parametric Mapping. SNC Sistema Nervioso Central. SNR Signal-to-Noise Ratio. SVM Support Vector Machine. TAC Tomografía Axial Computarizada. TAE Teoría del Aprendizaje Estadístico. TC Tomografía Computarizada. VAF Voxels-as-Features. VAD Voice Activity Detection.

Page 25: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 26: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 0

INTRODUCCIÓN.

En el presente Capítulo se exponen las motivaciones más relevantes para el desarrollo de la presente Tesis junto a una revisión del estado del arte sobre el diagnóstico precoz de la demencia de tipo Alzheimer (DTA) y los objetivos que persigue esta Tesis. La enfermedad de Alzheimer (EA) afecta aproximadamente a 30 millones de personas en todo el mundo siendo un fenómeno que está adquiriendo importancia debido al crecimiento de las expectativas de vida de la población. Actualmente su diagnosis sobre todo en su etapa inicial continúa siendo un reto. Se realiza mediante una serie de pruebas entre las que se incluyen los análisis clínicos que ayudan a descartar otro tipo de enfermedades, entrevistas con el paciente y sus familiares, test neuropsicológicos, interpretación de imágenes funcionales del cerebro, etc. Sin embargo, dicha enfermedad sólo se puede confirmar con certeza total tras la autopsia, lo cual argumenta la necesidad de desarrollar nuevas técnicas más efectivas de diagnóstico precoz. La presente Tesis se basa en la teoría del aprendizaje estadístico y aporta una herramienta para ayudar al diagnóstico de la enfermedad de Alzheimer en sus etapas iniciales.

Page 27: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 28: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 0. Introducción. 3 _____________________________________________________________________________

0.1 Justificación de la Tesis. La demencia es un proceso orgánico cerebral que afecta principalmente a las

personas de edad avanzada. Los dos tipos de demencia más habituales son la enfermedad de Alzheimer (EA) y la demencia vascular siendo la primera más común en el sexo femenino y la segunda en el masculino. La enfermedad de Alzheimer es el tipo de demencia más frecuente entre ancianos, afectando aproximadamente a unos 30 millones de personas en todo el mundo. Es un fenómeno que está adquiriendo una especial importancia en los últimos años debido al crecimiento de las expectativas de vida en los países desarrollados y el envejecimiento progresivo de la población. Se espera que la incidencia de EA se triplique durante los próximos 50 años mientras que su diagnosis precoz continúa siendo una tarea pendiente. Esta situación genera a su vez numerosos problemas socio-sanitarios y familiares, por lo cual se está incrementando una demanda de las prestaciones sanitarias en este sentido.

El diagnóstico final de la enfermedad es histopatológico y se basa en la existencia de dos lesiones elementales características: los ovillos neurofibrilares y las placas seniles. Ambas no son patognomónicas (su presencia no aseguran que el sujeto padezca dicho trastorno) y pueden aparecer en diferentes enfermedades e incluso durante el envejecimiento normal, por lo que es necesario utilizar criterios cuantitativos en los que se tenga en cuenta la edad del paciente. El diagnóstico se establece cuando se encuentra un número determinado de lesiones elementales por campo en áreas cerebrales específicas. El hecho básico de la enfermedad de Alzheimer es en primer lugar la lesión y la posterior destrucción de neuronas cerebrales, que se relaciona con la aparición de los depósitos proteicos insolubles cerebrales, mencionados anteriormente. La EA causa una atrofia cerebral progresiva, moderada, bilateral y difusa, generalmente simétrica, que puede ser difícil diferenciar de la causada por el envejecimiento. La atrofia comienza y predomina en regiones medias temporales y posteriormente afecta al neocórtex, preferentemente temporoparietal y frontal. Los primeros cambios morfológicos se producen décadas antes de que haya manifestaciones clínicas, quizás hasta 20 años antes. Por el contrario, las áreas primarias motoras, sensitivas o sensoriales son respetadas, por lo que estos enfermos no presentan, incluso en estadios avanzados, parálisis o paresias, hemihipoestesias o pérdidas de visión. Un correcto conocimiento de esta enfermedad, conlleva la posible identificación de las causas tratables de demencia cuando existan o la posibilidad de ralentizar el proceso en otros casos. Este cuadro descrito formalmente en 1906, ha permanecido hibernando científicamente cerca de 80 años. En la década de los años 80 algunos personajes públicos como Ronald Reagan confirman padecerla, siendo el punto de partida de la concienciación social y sanitaria del problema, creándose un explosivo interés por su esclarecimiento y tratamiento. En el siglo XXI constituye una de las principales causas de muerte en los países desarrollados apareciendo cada vez a edades más tempranas, convirtiéndose en uno de los grandes retos actuales de nuestra sociedad. Junto con el SIDA, es una de las enfermedades en que se está investigando más intensamente a nivel mundial.

Dentro de esta investigación ha sido muy importante la aportación al diagnóstico realizado por procedimientos basados en el empleo de radiaciones ionizantes. Desde el descubrimiento de la radiactividad por Becquerel, se ha aprovechado la propiedad que posee ésta para atravesar la materia e impresionar una placa fotográfica, utilizándose en Medicina como una herramienta de diagnostico fiable, al poder observar in vivo lo que ocurre en el interior del organismo. En todo este tiempo, poco más de un siglo, las

Page 29: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

4 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

técnicas han evolucionado desde las primeras radiografías hasta nuestros actuales TAC, PET o SPECT, en la medida que lo ha permitido el avance de las nuevas tecnologías que han evolucionado a la par que lo han hecho Ciencias como la Física, las Matemáticas, la Química o Ingenierías como Informática, Electrónica o Industriales, sin desvalorar otras tantas. La Tomografía Computarizada por Emisión (del inglés “Emission Computerized Tomography” ECT) se ha usado ampliamente durantes las tres últimas décadas, tanto en investigación biomédica como en consulta clínica. La ECT produce una sucesión de planos de imágenes de las funciones fisiológicas, a diferencia de otros muchos métodos de obtención de imágenes médicas. De este modo, la obtención de imágenes tomográficas, nos suministra in vivo mapas tridimensionales del metabolismo de fármacos marcados con radionúclidos emisores de radiación gamma. De la distribución de las distintas concentraciones de radionúclido se obtienen proyecciones que son adquiridas desde un gran número de ángulos alrededor del paciente. Entre las diferentes modalidades de ECT existentes para la obtención de imágenes funcionales, cabe destacar la Tomografía Computarizada por Emisión de Fotón Único (SPECT) y la Tomografía por Emisión de Positrón (PET). Ambas técnicas no invasivas, se usan habitualmente con el objetivo de conseguir una diagnosis en las primeras fases de la enfermedad de Alzheimer. Aunque la obtención de imágenes funcionales del cerebro (SPECT de perfusión) está tecnológicamente muy desarrollada, el diagnóstico de la demencia, incluida la de Alzheimer, requiere una labor tediosa por parte del clínico, en la que se incluyen otros múltiples procedimientos, por ejemplo determinaciones analíticas para descartar ciertos desequilibrios bioquímicos.

En los últimos años está adquiriendo una gran importancia la medición clínica

del deterioro de funciones superiores. Dicha medición puede ser notablemente exhaustiva, compleja y especializada con baterías de pruebas neuropsicológicas que requieren una formación muy específica, y para el paciente supone horas de examen más o menos intenso y potencialmente agotador con baterías como las de Luria, Wechsler, Halstead-Reitn, Rosen, PIENC, etc. A todo esto se le suma la propia interpretación por parte del Especialita Sanitario de las imágenes obtenidas mediante técnicas de SPECT de perfusión. La evaluación convencional de imágenes SPECT depende de la reorientación manual, la lectura visual de las secciones tomográficas y el análisis semicuantitativo de ciertas regiones cerebrales de interés (del inglés “Regions of Interest”: ROIs). Estas técnicas requieren mucho tiempo de procesamiento, son finalmente subjetivas y no exentas de error. Por esta razón, resultaría de gran utilidad el desarrollo de una herramienta para reducir la subjetividad en la interpretación visual en los exámenes de SPECT por clínicos, y que les permitiese diagnosticar y clasificar el estadio en que se haya la enfermedad de Alzheimer. Actualmente, bien entrado el siglo XXI, se está en disposición de dotar a la Medicina de nuevas herramientas más fiables y precisas para el diagnóstico de “nuevas” enfermedades que comienzan a ser las protagonistas de nuestra vida cotidiana, tras lograr pasar de tener una esperanza de vida de poco más de 30 años a comienzos del siglo pasado, justo a la par que se descubrían las propiedades de la radiactividad, a tener una esperanza de vida cercana a los 100 años, cuando surgen las nuevas tecnologías que permiten el procesamiento de imágenes mediante computador.

0.2 Estado Actual. En la actualidad, el diagnóstico precoz de la enfermedad de Alzheimer continua

siendo un reto, ya que es en la fase inicial donde resulta más adecuada tratar sus síntomas, probar y desarrollar nuevos tratamientos más efectivos que los existentes

Page 30: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 0. Introducción. 5 _____________________________________________________________________________

actualmente. Clínicamente se realiza mediante una serie de pruebas que incluyen análisis clínicos que ayudan a descartar otro tipo de enfermedades, entrevistas con el paciente y sus familiares además de test neuropsicológicos, junto a todo esto la Medicina Nuclear contribuye al diagnóstico aportando imágenes funcionales del cerebro. En la actualidad dicha enfermedad sólo se puede confirmar con certeza total, tras la autopsia. Todo esto argumenta la necesidad de desarrollar nuevas técnicas de diagnóstico precoz más efectivo, lo cual contribuirá al progreso de nuevos fármacos más eficaces para el tratamiento de dicha enfermedad. Además un diagnóstico en sus primeras fases, ayudará a pacientes y familiares a planificar la evolución de los acontecimientos que conlleva esta nueva situación personal. Aunque en la actualidad no existe ningún tratamiento que pueda detener su avance, en ciertas personas, la administración de determinados fármacos en la fase precoz y media de la enfermedad ayudan a ralentizar el empeoramiento de algunos síntomas durante periodos de tiempo limitado. Diferentes líneas de investigación han demostrado que el proceso neurodegenerativo asociado a la enfermedad de Alzheimer tiene lugar varios años antes de que aparezcan los primeros síntomas clínicos. Actualmente no existen herramientas de diagnóstico efectivas en esta etapa.

Una gran cantidad de estudios han puesto de manifiesto la capacidad de diagnóstico de la Medicina Nuclear de la enfermedad de Alzheimer respecto a otros tipos de demencias [Hoffman et al., 2000; Silverman et al., 2001a; Higdon et al., 2004]. Como ya se ha mencionado, las dos técnicas más representativas de ECT son el SPECT y el PET, que reproducen mapas de funciones fisiológicas, estas imágenes tomográficas proporcionan mapas 3D in vivo de fármacos marcados con isótopos radiactivos, inyectados al paciente. Dichas imágenes son valoradas por expertos clínicos, los cuales evalúan visualmente la presencia de características de demencia. Históricamente, el patrón que se ha asociado a la enfermedad de Alzheimer se ha definido relacionado con las áreas corticales, que son más fácilmente identificables en las imágenes funcionales. Mediante la inspección visual de anormalidades en dichas áreas, las imágenes se clasifican como indicativas de EA cuando se encuentran:

i) bajos niveles de captación en regiones locales del córtex, en los lóbulos parietal, temporal y/o frontal o,

ii) un nivel global reducido de captación relativo al córtex sensorimotor y visual,

tálamo, ganglios basales y cerebelo [Hoffman et al., 1986].

Con estos criterios, el diagnóstico visual tiene un alto poder predictivo para detectar la presencia de enfermedades neurodegenerativas, y ofrece una precisión diagnóstica global superior a los criterios clínicos (77%) [Silverman et al., 2003, 2001a]. Actualmente la precisión con que se realiza el diagnóstico precoz de la enfermedad de Alzheimer no supera el 80%, a lo cual hay que añadir que en numerosas ocasiones, estos pacientes diagnosticados precozmente no reciben el tratamiento adecuado durante la fase inicial de la enfermedad.

Las imágenes SPECT muestran las alteraciones en el flujo sanguíneo en envejecimientos normales o patológicos, mientras que las imágenes PET muestran niveles de consumo de glucosa de las diferentes regiones cerebrales. Los patrones de anormalidad son similares para ambas técnicas, aunque la PET presenta la ventaja de ser más sensible ya que los escáneres tridimensionales PET tienen más sensibilidad que los

Page 31: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

6 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

escáneres SPECT de alta resolución. Actualmente la resolución espacial es del rango de 2-3 mm en PET y 4-7 mm para SPECT. Los estudios de imágenes cerebrales dedicados a pequeñas estructuras como el hipocampo, considerado como una región afectada por la EA, necesitan una alta resolución, por lo que las técnicas PET presentan ciertas ventajas sobre las SPECT [Messa et al., 1994; Herholz et al., 2002; Silverman, 2004]. Nuevas técnicas basadas en análisis de regiones de interés o ROIs diferentes al neocórtex, han detectado patrones característicos de baja captación en regiones como el lóbulo temporo-parietal y cíngulo posterior o el lóbulo temporal medio [Santi et al., 2001; de Leon et al., 2001; Nestor et al., 2003]. A menudo estos estudios dependen de un corregistro intra-sujeto de imágenes MRI/PET, dando lugar a una resolución anatómica mayor que otras técnicas, pero requiere el alineado manual de áreas específicas (con la consiguiente dependencia del operador) y largos tiempos de procesamiento. El análisis de ROIs está supeditado a la necesidad de asumir a priori las regiones que podrían mostrar un efecto particular de interés, descartando la implicación potencial del resto.

En la literatura [Minoshima et al., 1995; Ishii et al., 2006; Stoeckel et al., 2005] se pueden encontrar algunos enfoques para diseñar sistemas de Diagnóstico Asistidos por Computadora CAD (del inglés “Computer Aided Diagnosis”) de la EA. La primera familia se basaba en el análisis de las regiones de interés (ROI) mediante funciones discriminantes. El segundo enfoque es la herramienta de software SPM (del inglés “Statistical Parametric Mapping”) [Friston et al., 2007] con fundamento estadístico y sus numerosas variantes. Una de las diferentes metodologías existentes para el análisis de imágenes consiste en el uso de computadores para manejar información a nivel de voxel. Entre los ejemplos más empleados destaca SPM [Friston et al., 2007] o NEUROSTAT & 3D-SSP [Minoshima et al., 1995], softwares que permiten hacer comparaciones estadísticas voxel a voxel, creando mapas paramétricos de efectos significativos. Estas técnicas univariadas permiten el examen global del cerebro a nivel de voxel, y como consecuencia no están sujetas a ninguna hipótesis regional previa. SPM es ampliamente usado en neurociencias, pero no fue desarrollado específicamente para estudiar una única imagen, sino para comparar grupos de imágenes. SPM ha sido diseñado con un enfoque univariante desde las técnicas multivariadas clásicas. Al igual que MANCOVA [Tabachnick et al., 2000] requiere que el número de observaciones sea más grande que el número de componentes (i.e. voxels) de la observación multivariada. Sin embargo, la información para el diagnóstico tiene un carácter regional, por lo que se han desarrollado diferentes técnicas multivariadas para la obtención de datos a analizar con otras herramientas estadísticas, como SPM, NEUROSTAT&3D-SSP, ANOVA o MANCOVA [Drzezga et al., 2003; Ishii et al., 2006; Scarmeas et al., 2004; Teipel et al., 2007; Salmon et al., 2009; Markiewicz et al., 2009; Nobili et al., 2008; Chen et al., 2009]. El Análisis de las Componentes Principales (del inglés “Principal Component Análisis” PCA) o Análisis Independiente de Componentes (del inglés “Independent Componente Análisis” ICA) que representan ejemplos de análisis multivariados que se han empleado para identificar patrones prominentes de correlación o conectividad funcional de regiones cerebrales [Illán et al., 2010]. Se ha argumentado que estas técnicas tienen la limitación de imponer ligaduras biológicamente inverosímiles, a la vez que su carácter lineal es limitado para una descomposición en conjuntos de medidas neuropsicológicas. La importancia de los enfoques multivariados es que los efectos atribuibles a las activaciones, los efectos de confusión y los efectos de error son tasados estadísticamente, tanto en relación con los efectos en cada voxel como a interacciones entre voxels [Friston et al., 2007]. Por otro lado los métodos de

Page 32: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 0. Introducción. 7 _____________________________________________________________________________

clasificación por aprendizaje estadísticos no han sido analizados en profundidad para Diagnóstico Asistido por Computadora, posiblemente esto se deba a que las imágenes representan grandes cantidades de datos y la mayoría de los estudios cuentan con un número reducido de imágenes (en general < 100) [Ishii et al., 2006; Stoeckel et al., 2001, 2004].

0.3 Objetivo. El análisis de imágenes SPECT se considera una herramienta esencial para

obtener una representación por imagen del cerebro mediante diversos agentes, que pueden permitir estimar el flujo sanguíneo cerebral regional (rCBF) o la distribución de neuroligandos y neuro-receptores del cerebro. La demencia de tipo Alzheimer es un trastorno neurodegenerativo progresivo. Su diagnosis se realiza basándose en la información proporcionada por un cuidadoso examen clínico, una entrevista minuciosa del paciente y parientes cercanos, y una valoración neuropsicológica. El estudio de rCBF de SPECT se emplea habitualmente como herramienta de diagnóstico, junto al resto de los procedimientos diagnósticos [Hoffman et al., 2000; Silverman et al., 2001; Higdon et al., 2004]. Sin embargo, en el inicio de la EA, existe una perfusión mínima en las etapas tempranas de la enfermedad, que pueden confundirse con las debidas a las propias de la edad avanzada. Estos cambios mínimos, que son habituales en personas sanas envejecidas, se deben cuantificar y discriminar con precisión. Esto hace de la valoración visual una tarea subjetiva y difícil que requiere de clínicos experimentados. Incluso con este problema todavía sin resolver, el potencial de Diagnosis Asistida por Computadora no se ha empleado en éste área.

Teniendo en cuenta el Estado Actual del Arte, resulta obvio y necesario la

introducción de nuevas técnicas más eficientes de procesado, modelado y clasificación de imágenes. Además de mejorar el rendimiento de las técnicas existentes, la presente Tesis tiene como objetivo el desarrollo de alternativas para conseguirlo basándose en la teoría de aprendizaje estadístico por computador. Los métodos de clasificación estadística, a pesar de haber mostrado notables resultados para el reconocimiento de patrones, no se han utilizado ampliamente en este área, debido entre otros factores a la ingente cantidad de datos que representa la computación de imágenes por un lado y por otro el análisis de un relativo número reducido de imágenes (generalmente < 100) [Ishii et al., 2006; Stoeckel et al., 2001, 2004]. En la actualidad se están desarrollando un amplio número de trabajos intentando solventar dicho problema [Ramírez et al., 2008a; Ramírez et al., 2008b; Lassl et al., 2008; Górriz et al., 2008; López et al., 2009; Illán et al., 2009].

La presente Tesis muestra un sistema de diagnosis asistido por computador, completamente automatizado para la detección temprana de la Demencia tipo Alzheimer (DTA) mediante la clasificación de imágenes SPECT. El método propuesto está basado en el desarrollo de una herramienta basada en aprendizaje estadístico por computador mediante distintos procedimientos, además de la obtención de esquemas avanzados de extracción de características, selección de parámetros y clasificación a partir de ejemplos. Para ello se ha realizado un estudio que tiene como prioridad encontrar las regiones cerebrales de interés (ROIs) y demás parámetros discriminantes, con el objetivo de reducir la dimensionalidad del espacio de entrada y mejorar la exactitud del sistema. Éste se desarrolla con el objetivo de minimizar la subjetividad en la interpretación visual en los exámenes de SPECT inherente a la valoración por el especialista, y mejorar la detección de la EA en su estado más temprano.

Page 33: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

8 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Hasta la fecha se han propuesto, distintos sistemas para la ayuda al diagnóstico

de enfermedades neurológicas, con el objeto de analizar imágenes funcionales, entre las que se incluirían las de tipo SPECT. De las diferentes técnicas que se exponen en la literatura se pueden distinguir entre aquellas que obtienen resultados de manera no supervisada, frente a las que hacen uso de algún tipo de aprendizaje estadístico supervisado, aplicando cierto entrenamiento previo. La presente Tesis se centra en el contexto de las aproximaciones supervisadas y multivariadas donde se plantea un nuevo método cuantitativo para evaluación de imágenes funcionales. En este campo, la clasificación se realiza habitualmente mediante la definición de vectores de características que representan los rasgos más relevantes de las diferentes imágenes por ejemplo las de SPECT y mediante el entrenamiento de clasificadores, dado un conjunto de muestras conocidas. Tras el proceso de entrenamiento, el clasificador que incluye la capacidad de generalización del sistema, se aplica a nuevos casos de test para distinguir entre controles sanos y enfermos. En este régimen de entrenamiento y test se asume como hipótesis de partida que las etiquetas de entrenamiento y test son válidas por lo que una precisión elevada en la clasificación es equivalente a un diagnostico efectivo del paciente estudiado. El conjunto de clasificadores usados por los sistemas CAD están basados en distintas funciones analíticas, que se ajustan mediante datos de entrenamiento en base a distintos procedimientos. La ventaja de este tipo de aproximación para el diagnóstico clínico es que no es necesario ningún tipo de conocimiento a priori acerca de la enfermedad bajo estudio y el método es automático. Los desarrollos recientes para definir y entrenar a clasificadores estadísticos, hacen posible desarrollar clasificadores seguros, en problemas donde los tamaños de muestra son muy pequeños [Duin, 2000], ya que sistemas de reconocimiento de imágenes basados en las maquinas de vectores de soporte (SVM) evitan el problema de la dimensionalidad, y pueden encontrar fronteras de decisión no lineales incluso para conjuntos de entrenamiento pequeños. Estas técnicas se han usado con éxito en diversas aplicaciones [Tsai et al., 2007] como son la detección de actividad de voz (VAD) [Enqing et al., 2002a, 2002b; Qi et al., 2004; Ramírez et al., 2006a; Yélamos et al., 2006; Górriz et al., 2006], la recuperación de imágenes basadas en contenido [Tao et al., 2006], la clasificación de textura [Kim et al., 2002] y el diagnóstico de imágenes médicas [Fung et al., 2007; Kalatzis et al., 2003; Zhou et al., 2008; Pang et al., 2005].

El soporte software realizado en esta Tesis, para ayudar al clínico en el diagnóstico de la enfermedad de Alzheimer, basado en la teoría de aprendizaje estadístico por computador emplea los siguientes clasificadores:

• Máquinas de Vector de Soporte (SVM). • Método del vecino más cercano k-nn (k Nearest Neighbors). • Clasificación basada en funciones discriminantes. • Árboles de decisión. • Redes Neuronales Artificiales.

El sistema propuesto tiene una exactitud considerablemente buena, mejorando y superando ampliamente los datos obtenidos mediante las técnicas actuales existentes en la diagnosis temprana de la EA, por lo que puede contribuir de una forma sólida al diagnóstico preciso de la enfermedad de Alzheimer.

Page 34: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 0. Introducción. 9 _____________________________________________________________________________

En el Capítulo 0 se aborda la justificación para la realización de la presente Tesis,

junto al estado del arte en el diagnóstico de la enfermedad de Alzheimer (EA) y los objetivos marcados. El Capítulo 1 muestra una descripción detallada de los conceptos relacionados con la vejez, las demencias asociadas a ésta, además de los conocimientos que se tienen acerca de la patología y desarrollo de la Demencia tipo Alzheimer (DTA) junto con las técnicas clínicas empleadas actualmente para su diagnóstico. El Capítulo 2 trata la Tomografía Computerizada por Emisión (ECT) junto con todas las implicaciones que conlleva, además de la tecnología necesaria para su aplicación, de la Tomografía por Emisión de Positrones y la Tomografía Computerizada de Fotón Único como dos casos particularmente importantes de ECT, ya que el valor final de la tecnología que tiene por objetivo desarrollar el presente trabajo, depende en buena medida el método empleado para la adquisición y correcta reconstrucción de las imágenes obtenidas mediante dichas técnicas. En el Capítulo 3 se presentan las técnicas necesarias de preprocesamiento de las imágenes funcionales SPECT utilizadas en esta Tesis, discutiendo las técnicas de reconstrucción de imágenes tomográficas y se muestra la necesidad de hacer un registro de las imágenes que implica la realización de una normalización espacial y una normalización en intensidad. El Capítulo 4 aborda las actuales técnicas de ayuda en el diagnóstico de enfermedades neurológicas que se basan en el análisis computacional de imágenes cerebrales. También se analizan los aspectos fundamentales relacionados con las características de las imágenes, voxels, reducción de parámetros, etc. El Capítulo 5 muestra el fundamento matemático de los clasificadores basados en aprendizaje estadístico que se emplean: Máquinas de Vectores Soporte (SVM), k-Nearest-Neighbors (k-NN), Funciones Discriminantes, Árboles de Decisión, Redes Neuronales. En el Capítulo 6 se muestra una descripción de los recursos empleados junto a los resultados experimentales que permiten evaluar las técnicas de clasificación basadas en teoría de aprendizaje estadístico por computador de imágenes SPECT, para el diagnóstico precoz de la enfermedad de Alzheimer. El Capítulo 7 analiza los resultados y conclusiones de la presente Tesis Doctoral que se ha centrado en el diseño completo de un sistema CAD que considera la selección de algoritmos robustos de reconstrucción tomográfica, normalización espacial y en intensidad, extracción de características y clasificación supervisada utilizando diferentes clasificadores lineales, no lineales y basados en aprendizaje estadístico para detección efectiva de enfermedades neurodegenerativas. En el Apéndice A se muestra un breve atlas anatómico de algunas partes del cerebro relacionadas con la enfermedad de Alzheimer. En el Apéndice B se representan graficados, el conjunto más significativo de resultados experimentales obtenidos con los métodos desarrollados en la presente Tesis. En el Apéndice C, se muestra el protocolo de adquisición de una SPECT, empleado para la adquisición de las imágenes que han formado la base de datos sobre la cual se ha realizado la parte experimental.

Parte del trabajo realizado en esta Tesis ha derivado en las siguientes publicaciones:

• Ramírez, J., Górriz, J.M., Salas-González, D., Romero, A., López, M., Álvarez, I., Gómez-Río, M., “Computer Aided Diagnosis of Alzheimer's Type Dementia Combining Support Vector Machines and Discriminant Set of Features”, Information Sciences, 2009.

Page 35: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

10 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

• Ramírez, J., Górriz, J.M., Gómez-Río, M., Romero, A., Chaves, R., Lasso, A., Rodríguez, A., Puntonet, C.G., Theis, F., Lang, E., “Effective Emission Tomography Image Reconstruction Algorithms for SPECT Data”, Lecture Notes in computer Science. M. Bubak et al. (Eds.): ICCS 2008, Part I, LNCS 5101, pp. 741–748, 2008. Springer-Verlag Berlin, Heidelberg 2008, Cracovia, Polonia, 2008.

Page 36: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1

RESEÑA SOBRE LA NEURODEGENERACIÓN: ORÍGENES, SÍNTOMAS Y EFECTOS. Este Capítulo muestra una descripción detallada de los conceptos relacionados con la vejez, las demencias asociadas a ésta, además de los conocimientos que se tienen acerca de la patología, del desarrollo de la enfermedad de Alzheimer y el estado del arte en su diagnóstico. De esta forma este Capítulo nos da una visión general de la importancia social que tiene dicha enfermedad y la necesidad del desarrollo de nuevas herramientas como la que se ha desarrollado en la presente Tesis para su diagnóstico en las etapas más tempranas, ayudando así tanto a pacientes como a la búsqueda de nuevas vías en la investigación en dichas etapas de la enfermedad.

Page 37: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 38: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 13 _____________________________________________________________________________

1.1 El Cerebro. El cerebro (véase Figura 1.1) forma parte del sistema nervioso central. Entre

otras, su tarea esencial es la asociación de otras funciones ya de por sí relativamente complejas, como por ejemplo la cognición, la memoria, el planteamiento de estrategias motoras, diversas formas de aprendizaje y las actividades superiores relacionadas con el pensamiento. Esta “asociación” de funciones se produce en áreas relativamente circunscritas de la corteza cerebral a las que se conoce bajo el epígrafe de “corteza de asociación”, o “corteza asociativa”. De este modo, la corteza asociativa prefrontal tiene como función el planteamiento motor y la “medida” de las consecuencias de las acciones proyectadas para ciertas actividades de aprendizaje y para el pensamiento humano. En la corteza asociativa parieto-témpo-occipital (véase Sección A.5, Apéndice A) tienen lugar las actividades interpretativas y cognitivas para la integración de informaciones sensoriales de diversas modalidades y está muy relacionada con tareas de aprendizaje que requieran contar con la imagen del propio cuerpo o con la estereognosia (reconocimiento de objetos por palpación). La corteza asociativa límbica (véase Sección A.9, Apéndice A), que incluye regiones mediales y ventrales de los lóbulos frontal, parietal y temporal guarda relación con el comportamiento emocional, la afectividad y otras formas de comportamiento, con la formación de memoria y por tanto con diversos aprendizajes [Ponz, 1993].

(http://bitnavegante.blogspot.com/2009/04/cuando-de-inteligencia-y-cerebro-se.html).

Figura 1.1 Organización funcional del Cerebro.

Page 39: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

14 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

1.2 La Vejez. El envejecimiento es un proceso progresivo e intrínseco a cualquier ser vivo. En

todos los seres vivos, el paso del tiempo está asociado en una primera fase con un aumento progresivo de las capacidades del individuo, alcanzándose el máximo de estas capacidades durante la etapa adulta del individuo. Finalmente comienza una disminución gradual de sus funciones, conociéndose esta última etapa de involución como vejez. En el contexto psico-sociológico se ha asociado vejez con decadencia, como consecuencia de la influencia de modelos biológicos, por lo que se ha tendido a interpretar la vejez como un periodo de deterioro. Pero la vejez no supone inevitablemente esto. Desde el punto de vista de “edad cronológica” se dice que el proceso de envejecer comienza entre los 60 y 65 años. En muchos casos el declive vital no va acompañado de un decremento objetivo de las funciones cerebrales que permanecen intactas hasta la muerte. Esto nos permite pensar que los diferentes sistemas del organismo no envejecen a la misma velocidad, por lo que no podemos hablar de envejecimiento cerebral desde un punto de vista meramente cronológico. Un cerebro viejo puede ser consecuencia del deterioro de otros sistemas como el cardiovascular o endocrino más que del propio proceso de envejecimiento cerebral.

Durante su vida, el cerebro sufre una serie de modificaciones estructurales, tanto a nivel microscópico como macroscópico, entre las que destacan: descenso de su peso, disminución de su volumen con aumento del tamaño de los surcos y disminución de las circunvoluciones cerebrales, atrofia y muerte neuronal, acumulación de lipofuscina, degeneración granulovacuolar y neurofibrilar, formación de placas neuríticas y deterioro de circuitos mediados por determinados neurotransmisores. Pero a pesar de todos estos cambios, un cerebro histológica y bioquímicamente viejo puede ser un cerebro funcionalmente joven. Desde la perspectiva funcional un cerebro sano no envejecerá nunca. La degeneración del tejido nervioso, puede estar relacionado con numerosas patologías. Algunas de estas patologías se dan con mayor frecuencia a medida que avanza la edad. La enfermedad de Alzheimer sólo ocasionalmente aparece antes de los 60 años pero afecta aproximadamente al 10% de la población de mayores de 65 años, y al 20% de la población de más de 80 años.

1.2.1 Efecto del Envejecimiento de la Población en la Sociedad. Históricamente se ha progresado de tener una esperanza de vida de 34 años para

los varones y 36 para las mujeres en 1900 a 76 años los varones y 83 años las mujeres en el año 2000. Esto se debe entre otros muchos factores a la higiene, comenzando por la potabilización generalizada del agua y la lucha contra los distintos factores de riesgo, sobre todo a partir de la segunda mitad del siglo XX. Además han contribuido los avances médicos tanto de tipo técnico como farmacológico, salud pública, cirugía, etc. que se han producido. Previas a esas mejoras fueron las introducidas por el sistema productivo agrícola e industrial, aliviando la desnutrición que sufría la mayoría de la población.

Este aumento de la esperanza de vida está alterando el equilibrio entre, por una parte los años vividos por el individuo con ganancias económicas netas y por otra el período en que sólo consume, alargado por el mayor número de años vividos en los que además se intensifica el gasto para cubrir necesidades asistenciales nuevas. La mayor duración de la vida tendrá consecuencias sobre los tipos de enfermedades y los gastos a ellas asociados. Cada vez cobra más sentido el concepto y la práctica de las políticas de

Page 40: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 15 _____________________________________________________________________________

envejecimiento activo. Las políticas deben tener en cuenta la continuidad de la vida y no compartimentar tanto las edades, asignando por ejemplo el aprendizaje y la educación a la infancia y juventud, el trabajo a la edad adulta y el ocio a la vejez. Un mayor período de vejez debe motivar para cambiar las edades y las formas de jubilación, de participación social, de aprendizaje y de actividad, y no condicionar estas cualidades a períodos cerrados y anteriores del curso de vida. Un individuo de 65 años tiene aún una esperanza de vida media entre 16 y 19 años, de los cuales tan sólo el 65% de ese tiempo va a ser de una vida independiente (véase Tabla 1.1). A medida que la esperanza de vida aumente, la proporción de vida independiente se va a ir limitando. Reducir la dependencia incide directamente en la calidad de vida del individuo. Además se trata del sector de población que consume más fármacos, que tiene mayor índice de frecuentación de los servicios sanitarios ambulatorios, que ocupa mayoritariamente las camas de hospital, con estancias más prolongadas y con mayor número de ingresos.

Tabla 1.1 Esperanza de vida a diferentes edades. Unión Europea.

País Varones

Al nacer Mujeres Al nacer

DiferenciaAl nacer

Varones A los 60 años

Mujeres A los 60 años

Diferencia A los 60 años

UE-15 74.9 81.2 6.3 19.4 23.8 4.4 Alemania 74.7 80.7 6.0 19.0 23.3 4.3 Australia 75.1 81.0 5.9 19.3 23.6 4.3 Bélgica 74.4 80.8 6.4 19.0 23.6 4.6 Dinamarca 74.2 79.0 4.8 18.4 21.9 3.5 España 75.3 82.5 7.2 19.8 24.5 4.7 Finlandia 73.8 81.0 7.2 18.6 23.4 4.8 Francia 74.9 82.4 7.5 20.0 25.2 5.2 Grecia 75.5 80.6 5.1 20.2 23.1 2.9 Irlanda 73.9 79.1 5.2 17.9 21.8 3.9 Italia 75.6 82.3 6.7 19.9 24.2 4.3 Luxemburgo 74.7 81.2 6.5 18.7 23.4 4.7 Países Bajos 75.3 80.5 5.1 18.9 23.4 4.5 Portugal 72.0 79.1 7.1 18.0 22.2 4.2 Reino Unido 75.0 79.8 4.8 18.9 22.6 3.7 Suecia 77.1 81.9 4.8 20.2 24.2 4.0

Fuente Eurostat: Statistique Sociales Européennes 2001. Luxemburgo, 2001.

Tradicionalmente la Medicina se ha centrado en aquellos problemas que causan

mayor mortalidad y sobre los que se obtienen rápidamente resultados medibles, a través de indicadores y tasas, por ejemplo el descenso de la tasa de mortalidad. El sistema sanitario parece trabajar sobre todo para alargar la vida. Pero si los recursos en investigación y desarrollo biomédico son limitados, cabría preguntarse qué es lo más prioritario, investigar para ganar años de vida o mejorar la calidad de los años que restan por vivir.

1.3 Funciones Cognitivas. El concepto de funciones cognitivas no ha sido del todo bien definido,

refiriéndose a las denominadas funciones intelectivas o funciones superiores propias de la especie humana, como son el recuerdo, el pensamiento, el conocimiento o el lenguaje. Íntimamente relacionado con ellas está el concepto de inteligencia, capacidad para

Page 41: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

16 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

resolver problemas utilizando el pensamiento como medio y para adaptar el comportamiento a la consecución de objetivos. En la práctica clínica para valorar de modo sencillo el deterioro cognitivo, la pérdida de funciones intelectivas que tiene el individuo, se comienza explorando la memoria y la orientación temporal y espacial. Además se exploran de modo más o menos sistemático funciones como la atención y la concentración, las funciones de lenguaje como la nominación y la articulación, la fluidez verbal, la comprensión y la abstracción o la planificación y la ejecución. Pero es importante valorar clínicamente además las capacidades cognitivas que tienen que ver con las llamadas inteligencia social e inteligencia emocional.

La inteligencia social se refiere a la capacidad para comprender las situaciones sociales, las relaciones interpersonales y la pericia para adaptarse a ellas y resolver los problemas que se planteen. La inteligencia emocional está relacionada con la inteligencia social, que consiste en la capacidad para percibir, entender, expresar y regular las propias emociones, para percibir y comprender las emociones de los demás y pericia para actuar en consecuencia. El deterioro de estas capacidades cognoscitivas condiciona de modo importante la vida de los pacientes y los familiares que les rodean. Es fácil comprender el problema que se plantea, por ejemplo en los primeros estadios de la enfermedad de Alzheimer, cuando los pacientes van perdiendo la capacidad de empatía para leer los sentimientos de su cónyuge, o para entender y expresar lo que ellos mismos sienten, para manejar sus propias emociones sin verse invadidos por la tristeza, la ansiedad o el miedo, para controlar sus impulsos o para manejar los conflictos de la vida cotidiana con una mínima sutileza.

Por deterioro cognitivo se refiere a la pérdida de las facultades intelectuales. Aunque resulta complejo en la clínica documentar el nivel de rendimiento previo de las funciones superiores, las evidencias indirectas suelen ser suficientemente convincentes. Con esos datos y los procedentes de la exploración de poblaciones normales, es posible en la clínica concluir, tras la historia clínica y el examen de los pacientes, que en algunos se ha producido un deterioro de intensidad variable. Es imprescindible a la hora de la valoración tener en cuenta la edad de los pacientes. Existe un declive “fisiológico” normal que se hace patente con la edad avanzada. En circunstancias normales, se estima que hay un equilibrio entre ese declive fisiológico de algunas facultades intelectuales y la experiencia acumulada. Aunque existen grandes diferencias individuales, un rápido declive sugiere la existencia de una patología. Las pruebas experimentales de rendimiento han documentado, que no se produce el declive de modo homogéneo en todas las áreas intelectuales.

Algunas personas mayores que no cumplen los criterios diagnósticos de

demencia, se quejan de su memoria y además se puede objetivar en ellas un leve deterioro cognitivo en test psicométricos. Esto ha inquietado a comités internacionales por la posible relación de estos cuadros con una demencia incipiente, por lo que se está generando un importante esfuerzo investigador en esta línea. El estudio del deterioro cognitivo “leve” tiene un gran interés. En relación con ello el estudio de los potenciales factores de riesgo en estos cuadros clínicos tiene implicaciones para una medicina preventiva. Es aquí donde adquieren gran importancia los estudios como el SCOPE que fue diseñado en parte para verificar si un tratamiento temprano de la hipertensión puede ser efectivo para prevenir el deterioro cognitivo.

Page 42: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 17 _____________________________________________________________________________

1.3.1 Medición Clínica del Deterioro Cognitivo. En esta Sección se muestran los actuales procedimientos que se usan para la

medición en los pacientes con deterioro cognitivo parte de los cuales son empleados especialistas clínicos para la clasificación de la fase en que se encuentran dichos enfermos. En los últimos años ha adquirido una gran importancia la medición clínica del deterioro de funciones superiores. La medición puede ser notablemente exhaustiva, compleja y especializada, con baterías de pruebas neuropsicológicas que requieren una formación muy específica, y para el paciente supone horas de examen más o menos intenso y potencialmente agotador, con baterías como las de Luria, Wechsler, Halstead-Reitn, Rosen, PIENC, etc.

El “Examen Cognitivo Mini-Mental” ha sido estandarizado por Lobo y cols. en una larga serie de trabajos que comenzaron en 1977 y continuaron en 1979, 1999, 2002. Se trata de un test sencillo y útil que es fiable, válido, rápido (10 minutos), fácil de utilizar y aceptable para los clínicos y para los individuos examinados. Debe quedar claro desde el principio que el Mini-Mental no es un instrumento de diagnóstico por sí mismo. Simplemente documenta y objetiva el rendimiento cognitivo, de modo que el clínico, al ver una baja puntuación en el test, prosigue su juicio de diagnóstico. El análisis de las curvas ROC de rendimiento global en nuestro medio, documentan una buena eficiencia del test. En concreto, con el punto de corte 23/24 (igual que con el 22/23), que es el punto estándar para comparaciones internacionales, su sensibilidad es alta: detecta casi el 90% de individuos con demencia en la población general y en muestras clínicas detecta con similar eficiencia el deterioro patológico. Su especificidad en la población general con el punto de corte 22/23 es también buena, pues clasifica adecuadamente al 80% de individuos sin demencia y en muestras clínicas su eficiencia es similar. Esos índices de eficiencia serán aún mejores si se tiene en cuenta la edad y la escolarización del individuo. En la interpretación de los resultados tras su aplicación es imprescindible tener en cuenta la edad del sujeto. Además hay que considerar el nivel de escolarización, como se ha demostrado en un estudio realizado con datos procedentes de una muestra representativa de ancianos en la población general, tanto en nuestro país [Lobo et al., 1999] como en las EE.UU. [Crum et al., 1993]. En tal publicación, los individuos sin estudios, incluso con las correcciones recomendadas en el Manual [Lobo et al 2000] tienen puntuaciones medias que rondan los 24/30 puntos, mientras que en individuos con estudios superiores rondan los 28/30 puntos.

A continuación (véase Tabla 1.2) se resumen las situaciones en que pueden darse “falsos positivos”, (bajo rendimiento en el Mini-Examen sin que haya un deterioro cognitivo auténtico). Por el contrario, también pueden darse “falsos negativos”, es decir un rendimiento en el test por encima del punto de corte aunque haya deterioro cognitivo. Por ejemplo, en una lesión focal que afecta sólo el rendimiento en un área cognoscitiva, respetando las demás, o en individuos con alto nivel intelectual/educativo que tienen recursos suficientes para aparecer como normales si sólo se consideran el punto de corte estandarizado en poblaciones con baja escolarización predominante, como la población general anciana en nuestro entorno.

Page 43: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

18 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Tabla 1.2 Falsos positivos v falsos negativos en el Mini-Mental.

Falsos positivos: Falsos negativos: Edad avanzada. Lesiones focales SNC. Escolaridad deficiente. Nivel intelectual/educativo elevado. Psicastenia, apatía. Situaciones especiales. Depresiones.

Para evitar los “falsos positivos”, se evalúa el rendimiento en las actividades

cotidianas. La significación clínica surge cuando éstas se ven afectas por la pérdida de la memoria y de otras facultades intelectuales. Para ello pueden ser de ayuda escalas como la de Lawton y Brody, que explora las actividades cotidianas instrumentales. Se pide al cuidador del paciente que evalúe una serie de actividades que se enumeran en la Tabla 1.3, si tiene total independencia al realizar dichas actividades cotidianas. Presenta el problema de que es más útil en las mujeres, porque explora actividades que ellas realizan con mayor frecuencia.

Tabla 1.3 Actividades cotidianas instrumentales: escalas de Lawton y Brody.

Capacidad para: Utilizar el teléfono. Hacer compras. Preparar la comida. Cuidar la casa. Lavar la ropa. Usar medios de transporte. Responsabilizarse de su medicación. Manejo de sus asuntos económicos.

Para evaluar las actividades cotidianas es también útil el test del informador (TIN) (véase Tabla 1.4) [Morales et al., 1995] en su versión abreviada, que sirve para preguntar a los familiares por aspectos cognitivos y funcionales que aparecen en la tabla anterior. Se realiza de forma rápida (5 minutos) y puede ser muy útil en Atención Primaria, particularmente si se utiliza junto con el Mini-Mental u otro test de rendimiento cognitivo.

Page 44: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 19 _____________________________________________________________________________

Tabla 1.4 Test del informador (TIN). Características principales del test del informador.

¿Recuerdas? ¿Entiendes?... Nombres de personas íntimas, cosas recientes, los armarios de su casa, lo que ha dicho hace un momento.

El periódico, TV, un aparato nuevo.

17 ítems x 5 = 85 ptos. máximo. Punto de corte 56/57.

Sensibilidad (demencia leve) 86%. Especificidad 91%.

El Short Portable Mental Status Questionnaire (SPMSQ) de Pfeiffer es un test

más sencillo que el Mini-Mental, aunque su sensibilidad es menor y puede dejar sin identificar una proporción considerable de casos de deterioro. Valora parámetros cognitivos, aunque también puede verse afectado por el nivel de escolarización. Su principal utilidad, cuando se dispone de poco tiempo, es la de examinar personas muy ancianas con problemas sensoriales.

El test de Isaacs resulta muy útil para personas analfabetas o con graves problemas de escolaridad y/o dificultades sensoriales. Consiste en pedirle al paciente que nombre sin parar, hasta que se le diga basta, una serie de colores, animales, etc. Considerándose que hay deterioro si éste no es capaz de decir más de 26 ítems, y puede utilizarse de forma más abreviada, nombrando sólo animales, con costes en general asumibles en su rendimiento (normalidad, 9 animales).

1.3.2 Juicio Clínico en el Deterioro Cognitivo. Los instrumentos descritos anteriormente no bastan para hacer un diagnóstico. El

clínico se pone en estado de alerta cuando el paciente se queja de modo convincente de su memoria o sus allegados dan una información coherente para sospechar del deterioro (véase Figura 1.2). El Mini-Mental u otro test similar pueden servir para corroborar una sospecha clínica, lo mismo que sirve para procedimientos de cribado o screening sistemáticos, es decir cuando el rendimiento en el test está por debajo del punto de corte, tenemos una prueba objetiva importante de deterioro. Aunque la eficiencia del test es buena, la prueba no es infalible, porque hay que descartar el déficit no patológico debido a la edad del individuo, por su declive normal, o debidos a una insuficiente escolarización del examinado. También es posible una “pseudodemencia” debida principalmente a una depresión, que afecta al rendimiento cognitivo de los ancianos cuando tiene una cierta intensidad. Para estos casos se propone una sencilla exploración clínica con escalas como la E.A.D.G. de Goldberg [Goldberg et al., 1995] bien conocida y estandarizada.

No debemos descartar la posibilidad de que exista una lesión cerebral “focal”, con déficit cognitivos aislados, que si se confirma deben indicar un protocolo neurológico de búsqueda de la causa. Descartadas esas posibilidades, el clínico tiene que plantearse si se cumplen los criterios con los que hemos definido un deterioro “global” cognitivo: una pérdida de un mejor nivel previo, al menos en tres funciones superiores (orientación, cálculo, lenguaje hablado o escrito, etc.) y entre ellas casi siempre suele estar afectada el área de la memoria. El mismo Mini-Mental puede utilizarse con el propósito de documentarlo: cuando un paciente rinde por debajo del

Page 45: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

20 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

punto de corte 23/24 se puede suponer que tiene una afectación de tres o más áreas cognoscitivas.

DETERIORO COGNOSCITIVO EN EL ANCIANO: RAZONAMIENTO CLÍNICO. Síntomas/Signos de deterioro:

Quejas subjetivas (memoria). Datos objetivos: Mini-Mental, otros.

Descartar: 1. Déficits no patológicos:

• Envejecimiento normal. • Escolarización deficiente.

2. Pseudodemencias: • Depresión.

Déficit “focales”. Protocolo etiológico

Deterioro “global” cognoscitivo. (Memoria + 2 Áreas)

Sd. Demencial (Consciencia clara Deterioro Actividades Cotidianas)

PROTOCOLO ETIOLÓGICO.

PROTOCOLO DIAGNÓSTICO.

Sd. de Delirium (Obnubilación consciencia)

Figura 1.2 Árbol de toma de decisiones en el diagnóstico del deterioro cognitivo.

En hospitales generales, donde los enfermos son ingresados por patología somática a menudo importante, se debe considerar a continuación la posibilidad de que el paciente con el deterioro cognitivo tenga un síndrome de delirium. La instauración aguda y la obnubilación de la conciencia y/o torpeza mental suelen ser pistas fiables, pero es necesario valorar si el paciente cumple el resto de los criterios diagnósticos. Si se confirma la sospecha de delirium debe investigarse de inmediato su origen, a ser posible con ayuda de un protocolo de diagnóstico adecuado.

Si el paciente presenta signos y/o síntomas de deterioro cognitivo y éste es

“global”, si su estado de conciencia es claro, si su instauración no ha sido aguda y los problemas cognitivos repercuten directamente en las actividades cotidianas del paciente, entonces estamos ante un síndrome demencial completo. El siguiente paso será el

Page 46: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 21 _____________________________________________________________________________

protocolo etiológico, para saber si la demencia es de tipo Alzheimer, de tipo vascular o por el contrario se debe a algunas de las enfermedades que pueden causar el síndrome, algunas de las cuales son reversibles con un adecuado tratamiento.

1.4 Síndrome Demencial. El concepto de demencia, como un diagnóstico medico, se debe a Philippe Pine

(1809), quien la definió como “abolition de la pensée”. Más de cien años debieron transcurrir hasta que Emil Kraeplin (1919) clasificó los síndromes demenciales en tres categorías:

a. Demencia precoz (a la cual Bleuler en 1950, rebautizó como esquizofrenia). b. Demencia presenil o enfermedad de Alzheimer. c. Desórdenes maniacodepresivos de la edad avanzada o demencia senil.

El término senilidad fue introducido por Pitágoras, quien la definió como el

estado de las dos últimas épocas de la vida (que comienzan a las edades de 63 y 81 años), “cuando el sistema retorna a la imbecilidad de la infancia”. Aloïs Alzheimer (1906) describe aspectos clínicos y patológicos de la demencia orgánica que actualmente se conoce como enfermedad de Alzheimer [Proano, 2004].

Como se expuso anteriormente, la demencia es un proceso orgánico cerebral que afecta principalmente a las personas de edad avanzada, derivándose su importancia sanitaria del incremento en las expectativas de vida de los países desarrollados. Los dos tipos mas frecuentes de demencia son la enfermedad de Alzheimer y la demencia vascular. Un conocimiento correcto, conllevara la posible identificación de las causas tratables de demencia, cuando existan, o la posibilidad de ralentizar el proceso en otros casos.

Según los criterios establecidos por el DSM-IV-TR, bajo el apartado de

Demencia, se incluyen los trastornos de diferente etiología que se caracterizan por la aparición de múltiples déficit cognitivos y que cumplen una serie de requisitos. No es suficiente la afectación aislada de la memoria, sino que debe estar presente además alguno de las siguientes alteraciones cognitivas: afasia, apraxia, agnosia, o una alteración en la capacidad de ejecución (dificultad en la toma de decisiones) interfiriendo en la capacidad de actividades laborales y sociales del individuo. La demencia comprende desde procesos degenerativos primarios del sistema nervioso central (SNC) hasta trastornos vasculares, tóxicos, traumatismos craneales, tumores, etc., y en ocasiones múltiples factores. Para hablar de demencia es necesario que existan alteraciones en al menos tres de las siguientes áreas: lenguaje, memoria, capacidades viso-espaciales, personalidad y capacidades cognitivas como abstracción, cálculo, juicio, funciones ejecutivas [Cummings, 1980].

En el proceso normal de envejecimiento se producen alteraciones cognitivas e histopatológicas similares a las del paciente con demencia, aunque cuantitativamente menores. Esto plantea cuestiones como cuál es el papel que desempeña el envejecimiento normal en el desarrollo de la demencia y si existe alguna relación entre envejecimiento cerebral y demencia. ¿Existen cambios específicos en la demencia de tipo Alzheimer que permiten identificar de forma inequívoca esta demencia del envejecimiento? Es sabido que las alteraciones morfológicas propias de la enfermedad de Alzheimer, como degeneración neurofibrilar, placas seniles y depósitos de amiloide, también están presentes en las personas de edad avanzada con un rendimiento

Page 47: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

22 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

intelectual normal, aunque su distribución y cuantía difieren en ambos supuestos. Para algunos autores en la demencia se sobrepasaría un umbral determinado a partir del cual se desarrollaría el deterioro, y la diferencia entre envejecimiento y demencia sería de tipo cuantitativo y no cualitativo.

Estudios epidemiológicos realizados en diferentes países coinciden en que la

prevalencia (un número de personas afectadas en una población determinada y en un momento concreto) de los dos tipos de demencias más frecuentes, enfermedad de Alzheimer y demencia vascular, aumentan de forma exponencial a partir de los 65 años. Aunque la edad es el principal factor de riesgo, el género también influye, la enfermedad de Alzheimer es más frecuente en mujeres, en cambio la demencia vascular lo es en varones. Los factores genéticos desempeñan también un papel determinante. Se conocen con certeza tres genes implicados: el gen de la APP (precursor de la proteína β amiloide) situado en el cromosoma 21, el gen de la presenilina 1 del cromosoma 14 y el gen de la presenilina 2 del cromosoma 1 [Goate, 1991; Levy-Lahad, 1994; Rogaev, 1995]. Es conocido que el cromosoma 19 contiene los dos alelos de la apolipoproteina E y que el alelo ε4 es más frecuente en las personas con demencia de tipo Alzheimer. La presencia de este alelo constituye un factor predisponente pero no causal de la enfermedad, además muchos pacientes con enfermedad de Alzheimer y confirmación histopatológica no presentan ningún alelo ε4. Mutaciones en el gen de la APP dan lugar a una alteración en la producción del péptido amiloideβ-A4 que es el mayor constituyente del amiloide, presente en las placas seniles y en los vasos de los pacientes con enfermedad de Alzheimer. Los casos familiares con mutaciones en el gen de la APP constituyen únicamente el 3% del total de los casos familiares, y aún está por dilucidar, el papel de las presenilinas 1 y 2 y del genotipo ε4 en relación con el depósito de amiloide.

En los países occidentales la demencia más frecuente es la enfermedad de Alzheimer. El estudio canadiense [Canadian Study of Health and Aging Working Group, 1994], realizado con muestras representativas de 10 provincias en personas mayores de 65 años, expone que la prevalencia de demencia es del 8% y llega al 34% en personas de 85 años y mayores. La prevalencia de enfermedad de Alzheimer en este estudio es del 53%, y la de demencia vascular del 1,5%. En nuestro país, el estudio realizado en la provincia de Gerona en 1995 por Lopez-Pousa y colaboradores, da unas cifras de prevalencia del 6,64% para la enfermedad de Alzheimer del 23% para la demencia vascular, del 1,22% para las demencias mixtas (demencia Vascular y enfermedad de Alzheimer) y del 51 % para otras demencias secundarias. En este mismo estudio, los subtipos de demencia se distribuyen de la siguiente forma: enfermedad de Alzheimer 40,8%; demencia vascular 38,2%; mixta 11,8%, y secundarias 9,2%.

1.4.1 Clasificación de las Demencias.

Demencias Corticales y Demencias Subcorticales. La denominación de demencia subcortical se aplicó inicialmente a las

alteraciones cognitivas presentes en la corea de Hungtinton, en la parálisis supranuclear progresiva y en la enfermedad de Parkinson. En estas entidades, la afectación predominante se localiza en las estructuras subcorticales y, al menos inicialmente, no hay alteraciones corticales focales, como afasia, apraxia y agnosia. El trastorno predominante en estos casos consiste en un enlentecimiento del pensamiento, dificultad para fijar la atención y alteración en las funciones ejecutivas ligados a estructuras

Page 48: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 23 _____________________________________________________________________________

prefrontales. Son frecuentes los cambios en la personalidad y el estado de ánimo. Los pacientes con demencia subcortical presentan en el examen neurológico las alteraciones propias del proceso fundamental. Por ello, y al contrario de lo que suele suceder en las demencias corticales, es habitual encontrar alteraciones en la marcha, rigidez, bradicinesia, movimientos anormales o afectación de circuitos motores. Por el contrario, en las demencias corticales, cuyo paradigma sería la enfermedad de Alzheimer, predominan las alteraciones de la memoria, el lenguaje y la praxia. Aunque esta clasificación en demencias corticales y subcorticales es bastante útil, en la práctica la delimitación en ocasiones no es tan precisa. Por ejemplo, las demencias vasculares tienen un importante componente subcortical, pero con frecuencia existen alteraciones focales corticales, y en casos de la demencia con cuerpos de Lewy difusos hay alteraciones corticales y subcorticales.

Demencias Degenerativas Primarias. Los procesos degenerativos cerebrales constituyen la causa más frecuente de

demencia, siendo la Demencia tipo Alzheimer responsable de casi la mitad de los casos. El tipo de afectación neuropatológica presenta una distribución diferente según el tipo de demencia, y en algunos casos las alteraciones histológicas son distintas del proceso, como sucede en la enfermedad de Alzheimer, la demencia con cuerpos de Lewy, la enfermedad de Pick o la parálisis supranuclear progresiva. No se conoce la causa del proceso degenerativo, y en ocasiones algunos hallazgos morfológicos son comunes a varias entidades, como sucede en el caso de la enfermedad con cuerpos de Lewy, la enfermedad de Parkinson y la enfermedad de Alzheimer. Desde el punto de vista clínico, unas veces predominan las alteraciones de memoria, y otras veces los síntomas de tipo frontal, los rasgos extrapiramidales o el comienzo focal. En general, en las demencias degenerativas primarias, el curso es lento, aunque hay excepciones como en el caso de la demencia frontal con afectación de motoneuronas. Las demencias de curso rápido, en general se asocian a causas tratables, con la excepción de la encefalitis límbica paraneoplásica y la enfermedad por priones.

Demencias Vasculares. El término demencia vascular hace referencia a la existencia de demencia en

relación con diferentes tipos de alteraciones vasculares cerebrales y sustituye a la anterior denominación de demencia multinfarto, ya que los infartos múltiples no son la única causa de demencia vascular. Junto a la enfermedad de Alzheimer constituye la causa más frecuente de demencia asociada a la edad, y en países como Japón tienen una prevalencia superior a la enfermedad de Alzheimer. Al igual que sucede con ésta, la prevalencia de la demencia vascular aumenta con la edad pero, al contrario que aquélla, es más frecuente en varones. Las demencias vasculares pueden tener un inicio agudo o subagudo, al curso puede ser progresivo, estable o fluctuante y los síntomas pueden mejorar. Los criterios diagnósticos establecidos por el NINDS-AIREN consideran como demencia vascular probable cuando existe una demencia definida como alteración de la memoria y dos o más déficit en otras áreas cognitivas, evidencia de enfermedad cerebrovascular (mediante examen clínico y de neuroimagen) y una relación entre la aparición de la demencia y las alteraciones vasculares cerebrales con uno o más de las siguientes características:

• Inicio de la demencia en los 3 meses siguientes al episodio isquémico. • Comienzo agudo, fluctuaciones o curso escalonado del déficit cognitivo. Las

demencias vasculares se subdividen en corticales, subcorticales, enfermedad de Binswanger y demencia talámica.

Page 49: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

24 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Las causas pueden ser infartos múltiples, infarto único en situación estratégica

(infartos talámicos, cerebral posterior, cerebral anterior) enfermedad de vasos pequeños, hemorragias e hipoperfusión. Con frecuencia se plantea el diagnóstico diferencial con la enfermedad de Alzheimer y es necesario tener en cuenta que existen formas mixtas de demencia que asocian enfermedad de Alzheimer y demencia vascular.

Demencias Sintomáticas o Secundarias. Se trata de procesos neurológicos o sistémicos, estructurales o metabólicos,

tóxicos o medicamentos, reversibles o no, capaces de producir un deterioro cognitivo. En sentido estricto, las demencias vasculares deberían considerarse demencias sintomáticas, pero por su frecuencia y características se consideran un grupo particular. No debe existir dificultad diagnóstica alguna cuando la demencia sintomática aparece en el curso de la enfermedad fundamental, pero cuando el paciente consulta por algún déficit cognitivo, la posible existencia de una causa tratable debe investigarse cuidadosamente.

1.4.2 Evaluación de los Pacientes con Sospecha de Demencia.

Tomografía Computarizada y Resonancia Magnética. La Tomografía Computarizada (TC) y la Resonancia Magnética (RM) se utilizan

en el estudio de pacientes con demencias, para descartar alteraciones estructurales como hematomas subdurales, hidrocefalia y procesos expansivos (tumores, abscesos, etc.) que pueden causar demencia. Para el diagnostico en el caso de la enfermedad de Alzheimer apenas contribuyen. Su importancia reside en la capacidad de medir el grado de atrofia y las alteraciones volumétricas en estructuras como el hipocampo y la corteza cerebral.

Tomografía Computarizada por Emisión de Fotón Único. La tomografía computarizada por emisión de fotón único (SPECT) cerebral es

una técnica empleada en Medicina Nuclear, la cual mediante la utilización de un trazador (99mTc-ECD), obtiene imágenes tomográficas representativas del flujo sanguíneo regional cerebral. Esto a su vez permite examinar la distribución del flujo cortical de diferentes áreas y realizar comparaciones cuantitativas con una zona de referencia, que normalmente es el cerebelo (índice córtico-cerebeloso). Para la enfermedad de Alzheimer existe un patrón característico con reducción del flujo temporal bilateralmente, pero éste no es indispensable para realizar el diagnóstico de la enfermedad. La SPET puede ser útil para diferenciar una demencia de origen vascular (hipoperfusiones corticales múltiples) de una enfermedad de Alzheimer. Además ayuda a distinguir la demencia depresiva o pseudodemencia de una enfermedad de Alzeimer.

Electroencefalograma. El electroencefalograma (EEG) es un examen con las características de bajo

coste, inocuo, de amplia disponibilidad y bastante útil en el estudio de las demencias. Pese a no presentar una gran sensibilidad global en el estudio de la demencia, en la enfermedad de Alzheimer se evidencia (incluso en las primeras fases de la enfermedad) una lentitud progresiva y difusa del trazado, frente a la normalidad en las demencias frontales y en las demencias depresivas.

Page 50: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 25 _____________________________________________________________________________

Examen Neuropsicológico. La exploración de una demencia puede ser básica y breve. Como se ha expuesto

anteriormente, para ello se puede emplear el Mini-Mental State Examintion (MMSE) y el test del informador, aunque posteriormente sea preciso un examen más extenso para confirmar el diagnóstico mediante instrumentos de examen cognitivo, como el examen cognitivo de Cambridge (CAM-COG), la batería del Consortium to Establish a Registry for Alzheimer’s Disease (CERAD) o el test de Barcelona. Existen casos particulares en que será necesario explorar detenidamente la presencia de alteraciones en funciones específicas de uno u otro hemisferio, como el lenguaje, las capacidades visuoespaciales, etc. El MMSE y el test del informador posibilitan hacer una primera diferenciación entre individuos normales y aquéllos con una posible demencia, pero posteriormente una exploración neuropsicológica reglada debe incluir tanto las funciones sin una estricta localización o lateralidad (su alteración implicaría una afectación difusa) como las funciones con una localización conocida (su alteración implicaría una lateralidad hemisférica). El examen neuropsicológico puede permitir, además del diagnóstico de demencia, diferenciar una demencia de tipo Alzheimer de demencias vasculares o demencias de inicio focal.

Mini-Mental State Examination. El MMSE constituye el instrumento más utilizado dentro del grupo de test de

rápida aplicación. La puntuación total es de 30 y engloba los siguientes dominios: orientación, atención, memoria, lenguaje y praxis. Una puntuación por debajo de 24 se ha considerado indicativa de demencia. Sin embargo, deben tenerse encuentra aspectos como la edad y el grado de escolaridad, que pueden modificar sustancialmente los resultados. Por otra parte, cabe destacar que pacientes con demencia incipiente y nivel intelectual elevado pueden puntuar por encima de esta cifra de corte. Una puntuación final baja no indica necesariamente una afectación global. Una falta de atención o una alteración exclusivamente del lenguaje pueden ser causa de unos resultados deficientes. En la evaluación de la enfermedad de Alzheimer los apartados más útiles son la orientación, el recuerdo de las tres palabras y el dibujo. Por otra parte el MMSE es bastante insensible a las alteraciones cognitivas circunscritas y así por ejemplo, no detecta el déficit característico en los procesos demenciales de inicio frontal o con alteraciones predominantemente visoperceptivas. En los pacientes con demencia avanzada y una puntuación muy baja en el MMSE a menudo no es posible valorar nuevos cambios en posteriores evaluaciones. A pesar de estos inconvenientes, es un instrumento sumamente eficaz y de rápida ejecución.

Test del Informador. Las respuestas a las preguntas planteadas en este cuestionario son

proporcionadas por el familiar o cuidador. El cuestionario consta de 26 preguntas, y existe una versión abreviada de 17 preguntas. El test del informador es más eficaz que el MMSE en la detección de los pacientes con demencia. En nuestro país también se ha demostrado su utilidad y se ha desarrollado una versión española. Los resultados no dependen del nivel de estudios previo y, combinado con el MMSE, es un instrumento muy útil en la detección de los pacientes con demencia.

1.4.3 Escala de Demencias. De gran utilidad para establecer el grado de afectación funcional y permiten el

seguimiento evolutivo del proceso. Existen diferentes escalas, la mayoría concebidas

Page 51: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

26 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

para la enfermedad del Alzheimer. En la práctica, cada grupo de trabajo utiliza aquella a la que está más habituado y que considera más adecuada a sus prioridades del trabajo. La más sencilla y operativa es la establecida en el DSM-IV-TR, que clasifica los grados de demencia en leve, moderado y grave. En la demencia leve el paciente presenta una alteración significativa en las actividades sociales o laborales pero conserva suficiente autonomía en su higiene personar, con una capacidad de juicio relativamente intacta. En la demencia moderada la autonomía del paciente está limitada, existiendo riesgos para su integridad en ausencia de control por parte del cuidador. En la demencia grave las actividades de la vida diaria están muy alteradas y el paciente precisa un control permanente por parte del cuidador. Aunque esta clasificación del DSM-IV-TR es muy útil, no recoge debidamente estadios intermedios del proceso, por lo que a menudo se utilizan otras escales. Las de mayor difusión y uso son: Clinical Dementia Rating (CDR), Global Deterioration Scale (GDS) y Funtional Assessment Stages (FAST) (véase Tabla 1.5), esta última contiene apartados (6 y 7) con subdivisiones. Conviene insistir en el hecho de que esta escala ha sido diseñada para su utilización exclusiva en la enfermedad de Alzheimer, ya que por ejemplo, la existencia de incontinencia urinaria supone un estadio avanzado de la enfermedad (6a del FAST), pero esto no es extrapolable al caso particular de un paciente con demencia por una hidrocefalia con presión normal en la que la afectación esfinteriana es precoz y el deterioro leve, o en el caso de una demencia vascular en la que la afectación esfinteriana cuando está presente, habitualmente depende del la localización de la lesión y no del grado de deterioro.

1.4.4 Exámenes Complementarios. Una vez completados el examen clínico y la exploración neuropsicológica y si se

establece como conclusión la sospecha de una demencia, conviene realizar unas pruebas complementarias mínimas, reflejadas en la Tabla 1.5. El interés de estas pruebas diagnósticas radica en descartar las posibles causas tratables de demencia. En algunos casos, dependiendo de la sospecha etiológica, se deberán practicar otras determinaciones, como VIH, examen del LCR o SPECT cerebral. En la actualidad no existe un marcador biológico o de otro tipo que permita realizar el diagnóstico de demencia o distinguir entre sus diferentes formas. En el caso de la enfermedad de Alzheimer existen varios marcadores genéticos, pero sólo uno es discutible. En casos de historia familiar con enfermedad de Alzheimer de inicio estaría indicada la determinación de posibles mutaciones en los cromosomas 1,14 ó 21. Los pacientes con enfermedad de Alzheimer expresan con mayor frecuencia el alelo ε4 de la apoliporproteina “E”, y su presencia se considera un factor predisponente.

Actualmente, la determinación sistemática del tipo de apolipoproteina “E” no

estaría justificada, excepto con fines de investigación, ya que en trabajos basados en estudios de poblaciones se ha puesto de manifiesto un valor predictivo bajo. En la en enfermedad de Alzheimer se ha descrito un aumento de la proteína τ (tau) en el LCR, pero su especificidad no es muy alta, aunque ésta aumenta cuando se combina con el estudio de los alelos de la apolipoproteina “E”. El análisis del LCR puede justificarse por otros motivos, como descartar neurolúes, infecciones, infiltración neoplásica, en pacientes con inmunodeficiencia, sospecha de vasculitis y en demencias de inicio precoz o de rápida evolución.

Page 52: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 27 _____________________________________________________________________________

Tabla 1.5 Functional Assessmente Stages (FAST).

Estadio. Capacidad funcional. Grado.

1 Sin alteraciones. Individuo normal. 2 Dificultad subjetiva para encontrar las palabras. Individuo de edad

avanzada, normal. 3 Dificultad para desarrollar su actividad laboral. Demencia incipiente. 4 Precisa ayuda para tareas como finanzas domesticas,

planificar comidas, comprar. Demencia leve.

5 Precisa ayuda para seleccionar la roma de vestir adecuad.

Demencia moderada.

6a Precisa ayuda par vestirse. Demencia moderada-grave.

6b Precisa ayuda para bañarse adecuadamente. 6c Precisa ayuda para secarse, etc. 6d Incontinencia urinaria. 6e Incontinencia fecal. 7a Lenguaje con escasa palabras inteligibles. Demencia grave. 7b Lenguaje con una sola palabra inteligible. 7c Incapaz de deambular. 7d Incapaz de sentarse. 7e Incapaz de sonreír. 7f Permanece inconsciente.

El diagnóstico de demencia requiere la demostración clínica o por pruebas

complementarias de la existencia de trastorno orgánico y de las alteraciones cognitivas no aparecen exclusivamente en el curso de un delirium. Por ello, depresión y delirium son particularmente importantes en el diagnóstico diferencial de una demencia.

1.5 Trastornos Cognitivos Asociados a la Enfermedad de Alzheimer.

La enfermedad de Alzheimer comienza hispatológicamente muchos años antes de que sea aparente el inicio de los síntomas clínico [Jacobs et al., 1994]. Es bien conocido que la mayoría de los pacientes, entre el 50% y el 70%, tienen la forma típica de la enfermedad. Esta forma típica de enfermedad de Alzheimer comienza con una pérdida de memoria reciente, originada en un déficit para la formación de nuevos recuerdos, ocasionado por la precoz afectación del córtex entorrinal e hipocampo, que origina un síndrome de “desconexión” entre las entradas sensoriales y los circuitos mnésicos córtico-subcorticales [Jacobs et al., 1994; Albert, 2000]. Esta forma amnésica progresiva se caracteriza por un patrón característico de evolución en el tiempo que, de modo típico, se inicia con una pérdida de memoria episódica, a la que se le asocian en unos años alteraciones afaso-apraxo-agnósicas en graso variable junto con déficit funcionales y alteraciones conductuales [Tierney et al., 1988]. Existen otras formas de presentación de la enfermedad de Alzheimer, siendo la forma de anomia lentamente progresiva el segundo tipo más frecuente [Berthier, 1991]. El inicio insidioso de los síntomas hace difícil a pacientes y familiares establecer cuándo empezaron las alteraciones cognitivas. En varios estudios se han encontrado unos tiempos de evolución del deterioro que se sitúan entre 3 y 4,5 años antes de la primera visita clínica [Bracco et

Page 53: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

28 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

al., 1994]. En el VII Curso Nacional de la enfermedad de Alzheimer se analizaban, en extenso, los síntomas cognitivos principales de la presentación clínica típica de la enfermedad de Alzheimer, así como la buena correlación que existe entre los síntomas cognitivos y los estadios histopatológicos de Braak [Braak, 1991; Pascual, 2002].

1.5.1 Síntomas Cognitivos y Enfermedad de Alzheimer. Los dos aspectos novedosos en relación con la cognición en la enfermedad de

Alzheimer son: 1. El concepto de “pre-progresión”, es decir, la velocidad del deterioro cognitivo

antes del diagnóstico [Doody, 2001]. 2. El concepto de reserva cognitiva, en cuanto modelo dinámico de activación

cerebral que utilizan los sujetos normales y que implica una capacidad para la activación progresiva de redes neuronales en respuesta al aumento de las demandas cognitivas [Stern, 2002].

Se define progresión como la velocidad de instauración del declinar cognitivo

que ha tenido lugar antes del diagnóstico de la enfermedad de Alzheimer [Doody, 2001]. Para determinar esta velocidad del deterioro se utiliza la comparación de la puntuación observada en el test respecto del nivel teórico estimado o “esperado” para dicho test y el sujeto, que depende de la edad y del nivel de escolarización. Esta diferencia se relaciona con el tiempo transcurrido desde el inicio de los síntomas. Este enfoque tiene relación con la aproximación clásica en neuropsicología de la estimación del nivel cognitivo “premórbido” como el referente ideal de comparación individual para establecer el diagnóstico de déficit [Lezak, 1995] añadiendo el componente de pérdida por unidad de tiempo.

La existencia de una reserva cerebral o neuronal se ha desarrollado como posible explicación para el hecho de la inexistencia de una relación directa entre el grado de patología cerebral y los síntomas clínicos [Stern, 2002]. La hipótesis de la reserva cerebral asume que tanto la inteligencia innata como las experiencias de la vida (educación, actividades, etc.) pueden proporcionar una reserva de suplencia en la forma de habilidades cognitivas que permiten a algunas personas tolerar mejor que a otras los cambios patológicos del cerebro [Katzman, 1993].

1.6 Descubrimiento de la Enfermedad de Alzheimer. Aloïs Alzheimer (véase Figura 1.3) contribuyó a la neuropatología y

neurobiología del envejecimiento, su trabajo como investigador incluyó artículos sobre parálisis progresiva luética, arterioesclerosis cerebral, alcoholismo y epilepsia entre otros. Además de ser un renombrado psiquiatra forense de la época [Burns et al., 2002]. El 25 de Noviembre de 1901 ingresó una paciente de 51 años de edad, llamada Augusta D. (véase Figura 1.4) en el hospital de Frankfurt a causa de un llamativo cuadro clínico que tras comenzar con un delirio celotípico, inicio una rápida y progresiva pérdida de memoria acompañada de alucinaciones, desorientación temporoespacial, paranoia, trastornos de la conducta y un grave trastorno de lenguaje. Fue estudiada por Aloïs Alzheimer primero y después por parte de médicos anónimos hasta su muerte en 1906 por septicemia debida a escaras de decúbito y neumonía. En el examen que le realizó Alzheimer a la paciente anotó de su puño y letra lo siguiente:

“Se sienta en la cama, con una expresión desamparada. -- ¿Cuál es su nombre?

Page 54: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 29 _____________________________________________________________________________

-- Auguste. -- ¿Cuál es el nombre de su marido? -- Auguste. -- ¿Su marido? -- Ah, mi marido. Mira como si no comprendiera la pregunta. --¿Está casada? -- Con Auguste. -- ¿Señora D.? -- Si, si, Auguste D. (…) Come coliflor y cerdo. Cuando le pregunto qué ha comino, contesta que espinacas. Cuando está masticando carne y se le pregunta qué está haciendo, contesta “patatas y rábanos” (…)

Cuando le pido que escriba Auguste D. ella escribe Sra, y se le olvida el resto.

Es necesario repetir cada palabra”. (Véase Figura 1.5).

(http://www.sigojoven.com/user_images/31492-Alois_Alzheimer_large.jpg)

Figura 1.3 Aloïs Alzeimer.

(http://www.iqb.es/neurologia/enfermedades/alzheimer/enfermedadpaciente/imagm303.jpg)

Figura 1.4 Auguste D.

Page 55: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

30 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

(http://www.kindsein.com/images/cms-image-000000286.jpg)

Figura 1.5 Escritura de Auguste D.

Auguste murió en Abril de 1906, cuando el doctor Alzheimer estaba trabajando en Munich, en la “Real Clínica Psiquiátrica”. No falleció a causa de su enfermedad neurodegenerativa, sino por problemas derivados de permanecer inmovilizada en la cama durante mucho tiempo. Al enterarse de su muerte, Alzheimer pidió a su anterior jefe, del doctor Sioli que le dejara el historial de Auguste y su cerebro. El cerebro de la enferma fue remitido a Alzheimer, quien procedió a su estudio histológico (véase Figura 1.6). Lo estudio y descubrió que su córtex cerebral era más delgado de lo normal. Además encontró otras anomalías: placas seniles, unas estructuras que se habían visto anteriormente en los cerebros de los ancianos, y los llamados ovillos neurofibrilares. El 4 de noviembre de 1906 presentó su observación anatomoclínica con la descripción de placas seniles, ovillos neurofibrilares y cambios arterioescleróticos cerebrales. El trabajo se publicó al año siguiente con el título “Una enfermedad grave característica de la corteza cerebral”.

Figura 1.6 Laminilla con la preparación histológica del cerebro original de Auguste D.

Alzheimer descubrió su segundo caso en 1911, fecha en la que también aparece una revisión, publicada por Fulles, que comprende a un total de 13 enfermos con una media de edad de 50 años y una duración media de la enfermedad de 7 años. En 1911, Alzheimer publicó detalladamente el caso de un hombre de 56 años de edad, (Johann F.) quien sufrió de “demencia presenil” y que estuvo hospitalizado en la clínica psiquiátrica de Kraepelin en Munich por más de 3 años, antes de fallecer el 3 de Octubre de 1910. Un examen postmortem de su cerebro confirmó que poseía las mismas características de la enfermedad de Alzheimer. Este caso terminó de convencer a Kraepelin para acuñar el

Page 56: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 31 _____________________________________________________________________________

término “enfermedad de Alzheimer”. Trascurrió poco tiempo, para que el que era su jefe en la clínica de Munich, Emil Kraepelin, a quien se debe la clasificación actual de las psicosis, decidió incluir la descripción de los síntomas de Auguste Deter en la octava edición de su libro Psychiatrie, publicado en 1910. Kraepelin sorprendió al propio Alzheimer y otros especialistas, bautizándola como “enfermedad de Alzheimer”, aunque éste no fue el primero en describirla. Ya habían hablado de ella antes Oskar Fischer, Francesco Bonfiglio y Graetano Perusini.

Alzheimer nunca manifestó ser el descubridor de la enfermedad, y se cree que

fue cosa de Kraepelin, que exageró la novedad de la enfermedad para dar prestigio a su centro y seguir recibiendo financiación y becas para investigación. Alzheimer falleció cinco años después (el 19 de Diciembre de 1915) de la publicación del libro de Kraepelin. Bajo su supervisión, el Laboratorio Anatómico establecido en esta clínica de Munich llegó a ser uno de los centros líderes de la investigación histopatológica contando entres sus estudiantes a grandes médicos y científicos, como Hans-Gerhard Creutzfeldt, Alfons Jacob, Constantin von Ecónomo, Ludwig Merbacher, Gaetano Perusini y F.H. Lewy, entre otros. El 16 de Julio de 1912, Alzheimer fue nombrado Director de la Clínica de Psiquiatría y Neurología en la Universidad Silesian Friedrich-Wilhelm en Breslau (Wroclaw) Polonia, por un decreto firmado por el Emperador Guillemo II de Prusia.

En 1992 y 1997 de forma sorprendente y después de una búsqueda de años, el neuropatólogo M. Graeber del Instituto Max Planck de Neurobiología en Martinsried, logró descubrir en un subterráneo de la Universidad de Munich, más de 250 laminillas (véase Figura 1.4) con las preparaciones histológicas del cerebro original de Auguste D. y Johann F., [Enserinck, 1998] los dos primeros pacientes estudiados por Alzheimer pudiéndose reevaluar aspectos neuropatológicos y clínicos reseñados hace casi un siglo [Graeber, 1999]. Esto ha permitido resolver algunas controversias con respecto al tipo de lesiones detectadas y en consecuencia acerca de la causa específica de su demencia. Incluso se ha extraído ADN y con la técnica PCR se ha logrado determinar el genotipo APOE, presentando los alelos con menor predisposición para desarrollar la enfermedad [Graeber et al., 1998]. Las notas clínicas relacionas al estudio del caso Auguste D. también han sido descubiertas recientemente por Maurer y colaboradores en un instituto de la Universidad de Frankfurt [Maurer et al., 1997].

Este cuadro descrito formalmente en 1906, ha permanecido hibernando científicamente cerca de 80 años. En los años 80 la declaración de su padecimiento por parte de algunos personajes públicos como Ronald Reagan supone el punto de partida para una concienciación social y sanitaria del problema.

1.7 Patología de la Enfermedad de Alzheimer. La enfermedad de Alzheimer se caracteriza por la pérdida de neuronas y sinapsis

en la corteza cerebral y en ciertas regiones subcorticales, como consecuencia de una atrofia de las regiones afectadas, incluyendo una degeneración en el lóbulo temporal y parietal y partes de la corteza frontal y la circunvolución cingulada [Wenk, 2003]. No se conoce con exactitud cómo la producción y agregación de los péptidos Aβ afecta al desarrollo de la enfermedad del Alzheimer [Van Broeck et al., 2007]. Tradicionalmente se creía que la acumulación de los péptidos Aβ era el causante de la degeneración neuronal. La acumulación de las fibras de amiloide, que parece ser la forma anómala de la proteína responsable de la perturbación de la homeostasis del ión calcio intracelular,

Page 57: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

32 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

induce la muerte celular programada, llamada apoptosis [Yankner et al., 1990]. También se sabe que la Aβ se acumula selectivamente en las mitocondrias de las células cerebrales afectadas en el Alzheimer y que es capaz de inhibir ciertas funciones enzimáticas, además de alterar la utilización de la glucosa de las neuronas [Chen et al., 2006]. Ciertos mecanismos inflamatorios junto a la intervención de las citoquinas pueden jugar un papel en la patología de la enfermedad del Alzheimer. La inflamación es el marcador general de daño en los tejidos en cualquier enfermedad y puede ser consecuencia del daño producido por la enfermedad, o bien, la expresión de una respuesta inmunológica [Greig et al., 2004].

1.7.1 Neuropatología. En la autopsia de los pacientes con enfermedad de Alzheimer podemos observar

que el peso del cerebro se ha reducido y las cisuras cerebrales son marcadas como resultado de la atrofia cerebral. En el examen neuropatológico se observa que la atrofia es más acusada en los lóbulos frontal y temporal (véase Figura 1.7).

(http://www.asmatico.info/imagenes/cerebro.jpg)

Figura 1.7 Cerebro de un individuo normal v paciente con Alzheimer. Microscópicamente se advierte pérdida neuronal y disminución de la sustancia

blanca [Tiraboschi et al., 2004]. El diagnostico se fundamenta en la degeneración neurofibrilar y en la detección de placas seniles, aunque no son las únicas alteraciones neuropatológiacas de este proceso. La degeneración neurofibrilar se caracteriza por una acumulación de fibrillas argirófilas que se disponen en forma de haces citoplasmáticos en las dendritas de las neuronas piramidales o bien en forma de ovillos en las neuronas multipolares (véase Figura 1.8). Las fibrillas se componen de filamentos cuya composición es compleja y permite tinciones especiales. Las proteínas τ (tau), localizadas en los axones y asociadas a los microtúbulos, al ser sometidas a fosforilación se acumulas anormalmente en las neuronas y en las dendritas provocando degeneración neurofibrilar.

Page 58: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 33 _____________________________________________________________________________

(http://upload.wikimedia.org/wikipedia/commons/5/51/TANGLES_HIGH.jpg)

Figura 1.8 Tangles Neurofibrilares intracelulares. Neurona superior sana v neurona inferior enferma.

Las placas seniles presentan formas redondeadas, correspondiendo a

terminaciones axonales degeneradas que adquieren un gran tamaño y que rodean una zona central en la que hay abundante sustancia amiloide. Se componen fundamentalmente de restos de elementos celulares: cuerpos vesiculares y multilaminares, mitocondrias, y filamentos rectos y plegados helicoidalmente como los que se encuentran en la degeneración neurofibrilar. Surgen por la degeneración de las neuronas piramidales y en ellas se observan dendritas y espinas dendríticas anómalas que están relacionadas con los depósitos de sustancia β-amiloide. Los astrositos y las células microgliales también se ven implicadas en la formación de las placas seniles, aunque en las zonas más periféricas. Las placas seniles están compuestas fundamentalmente por amiloide, que a su vez está formado por fibrillas dispuestas desordenadamente, y compuestas por la proteínas β-A4 procedente de la proteína precursora del β-amiloide, que está formada por glucoproteínas que actúan como receptores de membrana y que son componentes normales de numerosas células (neuronas, astrositos, oligodendrocitos, células de la microglia, leucocitos, linfocitos y fibroblastos, entre otras) y cuya función exacta se desconoce.

La proteína precursora del amiloide en su ciclo metabólico normal no produce

acumulación de amiloide, pero si se rompe y da lugar a la formación del segmento β-A4, rápidamente produce fibrillas. Las pérdidas neuronales de la enfermedad de Alzheimer afectan fundamentalmente a las capas corticales (neuronas piramidales y de los circuitos locales), el hipocampo y el córtex entorrinal. La degeneración neurofíbrilar se observa fundamentalmente en el hipocampo (véase Sección A.8, Apéndice A), el córtex entorrinal, el subiculum y la corteza (capas III y IV). Las placas seniles se observan en toda la corteza cerebral y en el hipocampo. En la enfermedad de Alzheimer existen además otras alteraciones celulares. En las neuronas piramidales del hipocampo se observa degeneración granulovacuolar y cuerpos de Hirano (estructuras de forma

Page 59: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

34 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

elipsoidal o en bastoncito). Las correlaciones anatomoclínicas entre la pérdida neuronal y la intensidad de la demencia se han confirmado en lo que respecta al número y a la distribución de las neuronas con degeneración neurofíbrilar y al número de neuronas con degeneración granulovacuolar, observándose que los síntomas clínicos de la enfermedad dependen claramente de la intensidad de la pérdida neuronal y de las estructuras sinápticas.

1.7.2 Aspectos Morfológicos. La enfermedad de Alzheimer causa una atrofia cerebral progresiva, moderada,

bilateral y difusa, generalmente simétrica, que puede ser difícil diferenciar de la propia del envejecimiento normal. La atrofia comienza y predomina en regiones mediales temporales y luego afecta el neocórtex, preferentemente temporoparietal y frontal. Como se ha mencionado anteriormente el diagnóstico histopatológico de la enfermedad de Alzheimer se basa en la existencia de las dos lesiones elementales características: los ovillos neurofibrilares (ONF) y las placas seniles. Valoradas no sólo cualitativamente (pueden aparecer en otros tipos de degeneración neuronal e incluso en el envejecimiento normal) sino también cuantitativamente y acorde a la edad del paciente en estudio. El diagnóstico se establece cuando se encuentra un número determinado de lesiones elementales por campo en áreas cerebrales específicas.

El hecho básico de la enfermedad de Alzheimer es en primer lugar la lesión, y la

posterior destrucción de la neurona cerebral, que se relaciona con la aparición de los depósitos protéicos insolubles cerebrales mencionados. Los ovillos neurofibrilares (ONF) son un depósito intracelular sustituido por el apelotonamiento de filamentos helicoidales apareados, cuyo elemento fundamental es la proteína τ (tau), que es una proteína hiperfosforilada asociada a los microtúbulos. La placa senil es un depósito extracelular cuyo centro está formado por sustancia amiloide, a la que se atribuye un papel muy importante en la patogenia de la enfermedad. Su elemento fundamental es la proteína β-amiloide (PβA) que está codificada por un gen del cromosoma 21 [Selkoe, 1999]; junto a este núcleo amiloide hay terminaciones gliales, axones destruidos y microglía, que parecen intervenir en un factor inflamatorio, quizás “autoinmune”, en la formación de la placa. Actualmente no se conoce cuál es la interrelación que existe entre la ONF y la placa senil, ni cuál de ellas tiene mayor importancia patogénica, pero sí se sabe que la alteración cognoscitiva se correlaciona presuntamente con la ONF, la desaparición de neuronas y, sobre todo, con la pérdida de sinapsis corticales. Existen otras lesiones elementales, como los cuerpos de Riaño y la degeneración granulovacuolar en células del hipocampo, pero carecen de valor para el diagnóstico. Los primeros cambios morfolóficos se producen décadas antes de que haya manifestaciones clínicas, quizás hasta 20 años antes, y siguen los estadios anatomoclínicos descritos por Braak y Braak y por Almkvist. Durante mucho, tiempo las alteraciones quedan limitadas a la zona perientorrinal primaria, luego se extienden a las regiones mesiales temporales, por lo que la memoria resulta dañada precozmente. Por último, se afecta al neocórtex, en especial la corteza parietotemporal asociativa frontal anterior, lo que explica la alteración del lenguaje, las praxias, las gnosias y las funciones ejecutivas. En cambio, las áreas primarias motoras, sensitivas o sensoriales están muy respetadas, por lo que estos enfermos no tienen, incluso en estadios avanzados, parálisis o paresias, hemihipoestesias o pérdidas de visión.

Secundariamente la afectación de determinados grupos neuronales altera los

sistemas de neurotrasmisión que dependen de ellos. Entres los afectados precoz e

Page 60: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 1. Reseña sobre la Neurodegeneración: Orígenes, Síntomas y Efectos. 35 _____________________________________________________________________________

intensamente está el sistema colinérgico muy relacionado con la memoria, lo que constituye un hecho capital de la enfermedad, íntimamente relacionado el declive cognitivo. A nivel del núcleo basal de Mynert, origen de este sistema, se aprecia una degeneración de los axones que se proyectan de forma difusa a la corteza cerebral y en especial a la región del hipocampo. La secuencia bioquímica es la disminución de la acetilcolina cerebral y de la enzima sintetizadora, la acetil-colin transferasa, lo que constituye un marcador de la afectación de este sistema colinérgico. Por el contrario, no se observan cambios a nivel de la terminal colinérgica postsináptica y los receptores postsinápticos, en especial el muscarínico, que pueden ser activados mediante la acetilcolina y agonistias colinérgicos.

No obstante, el modelo difiere del clásicamente conocido para la enfermedad de

Parkinson y correspondiente al sistema dopaminérgico nigroestriatal, ya que a medida que la enfermedad de Alzheimer progresa, se van afectando un número creciente de neuronas en diferentes regiones cerebrales y consecuentemente, implicando a múltiples sistemas de neurotransmisión. Así ocurre en los niveles de los sistemas noradenérgico y serotoninérgico, situados en el tronco cerebral, lo que puede estar relacionado con algunas manifestaciones conductuales de la enfermedad. En la corteza cerebral está afectado el sistema somatostatinérgico y participan otros sistemas neuropeptidérgicos. La conclusión es que la afectación de la neurotransmisión en la enfermedad de Alzheimer muy evolucionada llega a ser muy extensa, intensa y variada. Las alteraciones neuroquímicas observadas en el sistema nervioso central en la enfermedad de Alzheimer han sido el eje central de las investigaciones terapéuticas. El descubrimiento hace dos décadas de un trastorno colinérgico en pacientes con esta enfermedad llevó a pensar que esta alteración era la causa del proceso. Hoy día se sabe que la disfunción neuroquímica es amplia y que son varios los sistemas de neurotransmisión implicados, entre ellos el colinérgico, el catecolaminérgico, el serotoninérgico, el neuropeptidérgico y los sistemas aminoacidérgicos e histaminérgicos.

El sistema colinérgico extiende su red neuronal por todo el cerebro, involucrando fundamentalmente al núcleo basal magnocelular de Meynert, a los núcleos de la sustancia innominada, a la región sublenticular, al núcleo septal medial y a la banda diagonal de Broca. Este sistema es el más afectado en la enfermedad de Alzheimer, presentando una reducción de hasta un 90% en la actividad cortical de la acetil-colin transferasa. La pérdida neuronal del núcleo basal de Meynert se correlaciona con la gravedad clínica de la enfermedad existiendo también una correlación entre el número de placas seniles y la caída de la acetil-colin transferasa. La pérdida neuronal que se da en el locus coeruleus en la enfermedad de Alzheimer es la causante de las alteraciones observadas en el sistema catecolaminérgico, en el que se demuestra una degradación en los sistemas adrenérgico, noradrenérgico y dopaminérgico. Bajas concentraciones de noradrenalina también se han señalado en otras áreas cerebrales. A pesar de estas alteraciones no está claro el compromiso del sistema catecolaminérgico en la enfermedad de Alzheimer.

El sistema serotoninérgico se halla claramente afectado, observándose fundamentalmente una marcada pérdida neuronal en los núcleos del rafe extendidos a lo largo de todo el tronco cerebral. Las alteraciones neuroquímicas pueden detectarse en el líquido cefalorraquídeo de los pacientes, con concentraciones de serotonina y de ácido 5-hidroxi-3-indolacetico reducidas. También se han observado concentraciones bajas de serotonina en el hipocampo, la corteza frontotemporal, el núcleo caudado, el hipotálamo

Page 61: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

36 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

y la circunvolución cingular. Las alteraciones serotoninérgicas frontotemporales podrían ser las causantes de los cambios de conducta de estos pacientes. El sistema peptidérgico se implica en la enfermedad de Alzheimer porque algunas de las sustancias que lo componen se ven alteradas. La somatostatina se halla reducida fundamentalmente en el neocórtex y en el hipocampo, observándose una clara correlación entre su disminución y el aumento del número de placas seniles. El neuropéptido Y, la sustancia P y la vasopresina también están reducidos. Se han descrito alteraciones de otros muchos componentes del sistema neuropeptidérgico, alguno de los cuales son importantes en el aprendizaje y la memoria.

El sistema aminoacidérgico se ve implicado porque numerosos aminoácidos que habitualmente actúan como verdaderos neurotransmisores se ven alterados; así, el ácido glutámico está disminuido en el córtex y el hipocampo, el ácido aspártico en diversas áreas cerebrales y el ácido gammaminobutírico en el lóbulo temporal. El sistema histaminérgico también se ve implicado en la enfermedad de Alzheimer. Por tratarse de un neurorregulador endocrino desempeña un papel importante en diversas funciones cerebrales. Algunos autores han señalado disminuciones importantes de la histamina en el córtex frontal, el temporal, el occipital y el núcleo caudado. Existen otras muchas alteraciones neuroquímicas del sistema nervioso central en la enfermedad de Alzheimer. En su conjunto hacen difícil conocer las vías neuroquímicas que condicionan los cambios que se observan en el proceso de envejecimiento cerebral y en el desarrollo de esta enfermedad.

Page 62: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2

TÉCNICAS DE ADQUISICIÓN DE IMÁGENES EN MEDICINA NUCLEAR.

Este Capítulo trata la Tomografía Computarizada por Emisión (del inglés “Emission Computerized Tomography” ECT), además de la tecnología necesaria para su aplicación. La ECT se ha empleado durante las tres últimas décadas tanto para la realización de diagnóstico clínico, como herramienta de investigación en Medicina Nuclear. Consiste en una modalidad no invasiva para la adquisición tridimensional de imágenes funcionales que proporciona información clínica respecto a procesos biológicos y fisiológicos de pacientes, a diferencia de otros muchos métodos de obtención de imágenes médicas que obtienen una representación correspondiente a estructuras anatómicas. Se estudiará la Tomografía por Emisión de Positrones (PET) y la Tomografía Computarizada de Emisión de Fotón Único (SPECT) como dos casos particularmente importantes de ECT, ya que el valor final de la tecnología que tiene por objetivo desarrollar la presente Tesis depende en buena medida de la calidad del método empleado para la adquisición y correcta reconstrucción de las imágenes obtenidas mediante dichas técnicas.

Page 63: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 64: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 39 _______________________________________________________________________

2.1 Historia de la Imagen Médica. El origen de la Medicina lo podemos encontrar en la Edad Antigua, cuyos

representantes más importantes son Hipócrates en Grecia y Galeno en Roma, donde la exploración del cuerpo humano se realizaba mediante tacto con las manos y un somero examen de las secreciones. Posteriormente en el renacimiento comienza a surgir un gran interés por la anatomía, donde un claro representante del s. XVI es Andrea Vesalio, que trabajo sobre cadáveres, acumulando gran cantidad de conocimientos importantes en anatomía. Más tarde W. Harvey, descubre en 1628 la circulación sanguínea, adquiriendo una gran importancia la fisiología para completar a la anatomía, por lo que hubo un cambio de paradigma. En el s. XVIII, la Medicina toma el carácter de ciencia, con la aparición de la fisiología y la fisiopatología basadas en exploraciones físicas y algunas pruebas analíticas rudimentarias.

Figura 2.1 Grabado de la época en el que se muestra la realización de las primeras radiografías.

El estudio y uso de las radiaciones ionizantes en Medicina comenzó con tres

importantes descubrimientos: los Rayos X por W. Röntgen en 1895, la radiactividad natural por H. Becquerel en 1896, y el Radio por Pierre y Marie Curie en 1898. Desde entonces, las radiaciones ionizantes han jugado un papel destacado en Física Atómica y Nuclear, proporcionando las bases para el desarrollo de la Radiología y la Radioterapia como especialidades médicas y de la Física Médica como una especialidad en Física. En 1895, W. Röntgen descubre los Rayos X, realizando la primera radiografía ese mismo año. La primera aplicación clínica, se lleva a cabo 3 meses más tarde de su descubrimiento, en 1896 por John Cox en Montreal, para localizar una bala en la pierna de un paciente, por lo que tenemos además el primer uso jurídico de la imagen médica. En la Figura 2.1, se muestra en un grabado cómo se realizaban las primeras radiografías de uso clínico en la época. En 1896, Henry Becquerel descubre la radiactividad natural, (Pechbleda, roca que contiene Uranio). Aunque su aplicación clínica como tratamiento oncológico, no tiene lugar hasta 1930. Marie Curie, comenzó su doctorado en Física en el año 1897. En su Tesis doctoral, trabajó en los efectos de las radiaciones uránicas. Marie Curie, utilizó para sus investigaciones el electrómetro, invento de su esposo, que

Page 65: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

40 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

le permitió medir el nivel de radiación de distintos elementos y finalmente pudo concluir la existencia de distintos grados de radiación según el material del cual se tratase. En sus trabajos, Marie Curie, prestó mayor atención a la purificación de los elementos y es así como logra aislar el Radio de la Pechblenda. Se puede afirmar que históricamente la Medicina Nuclear surge con el descubrimiento de la Radiactividad por Becquerel en 1896, contribuyendo a su posterior desarrollo avances en Ciencias como la Física o la Química debidos a Curie, Joliot, Rutherford o Bohr entre otros muchos.

2.2 Imagen Médica. Información Estructural y Funcional del Cuerpo Humano in vivo.

2.2.1 Definición y Conceptos Básicos. Podemos definir Imagen Médica como una representación de la distribución

espacial de una o más propiedades físicas o químicas dentro del cuerpo humano. Ésta viene caracterizada por dos parámetros importantes, el contraste “qué es lo que vemos en la imagen”, y la resolución que es el “grado de detalle”. A su vez, ésta puede ser espacial o temporal. En Imagen Médica se utilizan radiaciones ionizantes compuestas por fotones (Rayos X y radiación γ) de mucha mayor energía que la radiación visible, que son capaces de atravesar los tejidos y que al ser absorbidas en mayor o menor medida en función de la densidad de los tejidos, permiten obtener imágenes del interior del cuerpo humano. Se pueden obtener imágenes proyectivas, es decir en dos dimensiones, de los órganos internos del cuerpo con una fuente externa y un detector de Rayos X. Además de las imágenes obtenidas con fuentes externas, en Imagen Nuclear se utilizan moléculas marcadas con núcleos radioactivos emisores de Rayos γ. Dichas moléculas (radiofármacos) se introducen en el paciente para fijarse en distintos órganos según la función biológica del fármaco. La distribución interna de estos radiofármacos puede medirse mediante detectores externos de radiación que rodean al paciente.

Las imágenes se pueden clasificar atendiendo a diversas características, (véase Tabla 2.1). Si para la obtención de Imágenes Médicas, necesitamos irradiar una muestra o paciente, dependiendo de la naturaleza de la energía de la radiación empleada, se clasifican en:

• Radiografía: Rayos X. • Medicina Nuclear: Radiación gamma. • Ecografía: Energía ultrasónica. • Resonancia Magnética: Radiación Electromagnética (ondas radio).

Según la naturaleza del contraste, distinguiremos entre: • Morfológicas: representan anatomía con muy buena resolución. • Funcionales: parámetros de funcionamiento (metabolismo, perfusión,…)

Clasificación según la capacidad de separar objetos a diferentes

profundidades: • Imágenes proyectivas: superposición sobre un plano. • Imágenes tomográficas: proporcionan varios cortes facilitando su interpretación.

Page 66: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 41 _______________________________________________________________________

Tabla 2.1 Modalidades de Imagen Médica. Modalidad Técnica de

Imagen Energía Ionizante Funcional Tomográfica

Radiología Convencional Rayos X SI NO NO Radiología Digital Rayos X SI NO NO Radiología TAC Rayos X SI NO SI Medicina Nuclear SPECT Rayos γ SI SI SI Medicina Nuclear PET Rayos γ SI SI SI Ecografía Ecografía Ultrasonido NO NO SI Resonancia Magnética

MRI Ondas de Radio

NO NO SI

Resonancia Magnética

fMRI Ondas de Radio

NO SI SI

Endoscopia Endoscopia Luz NO NO NO

2.2.2 Evolución del Diagnóstico Mediante Imagen Médica. En sus comienzos la radiografía convencional, para placas de cráneo, se sometía

al paciente a dosis elevadas, con periodos de exposición en torno a los 10 minutos, actualmente el tiempo de exposición es del orden de milisegundos y la dosis recibida es unas 50 veces menor. A todo esto han contribuido entre otros muchos avances, los métodos de contraste. La densidad del tejido, da cuenta de la capacidad que poseen éstos para absorber los Rayos X, por lo que en tejidos blandos es menor. A partir de 1897, se comienzan a desarrollar los métodos de contraste (sustancias densas radio-opacas), para aplicaciones en el tubo digestivo, apareciendo el bismuto y sulfato de bario, permitiéndose así la posible realización de placas en tejidos blandos, además de en traumatología. En la década de los 70 surge la radiología digital, sustituyéndose la placa fotográfica por detectores electrónicos de alta resolución, por lo que se reduce la radiación a la que se le somete al paciente, además se puede tener un fácil almacenamiento y gestión de los exámenes realizados. La Imagen Nuclear comenzó a utilizarse a finales de los años 40 y la primera gamma cámara electrónica fue presentada por Anger en 1958 [Anger, 1958]. En 1971 se produjo una revolución en Imagen Médica con la implantación de la Tomografía Computarizada (TAC o TC). El Ingeniero Electrónico británico G. Hounsfierld construye en 1973 el primer equipo de TC, éste tardaba varias horas en la adquisición y más de un día para calcular la reconstrucción. Su uso clínico comenzó a difundirse en 1975. A su gran avance ha contribuido la imagen proyectiva, ya que empleando Rayos X, ésta permite combinar varias proyecciones en 2-D y obtener imágenes tridimensionales de los órganos. La teoría de reconstrucción tomográfica se debe a Johann Radon en 1917, y fue perfeccionada posteriormente por Allan M. Cormack, Físico Nuclear, en 1963. En 1979 reciben conjuntamente el Premio Nobel de Medicina G. Hounsfield y A. Cormack. Actualmente existe el TC helicoidal que permite una mayor velocidad de adquisición con mucha menos dosis radiactiva.

Las cámaras gamma se han venido mejorando desde su creación en el año 1958,

tradicionalmente han consistido en equipos de grandes dimensiones, con un peso de cientos de kilogramos y han estado asociados a complejos y voluminosos sistemas electrónicos. La tecnología de detección utilizada por estas cámaras está basada fundamentalmente en cristales de centelleo y tubos fotomultiplicadores. Hace

Page 67: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

42 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

relativamente poco tiempo han aparecido en el mercado las primeras cámaras gamma de reducidas dimensiones, también llamadas minicámaras gamma. El objetivo de éstas es cubrir una zona del diagnóstico donde pueden ofrecer una elevada calidad de imagen, respecto a las cámaras grandes, adicionando a ello la ventaja de ser equipos menos costosos y en ocasiones portátiles. Se vislumbran nuevos campos de aplicación para las minicámaras, que están prácticamente vedados a los grandes equipos, como puede ser si utilización intraoperatoria. En algunas minicámaras gamma se ha utilizado una nueva tecnología de detección basada en semiconductor de Teluro de Cadmio con impurezas de Zinc (CdZnTe) como por ejemplo, Anzai Medical o TeraRecon.

En los años 80 se generalizaron otras dos nuevas técnicas de imagen: la imagen

por resonancia magnética nuclear (RMN), más conocida en la actualidad como imagen por resonancia magnética o por sus siglas en inglés, MRI y la tomografía por emisión de positrones o PET. Esta última modalidad se ha consolidado como la más prometedora de las técnicas de Imagen Nuclear que en base al empleo de emisores de positrones permiten el uso de átomos de amplia biodistribución (C, O, N, Glucosa…). De este modo se pueden explorar aspectos bioquímicos y moleculares del órgano o la patología en estudio.

La Imagen Médica es uno de los campos de la Medicina que más rápido está

evolucionado, impulsada por los avances en Física Nuclear Experimental y el aumento exponencial en las capacidades de los ordenadores que han permitido mejoras como la exploración helicoidal, que reduce el tiempo de exploración y la dosis recibida por los pacientes a una fracción del necesario en los escáneres TC de hace tan sólo un lustro. Asimismo, se extiende el uso de la multimodalidad, es decir, la combinación de la información estructural detallada obtenida con TC o MRI con la información funcional obtenida mediante PET o SPECT permitiendo el corregistro y la fusión de imágenes.

2.2.3 Diagnóstico Mediante Imagen Nuclear. La Medicina Nuclear permite la obtención de imágenes mediante la detección de

la radiación emitida por fármacos marcados con emisores radiactivos desde el interior del paciente. Por tanto, con esta definición el tradicional TC de Rayos X y la imagen por resonancia magnética, aunque basados en principios y desarrollos de Física Nuclear, no entran en la categoría de Imagen Nuclear. En Imagen Nuclear se emplean trazadores que son sustancias radiactivas que muestran las rutas metabólicas del organismo. La Imagen Nuclear es un excelente medio diagnóstico porque, a diferencia de otras modalidades de Imagen Médica como el TC de Rayos X y la resonancia magnética, revela no sólo la anatomía o estructura de un órgano, sino también aspectos funcionales del mismo. Esta información funcional permite diagnosticar algunas enfermedades (cáncer, infarto de miocardio, perfusión cerebral…) entre una gran diversidad, mucho antes que otras modalidades de Imagen Médica, ya que se puede apreciar el trastorno antes de que haya dado lugar a alteraciones de la estructura. Las imágenes de apoyo al diagnóstico en Medicina Nuclear aportan información funcional y bioquímica de ahí su importancia que radica en que dicha información no la pueden aportar las técnicas de imagen anatómica o estructural. Existen numerosas enfermedades en que los cambios moleculares y funcionales aparecen antes que los cambios estructurales [Royal, 1992] que pueden llegar a ser incluso inexistentes. Por lo que las imágenes funcionales y moleculares en Medicina Nuclear tienen unas indicaciones precisas, por lo que deben considerarse siempre complementarias a las técnicas de imagen estructural. Se puede

Page 68: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 43 _______________________________________________________________________

ver la diferencia entre imagen funcional e imagen estructural con el siguiente ejemplo: la imagen estructural (MRI o TC) confirma que se tiene cerebro pero con la imagen funcional (PET o SPECT) muestra si se esta usando o no.

En Imagen Nuclear, dado que se introduce material radiactivo en el paciente, la cantidad de radiación que se puede usar para obtener la imagen está limitada a valores tales que la exposición total y dosis absorbida por el paciente durante el procedimiento sea aproximadamente comparable a la que recibiría durante un TC de Rayos X. Si cada elemento de imagen (píxel o picture element) de un TC de Rayos X es el resultado de la interacción de cientos de millones de fotones de Rayos X, en el caso de la imagen nuclear es el resultado típicamente de la detección de cien o menos fotones γ. Por ello, el rango dinámico, la relación señal/ruido y la calidad de la imagen es en general peor que en la Imagen Médica convencional.

Las modalidades de Imagen Nuclear basadas en la detección de un fotón único han de vencer varias dificultades, de todas ellas la más importante se debe a que los fotones γ se emiten en todas direcciones. Con el fin de obtener imágenes nítidas es preciso hacer uso de colimadores que dejen pasar sólo los fotones que llegan en la dirección adecuada. Los colimadores reducen mucho la sensibilidad de las técnicas de fotón único y por tanto limitan el número de fotones útiles para la creación de imagen. Esto va unido a que los fotones son relativamente de baja energía, por lo que sufren atenuación y dispersión en gran medida, tanto al atravesar zonas más densas del paciente como en el propio colimador. Todos estos efectos deterioran la calidad de la imagen penalizando el número de fotones detectables.

En Imagen Nuclear cabe distinguir dos modalidades principales: SPECT y PET. En la primera, se utilizan isótopos emisores de Rayos γ que se detectan por medio de una gamma cámara exterior al paciente. Su versión proyectiva, con obtención de imágenes en dos dimensiones igual que las radiografías de Rayos X convencionales, se denomina gammagrafía, en su versión tomográfica hablamos de SPECT. Estas técnicas requieren un equipo relativamente sencillo y los isótopos más comúnmente empleados pueden verse en la Tabla 2.2, aunque de entre todos ellos cabe destacar el 99mTc, que se puede obtener con facilidad por medio de un generador de radioisótopos. La energía de los rayos γ involucrados no es muy distinta de la de los Rayos X y por tanto los equipos para obtener imágenes a estas energías no se suelen diferenciar mucho de los habituales escáneres de Rayos X. Por todo esto, gammagrafía y SPECT han sido las técnicas de Imagen Nuclear más extendidas y conocidas hasta hace pocos años. Según datos del Instituto Nacional de Estadística (INE) del año 2005, en España en el año 2003, había más de 200 gammacámaras, por 300 equipos de MRI y 550 escáneres de Rayos X. La utilidad de la técnica SPECT se centra hoy en día sobre todo en las áreas de la oncología, cardiología y neurología.

La segunda modalidad principal de Imagen Nuclear es la PET (tomografía por emisión de positrones). De entre los diferentes radionúclidos emisores de positrones empleados, es de especial importancia el 18F, dado que su vida media (109 minutos) permite su traslado desde los centros de producción (ciclotrón) hasta los Servicios de Medicina Nuclear. Tras la desintegración del 18F, en el equipo PET se detectan los dos fotones emitidos simultáneamente lo que permite determinar la distribución de FDG, en este caso en el cerebro del paciente, e identificar las zonas con mayor metabolismo. Los fotones se emiten aproximadamente de forma colineal a partir de la aniquilación de un

Page 69: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

44 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

positrón con un electrón. En general el positrón se aniquila en una posición distinta de la que se generó debido a su desplazamiento en el tejido lo que introduce un “emborronamiento” intrínseco de la imagen PET. La característica diferencial del PET es que utiliza radioisótopos emisores β+ que precisan de un ciclotrón para ser generados. El desarrollo en las tecnologías de aceleradores, con la aparición de los ciclotrones para producción de radioisótopos acoplados a módulos de síntesis de fármacos está permitiendo la popularización de esta técnica. Los isótopos de mayor interés en esta modalidad se exponen en la Tabla 2.2.

La Imagen Nuclear mediante PET requiere de la síntesis de radioisótopos artificiales, de vida media efectiva corta dentro del organismo, algunas horas como máximo, con el fin de poder adquirir la imagen en un intervalo corto de tiempo y minimizar la dosis recibida por el paciente. Por su vida media corta, la utilización de 11C, 13N y 15O se precisa de un ciclotrón en la propia unidad de Imagen Nuclear. Las bases físicas de su empleo residen en la reacción , que se conoce como aniquilación positrón-electrón. Consiste en la conversión total de la masa de un

γγ +→+ −+ eeelectrón

y un positrón en energía, y es la forma más observada de aniquilación partícula-antipartícula. Puesto que la aniquilación de pares es un proceso fruto de la interacción electromagnética la energía siempre se emitirá en forma de rayos gamma. Si las partículas se mueven a velocidades mucho menores que la de la luz o se encuentran en reposo, se producirán 2 fotones emitidos en la misma dirección pero con sentidos opuestos, cada uno con una energía de 0.511 MeV, lo que coincide con las masas en reposo del electrón y del positrón. Normalmente ambas partículas formarán previamente un estado ligado conocido como positronio el cual es inestable y termina siempre con la aniquilación. La detección simultánea de dos fotones en los detectores que rodean al paciente indica, sin necesidad de colimación, que se ha producido una desintegración del radioisótopo situado en la línea que une ambos detectores.

2.2.4 SPECT vs PET. La sensibilidad de los detectores PET es en general, superior a la de los

detectores SPECT. En cambio, los equipos son mucho más complejos y caros, ya que sus detectores van agrupados en parejas o anillos y requieren de una electrónica de coincidencia. Debido a que el positrón no se aniquila en el mismo punto en donde se produce la desintegración del radionucleido sino a una cierta distancia (alcance finito del positrón, o vuelo del positrón), la imagen PET presenta un degradación en su calidad y, en el mejor de los casos podemos reconstruir la posición original en la que se ha producido el par de fotones γ, que no necesariamente coincide con la posición en donde se ha producido la desintegración del radionucleido. En la Tabla 2.2 se observa que para el caso de los fármacos de SPECT, se indica la energía del fotón, y en el de PET la energía promedio del electrón emitido. A mayor energía del electrón, mayor es el rango medio del positrón antes de desintegrarse y mayor también la degradación intrínseca de la imagen PET. Además, en el caso de PET, los fotones de aniquilación poseen 511 keV de energía, bastante mayor a las energías de los fotones de SPECT, lo que requiere de mayor espesor de material en el detector. Esto también introduce una degradación en la imagen ligada al rango del fotón en el detector y su atenuación en el material detector.

Page 70: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 45 _______________________________________________________________________

Tabla 2.2 Algunos radioisótopos utilizados en PET y SPECT.

Isótopo Vida Media (min.) Uso principal Tipo de emisión y Energía (keV)

18F 109.8 PET β+, 635 11C 20.4 PET β+, 960 13N 10.0 PET β+, 1190 15O 2.1 PET β+, 1720

99mTc 360.6 SPECT γ, 140 123I 780.0 SPECT γ, 159

67Ga 4674.0 SPECT γ, 92 201Tl 4320.0 SPECT γ, 167, 135

Otra ventaja de la técnica PET es que los isótopos que se pueden utilizar tienen

gran interés biológico (véase Tabla 2.2). Actualmente, casi cualquier molécula orgánica puede ser sintetizada con carbono, oxígeno o nitrógeno radiactivos. Sin embargo, el radionucleido más utilizado en PET es el 18F, dada su mayor vida media que facilita la síntesis de fármacos complejos y su transporte y distribución en un radio de varios cientos de kilómetros. El Flúor puede sustituir al hidrógeno en muchas moléculas orgánicas. Mención especial merece la [18F]-flúor-desoxiglucosa o FDG, con una funcionalidad biológica similar a la de la glucosa convencional, alimento de las células. Una vez en el interior de las células, el 18F se acumula en ellas. Las células con metabolismo acelerado, por ejemplo células cancerígenas en división descontrolada, músculo cardíaco en continua contracción y regiones más activas del cerebro (principal órgano consumidor de glucosa) acumulan más 18F que su entorno y dan una señal positiva en la imagen PET. Como en la imagen PET se pueden apreciar unos pocos picomoles de trazador y dada la elevada especificidad de los radiofármacos en su fijación a nivel molecular y celular, esta técnica posibilita el diagnóstico y detección precoz de lesiones cancerosas, mucho antes de que se aprecien cambios en la estructura de los órganos involucrados. Una aplicación de PET importante es la determinación de la efectividad de los tratamientos por radioterapia o quimioterapia en tumores. Las células destruidas por el tratamiento dejan de fijar FDG, y por tanto aparecen como no activas en la imagen PET, estos cambios en algunas situaciones pueden manifestarse apenas días (u horas) después de la aplicación del tratamiento y mucho antes de que se puedan reflejar modificaciones en la estructura y tamaño del tumor.

2.2.5 Aplicaciones de la Medicina Nuclear.

Se puede definir la Medicina Nuclear como un área especializada de la Medicina, que utiliza cantidades muy pequeñas de sustancias radioactivas o radiofármacos, para examinar la función y estructura de un órgano, ayudando tanto a diagnosticar como a tratar diferentes patologías. Debido a que los Rayos X atraviesan tejidos blandos con densidades similares como intestinos, músculos, vasos sanguíneos, etc., es difícil detectarlos con Rayos X convencionales, salvo que se utilice un agente de contraste para facilitar la visualización del tejido. En cambio el método de Imágenes Nucleares permite la visualización de la estructura y la función de órganos y tejidos. El grado de absorción o “captación” del radiofármaco por un órgano o tejido específico puede indicar el nivel de funcionalidad del órgano o tejido en estudio. De forma general los

Page 71: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

46 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

Rayos X de diagnóstico se usan principalmente para estudiar la anatomía, mientras que las Imágenes Nucleares se utilizan para estudiar la función. En cada tipo de exploración se emplea una determinada tecnología, unos determinados radionúclidos y unos determinados procedimientos en base a las características farmacológicas y la biodistribución de los mismos. Existen diferentes tipos de radionúclidos, incluidas ciertas formas de elementos como Tecnecio, Talio, Galio, Iodo y Xenón. El tipo de radionúclido que debe usarse en cada exploración depende a su vez de la vía funcional que se desea analizar (cinética del radiofármaco en el “órgano diana”) (véase Tabla 2.2).

Un radiofármaco es un compuesto químico que contiene isótopos emisores de radiación, habitualmente rayos gamma. Una vez que dicho compuesto se ha extendido de forma natural por los tejidos del cuerpo del paciente, se emitirá la radiación que será captada por un detector, aportando información sobre la región donde se ha acumulado el citado radiofármaco en el organismo. El tipo de detector más común es una cámara de detección de Rayos gamma. Cuando la gammacámara detecta la radiación, se emiten señales digitales que se almacenan en una computadora. Las áreas de mayor intensidad, denominadas "zonas calientes", indican las zonas de acumulación de grandes cantidades de trazador. Las áreas con menor intensidad, o "zonas frías", indican una menor concentración de radiofármaco.

Para la generación de Imágenes en Medicina Nuclear es necesaria la combinación de disciplinas tan diversas como Química, Física, Matemáticas, Tecnología Informática y Medicina. La utilización de un escáner de Medicina Nuclear, conlleva tres fases: administración del trazador o radionúclido, adquisición de imágenes e interpretación de las mismas. La cantidad de tiempo que pasa entre la administración del trazador y la toma de las imágenes puede variar desde unos cuantos minutos hasta varios días, dependiendo de la cinética del radiofármaco en el órgano que va a explorarse. El tiempo requerido para obtener las imágenes también varía desde minutos hasta horas. Someramente, entre los exámenes más comunes por imágenes en Medicina Nuclear (a los que nos referiremos de modo genérico como gammagrafía con independencia de la obtención de imagen planar o tomográfica), debemos destacar:

• Gammagrafía Renal: Analiza el funcionamiento de los riñones y detecta cualquier anomalía, como tumores u obstrucción tanto del flujo sanguíneo como del flujo urinario.

• Estudio de tiroides: Mide la estructura y función de la glándula tiroides (cáncer, nódulos, hipo- o hipertiroidismo…).

• Gammagrafía Ósea: Examina los huesos por fracturas, infecciones, artritis, artrosis y tumores, o para determinar la causa del dolor o la inflamación de los huesos.

• Gammagrafía Cardiaca: se utiliza para identificar el flujo sanguíneo anormal al corazón, para determinar la extensión de los daños sufridos por el músculo cardiaco después de un infarto (exploración de perfusión miocárdica) y para evaluar la función de bomba del corazón (ventriculografía).

• Gammagrafía Cerebral: con especial aplicación en el estudio de la epilepsia, demencia, accidentes cerebrovasculares, tumores.

• Linfogammagrafía: para el diagnóstico de linfedema o la localización de ganglios linfáticos potencialmente afectados en pacientes con cáncer de mama o melanoma.

Page 72: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 47 _______________________________________________________________________

• Gammagrafía Pulmonar: diagnóstico de la enfermedad tromboembólica.

Entre las distintas terapias de Medicina Nuclear, podemos citar:

• Terapia de yodo radiactivo (I-131) utilizada para tratar bien el hipertiroidismo, o la ablación de la glándula residual en el cáncer de tiroides.

• Anticuerpos radiactivos utilizados para tratar determinadas formas de linfoma. • Fósforo radioactivo (P-32) utilizado para tratar la Policitemia vera (enfermedad

sanguínea). • Materiales radioactivos utilizados para tratar metástasis óseas dolorosas.

2.2.6 Realización de la Exploración. A efectos divulgativos el radiofármaco podría considerarse como un "contraste

radiactivo", esto es una sustancia que introducida en el organismo permite visualizar (por contraste) aspectos concretos del mismo. La emisión radiactiva (fotones) es registrada externamente por los equipos adecuados que trabajan conjuntamente con una computadora para medir la cantidad de eventos (o interacciones) de los fotones procedentes del organismo con el equipo detector. Los sistemas detectores pueden ser puntuales (sondas detectoras de pequeño tamaño empleadas habitualmente en campo quirúrgico); planares (proyecciones estáticas únicas o múltiples, instantáneas o secuenciales) o tomográficos (habitualmente giran alrededor del paciente adquiriendo imágenes desde distintos puntos de “vista” o adquisición).

La vía de administración del radiofármaco puede ser intravenosa, oral,

inhalatoria o directamente en el órgano de estudio. La incorporación del radiofármaco al mismo puede ser un proceso inmediato (adquisición desde el momento de la introducción en el organismo) o necesitar varios días (cinética de incorporación y eliminación). De este modo la duración de los procedimientos de diagnóstico por imágenes en Medicina Nuclear varía considerablemente según el tipo de examen, aunque de modo genérico suele tardar unos 20 minutos.

Otros estudios de Medicina Nuclear miden niveles de radioactividad en la sangre,

la orina o el aliento.

2.2.7 Los Equipos de Detección Empleados en Medicina Nuclear.

La mayor parte de los procedimientos de Medicina Nuclear se realizan utilizando una gammacámara, que no es más que un cristal sensible a la radiación (INa con impurezas de Tl) en la que la interacción de la misma produce una reacción electrónica (centello) que posteriormente es amplificada (tubos fotomultiplicadores). Esta superficie sensible y su electrónica acompañante se albergan en un estativo de blindaje y colimación pertinente. Su diseño puede ser bien el de un gran anillo o “rosco” en el que se introduce al paciente (similar a los sistemas TAC) o un brazo que suspende a la “cabeza” detectora sobre la camilla de exploración.

La instrumentación para la PET posee sistemáticamente un diseño en anillo.

Concéntricamente a su abertura se disponen diversos aros correspondientes a las

Page 73: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

48 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

unidades de detección por coincidencia que registran la interacción de los fotones de aniquilación procedentes del órgano en estudio.

En ambos casos una computadora colabora con la elaboración de imágenes a

partir de los datos obtenidos por la cámara o el escáner. Una sonda constituye un pequeño dispositivo manual similar a un micrófono que

puede detectar y medir la cantidad de trazador en un volumen pequeña del cuerpo.

2.2.8 Beneficios y Riesgos de la Imagen en Medicina Nuclear. A través del proceso natural de desintegración radioactiva, la pequeña cantidad

de radiofármaco en el cuerpo perderá su radioactividad con el paso del tiempo. Posiblemente se elimine del organismo mediante la orina o deposición durante las primeras horas o días posteriores a la exploración. La mayoría de los procedimientos de Medicina Nuclear son indoloros y excepcionalmente se asocian con molestias. Los efectos secundarios de los radiofármacos utilizados son insignificantes y no producen ningún tipo de reacción específica (habitualmente se introducen picomoles de molécula, inactiva a dichas cantidades desde el punto de vista farmacológico). Por todo ello se trata de una prueba sencilla y segura. En tanto a los beneficios, debemos destacar que la información proporcionada por los exámenes en Medicina Nuclear es única y frecuentemente inalcanzables mediante otros procedimientos de diagnóstico por imágenes. Para un cierto número de enfermedades, este tipo de exploraciones, proporcionan la información más útil, necesaria para realizar un diagnóstico o para determinar un tratamiento adecuado, en el caso de necesitarse alguno. Además de ser menos costosa y poder dar mayor información y más precisa que la cirugía exploratoria.

En cuanto a los riesgos, cabe destacar que debido a las pequeñas dosis de

radiación administradas, los procedimientos de diagnóstico tiene como resultado una baja exposición a la radiación, pero aceptable para los exámenes diagnósticos. Por lo tanto, el riesgo de radiación es muy bajo en comparación con los posibles beneficios, de hecho se lleva utilizando más de cinco décadas y no se conocen efectos adversos a largo plazo provocados por dicha exposición a bajas dosis.

2.2.9 Limitaciones de la Medicina Nuclear.

Las limitaciones más importantes que existen en Medicina Nuclear, es que se trata de procedimientos que pueden llevar un tiempo considerado. Los radiofármacos pueden tardar desde horas hasta días en acumularse en el área del cuerpo objeto de estudio y la adquisición de las imágenes puede llevar incluso varias horas, aunque existen nuevos equipos que pueden reducir considerablemente el tiempo del procedimiento. La resolución de las estructuras corporales utilizando Medicina Nuclear podría resultar menos clara que mediante otras técnicas de diagnóstico por imágenes, tales como TC o resonancia magnética nuclear. Sin embargo, estas exploraciones son más sensibles que otras técnicas para una variedad de indicaciones y la información funcional obtenida mediante los exámenes de Medicina Nuclear a menudo no se puede obtener mediante otras técnicas de diagnóstico por imágenes.

Page 74: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 49 _______________________________________________________________________

2.3 La Tomografía Computarizada de Emisión. La Tomografía Computarizada por Emisión se ha empleado ampliamente

durantes las tres últimas décadas, tanto en investigación biomédica como en consulta clínica. ECT produce una sucesión de planos de imágenes de las funciones fisiológicas, a diferencia de otros muchos métodos de obtención de imágenes médicas que obtienen una representación de imágenes correspondientes a estructuras anatómicas. De este modo, la obtención de imágenes tomográficas nos suministra in vivo, mapas tridimensionales funcionales. Este hecho es importante además ya que existen diversas enfermedades para las cuales los cambios moleculares y funcionales preceden a los cambios estructurales que pueden incluso llegar a ser inexistentes. Todo esto justifica el que las imágenes funcionales y moleculares en Medicina Nuclear deben considerarse como complementarias a las técnicas de imagen estructural.

2.3.1 Tomografía por Emisión de Positrones (PET).

Generalidades y Aspectos Históricos. Una de las técnicas más importantes para la adquisición de imágenes en

Medicina Nuclear es la Tomografía por Emisión de Positrones (PET). Consiste en el registro de imágenes de la distribución orgánica de moléculas marcadas con radioisótopos emisores de positrones. Estos radioisótopos son producidos en un ciclotrón y poseen un semiperiodo físico corto, por lo que obliga a una gran proximidad entre el ciclotrón productor y los sistemas de detección, llamados “cámaras de positrones”. El ciclotrón fue creado por Lawrence entre 1930 y 1936, pero fue años más tarde en 1955 cuando se instaló el primero en un centro médico, en el Hospital de Hammersmith Londres. En 1961 se crea la primera cámara de positrones por Robertson y Yamamoto, y en 1975 se aplican por primera vez algoritmos de reconstrucción de imágenes tomográficas. Con la creación del ciclotrón surge un gran interés por ciertos isótopos emisores de positrones para el estudio de fenómenos biológicos debido a la presencia natural de sus correspondientes elementos estables en moléculas orgánicas. Pero los cortos períodos de semidesintegración de dichos isótopos representaban una barrera para la tecnología de la época. Hay que esperar hasta la década de los 50 cuando aparecen los primeros estudios sobre la posibilidad que ofrecía la aniquilación de positrones para la obtención de imágenes médicas.

El impulso definitivo para el desarrollo de los tomógrafos PET, llega en los años 70 gracias a la aparición de escáner de tomografía computarizada de Rayos X o TC. Este nuevo equipo daría paso al inicio de una nueva etapa en la historia de la imagen médica, ya que a partir de entonces se podrían obtener imágenes tomográficas reales, calculadas matemáticamente a partir de conjuntos de proyecciones recogidas desde diferentes ángulos alrededor del paciente. Este hecho definió un nuevo período para la PET, ya que con la aparición del primer escáner PET desarrollado por Phelps y Hoffman [Phelps, 1976], sirve de diseño base para lo que sería el primer tomógrafo PET de uso humano (ECAT 1974). A éste se le fueron añadiendo importantes mejoras como la sustitución de la geometría hexagonal y octogonal de los detectores por otras más eficientes de diseño circular o la introducción de cristales de Bigermanato de Bismuto (BGO) para sustituir el INa, la aparición del bloque detector o más recientemente el descubrimiento de los cristales de Ortosilicato de Lutecio (LSO) y Ortosilicato de Gadolino (GSO) [Ruiz, 2002].

Page 75: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

50 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

Aspectos Técnicos. Tanto los ciclotrones y los sistemas de detección (tomógrafos PET) se han

optimizado considerablemente, pasando de un uso exclusivo para la investigación a un uso clínico rutinario [Carreras, 1995]. La amplia difusión con aplicaciones clínicas de este procedimiento se debe al desarrollo de la tecnología afín, con la mejora en la resolución de imagen y la creación de sistemas de detectores de coincidencia sobre gammacámaras convencionales, lo que supone una mayor accesibilidad para su empleo en Servicios de Medicina Nuclear tradicionales, todo ello junto a la posibilidad de marcar radiactivamente sustratos metabólicos con átomos biológicamente ubicados como Carbono, Oxígeno, Nitrógeno, etc. lo que permite la obtención de información fisiopatológica directa.

El equipo para la realización de la PET está compuesto por el Ciclotrón [Newiger, 1999], que es la unidad de producción de radionúclidos emisores de positrones. Ello se consigue mediante el bombardeo de una sustancia blanco con partículas subatómicas convenientemente aceleradas: protones (núcleos de hidrógeno) y deuterones. El blanco puede llenarse de un líquido o un gas, y el material elegido condicionará el tipo de reacción nuclear y el radionúclido que se obtendrá. El ciclotrón debe estar blindado debido a la alta energía de los radionúclidos que se producen. Este blindaje lo puede llevar el propio ciclotrón, o lo puede tener la habitación donde esté ubicado. Los positrones se forman a partir de la desintegración de núcleos con gran número de protones en relación al de neutrones, emitiéndose un positrón y un neutrino. El positrón arrancado artificialmente del núcleo, va perdiendo energía progresiva conforme atraviesa la “nube de electrones”, hasta que uno de ellos lo capta, produciéndose el fenómeno de aniquilación, que consiste en la conversión de la masa de ambos en dos fotones de igual dirección y sentido opuestos, con una energía cada uno de ellos de 511 keV.

Los radionúclidos producidos en un ciclotrón, tienen un corto período de

semidesintegración, por lo que se deben marcar los radiofármacos en laboratorios de radiofarmacia que se sitúa junto a dichos ciclotrones. Los radionúclidos más habituales empleados en tomografía por emisión de positrones, son 11C, 13N, 15O y 18F. De todos ellos el que presenta un período de semidesintegración y características físicas y químicas más importantes es el radionúclido 18F. Los radiofármacos marcados con él pueden ser distribuidos a centros en los que solo dispongan del tomógrafo PET, ya que el semiperiodo de desintegración es de 110 minutos, lo cual permite su transporte siempre que la distancia que separan a unos de otros sea relativamente pequeña.

Unidad de Procesamiento Radioquímico. Una vez obtenido el radionúclido debe ligarse a un compuesto

químico/bioquímico determinado que sea adecuado para la administración al paciente. Este proceso de marcaje de la sustancia metabólicamente activa con el radionúclido emisor de positrones se lleva a cabo en los módulos de síntesis. Estos son procedimientos propios de Radiofarmacia. Todo el proceso viene limitado por el tiempo de desintegración (semiperiodo) del radionúclido, que condiciona el intervalo desde su producción hasta la administración al paciente. Este intervalo no suele sobrepasar las dos horas. Debido a la corta vida media de los radionúclidos emisores que se emplean y las altas energías de los isótopos, la unidad de procesamiento radioquímica habitualmente realiza todas las tareas de forma automática (véase Figura 2.2).

Page 76: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 51 _______________________________________________________________________

(http://www.fgum.es/cimes/radiofarmacos.html)

Figura 2.2 Módulo de síntesis de Radiofármacos.

Detectores de Radiación. El sistema “lector” para la detección de radiación γ emitida por el radiofármaco

introducido en el paciente, que fundamentalmente procede de la biodistribución del mismo en los distintos órganos explorados en Imagen Nuclear, está formado habitualmente por fotomultiplicadores combinados con cristales centelleadores o centelleantes (véase Figura 2.3). En el centelleador, los rayos γ depositan su energía hasta ser absorbidos por completo en el cristal o bien hasta que lo atraviesan y abandonan, cediendo parte de su energía al cristal. La energía cedida por los fotones de la radiación γ al cristal se transforma en luz visible, en una cantidad aproximadamente proporcional a dicha energía cedida. La radiación visible generada es detectada por medio de un fotomultiplicador que transforma los pulsos de luz en una señal eléctrica de amplitud suficiente para ser procesada electrónicamente. Los materiales centelleadores empleados suelen ser cristales inorgánicos.

Figura 2.3 Izquierda, fotomultiplicador planar sensible a la posición, utilizado en PET y en gamma-cámaras. Derecha, cristales de LSO cortados antes de ensamblarlos en una matriz para formar una cabeza de un detector para PET.

La necesidad de avanzar en el estado del arte de los experimentos de Física Nuclear ha hecho evolucionar continuamente la tecnología de centelleadores y fotomultiplicadores. Por todo ello los avances en los dispositivos experimentales requeridos e impulsados por las colaboraciones de Física Nuclear Experimental tienen aplicación frecuente y casi inmediata en Imagen Nuclear. Cabe mencionar en este sentido los nuevos materiales centelleadores que sustituyen con ventaja a los tradicionales. Por ejemplo, los cristales de yoduro de Sodio o Cesio con impurezas de Talio (NaI(Tl) o CsI(Tl)) utilizados en SPECT o gammagrafía convencional,

Page 77: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

52 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

actualmente están siendo sustituidos ventajosamente por bromuro de lantano con impurezas de cerio (BrLa(Ce)), que presenta ventajas de resolución en energía. Y el bismuto-germanato (BGO) más comúnmente empleado en PET es ahora sustituido por ortosilicatos de lantano (LSO) que presenta un mayor rendimiento en la conversión de energía γ en radiación visible. En la práctica se emplean dos tipos de cámaras. Cámaras diseñadas específicamente para detección de positrones, denominadas coloquialmente “PET-dedicadas”, y gammacámaras convencionales dotadas de unas modificaciones técnicas, principalmente el cristal detector y la electrónica capaz de discriminar la coincidencia, se denominas “Cámaras de Coincidencia”. Éstas discriminan fotones procedentes del órgano diana, que se reciben de forma coincidente en una geometría precisa opuestos 180º (véase Figura 2.4). También se ha probado el uso de fotodiodos de avalancha (APD), fotodiodos PIN o detectores multipixelados de silicio en sustitución del fotomultiplicador, si bien estas tecnologías alternativas casi sólo se emplean de momento en imagen preclínica.

Si bien durante mucho tiempo eran los experimentos en Física Nuclear los que iban por delante en cuanto a prueba y desarrollo de nuevos avances en detección de rayos γ, la utilización creciente de la Imagen Nuclear y su mayor peso económico hace que cada vez más la tendencia se invierta y muchos desarrollos se realizan primero para Imagen Nuclear y más tarde encuentran su aplicación también en experimentos de Física Nuclear. En los últimos años la búsqueda de centelleadores ultrarápidos con el fin de obtener la información de tiempo de vuelo (TOF) de los dos fotones en los escáneres PET ha impulsado el desarrollo de los centelleadores de bromuro de lantano extradopados en cerio, que pueden convertirse en los centelleadores más rápidos disponibles. Otro punto en común entre Física Nuclear e Imagen Nuclear son las herramientas de simulación de la interacción entre los fotones γ y la materia, desarrolladas para optimizar el diseño de detectores y que pueden aprovecharse tanto para los experimentos de Física Nuclear Experimental como para Imagen Nuclear y para el cálculo y, como veremos en las siguientes secciones, planificación de tratamientos de radioterapia, lo cual es una motivación adicional muy importante tanto para los desarrolladores de estas herramientas como para los usuarios que las ponen a prueba.

Ordenador. Se necesita un ordenador con capacidad para manejar datos de más de 140 MB

por paciente. Se emplea como almacén de datos, reconstrucción de imágenes, visualización de exploración y análisis de la misma: visual, semicuantitativo, cuantitativo, para elaborar finalmente los informes.

Fundamentos Radiofarmacológicos. La PET nos permite monitorizar la evolución temporal de la distribución

regional de la concentración de un trazador tras la administración de un compuesto marcado. Para su aplicación in vivo, las características ideales que debe presentar dicho radiofármaco PET son [Bailey, 2003]:

1. Fácil penetración en el tejido diana. 2. Baja absorción inespecífica. 3. Elevada afinidad su sitio de unión.

Page 78: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 53 _______________________________________________________________________

4. Disociación suficientemente lenta del lugar de unión como para detectar dicha unión tras la eliminación del compuesto unido inespecíficamente y del presente en el compartimento vascular.

5. Metabolización escasa o nula para facilitar su modelización matemática.

La PET permite el estudio, visualización y cuantificación de múltiples procesos bioquímicos y fisiopatológicos tales como el metabolismo energético, la tasa de síntesis proteica, la proliferación celular, la actividad enzimática, la tasa de oxígeno, el metabolismo β-oxidativo, el pH intracelular, el flujo sanguíneo, la transmisión de señales o incluso la expresión génica y su regulación. Además mediante PET se puede analizar la densidad de receptores de una zona concreta, la cinética de la unión receptor ligando o enzima-sustrato, la afinidad de un compuesto por un receptor determinado, o el efecto de un fármaco en cualquiera de los procesos fisiológicos previamente referidos. Pero a pesar de esta gran diversidad los radiofármacos PET se pueden clasificar en tres grupos:

1. Sustancias de vías metabólicas. 2. Ligandos que interactúan selectivamente en un proceso de neurotransmisión. 3. Radiofármacos para la medida del flujo sanguíneo regional.

(http://nuclear.fis.ucm.es/webgrupo/Fundamentos_teoricos_dispositivo_experimental_PET_html_ceada2d.png)

Figura 2.4 Tomógrafo PET.

Fundamentos Bioquímicos. Un radiofármaco muy empleado es el 18F-Flúor-2-deoxi-D-Glucosa (18F-FDG)

[Knuuti, 1992] esto se debe a la rapidez de su síntesis, las características metabólicas de la molécula en sí mismas y a su gran aplicabilidad. Se trata de un análogo estructural de la D-Glucosa, con ausencia de un grupo OH en la posición 2. A pesar de esta diferencia

Page 79: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

54 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

estructural es transportada al interior de la célula, al igual que la glucosa, por receptores de membrana de dos tipos:

• Transportadores Na+/Glucosa (SGLT1 y SGLT2), que transportan contra gradiente de concentración. Los SGLT1 se encuentran mayoritariamente en el intestino delgado y túbulo contorneado proximal de la nefrona, y los SGLT2 se localizan principalmente en el túbulo contorneado distal. Ambos se expresan incluso con baja concentración molar de glucosa.

• Aquéllos que facilitan el paso a favor de gradiente (difusión pasiva facilitada), son los denominados Glut1 al Glut5. Se componen de 12 elementos transmembrana. Para el caso de que el lugar de fijación de la glucosa estuviera ocupado por algún otro azúcar, cambia la configuración de la proteína, no permitiendo el paso de más glucosa.

Análisis de las Imágenes. Generalmente la adquisición de imágenes tiene lugar a los 45-60 minutos de la

inyección intravenosa de radiofármaco, que es el tiempo necesario para que todo el proceso metabólico tenga lugar. Una vez adquiridas y procesadas las imágenes obtenidas de la biodistribución de la 18F-FDG, se pueden evaluar de dos formas, bien mediante análisis visual, bien mediante análisis semicuantitativo. El análisis visual, es la forma más usual en la práctica clínica. Se identifican las zonas de aumento de acúmulo de FDG. Para el análisis semicuantitativo, tras el proceso de adquisición y reconstrucción de un estudio PET se obtiene unas imágenes en las que el valor de cada píxel de la matriz imagen es proporcional a la concentración de actividad del radiofármaco en la zona correspondiente del paciente estudiado. Esto es posible si el proceso de adquisición y reconstrucción es adecuado, o sea, incluye correcciones tales como la normalización del equipo detector, la desintegración radiactiva del radionúclido estudiado, la atenuación del paciente, la radiación dispersa, las coincidencias accidentales, el tiempo muerto, etc. El valor de cada píxel de la imagen puede ser leído o medido en una escala que se corresponde a concentración de actividad (Bq/cm3). De esta forma la cuantificación puede estar basada en los índices que relacionan la actividad de la lesión con la dosis inyectada y el peso corporal (del inglés, “Standarized Uptake Value”, SUV; “Dose Uptake Ratio”, DAR), o con la actividad en otra zona de referencia.

El SUV es el índice semicuantitativo más utilizado, inicialmente descrito por Haberkorn [Haberkorn, 1991]. En los valores del SUV intervienen numerosos factores, por lo que cada centro establece sus valores normales, difícilmente comparables si no se unifican los criterios. En el SUV de los acúmulos patológicos influye la resolución espacial de la cámara PET, por lo que el efecto de volumen parcial disminuye los valores de captación en lesiones inferiores a 10-15 mm de diámetro. Biológicamente, el SUV depende de la cantidad de grasa como parte del peso corporal, y el comportamiento de la grasa corporal apenas pertenece al volumen de distribución de la FDG. Otro factor que influye son los niveles de glucemia, ya que la hiperglucemia baja la captación de FDG en lesiones malignas, pero no en procesos inflamatorios. Además la activación de la FDG en los tejidos también se ve influenciada por el intervalo entre la inyección del trazador y la adquisición de las imágenes, de forma que en los tejidos normales disminuirá conforme pase el tiempo aumentando así el contraste de las lesiones malignas, por lo que el SUV de las mismas también aumenta [Zhuang, 2001].

Page 80: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 55 _______________________________________________________________________

Con el cálculo del valor del SUV de una determinada lesión obtenemos ayuda para la valoración del grado de su malignidad o en la discriminación de lesiones malignas de benignas. En general cuanto mayor es el valor de SUV mayor probabilidad de malignidad en una región concreta, el punto de inflexión entre benignidad y malignidad se haya en 2.5 [Duhaylongsod, 1995], auque existen circunstancias en que estos valores no se cumplen, ya que la 18F-FDG se capta también por macrófagos, tejidos de granulación y células inflamatorias, lo que genera dificultad para distinguir entre tejido tumoral y reactivo inflamatorio. Esto ha llevado a numerosos grupos de trabajo [Graete, 2003] a considerar las cifras absolutos de SUV estimado como una herramienta siempre complementaria al análisis visual de las imágenes. Se han descrito valores de SUV para lesiones consideradas como falsamente positivas tan amplios como desde 0.95 hasta 9.2 y por el contrario valores de adenopatías negativas con un SUV de 2.8. Para ganar especificidad deben de utilizase algoritmos de procesamiento semicuantitativo y un conocimiento preciso de los patrones de distribución normal y patológica de la 18F-FDG.

2.3.2 Tomografía por Emisión de Fotón Único (SPECT).

Tomógrafo SPECT. La Tomografía por Emisión de un Solo Fotón (SPECT) es un caso particular de

ECT, esta técnica de obtención de imágenes se desarrolló en la década de los años 60, pero no se comenzó a emplear ampliamente en clínica hasta los años 80. Se trata de una modalidad no invasiva tridimensional de imágenes funcionales que provee información clínica respecto a procesos biológicos y fisiológicos de pacientes. Esta técnica diagnóstica, permite visualizar la distribución tridimensional de un radiofármaco localizado en un volumen u órgano de interés, para nuestro caso el cerebro. Mediante la SPECT cerebral obtenemos imágenes ("cortes o secciones"), en cualquier plano espacial, que representan según el radiofármaco empleado, la perfusión regional, la concentración de neuroreceptores o la actividad metabólica de una lesión conocida o sospechada. Para adquirir las distintas proyecciones de fotones γ, se hace rotar la gammacámara alrededor del paciente (véase Figura 2.5), la reconstrucción de estas es similar al TC.

Un escáner SPECT usa una cámara Anger o gammacámara, cuyo diseño fue

realizado por Anger en 1958 [Anger, 1958], la cual permite la detección de fotones γ emitidos por un cuerpo en una determinada dirección geométrica precisa en relación a la superficie del cristal detector. Así se pueden obtener imágenes en dos dimensiones que representan la proyección de la distribución tridimensional de un trazador radiactivo en el organismo (imágenes habitualmente denominadas gammagrafías). Las gammacámaras están montadas sobre un dispositivo que permite el giro alrededor de la distribución de actividad. Los tomógrafos están formados por una camilla en la que se coloca el paciente, 2 ó 3 cabezales giratorios, con el colimador y el detector, y un ordenador para el procesador de los datos. En la Figura 2.6 se muestra un tomógrafo SPECT con 3 cabezales giratorios, los cuales están recubiertos de un material de alta densidad para aislarlos de la radiación externa. Para resolver el problema de la superposición de estructuras en las imágenes de proyección, se adquieren un número suficiente de proyecciones por rotaciones sucesivas, de forma equiespaciada y constante, de los cabezales de la gammacámara alrededor de un sujeto.

Page 81: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

56 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

Figura 2.5 Esquema de la detección de fotones γ emitidos por un cuerpo, en una

gammacámara.

Figura 2.6 Gammacámara PickerPrism 3000, de tres cabezales giratorios.

Formación de la Proyecciones. El sistema detector está constituido por un cristal de centelleo acoplado a una

serie de fotomultiplicadores mediante una fibra óptica. Este cristal es una lámina de aproximadamente 1 cm de espesor de sección circular o rectangular. Suelen ser de NaI con impurezas de Tl que están unidos mediante una guía de luz hasta los fotomultiplicadores, que están colocados en simetría hexagonal cubriendo toda la superficie. Los cristales de centelleo son capaces de emitir, en forma de luz la energía depositada por el fotón en su interacción con el cristal. Siendo la luz emitida proporcional a la energía depositada en el material (propiedad de luminiscencia). Las

Page 82: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 57 _______________________________________________________________________

interacciones entre los fotones γ y el cristal son debidas al efecto fotoeléctrico y efecto Compton. Dicha transmisión de energía permiten la excitación de los átomos de Tl próximos al núcleo, que al volver al estado fundamental, emiten fotones visibles, próximos al ultravioleta. Los fotones luminosos son conducidos por la fibra óptica, hasta los fotomultiplicadores, los cuales permiten transformar la energía luminosa en corriente eléctrica. Cuando el fotón luminoso alcanza el fotocátodo de un tubo fotomultiplicador, arranca electrones que son acelerados por un campo eléctrico antes de interaccionar con un dínodo. Los electrones arrancados y acelerados de dínodo en dínodo, amplifican la corriente en la salida del fotomultiplicador. La amplitud de la señal será mayor para los fotomultiplicadores más cercanos al punto de interacción fotón-cristal. La electrónica asociada a los diferentes fotomultiplicadores permite localizar espacialmente el fotón incidente y cuantificar su energía.

Para el proceso de detección debemos tener en cuenta: • La eficiencia del detector. No todos los fotones que inciden en el detector son

detectados, algunos de los cuales no producirán señal al no interaccionar con el cristal de centelleo.

• El tiempo muerto de detección. Después de realizar una detección el detector tiene un tiempo muero durante el cual es inoperante, éste suele estar comprendido entre 1 μs y 5 μs.

• La localización del detector. Debido al transporte de la luz en el cristal, la posición en la que se ha producido la interacción no queda perfectamente determinada.

La impresión en la energía depositada determina la resolución en energía del

detector. El valor común de la resolución energética de los detectores de centelleo usados en las gammacámaras está en torno al 10% para isótopos con fotopicos de energía entre los 100 y los 200 keV. Así se elige lo que se denomina la ventana de adquisición, es decir, el intervalo de energía de los fotones aceptados para construir la imagen. Lo cual significa que sólo se puede discriminar hasta un cierto límite entre los fotones que no han sufrido dispersión, fotones primarios y los que provienen de una dispersión y que por tanto, han sufrido pérdida de energía. Para recoger una cantidad significativa de fotones primarios el ancho de la mencionada ventana deberá estar entre 15-20% de la energía del fotopico, lo que implica que una parte importante de los fotones detectados dentro de a ventana del fotopico han sufrido dispersión. Los fotones detectados se acumulan en una matriz que representa el plano de detección dividido en unidades denominas píxeles. El tamaño habitual de las matrices empleadas en estudios del cerebro es de 128 x 128 pixels.

Como la emisión de fotones es isótropa, para la formación de la imagen es necesario un elemento que ayude a mantener la correspondencia unívoca entre el punto de emisión y el punto de detección del fotón, este elemento se denomina colimador. El colimador permite el paso de los fotones que inciden en una dirección determinada. Se pretende que sólo pasen los fotones que inciden en las direcciones definidas por los agujeros del colimador que llegarán al plano de detección y formarán la imagen. Para un colimador de agujeros paralelos, en el caso ideal, sólo se detectarían los fotones que inciden perpendicularmente al plano de detección. La Figura 2.7 muestra la vista lateral de un colimador de agujeros paralelos.

Page 83: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

58 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

Figura 2.7 Esquema de una proyección usando una gammacámara, donde se muestra el efecto del colimador. Idealmente sólo los fotones que inciden en la dirección de los agujeros del colimador serán detectados.

El colimador está formado por una lámina de plomo de unos 5 cm de espesor en la que se perforan una serie de agujeros dispuestos en una dirección determinada denominándose septo al espacio existente entre dos agujeros consecutivos. La función del septo es absorber toda la radiación que no incide en la dirección definida por los agujeros del colimador. En la realidad existe una pequeña fracción de radiación que lo atraviesa y que alcanza el detector, dicha fracción se denomina penetración septal [Sorenson, 1987]. El método de colimación se elige en función de las necesidades de las aplicaciones clínicas, que a su vez dependen del órgano o tejido que se pretende estudiar, de la energía de los isótopos radiactivos empleados en el marcaje de los trazadores o del campo de visión. Por todo ello se han desarrollado distintos tipos de colimadores con el fin de conseguir el compromiso adecuado entre resolución espacial, localización de los fotones, y eficiencia, relación entre número de fotones detectados y emitidos. Los colimadores se clasifican en:

• LEHR (Low Energy High Resolution), en éstos, los agujeros son de pequeño diámetro para poder posicionar con precisión los fotones detectados.

• LEHS (Low Energy High Sensitivity), en los cuales los agujeros tienen un diámetro mayor que los anteriores, para aumentar el número de fotones detectados por píxel.

• MEGP (Médium Energy General Purpose) que buscan un compromiso entre la resolución y la eficiencia.

Atendiendo a la geometría y número de agujeros, los colimadores se dividen en: - Agujeros múltiples, éstos se clasifican en función de la disposición de

dichos agujeros: 1. Paralelos: Los agujeros tienen una sección usualmente hexagonal,

equiespaciada y son paralelos entre sí. El campo de visión está limitado a tamaño del detector. La imagen es del mimo tamaño que el objeto.

2. Convergentes: Son de dos tipos, los que están focalizados a una línea (fan-beam) y los que están focalizados a un punto (cone-beam). El campo de visión es menor que el tamaño de detector. En este caso la imagen es de mayor tamaño que el objeto.

Page 84: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 59 _______________________________________________________________________

3. Divergentes: El campo de visión es mayor que el tamaño del detector. La no convergencia de los agujeros, hace que la imagen sea de menor tamaño que el objeto.

- De un único agujero (pinhole): Proporciona una imagen invertida y permite

la amplificación del objeto. El campo de visión es mayor o menor dependiendo de la distancia del objeto al sistema. Se utilizan para la obtención de imágenes de estructuras de pequeño tamaño, como articulaciones de la mano o cadera de un niño pequeño [Acton, 2002].

Figura 2.8 Configuración de colimadores usados en SPECT. Fila superior: (a) configuración de agujeros paralelos y (b) configuración convergente fan-beam. Fila inferior: (c) configuración divergente y (d) configuración de un pinhole.

En la Figura 2.8 se muestran las diferentes configuraciones de colimadores empleadas en estudios de SPECT. En general, el colimador más empleado en los estudios SPECT es el colimador de agujeros paralelos, y para estudios específicos como los del cerebro, se emplean los fan-beam (neurofan). Estos últimos aumentan el número de fotones detectados y amplían la superficie de detección. Este efecto de ampliación se consigue por construcción, ya que en la dirección transversal los agujeros están focalizados a una línea a cierta altura del punto medio del plano de detección, denominada línea focal, y se encuentra situada entre 30-50 cm del plano superior del colimador. Para mantener la convergencia, las medidas de los agujeros y las distancias entre ellos aumentan con su alejamiento del punto medio. La focalización provoca que el diámetro y la longitud del agujero no sean constantes para cualquier punto del plano. El empleo de estos colimadores permite compensar en parte el efecto producido por la atenuación que se produce en las estructuras cerebrales profundas y mejorar la resolución de las imágenes.

Degradación en la Formación de las Proyecciones. La detección de los fotones en SPECT se ve afectada por las colisiones de los

fotones con los átomos dentro del paciente, con la correspondiente atenuación y producción de fotones dispersados, por las imperfecciones asociadas al sistema colimador/detector y por la degradación asociada a ruido.

Page 85: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

60 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

Atenuación. Parte de los fotones emitidos desde una región no alcanzan el detector ya que son absorbidos por el medio como consecuencia de sucesivas dispersiones Compton o efecto fotoeléctrico. La atenuación de un haz de fotones es isótropa y depende de la naturaleza del material atravesado, p.e el tejido óseo tiene un coeficiente de atenuación mayor que los tejidos blandos, además de depender del grosor de dicho tejido.

Dispersión Compton. Los fotones que han sufrido dispersión pueden ser

detectados por el sistema colimador/detector. Esto se debe a que muchos de los fotones dispersados quedan con una energía que entra dentro del intervalo de energías considerado y que está definido por la ventana energética de la adquisición. Por lo que en este caso la dirección de la detección no se corresponde con la dirección del fotón inicial.

Degradación Asociada a la Instrumentación. La instrumentación induce una

degradación que está relacionada con el hecho de que la respuesta del sistema colimador/detector a una fuente puntual no es un punto sino una distribución de intensidad que se denomina Point Spread Function (PSF): La respuesta del sistema para una fuente puntual colimada a distintas distancias de un colimador de agujeros paralelos (véase Figura 2.9). La respuesta del sistema colimador/detector depende de la geometría del colimador, de la energía de los fotones considerados y de la posición del punto fuente. La PSF se puede caracterizar por medio de dos parámetros que son: la eficiencia y la resolución. La eficiencia indica la fracción de fotones que llega al detector respecto a los emitidos, se calcula a partir del volumen de la PSF y afecta a la relación señal/ruido de las proyecciones. La resolución se parametriza por medo de la Full Width at Half Maximun (FWHM). La resolución del sistema, resolución extrínseca tiene dos contribuciones, la resolución intrínseca de la gammacámara y la del colimador.

Figura 2.9 Respuesta del sistema a una fuente puntual colocada a distintas distancias del plano del colimador. En este caso se trata de un colimador de agujeros paralelos.

La pérdida de resolución de las gammacámaras está relacionada con el efecto de la PSF. De esta manera, los fotones detectados puede que no provengan de las direcciones marcadas por los agujeros del colimador, ya que los agujeros no son

Page 86: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 61 _______________________________________________________________________

infinitamente estrechos y que existe una cierta probabilidad de que el septo pueda ser atravesado por los fotones. Colimadores con láminas y/o septos más gruesos aunque disminuirían el emborronamiento producido por el colimador también reducirían la eficiencia del mismo, por lo que es necesario buscar un compromiso entre estos dos parámetros. En la práctica clínica, teniendo en cuenta que la resolución del colimador depende de la distancia entre la fuente y la cámara, las adquisiciones se realizan de forma que los cabezales de la gammacámara estén colocados lo más próximos posible al paciente con el menor radio de rotación.

Ruido Estadístico. La emisión radiactiva responde a un fenómeno estocástico, por lo que la

distribución de probabilidad para detectar un número determinado de eventos sigue una estadística de Poisson. Por lo que para estas distribuciones la relación señal/ruido (del inglés “Signal to Noise Ratio”, SNR) se define como:

NNSNR =

donde N es el número de fotones detectados en un píxel de la proyección. La SNR mejora al aumentar el número de fotones detectados en el píxel de la proyección. En SPECT, la SNR es baja, debido a que el número de fotones detectados en el píxel de la proyección es bajo. Las posibilidades para aumentar la SNR serán:

1. Aumentar el tiempo del estudio. Los estudios ya tienen una duración de entre 30-45 minutos. Estudios más largos no son viables porque aumentaría la probabilidad de que el paciente se mueva durante la adquisición, lo que produce artefactos de difícil corrección en las imágenes reconstruidas.

2. Aumentar la dosis inyectada: Limitada por la protección radiológica del paciente. 3. Aumentar el tamaño del pixel: Produce un aumento del número de fotones

detectados por pixel pero la resolución (localización de los eventos detectados) será menor. Por ello, para escoger el tamaño de píxel se debe buscar una solución de compromiso entre ruido y resolución.

4. Utilizar gammacámaras con 2 o 3 cabezales giratorios. Permiten la detección de más fotones en el mismo tiempo de adquisición.

La diferencia entre dos imágenes de proyecciones de SPECT por efecto del

ruido estadístico se muestra en la Figura 2.10. Para la imagen de la izquierda el número de fotones detectado es de 5 kc mientras que en la imagen de la derecha el número de fotones detectados es de 200 kc.

Figura 2.10 Efecto del ruido en las proyecciones de SPECT.

Page 87: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

62 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Topográficas Cerebrales. _____________________________________________________________________________

Protocolo Técnico. Los parámetros establecidos en este protocolo son los más habituales y vienen

determinados en base a la experiencia con estudios clínicos y fantomas, lo cual significa que no son los únicos correctos. El resultado final será similar utilizando otros protocolos. Es aconsejable utilizar una ventana del 15% en el analizador de altura de pulsos. Esto se debe a un consenso respecto a la conveniencia de restringir el ancho de la ventana en las cámaras, lo cual permite una mejoría en la resolución de la imagen sin una pérdida significativa de sensibilidad. Para cámaras antiguas se puede utilizar una ventana energética de 20% en los procedimientos clínicos.

La forma de implantar la adquisición suele variar según el tipo de cámara. Algunos fabricante definen las paradas angulares como número de pasos (habitualmente 32, 64 o 128), mientras otros lo hacen estableciendo un movimiento angular (3 ó 6 grados, lo que equivale a 120-60 pasos en una órbita de 360º, o a 60-30 pasos e una órbita de 180º). También se presentaran una serie de filtros de reconstrucción para los diferentes estudios de SPECT, aunque cada usuario define y experimenta con sus propios filtros adaptados a los distintos equipos de SPECT y a las condiciones particulares de cada caso (características del paciente, tipo de patología, dosis, etc.). Recordemos que los diferentes fabricantes de equipos suelen definir matemáticamente los filtros de manera distinta. Se aconseja utilizar fantomas de SPECT para ensayar la aplicación de diferentes filtros.

SPECT de Perfusión Cerebral. Indicaciones. Está indicado para enfermedades cerebrovascular (AIT, infarto

cerebral, hemorragia subaracnidea), diagnóstico positivo y diferencial de las demencias, evaluación de traumatismo encéfalo-craneano, localización de prequirúrgica de foco epileptónico, diagnóstico de muerte cerebral.

Preparación del Paciente. Se mantendrá al paciente en ayuno durante 2 horas,

aunque no es imprescindible. Se le explica el procedimiento detalladamente, se colocará en reposo con los ojos abiertos, en ambiente tranquilo, sin estímulos visuales ni auditivos intensos y se le instalará una vía venosa. Los radiofármacos empleados son 99mTc-ECD (etil-cisteinato-dímero), o 99mTc-HMPAO (hexametil-propilenoamina-oxima). La dosis es de 25 a 30 mCi (925 a 1110 MBq) para 70 Kg y para niños μCi/Kg., mínimo 3 mCi (111 MBq). La forma de administración será la siguiente: previo a la inyección se acostará al paciente en un lugar tranquilo, indicándole que permanezca inmóvil, relajado y que no hable durante unos 15 minutos. A continuación se inyectará el radiofármaco por la vía, se dejará al paciente en decúbito en las mismas condiciones durante aproximadamente 5 minutos, y se retirará la vía.

La Adquisición de Imágenes. Se realizará 60 minutos post-inyección estando el

paciente en posición decúbito supino, con los miembros superiores a los lados de cuerpo. Se aconseja contar con un soporte especial para la cabeza y utilizar algún dispositivo para la sujeción de la misma. Se retiran los objetos metálicos de la zona en estudio. Se advierte al paciente que debe permanecer inmóvil hasta que el estudio ha finalizado, lo cual es muy importante, ya que un leve movimiento puede inutilizar el estudio. En pacientes escasamente colaboradores por su condición clínica o edad, puede considerarse la sedación farmacológica e incluso la anestesia administrándose los fármacos con posterioridad a la inyección del radiotrazador para evitar la variación de la

Page 88: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 2. Técnicas de Adquisición de Imágenes en Medicina Nuclear. 63 _______________________________________________________________________

distribución de éste en las estructuras del sistema nervioso central. Utilizaremos colimador de ultra alta o alta resolución para bajas energías. Analizador de pulsos con ventana de 15% centrada en el fotopico de 140 KeV. Detector de proyección anterior lo más próximo posible a la cabeza del paciente. Emplearemos órbita preferentemente no circular, empleando entorno automático o manual. Verificaremos que todo el cerebro quede contenido dentro del campo y que la rotación se efectúe libremente sin rozar al paciente ni a la camilla. La rotación será de 360º desde AP, con sentido horario (CW) o antihorario (CCW) indistintamente. En aquellos casos en que se le realicen al paciente más de un estudio de SPECT cerebral, es conveniente utilizar siempre el mismo sentido de rotación. El número de imágenes será de 120, con un movimiento angular de 3º. La modalidad será paso y disparo (“step and shoot”), con un tiempo por imagen de 15 segundos. Obtendremos una matriz de 128 x 128 byte sin zoom o 64 x 64 byte con zoom de 1.5-2. El zoom se puede usar de acuerdo a la matriz escogida siempre y cuando se tenga la opción de descentrarlo (colocarlo en el sector inferior de campo de visión, para que los hombros no aumenten el radio de rotación).

Procesamiento. La reconstrucción la realizamos por retroproyección filtrada,

límites inmediatamente por encima y por debajo del cerebro (incluyendo cerebelo). Se emplea filtro de Butterworth de orden 4, con frecuencia de corte 0.25 Nyquist (variable entre 0.20 y 0.35), filtro vertical activado, y/o Metz de potencia 3, FWHM 14 mm (variable entre 9 y 16mm). La corrección de atenuación se realiza mediante el método de Chang, con coeficiente 0.11 cm-1. Se empleará Zoom post-reconstrucción variable, a juicio del operador. Se reorientarán los 3 ejes sagital, coronal y transversal de manera tal que los cortes transversales sean paralelos a la línea órbito-canto-meatal (línea que en el corte sagital es tangente al borde inferior de los lóbulos frontales y occipitales). Para la evaluación de epilepsia o demencia, se realizará además reorientación de modo que los cortes transversales sean paralelos al eje mayor del lóbulo temporal. La reconstrucción tridimensional de superficie y cuantificación es opcional.

Documentación del Estudio. Se selecciona un juego de imágenes de cada corte

(transversal, coronal y sagital) y se imprime en color, empleando siempre la misma escala de colores que defina el usuario. La documentación de imágenes tridimensionales, y cuantificación será opcional.

Observaciones. Para cámaras de doble cabezal se realizan la mitad de la

rotación con cada detector, manteniendo los demás parámetros. Para pacientes graves puede efectuarse una adquisición rápida (10seg/imagen), utilizando preferentemente una dosis mayor a los 30mCi. Podemos sensibilizar el estudio con pruebas y estímulos funcionales: auditivos, visuales o fármacos: vasodilatadores cerebrales como la acetazolamida. Los parámetros de adquisición del estudio no varían, debiendo obtener dos estudios, uno en condiciones basales y otro bajo el estímulo.

Page 89: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 90: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3

PREPROCESADO DE IMÁGENES TOMOGRÁFICAS SPECT/PET.

En el siguiente Capítulo se van a presentar las técnicas necesarias de preprocesamiento de las imágenes funcionales SPECT utilizadas en esta Tesis. El Capítulo comienza discutiendo las técnicas de reconstrucción de imágenes tomográficas. A partir de los datos de la proyección obtenidos mediante una gammacámara se reconstruyen las distintas imágenes seccionales del cerebro asumiendo condiciones ideales, donde las proyecciones son un conjunto de medidas de los valores integrados de los parámetros de emisión del objeto a lo largo de un camino lineal. Con posterioridad se presenta la necesidad de hacer un registro de las imágenes que implica la realización de una normalización espacial y una normalización en intensidad. El método de normalización espacial desarrollado asume un modelo general afín que define 12 parámetros y una función de coste que constituye un valor extremo cuando la plantilla y la imagen se combinan juntas. La normalización en intensidad se ha llevando a cabo mediante una operación de escalado al su valor máximo. Ésta se lleva a cabo promediando el 0.1% de los ”voxels” de mayor intensidad que superan un umbral. El umbral se prefija ajustando manualmente a un valor optimo obtenido como el valor de intensidad del décimo “bin” en un histograma de intensidad de 50 bins, asegurándonos que la información irrelevante de baja intensidad contenida fuera del cerebro sea desechada y previniendo la saturación.

Page 91: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 92: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 67 _______________________________________________________________________

3.1 Introducción. Una tomografía bidimensional consiste en la reconstrucción de la imagen de una

sección transversal de un objeto a partir de sus proyecciones. Para aclarar el concepto de proyección podemos citar como ejemplo las radiografías médicas (véase Figura 3.1). Una radiografía puede ser considerada como un conjunto de proyecciones sobre las rectas que forman el plano de la placa radiográfica. En este sentido, una proyección sería una radiografía sobre una sola recta, línea AB en la Figura 3.1.

Intensidad Posición Transmitida A B Proyección sobre Radiografía la línea AB sobre un plano FUENTE

Figura 3.1 Proyección sobre una línea recta.

En una tomografía se realizan una gran cantidad de proyecciones sobre líneas en un mismo plano para reconstruir una sección transversal del objeto examinado. Dichas líneas sobre las que se realizan la proyección no tienen que ser necesariamente rectas. La reconstrucción de una imagen a partir de dichas proyecciones es un proceso matemático. Desde este punto de vista, la solución al problema de la reconstrucción de una imagen a partir de un número infinito de proyecciones se conoce desde principios del siglo XX. Johann Radon publicó en 1917 un artículo en el que aparecía la transformada que actualmente lleva su nombre [Radon, 1917]. Esta transformada es la solución matemática al problema de la reconstrucción tomográfica de imágenes. La transformada nos indica que la imagen de un objeto está precisa e inequívocamente determinada por el conjunto infinito de todas sus proyecciones. Sin embargo, en la práctica no existe un número infinito de proyecciones, las proyecciones no son infinitamente delgadas y además poseen errores experimentales. Por lo tanto, lo que se necesita no es una fórmula matemática idealizada, sino un algoritmo eficiente para evaluarla. Esta transformada cayó en el olvido durante muchos años y fue Allan Comack junto con otros investigadores [Cormack, 1975] quienes conceptualmente la “reinventaron” medio siglo más tarde.

3.2 Desarrollo Preliminar. Godfrey N. Hounsenfield concibe en 1967, la idea de un tomógrafo escáner de

rayos X, pocos años más tarde construyó el primer aparato [Hounsfield, 1972]. Las imágenes obtenidas por aquel tomógrafo eran muy ruidosas y tenían una resolución de

Page 93: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

68 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

80 x 80 cuadros. Dichas limitaciones se debían además de por el equipo utilizado, por los procedimientos utilizados para reconstruir las primeras tomografías. En aquellos años, Hounsfield se valió de técnicas algebraicas similares a las que usó en trabajos pioneros de reconocimiento de patrones para reconstruir las primeras imágenes tomográficas.

Las técnicas algebraicas empleadas, son conceptualmente muy simples, éstas consisten se sobreponer una cuadrícula imaginaria sobre el plano en el que se encuentra la sección del objeto por reconstruir. De esta forma el objeto queda dividido en celdas, a cada una de estas celdas le corresponde una densidad promedio, dichas densidades son las que se deben encontrar, son las incógnitas del problema. Las proyecciones se convierten, en sumas de un gran número de términos sobre direcciones en la cuadrícula, estas direcciones son delgadas bandas que atraviesan la cuadrícula a diversos ángulos. Las bandas representan los rayos que se transmiten a través del objeto de estudio. Por lo tanto, cada término de la sumatoria que forma una proyección, es el producto de un factor de peso multiplicado por la densidad del cuadro, que es la incógnita. Los correspondientes valores de peso para cada cuadro son conocidos y están determinados por la geometría del caso, esto es: ancho del haz de irradiación (la banda), ángulo de irradiación (entre la banda y los cuadritos), y tamaño de cuadrícula. A partir de las proyecciones, se puede establecer un conjunto de ecuaciones que se pueden resolver mediante un algoritmo adecuado. Aunque este procedimiento resulta muy sencillo, la técnica contiene sus limitaciones.

En la Figura 3.2 se muestra una rejilla sobrepuesta a una imagen desconocida, se pretende representar la imagen por una función cuyos valores son constantes en cada celda, esto no implica que dos celdas no puedan tener el mismo valor de f. La rejilla mide n celdas de lado, por lo que el número total de celdas es . Supongamos ahora que el objeto es barrido por un conjunto de rayos que corren paralelos formando un ángulo de inclinación con respecto a alguno de los ejes de la cuadrícula. Teniendo en cuenta esta representación la proyección de un rayo cualquiera viene dado por:

RRf →2:

Nnxn =

ip

ij

∑=

==N

jijij Mipfw

1,,2,1, L [3.1]

donde M representa el número total de rayos, para todas las proyecciones, es un factor de peso que corresponde a la fracción de área correspondiente a cada celda interceptada por un rayo en particular, el triángulo sombreado ABC (véase Figura 3.2) indica esta área, para una celda en particular. Es evidente que la mayoría de estos factores son iguales a cero.

ijw

ijW Para solucionar el problema y obtener la tomografía, debemos determinar todos

los valores conociendo los factores de peso . Para un número total de rayos M y tamaño de la cuadrícula N pequeños, podríamos utilizar técnicas de inversión de matrices para resolver las ecuaciones dadas por la ecuación 3.1. Pero para el caso de una cuadrícula de tamaño moderado, como puede se de 256 x 256, el valor que toma n es 256 x 256 =65536. A esto debemos sumar que el ancho de un rayo debe ser del orden de

jf ijw

Page 94: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 69 _______________________________________________________________________

la longitud de las celdas, por lo que el número total de rayos que tenemos que utilizar debe ser del mismo orden que el número total N de las celdas. O sea, M es del orden dimensión de N. Esto implica que para el ejemplo que hemos puesto de 256 x 256 pixels, debemos resolver en torno a 65000 x 65000 = 4,2 x 109 ecuaciones. El manejo de tal cantidad de ecuaciones es inoperantito incluso computacionalmente, ya que se requieren cálculos de doble precisión, cada elemento de matriz ocupara 8 bytes, y ello implicaría que una sola matriz ocupara 8 x 4,2 Gigabytes de almacenamiento, sin tener en cuenta el tiempo de cálculo para la solución de las ecuaciones. Aunque se debe señalar que existen métodos de solución iterativos que ahorran tiempo [Lent et al., 1973].

pk pk+1

f1 f2 fn pj+2 fn+1 f2n pj+1

pj

δ A B δ C

f2n

2δABCáreaceldacadaparawij =

Figura 3.2 Proyección representada por una banda sobre una rejilla.

En efecto, el problema de almacenaje y procesamiento se vislumbró desde la

obtención de las primeras tomografías por Housfield. Sus imágenes tenías una resolución de 80 x 80 y necesitaba 9 días para procesarlas. Claramente las técnicas algebraicas no eran la alternativa de aquella época, aunque es pertinente aclarar que hoy en día hay computadoras de mayor capacidad y se han desarrollado algunos algoritmos algebraicos eficientes. Por lo que las técnicas algebraicas (del inglés “Algebraic Reconstruction Technique”, ART) no se han abandonado, y por el contrario, actualmente constituyen uno de los extensos temas de investigación.

Se ha mencionado que tanto el equipo como los procedimientos de reconstrucción se desarrollaron paralelamente. El hallazgo de dichos procedimientos tomográficos, más eficaces que los algebraicos, se debió a la afortunada combinación de sucesos fortuitos que a continuación relataremos.

Page 95: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

70 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

3.3 Los Orígenes. El cuerpo humano está formado por diversos tejidos con sus respectivas

heterogeneidades, Allan M. Cormack, con el propósito de mejorar la radioterapia, pensó en la utilidad de conocer con precisión la distribución interna de los tejidos del cuerpo, ya que serviría en los cálculos del tratamiento [Cormack, 1979]. Esta información también sería útil para diagnóstico de otras enfermedades. Se le ocurrió que dicha información podría ser extraída a partir de una serie de proyecciones de Rayos X o de Rayos gamma, o sea, a partir de una tomografía. Esta palabra fue acuñada posteriormente.

Los cálculos de la atenuación de Rayos gamma y Rayos X en materiales

homogéneos llevaban muchos años de conocerse y se utilizaban frecuentemente en estimaciones de blindajes para la radiación. Cormack supuso que la generalización de los cálculos a partir de proyecciones para materiales no homogéneos ya había sido realizada anteriormente, pero tras una búsqueda en la literatura disponible, no encontrón que el fundamento para los cálculos había sido descubierto por Radon en 1917, por lo que optó por la tarea de deducirlos. Los trabajos de Cormack representan actualmente la base de los algoritmos de reconstrucción de imágenes. Cormack y Housnfield, ambos pioneros de la tomografía, compartieron el premio Nobel de Medicina en 1979.

3.4 Proyección Ideal de un Rayo Gamma. A continuación se exponen algunas particularidades de la tomografía gamma. Se

obtendrá la proyección midiendo la transmisión de rayos gamma a través del objeto, para lo cual se sitúa frente a la muestra una fuente de radiación gamma. La distribución del flujo de radiación que atraviesa dicha muestra se mide en diferentes posiciones por unos o más detectores de radiación. Las distintas proyecciones se obtendrán cambiando las geometrías del sistema fuente-objeto-detectores. El flujo de los fotones gamma emitidos por la fuente va decreciendo a medida que éste atraviesa el objeto. Esto es debido al hecho de que el rayo es atenuado por la muestra y en menor medida, a que el rayo es dispersado por la misma. Esta atenuación se puede expresar de manera cuantitativa por la relación de Beer-Lambert:

Al ee

IIT −− === ρμ

0

[3.2]

donde representa la intensidad incidente de un rayo monoenergético sobre un material homogéneo,

0II es la intensidad de la radiación gamma transmitida a través

dicho material y T es la razón o tasa de transmisión entre ambas, μ es el coeficiente de atenuación másico, ρ es la densidad del medio y l es la longitud de la trayectoria a través del material homogéneo. El producto ρμ se denomina coeficiente de atenuación lineal del medio y el producto lA ρμ= , la absorbancia del medio. Si en lugar de medir

, medimos el logaritmo de la tasa de transmisión que viene dado por la expresión TlTLn ρμ−= para una dirección particular de un solo rayo gamma, la cuestión se reduce

a un problema lineal donde la cantidad medida, o “proyección puntual” es la suma de los productos del coeficiente de atenuación lineal a lo largo de una parte de la trayectoria del rayo gamma por la longitud lδ de dicha parte. Para este caso, lδ sería el análogo a los factores de peso , en la sumatoria dada e la ecuación 3.1 y el coeficiente ijw

Page 96: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 71 _______________________________________________________________________

de atenuación lineal ρμ equivale a los valores para cada punto a lo largo de la trayectoria del rayo. Pero si hacemos los segmentos

iflδ infinitesimales , en el límite

la sumatoria (véase ecuación 3.1) se convierte en una integral de línea a lo largo de la trayectoria i del rayo gamma.

ds

( )∫∞

∞−= dsyxfp , [3.3]

El valor de p es función de la trayectoria del rayo gamma correspondiente. Un

haz de rayos gamma está formado por un número infinito de rayos, las distintas procedentes de cada rayo i son función de un parámetro continuo. Dicha función definiría a la proyección del haz sobre una línea de proyección. En la sumatoria de la ecuación 3.1 el parámetro a variar es discreto y corresponde al índice , siendo W el número total de rayos para una sola de las proyecciones. Utilizaremos el sistema de coordenadas definido en la Figura 3.3, con el objetivo de parametrizar la ecuación 3.3. Formalmente una imagen puede ser representada por una función donde las coordenadas ( nos indican la posición de un punto de la imagen. En el caso de la tomografía gamma, el valor de representa el coeficiente de atenuación lineal del medio en dicho punto. La dirección del rayo AB (véase Figura 3.3) define una dirección perpendicular t donde se proyecta el rayo. La línea t forma un ángulo

ip

Wi ,,2,1 L=

( )yxf ,)yx,

f

θ en el eje X. La ecuación del rayo AB viene definida por:

tysenx =+ θθcos [3.4]

Y A S t t1 q f(x, y) X B Figura 3.3 Sistema de coordenadas e imagen de un objeto cuya sección transversal es una elipse.

Una determinada proyección generada a un ángulo θ , es función de una variable

t, dicha proyección se calcula a partir de las integrales de líneas de ( )yxf , a lo largo de líneas paralelas que pasan a través de la imagen:

( ) ( ) ( )( ) (∫∫∞

∞−

∞−+−== dstsenssenstfdstsytsxftp θθθθθ cos,cos,,, ) [3.5]

Page 97: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

72 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Se necesita el uso de un parámetro más, en este caso el ángulo θ , para poder precisar todas las proyecciones.

3.5 Proyección Real de un Rayo Gamma. A efectos prácticos, ni el ángulo θ ni el parámetro t resultan ser variables

continuas, debido a limitaciones instrumentales. Esto implica que la medición experimental con la que se cuenta es un conjunto de proyecciones para un número finito de ángulos ( ){ }1,,2,1,0,, −= nkjtp kj Lθ . A partir de este conjunto de datos, debemos buscar un algoritmo para reconstruir la imagen ( )yxf ,′ . El algoritmo deberá reconstruir la imagen exactamente igual que si se tuviesen datos continuos. Si el número de proyecciones disponibles se incrementa, la imagen f ′ reconstruida deberá ser muy similar a . En la práctica se procura que los datos experimentales estén repartidos de manera regular a lo largo de una rejilla polar de radio unitario:

f

( )1−=

nj

jjπθ [3.6]

( )

( )112

−−−

=n

nktk [3.7]

Con el fin de probar la validez de la creación de dicho algoritmo que vamos a

utilizar, vamos a construir una imagen virtual con el fin de probar la validez de la instrumentación de dicho algoritmo.

3.6 Construcción de Imágenes de Prueba. Para validar los algoritmos de reconstrucciones se suele simular

computacionalmente imágenes artificiales. Por conveniencia se considera que la imagen se localiza dentro de un circulo unitario, cuya representación matemática corresponde con para . Dichas imágenes se simulan trasladando elipses y asignando a cada una diferentes coeficientes de atenuación. La utilización de elipses se debe a que la proyección de una elipse puede ser calculada exactamente, por lo que si la imagen no puede ser reconstruida razonablemente mediante un algoritmo propuesto, el fracaso no se deberá a proyecciones defectuosas sino a algún defecto en el propio algoritmo. Tomando una elipse e centrada en el origen, con su eje mayor a lo largo del eje X, de longitud 2A y su eje menor de longitud 2B en el eje Y:

( ) 0, =yxf 122 >+ yx

12

2

2

2

=+By

Ax [3.8]

Definimos una función que tiene una determinada propiedad, esta puede ser

por ejemplo, un valor de atenuación f

λ dentro de la elipse y cero fuera de la misma. La proyección para esta función viene dada por:

( ) ( )∫ −== 2

112

S

S

e SSdstp λλθ [3.9]

Page 98: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 73 _______________________________________________________________________

donde y son los puntos de intersección de la elipse con la línea de proyección en (véase Figura 3.4).

1S 2St Y S t S2 S1 q X λ Figura 3.4 Sistema de coordenadas y puntos de intersección de un rayo con la imagen de un objeto cuya sección transversal es una elipse.

Si calculamos las coordenadas ( )yx, de los puntos ( )1, St y , a continuación se sustituye en la ecuación 3.8 para la elipse, posteriormente se calcula el valor de ( y se multiplica por

( 2, St )

)21 SS − λ , obtenemos la siguiente expresión para la proyección:

( ) ( ) 222

2 taaABpe −= θθλ

θ [3.10]

donde

( ) θθθ 2222 cos senAa += [3.11]

De esta forma, una proyección sobre una elipse puede ser calculada exactamente para cualquier ángulo θ . Si rotamos la elipse alrededor del origen por un ángulo a con respecto a su eje mayor y posteriormente realizamos una translación del centro de la elipse a un punto en el plano ( 11 yx − ) xy , una proyección de esa elipse será:

( )δαθ −− tpe [3.12] donde

θθδ senyx 11 cos += [3.13]

Page 99: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

74 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Figura 3.5 Elipse y su sinograma.

En la Figura 3.5 se muestra una elipse y sus proyecciones, la elipse se encuentra

situada en un cuadro que inscribe al círculo unitario de acuerdo con la convención anteriormente mencionada ( )122 >+ yx , y las proyecciones de la elipse se presentan como una serie de líneas que toman valores desde 11 =−= tat . Cada proyección corresponde a un ángulo de proyección particular. El ángulo varía desde º0=θ hasta

º180=θ y sus diferentes niveles de gris corresponden a la escala de intensidad de la proyección, esta representación se denomina sinograma. Se pueden representar figuras más elaboradas superponiendo elipses de distinto coeficiente de atenuación y formar una proyección compuesta de varias de ellas. Esto es posible al hecho de que el operador de proyección es lineal, por lo que simplemente se suman las proyecciones de cada unas de las elipses. Shepp y Logan en 1974 fueron los primeros en utilizar estas ideas para probar algoritmos tomográficos [Shepp et al., 1974]. Los datos para su imagen de prueba constituyen actualmente el estándar utilizado para validación de algoritmos. Su idea fue proporcionar una imagen que representara una cabeza humana. La razón es debida a que el área de aplicaron más extensa de la tomografía es la radiología y dentro de esta área la cabeza es la que más ha sido explorada. El fantomas, como denominaron a su imagen, Shepp y Logan, contiene tumores, un hematoma, ventrículos y el cráneo que rodea al cerebro. El material de referencia es el aire que rodea a la cabeza, que en el caso práctico se considera que su coeficiente de atenuación es nulo (en la tabla 3.1 se muestran dichos valores). La imagen del fantomas de Shepp-Logan y su correspondiente sinograma se muestran en la Figura 3.6. El fantomas fue generado a partir de los valores de la tabla 3.1, donde los valores * son índices de refracción para Rayos X, un índice negativo en gammas implica que el medio atenúa menos que el aire.

Page 100: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 75 _______________________________________________________________________

Tabla 3.1 Parámetros del fantomas de Shepp-Logan.

Centro de coordenadas

Eje mayor Eje menor Ángulo de rotación

Coeficiente de atenuación

(0,0) 0.92 0.69 90 2.0 (0,-0.0184) 0.874 0.6624 90 -0.98*

(0.22,0) 0.31 0.11 72 -0.02*

(-0.22,0) 0.41 0.16 108 -0.02*

(0,0.35) 0.25 0.21 90 0.01 (0,0.1) 0.046 0.046 0 0.01 (0,-0.1) 0.046 0.046 0 0.01 (-0.08,-0.605) 0.046 0.023 0 0.01 (0,-0.605) 0.023 0.023 0 0.01 (0.06,-0.605) 0.046 0.023 90 0.01

Figura 3.6 Fantomas de Shepp-Logan y su sinograma.

3.7 El Teorema de Corte de Fourier. Para nuestro propósito de reconstruir el fantomas, estudiaremos el teorema de

corte de Fourier [Kak, 1985]. Partimos de la transformada bidimensional de Fourier de la función que representa el objeto: ( yxf , )

( ) ( ) ( )∫ ∫∞

∞−

∞−

+= dxdyeyxfvuF vyuxiπ2,, [3.14]

La transformada de la proyección viene dada por:

( ) ( )∫∞

∞−

= dtetpwP iwtπθθ

2 [3.15]

usando la definición de proyección dada en la ecuación 3.5 llegamos a:

( ) ( )∫ ∫ +−= dsdtesentssenstfwP iwtπθ θθθθ 2cos,cos [3.16]

realizamos los siguientes cambios:

θθ senstx −= cos θθ cosssenty += [3.17]

Page 101: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

76 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

cuyo Jacobiano vale la unidad, obtenemos:

( ) ( ) ( )∫ ∫∞

∞−

∞−

+= dxdyeyxfwP senyxiw θθπθ

cos2, [3.18]

Comparando las ecuaciones 3.14 y 3.18 deducimos el teorema:

( ) ( )θθθ senwwFwP ,cos= [3.19]

Este teorema nos dice que la transformada de Fourier de una proyección

paralela de una imagen tomada a un ángulo q nos da un corte de la transformada bidimensional , subtendiendo el mismo ángulo q con el eje u . O sea, la transformada de Fourier de las proyecciones

( yxf , ))( vuF ,

( )tPq nos da los valores de a lo largo de la línea

( )vu,FBB (véase Figura 3.7).

La utilidad del teorema radica en que tomando las proyecciones de un objeto a

ángulos kθθθ ,,, 21 L y tomando la transformada de Fourier de las mismas, podemos determinar los valores de la transformada bidimensional ( )vuF , en todo el plano y tomando su transformada inversa encontraría la imagen ( )yxf , del objeto. Si se pudiera tomar un número infinito de proyecciones, se conocería ( )vuF , en todo el plano y tomando su transformada inversa obtendríamos la imagen ( )yxf , del objeto. La transformada inversa viene dada por:

( ) ( ) ( )∫ ∫∞

∞−

∞−

+= dudvevuFyxf vyuxjπ2,, [3.20]

La imagen está acotada dentro de un cuadrado de lado igual a 2, o sea

por y ( yxf , )

11 <<− x 11 <<− y , esto implica que en la práctica sólo se puede conocer un número finito de proyecciones, por lo tanto la ecuación 3.20 se puede aproximar por:

( ) ( ) ( ) ( )(∑ ∑−= =

+≈2/

2/

2/

2/

22 ,

21,

N

Nm

N

Nn

ynxmjenmFyxf π ) [3.21]

para y , donde hemos considerado que N es un entero par. 11 <<− x 11 <<− y

El teorema de corte relaciona la transformada de Fourier de una proyección con la transformada de su imagen a lo largo de una línea radial. Si tenemos las transformadas de Fourier de las proyecciones realizadas desde muchos ángulos, se puede unir el conjunto para cubrir el plano del dominio de frecuencias (véase la Figura 3.8). Así obtenemos una estimación de la transformada bidimensional y, usando la ecuación 3.21, invertiremos la transformada para obtener una estimación de la imagen del objeto. La ecuación 3.21 se puede calcular utilizando la transformada rápida de Fourier conociendo los coeficientes de 2N ( )nmF , . Estos coeficientes pueden ser calculados siempre y cuando se cuente con un número de valores de la función igual al de los coeficientes. Sin embargo, el principal problema que se presenta al

( )vuF ,

Page 102: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 77 _______________________________________________________________________

utilizar la ecuación 3.21 es que para las frecuencias altas, los puntos experimentales se encuentran muy separados (véase Figura 3.8). Los puntos cercanos al origen, en el plano

, se hallan relativamente juntos, pero conforme nos alejamos del centro, hacia las altas frecuencias, los puntos muestreados aparecen muy separados, lo cual implica que se requiera una interpolación con puntos muy despegados entre sí, lo que puede inducir a un error considerable.

uv

TRANSFORMADA DE FOURIER v Proyección B Corte q q u B Dominio Espacial Dominio de Frecuencias

Figura 3.7 Representación esquemática del teorema de corte de Fourier. v u Domino de frecuencias Figura 3.8 Representación esquemática de las proyecciones. Los puntos representan el objeto en el dominio de frecuencias espaciales.

Una manera de afrontar el problema es dando a cada punto, en el dominio de las frecuencias, un peso distinto para que su influencia sea diferente a la hora de tomar la transformada inversa y reconstruir la imagen. Este procedimiento se denomina filtrado y no es más que una ponderación de cada punto de una proyección en el dominio de las frecuencias. Después del filtrado, se pueden reconstruir los puntos en el dominio espacial correspondientes a cada una de las líneas radiales del dominio de frecuencias, esto se denomina retroproyectar.

Page 103: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

78 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

3.8 Pre-Procesado de Imágenes. El resultado final de cualquier sistema de Diagnosis Asistido por Computadora

CAD, depende de la efectividad de la técnica empleada para la adquisición, la reconstrucción y el registro de las imágenes [Acharya et al, 2008; Sha et al, 2001]. A continuación se muestra la configuración para la adquisición de las imágenes y los pasos de procesamiento de los exámenes de SPECT que son necesarios antes de definir la base de pacientes.

3.8.1 Adquisición de la Imagen. Cada paciente es colocado cómodamente con la cabeza inmovilizada. La cabeza

del paciente se posiciona con el propósito de que quede situada en la línea perpendicular al detector, que ira rotando en pasos angulares en torno a ella, en nuestro caso entre 2º y 3º. Además, el detector se colocara tan cerca del cerebro del paciente como sea posible, normalmente con un radio de rotación aproximado de 13cm entre la superficie del colimador y el centro del cerebro del paciente. A los pacientes se les inyecta un radiofármaco emisor de rayos gamma (99mTc-ECD), a continuación se le realiza el examen de SPECT adquiriéndolo mediante una gamma cámara Picker Prism 3000 (véase Figura 2.6), con tres cabezales. A cada paciente se le toma un total de 180 proyecciones con una resolución angular de 2 grados. Finalmente, las imágenes de las secciones transversales del cerebro, son reconstruidas mediante la proyección de los datos adquiridos mediante un algoritmo de filtrado paso-baja (FBP) descrito a continuación, combinado con un filtro de Butterworth que reduce el ruido (véanse Figura 3.9 y aspectos concretos de protocolo de adquisición en el Apéndice C).

Figura 3.9 Modelos de perfusión: paciente afectado por demencia tipo Alzheimer en fase inicial.

Page 104: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 79 _______________________________________________________________________

3.8.2 Reconstrucción de Imágenes.

)

A partir de los datos de la proyección podemos reconstruir las distintas imágenes seccionales del cerebro [Lange et al., 1984; Vapnik et al., 1995; Hudson et al., 1994; Bruyant, 2002; Chornoboy et al., 1990]. Asumimos condiciones ideales, donde las proyecciones son un conjunto de medidas de los valores integrados sobre unos pocos parámetros del objeto a lo largo de un camino lineal. Si el objeto se representa por una función bidimensional , se calcula la integral de línea sobre la línea ( yxf ,

tyx =+ θθ sincos definida como:

( ) ( ) ( )∫ ∫+∞

∞−

+∞

∞−−+= dxdytyxyxftP θθδθ sincos, [3.22]

donde se conoce como la transformación radón de la función . Nótese que está relacionado con la suma de eventos radioactivos acumulados en cualquier intervalo de tiempo t en un punto cuando el detector está formando un ángulo

( )tPθ ),( yxf

θ . La clave para la obtención de imágenes tomográficas es el teorema de Fourier en el plano, que muestra la proyección calculada de los datos, para la transformada de Fourier en 2-D que transforman la sección transversal de objeto. Por lo tanto, la transformada de Fourier ( )ωθS de una proyección ( )tPθ de la imagen, la función ( )yxf , tomada con un ángulo θ , se define:

( ) ( ) ( )∫+∞

∞−−= dftjtPS πωω θθ 2exp [3.23]

Una sección en dos dimensiones de la transformada de Fourier vendrá dada por:

( ) ( ) ( )(∫ ∫+∞

∞−

+∞

∞−+−= dxdyvyuxjyxfvuF π2exp,, ) [3.24]

Subtendiendo un ángulo θ con el eje, tal que:

( ) ( )θωθωωθ sin,cos ⋅=⋅== vuFS [3.25]

El resultado anterior es la clave para la reconstrucción tomográfica, partiendo del muestreo tomando distintos ángulos para las proyecciones del objeto kθθθ ,,, 21 L y tomando la transformada de Fourier de cada uno de los valores sobre las líneas radiales, se puede determinar . En la práctica, solamente se toma un número finito de proyecciones de la función ya que solamente se han tomado muestras a lo largo de un número finito de líneas radiales. Los datos de proyección usados en este estudio son reconstruidos usando el algoritmo de filtrado de filtro paso-baja que se obtiene del teorema de Fourier. La imagen

( vuF , ))( vuF ,

( )yxf , de la sección transversal del objeto se obtiene mediante:

( ) ( )∫ ⋅+⋅=π

θ θθθ0

sincos, dyxQyxf [3.26]

donde

( ) ( ) ( ) ωπωωωθθ dtjStQ 2exp∫+∞

∞−= [3.27]

Page 105: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

80 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

El algoritmo de FBP consta de dos etapas: una parte de filtrado, que puede ser

considerado como añadir un simple peso a cada proyección en el dominio de frecuencia, y la parte de filtrado. Una desventaja importante de FBP es la amplificación no deseada del ruido de alta frecuencia y su impacto sobre la calidad de la imagen reconstruida. Estos efectos son causados por la operación de filtrando o la multiplicación de ( )ωθS junto a ω en la ecuación 3.27. Para atenuar el ruido de alta frecuencia amplificado durante la reconstrucción de FBP, se han propuesto algunas funciones de ventana. El método de reconstrucción se describe en las ecuaciones 3.26 y 3.27 por lo tanto es redefinido aplicando una ventana de frecuencia que vale cero cuando la frecuencia es múltiplo de π . Entre las funciones comunes de ventana usadas para la reconstrucción de FBP se encuentran: i) Seno (filtro Shepp-Logan), ii) Coseno, iii) Hamming, iv) Función de ventana de Hanning. Sin embargo, incluso cuando el ruido va incluido en la reconstrucción, aunque se use un enfoque FBP para controlarlo, el ruido captado por el sistema de adquisición tiene que ser filtrado para mejorar la calidad de las imágenes reconstruidas. De este modo, el escenario de preprocesamiento de la mayoría de los sistemas de procesamiento de imágenes anatómicas de SPECT, a menudo incluye prefiltrado, reconstrucción y posfiltrado, para minimizar el ruido adquirido por la gamma cámara, tanto como el ruido amplificado durante la reconstrucción de FBP.

3.8.3 Registro de Imágenes. Una vez que se han adquirido todas las imágenes incluso si el procesamiento de

adquisición se ha llevado a cabo con el mismo dispositivo, aún no están preparadas para realizar cálculos con ellas. El análisis de las imágenes implica dos condiciones, primera que el mismo valor de intensidad encontrado dentro de una imagen o en dos imágenes distintas corresponda al mismo valor físico y la segunda que dadas unas coordenadas espaciales en una determinada imagen, esas mismas coordenadas en otra imagen diferente, se correspondan con el mismo punto anatómico. Al aplicar los métodos de análisis desarrollados en el presente trabajo se presupone que se cumplen las dos condiciones anteriores. Se van a describir los métodos que se pueden emplear para llegar a esas dos condiciones en las imágenes tratadas, o estén razonablemente cerca de dichas condiciones.

3.8.4 Normalización de Intensidad.

En la obtención de imágenes SPECT, se genera una medida comparativa del flujo sanguíneo entre las diferentes regiones del cerebro. De este modo, no es posible la comparación directa de la intensidad de voxel entre imágenes, incluso si estas son el fruto de diferentes adquisiciones de un mismo paciente, sin una previa normalización. Medir el flujo de sangre local es una quimera principalmente por las siguientes razones. En primer lugar, algunas de las características químicas del radiofármaco hacen muy difícil obtener medidas seguras. Su química relativamente inestable [Costa, 2002] tiene como resultado que las cantidades de ciertos componentes del radiofármaco puedan variar (siendo éstas capaces de cruzar las barreras que delimitan al cerebro) o que no crucen dichas barreras del cerebro y contribuyan en la señal de fondo, como es el caso del tejido intersticial que no se debe tener en cuenta. En segundo lugar, se desconoce la concentración en sangre del radiofármaco, aunque se sabe su cantidad, pero el volumen de sangre total en que dicho radiofármaco está diluido se desconoce. Aunque esta concentración se podría calcular al final, no está previsto realizarlo en la práctica clínica. Se trata de un problema atribuible a consideraciones prácticas y el cual aún no es

Page 106: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 81 _______________________________________________________________________

tratable debido a las dificultades del modelado de las propiedades químicas del radiofármaco por lo que para que se cumplan las condiciones necesarias para poder comparar diferentes imágenes se debe corregir la intensidad de estas. Posteriormente se mostrarán la corrección necesaria y la forma de calcular los parámetros para dicha corrección.

Existen modelos muy complicados para explicar la concentración activa de radiofármaco (dicha concentración es proporcional al número de desintegraciones radiactivas -recuentos- por volumen de sangre, normalizado) [Lassen et al., 1980]. Una vez inyectado el radiofármaco se sabe que el número de desintegraciones radiactivas locales es función del flujo sanguíneo local. Si dicha relación se mantiene constante en el tiempo, se puede eliminar la variable tiempo en dicha función. En [Yonekura et al., 1988] se muestra que la relación entre la actividad del radiofármaco y la concentración de éste en sangre no es totalmente lineal. Por lo tanto las imágenes SPECT muestran el contraste entre los altos y bajos niveles de desintegración de las distintas regiones por donde circula la sangre. Para el presente trabajo supondremos la existencia de esa linealidad, para lo cual se supondrá que se cumple el siguiente modelo simple:

βα +⋅= orisca II [3.28] donde representa una imagen escalada en intensidad, basada en la intensidad de la imagen original . Los parámetros

scaI

oriI α y β se escogen de tal forma que la intensidad de la imagen adaptada se corresponda con la imagen de referencia. Posteriormente se mostrarán los métodos para calcular dichos parámetros. Generalmente se asumirá que el parámetro β valga cero, por lo que solo será necesario calcular α de la imagen. Se toma este valor cero para β , porque lógicamente ninguna región del cerebro posee actividad radiactiva antes de ser inyectado al paciente radiofármaco. Pero esto no es totalmente cierto ya que debido a los métodos de reconstrucción y cuantos de fotón, no habrá ninguna región constante a cero. Además el ruido no tiene una distribución simétrica alrededor del cero, pero se añade a los niveles de cero. No se debe eliminar ninguna constate. Por lo tanto además de α se debe calcular β de las imágenes. Obsérvese que en las imágenes adaptadas que se usaran para su posterior análisis, la intensidad de sus voxels no será una medida del flujo sanguíneo regional, se trata solamente de una cantidad que tiene una relación directamente creciente y monótona con el flujo de sangre regional. El hecho de que las imágenes no representen el flujo sanguíneo, juega solamente un pequeño papel en el análisis adicional para el enfoque previsto en el Diseño Asistido por Computador para la enfermedad de Alzheimer, puesto que solo suministran información útil para el proceso de diagnóstico y no conclusiones sobre la perfusión en los cerebros de los pacientes de Alzheimer. El proceso de diagnóstico se puede realizar sin tener medidas cuantitativas del flujo de sangre en regiones del cerebro.

Los cambios en el flujo de sangre global pueden producir efectos no deseados [Schmidt, 2002]. Por ejemplo, si en una determinada región se duplica el flujo sanguíneo, pero solamente se incrementa una cuarta parte en otra región, se podría llegar a la conclusión para este caso que el flujo de sangre en esta última región ha disminuido si se comparan esta nueva imagen con otras imágenes donde estos efectos no han tenido lugar. Esta situación puede ocurrir al comparar imágenes de pacientes con

Page 107: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

82 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

enfermedad de Alzheimer con pacientes sanos. Dicha reducción medida si no se hace corresponder con la realidad física, se puede usar como una señal diagnóstica. Empleando el modelo de la ecuación 3.28 con 0=β y calculando el valor de α usando el flujo de sangre cerebral global, o el número total de recuentos de desintegraciones se denomina adaptador proporcional o proporción adaptada, dependiendo de los autores. Existen otros modelos como el ANCOVA [Friston et al., 1990] o el igualamiento de histogramas, aparte de los cuales no se han propuesto otros modelos físicos para estos enfoques que superen los resultados del adaptador proporcional [Arndt et al., 1996].

Se supone que en el modelo utilizado, la concentración de marcador en sangre es estacionaria en el volumen de la imagen, así que se aplica la misma evaluación a todas las imágenes. En otras modalidades de imágenes como MRI hay pruebas fehacientes de que existe un sesgo espacial, sin embargo en la obtención de imágenes SPECT no existe razón para asumir la presencia de tal sesgo. De existir tal sería el atribuible a la profundidad de los diferentes tejidos, que sería corregido mediante un proceso de rectificación a la atenuación final [Chang, 1978]. Este sesgo no interfiere mucho en el análisis de las imágenes puesto que es atribuible a la anatomía y no al funcionamiento del escáner. Por lo tanto la solución eficaz del error cometido será aproximadamente el mismo para todas las imágenes adquiridas.

La forma habitual de estimar la perfusión sanguínea en las imágenes es mediante el establecimiento de “proporciones” relativas entre las distintas regiones de una misma imagen. Para poder comparar directamente imágenes, éstas se dividen por cierto valor el cual dependerá de la adaptación (véase expresión 3.28). Ésta corresponde al uso de proporciones con el mismo denominador. Estos métodos se pueden clasificar dependiendo de las diferentes formas propuestas para calcular el valor de α y las regiones que se calculan.

En el estándar SPM99 [Ahsburner et al., 1999], el volumen cerebral total se elige por normalización. Esta es la solución más simple ya que es fácil definir una máscara de cerebro para imágenes SPECT. En SPM99 la imagen media es dividida por ocho, y la normalización constante es la media de los valores de intensidad evaluada. Sin embargo escoger completamente el cerebro puede producir efectos no deseados. Tomando por ejemplo la imagen de un paciente con enfermedad de Alzheimer, las áreas que tenían cantidades normales de recuentos antes de escalar (áreas que son prescindibles para la enfermedad de Alzheimer, como la corteza sensorimotora (véase Sección A.5 del Apéndice A) se escalan a una extensión como en las que aparece más perfusión que la normal. Este efecto podría ser molesto cuando se emplean métodos que proporcionan información local de perfusión, pero no afectaría para enfoques globales que muestran información sobre la perfusión. En lugar de emplear un enfoque en el que interviniera el cerebro completamente, también se podrían usar conocimientos de la patología bajo estudio. Como por ejemplo escoger una región de referencia que no se vea influenciada por dicha patología. En la enfermedad de Alzheimer está región puede ser el cerebelo (véase Sección A.6 del Apéndice A), según [Syed et al., 1992] es la región más adecuada para la enfermedad de Alzheimer, por las siguientes razones:

1. En estudios post-mortem no se ha demostrado la participación del cerebelo en la enfermedad de Alzheimer.

2. En la enfermedad de Alzheimer se ha mostrado la participación cortical en estudios post-mortem.

Page 108: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 83 _______________________________________________________________________

Existen recientes estudios que contradicen las declaraciones anteriores. Una de las razones por las que no se usa el cerebelo es porque como no tiene interés directo en la enfermedad de Alzheimer no siempre se adquieren imágenes de éste. En [Soonawala et al., 2002] presenta la normalización para el cerebelo y la comparan con la normalización global llegando a la conclusión de que con el cerebelo se obtienen los mejores resultados. Otra forma de definir la región de interés, es escogerla dependiendo de los mismos datos adquiridos en las imágenes. Saxena et al. propone la siguiente suposición: los voxels con la intensidad más alta (más alto nivel de perfusión) esos serán los que muestren las áreas inmunes a la enfermedad de Alzheimer [Saxena et al., 1998]. En general las áreas de mayor flujo sanguíneo corresponden con la región occipital y el cerebelo. Estas áreas no se ven afectadas por la enfermedad de Alzheimer y serán las mismas tanto para pacientes normales como para afectados de la enfermedad de Alzheimer. En su enfoque, Saxena et al., usa la media del 1% de los valores más altos, como el factor adaptador. Experimentaron con otros niveles para determinar el promedio, los valores de dichos niveles van desde el 30% hasta el 0.25%, observando que los mejores resultados se daban para el 1%.

El cálculo de la cantidad de desintegraciones sobre regiones específicas de interés resulta difícil. En la literatura aparecen muchas aplicaciones en que las regiones de interés se definieron manualmente. Sin embargo cabe destacar que pequeñas variaciones en la definición manual repercute en los resultados obtenidos [Hooper et al., 1990]. En [Kuwert et al., 1992] se estudia la influencia del tamaño de las regiones de interés en las imágenes relacionándolas con el consumo de glucosa. Muestran que los cambios en la definición de las regiones de interés empeoran en las pruebas estadísticas en un porcentaje importante. Por esta razón y para mejorar el uso práctico de los métodos empleados, solamente se consideraran los métodos donde no existe intervención humana subjetiva. Para obtener una segmentación rápida y en la que se pueda confiar, de las regiones de interés, se propone el siguiente método. Se segmentará la región de interés de una imagen de referencia. Esta segmentación se puede ampliar a otras imágenes registradas a partir de la imagen de referencia que posteriormente se ha escalado. Este tipo de segmentación se denomina segmentación basada en atlas. Aquí la imagen de referencia con sus segmentaciones es el atlas. El enfoque de Saxeta et al., se puede usar como un estimador robusto del promedio sobre la región de interés. Cuando se aplica las mismas restricciones a todas las imágenes, no aparece ningún prejuicio, ni causa problemas. Este estimador robusto se podría emplear en otras regiones de interés.

Existen casos en que resulta ser inadecuado, los cuales se pueden atribuir a los errores o imprecisión del algoritmo de registro y también se podría atribuir a las diferentes formas que la misma estructura anatómica puede tener en diferentes asignaciones (pacientes sanos, pacientes con EA) y la incapacidad de corregir estas diferencias, el algoritmo de registro. Se podrían escoger otros estimadores robustos diferentes para evitar el error en la región de interés debido a su registro. Si el volumen de la región de interés tiene la misma forma y los valores de intensidad disminuyen en las fronteras de la región de interés, se puede tomar un cálculo aproximado basado en percentil, este cálculo aproximado no afectará al registro. Por que los valores más importantes estarán en las regiones de interés, independientemente del error que se cometa en el registro. Para elegir un cálculo aproximado basado en percentil, se elige éste de tal forma que la intensidad esté evaluada directamente en el percentil. Esta elección sería buena para valores del percentil en torno al 50%. Esta decisión no es buena para valores del percentil muy altos o muy bajos, ya que en dichos valores han

Page 109: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

84 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

influenciado los valores extremos del ruido. Por lo tanto, usar el valor medio sobre un cierto margen del percentil incrementa la robustez del cálculo aproximado. Para situaciones donde el cálculo de los parámetros es más difícil, se pueden emplear otros métodos distintos al descrito anteriormente.

3.8.5 Normalización Espacial. Los métodos empleados para el análisis de imágenes requieren que la misma

localización en diferentes imágenes se corresponda con la misma ubicación anatómica. Esto permite comparar y evaluar directamente voxels en una determinada localización en diferentes imágenes para obtener conclusiones. Existen varios problemas por los cuales no ocurre esta situación:

1. Cuando se obtienen imágenes, no siempre se colocan los pacientes en el mismo marco de referencia del dispositivo de adquisición de imágenes. Este marco de referencia define por ejemplo donde se coloca el cerebro en la imagen. Este problema ocurre tanto si se obtiene distintas adquisiciones de imágenes para un mismo paciente como si se obtienen distintas adquisiciones de imágenes para distintos pacientes.

2. No tienen la misma forma y tamaño la anatomía de los distintos pacientes. Como por ejemplo el cráneo. Este problema se da generalmente para la adquisición de diferentes pacientes. Cuando se trata de la adquisición de diferentes imágenes para un mismo paciente, las adquisiciones no muestran cambios considerables.

El objetivo de la normalización espacial es hacer coincidir las partes anatómicas

de diferentes adquisiciones de imágenes. Se han desarrollado métodos [Brown, 1992; Van den Elsen et al., 1993; Maintz et al., 1998; Hill et al., 2001; Roche, 2001; Cachier, 2002] que permiten al aplicar dichas transformaciones, hacer posible coincidir las mismas posiciones anatómicas en imágenes de pacientes diferentes.

En nuestra aplicación no tenemos conocimientos detallados de la anatomía de la imagen de SPECT, estas imágenes, son imágenes funcionales, solamente se adquiere en la imagen el flujo de sangre regional, con un poco de información grosera sobre la anatomía, esta información se basa en el hecho de que hay una relación entre el flujo de sangre y la anatomía subyacente. Es fundamental comprender esta característica de las imágenes SPECT, para elegir el método de registro y para el conocimiento de los límites de estos metodos para nuestras imágenes. Trataremos de deducir la forma y el tamaño de la anatomía sobre la clase de imágenes funcionales.

En general un algoritmo de registros se puede ver como un algoritmo que minimiza la medida de semejanza entre imágenes registradas, las cuales se pueden clasificar midiendo la semejanza entre ellas. Un cálculo de la medida de semejanza directamente, sería midiendo la intensidad de voxel. Otro cálculo podría ser mediante las estructuras geométricas. En este caso las características geométricas son extraídas antes y la medida de semejanza se calcula sobre la base de estas características. Por ejemplo, se podrían usar contornos de ciertas estructuras anatómicas. Este enfoque se conoce como el registro geométrico. La extracción de estructuras geométricas es muy difícil en imágenes funcionales. Para estos casos es mejor usar métodos basados en tomar la intensidad como una característica. Se debe ser prudente, ya que el registro de imágenes puede influir en los patrones de perfusión.

Page 110: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 85 _______________________________________________________________________

Una transformación rígida sólo gira la imagen pero no la transforma en ninguna dirección. Este tipo de transformación sirve para corregir la diferencia de posición y el ángulo respecto a la cámara SPECT en las diferentes adquisiciones. Pero tenemos imágenes de distintos sujetos, por lo que se necesita hacer corresponder entre sí las anatomías de las diferentes adquisiciones, ya que diferentes pacientes tienen diferente tamaño y forma de sus cerebros. Por lo tanto las transformaciones rígidas no son suficientes. Las transformaciones afines brindan mayor libertad que las transformaciones rígidas, aunque aumenta el número de parámetros de la transformación a calcular, de ocho a doce. Aplicamos esta transformación afín para el registro de imágenes de SPECT. Tenemos solo limitaciones de información anatómica en las imágenes, por lo que no podemos calcular las transformaciones locales precisas. Supongamos que las transformaciones afines tengan los suficientes grados de libertad para hacer que las imágenes concuerden razonablemente, dicha suposición se confirma por la inspección visual de las imágenes. Por lo que las transformaciones afines son adecuadas para las imágenes funcionales sin que desaparezcan las diferencias que existen entre dichas imágenes.

Para encontrar la transformación no-rígida entre las anatomías de imágenes de sujetos diferentes, se supone que existe y es única. Incluso tendremos imágenes donde será muy difícil que prevean información anatómica minuciosa, por lo cual será difícil de definir la transformación entre las anatomías de imágenes correspondientes a pacientes clasificados en distintas clases. La transformación entre estas anatomías no tiene un significado biológico o físico subyacente. Además la anatomía correspondiente a diferentes clases de pacientes, presenta diferencias muy grandes en determinadas localizaciones de las imágenes. Dichas diferencias pueden ser tanto de tamaño, número, localización, morfología, etc., por lo que no existe ninguna definición clara que permita la transformación entre sujetos la cual permita actuar matemáticamente sobre las imágenes. El análisis de este problema de registros no impedirá el uso de transformaciones no-rígidas, siempre que se tenga en cuenta tanto las transformaciones como la interpretación de éstas.

Para nuestra aplicación, se necesita que el conjunto de las distintas imágenes tengan un marco de referencia común. Todos los registros deben poseer un sistema de coordenadas de referencia. Dicho sistema se puede definir fácilmente por una imagen de plantilla o escogiendo una imagen representativa del estudio. Esta última alternativa podría presentar sesgos al seguir los posteriores pasos para su análisis, supóngase por ejemplo que el paciente escogido como referencia tiene una estructura expandida respecto a las asignaciones normales. Otro problema es el ruido estructural de las imágenes SPECT. Si se ajustan todas las imágenes a una imagen ruidosa, puede cambiar de lugar en las diferentes imágenes el ruido estructural, haciendo que estos puntos tengan una intensidad más elevada, lo cual puede influir en el análisis. Lo más adecuado es crear específicamente un marco general para las imágenes que se están estudiando, la única desventaja es la falta de normalización espacial. En tal caso, lo mejor sería analizar el marco de referencia definido sobre las imágenes y transformar estos resultados posteriormente en un espacio usual, de la misma forma que el atlas usado [Talairach et al., 1988] o en el espacio MNI [Evans et al., 1993].

A continuación se propone un caso de registro rígido y afín, para lo cual se escoge una imagen, como imagen de referencia y ajustamos el resto de imágenes a ella. Calculamos la imagen media de todas las imágenes registradas y ajustamos todas las

Page 111: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

86 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

imágenes a esa imagen media. Esto se hace en primer lugar para eliminar la influencia de las diferencias patológicas del conjunto de imágenes. Se incrementa la robustez del procedimiento de registro debido a la suavidad de la imagen, reduciendo finalmente el posible sesgo producido, debido al ruido de la imagen de referencia. Emplearemos este enfoque incluso sin definir un sistema de coordenadas de referencia, que no cambie el resultado final cuando usamos transformación rígida para obtener un marco de referencia imparcial por el ruido o la patología.

Para el caso de registro no-rígido se puede crear una imagen de referencia usando el método propuesto por Guimond [Guimond et al., 2000; 1998] para imágenes MRI. No existe ninguna razón para que no se pueda emplear en otras modalidades de imágenes como SPECT. En dicho trabajo presenta un método automático para desarrollar modelos anatómicos medios del cerebro usando un conjunto de imágenes. Los modelos computados poseen dos características importantes: una intensidad y una forma obtenidas a partir de un promedio para cada caso. Aunque este método requiere de una imagen de referencia para comenzar, el modelo converge al centroide del conjunto de imágenes desarrollando las imágenes medias. La construcción de la imagen media se puede resumir en los siguientes pasos:

RI

NII ,,1 L

1. la imagen se combina . La transformación da como resultado la cual reemplaza a , es el sistema de coordenadas definido para .

Ni ,,1L∈∀ iI RI

iT iI 'iI RI2. Se calcula el voxel-wise como la media para todo . Esto produce la intensidad

media de la imagen

'iI

I con la forma de . RI3. Calculamos la deformación que constituye las diferencias de forma entre y la

forma media de . Esto determina la transformación de a RI

NII ,,1 L iT T .

4. La forma e intensidad de la imagen M se obtienen aplicando la inversa de T a I . Todos los pasos anteriores se pueden repetir reemplazando por RI M para iterar

hacia el centroide. Tras un número pequeño de iteraciones (normalmente unas cinco veces) M ha convergido lo suficiente a la forma media [Guimond et al., 1999].

En cuanto se ha encontrado la transformación rígida afín o forma libre, para obtener nuestra imagen en el marco de referencia de las imágenes, debemos aplicarle dicha transformación a las imágenes. En general esto se hace re-interpolando la imagen. Existen diversas maneras de re-interpolar las imágenes [Jain, 1989; Baxes, 1994]. Para poder interpolar las imágenes se supone que la banda de señales está limitada. Debido al proceso de reconstrucción de imágenes de SPECT, es inherente filtrarlas. Así que la re-interpolación en la plantilla de una transformación rígida es factible, sin una pérdida considerable de información.

En el caso de cualquier transformación no-rígida, la situación es más complicada. En general este caso se trata sin consideraciones especiales. Pero incluso si obtenemos la transformación correcta que corresponde a las diferencias de forma anatómicas, no es sencilla una transformación no-rígida a imágenes funcionales. Por ejemplo si por la transformación sólo se agranda el cerebelo, ¿esto quiere decir que el flujo total de sangre del cerebelo debe expandirse fuera del cerebro? o ¿cómo consecuencia de tal transformación resulta un aumento en el flujo de sangre total en el cerebelo? La transformación no da la información sobre las implicaciones funcionales, especialmente

Page 112: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 87 _______________________________________________________________________

si la transformación corresponde a los clasificaciones diferentes (NORMALES, EA). Surgiendo la duda de ¿si la intensidad de la nueva imagen re-interpolada se debe al cambio local en el volumen debido a la transformación? o ¿la imagen solo se debe renormalizar en intensidad para tener el mismo flujo de sangre total? Esta última solución no cambiaría nada en nuestro conjunto de imágenes, solamente con las respectivas medidas de flujo sanguíneo. No existen respuestas claras a estas preguntas. Otro problema es el debido al efecto de volumen parcial. Las intensidades de voxel medidas en cada ubicación no representan el flujo de sangre en dicha ubicación, aunque teniendo en cuenta dicho valor y el de ubicaciones cercanas ponderadas se obtiene las imágenes.

Si sólo aplicamos la técnica básica de re-interpolación, pueden existir variaciones a nivel local. Por ejemplo, la influencia de una estructura cercana sobre las intensidades en el cerebro podría ser más grande en algunas imágenes que en imágenes que inicialmente ya tenían un cerebelo grande. Una solución para el problema del efecto de volumen parcial y transformaciones no-rígidas puede ser la convolución de las imágenes antes de la re-interpolación. Otra solución podría se filtrar la imagen re-interpolada. El filtro debe tener una forma y tamaño, dependiendo de los cambios de volumen causados por la transformación. Escogiendo el filtro correcto a nivel local, se podría extender la re-interpolación a todo el volumen de la imagen, esto reduciría la resolución eficaz de las imágenes influyendo en el rendimiento del posterior análisis de imágenes. Afortunadamente, en la práctica, las transformaciones que aplicamos no producen cambios de volumen y los cambios locales no son especialmente muy grandes. Por lo que se supondrá que el efecto de volumen parcial no plantea un problema respecto a la re-interpolación con las transformaciones rígidas para nuestras aplicaciones.

Otro planteamiento del problema, sería en lugar de tratar la transformación para toda la anatomía, se debe tratar de encontrar la transformación entre los lugares de áreas funcionales de los distintos cerebros. Así que cada punto de imágenes diferentes debe corresponder a la misma función. Para solucionar los problemas planteados anteriormente, se necesita la información funcional al menos a nivel de voxel. Además no se sabe totalmente la relación que existe entre la función y el flujo de sangre regional.

3.8.6 Normalización Espacial para las Imágenes Utilizadas en la Presente Tesis.

La complejidad de las estructuras del cerebro y las diferencias existentes entre los distintos cerebros hace necesario la normalización de las imágenes con respecto a una plantilla de tamaño fijo y común a todos. Este paso nos permite que comparemos la intensidad de voxel para diferentes imágenes de cerebro. Las imágenes de SPECT usadas en este trabajo, primero son normalizadas usando el software de SPM [Friston et al., 2007] en el orden en el que nos asegura que un voxel determinado en imágenes diferentes representa el mismo lugar anatómico en el cerebro. El método de normalización asume un modelo general afín que define 12 parámetros [Woods, 2000] y una función de coste que constituye un valor extremo cuando la plantilla y la imagen se combinan juntas. Para cada voxel ( )321 ,, xxxx = de una imagen, se transforma de forma afín en las coordenadas de , esta transformación se realiza mediante la multiplicación de la matriz

( 321 ,, yyyy = )M según Mxy = .

Page 113: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

88 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

1100013

2

1

34333231

24232221

14131211

3

2

1

xxx

mmmmmmmmmmmm

yyy

[3.29]

El objetivo de la función CF es optimizar la diferencia media existente entre el

origen y la plantilla:

( ) ( )( )∑ −=i

ii xgMxfCF 2 [3.30]

donde y f g son la imagen fuente y la plantilla respectivamente. En cuanto la imagen es normalizada por medio de una transformación afín, se registra empleando un modelo de transformación espacial no rígido más complicado. Las deformaciones no lineales se ajustan a una plantilla de Montreal Neurological Imaging (MNI), parametrizándose por una combinación lineal de componentes de frecuencias más bajas de las bases de la transformada coseno tridimensional [Ashburner et al., 1999]. Pueden adoptarse modelos de transformación afín y normalización espacial no lineal de convergencia más rápida, como el descrito en [Salas-González et al., 2008]. Empleando un enfoque de deformación pequeño se consigue una regularidad al doblar la energía del campo de desplazamiento. Después de la normalización espacial, se obtiene una representación en voxel de en cada toma. Cada voxel representa un volumen de cerebro de

. 796995 ××

356.318.218.2 mm××

El objetivo de la normalización espacial supone conseguir minimizar los efectos que producen las diferencias en la imagen debidas a características individuales de cada sujeto, sin alterar las diferencias debidas a efectos de la enfermedad, lo que en la práctica es difícil de conseguir completamente. La dificultad aumenta en gran medida debido al hecho de tratar con información funcional, que hace los límites espaciales de las diferentes regiones cerebrales sean difusos.

3.8.7 Normalización de Intensidad para las Imágenes Utilizadas en la Presente Tesis.

Tras de la normalización espacial, se requiere una normalización en intensidad para poder comparar entre imágenes de diferentes sujetos. La comparación directa entre la información de la intensidad de los voxels, incluso entre diferentes adquisiciones de un mismo sujeto, no es posible sin esta normalización de la intensidad. Llevando a cabo un proceso similar a [Saxena et al., 1998], si el nivel de intensidad se normaliza a la intensidad máxima, la cual se calcula individualmente para cada volumen calculando la media del 3% de los voxels de mayor intensidad, las imágenes pueden estar expuestas a saturación. Como se puede observar en la Figura 3.10, los patrones de intensidad que presentan las imágenes pueden ser muy variados, aunque todos presentan una acumulación de intensidad en los primeros niveles de ésta. Esta acumulación de intensidad se corresponde con las regiones exteriores al cerebro, que suponen una gran cantidad de información irrelevante. Si se toma el 3% de todos los voxels, se tendrán en cuenta mucha de esta información lo que producirá que se normalice a un máximo de intensidad relativamente bajo, y consecuentemente las imágenes saturarán. Partiendo de

Page 114: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 3. Preprocesado de Imágenes Tomográficas SPECT/PET. 89 _______________________________________________________________________

una base similar, normalizando la intensidad de las imágenes a un valor máximo , pero difiriendo en su obtención. Ésta se lleva a cabo promediando el 0.1% de los voxels de mayor intensidad que superan un umbral. El umbral se prefija ajustando manualmente a un valor optimo, obtenido como el valor de intensidad del décimo bin en un histograma de intensidad de 50 bins, asegurándonos que la información irrelevante de baja intensidad contenida fuera del cerebro sea desechada, y previniendo la saturación.

maxI

Figura 3.10 20 histogramas de intensidad de diferentes imágenes de la base de datos SPECT empleada en la presente Tesis.

Page 115: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 116: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4

EXTRACCIÓN DE CARACTERÍSTICAS DE IMÁGENES FUNCIONALES.

El presente Capítulo trata las actuales técnicas de extracción de características

de ayuda en el diagnóstico de enfermedades neurológicas que se basan en el análisis

computacional de imágenes funcionales. Entre ellas podemos destacar SPM que realiza

un test estadístico univariado a nivel de voxel que se puede aplicar tanto a imágenes

SPECT como PET y empleándose en la actualidad mayormente en MRI funcional

(fMRI). Otra técnica a tener en cuenta es ManCova, que es un análisis multivariante de

la varianza, siendo una extensión del análisis de la varianza (ANOVA) para cubrir

casos donde hay más de una variable dependiente que no se puede combinar de manera

simple. Además se analizan los aspectos fundamentales relacionados con las

características de las imágenes, voxels, reducción de parámetros, etc., que sirven para

la construcción de nuevos métodos de ayuda al diagnóstico de la enfermedad de

Alzheimer.

Page 117: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 118: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 93 _____________________________________________________________________________

4.1 Diagnóstico Asistido por Computador. Hasta la fecha se han propuesto, distintos sistemas para la ayuda al diagnóstico

de enfermedades neurológicas, con el objeto de analizar imágenes funcionales, entre las

que se incluirían las de tipo SPECT. De las diferentes técnicas que se muestran en la

literatura se pueden distinguir entre aquellas que hacen uso de métodos estadísticos

univariados o multivariados, otra clasificación, sería aquella que distingue entre las que

obtienen resultados de manera no supervisada, frente a las que hacen uso de algún tipo

de aprendizaje estadístico supervisado, aplicando cierto entrenamiento previo. A

continuación se muestran los casos más relevantes de estas técnicas.

La aproximación univariada más relevante se basa en SPM (del inglés

“Statistical Parametric Mapping”) y sus numerosas variantes [Friston et al., 2007].

SPM consiste en hacer un test estadístico univariado a nivel de voxel, que es la unidad

de volumen mínimo de la imagen, como por ejemplo un test t-Student de dos muestras,

que compara los valores del voxel de la imagen bajo estudio con un grupo de pacientes

normales que representan la muestra „control‟. A continuación, los voxel relevantes de

este test son inferidos usando la teoría de campos aleatorios [Adler, 1981]. Su marco de

actuación fue pensado para el análisis de estudios de imágenes SPECT y PET, pero

actualmente se aplica principalmente para el análisis de la MRI (del inglés “Magnetic

Resonante Imaging”) funcional. Sin embargo, SPM no está estrictamente diseñada para

resolver el problema del diagnóstico automático usando exclusivamente un paciente de

estudio sino para la comparación de conjuntos de imágenes a las cuales se les asigna

una etiqueta implícitamente, como es el caso diagnóstico que nos ocupa. De hecho, su

aplicación en este contexto proporciona resultados de clasificación pobres, dado que una

de las poblaciones consiste en un único individuo, estimación sesgada de la media de

población, y la otra consiste en un conjunto de individuos normales (el test t-Studen no

incluye ninguna información sobre patrón de imagen típico de la enfermedad bajo

estudio) [Stoeckel et al., 2001], además, este método sufre los inconvenientes de las

aproximaciones locales y univariadas.

Se han propuesto otras aproximaciones multivariadas como ManCova, que

consideran como una observación todos los voxels de un solo “scan” con el objetivo de

hacer inferencias sobre los efectos de activación distribuidos. La importancia de ellas,

radica en que los efectos debidos a activaciones, los efectos indefinibles o confundentes

(del inglés “confounding effects”) y los efectos de error son evaluados estadísticamente

en términos de efectos a nivel de voxel y también a nivel de las interacciones entre

voxels [Franckowiak et al., 2003]. No obstante, con estas técnicas no pueden hacerse

inferencias estadísticas sobre cambios específicos regionales, y, aun más importante,

requieren un número de observaciones (scans) que sea mayor que el número de

componentes de la observación multivariada, voxels. Obviamente ésta no es la situación

en la que nos encontramos cuando trabajamos con estudios de imágenes funcionales

como SPECT, PET, fMRI.

El presente trabajo se centra en el contexto de las aproximaciones supervisadas y

multivariadas donde se plantea un nuevo método cuantitativo para evaluación de

imágenes funcionales. En este campo, la clasificación se realiza habitualmente mediante

la definición de vectores de características que representan los rasgos más relevantes de

las diferentes imágenes por ejemplo las de SPECT y mediante el entrenamiento de

clasificadores, dado un conjunto de muestras conocidas [Illán et al., 2009; Górriz et al.,

2008], etc. Tras el proceso de entrenamiento, el clasificador que incluye la capacidad de

Page 119: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

94 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

generalización del sistema, se aplica a nuevos casos de test para distinguir entre

controles sanos y enfermos. En este régimen de entrenamiento y test se asume como

hipótesis de partida que las etiquetas de entrenamiento y test son válidas por lo que una

precisión elevada en la clasificación es equivalente a un diagnostico efectivo del

paciente estudiado.

El conjunto de clasificadores usados por los sistemas CAD están basados en

distintas funciones analíticas, como por ejemplo en su complejidad, que se ajustan

mediante datos de entrenamiento en base a distintos procedimientos. De entre esos

procedimientos destacamos por su robustez, el uso de máquinas de vectores soporte

(SVM). Las SVMs han atraído la atención de la comunidad científica en el campo de

reconocimiento de patrones dado el alto número de avances a nivel teórico y

computacional derivados de la Teoría del Aprendizaje Estadístico (TAE) [Vapnik, 1998]

desarrollada por Vladimir Vapnik en los laboratorios de AT&T. Estas técnicas han sido

usadas de manera satisfactoria en un gran número de aplicaciones entre las que

destacamos la detección de actividad de voz (VAD) [Ramírez et al., 2006b],

recuperación de imágenes basadas en contenido [Tao et al., 2006], clasificación de

texturas [Kim et al., 2002] o el diagnóstico basado en imagen [Illán et al., 2009; Fung et

al., 2007]. La ventaja de este tipo de aproximación para el diagnóstico clínico basada en

la TAE es que no es necesario ningún tipo de conocimiento a priori acerca de la

enfermedad bajo estudio y que el método que es automático, es aplicable a cualquier

otro tipo de patología neurológica o técnica de imagen cerebral.

4.2 Statistical Parametric Mapping (SPM). En investigación médica, el análisis de neuroimágenes funcionales como PET,

SPECT y fMRI mediante técnicas de cuantificación estadística permite el estudio de

diversos procesos cerebrales, patológicos o cognitivos. El uso del programa SPM, lo

está convirtiendo en una de las herramientas con mayor auge para este fin, gracias a su

amplia disponibilidad y el gran abanico de estudios estadísticos que permite realizar.

Sin embargo, el desconocimiento de los fundamentos teóricos en los que está basado

puede conducir con mucha facilidad a resultados imprecisos e incluso a conclusiones

erróneas. Se va a estudiar brevemente dichos principios teóricos y discutir los

principales puntos críticos en la utilización del método sin detallar los fundamentos

matemáticos en los que se basa dicha herramienta. La finalidad de SPM es la realización

de mapas de estadísticos paramétricos para la búsqueda de efectos de interés presentes

en imágenes funcionales. Desde su primera aparición en 1991, la comunidad de

investigadores de neuroimagen funcional ha aceptado y utilizado ampliamente las

actualizaciones de 1996 y 1999, gracias a que proporcionan una gran flexibilidad en el

diseño de los experimentos que pueden analizarse [Friston et al., 2007]. SPM se utiliza

actualmente en departamentos de psiquiatría, psicología, neurología, radiología,

medicina nuclear, farmacología, ciencias cognitivas y del comportamiento,

bioestadística y física biomédica de todo el mundo con fines diversos como la

investigación de enfermedades mentales, cuantificación de efectos farmacológicos,

estudios cognitivos, realización de análisis longitudinales, estudios intersujeto, e incluso

morfométricos. En un estudio estadístico mediante SPM, los puntos clave son la

elección del método de normalización en intensidad, la normalización espacial, el

sistema de coordenadas empleado y la interpretación de la significación estadística de

los resultados. Estas serán las cuestiones principales a tratar, presentando las

alternativas y soluciones posibles a ellas.

Page 120: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 95 _____________________________________________________________________________

4.3 Procesado en SPM. El procesado empleando, basado en SPM es el utilizado en los métodos de

diagnóstico basados en imagen. Éstos requieren que las imágenes usadas en el

procedimiento sean comparables voxel a voxel estableciendo una correspondencia

exacta entre posición anatómica y posición del voxel en la imagen. Este preprocesado

consta de tres etapas: realineado, normalización espacial y filtrado espacial. En la etapa

de realineado se consigue corregir la diferente colocación de la cabeza de distintas

imágenes de un mismo sujeto dentro del dispositivo de imagen PET, SPECT, fMRI.

Para corregirla, se aplican las traslaciones y rotaciones adecuadas que compensen esta

diferencia, de modo que las imágenes coincidan en el mismo espacio común.

En el caso de diagnóstico que nos concierne no se aplica tal transformación dado

que solo se dispone de una imagen de cada paciente. Estas transformaciones sencillas

parten del hecho de que el cerebro a realinear tiene la misma morfología en cada

adquisición. Sin embargo cuando disponemos de distintos pacientes ese no es el caso y

para solucionar el problema aplicamos la etapa de normalización espacial. En efecto,

para realizar un análisis voxel a voxel, los datos de distintos sujetos deben

corresponderse con un espacio anatómico estándar que permite la comparación entres

sujetos y la presentación de los resultados de un modo convencional. En esta etapa se

realiza una deformación elástica [Salas-González et al., 2008a, 2008b; Friston et al.,

2007] de las imágenes de modo que concuerden con un patrón anatómico estandarizado.

Para que la transformación espacial sea correcta, las imágenes deben ser

razonablemente similares al patrón utilizado, tanto morfológicamente como en contraste.

Este patrón se obtiene promediando un conjunto de controles normales de manera que

se obtiene una plantilla, “máscara” o “template” suave que sirve como referencia.

De este modo, se ponen en correspondencia cada una de las regiones cerebrales

de cada sujeto con una localización homóloga en el espacio estándar. Esta

normalización, además de permitir la comparación voxel a voxel de las imágenes,

también facilita la localización de las áreas funcionales. El concepto de sistematizar la

localización cerebral de las regiones funcionales se debe originalmente a Talairach

[Talairach et al., 1988], y si bien SPM presenta los resultados finales mediante este

método, el sistema de coordenadas empleado para informar acerca de las localizaciones

no es el mismo que el que aparece en el atlas de Talairach, lo que puede inducir a error.

El filtrado es un proceso por el cual los voxels se promedian con sus vecinos,

produciendo un suavizado de las imágenes, más o menos pronunciado en función de un

parámetro denominado Amplitud Total a Media Altura (del inglés “Full Width at HAlf

Maximum”, FWHM). El suavizado de las imágenes tiene diversos objetivos. En primer

lugar, aumenta la relación señal/ruido, ya que elimina fundamentalmente las

componentes ruidosas de la imagen. Otro motivo que hace conveniente suavizar las

imágenes es que así se garantiza que los cambios entre sujetos se presentarán en escalas

suficientemente grandes como para ser anatómicamente significativas, una vez

efectuada una normalización en intensidad.

4.4 Análisis Estadístico. Con la herramienta SPM es posible realizar numerosos tests estadísticos, como

regresiones, tests t-Student, tests F y análisis de varianza (Anova) incluyendo

covariables y permitiendo el modelado de interacciones entre ellas [Friston et al., 2007].

Todos estos tipos de análisis pueden ser englobados en un modelo general (el modelo

Page 121: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

96 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

lineal general o GLM), que es el utilizado por SPM para efectuar los cálculos

matemáticos. La formulación del GLM se basa en dos conceptos: la matriz de diseño y

los contrastes.

Los estudios estadísticos que pueden efectuarse mediante SPM pueden ser

divididos fundamentalmente en dos tipos: estudios paramétricos o factoriales y estudios

categóricos o sustractivos. Los primeros estudian la relación entre las imágenes PET y

un parámetro, como puede ser la edad, una escala de síntomas o el resultado de un test

cognitivo. Los estudios categóricos se utilizan para poner de manifiesto diferencias

entre grupos, definidas por variables categóricas. Mediante el uso del GLM somos

capaces de introducir de manera matemática el estudio estadístico en cuestión, que en el

caso del diagnóstico de un paciente a partir de una sola imagen de test, es la definición

de la matriz de diseño, que puede realizarse de la siguiente forma. Dentro de los

estudios categóricos es necesaria una columna para determinar la pertenencia a cada uno

de los grupos, en nuestro caso, categoría normal frente a Alzheimer. Por ejemplo, si se

desea comparar un grupo de pacientes con otro de control, las filas correspondientes a

los pacientes en la matriz de diseño, tendrán un uno en la columna de pacientes y un

cero en la de controles, y viceversa.

Una vez establecido el modelo (véase Figura 4.1), SPM ya puede estimar de

forma automática la contribución de cada efecto de forma separada para diferenciar

entre efectos de “interés” como el efecto de grupo y efectos “correctores”, como por

ejemplo, efectos de la edad en estudios paramétricos, así como por diferencias entre las

medias de dos factores. Mediante el GLM, esto se realiza mediante la definición de un

“contraste” que se define como un vector. La longitud de este vector es igual al número

de efectos incluidos en la matriz de diseño, de modo que cada efecto se pondera por su

elemento correspondiente. Si el efecto es correcto, entonces se pondera con un cero en

el vector contraste. En caso de que el efecto sea paramétrico, el contraste determina si la

correlación buscada es positiva, mediante un “1”, o bien negativa mediante un “-1”, en

la posición correspondiente a ese efecto en el vector contraste. En caso de efectos

categóricos los contrastes deben cumplir una condición importante: la suma de todos los

pesos en el contraste en las columnas de efectos categóricos debe ser igual a cero. En el

ejemplo, la pertenencia al grupo de pacientes contribuye con peso negativo (menor

metabolismo que controles), el grupo de controles contribuye con peso positivo (mayor

metabolismo que pacientes). De este modo, el vector de contraste sería [1, -1], ya que la

suma de los efectos 1 y 2 debe ser cero. En el caso contrario, para comprobar qué

regiones presentan un metabolismo mayor en pacientes, el contraste sería [-1, 1].

Además de todo eso SPM realiza el test estadístico, o sea un test t o un test F,

descrito mediante la matriz de diseño y el contraste, en todos los voxels de la imagen de

forma independiente (véase Figura 4.1). El resultado es una imagen cuyo valor en cada

voxel es el resultado del test estadístico y a la que se denomina mapa paramétrico

estadístico.

Page 122: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 97 _____________________________________________________________________________

Figura 4.1 Resultados de SPM para clasificación con el modelo descrito en el texto.

4.5 Voxels-as-Features (VAF). Es la aproximación básica que nos sirve de referencia. En ella las intensidades

de los voxels nI de la imagen funcional, como por ejemplo SPECT, son directamente

usados para construir los vectores de características NIIv ,,1 [Stoeckel et al.,

2001, 2004]. Esta aproximación es igual de exacta que el diagnóstico visual usando

como apoyo SPM, sin embargo presenta los mismos problemas que las aproximaciones

Page 123: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

98 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

multivariadas como ManCova: incluso después de bajar la resolución de la imagen sub-

muestreando, y tras aplicar una máscara cerebral seguimos teniendo un problema en la

clasificación de dimensión N~10000 en los vectores de características. Por lo tanto, el

tamaño de estos vectores es muy superior al número de muestras (50-100 es un número

realista), lo cual conduce al llamado problema de tamaño muestral pequeño (del inglés

“small sample size problem”) [Duin, 2000].

Aunque en principio se puede afrontar el problema de clasificación usando los

valores de intensidad de los voxels de las imágenes directamente como características,

no necesitándose ningún tipo de conocimiento específico sobre la enfermedad, ésta

opción no es la más adecuada. Al ser el tamaño directamente proporcional al número de

imágenes disponibles, surge un problema cuando disponemos solamente de unas pocas

imágenes, y al aumentar el número de éstas, se hace intratable computacionalmente.

Para evitar este coste, se debe tener en cuenta todo esto. Para solucionar el problema se

usarán solamente voxels que están en el cerebro, para lo cual se emplea una máscara de

cerebro. Esta máscara se define con la media de la población que se desea clasificar con

un umbral adecuado. El umbral se escoge de forma que incluya a todo el cerebro, tanto

las zonas claras como grises. En primer lugar, porque es muy difícil segmentar el gris

que se importa en las imágenes SPECT. En segundo lugar, porque debido al efecto de

volumen parcial, muchas señales correspondientes a diferentes tipos de tejido y por

tanto, la segmentación estricta no es útil ya que se pierde mucha información.

4.6 Extracción de Características. Se pueden generar características mediante técnicas de transformación lineales,

pero estas técnicas tan sólo representan una de la gran cantidad de posibilidades.

Aunque existen muchas semejanzas entre las distintas aplicaciones, también existen

diferencias considerables. Comenzaremos centrándonos en un área de aplicación muy

importante que es el análisis de características para aplicaciones como imágenes

médicas, visión de robot, el reconocimiento de objetos, etc. Dada una imagen o una

región perteneciente a ésta, el objetivo es generar las características para un clasificador

que posteriormente clasificará la imagen en una de las posibles clases. Una imagen

monocromática digital es generalmente el resultado de un proceso de discretización de

una función imagen yxI , continua, que será guardada un la computadora como una

matriz bidimensional con array nmI , que toman los valores 1,,1,0 xNm y

1,,1,0 yNn . Cada elemento nm, corresponde a un pixel de la imagen cuyo

brillo o intensidad es igual a nmI , . Además, cuando la intensidad nmI , , se

cuantifica en distintos niveles de gris gN , se denomina profundidad de la imagen a gN .

Entonces el gris en la secuencia de nivel de nmI , , puede tomar los siguientes valores

1,,1,0 gN . El valor de gN puede tomar valores relativamente grandes, de en torno a

64256 al guardar la imagen en la computadora. Sin embargo para el ojo humano es

difícil percibir diferencias de intensidad detallados, y con valores para gN

comprendidos entre 32 y 16 es suficiente para la representación de la imagen.

La necesidad de la generación de características proviene de las limitaciones

existentes para usar los datos sin procesar. Incluso para una imagen pequeña de 6464 ,

el número de pixels es de 4096. Para la mayoría de las tareas de clasificación esta

cantidad resulta excesiva. La extracción de características es un procedimiento que

Page 124: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 99 _____________________________________________________________________________

computa nuevas variables que surgen de los datos de la imagen nmI , . El objetivo es

generar las características que presenten mayor cantidad de información desde el punto

de vista de la separabilidad de las clases.

Otra área de aplicación no menos importante, es el uso para la clasificación de

audio. Durante muchos años, el análisis de imagen y sonido fueron considerados en

gran parte como dos disciplinas científicas con áreas de aplicación diferentes. Por lo

tanto para hacer un manejo eficiente de dicha información se requiere un enfoque

multimodal, en el que se seleccione la modalidad eficaz más apropiada.

La modalidad visual contiene todo lo que puede ser percibido por el ojo, tanto si

se trata de imágenes naturales o generadas artificialmente. La modalidad de audio

contiene discursos, música y sonidos ambientales que pueden ser escuchados en un

documento de video. Se pueden considerar algunas de las técnicas de generación de

características, tanto con aplicación para la modalidad visual como de audio. Por otro

lado, muchas características son el resultado de los diferentes enfoques de explotar la

naturaleza específica de las señales y codificar la información de clasificación requerida

de una manera más eficiente.

4.6.1 Características Regionales. Caracterización para la Textura.

La textura de la región de una imagen es determinada por la forma en que los

niveles de gris son distribuidos en los pixels de esta región. Aunque no existe ninguna

definición clara de “textura”, el objetivo es en algún modo cuantificar esta propiedad en

una región de la imagen. Estas características aparecerán explotando las relaciones de

estado subyaciendo a la distribución de niveles de gris.

4.6.2 Estadística de Primer Orden para Características.

Sea I una variable aleatoria que representa los niveles de grises en la región de

interés.

El histograma de primer orden se puede definir como:

regiónlaenpixelsdetotalnúmero

IgrisdenivelconpixelsdenúmeroIP [4.1]

es decir, IP es la fracción de pixels con nivel de gris I . Sea gN el número de niveles

de gris posibles. A parir de la expresión [4.1] se pueden definir las siguientes cantidades.

Momentos:

1

0

,2,1,gN

I

ii

i iIPIIEm [4.2]

Obviamente 10 m y IEm 1 , el valor medio de I .

Momentos centrales:

Page 125: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

100 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

1

0

1

gN

I

ii

i IPmIIEIE [4.3]

Los momentos centrales más frecuentemente usados son 32 , y 4 . Donde

2

2 es la varianza y 3 representa los skewness (puede estar normalizado a 3 ) y

4 representa la kurtosis (puede estar normalizado a 4 ) del histograma. La varianza es

una medida de la anchura del histograma, es decir, la medida de cuanto se diferencian

de la media los niveles de gris. Skewness es una medida del grado de la asimetría del

histograma entorno alrededor de la media, y la kurtosis ( 4 ) es una medida de la

brusquedad del histograma. Dependiendo del valor que tome 4 , el histograma se

puede denominar platykurtic para valores grandes, leptokurtic para valores pequeños, y

mesokurtic para el resto de valores. La distribución normal es una mesokurtic.

Otras cantidades que resultan de primer orden en el histograma son:

Momentos totales:

1

0

ˆgN

I

ii

i IPIEIIEIE [4.4]

Entropía:

1

0

22 logloggN

I

IPIPIPEH [4.5]

La entropía es una medida de la uniformidad del histograma. La más cercana a la

distribución uniforme ( IP constante) tiene el más alto H.

4.6.3 Características Estadísticas de Segundo Orden (matrices co-ocurrentes).

Las características que resultan de la estadística de primer-orden proveen de la

información relacionada con la distribución de nivel de gris de la imagen pero no dan

información sobre los respectivos lugares de los distintos niveles de gris dentro de la

imagen. ¿Todos los valores bajo un nivel de gris se colocaron juntos o se intercambian

con los que están evaluados por encima de dicho nivel? La información puede ser

extraída del histograma de segundo orden donde los pixels se consideran por pares.

Ahora entran en juego dos parámetros más. Estas son la distancia respectiva entre pixels

y su respectiva orientación. Sea d la distancia relativa medida entre pixel numerados

( 1d para los pixels más cercanos, etc.). Para la orientación, es cuantificada para las

direcciones horizontal, diagonal, vertical y antidiagonal (0º, 45º, 90º, 135º), tal y como

se muestra en la Figura 4.2. Para cada combinación de d y en dos dimensiones, el

histograma se define como:

paresposiblesdetotalnúmero

IIvalorescondciadisconpixelsdeparesdenúmero

IndmIInmIPo

21

21

,tan

,,,:0

[4.6]

de forma análoga:

Page 126: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 101 _____________________________________________________________________________

21

21

21

,,,:135

,,,:90

,,,:45

IdndmIInmIP

IdnmIInmIP

IdndmIInmIP

o

o

o

[4.7]

90º m

135º

45º

n

Figura 4.2 Las cuatro orientaciones empleadas para construir la matriz de co-ocurrencia.

Para cada uno de estos histogramas se define una matriz conocida como matriz

co-ocurrente de dependencia espacial. Supongamos que por ejemplo una imagen viene

dada por la matriz nmI , de dimensión 44 .

2223

3323

0011

2200

I [4.8]

También hemos asumido que 3,2,1,0,4 nmINg . La matriz de co-

ocurrencia para el par ,d está definida como gg NN de la siguiente forma:

3,30,3

3,00,0

1

RA [4.9]

donde 21, II son el número de pares de pixels, en la posición relativa ,d , donde

hay niveles de gris 1I , 2I respectivamente. R es el número total de pares de pixel

posibles. Por lo tanto 2121 ,,1

IIPIIR

. Para la imagen [4.8] y la posición relativa

del pixel º0,1 tenemos:

Page 127: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

102 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

2300

3601

0021

0114

24

11º dA [4.10]

es decir, para cada uno de los pares de intensidad, como por ejemplo el 0,0 , contamos

el número de pares de pixel con distancia relativa 1d y orientación º0 que toma

estos valores. Para nuestro ejemplo es 4. Dos de ellos resultan de buscar en la dirección

positiva y dos en la negativa. De acuerdo con la definición [4.6], estos pares de pixels

tienen coordenadas nm, y nm ,1 y niveles de gris 01 I , 02 I . El número total

de pares de píxel para la matriz es de 24. Efectivamente, para cada columna hay 1xN

parejas y hay yN filas. Por lo tanto, el número total tanto para las direcciones positivas

como negativas es 2443212 yx NN . Para diagonalizar en la dirección º45 y

1d para cada columna tenemos 12 xN pares, excepto el primero (o último) lugar,

para el cual no existe ningún par. Por lo tanto, el número total es

18332112 yx NN . Para 1d y º90 tenemos xy NN 12 pares, y

finalmente para 1d y º135 112 yx NN . Para la imagen de nuestro ejemplo y

º45,1 d obtenemos:

0311

3012

1101

1210

18

1145 dA [4.11]

De la definición de matriz de co-ocurrencia, es evidente que es simétrica, algo

que puede ser útil para reducir los siguientes cálculos.

Habiendo definido las probabilidades de co-ocurrencias de niveles de gris con

respecto al puesto relativo espacial del pixel, a continuación definiremos las

características correspondientes. Algunas de ellas tienen una interpretación física directa

con respecto a la textura, como por ejemplo cuantificar la aspereza, la suavidad, etc. En

cambio, otros no poseen tal propiedad, pero codifican la textura, información

relacionada con el poder discriminatorio alto.

Segundo Momento Angular.

1

0

1

0

2,

g gN

i

N

j

jiPASM [4.12]

Esta característica es una medida de la suavidad de la imagen. Efectivamente, si

todos los pixels tienen el mismo nivel de gris kI , entonces 1, kkP y 0, jiP ,

ki o kj , y 1ASM . En el otro extremo, si pudiéramos tener todos los posibles

pares de niveles de gris con probabilidad igual a R

1, entonces

RR

RASM

12 . La

región menos suave, la distribución más uniforme jiP , y el más bajo ASM.

Page 128: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 103 _____________________________________________________________________________

Contraste.

1

0

1

0

1

0

2 ;,g g gN

n

N

i

N

j

njijiPnCON [4.13]

Es una medida del contraste de la imagen, es decir, una medida de las

diferencias locales del nivel de gris. Efectivamente, i jjiP , representa el

porcentaje de pares de pixel cuya intensidad es diferente a n . La dependencia en 2n

pesa las diferencias más grandes; por lo tanto CON toma valores altos para imágenes

con elevado contraste.

Momento de Diferencia Inverso.

1

0

1

02

1

,g gN

i

N

j ji

jiPIDF [4.14]

Esta característica toma valores altos cuando el contraste de la imagen es bajo,

es inversamente dependiente de 2ji .

Entropía.

1

0

1

0

2 ,log,g gN

i

N

j

xy jiPjiPH [4.15]

La entropía es una medida de la aleatoriedad y muestra valores bajos para

imágenes suaves.

Estas características son simplemente una muestra de un conjunto mayor que se

puede obtener. En la Tabla 4.1 se muestran algunas características clásicas. Las

estadísticas en el eje yx están relacionadas según yx PP . Todas las características de

la tabla son función de la distancia d y de la orientación . Por lo tanto, si una imagen

se gira, los valores de las características también cambian. En la práctica, cuando d es

evaluada en las cuatro direcciones se compensa. De este modo hacemos estas

características de textura tolerantes a la rotación.

Page 129: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

104 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Tabla 4.1 Características clásicas.

Segundo momento angular:

i jjiPf

2

1 ,

Contraste:

1

0

2

2 ,gN

n

nji

i j

jiPnf

Correlación:

yx

yxi jjiPij

f

,

3

Varianza:

i jjiPif ,

2

4

Momento de diferencia inverso:

i j ji

jiPf

251

,

Promedio de suma (la diferencia):

122

066ˆ gg NN

i yx iiPff

Suma Varianza:

22

0

2

67

gN

i yx iPfif

Suma Entropía:

Definición:

k

yx kPiP

kjPkiPjiQ

,,,

i j yxxy jPiPjiPH log,1

jx jiPiP ,

i kjijyx jiPkP

,,

22

08 loggN

i yxyx iPiPf

Entropía:

i j xyHjiPjiPf ,log,9

Diferencia Varianza:

1

0

2

610ˆgN

i yx iPfif

Diferencia entropía:

1

011 loggN

i yxyx iPiPf

Information Measure I:

yx

xyxy

HH

HHf

,max

1

12

Information Measure II:

xyxy HHf 2

13 2exp1

Coeficiente de máxima correlación: 2

1

14 arg2 Qofeigenvalueestlndf

Page 130: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 105 _____________________________________________________________________________

j i yxyxxy jPiPjPiPH log2 [4.16]

iy jiPjP , [4.17]

Por ejemplo, la característica de textura genera énfasis sobre la percepción

visual humana. Un conjunto de características indicado, corresponde a esperanza de

textura, contraste, regularidad, etc. En las características sobre la base de una definición

generalizada de una matriz de concurrencia, es más apropiado para texturas con grandes

diferencias (macrotexturas).

4.7 Selección del Subconjunto de Características. Una de las cuestiones de importancia capital es la habilidad de un clasificador

para generalizar, lo cual no depende exclusivamente del clasificador elegido, sino que

también depende directamente de la construcción del vector de características. Los datos

originales se pueden organizar de diferentes formas para construir estos vectores, por lo

que la primera cuestión a abordar es la relación entre el tamaño del conjunto de

muestras de entrenamiento n y la dimensión del espacio de características m .

La teoría de aprendizaje estadístico ofrece una primera respuesta a esta cuestión,

estableciendo la habilidad de un clasificador para agrupar de manera efectiva n puntos

de un espacio de alta dimensionalidad en dos clases diferentes [Cover, 1965].

Consideremos n puntos en un espacio de características m-dimensional. Se asume que

los puntos están “bien distribuidos”, de manera que no existe ningún subconjunto de n-1

puntos que se sitúen en un hiperplano de dimensión menor m-1. El número NlO , de

agrupaciones que pueden ser formadas por hiperplanos m-1-dimensionales para separar

los n puntos en dos clases viene dado por [Cover, 1965]:

m

i i

nmnO

0

12, [4.18]

donde

!!1

!11

iin

n

i

n

[4.19]

Por lo tanto, la probabilidad de agrupar n puntos en un espacio de características

m-dimensional en 2 clases linealmente separables será:

11

11

2

1

2

,0

1

mn

mni

nmnO

P

m

in

n

m

n [4.20]

La Figura 4.3 muestra la probabilidad m

nP como una función de nm / . Para

espacios de características de baja dimensión 3.0/ nm , la probabilidad de separación

Page 131: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

106 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

de clases m

nP es prácticamente cero, esto es, los clasificadores lineales tienen un bajo

rendimiento discerniente entre dos clases. Sin embargo, cuando se aumenta la

dimensión del espacio de características, la probabilidad de que el conjunto de n puntos

sea separable se aproxima a la unidad. Añadir información al vector de características

mejora la separabilidad de clases para el caso de clasificador lineal.

Figura 4.3 Probabilidad de agrupar n puntos en un espacio de características m-dimensional en 2 clases linealmente separables.

Por otro lado, el hecho de que un cociente nm / pequeño produce bajos valores

para probabilidad de separabilidad puede resolverse para un número fijo n de puntos a

clasificar mediante un mapeo a un espacio de dimensión mayor. Esto puede conseguirse

a través del uso de kernels, que involucran el uso de un producto interno no lineal,

convirtiendo el espacio de características en otro de dimensión mayor donde m

nP

aumente, y un clasificador lineal pueda operar satisfactoriamente.

A la vista de la Figura 4.3 y de la ecuación 4.20 es natural pensar que un

aumento de la dimensión del espacio de características será siempre beneficioso para

discriminar entre dos clases. Paradójicamente, ocurre exactamente lo contrario, dando

lugar al problema conocido como la maldición de la dimensionalidad (del inglés “curse

of dimensionality”) o el fenómeno del máximo (del inglés “peaking phenomenon”).

Este problema se describe como una reducción de la eficacia de un clasificador al añadir

nuevas características a los vectores de entrenamiento cuando el número de estos es

relativamente pequeño en comparación con el número de características. El problema

radica en que para definir un clasificador en un espacio de características de alta

dimensionalidad es necesario estimar un número de parámetros comparable a la

dimensión del espacio. Por ejemplo, en el caso de un clasificador lineal, será necesario

estimar 1m parámetros en un espacio de características m-dimensional. Por lo tanto,

aunque el clasificador separe los datos de entrenamiento satisfactoriamente, la fiabilidad

en la estimación de los parámetros del clasificador será baja, ya que se estimarán

muchos parámetros con un número muy reducido de vectores de entrenamiento. El

Page 132: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 107 _____________________________________________________________________________

clasificador construido con esta limitación tendrá, por consiguiente, una baja capacidad

de generalización.

El problema de la “maldición” de la dimensionalidad justifica el uso de técnicas

de reducción de la dimensionalidad del espacio de características, cuando el número de

características usadas para diseñar el clasificador es mucho mayor que el número de

vectores de entrenamiento disponibles. Aunque este es el principal motivo para hacerlo,

existen otras motivaciones adicionales para reducir la dimensión del espacio de

características hasta un mínimo razonable:

La reducción del coste computacional de los algoritmos de entrenamiento y test.

Eliminación de la correlación entre características.

Selección de las características más relevantes para la clasificación.

Aunque el problema de la maldición no exista, el uso de un subconjunto de

características con mejor capacidad de discriminación entre clases, optimizarán tanto el

coste computacional del algoritmo de clasificación como el rendimiento del mismo. Se

examinaran dos métodos generales para la obtención del subconjunto de características:

los métodos de filtro y los métodos de envoltura y se estudiara algunos ejemplo

concretos para ellos.

4.8 Métodos de Filtrado. El primer enfoque que examinaremos para la obtención del subconjunto de

características para construir los vectores de entrenamiento y test, introduce un proceso

independiente con este fin, que ocurre antes de la categorización del vector de

características. Por es esta razón, [John et al., 1994] los denominaron métodos de filtro,

ya que mediante ellos se descartan los atributos irrelevantes para la clasificación antes

de que ésta tenga lugar. Este paso de reprocesamiento de los datos usa aspectos

generales del conjunto de entrenamiento para seleccionar o extraer unas características y

excluir otras. De esta manera, los métodos de filtro no dependen del algoritmo de

clasificación y podrán ser combinados con cualquiera de estos algoritmos, sin más que

usar el subconjunto de características obtenido mediante filtrado para clasificación.

El método de filtro más sencillo que usaremos para reducir la dimensión del

espacio de características en el caso de imágenes médicas será el de reducir el tamaño

de las imágenes mediante subsampling. Si la comprensión de las imágenes no es

elevada, este es un método eficaz de disminuir la dimensión del espacio de

características, obteniéndose un subconjunto de características que recoge prácticamente

la misma información que los datos originales. En este caso, no se seleccionan aquellas

características relevantes para la clasificación, corriéndose el riesgo de eliminar

información importante para diseñar el clasificador. A continuación mostraremos

ejemplos en los que se pretende evitar este problema.

Ejemplo 1: Máscara.

Una manera de seleccionar los datos interesantes para la clasificación puede ser

la construcción de una máscara binaria que extraiga de las imágenes aquellos voxels

cuya intensidad sobrepase un límite prefijado. Una razón evidente para usar este método

es que, fijando el umbral de selección adecuadamente, permitirá seleccionar aquellos

voxels cuya intensidad sobrepase un límite prefijado. Una razón evidente para usar este

método es que, fijando el umbral de selección adecuadamente, permitirá seleccionar

Page 133: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

108 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

aquellos voxels de la imagen tomográfica que pertenezcan al cerebro, descartando todas

aquellas regiones que quedan fuera del cerebro cuya intensidad es muy baja y no

contiene información útil para la clasificación. La definición exacta parte del cálculo de

la imagen media del conjunto de datos. Considerando que tenemos un conjunto de

imágenes cerebrales n ,,, 21 , se define la imagen media como:

n

i

in 1

1 [4.21]

donde m

i R es la imagen i muestral. Se define la máscara E binaria a partir de los

valores j :

mjtsi

mjtsi

j

j

j,,10

,,11

[4.22]

donde t es un umbral de intensidad fijado a priori. Con estos valores se puede construir

la matriz de máscara E como:

mdiagE ,,, 21 [4.23]

De esta manera, la aplicación de la máscara E sobre un vector imagen i :

ET

i

T

î [4.24]

producirá un nuevo vector columna i . Este nuevo vector contendrá únicamente la

información de aquellos voxels cuya intensidad promedio en el conjunto de muestras

supere un valor fijado por t . Si t es pequeño se obtendrá una mascara que seleccione el

interior del cerebro, y aumentando paulatinamente el valor de t , se irán descartando

aquellas regiones en las que la intensidad promedio no sea muy alta. Este segundo caso

queda reflejado en la Figura 4.4, y puede introducir mejoras para nuestros intereses, ya

que las regiones cuya intensidad promedio sea baja, tanto en las imágenes de pacientes

afectados por el Alzheimer como para los pacientes control, son regiones que no tienen

interés para el diagnóstico de la enfermedad de Alzheimer. Esto ocurre tanto en

imágenes PET como SPECT ya que, en ambos casos, las imágenes afectadas por la

enfermedad presentan unos niveles de intensidad menores que en las normales

[Goethals et al., 2002], por lo que su valor promedio será intermedio y no bajo.

Page 134: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 109 _____________________________________________________________________________

Figura 4.4 Secciones transversales. Columna izquierda: Un paciente normal. Columna central:

Un paciente DTA. Columna derecha: Máscara.

Ejemplo 2: Transformación Lineal.

Otra forma de reducir la dimensionalidad de los vectores de imágenes

im

T

i ,,, 21 será aplicándoles una transformación lineal del tipo:

Pz T

ii [4.25]

donde P es una matriz mq formada por p vectores columna imi pppP ,,, 21 :

qPPPP ,,, 21 y iqi zzzZ ,,, 21 es el vector de características reducido.

Expandiendo los vectores de la ecuación anterior en coordenadas:

qmmmnm

m

nq

q

p

p

p

p

p

p

zzz

zzz

1

2

1

1

1

21

121

21

121

,,

,,,

,,,

,,,

,,,

[4.26]

Si mq , entonces la ecuación [4.25] solo supondrá una transformación lineal

de los datos, así que en general estaremos interesados en transformaciones con mq .

Esta clase de métodos de filtro se basa en la extracción de características y no en

la selección, consiguiendo un subconjunto de características relevantes transformando

los datos originales en un nuevo conjunto. El hecho de trabajar en espacios Euclídeos,

permite dar una interpretación geométrica sencilla a este tipo de transformaciones [4.25].

Tomando una base cartesiana de mR , es decir:

1,,0,0

0,,0,11

mu

u

[4.27]

donde miRu m

i ,,1, , podemos expresar detalladamente el vector imagen como:

Page 135: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

110 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

m

i

iiu1

[4.28]

que es su expansión en coordenadas. A menudo omitiremos que estamos trabajando en

esta base cartesiana, y expresaremos el vector simplemente a través de sus

coordenadas en esta base m ,,, 21 . Si queremos expresar el vector imagen

en otra base ip de mR , entonces su representación en esta nueva base será:

m

i

iiPx1

[4.29]

donde las coordenadas ix del vector en la nueva base se readicionan con las anteriores

en la base cartesiana mediante una transformación del tipo [4.25], con mq . Por lo

tanto, si mq , entonces [4.25] no es más que la expresión de las coordenadas del

vector en el subespacio engendrado por los vectores qiRP m

i ,,1, . En otras

palabras, la transformación [4.25] se puede visualizar como la proyección del vector

en un subsespacio, que queda definido por los vectores iP . El objetivo será encontrar un

subespacio del espacio de características H de dimensión menor, en el que los vectores

originales se queden fielmente representados, o al menos sus atributos más relevantes

para la clasificación. Se conseguirán diferentes realizaciones de esta disminución de la

dimensionalidad en función de la elección de las vectores iP de P .

Un ejemplo de este tipo de transformaciones lo constituye la máscara de la

sección anterior, que se puede considerar como un caso particular de transformación

lineal. La ecuación [4.24] es de la forma [4.25], identificando E con P . Puesto que la

matriz E es diagonal y binaria, la interpretación geométrica de esta transformación es

sencilla: mediante la máscara se selecciona un subconjunto de vectores de la base [4.27]

para representar la imagen, descartándose aquellos que determina la ecuación [4.23] y

sin cambiar de base.

La técnica estadística de análisis de componentes principales [Jolliffe, 2002],

constituye el ejemplo más conocido de criterio para definir la matriz P , aunque no se

presente tradicionalmente de esta manera. En este análisis se generan combinaciones

lineales de los elementos originales, cuya matriz de transformación esta formada por

vectores que son ortogonales en el espacio original. Sin embargo es necesario cierto

criterio para seleccionar un subconjunto de los datos transformados, que permite reducir

la dimensionalidad del espacio de características original, por lo que la transformación

no toma la forma de [4.25].

Empíricamente, las componentes principales han logrado reducir la

dimensionalidad de una amplia variedad de problemas de aprendizaje. [Blum et al.,

1997] describen las garantías teóricas de los métodos de esta forma, cuando la función

objetivo es una intersección de halfspaces y las muestras son elegidos de una

distribución suficientemente benigna. El método de análisis de componentes

independientes [Comon, 1994], relacionado con el anterior, incorpora ideas similares,

pero insistiendo en la independencia de las nuevas características en lugar de en su

ortogonalidad.

Page 136: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 111 _____________________________________________________________________________

4.9 Métodos de Envoltura. El segundo enfoque genérico para la selección de características también se

produce fuera del proceso de clasificación, aunque utilizando la clasificación como

subrutina, en lugar de cómo un postprocesador. Por esta razón, [John et al., 1994] se

refieren a estos como métodos de envoltura (del inglés “wrapping methods”) [Kohavi et

al., 1997]. El algoritmo típico de este tipo busca subconjuntos en el espacio de

características que produzcan resultados óptimos en la clasificación, ejecutando

internamente la función clasificadora en cada alternativa. Tras este proceso, la selección

de características se lleva a cabo usando como criterio la estimación de la precisión del

clasificador, seleccionándose aquellas características que produjeron mejores resultados,

y descartando el resto. Los métodos de envoltura tienen una larga historia dentro de la

literatura sobre estadística y reconocimiento de patrones, podemos citar por ejemplo

[Devijver et al., 1982], donde el problema de la selección de características ha sido un

tema de investigación activo durante mucho tiempo, pero su uso dentro del aprendizaje

automático es relativamente reciente.

El argumento general a favor de los métodos de envoltura es que al usar la

clasificación internamente, se obtendrá una estimación mejor de la precisión en ese

subconjunto que si se usa una medida separada con otro sesgo. Por ejemplo, tanto

[Doak, 1992] como [John et al., 1994] defienden la utilización del un método de

envoltura para mejorar el comportamiento de inducción de los árboles de decisión, o

[John et al., 1994] que presenta estudios comparativos sobre los efectos de usar métodos

de filtro frente a métodos de envoltura.

Los métodos de envoltura puede proporcionar soluciones más precisas que los

metodos de filtro al problema de la selección de características [Kohavi et al., 1997].

Sin embargo, el principal inconveniente de los métodos de envoltura frente a los

métodos de filtro es el del coste computacional del primero, resultado de llamar al

algoritmo de clasificación en cada conjunto de características consideradas, que debe ser

evaluado utilizando un subconjunto excluido del proceso.

4.10 Componentes. Esta sección muestra una novedosa técnica de extracción de características de

ayuda al diagnóstico que combina técnica de reducción de características basadas en

métodos de filtro de tipo máscara y de envoltura con el método estadístico de pegado de

votos [Breiman, 1999] para la agregación de clasificadores SVM y su aplicaron a las

componentes relevantes de la imagen. La propuesta se define como un esquema híbrido

dado que aplica un análisis multivariado usando ROIs pero, a la vez, considera una

reducción de características y selección de componentes del espacio de entrada que se

acerca a la aproximación univariada (la decisión, que en SPM se obtiene a nivel de

voxel, en nuestro caso se toma sobre un conjunto de voxels o componentes a la cual

aplicamos el clasificador). Siguiendo la metodología de SPM, la inferencia se evalúa

relacionando análisis previos en cada componente.

4.10.1 Métodos de Componentes.

La mayor parte de los procesos biológicos, como por ejemplo la actividad

cerebral, exhiben localidad: las características que contienen información de regiones

anatómicas que están “próximas”, tiene probabilidad de estar altamente correlacionadas.

Además en nuestro caso el diagnóstico efectivo de la enfermedad de Alzheimer se basa

Page 137: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

112 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

en el hallazgo de placas amiloide y enredos de neurofibrillas en determinadas áreas

corticales en un suficiente número, en la autopsia, lo que implica una localidad de las

áreas afectadas. Una técnica basada en estadística univariada, por ejemplo la que usa

información a nivel de voxel para la clasificación, es insuficiente para recuperar

información fundamental que resida en la influencia entre voxels. De hecho se sabe que

sólo los voxels adyacentes en ciertas regiones cerebrales serían relevantes en la

distinción de los pacientes afectados por la enfermedad de Alzheimer.

Por lo tanto, el uso de técnicas estadísticas multivariadas aplicadas a imágenes

funcionales para la ayuda al diagnóstico de la enfermedad de Alzheimer está

plenamente justificado para superar las limitaciones impuestas por las aproximaciones

univariadas ampliamente usadas, como SPM [Friston et al., 2007; Ziolko et al., 2006].

No todas las técnicas multivariadas serán adecuadas para dar cuenta de las relaciones

locales existentes entre voxels. Por ejemplo, VAF 2.3.2 considera todos los voxels en un

solo vector teniéndose en cuenta las relaciones entre ellos, aunque se pierde la

información local, ya que interesan solo las relaciones entre un grupo pequeño de voxels,

que corresponde con la región cerebral afectada. Además, presenta otro tipo de

limitaciones como la necesidad de un número de muestras elevado. SVM se aplica

como ejemplo de análisis multivariado, pero aplicado directamente presenta el problema

de la maldición de la alta dimensión, al igual que la citada técnica estadística para

inferencia Mancova, debido al hecho de que la imagen representa una gran cantidad de

información y la mayor parte de estudios en neuroimagen disponen de un número de

muestras pequeño.

El enfoque que proponemos en esta sección está basado en la descomposición de

una imagen funcional, por ejemplo una imagen SPECT, en un conjunto de subimágenes

o componentes. La principal motivación para hacer esta factorización es la búsqueda de

las regiones más relevantes para la clasificación. Cada componente corresponderá a la

región cerebral, y se hará un análisis individual de cada componente a través de un

SVM. Esto permitirá localizar las regiones interesantes e ignorar las áreas cerebrales

irrelevantes para la clasificación. Al mismo tiempo, el problema del tamaño muestral

pequeño también se solventa por medio de este esquema implícito de reducción de la

dimensión de las características: para estudiar independientemente las componentes, se

construirá un vector de características con ellas, obteniéndose uno de menor dimensión.

Estas regiones pueden estar separadas en el espacio, por lo que es necesario aplicar

finalmente un agregado de SVMs para obtener la decisión final sobre el sujeto de

estudio.

4.10.2 Extracción de Características Basadas en Factorización.

Una imagen funcional es una representación 3D del cerebro que reconstruye en

un volumen 3RV algún proceso que tiene lugar en el cerebro. Dependiendo de la

técnica de imagen empleada, éste puede ser información del riego sanguíneo, actividad

metabólica de la glucosa, etc. La factorización del volumen consiste en la división de

toda la imagen cerebral en un conjunto de subvolúmenes o componentes, para realizar la

tarea de clasificación sobre cada componente. De manera explícita, describimos una

imagen funcional de un sujeto como una función de 3 variables zyxI ,, , que contiene

la intensidad registrada en cada voxel con coordenadas Vzyx ,, . Debido a las

limitaciones técnicas, sólo se podrá medir un conjunto de valores de esta función

continua, ya que las posiciones de los voxels zyx ,, forman una red cúbica y la

Page 138: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 113 _____________________________________________________________________________

distribución de intensidad dentro del volumen V tomará valores discretos como las

imágenes muestreadas en D2 . Por lo tanto, la información real registrada de la imagen

funcional del cerebro será representada por una matriz I de tamaño ZYX , donde el

tamaño de la matriz da cuenta de la longitud de los ejes que delimitan el volumen

cúbico V que encierra la información cerebral. El elemento de matriz ijkI será la

intensidad medida en el voxel con coordenadas kji zyx ,, , es decir:

Zk

Yj

XizyxII kjiijk

,,1

,,1

,,1,,,

[4.30]

Considérese el conjunto:

VCzyxzyxC cbacba ,,:,, [4.31]

que define en subvolumen de V . Nótese que la definición del subvolumen C no hace

referencia a la forma que ha de tener éste, a pesar de que V tiene una forma cúbica. Un

ejemplo de C sería una esfera con un radio suficientemente pequeño para quedar

completamente contenida en el interior de V . En la práctica, puesto que V esta

muestreado en voxels, C estará formado por un conjunto discreto de voxels, y contendrá

un número finito de elementos F .

Podemos considerar dividir el volumen V en s subvolumenes sCCC ,,, 21 , de

manera que todo el volumen V quede cubierto. La imagen cerebral completa VI

queda subdividida en el mismo número de subconjuntos o componentes

sCICICI ,,, 21 , donde una componente estará constituida por un conjunto de

valores de intensidad de manera que:

s

m

s

m

mm CICIVI1 1

[4.32]

donde el segundo término de la parte derecha de la igualdad elimina la redundancia del

solapamiento de las componentes, por ejemplo, las componentes que se solapan y

cubren parcialmente la misma región cerebral. Cada componente mCI selecciona una

región del cerebro mediante un conjunto de voxels (véase Figura 4.5). Las intensidades

en esos voxels son concatenadas en un vector de características Fxxx ,,1 , cuyas

coordenadas ix vienen dadas por:

mcbacbaabci CzyxzyxIIx ,,,,, [4.33]

y donde F es el número de voxels en esa componente. Cada vector FRx constará de

una etiqueta con 1y . Estos etiquetados se usan como vectores de características para

a construcción de un clasificador SVM. Existirán tantos vectores por cada imagen

cerebral como subdivisiones en componentes, todos ellos compartiendo la misma

etiqueta. Sin embargo, la tarea de clasificación se llevará a cabo considerando cada

Page 139: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

114 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

componente individualmente, obteniéndose un número s de categorizaciones

alternativas de una misma imagen. El último paso supondrá el agregado del conjunto de

decisiones SVM para obtener una decisión final colectiva [Illán, 2009].

Figura 4.5 Cortes sagital, coronal y transversal de una imagen SPECT cerebral con la

componente de la imagen remarcada.

4.11 Componentes Principales. El Análisis de Componentes Principales (del inglés “Principal Component

Análisis” PCA) es una técnica estándar ara extraer las características más significativas

de un conjunto de datos. Se basa en la acción de una transformación lineal, también

conocida como la transformación de Karhunen-Loéve, sobre un conjunto de datos de

media nula, que diagonaliza su matriz de covarianza. Matemáticamente se define como

una transformación lineal ortogonal que transforma los datos en un nuevo conjunto de

variables que agrupan la mayor cantidad de varianza, denominadas Componentes

Principales (CP). La primera componente principal contendrá las características de los

datos con mayor contribución a la varianza, seguida por orden decreciente en su valor

de la varianza por la segunda componente principal, tercera, etc. Existen varias

construcciones equivalentes entre ellas, que conducen a la obtención de estas

Componentes Principales, siendo cada una más apropiada en un contexto diferente.

4.11.1 Análisis de Componentes Principales.

El conjunto de datos formado por n imágenes cerebrales iD3 , cuyo tamaño

típico es de voxelsm 5105~699579 , se entenderá en este contexto como un

conjunto de vectores columna m

i R , ni ,,2,1 formados por la concatenación de

los voxels de la imagen. Así im

T

i ,,, 21 , donde j representa el valor de la

intensidad correspondiente al voxel j.

4.11.1.1 Transformación de Karhumen-Loéve.

Sea mR un vector m-dimensional, existe una representación exacta de éste a

través de un conjunto de m vectores linealmente independientes m

i Re como:

m

i

iiez1

[4.34]

donde se asume que los vectores je están sujetos a la condición de ortogonalidad:

Page 140: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 115 _____________________________________________________________________________

ijj

T

i ee [4.35]

donde ij es la delta de Kronecker. De esta manera, la ecuación [4.34] no describe otra

cosa que un cambio de coordenadas a una nueva base ortonormal de mR , donde las

coordenadas del vector en la nueva base vendrán dadas por:

T

ii ez [4.36]

A esta coordenada iz la llamaremos la componente i-ésima en el nuevo espacio

engendrado por la base ie . Supongamos que, en lugar de una representación fiel de

como en expresión [4.34], estamos interesados en aproximar usando un número

reducido mp de vectores de la base ie . Una forma de hacerlo sería sustituir

algunas componentes iz , cuyos valores no calculamos, por constantes arbitrarias ib , de

manera que se construye la siguiente aproximación de :

p

i

m

pi

iiii ebez1 1

ˆ [4.37]

El error que se comete al aproximar por vendrá dado por:

m

i

p

i

m

pi

m

pi

iiiiiiiii ebzebezez1 1 1 1

ˆ [4.38]

Seguiremos un criterio de mínimos cuadrados para obtener una solución óptima

al problema de la aproximación, buscando aquel valor de las constantes ib que minimice

el error del cuadrado de la media (del inglés “mean-square error” mse):

m

pi

ii bzEEmse1

22 [4.39]

Por lo tanto minimizar el error en el cuadrado de la media equivale a buscar una

solución a:

022

iiii

i

bzEbzEb

[4.40]

que sencillamente conduce a:

EezEb T

iii [4.41]

quedando determinadas las constantes ib a el valor esperado de las componentes iz .

Ahora, se puede reescribir el error en el cuadrado de la media como:

Page 141: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

116 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

m

pj

i

T

i

m

pi

i

TT

i

m

pi

ii

ee

eEEEEe

zEzEmse

1

1

1

2

[4.42]

donde es, por definición, la matriz de covarianza de . Se puede demostrar

[Fukunaga, 1990; Miranda et al., 2008] que la elección óptima para ie es aquella que

satisface:

iii ee [4.43]

o dicho de otro modo, aquella en la que ie y i son los autovectores y autovalores de la

matriz de covarianza. La expansión de un vector en términos de autovectores de la

matriz de covarianza se denomina expansión de Karhunen-Loéve.

4.12 Reducción de la Dimensionalidad Mediante Selección de Componentes Principales.

Un caso real de base de datos de imágenes cerebrales contendrá un número de

imágenes del orden de n~100 [Ishii et al., 2006]. El valor esperado y la matriz de

covarianza habrán de ser estimados por la media muestral:

n

i

in 1

1 [4.44]

y la covarianza muestral:

n

i

T

iin

C11

1 [4.45]

De la ecuación [4.41], se deduce que la transformación de Karhunen-Loéve de

los datos originales se simplifica si se centran los datos extrayéndose la media muestral,

de manera que se elimina el segundo término en [4.37] que no contiene información

relevante sobre la varianza de los datos. Se ha demostrado que, más que una

simplificación, trabajar con datos de media nula es una condición necesaria para la

obtención de las componentes principales [Miranda et al., 2008]. Por lo tanto, la

transformación de PCA actuará sobre el nuevo conjunto:

niii ,,2,1 [4.46]

y estará compuesta por un conjunto de m autovectores ortogonales ie de la matriz de

covarianza muestral:

n

i

TT

ii AAnn

C1 1

1

1

1 [4.47]

donde nA ,,, 21 , tales que:

Page 142: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 117 _____________________________________________________________________________

Aez T

ii [4.48]

Denominaremos a este vector fila n

i Rz la i-ésima componente principal.

Existirán m componentes principales, entre las que no existirá correlación ya que su

matriz de covarianza será diagonal. Los autovalores de la matriz de covarianza i nos

darán la varianza de las componentes principales ya que:

22

2

2

1 ,,, mZ

T diagEE [4.49]

donde meeeE ,,, 21 y mzzzZ ,,, 21 . De las propiedades de la traza, se deduce

también que:

n

i

iZtrtr1

2 [4.50]

lo que permite dar una interpretación a la ecuación de minimización del error en el

cuadrado de la media:

m

pi

m

pi

m

pi

iZi

T

i eeMMSE1 1 1

2 [4.51]

El proceso de optimización buscará por tanto, los pm valores de i cuya suma

sea mínima, o dicho de otra manera, consistirá en seleccionar aquellas p componentes

principales cuya varianza sea máxima. Así, la aproximación [4.37] vendrá dada por la

combinación lineal de los p autovectores ie cuyas componentes principales tengan

mayor varianza, recogiéndose las características de mayor variabilidad de los datos en

un número mp de variables:

p

i

ii zeA1

ˆ [4.52]

En resumen, una transformación de PCA consistirá en la diagonalización de la

matriz de covarianza de los datos centrados mediante un conjunto de autovectores

ortonormales, lo cual es siempre posible debido al teorema de descomposición espectral,

ya que es una matriz simétrica definida positiva. Una vez diagonalizada, se

seleccionarán los autovalores más altos y sus correspondientes autovectores, que se

usarán para representar las características de los datos reduciendo los grados de libertad

del sistema.

4.12.1 Eigenbrains.

En correspondencia con la terminología usada en el campo del reconocimiento

de caras, donde se usa el término eigenfaces para denominar a los autovalores de la

matriz de covarianza [Turk et al., 1991], se llamaran „eigenbrains‟ a los autovectores ie ,

por su apariencia de imagen cerebral, refiriéndonos también al espacio que engendran

como „espacio de eigenbrains‟ [Illán et al., 2010]. Para obtenerlos, será necesario

diagonalizar una matriz mm , que en el caso de imágenes cerebrales se convertirá en

una matriz 55 105105 . La complejidad computacional del proceso de

Page 143: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

118 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

diagonalización se puede ver reducida si se ataca el problema de diagonalizar la matriz

AAC Tˆ , cuyo tamaño es nn , normalmente con mn . Si llamamos n

j Rv a los

autovectores de C :

njivAvA jjj

T ,,2,, [4.53]

Multiplicando esta ecuación por la izquierda por A , obtenemos:

jjj

T AvAvAA [4.54]

de forma que jAv son autovectores de TAA . Esto permite obtener n de los

m autovectores ie de C de los autovectores jv de C como:

njAve jj ,,1 [4.55]

Normalmente, sólo un número reducido de eigenbrains es necesario dar cuenta

de la mayor pare de la varianza muestral, por lo que sólo un pequeño número p será

necesario para describir apropiadamente el conjunto de datos (en este caso np ). A

menudo, incluso un subconjunto de estos eigenbrains será suficiente para representar

correctamente el conjunto de datos. Sin embargo, no ha quedado demostrado que los n

eigenbrains obtenidos a través de C sean suficientes o los adecuados para representar

bien la matriz de datos. Existe un argumento que demuestra que en efecto lo son, basado

en la relación de PCA con una descomposición de valor singular (del inglés “Singular

Value Decomposition” SVD). La transformación [4.48] es equivalente a la SVD de la

matriz de datos A , que viene dada por:

TEDVA [4.56]

donde E y V son matrices ortogonales mm y nn respectivamente, y D es una

matriz diagonal nm . La SVD garantiza que la matriz D queda únicamente

determinada por el valor de A si los valores de D están organizados en orden

decreciente, mientras que las matrices E y V no quedan completamente determinadas.

Podemos expresar la matriz C en términos de la descomposición singular como:

TTT EEDDAAC [4.57]

que no es otra cosa que la ecuación [4.49]

),,,( 22

2

2

1 mZ

T diagDD [4.58]

Haciendo lo mismo con C se llega a:

TTT DVVDAAC ˆ [4.59]

donde ahora:

Page 144: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 119 _____________________________________________________________________________

22

2

2

1 ,,, n

T diagDD [4.60]

Puesto que D es diagonal, la única forma que puede tomar es:

nmn

n

D

000

00

000

000

2

1

[4.61]

lo que obliga a que al menos 0k con mnk ,,1 garantizando que sólo es

necesario calcular los n eigenbrains obtenidos a través de C . Por consiguiente, la

representación en términos de eigenbrains del conjunto de datos dependerá del tamaño

muestral n .

4.12.2 Selección de Características a Partir de Componentes Principales.

La transformación de PCA pertenece a la clase de transformaciones lineales que

permiten la reducción dimensional del espacio de características, una vez establecido

que solo mn eigenbrain entrarán en juego en la ecuación [4.48]. A menudo, es

necesario un número aun más reducido de eigenbrains para dar cuenta de la mayor parte

de la varianza. Por ejemplo, para en un caso típico de imágenes solo harán falta los 30

primeros eigenbrains de 79 para explicar el 90% de la varianza.

Sin embargo, la ecuación [4.48] no está en la forma [4.26], ya que las

componentes principales son combinaciones lineales de los vectores originales. Se

puede reorganizar la información contenida en las componentes principales para que sea

útil en el aprendizaje de la siguiente manera: La ecuación [4.52] define la representación

del conjunto de vectores imagen en la base de los eigenbrains, cuyas coordinas vienen

dadas por la ecuación [4.48], es decir, las componentes principales. Expandiremos esta

última ecuación para mostrar exactamente como se obtiene el conjunto reducido de p

componentes principales:

n

pne

e

e

z

z

z

,,, 21

2

1

2

1

[4.62]

que, mostrando las coordenadas de cada vector, puede ser expandida a:

nmmmnn

n

n

nm

m

m

eee

eee

eee

zzz

zzz

zzz

2

1

2

2

1

1

2

1

21

221

121

21

221

121

,,

,,,

,,,

,,,

,,,

,,,

,,,

[4.63]

Page 145: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

120 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Uno puede ver esta ecuación de otra forma, sin más que trasponer a ambos lados

de la ecuación, obteniendo un nuevo conjunto de vectores de características:

njEx T

jj ,,1;~

[4.64]

donde peeeE ,,,~

21 .

Este nuevo conjunto de vectores p

j Rx , donde p es el

número de eigenbrains seleccionando, estará formado por una reorganización de las

componentes principales, pero ahora consiguiendo que cada vector jx mantenga su

correspondiente etiqueta de clase 1iy , pudiendo ser usados para clasificación.

Ahora, la información contenida en las componentes principales se organiza de manera

que un vector ix se puede interpretar geométricamente como la proyección de una

imagen cerebral i en el subespacio de los p eigenbrains más relevantes, dad por sus

coordenadas en este espacio. De esta manera, PCA es una herramienta poderosa para

conseguir la reducción de la dimensionalidad del espacio de características, pasando de

ser mR a

pR , donde m~106, n~10

2 y np .

4.12.3 Selección Mediante el Criterio de Fisher.

Seleccionar un subconjunto de eigenbrains para representar las imágenes según

su varianza es un método efectivo y simple para reducir la dimensionalidad del espacio

de características. Sin embargo, es posible que las características de mayor varianza no

sean las mejores para distinguir entre clases, ya que puede haber variabilidad en los

datos que responda a factores no relacionados con la enfermedad a diagnosticar y sean

comunes en ambas clases.

Para eliminar esta posibilidad, se pueden diseñar criterios de selección de

componentes principales que recojan la información que mejor distingue entre clases.

Un ejemplo es usar el criterio del factor discriminante de Fisher (del inglés “Fisher

Discriminant Ratio” FDR) [Fisher, 1936]. El FDR se define como:

2

2

2

1

2

21

FDR [4.65]

donde i y 2

i son la media y la varianza muestral de la clase 2,1i . El criterio de

selección del factor discriminante de Fisher consiste en usar el FDR como valor para la

elección de componentes en lugar de la varianza. Siguiendo ese criterio, se extraerá un

subconjunto de q componentes principales y sus correspondientes eigenbrains, cuyo

FDR toma un valor máximo, permitiendo una construcción diferente de los vectores de

características [4.64].

4.13 Reducción de la Dimensionalidad Mediante Componentes Independientes.

Al igual que con las componentes principales, las componentes independientes

obtenidas del proceso de minimización de la información mutua pueden ser usadas para

reducir la dimensionalidad del espacio de características, y extraer de los datos

Page 146: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 121 _____________________________________________________________________________

originales unos vectores de características que contengan la información relevante.

Rescribiendo la estimación de las fuentes independientes Awx T

ii como:

nm

m

m

nn

n

n

nm

m

m

xxx

xxx

xxx

,,,

,,,

,,,

,,,

,,,

,,,

,,,

,,,

,,,

21

221

121

21

221

121

21

221

121

[4.66]

Podría considerarse el caso en el que existiesen más fuentes originales que

observadas, aunque nosotros no consideraremos esa posibilidad, ya que estamos

interesados en la reducción de la dimensión del espacio de características. En la

ecuación anterior se da el caso en el que se registran el mismo número de fuentes n que

vectores observados. Una vez obtenidas las fuentes originales, proyectaremos cada

imagen al subespacio engendrado por estas fuentes independientes. Explícitamente,

haremos uso de:

Xz T

ii [4.67]

que está en la forma de la ecuación [4.25], donde nxxxX ,,, 21 . De esta manera

conseguiremos reducir el espacio de características de mR a

nR . Es posible seleccionar

un número menor de fuentes independientes ix para formar los nuevos vectores iz ,

consiguiendo una reducción mayor de la dimensionalidad del espacio de características.

Esto se puede conseguir mediante una inspección visual de la matriz de mezcla,

seleccionando posteriormente aquellas fuentes que contribuyan en mayor grado a la

formación de los datos observados, o a través de una ordenación decreciente de varianza

y posterior selección de los máximos, ya que transformación de ICA contendrá un paso

previo en el que se realice PCA para decorrelacionar a primer orden. En la

aproximación de deflación, también se pueden obtener un número menor de fuentes sin

más que iterar el proceso de obtención de fuentes independientes un número limitado de

veces.

4.14 Método de Extracción de Diferencias.

4.14.1 Tratamiento de las Imágenes.

Para poder trabajar con las imágenes en un entorno Matlab, se realiza la lectura

de estas con la función imread, que lee cada una de las imágenes 2-D devolviendo una

matriz de dimensión 9579 con los datos de la imagen. Cada elemento de la matriz

puede tomar un valor comprendido entre 0 y 255, que representa el nivel de intensidad

de cada uno de los pixels. Con los datos extraídos de cada una de las 69 imágenes 2-D

para cada paciente se crea una matriz 3-D. De esta manera, la información relativa a

cada paciente se estructura en una matriz 3-D de dimensiones 699579 , en la que

cada elemento representa el valor numérico correspondiente al nivel de intensidad de

cada voxel. A partir de esta estructura, se puede trabajar con imágenes tanto en 3-D

como en cualquiera de sus cortes en 2-D. En la Figura 4.6 se muestran los cortes

transaxial, coronal y sagital del cerebro de un paciente, representados en escala de

colores desde el azul hasta el rojo, correspondiendo el azul con las zonas de menor

actividad cerebral y el rojo con las regiones de mayor actividad.

Page 147: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

122 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Figura 4.6 Cortes transaxial, coronal y sagital del cerebro de un paciente.

Una vez se dispone de la información correspondiente a las imágenes SPECT de

cada paciente en el formato deseado para trabajar en entorno Matlab, se debe solucionar

la cuestión de seleccionar las características de dichas imágenes que se van a utilizar

para el entrenamiento y posterior evaluación de los diferentes clasificadores. Aquí

aparece el denominado fenómeno “de la maldición de la dimensionalidad” según el cual

si el número de características es demasiado elevado en comparación con el número de

muestras del conjunto de entrenamiento, el rendimiento del clasificador se deteriora.

Para solucionar dicho problema, se pretende conseguir un subconjunto de posibles

características tales que el clasificador entrenado y posteriormente evaluado empleando

dicho subconjunto logre la mayor precisión posible. Una de las posibles opciones es

considerar cada uno de los voxels como una posible característica. Dado que las

dimensiones de las matrices 3-D en las que se almacena la información son de

699579 , se tendrían 517845 posibles características para el entrenamiento de los

clasificadores. Si se tiene en cuenta que disponemos del orden de un centenar de

pacientes en el conjunto de entrenamiento, el número de posibles características es muy

superior, por lo que se necesita seleccionar las características que optimicen el

rendimiento de los algoritmos de clasificación. Además hay que tener en cuenta que

dado el reducido número de pacientes de los que se dispone, variaciones aleatorias en

unos pocos voxels podrían hacer que no se obtuviese un clasificador con la suficiente

capacidad de generalización para comportarse de forma adecuada con la incorporación

de nuevos pacientes. Por lo cual esta opción no es muy adecuada, y se hace necesario

tomar otra diferente. Para lo cual se obtiene el prototipo de paciente sano, calculando el

valor de intensidad media para cada uno de los voxels a partir de la información de los

pacientes diagnosticados como tales. A continuación se obtiene el valor del error

cuadrático medio normalizado (del inglés “Normalizad Mean Square Error”, NMSE)

de cada uno de los casos con respecto al prototipo de paciente sano. Empleando el

NMSE se consigue una normalización de las intensidades y se reduce la sensibilidad a

cambios aleatorios en la intensidad de los voxels en las imágenes. Para calcular el

NMSE se ha abordado el problema desde dos perspectivas diferentes. La primera de

ellas utilizando los cortes bidimensionales de las imágenes para calcular el NMSE entre

cada paciente y prototipo de paciente sano para cada uno de los cortes. En la segunda

técnica se han agrupado las regiones del cerebro en volúmenes tridimensionales

representados mediante técnicas de clustering con GMMs y se ha calculado el NMSE

sobre estas regiones para cada paciente. Ambas técnicas se describen a continuación.

4.14.2 Modelo de Cortes Bidimensionales.

Según ciertos estudios, las primeras zonas que se ven afectas en el comienzo de

la EA, son las estructuras situadas en el lóbulo temporal medio (véase Sección A.5 del

Page 148: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 123 _____________________________________________________________________________

Apéndice A). Mediante técnicas de neuroimagen estructural se ha confirmado la

aparición de atrofia en estas estructuras para dichos pacientes. Puesto que los cambios

funcionales en la actividad cerebral pueden detectarse incluso antes de la manifestación

de cambios estructurales, la utilización de imágenes funcionales para visualizar esas

estructuras resulta de gran interés [Lalonde et al., 2000; Julin et al., 1997]. A pesar de

existir ciertas limitaciones de resolución que se obtiene mediante el uso de imágenes

SPECT de las zonas más alejadas de la corteza cerebral, el uso de cortes puede ofrecer

una mejor visualización de las alteraciones funcionales que se producen en las

estructuras del lóbulo temporal medio [Jacoby et al., 2005]. El proceso de extracción de

características se ha realizado a partir del NMSE calculado en cada uno de los cortes

coronales. En primer lugar se obtiene el prototipo de paciente sano calculando el valor

de intensidad media para cada unos de los voxels a partir de la información de los

pacientes diagnosticados como pacientes sanos, para tomarlo como referencia.

Seguidamente se obtiene el valor del NMSE de cada uno de los 95 cortes coronales de

cada uno de los pacientes con respecto al prototipo de paciente sano. Para cada uno de

los cortes se calcula el NMSE mediante la expresión:

1

0

2

1

0

1

0

2

,

,,

Z

z

X

x

Z

z

zxf

zxgzxf

NMSE [4.68]

donde f es el valor de intensidad media del prototipo de paciente sano y g es el

nivel del intensidad de cada paciente en cuestión. Como se dispone de 95 cortes

coronales, una vez obtenida la medida del NMSE, cada paciente vendrá descrito por un

vector de características de 95 elementos. La dimensión de este vector de características

es comparable al número de pacientes que forman el conjunto de entrenamiento, por lo

que se necesita reducir el número de características que representan a cada sujeto. Para

ello mediante una búsqueda por inspección y la orientación ofrecida por parte de los

clínicos, se han seleccionado los cortes coronales más discriminativos para el

diagnóstico para así entrenar y evaluar de los algoritmos de clasificación. Dichos cortes

coinciden con las regiones típicas de hipoperfusión en pacientes con EA. Entre estos

cortes se encuentra la información del lóbulo frontal (véase Sección A.5 del Apéndice

A), zona que se ve deteriorada por la EA en etapas avanzadas de la enfermedad, y de las

regiones temporales (véase Sección A.5 del Apéndice A), que se ven afectadas por la

EA en etapas tempranas. La Figura 4.7 muestra un ejemplo de algunos de estos cortes

para el prototipo de paciente sano, para un paciente sano y para un paciente diagnostico

con la EA. Se puede apreciar, como el flujo sanguíneo cerebral de un paciente que sufre

EA se ve notablemente reducido con respecto a un paciente que no padece la

enfermedad. También es apreciable como dicha reducción del flujo sanguíneo cerebral

afecta más a determinadas zonas, como las regiones localizadas en el lóbulo temporo-

pariental.

Page 149: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

124 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Figura 4.7 Cortes coronales: a) Prototipo paciente sano, b) Paciente sano, c) Paciente con EA.

4.14.3 Modelo de Clusters.

El problema del elevado número de características en relación con el reducido

número de muestras del conjunto de pacientes de entrenamiento, se puede abordar de

esta otra forma. El objetivo es reducir la dimensionalidad del problema agrupando los

voxels de las imágenes tridimensionales en clusters [Górriz et al., 2009] o regiones de

interés (del inglés “Regions Of Interest”, ROIs) en las que cada región o cluster está

constituida por los puntos próximos con niveles de intensidad similares. A continuación

para cada sujeto, se obtiene el valor de NMSE de cada uno de los clusters con respecto

al prototipo de paciente sano. De esta forma por cada cluster tendremos una posible

característica para la tarea de clasificación.

Pre-Procesado.

Las imágenes SPECT con las que se han trabajado tienen unas dimensiones de

699579 voxels. A dichas imágenes se les aplica un escalado en un factor 2, de

forma que las imágenes para cada paciente pasan a tener unas dimensiones de

344739 voxels. El escalado se realiza agrupando los voxels adyacentes en regiones

cúbicas de tamaño 222 voxels y calculando el nivel de intensidad que presentan

estos 8 voxels. Este valor de nivel de intensidad es el que se asigna al nuevo voxel de la

imagen reescalada.

Obtención de los Clusters.

La imagen reescalada tiene unas dimensiones de 344739 voxels, lo que hace un

total de 62322 posibles características. Teniendo en cuenta que tan solo se dispone del

Page 150: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 125 _____________________________________________________________________________

orden de un centenar de imágenes, es necesario reducir aún más el número de

características. Para ello se aplica un método de agrupamiento o clustering a los voxels

de las imágenes. Esta técnica de clustering se basa en un modelo de mezcla de

gaussianas (del inglés “Gaussian Mixture Modeling”, GMM) [Górriz et al., 2009;

Segovia et al., 2010], con la que se consigue agrupar los voxels de las imágenes en ROI.

Cada una de estas regiones o clusters contiene los voxels próximos con niveles de flujo

sanguíneo parecidos. Los modelos de mezcla permiten el agrupamiento de datos. El

problema consiste en identificar agrupamiento de datos, en este caso voxels, en un

espacio multidimensional. El cluster se puede describir como un conjunto de voxels

cercanos entre sí, cuyas diferencias entre ellos son pequeñas en comparación con las

diferencias a los puntos fuera del agrupamiento. La distribución de los clusters se

construye mediante un modelo de mezcla de gaussianas que puede hallarse como una

superposición lineal de gaussianas. La estimación de los parámetros de estas gaussianas

se consigue utilizando el criterio de máxima verosimilitud conocido como algoritmo

esperanza-maximización (del inglés “Expectation Maximization”, EM). Finalmente se

consigue que cada cluster venga representado por una gaussiana con cierto centro,

forma y peso. El modelo de mezcla de gaussianas halla la estimación de densidad

suponiendo que ix con Ni ,,1 son las muestras extraídas de una distribución de

probabilidad xp , y la modela como una suma de k gaussianas.

k

n

nnn xfwxp1

[4.69]

donde nn xf es la densidad del cluster n que depende del valor de parámetros n y

nw es un factor de pesos que cumple n nw 1 . La distribución normal nn xf con d

dimensiones se expresa como:

n

d

nn

T

n

nnnn

xx

xf

2

2

1exp

,

1

[4.70]

con medias n y matriz de covarianzas n .

Con la estimación de máxima verosimilitud se busca adaptar los parámetros

nnn yw , de forma que se maximice la probabilidad del modelo de mezcla de las k

gaussianas. El problema radica en que no se sabe la distribución de los datos y no se

conocen los parámetros de las distribuciones. Por esta razón se utiliza el algoritmo EM,

que es una aproximación del criterio de máxima verosimilitud en esta situación. El

algoritmo EM empieza adivinando los parámetros de las distribuciones, calcula las

probabilidades de que cada punto pertenezca a un cluster y usa esas probabilidades para

reestimar los parámetros de las probabilidades hasta converger. Aplicando esto a la

extracción de clúster de las imágenes SPECT, tenemos que estas imágenes se pueden

definir como distribuciones de intensidad tridimensionales discretizadas en V voxels

con posiciones jx , donde Vj 1 y cada voxel viene determinado por su nivel de

intensidad jxI , que representa el flujo sanguíneo cerebral. Cada voxel se puede ver

Page 151: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

126 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

como el intervalo de un histograma en el que se almacena el nivel de intensidad de gris

jxI , de forma que la intensidad total de la imagen SPECT es:

V

j

jtot xII1

[4.71]

El modelado de la distribución de intensidad como la suma de k gaussianas

queda:

k

n

nntottotGauss xfwIxpIxI1

[4.72]

de esta forma se consigue una aproximación de la imagen real que conserva la

intensidad total, mediante la superposición de k gaussianas.

Definición de los Clusters.

Una vez se tiene definido el modelo de clusters, se hallan las k gaussianas que

definen los clusters o ROIs [Górriz et al., 2009; Segovia et al., 2010] para el prototipo

de paciente sano, obtenido como la media de todas las imágenes SPECT de pacientes

sanos. Esta información se utiliza como una máscara (véase Figura 4.8) para obtener los

clusters de cada una de las imágenes de los pacientes que componen el conjunto de

entrenamiento. En nuestro caso se ha escogido un valor de 64k , por lo que cada

imagen vendrá representada por 64 clusters. Para representar gráficamente los clusters

obtenidos se hace uso de un parámetro o umbral h que, partiendo de la posición central

de cada gaussiana, hace referencia a las regiones de la gaussiana en las que se recoge un

valor de intensidad superior a un determinado porcentaje h del valor de máxima

intensidad que compone cada clusters. De manera que al representar los clusters se

obtienen elipsoides con una determinada posición y tamaño. El efecto producido en el

tamaño de los clusters se muestra en la Figura 4.9, donde se puede ver cómo afecta el

valor del umbral h en la definición de la máscara con la que se obtienen los clusters.

Para un valor de h cercano al 100% el cluster tiende a representarse únicamente con su

centro, mientras que al decrecer su valor, el tamaño del cluster tiende a aumentar.

Figura 4.8 Máscara que define los clusters de las imágenes SPECT.

Page 152: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 4. Extracción de Características de Imágenes Funcionales. 127 _____________________________________________________________________________

Figura 4.9 Máscara que define los cluster para: a) h=5%, b) h=15%, c) h=25%, d) h=50%, e)

h=75% y f) h=90%.

Extracción y Selección de las Características.

La aplicación del modelo de clusters permite disponer de una máscara que puede

definir los 64 clusters de cada una de las imágenes. Como en el método anterior en el

que hacíamos uso de los cortes coronales de las imágenes SPECT para extraer las

características, volvemos a hacer uso del NMSE. En este caso tenemos 64 regiones

tridimensionales, para cada una de las cuales calculamos el valor del NMSE de cada

uno de los clusters para todos los ejemplos con respecto al prototipo de paciente sano.

ROIzyx

ROIzyx

zyxf

zyxgzyxfNMSE

,,

2

,,

2

,,

,,,, [4.73]

donde zyxf ,, es el valor de intensidad media del prototipo de paciente sano y

zyxg ,, es el nivel de intensidad de cada paciente.

Tras realizar el cálculo del NMSE tendremos 64 posibles características para

representar cada una de las imágenes SPECT. A partir de estas características se

construye el vector de características que se utiliza para el entrenamiento de los

clasificadores y posteriormente como entrada del sistema de clasificación a la hora de

clasificar nuevos patrones desconocidos. El número de características que se utilicen

establecerá la dimensión del espacio de características. Mediante el modelo de clusters,

de las posibles 62322 características de las que disponíamos en un principio, hemos

pasado a 64 que es un valor comparable al número de muestras de nuestro conjunto de

entrenamiento.

Page 153: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 154: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5

TEORÍA DEL APRENDIZAJE ESTADÍSTICO BASADO EN COMPUTADOR.

En este Capítulo se muestra una descripción detallada del fundamento matemático de los clasificadores empleados en la presente Tesis: Máquinas de Vectores Soporte (SVMs), K-Nearest-Neighbors (k-NN), Análisis de Funciones Discriminante, Árboles de Decisión y Redes Neuronales. Las máquinas de vectores de soporte (SVMs) son un conjunto de algoritmos de aprendizaje supervisado. Dado un conjunto de ejemplos de entrenamiento etiquetado, una SVM se entrena para construir un modelo que clasifique un nuevo dato no observado durante el entrenamiento. Una SVM es un modelo que obtiene un hiperplano con máximo margen de separación entre las clases. k-NN es un método de clasificación no paramétrico que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a la clase Cj a partir de la información proporcionada por el conjunto de prototipos. En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras. El Análisis Discriminante de Clases busca identificar, a partir de una serie de indicadores, si es posible “discriminar” si una observación pertenece a un determinado grupo de entre varios existente, es decir, selecciona cuál o cuáles de esos indicadores contribuyen más al proceso de discriminación y permite estimar funciones de clasificación para ubicar nuevos casos. Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial. Dada una base de datos se obtienen diagramas de construcciones lógicas muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva, para la resolución de un problema. Las redes de neuronas artificiales representan un paradigma de aprendizaje y procesamiento automático basado en el funcionamiento del sistema nervioso. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Las redes neuronales consisten en una simulación de las propiedades observadas en los sistemas neuronales biológicos a través de modelos matemáticos recreados mediante mecanismos artificiales. El objetivo es conseguir que las máquinas den respuestas similares a las que es capaz de dar el cerebro que se caracterizan por su generalización y su robustez. Una red neuronal se compone de unidades llamadas neuronas. Cada neurona recibe una serie de entradas a través de interconexiones y emite una salida.

Page 155: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 156: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 131 ______________________________________________________________________________

5. Introducción. El aprendizaje supervisado o clasificación es un problema de gran interés en

Inteligencia Artificial (IA). Los datos de entrada o conjunto de entrenamiento, son instancias de las clases que se desean modelar e incluyen una serie de atributos o características. La clasificación tiene por objetivo obtener una descripción precisa para cada clase utilizando los atributos de los datos de entrada. El modelo obtenido de esta forma sirve para clasificar casos, cuyas clases se desconocen además de para comprender mejor la información de la que disponemos. El modelo de clasificación puede construirse a partir de expertos, la mayor parte de los sistemas basados en conocimiento, se han construido así a pesar de la dificultad que la extracción manual del conocimiento entraña. No obstante, si se dispone de suficiente información registrada, por ejemplo una base de datos, el modelo de clasificación se puede construir generalizando a partir de ejemplos específicos mediante algún proceso inductivo.

5.1 Máquinas de Vectores de Soporte (SVM). Las máquinas de vectores de soporte (SVM) fueron introducidas a finales de los

años 70 [Vapnik, 1982] marcando el comienzo de una nueva era en el aprendizaje a partir de ejemplos [Burges, 1998; Friston, 2007]. Actualmente, estas técnicas han tomado una gran importancia en el reconocimiento de patrones, derivada de la Teoría del Aprendizaje Estadístico [Vapnik, 1995] desarrollada por Vladimir Vapnik en A&T.

5.1.1 SVM Lineal. Los clasificadores lineales poseen la gran ventaja de su simplicidad y facilidad

computacional. En este apartado se supondrá que todos los vectores de características de las clases disponibles pueden clasificarse correctamente usando un clasificador lineal. Posteriormente se verán problemas más genéricos donde los clasificadores lineales no son útiles para clasificar correctamente todos los vectores, por lo que se tratará de buscar modos de diseñar un clasificador óptimo lineal adoptando un criterio de optimización apropiado.

Funciones Discriminantes Lineales e Hiperplanos de Decisión. Este es el caso en que se tienen dos clases y se consideran funciones

discriminantes lineales, para el cual la hipersuperficie de decisión respectiva en el espacio de características l-dimensional es el hiperplano:

( ) 00 =+= ωω xxg T , [5.1] donde [ ]Tlωωωω ,,, 21 L= se denomina vector de pesos y w0 umbral. Para cualquier par de x1, x2 del plano de decisión, se verifica:

02010 ωωωω +=+= xx TT [5.2]

Puesto que la diferencia 21 xx − cae sobre el hiperplano de decisión, de la ecuación 5.2 se obtiene que el vector w es ortogonal al hiperplano de decisión, (véase Figura 5.1) donde se muestra la geometría correspondiente (para w1>0, w2>0, w0<0), de dicha figura se deducen las distancias:

Page 157: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

132 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

22

21

0

ωω

ω

+=d [5.3]

( )

22

21 ωω +

=xg

z [5.4]

donde ( )xg es la distancia Euclídea del punto x al hiperplano de decisión. En un lado del plano ( )xg toma valores positivos y en el otro los negativos. Para el caso especial en el que 00 =ω el hiperplano pasa por el origen.

X2

2

0

ωω

− z x [ ]21,ωωω =T

ω d

1

0

ωω

− X1

Figura 5.1 Geometría de la línea de decisión. En un lado se cumple ( ) 0>xg y en el otro ( ) 0<xg .

Clases Lineales Separables. En primer lugar se considera la clasificación de dos clases lineales

independientes, para posteriormente generalizar al caso en que los datos no son separables. Sean lixi ,,2,1, L= los vectores de características del conjunto de entrenamiento X . Los cuales pertenecen a una de las dos clases w1 o w2, estas se consideran linealmente separables. El objetivo, es diseñar el hiperplano

( ) 00 =+= ωω xxg T [5.5]

que clasifica correctamente todos los vectores de entrenamiento. Dicho hiperplano no es único. La clasificación se ilustra en la Figura 5.2, en la que existen dos posibles hiperplanos como solución. Ambos hiperplanos realizan la clasificación para el conjunto de entrenamiento, ¿pero cuál de los dos hiperplanos sería correcto elegir como el clasificador? al que se le introducirán datos diferentes a los de entrenamiento. La elección más sensata para el hiperplano como clasificador es aquella que deja el máximo margen entre las dos clases, o sea, la línea continua, de modo que los datos de

Page 158: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 133 ______________________________________________________________________________

ambas clases pueden moverse un poco más libremente, con menor riesgo de causar error. Por lo que se puede confiar más en dicho hiperplano, cuando opere con datos desconocidos. Este es un aspecto muy importante en la etapa de diseño del clasificador, la generalización del mismo, que se refiere a la capacidad del clasificador de actuar satisfactoriamente con datos diferentes a los del conjunto de entrenamiento. X2 X1 Figura 5.2 Ejemplo de dos clases linealmente separables con dos posibles clasificadores lineales.

Cuantificación del Margen que el Hiperplano Deja entre Ambas Clases.

Para cuantificar el margen que el hiperplano deja entre ambas clases, se parte de que todo hiperplano viene caracterizado por su dirección, determinada por w, y su posición exacta en el espacio, determinada por w0. Como no se pretende dar preferencia a ninguna de las dos clases, elegimos para todas las direcciones el hiperplano que dista lo mismo respectivamente de los puntos más cercanos en w1 y w2 (véase Figura 5.3). En dicha figura se observa que los hiperplanos mostrados con líneas más oscuras son las seleccionadas de un conjunto infinito en dicha dirección. El margen para la dirección “1” es 12z , respectivamente para la dirección “2” es 22z . El objetivo consiste en buscar la dirección que da el máximo margen posible. Sin embargo, cada hiperplano se calcula con un factor de escala, por lo tanto escalamos todos los posibles hiperplanos candidatos. Teniendo en cuenta la expresión 5.4, escalamos w y w0 de modo que el valor de ( )xg en los puntos más cercano sea +1 para el punto más cercano en w1 y respectivamente -1 para el punto más cercano en w2 (véase Figura 5.3, marcados por un

círculo). Esto equivale a tener un margen de ωωω211

=+ con las condiciones:

,,1

,,1

20

10

ωωω

ωωω

∈∀<+

∈∀≥+

xx

xxT

T

[5.6]

Page 159: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

134 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

O O O O z2 dirección 2 X2 OO O O O z2 O O O O O OO O O O O OO z1 z1 dirección 1 X X X X X X X X X X X X1

Figura 5.3 El margen para la dirección 2 es mayor que para la dirección 1.

Para cada ix denotamos el correspondiente indicador de clase iy (+1 para w1 y

-1 para w2). El objetivo consiste en calcular los parámetros w y w0 del hiperplano tal que minimice la expresión:

( ) 2

21 ωω ≡J [5.7]

sujeto a la condición:

( ) Niparaxy iT

i ,,2,110 L=≥+ωω [5.8]

Es evidente que minimizando la norma el margen se hace mínimo, lo cual es una optimización (cuadrática) no lineal sujeto a un conjunto de restricciones de inecuaciones lineales. Las condiciones de Karush-Kuhn-Tucker (KKT) establecen que ha de cumplirse las siguientes condiciones:

( ) 0,, 0 =∂∂ λωωω

L [5.9]

( ) 0,, 00

=∂∂ λωωω

L [5.10]

Niparai ,,2,10 L=≥λ [5.11]

( )[ ] Nparaxy i

Tii ,,2,1010 L=−+ωωλ [5.12]

O

X

X X X

O

O O O

Page 160: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 135 ______________________________________________________________________________

donde λ es el vector de multiplicadores de Lagrange, λi y ( )λωω ,, 0L es la función Lagrangiana definida como:

( ) ( )[ ]∑=

−+−=N

ii

Tii

T xyL1

00 121,, ωωλωωλωω [5.13]

Operando las expresiones 5.13 con 5.9 y 5.10 se obtiene:

∑=

=N

iiii xy

1λω [5.14]

∑=

=N

iii y

10λ [5.15]

Propiedades: 1) Los multiplicadores de Lagrange pueden ser cero o positivos, esto implica que el vector de parámetros ω de la solución óptima, es una combinación lineal de NNs ≤ vectores características asociados a 0≠iλ , o sea:

∑=

=SN

iiii xy

1λω [5.16]

Estos se denominan vectores de soporte y al hiperplano clasificador óptimo, máquina de vectores de soporte (SVM). Al igual que para el conjunto de restricciones en 5.12 para

0≠iλ , los vectores de soporte caen en uno de los dos hiperplanos:

10 ±=+ωω xT [5.17] Es decir, son los vectores de entrenamiento que están más cerca del clasificador lineal, y constituyen los elementos críticos del conjunto de entrenamiento. 2) Aunque ω se da explícitamente, 0ω se puede obtener implícitamente por una de las condiciones de la expresión 5.12. En la práctica, 0ω se calcula como un valor medio obtenido usando todas las condiciones de este tipo. 3) Las propiedades de la función coste, dada en la expresión 5.7, garantizan que la matriz Hessiana correspondiente es definida positiva. Además, las restricciones consisten en funciones lineales. Estas dos condiciones garantizan que cualquier mínimo local es también global y único. El hiperplano clasificador de una máquina de vectores de soporte es único.

Tras establecer las anteriores importantes propiedades del hiperplano óptimo de una máquina de vectores de soporte, a continuación se va a realizar el cálculo de los parámetros involucrados. Desde un punto de vista computacional esto no es siempre una

Page 161: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

136 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

tarea fácil, y existen numerosos algoritmos para ello. Se trata de un problema de la familia de programación convexa. Estos problemas se resuelven considerando la dualidad Lagrangiana y solución del problema puede formularse de la siguiente forma:

Maximizar: ( )λωω ,, 0L [5.18]

restringido a las condiciones:

∑=

=N

iiii xy

1λω [5.19]

∑=

=N

iii y

10λ [5.20]

0≥λ [5.21]

Las dos restricciones de igualdad son el resultado de igualar a cero el gradiente

de la Lagrangiana, con respecto a ω y 0ω . Los vectores de características de entrenamiento aparecen en el problema mediante las restricciones de igualdad y no mediante las inecuaciones, lo cual facilita su manejo. Sustituyendo 5.19 y 5.20 en 5.18 y realizando las pertinentes operaciones se llega a la optimización equivalente:

⎟⎟⎠

⎞⎜⎜⎝

⎛−∑ ∑

=

N

i jij

Tijijii xxyymáx

1 ,21 λλλ

λ [5.22]

restringido a las condiciones:

∑=

=N

iii y

10λ [5.23]

0≥λ [5.24]

Una vez que se han calculado los multiplicadores de Lagrange, maximizando

5.45, el hiperplano óptimo se calcula vía 5.19 y 0ω como antes.

Observaciones: 1. Es una manera muy cómoda, pero además existe otra razón por la cual se opta

por la formulación 5.45 y 5.23: los vectores de entrenamiento aparecen en parejas, en la forma de productos escalares. Esto es muy interesante ya que la función coste no depende explícitamente de la dimensionalidad del espacio de entrada. Esta propiedad permite generalizaciones eficientes para el caso de clases linealmente no separables.

2. Aunque el hiperplano óptimo resultante es único, no existe garantía de la

unicidad de los multiplicadores de Lagrange asociados, λi. O sea, la expresión de

Page 162: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 137 ______________________________________________________________________________

X

X

O

O

O

XX

X

ω en términos de vectores soporte en la expresión 5.19 puede no ser única, aunque el resultado final si es único.

Clases Linealmente No Separables. Todo lo mostrado hasta ahora no es válido para el caso en que las clases no sean

separables, (véase Figura 5.4). En este caso cualquier intento de dibujar un hiperplano no conseguirá una banda de separación de clases sin puntos dentro de ella, como era el caso de clases linealmente separables. Recuérdese que se definía el margen como la distancia entre el par de hiperplanos paralelos descritos por:

10 ±=+ωω xT [5.25]

X2 O O O O O O O O O O OO O OO O O O O X O X X X XX X X X X X X X X X X X X X X X X X1 Figura 5.4 En el caso de clases no separables, los puntos caen dentro de la banda de separación de clases.

Los vectores de características de entrenamiento ahora se agrupan en una de las tres categorías siguientes:

1. Vectores que caen fuera de la banda y que son correctamente clasificados. Estos vectores cumplen las restricciones dadas en la expresión 5.7.

2. Vectores que caen dentro de la banda y que son correctamente clasificados

(véase Figura 5.4, corresponden a los puntos rodeados por cuadrados) estos satisfacen la inecuación:

( ) 10 0 <+≤ ωω xy T

i [5.26]

3. Vectores que son clasificados erróneamente, (véase Figura 5.4, son los puntos rodeados por círculos) estos cumplen la inecuación:

( ) 00 <+ωω xy T

i [5.27]

Page 163: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

138 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Los tres casos anteriores se pueden tratar como un solo tipo de restricciones introduciendo el siguiente conjunto de variables:

( ) iT

i xy ξωω −≥+ 10 [5.28] La primera categoría de datos corresponde con 0=iξ , la segunda con 10 ≤< iξ

y la tercera con 1>iξ . Las variables iξ se denominan variables débiles. El proceso de optimización se vuelve más complicado, aunque se basa en los mismos principios anteriores. El objetivo ahora es hacer el margen tan grande como sea posible, al mismo tiempo que mantenemos la cantidad de puntos con 0≥iξ tan pequeña como sea posible. En términos matemáticos, esto equivale a minimizar la función de coste:

( ) ( )∑=

+=N

iiICJ

1

20 2

1,, ξωξωω [5.29]

donde ξ es el vector de parámetros iξ y

( )⎩⎨⎧

=>

=0,00,1

i

iiI

ξξ

ξ [5.30]

El parámetro C es una constante positiva que controla la influencia relativa de

los dos términos competitivos. Sin embargo, la optimización anterior es difícil puesto que incluye una función discontinua ( )iI ξ . En casos así, se elige optimizar una función de coste estrechamente relacionada, y el objetivo se convierte en minimizar:

( ) ∑=

+=N

iiCJ

1

20 2

1,, ξωξωω [5.31]

sujeto a las condiciones:

( )NiNixy

i

iiT

i

,,2,10,,2,1,10

L

L

=>=−≥+

ξξωω

[5.32]

Apareciendo de nuevo un problema de programación convexa y su Lagrangiana

correspondiente viene dada por:

( ) ( )[ ]∑ ∑ ∑= = =

+−+−−+=N

i

N

i

N

iii

Tiiiii xyCL

1 1 10

20 1

21,,,, ξωωλξμξωμλξωω [5.33]

Si se realizan los pasos análogos a los del caso de clases separables, se llega al

siguiente problema de optimización equivalente:

⎟⎟⎠

⎞⎜⎜⎝

⎛−∑ ∑

=

N

i jij

Tijijii xxyymáx

1 ,21 λλλ

λ [5.34]

sujeto a la restricción:

Page 164: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 139 ______________________________________________________________________________

NiparaCi ,,2,1,0 L=≤≤ λ [5.35]

∑=

=N

iii y

10λ [5.36]

Observaciones:

1. La única diferencia con el caso previamente estudiado de clases linealmente separables está en la primera de las dos restricciones, donde es necesario limitar superiormente a los multiplicadores de Lagrange por C. Para el caso linealmente separable corresponde con ∞→C . Las variables débiles iξ , y sus multiplicadores de Lagrange asociados iμ , no intervienen en el problema explícitamente, su presencia está reflejada indirectamente mediante C.

2. Hasta ahora sólo se ha considerado el caso de clasificación con dos clases. En el

caso de M-clases, se puede extender fácilmente mirando el problema como M problemas de dos clases. Para cada una de las clases, se trata de diseñar una función discriminante óptima, ( ) Mixgi ,,2,1, L= de modo que ( ) ( ) ijxgxg ji ≠∀> , si ix ω∈ . Adoptando la metodología de SVM se puede

diseñar las funciones discriminantes de modo que ( ) 0=xgi sea el hiperplano óptimo para separar la clase iω de todas las demás, dando por supuesto que esto es posible. Así, la función lineal resultante dará ( ) 0>xgi para

( ) 0<∈ xgyx iiω en caso contrario. La clasificación se consigue de acuerdo a la siguiente regla:

( ){ }xgmáxisiaxAsignar kki arg=ω

Esta técnica, puede conducir a regiones indeterminadas, donde más de un ( )xgi es positivo. Otra aproximación posible es extender la formulación matemática de SVM de dos clases al problema de M clases.

5.1.2 SVM No Lineal. Se ha visto en el apartado anterior las máquinas de vectores de soporte como una

metodología óptima de diseño de un clasificador lineal. Se asume ahora que existe un mapeo:

kl RyRx ∈→∈ desde el espacio de entrada a un espacio k-dimensional, donde las clases se pueden separar satisfactoriamente por un hiperplano lineal. Reacuérdese que los vectores de características participan por pares mediante la operación del producto interno. Una vez que el hiperplano óptimo ( )0,ωω se ha calculado, la clasificación se realiza según si el signo de:

Page 165: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

140 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

( ) 00

0 ωλωω +=+= ∑=

SN

i

Tii

T xxyxxg [5.37]

es positivo o negativo, donde SN es el número de vectores de soporte. Por lo que sólo el producto interno participa. Si el diseño se va a llevar a cabo en el espacio k-dimensional, la única diferencia es que los vectores involucrados estarán en los mapeos k-dimensionales del vector de características original. Ahora la complejidad aumenta, puesto que, habitualmente k es mucho más alto que la dimensión l del espacio de entrada, para poder hacer las clases lineales separables. Sin embargo, se va a mostrar mediante un ejemplo, que se cumple una propiedad que va a ser de gran ayuda. Para ello supongamos que:

⎥⎥⎥⎥

⎢⎢⎢⎢

=→∈22

21

21

2 2x

xx

x

yRx [5.38]

Mediante operaciones algebraicas sencillas se demuestra que

( )2jTij

Ti xxyy = [5.39]

o sea, el producto interno de los vectores en el nuevo y mayor espacio dimensional se puede expresar como función del producto interno de los correspondientes vectores en el espacio de características original. Teorema. Teorema de Mercer. Sea lRx∈ y ϕ una función de mapeo

( ) Hxx ∈→ϕ donde H es un espacio Euclídeo. Entonces, la operación del producto interno viene dada por:

( ) ( ) ( )∑ =r rr zxKzx ,φφ

donde ( )xϕ es la componente r del mapeo ( )xφ de x, y ( )zxK , es una función simétrica que satisface la siguiente condición:

( ) ( ) ( )∫ ≥ 0, dxdzzgxgzxK [5.40] para cualquier ( ) lRxxg ∈, tal que:

( ) +∞<∫ dxxg 2 [5.41]

Para el caso inverso también se cumple, es decir, para cualquier ( )zxK , que satisfaga 5.40 y 5.41 existe un espacio en el cual se define un producto interno. Tales

Page 166: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 141 ______________________________________________________________________________

funciones se denominan Kernels. Pero el teorema de Mercer no nos muestra cómo encontrar este espacio. Por lo que no tenemos una herramienta general para construir el mapeo ( )xφ una vez que conocemos el producto interno del correspondiente espacio. Además, tampoco se puede saber la dimensionalidad del espacio, la cual puede ser incluso infinita.

Algunos ejemplos importantes de kernels usados habitualmente por SVM para la correspondencia de características no lineal: Polinómicos:

( ) ( )[ ]dcyxyxK +⋅= γ, [5.42] Funciones de base radial (RBF):

( ) ( )2exp, yxyxK −−= γ [5.43] Sigmoide:

( ) ( )( )cyxyxK +⋅= γtanh, [5.44]

Para valores apropiados de γ y c de modo que las condiciones de Mercer se cumplan.

Una vez que el kernel adecuado se adopta, que implícitamente define un mapeo a un espacio de dimensión mayor, la tarea de clasificación se convierte en:

( )⎟⎟⎠

⎞⎜⎜⎝

⎛−∑ ∑

=

N

i jijijijii xxKyymáx

1 ,,

21 λλλ

λ [5.45]

sujeto a las restricciones:

NiCi ,,2,1,0 L=≤≤ λ [5.46]

∑ =i

ii y 0λ [5.47]

El clasificador lineal resultante es

( ) ( ) ( ) ( )∑ =

<>+= SN

i jiii xxKyxgsiaxAsignar1 021 0, ωλωω

La Figura 5.5 ilustra la arquitectura correspondiente. El número de nodos viene

determinado por el número de vectores de soporte SN . Los nodos realizan el producto interno entre el mapeo de x y los correspondientes mapeos de los vectores de soporte en el espacio de dimensión mayor, mediante la operación del kernel.

Page 167: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

142 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

K(x1,x)

K(x2,x)

K(xNs,x)

x1 λ1y1 x2 λ2y2 0ω λNsyNs xl

Figura 5.5 La arquitectura de SVM usando las funciones de kernel. Observaciones:

1. Una característica importante de las máquinas de vectores de soporte es que la complejidad computacional es independiente de la dimensionalidad del espacio kernel, donde las características de entrada son mapeadas. Por lo que se puede diseñar en un espacio de dimensión alta sin tener que adoptar modelos explícitos usando una gran cantidad de parámetros.

2. Una limitación importante de las máquinas de vectores de soporte es la alta

carga computacional que se requiere, tanto durante el entrenamiento como durante el test. Para problemas con una cantidad relativamente pequeña de datos de entrenamiento, se puede usar cualquier algoritmo de optimización de propósito general. Sin embargo, para una cantidad considerable de puntos de entrenamiento (del orden de unos miles), se requiere un tratamiento especial. Entrenar con SVM normalmente se realiza por tandas. Para problemas grandes se requiere gran cantidad de memoria en el computador. Para solventar este problema, se han ideado determinados procedimientos. Su filosofía se basa en la descomposición del problema de optimización en una secuencia de otros más pequeños. Para problemas, la fase de test también puede ser bastante exigente.

3. Otra limitación importante de las máquinas de vectores de soporte es que, hasta

ahora, no hay un método práctico para seleccionar la mejor función de kernel. Esto es todavía un problema sin solución.

4. Las máquinas de vectores de soporte se han aplicado a una gran cantidad de

diversas aplicaciones, que van desde reconocimiento de dígitos manuscritos, el

Page 168: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 143 ______________________________________________________________________________

reconocimiento de objetos, identificación de personas y ecualización de canal. Los resultados indican que los clasificadores SVM ponen de manifiesto un comportamiento en general mejorado.

5.1.3 Conjunto de SVMs. Desde que se propuso, se han estudiado muchas variaciones y extensiones de

SVM. Suykens introdujo la función de coste cuadrática y propuso LSSVM (SVM de mínimos cuadrados) [Suykens, 2000]. Mangasarian usó una reformulación lagrangiana implícita en SVM y propuso LSVM (SVM Lagranciana) [Mangasarian, 2001]. Recientemente se ha publicado nuevos modelos interesantes de SVM, tales como FSVM (SVM Difuso) de [Chun-Fu et al., 2002] o HSSVMS (SVM de Espacio Oculto) de [Zhang et al., 2004]. Todas estas versiones de SVM han mejorado notablemente la SVM original, y se han aplicado para solucionar diferentes necesidades reales. El agregado o conjunto de SVMs, como orientación alternativo al estudio de SVM, está especializado en combinar una familia de SVMs actuales para inteligencia artificial avanzada. Los ya bien conocidos métodos de agregación de SVMs son el Uno-Contra-Todos y el Uno-Contra-Uno. El propósito de dichos conjuntos es extender el SVM binario a una clasificación multiclase. Un proceso típico de agregado puede resumirse en tres pasos: selección del modelo SVM, agregado convexo, y entrenamiento agregado.

Métodos para Construir Conjuntos de SVM. En SVM, agrupados SVMs individuales se agregan para realizar una decisión

colectiva de varios modos posibles como el voto por mayoría, o la ponderación de mínimos cuadrados basada en estimación. El entrenamiento del grupo de SVM puede llevarse a cabo mediante los llamados métodos “bagging” o “boosting”. En bagging, cada SVM individual se entrena independientemente usando un conjunto de entrenamiento elegido de forma aleatoria mediante la técnica de bootstrap. En boosting, cada SVM individual se entrena usando el conjunto de entrenamiento elegido de acuerdo con la distribución de probabilidad de las muestras, la cual se actualiza en relación al error de la muestra. SVM agrupado es en esencia un tipo optimización de validación cruzada de un único SVM, llevando a cabo una clasificación con mejores resultados que los otros modelos. Los detalles de la construcción y aplicaciones de SVM agrupado se describen en [Hyun-Chul, 2003; Shaoning, 2003].

Métodos para Agregado de SVM. Tras haber entrenado el sistema, es necesario agregar varios SVMs entrenados

independientemente con un método de combinación adecuado. Existen dos tipos de técnicas de combinación que son los métodos lineales y los no lineales. Entre los métodos lineales, esto es, combinaciones lineales de varios SVMs, se encuentran el “Voto por mayoría”, la “Ponderación basada en LSE (del inglés “Least Squares Estimation”)” y el “Pegado de votos”, descritos a continuación [Illán, 2009]. El voto por mayoría y la ponderación basada en LSE se usan habitualmente con bagging y boosting respectivamente. La idea del pegado de votos pretende aliviar problemas de requisitos de memoria para almacenar la base de datos. Por otro lado un método no lineal, es decir combinaciones lineales de varios SVMs, incluye la combinación jerárquica de doble capa que usa otro SVM de capa superior para combinar varios SVMs de capas más bajas.

Page 169: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

144 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Voto por Mayoría. El voto por mayoría es el método más simple para combinar varios SVMs. Sea

( )Kkfk ,,2,1, L= la función de decisión del k-ésimo SVM en el conjunto de SVMs y ( )CjC j ,,2,1, L= la etiqueta para la j-ésima clase. Sea ( ){ }jkj CxfkN == | , es decir el

número de SVMs cuyas decisiones son sobre j-ésima clase. Entonces, la decisión final del conjunto SVM ( )xfmv para un vector de prueba x debida al voto por mayoría vine determinada por

( ) jjmv Nmáxxf arg= [5.48]

Ponderación Basada en LSE. La ponderación basada en LSE trata varios SVMs del conjunto con diferentes

pesos. A menudo, los pesos de varios SVM se determinan en proporción a sus precisiones de clasificación [Kim, 1997]. Los pesos se aprenden usando el método LSE como sigue. Sea ( )Kkfk ,,2,1, L= la función de decisión del k-ésimo SVM en el conjunto de SVMs que se entrena con una réplica del conjunto de datos

( ){ }LiyxT iiB

k ,,2,1|; L=′′= . El vector de pesos W puede obtenerse mediante 1−= AWE y donde ( )( )

LKji xfA×

= y ( )Ljyy

×=

1. Entonces la decisión final del conjunto SVM

( )xfmv para un vector de prueba x debida al ponderado basado en LSE viene determinada por

( ) ( )( )[ ]( )1×⋅= KiLSE xfWsignxf [5.49]

Pegado de Votos. El método más simple de pegado de votos consiste en seleccionar cada conjunto

de entrenamiento de tamaño N mediante un muestreo aleatorio de la base de datos D, formar un clasificador, repetir el proceso un número predeterminado de veces K, parar y agregar los clasificadores mediante votos. Si tras el agregado, la precisión se comprueba sobre un conjunto de prueba, entonces posteriores ejecuciones pueden usarse para optimizar los valores de K y N. Una versión un poco más sofisticada estima ( )ke . Tras el k-ésimo agregado y para cuando ( )ke deja de decrecer.

El proceso tiene dos ideas clave en su implementación:

1. Supongamos que hasta el momento se han construido k predictores. Se selecciona de D un nuevo conjunto de entrenamiento de tamaño N ya sea por muestreo aleatorio o por muestreo de importancia. El (k+1)-ésimo predictor se construye con este nuevo conjunto de entrenamiento y se agrega al k anterior. El agregado se realiza mediante votos sin ponderar.

2. Se actualiza la estimación ( )ke del error de generalización para el k-ésimo

agregado. El pegado de votos termina cuando ( )ke deja de disminuir. La estimación de ( )ke se puede obtener de tres maneras distintas:

Page 170: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 145 ______________________________________________________________________________

Primero: aparta un conjunto de prueba fijo de D. Ejecutar el k-ésimo clasificador agregado sobre el conjunto de prueba. Estimar como el error en este conjunto de prueba.

Segundo: Si T es el (k+1) conjunto de entrenamiento, y ( )kr la tasa de error del k-ésimo clasificador agregado en T, puesto que N es pequeño, ( )kr será una medida ruidosa de ( )ke . Entonces ésta se puede suavizar definiendo ( ) ( ) ( ) ( )krpkepke ∗−+−∗= 11 con p=0.75 aproximadamente. Si el número total de

ejemplos usados en el muestreo repetido de los conjuntos de entrenamiento supera una considerable proporción de D, esta segunda estima puede tender hacia una cantidad menor que la real debido a que algunas de las muestras del (k+1)-ésimo conjunto de entrenamiento habrá sido empleado para construir los clasificadores anteriores.

Tercero: para eliminar el sesgo del segundo método, si hT es el h-ésimo conjunto de entrenamiento, ( )hxC , el clasificador para el vector de entrada x construido usando hT , entonces clasificar el ejemplo (y, x) que es un candidato para (k+1)-ésimo conjunto de entrenamiento mediante el agregado de todos los clasificadores ( )hxC , para 1+< kh tales que (y, x) no esté en hT . Este es el clasificador “Out-Of-Bag”

( )hxC OB , [Breiman, 1996]. Estimar el error ( )ke como la proporción de errores de clasificación cometidos por OBC . Suavizar ( )kr como en el segundo método para obtener ( )keOB .

5.2 k Nearest Neighbors (k-NN). Muchas aplicaciones computacionales necesitan buscar información en una base

de datos, tradicionalmente dicha operación se ha aplicado a datos estructurados, búsqueda exacta sobre información numérica o alfabética. Es decir, dada una consulta (del inglés “query”) de búsqueda se recupera el número o cadena de caracteres (del inglés “strings”) que es exactamente igual a la consulta. Las bases de datos tradicionales se han construido teniendo en cuenta el concepto de búsqueda exacta, para lo cual dicha base se divide en registros y cada registro posee una clave completamente comparable. Así, las consultas a la base de datos retornan todos los registros cuyas claves coinciden con la clave de búsqueda. Otras búsquedas más sofisticadas, tales como consultas por rango sobre claves numéricas o búsqueda de prefijos sobre claves alfabéticas también se basan en el concepto de que dos claves son o no iguales, o que existe un orden total sobre las claves.

Con la evolución de las tecnologías de información y comunicación, han surgido depósitos no estructurados de información, las nuevas bases de datos han incluido la capacidad de almacenar nuevos tipos de datos tales como imágenes, audio, etc., además de textos, aunque en un principio la búsqueda se realizaba sobre un número predeterminado de claves de tipo numérico y alfabético. Tal estructuración de la información en claves y registros resulta muy tediosa, tanto manual como computacionalmente y restringe de antemano los tipos de consultas que posteriormente se puedan realizar. Aún cuando sea posible una estructuración clásica, nuevas aplicaciones tales como minería de datos (del inglés “data minino”) requieren acceder a la base de datos por cualquier campo, no sólo aquellos marcados como “claves”. Por lo

Page 171: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

146 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

que ha surgido la necesidad de encontrar nuevos modelos para la búsqueda de datos no estructurados. Dichos modelos requieren algoritmos de búsqueda más generales que aquellos que se usan clásicamente para datos simples. Surgiendo el concepto de “búsqueda por similitud” o “búsqueda por proximidad”, o sea, buscar elementos de la base de datos que sean similares o próximos a un elemento de consulta dado. La similaridad se modela usando una función distancia o métrica, que satisface las propiedades de desigualdad triangular, positividad estricta y simetría, y al conjunto de objetos se denomina espacio métrico, como se vera posteriormente.

Uno de los principales obstáculos para el diseño de técnicas de búsqueda

eficientes en espacios métricos es la existencia en aplicaciones reales de los denominados “espacios de alta dimensionalidad”. Las técnicas tradicionales de indexación en su mayoría no son eficientes en espacios de alta dimensión. La búsqueda por proximidad en espacios métricos se torna intrínsecamente más difícil mientras mayor sea la dimensión intrínseca del espacio, este hecho se conoce como la maldición de la dimensionalidad. Existen numerosos métodos para preprocesar un conjunto a fin de reducir el número de evaluaciones de distancia a tiempo de consulta. Todos ellos se basan en dividir la base de datos, lo que se ha heredado de las ideas clásicas de divide y vencerás, y la búsqueda de datos típica. En algunas aplicaciones los espacios métricos resultan ser de un tipo particular llamado “espacio vectorial”, donde los elementos están formados por D coordenadas de valores reales. Existen muchos trabajos que aprovechan las propiedades geométricas sobre espacios vectoriales, pero normalmente éstos no se pueden extender a los espacios métricos generales donde la única información disponible es la distancia entre objetos. En este caso general, la distancia es bastante costosa de calcular, así que el objeto general es reducir el número de evaluaciones de distancia. En contraste, las operaciones en espacios vectoriales tienden a ser simples y por lo tanto, el objetivo principal es reducir la entrada/salida (E/S).

Existen dos tipos de consultas típicas en búsqueda por proximidad:

• Consulta por Rango: se desea recuperar los elementos de la base de datos que se encuentren a una distancia no mayor que un cierto grado de tolerancia de un elemento de consulta dado.

• K-vecinos más cercanos: se desea recuperar los k elementos que se encuentren más cerca de una query dada.

Una manera trivial de responder ambos tipos de consulta es realizando una

búsqueda exhaustiva en la base de datos, es decir, tomando todos los elementos de la base de datos contra el elemento consultado y retornando aquellos elementos que se encuentren suficientemente cerca de éste; pero por lo general, esto resulta demasiado costoso para aplicaciones reales. Se han logrado algunos importantes avances para buscar en espacios métricos generales, en su gran mayoría alrededor de la idea de construir un índice, es decir una estructura de datos que reduzca el número de evaluaciones de distancia en tiempo de consulta. Algunos trabajos [Ciaccia et al., 1997; Prabhakar et al., 1998] tratan de obtener al mismo tiempo los objetivos de reducir el número de evaluaciones de distancia y la cantidad de entrada/salida realizada.

En [Chávez et al., 2001] se presenta un marco de trabajo unificador para describir y analizar todas las soluciones existentes a este problema. Allí se muestra que

Page 172: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 147 ______________________________________________________________________________

todos los algoritmos de indexación existentes para búsqueda por proximidad consisten en construir clases de equivalencia, luego descartar algunas clases y buscar exhaustivamente en el resto. Los algoritmos de búsqueda por proximidad se pueden dividir en dos grandes áreas: algoritmos basados en pivotes y algoritmos basados en particiones compactas, las cuales abarcan todos los métodos existentes. También se presentan en [Chávez et al., 2001] métodos cuantitativos para estimar la dificultad intrínseca de buscar sobre un espacio métrico dado y se proveen cotas sobre el problema de búsqueda. Esto incluye una definición cuantitativa de la noción conceptual de “dimensionalidad intrínseca”, la cual resulta ser muy apropiada.

Existe una amplia gama de aplicaciones donde aparece el concepto de búsqueda por proximidad:

• Consultas por contenidos en bases de datos estructuradas. • Consulta por contenido en objetos multimedia. • Recuperación de texto. • Biología computacional. • Reconocimiento de patrones y aproximación de funciones. • Compresión y transmisión de audio y video.

5.2.1 Espacios Métricos. Se introduce a continuación la notación básica para el problema de satisfacer

consultas por proximidad. El conjunto U denotará el universo de objetos válidos. Un subconjunto finito de S, de tamaño Sn = , es el conjunto de objetos donde se busca. S se denominará diccionario, base de datos o simplemente conjunto de objetos o elementos.

La función: RUUd →×: [5.50]

denotará una medida de “distancia” entre objetos, es decir, mientras más pequeña es la distancia, más cercanos o similares son los objetos. Las funciones de distancia tienen las siguientes propiedades: p1) ( ) 0,,, ≥∈∀ yxdUyx positividad, p2) ( ) ( )xydyxdUyx ,,,, =∈∀ simetría, p3) ( ) 0,, =∈∀ xxdUx reflexividad, y en la mayoría de los casos p4) ( ) 0,,, >⇒≠∈∀ yxdyxUyx positividad estricta.

Las propiedades enumeradas de la función de similitud sólo aseguran su definición consistente y no pueden ser usadas para ahorrarse comparaciones en una consulta por proximidad. Si d es en vedad una métrica, es decir, si satisface p5) ( ) ( ) ( )yzdzxdyxdUzyx ,,,,,, +≤∈∀ desigualdad triangular,

Page 173: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

148 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

entonces el par ( )dU , se denomina espacio métrico. Entre los distintos ejemplos de espacios métricos existentes, podemos resaltar la

importancia de los espacios vectoriales, espacio de documentos representados como vectores y diccionarios, espacios de cadenas de caracteres o strings sobre un alfabeto. Si los elementos del espacio métrico ( )dU , son realmente tuplas de números reales, entonces el par se denomina espacio vectorial. Un espacio vectorial de dimensión finita D es un espacio métrico particular donde los objetos se identifican por D número reales ( )Dxxx ,,, 21 L y cada ix es llamada “coordenada” del objeto, en adelante se llamaran espacios vectoriales o espacios D-dimensionales. Existen distintas funciones de distancia que se pueden usar en un espacio métrico, pero las más usadas son las de la familia de sL o familia de distancias de Minkowski, que se define como:

( ) ( )( )s

Di

siiDDs yxyyxxL

/1

111 ,,,,, ⎟

⎞⎜⎝

⎛−= ∑

≤≤

LL [5.51]

Algunos ejemplos de métricas pertenecientes a esta familia de distancias son la

distancia 1L conocida como distancia Manhatan, la 2L que es más conocida como distancia Euclídea, y se corresponde a nuestra noción habitual de distancia, y la distancia ∞L , conocida también como distancia del máximo.

( ) ( )( ) ∑=

−=D

iiiDD yxyyxxL

1

2112 ,,,,, LL [5.52]

En muchas aplicaciones los espacios métricos son en realidad espacios

vectoriales, es decir que los objetos son puntos D-dimensionales y la similitud se puede interpretar geométricamente. Un espacio vectorial permite más libertad al diseñar algoritmos de búsqueda, por que es posible usar la información de coordenadas y geométrica que no está disponible en los espacios métricos generales. Algunas estructuras de búsqueda para espacios vectoriales populares son Kd-trees [Bentley, 1975, 1979], los R-trees [Guttman, 1984], los Quad-trees [Samet, 1984] y los X-trees [Berchtold et al., 1996]. Todas estas técnicas usan ampliamente la información de coordenadas para agrupar y clasificar puntos en el espacio. Desafortunadamente estas técnicas son muy sensibles a la dimensión del espacio. Los algoritmos de búsqueda de punto más cercano y por rango depende exponencialmente de la dimensión del espacio [Chazelle, 1994]. Los espacios vectoriales pueden tener grandes diferencias entre su dimensión representacional D y su dimensión intrínseca, es decir, el número real de dimensiones en las cuales se pueden embeber los puntos manteniendo la distancia entre ellos. Si en un espacio vectorial sólo utilizamos la función de distancia para realizar las búsquedas, es decir, no utilizamos la información de las coordenadas de los objetos del espacio; es sencillo simular las búsquedas en un espacio métrico general. Una ventaja adicional es que la dimensión intrínseca del espacio se muestra independiente de cualquier dimensión representacional.

Page 174: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 149 ______________________________________________________________________________

5.2.2 Consultas por Proximidad. Existen dos tipos básicos de consultas de interés en espacios métricos:

Consulta por rango ( )drq, . Recuperar todos los elementos que están a distancia r de q . Esto es ( ){ }rrqdSx ≤∈ ,, . Consulta de k-vecinos más cercanos ( )qNNk − . Recuperar los k elementos más cercanos a q en S. Esto es, recuperar un conjunto SA⊆ tal que

( ) ( )yqdxqdASyAxykA ,,,, ≤−∈∈∀= . Hacer notar que se satisface para cualquier conjunto de k elementos que cumpla la condición.

El tipo más básico de consulta es la consulta por rango. La Figura 5.6 ilustra un ejemplo de ambos tipos de consulta. La Figura 5.1.a muestra una consulta por rango con radio r y a la Figura 5.6.b una consulta por los 5-vecinos más cercanos a q . En ese último caso, para hacer más evidente el tipo de consulta, se ha graficado también el rango necesario para vencer al menos 5 puntos, aunque éste realmente encierra a más de 5 objetos. Así es posible observar que existirían, para esta consulta, dado q y con 5=k , otras posibles respuestas. Las consultas se realizan sobre un conjunto de puntos R2, como el espacio métrico, para mayor claridad.

Una consulta por rango será por lo tanto un par ( )drq, siendo q un elemento de U y r un número real indicando el radio (o tolerancia) de la consulta. El conjunto

( ){ }ruqdSu ≤∈ ,, será llamado la salida o respuesta de la consulta por rango. Se usan “NN” como una abreviatura de “Nearest Neighbor” (vecino más cercano), y se le da el nombre genérico de “consulta-NN” al último tipo de consulta y “búsquedas-NN” a las técnicas utilizadas para resolverlas. Como se verá más adelante, las consultas-NN se pueden construir sistemáticamente sobre consultas por rango.

Un algoritmo de indexación es un procedimiento para construir de antemano una estructura de datos, denominada índice, diseñada para ahorrar computaciones de distancia cuando luego se responden consultas por proximidad. Lo importante es, por lo tanto, diseñar algoritmos de indexación eficientes para reducir las evaluaciones de distancia. Todos los algoritmos de indexación particiona al conjunto S en subconjuntos. Se construye el índice para permitir determinar un conjunto de subconjuntos candidatos dónde se pueden encontrar los elementos candidatos a la consulta. Durante la consulta, se busca el índice para encontrar los subconjuntos relevantes y luego se inspeccionan exhaustivamente todos estos conjuntos. Todas esas estructuras trabajan sobre la base de descartar elementos usando la desigualdad triangular, la única propiedad que nos permite ahorrar evaluaciones de distancia.

Page 175: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

150 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

a)

b)

Figura 5.6 Un ejemplo de consulta por rango (a) y k-vecinos más cercanos (b) sobre un conjunto de R2.

5.2.3 Maldición de la Dimensionalidad. Uno de los principales obstáculos para el diseño de técnicas de búsqueda

eficiente en espacios métricos es la existencia y ubicuidad en aplicaciones reales de los así llamados espacios de alta dimensionalidad. Las técnicas tradicionales de indexación como los Kd-trees [Bentley, 1975, 1979] poseen una dependencia exponencial sobre la dimensión representacional del espacio. Existen métodos efectivos para buscar sobre espacios de dimensión finita D, en adelante los llamaremos espacios vectoriales o espacios D-dimensionales. Sin embargo, para 20 dimensiones o más dichas estructuras dejan de desempeñarse bien. Nos dedicamos aquí, como ya mencionamos, a espacios métricos generales, aunque las soluciones planteadas son también adecuadas para espacios D-dimensionales.

En [Chávez et al., 2000b, 2001] se muestra que el concepto de dimensionalidad intrínseca se puede entender aún en espacios métricos generales, se da una definición cuantitativa de ella y se muestra analíticamente la razón para la llamada “maldición de la dimensionalidad”. Es interesante notar que el concepto de “dimensionalidad” está

Page 176: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 151 ______________________________________________________________________________

relacionado con la “facilidad” o “dificultad” para buscar en un espacio D-dimensional; los espacios dimensionales más altos tienen una distribución de probabilidad de distancias entre elementos cuyo histograma es más concentrado y con una media grande. Esto hace que el trabajo de cualquier algoritmo de búsqueda por similitud sea más dificultoso, esto se discute en [Yianilos, 1993; Brin, 1995; Chávez et al., 1997, 2001]. En el caso extremo tenemos un espacio donde ( ) ( ) 1,,0, =≠∀= yxdxyyxxd , donde se debe comparar exhaustivamente la query contra cada elemento en el conjunto. Se puede afirmar que un espacio métrico general es más “difícil”, dimensión intrínseca más alta, que otro cuando su histograma de distancia es más concentrado que el del otro. La idea es que, a medida que crece la dimensionalidad intrínseca del espacio, la media del histograma μ crece y su varianza σ2 se reduce.

La Figura 5.7 nos muestra, de manera intuitiva, el por qué los histogramas más concentrados producen espacios métricos más difíciles, alta dimensión intrínseca. Sea p un elemento de la base de datos y q una query. La desigualdad triangular implica que

cada elemento x tal que ( ) rxpdpqd >− ,),( no puede estar a distancia menor o igual que r de q , así podríamos descartar a x . Sin embargo, en un histograma más concentrado las diferencias entre dos distancias aleatorias son cercanas a cero y por lo tanto la probabilidad de descartar un elemento x es más baja. Las áreas sombreadas en la figura se muestran los puntos que no se pueden descartar. A medida que el histograma es más y más concentrado alrededor de esa media, menor cantidad de puntos se pueden descartar usando la información que nos brinda ( )qpd , .

Figura 5.7 Un histograma de distancias para un espacio métrico de dimensión baja (izquierda) y de dimensión alta (derecha).

Este fenómeno es independiente de la naturaleza del espacio métrico, en

particular si es vectorial o no, y nos da una manera de determinar cuán difícil es buscar sobre un espacio métrico arbitrario. La dimensionalidad intrínseca de un espacio

métrico se define como 2

2

2σμρ = , donde μ y σ2 son la media y la varianza del

histograma de distancias. Lo importante de la fórmula es que dimensionalidad intrínseca crece con la media y se reduce con la varianza del histograma. Esta definición además

Page 177: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

152 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

es coherente con la noción de dimensión en un espacio vectorial con coordenadas uniformemente distribuidas.

5.2.4 Fundamentos del Método del Vecino más Cercano (k Nearest Neighbors k-NN).

Los clasificadores supervisados basan su aprendizaje en un conjunto de datos denominado conjunto de entrenamiento, mediante el cual, se proporciona al clasificador una serie de casos o situaciones con las que puede encontrarse al requerirse una predicción o clasificación de un nuevo objeto. La idea central es utilizar como regla de clasificación aquella que utiliza la estimación de la probabilidad de pertenencia a la clase de cada uno de los k-vecinos más cercanos. A partir de este esquema de clasificación se puede implementar la variante repetitiva del algoritmo de Edición de Wilson utilizando la regla de clasificación de Centroide más Próximo (del inglés “Wilsoncn”), así como también, la de los algoritmos de Wilson con probabilidad y Wilson con probabilidades y umbral. Dentro del Reconocimiento de Patrones se puede hablar de dos aproximaciones generales, en función del tipo de espacio de representación utilizado y de cómo se estructura la información correspondiente a cada representación. Uno de ellas es el Reconocimiento Estadístico de Formas en el cual se asume que el espacio de representación de los objetos posee una estructura de espacio vectorial. Dentro del enfoque Estadístico del Reconocimiento de Formas se suelen hacer distinción entre las aproximaciones paramétricas y las no paramétricas. En el primer caso, se asume un conocimiento a priori sobre la forma funcional de las distribuciones de probabilidad de cada clase sobre el espacio de representación de los objetos, por el contrario, las aproximaciones no paramétricas no suponen ninguna forma de las distribuciones de probabilidad sobre el espacio de representación.

La regla del vecino más cercano [Dasarathy et al., 1991], es uno de los algoritmos más ampliamente estudiados en toda la literatura dentro de los clasificadores estadísticos no paramétricos. Dado un conjunto de N prototipos previamente etiquetados (conjunto de entrenamiento, TS), esta regla asigna a un objeto que se quiere etiquetar la clase a la cual pertenece x vecino más cercano en el conjunto de entrenamiento de acuerdo a una medida de similitud en el espacio de rasgos. Otro algoritmo ampliamente estudiado es la regla de los k-vecinos más cercanos en la cual los k-vecinos más cercanos al objeto a clasificar brindan un voto y el objeto es asignado a la clase más votada por sus k-vecinos. En el caso particular de k=1 esta regla coincide con la regla del vecino más cercano. Un inconveniente que tiene la regla k-NN, es que el conjunto de entrenamiento deberá ser relativamente grande con el fin de garantizar la convergencia del error de clasificación asociado a la regla k-NN, pudiéndose pensar en algunos casos, desechar su utilización, por su elevada complejidad computacional. El método del vecino más cercano es una forma práctica y de fácil aplicación para predecir o clasificar un nuevo dato, basado en observaciones conocidas o pasadas. A manera de ejemplo ilustrativo, supóngase el caso de un médico que está tratando de predecir el resultado de un procedimiento quirúrgico puede predecir que el resultado de la cirugía del paciente será aquel del paciente más parecido que conoce, que haya sido sometido al mismo procedimiento. Esto puede resultar un tanto extremo, ya que un solo caso similar en el cual la cirugía fallo puede influir de manera excesiva sobe otros casos, ligeramente menos similares, en los cuales la cirugía fue un éxito. Por esta razón el método del vecino más cercano se generaliza a uso de los k vecinos más cercanos. Esta técnica se basa, simplemente, en “recordar” todos los ejemplos que se vieron en la etapa de

Page 178: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 153 ______________________________________________________________________________

entrenamiento. Cuando un nuevo dato se presenta al sistema de aprendizaje, este se clasifica según el comportamiento del dato más cercano [Aha et al., 1991; Moreno, 2004].

Supóngase que se tienen los datos pertenecientes al conjunto de entrenamiento, tal como se muestra en la Figura 5.8 (triángulos y cuadrados), y se quiere conocer la etiqueta de un nuevo dato (marcado como x ). Entonces el procedimiento a seguir consiste en buscar el ejemplo que esté más cerca de este nuevo dato x , y asignarle su etiqueta (triángulo), tal como se muestra en la Figura 5.9.

Figura 5.8 Ubicación de un dato nuevo entre datos conocidos.

Figura 5.9 Predicción de la clase de un dato nuevo con respecto al vecino más cercano.

Ahora, si se considera el caso donde hay un cuadrado dentro de los datos

correspondientes a los triángulos (ruido), y se desea clasificar un nuevo dato ( )x , utilizando el ejemplo más cercano tal como se muestra en la Figura 5.10, se tiene un posible error.

Page 179: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

154 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Figura 5.10 Predicción de la clase de un dato nuevo con respeto al vecino más cercano, los datos conocidos contienen ruido.

Se puede notar debido al ruido, el nuevo dato se clasifica como cuadrado. Para

considerar el problema del ruido se puede cambiar el algoritmo de clasificación y utilizar un mayor número de vecinos, y así generar la etiqueta del nuevo dato usando mayoría simple, y no un solo dato. Estas generalización del método se llama k-vecinos más cercanos [Moreno, 2004]. En este caso se hace k=4 y se puede observar que el nuevo dato pertenece a la clase triángulos, tal como gráficamente se muestra en la Figura 5.11.

Figura 5.11 Predicción de la clase de un dato nuevo con respecto a los cinco vecinos más cercanos, los datos conocidos contienen ruido.

Con este nuevo enfoque se consigue resolver el problema del ruido. Cuando más grande es k, más robusta la clasificación ante ruido. Sin embargo, el valor de k tiene un límite, si se hiciera máximo cualquier dato nuevo siempre se tendrá la etiqueta de la clase que más datos haya en el conjunto de entrenamiento [Aha et al., 1991]. Por ejemplo, para el caso presentado en la Figura 5.9, si se asigna 29=k los datos nuevos siempre serán clasificados como triángulos debido a que se tienen 17 triángulos y 12 cuadrados. Para la estimación de la distancia se pueden utilizar distintas estrategias, como por ejemplo la distancia Euclídea, la distancia Mahalanobis, etc.

Page 180: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 155 ______________________________________________________________________________

5.2.5 Clasificación k-NN. En el método k-NN (del inglés “k Nearest Neighbor”) se estima la función de

densidad de donde proviene un conjunto de datos, aplicado a discriminación sería para estimar la función de densidad ( )jCxf / , de las predictoras x por cada clase. Es el método más básico de discriminación no paramétrico, ya que no se hace ninguna suposición distribucional.

Veamos primero el caso univariado. Sea nxxx ,,, 21 L una muestra con una función densidad desconocida ( )xf que se desea estimar y sea t un número real. Recordemos que la probabilidad de que x caiga en el intervalo ( )htht +− , , puede ser aproximada por ( )thf2 , donde f es la función de densidad y h es una constante que tiende a cero. Por otro lado dicha probabilidad también puede ser estimada por nk / , donde k es tal que número de observaciones en el intervalo ( )htht +− , . O sea que k es prefijado y h se halla de acuerdo al valor de k .

Formalmente, sea ( ) yxyxd −=, la distancia usual entre los puntos x e y en

línea recta. Supongamos que hemos calculado todas las distancias ( ) txtxd ii −=, y que todas ellas son ordenadas de menor a mayor, tal como:

( ) ( ) ( )tdtdtd n≤≤≤ L21 [5.53]

Entonces el estimador de densidad de los k vecinos más cercanos en el punto t es definido por:

( ) ( )tndktf

k2ˆ = [5.54]

Cuando se usa k pequeño, la función de densidad estimada tiene muchos picos

y cuando k es grande, es muy suave.

En el caso multievaluado, el estimado de la función de densidad tiene la forma

( ) ( )xnvkxfk

=ˆ [5.55]

donde ( )xvk es el volumen de un elipsoide centrado en x de radio ( )xrk , que a su vez es la distancia de x al k-ésimo punto más cercano.

Desde el punto de vista de análisis discriminante el método k-NN es muy simple de aplicar. En efecto, si las funciones de densidades condicionales ( )iCxf / de la clase

iC que aparecen en la ecuación ( ) ( )( )xfCxfxCP ii

iπ// = son estimadas por una expresión

de la forma 5.54.

Entonces, para clasificar un objeto con mediciones dadas por el vector x en la clase iC se debe cumplir que:

Page 181: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

156 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

( ) ( ) ijparaxvn

kxvn

k

kj

jj

ki

ii ≠>ππ [5.56]

Asumiendo probabilidades a priori proporcionales a los tamaños de las clases ( nni / y nnj / respectivamente) lo anterior es equivalente a:

ijparakk ji ≠> [5.57] Luego el procedimiento de clasificación sería así:

1) Hallar los k objetos que están a una distancia más cercana a x , k usualmente es un número impar 1 ó 3.

2) Si la mayoría de esos k objetos pertenecen a la clase iC entonces el objeto considerado también pertenece a ella. En caso de empate se clasifica al azar.

Hay dos problemas en el método k-NN, la elección de la distancia o métrica y la elección de k. La métrica más elemental que se puede elegir es la Euclidea. Está métrica sin embargo, puede causar problemas si las variables predictoras han sido medidas en unidades muy distintas entre sí. Algunos prefieren reescalar los datos antes de aplicar el método. Otra distancia bien usada es la distancia Manhatan definida por ( ) yxyxd −=, . Enas y Choi (1996) usando simulación hicieron un estudio para determinar el k óptimo cuando solo hay dos clases presentes y determinaron que se los tamaños maestrales de los dos clases son comparables entones 8/3nk = si había poca diferencia entre las matrices de covarianzas de los grupos y 8/2nk = si había bastante diferencia entre las matrices de covarianzas. El sesgo del error de clasificación aumenta a medida que k aumenta, en tanto que la varianza disminuye. Se ha demostrado que la tasa de error del clasificador k-NN es como máximo dos veces la tasa de error óptima (error del clasificador Bayesiano).

5.2.6 Regla de los k-Vecinos de Centroide más Cercano. En [Sánchez et al., 1997] se propone una nueva definición de vecindad, la cual

tiene en cuenta los criterios de distancia y simetría, la misma es aplicada sobre problemas generales de clasificación, esta regla recibe el nombre de vecindad centroide más próximo (del inglés “Nearest Centroid Neighborhood”, NCN). La formulación de este concepto es la siguiente. Sea { }nxxxX ,,, 21 L= un conjunto de objetos, y sea p un cierto punto al que queremos encontrar sus k-vecinos de centroide más próximos, con este fin se sigue el siguiente procedimiento iterativo, en el que el primer vecino del punto p corresponde a su vecino más próximo, mientras que los sucesivos vecinos se tomarán de manera que minimicen la distancia entre p y el centroide de todos los vecinos seleccionados hasta el momento. Así, si calculamos el k-ésimo vecino a partir de los k-1 vecinos previamente elegidos por el principio de centroide más próximo conseguiremos cumplir con los criterios de distancia y simetría. Se debe señalar que como consecuencia del criterio de centroide que se está utilizando, todos los k-NCN vecinos seleccionados se situarán alrededor del punto p , es decir, de alguna forma que se consigue que dicho punto quede envuelto por sus k-vecinos. Valiéndose de esta definición de vecindad en [Sánchez et al., 1997] se propone la siguiente regla de

Page 182: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 157 ______________________________________________________________________________

clasificación que se denominó regla de los k-vecinos de Centroides más Cercanos (k-NCN), la cual se puede formalizar de la siguiente manera.

( ) ( ) ( )jkMiiiNCNk PxdPxdx ,min,,,2,1 L=− =⇔=ϖδ [5.58]

Esta expresión significa, que la clase asignada a la muestra x corresponderá a la

clase más votada entre los k vecinos de centroide más próximo. En la práctica, al igual que ocurría con la regla de decisión k-NN, deberíamos considerar siempre un número impar de vecinos con el fin de evitar posibles empates.

5.3 Clasificación Basada en Funciones Discriminantes. Para cualquier sistema de Reconocimiento de Formas, su núcleo lo constituye el

módulo generador de decisiones, que asigna las formas incógnitas a las clases de formas previamente definidas, según las reglas preestablecidas. Por ello vamos a realiza el estudio de las reglas de decisión, para lo cual analizaremos:

• Reglas de Decisión en Problemas con Planteamiento Geométrico: Funciones Discriminantes.

• Reglas de Decisión en Problemas con Planteamiento Estadístico.

5.3.1 Funciones Discriminantes y Superficies de Decisión. Sea un espacio n-dimensional E (Rn) donde se ha definido un conjunto de c

clases {W1,W2,…, Wc} y asociada a cada clase i se encuentra un funcional di(X), donde X representa a un vector de medibles o características del espacio. Podemos establecer la siguiente Regla de Clasificación basada en estos funcionales: el clasificador asigna el vector de características X de la forma incógnita a la clase Wi con la que se cumple:

( ) ( ) ijXdXd ji ≠∀> [5.59]

A este conjunto de funcionales se les denomina Funciones de Decisión o Funciones Discriminantes.

Planteando cada inecuación de la siguiente forma:

( ) ( ) 0>− XdXd ji [5.60]

Su límite inferior vendrá definido por:

( ) ( ) ( ) 0=−= XdXdXd jiij [5.61]

Esta ecuación en el espacio n-dimensiones representa una hipersuperficie dij(X) que separa las clase i y j. Esta hipersuperficie se la denomina Frontera de Decisión o Superficie de Decisión. Las funciones discriminantes se definen en base a la aproximación que se haga al problema:

Page 183: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

158 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

• Si se considera al espacio de representación de naturaleza estadística, donde las distribuciones de las clases son conocidas o determinables, el problema de clasificación es de naturaleza estadística paramétrica, y las funciones discriminantes serán funciones estadísticas.

• Si no se considera la naturaleza estadística, el problema se plantea como uno de decisión geométrica, en el que las funciones discriminantes son funciones deterministas paramétricas.

El éxito de los esquemas de clasificación de formas mediante funciones de

decisión depende de dos factores:

i) La forma de la función de decisión, directamente relacionada con las propiedades de las clases en consideración. Si no se posee información previa acerca de las clases en cuestión así como de su distribución en el espacio, la única manera de establecer la efectividad de una función de decisión es mediante prueba directa.

ii) La determinación de los parámetros de la función, que se resuelve mediante

esquemas de aprendizaje, normalmente a partir de muestras de formas.

5.3.1.1 Discriminante Lineal Binario. Sea un problema de clasificaron entre dos clases W1 y W2 en un espacio

bidimensional, es decir, donde el vector de características es de la forma:

⎥⎦

⎤⎢⎣

⎡=

2

1

xx

X [5.62]

y asociados a las clases se encuentran las funciones discriminantes d1(X) y d2(X), que intervienen en la clasificación a través de la siguiente regla:

⎩⎨⎧

Ω∈⇒<Ω∈⇒>

∀221

121

)()()()(

:XXdXdsiXXdXdsi

X [5.63]

Si las funciones discriminantes son combinaciones lineales de las coordenadas

del vector de características:

2,1)( 02211 =∀++= ixxXd iiii ωωω [5.64]

la función se denomina Discriminante Lineal, y su correspondiente Superficie de Decisión será:

( ) ( ) ( ) 0)()()()(

0221120102221211211

2112

=++=−+−+−==−==

ωωωωωωωωω XXXXXdXdXdXd

[5.65]

la cual representa la ecuación de una recta (véase Figura 5.12).

Page 184: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 159 ______________________________________________________________________________

Además, la ecuación de la superficie de decisión puede usarse como base de una regla de decisión, como se muestra en la expresión 5.66.

⎩⎨⎧

Ω∈⇒<Ω∈⇒>

∀2

1

0)(0)(

:XXdsiXXdsi

X [5.66]

d(X) W1 X2 W2 - +

X1

Figura 5.12 Recta de Decisión en el Plano de Características.

En la Figura 5.13 se muestra un esquema de lo que podría se un clasificador lineal binario. x1

x2 d(X) +1 +1 si d(X)>0 -1 -1 si d(X)<0 Elemento 1 Umbral

Figura 5.13 Esquema del Clasificador Lineal entre dos clases.

Si generalizamos la función discriminante de dos clases a un espacio n-

dimensional, por extrapolación del caso anterior, obtendremos la expresión:

2,1)( 02211 =∀++++= iXXXXd ininiii ωωωω L [5.67]

Expresando la ecuación 5.67, en forma vectorial obtendremos:

2,1)( 0 =∀+= iXXd itii ωω [5.68]

w1

w2

w0

+

Page 185: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

160 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

siendo [ ]initi ωωωω L121= la traspuesta del Vector de Pesos o Parámetros y 0iω el Peso

o Parámetro Umbral de la Clase iΩ .

La regla de decisión basada en las funciones discriminantes vendrá dada por la expresión 5.65, y la superficie de decisión será:

( ) ( )

( ) ( ) ( ) ( )

00

02211

2010212221212111

12

=+

=−+++

=−+−++−+−

==

ωω

ωωωω

ωωωωωωωω

X

XXX

XXX

XdXd

t

nn

nnn

L

L

[5.69]

que corresponde con un hiperplano del espacio n-dimensional, donde el vector de pesos es normal al hiperplano.

Teniendo en cuenta la expresión 5.69 obtenemos:

0ωω −=Xt [5.70]

Expresando al vector de pesos en función del vector unitario u en su dirección, obtenemos:

ut DXu =−=

ωω0 [5.71]

Esta ecuación nos muestra que el cociente cambiando de signo entre el peso

umbral y el módulo del vector de pesos se corresponde con la distancia del hiperplano al origen de referencia (véase Figura 5.14).

Tomamos los vectores 1X y 2X que se corresponden a puntos situados a ambos lados de la recta de decisión. Dichos vectores se pueden expresar como la suma de otros dos vectores:

22

11

ZXXZXX

+=+=

[5.72]

Para el primer vector 1X tendremos:

( ) ( ) 11

011 uZDuXDuXXXdu

t

+−=−=+=ωω

ωω

ω [5.73]

De la expresión 5.71 deducimos que el término entre paréntesis es nulo, como se

desprende para todo vector X situado sobre la recta de decisión, obteniendo:

Page 186: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 161 ______________________________________________________________________________

11)( uZXd=

ω [5.74]

x2

u

Z2

X1

Z1 X2 Du X

x1

d(X)=0

Figura 5.14 Configuración de vectores del análisis de la Función de Decisión.

El ángulo formado por el vector unitario u y el vector 1Z es agudo, por lo que su producto escalar será positivo, y por tanto ( ) 01 >Xd . De forma análoga para X2, obtenemos que 0)( 2 <Xd . Ídem para todo vector del semiplano correspondiente. El discriminante lineal de las expresiones 5.67 y 5.68 puede representarse en forma homogénea, que consiste en expresar la función discriminante como un producto matricial. Partiendo de la expresión matricial del discriminante según 5.67:

( ) ∑=

+=+

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=n

iii

n

n X

X

XX

Xd1

002

1

21)( ωωωωωωM

L [5.75]

Considerando las siguientes igualdades:

niXyy

nia

ii

ii

,,2,11

,,1,0

0

L

L

=∀==

=∀=ω [5.76]

podemos construir dos nuevos vectores a e Y de dimensión (n+1), que corresponden a los pesos y características. Por lo que el discriminante quedará:

Page 187: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

162 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

( ) ( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛=

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=== ∑= X

X

XX

YayaXdn

i

t

n

nt

ii

1

1

)(0

02

1

10 ωωωωωM

L [5.77]

Esto equivale a realizar un mapeo del espacio original de características

n-dimensional a otro espacio n-dimensional ( )1+=nn . Este mapeo preserva todas las relaciones de distancia entre las muestras y la superficie de decisión, que será:

0=Yat [5.78]

que pasará por el origen del nuevo sistema referencial.

5.3.1.2 Funciones Discriminantes Generalizadas. No todos los problemas de clasificación se pueden resolver utilizando fronteras

de decisión. Existen configuraciones de clases no linealmente separables (véase Figura 5.15). La complejidad de las fronteras van desde el caso lineal al de hipersuperficies altamente no lineales. W2

W1 W1 W2

Figura 5.15 Izquierda: dos regiones linealmente separables. Derecha: no linealmente separables.

Podemos generalizar convenientemente el funcional de decisión, partiendo de la

expresión 5.67, sustituyendo la combinación lineal de las características por la de funcionales genéricos )(Xfi del vector de características n-dimensional:

∑=

=

=++++=ki

iiikk XfXfXfXfXd

002211 )()()()()( ωωωωω L [5.79]

Page 188: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 163 ______________________________________________________________________________

donde { }kiXfyXf i ,,1);(1)(0 L== son funciones reales univaluadas. La expresión 5.79 engloba una variedad infinita de funciones de decisión, cuya naturaleza depende de la elección de los funcionales )(Xfi y del número k de términos de la expresión. La función de decisión obtenida presenta una naturaleza no lineal respecto a X, sin embargo, es posible expresarla en forma lineal generalizada mediante una transformación del espacio de representación. Para ello, definiendo las igualdades:

kiXfyy

kia

ii

ii

,,2,1);(1

,,1,0;

0

L

L

=∀==

=∀=ω [5.80]

La función discriminante queda expresada en base al vector Y como:

( )⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

===∑=

k

k

k

i

tii

y

yy

aaaYayaXdM

L 1

0

100

)( [5.81]

o sea, en forma lineal. El proceso de linealización se basa en un mapeo desde el espacio original de representación n-dimensional, en el cual la función de decisión es no lineal, a un espacio transformado n’-dimensiones (n’=k+1), en el que el discriminante es lineal, concretamente un hiperplano que pasa por el origen. Una de las soluciones corresponde al caso en que el discriminante es de naturaleza polinómica, que se genera añadiendo términos de grados superiores al discriminante lineal. El caso más sencillo es el de grado dos, cuya expresión es:

∑ ∑∑= = =

++=n

i

n

i

n

jjiijii XXXXd

1 1 10)( ωωω [5.82]

Como ji xx = , sin perdida de generalidad podemos supone que jiij ωω = . Por lo

que la función queda expresada:

∑ ∑∑ ∑=

= += =

+++=n

i

n

i

n

ij

n

iiiijiijii XXXXXd

1

1

1 1 1

20 2)( ωωωω [5.83]

La frontera de decisión 0)( =Xd , correspondiente a esta ecuación es una

superficie hipercuadrática, cuya forma viene definida por sus términos. Si definimos las matrices:

{ }{ } ni

njiW

i

ij

,,2,1;

,,2,1,;

L

L

==

==

ωω

ω [5.84]

la frontera de decisión quedará expresada de las siguiente forma:

0)( 0 =++= ωω XWXXXd tt [5.85]

Page 189: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

164 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Las propiedades de W determinan la forma de la frontera de decisión. Dichas

propiedades son: • Se dice que W es definida positivamente si:

00 ≠∀> XWXX t • Se dice que es semidefinida positiva si:

00 ≠∀≥ XWXX t Análogamente se puede decir para definida negativa y semidefinida negativa,

para los casos respectivos de las desigualdades < y §. Por lo tanto si W es la matriz identidad, la frontera es una hiperesfera. Si es definida positiva, describe un hiperelipsoide con los ejes en la dirección de los autovectores de W. Si es semidefinida positiva, es un cilindro hiperelipsoidal, cuyas secciones son hiperelipsoides de dimensión inferior cuyos ejes están en la dirección de los autovectores de W correspondientes a autovalores no nulos. Si es definida negativa, la frontera es un hiperhiperboloide. Análogamente a las funciones discriminantes polinómicas de grado dos, se pueden definir otras de cualquier grado superior. Dichas funciones se pueden expresar recursivamente:

)()( 1

1 11 2 1

2121XdXXXXd r

n

i

n

i

n

iiiiiiii

r

rr

rr

= = =

+⎟⎟⎠

⎞⎜⎜⎝

⎛= ∑∑ ∑

LLL

ω [5.86]

Donde r indica el grado de no linealidad y:

0

0 )( ω=Xd [5.87]

5.3.2 Clasificación por Funciones de Distancia. La forma más simple para realizar un proceso de clasificación de formas es la

basada en los conceptos de distancia entre la forma a clasificar y conjuntos de prototipos de las clases en consideración. Ello se debe a que la proximidad o similitud, entre vectores de características es una manera de determinar pertenencia a categorías. En este caso particular, los vectores de características se consideran como puntos de un espacio con una estructura que admite la definición de una métrica o pseudométrica. Si queremos obtener resultados satisfactorios, las clases deben ser lo más compactas y separadas entre si, o sea, deben ser tales que cumplan adecuadamente el tercer postulado de Niemann (alto valor de la relación entre dispersiones intra-clase a dispersiones entre clases). Para ilustrar intuitivamente esto, véase los ejemplos mostrados en la Figura 5.16. En el de la izquierda se cumple la afirmación, y resulta bastante adecuada la conclusión de asignar la muestra incógnita X a la clase Wi, en base a su mayor proximidad a las muestras patrón de esta clase. En cambio en el de la derecha, una conclusión de este tipo resulta más arriesgada.

Reacuérdese el apartado 5.2.1 donde se introduce el concepto de espacios

métricos y teniendo en cuenta que la métrica Euclídea, además se puede generalizar, definiendo:

BXXX tB= [5.88]

donde B es una matriz definida positiva.

Page 190: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 165 ______________________________________________________________________________

La métrica correspondiente a la expresión 5.88 es:

)()(),( YXBYXYXD t

B −−= [5.89]

X X Wi Wj Wi

Wj

Figura 5.16 Izquierda: muestra clasificable fácilmente por concepto de proximidad. Derecha: muestra no fácilmente clasificable.

Para los casos más sencillos B es una matriz diagonal, en la que los elementos de la diagonal se corresponden a diferentes pesos positivos para las componentes del vector. Una métrica muy utilizada, es la distancia estadística general de Mahalonobis. Para describirla, supongamos un conjunto de m vectores o muestras de formas n-dimensionales { }mkX k ,,2,1; L= . Denominemos a la componente i-ésima como ikx . Denominemos M a una matriz de dimensiones nm× , en la que cada columna se corresponde con uno de los vectores de características kX .

Sea μ el vector de medias de las componentes o características, es decir:

[ ]XE=μ [5.90] Cada componente de μ viene dada por:

∑=

=m

kiki x

m 1

1μ [5.91]

SeaΣ la matriz nn× de covarianzas de variables:

( )( )[ ] ( )ij

tXXE σμμ =−−=Σ [5.92] donde cada elemento de dicha matriz ( )ijσ , viene dado por la covarianza entre las componentes i y j:

( )( )∑=

−−=m

kjjkiikij XX

m 1

1 μμσ [5.93]

Page 191: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

166 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Definimos la matriz *M como:

( )iikXM μ−=* [5.94]

La matriz de convarianzas se puede expresar como:

( )tMMm

**1=Σ [5.95]

Cuando los vectores *X son linealmente independientes, esto ocurre cuando

m>>n, la matriz de covarianzas de variables es definida positiva y, por tanto, no singular, con lo cual posee inversa definida positiva 1−Σ . Además, 1−Σ es una matriz simétrica ya que njijiij ,,2,1, L=∀=σσ . Teniendo en cuenta todo lo anterior, definimos la Distancia de Mahalanobis entre dos muestras X e Y como:

( ) ( )YXYXYXD t −Σ−= −Σ

1),( [5.96]

Esta distancia cumple las propiedades de las funciones de distancia definidas en el apartado 5.2.1, con 00 =D . Además, es invariante ante cualquier transformación lineal no singular de las variables o características, sobre todas las muestras. Un caso particular sería si C es una matriz diagonal con elementos no nulos en su diagonal, la transformación de X por C significa que el valor de las componentes del vector se multiplica por una constante, es decir, la matriz de transformación efectúa un cambio de escala. Se puede observar de la expresión anterior, que aún ante esta transformación, la distancia de Mahalanobis resulta invariante. Hay que hacer notar cómo otras métricas, incluidas la euclídeas, no poseen esta importante propiedad. Este funcional de distancia, está expresado en unidades de desviación típica, y tiene en cuenta las correlaciones, o sea, interdependencia o redundancia, entre las variables, de forma que la distancia disminuye a medida que aumenta la correlación de las variables. La distancia es un funcional monótono creciente con la dimensionalidad del espacio (véase Figura 5.17).

También, es posible definir, en vez de funcionales que asignen valor numérico a

la disimilaridad, como con los de distancia vistos anteriormente, los funcionales que cuantifique la similitud, es decir, que presenten mayor valor a mayor similitud y menor valor a menor similitud, estos funcionales se denominan funcionales de semejanza. Formalmente y por analogía con la función de distancia se define una función de semejanza S para un conjunto U de elementos como un mapeo RUUS →*: que, para un par arbitrario UYX ∈, posee las siguientes propiedades:

( )( )( ) ( )XYSYXS

SXXSSYXS

,,)3,)2,)1

0

0

==≤

[5.97]

donde S0 es un número real finito arbitrario. La función de semejanza se dice métrica si además cumple:

Page 192: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 167 ______________________________________________________________________________

( )( ) ( )[ ] ( ) ( ) ( )ZYSYXSZXSZYSYXSUZYX

YXSYXSSi,,,,,:,,)5

,)4 0

⋅≥⋅+∈∀=⇒=

[5.98]

x2

x2

b D b D’

a x1 a x1

D > D’ > a D > D’ > b

Figura 5.17 Distancia de Mahalanobis para características no correlaciones (a la izquierda) y

correlacionadas (derecha).

La cuarta propiedad corresponde a la proposición de que la máxima semejanza sólo pueden poseerla elementos idénticos. La quinta se define estableciendo analogía con la correspondiente de a definición de distancia métrica. La relación entre semejanza y distancia es evidente. Así, si D es una función de distancia (métrica) definida en el rango de valores de R, entonces 1/D es una función de semejanza (métrica). Si D es una métrica que está definida en R, entonces:

de− [5.99] es una función de semejanza también métrica. Por otro lado, si D está definida en un rango finito de valores reales, entonces, son métricas de semejanza:

{ }{ }

{ } 2max

max

max

DD

DD

DD

[5.100]

Las medidas de similaridad no tienen por que limitarse a estar expresadas en

función de distancias predefinidas. Por ejemplo, sea la semejanza:

( )YXYXYXS

t

=, [5.101]

que se corresponde con el coseno del ángulo que forman los vectores X e Y, y que es máxima cuando ambos vectores están orientados en las misma dirección respecto al

Page 193: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

168 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

origen del sistema de referencia. En este sentido, resultará útil cuando las clases constituyen regiones alargadas como las mostradas en la Figura 5.18. Se puede observar como con una semejanza como esta y para las muestras que aparecen en la figura, se cumple que:

( )

( )

( ) ( )ZXSYXSZXZXZXS

YXYXYXS

t

t

,,

cos,

cos,

2

1

>

==

==

θ

θ

[5.102]

Y

Wj

Wi

X Z

q1 q2

Figura 5.18 Clases adecuadas para la medida de semejanza.

En ciertos casos, las formas se representan mediante vectores de características

con componentes binarias, es decir valuadas en 0 ó 1: si el valor del elemento i del vector es 1=ix , esto indica que la forma posee la propiedad i, mientras que si es 0 carece de ella. En estos casos, una función de semejanza como la 5.101 presenta una interpretación geométrica interesante. El numerador de 5.101 representa el número de atributos que poseen comunes X e Y, mientras que el producto de normas del denominador representa la media geométrica del número de atributos poseídos por uno de los vectores multiplicada por a del otro. Por tanto, la semejanza en este caso puede interpretarse como una medida de los atributos comunes que poseen ambos vectores. Una variación binaria de la medida anterior, utilizada en aplicaciones de taxonomía (clasificación de plantas y animales) o en nosología (clasificación de enfermedades infecciosas), es la denominada medida de Tanimoto, que viene dada por:

( )YXYYXX

YXYXS ttt

t

−+=, [5.103]

Page 194: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 169 ______________________________________________________________________________

Reglas de la Distancia Mínima. Para un conjunto de c clases { }cΩΩΩ ,,, 21 L , donde cada una de las iΩ resulte

representada por un vector de características iZ , que denominaremos vector prototipo, o simplemente prototipo, de la clase. Sea a su vez un vector de una forma incógnita X, que pretendemos clasificar. La clasificación de X según la regla de la mínima distancia a los prototipos se pueden expresar como:

( ) ( ) jiCjiZXDZXDsiX jii ≠=∀<Ω∈ ;,,2,1,,,: L [5.104] donde D representa al funcional de distancia definido para el espacio de representación. La regla anterior se escribe alternativamente de la siguiente manera:

( ) ( ){ }jCjji ZXDZXDsiX ,min,:,,2,1 L=∀

=Ω∈ [5.105]

La fase de aprendizaje de un sistema con clasificador según la regla de decisión

de la distancia mínima consistirá en obtener, a partir de las muestras de aprendizaje, los c prototipos iZ que representen a las clases correspondientes. Un vector prototipo muy utilizado es el centroide o vector medio de la clase. La clasificación por regla de distancia mínima es un caso de clasificación por función discriminante lineal. Sea el caso de nRE = y métrica Euclídea. Para comprobarlo, partamos de la expresión del cuadrado de la distancia euclídea, cualitativamente análoga a la distancia a secas, y desarrollemos la expresión:

( ) 2222 2, itiii ZXZXZXZXD +−=−= [5.106]

Definimos:

( ) 2

21

itii ZXZX −=ϕ [5.107]

El funcional de distancia queda como:

( ) ( )XXZXD ii ϕ2, 22 −= [5.108]

Como la norma del vector de la forma incógnita es independiente de la clase i,

de las expresiones 5.105 y 5.108 deducimos que, la minimización de la distancia es equivalente a la de maximización del funcional 5.107, con que la regla de clasificación se puede expresar como:

( ) ( ){ }XXsiX jCjii ϕϕ,,2,1

max:L=∀

=Ω∈ [5.109]

Si además, comparamos el funcional definido es 5.107 con la expresión 5.68, se

pueden establecer las equivalencias:

Page 195: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

170 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

20 2

1i

il

Z

Z

−=

=

ω

ω [5.110]

Lo que demuestra que el proceso de clasificación por regla de distancia euclídea

mínima a los prototipos de las clases es un caso particular e clasificación basado en función discriminante lineal. Además, las superficies de decisión que separan las clases, son hiperplanos perpendiculares a los segmentos que unen los puntos del espacio de características que representan a los prototipos correspondientes. Dichos hiperplanos bisectan dicho segmento en su punto medio. Al conjunto de regiones definidas por las fronteras asociadas al clasificador de mínima distancia se las denomina regiones de Voronoi (de orden 0). La equivalencia entre la regla de distancia mínima a los prototipos y la regla basada en discriminantes lineales, también se presenta en el caso de que se utilice como métrica la distancia de Mahalanobis.

5.3.3 Estudio de Caso: Distribución Normal. La estructura de los clasificadores bayesianos resulta determinada, en principio

por la forma de las densidades condicionales p(X/Wi). De las diferentes funciones estudiadas, ninguna ha recibido tanta atención como la densidad normal multivariada, fundamentalmente debido a su tratabilidad analítica. Este modelo resulta apropiado para una situación muy común en los problemas de Reconocimiento de Formas; el caso en el que, los vectores de características X para una clase Wi pertenecen a un dominio continuo de valores, y corresponden a versiones, afectadas por ruido, de un vector prototipo μi. Esta situación corresponde a aquellos casos en los que, el extractor de características se haya diseñado de manera que se extraigan características cuyo valor sea diferente para muestras de diferentes clases y similares para muestras de la misma clase. Vamos a analizar la densidad normal multivariada, concentrándonos fundamentalmente en lo correspondiente a los problemas de clasificación.

Distribución Normal Univariada. La densidad de probabilidad univariada (unidimensional) viene dada por:

( ) ( )( )

2

2

22

21, σ

μ

σπσμ

−−

==X

eNXp [5.111]

siendo:

[ ] ( )

( )[ ] ( ) ( )∫

∫∞

∞−

∞−

−=−=

==

dxXPXXE

dXXXPXE

222 μμσ

μ [5.112]

La densidad normal univariada resulta completamente especificada por dos

parámetros: la media μ y la varianza σ2. Por ello, normalmente se suele expresar una cierta densidad de probabilidad normal en forma reducida como N(μ, σ2). Las muestras distribuidas según la densidad normal se suele agrupar alrededor de la media, con una

Page 196: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 171 ______________________________________________________________________________

dispersión alrededor de ella proporcional a la desviación típica σ, ubicándose aproximadamente el 95% de las muestras de la población en el intervalo σμ 2≤−x .

Distribución Normal Multivariada. La densidad de probabilidad normal multivariada viene dada por:

( ) ( )( )

( ) ( )⎥⎦⎤

⎢⎣⎡ −Σ−− −

Σ=Σ=

μμ

πμ

XX

n

t

eNXP1

21

2

1, [5.113]

siendo X un vector de características n-dimensionales, μ el vector media y Σ la matriz de covarianzas de variables, de dimensión n*n. Análogamente al caso univariado, la densidad normal multivariada se suele representar en forma reducida como

( )Σ= ,)( μNXp , y resulta completamente definida por n+(n+1)/2 parámetros que son: los elementos del vector de medias y los elementos independientes de la matriz de covarianzas, que es una matriz simétrica y definida positiva. Las muestras que constituyen una población normal tienden a situarse en una nube o agrupamiento (cluster), cuyo centro queda determinado por el vector de medias y cuya forma viene definida por la matriz de covarianzas. El lugar de los puntos de densidad de probabilidad constante constituye hiperelipsoides del espacio de representación, centrados en el punto definido por el vector de medias. El término no dependiente de i es:

( ) ( )μμ −Σ− − XX t 1 [5.114] es constante. Si observamos, la misma se corresponde con la Distancia de Mahalanobis, por tanto, se puede decir que los puntos de igual densidad de probabilidad se encuentran a la misma distancia de Mahalanobis de la media. Además, los ejes principales de estos hiperelipsoides son los autovectores de la matriz de covarianzas, y las longitudes de sus ejes están definidas por los autovalores.

Funciones Discriminantes y Densidad de Probabilidad Normal. A continuación abordamos el diseño y análisis de un clasificador bayesiano de

mínimo error en un problema multiclase (c clases) y multivariado (dimensión n). Sean las probabilidades a priori de las clases son ( ){ }ciP i ,,2,1; L=Ω conocidas, y las densidades de probabilidad de las mismas se rigen por ley normal:

( ) ( )( )

( ) ( )⎥⎦⎤

⎢⎣⎡ −Σ−− −

Σ=Σ=Ω

iit

i XX

iniii eNXp

μμ

πμ

1

21

2

1,/ [5.115]

Dada la naturaleza exponencial de la función de densidad, podemos definir la

función discriminante asociada a cada clase, con lo que obtenemos:

( ) ( ) ( )

( ) ( ) ( ) ( )iiiit

i

iii

PnXX

XpPXd

Ω+Σ−−−Σ−−=

=Ω+Ω=

− lnln212ln

221

/lnln

1 πμμ [5.116]

Page 197: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

172 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

común a todas las funciones discriminantes, por lo que podemos eliminarlo. Con ello la función discriminante queda:

( ) ( ) ( ) ( )iiiit

ii PXXXd Ω+Σ−−Σ−−= − lnln21

21 1 μμ [5.117]

A continuación analizaremos la clasificación para diferentes casos particulares,

relacionados con formas específicas de la matriz de dispersiones.

Caso de Características Estadísticamente Independientes con Idéntica Varianza.

Este caso corresponde a:

ciIi ,,2,1;2 L=∀=Σ σ [5.118] donde I representa la matriz identidad de dimensión n*n. Geométricamente las muestras de las clases se sitúan en agrupamientos hiperesféricos de igual tamaño, alrededor del vector media de cada clase. Esta matriz de covarianzas tiene como determinante e inversa a:

Iin

i ⎟⎠⎞

⎜⎝⎛=Σ=Σ −

212 1;

σσ [5.119]

Con ellos, la expresión 5.117 del discriminante resulta:

( ) ( ) ( ) ( )

( ) ( ) ( )iit

i

iit

ii

PnXX

PnXIXXd

Ω+−−−−=

=Ω+−−⎟⎠⎞

⎜⎝⎛−−=

lnln2

1

lnln121

2

2

σμμσ

σμσ

μ [5.120]

En el primer sumando aparece la distancia Euclídea y por otro lado también hay

un sumando que resulta independiente de la clase, por tanto, el discriminante puede ponerse como:

( ) ( )ii

i PX

Xd Ω+−

−= ln2 2

2

σμ

[5.121]

Si además, las probabilidades a priori de todas las clases son iguales, el segundo

sumando puede eliminarse, con lo que la función discriminante resulta:

( ) 2ii XXd μ−−= [5.122]

Se asigna la muestra a la clase que maximiza el discriminante, o lo que es lo

mismo, a la que minimiza la distancia Euclídea de X a su media. Por tanto, en este caso, la clasificación se realiza por el criterio de distancia mínima. Además, la expresión 5.121 tiene naturaleza de discriminante lineal así que, con un razonamiento análogo al utilizado para la regla de la distancia mínima, dicho discriminante queda como:

Page 198: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 173 ______________________________________________________________________________

( ) 0itii XXd ωω += [5.123]

Con

ii μσ

ω 2

1= [5.124]

y

( )iitii P Ω+−= ln1

20 μμσ

ω [5.125]

La frontera de decisión ( ) 0=Xdij entre dos clases i y j es, por tanto, un

hiperplano ortogonal al vector que une las medias de ambas clases. Si σ2 es pequeña, en relación a la distancia Euclídea entre ambas medias, la posición de la frontera de decisión es relativamente insensible a las probabilidades a priori de las clases ( )iP Ω y ( )jP Ω .

Caso de Clases con Idéntica Matriz de Covarianzas. Corresponde a:

cii ,,2,1; L=∀Σ=Σ [5.126]

Geométricamente, las muestras se sitúan en agrupamientos hiperelipsoidales de

igual tamaño y forma, estanco centrado el agrupamiento de la clase Wi en la media de su clase μi. Las funciones discriminantes resultan:

( ) ( ) ( ) ( )iit

ii PXXXd Ω+Σ−−Σ−−= − lnln21

21 1 μμ [5.127]

El segundo sumando se puede eliminar al no depender de i. Si todas las

probabilidades a priori de las clases son iguales, el discriminante se puede poner como:

( ) ( ) ( )it

ii XXXd μμ −Σ−−= −1 [5.128]

Con lo que la regla de clasificación en base al máximo valor del discriminante se puede sustituir por la de asignar a aquella clase a la que la muestra posea mínima distancia de Mahalanobis a su media. La ecuación 5.127 tiene naturaleza de discriminante lineal, lo que se puede demostrar por simple desarrollo de la expresión. Por tanto, las fronteras de decisión serán también en este caso hiperplanos aunque en general no ortogonales a los vectores que unen las medias. Si las probabilidades a priori de las clases son iguales, el hiperplano, corta a dicho vector en su punto medio.

Caso de Matriz de Covarianzas Arbitraria. Para el caso más general, las matrices de covarianzas son diferentes para cada

clase y la expresión de la función discriminante es la 5.117, que desarrollada nos permite obtener:

Page 199: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

174 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

( ) ( )iiiitii

tiii

ti

ti PXXXXXd Ω+Σ−Σ−Σ+Σ+Σ−= −−−− lnln

21

21

21

21

21 1111 μμμμ [5.129]

Es la expresión de una función discriminante cuadrática. Esto se puede observar si la comparamos con la expresión 5.85 de dicho discriminante, que para cada clase es:

( ) 0itii

ti XXWXXd ωω ++= [5.130]

donde:

( )iiiitii

iii

ii

P

W

Ω+Σ−Σ−=

Σ=

Σ−=

lnln21

21

21

10

1

1

μμω

μω [5.131]

Las superficies de decisión son hipercuadráticas.

5.4 Árboles de Decisión. Los árboles de decisión, también denominados árboles de clasificación o de

identificación, como su propio nombre indica, sirven para resolver problemas de clasificación. La construcción de árboles de decisión es uno de los métodos de aprendizaje inductivo supervisado más utilizado. Como forma de representación del conocimiento, los árboles de decisión destacan por su sencillez. A pesar de que carecen de la expresividad de las redes semánticas o de la lógica de primer orden, su dominio de aplicación no está restringido a un ámbito concreto, empleándose en un amplio número de áreas, que van desde aplicaciones de diagnóstico médico, hasta juegos como el ajedrez o sistemas de predicción meteorológica. La construcción automática de árboles de clasificación puede servir como alternativa a los métodos manuales de extracción de conocimiento. Para que el aprendizaje inductivo, como proceso de generalización a partir de ejemplos concretos sea correcto, se ha de disponer de numerosos ejemplos. Si las conclusiones obtenidas no están avaladas por muchos ejemplos, entonces la aparición de errores en los datos, podría conducir al aprendizaje de un modelo erróneo.

Un árbol de decisión es una forma de representar el conocimiento obtenido en el

proceso de aprendizaje inductivo. Cada nodo interior del árbol contiene una pregunta sobre un atributo concreto, con un hijo por cada posible respuesta y cada hoja se refiere a una decisión, una clasificación. Un árbol de este tipo puede usarse para clasificar un caso comenzando desde su raíz y siguiendo el camino determinado por las respuestas a las preguntas de los nodos internos hasta que encontremos una hoja del árbol. Funciona como una aguja de ferrocarril: cada caso es dirigido hacia una rama u otra de acuerdo con los valores de sus atributos al igual que los trenes cambian de vía según su destino. Los árboles de clasificación podría ser útil siempre que los ejemplos a partir de los que se desean aprender se puedan representar mediante un conjunto prefijado de atributos y valores discretos o numéricos. Sin embargo, no son de gran utilidad cundo la estructura de los ejemplos es variable ni obviamente para la predicción de valores continuos. Una característica interesante de los árboles de decisión es la facilidad con la que se pueden derivar reglas de producción a partir de ellos. Esto es importante para facilitar la

Page 200: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 175 ______________________________________________________________________________

compresión del modelo de clasificación construido cuando el árbol de decisión es complejo. El algoritmo para la obtención de las reglas reproducción derivados del árbol es trivial: de cada camino desde la raíz del árbol hasta un nodo hoja se deriva una regla cuyo antecedente es el conjunto de los valores de los atributos de los nodos internos y cuyo consecuente es la decisión a la que hace referencia la hoja del árbol, la clasificación realizada. Posteriormente, el conjunto de reglas derivado del árbol de decisión puede mejorarse generalizando aquellas reglas que incluyan condiciones irrelevantes para la clasificación en su antecedente.

5.4.1 Construcción de Árboles de Decisión. En principio, se busca la obtención de un árbol de decisión que sea compacto.

Un árbol de decisión pequeño permite comprender mejor el modelo de clasificación obtenido y, además, es probable que el clasificador más simple sea el correcto, se sigue la regla o principio de economía de Occam:”los entes no han de multiplicarse innecesariamente”. Por desgracia, no se puede construir todos los posibles árboles de decisión derivados de un conjunto de casos de entrenamiento para quedarse con el más pequeño, dicho problema es NP-completo. La construcción de un árbol de decisión a partir del conjunto de datos de entrada se suele realizar de forma descendente mediante algoritmos greedy de eficiencia del orden O (NlogN), siendo N el número de ejemplos de entrada. El método de construcción de árboles de decisión mediante particionamiento recursivo del conjunto de casos de entrenamiento tiene su origen en el trabajo de Hunt a finales de los años 50. El algoritmo “divide y vencerás” (divide&conquer) es simple y elegante:

• Si existe uno o más casos en el conjunto de entrenamiento y todos corresponden a una misma clase C, el árbol de decisión es una hoja que identifica a la clase C.

• Si el conjunto de casos de entrenamiento queda vació, también nos encontramos en una hoja del árbol. Sin embargo, la clasificación adecuada ha de determinarse utilizando información adicional.

• Cuando en el conjunto de entrenamiento hay casos de distintas clases, este se divide en subconjuntos que sean o conduzcan a agrupaciones uniformes de casos, instancias de una misma clase. Se elige una pregunta basada en el valor de un atributo que tenga dos o más respuestas alternativas mutuamente exclusivas iR . El árbol de decisión consiste en un nodo que identifica la pregunta realizada del cual cuelga tantos hijos como respuestas alternativas existan. El mismo método utilizado par el nodo se usa recursivamente para construir los subárboles correspondientes a los hijos del nodo. A cada hijo iH se le asigna el subconjunto de casos de entrenamiento correspondientes a la alternativa iR .

En esta forma de construir los árboles de decisión, recursivamente de forma

descendente, se parte de conceptos generales que se van especificando conforme se desciende en el árbol, se encuentra el origen del acrónico TDIDT (del inglés “Top-Down Induction on Decisión Tress”) que se utiliza para referirse a la familia completa de algoritmos de este tipo, para la construcción de árboles de decisión. La familia de algoritmos TDIDT abarca desde algoritmos ya clásicos de IA (Inteligencia Artificial) como CLS (del inglés “Concept Learning System”), ID3, C4.5 o CART (del inglés “Classification And Regresión Trees”) hasta algoritmos optimizados como SLIQ o SPRINT, dos algoritmos desarrollados en el IBM Almaden Research Center que se usan en Data Minino. Los algoritmos TDIDT suelen presuponer que no existe ruido en los

Page 201: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

176 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

datos de entrada e intentan alcanzar una descripción perfecta de los mismos. Esto suele ser contraproducente en problemas reales, donde se necesitan métodos capaces de manejar información con ruido y mecanismos que eviten el sobreaprendizaje (overfitting). Sin embargo, las técnicas de poda, como las empleadas en ASSISTANT, han demostrado ser útiles en este sentido. Una vez construido el árbol de decisión completo que se adapta perfectamente a los datos del conjunto de entrenamiento, se podan aquellas ramas del árbol con menor capacidad predictiva.

5.4.2 Reglas de Producción. Conforme el tamaño los árboles de decisión aumenta, su inteligibilidad

disminuye. Cuando el problema de clasificación es complejo, el árbol de decisión generado es tan grande que ni siquiera los expertos pueden comprender el modelo de clasificación construido, ni siquiera simplificándolo al podar el árbol. Shapiro propone descomponer un árbol de decisión complejo en una jerarquía de pequeños árboles de decisión para obtener un modelo más comprensible (structured inducción). Es mucho más sencillo expresar el árbol de decisión construido como un conjunto de reglas de producción, una forma de representación del conocimiento más inteligente que los árboles. Las reglas de producción se pueden derivar de un árbol de decisión con facilidad. El algoritmo que nos permite realizar este cambio de modelo de representación es muy sencillo: de cada camino desde la raíz del árbol hasta un nodo hoja se deriva una regla cuyo antecedente es una conjunción de literales relativos a los valores de los atributos situados en los nodos internos del árbol y cuyo consecuente es la decisión a la que hace referencia la hoja del árbol, la clasificación realizada. Existen otros métodos de clasificación que obtienen reglas de producción directamente, sin necesidad de construir previamente un árbol de decisión. Estas técnicas, más ineficientes, suelen emplear estrategias de búsqueda heurística como la búsqueda dirigida, una variante de la búsqueda primero el mejor.

5.4.3 Reglas de Asociación. Muchas veces en la vida real no se pueden construir modelos completos que

permita una clasificación perfecta de todos los casos con los que uno se pueda encontrar. A veces hay que conformarse con descubrir modelos aproximados, los cuales contemplan algunas características de las distintas clases sin que el modelo abarque todas las clases posibles ni todos los casos particulares de una clase determinada. La construcción de un modelo de clasificación completo puede no ser factible cuando hemos de tratar con una gran cantidad de atributos, cuando muchos valores son desconocidos, cuando unos atributos deben modelarse en función de otros o cuando el número de casos de entrenamiento es excesivamente elevado. Los árboles de decisión no son muy adecuados para tratar con información incompleta valores desconocidos en atributos de los casos de entrenamiento y resultan problemáticos cuando unos atributos son función de otros. Las redes neuronales tampoco son apropiadas cuando tenemos información incompleta y, además, su entrenamiento puede llegar a consumir demasiado tiempo. Finalmente, las técnicas empleadas en ILP (del inglés “Inductive Logic Programming”) suelen ser muy poco eficientes. Por su parte, un modelo de clasificación parcial intenta descubrir características comunes a los distintos casos de cada clase sin la necesidad de formar un modelo predictivo completo. La extracción de reglas de asociación puede ser útil para resolver problemas de clasificación parcial donde las técnicas de clasificación clásicas no son efectivas. El problema de la clasificación parcial se puede resolver usando reglas de asociación de dos formas

Page 202: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 177 ______________________________________________________________________________

diferentes: dividiendo el conjunto de casos de entrenamiento, un subconjunto por clase o considerando la clase como un atributo más. En cualquiera de las dos situaciones anteriores, para cada regla de asociación AflC obtenida ha de calcularse su riesgo relativo utilizando la siguiente expresión:

( ) ( )( )ACP

ACPCAr

¬=⇒ [5.132]

Cuando el cociente anterior es elevado se puede considerar interesante la regla

AflC. Intuitivamente se puede comprender con facilidad el sentido de la ecuación que define el riesgo relativo de una regla. Por ejemplo, carecería de interés clasificar una enfermedad atendiendo a síntomas que no siempre se manifiestan asociados a esa enfermedad y sería trascendental identificar síntomas específicos de una enfermedad, aunque éstos sean poco frecuentes. También se pueden construir modelos de clasificación híbridos basados, en mayor o menor medida, en reglas de asociación. Por ejemplo, ART (del inglés “Association Rule Tree”) es una propuesta que intenta aprovechar las mejores cualidades de las reglas de asociación como modelos de clasificación parcial con la construcción descendente de árboles de decisión.

5.4.4 Resolución de un Problema de Clasificación Utilizando Árboles de Decisión.

Para resolver un problema de clasificación empleando árboles de decisión, seguimos el siguiente procedimiento:

1. Seleccionar el conjunto de datos de entrenamiento sobre el que se aplicará el algoritmo de construcción del árbol de decisión.

2. Seleccionar el atributo objeto, el atributo por el cual se clasificarán los casos de entrenamiento seleccionados.

3. Descartar a priori los atributos irrelevantes para la clasificación. 4. Construir recursivamente el árbol de decisión:

a) Si todos los casos de entrenamiento corresponden a objetos de una misma

clase hemos logrado una buena clasificación. Se ha alcanzado una hoja del árbol de decisión.

b) Si no encontramos un atributo por eso que poder ramificar o se cumple alguna condición de parada (regla de parada), no se sigue expandiendo el árbol por la rama actual.

c) Usando la tabla de casos de entrenamiento se emplea alguna heurística (regla de división) para seleccionar un atributo por el que ramificar. Para cada valor permitido de ese atributo obtenemos el subconjunto de casos en los que el atributo toma dicho valor y se genera el subárbol correspondiente recursivamente.

5. Poda a posterior del árbol de decisión obtenido, según alguna regla de poda. 6. Generación de reglas a partir del árbol de decisión.

Cuando se construye un nodo se considera el subconjunto de casos de

entrenamiento que pertenecen a cada clase, estadísticas del nodo. Si todos los ejemplos pertenecen a una clase o se verifica alguna regla de parada, el nodo es una hoja del árbol. En caso contrario, se selecciona una pregunta basada en un atributo, usando una regla de

Page 203: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

178 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

división, se divide el conjunto de entrenamiento en subconjuntos, mutuamente excluyentes y se aplica el mismo procedimiento a cada subconjunto. A veces se podará el árbol obtenido: proceso de post-poda siguiendo alguna regla de poda.

5.4.5 Reglas de División. Cualquier pregunta que divida el conjunto de casos de entrenamiento en al

menos dos subconjuntos no vacíos conducirá a la construcción de un árbol de decisión. No obstante, el objetivo del proceso de construcción de árboles de decisión es obtener un árbol que revele información a la hora de realizar predicciones. Cada posible pregunta ha de evaluarse mediante alguna heurística y, dado que los algoritmos suelen ser greedy, ésta desempeña un papel esencial en la construcción del árbol, una vez que se ha escogido una pregunta para un nodo no se vuelven a considera alternativas. Las heurísticas estadísticas usadas intentan favorecer las divisiones que menor discriminan unas clases de otras. Ejemplos muy conocidos de estas heurísticas son la ganancia de información o el índice de diversidad de Gini (CART). Los criterios de división o ramificación utilitos generalmente están basados en medidas de impureza e un nodo. La bondad de una partición es el decrecimiento de impureza que se consigue con ella. La maximización de la bondad de una partición, por tanto, equivale a la minimización de la impureza del árbol generado por la partición (ya que el árbol de partida cuya impureza se quiere reducir es el mismo para las distintas particiones analizadas). Una función de impurezas es una función ϕ definida sobre el conjunto de las J-uplas ( )jppp ,,, 21 L donde cada ip indica la probabilidad de que un caso recogido por un nodo del árbol sea la clase i . Como es lógico, 1=Σ jp . La función ϕ ha de poseer las siguientes propiedades:

• ϕ tiene un único máximo en ( )JJJ /1,,/1,/1 L . • ϕ alcanza su mínimo en ( ) ( ) ( )1,,0,00,,1,0,0,,0,1 LLLL y el valor de su

mínimo es 0. • ϕ es una función simétrica de .,, 21 Jppp L

La impureza de un árbol de decisión se obtiene a partir de la impureza de sus

hojas o nodos terminales de la siguiente forma:

( ) ( ) ( )∑∈

=Tt

ttpT ϕϕ [5.133]

donde ( )tp es la probabilidad de que un caso corresponda al nodo terminal t y ( )tϕ es la impureza de dicho nodo terminal.

5.4.6 La Ganancia de Información. Se intenta maximizar la ganancia de información obtenida al ramificar el árbol

por un atributo minimizando la función I:

( ) ( ) ( )∑=

=iM

jjijii ACHAPAI

1,, | [5.134]

( ) ( ) ( )∑=

−=N

kjikjikji ACPACPACH

1,2,, |log|| [5.135]

Page 204: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 179 ______________________________________________________________________________

donde iA es el atributo por el que se ramifica, ( )jiAP , es la probabilidad de que el atributo iA tome su valor j y ( )ijACH | es la entropía de clasificación del conjunto de casos en los que el atributo iA toma su valor j . La información transmitida en un mensaje depende de su probabilidad P y puede medirse en bits como ( )P2log− . Por ejemplo, si tenemos 256 posibles mensajes, la información transmitida por uno de ellos es de 8 bits. Cuando el logaritmo es neperiano la unidad de información se denomina nat y cuando el logaritmo es decimal, Hartley. La probabilidad de que un caso escogido al azar pertenezca a una clase kC es ( )kCP y la información que se obtiene es

( )( )kCP2log− . La información que esperamos obtener al clasificar un caso cualquiera del conjunto de casos de entrenamiento S será igual a ( ) ( )( )kk CPCP 2log⋅Σ− , cantidad a la que se denomina entropía del conjunto. La información necesaria para transmitir la división del conjunto T de casos de entrenamiento de iM subconjuntos jT será igual a

( ) ( )∑ ⋅ jj THTP , donde ( )jTP es la probabilidad de que un caso pertenezca a jT y ( )jTH es la entropía de clasificación del conjunto jT . La ganancia de información que

se produce al dividir T en los subconjuntos jT será por lo tanto igual a

( ) ( ) ( )∑ ⋅− jj THTPTH , siendo ( )TH la entropía de T . Al comparar posibles particiones del conjunto T se evalúa la ganancia de información obtenida por cada unas de ellas. Como ( )TH es constante, nos basta con comparar ( ) ( )∑ ⋅ jj THTP , que se corresponde con la expresión de arriba. Esta heurística suele favorecer la construcción de árboles de decisión con un grado de ramificación muy elevado.

5.4.7 El Criterio de Proporción de Ganancia. Aunque usando la ganancia de información se obtiene buenos resultados al

construir árboles de decisión, este criterio favorece a aquellas preguntas que tienen más resultados posibles. Por ejemplo, si cada caso va acompañado de un atributo que lo identifica unívocamente, se elegirá este atributo en la raíz del árbol de forma que cada nodo hijo corresponderá a un unido caso. Se ha obtenido la máxima ganancia de información posible pero el árbol de decisión construido no sirve de nada. Para normalizar de algún modo la ganancia obtenida podemos seguir usando resultados obtenidos en Teoría de Información. El contenido de un mensaje que nos indique la respuesta a la pregunta realizada (no la clase a la que pertenece cada caso) será igual a

( ) ( )∑ ⋅− jiji AAP ,2, log . Con la ayuda de este valor podemos redefinir nuestra función de evaluación:

( )( ) ( ) ( )

( ) ( )∑

=

=

−=

i

i

M

jjiji

M

jjiji

i

APAP

ACHAPCHAR

1,2,

1,,

log

| [5.136]

Cuando la división realizada del conjunto de casos de entrenamiento es trivial, el

denominador de R es cercano a creo. Se ha de escoger el atributo que maximice el cociente R tal que su ganancia sea, al menos, tan grande como la ganancia media de todas las alternativas analizadas. Dado que en la práctica hemos de disponer de muchos

Page 205: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

180 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

más casos de entrenamiento que clases deferentes haya, el criterio de proporción de ganancia evitará la construcción de árboles de decisión que clasifiquen los casos utilizando su identificador. Se ha observado que el criterio de proporción de ganancia tiende a la construcción de árboles poco balanceados, características que hereda de la regla de división de la que se deriva, la ganancia de información. Ambas heurísticas se basan en una medida de entropía que favorece particiones del conjunto de entrenamiento muy desiguales en tamaño cuando alguna de ellas es de gran pureza, todos los casos que incluye corresponden a una misma clase, aun siendo poco significativa, es decir aun abarcando muy pocos casos de entrenamiento.

5.4.8 El Índice de Diversidad de Gini. El índice de diversidad de Gini trata de minimizar la impureza existente en los

subconjuntos de casos de entrenamiento generados al ramificar por un atributo. La función empleada es la siguiente:

( ) ( ) ( )∑=

=iM

jjijii ACGAPAG

1,, | [5.137]

( ) ( ) ( ) ( )∑ ∑= =

−=¬=N

k

N

kjikjikjikji ACPACPACPACG

1 1,

2,,, |1||| [5.138]

Como se puede apreciar, la expresión es muy parecida a la que teníamos al

calcular la entropía de clasificación: simplemente se ha sustituido el logaritmo de ( )jik ACP ,| por el factor ( )jik ACP ,|¬ , que es igual a ( )jik ACP ,|1− . El índice de Gini

es una medida de la diversidad de clases en un nodo del árbol. Igual que las dos medidas heurísticas anteriores (ganancia de información y criterio de proporción de ganancia), el índice de Gini es una medida de impureza muy utilizada en distintos algoritmos de construcción de árboles de decisión.

5.4.9 MAX. La minimización de la entropía, equivalente a la maximización de la ganancia de

información, utilizada por Quinlan trata de penalizar aquellas divisiones del conjunto de entrenamiento muy desordenadas. Como nuestro objetivo es la clasificación, una mediad de la bondad de un conjunto dado de casos de entrenamiento es la probabilidad de la clase más común, de hecho este es el término que aumenta menos la entropía del conjunto. En este caso, el objeto perseguido será la maximización de esta medida en los conjuntos generados al elegir un atributo para ramificar por él. La maximización de la función ( )iAK :

( ) ( ) ( )∑=

=iM

jjijii ACKAPAK

1,, | [5.139]

( ) ( )jikkji ACPMaxACK ,, || = [5.140]

El problema de maximización anterior se puede expresar como un problema de

minimización utilizando la diferenta entre casos bien clasificados y casos más clasificados como medida de la idoneidad de una ramificación del árbol.

Page 206: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 181 ______________________________________________________________________________

( ) ( ) ( )∑=

=iM

jjijii ACDAPAD

1,, | [5.141]

( ) ( ) ( ){ }jikjikkji ACPACPMaxACD ,,, ||| ¬−= [5.142]

Esto es completamente equivalente a la minimización del número de casos para

los que se realiza una clasificación incorrecta, considerándola clase más común la clasificación correcta de un conjunto dado de casos, ya que ( ) ( ) ( ) 12 −=¬− XPXPXP al ser ( ) ( )XPXP −=¬ 1 .

( ) ( ) ( )∑=

=iM

jjijii ACEAPAE

1,, | [5.143]

( ) ( ){ }jikkji ACPMinACE ,, || ¬= [5.144]

Para evitar que esta medida favorezca la construcción de árboles de decisión en

cuya raíz se utilice una clave primaria de la relación, como sucede con la entropía, se puede redefinir la función K de forma que no se tenga en cuenta pequeñas contribuciones debidas a muchos valores diferentes de un atributo:

( ) ( ) ( )∑∈

=Uj

jijii ACKAPAK ,, | [5.145]

( ){ }{ }SACnMaxjU jik ≥= ,|/ [5.146]

( ) ( )jikkji ACPMaxACK ,, || = [5.147]

donde S es un umbral establecido, equivalente a la relevancia mínima exigida a los itemsets en la generación de reglas de asociación y ( )jik ACn ,| es el número de casos correspondientes a la clase kC tales que el atributo iA toma su valor j . Aunque parezca más compleja la expresión, su cálculo es casi directo. Teniendo en cuenta que ( ) ( ) ( )jijikjik AnACnACP ,,, /|| = y ( ) ( ) NAnAP jiji /,, = , donde N es el número total de

casos y ( )jiAn , es el número de casos que toman el valor j del atributo iA , la función K es igual a:

( ) ( )∑∈

=Uj

jii ACKN

AK ,|1 [5.148]

( ){ }{ }SACnMaxjU jik ≥= ,|| [5.149]

( ) ( )

kjikji ACnMaxACK ,, || = [5.150]

El código correspondiente a la función K sería algo así:

Page 207: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

182 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

for (j=0; j<MaxJ; j++) {

max=0;

for (k=0; k<MaxK; k++) if (info.clase[k][i][j]>max)

max=n[k][i][j];

if(max>=S) K += max;

} K/=N;

Si no tenemos información incompleta, el factor 1/N será igual para todos los

atributos y podremos eliminarlo, con lo que la fusión de evaluación será una simple suma de valores. Cuando desconozcamos los valores de algunos atributos, el valor N será igual al número de casos para los que esté definido el atributo iA . Sin embargo, se observa que utilizando esta función heurística favorecemos en exceso los árboles con un graso de ramificación mínimo, incluso cuando el atributo por el que se ramifica es irrelevante para la clasificaron, hemos pasado de un extremo a otro. Esto se podría solventar con facilidad modificando la función heurística de la siguiente forma:

( ) ( ) ( )∑⋅=′

Ujijii ACKAPUAK ,, |# [5.151]

( ){ }{ }SACnMaxjU jik ≥= ,|| [5.152]

( ) ( )jikkji ACPMaxACK ,, || = [5.153]

Teniendo en cuenta que ( ) ( ) ( )jijikjik AnACnACP ,,, /|| = y ( ) ( ) NAnAP jiji /,, = ,

donde N es el número total de casos y ( )Xn es el número de casos que verifican X , la función K podemos expresarla como:

( ) ( )∑∈

=′Uj

jii ACKNUAK ,|# [5.154]

( ){ }{ }SACnMaxjU jik ≥= ,|| [5.155]

( ) ( )jikkji ACnMaxACK ,, || = [5.156]

Intuitivamente, la sumatoria de la expresión de arriba estima cuántos casos se

clasifican correctamente de cuantos se encuentran en el conjunto de entrenamiento (al dividir por N obtenemos la proporción de casos supuestamente bien clasificados). El factor U# se utiliza para favorecer la ramificación del árbol por atributos que consiguen un árbol más plano (más ramas interesantes). Utilizando el umbral S se evita seleccionar

Page 208: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 183 ______________________________________________________________________________

atributos que sean claves primarias. La utilización de U# carece de una base teórica. Es más, aunque en algunos ejemplos funciona bien (llega a conseguir mejor resultados que el criterio de proporción de ganancia), no garantiza la obtención de buenos árboles de decisión [Cubero, 1998].

5.4.10 MAXDIF. Retomando el MAX la expresión correspondiente a la función D, que obtenía

resultados equivalentes a los obtenidos en la formulación inicial de la función K. La definición de D era la siguiente:

( ) ( ) ( )∑=

=iM

jjijii ACDAPAD

1,, | [5.157]

( ) ( ) ( ){ }jikjikkji ACPACPMaxACD ,,, ||| ¬−= [5.158]

Utilizando esta definición, se consigue una buena regla de división para la

construcción de árboles de decisión si incorporamos la idea del umbral mínimo de soporte S a la función D. Se obtiene una buena heurística sin tener que introducir artificialmente el factor U# :

( ) ( ) ( )∑

=Uj

jijii ACDAPAD ,, | [5.159]

( ) ( ){ }{ }SACnACnMaxjU jikjik ≥¬−= ,, ||| [5.160]

( ) ( ) ( ){ }jikjikkji ACPACPMaxACD ,,, ||| ¬−= [5.161]

A esta regla heurística de división la denominaremos MAXDIF. Utilizando la

relación existente entre la probabilidad ( )xp y la frecuencia de aparición ( ) ( )xNpxn = , se obtiene:

( ) ( )∑∈

=Uj

jii ACDN

AD ,|1 [5.162]

( ) ( ){ }{ }SACnACnMaxjU jikjik ≥¬−= ,, ||| [5.163]

( ) ( ) ( ){ }jikjikkji ACnACnMaxACD ,,, ||| ¬−= [5.164]

Obsérvese el parecido de esta regla heurística con el índice de diversidad de Gini:

la sumatoria se ha sustituido por el máximo y el producto de una diferencia. La similaridad es notable y puede que no sea causal.

5.4.11 Reglas de Parada. Cuando se detiene la construcción del árbol de decisión, se construye una hoja a

la que se le puede asignar una distribución de probabilidades (según los casos que recoja)

Page 209: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

184 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

o simplemente la clase más común de las recogidas por los casos. Sorprendentemente, se ha demostrado empíricamente que esta última técnica es menor a la hora de minimizar el error de clasificación. Las reglas de parada, denominadas originalmente reglas de pre-poda, tratan de predecir si merece la pena seguir construyendo el árbol o no. Ejemplos de este tipo de reglas son:

Pureza del nodo: Cuando un nodo solamente contiene ejemplos de una clase, obviamente, el proceso de construcción del árbol de decisión ha finalizado. Además, podría utilizarse un umbral de pureza para detener la construcción del árbol de decisión ciando la ramificación del árbol no suponga una disminución significativa de la impuraza del mismo, según alguna medida estadística de impureza. En la práctica, esto no suele resultar totalmente satisfactorio. Se suele optar por construir el árbol de decisión completo y realizar una oda a posteriori. Cota de profundidad: Se puede establecer de antemano una cota de profundidad para no construir árboles excesivamente complejos. Cuando un nodo se halle a más de cierta profundidad, se detiene el proceso de generación del árbol de clasificación. Mínimo de casos: Cuando nos encontramos un nodo con menos de X ejemplos detenemos el proceso de obtención del árbol. Una clasificaron avalada por menos de X casos de entrenamiento no se considera fiable, menos de X ejemplos son insuficientes para estimar probabilidades con una precisión aceptable.

5.4.12 Reglas de Poda. Una vez construido completamente el árbol de decisión, las reglas repoda, post-

poda para ser precisos, intenta eliminar los subárboles que no contribuyen significativamente a la precisión de la clasificación. De hecho, el método recursivo de construcción de árboles de decisión continúa dividiendo el conjunto de casos de entrenamiento hasta que encuentra un nodo puro o no puede aplicar más test. El resultado suele ser un árbol muy complejo, más de lo deseable, que “sobreajusta” los datos del conjunto de entrenamiento (efecto conocido por el termino ingles “overfitting”). El sobreaprendizaje es un problema bastante importante ya que limita considerablemente la aplicabilidad del modelo de clasificación aprendido. Ejemplo: Supongamos que queremos construir un clasificador con datos aleatorios para las clases X (con probabilidad P) e Y (probabilidad 1-P), siendo 5.0≥P . Si el clasificador siempre dice que los casos son de la clase X el error será, obviamente, 1-P. Si el clasificador asigna un caso a la clase X con probabilidad P y a la clase Y con probabilidad 1-P, el error estimado sería la suma de:

• La probabilidad de que un caso de X se asigne a la clase Y: P(1-P). • La probabilidad de que un caso de Y se asigna a la clase X: (1-P)P

El error estimado será igual a 2P(1-P), error mayor que 1-P si P>0.5. Por lo tanto,

el clasificador más sencillo posible es el mejor cuando la clase y los atributos de los casos son estadísticamente independientes. En casos reales esto sucede cuando los atributos no recogen toda la información necesaria para realizar la clasificación o cuando se ha dividido el conjunto de entrenamiento en conjuntos tan pequeños que la elección de un test u otro no supone ninguna mejora notable.

Page 210: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 185 ______________________________________________________________________________

La poda se suele aplicar después de construir el árbol completo (post-poda), ya que la correcta estimación a prior del beneficio obtenido al simplificar un árbol durante su construcción (pre-poda) es muy difícil. La poda ha de realizarse en función de algún estimados honesto (no sesgado) de error de clasificaron del árbol de decisión. Un árbol de decisión se puede simplificar eliminando un subárbol completo a favor de una única hoja. También se puede sustituir un subárbol por una de sus ramas, vg: la rama del subárbol más usada. A continuación se comentan algunos de los métodos de poda de árboles de decisión más comunes: la poda por estimación del error, la poda por coste-complejidad y la poda pesimista.

5.4.12.1 Poda por Estimación del Error. Un nodo se poda si el error de resustitución del nodo considerado como hoja es

menor que el error de resustitución del subárbol cuya raíz es el nodo. El método requiere reservar un conjunto de casos para la poda, por lo cual no se podrán utilizar todos los casos disponibles para construir el árbol. Cuando no disponemos de muchos datos, se puede utilizar algún tipo de validación cruzada (cros-validation) para obtener mejores resultados.

5.4.12.2 Poda por Coste-Complejidad. Esta técnica de poda, usada en CART, intenta llegar a un compromiso entre la

precisión y el tamaño del árbol. La complejidad del árbol viene dada por el número de nodos terminales (hojas) que posee. Si T es el árbol de decisión usado para clasificar N casos de entrenamiento y se clasifican mas M ejemplos, la medida de coste-complejidad de T para un parámetro de complejidad α es

( ) ( ) ( )TlTRTR αα += [5.165] donde ( )tl es el número de hojas del árbol T y ( ) NMTR /= es un estimador del error de T. Es decir, ( )TRα es una combinación lineal del coste del árbol y de su complejidad. El árbol podado será el subárbol de mínimo error, aquél que minimice la medida de coste-complejidad ( )TRα . Hay que resaltar que conforme el parámetro de complejidad α crece el tamaño del árbol que minimiza ( )TRα decrece. La poda por coste-complejidad se puede realizar utilizando un conjunto de prueba independiente del conjunto de entrenamiento o validación cruzada (del inglés “Cross-Validation”, CV) Poda por coste-complejidad con un conjunto de prueba:

1. Dividir el conjunto de casos de dos subconjuntos (entrenamiento y prueba).

2. Construir el árbol con el conjunto de entrenamiento. 3. Encontrar el subárbol de mínimo error para el conjunto de prueba y

calcular su error de sustitución 0R y el error estándar del estimador 0SE : árbol SE−0 .

4. El subárboles podado será el subárbol que minimiza αR con el máximo valor de α tal que el estimador del error en el conjunto de prueba sea menor que 00 SER + : árbol SE−1 .

Page 211: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

186 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Poda por coste-complejidad con validación cruzada:

1. Escoger v subconjuntos disjuntos. 2. Encontrar el valor α que minimiza el estimador del error por validación

cruzada para el subárbol que minimiza αR (obtener 0R y 0SE ). 3. Encontrar el máximo nivel de α tal que estimador del error por

validación cruzada para el subárbol que minimiza αR sea menor que

00 SER + . 4. El árbol es el subárbol construido sobre el conjunto completo de

ejemplos que minimiza αR . Si ignoramos el tercer paso obtenemos el árbol SE−0 , si no tendremos el árbol SE−1 .

5.4.12.3 Poda Pesimista. Esta técnica utiliza sólo el conjunto de casos de entrenamiento con los que se

construye el árbol, con lo que os ahorramos tener que reservar casos para realizar la simplificación del árbol. Cuando una hoja del árbol cubre N casos de entrenamiento, de los cuales E casos los clasifica incorrectamente, su error de resustitución es E/N. El estimador del error de resustitución asociado a un subárbol será la suma de los errores estimados para cada una de sus ramas. La probabilidad real del error cometido no se puede determinar con exactitud pero se puede establece un intervalo de confianza. Dado un grado de confianza CF, se puede establecer una estimación de la probabilidad del error ( )NEUCF , usando una distribución binomial. Se poda el subárbol si el intervalo de confianza del error de resustitución, generalmente de amplitud dos veces el error estándar, incluye el error de resustitución del nodo si se trata como una hoja. Se esta forma se eliminan los subárboles que no mejoran significativamente la precisión del clasificador. El método es cuestionable como cualquier heurística pero suele producir resultados aceptables.

5.4.13 Tests Considerados. Todos los sistemas de construcción automática de clasificadores definen un

mecanismo para evaluar la idoneidad de cada test propuesto p. ej. la regla de división en la construcción de árboles de decisión. Esto implica que se deben generar de alguna forma los distintos tests para que puedan ser evaluados. Generalmente, se define un formato y se examinan todos los posibles tests de ese formato. Además, es habitual que el test empleado involucre a un único atributo para facilitar su comprensibilidad y simplificar el proceso de búsqueda evitando una explosión combinatoria. Por ejemplo, C4.5 utiliza tres formatos diferentes de tests:

• El típico test sobre atributos discretos, con una rama del árbol para cada posible valor del atributo discreto considerado.

• Un test más complejo sobre atributos discretos en el que se agrupan los valores del atributo en subgrupos.

• Uno binario de la forma atributo ≤ valor para atributos numéricos.

Por su parte, CART sólo utiliza expresiones lógicas de forma que el árbol resultante siempre es binario. Los atributos de tipo numérico son tratados igual que en C4.5, sin embargo los test aplicados sobre atributos discretos de tipo categórico, son siempre del tipo ¿ { }nvvX ,,1 L∈ ?. Obviamente, la aparición de este tipo de preguntas

Page 212: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 187 ______________________________________________________________________________

sobe un atributo en el árbol de decisión dificulta la generación de reglas IF-THEN a partir del árbol de decisión. Otra posibilidad consiste en evaluar el atributo discreto construyendo un subárbol de decisión para aquellos valores avalados por un número suficiente de casos y enviando todos los demás valores a un subárbol común, una rama de tipo else. La construcción de árboles de decisión con ramas de tipo else es una aportación de este proyecto a la familia TDIDT de algoritmos de construcción de árboles de decisión. Esta técnica puede utilizarse para reducir en algunos casos el tamaño del árbol de decisión, si bien es verdad que suele incrementar la dificultad de comprensión del árbol de decisión por parte de un experto.

5.4.14 Información Incompleta. Clasificar un caso utilizando un árbol de decisión requiere, en principio, que se

conozcan todas sus características, sus atributos, para poder elegir la rama del árbol correcta en cada nodo pregunta. Por desgracia, los datos recogidos den la vida real suelen ser incompletos, ya sea porque el valor de un atributo era desconocido, se consideró irrelevante, no se mecanizó o simplemente el atributo no era aplicable al caso concreto. Hay que elegir entre descartar todos aquellos casos con información incompleta o adaptar adecuadamente los algoritmos de clasificación para poder tratar con ellos. La primera alternativa no es aceptable normalmente, por lo que hemos de abordar el problema del manejo de información incompleta: modificar el algoritmo de construcción del árbol de decisión y establecer un mecanismo para clasificar casos con información incompleta. El problema se puede resolver rellenando atributos desconocidos con valores por defecto, p.ej. el valor más común del atributo, construyendo árboles de decisión para determinar el valor del atributo desconocido, teniendo árboles de clasificación auxiliares, utilizando la distribución de probabilidad de los valores de los atributos o la teoría de Dempster-Shafer. El resultado de la clasificación será una distribución de la probabilidad y el caso será asignado a la clase con mayor probabilidad.

5.4.15 Generación de Reglas. Aun tras podarlos, los árboles de decisión pueden ser muy complejos y difíciles

de comprender. Además, la estructura del árbol puede dividir un mismo concepto en varias ramas. Por ejemplo el árbol de decisión para F=G=I o J=K=I es:

F=0 | J=0 | | No | J=1 | | K=0 | | | No | | K=1 | | | Yes F=1 | G=1 | | Yes | G=0 | | J=0 | | | No | | J=1 | | | K=0 | | | | No | | | K=1 | | | | Yes

Page 213: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

188 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Cualquier árbol de decisión para F=G=I o J=K=I dividirá F=G=I o J=K=I. Si obtenemos una regla de producción para cada camino de la raíz a una hoja del árbol, el conjunto de reglas así generado clasifica los casos tal como lo hace el árbol. Las partes IF de las reglas serán exhaustivas y mutuamente exclusivas. Por ejemplo:

YesthenIKIJGIFif =Λ=Λ=Λ= 0

5.4.15.1 Generalización de Reglas. Al convertir el árbol de decisión en una colección de reglas, una por hoja del

árbol, algunas de las reglas pueden contener condiciones irrelevantes en su antecedente. En la regla anterior, la conclusión no se ve afectada por los valores de F y G. La regla puede generalizarse eliminando esas condiciones superfluas:

YesthenIKIJif =Λ=

Si tenemos una regla if A then C y una generalizaron suya if B then C donde B

se obtiene eliminando una condición X perteneciente a A, hemos de decidir si la generalizaron es válida. La importancia de X se calcula a partir del conjunto de casos de entrenamiento usados al construir el árbol. Se crea una tabla de contingencia par los casos que satisfacen el antecedente B:

Tabla 5.1 Tabla de contingencia.

Clase C Otras ClasesSatisface X Y1 E1

No Satisface X Y2 E2

Los casos que satisfacen la condición X están cubiertos por la regla original, E1

de los cuales están mal clasificados. La regla generalizada cubre además los casos que no satisfacen X, lo que introduce E2 nuevos errores de clasificación. Para decidir si una regla ha de generalizarse o no, pueden utilizarse técnicas estadísticas (como la prueba exacta de Fisher). No obstante, Quinlan prefiere utilizar la misma técnica que en la poda pesimista del árbol de decisión. Se estima el error de la regla original UCF(E1, Y1+E1) y el de la regla generalizada UCF(E1+E2, Y1+Y2+E1+E2). Si la estimación pesimista del error de la regla generalizada no es superior a la de la regla original, se elimina la condición X (se generaliza). Más de una condición podría eliminarse al generalizar una regla. En vez de mirar todos los posibles subconjuntos de condiciones susceptibles de ser eliminados, se utiliza un algoritmo greedy: mientras se pueda eliminar alguna condición de la regla, se elimina aquella que produce la regla generalizada con menos estimación de error. Tras realizar la generalización de las reglas individuales surge un pequeño problema: las reglas dejan de ser exhaustivas y mutuamente excluyentes. Un caso podría ser cubierto por varias reglas o, si se eliminan las reglas poco fiables, por ninguna. Para seleccionar el subconjunto de reglas más adecuado para representar cada clase Quinlan utiliza simulated anealing. Se trata de minimizar el número de bits necesarios para codificar el modelo de clasificación, principio MDL (Minimum Descripcion Length) de Rissane: la mejor teoría derivable de los casos de entrenamiento minimiza el número de bits requeridos para codificar el mensaje que incluye la teoría con sus excepciones.

Page 214: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 189 ______________________________________________________________________________

5.5 Redes Neuronales Artificiales. Las actividades de investigación desarrolladas en torno al estudio de redes

neuronales artificiales, están motivadas en modelar la forma de procesamiento de la información en sistemas nerviosos biológicos. Especialmente la forma de funcionamiento del cerebro humano, que es completamente distinta al funcionamiento de un computador digital convencional. El cerebro humano es un sistema altamente complejo, no lineal y paralelo. En términos sencillos equivale a decir que puede realizar muchas operaciones simultáneamente a diferencia de los computadores comunes que son de tipo secuencial, o sea, realizan sólo una operación a la vez. En este sentido, una neurored es un procesador de información, de distribución altamente paralela, constituido por muchas unidades sencillas de procesamiento, llamadas neuronas. La neurona se caracteriza principalmente por:

• Tener una inclinación natural a adquirir el conocimiento a través de la experiencia, el cual es almacenado, al igual que en el cerebro, en el paso relativo de las conexiones interneuronales.

• Tiene una altísima plasticidad y gran adaptabilidad, son capaces de cambiar dinámicamente junto con el medio.

• Poseen un alto nivel de tolerancia a fallas, es decir, pueden sufrir un daño considerable y continuar teniendo un buen comportamiento, al igual que ocurre en los sistemas biológicos.

• Tener un comportamiento altamente no-lineal, lo que les permite procesar información procedente de otros fenómenos no-lineales [Haykin et al., 1999].

Entre las motivaciones principales para el estudio del funcionamiento de las

redes neuronales se encuentras los fenómenos neurológicos. Nuestro cerebro es un procesador de información muchísimo más eficiente que un computador. La clave de esto se encuentra en la inmensa plasticidad del cerebro, existen tareas cotidianas para el cerebro que serían impensable realizar mediante computación tradicional. Un ejemplo de esto es la capacidad de reconocer a una persona en un tiempo de 100 a 200 ms. En ese breve lapso, el cerebro es capaz de procesar un patrón de información tridimensional, por ejemplo, de una persona que quizás ha cambiado de aspecto (luce distinto o simplemente envejeció) en un paisaje cambiante (que puede contener muchos otros rostros). En la actualidad, tareas mucho más simples consumen días de trabajo de los computadores más veloces. La plasticidad se percibe también en la capacidad de responder de forma correcta frente a un estímulo nunca antes recibido. Esa capacidad hace que cuando nos presentan por primera vez a alguien, sepamos automáticamente que es una persona y no un objeto u otro ser biológico. Debido a esas características y muchas otras, las redes neuronales se han convertido en una gran ayuda en el procesamiento de datos experimentales de comportamiento complejo. Además, su comportamiento iterativo no lineal las une de modo natural al caos y teorías de la complejidad. De hecho, las posibilidades son tan amplias que se empieza a hablar de un nuevo campo, aparte de la Biología, la Matemática y la Física: las Neurociencias. Lo que se pretende inicialmente es imitar, al menos parcialmente, el funcionamiento del cerebro.

5.5.1 Sistema Neuronal Artificial. En 1888 Ramón y Cajal demuestra que el sistema nervioso está compuesto por

una red de células individuales, las neuronas, ampliamente interconectadas entre sí. La

Page 215: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

190 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

información fluye desde las dendritas hacia el axón atravesando el soma. El cerebro está formado por 810 neuronas aproximadamente. Estas están formadas por el cuerpo celular o soma (de 10 a 80 micras de longitud). Del soma surge un denso árbol de ramificaciones (árbol dendrítico) formado por las dendritas. De este parte una fibra tubular denominada axón, cuya longitud va desde las 100 micras hasta un metro. El axón se ramifica en su extremo final para conectar con otras neuronas [Ramón y Cajal, 1899], (véase Figura 5.19). Las Neuronas como procesadores de información sencillos, de manera simplista, las podemos describir, que están formadas por las dendritas las cuales constituyen el canal de entrada de la información, el soma que es el órgano de cómputo, el axón, que corresponde al canal de salida, y a la vez envía información a otras neuronas. Cada neurona recibe información de aproximadamente 10.000 neuronas y envía impulsos a cientos de ellas. El cerebro se modela durante el desarrollo de un ser vivo. Algunas cualidades del ser humano no son innatas, sino adquiridas por la influencias de la información que del medio externo le proporciona sus sensores. Existen diferentes maneras de modelar el sistema nervioso teniendo en cuenta: el establecimiento de nuevas conexiones, ruptura de conexiones, modelado de las intensidades sinápticas (uniones entre neuronas), muerte o reproducción neuronal. Los sistemas artificiales van a copiar la estructura de las redes neuronales biológicas con el fin de alcanzar una función similar. Para ello existen tres conceptos clave a emular:

1. Procesamiento paralelo, derivado de que los miles de millones de neuronas que interviene, por ejemplo en el proceso de ver, están operando en paralelo sobre la totalidad de la imagen.

2. Memoria distribuida, mientras que en un computador la información está en posiciones de memoria bien definidas, en las redes neuronales biológicas dicha información está distribuida por la sinapsis de la red, existiendo una redundancia en el almacenamiento, para evitar la pérdida de información en caso de que una sinapsis resulte dañada.

3. Adaptabilidad al entorno, por medio de la información de las sinapsis. Por medio de esta adaptabilidad se puede aprender de la experiencia y es posible generalizar conceptos a partir de casos particulares.

Figura 5.19 Neurona y sus partes.

El elemento básico de un sistema neuronal biológico es la neurona. Un sistema

neuronal biológico está compuesto por millones de neuronas organizadas en capas. En la emulación de dicho sistema neuronal biológico, por medio de un sistema neuronal artificial, se puede establecer una estructura jerárquica similar a la existente en el

Page 216: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 191 ______________________________________________________________________________

cerebro. El elemento esencial será la neurona artificial, la cual se organizará en capas. Varias capas constituirán una red neuronal. Una red neuronal junto con los interfases de entrada y salida constituirá el sistema global de proceso (véase Figura 5.20).

Σ f [ ] (a) Neurona.

(b) Capa.

(c) Red.

Page 217: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

192 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

(d) Sistema Neuronal. Figura 5.20 Sistema global de proceso de una red neuronal.

El Modelo Estándar de Neurona Artificial. Vamos a introducir el denominado modelo estándar de neurona artificial según

los principios descritos por Rumelhart y McClelland [Rumelhart, 1986a, 1986b; McClelland, 1986]. Atendiendo a estos principios, la i-ésima neurona artificial estándar consiste en:

• Un conjunto de entradas jX y unos sinápticos ijω , con nj ,,1L= . • Una regla de propagación ih , definida a partir del conjunto de entradas y los

pesos sinápticos, es decir: ( )

niini xxh ωω ,,,,,11 LL [5.166]

La regla de propagación más comúnmente utilizada consiste en combinar linealmente las entradas y los pesos sinápticos, obteniéndose:

( ) ∑=

=n

ijijiini xxxh

n1

1 ,,,,,1

ωωω LL [5.167]

Suele ser habitual añadir al conjunto de pesos de la neurona un parámetro adicional iθ , que se denomina umbral, el cual se suele restar al potencial pos-sináptico. Es decir:

( ) i

n

ijijiini xxxh

nθωωω −= ∑

=11 ,,,,,

1LL [5.168]

Si hacemos que los índices i y j comiencen en 0, y denotamos por ii θω =0 y 10 −=x , podemos expresar la regla de propagación como:

( ) i

n

ijij

n

jjijiini xxxxh

nθωωωω −== ∑∑

== 101 ,,,,,

1LL [5.169]

E N T R A DA S

S A L I DA S

PARTE ALGORÍTMICA

Page 218: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 193 ______________________________________________________________________________

• Una función de activación, la cual represente simultáneamente la salida de la neurona y su estado de activación. Si denotamos por iy dicha función de activación, se tiene:

( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛== ∑

=

n

jjijiiii xfhfy

0

ω [5.170]

En la Figura 5.21 muestra el modelo de neurona artificial estándar que acabamos de describir. 1x Sinapsis NEURONA i 1iω Cuerpo celular 2x 2iω Axón

ijω Σ f( ) yi jx Salida Entradas inω iθ nx ( )ijiji xfy θω −Σ= Dendritas -1 Umbral

Figura 5.21 Modelo de Neurona Artificial Standard.

Arquitecturas de Redes Neuronales. Se denomina arquitectura a la topología, estructura o patrón de conexionado de una red neuronal. En una red neuronal artificial los nodos se conectan por medio de sinapsis, estando el comportamiento de la red determinado por la estructura de conexiones sinápticas. Estas conexiones sinápticas son direccionales, es decir, la información solamente puede propagarse en un único sentido (desde la neurona presináptica a la pos-sináptica). En general las neuronas se suelen agrupar en unidades estructurales que denominaremos capas. El conjunto de una o más capas constituye la red neuronal. Se distinguen tres tipos de capas: de entrada, de salida y ocultas. Una capa de entrada, también denominada sensorial, está compuesta por neuronas que reciben datos o señales procedentes del entorno. Una capa de salida se compone de neuronas que proporcionan la respuesta de la red neuronal. Una capa oculta no tiene una conexión directa con el entorno, es decir, no se conecta directamente ni a órganos sensores ni a efectores. Este tipo de capa oculta proporciona grados de libertad a la red neuronal gracias a los cuales es capaz de representar más fehacientemente determinadas características del entorno que trata de modelar (véase la Figura 5.22).

Page 219: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

194 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Información Capa de entrada Capa oculta Capa de salida (Sensorial) (Procesamiento) Figura 5.22 Arquitectura unidireccional con tres capas de neuronas: una capa de entrada, una capa oculta y una capa de salida. Teniendo en cuenta diversos conceptos se puede establecer diferentes tipos de arquitecturas neuronales. Así considerando su estructura podemos hablar de redes monocapa, compuestas por una única capa de neuronas, o redes multicapa, las neuronas se organizan en varias capas. Teniendo en cuenta el flujo de datos, podemos distinguir entre redes unidireccionales (feedforward) y redes recurrentes o realimentas (feedback). Mientas que en las redes unidireccionales la información circula en un único sentido, en las redes recurrentes o realimentadas la información puede circular entre las distintas capas de neuronas en cualquier sentido, incluso en el de salida-entrada. La Figura 5.23 muestra dos ejemplos de arquitectura, uno corresponde a una red monocapa y recurrente y el otro a una red multicapa y unidireccional.

Figura 5.23 Diferentes arquitecturas de redes neuronales. Izquierda: Monocapa realimentada, derecha: Multicapa unidireccional.

Definición de una Red Neuronal Artificial. Se puede definir una red neuronal artificial como un grafo dirigido, con las siguientes propiedades:

i) A cada nodo (neurona) i se le asocia una variable de estado iX .

Page 220: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 195 ______________________________________________________________________________

ii) A cada conexión ( )ji, entre los nodos (neuronas) i y j se le asocia un peso Rij ∈ω .

iii) A cada nodo (neurona) i se le asocia un umbral Ri ∈θ iv) Para cada nodo i se define una función ( )iiini n

xxf θωω ,,,,,,11 LL que

depende de los pesos de sus conexiones, del umbral y de los estados de los nodos j que estén conectados con el nodo i . El valor de esta función proporciona el nuevo estado del nodo.

Por lo que respecta a la terminología habitual en redes neuronales artificiales, tal y como se ha comentado previamente los nodos del grafo representan a las neuronas y las conexiones a las sinapsis. Se denominan neuronas de entrada a aquellas neuronas sin sinapsis entrantes. A las neuronas sin sinapsis salientes se las denomina neuronas de salida, y finalmente a aquellas neuronas que no son ni de entrada ni de salida se les denomina neuronas ocultas. Una red es unidireccional cuando no presenta bucles cerrados o conexiones, mientras que una red se dice recurrente o realimentada cuando el flujo de información puede tener un bucle de atrás hacia delante, es decir, una realimentación. En relación con la manera en la que las neuronas de una red actualizan sus estados, podemos distinguir entre dinámicas síncrona, en la cual todas las neuronas pertenecientes a una misma capa se actualizan a la vez, comenzando en la capa de entrada y continuando hasta la de salida y dinámica asíncrona, en la cual cada neurona actualiza su estado sin atender a cuando lo hacen las demás neuronas. Si bien el tipo de dinámica presente en los sistemas neuronales biológicos es asíncrono, lo habitual en las redes neuronales artificiales es que la dinámica sea síncrona.

5.5.2 El Asociador Lineal. En esta Sección se van a presentar varios modelos de redes neuronales unidireccionales organizados en capas y cuya finalidad sea tratar un problema de aprendizaje supervisado, es decir, vamos a presentar modelos estándar de redes neuronales para reconocer patrones [Bishop, 1995]. Ha de tenerse en cuenta que en el asociador lineal las variables (neuronas) de salida son continuas, de ahí que el interés de este paradigma para la resolución de problemas de calificación supervisada sea limitado. La notación usada en esta Sección no es coherente con la del resto del capítulo, se denota por myy ,,1 L a los valores de las variables respuesta a predecir, mientras que el valor predicho por la red neuronal se denota por XW .

El Asociador Lineal. Aprendizaje Hebbiano. El denominado asociador lineal (véase Figura 5.24) consta únicamente de una capa de neuronas lineales cuyas entradas denotamos por nxx ,,1 L y cuyas salidas se denotan por myy ,,1 L . Denotamos por ( )nmMW ,∈ a la matriz de pesos sinápticos, cuyos elementos se expresan por medio de ijω con mi ,,1L= y nj ,,1L= .

Page 221: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

196 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

f(x) x Capa de entrada Capa de salida

Figura 5.24 Arquitectura (izquierda) y función de activación (derecha) del asociador lineal.

La operación efectuada por el asociador lineal es:

( ) ( )nm xxWyyy ,,,, 11 LL == [5.171]

o bien

miconxyn

jjiji ,,1

1

L∑=

== ω . [5.172]

Dentro del marco de neurona estándar presentado en la Sección anterior, el asociador lineal calcula el potencial pos-sináptico por medio de la convencional suma ponderada, cantidad a la que aplica posteriormente una función de activación de tipo identidad. El asociador lineal debe aprender a asociar N pares entrada-salida

( ){ }NryxD rr ,,1,, L== [5.173]

ajustando la matriz de pesos W de tal manera que ante entradas similares a rx responda con salidas similares a ry . El problema radica en encontrar la matriz de pesos W óptima en el sentido anterior. Para ello, en el campo de las redes neuronales se hace uso de una regla de aprendizaje, que a partir de las entradas y de las salidas deseadas proporcione el conjunto óptimo de pesos W .

Uno de los modelos clásicos de aprendizaje de redes neuronales es el propuesto por Hebb [Hebb, 1949], el cual postuló un mecanismo de aprendizaje para una neurona biológica, cuya idea básica consiste en que cuando un axón presináptico causa la activación de cierta neurona pos-sináptica, la eficacia de la sinapsis que las relaciona se refuerza. Si bien este tipo de aprendizaje es simple y local, su importancia radica en que fue pionero tanto en neurociencias como en neurocomputación, de ahí que otros algoritmos más complejos lo tomen como punto de partida. De manera general se denomina aprendizaje Hebbiano a un aprendizaje que involucra una modificación en los pesos ijωΔ , proporcional al producto de una entrada jx y de una salida iy de la

Page 222: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 197 ______________________________________________________________________________

neurona. Es decir jiij xyεω =Δ , donde a 10 << ε se le denomina ritmo de aprendizaje.

En concreto al considerar el ejemplo ( )rr yx , la regla de actualización de pesos resulta ser:

rij

oldij

newij ωωω Δ+= [5.174]

con r

jri

rij xyεω =Δ [5.175]

Es habitual el tratar de deducir los algoritmos de aprendizaje a partir de un cierto criterio a optimizar, es decir, se debe de proponer un criterio que mida el rendimiento de la red neuronal para encontrar una regla de actualización de pesos que la optimice. Una manera extendida de definir el rendimiento es a partir del error cuadrático medio de las salidas actuales de la red respecto de las deseadas. Es decir:

( )∑∑∑∑= = ==

−=−N

r

m

i

n

j

rj

ri

N

r

rr WxyN

WxyN 1 1 1

2

1

11 [5.176]

De esta manera el problema del aprendizaje de los pesos de la red neuronal se transforma en el de obtener un conjunto de pesos que minimicen la expresión anterior. Si denotamos que ( )NxxX ,,1 L= , una matriz Nm× que tiene por columna los vectores de entrada, y por ( )NyyY ,,1 L= una matriz Nm× cuyas columnas son los vectores de salida, la anterior ecuación se puede expresar como:

WXYN

−1 [5.177]

La minimización de la expresión anterior se obtiene al hacer 1−= YXW , de ahí que una regla de aprendizaje basada en la matriz pseudoinversa se puede escribir como

+= YXW , donde +X denota la matriz pseudoinversa de X .

5.5.3 El Perceptrón Simple. El perceptrón simple fue introducido por Rosenblatt y es un modelo unidireccional compuesto por dos capas de neuronas, una de entrada y otra de salida [Rosenblat, 1962]. La operación en un perceptrón simple que consta de n neuronas de entrada y m neuronas de salida se puede expresar como:

⎟⎟⎠

⎞⎜⎜⎝

⎛−= ∑

=

n

jijiji xfy

1

θω [5.178]

con mi ,,1L= Las neuronas de entrada son discretas y la función de activación de las neuronas de la capa de salida es de tipo escalón (véase Figura 5.25).

Page 223: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

198 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

f(x) x Capa de entrada Capa de salida Figura 5.25 Arquitectura (izquierda) y función de transferencia (derecha) de un perceptrón simple. El perceptrón simple puede utilizarse como clasificador, radicando su importancia histórica en su carácter de dispositivo entrenable, ya que el algoritmo de aprendizaje del modelo introducido por Rosenblatt, permite determinar automáticamente los pesos sinápticos que clasifican un conjunto de patrones a partir de un conjunto de ejemplos etiquetados. Veamos con un ejemplo sencillo, que contiene dos neuronas de entrada, que el perceptrón simple tan sólo puede discriminar entre dos clases linealmente separables, es decir, clases cuyas regiones de decisión pueden ser separadas mediante una única condición lineal o hiperplano. Si denotamos por 1x y 2x a las dos neuronas de entrada, la operación efectuada por el perceptrón simple consiste en:

⎩⎨⎧

<+≥+

=θωωθωω

2211

2211

01

xxsixxsi

y [5.179]

Si consideramos 1x y 2x situadas sobre los ejes de abscisas y ordenadas respectivamente, la condición:

02211 =−+ θωω xx [5.180] es equivalente a:

21

2

12 ω

θωω

+−= xx [5.181]

y representa una recta que define la región de decisión determinada por el perceptrón simple. Es por ello que dicho perceptrón simple representa un discriminador lineal, al implementar una condición lineal que separa dos regiones en el espacio que representan dos clases diferentes de patrones (véase la Figura 5.26). Por lo tanto, el perceptrón simple presenta grandes limitaciones, ya que tan sólo es capaz de representar funciones linealmente separables. Basándose en este hecho, Minsky y Papera publicaron un trabajo exponiendo las limitaciones del perceptrón simple, como consecuencias del cual muchos de los recursos que se venían dedicando a las redes neuronales se desviaron a otros campos de la inteligencia artificial [Minsky, 1969]. Tal y como se ha comentado previamente, la importancia del perceptrón simple radica en el hecho de su carácter

Page 224: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 199 ______________________________________________________________________________

entrenable, ya que el algoritmo introducido por Rosenblatt permite que el perceptrón simple determine automáticamente los pesos sinápticos que clasifican un conjunto de patrones etiquetados [Rosenblat, 1962]. X2

Región: Θ≥+ 2211 XWXW

O O O O '1''0':

→→

XODonde

OO O OO O OO O X X X O OO O O OO O OO XX X X X X OO OO OOO O X X X XX X X OO O O O X X X X XX X X OO O OO

X X X X X X X X 2

12

12 W

XWW

X Θ+−=

X X X Región: Θ<+ 2211 XWXW X1 Figura 5.26 Región de decisión correspondiente a un perceptrón simple con dos neuronas de entrada.

El algoritmo de aprendizaje del perceptrón simple pertenece al grupo de los algoritmos que se fundamentan en la corrección de errores. Los algoritmos de este tipo ajustan los pesos de manera proporcional a la diferencia existente entre la salida actual de la red neuronal y la salida deseada, con el objetivo de minimizar el error actual de la red. Veamos el funcionamiento del algoritmo de aprendizaje de pesos para el perceptrón simple propuesto por Rosenblatt. Vamos a denotar por rx al conjunto de patrones de entrada y por rc a sus salidas respectivas, con Nr ,,1L= . Supongamos que tanto las variables de entrada como las de salida toman dos posibles valores: -1 y +1. Se parte de una arquitectura de red neuronal que es un perceptrón simple y se quiere que clasifique correctamente todos los patrones de los que partimos, para llevar a cabo el entrenamiento de la red neuronal. La manera en la que actualizaremos los pesos es la siguiente: si ante la presentación de ésimor − patrón la respuesta que proporciona el perceptrón simple es correcta, no actualizaremos los pesos, mientras que si la respuesta es incorrecta los pesos se modificarán según la regla de Hebb, es decir

( )⎪⎩

⎪⎨⎧

=

≠=Δ

ri

ri

ri

ri

rj

rir

ijcysi

cysixct

0

2εω [5.182]

La regla anterior se puede reescribir de la siguiente forma:

( ) ( ) rj

ri

ri

rij xyct −=Δ εω [5.183]

Page 225: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

200 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

que es la forma habitual de expresar la regla de actualización de pesos del perceptrón simple, cuando las entradas y las salidas son discretas y toman valores -1 y +1. Se puede comprobar que en este caso la actualización de pesos únicamente podrá tomar los valores ε2− , 0 , ε2+ . A nivel práctico se debe llegar a un compromiso para el valor del ritmo de aprendizaje ε , ya que un valor pequeño del mismo implica un aprendizaje lento, mientras que uno excesivamente grande puede conducir a oscilaciones excesivas de los pesos no aconsejables en el proceso de entrenamiento. X2 O O 0=t O O O OO O O O O OO O OO X X X O O OO O O X X X X X OO O OO O O 4=t X XX X X X O OO X X XX X X X X X X X X O 5=t X X XX X 115=t X1 Figura 5.27 Evolución de las regiones de decisión establecidas por el perceptrón simple. Conviene aclarar que el proceso de aprendizaje es iterativo. Se parte de una configuración sináptica inicial, habitualmente pesos pequeños inicializados aleatoriamente, presentándose los patrones una y otra vez, con objeto de que los pesos se ajusten iterativamente según la regla anterior, ( ) ( ) r

jri

ri

rij xyct −=Δ εω , hasta que todos

los patrones queden bien clasificados si es posible. El hiperplano que establece el límite entre dos clases tal y como se aprecia en la Figura 5.27 se desplaza lentamente hasta conseguir separarlas por completo, si esto fuera posible. El ajuste de los pesos en la iteración t debido a todo el conjunto de aprendizaje será:

( ) ( ) ( )∑=

Δ+=+N

r

rijijij ttt

1

1 ωωω [5.184]

Rosenblatt demostró que si la función a representar es linealmente separable, el

algoritmo anterior siempre converge en un tiempo finito y con independencia de los pesos de partida. Si la función a representar no es linealmente separable, el proceso de entrenamiento oscilará. Tal y como puede ver en la Figura 5.27 el algoritmo de entrenamiento del perceptrón simple se detiene tan pronto como consigue clasificar correctamente todos los ejemplos de los que consta la base de datos inicial, de ahí que ocurra con frecuencia que la línea de discriminación quede muy cerca de las muestras de uno de los grupos.

Page 226: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 201 ______________________________________________________________________________

5.5.4 El Perceptrón Multicapa. Se han visto las limitaciones del perceptrón simple, ya que con él tan sólo se

puede discriminar patrones que pueden ser separados por un hiperplano, una recta en el caso de dos neuronas de entrada. Una manera de solventar estas limitaciones del perceptrón simple es por medio de la inclusión de capas ocultas, obteniendo de esta forma una red neuronal que se denomina perceptrón multicapa. Así por ejemplo para una arquitectura de perceptrón simple la región de decisión es una recta, mientras que el perceptrón multicapa con una única capa de neuronas ocultas puede discriminar regiones convexas. Por otra parte el perceptrón multicapa con dos capas de neuronas ocultas es capaz de discriminar regiones de forma arbitraria. El perceptrón multicapa o MLP (del inglés “Multi-Layer Perceptrón”, MLP) se suele entrenar por medio de un algoritmo de retropropagación de errores o BP (del inglés “Back Propagation”, BP) de ahí que dicha arquitectura se conozca también bajo el nombre de red de retropropagación. El desarrollo del algoritmo BP resulta una curiosa historia de redescubrimientos y olvidos. Si bien fue Werboz, quien en su Tesis Doctoral lo introdujo por vez primera [Weboz, 1974], el hecho no tuvo repercusión en su época hasta que Rumelhart y colaboradores lo redescubrieron de manera independiente y comenzaron a popularizarlo ayudados por los avances en computación existentes en la época, los cuales permitían satisfacer los requisitos de computación que el algoritmo BP requiere [Rumelhart, 1986a]. La estructura del MLP con una única capa oculta se muestra en las Figuras 5.28 y 5.29.

Denotamos por ix a las n entradas de la red, jy a las o salidas de la capa oculta y kz a las s salidas de la capa final, por tanto a las salidas de la red, las cuales deben de ser comparadas con las salidas objetivo kc . Además, ijω representarán los pesos de la capa oculta, jθ sus umbrales correspondientes, kjω′ los pesos de la capa de salida y kθ′ sus umbrales respectivos. Las operaciones efectuadas por un MLP con una única capa oculta y con funciones de activación para la capa oculta y capa final de tipo sigmoide y lineal respectivamente, son las siguientes:

∑ ∑ ∑= = =

′−⎟⎠

⎞⎜⎝

⎛−′=′−′=

o

j

o

jk

n

ijijikjkjkjk xfyz

1 1 1

θθωωθω [5.185]

siendo ( )xf una función de tipo sigmoideo.

La popularidad de la arquitectura MLP se debe al hecho de que un MLP con una única capa oculta puede aproximar cualquier función en un intervalo hasta el nivel deseado, cuestión demostrada por Funahaski y que proporciona una base sólida al campo de las redes neuronales, auque el resultado no informa sobre el número de nodos ocultos necesarios para llevar a cabo la aproximación [Funahaski, 1989].

Page 227: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

202 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Capa oculta Capa de entrada Capa de salida Figura 5.28 Arquitectura (izquierda) y función de activación (derecha) para el perceptrón multicapa. jiω jθ kjω′ kθ ′ Oculta Salida Entrada Objetivo μμμμ

kkji tzyx >−−−−>−−−−−−>−−−−−−−−

Figura 5.29 Arquitectura del perceptrón multicapa.

Veamos a continuación cómo entrenar un MLP con una única capa de neuronas ocultas por medio del algoritmo BP de retropropagación de los errores. Dicho algoritmo BP puede verse como una extensión del algoritmo LMS a las redes multicapa. Para ello se planteará una función de error similar a la utilizada para obtener la regla de actualización de pesos LMS, y se obtendrán las fórmulas correspondientes al algoritmo BP tanto en función de los pesos de la capa de salida como de los pesos de la capa oculta. Se utilizará la regla de la cadena y para ello se necesitará que las funciones de transferencia de las neuronas sean derivables.

Sea un MLP de tres capas, es decir, con una capa oculta (véase Figura 5.29), con las entradas, salidas, pesos y umbrales de las neuronas definidos anteriormente. Dado un patrón de entrada ( )Nrxr ,,1L= la operación global de esta arquitectura se representa del siguiente modo, para cada una de las k con ( )sk ,,1L= neuronas de salida:

Page 228: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 203 ______________________________________________________________________________

∑ ∑ ∑= = =

′−⎟⎠

⎞⎜⎝

⎛−′=′−′=

o

j

o

jk

n

ij

rijikjk

rjkj

rk xfyz

1 1 1

θθωωθω [5.186]

Al igual que en el caso de la Adelina, la función de costo de la que se parte es el

error cuadrático medio ( ) ( )∑ ∑= =−=′′ N

r

m

krk

rk zcwwE

1 1

2

21,,, θθ , siento la función

( )θθ ′′ ,,,wwE

RRE sosoon →++×+×: ( )

( )soosson

soosson

E θθθθωωωωθθθθωωωω

′′′′→→′′′′

,,,,,,,,,,,,,,,,,,,,,,,,

11111

11111

LLLLL

LLLLL [5.187]

La minimización se llevará a cabo por el descenso del gradiente, existiendo en

este caso un gradiente respecto de los pesos de la capa de salida kj

kjEω

εω′∂

∂−=′Δ y otro

respecto de los pesos de la capa oculta ji

jiEω

εω∂∂

−=Δ . Las expresiones de

actualización de los pesos se obtienen derivando, teniendo en cuenta las dependencias funcionales y aplicando la regla de la cadena.

rj

o

jk

rjkj

rk

N

rkj yyc

2

11⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛′−′−=′Δ ∑∑

==

θωεω [5.188]

∑=

Δ=ΔN

r

ri

rjji x

1εω [5.189]

con ⎟⎠

⎞⎜⎝

⎛−∂

⎟⎠

⎞⎜⎝

⎛−∂

⎟⎟⎠

⎞⎜⎜⎝

⎛′⎟⎟

⎞⎜⎜⎝

⎛′−′=Δ

∑∑ ∑

=

=

= =n

ij

riji

n

ij

rijis

kkj

o

jk

rjkj

rj

x

xfy

1

1

1 1 θω

θωωθω [5.190]

La actualización de los umbrales se realiza por medio de las anteriores expresiones, considerando que el umbral es un caso particular de un peso sináptico, cuya entrada es una constante igual a -1. En las expresiones anteriores está implícito el concepto de propagación hacia atrás de los errores que da el nombre al algoritmo. En

primer lugar se calcula la expresión ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛′−′− ∑

=

o

jk

rjkj

rk yc

1θω que se denomina señal de

error, por ser proporcional a error de la salida actual de la red, con el que se calcula la actualización kjω′Δ de los pesos de la capa de salida. A continuación se propagan hacia

Page 229: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

204 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

atrás los errores ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛′−′− ∑

=

o

jk

rjkj

rk yc

1

θω a través de la sinapsis, obteniéndose las señales

de error ⎟⎠

⎞⎜⎝

⎛−∂

⎟⎠

⎞⎜⎝

⎛−∂

⎟⎟⎠

⎞⎜⎜⎝

⎛′⎟⎟

⎞⎜⎜⎝

⎛′−′

∑∑ ∑

=

=

= =n

ij

riji

n

ij

rijis

kkj

o

jk

rjkj

x

xfy

1

1

1 1 θω

θωωθω correspondientes a las sinapsis de la

capa oculta. Con estas señales de error se calcula la actualización de jiωΔ de las sinapsis ocultas. El algoritmo puede además ser extendido a arquitecturas con más de una capa oculta siguiendo este esquema de retropropagación del error.

Según lo visto, el procedimiento para entrenar mediante el algoritmo BP una arquitectura MLP dada es el siguiente: Paso 1: Establecer aleatoriamente los pesos y umbrales iniciales ( )0:=t . Paso 2: Para cada patrón r del conjunto de entrenamiento:

2.1 Llevar a cabo una fase de ejecución para obtener la respuesta de la red frente al patrón ésimor − .

2.2 Calcular las señales de error asociadas ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛′−′− ∑

=

o

jk

rjkj

rk yc

1θω y

⎟⎠

⎞⎜⎝

⎛−∂

⎟⎠

⎞⎜⎝

⎛−∂

⎟⎟⎠

⎞⎜⎜⎝

⎛′⎟⎟

⎞⎜⎜⎝

⎛′−′

∑∑ ∑

=

=

= =n

ij

riji

n

ij

rijis

kkj

o

jk

rjkj

x

xfy

1

1

1 1 θω

θωωθω [5.191]

2.3 Calcular el incremento parcial de los pesos y umbrales debidos a cada patrón r .

Paso 3: Calcular el incremento total actual, extendido a todos los patrones, de los pesos

kjω′Δ y jiωΔ . Hacer lo mismo con los umbrales. Paso 4: Actualizar pesos y umbrales. Paso 5: Calcular el error total.

Hacer 1: += tt y volver al Paso 2 si todavía el error total no es satisfactorio.

Se debe comenzar siempre con pesos iniciales aleatorios pequeños, tanto positivos como negativos. En el esquema presentado se lleva a cabo una fase de ejecución para todos y cada uno de los patrones del conjunto de entrenamiento, se calcula la variación de los pesos debida a cada patrón, se acumulan, y a continuación se efectúa la actualización de los pesos. Este esquema se acostumbra a denominar aprendizaje por lotes o en batch. El algoritmo BP es un método de aprendizaje general

Page 230: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 205 ______________________________________________________________________________

que presenta como ventaja principal el hecho de que se puede aplicar a gran número de problemas distintos, proporcionando buenas soluciones con no demasiado tiempo de desarrollo. Sin embargo si se pretende afinar más y obtener una solución excelente habría que ser cuidadoso en cuestiones adicionales, tales como la determinación de una arquitectura óptima, la selección de los pesos iniciales, el preprocesamiento de los datos de entrada, la utilización de técnicas que eviten el sobreajuste, etc.

5.6 Evaluación del Rendimiento de los Clasificadores. Una vez generado el modelo para implementar un clasificador se podría validar

su funcionamiento utilizando las mismas muestras empleadas como conjunto de entrenamiento. Ya que estas muestras están etiquetadas y conocemos la clase a la que pertenecen, se podría comprobar si el clasificador es capaz de etiquetarlas correctamente. Partiendo del conjunto de muestras de entrenamiento como muestras de validación, el rendimiento sería el tanto por ciento de clasificaciones correctas con respecto al total de muestras de validación. El problema es que esta medida puede ser engañosa ya que nos da una idea de cómo se comportará el clasificador ante nuevas muestras que sean parecidas a las del conjunto de entrenamiento, pero no da información del comportamiento del clasificador ante nuevos patrones diferentes. Por esta razón es necesario disponer de dos conjuntos de datos diferentes, uno para el entrenamiento del clasificador y otro para su validación. Existen diferentes métodos para evaluar la validez de un clasificador, de entre estos métodos hemos escogido el método leave-one-out, ya que es un método apropiado cuando se dispone de un número limitado de muestras como en este caso.

5.6.1 Leave-One-Out. Los métodos de validación cruzada consisten en generar un clasificador con

distintos subconjuntos de datos y juzgar su funcionamiento usando los datos restantes, repitiendo el procedimiento para distintos subconjuntos y promediando los resultados. Una de sus variantes denominada leave-one-out, aprovecha una única observación para probar el clasificador construido en base a las restantes ( )1−n observaciones, repitiendo el proceso n veces [Hand, 1996; Bao, 2000]. Esta técnica consiste en dejar fuera una de las muestras y realizar el entrenamiento del clasificador con las restantes muestras disponibles. El dato que se ha dejado fuera se utiliza para la validación del clasificador. Este proceso se repite dejando fuera del conjunto de entrenamiento cada vez una muestra diferente y se realiza tantas veces como muestras haya en el conjunto de datos. El rendimiento será la media del obtenido en cada una de las iteraciones. Esta medida proporciona una mejor estimación de cómo se comportará el clasificador ante nuevos patrones desconocidos. Para cuantificar la predictibilidad de cada uno de los modelos ajustados, se aplica el método de validación cruzada estimando los parámetros de regresión con 1−n pacientes (datos) clasificados, repitiéndose el procedimiento n veces. Este enfoque posee la ventaja de que en cada caso, el tamaño del conjunto de datos se mantiene igual, lo que garantiza que la tasa de error estimada sea aproximadamente no sesgada. El método es computacionalmente intensivo y hay evidencia de que posee una varianza relativamente grande en pequeñas muestras [Hand, 1996]. El método leve-one-out difiere de otros métodos como el Jackknife, a pesar de ser bastante similar al anterior. Aunque ambos omiten una observación por ciclo, leve-one-out se emplea para estimar la tasa de error y Jackknife para estimar el sesgo de un estadístico. En tal caso, se computa el estadístico de interés con cada subconjunto de datos y el promedio de los valores estimados se compara con el valor hallado con la

Page 231: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

206 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

muestra completa; también se pueden obtener estimadores Jackknife del error estándar. Este método puede aplicarse para estimar el sesgo de la tasa de error, pero el procedimiento resulta mucho más complicado que la validación leave-one-out.

5.6.2 Parámetros de Valoración del Rendimiento de un Clasificador.

El objetivo de un clasificador es asignar correctamente una etiqueta a un patrón de test. Para el caso particular de una clasificación binaria, en la que los datos están etiquetados como positivos y negativos, el clasificador puede cometer dos posibles errores, clasificar como positivo un patrón que en realidad es negativo y viceversa. Al comparar el resultado del test con la etiqueta original, se pueden dar las siguientes posibilidades:

• Positivo Verdadero (PV): El test da el dato como positivo y la etiqueta original es positiva.

• Positivo Falso (PF): El test da el dato como positivo y la etiqueta original es negativa.

• Negativo Falso (NF): El test da el dato como negativo y la etiqueta original es positiva.

• Negativo Verdadero (NV): El test da el dato como negativo y la etiqueta original es negativa.

Para el caso que corresponde al presente trabajo, se considerarán positivos los

pacientes etiquetados como DTA y negativos los etiquetados como NORMALES, por lo que se puede redefinir:

• Positivo Verdadero (PV): El test da al paciente como DTA y la etiqueta original es DTA.

• Positivo Falso (PF): El test da al paciente como DTA y la etiqueta original es NORMAL.

• Negativo Falso (NF): El test da al paciente como NORMAL y la etiqueta original es DTA.

• Negativo Verdadero (NV): El test da al paciente como NORMAL y la etiqueta original es NORMAL.

La sensibilidad mide la capacidad de un clasificador para detectar positivos

verdaderos, o sea, mide la capacidad de detectar la enfermedad, y se define como:

NFdenúmeroPVdenúmeroPVdenúmeroadSensibilid

+= [5.192]

Una sensibilidad del 100% corresponderá a un clasificador que es capaz de

detectar todos los pacientes etiquetados positivos (DTA) como tales. La sensibilidad esta relacionada con el error de tipo I en inferencia estadística, que consiste en rechazar la hipótesis nula cuando en realidad es cierta.

La especificidad de un clasificador mide la capacidad de este para detectar negativos verdaderos, o sea para detectar pacientes NORMALES y se define como:

Page 232: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 5. Teoría del Aprendizaje Estadístico Basado en Computador. 207 ______________________________________________________________________________

PFdenúmeroNVdenúmeroNVdenúmerodadEspecifici

+= [5.193]

Una especificidad del 100% corresponderá a un clasificador que es capaz de

detectar todos los pacientes etiquetados negativos (NORMALES) como tales. La especificidad esta relacionada con el error de tipo II donde se acepta la hipótesis nula cuando en realidad es falsa.

Sin embargo, tanto altos valores de la sensibilidad como de la Especificada no tiene porque corresponder a un clasificador preciso. Se define la precisión o exactitud como:

NVdenúmeroNFdenúmeroPFdenúmeroPVdenúmeroNVdenúmeroPVdenúmeroecisión

++++

=Pr [5.194]

Puede ocurrir que un clasificador tenga valores cercanos al 100% de sensibilidad

y cercanos al 0% de especificidad, este clasificador no tendrá capacidad de discernir entre las clases, ya que será un clasificador que tome cualquier patrón como positivo. Esto equivale a una clasificación al azar, ya que su precisión rondará al 50% para una muestra sin preponderancia de ninguna de las dos clases. El clasificador deseable es aquel que tiene valores altos de sensibilidad, especificidad y precisión simultáneamente y no solo de alguno de ellos por separado.

Otros parámetros interesantes son los valores predictivos. Éstos hacen referencia a la validez de un resultado de clasificación positivo/negativo (valor predictivo positivo/negativo). Se podrá confiar más en un resultado positivo de un clasificador con un vpp alto que uno con un vpp menor. Sin embargo, los valores predictivos dependen de la preponderancia de las clases denominada prevalencia. Si el conjunto de test no tiene igual número de positivos que de negativos habrá de usarse las fracciones de probabilidad positiva o negativa (fpp/fpn):

dadEspecificiadSensibilidfpp

−=

1 [5.195]

y

dadEspecificiadSensibilidfpn −

=1 [5.196]

que no depende de la prevalencia. Recuérdese que la prevalencia cuantifica la proporción de personas en una población que tienen una enfermedad en un determinado momento y proporciona una estimación de la probabilidad (riesgo) de que un sujeto de esa población tenga la enfermedad en ese momento.

Page 233: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 234: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6

RESULTADOS EXPERIMENTALES.

En el presente Capítulo se describe el proceso de recopilación de las distintas bases de datos de pacientes que fueron previamente etiquetados por expertos del Servicio de Medicina Nuclear del Hospital Universitario “Virgen de la Nieves” (Granada, España), así como la realización de los experimentos y los resultados obtenidos que han permitido evaluar las técnicas de clasificación de imágenes SPECT desarrolladas en esta Tesis para el diagnóstico precoz de la enfermedad de Alzheimer. Se presentan los resultados para la técnica de extracción de características del modelo de análisis de parámetros de primer y segundo orden de cortes coronales, sagitales y transversales, para el modelo de error cuadrático medio de cortes bidimensionales, así como para el método de definición de ROIs mediante técnicas de clustering GMM. Los clasificadores basados en aprendizaje estadístico empleados son Máquinas de Vectores Soporte (SVM), K-Nearest-Neighbors (k-NN), Análisis de Funciones Discriminantes, Árboles de Decisión y Redes Neuronales.

Page 235: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 236: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 211 ______________________________________________________________________________

6.1 Introducción. Las diferentes modalidades existentes para la obtención de imágenes funcionales

como la Tomografía Computarizada por Emisión de Fotón Único (SPECT) o la Tomografía por Emisión de Positrones (PET) se usan habitualmente con el objetivo de conseguir una diagnosis en las primeras fases de la enfermedad. Sin embargo, la evaluación convencional de imágenes SPECT depende de la reorientación manual, la lectura visual de las secciones tomográficas y el análisis semicuantitativo de ciertas regiones cerebrales de interés (ROIs). Estos métodos requieren mucho tiempo, son subjetivos y propensos a error. La presente Tesis muestra un sistema de diagnosis asistido por computador (CAD) completamente automatizado para mejorar la detección precoz de la EA. El enfoque propuesto está basado en la selección de un conjunto de características discriminantes y clasificación basada en teoría de aprendizaje estadístico por computador. El estudio tiene como prioridad encontrar los ROIs y demás parámetros discriminantes con el objetivo de reducir el dimensionalidad del espacio de entrada y mejorar la precisión del sistema. Entre todas las características evaluadas, la desviación típica de los cortes coronales y la correlación sagital resulta ser los parámetros más eficaces para reducir la dimensionalidad del espacio de entrada y mejorar la exactitud en la diagnosis cuando se usa teoría de aprendizaje estadístico por computador. Los distintos sistemas propuestos tienen una exactitud bastante elevada en la diagnosis temprana de la EA y supera considerablemente las técnicas existentes incluyendo el voxel como el enfoque de características (VAF). Del mismo modo, se muestran en este Capítulo los resultados de evaluación obtenidos para el modelo de cortes bidimensionales, así como para el método de definición de ROIs mediante técnicas de clustering GMM.

6.2 Diagnóstico de la Demencia de Tipo Alzheimer Mediante SPECT.

Las imágenes funcionales SPECT proporcionan información sobre el flujo sanguíneo regional cerebral (del inglés “regional cerebral blood flor”, rCBF) que puede ser de una valiosa ayuda para el diagnóstico precoz de la EA [Goethals et al., 2002]. La Figura 6.1 muestra distintas imágenes de perfusión del cerebro de un paciente normal y de un paciente que padece la EA en su fase inicial. Aunque existen muchos estudios, ninguno de ellos acuerda cuales son las mejores regiones del cerebro para cuantificar en diagnosis EA:

• Muchos estudios han demostrado que la región temporo-parietal (véase Sección A.5, Apéndice A) es la más adecuada para la detección temprana de la enfermedad en pacientes que no presentan características específicas relacionadas con el deterioro cognitivo asociado a la disminución cognitiva general [Claus et al., 1994]. Aunque se han observado anormalidades predominantes en la EA de la región temporo-parietal bilaterales, junto a otros defectos regionales, parece ser que no es vinculante para su detección precoz.

• Los déficit de perfusión en las regiones posteriores de cingulado (véase Sección A.2, Apéndice A), gyri y precunei son probablemente más específicas y más frecuentes que los déficit en la región temporo-parietal para el EA temprano [Kogure et al., 2000].

• No se ha identificado leve hipoperfusión en el lóbulo temporal medio e hipocampo (véase Sección A.5, A.8, Apéndice A) en la EA, debido a las dificultades en la representación por imágenes de estas estructuras profundas en el cerebro [Braak et al., 1991].

Page 237: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

212 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

(a)

(b)

Figura 6.1 Modelos de perfusión: a) individuo normal, b) paciente afectado por Demencia Tipo Alzheimer en fase inicial.

Page 238: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 213 ______________________________________________________________________________

A modo de conclusión se puede decir que no toda la información encontrada en un examen de SPECT completo será importante para la diagnosis de la enfermedad durante su etapa temprana. En la Sección 6.3 se mostrará un estudio de las regiones del cerebro que son más efectivas para diagnosticar la EA.

6.3 Estadísticos para la Discriminación de la Demencia del Tipo Alzheimer.

Un problema muy importante relacionado con sistemas de reconocimiento de imágenes es la dimensionalidad, es decir el número de las características disponibles para diseñar el clasificador, que puede ser muy grande comparado con el número de ejemplos de entrenamiento disponibles. Bajo estas condiciones, la dificultad de un problema de cálculo aumenta drásticamente con la dimensión del espacio, ya que necesita un número de modelos que crece de forma exponencial para que prueben el espacio apropiadamente. Esta condición conocida, produce dudas sobre la adecuada dimensión del despacio de características para realizar el aprendizaje de forma efectiva utilizando teoría de aprendizaje estadístico. Sin embargo la teoría del aprendizaje estadístico nos dice que aprender en un espacio de característica de dimensión alto puede ser más simple si el nivel de complejidad es más bajo, i.e. se puede usar como regla la clase simple de decisión (por ejemplo Clasificadores Lineales). Como conclusión, se puede decir que no influye únicamente la dimensionalidad de la clase en la complejidad de la función [Müller et al., 2001].

6.3.1 Estadístico de Primer Orden. Recuérdese la Sección 4.6.2 en la que se definía I como una variable aleatoria

que representa los niveles de intensidad gN de la imagen, ( )IP como su histograma, sus momentos im y los momentos centrales iμ . De estos últimos, los usados más frecuentemente son la media [ ]IEm == 1μ y la varianza 2

2 μσ = . Otro parámetro interesante que resulta del histograma es la entropía que es una medida de la uniformidad del histograma [Ramírez et al., 2009].

6.3.2 Estadístico de Segundo Orden. Los Estadísticos de Primeros Orden proveen la información relacionada con la

distribución de los niveles de intensidad en la imagen, pero no dan información sobre los respectivos lugares que ocupan los distintos niveles de intensidad dentro de la imagen. Esta información puede ser extraída de los Estadísticos de Segundo Orden, donde los pixels son considerados por parejas. Véase la Sección 4.6.3 donde se muestra como se obtiene la matriz de co-ocurrencia para los Estadísticos de Segundo Orden [Haralick et al., 1973]. En el presente trabajo, solamente se ha tenido en cuenta la dependencia de pixels adyacentes horizontalmente ( 0,1 == φd ) considerando la matriz de dependencia espacial o matriz de co-ocurrencia definida como:

( ) ( )( )

( )paresposiblesdetotalnúmero

IIvalorescondciadisconpixelsdeparesdenúmeroIndmIInmIPo

21

21

,tan,,,:0

=

=±= [6.1]

A partir de la definición de matriz de co-ocurrencia, se puede obtener los

parámetros Estadísticos de Segundo Orden, definidos en la Sección 4.6.3 como segundo

Page 239: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

214 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

momento angular, contraste, momento de diferencia inverso, entropía, correlación. El método de selección de características propuesto tiene por objetivo encontrar los mejores discriminantes estadísticos de las imágenes de SPECT y las ROIs, automáticamente sin tener conocimiento de la enfermedad, analizando un conjunto de imágenes disponibles en una base de datos [Ramírez et al., 2009].

6.3.3 Selección de Características. Para valorar diferentes conjuntos los parámetros de las imágenes para la detección temprana de la EA, se ha realizado un estudio para tasar los valores que los estadísticos toman para las diferentes clases, es decir para 21 , ωω y son significativamente diferentes. El objetivo principal del estudio es combinar los diferentes parámetros y determinar la forma del vector de entrada para la clasificación. En el análisis se ha considerado los Estadísticos de Primer y Segundo Orden de los cortes sagitales, coronales y transversales del cerebro mientras se proporciona el Fisher Linear Discriminant (FDR) definido como:

( )22

21

221

σσμμ+−

=FDR [6.2]

Se usa como la medida de separabilidad entre clases, donde 1μ y 2μ son los

respectivos valores medios de las clases características y 21σ y 2

2σ sus varianzas. Para garantizar la operación del método este se evaluará posteriormente con técnicas de validación cruzada. En la Figura 6.2 se muestra un ejemplo de procedimiento para seleccionar las mejores secciones discriminantes sobre la base de cálculo del FDR cuando se considera la correlación y desviación típica como las mejores contribuciones para la clasificación. La primera fila de la figura indica el valor de la estadística (desviación típica, correlación,…) correspondiente a secciones 2-D para cada paciente, donde las coordenadas x , y y z representan el número de corte de las secciones sagitales, coronales y transversales, respectivamente. Obsérvese que las clases denotadas como Demencia Tipo Alzheimer (DTA) y normales (NOR) son agrupadas y separadas por una línea negra horizontal para indicar los diferentes valores estadísticos entre ambas clases. A continuación se muestra el valor de las características de FDR en 2-D. Las mejores secciones discriminantes son aquellas que tienen el máximo valor del FDR e identifican los ROIs. Este estudio se realizó para todos los Estadísticos de Primer y Segundo Orden definidos en el Capítulo 4 llegando a la conclusión de que no todas las secciones en un elemento de volumen proveen el mismo valor discriminante. Entre todas las estadísticas evaluadas, la desviación típica de las secciones de y (de las secciones coronales) y correlación de las secciones de x (sagitales) produjeron el máximo valor del FDR y son los vectores de entrada discriminantes que mejor contribuyen para la detección de DTA [Ramírez et al., 2009].

Page 240: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 215 ______________________________________________________________________________

Pat

ient

No.

Slice X20 40 60

10

20

30

40

50

Pat

ient

No.

Slice Y20 40 60 80

10

20

30

40

50

Pat

ient

No.

Slice Z20 40 60

10

20

30

40

50

20 40 600

0.2

0.4

0.6

0.8

Slice X

FDR

20 40 60 800

0.2

0.4

0.6

0.8

1

Slice Y

FDR

20 40 600

0.2

0.4

0.6

0.8

Slice Z

FDR

DTA

NOR

(a) Desviación típica.

Pat

ient

No.

Slice X20 40 60

10

20

30

40

50

Pat

ient

No.

Slice Y20 40 60 80

10

20

30

40

50

Pat

ient

No.

Slice Z20 40 60

10

20

30

40

50

20 40 600

0.2

0.4

0.6

0.8

Slice X

FD

R

20 40 60 800

0.1

0.2

0.3

0.4

Slice Y

FD

R

20 40 600

0.2

0.4

0.6

Slice Z

FD

R

NOR

DTA

(b) Correlación.

Figura 6.2 Desviación típica, correlación y valores de FDR de las secciones sagitales, coronales y transversales para sujetos normales y pacientes con DTA.

6.4 Base de Datos. El grupo de imágenes sobre el cual se realiza el estudio pertenecen a un conjunto

de imágenes SPECT obtenidas en el Hospital “Virgen de las Nieves”, (Granada, España) según el protocolo descrito en el Apéndice C. Las imágenes SPECT fueron a su vez etiquetadas por expertos de dicho Hospital en cuatro categorías: (NOR) para pacientes

Page 241: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

216 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

normales sin ningún síntoma de DTA ni posible DTA, (DTA-1) probable, en fase precoz DTA, (DTA-2) cierto DTA, en fase intermedia de evolución, y (DAT-3) etapa más avanzada de DTA, para distinguir entre diferentes niveles típicos de DTA, (véanse Figura 6.3, Figura 6.4, Figura 6.5).

Se definen diferentes subconjuntos de pacientes (o bases de datos) para el

entrenamiento y test del sistema. La motivación para ello es conseguir que se realicen pruebas con el mayor número de pacientes, y con poblaciones iguales de controles (NORMALES) y pacientes con Alzheimer (DTA). También se considera el problema de clasificación más complejo que consiste en distinguir controles de pacientes con leves manifestaciones de enfermedad (DTA-1), y poder deducir qué métodos son los más eficientes como clasificadores y cómo están relacionados estos con los subconjuntos de pacientes utilizados para el entrenamiento.

De esta manera, tras el proceso de etiquetado de las imágenes, se han formado tres bases de datos que contienen 54, 82 y 91 pacientes respectivamente. La primera y segunda sólo contienen pacientes pertenecientes a las clases: NOR, DTA-1, DTA-2. En la base de datos de 54 pacientes se tiene una prevalencia equilibrada de clases entre NORMALES y DTA-1. En la base de datos de 82 pacientes, se podría considerar también esta prevalencia equilibrada de clases entre NORMALES y DTA. En cambio la base de 91 pacientes, está formada por pacientes NOR, DTA-1, DTA-2, DTA-3, siendo la proporción de las dos primeras clases considerablemente mayor que las dos últimas (véase Tabla 6.1).

Tabla 6.1 Bases de datos de pacientes con sus respectivas clases que las constituyen.

Base de datos de

54 Pacientes

Base de datos de

82 Pacientes

Base de datos de

91 Pacientes

NORMALES.

27

41

41

DTA-1.

27

24

27

DTA-2.

-----

16

19

DTA-3.

-----

1

4

Page 242: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 217 ______________________________________________________________________________

(http://www.nia.nih.gov/Alzheimers/Publications/LaEnfermedaddeAlzheimer/Parte1/cambiante.htm)

Figura 6.3 Preclínico: DTA-1.

(http://www.nia.nih.gov/Alzheimers/Publications/LaEnfermedaddeAlzheimer/Parte1/cambiante.htm)

Figura 6.4 Moderado: DTA-2.

Page 243: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

218 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

(http://www.nia.nih.gov/Alzheimers/Publications/LaEnfermedaddeAlzheimer/Parte1/cambiante.htm)

Figura 6.5 Severo: DTA-3.

6.5 Resultados Experimentales.

6.5.1 Análisis Experimental Usando SVMs. Las Máquinas de Vector Soporte [Burges, 1998; Vapnik, 1995; Vapnik, 1998] se

usan en reconocimiento de patrones en diversas aplicaciones por su capacidad para aprender de datos experimentales. Esto se debe a que SVM funciona habitualmente mejor que otros clasificadores paramétricos convencionales [Joachims et al., 1998; Górriz et al., 2008]. SVM separa un conjunto de datos por medio de un hiperplano que maximiza la distancia de las dos clases (se conoce como el hiperplano de margen máximo). El objetivo es desarrollar una función { }1: ±→NRf usando conjuntos N-dimensionales de datos de entrenamiento, es decir, de patrones ix etiquetados en clases

iy . ( ) ( ) ( ) { }1,,,,,, 2211 ±×∈ N

ll Ryxyxyx L [6.3] Esta función f clasificará correctamente nuevos ejemplos ( )yx, que no han sido observados durante el entrenamiento.

Cuando no es posible realizar la separación lineal de los datos de entrenamiento,

SVM puede operar en combinación con las técnicas de núcleo (kernels) con el propósito de hacer que el hiperplano que define la frontera de separación del clasificador SVM se corresponda con una superficie de decisión no lineal en el espacio de entrada. Si los datos se trasladan a otro espacio Euclideo (de posible dimensión infinita) por medio de la transformación ( )xΦ , el algoritmo de entrenamiento solamente depende de los datos de entrenamiento a través de producto escalares en tal espacio Euclideo, i.e. sobre funciones de la forma ( ) ( )ji xx Φ⋅Φ . Si se define la función de núcleo K como ( ) ( ) ( )jiji xxxxK Φ⋅Φ=, , no resulta necesario conocer la función Φ durante el proceso

de entrenamiento. En la fase de test, un clasificador SVM sólo realiza los productos escalares correspondientes al vector x con w , o más concretamente calcula el signo de

Page 244: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 219 ______________________________________________________________________________

( ) ( ) ( ) ( )∑ ∑= =

+=+Φ⋅Φ=S SN

i

N

iiiiiii xsKyxsyxf

1 100 , ωαωα [6.4]

donde is son los vectores de soporte obtenidos durante el entrenamiento.

De esta manera, la utilización de kernels permite a SVM realizar una

transformación de los datos mediante una transformación no lineal FRN →Φ : en otro espacio escalar (llamado espacio de características) y efectuar el algoritmo lineal descrito anteriormente para F . La Figura 6.6 ilustra esta situación donde el espacio de entrada 2-D se transforma en un espacio de características tridimensional. Todos los puntos que pertenecen a una clase en particular se separan correctamente de la otra clase por medio de un hiperplano lineal en el espacio de características. Sin embargo, en el espacio de entrada, el hiperplano corresponde a una función de decisión no lineal cuya forma es determinada por el núcleo.

Por lo tanto, la función de decisión es no lineal en el espacio de entrada

( ) ( )⎭⎬⎫

⎩⎨⎧

+= ∑=

SN

iiii xsKysignxf

10, ωα [6.5]

donde los parámetros iα son la solución de un problema de optimización cuadrático que se determina generalmente por programación cuadrática (del inglés “quadratic programming”, QP) o el conocido algoritmo de optimización mínimo secuencial (del inglés ”sequential minimum optimization”, SMO) [Platt, 1999]. Muchos problemas de clasificación son separables en el espacio de características y pueden obtener los mejores resultados usando núcleos basados en funciones de base radial (RBF) en lugar de funciones lineales y funciones de núcleo polinómico [Clarkson et al., 1999; Ganapathirju et al., 2004].

x(1)

x(2)

Input space Feature space

Ö(·)

F(1)

F(2)

F(3)

Figura 6.6 Efecto de mapear el espacio de entrada en un espacio de características que puede separarse por medio de una frontera lineal.

Desarrollos recientes para definir y entrenar clasificadores estadísticos hacen

posible el desarrollo de clasificadores seguros aunque tengan un tamaño de muestra muy pequeños [Duin, 2000] ya que sistemas de reconocimiento de imágenes basados en

Page 245: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

220 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

SVM evitan el problema de la dimensionalidad, y pueden encontrar límites de decisión no lineales incluso para conjuntos de entrenamiento pequeños.

Independientemente del clasificador usado, existen claras motivaciones para reducir la dimensionalidad del espacio a un mínimo moderado, ya que esto contribuirá a:

• reducir del coste computacional del entrenamiento y los algoritmos de test, • la eliminación de la correlación entre los datos y • la selección de más conjuntos discriminantes de los datos de entrada.

Aplicación de SVM a Imágenes Funcionales. Se pretende desarrollar una herramienta de ayuda al diagnóstico en la que no se

necesiten conocimientos específicos sobre la enfermedad de Alzheimer, sino que automáticamente se detecte si el paciente está sano o enfermo estudiando el conjunto de imágenes. Por esta razón el método no trata de encontrar regiones específicas en el volumen cerebral para emplearlas en el sistema de clasificación, sino de dar información útil sobre el estado del paciente haciendo uso de todas las imágenes en su conjunto. Con el fin de reducir la dimensión del espacio de características del clasificador, el volumen cerebral se irá dividiendo en pequeñas partes, donde cada parte o componente opinará sobre la clase a la que pertenece el paciente. Una vez barrido el volumen cerebral en las tres direcciones (coronal, sagital y axial), y con componentes de diferente forma (alargadas y cúbicas), la decisión final vendrá dada por lo que decida la mayoría de las componentes.

6.5.2 Resultados de Evaluación. En esta Sección se muestran los resultados experimentales obtenidos para

evaluar el rendimiento del sistema de clasificación y su utilidad como un sistema de CAD para la detección precoz de la EA [Ramírez et al., 2009]. Partimos de un sistema que se utiliza como referencia y que está basado en la estrategia voxel como características (VAF) [Stoeckel et al., 2001, 2004, 2005] para la implantación mencionada. Este sistema utiliza la intensidad de todos los voxels que componen la imagen para definir un clasificador SVM lineal. Seguidamente se muestran los resultados experimentales que se obtuvieron al valorar el sistema propuesto. Las imágenes SPECT utilizadas en este trabajo fueron inicialmente etiquetadas por clínicos experimentados en el hospital "Universitario Virgen de las Nieves" (Granada, España), usando cuatro etiquetas diferentes (véase Sección 6.4): NOR, DTA-1, DTA-2 y DAT-3 para distinguir entre diferentes niveles típicos de DTA. La base de datos en total está constituida por 52 pacientes, distribuidos de la siguiente forma: 23 NOR, 13 DTA-1, 12 DTA-2 y 4 DTA-3. Las tres últimas etiquetas fueron combinadas y solamente se utilizaron dos clases (NOR y DTA).

Iniciación de la Clasificación de Voxel Característicos. Se ha desarrollado un clasificador SVM basado en el paradigma VAF [Stoeckel et al., 2001, 2004, 2005] para emplearlo como referencia. Se tiene un volumen

voxels 796995 ×× que representa el rCBF de cada sujeto tras la normalización espacial y de intensidad. Este volumen se reduce en tamaño realizando el promedio de voxels de

nnn ×× . Como se mencionó anteriormente, el clasificador SVM utiliza las intensidades de los voxels como vector de características, y fue entrenado y evaluado utilizando una estrategia de validación cruzada consistente en iterar un bucle dejar-5-fuera (leave-5-out). El clasificador se entrenó con todas las imágenes de la base de datos.

Page 246: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 221 ______________________________________________________________________________

Las imágenes restantes que no se emplean para definir el clasificador, son clasificadas. La Figura 6.7 indica la exactitud del clasificador SVM basado en VAF como función del tamaño n del volumen para diferentes núcleos como: RBF, lineal, cuadrático y polinómico. Entre todos los núcleos, el lineal es el que produce la mayor exactitud para un sistema VAF con sujetos normales y pacientes afectados por DTA, dada la alta dimensión del espacio de entrada [Cover et al., 1965]. El rendimiento del núcleo lineal se reduce al aumentar el tamaño de voxel debido a: i) La dimensionalidad del espacio de entrada se reduce progresivamente, y ii) la información se pierde después de determinar el promedio de elementos de volúmenes grandes. Como conclusión, la exactitud del sistema SVM basado en VAF propuesto en [Fung et al, 2007] (está por debajo 85% para un núcleo lineal). Se debe mejorar para desarrollar un sistema CAD más exacto para una precisa detección precoz de la enfermedad de Alzheimer. Los resultados más elevados con SVM están en concordancia con la teoría de aprendizaje estadístico y la habilidad del clasificador lineal para agrupar eficazmente l puntos de un espacio de gran dimensión, en dos clases [Cover et al., 1965]. Véase Sección 4.7.

0 10 20 30 40 50 60 7040

45

50

55

60

65

70

75

80

85

Voxel size

Acc

urac

y

LinearQuadraticRBFPolynomial

Figura 6.7 Precisión del sistema VAF con SVM-lineal evaluada usando la estrategia de validación cruzada de dejar 5 fuera (leave 5-out).

Entrenamiento y Resultado de la Prueba para SVM. Teniendo por objetivo reducir la dimensionalidad del espacio de entrada y

mejorar el rendimiento del sistema CAD, más allá de diseñar un clasificador SVM basado en los núcleos actualmente vigentes, se han considerado otros discriminantes estadísticos introducidos en la Sección 6.3 como por ejemplo, la desviación típica de las secciones coronales y la correlación de las secciones sagitales. La dimensionalidad del espacio de entrada se reduce considerando solamente estadísticas para imágenes con secciones normalizadas con FDR superior a un umbral determinado. La Figura 6.8 muestra la exactitud del sistema CAD y la dimensión del espacio de entrada en función

Page 247: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

222 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

del valor de umbral cuando se utiliza un núcleo RBF. Obsérvese que, la exactitud del sistema se incrementa hasta el 90% cuando aumenta el umbral. Los mejores resultados se obtienen para un vector de características bidimensional formado por la desviación típica del corte coronal y la correlación de la sección sagital con el valor más alto del FDR tal como se muestra en la Figura 6.2. Estos resultados concuerdan con la discusión previa sobre la dimensionalidad del espacio de características. En espacios de características con dimensionalidad elevada, los núcleos RBF funcionan mal por lo que resulta de utilidad reducir la dimensionalidad del espacio de entrada escogiendo las mejores estadísticas discriminantes para la imagen y las ROIs (secciones) en el volumen y mejorando así la exactitud del sistema. La operación más efectiva desde el punto de vista de la discriminabilidad de las clases se obtiene cuando la dimensión del espacio de entrada es pequeña comparada con la dimensión del espacio de características que es elevado. De esta manera, la transformación del espacio de entrada en un espacio de características permite que los datos se puedan separar mediante una función de clasificación lineal en el espacio de características.

0 0.2 0.4 0.6 0.8 150

60

70

80

90

100

Acc

urac

y

0 0.2 0.4 0.6 0.8 10

25

50

75

100

125

150

175

200

Dim

ensi

on o

f the

inpu

t spa

ce

Threshold value

Accuracy

Dimension

Figura 6.8 Exactitud y dimensión del espacio de entrada para un sistema de SVM con núcleo RBF donde se emplearon la desviación típica y la correlación de las secciones con el FDR normalizado superior a un umbral en particular.

En la Figura 6.9 se muestran los patrones de entrenamiento, las etiquetas asociadas a cada clase y los vectores de soporte que definen el clasificador SVM cuando se emplea núcleo lineal, cuadrático, rbf y polinómico para la correspondencia en el espacio de característica. Se hace evidente que al reducir la dimensionalidad del espacio de entrada a uno de dos coeficientes se obtiene una exactitud en discriminación elevada. Entre todos los experimentos realizados, las funciones de núcleo rbf produjeron los mejores resultados con una exactitud de clasificación de 90.38% (sensibilidad de 93.10% y precisión de 86.96%) mientras que los núcleos lineales alcanzaron los mejores resultados para una alta dimensión del espacio de entrada (enfoque de VAF) [Fung et al., 2007] (véase Figura 6.7), que produjo sólo una exactitud de clasificación del 84.62%. Por lo tanto, el sistema propuesto alcanzó una importante mejora sobre el

Page 248: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 223 ______________________________________________________________________________

enfoque de VAF donde la alta dimensión del espacio de entrada, hace incesaría una clasificación no lineal en el espacio de entrada.

50 60 70 80 900.97

0.98

0.99

1Linear kernel

NORMALATDSVs

50 60 70 80 900.97

0.98

0.99

1Quadratic kernel

NORMALATDSVs

50 60 70 80 900.97

0.98

0.99

1RBF kernel

NORMALATDSVs

50 60 70 80 900.97

0.98

0.99

1Polynomial kernel

NORMALATDSVs

Figura 6.9 Funciones de decisión para un espacio de entrada bidimensional con vector de entrada formado por los mejores discriminantes (desviación típica coronal y correlación sagital) de las secciones.

Conclusiones. Esta Sección ha presentado los resultados obtenidos por un sistema de diagnosis

asistido por computadora completamente automatizado, para mejorar la detección precoz de la enfermedad de Alzheimer. El enfoque propuesto está basado en la selección de parámetros y la clasificación mediante SVM. El sistema se ha desarrollado analizando los mejores parámetros discriminativos de los datos de entrada considerándose así estadísticos de primer y de segundo orden para cortes sagitales, coronales y transversales del cerebro humano. Se descubrió que los mejores parámetros discriminantes de imágenes para la EA son la desviación típica de los cortes coronales y la correlación sagital. Además de reducir la dimensionalidad del espacio de entrada mediante un proceso de selección de características basado en el FDR de dos coeficientes del vector de entrada, la exactitud obtenida resulta elevada especialmente cuando se emplea como núcleo rbf. De esta manera, el sistema CAD alcanza una exactitud del 90.38% (sensibilidad de 93.10% y precisión de 86.96%) en la diagnosis temprana de la EA, superándose los enfoques desarrollados recientemente basados en VAF donde la alta dimensión del espacio de entrada hace que SVM con núcleo lineal resulte más efectivo que con núcleos cuadrático, rbf y polinómico.

Page 249: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

224 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

6.6 Resultados de Clasificación para el Modelo NMSE de Cortes Bidimensionales.

6.6.1 Clasificador SVM. En la Sección 5.1 se ha descrito el fundamento teórico del clasificador SVM.

Tras su implementación mediante un algoritmo en Matlab, en este apartado se muestra los resultados experimentales obtenidos para el modelo de cortes coronales desarrollado en el Capítulo 4 y se realiza una evaluación por medio de las tres bases de datos de pacientes que se han constituido en la Tabla 6.1.

En primer lugar se mostrarán los resultados obtenidos para uno de los sistemas

CAD desarrollados en esta Tesis y que combinan la utilización de las características NMSE introducidas en el Capítulo 4 de diferentes cortes coronales, sagitales y transversales que definen las ROIs con clasificadores SVM. La Tabla 6.2 muestra los valores de exactitud (o precisión), sensibilidad y especificidad expresados en porcentaje (%) para los diferentes núcleos: Lineal, Cuadrático, rbf y Polinómico, y para las diferentes bases de datos de pacientes con las que se ha trabajado. Tabla 6.2 Valores de exactitud, sensibilidad, especificidad obtenidos con diferentes núcleos en las distintas bases de pacientes, mediante el clasificador SVM.

SVM Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes Exac. 92.59 Exac. 95.12 Exac. 94.51 Sens. 88.89 Sens. 90.24 Sens. 92.00

Lineal

Espec. 96.30 Espec. 100.00 Espec. 97.56 Exac. 87.04 Exac. 93.90 Exac. 90.12 Sens. 85.19 Sens. 90.24 Sens. 86.00

Cuadrático

Espec. 88.89 Espec. 97.56 Espec. 95.12 Exac. 90.74 Exac. 91.46 Exac. 92.31 Sens. 88.89 Sens. 87.80 Sens. 90.00

rbf

Espec. 92.59 Espec. 95.12 Espec. 95.12 Exac. 87.04 Exac. 92.68 Exac. 92.31 Sens. 88.89 Sens. 92.68 Sens. 92.00

Polinómico

Espec. 85.19 Espec. 92.68 Espec. 92.68

Exactitud. A continuación se va a realizar una interpretación de los resultados de la

exactitud. Para que dicha interpretación se pueda realizar con mayor claridad se representan los datos de distintas formas. En la Tabla 6.3 se muestran sus valores ordenados para las distintas bases de pacientes y núcleos empleados. Esos mismos datos se vuelven a mostrar graficados en la Figura B.1 del Apéndice B. En las Tabla 6.4 y 6.5 se han ordenado los resultados para cada base de datos y cada núcleo por orden decreciente de exactitud.

Page 250: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 225 ______________________________________________________________________________

Tabla 6.3 Valores de exactitud expresados en orden decrecientemente para los distintos núcleos y bases empleadas, mediante el clasificador SVM.

Orden Base Núcleo Exactitud (%)1 82 Lineal 95.12 2 91 Lineal 94.51 3 82 Cuadrático 93.90 4 82 Polinómico 92.68 5 54 Lineal 92.59 6 91 rbf 92.31 7 91 Polinómico 92.31 8 82 rbf 91.46 9 54 rbf 90.74

10 91 Cuadrático 90.12 11 54 Cuadrático 87.04 12 54 Polinómico 87.04

Se puede observar que la exactitud obtenida para los diferentes núcleos con las

distintas bases de datos de pacientes es considerablemente elevada, llegando a un 95.12% para el núcleo Lineal con la base de datos de 82 pacientes. Para el resto de núcleos y las bases de datos empleadas se supera ampliamente el 90%, a excepción de los núcleos Cuadrático y Polinómico con la base de 54 pacientes, ambos valores son del 87,04%, los cuales son bastante aceptables. Estos valores que son relativamente inferiores a los anteriores se justifican porque la base de datos de 54 pacientes es la más pequeña de las tres utilizadas y como se ha mostrado en la Sección 4.7, la habilidad de un clasificador para entrenar una regla de clasificación robusta no depende exclusivamente del clasificador elegido, ya que una de las cuestiones más importantes es la relación entre el tamaño del conjunto de muestras de entrenamiento n y la dimensión del espacio de características m. Los núcleos que proporcionan mayor exactitud (independiente de la base de datos) son el Lineal para las tres bases y el rbf sólo para la base de 91 y 54 pacientes. Además, con esta configuración los núcleos proporcionan valores de la exactitud muy próximos entre sí independientemente de la base de pacientes con que se trabaje. Hay que destacar que con la base de 91 pacientes se obtienen los mismos valores de exactitud para los núcleos rbf y Polinómico.

Como conclusión se puede establecer en vista de la tabla anterior que el núcleo

Lineal es el más robusto de entre todos los núcleos usados obteniéndose mejores resultados para la configuración de la base de datos de 82 y 91 pacientes debido a que se incorpora en ellas los pacientes más fácilmente diagnosticables (obsérvese como la precisión es casi constante ante la variación del número de pacientes). En el caso de la configuración de 54 pacientes que considera controles frente a pacientes en la fase precoz de la enfermedad, la precisión sigue siendo alta pero más baja que en los casos anteriores, dado que el problema de clasificación es un verdadero reto.

Teniendo en cuenta la Tabla 6.4 se observa que con el núcleo Lineal se obtiene

la máxima exactitud con cada una de las bases de datos. Este resultado es lógico puesto que el número de características es elevado y, en estos casos, los clasificadores lineales suelen obtener los mejores resultados. Sin embargo, no existe un paralelismo entre las distintas bases de datos en el orden con que decrece la exactitud de los distintos núcleos empleados, es decir, lo hace con un orden distinto de núcleos para cada base de datos.

Page 251: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

226 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

De forma general los resultados son buenos. La exactitud varía pocos puntos porcentuales, lo cual da cuenta de que el método es robusto. Tabla 6.4 Núcleos ordenados decrecientemente para cada base de pacientes, según el valor de la exactitud que toman dichos núcleos, mediante el clasificador SVM.

Base: Núcleo:

Núcleo:

Núcleo:

Núcleo:

91-P Lineal Exac.: 94.51 %

rbf Exac.: 92.31 %

Polinómico Exac.: 92.31 %

Cuadrático Exac.: 90.12 %

82-P Lineal Exac.: 95.12 %

Cuadrático Exac.: 93.90 %

Polinómico Exac.: 92.68 %

rbf Exac.: 91.46 %

54-P Lineal Exac.: 92.59 %

rbf Exac.: 90.74 %

Cuadrático Exac.: 87.04 %

Polinómico Exac.: 87.04 %

Teniendo en cuenta la Tabla 6.5 se observa que para todos los núcleos se obtiene

el menor valor con la base de datos de 54 pacientes. La base de datos de 54 pacientes tiene menos individuos que las otras dos por lo que los resultados son menos fiables. A esto se suma el hecho de que sólo consta de sujetos DTA-1 y NORMALES por lo que la clasificación resultará más difícil a priori. El máximo valor de la exactitud en los distintos núcleos no se obtiene siempre con la misma base de datos. A excepción del núcleo rbf, cuyo valor máximo se obtiene para la base de datos de 91 pacientes, seguida de la de 82 y 54 respectivamente, para el resto de núcleos, el máximo valor se da con la base de 82 pacientes seguida de la de 91 y 54. Este resultado se justifica mediante el argumento aportado anteriormente puesto que las bases de 82 y 91 pacientes son más fáciles de clasificar que la de 54 debido al tipo de pacientes que las forman.

Tabla 6.5 Bases ordenadas decrecientemente para cada núcleo según el valor de la exactitud que toman en dichas bases, mediante el clasificador SVM.

Núcleo: Base:

Base:

Base:

Lineal 82-P Exac.: 95.12 %

91-P Exac.: 94.51 %

54-P Exac.: 92.59 %

Cuadrático 82-P Exac.: 93.90 %

91-P Exac.: 90.12 %

54-P Exac.: 87.04 %

rbf 91-P Exac.: 92.31 %

82-P Exac.: 91.46 %

54-P Exac.: 90.74 %

Polinómico 82-P Exac.: 92.68 %

91-P Exac.: 92.31 %

54-P Exac.: 87.04 %

A modo de conclusión se puede decir que los mejores resultados se obtienen

para la base de 82 pacientes y el núcleo más adecuado es el Lineal.

Sensibilidad. En el presente apartado se va a realizar un estudio de los resultados de la

sensibilidad obtenidos. Para interpretarlos con mayor claridad se muestran representados en distintos formatos. En la Tabla 6.6 se presentan los valores ordenados decrecientemente para los distintos núcleos y bases de pacientes empleadas. Esos mismos datos se vuelven a mostrar graficados en la Figura B.2 del Apéndice B. En las

Page 252: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 227 ______________________________________________________________________________

Tablas 6.7 y 6.8 se han ordenado en orden decreciente de sensibilidad cada base de datos y los diferentes núcleos.

Tabla 6.6 Valores de sensibilidad expresados en orden decrecientemente para los distintos núcleos y bases empleadas, mediante el clasificador SVM.

Orden Base Núcleo Sensibilidad (%)1 82 Polinómico 92.68 2 91 Polinómico 92.00 3 91 Lineal 92.00 4 82 Lineal 90.24 5 82 Cuadrático 90.24 6 91 rbf 90.00 7 54 Lineal 88.89 8 54 rbf 88.89 9 54 Polinómico 88.89

10 82 rbf 87.80 11 91 Cuadrático 86.00 12 54 Cuadrático 85.19

Recuérdese que la sensibilidad nos da cuenta de la capacidad que tiene un

clasificador para detectar los pacientes etiquetados positivos como tales, es decir, la capacidad de detectar un enfermo. Cuanto mayor sea ésta, mayor ha sido el número de sujetos de clase DTA que ha detectado el clasificador. Teniendo en cuenta la relación que existe entre el número de pacientes que forman la base de datos y la sensibilidad de este clasificador, se presenta la mayor sensibilidad para el núcleo Polinómico en la base de datos de 82 pacientes seguida de la base de datos 91 pacientes con los núcleos Lineal y Polinómico. Nótese que dentro de cada base de datos, se obtienen valores repetidos para diferentes núcleos. En el caso de la base de datos formada por 91 pacientes, se obtiene el mismo valor de 92.00% para la sensibilidad con los núcleos Lineal y Polinómico. Con la base de datos de 82 pacientes se obtienen valores iguales de 90.24% para los núcleos Lineal y Cuadrático y en la base de 54 pacientes se obtiene un valor de la sensibilidad de 88.89% para los núcleos Lineal, rbf y Polinómico. En la Tabla 6.7 se observa que con las bases de datos de 91 y 82 pacientes, se obtiene la mayor sensibilidad para los núcleos Polinómico, (además, la base de datos de 91 pacientes repite dicho valor con el Lineal). Para la de 54 pacientes se obtiene ese mismo valor máximo para los núcleo Lineal, rbf, Polinómico. Las tres bases de datos la decrece con distinto orden de núcleos según los valores de sensibilidad que toman éstos. Tabla 6.7 Núcleos ordenados decrecientemente para cada base de pacientes según el valor de la sensibilidad que toman dichos núcleos, mediante el clasificador SVM.

Base: Núcleo:

Núcleo:

Núcleo:

Núcleo:

91-P Polinomico Sens.: 92.00 %

Lineal Sens.: 92.00 %

rbf Sens.: 90.00 %

Cuadrático Sens.: 91.00 %

82-P Polinómico Sens.: 92.68 %

Lineal Sens.: 90.24 %

Cuadrático Sens.: 90.24 %

rbf Sens.: 87.80 %

54-P Lineal Sens.: 88.89 %

rbf Sens.: 88.89 %

Polinómico Sens.: 88.89 %

Cuadrático Sens.: 85.19 %

Page 253: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

228 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Teniendo en cuenta la Tabla 6.8 se observa que a excepción de los núcleos Cuadrático y Polinómico, que ambos obtienen el máximo valor de la sensibilidad para la base de 82 pacientes, seguida de la de 91 y 54, el resto de núcleos sólo tienen en común que alcanzan el valor máximo en la base de 91 paciente a continuación siguen un orden distinto en el descenso de la sensibilidad. Tabla 6.8 Bases ordenadas decrecientemente para cada núcleo según el valor de la sensibilidad que toman con dichos núcleos, mediante el clasificador SVM.

Núcleo: Base:

Base:

Base:

Lineal 91-P Sens.: 92.00 %

82-P Sens.: 90.24 %

54-P Sens.: 88.89 %

Cuadrático 82-P Sens.: 90.24 %

91-P Sens.: 86.00 %

54-P Sens.: 85.19 %

rbf 91-P Sens.: 90.00 %

54-P Sens.: 88.89 %

82-P Sens.: 87.80 %

Polinómico 82-P Sens.: 92.68 %

91-P Sens.: 92.00 %

54-P Sens.: 88.89 %

Es lógico que se obtengan mejores resultados para las bases de datos con mayor número de pacientes puesto que en el caso de la base de 91 pacientes la constituyen un mayor número de individuos DTA que normales y la de 82 que, aunque la forma el mismo número de individuos NORMALES que DTA, entre estos últimos se encuentran individuos en estado más avanzado de la enfermedad. En cambio la de 54 pacientes se encuentra con un doble problema, cuenta con un reducido número de sujetos sumado a que los pacientes DTA se encuentran en la fase inicial de la enfermedad.

Especificidad. Se expone a continuación los resultados obtenidos del análisis de la

especificidad. Para una interpretación más eficiente de éstos se representan en distintos formatos. En la Tabla 6.9 se muestran los valores ordenados decrecientemente para los distintos núcleos y cada una de las bases de datos de pacientes empleadas. Esos mismos datos se vuelven a mostrar graficados en la Figura B.3 del Apéndice B. Los resultados aparecen de forma ordenada en las Tablas 6.10 y 6.11 por orden decreciente de especificidad para cada base y para los diferentes núcleos.

Recuérdese que la especificidad de un clasificador nos da cuenta de la capacidad de éste para detectar pacientes NORMALES. Si tenemos en cuenta los distintos núcleos empleados para el clasificador SVM, el que presenta de forma general mayor especificidad es el Lineal. La menor especificidad se da para la base de 54 pacientes excepto con el núcleo Lineal como se acaba de comentar. Cabe destacar que se obtienen los mismos resultados de especificidad para distintos núcleos en distintas bases de pacientes. El núcleo Cuadrático en la base de 82 pacientes y el Lineal en la base de 91 pacientes coinciden ambos con un valor de 97.56%. Los núcleos Cuadrático y rbf en la base de 91 pacientes y el rbf en la de 82 pacientes toman el mismo valor de 95.12%. El núcleo Polinómico en la base de 82 pacientes y el rbf en la de 54 ambos toman el valor de 92.68%.

Page 254: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 229 ______________________________________________________________________________

Tabla 6.9 Valores de especificidad expresados en orden decrecientemente para los distintos núcleos y bases empleadas, mediante el clasificador SVM.

Orden Base Núcleo Especificidad (%)1 82 Lineal 100.00 2 82 Cuadrático 97.56 3 91 Lineal 97.56 4 54 Lineal 96.30 5 91 Cuadrático 95.12 6 82 rbf 95.12 7 91 rbf 95.12 8 82 Polinómico 92.68 9 91 Polinómico 92.68

10 54 rbf 92.68 11 54 Cuadrático 88.89 12 54 Polinómico 85.19

De la Tabla 6.10 se observa que todas las bases obtienen el valor más elevado

para el núcleo Lineal, seguido de los núcleos Cuadrático, rbf y Polinómico, excepto la de 54 pacientes cuyo orden es Lineal, rbf, Cuadrático y Polinómico. Las tres bases coinciden en núcleo para alcanzar el valor máximo (Lineal) y mínimo (Polinómico).

Tabla 6.10 Núcleos ordenados decrecientemente para cada base, según el valor de la especificidad que toman dichos núcleos, mediante el clasificador SVM.

Base: Núcleo:

Núcleo:

Núcleo:

Núcleo:

91-P Lineal Espec.: 97.56 %

Cuadrático Espec.: 95.12 %

rbf Espec.: 95.12 %

Polinómico Espec.: 92.68 %

82-P Lineal Espec.: 100 %

Cuadrático Espec.: 97.56 %

rbf Espec.: 95.12 %

Polinómico Espec.: 92.68 %

54-P Lineal Espec.: 96.30 %

rbf Espec.: 92.68 %

Cuadrático Espec.: 88.89 %

Polinómico Espec.: 85.19 %

Teniendo en cuenta la Tabla 6.11 se observa que todos los núcleos se comportan

de forma análoga obtenido la máxima especificidad para la base de 82 pacientes, seguida de la de 91 y 54 respectivamente. Tabla 6.11 Bases ordenadas decrecientemente para cada núcleo, según el valor de la especificidad que toman con dichos núcleos, mediante el clasificador SVM.

Núcleo: Base:

Base:

Base:

Lineal 82-P Espec.: 100 %

91-P Espec.: 97.56 %

54-P Espec.: 96.30 %

Cuadrático 82-P Espec.: 97.56 %

91-P Espec.: 95.12 %

54-P Espec.: 88.89 %

rbf 82-P Espec.: 95.12 %

91-P Espec.: 95.12 %

54-P Espec.: 92.62 %

Polinómico 82-P Espec.: 92.68 %

91-P Espec.: 92.68 %

54-P Espec.: 85.19 %

Page 255: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

230 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Con este clasificador generalmente en todos los núcleos en las distintas bases obtiene valores altos de especificidad, lo cual muestra su capacidad de detectar pacientes sanos.

Discusión. Aunque se puede considerar que un mejor clasificador es aquel que tiene una

alta sensibilidad porque tienen mayor capacidad para detectar DTA, también se puede optar como criterio de mejor clasificador, el que tiene una mayor especificidad porque nos da cuenta de los pacientes NORMALES. A modo de conclusión, será mejor clasificador aquel que tenga mayores valores para la exactitud, sensibilidad y especificidad, y a su vez estos valores lo más cercanos posibles entre si. Por lo que se van a evaluar esta relación entre los valores de exactitud, sensibilidad y especificidad, para ver que resultados obtenidos, son más coherentes.

Para la base de 54 pacientes, se muestran gráficamente y de modo conjunto los

valores de la exactitud, especificidad y sensibilidad en la Figura B.4 del Apéndice B para poder relacionarlos con mayor facilidad entre si. En ella se puede apreciar que para el clasificador SVM con los núcleos Lineal, Cuadrático y rbf, la especificidad es mayor que la sensibilidad, esto da cuenta de que tienen mayor capacidad para detectar pacientes NORMALES que para detectar pacientes DTA. En cambio, sólo para el núcleo Polinómico, ocurre el caso inverso. El clasificador SVM con el núcleo rbf, es el mejor clasificador que el resto de los núcleos, puesto que es con quien se obtienen los valores de especificidad, sensibilidad y exactitud más cercanos entre sí.

En la Figura B.5 del Apéndice B se muestra graficados conjuntamente los

valores de la exactitud, especificidad y sensibilidad de la base de 82 pacientes. En ella se puede apreciar que el clasificador SVM con los núcleos Lineal, Cuadrático y rbf, tiene una especificidad mayor que la sensibilidad lo que da cuenta de que tienen mayor capacidad para detectar pacientes NORMALES que pacientes DTA. El clasificador SVM con el núcleo Polinómico, es más robusto que con el resto de los núcleos, puesto que presenta los valores de exactitud, sensibilidad y especificidad más cercanos entre si, además de presentar el valor de la exactitud más elevado.

En la Figura B.6 del Apéndice B se muestra para la base de 91 pacientes

graficados conjuntamente los valores de la exactitud, especificidad y sensibilidad. Se puede apreciar que se repite el patrón de resultados del caso anterior (base de 82 pacientes), o sea para los núcleos Lineal, Cuadrático y rbf la especificidad es mayor que la sensibilidad, por lo que el clasificador SVM con estos núcleos en esta base tiene mayor capacidad para detectar pacientes NORMALES que DTA.

A modo de conclusión se puede afirmar que el núcleo Lineal para la base de 91 pacientes, es el que tiene mayores valores de exactitud, sensibilidad y especificidad, aunque el que tiene dichos valores más cercanos entre si y considerablemente elevados es el núcleo Polinómico para la base de 82 pacientes. El clasificador SVM con el núcleo Polinómico, es más robusto que con el resto de núcleos ya que tiene los valores de especificidad, sensibilidad y exactitud más próximos entre sí además de ser considerablemente elevados.

Page 256: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 231 ______________________________________________________________________________

Fracción de Probabilidad. Los valores predictivos, son parámetros que muestran la validez de un resultado

de clasificación, pero como estos parámetros dependen de la prevalencia (preponderancia de las clases) y en el estudio realizado con distintas bases de pacientes, en cada una de ellas no siempre existe la misma proporcionalidad entre los distintos número de pacientes, se han empleado como parámetros que muestren la validez de los resultados de clasificación, las fracciones de probabilidad positiva (fpp) y negativa (fpn) (véase Sección 5.6.2). Los valores obtenidos para estos parámetros se muestran en la Tabla 6.12. Es conveniente tener un valor de la fracción de probabilidad positiva (fpp) lo más elevado posible y un fpn lo más pequeño posible, en los mejores casos se tendrá que fpn tiende a cero. Por lo tanto el cociente fpp/fpn nos da un buen criterio al comparar distintos experimentos entre sí, ya que aquel cuyo cociente fpp/fpn sea mayor nos da cuenta de que tiene unos resultados mejores que otro en el cual éste valor sea menor.

Los resultados obtenidos para fpp, se grafican en la Figura B.7 del Apéndice B. Observando dicha gráfica y estudiando la relación existente entre la base y el valor obtenido para la fracción de probabilidad positiva, se aprecia que para todos los núcleos se obtiene el menor valor para la base de 54 pacientes. Comparando entre si las bases de 82 y 91 pacientes, para los núcleos Lineal y Cuadrático se obtiene una fpp con la base de 82 pacientes considerablemente mayor que para la base de 91 pacientes. En cambio para los núcleos rbf y Polinómico es ligeramente superior en la de 91 pacientes. Puesto que el valor de fpp interesa que sea los mayor posible, los resultados considerablemente más elevados se dan para el núcleo Lineal y Cuadrático con la base de 82 pacientes y los más bajos para el núcleo Polinómico y Cuadrático en la base de 54 pacientes. Si para cada base se ordena de mayor a menor los núcleos según los valores de fpp obtenidos con cada núcleo, para la base de 91 y 54 pacientes se cumple la misma sucesión de estos: Lineal, rbf, Cuadrático y Polinómico, mientras que para la base de de 82 pacientes es Lineal, Cuadrático, rbf y Polinómico. También se observa que para cada base coinciden los núcleos que dan mayor valor de fpp, el Lineal y el que da menor valor de fpp el Polinómico. Tabla 6.12 Valores de fpp, fpn, fpp/fpn obtenidos mediante el clasificador SVM con diferentes núcleos en las distintas bases de pacientes.

SVM Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes fpp 24.02 fpp Inf fpp 37.71 fpn 0.12 fpn 0.10 fpn 0.08

Lineal

fpp/fpn 208.24 fpp/fpn Inf fpp/fpn 459.81 fpp 7.67 fpp 36.98 fpp 17.62 fpn 0.17 fpn 0.10 fpn 0.15

Cuadrático

fpp/fpn 46.02 fpp/fpn 369.68 fpp/fpn 119.74 fpp 11.99 fpp 17.99 fpp 18.44 fpn 0.12 fpn 0.13 fpn 0.11

rbf

fpp/fpn 99.98 fpp/fpn 140.28 fpp/fpn 175.43 fpp 6.00 fpp 12.66 fpp 12.57 fpn 0.13 fpn 0.08 fpn 0.09

Polinómico

fpp/fpn 46.02 fpp/fpn 160.31 fpp/fpn 145.60

Page 257: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

232 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Los valores de la fracción de probabilidad negativa al contrario de lo que ocurre

para los valores de la fracción de probabilidad positiva, conviene que sean lo más pequeños posibles. Para interpretarlos, se representan gráficamente en la Figura B.8 del Apéndice B. Realizando un análisis de los datos de dicha gráfica, se observa que los valores más bajos de fpn se obtienen en la base de 91 pacientes con los núcleos Lineal y Polinómico y para la base de 82 pacientes con el núcleo Polinómico. En cada base el orden creciente de los valores de fpn se da de la siguiente forma: para la base de 91 paciente será Lineal, Polinómico, rbf, Cuadrático, para la de 82 pacientes Polinómico, Cuadrático, Lineal, rbf y para la de 54 Lineal, rbf, Polinómico, Cuadrático. Esto nos muestra que en las distintas bases se sigue distinto orden de los núcleos si se relacionan estos con el número de pacientes que forman la base con los valores de fpn obtenidos. Cabe destacar que se impone la linealidad porque influye el número de características.

El cociente fpp/fpn nos da cuenta al comparar distintos resultados

experimentales entre ellos, serán mejores aquellos que tengan un valor más elevado. A continuación se van a interpretar los resultados obtenidos de fpp/fpn, para lo cual se han graficado en la Figura B.9 del Apéndice B, observándola y estudiando la relación existente se puede deducir que los valores más elevados se obtienen para el núcleo Lineal con la base de 82 y 91 pacientes. Para los núcleos Lineal, Cuadrático y Polinómico se obtiene mayor fpp/fpn, para las bases de 82 pacientes, seguida de la de 91 y finalmente la de 54. Sólo para el núcleo rbf, se obtiene un mayor cociente fpp/fpn con la base de 91 pacientes. Si ahora ordenamos para cada base los núcleos en orden decreciente en función del valor del cociente fpp/fpn que toman con cada núcleo, se cumple que para la base de 91 pacientes se ordena de la siguiente forma Lineal, rbf, Polinómico, Cuadrático, para la base de 82 pacientes Lineal, Cuadrático, Polinómico, rbf y por último para la base de 54 pacientes se da Lineal, rbf, Polinómico, Cuadrático, dándose para estos dos últimos núcleos el mismo valor. Las bases de 91 y 54 pacientes obtienen el mismo orden, en cambio para la base de 82 pacientes, excepto el Lineal que el es primero, en el resto no coincide.

6.6.2 Clasificador k-NN. Los fundamentos del método del vecino más cercano (k Nearest Neighbors, k-

NN), puede ser una buena aproximación para identificar pacientes con DTA utilizando las técnicas de aprendizaje propias del campo de la inteligencia artificial. A partir de estas técnicas se puede reconocer cuáles son los pacientes con DTA pertenecientes a la base de datos con que se ha trabajado. Entre sus principales características cabe destacar el bajo coste económico y computacional. En la Sección 5.2 se han descrito los fundamentos matemáticos del clasificador k-NN. A continuación se van a mostrar los resultados obtenidos para dicho clasificador tras su implementación mediante un algoritmo en Matlab. Los resultados experimentales para un clasificador k-NN, aplicado a las tres bases de pacientes que se han constituido se muestran en la Tabla 6.13 donde aparece los valores obtenidos de la exactitud (o precisión), sensibilidad y especificidad expresados en porcentaje (%), empleando dicho clasificador, para el cual se han realizado el estudio en función de los distintos valores que toma k.

Page 258: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 233 ______________________________________________________________________________

Tabla 6.13 Valores de exactitud, sensibilidad y especificidad obtenidos mediante el clasificador k-NN con distinto número de k-vecinos.

KNN Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes Exac. 81.48 Exac. 85.37 Exac. 85.71 Sens. 85.19 Sens. 85.37 Sens. 86.00

k=1

Espec. 77.78 Espec. 85.37 Espec. 85.37 Exac. 81.48 Exac. 85.37 Exac. 85.71 Sens. 85.19 Sens. 85.37 Sens. 86.00

k=2

Espec. 77.78 Espec. 85.37 Espec. 85.37 Exac. 85.19 Exac. 91.46 Exac. 91.21 Sens. 81.48 Sens. 90.24 Sens. 92.00

k=3

Espec. 88.89 Espec. 92.68 Espec. 90.24 Exac. 87.04 Exac. 90.24 Exac. 91.21 Sens. 85.19 Sens. 87.80 Sens. 90.00

k=4

Espec. 88.89 Espec. 92.68 Espec. 92.68 Exac. 88.89 Exac. 92.68 Exac. 93.41 Sens. 88.89 Sens. 92.68 Sens. 94.00

k=5

Espec. 88.89 Espec. 92.68 Espec. 92.68 Exac. 88.89 Exac. 91.46 Exac. 92.31 Sens. 88.89 Sens. 90.24 Sens. 92.00

k=6

Espec. 88.89 Espec. 92.68 Espec. 92.68 Exac. 85.19 Exac. 92.68 Exac. 92.31 Sens. 88.89 Sens. 90.24 Sens. 92.00

k=7

Espec. 81.48 Espec. 95.12 Espec. 92.68 Exac. 87.04 Exac. 92.68 Exac. 92.31 Sens. 88.89 Sens. 90.24 Sens. 92.00

k=8

Espec. 85.19 Espec. 95.12 Espec. 92.68 Exac. 88.89 Exac. 92.68 Exac. 93.41 Sens. 88.89 Sens. 87.80 Sens. 92.00

k=9

Espec. 88.89 Espec. 97.56 Espec. 95.12 Exac. 88.89 Exac. 91.46 Exac. 93.41 Sens. 88.89 Sens. 87.80 Sens. 92.00

k=10

Espec. 88.89 Espec. 95.12 Espec. 95.12 Exac. 88.89 Exac. 91.46 Exac. 93.41 Sens. 88.89 Sens. 87.80 Sens. 92.00

k=11

Espec. 88.89 Espec. 95.12 Espec. 95.12 Exac. 88.89 Exac. 91.46 Exac. 92.31 Sens. 88.89 Sens. 90.24 Sens. 92.00

k=12

Espec. 88.89 Espec. 92.68 Espec. 92.68 Exac. 88.89 Exac. 92.68 Exac. 93.41 Sens. 88.89 Sens. 90.24 Sens. 92.00

k=13

Espec. 88.89 Espec. 95.12 Espec. 95.12 Exac. 88.89 Exac. 90.24 Exac. 91.21 Sens. 85.19 Sens. 85.37 Sens. 88.00

k=14

Espec. 92.59 Espec. 95.12 Espec. 95.12

Page 259: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

234 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Exac. 85.19 Exac. 90.24 Exac. 91.21 Sens. 70.37 Sens. 85.37 Sens. 88.00

k=15

Espec. 100.00 Espec. 95.12 Espec. 95.12 Exac. 81.48 Exac. 90.24 Exac. 91.21 Sens. 70.37 Sens. 85.37 Sens. 88.00

k=16

Espec. 92.59 Espec. 95.12 Espec. 95.12 Exac. 81.48 Exac. 91.46 Exac. 91.21 Sens. 70.37 Sens. 85.37 Sens. 88.00

k=17

Espec. 92.59 Espec. 97.56 Espec. 95.12 Exac. 81.48 Exac. 90.24 Exac. 91.21 Sens. 70.37 Sens. 85.37 Sens. 88.00

k=18

Espec. 92.59 Espec. 95.12 Espec. 95.12 Exac. 81.48 Exac. 91.46 Exac. 92.31 Sens. 74.07 Sens. 85.37 Sens. 88.00

k=19

Espec. 88.89 Espec. 97.56 Espec. 97.56 Exac. 79.63 Exac. 90.24 Exac. 91.21 Sens. 70.37 Sens. 85.37 Sens. 88.00

k=20

Espec. 88.89 Espec. 95.12 Espec. 95.12 Exac. 81.48 Exac. 89.02 Exac. 90.11 Sens. 74.07 Sens. 80.49 Sens. 84.00

k=21

Espec. 88.89 Espec. 97.56 Espec. 97.56 Exac. 81.48 Exac. 89.02 Exac. 90.11 Sens. 74.07 Sens. 80.49 Sens. 84.00

k=22

Espec. 88.89 Espec. 97.56 Espec. 97.56 Exac. 79.63 Exac. 89.02 Exac. 90.11 Sens. 70.37 Sens. 80.49 Sens. 84.00

k=23

Espec. 88.89 Espec. 97.56 Espec. 97.56 Exac. 79.63 Exac. 89.02 Exac. 90.11 Sens. 70.37 Sens. 80.49 Sens. 84.00

k=24

Espec. 88.89 Espec. 97.56 Espec. 97.56 Exac. 79.63 Exac. 87.80 Exac. 90.11 Sens. 70.37 Sens. 78.05 Sens. 84.00

k=25

Espec. 88.89 Espec. 97.56 Espec. 97.56

Exactitud. Se va a realizar una interpretación de los resultados obtenidos de exactitud, para

lo ello se muestran graficados en la Figura B.10 del Apéndice B. A partir de dicha gráfica se pueden observar que con la base de 91 pacientes se obtienen los valores más elevados de exactitud (93.41%) para k=5, 9, 10, 11, 13. La base de 82 pacientes alcanza el valor máximo de exactitud (92.68%) en k=5, 7, 8, 9, 13. La base de 54 pacientes toma el valor máximo de exactitud (88.89%) con k=5, 6, 9, 10, 11, 12, 13, 14. Asintóticamente el comportamiento de las tres bases es similar, sobre todo para las bases de 82 pacientes y para la de 91; a partir de k=15 en la base de 54 pacientes se produce un descenso muy brusco de los valores conforme aumenta k, tal descenso no ocurre en las otras dos bases. Si se hace un estudio de los valores de la exactitud obtenidos para cada valor de k en función de las bases de pacientes, se observa que los

Page 260: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 235 ______________________________________________________________________________

valores más elevados se dan en la mayoría de los casos para la base de 91 pacientes, seguida de la de 82 y 54, o sea se obtiene una mayor exactitud al aumentar el número de pacientes que tiene la base, exceptuando para los casos en que k toma los valores 3, 7, 8, 17, donde se obtiene un valor ligeramente mayor para la base de 82 pacientes que para la de 91.

Es lógico que para las tres bases hemos obtenido buenos resultados a partir de un

valor de k relativamente alto ya que cuanto más grande es el valor de k más robusta es la clasificación ante el ruido, pero dicho valor tiene un límite, ya que si se hiciese máximo, a cualquier dato nuevo siempre se le dará la etiqueta de la clase que más datos haya en el conjunto de entrenamiento.

Sensibilidad. A continuación se va a realizar un estudio de los resultados obtenidos para la sensibilidad con el método k-NN con distintos valores de k, los cuales se muestran graficados en la Figura B.11 del Apéndice B. Si se observa en la citada gráfica el comportamiento de cada una de las bases en función de los valores de k, se aprecia que aunque el comportamiento asintótico de las tres bases es muy parecido, dicho parecido es mayor para las bases de 82 y 91 pacientes, a excepción de los valores de k=9, 10, 11 con la base de 82 pacientes, en los cuales el valor de la sensibilidad desciende un poco con respecto a los valores que toman los k inmediatamente anteriores y posteriores. A excepción de los valores de k=9, 10, 11, donde toma valores mayores la base de 54 pacientes que la de 82, de forma general se alcanza mayores valores para las bases que poseen mayor número de pacientes. Los mayores valores de la sensibilidad para las tres bases se alcanza en k=5, para la base de 91 pacientes este valor es de 94.00% y para la base de 82 pacientes de 92.68%, estos valores en estas bases son únicos y no se vuelven a repetir mientras que en la base de 54 pacientes ese valor de 88.89%, además de tomarlo para k=5, se repite hasta k=13.

Especificidad. Se va a realizar una interpretación de los resultados obtenidos mediante este

método para la especificidad, los cuales se muestran graficados en la Figura B.12 del Apéndice B. Teniendo en cuenta dicha Figura se observa que asintóticamente las bases de 82 y 91 pacientes se comportan de forma muy parecida, además coinciden en una gran cantidad de valores. En cambio la base 54 pacientes solo se comporta de forma análoga asíntóticamente a tramos. El valor de la especificidad en las bases de 82 y 91 pacientes coincide en k=4, 5, 6, 10, 11, 12, 13, 14, 15, 16, 18, 19, 20, 21, 22, 23, 25. El máximo valor para la base de 82 pacientes es de 97.56% y se alcanza en k=9, 17, y conjuntamente para las bases de 82 y 91 pacientes con valores de k=19, 21, 22, 23, 24, 25 se vuelve a obtener ese mismo valor. Los resultados más bajos se obtienen para la base de 54 pacientes a excepción de k=15, donde se alcanza el valor más elevado de todos (100%).

Discusión. A continuación se evalúan conjuntamente los valores de exactitud, sensibilidad y

especificidad para deducir con qué valores de k los resultados obtenidos para la exactitud son más coherentes. Teniéndose en cuenta la Figura B.13 del Apéndice B donde se han graficado conjuntamente los valores de la exactitud, sensibilidad y especificidad del clasificador

Page 261: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

236 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

k-NN para la base de 54 pacientes, se aprecia que para k=1, 2, 7, 8 la sensibilidad es mayor que la especificidad, lo que da cuenta de que para estos valores de k se tiene mayor capacidad para detectar los casos de pacientes con DTA que NORMALES. En cambio con k=3, 4, 14, 15, 16, 17,…,25 ocurre lo contrario, la especificidad es mayor que la sensibilidad, lo cual muestra que este clasificador en esos valores de k tiene mayor capacidad para detectar pacientes NORMALES que DTA. Los casos más coherentes se dan para los valores de k=5, 6, 9, 10, 11, 12, 13 donde se obtiene igual valor (88.89%) de la sensibilidad, especificidad y exactitud. Teniendo en cuenta la gráfica de la Figura B.14 donde se han graficado conjuntamente los valores de exactitud, sensibilidad y especificidad del clasificador k-NN para la base de 82 pacientes, se observa que el mejor resultado y más coherente ocurre en k=5, que es donde además de coincidir el valor de la exactitud, sensibilidad y especificidad (92.68%) es el más elevado, aunque en k=13 también se obtiene dicho valor para la exactitud, no coinciden los valores de sensibilidad y especificidad. También coinciden los valores de sensibilidad, especificidad y exactitud para k=1, 2 pero el valor es inferior al anterior siendo ahora de 85.37%. Para el resto de valores de k siempre la especificidad es mayor que la sensibilidad, lo que muestra su capacidad de detectar pacientes NORMALES frente a DTA. En la grafica de la Figura B.15 se han graficado conjuntamente exactitud, sensibilidad y especificidad para la base de 91 pacientes. Teniendo en cuenta dicha gráfica se deduce que el mejor resultado ocurre al igual que en el caso anterior en k=5 (93.41%) aunque la sensibilidad es mayor que la especificidad, es donde están más próximos entre sí los valores de sensibilidad, especificidad y exactitud. También se producen valores de sensibilidad, especificidad y exactitud próximos entre sí, pero menores que el caso anterior, aunque considerablemente buenos para k =6, 7, 8, 12 (92.31%) con especificidad mayor que sensibilidad, otro valor de la exactitud, sensibilidad y especificidad cercanos entre sí e inferiores al anterior aunque considerablemente bueno se produce en k=3 (91.21%) con sensibilidad mayor que especificidad y para k=1, 2 aunque con valores cercanos entre si, con sensibilidad mayor que especificidad y exactitud (85.71%), se distancian considerablemente de los mejores valores. Para el resto de valores de k, la especificidad es mayor que la sensibilidad lo cual muestra que tienen mayor capacidad para detectar pacientes NORMALES pero se distancian entre sí dichos valores.

Fracción de probabilidad. En la Tabla 6.14 se muestran los resultados para las fracciones de probabilidad

positiva, negativas y cociente de estas, con el método k-NN.

Tabla 6.14 Valores de fpp, fpn, fpp/fpn obtenidos mediante el clasificador k-NN con distinto número de k-vecinos.

K-NN Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes fpp 3.83 fpp 5.84 fpp 5.88 fpn 0.19 fpn 0.17 fpn 0.16

k=1

fpp/fpn 20.14 fpp/fpn 34.05 fpp/fpn 35.85 fpp 3.83 fpp 5.84 fpp 5.88 fpn 0.19 fpn 0.17 fpn 0.16

k=2

fpp/fpn 20.14 fpp/fpn 34.05 fpp/fpn 35.85

Page 262: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 237 ______________________________________________________________________________

fpp 7.33 fpp 12.33 fpp 9.43 fpn 0.21 fpn 0.11 fpn 0.09

k=3

fpp/fpn 35.20 fpp/fpn 117.06 fpp/fpn 106.33 fpp 7.67 fpp 11.99 fpp 12.30 fpn 0.17 fpn 0.13 fpn 0.11

k=4

fpp/fpn 46.02 fpp/fpn 91.12 fpp/fpn 113.95 fpp 8.00 fpp 12.66 fpp 12.85 fpn 0.13 fpn 0.08 fpn 0.06

k=5

fpp/fpn 64.01 fpp/fpn 160.31 fpp/fpn 198.36 fpp 8.00 fpp 12.33 fpp 12.57 fpn 0.13 fpn 0.11 fpn 0.09

k=6

fpp/fpn 64.01 fpp/fpn 117.06 fpp/fpn 145.60 fpp 4.80 fpp 18.50 fpp 12.57 fpn 0.14 fpn 0.10 fpn 0.09

k=7

fpp/fpn 35.20 fpp/fpn 180.22 fpp/fpn 145.60 fpp 6.00 fpp 18.50 fpp 12.57 fpn 0.14 fpn 0.10 fpn 0.09

k=8

fpp/fpn 46.02 fpp/fpn 180.22 fpp/fpn 145.60 fpp 8.00 fpp 35.98 fpp 18.85 fpn 0.13 fpn 0.13 fpn 0.08

k=9

fpp/fpn 64.01 fpp/fpn 287.75 fpp/fpn 224.16 fpp 8.00 fpp 17.99 fpp 18.85 fpn 0.13 fpn 0.13 fpn 0.08

k=10

fpp/fpn 64.01 fpp/fpn 140.28 fpp/fpn 224.16 fpp 8.00 fpp 17.99 fpp 18.85 fpn 0.13 fpn 0.13 fpn 0.08

k=11

fpp/fpn 64.01 fpp/fpn 140.28 fpp/fpn 224.16 fpp 8.00 fpp 12.33 fpp 12.57 fpn 0.13 fpn 0.11 fpn 0.09

k=12

fpp/fpn 64.01 fpp/fpn 117.06 fpp/fpn 145.60 fpp 8.00 fpp 18.49 fpp 18.85 fpn 0.13 fpn 0.10 fpn 0.08

k=13

fpp/fpn 64.01 fpp/fpn 180.22 fpp/fpn 224.16 fpp 11.50 fpp 17.49 fpp 18.03 fpn 0.16 fpn 0.15 fpn 0.13

k=14

fpp/fpn 71.88 fpp/fpn 113.74 fpp/fpn 142.94 fpp Inf fpp 17.49 fpp 18.03 fpn 0.30 fpn 0.15 fpn 0.13

k=15

fpp/fpn Inf fpp/fpn 113.74 fpp/fpn 142.94 fpp 9.50 fpp 17.49 fpp 18.03 fpn 0.32 fpn 0.15 fpn 0.13

k=16

fpp/fpn 29.68 fpp/fpn 113.74 fpp/fpn 142.94 fpp 9.50 fpp 34.99 fpp 18.03 fpn 0.32 fpn 0.15 fpn 0.13

k=17

fpp/fpn 29.68 fpp/fpn 233.32 fpp/fpn 142.94 fpp 9.50 fpp 17.49 fpp 18.03 k=18 fpn 0.32 fpn 0.15 fpn 0.13

Page 263: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

238 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

fpp/fpn 29.68 fpp/fpn 113.74 fpp/fpn 142.94 fpp 6.67 fpp 34.99 fpp 36.07 fpn 0.30 fpn 0.15 fpn 0.12

k=19

fpp/fpn 22.86 fpp/fpn 233.32 fpp/fpn 293.21 fpp 6.33 fpp 17.49 fpp 18.03 fpn 0.33 fpn 0.15 fpn 0.13

k=20

fpp/fpn 19.00 fpp/fpn 113.74 fpp/fpn 142.94 fpp 6.67 fpp 32.99 fpp 34.43 fpn 0.30 fpn 0.20 fpn 0.16

k=21

fpp/fpn 22.85 fpp/fpn 164.96 fpp/fpn 209.91 fpp 6.67 fpp 32.99 fpp 34.43 fpn 0.30 fpn 0.20 fpn 0.16

k=22

fpp/fpn 22.85 fpp/fpn 164.96 fpp/fpn 209.91 fpp 6.33 fpp 32.99 fpp 34.43 fpn 0.33 fpn 0.20 fpn 0.16

k=23

fpp/fpn 19.00 fpp/fpn 164.96 fpp/fpn 209.91 fpp 6.33 fpp 32.99 fpp 34.43 fpn 0.33 fpn 0.20 fpn 0.16

k=24

fpp/fpn 19.00 fpp/fpn 164.96 fpp/fpn 209.91 fpp 6.33 fpp 31.99 fpp 34.43 fpn 0.33 fpn 0.23 fpn 0.16

k=25

fpp/fpn 19.00 fpp/fpn 142.17 fpp/fpn 209.91

Para interpretar los resultados obtenidos de la fracción de probabilidad positiva se han graficado en la Figura B.16 del Apéndice B. Observando dicha gráfica se deduce que para la base de 91 pacientes en k=19 se alcanza el máximo de todas ellas con un valor fpp=36.07. Al ir aumentando el valor de k para las bases de 82 y 91 pacientes, aumenta el valor de fpp a excepción de algunos casos como cuando k=12, donde se produce un mínimo relativo para ambas bases y en k=19 un máximo relativo para dichas bases. Existe un notable parecido del comportamiento asintótico para las bases de 82 y 91 pacientes a excepción de los valores de k=9, 17. A partir de k=18 los valores de fpp para las bases de 82 y 91 pacientes o coinciden o son muy cercanos entre sí, aunque si se produce este último caso siempre son ligeramente superiores para la base de 91 pacientes. Para valores de k=3, 7, 8, 9, 17 se obtienen mayores valores de fpp para la base de 82 pacientes que para la de 91 paciente. Para cualquier valor de k en la base de 54 pacientes los valores de fpp son siempre inferiores que para el resto de las bases. Para la base de 54 pacientes entre los valores de k=3 y k=18 se produce una zona de plateau a excepción de k=7 donde se produce un mínimo relativo y en k=15 una discontinuidad de salto infinito, a partir de k=19 el valor de fpp disminuye volviendo a dar otra zona de plateau.

Al contrario que lo que ocurre para la fpp, en la fpn cuanto menor sea el valor

obtenido, más se podrá confiar en un resultado negativo (NORMAL) para un clasificador con fpn menor que para otro que tenga un fpn mayor. A partir de la gráfica de la Figura B.17 se observa que para las distintas bases a igual valor de k, la de 91 pacientes obtiene el valor menor de fpn, concretamente con esta base para el valor de k=5 se obtiene el menor valor de fpn(0.06). Si se estudia el comportamiento de las bases al ir incrementando el valor de k, se observa que asintóticamente se comportan de forma muy parecida sobre todo la de 82 y 91 pacientes, manteniendo prácticamente las mismas

Page 264: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 239 ______________________________________________________________________________

zonas de plateau, de crecimiento y de decrecimiento, máximos y mínimos relativos. Para cada base el valor más pequeño (o sea el mejor) se obtiene en k=5.

El cociente fpp/fpn nos muestra para un clasificador la relación de confianza que

se tiene en dar un resultado positivo o uno negativo. En la Figura B.18 del Apéndice B se han graficado los resultados de dicho cociente, teniendo esto en cuenta, los máximos valores se obtienen para la base de 91 pacientes con k=19 y en la base de 82 pacientes para k=9. La base de 54 pacientes obtiene el mejor valor con k=14. Los peores resultados se dan para las tres bases en k=1, 2.

6.6.3 Análisis Discriminante de Clases. En la Sección 5.3, se ha descrito el fundamento teórico del Análisis

Discriminante de Clases. El cual se ha implementado mediante un algoritmo en Matlab, aplicado a las tres bases de pacientes que se han formado, empleado los núcleos: Linear, Diaglinear, Quadratic, Diagquadratic, Mahalanobis. Los resultados experimentales obtenidos se muestran en la Tabla 6.15, donde aparece los valores de exactitud (o precisión), sensibilidad y especificidad obtenidas, expresados en porcentaje (%). Tabla 6.15 Valores de exactitud, sensibilidad, especificidad obtenidos mediante Análisis Discriminante de Clases con diferentes núcleos en distintas bases de pacientes.

Discriminante Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes Exac. 81.48 Exac. 82.93 Exac. 83.52 Sens. 66.67 Sens. 65.85 Sens. 70.00

Linear

Espec. 96.30 Espec. 100.00 Espec. 100.00 Exac. 81.48 Exac. 81.71 Exac. 82.42 Sens. 74.07 Sens. 65.85 Sens. 70.00

Diaglinear

Espec. 88.89 Espec. 97.56 Espec. 97.56 Exac. 79.63 Exac. 91.46 Exac. 91.21 Sens. 74.07 Sens. 85.37 Sens. 86.00

Quadratic

Espec. 85.19 Espec. 97.56 Espec. 97.56 Exac. 83.33 Exac. 87.80 Exac. 90.11 Sens. 77.78 Sens. 80.49 Sens. 86.00

Diagquadratic

Espec. 88.89 Espec. 95.12 Espec. 95.12 Exac. 74.07 Exac. 73.17 Exac. 76.92 Sens. 96.30 Sens. 100.00 Sens. 100.00

Mahalanobis

Espec. 51.85 Espec. 46.34 Espec. 48.78

Exactitud. A continuación se va a realizar una interpretación de los resultados obtenidos de

la exactitud, para lo cual estos se representan en distintos formatos. En la Tabla 6.16 se ordenan los valores decrecientemente para los distintos núcleos y bases de pacientes empleadas. Esos mismos datos se vuelven a mostrar graficados en la Figura B.19 del Apéndice B. En la Tabla 6.17 se han ordenado para cada base, los núcleos según los valores decrecientes de exactitud que van tomando y en la Tabla 6.18 para cada núcleo se han ordenado las bases de pacientes según los valores decrecientes de exactitud que toman.

Page 265: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

240 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Observando la Figura B.19 se puede apreciar que la mayor exactitud (91.46%) corresponde al núcleo Quadratic con la base de 82 pacientes. En cambio para esa misma base con el núcleo Mahalanobis se obtiene el valor más bajo de la exactitud (73.17%). Se aprecia que con los núcleos Quadratic y Diagquadratic, se obtienen los valores mayores, a excepción el núcleo Quadratic con la base de 54 pacientes. Los resultados más bajos se obtienen para el núcleo Mahalanobis en las tres bases. Se puede ver que el núcleo tiene importancia a la hora de obtener valores elevados de la exactitud. Tabla 6.16 Valores de exactitud obtenidos mediante Análisis Discriminante de Clases con diferentes núcleos en las distintas bases de pacientes.

Orden Base Núcleo Exactitud (%)1 82 Quadratic 91.46 2 91 Quadratic 91.21 3 91 Diagquadratic 90.11 4 82 Diagquadratic 87.80 5 91 Linear 83.52 6 54 Diagcuadratic 83.33 7 82 Linear 82.93 8 91 Diaglinear 82.42 9 82 Diaglinear 81.71

10 54 Linear 81.48 11 54 Diaglinear 81.48 12 54 Quadratic 79.63 13 91 Mahalanobis 76.92 14 54 Mahalanobis 74.07 15 82 Mahalanobis 73.17

Teniendo en cuenta la Tabla 6.17 se observa que las bases de 91 y 82 pacientes,

se comportan de forma análoga. Para cada una de ellas se obtienen los mayores resultados con el núcleo Quadratic, seguido de los núcleos Diagquadratic, Linear, Diaglinear y Mahaloanobis. En cambio la base de 54 pacientes no sigue esta analogía, sólo coinciden en que para el núcleo Mahalanobis las tres bases obtienen los peores resultados. Tabla 6.17 Núcleos ordenados decrecientemente para cada base de pacientes según el valor de la exactitud que toman dichos núcleos, mediante Análisis Discriminante de Clases. Base: Núcleo:

Núcleo:

Núcleo:

Núcleo:

Núcleo:

91-P Quadratic Exac.: 91.21 %

Diagquadratic Exac.: 90.11 %

Linear Exac.: 83.52 %

Diaglinear Exac.: 82.42 %

Mahalanobis Exac.: 76.92 %

82-P Quadratic Exac.: 91.46 %

Diagquadratic Exac.: 87.80 %

Linear Exac.: 82.93 %

Diaglinear Exac.: 81.71 %

Mahalanobis Exac.: 73.17 %

54-P Diagquadratic Exac.: 83.33 %

Linear Exac.: 81.48 %

Diaglinear Exac.: 81.48 %

Quadratic Exac.: 79.63 %

Mahalanobis Exac.: 74.07 %

Teniendo en cuenta la Tabla 6.18 se observa que para todos los núcleos excepto

el Quadratic se obtienen los mejores resultados para la base de 91 paciente y los peores

Page 266: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 241 ______________________________________________________________________________

para la bases de 54 pacientes, excepto para el núcleo Mahalanobis que esto último ocurre con la base de 82 pacientes.

Tabla 6.18 Bases ordenadas decrecientemente para cada núcleo según el valor de la exactitud que toman con dichos núcleos, mediante Análisis Discriminante de Clases.

Núcleo:

Base: Base: Base:

Linear 91-P Exac.: 83.52 %

82-P Exac.: 82.93 %

54-P Exac.: 81.48 %

Diaglinear 91-P Exac.: 82.48 %

82-P Exac.: 81.71 %

54-P Exac.: 81.48 %

Quadratic 82-P Exac.: 91.46 %

91-P Exac.: 91.21 %

54-P Exac.: 79.63 %

Diagquadratic 91-P Exac.: 90.11 %

82-P Exac.: 87.80 %

54-P Exac.: 83.33 %

Mahalanobis 91-P Exac.: 76.92 %

54-P Exac.: 74.07 %

82-P Exac.: 73.17 %

Sensibilidad. Se va a realizar un estudio de los valores obtenidos de la sensibilidad para un

clasificador basado en Análisis Discriminante de Clases. En la Tabla 6.19 se muestran los valores ordenados decrecientemente para los diferentes núcleos y bases de pacientes, en la Figura B.20 del Apéndice B se han graficado éstos, en la Tabla 6.20 se han ordenado para cada base los núcleos según los valores decrecientes de sensibilidad que van tomando y en la Tabla 6.21 para cada núcleo se han ordenado las bases de pacientes según los valores decrecientes de sensibilidad que toman.

Tabla 6.19 Valores de sensibilidad obtenidos mediante Análisis Discriminante de Clases con diferentes núcleos en las distintas bases de pacientes.

Orden Base Núcleo Sensibilidad (%)1 91 Mahalanobis 100.00 2 82 Mahalanobis 100.00 3 54 Mahalanobis 96.30 4 91 Quadratic 86.00 5 91 Diagquadratic 86.00 6 82 Quadratic 85.37 7 82 Diagquadratic 80.49 8 54 Diagquadratic 77.78 9 54 Diaglinear 74.07

10 54 Quadratic 74.07 11 91 Linear 70.00 12 91 Diaglinear 70.00 13 54 Linear 66.67 14 82 Linear 65.85 15 82 Diaglinear 65.85

Page 267: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

242 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Recuérdese que la sensibilidad nos muestra la capacidad que posee un clasificador para detectar los pacientes etiquetados como positivos. Teniendo en cuenta la Tabla 6.19 junto con la gráfica de la Figura B.20, se deduce que los mayores valores se obtienen con el núcleo Mahalanobis, independientemente del número de pacientes que forme la base, y los valores menores se obtienen con el núcleo Linear, también independientemente del número de pacientes que constituya la base. Se puede apreciar que para los núcleos Quadratic, Diagquadratic y Mahalanobis siempre se obtienen mayores resultados para la base de 91 pacientes seguida de la base de 82 pacientes y finalmente para la base de 54 pacientes. En cambio para los núcleos Linear y Diaglinear solo se puede apreciar con claridad que los resultados más pequeños se obtienen para la base de 82 pacientes.

Teniendo en cuenta la Tabla 6.20 se observa que las bases de 91 y 82 pacientes

siguen el mismo patrón de decrecimiento para los valores de la sensibilidad con los núcleos Mahalanobis, Quadratic, Diagquadratic, Linear y Diaglinear. En cambio para la base de 54 pacientes sólo coincide con las anteriores en que alcanza la máxima sensibilidad para el núcleo Mahalanobis, para el resto no sigue dicho esquema.

Tabla 6.20 Núcleos ordenados decrecientemente para cada base de pacientes según el valor de la sensibilidad que toman dichos núcleos, mediante Análisis Discriminante de Clases.

Base: Núcleo: Núcleo: Núcleo: Núcleo: Núcleo:

91-P Mahalanobis Sens.: 100%

Quadratic Sens.: 86.00%

Diagquadratic Sens.: 86.00%

Linear Sens.: 70.00%

Diaglinear Sens.: 70.00%

82-P Mahalanobis Sens.: 100%

Quadratic Sens.: 85.37%

Diagquadratic Sens.: 80.49%

Linear Sens.: 65.85%

Diaglinear Sens.: 65.87%

54-P Mahalanobis Sens.: 96.30%

Diagquadratic Sens.: 77.78%

Diaglinear Sens.: 74.07%

Quadratic Sens.: 74.07%

Linear Sens.: 66.67%

Teniendo en cuenta la Tabla 6.21 se observa que excepto para la Diaglinear y

Linear el resto de núcleos mantienen el mismo esquema de decrecimiento para el valor de la sensibilidad, consiguiendo la máxima sensibilidad para la Base de 91 pacientes seguidas de las de 82 y 54 respectivamente. En cambio para el Linear y Diaglinear no sigue este esquema, el Linear sólo coincide con los anteriores núcleos en que se alcanza el máximo con la base de 91 pacientes.

Tabla 6.21 Bases ordenadas decrecientemente para cada núcleo según el valor de la sensibilidad que toman con dichos núcleos, mediante Análisis Discriminante de Clases.

Núcleo: Base: Base: Base:

Linear 91-P Sens.:70.00%

54-P Sens.:66.67%

82-P Sens.:65.85%

Diaglinear 54-P Sens.:74.07%

91-P Sens.:70.00%

82-P Sens.:65.85%

Quadratic 91-P Sens.:86.00%

82-P Sens.:85.37%

54-P Sens.:74.07%

Diagquadratic 91-P Sens.:86.00%

82-P Sens.:80.49%

54-P Sens.:77.78%

Mahalanobis 91-P Sens.:100%

82-P Sens.:100%

54-P Sens.:96.30%

Page 268: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 243 ______________________________________________________________________________

Especificidad. Se va a realizar un estudio de los resultados de la especificidad para el método

de Análisis Discriminante de Clases para lo cual se ha tenido en cuenta al Tabla 6.22 donde se han ordenado decrecientemente los valores obtenidos de ésta asociados a su núcleo y base y en la Figura B.21 del Apéndice B, se han graficado estos. En la Tabla 6.23 se han ordenado para cada base, los núcleos según los valores decrecientes de especificidad que van tomando. En la Tabla 6.24 para cada núcleo se han ordenado las bases de pacientes según los valores decrecientes de especificidad que toman.

Tabla 6.22 Valores de especificidad obtenidos mediante Análisis Discriminante de Clases con diferentes núcleos en distintas bases de pacientes.

Orden Base Núcleo Especificidad (%)

1 91 Linear 100.00 2 82 Linear 100.00 3 91 Diaglinear 97.56 4 82 Diaglinear 97.56 5 91 Quadratic 97.56 6 82 Quadratic 97.56 7 54 Linear 96.30 8 91 Diagquadratic 95.12 9 82 Diagquadratic 95.12

10 54 Diaglinear 88.89 11 54 Diagquadratic 88.89 12 54 Quadratic 85.19 13 54 Mahalanobis 51.85 14 91 Mahalanobis 48.78 15 82 Mahalanobis 46.34

La especificidad es el parámetro que nos da cuanta de la capacidad para detectar

negativos verdaderos del clasificador empleado. Teniendo en cuenta la Tabla 6.22 junto con la Figura B.21 donde se grafican los resultados obtenidos, se puede observar que los valores más elevados se obtienen con los núcleos: Linear, Diaglinear, Quadratic y Diagquadratic; y los más bajos corresponden al núcleo Mahalanobis.

Teniendo en cuenta la Tabla 6.23 se observa que todas las bases alcanzan su máxima especificidad con el núcleo Linear y el mínimo con Mahalanobis. Además las bases de 91 y 82 pacientes siguen el mismo orden decreciente de los valores de la especificidad para los distintos núcleos, excepto la base de 54 que se diferencia de las anteriores en que intercambia el orden de los núcleos Quadratic y Diagquadratic.

Page 269: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

244 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Tabla 6.23 Núcleos ordenados decrecientemente para cada base, según el valor de la especificidad que toman dichos núcleos, mediante Análisis Discriminante de Clases.

Base: Núcleo:

Núcleo: Núcleo: Núcleo: Núcleo:

91-P Linear Espec.:100%

Diaglinear Espec.:97.56%

Quadratic Espec.:97.56%

Diagquadratic Espec.:95.12%

Mahalanobis Espec.:48.78%

82-P Linear Espec.:100%

Diaglinear Espec.:97.56%

Quadratic Espec.:97.56%

Diagquadratic Espec.:95.12%

Mahalanobis Espec.:46.34%

54-P Linear Espec.:96.30%

Diaglinear Espec.:88.89%

Diagquadratic Espec.:88.89%

Quadratic Espec.:85.19%

Mahalanobis Espec.:51.85%

Teniendo en cuenta la Tabla 6.24 se observa que solo el núcleo Mahalonobis no

sigue el mismo orden de decrecimiento que el resto de núcleos, los cuales alcanzan su valor máximo de especificidad con la base de 91 pacientes, seguida de la de 82 y finalmente la de 54. Tabla 6.24 Bases ordenadas decrecientemente para cada núcleo, según el valor de la especificidad que toman con dichos núcleos, mediante Análisis Discriminante de Clases.

Núcleo: Base: Base: Base:

Linear 91-P Espec.:100%

82-P Espec.:100%

54-P Espec.:100%

Diaglinear 91-P Espec.:97.56%

82-P Espec.:97.56%

54-P Espec.:88.89%

Quadratic 91-P Espec.:97.56%

82-P Espec.:97.56%

54-P Espec.:85.19%

Diagquadratic 91-P Espec.:95.12%

82-P Espec.:95.12%

54-P Espec.:88.89%

Mahalanobis 54-P Espec.:51.85%

91-P Espec.:48.78%

82-P Espec.:46.34%

Discusión. En las Figuras B.22, B.23 y B.24 del Apéndice B se han graficado

conjuntamente los valores de exactitud, sensibilidad y especificidad para el Análisis Discriminante de Clases de las respectivas bases de 54, 82 y 91 pacientes. Cabe destacar que las tres bases se comportan de forma muy análoga, observándose que para Linear, Diaglinear, Quadratic y Diagquadratic, la especificidad es mayor que la sensibilidad, lo cual implica mayor capacidad para detectar pacientes NORMALES frente a DTA. Sólo para Mahalanobis se produce el caso inverso, mayor capacidad para detectar pacientes con DTA frente a NORMALES. A modo de conclusión, teniendo en cuenta simultáneamente la proximidad entre los valores de la exactitud, sensibilidad y especificidad para cada uno de los núcleos y las distintas bases, la situación más favorable para distinguir entre pacientes enfermos y sanos se produce para Quadratic, Diagquadratic y Diaglinear, en este orden para las bases de 82 y 91 pacientes. Para la de 54 pacientes es Diagquadratic, Diaglinear y Quadratic. El problema de este clasificador para sus distintos núcleos es que se obtienen valores muy alejados entre sí de la sensibilidad y especificidad.

Page 270: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 245 ______________________________________________________________________________

Fracción de Probabilidad. En la Tabla 6.25 se representan los valores obtenidos de fpp, fpn y fpp/fpn, para

la clasificación mediante Análisis Discriminante de Clases con los distintos núcleos empleados para las diferentes bases de pacientes en que se han probado. Tabla 6.25 Valores de fpp, fpn, fpp/fpn obtenidos mediante Análisis Discriminante de Clases con diferentes núcleos en distintas bases de pacientes.

Discriminante Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes fpp 18.02 fpp Inf fpp Inf fpn 0.35 fpn 0.34 fpn 0.30

Linear

fpp/fpn 52.06 fpp/fpn Inf fpp/fpn Inf fpp 6.67 fpp 26.99 fpp 28.69 fpn 0.29 fpn 0.35 fpn 0.31

Diaglinear

fpp/fpn 22.85 fpp/fpn 77.10 fpp/fpn 93.30 fpp 5.00 fpp 34.99 fpp 35.25 fpn 0.30 fpn 0.15 fpn 0.14

Quadratic

fpp/fpn 16.43 fpp/fpn 233.32 fpp/fpn 245.61 fpp 7.00 fpp 16.49 fpp 17.62 fpn 0.25 fpn 0.21 fpn 0.15

Diagquadratic

fpp/fpn 28.01 fpp/fpn 80.41 fpp/fpn 119.74 fpp 2.00 fpp 1.87 fpp 1.95 fpn 0.07 fpn 0.00 fpn 0.00

Mahalanobis

fpp/fpn 28.03 fpp/fpn Inf fpp/fpn Inf

En la Figura B.25 se han graficado los valores correspondientes a fpp para poder

observar las distintas relaciones que puedan existir entre los valores obtenidos, los núcleos empleados y las bases de pacientes utilizadas. Se puede observar que para los núcleos Diaglinear, Quadratic y Diagquadratic con las bases de 91 y 82 pacientes se obtienen los valores más elevados, incluso ligeramente mayor para la de 91 que para la de 82 pacientes, pero estos valores se diferencian considerablemente para la base de 54 pacientes. Para las bases de 82 y 91 pacientes con el núcleo Linear, fpp se hace infinito debido a que la especificidad es del 100% ya que nos ha clasificado a todos los pacientes NORMALES. Tanto para la base de 91 pacientes como para la de 82, se alcanza el valor máximo de fpp con el núcleo Linear, seguido de los núcleos Quadratic, Diaglinear, Diagquadratic y Mahalanobis, en cambio para la de 54 pacientes aunque también alcanza el máximo para el núcleo Linear, los siguientes valores en orden decreciente los alcanza con los núcleos Diagquadratic, Diaglinear, Quadratic y Mahalanobis. Las tres bases coinciden en el mismo núcleo para alcanzar el valor máximo y mínimo.

Recuérdese que los mejores resultados serán para aquellos casos en que se

obtengan valores más pequeños de fpn, en la gráfica que se muestra en la Figura B.26 donde se han graficado los resultados obtenidos se puede apreciar que se obtienen mayores valores para el caso de los núcleos Linear y Diaglinear generalmente en las tres bases de pacientes. En cambio para los núcleos Quadratic, Diagquadratic y Mahalanobis con las bases de 82 y 91 pacientes, respectivamente se obtienen valores considerablemente menores. La base de 91 y 82 pacientes siguen el mismo orden

Page 271: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

246 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

creciente de los valores de fpn, con los mismos núcleos: Mahalanobis, Quadratic, Diagquadratic, Linear, Diaglinear. En cambio para la base de 54 pacientes aunque alcanza el mínimo con el núcleo Mahalanobis, el orden de crecimiento es diferente al de las otras dos bases, ya que es Mahalanobis, Diagquadratic, Diaglinear, Quadratic, Linear.

En la Figura B.27 se han graficado los valores del cociente fpp/fpn para el

clasificador basado en el Análisis Discriminante de Clases. Considerando dicha gráfica, se observa que los mayores valores se obtienen para el núcleo Quadratic en las bases de 91 y 82 pacientes. Para la base de 54 pacientes se obtienen los resultados más pequeños. Con los núcleos Diaglinear, Quadratic y Diagquadratic los mayores valores se obtienen para la base de 91 pacientes seguida de la de 82 y con una diferencia de valores considerablemente menores la base de 54 pacientes. Existe un caso especial para el núcleo Mahalanobis con las bases de 91 y 82 pacientes, es que como para estos casos la sensibilidad es del 100% (detecta todos los DTA) esto hace que fpn valga cero por lo que el cociente fpp/fpn toma el valor infinito.

6.6.4 Árboles de Decisión. Mediante un algoritmo implementado en Matlab, basado en la descripción del

fundamento teórico de Árboles de Decisión de la Sección 5.4, se han obtenido los resultados que se muestran en el presente apartado.

En la Tabla 6.26 se muestran los resultados de exactitud, sensibilidad y

especificidad en porcentaje (%) obtenidos por el método de Árboles de Decisión y en la Tabla 6.27 se representan los resultados de fpp, fpn, fpp/fpn.

Observando los resultados de la Tabla 6.26 se deduce que la exactitud mejora

conforme aumenta el número de pacientes que constituyen la base. Presentando un comportamiento análogo para la sensibilidad y la especificidad aunque en la primera apenas existe diferencia entre la base de 54 pacientes y la de 82, mientras que para la especificidad se obtiene el mismo valor para la de 82 y 91 pacientes. Lo que da demuestra que cuanto mayor sea la base de pacientes, mayor capacidad se tiene para detectar DTA (mayor sensibilidad) y NORMALES (mayor especificidad). El mejor resultado obtenido es para la base de 91 pacientes ya que además de presentar exactitud (89.01%) mayor que para las otras dos bases de pacientes, la sensibilidad y especificidad también son las más elevadas con valores próximos entre sí. Por lo que se puede concluir que en el resultado influye el número de pacientes que forma la base. El que se obtengan los mejores resultados con la base de 91 pacientes está justificado por la teoría de Vapnik-Chervonekes que advierte de la capacidad de generalización con pocas muestras de las SVMs frente a los métodos de clasificación como árboles de decisión o redes neuronales.

Page 272: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 247 ______________________________________________________________________________

Tabla 6.26 Valores de exactitud, sensibilidad, especificidad obtenidos mediante Árboles de Decisión.

Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes Exac. 85.19 Exac. 86.59 Exac. 89.01 Sens. 85.19 Sens. 85.37 Sens. 90.00 Espec. 85.19 Espec. 87.80 Espec. 87.80

En la Tabla 6.27 se observa que fpp crece al ir aumentando el número de

pacientes que forman la base, por el contrario fpn disminuye al aumentar el número de pacientes, obteniéndose el mismo valor para la base de 54 y 82 pacientes. Como consecuencia el cociente fpp/fpn crece considerablemente con el número de pacientes que forman la base, mostrando que los mejores resultados se obtienen para la base de 91 pacientes.

Tabla 6.27 Valores de fpp, fpn, fpp/fpn obtenidos mediante Árboles de Decisión.

Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes fpp 5.75 fpp 7.00 fpp 7.38 fpn 0.17 fpn 0.17 fpn 0.11 fpp/fpn 33.09 fpp/fpn 41.99 fpp/fpn 64.77

6.6.5 Redes Neuronales.

6.6.5.1 Perceptrón. Mediante un algoritmo implementado en Matlab basado en la descripción del

fundamento teórico del Perceptrón descrito en la Sección 5.5.3 se han obtenido los resultados de exactitud, sensibilidad y especificidad que se muestran en la Tabla 6.28. A partir de dichos datos se observa que se obtienen resultados tanto de exactitud, sensibilidad como de especificidad más elevada al ir aumentando el número de pacientes que forman la base, destacando que para la especificidad se obtiene con la base de 82 y 91 pacientes el mismo valor. Si para cada base se evalúa conjuntamente los valores de la exactitud, sensibilidad y especificidad, se observa que los resultados más elevados y cercanos entre si, se obtienen para la base de 91 pacientes, por lo que los resultados de éste son los más coherentes lo cual está plenamente justificado por la teoría de Vapnik-Chervonekes.

Tabla 6.28 Valores de exactitud, sensibilidad, especificidad obtenidos mediante Perceptrón.

Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes Exac. 83.33 Exac. 89.02 Exac. 90.11 Sens. 74.07 Sens. 82.93 Sens. 86.00 Espec. 92.59 Espec. 95.12 Espec. 95.12

En la Tabla 6.29 se muestran los valores de fpp, fpn y fpp/fpn obtenidos para cada base. Teniendo en cuenta estos parámetros se puede apreciar que los resultados mejoran al ir aumentando el número de pacientes que forman la base ya que aumenta

Page 273: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

248 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

fpp, disminuye fpn y en consecuencia aumenta considerablemente el cociente entre ambos.

Tabla 6.29 Valores de fpp, fpn, fpp/fpn obtenidos mediante Perceptrón.

Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes fpp 10.00 fpp 17.00 fpp 17.62 fpn 0.28 fpn 0.18 fpn 0.15 fpp/fpn 35.69 fpp/fpn 94.70 fpp/fpn 119.74

6.6.5.2 Red de Feedforward.

En la Sección 5.5.4 se han descrito los fundamentos matemáticos de la Red de Feedforward, a continuación se van a mostrar los resultados obtenidos para un clasificador basado en este procedimiento tras su implementación mediante algoritmos en Matlab. Los resultados experimentales aplicando dicho método a las tres bases de pacientes que se han constituido se muestran en la Tabla 6.30, donde aparecen los valores de la exactitud (o precisión), sensibilidad y especificidad obtenidos, expresados en porcentaje (%). Los resultados se van a referenciar al número de neuronas que constituyen la capa oculta como h.

Exactitud. Se va a realizar la interpretación de los resultados obtenidos de exactitud, para

ello los datos se muestran graficados en la Figura B.28 del Apéndice B. Observando la gráfica de dicha Figura se observa que al aumentar el número de neuronas de la capa oculta (h), las bases de pacientes se comportan de forma distinta en cuanto a los resultados obtenidos. Para la base de 91 paciente se alcanza el valor máximo en h=4 (94.51%) y el valor mínimo en h=10 (86.81%), en cambio para la de 82 pacientes el máximo se alcanza en h=10 (91.46%) y el mínimo en h=2, 5 (87.80%) mientras que para la de 54 el máximo se encuentra en h=3 (90.74%) y el mínimo en h=9 (81.48%). Si se estudia para cada valor de h, el valor de la exactitud en función de las bases de pacientes se obtiene que para h=1, 2, 4, 5, 6, 7, 8 la exactitud aumenta al aumentar el número de pacientes que forma cada una de las bases. Cabe destacar que para los valores h=1, 2, 3, en las tres bases se observan que tienen la misma tendencia de máximos y mínimos.

Page 274: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 249 ______________________________________________________________________________

Tabla 6.30 Valores de exactitud, sensibilidad, especificidad obtenidos mediante Red de Feedforward con distinto número de neuronas en la capa oculta.

feedforwad Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes Exac. 87.04 Exac. 91.46 Exac. 93.41 Sens. 85.19 Sens. 92.68 Sens. 94.00

h=1

Espec. 88.89 Espec. 90.24 Espec. 92.68 Exac. 83.33 Exac. 87.80 Exac. 90.11 Sens. 81.48 Sens. 87.80 Sens. 90.00

h=2

Espec. 85.19 Espec. 87.80 Espec. 90.24 Exac. 90.74 Exac. 90.24 Exac. 93.41 Sens. 88.89 Sens. 85.37 Sens. 94.00

h=3

Espec. 92.59 Espec. 95.12 Espec. 92.68 Exac. 85.19 Exac. 89.02 Exac. 94.51 Sens. 81.48 Sens. 85.37 Sens. 92.00

h=4

Espec. 88.89 Espec. 92.68 Espec. 97.56 Exac. 87.04 Exac. 87.80 Exac. 91.21 Sens. 85.19 Sens. 87.80 Sens. 92.00

h=5

Espec. 88.89 Espec. 87.80 Espec. 90.24 Exac. 87.04 Exac. 89.02 Exac. 90.11 Sens. 81.48 Sens. 80.49 Sens. 90.00

h=6

Espec. 92.59 Espec. 97.56 Espec. 90.24 Exac. 87.04 Exac. 90.24 Exac. 93.41 Sens. 81.48 Sens. 87.80 Sens. 90.00

h=7

Espec. 92.59 Espec. 92.68 Espec. 97.56 Exac. 83.33 Exac. 90.24 Exac. 92.31 Sens. 81.48 Sens. 90.24 Sens. 92.00

h=8

Espec. 85.19 Espec. 90.24 Espec. 92.68 Exac. 81.48 Exac. 90.24 Exac. 90.11 Sens. 77.78 Sens. 82.93 Sens. 90.00

h=9

Espec. 85.19 Espec. 97.56 Espec. 90.24 Exac. 83.33 Exac. 91.46 Exac. 86.81 Sens. 81.48 Sens. 85.37 Sens. 84.00

h=10

Espec. 85.19 Espec. 97.56 Espec. 90.24

Sensibilidad. A continuación se va a realizar un estudio de los resultados obtenidos de la sensibilidad con el método de la Red de Feedforward para los distintos valores de h, los cuales se muestran graficados en la Figura B.29 del Apéndice B. Dicha gráfica muestra que los valores de la sensibilidad siempre son superiores para la base de 91 pacientes con las distintas neuronas que forman la capa oculta excepto para h=10, donde la base de 82 pacientes supera a la de 91. Los valores de sensibilidad que toman la base 82 pacientes son superiores a los que toma la base 54, excepto para h=3, 6 que ocurre el caso inverso. Cabe destacar que con la sensibilidad, igual que con la exactitud, al ir aumentando el número de neuronas que forman la capa oculta, cada base se comporta de forma diferente. La base de 91 pacientes, alcanza los valores máximos en h=1, 3

Page 275: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

250 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

(94.00%) y el mínimo para h=10 (84.00%). Mientras que la base de 82 pacientes toma el valor máximo para h=1 (92.68%) y el mínimo en h=6 (80.49%). La base de 54 pacientes tiene el máximo valor de la sensibilidad para h=3 (88.89%) y el mínimo en h=9 (77.78%).

Especificidad. Se va a realizar un estudio de los resultados de especificidad obtenidos mediante

este método, para ello se muestran graficados en la Figura B.30 del Apéndice B. De los cuales cabe destacar la irregularidad que siguen las diferentes bases al ir aumentando el número de neuronas de la capa oculta. La base de 91 pacientes alcanza el valor máximo de especificidad para h=4, 7 (97.56%) y el mínimo en h=2, 5, 6, 9, 10 (90.24%). En la base de 82 pacientes se alcanza el valor máximo en h=3 (95.12%) y el mínimo en h=2, 5 (87.80%). En la base de 54 pacientes el máximo se da en h=3, 6, 7 (92.59%) y el mínimo en h=2, 8, 9, 10 (85.19%).

Discusión. En este apartado se evalúan conjuntamente los valores de exactitud, sensibilidad

y especificidad para deducir con que valores de h se obtienen los resultados de exactitud más coherentes.

Observando la Figura B.31 del Apéndice B donde se han graficado

conjuntamente los valores de la exactitud, sensibilidad y especificidad para la base de 54 pacientes, cabe destacar en todos los casos que la especificidad es mayor que la sensibilidad lo que muestra mayor capacidad para detectar pacientes NORMALES frente a pacientes DTA. El mejor valor lo podemos considerar para h=3 donde los valores de exactitud, sensibilidad y especificidad están más cercanos entre si y además de tener la mayor exactitud.

Observando la Figura B.32 del Apéndice B donde se han graficado

conjuntamente los valores de la exactitud, sensibilidad y especificidad para la base de 82 pacientes, cabe destacar que los valores más coherentes se obtienen para h=2, 5, 8 con igual especificidad, sensibilidad y exactitud, de los cuales el mejor de todos ellos se da para h=8. Para el resto de valores de h a excepción de h=1 donde la sensibilidad es mayor que la especificidad lo que da cuenta de que tiene mayor capacidad para detectar pacientes con DTA que NORMALES, la especificidad es mayor que sensibilidad lo que refleja que tiene mayor capacidad de detectar pacientes NORMALES, o sea, sanos frente a pacientes con DTA.

Observando Figura B.33 del Apéndice B donde se han graficado conjuntamente

los valores de la exactitud, sensibilidad y especificidad para la base de 91 pacientes, los valores de exactitud más coherentes se producen en h=2, 6, 8, 9 donde los valores de especificidad y sensibilidad son cercanos a dicho valor y dentro de éstos cabe destacar el valor de h=8 con un valor de exactitud 92.31%. Para h=1, 3, 5 la sensibilidad es mayor que la especificidad lo que muestra una mayor capacidad para detectar pacientes DTA frente a pacientes NORMALES, en el resto de casos se produce la situación inversa.

Page 276: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 251 ______________________________________________________________________________

Fracción de Probabilidad. En la Tabla 6.31 se muestran los resultados de las fracciones de probabilidad

positiva, negativa y cociente de estas, obtenidas mediante la Red de Feedforward.

Tabla 6.31 Valores de fpp, fpn, fpp/fpn obtenidos mediante Red de Feedforward con distinto número de neuronas en la capa oculta.

feedforwad Base 54 Pacientes Base 82 Pacientes Base 91 Pacientes fpp 7.67 fpp 9.50 fpp 12.84 fpn 0.17 fpn 0.08 fpn 0.06

h=1

fpp/fpn 46.02 fpp/fpn 117.06 fpp/fpn 198.36 fpp 5.50 fpp 7.20 fpp 9.22 fpn 0.22 fpn 0.14 fpn 0.11

h=2

fpp/fpn 25.31 fpp/fpn 51.79 fpp/fpn 83.21 fpp 12.00 fpp 17.49 fpp 12.84 fpn 0.12 fpn 0.15 fpn 0.06

h=3

fpp/fpn 99.97 fpp/fpn 113.74 fpp/fpn 198.36 fpp 7.33 fpp 11.66 fpp 37.71 fpn 0.21 fpn 0.16 fpn 0.08

h=4

fpp/fpn 35.20 fpp/fpn 73.88 fpp/fpn 459.81 fpp 7.67 fpp 7.20 fpp 9.43 fpn 0.17 fpn 0.14 fpn 0.09

h=5

fpp/fpn 46.02 fpp/fpn 51.79 fpp/fpn 106.33 fpp 11.00 fpp 32.99 fpp 9.22 fpn 0.20 fpn 0.20 fpn 0.11

h=6

fpp/fpn 54.97 fpp/fpn 164.96 fpp/fpn 83.21 fpp 11.00 fpp 11.99 fpp 36.89 fpn 0.20 fpn 0.13 fpn 0.10

h=7

fpp/fpn 54.97 fpp/fpn 91.12 fpp/fpn 359.85 fpp 5.50 fpp 9.25 fpp 12.57 fpn 0.22 fpn 0.11 fpn 0.09

h=8

fpp/fpn 25.31 fpp/fpn 85.49 fpp/fpn 145.60 fpp 5.25 fpp 33.99 fpp 9.22 fpn 0.27 fpn 0.18 fpn 0.11

h=9

fpp/fpn 20.14 fpp/fpn 194.25 fpp/fpn 83.21 fpp 5.50 fpp 34.99 fpp 8.60 fpn 0.22 fpn 0.15 fpn 0.18

h=10

fpp/fpn 25.31 fpp/fpn 233.32 fpp/fpn 48.54

Para interpretar los resultados de la fracción de probabilidad positiva se han

graficado en la Figura B.34 del Apéndice B. Se observa para las diferentes bases, que al ir incrementando el número de neuronas que forman la capa oculta, éstas se comportan de forma diferente. Dicha gráfica nos muestra que en la base de 91 pacientes el máximo se alcanza en h=4 (fpp=37.71) y el mínimo en h=10 (fpp=8.60). Otros valores considerables son para h=2, 6, 9 (fpp=9.22) y h=5 (fpp=9.43) por estar muy cercanos al mínimo. Para la base de 82 pacientes el máximo se da en h=10 (fpp=34.99) y el

Page 277: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

252 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

mínimo en h=2, 5 (fpp=7.20). En la de 54 pacientes el máximo se alcanza en h=3 (fpp=12) y el mínimo en h=9 (fpp=5.25). Otros valores a considerar por su proximidad al mínimo son h=2, 8, 10 (fpp=5.50).

Recuérdese que el valor de fpn debe ser lo más pequeño posible. En la Figura

B.35 se observa que para la base de 91 pacientes, el mínimo se alcanza en h=1, 3 (fpn=0.06) y el máximo en h=10 (fpn=0.18). En la base de 82 pacientes, el mínimo se alcanza en h=1 (fpn=0.08) y el máximo en h=6 (fpn=0.20). La base de 54 pacientes, alcanza en mínimo en h=3 (fpn=0.12) y el máximo en h=9 (fpn= 0.27).

Teniendo en cuenta la Figura B.36 donde se grafican los valores del cociente

entre fracción de probabilidad positiva y fracción de probabilidad negativa, para la base de 91 pacientes se alcanza el máximo en h=4 (fpp/fpn=459.81) y el mínimo en h=10 (fpp/fpn=48.54). Para la base de 82 pacientes el máximo se alcanza en h=10 (fpp/fpn=233.32) y el mínimo en h=5 (fpp/fpn=51.79). En la base de 54 pacientes el máximo se da en h=3 (fpp/fpn=99.97) y el mínimo en h=9 (fpp/fpn=20.14).

6.7 Resultados de Clasificación para el Modelo NMSE de ROIs Extraidas Mediante Clustering GMM. Para finalizar el Capítulo de resultados experimentales se va a proceder a la evaluación de los métodos de extracción de ROIs basados en técnicas clustering GMM que fueron presentados en el Capítulo 4. El objetivo de esta técnica de clustering es la definición de ROIs tridimensionales cuya forma se determina por medio del modelado con mezclas de distribuiciones gaussianas. A partir de la definición de estas ROIs, que definen la agrupación de un conjunto de voxels o regiones discriminativas de la imagen, se extraen las características NMSE que se utilizan como entrada para entrenar y testar el sistema completo de clasificación haciendo uso de técnicas de validación cruzada. El objetivo que se pretende con el desarrollo de este nuevo método de extracción de características es conseguir una localización más precisa de las regiones de interés en las que se manifiesta la enfermedad de Alzheimer en la etapa precoz y mejorar la precisión (exactitud) del sistema automático de ayuda al diagnóstico. Los métodos de clustering o parcelación, se emplean a menudo para la segmentación y compresión de datos [Jain et al., 1999; Xu et al., 2005]. La idea básica es la agrupación de puntos que tienen una propiedad común en subconjuntos o parcelas. De esta manera, se pueden emplear para cuantificar la distribución espacial del color en imágenes [Goldberger et al., 2006]. En estudios de imágenes funcionales, la técnicas de modelado basadas en clustering o parcelación se usan habitualmente en análisis de señales fMRI para la agrupación de coordenadas relevantes en un espacio de representación normalizado de Talaraich [Newman et al., 2008]. Para esta tarea se suele emplear la técnica de estimación de la probabilidad de activación (del inglés “Activation Likelihood Estimation”, ALE) para reducir la lista de máximos de activación que tienen uno o más máximos en su vecindad y entonces, estas coordenadas junto con su media de pertenencia a la parcela, están sujetas a clustering basado en una mezcla finita de distribuciones de probabilidad. El principal inconveniente de este método, derivado del uso de ALE, está en que los patrones de hipoperfusión no se encuentran incluidos en el modelo, es decir, la utilización de imágenes SPECT para el diagnóstico de la enfermedad de Alzheimer se basa principalmente en la detección de estas regiones. La

Page 278: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 6. Resultados Experimentales. 253 ______________________________________________________________________________

aplicación del análisis de imágenes basado en modelos debería entonces tener en cuenta no sólo las coordenadas de los máximos de activación sino también el valor de intensidad de cada voxel. El método introducido en el Capítulo 4 extrae las características NMSE de un conjunto de clusters que se modelan mediante GMMs. Este método emplea una aproximación de parcelación diferente para la estimación de densidad del perfil de intensidad, lo cual permite reducir la dimensionalidad del vector de características drásticamente. De esta manera, se aproxima el perfil de intensidad de una imagen SPECT por medio de una distribución que se modela como suma de distribuciones gaussianas que satisfacen un criterio de máxima verosimilitud. De esta manera, dada su simplicidad y robustez, se emplea el algoritmo EM para obtener los parámetros del modelo. Tras la reconstrucción tomográfica de las imágenes SPECT, su normalización espacial y en intensidad, se representa cada ROI por medio de una gaussiana simple con un centro, forma y peso. El vector extraido para clasificación se obtiene calculando el error cuadrático medio normalizado de la ROI o cluster. De esta manera, la dimensión del vector de características es igual al número de gaussianas del GMM. En nuestro caso, se alcanza la situación en el que el número de ejemplos de entrenamiento excede en un orden de magnitud al número de características, por lo que superamos los problemas del problema del pequeño tamaño muestral discutido anteriormente. En primer lugar, reducimos el número requerido de observaciones seleccionando ROIs por medio de GMMs y así podemos preservar: i) la especificidad regional (regiones locales de hipoperfusión) en cada ROI, y ii) cambios globales en el mapa de activación cerebral dada la configuración del GMM que tiene en cuenta explícitamente las interacciones entre regiones cerebrales. En segundo lugar, se aplica aprendizaje estadístico supervisado a vectores de características obtenidos a partir de estas ROIs usando GMM.

Como se ha comentado anteriormente, las imágenes SPECT empleadas en este trabajo tienen 79x95x69 vóxeles. A estas imágenes se les aplica un escalado en un factor 2, de forma que las imágenes para cada paciente pasan a tener unas dimensiones de 39x47x34 vóxeles. Este escalado se realiza agrupando los vóxeles adyacentes en regiones cúbicas de tamaño 2x2x2 vóxeles y calculando el nivel de intensidad que presentan estos 8 vóxeles. Este valor de nivel de intensidad es el que se asigna al nuevo vóxel de la imagen reescalada. Una vez que tenemos definido el modelo de clusters, se hallan las k gaussianas que definen los clusters o ROIs para el prototipo de paciente sano, obtenido como la media de todas las imágenes SPECT de pacientes sanos. Esta información se utiliza como una máscara para obtener los clusters de cada una de las imágenes de los pacientes que componen el conjunto de entrenamiento. En nuestro caso se ha escogido un valor de k=64, por lo que cada imagen vendrá representada por 64 clusters.

Tras realizar el cálculo del NMSE de cada cluster dispondremos de 64 posibles

características para representar cada una de las imágenes SPECT. A partir de estas características se construye el vector que se utiliza para el entrenamiento de los clasificadores y posteriormente, como entrada del sistema de clasificación a la hora de clasificar nuevos patrones desconocidos. El número de características que se utilicen establecerá la dimensión del espacio de características. Mediante el modelo de clusters, de las posibles 62322 características de las que disponíamos en un principio, hemos

Page 279: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

254 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

pasado a 64, que es un valor inferior al número de muestras de nuestro conjunto de entrenamiento. A continuación se muestra el comportamiento del clasificador para diferentes umbrales del modelo de clusters. Los umbrales utilizados son 25%, 50%, 75% y 90%. Recordemos que a medida que aumenta el valor del umbral, el tamaño de los clusters va disminuyendo, de forma que las regiones que comprende cada clúster serán más específicas, mientras que para valores pequeños del umbral, las regiones serán mayores y abarcarán mayores zonas del cerebro. La Tabla 6.32 muestra los resultados obtenidos en clasificación para la base de datos completa cuando el sistema emplea SVMs lineales. La precisión se da para diferentes valores del umbral que controla el tamaño de la ROI tal y como se describió en el Capítulo 4. Al igual que en el modelo de cortes bidimensionales, el kernel que mejor se comporta es el kernel lineal. Aunque si comparamos la precisión obtenida, los resultados son inferiores a los obtenidos para el modelo de cortes 2D. Sin embargo, mediante una adecuada selección de las ROIs que definen los patrones de hipoperfusión típicos en la enfermedad de Alzheimer se podría superar esta limitación por medio de una selección más efectiva de las ROIs de acuerdo con su potencia discrimativa, lo cual conduciría a una mejora significativa en la precisión de clasificación del modelo GMM. Tabla 6.32 Precisión o exactitud obtenida para el sistema de extracción de ROIs basado en clustering GMM y clasificador SVM con kernel lineal para umbrales del 25%, 50%, 75% y 90%.

Umbral Precisión 25% 88.9 50% 87.8 75% 85.7 90% 83.5

Page 280: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 7

DISCUSIÓN Y CONCLUSIONES.

En este Capítulo se analizarán los resultados y conclusiones de la presente Tesis Doctoral. La investigación se ha centrado en el diseño completo de un sistema CAD que considera la selección de algoritmos robustos de reconstrucción tomográfica, normalización espacial y en intensidad, extracción de características y clasificación supervisada utilizando diferentes clasificadores entre los que se encuentran las máquinas de vectores de soporte (SVM), kNN, funciones lineales discriminantes, árboles de asociación o redes neuronales. La Tesis propone diferentes técnicas para la representación cuantitativa de imágenes médicas mediante características discriminantes que permitan mejorar la precisión en el diagnóstico precoz así como, el estudio y la optimización de clasificadores lineales, no lineales y basados en aprendizaje estadístico para detección efectiva de enfermedades neurodegenerativas.

Page 281: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 282: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 7. Discusión y Conclusiones. 257 _____________________________________________________________________________

7.1 Conclusiones.

La contribución del presente trabajo a los sistemas CAD para el diagnóstico precoz de la enfermedad de Alzheimer consiste en el estudio y evaluación de diferentes propuestas para la construcción de un sistema totalmente automatizado para el preprocesamiento y clasificación de imágenes SPECT. El primer aspecto a destacar de esta investigación son los resultados obtenidos en la clasificación automática y en el proceso de selección de características. El enfoque propuesto parte de la selección de un conjunto de características discriminantes y la clasificación basada en la teoría de aprendizaje estadístico por computador. El estudio tiene como prioridad encontrar las regiones de interés y los parámetros discriminantes de las mismas, con el objetivo de reducir la dimensionalidad del espacio de entrada y mejorar la exactitud del sistema.

Las contribuciones más relevantes de esta Tesis Doctoral son las siguientes:

1. Se ha adquirido una base de datos de imágenes médicas SPECT de acuerdo con el protocolo estandarizado de adquisición descrito en el apéndice C con el objetivo de desarrollar un sistema de ayuda al diagnóstico de la enfermedad de Alzheimer. La base de datos ha sido adquirida por medio de una gamma-cámara Picker Prism 3000 en el Servicio de Medicina Nuclear del Hospital Universitario Virgen de las Nieves. Consta de 91 pacientes de los que 41 fueron etiquetados por los expertos como controles y 50 como Alzheimer. De esta manera, se han definido particiones de esta base de datos para realizar diferentes tareas de clasificación o diagnóstico de complejidad creciente. La motivación para ello se encuentra en el estudio de la robustez del sistema y del problema de clasificación más complejo que consiste en distinguir controles de pacientes con leves manifestaciones de enfermedad. De esta manera, se ha evaluado la precisión del sistema en la identificación de casos de Alzheimer precoz en los que se observan ligeras alteraciones en las imágenes SPECT que resultan difíciles de detectar.

2. Se ha propuesto un método de extracción de características de imágenes SPECT que se basa en un estudio riguroso de los estadísticos de primer orden y segundo orden de los cortes coronales, sagitales y transaxiales. En dicho análisis se ha considerado el histograma de primer orden del que se derivan los estadísticos de primer orden: media, varianza y entropía, así como el histograma de segundo orden y las características de textura de Haralick que se obtienen a partir de la conocida matriz de co-ocurrencia. De este modo, los estadísticos de primer orden proporcionan la información relacionada con la distribución de los niveles de intensidad en la imagen pero no dan información sobre los respectivos lugares que ocupan los distintos niveles de intensidad dentro de la imagen. Esta información puede ser extraída de los estadísticos de segundo orden, donde los pixels son considerados por parejas. En el análisis se ha considerado el Fisher Linear Discriminant (FDR) como medida de la discriminabilidad de las clases demostrándose que, de entre todas las características evaluadas, la desviación típica de los cortes coronales y la correlación sagital resultan ser los parámetros más eficaces para reducir la dimensionalidad del espacio de entrada y mejorar la exactitud en la diagnosis cuando se emplea la teoría de aprendizaje estadístico por computador. Este sistema permitió alcanzar una precisión en la clasificación del 90.38% (sensibilidad de 93.10% y precisión de 86.96%) cuando se utilizo un clasificador SVM con núcleo basado en una función de base radial (RBF), lo

Page 283: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

258 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

que supone una importante mejora sobre otros esquemas desarrollados recientemente basados en la técnica “voxels como características” VAF donde la alta dimensión del espacio de entrada hace que SVM con núcleo lineal resulte más efectivo que los núcleos cuadráticos, RBF y polinómicos. Este método no sólo permite identificar los parámetros discriminativos de las imágenes sino también las regiones de interés que para la identificación de la enfermedad de Alzheimer se localizan en el lóbulo frontal y las regiones temporoparietales.

3. Se ha propuesto un método de extracción de características basado en la obtención del error cuadrático medio normalizado de cortes bidimensionales del registro SPECT. Este método ha permitido identificar los mejores cortes para el diagnóstico de la enfermedad de Alzheimer y aprovechar la capacidad discriminativa del error cuadrático medio para mejorar la precisión en la clasificación. Este esquema de extracción de características se ha utilizado para construir diferentes sistemas CAD que emplean diferentes técnicas de clasificación: kNN, redes neuronales, funciones discriminantes, árboles de decisión y SVM. Los mejores resultados obtenidos alcanzaron una precisión de clasificación del 94.51% con una sensitividad del 92.00% y una especificidad del 97.56% cuando se combinó el esquema de extracción propuesto con clasificadores SVM con núcleo lineal. Del mismo modo, cuando se consideró el problema más complejo de discriminación entre controles y pacientes de Alzheimer precoz, se obtuvo una precisión del 92.59% con sensitividad del 88.89% y especificidad del 96.30% empleando también clasificadores SVM con núcleo lineal.

4. Se ha propuesto un método de extracción de características que se basa en la definición de regiones de interés por medio de técnicas de clustering con mezcla de distribuciones gaussianas, y la posterior obtención del error cuadrático normalizado de la correspondiente región de interés. Este método emplea una aproximación de parcelación para la estimación de densidad del perfil de intensidad de la imagen SPECT, lo cual permite reducir la dimensionalidad del vector de características drásticamente. De esta manera, reducimos el número requerido de observaciones seleccionando ROIs por medio de GMMs y así podemos preservar: i) la especificidad regional (regiones locales de hipoperfusión) en cada ROI, y ii) cambios globales en el mapa de activación cerebral dada la configuración del GMM que tiene en cuenta explícitamente las interacciones entre regiones cerebrales. Al igual que en el modelo de cortes bidimensionales, el núcleo que mejor se comporta es el núcleo lineal. Si comparamos la precisión obtenida, los resultados son inferiores a los obtenidos para el modelo de cortes bidimensionales. Sin embargo, mediante una adecuada selección de las ROIs que definen los patrones de hipoperfusión típicos en la enfermedad de Alzheimer de acuerdo con su poder discriminativo se podría superar esta limitación y mejorarse de forma significativa la precisión de clasificación del modelo GMM.

7.2 Discusión.

Los sistemas CAD desarrollados en esta Tesis Doctoral contribuyen en gran medida al diagnostico mediante computadora de la enfermedad de Alzheimer. Actualmente, la precisión con que se realiza el diagnóstico precoz de ciertas enfermedades de tipo neurodegenerativo como la demencia de tipo Alzheimer no supera

Page 284: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

Capítulo 7. Discusión y Conclusiones. 259 _____________________________________________________________________________

el 70% y, en muchas ocasiones, éstas no reciben el tratamiento adecuado. Este trabajo de Tesis Doctoral se ha centrado en el desarrollo de sistemas inteligentes de ayuda al diagnóstico mediante imágenes médicas con el doble objetivo de:

i) mejorar la sensibilidad en la detección de enfermedades neurodegenerativas, y

ii) reducir la variabilidad en la interpretación de la imagen por parte del explorador.

Para ello, se parte de la base de que las técnicas de tomografía por emisión de fotón único (SPECT) proporcionan información funcional (riego sanguíneo cerebral) y permiten diagnosticar anormalidades en tejidos internos u órganos, incluso antes de que se produzcan alteraciones anatómicas o estructurales y estas sean observables. La investigación se ha centrado en el diseño completo de un sistema CAD que considera la selección de algoritmos robustos de reconstrucción tomográfica, normalización espacial y en intensidad, extracción de características y clasificación supervisada utilizando diferentes clasificadores entre los que se encuentran las máquinas de vectores de soporte (SVM), kNN, funciones lineales discriminantes, árboles de asociación o redes neuronales. La Tesis propone diferentes técnicas para la representación cuantitativa de imágenes médicas mediante características discriminantes que permitan mejorar la precisión en el diagnóstico precoz así como, el estudio y la optimización de clasificadores lineales, no lineales y basados en aprendizaje estadístico para detección efectiva de enfermedades neurodegenerativas.

La principal aportación de este trabajo radica en la presentación de sistemas CAD completos e independientes que han demostrado cumplir satisfactoriamente los objetivos propuestos de detección y clasificación de imágenes. Todos los esquemas presentados consiguen una discriminación con éxito entre patrones normales y patrones de hipoperfusión aportando una valiosa herramienta de ayuda al diagnóstico.

7.3 Trabajo Futuro.

Tras la investigación realizada y mostrada en la presente Tesis, cabe plantearse el desarrollo de nuevas líneas de investigación basadas en los logros ya alcanzados en este trabajo:

• El desarrollo de nuevas herramientas CAD, la clasificación multiclase, esto es, no sólo diagnosticar si un pacientes sufre o no la EA sino en qué fase de la enfermedad se encuentra el mismo. En este sentido se han desarrollado estrategias para clasificación multiclase basadas en la clasificación dos a dos, si bien la precisión disminuye con respecto a la clasificación binaria [Schölkopf et al., 1999].

• Buscar nuevas características en las imágenes funcionales que sirviesen para la

clasificación e hiciesen más robustos algunos de los métodos de clasificación [Ramírez et al., 2010; Chaves et al., 2009; López et al., 2009; Górriz et al., 2009].

• Buscar nuevas regiones de interés, que sirviesen para el desarrollo de nuevas

técnicas utilizando otras modalidades de imagen como MRI, fMRI, PET, etc.

Page 285: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

260 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

• Aplicar la tecnología aquí desarrollada a otros tipos de nosologías neurológicas como pudieran ser la demencia vascular, la demencia fronto-temporal, la posible afectación neurolúpica en el lupus eritomatoso sistémico, la enfermedad de Parkinson, la localización de posibles focos epileptogénicos, entre otras.

Page 286: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE A.

ATLAS VISUAL DEL CEREBRO.

En este Apéndice se describe un escueto Atlas Anatómico de algunas partes del cerebro humano que están relacionadas con la enfermedad de Alzheimer, donde se muestran las figuras de dichas partes anatómicas además de una breve descripción de las funciones que desempeñan.

Page 287: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 288: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE A. Atlas Visual del Cerebro. 263 _____________________________________________________________________________

A.1 Sistema Nervioso.

Figura A.1 El Sistema Nervioso. El sistema nervioso está constituido por el tejido nervioso del organismo y los

elementos de soporte asociados. Desde un punto de vista estructural o anatómico, el sistema nervioso se divide en dos; el Sistema Nervioso Central (SNC) y el Sistema Nervioso Periférico (SNP). El SNC está formado por el cerebro y la medula espinal, mientras que el SNP comprende los nervios, ganglios y receptores especializados. Por otro lado, desde el punto de vista funcional el sistema nervioso se divide, en Sistema Nervioso Somático y Sistema Nervioso Autónomo. El sistema somático es la parte del sistema nervioso que responde o relaciona el organismo con el medio ambiente externo, en cambio el sistema autónomo está en relación con el medio interno orgánico, realizando funciones propias de regulación y adaptación internas. Ambos sistemas no actúan independientemente, sino que se hallan interrelacionados y cooperan entre sí. La función del sistema nervioso consiste en recibir los estímulos que le llegan tanto del medio externo como interno del organismo, organizar esta información y hacer que se produzca la respuesta adecuada. Los estímulos procedentes del medio externo son recibidos por los receptores situados en la piel, destinados a captar sensaciones generales como el dolor, tacto, presión y temperatura, y por los receptores que captan sensaciones especiales como el gusto, la vista, el olfato, el oído, la posición y el

Page 289: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

264 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

movimiento. Las señales (o impulsos) que llegan al sistema nervioso periférico, se transmiten a partir de estos receptores al sistema nervioso central, donde la información es registrada y procesada convenientemente. Una vez registradas y procesadas, las señales son enviadas desde el sistema nervioso central a los distintos órganos a fin de proporcionar las respuestas adecuadas.

A.2 Cortes Transversales.

Figura A.2 Corte Transversal del Cerebro 1.

Figura A.3 Corte Transversal del Cerebro 2.

Page 290: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE A. Atlas Visual del Cerebro. 265 _____________________________________________________________________________

Figura A.4 Corte Transversal del Cerebro 3.

A.3 Cortes Frontales.

Figura A.5 Corte Frontal del Cerebro 1.

Page 291: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

266 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Figura A.6 Corte Frontal del Cerebro 2.

A.4 Amígdalas.

Figura A.7 Localización de las Amígdalas.

Page 292: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE A. Atlas Visual del Cerebro. 267 _____________________________________________________________________________

Las amígdalas forman parte del sistema endocrino, el cual está formado por un conjunto de glándulas (tiroides, paratiroides, amígdalas, hipófisis, epífisis y glándulas suprarrenales) que sintetizan hormonas y las liberan al torrente sanguíneo. Hoy en día se sabe que el hipotálamo es el responsable del control de la secreción hormonal, y a su vez las hormonas afectan al funcionamiento del sistema nervioso, por este motivo al conjunto de los dos sistemas se les denomina sistema neuroendocrino. Las glándulas endocrinas controlan una gran cantidad de funciones fisiológicas del organismo como el metabolismo, la homeostasis, el crecimiento, la reproducción, el dolor, etc., pero también están involucradas en la conducta humana, concretamente en las emociones, la memoria, el aprendizaje o incluso en las patologías como la depresión, la ansiedad o la anorexia nerviosa.

A.5 Corteza Cerebral.

Figura A.8 Corteza Cerebral.

Page 293: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

268 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

Figura A.9 Constituyentes que forman la Corteza Cerebral. La corteza cerebral es la parte más voluminosa del encéfalo. Una hendidura

profunda, denominada cisura longitudinal, lo divide en dos hemisferios, derecho e izquierdo. La corteza es una fina lámina de neuronas interconectadas que forman una capa de unos milímetros de grosor y que recubre la superficie irregular de los hemisferios cerebrales. La superficie de cada hemisferio presenta un conjunto de prominencias y surcos (o cisuras) que proporcionan a la corteza una apariencia plegada, de tal forma que sólo un tercio de ésta queda expuesta a la superficie. Tres de estas cisuras sirven para delimitar ciertas áreas del cerebro. Son: 1) surco central o cisura de Rolando, 2) surco lateral o cisura de Silvio, y 3) surco parieto-occipital. Las eminencias situadas entre los surcos reciben el nombre de circunvoluciones o pliegues. Las eminencias situadas entre los surcos reciben el nombre de circunvoluciones o pliegues. La circunvolución central anterior se sitúa por delante del surco central, y la circunvolución central posterior se coloca inmediatamente detrás del surco central. Cada hemisferio se divide en cuatro grandes lóbulos: frontal, parietal, temporal y occipital. En general, los lóbulos parietal debajo del hueso parietal, el lóbulo temporal debajo del hueso temporal y el lóbulo occipital debajo de la región correspondiente a la protuberancia del occipital. Los surcos o cisuras mencionadas anteriormente actúan como estructuras limítrofes entre algunos de los lóbulos cerebrales. El surco central se localiza entre los lóbulos frontal y parietal. El surco lateral separa el lóbulo temporal situado debajo de los lóbulos frontal y parietal situados encima. El surco parietooccipital puede visualizarse en la superficie central del cerebro.

Page 294: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE A. Atlas Visual del Cerebro. 269 _____________________________________________________________________________

A.6 Cerebelo.

Figura A.10 Constituyentes que forman el Cerebelo.

Estructura del Cerebelo. El cerebelo es, después del cerebro, la porción más

grande del encéfalo. Ocupa la fosa craneal posterior se localiza debajo de los lóbulos occipitales del cerebro, del que está separado por una estructura denominada tienda del cerebelo. Consta de dos hemisferios cerebelosos y una parte intermedia denominada vermis. Se une al tallo cerebral mediante tres pares de pedúnculos cerebelosos; estos pedúnculos son haces de fibras que entran y salen del cerebelo, en cuya superficie aparecen numerosos surcos superficiales próximos unos a otros. Un corte sagital del cerebelo muestra que en el exterior del cerebelo (en la corteza cerebelosa) se encuentra la sustancia gris, y en el interior la sustancia blanca. En la parte más profunda del cerebelo se encuentran los núcleos dentados. El cuarto ventrículo ocupa una localización inmediatamente anterior al cerebelo.

Aspecto Microscópico. La corteza cerebelosa se divide en una capa externa, o molecular, y una capa interna, o granulosa. Entre ambas capas aparecen unas células denominadas células de Purkinje. Aunque las células de las dos capas cerebelosas corticales son de pequeño tamaño, no por ello dejan de ser neuronas. También se halla presente la neuroglia.

Función del Cerebelo. El cerebelo desempeña un papel regulador en la

coordinación de la actividad muscular, el mantenimiento de tono muscular y la conservación del equilibrio. El cerebelo precisa estar informado constantemente de lo que se debe hacer para coordinar la actividad muscular de manera satisfactoria. A tal fin recibe información procedente de las diferentes partes del organismo. Por un lado, la corteza cerebral le envía una serie de fibras que posibilitan la cooperación entre ambas estructuras. Por otro lado, recibe información procedente de los músculos y

Page 295: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

270 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

articulaciones, que le señalan de modo continuo su posición. Finalmente, recibe impulsos procedentes del oído interno que le mantienen informado acerca de la posición y movimiento de la cabeza. El cerebelo precisa, pues, toda esta información para poder llevar a cabo las funciones que le son propias.

A.7 Diencéfalo.

Figura A.11 Localización del Diencéfalo.

Figura A.12 Componentes del Diencéfalo.

Page 296: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE A. Atlas Visual del Cerebro. 271 _____________________________________________________________________________

El diencéfalo es una estructura situada en la parte interna central de los hemisferios cerebrales. Se encuentra entre los hemisferios y el tronco del encéfalo, y a través de él pasan la mayoría de fibras que se dirigen hacia la corteza cerebral. El diencéfalo se compone de varias partes: tálamo, hipotálamo, subtálamo y epitálamo. El tálamo está formado por dos cuerpos ovoides de 3 cm de largo y aproximadamente 1,5 cm de espesor, que se asienta en la profundidad de cada hemisferio cerebral. El tercer ventrículo separa entre sí ambos tálamos, aunque éstos permanecen unidos gracias a un puente de tejido talámico denominado masa intermedia, que se extiende entre ambos. Los tálamos son masas de sustancia gris, por lo que contienen cuerpos neuronales y numerosas conexiones sinápticas. Desde un punto de vista funcional, el tálamo es una estación de relevo sensitivo. Los impulsos nerviosos hacen una escala a nivel talámico, estableciendo sinapsis antes de proseguir su recorrido hacia el córtex cerebral. El tálamo constituye también un centro sensitivo primitivo que sirve para registrar un tipo de sensación generalizada e imprecisa. El hipotálamo se localiza, como su nombre indica, debajo del tálamo. Presenta una gran variedad de funciones, algunas de ellas bastante insólitas. Por ejemplo, produce como mínimo dos hormonas (oxitocina y vasopresina) y contiene centros que regulan la actividad de la hipófisis anterior, el sistema nervioso autónomo, la temperatura corporal y la ingesta de agua y alimentos. Además, el hipotálamo se relaciona con el estado de vigilia y la sensibilidad emocional. En animales de laboratorio, como el gato, la liberación de la influencia inhibidora que ejerce sobre el hipotálamo la corteza cerebral origina la aparición de estallidos de violencia ante la más pequeña provocación. El subtálamo está delante del tálamo y al lado del hipotálamo, su función principal se relaciona con el movimiento corporal. Las vías neuronales que lo atraviesan van hacia el tálamo, el cerebelo y los ganglios basales. El epitálamo se sitúa en la parte posterior del diencéfalo, al lado del mesencéfalo. Está formado por la glándula pineal o epífisis y los núcleos de la habénula. La epífisis es una glándula endocrina que segrega la hormona melatonina, esta secreción está relacionada con la cantidad de luz solar existente, a más luz más se segregará; la habénula tiene la función de favorecer la comunicación entre el sistema límbico y la formación reticular.

Page 297: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

272 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

A.8 Hipocampo.

Figura A.13 Localización del Hipocampo.

Figura A.14 Izquierda vista Lateral, derecha vista Ventral del Hipocampo.

La formación hipocampal está situada en la cara medial del lóbulo temporal. Le

llega información del córtex, y a su vez envía señales neuronales al hipocampo y el área septal a través del fórnix. La principal función del hipocampo es la de la consolidación de la memoria y el aprendizaje. Una lesión en esta zona produce amnesia anterógrada, o

Page 298: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE A. Atlas Visual del Cerebro. 273 _____________________________________________________________________________

sea de los acontecimientos ocurridos después de la lesión, afectando así a los recuerdos de hechos específicos, pero curiosamente no afecta al aprendizaje de nuevas capacidades o habilidades. Por ejemplo, una persona podría aprender a montar en bicicleta después de la lesión, pero no recordaría haber visto nunca una bicicleta.

A.9 Sistema Límbico.

Figura A.15 Localización del Sistema Límbico. El sistema límbico está compuesto por un conjunto de estructuras cuya función

está relacionada con las respuestas emocionales, el aprendizaje y la memoria. Nuestra personalidad, nuestros recuerdos y en definitiva el hecho de ser como somos, depende en gran medida del sistema límbico. Los componentes de este sistema son: amígdala, tálamo, hipotálamo, hipocampo, el área septal (compuesta por el fórnix, cuerpo calloso y fibras de asociación), la corteza orbitofrontal y la circunvolución del cíngulo.

Page 299: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

274 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. _____________________________________________________________________________

A.10 Corteza Somatosensorial.

Figura A.16 Corteza Somatosensorial.

En la Figura A.16 se muestran las áreas somatosensoriales primarias de la

corteza cerebral, es un gráfico donde se representan las zonas de córtex humano donde se reconocen, organizan y procesan las sensaciones provenientes de las distintas partes del cuerpo. Como puede observarse, no todas las partes del cuerpo requieren de la misma “cantidad” de corteza especializada.

Las áreas somestésicas o áreas de la sensibilidad general, se localizan en la circunvolución central posterior. En esta zona se registran las sensaciones de calor, frío, tacto, presión, dolor y sensibilidad propioceptiva (sentido de la posición y equilibrio muscular). Cada circunvolución recibe las sensaciones procedentes del lado opuesto del organismo. La disposición de las partes del cuerpo reprensadas en la circunvolución sigue también un orden inverso, de manera que las áreas sensitivas de los pies se localizan en el extremo superior del córtex, mientras que las áreas para la cabeza ocupan el extremo inferior.

Las áreas motoras se localizan en las circunvoluciones centrales superiores. Cada circunvolución controla la actividad del músculo esquelético que ocupa el lado opuesto del organismo. Las diversas partes del organismo representadas en la circunvolución se disponen escalonadamente, de arriba abajo, de modo que la porción superior de la circunvolución controla los movimientos de la extremidad inferior

Page 300: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE A. Atlas Visual del Cerebro. 275 _____________________________________________________________________________

opuesta, mientras que la zona inferior de la circunvolución controla la corteza y el cuello. Algunas partes del organismo, como la mano y la cara, están más representadas que otras, ello se debe a la capacidad de tales partes para efectuar movimientos más delicados.

El área promotora, relacionada también con la actividad motora, ocupa una posición inmediatamente anterior a la circunvolución precentral. La estimulación de esta área se traduce en la aparición de un a serie de movimientos de naturaleza generalizada, como la rotación de la cabeza, giros del tronco y movimientos generales de las extremidades.

Las áreas del lenguaje, o áreas de Broca, se localizan en el lóbulo frontal. En una persona diestra las áreas del lenguaje están mejor desarrolladas en la corteza cerebral izquierda. En un zurdo están más desarrolladas las áreas del lenguaje derechas.

Las áreas visuales se localizan en el lóbulo occipital. En el lóbulo occipital izquierdo se registran los impulsos que ese originan en la parte izquierda de cada globo ocular, mientras que en el lóbulo occipital derecho se registran los impulsos que se originan en la parte derecha.

Las áreas auditivas se localizan en la circunvolución temporal superior. Cada lóbulo temporal recibe impulsos auditivos procedentes tanto del oído derecho como del izquierdo. Ello se debe a que un número considerable de neuronas encargadas de transmitir los impulsos auditivos no siguen la vía contralateral, sino que se dirigen al lóbulo temporal del mismo lado.

El área primitiva olfativa se localiza en la superficie media lateral del lóbulo temporal, y el área primaria gustativa en la cara anterior de la circunvolución central posterior del lóbulo parietal.

Existen otras áreas llamadas áreas de asociación. Las situadas en el lóbulo parietal participan en la integración de la información sensitiva procedente de las áreas somestésica, auditiva, visual y gustativa. Las áreas de asociación parietales correlacionan información acerca da las diversas partes del organismo. Las áreas asociativas situadas en la región posterior del lóbulo temporal se relacionan con la integración de datos sensitivos. La afasia visual y auditiva (incapacidad para comprender la palabra oral y escrita) puede asociarse a lesiones de estas áreas asociativas Las áreas de asociación localizadas en la porción anterior del lóbulo temporal se relacionan con gran variedad de experiencias, aparte de las audiovisuales. Esta porción anterior del lóbulo temporal se ha denominado corteza psíquica a causa de su relación con experiencias pasadas.

Las actividades superiores tales como el discernimiento, razonamiento y abstracción dependen también de la corteza cerebral. La parte anterior del lóbulo frontal, denominada área prefrontal, se halla en relación con estos procesos mentales característicos del ser humano. La corteza cerebral ejerce también una influencia de carácter inhibitorio sobre las partes inferiores del sistema nervioso central.

Page 301: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 302: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE B.

GRÁFICAS.

En este Apéndice se muestran graficados los resultados experimentales obtenidos para los métodos basados en teoría del aprendizaje estadístico basado en computador, Máquinas de Vectores Soporte (SVM), K-Nearest-Neighbors (k-NN), Clasificador Basado en Análisis Discriminante de Clases y Red de Feedforward.

Page 303: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 304: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE B. Gráficas. 279 ______________________________________________________________________________

B.1 Gráficas de Resultados Experimentales para el Método Basado en Máquinas de Vectores Soporte (SVM).

A continuación se van a mostrar los valores graficados de exactitud, sensibilidad, especificidad, evaluación conjunta de los valores de exactitud, sensibilidad y especificidad, fracción de probabilidad negativa, fracción de probabilidad positiva, cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa, obtenidos con las distintas bases constituidas de pacientes para el método basado en Máquinas de Vectores Soporte (SVM).

1 2 3 40

10

20

30

40

50

60

70

80

90

100

1: Lineal; 2: Cuadrático; 3: rbf; 4: Polinómico.

Exa

ctitu

d(%

)

Base 91Base 82Base 54

Figura B.1 Exactitud para el método SVM, con distintos núcleos.

Page 305: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

280 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

1 2 3 40

10

20

30

40

50

60

70

80

90

100

1: Lineal; 2: Cuadrático; 3: rbf; 4: Polinómico.

Sen

sibi

lidad

(%)

Base 91Base 82Base 54

Figura B.2 Sensibilidad para el método SVM, con distintos núcleos.

1 2 3 40

10

20

30

40

50

60

70

80

90

100

1: Lineal; 2: Cuadrático; 3: rbf; 4: Polinómico.

Esp

ecifi

cida

d(%

)

Base 91Base 82Base 54

Figura B.3 Especificidad para el método SVM, con distintos núcleos.

Page 306: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE B. Gráficas. 281 ______________________________________________________________________________

1 2 3 40

10

20

30

40

50

60

70

80

90

100

1: Lineal; 2: Cuadrático; 3: rbf; 4: Polinómico.

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

EspecificidadSensibilidadExactitud

Figura B.4 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método SVM, con distintos núcleos, en la base de 54 pacientes.

1 2 3 40

10

20

30

40

50

60

70

80

90

100

1: Lineal; 2: Cuadrático; 3: rbf; 4: Polinómico.

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

EspecificidadSensibilidadExactitud

Figura B.5 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método SVM, con distintos núcleos, en la base de 82 pacientes.

Page 307: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

282 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

1 2 3 40

10

20

30

40

50

60

70

80

90

100

1: Lineal; 2: Cuadrático; 3: rbf; 4: Polinómico.

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

EspecificidadSensibilidadExactitud

Figura B.6 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método SVM, con distintos núcleos, en la base de 91 pacientes.

1 2 3 40

5

10

15

20

25

30

35

40

1: Lineal; 2: Cuadrático; 3: rbf; 4: Polinómico.

Fra

cció

n de

Pro

babi

lidad

Pos

itiva

.

Base 91Base 82Base 54

Figura B.7 Fracción de probabilidad positiva para el método SVM, con distintos núcleos.

Page 308: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE B. Gráficas. 283 ______________________________________________________________________________

1 2 3 40

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

1: Lineal; 2: Cuadrático; 3: rbf; 4: Polinómico.

Fra

cció

n de

Pro

babi

lidad

Neg

ativ

a.

Base 91Base 82Base 54

Figura B.8 Fracción de probabilidad negativa para el método SVM, con distintos núcleos.

1 2 3 40

50

100

150

200

250

300

350

400

450

500

1: Lineal; 2: Cuadrático; 3: rbf; 4: Polinómico.

Fra

cció

n P

roba

bilid

ad P

ositi

va /F

racc

ión

Pro

babi

lidad

Neg

ativ

a

Base 91Base 82Base 54

Figura B.9 Cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa para el método SVM, con distintos núcleos.

Page 309: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

284 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

B.2 Gráficas de Resultados Experimentales para el Método Basado en K-Nearest-Neighbors (k-NN).

A continuación se van a mostrar los valores graficados de exactitud, sensibilidad, especificidad, evaluación conjunta de los valores de exactitud, sensibilidad y especificidad, fracción de probabilidad negativa, fracción de probabilidad positiva, cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa, obtenidos con las distintas bases constituidas de pacientes para el método basado en K-Nearest-Neighbors (k-NN).

5 10 15 20 2575

80

85

90

95

100

Valores de K

Exa

ctitu

d(%

)

Base 54Base 82Base 91

Figura B.10 Exactitud para el método k-NN, con diferentes valores de k.

Page 310: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE B. Gráficas. 285 ______________________________________________________________________________

5 10 15 20 2570

75

80

85

90

95

100

Valores de K

Sen

sibi

lidad

(%)

Base 54Base 82Base 91

Figura B.11 Sensibilidad para el método k-NN, con diferentes valores de k.

5 10 15 20 2575

80

85

90

95

100

Valores de K

Esp

ecifi

cida

d(%

)

Base 54Base 82Base 91

Figura B.12 Especificidad para el método k-NN, con diferentes valores de k.

Page 311: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

286 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

5 10 15 20 2570

75

80

85

90

95

100

Valores de K

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

ExactitudSensibilidadEspecificidad

Figura B.13 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método k-NN, con diferentes valores de k, en la Base de 54 Pacientes.

5 10 15 20 2575

80

85

90

95

100

Valores de K

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

ExactitudSensibilidadEspecificidad

Figura B.14 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método k-NN, con diferentes valores de k, en la Base de 82 pacientes.

Page 312: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE B. Gráficas. 287 ______________________________________________________________________________

5 10 15 20 2580

82

84

86

88

90

92

94

96

98

100

Valores de K

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

ExactitudSensibilidadEspecificidad

Figura B.15 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método k-NN, con diferentes valores de k, en la Base de 91 pacientes.

5 10 15 20 250

5

10

15

20

25

30

35

40

Valores de K

Fra

cció

n de

Pro

babi

lidad

Pos

itiva

Base 54Base 82Base 91

Figura B.16 Fracción de probabilidad positiva para el método k-NN, con diferentes valores de k.

Page 313: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

288 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

5 10 15 20 250.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

Valores de K

Fra

cció

n de

Pro

babi

lidad

Neg

ativ

a

Base 54Base 82Base 91

Figura B.17 Fracción de probabilidad negativa para el método k-NN, con diferentes valores de k.

5 10 15 20 250

50

100

150

200

250

300

Valores de K

Fra

cció

n P

roba

bilid

ad P

ositi

va /F

racc

ión

Pro

babi

lidad

Neg

ativ

a

Base 54Base 82Base 91

Figura B.18 Cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa para el método k-NN, con diferentes valores de k.

Page 314: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE B. Gráficas. 289 ______________________________________________________________________________

B.3 Gráficas de Resultados Experimentales para el Método Basado en Análisis Discriminante de Clases.

A continuación se van a mostrar los valores graficados de exactitud, sensibilidad, especificidad, evaluación conjunta de los valores de exactitud, sensibilidad y especificidad, fracción de probabilidad negativa, fracción de probabilidad positiva, cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa, obtenidos con las distintas bases constituidas de pacientes para el método basado en el Análisis Discriminante de Clases.

1 2 3 4 50

10

20

30

40

50

60

70

80

90

100

1: linear; 2: diaglinear; 3: quadratic; 4: diagquadratic; 5: mahalanobis.

Exa

ctitu

d (%

)

Base 91Base 82Base 54

Figura B.19 Exactitud para el método basado en el Análisis Discriminante de Clases, con distintos núcleos.

Page 315: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

290 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

1 2 3 4 50

10

20

30

40

50

60

70

80

90

100

1: linear; 2: diaglinear; 3: quadratic; 4: diagquadratic; 5: mahalanobis.

Sen

sibi

lidad

(%

)

Base 91Base 82Base 54

Figura B.20 Sensibilidad para el método basado en el Análisis Discriminante de Clases, con distintos núcleos.

1 2 3 4 50

10

20

30

40

50

60

70

80

90

100

1: linear; 2: diaglinear; 3: quadratic; 4: diagquadratic; 5: mahalanobis.

Esp

ecifi

cida

d (%

)

Base 91Base 82Base 54

Figura B.21 Especificidad para el método basado en el Análisis Discriminante de Clases, con distintos núcleos.

Page 316: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE B. Gráficas. 291 ______________________________________________________________________________

1 2 3 4 50

10

20

30

40

50

60

70

80

90

100

1:linear, 2:diaglinear, 3:quadratic, 4:diagquadratic, 5:mahalanobis.

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

EspecificidadSensibilidadExactitud

Figura B.22 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método basado en el Análisis Discriminante de Clases, con distintos núcleos en la base de 54 pacientes.

1 2 3 4 50

10

20

30

40

50

60

70

80

90

100

1:linear, 2:diaglinear, 3:quadratic, 4:diagquadratic, 5:mahalanobis.

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

EspecificidadSensibilidadExactitud

Figura B.23 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad basado en el Análisis Discriminante de Clases, con distintos núcleos en la base de 82 pacientes.

Page 317: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

292 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

1 2 3 4 50

10

20

30

40

50

60

70

80

90

100

1:linear, 2:diaglinear, 3:quadratic, 4:diagquadratic, 5:mahalanobis.

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

EspecificidadSensibilidadExactitud

Figura B.24 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad basado en el Análisis Discriminante de Clases, con distintos núcleos en la base de 91 pacientes.

1 2 3 4 50

5

10

15

20

25

30

35

40

1:linear, 2:diaglinear, 3:quadratic, 4:diagquadratic, 5:mahalanobis.

Fra

cció

n de

Pro

babi

lidad

Pos

itiva

Base 91Base 82Base 54

Figura B.25 Fracción de probabilidad positiva basado en el método de Análisis Discriminante de Clases, con distintos núcleos.

Page 318: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE B. Gráficas. 293 ______________________________________________________________________________

1 2 3 4 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

1:linear, 2:diaglinear, 3:quadratic, 4:diagquadratic, 5:mahalanobis.

Fra

cció

n de

Pro

babi

lidad

Neg

ativ

a

Base 91Base 82Base 54

Figura B.26 Fracción de probabilidad negativa basado en el Análisis Discriminante de Clases, con distintos núcleos.

1 2 3 4 50

50

100

150

200

250

1:linear, 2:diaglinear, 3:quadratic, 4:diagquadratic, 5:mahalanobis.

Fra

cció

n P

roba

bilid

ad P

ositi

va /F

racc

ión

Pro

babi

lidad

Neg

ativ

a

Base 91Base 82Base 54

Figura B.27 Cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa basado en el Análisis Discriminante de Clases, con distintos núcleos.

Page 319: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

294 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

B.4 Gráficas de Resultados Experimentales para el Método Basado en Red de Feedforward.

A continuación se van a mostrar los valores graficados de exactitud, sensibilidad, especificidad, evaluación conjunta de los valores de exactitud, sensibilidad y especificidad, fracción de probabilidad negativa, fracción de probabilidad positiva, cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa, obtenidos con las distintas bases constituidas de pacientes para el método basado en el Red de Feedforward.

1 2 3 4 5 6 7 8 9 1080

82

84

86

88

90

92

94

96

98

100

Número de neuronas que forman la capa oculta.

Exa

ctitu

d (%

)

Base 54Base 82Base 91

Figura B.28 Exactitud para el método basado en Red de Feedforward, con distinto número de neuronas en la capa oculta.

Page 320: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE B. Gráficas. 295 ______________________________________________________________________________

1 2 3 4 5 6 7 8 9 1075

80

85

90

95

100

Número de neuronas que forman la capa oculta.

Sen

sibi

lidad

(%

)

Base 54Base 82Base 91

Figura B.29 Sensibilidad para el método basado en Red de Feedforward, con distinto número de neuronas en la capa oculta.

1 2 3 4 5 6 7 8 9 1075

80

85

90

95

100

Número de neuronas que forman la capa oculta.

Esp

ecifi

cida

d (%

)

Base 54Base 82Base 91

Figura B.30 Especificidad para el método basado en Red de Feedforward, con distinto número de neuronas en la capa oculta.

Page 321: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

296 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

1 2 3 4 5 6 7 8 9 1075

80

85

90

95

100

Número de neuronas que forman la capa oculta.

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

ExactitudSensibilidadEspecificidad

Figura B.31 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método Red de Feedforward, con distinto número de neuronas en la capa oculta, en la Base de 54 pacientes.

1 2 3 4 5 6 7 8 9 1080

82

84

86

88

90

92

94

96

98

100

Número de neuronas que forman la capa oculta.

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

ExactitudSensibilidadEspecificidad

Figura B.32 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método Red de Feedforward, con distinto número de neuronas en la capa oculta, en la Base de 82 pacientes.

Page 322: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE B. Gráficas. 297 ______________________________________________________________________________

1 2 3 4 5 6 7 8 9 1080

82

84

86

88

90

92

94

96

98

100

Número de neuronas que forman la capa oculta.

Exa

ctitu

d(%

), S

ensi

bilid

ad(%

), E

spec

ifici

dad(

%)

ExactitudSensibilidadEspecificidad

Figura B.33 Evaluación conjunta de los valores de exactitud, sensibilidad y especificidad para el método Red de Feedforward, con distinto número de neuronas en la capa oculta, en la Base de 91 pacientes.

1 2 3 4 5 6 7 8 9 105

10

15

20

25

30

35

40

Número de neuronas que forman la capa oculta.

Fra

cció

n de

Pro

babi

lidad

Pos

itiva

Base 54Base 82BAse 91

Figura B.34 Fracción de probabilidad positiva para el método Red de Feedforward, con distinto número de neuronas en la capa oculta.

Page 323: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

298 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

1 2 3 4 5 6 7 8 9 100.05

0.1

0.15

0.2

0.25

0.3

Número de neuronas que forman la capa oculta.

Fra

cció

n de

Pro

babi

lidad

Neg

ativ

a

Base 54Base 82Base 91

Figura B.35 Fracción de probabilidad negativa para el método Red de Feedforward, con distinto número de neuronas en la capa oculta.

1 2 3 4 5 6 7 8 9 100

50

100

150

200

250

300

350

400

450

500

Número de neuronas que forman la capa oculta.

Fra

cció

n P

roba

bilid

ad P

ositi

va /F

racc

ión

Pro

babi

lidad

Neg

ativ

a

Base 54Base 82Base 91

Figura B.36 Cociente de la fracción de probabilidad positiva entre la fracción de probabilidad negativa para el método Red de Feedforward, con distinto número de neuronas en la capa oculta.

Page 324: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE C.

PROTOCOLO DE ADQUISICIÓN DE UNA SPECT.

Los parámetros de adquisición de una SPECT de perfusión cerebral son relativamente variables y dependen de las características concretas del centro de trabajo en función a su vez del tipo de instrumentación empleado. En líneas generales cada centro suele optimizar las condiciones de adquisición y procesamiento de los estudios en base a fantomas estandarizados. En líneas generales existen aspectos comunes al protocolo de la mayoría de los centros (ventana de un 15% para la resolución energética, adquisición en 360º…), lo que facilita la comparación de las imágenes procedentes de ellos. Dado que los estudios que se emplean en el análisis del presente trabajo proceden de un único centro de trabajo (Hospital Universitario Virgen de las Nieves de Granada, España) nos permitimos transcribir literalmente la Guía de Procedimiento para la Tomografía de Perfusión Cerebral empleada en dicho centro.

Page 325: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 326: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE C. Protocolo de Adquisición de una SPECT. 301 ______________________________________________________________________________

RESUMEN TOMOGRAFÍA/SPECT DE PERFUSIÓN CEREBRAL.

Radiofármaco: 99mTc-HMPAO: Exametazina o Hexa-Metil-Propilen-Amino-Oxima 99mTc-ECD: Etil-di-Cisteinato-Dímero.

Vía de Administración: Intra Venosa (i.v.). Dosis de adulto: 99mTc-ECD / HMPAO: 20 mCi. Dosis pediátrica: dosis ajustada a la superficie corporal del paciente. Nota: Si se emplea 99mTc-HMPAO no estabilizado no debe utilizarse 30

min. después de la reconstitución del vial. Contraindicaciones: Ninguna Intervalo Administración / Exploración: Las imágenes deben de adquirirse entre 30-90 min. p.i. Si se emplea 99mTc-HMPAO (aclaramiento más lento) debe comenzarse a los 60 min. Si se emplea 99mTc-ECD (aclaramiento más rápido) puede comenzarse a los 30 min. INDICACIONES.

.. Enfermedad Cerebro Vascular: ... Accidente Cerebro Vascular (ACV). ... Ataques Isquémicos Transitorios (AIT).

.. Patología Neurológica: ... Epilepsia. ... Deterioro Cognitivo, Demencia. ... Alteraciones del Movimiento: Enf. De Parkinson...

.. Patología Psiquiátrica. FUNDAMENTO.

El 99mTc-HMPAO es un agente lipofílico y por tanto capaz de atravesar la Barrera Hemato Encefálica (BHE). Su comportamiento “in vivo” muestra una alta inestabilidad reaccionando en pocos segundos tras su inyección i.v. Una vez que ha atravesado la BHE pierde sus características de lipofilicidad y es atrapado dentro del cerebro. El 99mTc-HMPAO puede encontrarse en dos modalidades con diferentes estabilidades “in vitro”. Actualmente la forma estabilizada (4-6 h. de estabilidad “in vitro” post-reconstitución) está comercializada en nuestro país y está prácticamente en desuso la forma inestable (5 min. de estabilidad “in vitro” post-reconstitución). El 99mTc-ECD sufre un proceso similar y es retenido en el cerebro tras sufrir una hidrólisis del grupo éster. El 99mTc-ECD se aclara rápidamente del organismo vía renal, lo que condiciona una baja actividad de fondo en partes blandas (calota, glándulas salivales) en comparación con el 99mTc-HMPAO. El 99mTc-ECD posee una estabilidad “in vitro” post-reconstitución de 6h. La captación regional de ambos radiofármacos y su retención intracerebral están relacionadas con la perfusión cerebral regional, que a su vez es un buen estimador indirecto de la función cerebral en un amplio espectro de situaciones clínicas.

Page 327: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

302 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

PREPARACIÓN DEL PACIENTE. Antes de la exploración el paciente debe de permanecer aproximadamente 15 min. en una habitación con los ojos cerrados, en reposo motor y neurosensorial relativo con la finalidad de minimizar la activación cortical (especialmente de córtex visual). El paciente debe de tener canalizada una vía periférica al comienzo de la exploración para facilitar la inyección del radiofármaco tras el reposo y minimizar la captación debida al dolor/molestia de la inyección del mismo. Tras unos 5-10 min. de la inyección del radiofármaco el paciente puede pasar a la sala de espera de los pacientes inyectados donde permanecerá los 30-60 min. (véase antes) recomendables para el aclaramiento de trazador de las partes blandas (calota y glándulas secretoras del macizo facial) circundantes. INSTRUMENTACIÓN. Ajuste de Energía: 99mTc: Pico: 140 keV; Ventana: 15%. Colimador:

Baja Energía, Alta Resolución: Sólo si existe baja tasa de contaje. Agujeros Convergentes (Neurofan, Neurofocal).

Cámara: Tomografía / SPECT: Sistema Tricabezal, tres detectores y órbita circular.

Instrumentación Adicional: Inmovilizadores para sujetar los brazos del paciente extendidos sobre su tórax

/abdomen y minimizar la distancia entre los hombros. Cinta para inmovilizar la cabeza.

PROCEDIMIENTO DE ADQUISICIÓN DE LA IMAGEN. A. Colocación del paciente. Introducción.

En la tomografía de perfusión cerebral existen dos factores relacionados entre sí que condicionan la colocación del paciente: Radio de adquisición: Condiciona la proximidad del detector a la superficie de la cabeza el paciente. La distancia mínima vendrá condicionada por el diámetro máximo de la cabeza que es el que va desde el occipital a la nariz. Tasa de Contaje: Cuando se emplea un colimador Neurofocal a menor distancia se produce una mayor colimación y por tanto un descenso en el número de cuentas adquiridas en cada proyección. En compensación se aumenta la resolución espacial del estudio gracias a disminuir la proximidad entre el detector y la cabeza del paciente. Este aumento en la resolución espacial se pierde cuando el estudio posee una tasa de actividad excesivamente baja. Teniendo en cuenta estos presupuestos es importante conseguir una adecuada relación entre el número de cuentas y la resolución del estudio. Cualquier circunstancia que modifique las habituales de adquisición debe de ser

Page 328: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE C. Protocolo de Adquisición de una SPECT. 303 ______________________________________________________________________________

consultada con el especialista (dosis extravasada, paciente con alto riesgo de movimientos reiterados...). B. Procedimiento.

En la práctica los factores que limitan la aproximación del detector al paciente son: 1. El ángulo que forma el reposacabezas con la camilla. Para evitarlo conviene colocar al paciente todo lo dentro del reposacabezas posible, con los hombros prácticamente fuera de la camilla. 2. Evitar al máximo los hombros. Para ello debe desplazarse la camilla hacia afuera del estativo tanto como sea posible sin dejar fuera del campo de detección el cerebelo. El cerebelo puede ser un buen punto de referencia, y en el osciloscopio se ve como si “colgara” del cerebro. Para facilitar la colocación es mejor que el paciente tenga la cabeza flexionada por lo que invitaremos al paciente que intente pegar (con comodidad y sin forzar) la barbilla a su pecho. 3. Intentar hacer coincidir el centro de rotación de la gammacámara con el eje principal del objeto de estudio. Para ello es conveniente elevar ligeramente la camilla de la posición inicial del estudio. De este modo además conseguimos separar el reposacabezas del detector. 4. Asegurar la comodidad del paciente. Ello minimizará la posibilidad de que se mueva:

... Colocar una almohada bajo los pies.

... Colocar los inmovilizadores sin excesiva presión.

... Invitarle a que cierre los ojos para evitar “el agobio” de ver los detectores tan próximos.

... Colocarle una sábana / manta para que no tenga frío ya que va a estar 35 min. bajo la salida del aire acondicionado.

... No es conveniente acolchar demasiado el reposacabezas (aumenta el radio).

5. Realizar prueba de giro para asegurarse de que no existe colisión entre el paciente y/o la camilla y los detectores. Hasta que se tenga la destreza necesaria es conveniente realizar esta prueba de giro en el modo de movimiento lento de los detectores. 6. Condiciones de Adquisición en el sistema Tricabezal:

... Matriz 128x128

... Orbita Circular

... Sistema Tricabezal: 360º / 180 pasos / 2º por paso (120º cada cabeza) ... Tiempo por Paso: 35 seg. Asegurar una tasa de contaje

superior a las 40 kcts en cada proyección adquirida. Óptimo 60-80 kcts/paso.

... Modo Paso/Parada (Step/Shoot) o continuo es indistinto en la práctica.

Page 329: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

304 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Ad. Para facilitar el procesamiento del estudio es importante y necesario anotar el número de cuentas que adquiere la cabeza nº1, la altura de la camilla y el radio de adquisición del estudio, habitualmente 12.9. 7. Finalización de la exploración.

Tras la adquisición debe de comprobarse la ausencia de movimientos que invaliden el estudio.

Debe consultarse con el especialista: .. Pertinencia o no de procedimientos adicionales especiales. .. Si el estudio ha finalizado o no y si el paciente puede abandonar el Servicio.

PROCESAMIENTO DE LA EXPLORACIÓN. El presente procesamiento se interpreta en términos generales para una

exploración estándar sin otros problemas de adquisición (valores extremos de radio, tasa de cuentas, movimiento del paciente...).

OPCIÓN “A”. Por defecto modificado.

Básicamente esta es la opción por defecto. Puede ser interesante como punto de partida de procesamientos posteriores en función de los resultados que se obtienen. Este protocolo se desarrolla aceptando los parámetros propuestos por el programa salvo las excepciones que se especifican. Se emplea el programa general de procesamiento: Macro ECD1.Cada uno de los pasos se detallan en la OPCIÓN “B” del proceso. Se modifican los valores de filtrado. Se emplea un Butterworth, con un Cutoff: 0.30 un Order= 6.0. El resto como pluga.

OPCIÓN “B”. Paso a Paso.

El procesamiento de una tomografía se realiza a través de las opciones de “SPECT Tools” (Herramientas de SPECT) y prácticamente se desarrollan en el orden que aparecen cuando se despliega la ventana correspondiente.

1. Movimiento del Paciente. .. Comprobar que el paciente no se ha movido. Ajustando los márgenes superiores e

inferiores es más fácil comprobar dicho movimiento. Si el paciente no se ha movido pasar a prefiltrar. Si se ha movido se procede a corregir con las órdenes: Procesar → Marcar el Umbral → Marcar en el interior de la corteza (color

naranja) de un corte aproximadamente central (ganglios de la base) → Corregir → Salvar.

Tras salvar el estudio corregido se procede a reconstruir.

Page 330: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE C. Protocolo de Adquisición de una SPECT. 305 ______________________________________________________________________________

2. Reconstrucción.

.. Marcar los límites superior e inferior y reconstruir sin modificar nada.

.. Esta ventana es la que nos va a ofrecer una información general acerca de: ... Relación señal/fondo. ... Filtrado excesivo o insuficiente. ... Orientación / Colocación del volumen de estudio (cabeza...)

3. Post-Filtrado. .. Seleccionar el filtrado más adecuado. .. Recordar que la opción por defecto emplea:

Filtro Butterworth: Order: 6.0; Cutoff: 0.30 Estudios con tasa de cuentas en el primer frame inferiores a 45 kcts/paso, emplear un Butterworth: Order 4.5; Cutoff: 0.28. Estudios con tasa de cuentas en el primer frame superiores a 80 kcts/paso, emplear un Butterworth: Order 6.5; Cutoff: 0.35.

4. Corrección de Atenuación. .. Una corrección por corte. .. Quitar el valor máscara. .. Comprobar la angulación del plano sagital y si es preciso reorientar. .. Marcar un nivel del 15% y comprobar su grado de ajuste con la opción “cine”. Si es correcta habitualmente se queda en el límite de la calota. .. Aceptar el valor del coeficiente de corrección que propone por defecto. .. Aplicar la corrección.

5. Reangulación en los planos ortogonales. .. Sin comprimir los cortes, o sea cada 1. .. Reangular en los planos:

... Orbito/Meatal: Es el plano convencional y en la práctica es más fácil obtenerlo a través de la línea que une imaginariamente el polo frontal con el polo occipital. En ocasiones cuando se estudia la base del cráneo puede ser de ayuda imaginar el volumen de la corteza cerebral que rellena el hueco (como un molde) de la calota ósea que sí suele ser captante de trazador (actividad inespecífica).

... Eje Óptimo Temporal. En la reorientación coronal se eligen los cortes del lóbulo temporal (aparece como unos roscos que cuelgan en los planos anteriores a la sustancia gris central) y se coloca el punto de referencia en el centro de ellos. Posteriormente en los cortes sagitales se orienta el plano transverso en el mismo sentido que el eje mayor del lóbulo temporal. En los planos transversos reconstruidos y

Page 331: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

306 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

reorientados aparecerá la imagen de los lóbulos temporales como un “croissant” de desayuno / merienda/ cena.

... En este punto es muy importante hacer un análisis completo del estudio ya que si existe algún hallazgo dudoso es el momento de conseguir la reorientación más adecuada para ponerlo en evidencia. Para ello se recomienda visualizar las imágenes en el formato final de

exposición. En la ventana de escalas se elige la opción Valor Superior / Inferior (Top/Botton) y se marcan los valores:

... Superior: 80-90

... Inferior: 0-5 según el nivel de fondo.

6. Procesamiento para Exposición Final. .. En la opción de procesamiento planar SPECT se puede elegir la opción de

magnificación (Zoom). Se selecciona un corte central (punto entre los dos tálamos puede ser una buena referencia) y se marcan los márgenes de modo que toda la corteza esté incluida dentro del cuadrado de referencia con un poco de espacio libre desde la corteza hasta el borde de dicho cuadrado.

.. Aplicar el Zoom y cerrar la ventana para pasar a las opciones de presentación (Display). .. Seleccionar la opción de Presentación A (Display A), y dentro de ella las opciones son:

.. Numeración del corte. Suele admitir una matriz de 8x6 imágenes apaisada.

.. Escala normalizada al 100% de la imagen.

.. Mostrar la escala de color (cool). .. Rotular la placa con la opción de etiquetado y flecha (Label and Arrow) y grabar todo el producto final como una pantalla de imagen (LightBox).

Rotulación: 1. Nombre del paciente y nº de historia clínica del hospital. 2. Fecha, tipo de gammagrafía. 3. Fase del estudio. 4. Etiquetas de orientación y lateralización de la zona de estudio (Ant, Post, LD, LI, Craneal, Caudal...). 5. Imprimir el producto final en el formato de color en horizontal,

tanto la exploración definitiva (papel) como la copia (placa).

.. Enviar al PACs los datos originales (raw data), la reconstrucción corregida (AC trans) y los tres ejes reorientados (transversales, sagitales y coronales).

Page 332: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

APÉNDICE C. Protocolo de Adquisición de una SPECT. 307 ______________________________________________________________________________

INTERPRETACIÓN.

En un estudio normal de perfusión cerebral las imágenes transversales y coronales deben de mostrar una distribución simétrica del radiofármaco en ambos hemisferios. Dado que la tasa de flujo sanguíneo es mayor en la sustancia gris que en la blanca, ésta última aparece globalmente como “hipoperfundida”. La sustancia gris muestra un gradiente de captación decreciente que suele ordenarse:

Cerebelo ≈ Sustancia Gris Central > Occipital (Ojos abiertos) > Resto de la Corteza. Las alteraciones regionales de flujo sanguíneo suelen mostrarse como zonas hipoperfundidas respecto a la corteza adyacente y/o contralateral respecto al patrón de captación normal.

DISIMETRÍA. La dosis estimada absorbida en órganos y tejidos de un sujeto estándar (70 Kg.) tras la administración i.v. de 20 mCi de 99mTc-HMPAO /ECD queda reflejada en la Tabla C.1.

Page 333: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

308 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

Tabla C.1 La dosis estimada absorbida en órganos y tejidos de un sujeto estándar (70 Kg.) tras la administración i.v. de 20 mCi de 99mTc-HMPAO /ECD.

Estimación de Dosis Absorbida

99mTc-HMPAO

99mTc-ECD

Tejido

rad/20 mCi

mGy/740

MBq

rad/20

mCi

mGy/740

MBq

Glándulas Lacrimales

5.16

51.6

-

-

Pared Vesícula

3.80

38.0

1.82

18.2

Riñón

2.60

26.0

0.54

5.40

Pared de Vejiga

0.94

9.40

5.40

54.0

Tiroides

2.0

20.0

0.26

2.6

Intestino Delgado

0.88

8.80

0.70

7.0

Intestino Grueso

Prox.

1.58

15.8

1.22

12.2

Intestino Grueso

Dist.

1.08

10.8

0.96

9.62

Hígado

1.08

10.8

0.39

3.92

Ovarios

0.46

4.60

0.40

4.00

Testículos

0.14

1.40

0.16

1.62

Médula Ósea

0.26

2.60

0.18

1.78

Cerebro

0.52

5.20

0.40

4.0

Ojos

0.52

5.20

-

-

Superficie Ósea

-

-

0.25

2.52

Cuerpo Total

0.26

2.60

0.18

1.78

Page 334: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA.

Page 335: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales
Page 336: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 311 _____________________________________________________________________________

[Acharya et al., 2008] Acharya, U.R., Sankaranarayanan, M., Nayak, J., Xiang, C., Tamura, T., “Automatic identification of cardiac health using modeling techniques : A comparative study”, Information Sciences 178 (23) 4571-4582, 2008. [Acton et al., 2002] Acton, P.D., Choi, S.R., Plössl, K., Kung, H.F., “Quantification of dopamine transporters in the mouse brain using ulra-high resolution single-photon emission tomography”, J Nucl Med, 29: 691, 2002. [Adler, 1981] Adler, R., “The Geometry of random fields”, Wiley, New York, 1981. [Albert et al., 2000] Albert, M., Drachman, D., “Alzheimer’s disease. What is it how many people have it and why do we need to known?”, Neurology, 55, 166-168, 2000. [Alexander et al., 2002] Alexander, G. E., Chen, K., Pietrini, P., Rapoport, S. I., Reiman, E. M., “Longitudinal PET evaluation of cerebral metabolic decline in dementia: A potential outcome measure in alzheimer's disease treatment studies”, The American Journal of Psychiatry 159 (5), 738-45, PMID: 11986126, May 2002. [Aha et al., 1991] Aha, D., Kibler, D., Albert, M., “Instance-based learning algorithms”, Machine Learning, Springer Netherlands, 1991. [Anderberg, 1973] Anderberg, M.R., “Cluster Análysis for Applications”, Academia Press, New Cork, 1973. [Andina de la Fuente, 2005] Andina de la Fuente, D., “Tutorial de Redes Neuronales Artificiales”, Universidad Politécnica de Madrid UPM, 2005. [Anger, 1958] Anger, H.O., ”Scintillaton camara ”, Rev Sci Instru, 29:27-33, 1958. [Arndt et al., 1996] Arndt, S., Cizadlo, T., O’Leary, D., Gold, S., Andrease, N. C., “Normalizing counts and cerebral blood flow intensity in functional imaging studies of the human brain”, Neuroimage, 3(3): 175-184, June 1996. [Ashuburner et al., 1999] Ashburner, J., Friston, K.J., “Nonlinear spatial normalization using basis functions”, Human Brain Mapping 7 (4) 254-66, 1999. [Ayache, N., 1996] Ayache, N., “Analyzing 3d images of the brain”, Neuroimage 4 (3), S34-S35, 1996. [Bailey et al., 2003] Bailey, D.L., Kart, J.S., Surti, S., “Physics and Instrumentation in PET”, Valk, P.E., Bailey, D.L., Townsend, D.W., Maisey, M.N., “Positron Emisión Tomography”, Basis Science and Clinical Practice. London. Springer; 41-67, 2003. [Bank, 1992] Bank, S., “Pattern Recognition and Image Preprocessign”, Marcel Dokker Inc, New York, 1992. [Bao, 2000] Bao, H., “Evaluation of discovered knowledge”, Ch7, in: Knowledge discovery and data mining techniques and practice, 2000.

Page 337: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

312 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Baxes, 1994] Baxes, G.A., “Digital image processing: principles and applications”, John Wiley & Sons, 1994. [Bell et al, 1995] Bell, A. J., Sejnowski, T. J., “An information-maximization approach to blind separation and blind deconvolution”, Neural Comput 7 (6), 1129-1159, Nov. 1995. [Bentley, 1975] Bentley, J., “Multidimensional binary search trees used for associative searching”, Comm. of the ACM, 18(9):509-517, 1975. [Bentley, 1979] Bentley, J., “Multidimensional binary search trees in database applications”, IEEE Trans. on Software Engineering, 5(4):333-340, 1979. [Berchtold et al., 1996] Berchtold, S., Keim, D., Kriegel, H., “The X-tree: an index structure for high-dimensional data”, Proc. 22nd Conference on Veriy Large Database, pages 28-39, 1996. [Berthier, 1991] Berthier, M., “Formas de presentación atípica de la enfermedad de Alzheimer”, Tolosa Bermejo Boller (eds): Demencia senil, Nuevas perspectivas, Barcelona: Springer-Verlag Ibérica, 26-32, 1991. [Bick, 1994] Bick, K., “The early store of Alzheimer Desease”, Terry R, Katzman R, Bick K, eds. “Alzheimer Disease”. New York, Raven Press, Ltd., 1994. [Bingham, 2003] Bingham, E., “Advances in independent component analysis with applications to data mining”, Ph.D. thesis, Helsinki University of Technology, 2003. [Bishop, 1995] Bishop, C.M., “Neuronal Networks for Pattern Recognition”, Oxford University Press, 1995. [Blum et al., 1997] Blum, A. L., Langley, P., “Selection of relevant features and examples in machine learning”, Artificial Intelligence 97, 245-271, 1997. [Braak et al., 1991] Braak, H., Braak, E., “Neuroppathological staging og Alzheimer’s related changes”, Acta Neuropathol 82, 239-259, 1991. [Braak et al., 1997] Braak, H., Braak, E., “Diagnostic criteria for neuropathologic assessment of alzheimer's disease”, Neurobiology and Aging 18 (4), S85-S88, 1997. [Bracco et al., 1994] Bracco, L., Gallato, R., Grigoletto, F., “Factors affecting course and survival in Alzeimer’s : a 9-year longitudinal study”, Arch Neuro, 51, 1213-1219, 1994. [Breiman et al., 1984] Breiman, L., Friedman, J.H., Olshen, R.A., Stone, C. J., “Classification and Regression Trees”, Wadsworth & Brooks/Cole Advanced Books & Sotfwar, Pacific Grove, CA, 1984. [Breiman, 1999] Breiman, L., “Pasting small votes for classi_cation in large database and on-line”, Machine Learning 36, 85-103, 1999.

Page 338: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 313 _____________________________________________________________________________

[Brin, 1995] Brin, S., “Near neighbor search in large metric spaces”, In Procc, 21st Conference on Very Large Databases, pages 574-584, 1995. [Brookmeyer et al, 1998] Brookmeyer, R., Gray, S., Kawas, C., “Projections of alzheimer's disease in the united states and the public health impact of delaying disease onset”, Am J Public Health 88 (9), 1337-1342, Sep. 1998. [Brown, 1992] Brown, L.G., “A Survey of Image Registration Techniques”, ACM Computing Surveys, 24 (4): 325-376, December 1992. [Bruyant, 2002] Bruyant, P.P., “Analytic and itetative reconstruction algorithms in spect”, The Journl of Nuclear Medicine 43 (10) 1343-1358, 2002. [Buntine et al., 1985] Buntine, W., Caruana, R., “Introduction to IND and Recursive Partitioning”, Research Institute for Advanced Computer Science, “An Introduction to CART Mehodology”, California Statistical Software, Inc., 1985. [Burges, 1998] Burges, C. J. C., “A tutorial on support vector machines for pattern recognition”, Data Minino and Knowledge Discovery 2 (2) 121-167, 1998. [Burns et al., 2002] Burns, A., Byrne, J., Maurer, K., “Alzheimer’s disease”, Lancet; 360: 163-165, 2002. [Burton, 2002] Burton, R., “Anatomía de la melancolía”, Asociación Española de Neuropsiquiatría, Madrid, 2002. [Busson et al., 1998] Busson, P., Nobrega, R., Varela, J., “Modular neural networks for online event classification in high energy physics”, Nucl. Inst. Meth. Phy. R., A 410 273-283, 1998. [Cachier et al., 2000] Cachier, P., Pennec, X., “3D non-rigid registration by gradient descent on a gaussian-windowed similarity measure using convolutions”, Proc. of IEEE Workshop on Mathematical Methods in Biomedical Image Analysis, pages 182-189, Hilton Heas Island, South Carolina, USA, IEEE Computer society, 2000. [Cachier et al., 2003] Cachier, P., Bardinet, E., Dormont, D., Pennec, X., Ayache, N., “Iconic Feature Based Nonrigid Registration : The PASHA Algorithm”, Computer Vision and Image Understanding, Press, 2003. [Cachier, 2002] Cachier, P., “Recalage non-rigide d’images médicales volumiques-contribution aux approches iconiques et geometriques. PhD thesis, École Centrale des Arts et Manufactures”, Paris, France, January 2002. [Canadian Study of Health and Aging Working Group, 1994] “Canadian Study of Health and Aging: Study methods and prevalence of dementia”, Can Med Assoc, 150 (6), 899-913, 1994. [Cao et al., 2009] Cao, X., Xu, Y., Che, D., Qiao, H., “Associated evolution of a support vector machine-based classifier for pedestrian detection”, Information Sciences 179 (8) 1070-1077, 2009.

Page 339: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

314 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Cardoso, 1990] Cardoso, J., “Eigen-Structure of the Fourth-Order cumulant tensor with application to the blind source separation problem”, Proceedings of ICASSP, 1990. [Cardoso et al. 1993] Cardoso, J., Souloumiac, A., “Blind beamforming for non gaussian signals”, IEE Proceedings-F 140, 362-370, 1993. [Carr et al., 1997] Carr, D. B., Goate, A., Phil, D., Morris, J. C., “Current concepts in the pathogenesis of alzheimer's disease”, The American Journal of Medicine 103 (3A), 3S-10S, PMID: 9344401, Sep. 1997. [Carreras, 1992] Carreras, J.L., “¿Año de la PET?”, Editorial. Rev Clinica Española; 190:385-387, 1992. [Carreras, 1995] Carreras, J.L., “La Tomografía por Emisión de Positrones en Oncología”, Discurso para la recepción pública de Académico Electo. Instituto de España. Real Academia Nacional de Medicina. Madrid 1995. [Casacuberta et al., 1987] Casacuberta, F., Vidal, E., “Reconocimiento Automático del Habla”, Marcombo, Barcelona, 1987. [Chang, 1978] Chang, L.T., “A Method for Attenuation Correction in Radionuclide Computer Tomography”, IEEE Trans Nucl Sci, NS-25: 638-643, 1978. [Chang, 1979] Chang, L.T., “Attenuation Correction nd Incomplete Projection in SinglePhoton Emission Computed Tomography”, IEEE Trans Nucl Sci, NS-26:2780-2789, 1979. [Chase et al., 1984] Chase, T. N., Foster, N. L., Fedio, P., Brooks, R., Mansi, L., Chiro, G. D., “Regional cortical dysfunction in alzheimer's disease as determined by positron emission tomography”, Annals of Neurology 15 Suppl, S170-4, PMID: 6611118, 1984. [Chatziioannou et al., 1999] Chatziioannou, A., Cherry, S., Shao, Y., “Performance evaluatin of micro PET: a high-resolution lutenium oxyorthosilicate PET scanner for animal imaging”, J Nucl Med; 40:1164-1175, 1999. [Chávez et al., 1997] Chávez, E., Marroquín, J., “Proximity queriers in metric spaces”, R. Baeza-Yates, editor, Proc. 4th South American Workshop on String Processing, 21-36, Carleton, University Press, 1997. [Chávez et al., 1999] Chávez, E., Marroquín, J., Baeza-Yates, R., “Spaghettis: an array besed algorithm for similarity queries in metric spaces”, Proc. 6th International Symposium on String Processing and Information Retrieval, 38-46, IEEE CS Press, 1999. [Chávez et al., 2001] Chávez, E., Marroquín, J., Navarro, G., “Fixed queries array: A fast and economical data structure for proximity searching”, Multimedia Tools and Applications, 14(2): 113-135, 2001.

Page 340: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 315 _____________________________________________________________________________

[Chávez et al., 2000a] Chávez, E., Navarro, G., “An effective clustiring algorithm to index high dimensional metric spaces”, Proceedings of the 7th International Symposium on String Processing and Information Retriaval, pages 75-86, IEEE Cs Press, 2000a. [Chávez et al., 2000b] Chávez, E., Navarro, G., “Measuring the dimensionality of general metric spaces”, Technical Report TR/DCC-00-1, Dept. of Computer Science, University of Chile, 2000b. [Chaves, et al., 2009] Chaves, R., Ramírez, J., Górriz, J.M., López, M., Salas-Gonzalez, D., Álvarz, I., Segovia, F., “SVM-based computer-aided diagnosis of the Alzheimer’s disease using t-test NMSE feature selection with feature correlation weighting”, Neuroscience Letters, Vol. 461, Pages 293-297, September 2009. [Chazelle, 1994] Chazelle, B., “Computational geometry: a retrospective”, In Proc. of the 26th ACM Symposium on the Theory of Computing, pages 75-94, 1994. [Chen et al., 1993] Chen, C. H., Pau, L. F., Wang, P. S. P., “Handbook of Pattem Recognition and Computer Vision”, World Scientific Pub. Co., Singapore, 1993. [Chen et al., 2006] Chen, X., Yan, S.D., "Mitochondrial Abeta: a potential cause of metabolic dysfunction in Alzheimer's disease", IUBMB Life 58 (12): 686–94, December de 2006. [Chen et al., 2009] Chen, K., Reiman, E. M., Huan, Z., Caselli, R. J., Bandy, D., Ayutyanont, N., Alexander, G. E., “Linking functional and structural brain images with multivariate network analyses: A novel application of the partial least square method”, NeuroImage In Press, Corrected Proof, 2009. [Chiern, 1978] Chiern, Y., “Interactive Pattem Recognition”, Marcel Dekker Inc., New York, 1978. [Chornoboy et al., 1990] Chornoboy, E.S., Chen, C.J., Miller, M.I., Miller, T.R., Snyder D.L., “An evaluaton of macimum likelihood reconstruction for spect”, IEEE Transactions on Medical Imaging 9 (1) 99-110, 1990. [Chun-Fu et al., 2002] Chun-Fu, L., Sheng-De W., “Fuzzy support vector machine”, IEEE Transactions on Neural Networks 13 (2) 464-471, 2002. [Ciaccia et al., 1997] Ciaccia, P., Patella, M., Zezula, P., “M-tree: an efficient access method for similarity search in metric spaces”, Proc. of the 23rd Conference on Very Large Databases, pages 426-435, 1997. [Clarkson et al., 1999] Clarkson, P., Moreno, P., “On the use of support vector machines for phonetic classification”, Proc of the IEEE Int. Conference on Acoustics, Speech and Signal Processing, Vol. 2, pp. 585-588, 1999. [Claus et al., 1994] Claus, J. J., van Harskamp, F., Breteler, M. M. B., Krenning, E. P., de Koning abd J. M. van der Cammen, I., Hofman, A., Hasan, D., “The diagnostic value of SPECT with tc 99m HMPAO in alzheimer's disease”, a population-based study, Neurology 44 (3), 454-461, 1994.

Page 341: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

316 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Coleman, 1991] Coleman, R.E., “Single Photon Emission Computed Tomography and Positron Emission Tomography in Cancer Imagig”, Cancer; 67:1261-1270, 1991. [Comon, 1994] Comon, P., “Independent component analysis, a new concept?”, Signal Process. 36 (3), 287-314, 1994. [Cormack, 1975] Cormack, A.M., “Reconstruction of Densities From Their Projections, UIT Applications in Radiological Physiscs”, Physics in Medicine and Biology, Vol. 18. pp. 195-207, 1975. [Costa, 2002] Costa, D.C., “For: Can ROI methodology/normalised tissue activities be used instead of absolute blood flow measurements in the brain?”, European Journal of Nuclear Medicine, 29(7):949-953, July 2002. [Cover, 1965] Cover, T. M., “Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition”, IEEE Transactions on Electronic Computers 14 (3), 326-334, 1965. [Crum et al., 1993] Crum, R., Anthony, J., Basset, S., Folstein, M., “Population based norms for the Mini-Mental State Examination by age and educational level”, Journal of the American Medical Association, 269 (18), 2386-2391, 1993. [Cuadras, 1980] Cuadras, C.M., “Métodos de Análisis Multivariante”, Eunibar, Barcelona, 1980. [Cummings, 1990] Cummings, J.L., “Frontal-subcortical circuits and human behabiour”, Arch Neurol. 50, 873-880, 1990. [Cummings et al., 1980] Cummings, J.L., Benson, D., Lo Verme S.Jr., “Reversible dementia”, JANIA, 243, 2434-2439, 1980. [Cummings et al., 1998] Cummings, J. L., Vinters, H. V., Cole, G. M., Khachaturian, Z. S., “Alzheimer's disease: etiologies, pathophysiology, cognitive reserve, and treatment opportunities”, Neurology 51 (suppl. 1), S2-S17, 1998. [de Leon et al., 2001] de Leon, M.J., Convit, A., Wolf, O.T., Tarshish, C., Y., DeSanti, S., Rusinek, H., Tsui, W., Kandil, E.,Scherer, A. J., Roche, A., Imossi, A., Thorn, E., Bombinski, M., Caraos, C., Lesbre, P., Schlyer, D., Poirier, J., Reisberg, B., Fowler, J., “Prediction of cognitive declive in normal elderly subjects with 2-[(18)F]fluoro-2-deoxy-D-glucose/poitron-emission tomography (FDG/PET)”, Proceedings of the Natioanal Academy of Sciences of the United States of America 98 (19), 10966-10971, PMID: 11526211, Sep. 2001. [de Leon et al., 1983] de Lleon, M. J., Ferris, S.H., George, A. E., Reisberg, B., Christman, D.R., Kricheff, I. I., Wolf, A. P., “Computed tomography and positron emission transaxial tomography evaluations of normal aging and alzheimer’s disease”, Journal of Cerebral Blood Flod and Metabolism: Official Journal of the International Society of Cerebral Blood Flow and Metabolism 3 (3), 391-4, PMID: 6603463, Sep. 1983.

Page 342: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 317 _____________________________________________________________________________

[Dasarathy, 1991] Dasarathy, B.V., “Nearest Neighbor Norms: NN Pattern Classification Techniques”, IEEE Computer Society Press, Los Alamos, CA, 1991. [Devijver et al., 1982] Devijver, P. A., Kittler, J., “Pattern Recognition: A Statistical Approach”, first edition Edition. Prentice Hall, 1982. [Doak, 1992] Doak, J., “An evaluation of feature-selection methods and their application to computer security”, Tech. rep., University of California, Department of Computer Science, 1992. [Doody et al., 2001] Doody, R., Massman, P., Dunn, J., “A method for estimating progression rates in Alzheimer Disease”, Arch Neuro, 58, 449-454, 2001. [Drzezga et al., 2003] Drzezga, A., Lautenschlager, N., Siebner, H., Riemenschneider, M., Willoch, F., Minoshima, S., Schwaiger, M., Kurz, A., “Cerebral metabolic changes accompanying conversion of mild cognitive impairment into alzheimer’s disease: a PET follow-up study”, European Journal of Nuclear Medicine and Molecular Imaging 30 (8), 1104-13, PMID: 12764551, Aug. 2003. [Duara et al., 1986] Duara, R., Grady, C., Haxby, J., Sundaram, M., Cutler, N. R., Heston, L., Moore, A., Schlageter, N., Larson, S., Rapoport, S. I., “Positron emission tomography in alzheimer's disease”, Neurology 36 (7), 879, Jul. 1986. [Duda, 1973] Duda, R.O., “Patten Classification and Scene Análisis”, John Whiley & Sons, New Cork, 1973. [Duhaylongsod et al., 1995] Duhaylongsod, F.G., Lowe, V.j., Patz, E., “Detectin of primary and recurrent lung cancer by means of F- 18 fluorodeoxyglucose positron emission tomography (FDG-PET)”, J Thorac Cardiovasc Surg; 110:130-140, 1995. [Duin, 2000] Duin, R. P. W., “Classiffers in almost empty spaces. In: Proceedings”, 15th International Conference on Pattern Recognition, Vol. 2. IEEE, pp.1-7, 2000. [Escudero, 1977] Escudero, L.F., “Reconocimiento de Patrones”, Paraninfo, Madrid, 1977. [English et al., 1996] English, R. J., Childs, J., “SPECT: Single-Photon Emission Computed Tomography: A Primer”, Society of Nuclear Medicine, 1996. [Enqing et al., 2002a] Enqing, D., Heming, Z., Yongli, L., “Low bit and variable rate speech coding using local cosine transform”, Proc. of the 2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering, Vol. 1, 2002a. [Enqing et al., 2002b] Enqing, D., Guizhong, L., Yatong, Z., Xiaofi, Z., “Applying support vector machines to voice activity detection”, 6th International Conference on Signal Processing, Vol. 2, 2002b.

Page 343: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

318 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Enserinck, 1998] Enserinck, M., “Firs Alzheimer’s Diagnosis Confirmed”, Science; 279:2037, 1998. [Evans et al., 1989] Evans, D., Funkenstein, H., Albert, M., Scherr, P., Cook, N., Chown, M., Hebert, L., Hennekens, C., Taylor, J., “Prevalence of alzheimer's disease in a community population of older persons. higher than previously reported”, Journal of the American Medical Association 262 (18), 2551-2556, 1989. [Evans et al., 1993] Evans, A.C., Collins, D.L., Mills, S.R., Brown, E.D., Kelly, R.L., Peters, T.M., “3D statistical neuroanatomical models from 305 MRI volumes”, In Proceedings IEEE-Nuclear Science Symposium and Medical Imaging Conference, pages 1813-1817, 1993. [Falcón, 1999] Falcón, C., “Métodos iterativos de reconstrucción tomográfica en SPECT”, Tesis doctoral, Universitat de Barcelona, 1999. [Fawcett, 2006] Fawcett, T., “An introduction to ROC analysis”, Pattern Recogn. Lett. 27 (8), 861-874, 2006. [Filippini et al., 2009] Filippini, N., MacIntosh, B. J., Hough, M. G., Goodwin, G. M., Frisoni, G. B., Smith, S. M., Matthews, P. M., Beckmann, C. F., Mackay, C. E., “Distinct patterns of brain activity in young carriers of the APOE-E4 allele”, Proceedings of the National Academy of Sciences 106 (17), 7209-7214, Apr. 2009. [Fisher, 1936] Fisher, R., “The use of multiple measurements in taxonomic problems”, Annals Eugen. 7, 188, 179, 1936. [Foster et al., 1989] Foster, N. L., Chase, T. N., Fedio, P., Patronas, N. J., Brooks, R. A., Chiro, G. D., “Alzheimer's disease: Focal cortical changes shown by positron emission tomography”, Neurology 33 (8), 961, Aug. 1983. [Foster et al., 1984] Foster, N. L., Chase, T. N., Mansi, L., Brooks, R., Fedio, P., Patronas, N. J., Chiro, G. D., “Cortical abnormalities in alzheimer's disease”, Annals of Neurology 16 (6), 649-54, PMID: 6335378, Dec. 1984. [Frackowiak et al., 2003] Frackowiak, R. S. J., Ashburner, J. T., Penny, W. D., Zeki, S., “Human Brain Function”, Second Edition. Academic Press, Dec. 2003. [Freeman et al., 1993] Freeman, J.A., Skapura, D.M., “Redes Neuronales-Algoritmos, aplicaciones y técnicas de propagación”, Addison Wesley Iberoamericana- Ed. Diaz de Santos, 1993. [Friston et al., 1990] Friston, K.J., Fritr, C.D., Liddle, P.F., Dolan, R.J., Lammertsma, A.A., Frackowiak, R.S., “The relationship berween global and local changes in PET scans”, Journal of Cerebral Blood Flow and Metabolism, 10(4): 458-466, July 1990. [Friston et al., 1991] Friston, K.J., Frith, C.D., Liddle, P.F., Frackowiak, R.S.J., “Comparing Functional (PET) Images: The assessment of Significant Change”, Journal of Cerebral Blood Flow and Metabolism, 11(4):690-699, July 1991.

Page 344: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 319 _____________________________________________________________________________

[Friston et al., 1994] Friston, K.J., Worsley, K.J., Frackowiak, R.S.J., Mazziotta, J.C., Evans, A.C., “Assessing the Significance of Focal Activations Using Their Spatial Extent”, Human Brain Mapping, 1:210-220, 1994. [Fristron et al., 1996] Friston, K.J., Holmes, A., Poline, J.B., Price, C.J., Frith, C.D., “Detecting activations in PET and fMRI: levels of inference and power”, Neuroimage, 4(3):223-235, December 1996. [Friston et al., 2007] Friston, K.J., Ashuburner, J., Kiebel, S.J., Nichols, T.E., Penny, W.D., “Statistical Parametric Mapping: The Analysis of Functional Brain Images”, Academic Press, 2007. [Fukunaga, 1972] Fukunaga, K., “Introduction to Statistical Pattem Recognition”, Academic Press, New York, 1972. [Funahaski, 1989] Funahaski, K.I., “On the approximate realization of continuous mappings by neural networks”, Neural networks, 2, 183-192, 1989. [Fung et al., 2007] G. Fung, G., Stoeckel, J., “SVM feature selection for classification of SPECT images of Alzheimer’s disease using spatial information”, Knowledge and Information Systems 11 (2) 243-258, 2007. [Ganapathiraju et al., 2004] Ganapathiraju, A., Hamaker, J.E., Picone, J., “Applications of support vector machines to speech recognition”, IEEE Transactions on Signal Processing 52 (8) 2348-2355, 2004. [Goate et al., 1991] Goate, A., Chartier-Harlin, C., Munan, M., “Segregation of an inissense mutation in the anivioid protein precursor gene with familial Alzheimer’s disease”, Nature, 349, 704-709, 1991. [Goethals et al., 2002] Goethals, I., van deWiele, C., Slosman, D., Dierckx, R., “Brain SPECT perfusion in early Alzheimer disease: where to look?”. European Journal of Nuclear Medicine 29 (8), 975-978, 2002. [Goldberg et al., 1995] Goldberg, R., Goldberg, J., “Low dose risperidone for dementia related disturbed behavior in nursing homes”, J. Am Psychoanal Assoc, supl. 126, 1995. [Goldberger et al., 2006] Goldberger, J., Gordon, S., and Greenspan, H., “Unsupervised image-set clustering using an information theoretic framework,” IEEE Trans. Image Process. 15, 449–458, 2006. [Górriz et al., 2008] Górriz, J.M., Ramírez, J., Lassl, A., Salas, D., Lang, E.W., Puntonet, C., López, M., “Automatic computer arded diagnosis tool using component-based svm”, Medical Image Conference, 19-25, Dresden (Germany) October, 2008. [Górriz et al., 2009] Górriz, J.M., Lassl, A., Ramírez, J., Salas-Gonzalez, D., Puntonet, C.G., Lang, E.W., “Automatic selection of ROIs in functional imaging using Gaussian mixture models”, Neuroscience Letters, Vol. 460, (2), 108-111, August 2009.

Page 345: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

320 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Graeber et al., 1998] Graeber, M., Kosel. S., Grasbon-Frodl, E., Moller, H., Meheraein, P., “Histopathology and APOE genotype of the first Alzheimer disease patient”, Auguste D. Neurogenetics; 1: 223-228, 1998. [Graeber, 1999] Graeber, M., “No Man Alone: The Rediscovery of Aloïs Alzheimer’s Original Cases”, Brain Pathology; 237-240, 1999. [Graete et al., 2003] Graete, T.P., Hellwing, D., Hoffmann, K., “Mediastinal Lymph node sataging in suspected lung cancer: comparison of positron emission tomography with F-18 fluoredeoxyglucose and mediastinoscoy”, Ann Thorac surg; 75: 231-236, 2003. [Greig et al., 2004] Greig, N.H., Mattson M.P., Perry T., "New therapeutic strategies and drug candidates for neurodegenerative diseases: p53 and TNF-alpha inhibitors, and GLP-1 receptor agonists", Ann. N. Y. Acad. Sci. 1035: 290–315, December de 2004. [Guimond et al., 1998] Guimond, A., Meunier, J., Thirion, J.-P., ”Automatic computation of average brain models”, In W.M., Well, Colchester, A., Delp, S., editors, Medical Image Computing and Computer-Assisted Intervention, Vol. 1496 of Lecture Notes in Computer Science, 623-630, Berlin, Germany, October 1998. [Guimond et al., 1999] Guimond, A., Meunier, J., Thirion, J.-P., ” Average Brain Models: A Convergence Study”, Technical Report RR-3731, INRIA, Sophia Antipolis, France, 1999. [Guimond et al., 2000] Guimond, A., Meunier, J., Thirion, J.-P., ”Average brain models: a convergence study”, Computer Vision and Image Understanding, 77(2):192-210, February 2000. [Guttman, 1984] Guttman, A., “R-trees: a dynamic index structure for spatial searching”, Proc. ACM SIGMOD Internatioal Conference on Management of Data, pages 47-57, 1984. [Haberkorn et al., 1991] Haberkorn, U., Strauss, L.G., Knopp, M.V., “PET studies of FDG metabolism in patients with recurrente colorecal tumors receiving radiatherapy”, J Nucle Med; 32:1485-1490, 1991. [Hand, 1981] Hand, D. J., “Discrimintation and Classification”, John Wiley & Sons, Chichester, 1981. [Hand, 1996] Hand, D.J., “Construction and assessment of classification rules”, 3rd ed. New Yord: John Wiley, 1996. [Haralick et al., 1973] Haralick, R.M., Shanmugam, K., Dinstein, I., “Textural features for image classification”, IEEE Transactions on Systems, Man and Cybernetics 3(6) 610-621, 1973. [Haykin, 1999] Haykin, S., “Neural Networks”, Prentice-Hall, New Yersey, USA, 1999. [Hebb, 1949] Hebb D., “Organization of the Behaviour”, Wiley, 1949.

Page 346: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 321 _____________________________________________________________________________

[Heisele et al., 2000] Heisele, B.,Poggio, T., Pontil, M., “Face detection in still gray images”, Computer Vision and Image Understanding, 6-21, 2000. [Heisele et al., 2003] Heisele, B., Ho, P., Wu, J., Poggio, T., “Face recognition: component-based versus global approaches”, Computer Vision and Image Understanding 91 6-21, 2003. [Hellman et al., 1989] Hellman, R. S., Tikofsky, R. S., Collier, B. D., Hoffmann, R. G., Palmer, D. W., Glatt, S., Antuono, P. G., Isitman, A. T., Papke, R. A., “Alzheimer disease: quantitative analysis of i-123-iodoamphetamine spect brain imaging”, Radiology 172, 183-188, 1989. [Herholz et al., 2002] Herholz, K., Schopphoff, H., Schmidt, M., Mielke, R., Eschner, W., Scheidhauer, K., Schicha, H., Heiss, W., Ebmeier, K., “Direct comparison of spatially normalized PET and SPECT scans in alzheimer's disease”, J Nucl Med 43 (1), 21-26, 2002. [Hermqn, 1999] Hermqn, G. T., “Image Reconstruction from Projections”, Computer Science and Applied Mathematics. Academic Press, N.Y. y Kuba A. (Eds.). “Discrete Tomography”, Springer Verlag, Berlín, 1999. [Higdon et al., 2004] Higdon, R., Foster, N.L., Koeppe, R.A., DeCarli, C.S.,Jagust, W.J., Clark, C.M., Barbas, N.R.,Arnold, S.E.,Turner, R.S., Heidebrink, J.L., Minoshima, S., “Comparison of classification methods for differentiating fronto-temporal dementia from Alzheimer’s disease using FDG-PET imaging”, Statistics in Medicine 23 315-326, 2004. [Hill et al., 2001] Hill, D.L., Batchelor, P.G., Holden, M., Hawkes, D.J., “Medical image regestration”, Phisics in Medicine and Biology, 46(3): R1-R5, March 2001. [Hoffman et al., 1986] Hoffman, E. J., Phelps, M. E., “Positron Emission Tomography and Autoradiography: Principles and Applications for the Brain and Heart”, Ch. Positron emission tomography: principles and quantitation, pp. 237- 286, 1986. [Hoffman et al., 2000] Hoffman, J.M., Welsh-Bohmer, K.A.,Hanson, M., “FDG PET imaging in patients with pathologically verified dementia”, Journal of Nuclear Medicine 41 (11) 1920-1928, 2000. [Holman et al., 1992] Holman, B. L., Johnson, K. A., Gerada, B., Carvalho, P. A., Satlin, A., “The scintigraphic appearance of alzheimer's disease: A prospective study using technetium-99m-hmpao spect” J. Nucl. Med. 33 (2), 181-185, 1992. [Hooper et al., 1990] Hooper, H.R., McEwan, A.J., Lentle, B.C., Kotchon, T.L., Hooper, P.M., “Interactive three-dimensional region of interest analysis of HMPAO SPECT brain studies”, Journal of Nuclear Medicine, 31(12):2046-2051, December 1990. [Housenfield, 1972] Housenfield, G. N., “A Method and Apparatus for Examination of a Body by Radiation Sucha as X or Gamma Radiation”, Patent specification 1283915, The Paten Office, London, England, 1972.

Page 347: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

322 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Huberty, 1994] Huberty, C. J., “Appiled Disciminant Analysis”, John Wiley & Sons, Inc., New York, 1994. [Hudson et al., 1994] Hudson, H.M., Larkin, R.S., “Accelerated image reconstruction using ordered subsets of projection data”, IEEE Transactions on Medical Imaging 13 (4) 601-609, 1994. [Hustinx et al., 1999] Hustinx, R., Smith, R.J., Bernard, F., “Dual time poit 18 fluorine fluorodeoxyflucose positron emission tomography; a potencial method to differentiat malignancy from inflammation and normal tisse in the head and nexk”, J Nucl Med; 26: 1345-1348, 1999. [Hyun-Chul et al., 2003] Hyun-Chul, K., Shaoning, P., Hong-Mo, J., Kim, D., Bang, S.Y., “Construction support vector machine ensemble”, Pattern Recognitin 36 (12) 2757-2767, 2003. [Hyvaerinen, 1999] Hyvaerinen, A., “Fast and robust Fixed-Point algorithms for independent component analysis”, IEEE Transactions on Neural Networks 10 (3), 634, 626, 1999. [Ibañez et al., 1998] Ibañez, V., Pietrini, P., Alexander, G. E., Furey, M. L., Teichberg, D., Rajapakse, J. C., Rapoport, S. I., Schapiro, M. B., Horwitz, B., “Regional glucose metabolic abnormalities are not the result of atrophy in alzheimer's disease”, Neurology 50 (6), 1585-93, PMID: 9633698, Jun. 1998. [Illán, 2009] Illán I. A., “Análisis en Componentes de Imágenes Funcionales para la ayuda al diagnóstico de la Enfermedad de Alzheimer”, Tesis Doctoral, Directores: Górriz J.M., Puntonet C.G., Ramírez, J., Julio 2009. [Illán et al., 2009] Illán, I. A., Górriz, J. M., Ramírez, J., Salas-González, D., López, M., Puntonet, C. G., Segovia, F., “Alzheimer's diagnosis using eigenbrains and support vector machines”, IET Electronics Letters 45 (7), 342-343, 2009. [Illán et al., 2010] Illán, I.A., Górriz, J.M., Ramírez, J., Salas-Gonzalez, D., López, M., Segovia, F., Padilla, P., Puntonet, C.G., “Projecting independent components of SPECT images for computer aided diagnosis of Alzheimer's disease”, Pattern Recognition Letters Article in Press, 2010. [Ishii et al., 2006] Ishii, K., Kono, A. K., Sasaki, H., Miyamoto, N., Fukuda, T., Sakamoto, S., Mori, E., “Fully automatic diagnostic system for early- and late-onset mild Alzheimer's disease using FDG PET and 3D-SSP”, European Journal of Nuclear Medicine and Molecular Imaging 33 (5), 575-583, 2006. [Ivanov et al., 2004] Ivanov, Y., Heisele, B., Serre, T., “Using component features for face recognition”, Proc. of the Sixh IEEE Int. Conference on Automatic face Gesture Recognition, 2004. [Jacoby et al., 2005] Jacoby, R., Oppenheimer, C., “Psiquiatría en el anciano”, Elsevier España, 2005.

Page 348: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 323 _____________________________________________________________________________

[Jacobs et al., 1994] Jacobs, D., Sano, M., Marder, K., “Age at onset ot Alheimer’s disease : relation to pattern of cognitive dysfunction and rate of decline”, Neurology, 44, 1215-1220, 1994. [Jain et al., 1987] Jain, A.K., Dubes, R.C., Chen, C.C., “Bootstrap techniques for error estimation”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 9(9): 628-636, September 1987. [Jain et al., 1988] Jain, A. K., Dubes, R. C., “Algorithms for Clustering Data”, Pretice Hall, Englewood Cliffis, New Jersey, 1988. [Jain et al., 2000] Jain, A.K., Duin, R.P.W., Mao, J., “Statistical Pattern Recognition : A Review”, IEEE Transactions on Pattern Analysis ans Machine Intelligence, 22(1):4-37, January 2000. [Jain, 1989] Jain, A.K., “Fundamentals of Digital Image Processing”, Prentice-Hall International, 1989. [Jain et al., 1999] Jain, A. K., Murty, M. N., and Flynn, P. J., “Data clustering: a review,” ACM Comput. Surv. 31, 264–323, 1999. [Joachims, 1998] Joachims, T., “Text categorizatin with Support Vector Machines: Learning with many relevant features”, Lecture Notes in Computer Science, Vol. 1398, 1998. [John et al., 1994] John, G. H., Kohavi, R., Peger, K., “Irrelevant features and the subset selection problem”, International Conference on Machine Learning. pp. 121-129, 1994, journal version in AIJ, available at http://citeseer.nj.nec.com/13663.html. [Johnson et al., 1993] Johnson, K. A., Kijewski, M. F., Becker, J. A., Garada, B., Satlin, A., Holman, B. L., “Quantitative brain spect in alzheimer's disease and normal aging”. J. Nucl. Med. 34 (11), 2044-2048, 1993. [Jolliffe, 2002] Jolliffe, I. T., “Principal Component Analysis”, 2nd Edition. Springer series in statistics. Springer, 2002. [Julin et al., 1997] Julin P., Lindqvist, J., Svensson, L., Slomka, P., Wahlund, O., “MRI-Guided SPECT Measurements of Medial Temporal Lobe Blood Flow in Alzheimer’s Disease”, The Journal of Nuclear Medicine Vol. 38 No. 6914-919, June 1997. [Kak, 1985] Kak, A.C., “Tomographic Imagining with Diffraction and non-Diffracting Sourses”, en Haykin, S. (ed) Array Signal Processing.Pretince Hall, Englewood Cliffs N. J., 1985. [Kalatzis et al., 2003] Kalatzis, I., Pappas, D., Piliouras, N. Cavouras, D., “Support vector machines based analysis of brain SPECT images for determining cerebral abnormalities in asymptomatic diabetic patients”, Medicar Informatics and the Internet in Medicine 28 (3) 221-230, 2003.

Page 349: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

324 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Kanak et al., 1997] Kanak Ali, Stefanos Manganaris, Ramakrishnan Skirant. “Partial Classification using Association Rules”, Internacional Conference on Knowledge Discovery in Databases and Data Mining, California, USA, 1997. [Karas et al., 2004] Karas, G., Scheltens, P., Rombouts, S., Visser, P., van Schijndel, R., Fox, N., Barkhof, F., “Global and local gray matter loss in mild cognitive impairment and alzheimer's disease”, NeuroImage 23 (2), 708-716, Oct. 2004. [Katzman, 1993] Katzman, R., “Education and the prevalence of dementia and Alzheimer’s disease”, Neurology, 43, 13-20, 1993. [Kim et al., 1997] Kim, D., Kim, C., “Forescasting time series with genetic fuzzy predictor ensemble”, IEEE Transactions on Fuzzy Systems 5 (4) 523-535, 1997. [Kim et al., 2002] Kim, K.I., Jung, K., Park, S.H., Kim, H.J., “Support vector machines for texture classification”, IEEE Transactions on Pattern Analysis and Machine Intelligence 24 (11) 1542-1550, 2002. [Kircher et al., 1996] Kircher, T., Wormstall, H., “Origin of Alois Alzheimer’s Interest in Neorohistology”, Am J Psychiatry; 153: 1369-1370, 1996. [Kogure et al., 2000] Kogure, D., Matsuda, H., Ohnishi, T., Asada, T., Uno, M., Kunihiro, T., Nakano, S., Takasaki, M., “Longitudinal evaluation of early Alzheimer disease using brain perfusion SPECT”, The Journal of Nuclear Medicine 41 (7), 1155-1162, 2000. [Kohavi, 1995] Kohavi, R., “A study of cross-validation and bootstrap for accuracy estimation and model selection” Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, Vol. 2. pp. 1137-1143, 1995. [Kohavi et al., 1997] Kohavi, R., John, G. H., “Wrappers for feature subset selection”, Artificial Intelligence - Special issue on relevance 97 (1-2), 273-324, 1997. [Knuuti et al., 1992] Knuuti, M.J., Nuutila. P., Ruotsalainen, “Euglycenic hyperinsulinemic clanp and oral glucose load in stimulating myocardial glucose utilization during positron emission tomography”, J. Nucl. Med.; 33:1255-1262, 1992. [Ku et al., 1991] Ku, C.C., Lee, K.Y., Edwards, R.M., “Neural network for adapting nuclear power plant control for wide rang operation”, Transaction American Nuclear Soc., 63, 114-115, 1991. [Kuwert et al., 1992] Kuwert, T., Ganslandt, t., Jansen, P., Julicher, F., Lange, H., Herzog, H., Scholz, D., Aulich, A., Feinendegen, L.E., “Influence of size of regions of interest on PET evaluatin of caudate glucose consumption”, Journal of Computer Assisted Tomography, 16(5): 789-794, September 1992. [Lalonde et al., 2000] Lalonde, F.M., Myslobodsky, M., Small, C., Gwadry, F., Sunderland, T., “Entorhinal cortex volumen asymmetry may signal haigher risk for Alzheimer’s disease”, Proc. Intl. Sot. Mag. Reson. Med. 8, 2000.

Page 350: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 325 _____________________________________________________________________________

[Langbaum et al., 2009] Langbaum, J. B., Chen, K., Lee, W., Reschke, C., Bandy, D., Fleisher, A. S., Alexander, G. E., Foster, N. L., Weiner, M. W., Koeppe, R. A., Jagust, W. J., Reiman, E. M., “Categorical and correlational analyses of baseline uorodeoxyglucose positron emission tomography images from the alzheimer's disease neuroimaging initiative (ADNI)”, NeuroImage 45 (4), 1107-1116, May 2009. [Lange et al., 1984] Lange, K., Carson, R., “EM reconstruction for emission and transmission tomography”, Journal of Computer Assisted Tomography 8 306-312, 1984. [Lassen et al., 1988] Lassen, N.A., Andersen, A.R., Friberg, L., Paulson, O.B., “The retention of [99mTc]-d,1-HM-PAO in the human brain after intracarotid bolus injection: a kinetic analysis”, Journal of Cerebral Blood Flow and Metabolism, 8(6): S13-S22, December 1988. [Lassl et al., 2008] Lassl, A., Górriz, J. M., Ramírez, J., Salas-Gonzalez, D., Puntonet, C. G., Lang, E. W., “Clustering approach for the classificarion of spect images”, IEEE Nuclear Science Symposium Conference Record. pp. 5345-5348, 2008. [Lent et al., 1973] Lent, A., Rowland, S., Heman, G.T., “ART: Mathemathics and Applications (A Report on the Mathematical Foundains and on the Applicability to Real Data of The Algebraic Reconstruction Techniques)”, Journal of Theoretical Biology. Vol 42 pp 1-32, 1973. [Levy, 1994] Levy, R., “Age associated cognitive decline” Int. Psychogeriatr, 7, 121-128, 1994. [Levy-Lahad et al., 1994] Levy-Lahad, E., Wasco, W., Poorkaj, P., “Candidate gene for the chromosome 1 familial Alzheimers’s disease locul”, Science, 269, 973-977, 1994. [Li et al., 2001] Li, X., Wang, L., Sung, E., “Adaboost wist svm-based componente classifiers”, Engineering, Tech. Rep., 2001. [Loken, 1985] Loken, M.K., “A History of Clinical Nuclear Medicine”,Eds. Freeman, LM; Wessman, MS: Nucl Med, New York, Raven Press, 1985. [Lobo, 1992] Lobo, A., “Delirium and C/L”, Psychiatry in European Hospitals, Symposium, Amsterdam ECLW health service study. Amsterdam, 1992. [Lobo et al., 1999] Lobo, A., Saz, P., Marcos, G., Día, J.L., “Revalidación y normalización del Mini-Examen Cognitivo (primera versión en castellano del Mini-Mental Status Examination (MMSE)) en la población general geriátrica”, 112, 767-774, Barcelona: Med Clín, 1999. [Lobo et al., 1979a] Lobo, A., Ezquerra, J., Gómez, F., Sala, J.M., Seva, A., “El Mini-Examen Cognitivo: un test sencillo práctico para detectar alteraciones intelectivas en pacientes médicos”, Actas Luso Españolas de Neurología Psiquiatría y Ciencias Afines, 7(3), 189-202, 1979a.

Page 351: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

326 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Lobo et al., 1979b] Lobo, A., Folstein, M.F., Abeloff, M.D., “Incidencia prevalencia y detección de morbilidad psiquiátrica en un hospital oncológico”, Folia Neuropsiquiátrica, XIV (1-4), 260-269, 1979b. [Lobo et al., 2000] Lobo, A., Launer, L.J., Fratiglioni, L., “Prevalence of dementia and major subtypes in Europe : A collaborative study of popultion-based cohorts”, Neurology, 54(5), 54-59, 2000. [Loebel, 1990] Loebel, P., “Vascular dementia”, Dementia, 1, 175-184, 1990 [Loebel et al., 1994] Loeber, P., Leivobici, A., “The management of other psychiatric state. Hallucinations delusions and other disturbances”, Med Clin North, Am. 78, 841-859, 1994. [López et al., 2009a] López, M., Ramírez, J., Górriz, J. M., Salas-González, D., Illan, I. A., Segovia, F., Puntonet, C. G., “Automatic tool for the alzheimer's disease diagnosis using pca and bayesian classification rules”, IET Electronics Letters 45 (8), 389-391, 2009a. [López et al., 2009b] López, M., Ramírez, J., Górriz, J.M., Álvarez, I., Salas-Gozalez, D., Segovia, F., Chaves, R., “SVM-based CAD system for early detection of the Alzheimer’s disease using kernel PCA and LDA”, Neuroscience Letters, Vol. 64, Pages 233-238, October 2009b. [Maintz et al., 1998] Maintz, J.B.A., Viergever, M.A., “A Survey of Medical Image Registration”, Medical Image Analysis, 2(1) :1-37, March 1998. [Mangasarian et al., 2001] Mangasarian, O.L., Musicant, D.R., “Lagrangian support vector machine classification “, Tech. Rep. 2001. [Markiewicz et al., 2009] Markiewicz, P., Matthews, J., Declerck, J., Herholz, K., “Robustness of multivariate image analysis assessed by resampling techniques and applied to FDG-PET scans of patients with alzheimer's disease”, Neuroimage 46 (2), 472-485, Jun. 2009. [Mattich, 2001] Mattich, D.J., “Redes Neuronales Artificiales. Conceptos Básicos y Aplicaciones”, Universidad Tecnológica Nacional, Rosario, Argentina, 2001. [Maurer et al., 1997] Maurer, K., Volk, S., Gerbaldo, H., “Auguste D. And Alzheimer’s disease“, Lance; 349: 1546-1549, 1997. [McClelland et al., 1986] McClelland, J.L., Rumelhart, E., “Parallel Distributed Processing“,Psychological and Biological Models, MIT Press, Vol 2., 1986. [McCulloch et al., 1949] McCulloch W.S., Pitts, W., “A logical calculus of the ideas immanent in nervous activity”, Bulletin of Mathematical Biophysics, 5, 115-133, 1949.

Page 352: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 327 _____________________________________________________________________________

[McGeer et al., 1990] McGeer, E. G., Peppard, R. P., McGeer, P. L., Tuokko, H., Crockett, D., Parks, R., Akiyama, H., Calne, D. B., Beattie, B. L., Harrop, R., “18Fluorodeoxyglucose positron emission tomography studies in presumed alzheimer cases, including 13 serial scans”, The Canadian Journal of Neurological Sciences. Le Journal Canadien Des Sciences Neurologiques 17 (1), 1-11, PMID: 2311010, Feb. 1990. [Mecher, 2000] Mecher, C., “Scintillation crystals for PET”, J. Nucl. Med.; 41: 1052-1055, 2000. [Mehta et al., 1995] Mehta, M., Rissanen, J., Agrawal, R., “MDL-based Decision Tree Prunning”, International Conference on KDD and Data Mining, Montreal, Canada, 1995. [Mehta et al., 1996] Mehta, M., Agrawal, R., Rissanen, J., “SLIQ: A Fast Scalable Classifier for Data Mining”, 5th International Conference on Extending Database Technology, Avignon, France, 1996. [Messa et al., 1994] Messa, C., Perani, D., Lucignani, G., Zenorini, A., Zito, F., Rizzo, G., Grassi, F., Del Sole, A., Franceschi, M., Gilardi, M. C., Fazio, F., “High-Resolution Technetium-99m-HMPAO SPECT in Patients with Probable Alzheimer's Disease: Comparison with Fluorine-18-FDG PET”, J. Nucl. Med. 35 (2), 210-216, 1994. [Metz et al., 1974] Metz, C.E., Beck, R.N., “Quantitative effects of stationary linear image processing on noise and resolution of structure in radionuclide images”, J. Nucl. Med., 15: 164-170, 1974. [Metz et al., 1980] Metz, C.E., Atkins, F.B., Beck, R.N., “The Geometric Transfer Function Compunent for Scintillantion Camara Collimators with Straight Parallel Holes”, Phys Med Biol, 25: 1059-1070, 1980. [Michael et al., 1997] Michael, J.A., Berry, Linoff, G., “Data Mining Techniques for Marketing, Sales, and Customer Support”, USA: John Wiley & Sons, 1997. [Minoshima et al., 1994] Minoshima, S., Foster, N., Kuhl, D., “Posterior cingulate cortex in alzheimer's disease”, The Lancet 344 (8926), 895, Sep. 1994. [Minoshima et al., 1995] Minoshima, S., Frey, K. A., Koeppe, R. A., Foster, N. L., Kuhl, D. E., “A diagnostic approach in alzheimer's disease using three-dimensional stereotactic surface projections of uorine-18-FDG PET”, Journal of Nuclear Medicine: Official Publication, Society of Nuclear Medicine 36 (7), 1238-48, PMID: 7790950, Jul. 1995. [Minoshima et al., 1997] Minoshima, S., Giordani, B., Berent, S., Frey, K. A., Foster, N. L., Kuhl, D. E., “Metabolic reduction in the posterior cingulate cortex in very early alzheimer's disease”, Annals of Neurology 42 (1), 85-94, PMID: 9225689, Jul. 1997. [Miranda et al., 2008] Miranda, A., Borgne, Y. L., Bontempi, G., “New routes from minimal approximation error to principal components”, Neural Processing Letters 27 (3), 197-207, Jun. 2008.

Page 353: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

328 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Minsky et al., 1969] Minsky, M., Papert, S., “Preceptrons: An Introduction to Computational Geometry”, MIT Press, 1969. [Morales et al., 1995] Morales, J.M., González J.L., Bermejo, F., “The screening of mild dementia with a shortened Spanish versión of the Informant Questionnaire on Cognitive Deeline in the Elderly Alzheimer”, Dis Assoc Disord, 9, 105-111, 1995. [Moreno, 2004] Moreno, F., “Clasificadores eficaces basados en algoritmos rápidos de búsqueda del vecino más cercano”, Departamento de lenguajes y sistemas informáticos, Universidad de Alicante, 2004. [Morris, 1993] Morris, J., “Clinical dementia rating”, Neurology 43, 2412-2414, 1993. [Mosconi, 2005] Mosconi, L., “Brain glucose metabolism in the early and specific diagnosis of alzheimer's disease. FDG-PET studies in MCI and AD” European Journal of Nuclear Medicine and Molecular Imaging 32 (4), 486-510, PMID: 15747152, Apr. 2005. [Mosconi et al., 2008] Mosconi, L., Tsui, W. H., Herholz, K., Pupi, A., Drzezga, A., Lucignani, G., Reiman, E. M., Holtho., V., Kalbe, E., Sorbi, S., Diehl-Schmid, J., Perneczky, R., Clerici, F., Caselli, R., Beuthien-Baumann, B., Kurz, A., Minoshima, S., de Leon, M. J., “Multicenter standardized 18FFDG PET diagnosis of mild cognitive impairment, alzheimer's disease, and other dementias”, J. Nucl. Med. 49 (3), 390-398, Mar. 2008. [Müller et al., 2001] Müller, K.R., Mika, S., Rätsch, G., Tsuda, K., Schölkopf, B., “An introduction to kernel-based learning algorithms”, IEEE Transactions on Neural Networks 12(2) 181-201, 2001. [Nestor et al., 2003] Nestor, P. J., Fryer, T. D., Smielewski, P., Hodges, J. R., “Limbic hypometabolism in alzheimer's disease and mild cognitive impairment”, Annals of Neurology 54 (3), 343-351, 2003. [Newiger et al., 1999] Newiger, H., Hämisch, Y., Oehr, P., “Physical Principles”, Ruhlmann J, Oerh P, Biersack H-J (Eds.) PET in Oncology. Basis en Clinical Applications. Berlin. Springer; 3-34, 1999. [Newman et al., 2008] Newman, J., von Cramon, D. Yves, and Lohmann, Gabriele, “Model-based clustering of meta-analytic functional imaging data,” Human Brain Mapping 29, 177–192, 2008. [Nils et al., 2000] Nils, J., Nilson, “Inteligencia Artificial”. Ed. Mc Graw Hill, España, 2000. [Nilsson, 1990] Nilsson, N. J., “The Mathematical Foundations of Leaming Machines”, Morgan Kaufmann Pub., San Mateo, California, 1990.

Page 354: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 329 _____________________________________________________________________________

[Nitrini et al., 2000] Nitrini, R., Buchpiguel, C., Caramelli, P., Bahia, V., Mathias, S., Nascimento, C., Degenszajn, J., Caixeta, L., “Spect in alzheimer's disease: features associated with bilateral parietotemporal hypoperfusion”, Acta Neurologia Scandinava 101 (3), 172-176, 2000. [Nobili et al., 2008] Nobili, F., Salmaso, D., Morbelli, S., Girtler, N., Piccardo, A., Brugnolo, A., Dessi, B., Larsson, S. A., Rodriguez, G., Pagani, M., “Principal component analysis of fdg pet in amnestic mci”, J Nucl Med Mol Imaging 35 (12), 2191-2202, 2008. [Oerhr, 1999] Oerhr, P., “Metabolism amd Transpor of Glucosse and FDG”, Ruhlmann J, Oehr P, Biersack H-J (Eds.) PET in Oncology, Basis en Clinical Applications, Berlin, Springer; 44-57, 1999. [Oja, 1997] Oja, E., “A fast fixed-point algorithm for independent component analysis”, Neural Computation 9, 1483-1492, 1997. [Pang et al., 2005] Pang, B., Zhang, D., Wang, K., “Tongue image analysis for appendicitis diagnosis”, Information Sciences 175 (3) 160-176, 2005. [Pascual et al., 2002] Pascual, L.F., Santos, S., Fernández, T., “Presentación clínica típica de la enfermedad de Alzheimer”, Madrid: Aula Médica Ediciones, 69-80, 2002. [Patwardhan et al., 2004] Patwardhan, M. B., McCrory, D. C., Matchar, D. B., Samsa, G. P., Rutschmann, O. T., “Alzheimer disease: Operating characteristics of PET- a Meta-Analysis”, Radiology 231 (1), 73-80, Apr. 2004. [Phelps et al., 1976] Phelps, M., Hoffman, E., Mullani, N., “Design cosiderations for a positron emission transaxial tomography (PET III)”, IEEE Trans Biomed Eng; 516-522, 1976. [Platt, 1999] Platt, J.C., “Advances in Kernel Methods-Support Vector Learning, chap. Fast Training of Support Vector Machines using Sequential Minimal Optimization”, MIT Press, pp. 185-208, 1999. [Ponz et al., 1993] Ponz, F., Barber, A.M., “Neurofisiología”, Editorial SINTESIS ciencias de la vida, 1993. [por Aapo Hyvaerinen et al., 2001] por Aapo Hyvaerinen, E., Karhunen, J., Oja, E., “Independent component analysis”, Wiley, New York, 2001. [Prabhakar et al., 1998] Prabhakar, S., Agrawal, D., El Abbadi, A., “Efficient disk allocation for fase similarity searching”, Proc. ACM, Puerto Vallarta, Mexico, 1998. [Principe et al., 2000] Principe, J.C., Eulalio, N.R., Lefebvre, W.C., “Neuronal and Adaptive Systems. Foundamentals Through Simulations”, John Wiley, 2000. [Proano et al., 2004] Proano J., Aguilar, F., “Nuevos horizontes de la restauración neurológica”, Enfermedad de Alzheimer, Clínica, diagnóstico y neuropatología, Vol. 3 Nos. 1 y 2, Enero-Diciembre 2004.

Page 355: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

330 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Puchal, 1997] Puchal, R., “Filtros de imagen en Medicina Nuclear”, Ed. Eubook S.L., Madrid, 1997. [Qi et al., 2004] Qi, F., Bao, C., Liu, Y., “A novel two-step SVM classifier for voiced/unvoiced/silence classification of speech”, International Symposium on Chinese Spoken Language Processing, 2004. [Radiol, 1973] Radiol, Br.J., “Computarizad Tranverse Axial Scanning Tomography: Part 1, Description of the System”, Vol. 46, pp 1016-1022, 1973. [Radon, 1917] Radon, J., (1917). “Uber Die Bestimmung von Funktionen Durch Ihre Integralwerte”, reimpreso in Gindkins, S. Y Michor, P. (eds.) (1994). 75 Years of Radon Transform, American Mathematical Society, Internatinal Press. [Ramírez et al, 2006a] Ramírez, J., Yélamos, P., Górriz, J.M., Puntonet, C.G., Segura, J.C., “SVM-enabled voice activity detectio”, in: Lectura Notes in Computer Science, Vo. 3972, 2006a. [Ramírez et al, 2006b] Ramírez, J., Yélamos, P., Górriz, J.M., Segura, J.C., “SVM-based speech endpoint detection using contextual speech features”, Electronics Letters 42 (7) 877-879, 2006b. [Ramírez et al, 2008a] Ramírez, J., Górriz, J. M., Romero, A., Lassl, A., Salas-Gonzalez, D., López, M., Alvarez, I., Gómez-Río, M., Rodríguez, A., “Computer aided diagnosis of alzheimer type dementia combining support vector machines and discriminant set of features”, Accepted in Information Sciences, 2008a. [Ramírez et al, 2008b] Ramírez, J., Górriz, J. M., Gómez-Río, M., Romero, A., Chaves, R., Lassl, A., Rodríguez, A., Puntonet, C. G., Theis, F., Lang, E., “Effective emission tomography image reconstruction algorithms for SPECT data”, Lecture Notes in Computer Science 5101, 741-748, 2008b. [Ramírez et al., 2009] Ramírez, J., Górriz, J.M., Salas, D., Lassl, A., López, M., Puntonet, C.G., Gómez-Río, M., Rodríguez, A., “Computr arded diagnosis of alzheimer type dementia combining support vector machines and discriminant set of features”, Aceptado en Information Sciences, Elseiver, 2009. [Ramírez et al., 2010] Ramírez, J., Górriz, J.M., Segovia, F., Chaves, R., Salas-Gonzalez, D., López, M., Álvarez, I., Padilla, P., “Computer arded diagnosis system for the Alzheimer’s disease based on partical least squares and random forest SPECT image classification”, Neuroscience Letters, Vol. 472, Pages 99-103, Issue w, March 2010. [Ramón y Cajal, 1899] Ramón y Cajal, S., “Textura del Sistema Nervioso del Hombre y de los Vertebrados”, N. Moya, 1899. [Raudys et al., 1998] Raudys, S., Duin, R. P. W., “Expected classification error of the fisher linear classifier with pseudo-inverse covariance matriz”, Pattern Recognition Letters 19 (5-6), 385-392, April 1998.

Page 356: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 331 _____________________________________________________________________________

[Raudys et al., 1991] Raudys, S., Jain, A., “Small sample size effects in statistical pattern recognition: recommendations for practitioners”, IEEE Trans. Pattern Anal. Mach. Intell. 13 (3), 252-264, 1991. [Requena, 2005] Requena, I., “Neurocomputación-Redes Neuronales Artificiales”, Dpto. Computación e Inteligencia Artificial – UGR, España, 2005. [Rich et al., 1994] Rich, E., Knight, K., “Inteligencia Artificial”, McGraw-Hill Interamericana de España, [2º edición], 1994. [Ritchie et al., 2002] Ritchie, K., Lovestone, S., “The dementias”, The Lancet 360 (9347), 1759-1766, Nov 2002. [Rogaev et al., 1995] Rogaev, E.I., Sherrington, R., Rogaeva, E.A., “Familial Alzheimer’s disease in kindreds with missense mutation in a gent on chromosome 1 related to mers disease type 3 gene”, Naui, 376, 775-778, 1995. [Roche et al., 1998] Roche, A., Malandain, G., Pennec, X., Ayache, N., “The Corelation Ratio as a New Similarit Metric for Multimodal Image Registration”, Wells, W.M., Colchester, A.C.F., Delp, S., editors, Medical lImage Computing and Computer-Assisted Intervention (MICCAI’98), Vol. 1496 of Lecture Notes in Computer Science, pages 1115-1124, Boston, USA, October 1998. [Roche et al., 1999] Roche, A., Malandain, G., Ayache, N., Prima, S., “Towards a Better Comprehension of Similarity Measures used in Medical Image Registration”, Medical Image Computing and Computer-Assisted Intervention, Vol. 1679 of Lecture Notes in Computer Science, pages 555-566, Cambridge (UK), October 1999. [Roche, 2001] Roche, A., “Recalage d’images médicales par inférence statistique”. PhD thesis, Université de Nice Sophia-Antipolis, Nice, France, February 2001. [Rosenblat, 1962] Rosenblat, F., “Principles of Neurodynamics”, Spartan Books, 1962. [Ross, 1986] Ross, J., “Insuction of Decision Trees Machine Learning”, Kluwer Academic Publishers, 1:81-106, 1986. [Ross, 1993] Ross, J., “C4.5: Programs for Machine Learning”, Morgan Kaufmann Publishers, San Francisco, California, 1993. [Royal, 1992] Royal, H.D., “Clinical applications of positron emission tomography”, In cancer: the good, the bad and the ugly (editorial), J Nucl Med; 33:330-332, 1992. [Ruiz et al., 2002] Ruiz, J.A., Carreras, J.L., “Bases de la Tomografía por Emisión de Positrones”, en: Carreras JL, Lapeña L, Asensio C (eds). PET en Oncología. Madrid. Nova sidonia Oncología.Hematología; 7-31, 2002. [Rumelhart et al., 1986a] Rumelhart, D.E., Hinton, G.E., Williams, R.J., “Learning representations by backpropagation errors”, Nature, 323, 533-536, 1986a.

Page 357: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

332 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Rumelhart et al., 1986b] Rumelhart, D.E., Mac Clelland, J.L., “Parallel Distributed Processing”, Foundations, MIT Press, Vol. 1, 1986b. [Sha et al., 2001] Sha, D.D., Sutton, J.P., “Towards automated enhancement, segmentation and classification of digital brain images using networks of networks”, Information Sciences 138 (1-4) 45-77, 2001. [Salas-González et al., 2008a] Salas-González, D., Górriz, J. M., Ramírez, J., Lassl, A., Puntonet, C. G., “Improved gauss-newton optimization methods in affine registration of spect brain images”, IET Electronics Letters 44 (22), 1291-1292, 2008a. [Salas-González et al., 2008b] Salas-Gonzalez, D., Górriz, J. M., Ramírez, J., Lassl, A., Puntonet, C. G., Lang, E. W., Gómez-Río, M., “A comparison of nonlinear least-square optimization methods in a_ne registration of spect images” IEEE Nuclear Science Symposium Conference Record. pp. 4396-4398, 2008b. [Salmon et al., 2009] Salmon, E., Kerrouche, N., Perani, D., Lekeu, F., Holthoff, V., Beuthien-Baumann, B., Sorbi, S., Lemaire, C., Collette, F., Herholz, K., “On the multivariate nature of brain metabolic impairment in alzheimer's disease”, Neurobiology of Aging 30 (2), 186-197, 2009. [Samet, 1984] Samet, H., “The quadtree and related hierarchical data structures”, ACM Computing Surveys, 16(2): 187-260, 1984. [Sánchez et al., 1997] Sánchez, J.S., Pla, F., Ferri, F.J., “Using the nearest centroid neighbourhood concept for editing purpose”, In Proc. VII Simposium Nacional de Reconocimiento de formas y Análisis de Imágenes 1, 175-180, 1997. [Sanchez García, 1978] Sanchez García M., “Modelos Estadísticos Aplicados a Tratamiento de Datos”, Centro de Cálculo de la Universidad Complutense, Madrid, 1978. [Santi et al., 2001] Santi, S. D., de Leon, M. J., Rusinek, H., Convit, A., Tarshish, C. Y., Roche, A., Tsui, W. H., Kandil, E., Boppana, M., Daisley, K.,Wang, G. J., Schlyer, D., Fowler, J., “Hippocampal formation glucose metabolism and volume losses in MCI and AD”, Neurobiology of Aging 22 (4), 529-539, PMID: 11445252, Aug. 2001. [Saxena et al, 1998] Saxena, P., Pavel, D.G., Quintana, J.C., Horwitz, B., “An automatic threshodbased scaling mothod for enhencing the usefulness or Tc-HMPAO SPECT in the diagnosis of Alzheimers disease”, in: Medial Image Computing and Computer-Assisted Intervention-MICCAI, Lecture Notes in Computer Science, Vol. 1496, 1998. [Scarmeas et al., 2004] Scarmeas, N., Habeck, C. G., Zarahn, E., Anderson, K. E., Park, A., Hilton, J., Pelton, G. H., Tabert, M. H., Honig, L. S., Moeller, J. R., Devanand, D. P., Stern, Y., “Covariance pet patterns in early alzheimer's disease and subjects with cognitive impairment but no dementia: utility in group discrimination and correlations with functional performance”, NeuroImage 23 (1), 35-45, 2004.

Page 358: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 333 _____________________________________________________________________________

[Schmidt, 2002] Schmidt, K., “Against: Can ROI methodology/normalised tissue activities be used instead of absolute blood flow measurements in the brain?”, European Journal of Nuclear Medicine, 29(7): 953-956, July 2002. [Schölkopf et al., 1999] Schölkopf, B., Burges, C.J.C., Smola, A.J., “Advances in Kernel Methods Support Vector Learning”, Massachusetts Institute of Technology, 1999. [Scgalkoff, 1992] Scgalkoff, R., “Statistical, Structural and Neuronal Approaches”, John Wiley & Sons, Inc., New York, 1992. [Selkoe, 1999] Selkoe, D.J., "Translating cell biology into therapeutic advances in Alzheimer's disease", Nature 399 (6738 Suppl): A23–31, June 1999. [Sestito et al., 1994] Sestito, S., Dillon, T.S., “Automated Knowledge Acquisition”, Prentice-Hall Series in Computer Science and Engineering, Australia, 1994. [Segovia et al., 2010] Segovia, F., Górriz, J.M., Ramírez, J., Salas-González, D., Álvarez, I., López, M., Chaves., R., Padilla, P., “Classification of functional brain images using a GMM-based multi-variate approach”, Neuroscience Letters, Vol. 474 (1) 58-62, April 2010. [Sha et al., 2001] Sha, D.D., Sutton, J.P., “Towards automated enhancement, segmentation and classification of digital brain images using networks of networks”, Information Sciences 138 (1-4) 45-77, 2001. [Shafer et al., 1996] Shafer, J., Agrawal, R., Mehta, M., “SPRINT: A Scallable Parallel Clasifier for Data Mining”, Proceeding of the 22nd VLDB Conference, India, 1996. [Shaoning et al., 2003] Shaoning, P., Bang, S.Y., “Menbership autheication in the dynamic group by face classification using svm ensembe”, Pattern Recogniton Letters 24 (1-3), 215- 225, 2003. [Shapiro, 1977] Shapiro, M., “The choice of reference points in best-match file searching”, Comm. of the ACM, 20(5): 339-343, 1977. [Sheikh et al., 1986] Sheikh, J., Yesavage, J., “Geriatric Depression Scale (GDS): Recent evidence and development of a shorter version”, NY: The Haworth Press, 1986. [Shepp et al., 1974] Shepp, L.A., Logan, B.F., “The Fourier Reconstructor of a Head Section”, IEEE Trans. Nucl. Sci. Vol. NS-21, pp. 21-43, 1974. [Slaney, 2001] Slaney, Y.M., “Principles of Computational Tomograpobic Imaging”, Serie: Classics in Applied Mathematicas. No. 33. Society for Industrial and Aplied Mathematicas. SIAM, Philadephia, 2001. [Silverman et al., 2001a] Silverman, D.H., Small, G.W., Chang, C.Y., “Positron emission tomography in evaluation of dementia: regional brain metabolism and long-term outcome”, Journal of the American Medical Association 286 (17) 2120-2127, 2001a.

Page 359: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

334 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Silverman et al., 2001b] Silverman, D. H., Small, G. W., Chang, C. Y., Lu, C. S., Aburto, M. A. K. D., Chen, W., Czernin, J., Rapoport, S. I., Pietrini, P., Alexander, G. E., Schapiro, M. B., Jagust, W. J., Ho_man, J. M., Welsh-Bohmer, K. A., Alavi, A., Clark, C. M., Salmon, E., de Leon, M. J., Mielke, R., Cummings, J. L., Kowell, A. P., Gambhir, S. S., Hoh, C. K., Phelps, M. E., “Positron emission tomography in evaluation of dementia: Regional brain metabolism and long-term outcome”, JAMA: The Journal of the American Medical Association 286 (17), 2120-2127, PMID: 11694153. Nov. 2001b. [Silverman, 2004] Silverman, D. H., “Brain 18F-FDG PET in the diagnosis of neurodegenerative dementias: Comparison with perfusion SPECT and with clinical evaluations lacking nuclear imaging”, J Nucl Med 45 (4), 594-607, Apr. 2004. [Silverman et al., 2003] Silverman, D. H. S., Truong, C. T., Kim, S. K., Chang, C. Y., Chen, W., Kowell, A. P., Cummings, J. L., Czernin, J., Small, G. W., Phelps, M. E., “Prognostic value of regional cerebral metabolism in patients undergoing dementia evaluation: comparison to a quantifying parameter of subsequent cognitive performance and to prognostic assessment without PET”, Molecular Genetics and Metabolism 80 (3), 350-355, PMID: 14680983, Nov. 2003. [Soonawala et al., 2002] Soonawala, D., Amin, T., Ebmeier, K.P., Steele, J.D., Dougall, N.J., Best, J., Migneco, O., Nobili, F., Scheidhauer, K., “Statistical parametric mapping of (99m)Tc-HMPAO-SPECT imges for the diagnosis of Alzheimer’s disease: normalizing to cerebellar tracer uptake”, Neuroimage, 17(3): 1193-1202, November 2002. [Sorenson et al., 1987] Sorenson, J.A., Phelps, M.E., “Physics in nuclear medicine”, 2nd Edition, Grune and Stratton, London, 1987. [Spath, 1980] Spath, H., “Cluster Anlysis Algorithms for Data Reduction and Clasification of Objects”, Ellis Horwood Limited, Chichester, West Sussex, Uk, 1980. [Stern, 2002] Stern, Y., “What is cognitive reseve? Theory and research application of the reserve concept”, J Int Neuropsychol Soc, 8(3), 448-460, 2002. [Stoeckel et al., 2004] Stoeckel, J., Ayache, N., Malandain, G., Koulibaly, P. M., Ebmeier, K. P., Darcourt, “Automatic classification of SPECT images of alzheimer's disease patients and control subjects”, Medical Image Computing and Computer-Assisted Intervention - MICCAI. Vol. 3217 of Lecture Notes in Computer Science. Springer, pp. 654-662, J., 2004. [Stoeckel et al., 2005] Stoeckel, J., Fung, G., “SVM feature selection for classification of SPECT images of Alzheimer’s disease using spatial informatin” Proc. of the Fifth International Conference on Data Mining (ICDM05), pp. 410-417, 2005.

Page 360: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 335 _____________________________________________________________________________

[Stoeckel et al., 2001]Stoeckel, J., Malandain, G., Migneco, O., Koulibaly, P. M., Robert, P., Ayache, N., Darcourt, J., “Classification of spect images of normal subjects versus images of alzheimer's disease patients”, Medical Image Computing and Computer-Assisted Intervention - MICCAI. Vol. 2208 of Lecture Notes in Computer Science. Springer, pp. 666-674, 2001. [Syted et al., 1992] Syed, G.M., Eagger, S., Toone, B.K., Levy, R., Barrett, J.J., “Quantification of regional cerebral blood flow (rCBF) using 99Tcm-HMPAO and SPECT: choice of the reference region”, Nuclear Medicine Communications, 13(11):881-816, November 1992. [Suykens et al., 2000] Suykens, J.A., Vandewalle, J., “Recurrent least squares support vector machine”, IEEE Transactions on Circuits and Systems I 47 (7) 1109-1114, 2000. [Tabachnick et al., 2000] Tabachnick, B.G., Fidell, L.S., “Computer-Assisted Reseach and Design Analysis”, Person Education, 2000. [Talairach et al., 1988] Talairach, J., Tournoux, P., “A Co-planar Stereotatic Atlas of the Human Brain”, Stuttgart: Thieme, 1988. [Talbot et al., 1998] Talbort, P. R., Lloyd, J. J., Snowden, J. S., Neary, D., Testa, H. J., “A clinical role for 99mTc-HMPAO SPECT in the investigation of demential?”, J Neurol Neurosurg Psychiatry 64 (3), 306-313., 1998. [Tao et al., 2006] Tao, X., Tang, X., Li, X., Wu, “Asymmetic bagging and random subspace for support vector machines-based relevance feedback in image retrieval”, IEEE Transactions on Pattern Analysis and Machine Intelilligence 28 (7) 1088-1099, 2006. [Teipel et al., 2007] Teipel, S. J., Stahl, R., Dietrich, O., Schoenberg, S. O., Perneczky, R., Bokde, A. L., Reiser, M. F., Möller, H.-J., Hampel, H., “Multivariate network analysis of fiber tract integrity in alzheimer's disease”, Neuroimage 34 (3), 985-995, Feb. 2007. [Terry et al., 1994] Terry, R., Katzman, R., Bick, K., “The early store of Alzheimer Desease”, eds. Alzheimer Disease. New York, Raven Press, Ltd., 1994. [Tierney et al., 1988] Tierney, M.C., Fisher, R.H., Lewis, A.J., “The NINDS-ADRDA Work Group criteria for the clinical diagnosis of probable Alzheimer’s disease: A clinic pathological study of 57 cases”, Neurology, 38, 359-364, 1988. [Tiraboschi et al., 2004] Tiraboschi, P., Hansen, L.A., Thal, L.J., Corey-Bloom, J., "The importance of neuritic plaques and tangles to the development and evolution of AD". Neurology 62 (11): 1984–9, June 2004. [Tou et al., 1974] Tou J. T., Gonzalez R. C., “Pattem Recognition Princeples”, Addison Wesley, 1974. [Tsai et al., 2007] Tsai, H.-H., Sun, D.-W., “Color image watermark extraction based on support vector machines”, Informatin Sciences 177 (2) 550-569, 2007.

Page 361: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

336 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Turk et al., 1991] Turk, M., Pentland, A., “Eigenfaces for recognition”, Journal of congnitive neuroscience 3 (1), 71-86, 1991. [Van Broeck et al., 2007] Van Broeck, B., Van Broeckhoven, C., Kumar-Singh, S., "Current insights into molecular mechanisms of Alzheimer disease and their implications for therapeutic approaches", Neurodegener Dis 4 (5): 349–65, 2007. [Vandenberghea et al., 2001] Vandenberghea, S., D’Asselera, Y., de Wallea, R.V., Kauppinenb, T., Koolea, M., Bouwensa, L., Laerec, K.V., Lemahieua, I., Dierckx, R., “Iterative reconstruction algorithms in nuclear medicine”, Computerized Medical Imaging and Graphics (25) 105-111, 2001. [van den Elsen et al., 1993] van den Elsen, P.A., Pol, J.D., Viergerver, M.A., “Medical Image Matching”, A Review with Classification, IEEE Engineerieng in Medicide and Biology, 12(4):26-39, March 1993. [Vapnik, 1982] Vapnik, V. N., “Estimation of Dependences Based on Empirical Data”, Springer-Verlag, New York, 1982. [Vapnik, 1995] Vapnik, V. N., “The Nature of Statistical Learning Theory”, Springer- Verlag, Berlin, 1995. [Vapnik, 1998] Vapnik, V. N., “Statistical Learning Theory”, John Wiley and Sons, Ic., New York, 1998. [Vardi et al., 1985] Vardi, Y., Shepp, L.A., Kaufman, L., “A statistical model for positron emission tomography”, Journal of the American Sttistical Associatión 80 (389) 8-20, 1985. [Wagner, 1991] Wagner, H.N., “Molecular Medicine: From Science to Service”. J Nucl Med; 32:11N-23N, 1991. [Wagner, 1994] Wagner, H,N., “Disease and dissonance”, (1994 Annual Meeting Highlights). J Nucl Med; 35:13N-26N, 1994. [Weboz, 1974] Weboz, P.J., “Beyond Regression: New Tools for Prediction and Analysis in Behavioral Sciences”. Tesis Doctoral. Universidad de Harvard, 1974. [Wenk, 2003] Wenk, G.L., ”Neuropathologic changes in Alzheimer's disease”, J Clin Psychiatry 64 Suppl 9: 7–10, 2003. [Weiss et al., 1991] Weiss S. M., Kulikowski C. A., “Computer Systems that Learn”, Morgan Kaufmann Pub. Inc., San Francisco, CA, 1991. [Widrow et al., 1960] Widrow, B., Hoff, M.E., “Adaptive switching circuits”, IRE WESCON Convention Record, 4, 96-104, 1960. [Widrow et al., 1988] Widrow, B., Winter, R., “Neural nets for adaptive filtering and adaptive patterns recognition”, IEEE Computer, 25-39, 1988.

Page 362: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

BIBLIOGRAFÍA 337 _____________________________________________________________________________

[Wilson et al., 2000] Wilson, D.R., Martinez, T.R., “Reduction techniques for instance-based learning algorithms”, Machime Learning 38 257-286, 2000. [Wilson, 1972] Wilson, D.L., “Asympototic properties of nearest neighbor rules using edited data sets”, IEEE Trans. on Systems, Man and Cybernetics 2 408-421, 1972. [Woods, 2000] Woods, R.P., “Spatial transformation models”, I. N. Bankman (ed.), Handbook of Medical Imaging, chap. 29, Academic Press, San Diego, pp. 465-490, 2000. [Xu et al., 2005] Xu, R. and Wunsch, D., “Survey of clustering algorithms,” IEEE Trans. Neural Netw. 16, 645–678, 2005. [Yankner et al., 1990] Yankner, B.A, Duffy, L.K., Kirschner, D.A., "Neurotrophic and neurotoxic effects of amyloid beta protein: reversal by tachykinin neuropeptides", Science (journal) 250 (4978): 279–82, October de 1990. [Yélamos et al., 2006] P. Yélamos, J. Ramírez, J. M. Górriz, C. G. Puntonet, J. C. Segura, “Speech event detection using support vector machines”, Lectura Notes in Computer Science, Vol. 3991, 2006. [Yianilos, 1993] Yianilos, P., “Data structures and algorithms for nearest neighbor search in general metric spaces”, Proc. 4th ACM-SIAM Symposium on Discrete Algorithms, pages 311-321, 1993. [Yianilos, 1999] Yianilos, P., “Excluded middle vantage point forests for nearest neighbor search”, DIMACS Implementation Challenge, Baltimore, MD, 1999. [Yianilos, 2000] Yianilos, P., “Locally lifting the curse of dimensionality for nearest neighbor search”, Proc. 11th ACM-SIAM Symposium on Discrete Algorithms, To appear, 2000. [Yonekura et al., 1988] Yonekura, Y., Nishizawa, S., Mukai, T., Fujita, T., Fukuyama, H., Ishikawa, M., Kikuchi, H., Konishi, J., Andersen, A.R., Lassen, N.A., “SPECT with [99mTc]-d,1-hexamethyl-propylene amine oxime (HM-PAO) compared with regional cerebral blood flow measured by PET: effects of linearization”, Journal of Cerebral Blood Flow and Metabolism, 8(6):S82-S89, December 1988. [Zhang et al., 2004] L. Zhang, W. Zhou, L. Jiao, “Hidden space support vector machine”, IEEE Transcactions on Neural Networks 15 (6) 1424-1434, 2004. [Zhou et al., 2008] Zhou, S.-M., Gan, J.Q., Sepulveda, F., “Classifying mental tasks based on features of higher-order statistics from EEG signals in brain-computer interface”, Information Sciences 178 (6) 1629-1640, 2008. [Zhuang et al., 2001a] Zhuang, H.M., Cortés-Blanco, A., Pourdehnad, M., “Do high glucose levels have differential effect on FDG uptake in inflammatory and malignant disorders?”, Nucl Med Commun; 21:1123-1128, 2001a.

Page 363: NUEVOS PARADIGMAS PARA EL ANÁLISIS ESTADÍSTICO DE …hera.ugr.es/tesisugr/19486662.pdf · las máquinas de vectores de soporte (SVM), k-nearest neighbor (kNN), funciones lineales

338 Nuevos Paradigmas para el Análisis Estadístico de Imágenes Tomográficas Cerebrales. ______________________________________________________________________________

[Zhuang et al., 2001b] Zhuang, H.M., Itoh, M., Ozaki, K., “Advantage of delayed whole-body FDG-PET imaging tumour detection”, J Nucl Med Zhuang HM, 28:696-703., 2001b. [Ziolko et al., 2006] Ziolko, S. K., Weissfeld, L. A., Klunk, W. E., Mathis, C. A., Hoge, J. A., Lopresti, B. J., DeKosky, S. T., , Price, J. C., “Evaluation of voxel-based methods for the statistical analysis of pib pet amyloid imaging studies in alzheimer's disease”, Neuroimage 33 (1), 94-102, 2006.