ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 1 de 41
Fecha emisión: dd/mm/aaaa
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
INFORME
ITE-PSA00217
INFORME: E11 Diseño, desarrollo y validación de la aplicación de herramienta de detección
anomalías sobre conjuntos masivos de datos.
Autor: Instituto Tecnológico de la Energía (ITE)
Dirección: Avda. Juan de la Cierva 24 (Parque Tecnológico de Valencia)
Ciudad: Paterna (Valencia) C.P.: 46980 País España
Este informe se compone de 41 páginas.
Financiado por:
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 2 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
ÍNDICE
1. Características generales ....................................................................................................................... 6
1.1 Garantías ........................................................................................................................................... 6
1.2 Observaciones importantes .............................................................................................................. 6
2. Objeto del documento ............................................................................................................................ 7
3. Análisis experto de los datos .................................................................................................................. 8
4. Revisión de algoritmos de detección de anomalías ............................................................................. 11
4.1 Técnicas de detección de anomalías basadas en la clasificación ....................................................... 12
o Máquinas de Soporte Vectorial ........................................................................................................ 12
o Redes Neuronales (ANN - Artificial Neural Network). ...................................................................... 13
o Redes bayesianas. ............................................................................................................................. 14
o Sistema experto basado en casos. ................................................................................................... 16
o Sistema experto basado en reglas. .................................................................................................. 16
4.2 Técnicas de detección de anomalías basadas en agrupamiento (clustering) ..................................... 18
o Self-Organizing Maps (SOM). ........................................................................................................... 18
o K-means Clustering. .......................................................................................................................... 20
o Expectation Maximization (EM). ...................................................................................................... 21
4.3 Técnicas de detección de anomalías basadas en vecindad ................................................................ 22
o K vecino cercano (KNN - K Nearest Neighbors). .............................................................................. 22
o Relative Density. ............................................................................................................................... 23
4.4 Técnicas de detección de anomalías basadas en análisis estadísticos .............................................. 24
o Modelos Gaussianos. ........................................................................................................................ 24
o Regresión........................................................................................................................................... 24
o Histogramas. ..................................................................................................................................... 25
o Funciones kernel. .............................................................................................................................. 26
4.5 Técnicas de detección de anomalías basadas en Teoría de la información ....................................... 27
4.6 Técnicas de detección de anomalías basadas en Teoría espectral .................................................... 29
4.7 Reducción de dimensionalidad ............................................................................................................. 31
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 3 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
o Agregación: ....................................................................................................................................... 31
o Discretización: ................................................................................................................................... 32
o Procesado: ......................................................................................................................................... 32
5. Selección de algoritmos de detección de anomalías ........................................................................... 34
6. Diseño y desarrollo de algoritmos de detección, clasificación e interpretación de anomalías ............ 39
7. Resultados y conclusiones ................................................................................................................... 40
8. Bibliografía ............................................................................................................................................ 41
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 4 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
ÍNDICE DE FIGURAS
Figura 1: Proceso de obtención de conocimiento mediante la aplicación de técnicas de minería de datos.
Fuente: ZenTut................................................................................................................................................... 10
Figura 2: Diagrama de las técnicas más utilizadas en la detección de datos anómalos en series temporales [1].
........................................................................................................................................................................... 11
Figura 3: Ejemplo en R2 en el que se aprecia que la frontera de decisión se sitúa entre los datos y tan lejos
como sea posible de ambas clases de datos. Fuente: [2] ................................................................................. 12
Figura 4: Ejemplo de aplicación de una transformación del espacio de datos mediante un kernel a la entrada
en un problema no linealmente separable. Fuente: [2].................................................................................... 13
Figura 5: Ejemplo de aplicación de SVM a un problema con dos espirales de 200 puntos en 2 clases en el que
la frontera de decisión toma diferentes valores de C. Fuente: [2] ................................................................... 13
Figura 6: Estructura interna y partes de las neuronas de las redes neuronales artificiales. Fuente: Elaboración
propia ....................................................................................................................................................................
Figura 7: Ejemplo de aplicación de una red bayesiana con el gráfico acíclico y las probabilidades
condicionales. Fuente: [3] ................................................................................................................................. 15
Figura 8: Representación gráfica de las relaciones en un ejemplo con 6 reglas. Fuente: [4] ........................... 17
Figura 9: Distancia de los componentes principales entre los clusters identificados por los mapas auto-
organizativos (redes SOM). Fuente: Mathworks ............................................................................................... 18
Figura 10: Matriz U de los datos de carga del sistema eléctrico español para una prototipo de red SOM con
datos reales de 2014. Fuente: Elaboración propia. ........................................................................................... 19
Figura 11: Predicción de consumo eléctrico nacional realizado por REE. ......................................................... 20
Figura 12: Ejemplo de los pasos simplificados de la metodología de clustering k-mean. Fuente: [5] .............. 21
Figura 13: Ejemplo de la etapa final del algoritmo con la identificación de los puntos anómalos (cuadrados) y
los centroides de los clusters encontrados (triángulos). Fuente: [6] ................................................................ 22
Figura 14: Ejemplo de resultados al aplicar el algoritmo K-NN para la detección de anomalías. Fuente: [7] .. 23
Figura 15: Plano de regresión multivariable. Fuente: [8] .................................................................................. 25
Figura 16: Aplicación de un histograma para la representación de la frecuencia de aparición de ciertas
características en un conjunto de datos continuos de múltiples variables y tres orígenes distintos. Fuente: [9]
........................................................................................................................................................................... 26
Figura 17: Esquema utilizado por Claude E. Shannon para la explicación de la Teoría de la información en
1948. Fuente: [10] ............................................................................................................................................ 27
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 5 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Figura 18: Representación de la entropía en el caso de dos posibilidades con probabilidades p y (p-1). Fuente:
[10] .................................................................................................................................................................... 28
Figura 19: Señal no estacionaria transformada por el método Wavelet. Fuente: [11] ..................................... 29
Figura 20: Contador de energía eléctrica de los utilizados en la actualidad para la medida, registro y
transmisión de loso datos de consumo eléctrico en España. Fuente: Endesa .................................................. 34
Figura 21: Representación de los distintos tipos de anomalías considerados en el análisis. Fuente: [14]. ...... 36
Figura 22: Análisis de los datos con redes SOM y sucesivos barridos temporales del registro de datos. Fuente:
elaboración propia ................................................................................................................................................
Figura 23: Representación esquemática de la disposición de los resultados del tercer análisis de detección de
anomalías colectivas. Fuente: elaboración propia ............................................................................................ 39
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 6 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
1. Características generales
1.1 Garantías
El Instituto Tecnológico de la Energía (ITE) garantiza la fidelidad de los datos que aparecen en este informe
como resultado de los trabajos realizados y en las condiciones que se indican.
El ITE garantiza la confidencialidad de su actuación en todo lo referente a los resultados obtenidos. Todos los
datos referentes al trabajo realizado serán tratados de manera confidencial.
1.2 Observaciones importantes
1. Se autoriza la reproducción de este informe, siempre que el resultado sea una copia fiel del original y se
realice de forma completa.
2. Este informe no podrá ser modificado ni reproducido parcialmente sin autorización por escrito expresa del
ITE.
3. Este informe sólo se refiere a los trabajos solicitados que se reflejan en este documento.
4. Este informe, por sí mismo, no constituye o implica, en manera alguna una aprobación del producto o
servicio resultante, por el ITE, por un organismo de certificación o por cualquier otro organismo.
5. Este informe o parte del mismo no será utilizado por el cliente, o por alguien autorizado por el cliente, con
fines promocionales o publicitarios, cuando el ITE considere improcedente tal utilización.
6. La fidelidad de los datos que explícitamente aparezcan en este informe, como exhibidos por el
peticionario, es responsabilidad única de éste.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 7 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
2. Objeto del documento
El objetivo de este documento es el desarrollo e implementación de un sistema de detección, clasificación e
interpretación de anomalías en el análisis de grandes cantidades de datos para la identificación de
irregularidades, comportamientos y patrones anómalos en los mismos. Este sistema será de aplicación para
redes de sensores en los que se intercambia una cantidad masiva de datos de distinta naturaleza y
procedencia.
Dependiendo de la naturaleza y características de los datos y el tipo de anomalías que se pretende
identificar la detección de anomalías se definirá respecto a eventos o subsecuencias dentro del conjunto de
datos o respecto a otro conjunto de datos tomado como referencia.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 8 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
3. Análisis experto de los datos
La gran disponibilidad de datos en la actualidad es uno de los grandes retos de los análisis y detección
preventiva de conductas anómalas. El objetivo de estos estudios es principalmente el de sacar a la luz
información oculta o desconocida y convertirla en útil. Esta información puede proporcionar múltiples
ventajas competitivas a la empresa que las implante, como el aumento de beneficios y mejoras en la
operación derivados de la correcta toma de decisiones por la detección temprana de conductas anómalas.
Esta área de estudio separa el análisis de los datos en un exploratorio (en el que se descubren nuevas
relaciones o características) y confirmativo, en el que las hipótesis probadas se evalúan a verdadero o falso.
Para el caso tratado en este documento se pueden utilizar ambos métodos pero se debe valorar que no se
dispone de información sobre históricos de datos anómalos para la generación de las hipótesis a validar. Es
por ello que la segunda opción es recomendable en el estado de la técnica actual.
La distinta naturaleza de los datos unido a las limitaciones de cómputo, memoria, almacenamiento, ancho
de banda, etc. crea la necesidad de técnicas avanzadas de tratamiento y análisis de estos datos. Los registros
o bases de datos, además, se pueden presentar de forma incoherente, incompletos o prácticamente
imposibles de analizar de forma global.
La necesidad de explorar la disponibilidad de datos antes del análisis y emisión de las conclusiones es
imprescindible. En muchos casos los datos disponibles están compuestos por pequeñas porciones,
comparado con el total de datos disponibles, haciendo factible el tratamiento de una parte del total de la
información utilizable.
El trabajo previo consiste en clasificar los datos de entrada para, posteriormente, plantear las posibilidades
de análisis. El objetivo final es la detección de datos anómalos en el flujo continuo de información que se
combina con datos registrados en bases de datos. Así pues los algoritmos utilizados deben ser capaces de
combinar los dos tipos de datos de entrada y arrojar un resultado de la posible localización de
comportamientos anómalos considerando que no se pueden producir demoras elevadas que desvirtúen la
naturaleza continua de la adquisición de los datos.
Las características más importantes para el tratamiento del gran y heterogéneo grupo de datos objeto de
este análisis son:
Velocidad de adquisición.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 9 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Disponibilidad.
Volumen de datos.
Dominio al que pertenecen.
Periodicidad de la lectura en la base de datos.
Naturaleza síncrona o asíncrona.
Cualificación, incluyendo el contexto del origen de los datos (veracidad).
Estructura de datos (estructurados o no estructurados).
Una de las clasificaciones más utilizada de grandes cantidades de datos es la de separar entre estructurados
y no estructurados. Además de los datos y estructuras también se puede obtener información contextual de
de estos, mediante el análisis del dominio al que pertenecen.
El objetivo principal de estas técnicas es la determinación de las relaciones entre las variables y obtención de
información característica de las entradas de datos, como se ha comentado. Dada la complejidad de las
bases de datos, o secuencias de entrada, analizadas es necesario describir de forma simplificada el
comportamiento de los datos. Es por ello que se opta por técnicas de análisis más allá del análisis estadístico
tradicional.
La información buscada en este caso es la detección de datos anómalos, pero esto se puede extender a la
detección de patrones, tendencias o reglas de asociación entre variables etc.
Así pues, la última etapa de este procedimiento será la presentación de los resultados con la información
descubierta en el camino para comprender mejor los datos.
Los pasos a seguir en el proceso son:
Clasificación: explicación resumida de datos, patrones, grupos y reglas que los relacionan así como la
calidad y procedencia de estos, según los parámetros comentados anteriormente.
Predicción: obtención de un modelo capaz de prever el comportamiento del sistema en función de la
información disponible, así como los parámetros característicos que definan la base de datos o
series temporales.
Análisis evolutivo: Búsqueda de los patrones y elementos que se escapan de la conducta normal del
sistema, evaluación e interpretación.
Representación de resultados: representación de las características más relevantes y los resultados
del análisis en función del tipo de datos y conclusiones.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 10 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Figura 1: Proceso de obtención de conocimiento mediante la aplicación de técnicas de minería de
datos. Fuente: ZenTut
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 11 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
4. Revisión de algoritmos de detección de anomalías
Como se ha comentado en la sección anterior el primero de los pasos necesarios es el apartado descriptivo.
En éste se reconocen dos grandes grupos de técnicas en función de la naturaleza del aprendizaje o ajuste del
modelo que se describe o clasifica los datos. El primero de estos grandes grupos es el aprendizaje
supervisado, que se basa en datos conocidos previamente utilizados para el ajuste del modelo, y otro es el
llamado aprendizaje no supervisado en el que el modelo se construye con los propios datos, sin feedback o
ajustes.
Si se hace un análisis global de las metodologías más utilizadas en el caso de series temporales se pueden
distinguir las que se presentan en la Figura 2, que muestra el diagrama de las técnicas de detección de datos
anómalos para series temporales normalmente utilizados.
Figura 2: Diagrama de las técnicas más utilizadas en la detección de datos anómalos en series temporales [1].
Otras técnicas existentes que son utilizadas en el campo de detección de anomalías para el tratamiento de
grandes conjuntos de datos se basan en distintos principios, distintos al de la detección temporal. Si se
atiende a la base de la técnica de detección de anomalías se llega a que las hay basadas en: la clasificación, el
agrupamiento (clustering), la vecindad o semejanza, análisis estadísticos, Teorías de la información y Teoría
espectral.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 12 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
4.1 Técnicas de detección de anomalías basadas en la clasificación
o Máquinas de Soporte Vectorial
También conocidas por SVM (Support Vector Machine), se basa en la Minimización del Riesgo
Estructural (SRM - Structural Risk Minimization) que es un proceso de inferencia desarrollado sobre
la Teoría del Aprendizaje Estadístico específicamente para trabajar con problemas de aprendizaje a
partir de un conjunto de entrenamiento pequeño.
La idea detrás de las SVM es el mapeo de los puntos de entrada en un espacio de dimensión mayor
(p. ej.: añadir una dimensión a una base de datos de entrada bidimensional -R2- y transformarla en
R3) y después encontrar un hiperplano que separe el conjunto de datos maximizando la distancia (m)
entre los grupos encontrados.
Figura 3: Ejemplo en R2 en el que se aprecia que la frontera de decisión se sitúa entre los datos y tan lejos como sea posible de ambas clases de datos. Fuente: [2]
El proceso de maximización del margen (m) es un problema de programación cuadrática (QP) y
puede ser resuelto mediante el problema dual e introduciendo multiplicadores de Lagrange. La SVM
es capaz de encontrar el hiperplano óptimo sin ningún tipo de conocimiento del mapeo utilizando el
producto escalar con funciones características llamadas kernels.
El problema es de resolución rápida si es linealmente separable, pero se complica si se trata de un
caso no linealmente separable en el que se deben permitir las violaciones de clasificación en la
formulación de la SVM, Figura 4.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 13 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Figura 4: Ejemplo de aplicación de una transformación del espacio de datos mediante un kernel a la entrada en un problema no linealmente separable. Fuente: [2]
Cabe comentar que el modelado SVM no necesita de todos los puntos disponibles para hallar una
solución al problema de maximizar de la distancia de separación entre clases. Además de ser una
técnica rápida en comparación con el resto de técnicas de clasificación con un elevado número de
datos en el conjunto de entrada. Figura 5.
Figura 5: Ejemplo de aplicación de SVM a un problema con dos espirales de 200 puntos en 2 clases en el que la frontera de decisión toma diferentes valores de C. Fuente: [2]
o Redes Neuronales (ANN - Artificial Neural Network).
Las redes neuronales artificiales son una potente herramienta matemática para la aproximación de
funciones no lineales, modelización de fenómenos complejos e incluso predicción de evolución de
variables, entre otras muchas aplicaciones.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 14 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
.
Mediantes esta estructura se pretende simular el funcionamiento del sistema nervioso central de los
humanos. La gran ventaja en esta aplicación es la autonomía del modelo en la detección de las
agrupaciones de datos o clases (normales/anómalas). Ya que este método no requiere de un
etiquetado de los datos de entrada, permite el aprendizaje e identifica que puntos del conjunto de
datos de entradas no se corresponden con datos “normales” en la capa de salida.
Alguno de los métodos de búsqueda de datos anómalos utiliza la barra del error equivalente para
identificar los datos anómalos durante el proceso de entrenamiento de una red multicapa
perceptrón. Los datos “raros” son los que causan un mayor error en la predicción que el nivel
previamente fijado en el estudio.
o Redes bayesianas.
Se entiende por red Bayesiana a los grafos dirigidos acíclicos en el que los nodos son variables
aleatorias según el teorema de Bayes. El funcionamiento de este tipo de redes es el modelado
mediante un conjunto de variables y las interrelaciones que existen entre estas.
En concreto el modelo está compuesto por un grafo, que modela las interrelaciones entre los nodos
o situaciones mediante relaciones causales, y una tabla de que modelas las probabilidades entre los
posibles estados. Una vez obtenido el modelo se utilizará para hacer inferencia bayesiana y estimar
la probabilidad de las variables no conocidas con los datos conocidos. Para el aprendizaje de las
redes bayesianas se utilizan algoritmos que pueden calcular el modelo y sus relaciones mediante
inferencia probabilística.
Regla
de
pro
pa
gació
n w2j
wnj
x1
x2
xn
Neurona xj: Entradas wji: Pesos
Salida: yi Fu
nció
n d
e
activa
ció
n
Fu
nció
n d
e s
alid
a w1j
Figura 6: Estructura interna y partes de las neuronas de las redes neuronales artificiales. Fuente: Elaboración propia
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 15 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Figura 7: Ejemplo de aplicación de una red bayesiana con el gráfico acíclico y las probabilidades condicionales. Fuente: [3]
Esta estructura de los modelos bayesianos permite retener las relaciones de dependencia que existe
entre los atributos de los datos, describiendo la distribución de probabilidad que administra un
conjunto de variables especificado y los cálculos de independencia condicional junto con las
probabilidades condicionales. Así, las redes permiten mostrar las relaciones de independencia entre
grupos de variables, lo que es útil para la detección de datos anómalos.
Los tipos de redes bayesianas se suelen clasificar según el tipo de variables utilizadas:
Redes bayesianas continuas: son aquellas que tienen un número infinito de valores.
En este tipo de redes es complicada la determinación de las probabilidades que
definen cada una de las variables, es por ello que las probabilidades condicionales se
representan mediante una función de probabilidad.
Debido a que la mayor parte de las variables reales son continuas, por ejemplo la
variación de temperatura, las redes bayesianas se adaptan a funciones de
distribución normales lineales, como la normal. Esto facilita en gran manera el
proceso de discretización mediante la selección de rangos.
Los métodos supervisados y no supervisados corresponden a la división del proceso
de discretización de las variables. Los no supervisados la variable correspondiente a
la clase no es considerada continua y los valores se discretizan independientemente.
Los supervisados en cambio tienen en cuenta la variable clase, y los puntos de la
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 16 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
discretización que divide los rangos de cada atributo son elegidos según el valor de la
clase.
Redes bayesianas dinámicas: consienten en la exposición de procesos que contienen
una variable aleatoria en cada intervalo de tiempo. El estado de las variables se
representa en un instante de tiempo para poder representar los procesos dinámicos
dentro de la red. Las probabilidades no cambiarán durante el proceso, es decir, se
repiten las etapas y las relaciones entre estas.
La inferencia e este tipo de redes bayesianas es la misma que para todas las redes
bayesianas, y por esto se emplean los mismos métodos. La diferencia reside en la
captación de todas las observaciones mediante la reproducción de los intervalos de
tiempo.
o Sistema experto basado en casos.
Es un conjunto de técnicas para el desarrollo de sistemas basados en el conocimiento recuperando y
reutilizando las soluciones de experiencias pasadas para resolver problemas parecidos y así obtener
el resultado. Este se puede considerar como un subconjunto de razonamiento analógico, que
consiste en alterar una parte de una solución de un problema conocido previamente para resolver
un nuevo problema, considerando ambos problemas relacionados.
A diferencia del razonamiento basado en casos en el que los problemas pertenecen al mismo
dominio el razonamiento analógico encuentra similitudes entre diferentes dominios. Así pues el
correcto funcionamiento de estos sistemas radica en el conocimiento sobre el dominio de que trata
y su capacidad de aprendizaje.
El sistema experto requiere, por tanto, de una colección de experiencias (casos) almacenadas en una
base en el que se guarda una breve descripción del problema y la solución que se aplicó. Así los dos
grandes pilares de este tipo resolución son que no se necesitan conocer en detalle las relaciones
entre el problema y la solución, y que los problemas suelen repetirse y la experiencia siempre es un
recurso útil.
o Sistema experto basado en reglas.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 17 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Estos se basan en el mismo principio que los descritos en el punto anterior, pero en el que el proceso
de inferencia se utiliza un conjunto de reglas que constituyen la base del conocimiento experto. Las
reglas guardadas son evaluadas a medida que las condiciones se cumplen y se generan nuevos
hechos que enriquecen el sistema.
Figura 8: Representación gráfica de las relaciones en un ejemplo con 6 reglas. Fuente: [4]
Para analizar esta operativa hay dos formas de proceder en función de la dirección del proceso. La
primera parte desde la evidencia hasta los objetivos (forward chaining) y la segundo en orden
inverso, comenzar desde el objetivo hasta llegar al conjunto de evidencias que lo han provocado
(backward chaining).
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 18 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
4.2 Técnicas de detección de anomalías basadas en agrupamiento (clustering)
o Self-Organizing Maps (SOM).
En el grupo de técnicas de aprendizaje no supervisado se incluyen el clustering y la clasificación
mediante mapas auto-organizativos o SOM. El clustering consiste en definir un número de patrones
a los cuales se asociada cada uno de los datos de entrada mediante la medida una medida de la
similitud entre los datos. Con este método además de la clasificación también se obtienen una serie
de prototipos que son agrupaciones de datos que representan cada grupo, estos se llaman
centroides.
Figura 9: Distancia de los componentes principales entre los clusters identificados por los mapas auto-organizativos (redes SOM). Fuente: Mathworks
El funcionamiento de las redes SOM consiste en clasificar los objetos a estudio en un mapa 2D
formado por neuronas que ajustan su forma ponderando la topología previa con los datos
nuevamente introducidos. De esta forma cada modificación de los patrones de los clusters modifica
el propio centroide, ajustando los pesos hasta conseguir la máxima similitud.
De esta forma se obtiene una representación de los datos en varias dimensiones agrupándolos en
una parrilla 2D. Permite mostrar, también, otros parámetros interesantes de medida de la
homogeneidad de los datos, como la distancia entre los clusters calculados para una serie de datos.
Por ejemplo, en la matriz U (U-Matrix) se utilizan los datos de las distancias euclídeas entre los
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 19 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
centroides de los grupos para representar la semejanza o diferencia entre los elementos adyacentes,
Figura 10.
Figura 10: Matriz U de los datos de carga del sistema eléctrico español para una prototipo de red SOM con datos reales de 2014. Fuente: Elaboración propia.
Por lo que respecta a la predicción de las actuaciones futuras se aplican técnicas de regresión que
permiten ajustar el modelo matemático al comportamiento del sistema. El objetivo de este punto es
la determinación de los valores posteriores con la entrada de los datos acontecidos hasta dicho
instante. El uso de estas técnicas es muy utilizado y abarca un amplio abanico de posibilidades,
desde mínimos cuadrados hasta redes neuronales. Como ejemplo de predicción se presenta en la
Figura 11 correspondiente a la curva de predicción de demanda de energía eléctrica realizada
diariamente por Red Eléctrica de España.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 20 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Figura 11: Predicción de consumo eléctrico nacional realizado por REE. Fuente: Red Eléctrica de España.
El siguiente paso es el análisis evolutivo con el cometido de obtener los patrones o tendencias
temporales de la serie de datos analizada. Posteriormente el análisis del comportamiento previsible
se compara con el real para determinar la presencia de datos anómalos.
o K-means Clustering.
Este método de cuantificación vectorial tiene su origen en el procesamiento de señal y es
actualmente muy utilizado en la minería de datos y la clusterización. El resultado del análisis es una
división del espacio como en celdas o clusters. El problema es de complejidad NP-hard, con lo que la
necesidad de cómputo es alta aunque el avance de las técnicas de resolución heurística facilita la
búsqueda del óptimo global.
El primer paso es situar en el espacio de soluciones los centroides generados aleatoriamente,
dibujados de distinto color en el primer cuadro de la Figura 12. A continuación se asocian las
soluciones a los centroides calculados, obteniendo una partición del espacio en función de la
distancia de todos los elementos. El tercer paso consiste en recalcular los centros de cada uno de los
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 21 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
grupos con el objetivo de colocar en el centro el centroide. El algoritmo repite el segundo y tercer
paso hasta encontrar la convergencia del método.
Figura 12: Ejemplo de los pasos simplificados de la metodología de clustering k-mean. Fuente: [5]
o Expectation Maximization (EM).
Este es un método iterativo de encontrar el máximo valor de similitud en los parámetros del modelo.
Es normal añadir variables latentes a los parámetros no conocidos y a los determinados.
El proceso de resolución requiere del cálculo de derivadas y funciones de similitud respecto los
valores conocidos además de resolver las ecuaciones resultantes. El método se basa en la
observación para, numéricamente, resolver los problemas planteados anteriormente. Un
procedimiento puede ser tomar valores arbitrarios para uno de los conjuntos de incógnitas, el que se
utiliza para encontrar el segundo set, y posteriormente buscar los más idóneos del primer grupo de
parámetros utilizados de forma que se consiga la convergencia de estos dos sets a puntos fijos.
No se puede demostrar la convergencia al valor buscado del método puesto que es un método
heurístico, la derivada de la función de similitud tiende a cero en ese punto. Si el problema posee
más de una solución este método no asegura el descubrimiento del óptimo global, pero si asegura
un óptimo local. Por ejemplo, una de las soluciones que se pueden encontrar por el método
Expectation Maximization (EM) es un modelo que implique un componente con una varianza mínima
y un valor medio igual al de uno de los valores de los datos de entrada.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 22 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Figura 13: Ejemplo de la etapa final del algoritmo con la identificación de los puntos anómalos (cuadrados) y los centroides de los clusters encontrados (triángulos). Fuente: [6]
4.3 Técnicas de detección de anomalías basadas en vecindad
o K vecino cercano (KNN - K Nearest Neighbors).
Este es un método clasificador de aprendizaje supervisado no paramétrico que, con la población de
entrada a clasificar, busca las K imágenes de entrenamiento con mayor verosimilitud y
posteriormente selecciona la clase más abundantes entre las K posibilidades. Este clasificador
trabaja buscando en primer lugar cuales de las K observaciones clasificadas durante la etapa de
entrenamiento se asemejan más a la nueva observación y seguidamente asignarla a una de estas.
La correcta elección del parámetro K es importante basarse en los datos disponibles. Se pueden
encontrar ejemplos en los que un valor de K elevado reduce el problema de ruido en la clasificación,
pero por otro lado crean límites entre clases parecidas. Un buen valor de K se puede obtener
mediante una optimización de uso (hacer pruebas hasta encontrar los valores que K que resulte en
mejores resultados). El valor de K acostumbra a ser un valor entero positivo e impar.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 23 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Figura 14: Ejemplo de resultados al aplicar el algoritmo K-NN para la detección de anomalías. Fuente: [7]
La implementación del método es sencilla y un caso especial es el que resulta de aplicar el valor de
K=1, el llamado NNA (Nearest Neighbor Algorithm). En contra del algoritmo juega la presencia de
características no relevantes para la clasificación o los problemas si las escalar características no son
consistentes.
o Relative Density.
Método de localización de anomalías está basado en la estimación de la densidad de objetos.
El procedimiento consiste en localizar las regiones de los posibles resultados que presentan una baja
presencia de elementos, baja densidad, y compararlos con las zonas vecinas. Si la comparación
arroja una distancia entre resultados importante se consideran anómalos. La principal característica
de esta técnica no supervisada es la posibilidad de tratar clases desconocidas mediante la asignación
de una calificación a cada instancia, que se utiliza para reflejar el grado de anomalía del elemento.
Como dato importante cabe destacar que este método requiere de la reducción en dos mapas de
trabajo para perpetrar el análisis de proximidad. Esto resulta en que éste es un método de elevadas
necesidades computacionales y más aun para datos de elevada dimensión.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 24 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
4.4 Técnicas de detección de anomalías basadas en análisis estadísticos
o Modelos Gaussianos.
Se trata de un método por grafos para el análisis multivariante de modelos. Las ventajas de este
método radica en que esta representación aporta información relacionada con la estructura de
independencia condicional existente entre las variables objeto de estudio.
La simplificación es también una ventaja de este procedimiento que reduce de manera sistemática
las observaciones multivariante sin perder las asociaciones y singularidades relevantes. Además
facilita la interpretación de resultados de forma sencilla, simplificando el proceso de selección de los
modelos. Asimismo la unicidad en el tratamiento de datos de múltiples fuentes crea un marco
uniforme para el análisis estadístico de datos continuos, recogidos en la matriz de correlación, o de
datos discretos resumidos en una tabla de contingencia.
Aunque el modelo gráfico simple no suministre información adecuada del conjunto de datos en
análisis este aporta información útil sobre la importancia relativa de las interpretaciones,
proponiendo caminos alternativos para la consecución de un análisis adecuado.
Para la aplicación propuesta, de detección de datos anómalos, este es un buen método en tanto que
el modelo se ajuste adecuadamente a la naturaleza de variables discretas y continuas a estudiar. Una
buena elección en este caso es la familia de distribuciones Gaussiana condicional, la cual comprende
casos concretos de las distribuciones Normal multivariante y la Multinormal.
Esta última, la distribución Gaussiana Condicional (GC) se define en base a dos términos: la
distribución marginal de las variables discretas es Multinormal y condicionado sobre estas variables,
las continuas se ajustan a una distribución Normal multivariante. La distribución GC contiene como
casos específicos: el caso discreto puro y el continuo puro.
o Regresión.
Dentro de la estadística es uno de los estudios normalmente aplicados para la estimación de
relaciones entre variables. Se lleva a cabo en situaciones con diversas variables, cuando se pretende
obtener la relación entre variables dependientes al modificar alguna de las independientes. Uno de
los valores habitualmente hallados es la esperanza condicional de la variable dependiente al
cambiar la independiente manteniendo el resto constante. La esperanza es el promedio de la
variable independiente.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 25 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Figura 15: Plano de regresión multivariable. Fuente: [8]
La mayor dificultad de este análisis de los datos en el campo de aplicación aquí considerado es la
ausencia de información sobre el proceso de generación de los datos. Esto complica sobremanera la
generación de suposiciones para las hipótesis de interrelación de variables, aún más cuando el
campo de aplicación involucra variables continuas, discretas o incluso registros incompletos.
Es por ello que se desaconseja el uso de éste en la detección de anomalías, a menos de que se
conozca el proceso origen de los datos y se disponga de tiempo para descartar hipótesis incorrectas
en base a un gran número de observaciones.
o Histogramas.
Esta técnica de análisis incluida en el campo de detección de anomalías se basa en el tratamiento de
la información y representación de histogramas. Éstos son la representación de la frecuencia de la
presencia de una variable en un rango determinado. Se muestra, normalmente, en forma de gráfico
de barras y sirven para obtener rápidamente una visión de las características del conjunto de datos a
analizar. De esta forma se evidencia el comportamiento o la distribución del conjunto de datos
analizando, así como la homogeneidad, la variabilidad, el rango, la tendencia o la presencia de datos
anómalos.
La aplicación normal es sobre conjuntos de datos continuos, pero sirve igualmente para el caso de
datos discretos cuantificables o no. Lo que más enriquece este tipo de análisis es la presencia de un
numeroso conjunto de datos de entrada.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 26 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Figura 16: Aplicación de un histograma para la representación de la frecuencia de aparición de ciertas características en un conjunto de datos continuos de múltiples variables y tres
orígenes distintos. Fuente: [9]
o Funciones kernel.
Como se ha comentado en el apartado, concretamente en el apartado de Máquinas de Soporte
Vectorial (también conocidas por SVM - Support Vector Machine), y se representan en la Figura 4 los
kernels son funciones que permiten operar en espacios multidimensionales. Se utiliza normalmente
para la clasificación de espacios de datos en clusters, ranquings, etc. Aportando un valor de la
similitud de los pares de datos de entrada en la representación en los espacios de entrada.
La mayor ventaja que aporta este método son los bajos costes computacionales que requiere,
incluso comparándolo con el trabajo sobre las coordenadas explícitas de los datos a estudiar.
Este tipo de estudio se suele combinar con optimización convexa o determinación de valores
propios.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 27 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
4.5 Técnicas de detección de anomalías basadas en Teoría de la información
La Teoría de la información, promulgada por Claude E. Shannon, es una rama de la teoría
matemática de probabilidad y estadística que estudia la información y todo lo relacionado con ésta
como el mensaje, la señal, el ruido, etc.
Figura 17: Esquema utilizado por Claude E. Shannon para la explicación de la Teoría de la información en 1948. Fuente: [10]
En el ámbito de la presente teoría, la información se trata como una magnitud física y se caracteriza
por la información transmitida mediante el concepto de entropía. En la actualidad está ampliamente
extendido que los canales de transmisión no son ideales aunque se consideran las no linealidades
como perfectas para estudiar la mayor cantidad de información útil transmisible.
La cantidad de información es una de los aspectos más estudiados. Éstos se basan en la teoría de
probabilidades y estadística. Para la detección de anomalías se puede utilizar el indicador entropía.
Se adopta directamente del ámbito termodinámico y en este contexto mide la información
contenida en un flujo de datos.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 28 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Figura 18: Representación de la entropía en el caso de dos posibilidades con probabilidades p y (p-1). Fuente: [10]
Así los datos con menor probabilidad de que se den aportan más información, mayor entropía. Ésta
se basa en la probabilidad de que se aparezca un nuevo evento después de otro dado. Por ejemplo
en un texto, como lo puede ser el presente, la palabra “datos” es altamente probable que vaya
precedida de otra como “los”, “de” o “estos”, como de hecho ocurre. De este modo aporta poca
información adicional, realmente se trata de información redundante en estos casos. En cambio si
previamente aparecieran las cadenas “perro”, “adiós” o “Mahmud Abbas” la entropía sería mucho
mayor, ya que este es un suceso que raramente se da. Se le presume un mayor contenido y se le
asigna un valor de entropía elevado con lo que cualquier algoritmo basado en la teoría de la
información lo detectaría como de elevada relevancia por la información contenida (muy poco
probable).
Como se puede intuir del ejemplo previo la medida de la entropía puede al mismo tiempo indicar un
valor anómalo, una singularidad. Es pues un buen método que no requiere de combinaciones ni
cálculos adicionales para determinar la presencia de un valor candidato a anómalo.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 29 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
4.6 Técnicas de detección de anomalías basadas en Teoría espectral
Las Teoría espectral es en la ciencia matemática un término utilizado que incluye desde las teorías
de vectores y vectores propios de matrices cuadradas a la teoría de estructuras de operadores en
ciertos espacios matemáticos. Para el presente caso es utilizada la transformada de Wavelet para el
análisis de series temporales cíclicas, como lo son las curvas de demanda energética de un conjunto
de clientes.
Figura 19: Señal no estacionaria transformada por el método Wavelet. Fuente: [11]
Es habitual para el estudio de señales temporales y repetitivitas la descomposición en frecuencia, y
en este campo la transformada de Fourier es la más ampliamente utilizada y con razón. Ésta permite
la comparación de una onda con otra mediante la descripción de la composición espectral
especificando el patrón de comportamiento de la onda repetida en función de la frecuencia y todo
esto de forma sencilla y equiparable.
Pero hay aspectos que la Transformada de Fourier no tiene en cuenta. Como es sabido el análisis y
descomposición por este método se realiza en el dominio de la frecuencia con lo que parte de la
información temporal se pierde en el momento de la transformación y no se recupera
posteriormente en la anti-transformada. Esto es por el enfoque hacia el análisis de señales
estacionarias o periódicas.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 30 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Hay otros métodos, entre los que destaca la transformada de Wavelet, en los que se procede de
forma similar pero manteniendo información temporal. De esta forme se permite el análisis de
transitorios, tendencias temporales, cambios abruptos e incluso el estudio de inicios y finales de
eventos. Existen otros procedimientos que permiten el análisis espectral con información temporal,
como el análisis de Fourier por intervalos (STFP). La principal desventaja de éste radica en que la
ventana temporal se mantiene constante en todas las frecuencias. Con lo que no se permite enfocar
o analizar la onda con mayor detalle en el espacio temporal ni en el de la frecuencia una vez elegidas
las características del análisis.
La transformada de Wavelet permite la retención de información del dominio temporal realizando el
análisis en el dominio espectral. A modo de ejemplo se puede observar la Figura 19 que se puede
interpretar, de manera muy simplificada, como la evolución temporal en el eje marcado como
translation de un análisis en frecuencia tradicional (aunque realmente los valores del eje scales se
interpretan de manera inversa a lo que se haría en una Transformada de Fourier, aquí los valores
bajos corresponden con frecuencias altas).
También esta Transformada tiene limitaciones, pues las consideraciones previas ya marcan que el
análisis se basa en ondas de duración limitada y valor medio igual a cero (factor que no aparece en el
análisis clásico de Fourier en el que las ondas sinusoidales se extienden desde menos infinito a más
infinito.
Para la aplicación de detección de anomalías en series temporales, el que se incluiría el presente
método, se puede aplicar esta transformada para el análisis de zonas localizadas en grandes señales
por las bondades ya expuestas. Con esto se localiza el posible dato anómalo incluso en largas series
temporales analizando la naturaleza en frecuencia de las singularidades y determinando si se
incluyen en un patrón admisible o clasificarlas como anómalas.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 31 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
4.7 Reducción de dimensionalidad
Como se ha comentado, debido a la alta dimensionalidad de los datos de entrada a los posibles
algoritmos de detección de anomalías, es habitual llevar a cabo un proceso previo de transformación
de los datos para el trabajo en un espacio diferente al original de las series temporales. Además el
escalado de los datos y regularización de los datos es un procedimiento que debe tratarse con
especial interés para no afectar al posterior análisis.
Los pasos previos que se contemplan en este apartado son tres: la agregación, la discretización y
el procesado de los datos de entrada.
o Agregación:
Después de la reunión de los datos es importante la elección del nivel de agregación que
depende de múltiples consideraciones. Entre estas se deben considerar, con especial
importancia las siguientes [12]:
Nivel de detalle de los resultados buscados, p.ej. en un análisis meteorológico no
tendría mucho sentido una resolución de metros.
Capacidades de computo y procesado de los datos, en función de los equipos
disponibles.
Naturaleza de los datos de entrada, ya que ésta puede condicionar el resto de las
variables consideradas: por la longitud, tipo, etc.
Capacidad de la fuente de aportación de los datos, p.ej. no se puede pedir una
agregación de datos de fallecimientos locales si solo se disponen de datos
autonómicos.
Naturaleza del sistema de recogida de datos, puede ser centralizado, descentralizado
o mixto.
Se debe tener en cuenta, con especial interés, la determinación del detalle que se quiere obtener
como conclusiones en base a los datos analizados. Si previamente al análisis, e incluso a la etapa de
recogida de datos, se plante con suficiente detalle el objetivo del estudio se pueden obtener incluso
en esta etapa los niveles de agregación requeridos. Dicho esto cabe destacar dos dimensiones que se
presentan en casi cualquier análisis de datos: el marco temporal y clasificaciones geográficas.
También se presentan situaciones en las que se deba combinar el análisis agregado con los datos o
registros unitarios desglosados.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 32 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
o Discretización:
La mayor parte de los algoritmos anteriormente citados requieren la entrada de datos en formatos
específicos para obtener las conclusiones requeridas. Esto resulta en que los datos se pueden
presentar de forma continua y la metodología de cálculo requerir datos fraccionados o en
agrupaciones de datos por lotes para el correcto funcionamiento. En estos casos se pueden
discretizar los datos en estados que correspondan a una ventana con el objetivo de adaptar los datos
al algoritmo. Así pues la discretización es procedimiento mediante el cual los valores se incluyen en
depósitos para que se observen solo un cierto número de niveles posibles [13].
Lo que se crea con este procedimiento es un conjunto de contenedores que agrupan los datos de
una propiedad en distintos niveles que permitan la clasificación de los datos. La selección de los
rangos que marcan los niveles es una tarea a realizar por el experto que conozca las propiedades de
los datos analizados así como los niveles que se pretenden obtener del algoritmo, al igual que en el
proceso de agregación.
o Procesado:
El procesado previo de los datos, o preprocesado, hace referencia a la etapa previa en la que los
datos de entrada al algoritmo son preparados mediante un análisis exploratorio para el filtrado y
eliminación de datos incompletos.
La eliminación de los datos incompletos se puede realizar descartando los que no cumplan un cierto
nivel de presencia de datos o por el contrario la interpolación de los datos mediante múltiples
consideraciones, interpolación con valores medios, mediante interpolación lineal, etc.
La normalización puede ser un punto importante mediante el cual, en la etapa previa, se analizan los
indicadores estadísticos representativos: media o desviación estándar, reducción o transformación
del rango. Es típico en el análisis de datos mediante redes neuronales, en especial en curvas de carga
de instalaciones, la normalización de los datos de forma que los niveles totales de demanda se
transforman a un rango de 0 a 1. Con esto se pretende obtener el comportamiento o tendencia del
consumidor evitando los elevados valores de error que se pueden dar al intentar obtener datos
numéricos concretos. Además en las previsiones de carga se suele llevar a cabo varias veces en un
horizonte temporal que se solapa entre las distintas iteraciones, con lo que los niveles se pueden ir
corrigiendo persistiendo el comportamiento de los clientes a los distintos valores numéricos que se
obtengan.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 33 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
La detección de datos anómalos puede presentarse ya en esta etapa, con lo que puede que sea
interesante presentar los datos que se descarten en esta etapa como elementos a analizar a la
finalización del algoritmo posterior.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 34 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
5. Selección de algoritmos de detección de anomalías
Después de la revisión completa de los algoritmos de detección de anomalías y los procesos previos para el
correcto tratamiento de la información se analizan los datos de origen y los resultados esperados del análisis
para la determinación del que mejor se ajuste y case con las capacidades computacionales.
Los datos utilizados para la búsqueda de datos anómalos serán los provistos por los contadores de energía
eléctrica del territorio español. Estos datos son de origen real y no están exentos de los posibles errores de
lectura y almacenamiento de los datos. Esto enriquece y acerca el estudio y la selección del algoritmo al
funcionamiento y a los posibles problemas que se puedan dar en situaciones que acontezcan en un
escenario real.
Los contadores inteligentes utilizados tienen distintas capacidades de lectura y transmisión de datos en
función del modelo utilizado. Mientras los primeros instalados realizaban la medida en tiempo real pero
almacenaban y transmitían los datos horarios los instalados en la actualidad presentan una resolución cuarto
horaria.
Figura 20: Contador de energía eléctrica de los utilizados en la actualidad para la medida, registro y transmisión de loso datos de consumo eléctrico en España. Fuente: Endesa
Así pues ya se presenta la problemática de la pérdida de sincronía de los datos disponibles por la variedad de
los periodos de muestreo.
Los datos recogidos por los contadores inteligentes presentan más información e indicadores de los que
constituyen la curva de carga de los clientes. Así se ofrecen datos de apertura de la tapa de bornes, medida
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 35 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
errónea, distintas alarmas sobre la manipulación, o datos sobre la actuación del sistema de control de
potencia incluido en el contador.
Para el presente análisis se centra en la detección de la anomalía en la curva de carga de cada cliente. Se
descartan, en principio, el uso de otros indicadores aunque tendrá un peso importante en la selección de la
algoritmia con vistas a la ampliación del presente proyecto a todos los datos proporcionados por los
contadores, así como otros proporcionados por concentradores e incluso datos meteorológicos.
Así pues, en base a la naturaleza y características de los datos a analizar y la complejidad de las anomalías se
pretende identificar, en los próximos pasos, de entre las técnicas de detección de anomalías revisadas cuales
son las que más se adecuan al dominio de aplicación concreto en el que se van a utilizar.
Se analizarán las ventajas y desventajas después de una primera criba en la que se tendrán en cuenta la
complejidad computacional al igual que se evaluará la capacidad para detectar las anomalías de los
algoritmos considerados.
En cuanto al objetivo del análisis se pretende que se realice una selección de las posibles secuencias de
datos que pertenezcan a uno de los tres siguientes tipos de anomalías:
- Detección de anomalías puntuales.
- Detección de subsecuencias anómalas.
- Detección de anomalías colectivas.
Como ejemplo de éstas se recogen los siguientes gráficos representativos, Figura 21.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 36 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Figura 21: Representación de los distintos tipos de anomalías considerados en el análisis. Fuente: [14].
El método para la detección de las anomalías que se prende implementar es del tipo no supervisado. Esto es
que no existe la disponibilidad previa de datos de entrenamiento clasificados como normales. Se analizarán
los disponibles teniendo en cuenta las características y relaciones entre el resto. Esto responde a que no se
tienen el suficiente conocimiento previo sobre los usuarios individuales para la determinación de cuáles son
los datos anómalos y cuales los normales.
Por la forma en la que se recogen los datos se presentan, también, problemas de pérdida de información o
pérdida de sincronismo entre los datos de entrada. Estos se eliminarán o serán tratados en la etapa previa.
También se presentarán como anomalías puntuales en la etapa final. En el caso de que por la naturaleza se
elimine una gran cantidad de datos estos podrán ser reclasificados según sean de naturaleza contextual o
colectiva, en función del criterio del evaluador final. Pues se presentará una etapa final de supervisión por
parte de un agente externo (experto que tenga conocimientos sobre los datos tratados).
Han sido descartadas las redes Bayesianas para el cometido que se apunta debido a que, como se apunta en
el apartado de la página 18 la “estructura de los modelos bayesianos permite retener las relaciones de
dependencia que existe entre los atributos de los datos, describiendo la distribución de probabilidad que
administra un conjunto de variables especificado y los cálculos de independencia condicional junto con las
probabilidades condicionales”. La dificultad de obtener estas relaciones de causalidad es la que lleva a
descartar este método en esta etapa.
El criterio para descartar los Sistemas expertos basado en reglas, es el mismo que el de las redes Bayesianas.
Ya que la naturaleza del método es similar en ambos casos.
K-means Clustering se desestima porque la naturaleza de los datos crea un problema de complejidad NP-
hard, con lo que la necesidad de cómputo es alta aunque el avance de las técnicas de resolución heurística
facilita la búsqueda del óptimo global no garantiza encontrarlo en un tiempo reducido.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 37 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Expectation Maximization (EM) tampoco garantiza que se pueda encontrar el óptimo global si existe más de
un óptimo local. Además al igual que pasa con K vecino cercano (KNN - K Nearest Neighbors) este es un
método clasificador de aprendizaje supervisado no paramétrico. Que como se ha dicho no coincide con el
objetivo del análisis planteado.
El algoritmo de Relative Density es descartado porque como se apunta en apartado descriptivo de este:
“cabe destacar que este método requiere de la reducción en dos mapas de trabajo para perpetrar el análisis
de proximidad. Esto resulta en que éste es un método de elevadas necesidades computacionales y más aun
para datos de elevada dimensión. “
Del apartado de análisis estadístico se descartan los Modelos Gaussianos y las Regresiones. El criterio para
tal decisión es la compleja representación y estudio de los datos de entrada en estos métodos. Teniéndose
que reducir estos a característicos concretas y restando información al análisis, por ejemplo, analizando los
valores medios de las curvas y perdiendo información sobre la distribución de consumos nocturnos y
diurnos. Los histogramas se mantienen como método cualitativo para la determinación posibles datos
anómalos. Las funciones Kernel tienen una aplicación concreta dentro de los algoritmos de redes SOM y las
Máquinas de Soporte Vectorial con lo que como técnica por separado carece de aportación a los métodos
planteados anteriormente.
Las técnicas basadas en la Teoría espectral están enfocadas al análisis de ondas oscilantes con especial
interés en los transitorios. Las curvas de carga se pueden considerar ondas oscilantes pero la presencia de
outliers puede desenfocar el objetivo descriptivo de la Teoría espectral obteniendo soluciones de datos
anómalos que en realidad no lo son.
Vista la naturaleza y las consideraciones anteriores se crea una primera selección de algoritmos de las
agrupaciones anteriores que permitan la clasificación, preferentemente, mediante método no supervisado y
por consiguiente que entre en consideración la relación entre los datos. Los primeros seleccionados son los
de la Tabla 1.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 38 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
Tabla 1: Primera selección de algoritmos para la detección de anomalías y las características de éstos en base a los parámetros interesantes en el estudio. Fuente: elaboración propia
Algoritmo: Máquinas de
Soporte Vectorial
Redes
Neuronales
Sistema experto
basado en reglas
Self-Organizing
Maps (SOM) Histogramas
Teoría de la
información
Supervisado: Sí Sí / No Sí No No No
Anomalía
puntual Sí Sí Sí Sí Sí Sí
Anomalía
contextual Sí Sí Sí / No Sí No Sí
Anomalía
colectiva Sí No Sí / No Sí / No No No
Según se observa en la Tabla 1 ninguno de los algoritmos es capaz de tratar la información según se obtienen
de la fuente, la base de datos que registra las curvas de carga de los contadores.
En base a este análisis se toma como línea de desarrollo la implantación de una etapa previa al análisis que
siente las bases de un barrido previo de los datos de entrada con el objetivo de encontrar errores de lectura
o almacenamiento. En esta primera etapa de preprocesado no se contempla ninguna etapa de agregación ni
de discretización, más de la que realiza en contador inteligente para el almacenamiento de los datos.
Visto que la algoritmia disponible no cubre, por si sola, los niveles que se han planteado, se elige la que
menor nivel de modificación requiera y mejor se ajuste en origen a el nuevo cometido de hallar datos
anómalos en curvas de carga de contadores inteligentes de energía eléctrica. Se elige, pues, las Self-
Organizing Maps o también llamadas redes SOM (del acrónimo en inglés). Para completar los requisitos
planteados se añade una etapa previa de análisis, como se ha comentado anteriormente. Además se
completará con histogramas cruzados que permiten el análisis de los valores representativos de las
demandas de los clientes de manera rápida e intuitiva.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 39 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
6. Diseño y desarrollo de algoritmos de detección, clasificación e interpretación de anomalías
Vistos los resultados de las etapas anteriores, de análisis de los algoritmos disponibles para la detección de
anomalías, se ha desarrollado un método operativo para la detección, clasificación e interpretación de las
anomalías empleando la técnica de las redes SOM para la detección de anomalías y termina con la
presentación de los resultados interesantes al experto al cargo de tal herramienta.
Se han clasificado y analizado distintos tipos de anomalías en:
Anomalías puntuales
Curvas de carga repetidas exactamente, posible duplicidad o error de transmisión de datos..
Anomalías contextuales
Evolución del valor medio de los registros de algún cliente clasificado mediante redes SOM que presente un
error elevado frente las agrupaciones obtenidas.
Anomalías colectivas
Similar al análisis anterior, pero operando con los valores medios de consumo de todos los clientes.
Figura 23: Representación esquemática de la disposición de los resultados del tercer análisis de detección de anomalías colectivas. Fuente: elaboración propia
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 40 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
7. Resultados y conclusiones
En el presente apartado se plasman de forma concisa las conclusiones extraíbles del estudio que empieza
mediante el análisis experto de los datos dónde se evalúa la heterogeneidad de los datos que hay
disponibles en la actualidad y la carencia de registros anteriores de muchos de ellos, lo que centra el texto
en el análisis exploratorio de los datos en el que se descubren nuevas relaciones o características mediante
el estudio.
Posteriormente se hace un análisis global de las metodologías más utilizadas para posteriormente entrar a
describirlas, una por una, en los apartados incluidos en el punto 5. Se comentan las ventajas y desventajas
que pueden aparecer en la utilización de estos algoritmos, tanto desde el punto de vista de la solución
aportada como las necesidades de cómputo requeridas para alcanzarlas.
Los apartados posteriores centran el análisis de la detección en un ejemplo concreto del sector energético
en el que, después de la confección de una tabla comparativa de la algoritmia, se eligen las Self-Organizing
Maps o también llamadas redes SOM (del acrónimo en inglés) como el más coherente en el ámbito
considerado. Además se requiere de etapas previas y posteriores que persiguen lograr el objetivo
inicialmente planteado de extraer relaciones y características ocultas del conjunto de datos analizado.
Como resultado final se detallan, etapa por etapa, los pasos seguidos para la consecución final del algoritmo
de detección de anomalías. A modo de resumen éste se compone de una etapa previa de análisis y filtrado
de los datos de entrada seguido de un conjunto de clasificaciones, atendiendo a los resultados de la red
SOM compuesta, que permiten la diferenciación entre anomalías puntuales, colectiva y contextuales.
Finalmente se genera un conjunto de resultados que se presentan de la forma más útil posible para el
usuario al cargo de la herramienta en los que se utilizan estadísticos, tales como histogramas y otros
parámetros relevantes.
ITE-PSA00217 INFORME TÉCNICO
INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74
Página 41 de 41
Fecha emisión: 02/02/2016
Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia
Sede Central Contabilidad, facturas, correspondencia
Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)
Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5
8. Bibliografía
[1] J. G. C. A. a. J. H. M. Gupta, «Outlier detection for temporal data,» Synth. Lect. Data Min. Knowl. Discov., vol. 5, nº 1, pp. 1-129, 2014.
[2] G. A. BETANCOURT, «LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs),» Scientia Et Technica, vol. 11, nº 27, pp. 67-72, 2005.
[3] B. A. V. Govea, «Representación y semántica de las Redes Bayesianas,» de Razonamiento probabilístico y redes bayesianas, México , 2012.
[4] P. J. M. Gutíerrez, «Dpto. de Matemática Aplicada. Universidad de Cantabria,» 20 9 2000. [En línea]. Available: http://personales.unican.es/gutierjm/cursos/expertos/Reglas.pdf. [Último acceso: 4 enero 2016].
[5] W. Pace, «Wikimedia Commons,» 26 julio 2007. [En línea]. Available: https://commons.wikimedia.org/wiki/File:K_Means_Example_Step_2.svg. [Último acceso: 19 octubre 2015].
[6] H. Y. Yinghua Zhou y X. Cai, «A Novel k-means Algorithm for Clustering and Outlier Detection,» de Second International Conference on Future Information Technology and Management Engineering, Sanya, China, 2009.
[7] Chire, «Wikipedia Commons,» 25 mayo 2010. [En línea]. Available: https://commons.wikimedia.org/wiki/File:LOF-idea.svg. [Último acceso: 19 Octubre 2015].
[8] San José State University, «Continuous Outcome, Multiple Predictors,» 19 11 2015. [En línea]. Available: http://www.sjsu.edu/faculty/gerstman/EpiInfo/cont-mult.htm#Background. [Último acceso: 19 11 2015].
[9] The MathWorks, Inc., «The MathWorks Documentation,» The MathWorks, Inc., 2015. [En línea]. Available: http://es.mathworks.com/help/stats/scatterhist.html. [Último acceso: 19 11 2015].
[10] C. E. Shannon, «A Mathematical Theory of Communication,» The Bell System Technical Journal, vol. 27, nº Julio, pp. 379-423,623-656, 1948.
[11] R. M. M. Samir Kouro R., Tutorial introductorio a la Teoría Wavelet, -: -, 2011.
[12] United Nations, Manual para la elaboración de un sistema de estadísticas sobre justicia penal, United Nations Publications, 2004.
[13] Microsoft Developer Network, «Microsoft.com,» Microsoft, 2015. [En línea]. Available: https://msdn.microsoft.com/es-es/library/ms174512%28v=sql.120%29.aspx#. [Último acceso: 14 12 2015].
[14] M. Hayes, Contextual Anomaly Detection Framework for Big Sensor Data, Ontario: University of Western Ontario, 2014.