Download pdf - INFORME ITE-PSA00217 - Instituto Tecnológico de la Energía

ITE-PSA00217 INFORME TÉCNICO

INSTITUTO TECNOLÓGICO DE LA ENERGÍA (ITE) Centro Tecnológico CT nº 74

Página 1 de 41

Fecha emisión: dd/mm/aaaa

Domicilio Social Campus de la U.P.V. Edificio Institutos 2 Camino de Vera, s/n Valencia

Sede Central Contabilidad, facturas, correspondencia Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)

Tel.: +34 96 136 66 70 Fax: +34 96 136 66 80 www.ite.es · [email protected] Rev. 5

INFORME

ITE-PSA00217

INFORME: E11 Diseño, desarrollo y validación de la aplicación de herramienta de detección

anomalías sobre conjuntos masivos de datos.

Autor: Instituto Tecnológico de la Energía (ITE)

Dirección: Avda. Juan de la Cierva 24 (Parque Tecnológico de Valencia)

Ciudad: Paterna (Valencia) C.P.: 46980 País España

Este informe se compone de 41 páginas.

Financiado por:

http://www.ite.es/

mailto:[email protected]



Página 2 de 41

Fecha emisión: 02/02/2016


Sede Central Contabilidad, facturas, correspondencia

Parque Tecnológico de Valencia Av. Juan de la Cierva, 24 46980 Paterna (Valencia)


ÍNDICE

1. Características generales ....................................................................................................................... 6

1.1 Garantías ........................................................................................................................................... 6

1.2 Observaciones importantes .............................................................................................................. 6

2. Objeto del documento ............................................................................................................................ 7

3. Análisis experto de los datos .................................................................................................................. 8

4. Revisión de algoritmos de detección de anomalías ............................................................................. 11

4.1 Técnicas de detección de anomalías basadas en la clasificación ....................................................... 12

o Máquinas de Soporte Vectorial ........................................................................................................ 12

o Redes Neuronales (ANN - Artificial Neural Network). ...................................................................... 13

o Redes bayesianas. ............................................................................................................................. 14

o Sistema experto basado en casos. ................................................................................................... 16

o Sistema experto basado en reglas. .................................................................................................. 16

4.2 Técnicas de detección de anomalías basadas en agrupamiento (clustering) ..................................... 18

o Self-Organizing Maps (SOM). ........................................................................................................... 18

o K-means Clustering. .......................................................................................................................... 20

o Expectation Maximization (EM). ...................................................................................................... 21

4.3 Técnicas de detección de anomalías basadas en vecindad ................................................................ 22

o K vecino cercano (KNN - K Nearest Neighbors). .............................................................................. 22

o Relative Density. ............................................................................................................................... 23

4.4 Técnicas de detección de anomalías basadas en análisis estadísticos .............................................. 24

o Modelos Gaussianos. ........................................................................................................................ 24

o Regresión........................................................................................................................................... 24

o Histogramas. ..................................................................................................................................... 25

o Funciones kernel. .............................................................................................................................. 26

4.5 Técnicas de detección de anomalías basadas en Teoría de la información ....................................... 27

4.6 Técnicas de detección de anomalías basadas en Teoría espectral .................................................... 29

4.7 Reducción de dimensionalidad ............................................................................................................. 31

http://www.ite.es/




Página 3 de 41






o Agregación: ....................................................................................................................................... 31

o Discretización: ................................................................................................................................... 32

o Procesado: ......................................................................................................................................... 32

5. Selección de algoritmos de detección de anomalías ........................................................................... 34

6. Diseño y desarrollo de algoritmos de detección, clasificación e interpretación de anomalías ............ 39

7. Resultados y conclusiones ................................................................................................................... 40

8. Bibliografía ............................................................................................................................................ 41

http://www.ite.es/




Página 4 de 41






ÍNDICE DE FIGURAS

Figura 1: Proceso de obtención de conocimiento mediante la aplicación de técnicas de minería de datos.

Fuente: ZenTut................................................................................................................................................... 10

Figura 2: Diagrama de las técnicas más utilizadas en la detección de datos anómalos en series temporales [1].

........................................................................................................................................................................... 11

Figura 3: Ejemplo en R2 en el que se aprecia que la frontera de decisión se sitúa entre los datos y tan lejos

como sea posible de ambas clases de datos. Fuente: [2] ................................................................................. 12

Figura 4: Ejemplo de aplicación de una transformación del espacio de datos mediante un kernel a la entrada

en un problema no linealmente separable. Fuente: [2].................................................................................... 13

Figura 5: Ejemplo de aplicación de SVM a un problema con dos espirales de 200 puntos en 2 clases en el que

la frontera de decisión toma diferentes valores de C. Fuente: [2] ................................................................... 13

Figura 6: Estructura interna y partes de las neuronas de las redes neuronales artificiales. Fuente: Elaboración

propia ....................................................................................................................................................................

Figura 7: Ejemplo de aplicación de una red bayesiana con el gráfico acíclico y las probabilidades

condicionales. Fuente: [3] ................................................................................................................................. 15

Figura 8: Representación gráfica de las relaciones en un ejemplo con 6 reglas. Fuente: [4] ........................... 17

Figura 9: Distancia de los componentes principales entre los clusters identificados por los mapas auto-

organizativos (redes SOM). Fuente: Mathworks ............................................................................................... 18

Figura 10: Matriz U de los datos de carga del sistema eléctrico español para una prototipo de red SOM con

datos reales de 2014. Fuente: Elaboración propia. ........................................................................................... 19

Figura 11: Predicción de consumo eléctrico nacional realizado por REE. ......................................................... 20

Figura 12: Ejemplo de los pasos simplificados de la metodología de clustering k-mean. Fuente: [5] .............. 21

Figura 13: Ejemplo de la etapa final del algoritmo con la identificación de los puntos anómalos (cuadrados) y

los centroides de los clusters encontrados (triángulos). Fuente: [6] ................................................................ 22

Figura 14: Ejemplo de resultados al aplicar el algoritmo K-NN para la detección de anomalías. Fuente: [7] .. 23

Figura 15: Plano de regresión multivariable. Fuente: [8] .................................................................................. 25

Figura 16: Aplicación de un histograma para la representación de la frecuencia de aparición de ciertas

características en un conjunto de datos continuos de múltiples variables y tres orígenes distintos. Fuente: [9]

........................................................................................................................................................................... 26

Figura 17: Esquema utilizado por Claude E. Shannon para la explicación de la Teoría de la información en

1948. Fuente: [10] ............................................................................................................................................ 27

http://www.ite.es/




Página 5 de 41






Figura 18: Representación de la entropía en el caso de dos posibilidades con probabilidades p y (p-1). Fuente:

[10] .................................................................................................................................................................... 28

Figura 19: Señal no estacionaria transformada por el método Wavelet. Fuente: [11] ..................................... 29

Figura 20: Contador de energía eléctrica de los utilizados en la actualidad para la medida, registro y

transmisión de loso datos de consumo eléctrico en España. Fuente: Endesa .................................................. 34

Figura 21: Representación de los distintos tipos de anomalías considerados en el análisis. Fuente: [14]. ...... 36

Figura 22: Análisis de los datos con redes SOM y sucesivos barridos temporales del registro de datos. Fuente:

elaboración propia ................................................................................................................................................

Figura 23: Representación esquemática de la disposición de los resultados del tercer análisis de detección de

anomalías colectivas. Fuente: elaboración propia ............................................................................................ 39

http://www.ite.es/




Página 6 de 41






1. Características generales

1.1 Garantías

El Instituto Tecnológico de la Energía (ITE) garantiza la fidelidad de los datos que aparecen en este informe

como resultado de los trabajos realizados y en las condiciones que se indican.

El ITE garantiza la confidencialidad de su actuación en todo lo referente a los resultados obtenidos. Todos los

datos referentes al trabajo realizado serán tratados de manera confidencial.

1.2 Observaciones importantes

1. Se autoriza la reproducción de este informe, siempre que el resultado sea una copia fiel del original y se

realice de forma completa.

2. Este informe no podrá ser modificado ni reproducido parcialmente sin autorización por escrito expresa del

ITE.

3. Este informe sólo se refiere a los trabajos solicitados que se reflejan en este documento.

4. Este informe, por sí mismo, no constituye o implica, en manera alguna una aprobación del producto o

servicio resultante, por el ITE, por un organismo de certificación o por cualquier otro organismo.

5. Este informe o parte del mismo no será utilizado por el cliente, o por alguien autorizado por el cliente, con

fines promocionales o publicitarios, cuando el ITE considere improcedente tal utilización.

6. La fidelidad de los datos que explícitamente aparezcan en este informe, como exhibidos por el

peticionario, es responsabilidad única de éste.

http://www.ite.es/




Página 7 de 41






2. Objeto del documento

El objetivo de este documento es el desarrollo e implementación de un sistema de detección, clasificación e

interpretación de anomalías en el análisis de grandes cantidades de datos para la identificación de

irregularidades, comportamientos y patrones anómalos en los mismos. Este sistema será de aplicación para

redes de sensores en los que se intercambia una cantidad masiva de datos de distinta naturaleza y

procedencia.

Dependiendo de la naturaleza y características de los datos y el tipo de anomalías que se pretende

identificar la detección de anomalías se definirá respecto a eventos o subsecuencias dentro del conjunto de

datos o respecto a otro conjunto de datos tomado como referencia.

http://www.ite.es/




Página 8 de 41






3. Análisis experto de los datos

La gran disponibilidad de datos en la actualidad es uno de los grandes retos de los análisis y detección

preventiva de conductas anómalas. El objetivo de estos estudios es principalmente el de sacar a la luz

información oculta o desconocida y convertirla en útil. Esta información puede proporcionar múltiples

ventajas competitivas a la empresa que las implante, como el aumento de beneficios y mejoras en la

operación derivados de la correcta toma de decisiones por la detección temprana de conductas anómalas.

Esta área de estudio separa el análisis de los datos en un exploratorio (en el que se descubren nuevas

relaciones o características) y confirmativo, en el que las hipótesis probadas se evalúan a verdadero o falso.

Para el caso tratado en este documento se pueden utilizar ambos métodos pero se debe valorar que no se

dispone de información sobre históricos de datos anómalos para la generación de las hipótesis a validar. Es

por ello que la segunda opción es recomendable en el estado de la técnica actual.

La distinta naturaleza de los datos unido a las limitaciones de cómputo, memoria, almacenamiento, ancho

de banda, etc. crea la necesidad de técnicas avanzadas de tratamiento y análisis de estos datos. Los registros

o bases de datos, además, se pueden presentar de forma incoherente, incompletos o prácticamente

imposibles de analizar de forma global.

La necesidad de explorar la disponibilidad de datos antes del análisis y emisión de las conclusiones es

imprescindible. En muchos casos los datos disponibles están compuestos por pequeñas porciones,

comparado con el total de datos disponibles, haciendo factible el tratamiento de una parte del total de la

información utilizable.

El trabajo previo consiste en clasificar los datos de entrada para, posteriormente, plantear las posibilidades

de análisis. El objetivo final es la detección de datos anómalos en el flujo continuo de información que se

combina con datos registrados en bases de datos. Así pues los algoritmos utilizados deben ser capaces de

combinar los dos tipos de datos de entrada y arrojar un resultado de la posible localización de

comportamientos anómalos considerando que no se pueden producir demoras elevadas que desvirtúen la

naturaleza continua de la adquisición de los datos.

Las características más importantes para el tratamiento del gran y heterogéneo grupo de datos objeto de

este análisis son:

Velocidad de adquisición.

http://www.ite.es/




Página 9 de 41






Disponibilidad.

Volumen de datos.

Dominio al que pertenecen.

Periodicidad de la lectura en la base de datos.

Naturaleza síncrona o asíncrona.

Cualificación, incluyendo el contexto del origen de los datos (veracidad).

Estructura de datos (estructurados o no estructurados).

Una de las clasificaciones más utilizada de grandes cantidades de datos es la de separar entre estructurados

y no estructurados. Además de los datos y estructuras también se puede obtener información contextual de

de estos, mediante el análisis del dominio al que pertenecen.

El objetivo principal de estas técnicas es la determinación de las relaciones entre las variables y obtención de

información característica de las entradas de datos, como se ha comentado. Dada la complejidad de las

bases de datos, o secuencias de entrada, analizadas es necesario describir de forma simplificada el

comportamiento de los datos. Es por ello que se opta por técnicas de análisis más allá del análisis estadístico

tradicional.

La información buscada en este caso es la detección de datos anómalos, pero esto se puede extender a la

detección de patrones, tendencias o reglas de asociación entre variables etc.

Así pues, la última etapa de este procedimiento será la presentación de los resultados con la información

descubierta en el camino para comprender mejor los datos.

Los pasos a seguir en el proceso son:

Clasificación: explicación resumida de datos, patrones, grupos y reglas que los relacionan así como la

calidad y procedencia de estos, según los parámetros comentados anteriormente.

Predicción: obtención de un modelo capaz de prever el comportamiento del sistema en función de la

información disponible, así como los parámetros característicos que definan la base de datos o

series temporales.

Análisis evolutivo: Búsqueda de los patrones y elementos que se escapan de la conducta normal del

sistema, evaluación e interpretación.

Representación de resultados: representación de las características más relevantes y los resultados

del análisis en función del tipo de datos y conclusiones.

http://www.ite.es/




Página 10 de 41






Figura 1: Proceso de obtención de conocimiento mediante la aplicación de técnicas de minería de

datos. Fuente: ZenTut

http://www.ite.es/


http://www.zentut.com/



Página 11 de 41






4. Revisión de algoritmos de detección de anomalías

Como se ha comentado en la sección anterior el primero de los pasos necesarios es el apartado descriptivo.

En éste se reconocen dos grandes grupos de técnicas en función de la naturaleza del aprendizaje o ajuste del

modelo que se describe o clasifica los datos. El primero de estos grandes grupos es el aprendizaje

supervisado, que se basa en datos conocidos previamente utilizados para el ajuste del modelo, y otro es el

llamado aprendizaje no supervisado en el que el modelo se construye con los propios datos, sin feedback o

ajustes.

Si se hace un análisis global de las metodologías más utilizadas en el caso de series temporales se pueden

distinguir las que se presentan en la Figura 2, que muestra el diagrama de las técnicas de detección de datos

anómalos para series temporales normalmente utilizados.

Figura 2: Diagrama de las técnicas más utilizadas en la detección de datos anómalos en series temporales [1].

Otras técnicas existentes que son utilizadas en el campo de detección de anomalías para el tratamiento de

grandes conjuntos de datos se basan en distintos principios, distintos al de la detección temporal. Si se

atiende a la base de la técnica de detección de anomalías se llega a que las hay basadas en: la clasificación, el

agrupamiento (clustering), la vecindad o semejanza, análisis estadísticos, Teorías de la información y Teoría

espectral.

http://www.ite.es/




Página 12 de 41






4.1 Técnicas de detección de anomalías basadas en la clasificación

o Máquinas de Soporte Vectorial

También conocidas por SVM (Support Vector Machine), se basa en la Minimización del Riesgo

Estructural (SRM - Structural Risk Minimization) que es un proceso de inferencia desarrollado sobre

la Teoría del Aprendizaje Estadístico específicamente para trabajar con problemas de aprendizaje a

partir de un conjunto de entrenamiento pequeño.

La idea detrás de las SVM es el mapeo de los puntos de entrada en un espacio de dimensión mayor

(p. ej.: añadir una dimensión a una base de datos de entrada bidimensional -R2- y transformarla en

R3) y después encontrar un hiperplano que separe el conjunto de datos maximizando la distancia (m)

entre los grupos encontrados.

Figura 3: Ejemplo en R2 en el que se aprecia que la frontera de decisión se sitúa entre los datos y tan lejos como sea posible de ambas clases de datos. Fuente: [2]

El proceso de maximización del margen (m) es un problema de programación cuadrática (QP) y

puede ser resuelto mediante el problema dual e introduciendo multiplicadores de Lagrange. La SVM

es capaz de encontrar el hiperplano óptimo sin ningún tipo de conocimiento del mapeo utilizando el

producto escalar con funciones características llamadas kernels.

El problema es de resolución rápida si es linealmente separable, pero se complica si se trata de un

caso no linealmente separable en el que se deben permitir las violaciones de clasificación en la

formulación de la SVM, Figura 4.

http://www.ite.es/




Página 13 de 41






Figura 4: Ejemplo de aplicación de una transformación del espacio de datos mediante un kernel a la entrada en un problema no linealmente separable. Fuente: [2]

Cabe comentar que el modelado SVM no necesita de todos los puntos disponibles para hallar una

solución al problema de maximizar de la distancia de separación entre clases. Además de ser una

técnica rápida en comparación con el resto de técnicas de clasificación con un elevado número de

datos en el conjunto de entrada. Figura 5.

Figura 5: Ejemplo de aplicación de SVM a un problema con dos espirales de 200 puntos en 2 clases en el que la frontera de decisión toma diferentes valores de C. Fuente: [2]

o Redes Neuronales (ANN - Artificial Neural Network).

Las redes neuronales artificiales son una potente herramienta matemática para la aproximación de

funciones no lineales, modelización de fenómenos complejos e incluso predicción de evolución de

variables, entre otras muchas aplicaciones.

http://www.ite.es/




Página 14 de 41






.

Mediantes esta estructura se pretende simular el funcionamiento del sistema nervioso central de los

humanos. La gran ventaja en esta aplicación es la autonomía del modelo en la detección de las

agrupaciones de datos o clases (normales/anómalas). Ya que este método no requiere de un

etiquetado de los datos de entrada, permite el aprendizaje e identifica que puntos del conjunto de

datos de entradas no se corresponden con datos “normales” en la capa de salida.

Alguno de los métodos de búsqueda de datos anómalos utiliza la barra del error equivalente para

identificar los datos anómalos durante el proceso de entrenamiento de una red multicapa

perceptrón. Los datos “raros” son los que causan un mayor error en la predicción que el nivel

previamente fijado en el estudio.

o Redes bayesianas.

Se entiende por red Bayesiana a los grafos dirigidos acíclicos en el que los nodos son variables

aleatorias según el teorema de Bayes. El funcionamiento de este tipo de redes es el modelado

mediante un conjunto de variables y las interrelaciones que existen entre estas.

En concreto el modelo está compuesto por un grafo, que modela las interrelaciones entre los nodos

o situaciones mediante relaciones causales, y una tabla de que modelas las probabilidades entre los

posibles estados. Una vez obtenido el modelo se utilizará para hacer inferencia bayesiana y estimar

la probabilidad de las variables no conocidas con los datos conocidos. Para el aprendizaje de las

redes bayesianas se utilizan algoritmos que pueden calcular el modelo y sus relaciones mediante

inferencia probabilística.

Regla

de

pro

pa

gació

n w2j

wnj

x1

x2

xn

Neurona xj: Entradas wji: Pesos

Salida: yi Fu

nció

n d

e

activa

ció

n

Fu

nció

n d

e s

alid

a w1j

Figura 6: Estructura interna y partes de las neuronas de las redes neuronales artificiales. Fuente: Elaboración propia

http://www.ite.es/




Página 15 de 41






Figura 7: Ejemplo de aplicación de una red bayesiana con el gráfico acíclico y las probabilidades condicionales. Fuente: [3]

Esta estructura de los modelos bayesianos permite retener las relaciones de dependencia que existe

entre los atributos de los datos, describiendo la distribución de probabilidad que administra un

conjunto de variables especificado y los cálculos de independencia condicional junto con las

probabilidades condicionales. Así, las redes permiten mostrar las relaciones de independencia entre

grupos de variables, lo que es útil para la detección de datos anómalos.

Los tipos de redes bayesianas se suelen clasificar según el tipo de variables utilizadas:

Redes bayesianas continuas: son aquellas que tienen un número infinito de valores.

En este tipo de redes es complicada la determinación de las probabilidades que

definen cada una de las variables, es por ello que las probabilidades condicionales se

representan mediante una función de probabilidad.

Debido a que la mayor parte de las variables reales son continuas, por ejemplo la

variación de temperatura, las redes bayesianas se adaptan a funciones de

distribución normales lineales, como la normal. Esto facilita en gran manera el

proceso de discretización mediante la selección de rangos.

Los métodos supervisados y no supervisados corresponden a la división del proceso

de discretización de las variables. Los no supervisados la variable correspondiente a

la clase no es considerada continua y los valores se discretizan independientemente.

Los supervisados en cambio tienen en cuenta la variable clase, y los puntos de la

http://www.ite.es/




Página 16 de 41






discretización que divide los rangos de cada atributo son elegidos según el valor de la

clase.

Redes bayesianas dinámicas: consienten en la exposición de procesos que contienen

una variable aleatoria en cada intervalo de tiempo. El estado de las variables se

representa en un instante de tiempo para poder representar los procesos dinámicos

dentro de la red. Las probabilidades no cambiarán durante el proceso, es decir, se

repiten las etapas y las relaciones entre estas.

La inferencia e este tipo de redes bayesianas es la misma que para todas las redes

bayesianas, y por esto se emplean los mismos métodos. La diferencia reside en la

captación de todas las observaciones mediante la reproducción de los intervalos de

tiempo.

o Sistema experto basado en casos.

Es un conjunto de técnicas para el desarrollo de sistemas basados en el conocimiento recuperando y

reutilizando las soluciones de experiencias pasadas para resolver problemas parecidos y así obtener

el resultado. Este se puede considerar como un subconjunto de razonamiento analógico, que

consiste en alterar una parte de una solución de un problema conocido previamente para resolver

un nuevo problema, considerando ambos problemas relacionados.

A diferencia del razonamiento basado en casos en el que los problemas pertenecen al mismo

dominio el razonamiento analógico encuentra similitudes entre diferentes dominios. Así pues el

correcto funcionamiento de estos sistemas radica en el conocimiento sobre el dominio de que trata

y su capacidad de aprendizaje.

El sistema experto requiere, por tanto, de una colección de experiencias (casos) almacenadas en una

base en el que se guarda una breve descripción del problema y la solución que se aplicó. Así los dos

grandes pilares de este tipo resolución son que no se necesitan conocer en detalle las relaciones

entre el problema y la solución, y que los problemas suelen repetirse y la experiencia siempre es un

recurso útil.

o Sistema experto basado en reglas.

http://www.ite.es/




Página 17 de 41






Estos se basan en el mismo principio que los descritos en el punto anterior, pero en el que el proceso

de inferencia se utiliza un conjunto de reglas que constituyen la base del conocimiento experto. Las

reglas guardadas son evaluadas a medida que las condiciones se cumplen y se generan nuevos

hechos que enriquecen el sistema.

Figura 8: Representación gráfica de las relaciones en un ejemplo con 6 reglas. Fuente: [4]

Para analizar esta operativa hay dos formas de proceder en función de la dirección del proceso. La

primera parte desde la evidencia hasta los objetivos (forward chaining) y la segundo en orden

inverso, comenzar desde el objetivo hasta llegar al conjunto de evidencias que lo han provocado

(backward chaining).

http://www.ite.es/




Página 18 de 41






4.2 Técnicas de detección de anomalías basadas en agrupamiento (clustering)

o Self-Organizing Maps (SOM).

En el grupo de técnicas de aprendizaje no supervisado se incluyen el clustering y la clasificación

mediante mapas auto-organizativos o SOM. El clustering consiste en definir un número de patrones

a los cuales se asociada cada uno de los datos de entrada mediante la medida una medida de la

similitud entre los datos. Con este método además de la clasificación también se obtienen una serie

de prototipos que son agrupaciones de datos que representan cada grupo, estos se llaman

centroides.

Figura 9: Distancia de los componentes principales entre los clusters identificados por los mapas auto-organizativos (redes SOM). Fuente: Mathworks

El funcionamiento de las redes SOM consiste en clasificar los objetos a estudio en un mapa 2D

formado por neuronas que ajustan su forma ponderando la topología previa con los datos

nuevamente introducidos. De esta forma cada modificación de los patrones de los clusters modifica

el propio centroide, ajustando los pesos hasta conseguir la máxima similitud.

De esta forma se obtiene una representación de los datos en varias dimensiones agrupándolos en

una parrilla 2D. Permite mostrar, también, otros parámetros interesantes de medida de la

homogeneidad de los datos, como la distancia entre los clusters calculados para una serie de datos.

Por ejemplo, en la matriz U (U-Matrix) se utilizan los datos de las distancias euclídeas entre los

http://www.ite.es/




Página 19 de 41






centroides de los grupos para representar la semejanza o diferencia entre los elementos adyacentes,

Figura 10.

Figura 10: Matriz U de los datos de carga del sistema eléctrico español para una prototipo de red SOM con datos reales de 2014. Fuente: Elaboración propia.

Por lo que respecta a la predicción de las actuaciones futuras se aplican técnicas de regresión que

permiten ajustar el modelo matemático al comportamiento del sistema. El objetivo de este punto es

la determinación de los valores posteriores con la entrada de los datos acontecidos hasta dicho

instante. El uso de estas técnicas es muy utilizado y abarca un amplio abanico de posibilidades,

desde mínimos cuadrados hasta redes neuronales. Como ejemplo de predicción se presenta en la

Figura 11 correspondiente a la curva de predicción de demanda de energía eléctrica realizada

diariamente por Red Eléctrica de España.

http://www.ite.es/




Página 20 de 41






Figura 11: Predicción de consumo eléctrico nacional realizado por REE. Fuente: Red Eléctrica de España.

El siguiente paso es el análisis evolutivo con el cometido de obtener los patrones o tendencias

temporales de la serie de datos analizada. Posteriormente el análisis del comportamiento previsible

se compara con el real para determinar la presencia de datos anómalos.

o K-means Clustering.

Este método de cuantificación vectorial tiene su origen en el procesamiento de señal y es

actualmente muy utilizado en la minería de datos y la clusterización. El resultado del análisis es una

división del espacio como en celdas o clusters. El problema es de complejidad NP-hard, con lo que la

necesidad de cómputo es alta aunque el avance de las técnicas de resolución heurística facilita la

búsqueda del óptimo global.

El primer paso es situar en el espacio de soluciones los centroides generados aleatoriamente,

dibujados de distinto color en el primer cuadro de la Figura 12. A continuación se asocian las

soluciones a los centroides calculados, obteniendo una partición del espacio en función de la

distancia de todos los elementos. El tercer paso consiste en recalcular los centros de cada uno de los

http://www.ite.es/




Página 21 de 41






grupos con el objetivo de colocar en el centro el centroide. El algoritmo repite el segundo y tercer

paso hasta encontrar la convergencia del método.

Figura 12: Ejemplo de los pasos simplificados de la metodología de clustering k-mean. Fuente: [5]

o Expectation Maximization (EM).

Este es un método iterativo de encontrar el máximo valor de similitud en los parámetros del modelo.

Es normal añadir variables latentes a los parámetros no conocidos y a los determinados.

El proceso de resolución requiere del cálculo de derivadas y funciones de similitud respecto los

valores conocidos además de resolver las ecuaciones resultantes. El método se basa en la

observación para, numéricamente, resolver los problemas planteados anteriormente. Un

procedimiento puede ser tomar valores arbitrarios para uno de los conjuntos de incógnitas, el que se

utiliza para encontrar el segundo set, y posteriormente buscar los más idóneos del primer grupo de

parámetros utilizados de forma que se consiga la convergencia de estos dos sets a puntos fijos.

No se puede demostrar la convergencia al valor buscado del método puesto que es un método

heurístico, la derivada de la función de similitud tiende a cero en ese punto. Si el problema posee

más de una solución este método no asegura el descubrimiento del óptimo global, pero si asegura

un óptimo local. Por ejemplo, una de las soluciones que se pueden encontrar por el método

Expectation Maximization (EM) es un modelo que implique un componente con una varianza mínima

y un valor medio igual al de uno de los valores de los datos de entrada.

http://www.ite.es/




Página 22 de 41






Figura 13: Ejemplo de la etapa final del algoritmo con la identificación de los puntos anómalos (cuadrados) y los centroides de los clusters encontrados (triángulos). Fuente: [6]

4.3 Técnicas de detección de anomalías basadas en vecindad

o K vecino cercano (KNN - K Nearest Neighbors).

Este es un método clasificador de aprendizaje supervisado no paramétrico que, con la población de

entrada a clasificar, busca las K imágenes de entrenamiento con mayor verosimilitud y

posteriormente selecciona la clase más abundantes entre las K posibilidades. Este clasificador

trabaja buscando en primer lugar cuales de las K observaciones clasificadas durante la etapa de

entrenamiento se asemejan más a la nueva observación y seguidamente asignarla a una de estas.

La correcta elección del parámetro K es importante basarse en los datos disponibles. Se pueden

encontrar ejemplos en los que un valor de K elevado reduce el problema de ruido en la clasificación,

pero por otro lado crean límites entre clases parecidas. Un buen valor de K se puede obtener

mediante una optimización de uso (hacer pruebas hasta encontrar los valores que K que resulte en

mejores resultados). El valor de K acostumbra a ser un valor entero positivo e impar.

http://www.ite.es/




Página 23 de 41






Figura 14: Ejemplo de resultados al aplicar el algoritmo K-NN para la detección de anomalías. Fuente: [7]

La implementación del método es sencilla y un caso especial es el que resulta de aplicar el valor de

K=1, el llamado NNA (Nearest Neighbor Algorithm). En contra del algoritmo juega la presencia de

características no relevantes para la clasificación o los problemas si las escalar características no son

consistentes.

o Relative Density.

Método de localización de anomalías está basado en la estimación de la densidad de objetos.

El procedimiento consiste en localizar las regiones de los posibles resultados que presentan una baja

presencia de elementos, baja densidad, y compararlos con las zonas vecinas. Si la comparación

arroja una distancia entre resultados importante se consideran anómalos. La principal característica

de esta técnica no supervisada es la posibilidad de tratar clases desconocidas mediante la asignación

de una calificación a cada instancia, que se utiliza para reflejar el grado de anomalía del elemento.

Como dato importante cabe destacar que este método requiere de la reducción en dos mapas de

trabajo para perpetrar el análisis de proximidad. Esto resulta en que éste es un método de elevadas

necesidades computacionales y más aun para datos de elevada dimensión.

http://www.ite.es/




Página 24 de 41






4.4 Técnicas de detección de anomalías basadas en análisis estadísticos

o Modelos Gaussianos.

Se trata de un método por grafos para el análisis multivariante de modelos. Las ventajas de este

método radica en que esta representación aporta información relacionada con la estructura de

independencia condicional existente entre las variables objeto de estudio.

La simplificación es también una ventaja de este procedimiento que reduce de manera sistemática

las observaciones multivariante sin perder las asociaciones y singularidades relevantes. Además

facilita la interpretación de resultados de forma sencilla, simplificando el proceso de selección de los

modelos. Asimismo la unicidad en el tratamiento de datos de múltiples fuentes crea un marco

uniforme para el análisis estadístico de datos continuos, recogidos en la matriz de correlación, o de

datos discretos resumidos en una tabla de contingencia.

Aunque el modelo gráfico simple no suministre información adecuada del conjunto de datos en

análisis este aporta información útil sobre la importancia relativa de las interpretaciones,

proponiendo caminos alternativos para la consecución de un análisis adecuado.

Para la aplicación propuesta, de detección de datos anómalos, este es un buen método en tanto que

el modelo se ajuste adecuadamente a la naturaleza de variables discretas y continuas a estudiar. Una

buena elección en este caso es la familia de distribuciones Gaussiana condicional, la cual comprende

casos concretos de las distribuciones Normal multivariante y la Multinormal.

Esta última, la distribución Gaussiana Condicional (GC) se define en base a dos términos: la

distribución marginal de las variables discretas es Multinormal y condicionado sobre estas variables,

las continuas se ajustan a una distribución Normal multivariante. La distribución GC contiene como

casos específicos: el caso discreto puro y el continuo puro.

o Regresión.

Dentro de la estadística es uno de los estudios normalmente aplicados para la estimación de

relaciones entre variables. Se lleva a cabo en situaciones con diversas variables, cuando se pretende

obtener la relación entre variables dependientes al modificar alguna de las independientes. Uno de

los valores habitualmente hallados es la esperanza condicional de la variable dependiente al

cambiar la independiente manteniendo el resto constante. La esperanza es el promedio de la

variable independiente.

http://www.ite.es/




Página 25 de 41






Figura 15: Plano de regresión multivariable. Fuente: [8]

La mayor dificultad de este análisis de los datos en el campo de aplicación aquí considerado es la

ausencia de información sobre el proceso de generación de los datos. Esto complica sobremanera la

generación de suposiciones para las hipótesis de interrelación de variables, aún más cuando el

campo de aplicación involucra variables continuas, discretas o incluso registros incompletos.

Es por ello que se desaconseja el uso de éste en la detección de anomalías, a menos de que se

conozca el proceso origen de los datos y se disponga de tiempo para descartar hipótesis incorrectas

en base a un gran número de observaciones.

o Histogramas.

Esta técnica de análisis incluida en el campo de detección de anomalías se basa en el tratamiento de

la información y representación de histogramas. Éstos son la representación de la frecuencia de la

presencia de una variable en un rango determinado. Se muestra, normalmente, en forma de gráfico

de barras y sirven para obtener rápidamente una visión de las características del conjunto de datos a

analizar. De esta forma se evidencia el comportamiento o la distribución del conjunto de datos

analizando, así como la homogeneidad, la variabilidad, el rango, la tendencia o la presencia de datos

anómalos.

La aplicación normal es sobre conjuntos de datos continuos, pero sirve igualmente para el caso de

datos discretos cuantificables o no. Lo que más enriquece este tipo de análisis es la presencia de un

numeroso conjunto de datos de entrada.

http://www.ite.es/




Página 26 de 41






Figura 16: Aplicación de un histograma para la representación de la frecuencia de aparición de ciertas características en un conjunto de datos continuos de múltiples variables y tres

orígenes distintos. Fuente: [9]

o Funciones kernel.

Como se ha comentado en el apartado, concretamente en el apartado de Máquinas de Soporte

Vectorial (también conocidas por SVM - Support Vector Machine), y se representan en la Figura 4 los

kernels son funciones que permiten operar en espacios multidimensionales. Se utiliza normalmente

para la clasificación de espacios de datos en clusters, ranquings, etc. Aportando un valor de la

similitud de los pares de datos de entrada en la representación en los espacios de entrada.

La mayor ventaja que aporta este método son los bajos costes computacionales que requiere,

incluso comparándolo con el trabajo sobre las coordenadas explícitas de los datos a estudiar.

Este tipo de estudio se suele combinar con optimización convexa o determinación de valores

propios.

http://www.ite.es/




Página 27 de 41






4.5 Técnicas de detección de anomalías basadas en Teoría de la información

La Teoría de la información, promulgada por Claude E. Shannon, es una rama de la teoría

matemática de probabilidad y estadística que estudia la información y todo lo relacionado con ésta

como el mensaje, la señal, el ruido, etc.

Figura 17: Esquema utilizado por Claude E. Shannon para la explicación de la Teoría de la información en 1948. Fuente: [10]

En el ámbito de la presente teoría, la información se trata como una magnitud física y se caracteriza

por la información transmitida mediante el concepto de entropía. En la actualidad está ampliamente

extendido que los canales de transmisión no son ideales aunque se consideran las no linealidades

como perfectas para estudiar la mayor cantidad de información útil transmisible.

La cantidad de información es una de los aspectos más estudiados. Éstos se basan en la teoría de

probabilidades y estadística. Para la detección de anomalías se puede utilizar el indicador entropía.

Se adopta directamente del ámbito termodinámico y en este contexto mide la información

contenida en un flujo de datos.

http://www.ite.es/




Página 28 de 41






Figura 18: Representación de la entropía en el caso de dos posibilidades con probabilidades p y (p-1). Fuente: [10]

Así los datos con menor probabilidad de que se den aportan más información, mayor entropía. Ésta

se basa en la probabilidad de que se aparezca un nuevo evento después de otro dado. Por ejemplo

en un texto, como lo puede ser el presente, la palabra “datos” es altamente probable que vaya

precedida de otra como “los”, “de” o “estos”, como de hecho ocurre. De este modo aporta poca

información adicional, realmente se trata de información redundante en estos casos. En cambio si

previamente aparecieran las cadenas “perro”, “adiós” o “Mahmud Abbas” la entropía sería mucho

mayor, ya que este es un suceso que raramente se da. Se le presume un mayor contenido y se le

asigna un valor de entropía elevado con lo que cualquier algoritmo basado en la teoría de la

información lo detectaría como de elevada relevancia por la información contenida (muy poco

probable).

Como se puede intuir del ejemplo previo la medida de la entropía puede al mismo tiempo indicar un

valor anómalo, una singularidad. Es pues un buen método que no requiere de combinaciones ni

cálculos adicionales para determinar la presencia de un valor candidato a anómalo.

http://www.ite.es/




Página 29 de 41






4.6 Técnicas de detección de anomalías basadas en Teoría espectral

Las Teoría espectral es en la ciencia matemática un término utilizado que incluye desde las teorías

de vectores y vectores propios de matrices cuadradas a la teoría de estructuras de operadores en

ciertos espacios matemáticos. Para el presente caso es utilizada la transformada de Wavelet para el

análisis de series temporales cíclicas, como lo son las curvas de demanda energética de un conjunto

de clientes.

Figura 19: Señal no estacionaria transformada por el método Wavelet. Fuente: [11]

Es habitual para el estudio de señales temporales y repetitivitas la descomposición en frecuencia, y

en este campo la transformada de Fourier es la más ampliamente utilizada y con razón. Ésta permite

la comparación de una onda con otra mediante la descripción de la composición espectral

especificando el patrón de comportamiento de la onda repetida en función de la frecuencia y todo

esto de forma sencilla y equiparable.

Pero hay aspectos que la Transformada de Fourier no tiene en cuenta. Como es sabido el análisis y

descomposición por este método se realiza en el dominio de la frecuencia con lo que parte de la

información temporal se pierde en el momento de la transformación y no se recupera

posteriormente en la anti-transformada. Esto es por el enfoque hacia el análisis de señales

estacionarias o periódicas.

http://www.ite.es/




Página 30 de 41






Hay otros métodos, entre los que destaca la transformada de Wavelet, en los que se procede de

forma similar pero manteniendo información temporal. De esta forme se permite el análisis de

transitorios, tendencias temporales, cambios abruptos e incluso el estudio de inicios y finales de

eventos. Existen otros procedimientos que permiten el análisis espectral con información temporal,

como el análisis de Fourier por intervalos (STFP). La principal desventaja de éste radica en que la

ventana temporal se mantiene constante en todas las frecuencias. Con lo que no se permite enfocar

o analizar la onda con mayor detalle en el espacio temporal ni en el de la frecuencia una vez elegidas

las características del análisis.

La transformada de Wavelet permite la retención de información del dominio temporal realizando el

análisis en el dominio espectral. A modo de ejemplo se puede observar la Figura 19 que se puede

interpretar, de manera muy simplificada, como la evolución temporal en el eje marcado como

translation de un análisis en frecuencia tradicional (aunque realmente los valores del eje scales se

interpretan de manera inversa a lo que se haría en una Transformada de Fourier, aquí los valores

bajos corresponden con frecuencias altas).

También esta Transformada tiene limitaciones, pues las consideraciones previas ya marcan que el

análisis se basa en ondas de duración limitada y valor medio igual a cero (factor que no aparece en el

análisis clásico de Fourier en el que las ondas sinusoidales se extienden desde menos infinito a más

infinito.

Para la aplicación de detección de anomalías en series temporales, el que se incluiría el presente

método, se puede aplicar esta transformada para el análisis de zonas localizadas en grandes señales

por las bondades ya expuestas. Con esto se localiza el posible dato anómalo incluso en largas series

temporales analizando la naturaleza en frecuencia de las singularidades y determinando si se

incluyen en un patrón admisible o clasificarlas como anómalas.

http://www.ite.es/




Página 31 de 41






4.7 Reducción de dimensionalidad

Como se ha comentado, debido a la alta dimensionalidad de los datos de entrada a los posibles

algoritmos de detección de anomalías, es habitual llevar a cabo un proceso previo de transformación

de los datos para el trabajo en un espacio diferente al original de las series temporales. Además el

escalado de los datos y regularización de los datos es un procedimiento que debe tratarse con

especial interés para no afectar al posterior análisis.

Los pasos previos que se contemplan en este apartado son tres: la agregación, la discretización y

el procesado de los datos de entrada.

o Agregación:

Después de la reunión de los datos es importante la elección del nivel de agregación que

depende de múltiples consideraciones. Entre estas se deben considerar, con especial

importancia las siguientes [12]:

Nivel de detalle de los resultados buscados, p.ej. en un análisis meteorológico no

tendría mucho sentido una resolución de metros.

Capacidades de computo y procesado de los datos, en función de los equipos

disponibles.

Naturaleza de los datos de entrada, ya que ésta puede condicionar el resto de las

variables consideradas: por la longitud, tipo, etc.

Capacidad de la fuente de aportación de los datos, p.ej. no se puede pedir una

agregación de datos de fallecimientos locales si solo se disponen de datos

autonómicos.

Naturaleza del sistema de recogida de datos, puede ser centralizado, descentralizado

o mixto.

Se debe tener en cuenta, con especial interés, la determinación del detalle que se quiere obtener

como conclusiones en base a los datos analizados. Si previamente al análisis, e incluso a la etapa de

recogida de datos, se plante con suficiente detalle el objetivo del estudio se pueden obtener incluso

en esta etapa los niveles de agregación requeridos. Dicho esto cabe destacar dos dimensiones que se

presentan en casi cualquier análisis de datos: el marco temporal y clasificaciones geográficas.

También se presentan situaciones en las que se deba combinar el análisis agregado con los datos o

registros unitarios desglosados.

http://www.ite.es/




Página 32 de 41






o Discretización:

La mayor parte de los algoritmos anteriormente citados requieren la entrada de datos en formatos

específicos para obtener las conclusiones requeridas. Esto resulta en que los datos se pueden

presentar de forma continua y la metodología de cálculo requerir datos fraccionados o en

agrupaciones de datos por lotes para el correcto funcionamiento. En estos casos se pueden

discretizar los datos en estados que correspondan a una ventana con el objetivo de adaptar los datos

al algoritmo. Así pues la discretización es procedimiento mediante el cual los valores se incluyen en

depósitos para que se observen solo un cierto número de niveles posibles [13].

Lo que se crea con este procedimiento es un conjunto de contenedores que agrupan los datos de

una propiedad en distintos niveles que permitan la clasificación de los datos. La selección de los

rangos que marcan los niveles es una tarea a realizar por el experto que conozca las propiedades de

los datos analizados así como los niveles que se pretenden obtener del algoritmo, al igual que en el

proceso de agregación.

o Procesado:

El procesado previo de los datos, o preprocesado, hace referencia a la etapa previa en la que los

datos de entrada al algoritmo son preparados mediante un análisis exploratorio para el filtrado y

eliminación de datos incompletos.

La eliminación de los datos incompletos se puede realizar descartando los que no cumplan un cierto

nivel de presencia de datos o por el contrario la interpolación de los datos mediante múltiples

consideraciones, interpolación con valores medios, mediante interpolación lineal, etc.

La normalización puede ser un punto importante mediante el cual, en la etapa previa, se analizan los

indicadores estadísticos representativos: media o desviación estándar, reducción o transformación

del rango. Es típico en el análisis de datos mediante redes neuronales, en especial en curvas de carga

de instalaciones, la normalización de los datos de forma que los niveles totales de demanda se

transforman a un rango de 0 a 1. Con esto se pretende obtener el comportamiento o tendencia del

consumidor evitando los elevados valores de error que se pueden dar al intentar obtener datos

numéricos concretos. Además en las previsiones de carga se suele llevar a cabo varias veces en un

horizonte temporal que se solapa entre las distintas iteraciones, con lo que los niveles se pueden ir

corrigiendo persistiendo el comportamiento de los clientes a los distintos valores numéricos que se

obtengan.

http://www.ite.es/




Página 33 de 41






La detección de datos anómalos puede presentarse ya en esta etapa, con lo que puede que sea

interesante presentar los datos que se descarten en esta etapa como elementos a analizar a la

finalización del algoritmo posterior.

http://www.ite.es/




Página 34 de 41






5. Selección de algoritmos de detección de anomalías

Después de la revisión completa de los algoritmos de detección de anomalías y los procesos previos para el

correcto tratamiento de la información se analizan los datos de origen y los resultados esperados del análisis

para la determinación del que mejor se ajuste y case con las capacidades computacionales.

Los datos utilizados para la búsqueda de datos anómalos serán los provistos por los contadores de energía

eléctrica del territorio español. Estos datos son de origen real y no están exentos de los posibles errores de

lectura y almacenamiento de los datos. Esto enriquece y acerca el estudio y la selección del algoritmo al

funcionamiento y a los posibles problemas que se puedan dar en situaciones que acontezcan en un

escenario real.

Los contadores inteligentes utilizados tienen distintas capacidades de lectura y transmisión de datos en

función del modelo utilizado. Mientras los primeros instalados realizaban la medida en tiempo real pero

almacenaban y transmitían los datos horarios los instalados en la actualidad presentan una resolución cuarto

horaria.

Figura 20: Contador de energía eléctrica de los utilizados en la actualidad para la medida, registro y transmisión de loso datos de consumo eléctrico en España. Fuente: Endesa

Así pues ya se presenta la problemática de la pérdida de sincronía de los datos disponibles por la variedad de

los periodos de muestreo.

Los datos recogidos por los contadores inteligentes presentan más información e indicadores de los que

constituyen la curva de carga de los clientes. Así se ofrecen datos de apertura de la tapa de bornes, medida

http://www.ite.es/




Página 35 de 41






errónea, distintas alarmas sobre la manipulación, o datos sobre la actuación del sistema de control de

potencia incluido en el contador.

Para el presente análisis se centra en la detección de la anomalía en la curva de carga de cada cliente. Se

descartan, en principio, el uso de otros indicadores aunque tendrá un peso importante en la selección de la

algoritmia con vistas a la ampliación del presente proyecto a todos los datos proporcionados por los

contadores, así como otros proporcionados por concentradores e incluso datos meteorológicos.

Así pues, en base a la naturaleza y características de los datos a analizar y la complejidad de las anomalías se

pretende identificar, en los próximos pasos, de entre las técnicas de detección de anomalías revisadas cuales

son las que más se adecuan al dominio de aplicación concreto en el que se van a utilizar.

Se analizarán las ventajas y desventajas después de una primera criba en la que se tendrán en cuenta la

complejidad computacional al igual que se evaluará la capacidad para detectar las anomalías de los

algoritmos considerados.

En cuanto al objetivo del análisis se pretende que se realice una selección de las posibles secuencias de

datos que pertenezcan a uno de los tres siguientes tipos de anomalías:

- Detección de anomalías puntuales.

- Detección de subsecuencias anómalas.

- Detección de anomalías colectivas.

Como ejemplo de éstas se recogen los siguientes gráficos representativos, Figura 21.

http://www.ite.es/




Página 36 de 41






Figura 21: Representación de los distintos tipos de anomalías considerados en el análisis. Fuente: [14].

El método para la detección de las anomalías que se prende implementar es del tipo no supervisado. Esto es

que no existe la disponibilidad previa de datos de entrenamiento clasificados como normales. Se analizarán

los disponibles teniendo en cuenta las características y relaciones entre el resto. Esto responde a que no se

tienen el suficiente conocimiento previo sobre los usuarios individuales para la determinación de cuáles son

los datos anómalos y cuales los normales.

Por la forma en la que se recogen los datos se presentan, también, problemas de pérdida de información o

pérdida de sincronismo entre los datos de entrada. Estos se eliminarán o serán tratados en la etapa previa.

También se presentarán como anomalías puntuales en la etapa final. En el caso de que por la naturaleza se

elimine una gran cantidad de datos estos podrán ser reclasificados según sean de naturaleza contextual o

colectiva, en función del criterio del evaluador final. Pues se presentará una etapa final de supervisión por

parte de un agente externo (experto que tenga conocimientos sobre los datos tratados).

Han sido descartadas las redes Bayesianas para el cometido que se apunta debido a que, como se apunta en

el apartado de la página 18 la “estructura de los modelos bayesianos permite retener las relaciones de

dependencia que existe entre los atributos de los datos, describiendo la distribución de probabilidad que

administra un conjunto de variables especificado y los cálculos de independencia condicional junto con las

probabilidades condicionales”. La dificultad de obtener estas relaciones de causalidad es la que lleva a

descartar este método en esta etapa.

El criterio para descartar los Sistemas expertos basado en reglas, es el mismo que el de las redes Bayesianas.

Ya que la naturaleza del método es similar en ambos casos.

K-means Clustering se desestima porque la naturaleza de los datos crea un problema de complejidad NP-

hard, con lo que la necesidad de cómputo es alta aunque el avance de las técnicas de resolución heurística

facilita la búsqueda del óptimo global no garantiza encontrarlo en un tiempo reducido.

http://www.ite.es/




Página 37 de 41






Expectation Maximization (EM) tampoco garantiza que se pueda encontrar el óptimo global si existe más de

un óptimo local. Además al igual que pasa con K vecino cercano (KNN - K Nearest Neighbors) este es un

método clasificador de aprendizaje supervisado no paramétrico. Que como se ha dicho no coincide con el

objetivo del análisis planteado.

El algoritmo de Relative Density es descartado porque como se apunta en apartado descriptivo de este:

“cabe destacar que este método requiere de la reducción en dos mapas de trabajo para perpetrar el análisis

de proximidad. Esto resulta en que éste es un método de elevadas necesidades computacionales y más aun

para datos de elevada dimensión. “

Del apartado de análisis estadístico se descartan los Modelos Gaussianos y las Regresiones. El criterio para

tal decisión es la compleja representación y estudio de los datos de entrada en estos métodos. Teniéndose

que reducir estos a característicos concretas y restando información al análisis, por ejemplo, analizando los

valores medios de las curvas y perdiendo información sobre la distribución de consumos nocturnos y

diurnos. Los histogramas se mantienen como método cualitativo para la determinación posibles datos

anómalos. Las funciones Kernel tienen una aplicación concreta dentro de los algoritmos de redes SOM y las

Máquinas de Soporte Vectorial con lo que como técnica por separado carece de aportación a los métodos

planteados anteriormente.

Las técnicas basadas en la Teoría espectral están enfocadas al análisis de ondas oscilantes con especial

interés en los transitorios. Las curvas de carga se pueden considerar ondas oscilantes pero la presencia de

outliers puede desenfocar el objetivo descriptivo de la Teoría espectral obteniendo soluciones de datos

anómalos que en realidad no lo son.

Vista la naturaleza y las consideraciones anteriores se crea una primera selección de algoritmos de las

agrupaciones anteriores que permitan la clasificación, preferentemente, mediante método no supervisado y

por consiguiente que entre en consideración la relación entre los datos. Los primeros seleccionados son los

de la Tabla 1.

http://www.ite.es/




Página 38 de 41






Tabla 1: Primera selección de algoritmos para la detección de anomalías y las características de éstos en base a los parámetros interesantes en el estudio. Fuente: elaboración propia

Algoritmo: Máquinas de

Soporte Vectorial

Redes

Neuronales

Sistema experto

basado en reglas

Self-Organizing

Maps (SOM) Histogramas

Teoría de la

información

Supervisado: Sí Sí / No Sí No No No

Anomalía

puntual Sí Sí Sí Sí Sí Sí

Anomalía

contextual Sí Sí Sí / No Sí No Sí

Anomalía

colectiva Sí No Sí / No Sí / No No No

Según se observa en la Tabla 1 ninguno de los algoritmos es capaz de tratar la información según se obtienen

de la fuente, la base de datos que registra las curvas de carga de los contadores.

En base a este análisis se toma como línea de desarrollo la implantación de una etapa previa al análisis que

siente las bases de un barrido previo de los datos de entrada con el objetivo de encontrar errores de lectura

o almacenamiento. En esta primera etapa de preprocesado no se contempla ninguna etapa de agregación ni

de discretización, más de la que realiza en contador inteligente para el almacenamiento de los datos.

Visto que la algoritmia disponible no cubre, por si sola, los niveles que se han planteado, se elige la que

menor nivel de modificación requiera y mejor se ajuste en origen a el nuevo cometido de hallar datos

anómalos en curvas de carga de contadores inteligentes de energía eléctrica. Se elige, pues, las Self-

Organizing Maps o también llamadas redes SOM (del acrónimo en inglés). Para completar los requisitos

planteados se añade una etapa previa de análisis, como se ha comentado anteriormente. Además se

completará con histogramas cruzados que permiten el análisis de los valores representativos de las

demandas de los clientes de manera rápida e intuitiva.

http://www.ite.es/




Página 39 de 41






6. Diseño y desarrollo de algoritmos de detección, clasificación e interpretación de anomalías

Vistos los resultados de las etapas anteriores, de análisis de los algoritmos disponibles para la detección de

anomalías, se ha desarrollado un método operativo para la detección, clasificación e interpretación de las

anomalías empleando la técnica de las redes SOM para la detección de anomalías y termina con la

presentación de los resultados interesantes al experto al cargo de tal herramienta.

Se han clasificado y analizado distintos tipos de anomalías en:

Anomalías puntuales

Curvas de carga repetidas exactamente, posible duplicidad o error de transmisión de datos..

Anomalías contextuales

Evolución del valor medio de los registros de algún cliente clasificado mediante redes SOM que presente un

error elevado frente las agrupaciones obtenidas.

Anomalías colectivas

Similar al análisis anterior, pero operando con los valores medios de consumo de todos los clientes.

Figura 23: Representación esquemática de la disposición de los resultados del tercer análisis de detección de anomalías colectivas. Fuente: elaboración propia

http://www.ite.es/




Página 40 de 41






7. Resultados y conclusiones

En el presente apartado se plasman de forma concisa las conclusiones extraíbles del estudio que empieza

mediante el análisis experto de los datos dónde se evalúa la heterogeneidad de los datos que hay

disponibles en la actualidad y la carencia de registros anteriores de muchos de ellos, lo que centra el texto

en el análisis exploratorio de los datos en el que se descubren nuevas relaciones o características mediante

el estudio.

Posteriormente se hace un análisis global de las metodologías más utilizadas para posteriormente entrar a

describirlas, una por una, en los apartados incluidos en el punto 5. Se comentan las ventajas y desventajas

que pueden aparecer en la utilización de estos algoritmos, tanto desde el punto de vista de la solución

aportada como las necesidades de cómputo requeridas para alcanzarlas.

Los apartados posteriores centran el análisis de la detección en un ejemplo concreto del sector energético

en el que, después de la confección de una tabla comparativa de la algoritmia, se eligen las Self-Organizing

Maps o también llamadas redes SOM (del acrónimo en inglés) como el más coherente en el ámbito

considerado. Además se requiere de etapas previas y posteriores que persiguen lograr el objetivo

inicialmente planteado de extraer relaciones y características ocultas del conjunto de datos analizado.

Como resultado final se detallan, etapa por etapa, los pasos seguidos para la consecución final del algoritmo

de detección de anomalías. A modo de resumen éste se compone de una etapa previa de análisis y filtrado

de los datos de entrada seguido de un conjunto de clasificaciones, atendiendo a los resultados de la red

SOM compuesta, que permiten la diferenciación entre anomalías puntuales, colectiva y contextuales.

Finalmente se genera un conjunto de resultados que se presentan de la forma más útil posible para el

usuario al cargo de la herramienta en los que se utilizan estadísticos, tales como histogramas y otros

parámetros relevantes.

http://www.ite.es/




Página 41 de 41






8. Bibliografía

[1] J. G. C. A. a. J. H. M. Gupta, «Outlier detection for temporal data,» Synth. Lect. Data Min. Knowl. Discov., vol. 5, nº 1, pp. 1-129, 2014.

[2] G. A. BETANCOURT, «LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs),» Scientia Et Technica, vol. 11, nº 27, pp. 67-72, 2005.

[3] B. A. V. Govea, «Representación y semántica de las Redes Bayesianas,» de Razonamiento probabilístico y redes bayesianas, México , 2012.

[4] P. J. M. Gutíerrez, «Dpto. de Matemática Aplicada. Universidad de Cantabria,» 20 9 2000. [En línea]. Available: http://personales.unican.es/gutierjm/cursos/expertos/Reglas.pdf. [Último acceso: 4 enero 2016].

[5] W. Pace, «Wikimedia Commons,» 26 julio 2007. [En línea]. Available: https://commons.wikimedia.org/wiki/File:K_Means_Example_Step_2.svg. [Último acceso: 19 octubre 2015].

[6] H. Y. Yinghua Zhou y X. Cai, «A Novel k-means Algorithm for Clustering and Outlier Detection,» de Second International Conference on Future Information Technology and Management Engineering, Sanya, China, 2009.

[7] Chire, «Wikipedia Commons,» 25 mayo 2010. [En línea]. Available: https://commons.wikimedia.org/wiki/File:LOF-idea.svg. [Último acceso: 19 Octubre 2015].

[8] San José State University, «Continuous Outcome, Multiple Predictors,» 19 11 2015. [En línea]. Available: http://www.sjsu.edu/faculty/gerstman/EpiInfo/cont-mult.htm#Background. [Último acceso: 19 11 2015].

[9] The MathWorks, Inc., «The MathWorks Documentation,» The MathWorks, Inc., 2015. [En línea]. Available: http://es.mathworks.com/help/stats/scatterhist.html. [Último acceso: 19 11 2015].

[10] C. E. Shannon, «A Mathematical Theory of Communication,» The Bell System Technical Journal, vol. 27, nº Julio, pp. 379-423,623-656, 1948.

[11] R. M. M. Samir Kouro R., Tutorial introductorio a la Teoría Wavelet, -: -, 2011.

[12] United Nations, Manual para la elaboración de un sistema de estadísticas sobre justicia penal, United Nations Publications, 2004.

[13] Microsoft Developer Network, «Microsoft.com,» Microsoft, 2015. [En línea]. Available: https://msdn.microsoft.com/es-es/library/ms174512%28v=sql.120%29.aspx#. [Último acceso: 14 12 2015].

[14] M. Hayes, Contextual Anomaly Detection Framework for Big Sensor Data, Ontario: University of Western Ontario, 2014.

http://www.ite.es/