Monitoreo y diagnóstico de fallas en sistemas dinámicas híbridos

Monitoreo y Diagnóstico de Fallas en Sistemas Dinámicos Híbridos

Especialidad: Ingeniería Mecánica y Mecatrónica, Subespecialidad: Automatización de Procesos, Gran Reto de la Ingeniería Mexicana: Diagnóstico de Fallas en Sistemas Dinámicos

,1

MONITOREO Y DIAGNÓSTICO DE FALLAS EN SISTEMAS DINÁMICOS HÍBRIDOS

Ingeniería Mecánica y Mecatrónica Automatización de Procesos

Diagnóstico de Fallas en Sistemas Dinámicos

Dr. Rubén Morales Menéndez Doctorado en Inteligencia Artificial

28 de Junio, 2016 Monterrey, Nuevo León



,2

Contenido 1. Objetivo 3 2. Alcance 3 3. Introducción 4 4. Contenido 7 4.1 El Modelo JMLG 9 4.2 Filtro de Partículas (PF) 12 4.3 PF y ecuación de Rao-Blackwell (RBPF) 16 4.4 Un paso adelante RBPF (la-RBPF) 19 4.5 Caso de estudio 24 4.6 Conclusiones 30 5. Bibliografía 32 6. Anexos 34



,3

1. OBJETIVO El objetivo de este artículo es el diagnóstico de un sistema dinámico híbrido, es decir, un sistema que tiene variables continuas y variables discretas. Las variables discretas representan modos de operación o condiciones de falla (i.e. bomba dañada, sensor apagado, motor operando, etc); las variables continuas, definen el desempeño del sistema (30oC de temperatura, 50 lbm/hr de flujo, etc). El término estado del sistema es una combinación de un modo discreto y un valor para cada variable continua (i.e. llanta rota, 90oC, 20 m/s). No todos los sistemas híbridos se pueden medir por diferentes razones como el costo, imposibilidad física, etc. A través de la medición de las variables continuas se puede calcular la probabilidad que una observación corresponda a un modo discreto. El objetivo es desarrollar un método de diagnóstico de fallas en tiempo real para un sistema dinámico híbrido. 2. ALCANCE Existen muchas tecnologías para diseñar sistemas de diagnóstico, basados en el tipo de falla a ser detectada o en la clase de modelo del proceso. Algunas como redundancia analítica basada en sistemas de detección y aislamiento o los métodos libres de modelos como las pruebas de hipótesis y análisis de firmas en la comunidad de ingeniería. Otras técnicas como los métodos de búsqueda en árboles, aplicaciones a eventos discretos o técnicas de razonamiento basadas en el modelo, originadas en el área de inteligencia artificial. Las técnicas de inteligencia artificial, generalmente son discretas y no son adecuadas para sistemas con variables continuas. Por otro lado, los sistemas de detección y aislamiento pueden manejar sistemas dinámicos continuos aun en fallas incipientes y/o en estados de transición, pero no trabajan adecuadamente en sistemas híbridos. Los sistemas de monitoreo y diagnóstico en sistemas dinámicos híbridos dependen principalmente de la habilidad para estimar el estado híbrido dadas las variables observadas, lo cual puede ser computacionalmente muy costo, debido a que los sistemas siguen múltiples modelos y transiciones entre ellos. Cuando el número de modelos crece, el problema crece exponencialmente y se vuelve intratable. Esta propuesta está basada en la técnica conocida como Filtro de Partículas (Particle Filtering, PF). PF es un método de Monte Carlo secuencial que permite trabajar con variables de procesos continuas y discretas. El problema de estimación de los estados del sistema dinámico híbrido a partir de las observaciones es conocido como Filtraje. A medida que los estados del sistema evolucionan, el sistema obtiene una secuencia de observaciones. La estimación del estado del sistema corresponde a una distribución de probabilidad posterior conocida como creencia del estado. El filtraje Bayesiano reduce el problema asumiendo que los estados del sistema evolucionan de manera Markoviana, es decir, el pasado y futuro de los estados son condicionalmente independientes dado el estado presente. Esta propiedad permite la estimación recursiva obteniendo un método en línea.



,4

3. INTRODUCCION Las industrias de proceso son inherentemente sistemas riesgosos, mantener la seguridad en los procesos y operaciones cada vez es más complejo y costoso. Existen diversas razones, por ejemplo, (a) la cantidad de dispositivos y su interconexión como lo son las redes de distribución de electricidad, (b) la naturaleza compleja de ciertos procesos como la producción de energía nuclear, (c) el tamaño de algunos sistemas como es el transporte en trenes, (d) la independencia de algunos procesos como son las sondas exploratorias en Marte y (e) la complejidad de los nuevas tendencias como es la nanotecnología en donde los fenómenos ocurren a una escala explorada por pocos, (Verde et al, 2013). Estos procesos en su mayoría completamente automatizados deben ser seguros y confiables, ya que no pueden afectar al medio ambiente y mucho menos al ser humano. Aunque la ingeniería aplicada de control, ha avanzado de la mano con la tecnología; las fallas no se han podido eliminar en su totalidad y en ocasiones se han generado situaciones catastróficas que nos hacen reflexionar sobre nuestra vulnerabilidad. La fuga de isocianato de metilo, un gas de la planta de pesticidas de Union Carbide en Bhopal en la India (1984) dejó un total de 5,200 personas muertas y miles más con discapacidades permanentes. La explosión de un reactor nuclear en Chernobyl, Ucrania (1986), cuyas consecuencias no se han precisado, se estiman 300 personas muertas/dañadas y una contaminación importante en la región, lo cual dio origen a una cultura de seguridad y cooperación industrial. La explosión de la planta química Pacific Engineering Production Company (o Western Electrochemical Co) en Estados Unidos, productor de perclorato de amonio. Aunque sorpresivamente solo hubo 2 muertes y 400 afectados, la explosión de casi 1,000 toneladas de TNT representó un costo de cien millones de dólares y generó un sismo artificial de 3.5 grados en la escala Richter. Desgraciadamente, en México también hemos tenido eventos difíciles, la ruptura de una tubería de gas LP combinado con la falla de unas válvulas de alivio, generó la explosión de las plantas de almacenamiento y distribución de Petróleos Mexicanos en San Juan Ixhuatepec (1984), con más de 600 personas muertas/desaparecidas y 2,000 heridos. Las explosiones fueron del tipo BLEVE (Boiling Liquid Expanding Vapour Explosion), generando un sismo artificial de 0.5 grados en la escala Richter. Hace apenas unos días la explosión en la planta Clorados III de la empresa Petroquímica Mexicana de Vinilo en Veracruz (2016), complejo operado por Mexichem con daños todavía no precisados. Aunque el número de pérdidas humanas en los eventos arriba descritos puede ser cuestionable, han existido muchos más eventos de esta naturaleza que pudieron haber sido evitados. Sin embargo, hay incidentes y accidentes ocasionados por fallas con cierta



,5

frecuente y cuyo costo es muy alto. Estas fallas pueden ocurrir en el proceso principal o en el equipo complementario como son los sensores, actuadores, etc. Los sistemas de control ayudan a detectar y prevenir condiciones anormales, pero difícilmente las pueden evitar. Una alternativa para mejorar la seguridad en los procesos es usar redundancia, lo cual significa dos o tres sensores midiendo la misma variable en lugar de solo uno; dos o tres actuadores manipulando una misma variable y a partir de la información obtenida diagnosticar el estado actual del proceso. Esta redundancia también se puede implementar en el equipo de control, en el sistema de entradas de las señales del proceso, sistema de salidas, procesadores, etc. Esta estrategia de solución, además de ser costosa e incrementa la demanda de espacios físicos; sin embargo, en muchas ocasiones se justifica ampliamente, pues el no hacerlo, puede llevar a consecuencias catastróficas como las anteriormente citadas. La redundancia física sigue siendo una exigencia de seguridad. Sin embargo, se pueden usar herramientas computacionales que permitan diagnosticar la condición de alguno de los componentes del sistema. El objetivo de este artículo es presentar un método para detección y diagnóstico de fallas en sistemas dinámicos híbridos. Los seres humanos de manera inapta, están preparados para sobrevivir en situaciones peligrosas a través de una serie de instintos que le permiten tomar decisiones o desarrollar habilidades físicas para la supervivencia. En los años treinta, la necesidad de tener apoyo en la toma de decisiones en procesos con muchas variables como en la industria del petróleo, dio origen a los sistemas de diagnóstico empíricos, monitoreando variables de alto riesgo con registrados o graficadores. Años después, se incorporaron estudios especiales a la información como es el análisis espectral en intervalos de frecuencia. Con el uso de la computadora en la automatización de los procesos industriales en los años setenta, se sentaron las bases de los sistemas de supervisión y control, donde la industria aeroespacial fue la pionera, desarrollando análisis de datos históricos y filtraje en las señales que combinado con la experiencia de los usuarios se obtuvieron contribuciones importantes. Los avances científicos en la ingeniería de control, el nacimiento de áreas como la Inteligencia Artificial y el acelerado desarrollo tecnológico de los dispositivos digitales, diversificó el tipo de aplicaciones en los años ochenta. También se ampliaron los enfoques para enfrentar de forma sistemática y metódica el problema de detección y diagnóstico de fallas. A partir del tratamiento estadístico de los datos y buscando procedimientos generales se desarrollaron metodologías de diagnóstico basadas en los principios correlación y pruebas de hipótesis (Wold, 1978), redes neuronales (Venkatasubramanian, 1989), sistemas expertos (Henley, 1984) y clasificación de patrones (Schuermann, 1996). Se emplearon filtros como el de Kalman y Máxima Versomilitud (Willsky y Jones, 1976), filtros sensibles a ciertas fallas, (Beard, 1971) o sus versiones con enfoque geométrico (Jones, 1973) y (Massoumnia, 1986). La comunidad de ingeniería de control estableció tres conceptos básicos: uso de observadores para generar señales de las fallas de los instrumentos (Clark, 1978), generación de funciones redundantes a partir de las mediciones de un sistema (Chow y Willsky, 1984) e



,6

identificación de parámetros para buscar sus desviaciones en condiciones de falla (Isermann, 1993). La Federación Internacional de Control Automático (IFAC) impulsó la creación del comité SAFEPROCESS (Fault Detection, Supervision and SAFEty of Technical PROCESSes) en 1991. Este comité organiza un simposium internacional trianual. IFAC asignó a México la organización de la 8ª edición en 2012 gracias a las gestiones de Cristina Verde Rodarte (UNAM), Efraín Alcorta García (UANL), Rubén Morales-Menéndez (ITESM) y Jan Lunze (Ruhr-Universität Bochum). Esta comunidad ha consolidado su misión a través de difundir sus contribuciones en artículos, libros, compendios (Patton et al, 1989), (Frank, 1990), (Isserman 1997, Isermann & Ballé, 1997). La comunidad de Inteligencia Artificial desde los ochenta, ha contribuido con una enfoque de razonamiento lógico (Reiter, 1987), (de Kleer & Williams, 1987), (Poole, 1997). Se crearon comunidades científicas que participan en eventos como DX (International Workshop in Diagnosis), (de Kleer y Kurien 2003) y la conferencia bianual IJAC (International Joint Conference on Artificial Intelligence). La propuesta de este artículo aunque nace en la comunidad de Inteligencia Artificial, combina la experiencia de la comunidad de Ingeniería de Control.



,7

4. CONTENIDO En los años sesenta surge como especialidad en ingeniería: la seguridad, la cual está relacionada con las regulaciones a satisfacer para reducir el riesgo de accidentes. A nivel internacional, existen normas acordadas para diferentes sistemas. Los sistemas deben ser diseñados para operar aun en condiciones no previstas, restringiendo situaciones peligrosas; deben, al menos informar, de estas situaciones. Un análisis de seguridad implica confiabilidad, sustentabilidad y disponibilidad, los cuales se manejan de manera estadística y se definen mediante tiempos característicos. La confiabilidad es la capacidad del proceso para cumplir sus funciones durante un periodo de tiempo. La sustentabilidad considera lo necesario para que un sistema pueda seguir funcionando adecuadamente, es decir, está asociada con la capacidad de mantenimiento. Finalmente, la disponibilidad es la capacidad del sistema de realizar una función en un tiempo determinado. El monitoreo de sistemas, es una actividad continua para identificar estados anormales (o normales). Esta actividad puede realizarse de manera manual a través del personal que opera los procesos, de manera automática usando sistemas computacionales o de manera semiautomática usando ambos enfoques. Para que el monitoreo sea efectivo, es mandatorio que durante la etapa de diseño se realice un análisis de riesgo (Process Hazards Analysis) y de seguridad a priori (Villemeur, 1988), con lo cual se podrán considerar, los posibles estados no deseados del proceso y diseñar un plan de manejo del conflicto. A posteriori, la seguridad tiene un monitoreo permanente de las variables que permitan identificar el estado anormal (o normal) del proceso y con ello diseñar un manejo de situaciones anormales (Abnormal Situation Management). Uno de los objetivos más importantes de los sistemas de control automático es mantener la operación de los procesos en las condiciones de diseño establecidas; sin embargo, cuando ocurre una situación no deseada, deberá hacerse un diagnóstico de la falla y tomar nuevas decisiones. La desviación de una propiedad característica de un sistema con respecto a las condiciones estándar se considera una falla. El modo de falla es la forma observable o de la disfunción. Una avería es la incapacidad permanente del proceso para cumplir una función requerida. Una disfunción se refiere a la incapacidad intermitente para cumplir algunas de las funciones. Hay diferentes tipos fallas en función del tiempo: (1) cuando aparece como un cambio súbito inesperado se llaman fallas abruptas, (2) cuando aparece como un cambio continuo e incremental a través del tiempo se llaman fallas incipientes y (3) las fallas intermitentes aparecen y desaparecen de manera aleatoria. Los objetivos principales de un sistema automático de control son mantener las variables del proceso en el punto de diseño óptimo (fijo o móvil) a pesar de los cambios de las condiciones de operación y supervisar estas condiciones. El primer objetivo está directamente relacionado



,8

con la rentabilidad del proceso y el segundo con la seguridad. Un sistema de control automático moderno incluye sistemas de monitoreo para decidir/actuar en condiciones de operación no deseadas. Debe considerarse que las evidencias de las fallas pueden llegar en forma parcial o muy tarde y los procesos de detección, aislamiento y estimación se verán afectados por la incertidumbre y ruido de las mediciones del proceso. Modificando las condiciones de operación de los sistemas de control ante una falla, es suficiente para mantener el sistema en producción; a veces, se requiere cambiar la estrategia de control. En ocasiones, la arquitectura estructural del proceso productivo. El caso extremo es el paro total, cuyo costo por hora puede ser inmanejable. Por esta razón, se justifica ampliamente la investigación y desarrollo en sistemas de supervisión automática. Las diversas condiciones de operación de un proceso evidencian la demanda de métodos de diagnóstico y control tolerante a fallas que mejoren la seguridad. Para lo cual, se requiere de un conocimiento profundo de las condiciones normales y en falla del proceso. En particular, la dinámica de los procesos es importante para la interpretación correcta de la información observada. Esta información puede formalizarse de varias maneras, pero dos grandes clases serían: (1) modelos matemáticos de sistemas dinámicos (teoría de control, ciencias de la computación) y (2) modelos de señales (información histórica o experimental). De acuerdo a la comunidad científica, el control tolerante a fallas puede tener dos enfoques: (1) modo acomodo, modificando la ley de control en forma pasiva, con capacidad de manejar cambios en parámetros del sistema, o activa, con capacidad de cambiar la ley de control, y (2) modo reconfiguración, modificando la estrategia de control y/o el proceso a partir del diagnóstico (Goupil, 2009). Los procesos industriales dinámicos tienen múltiples condiciones de operación, llamadas estados discretos. Si cada comportamiento de un estado discreto tiene una dinámica lineal, entonces, este proceso puede ser ajustado por un modelo lineal Gaussiano con saltos Markovianos (Jump Markov Linear Gaussian, JMLG). La Tabla 1 sumariza los acrónicos más utilizados en este artículo. Si se desea trabajar con modelos dinámicos probabilísticos que combinan estados discretos y continuos de un proceso (JMLG), la complejidad matemática para realizar el diagnóstico demanda utilizar algoritmos para aproximar la solución. En este caso, se considera la posibilidad de que el proceso se vea afectado por su interacción con el entorno (ambiente); además, este entorno puede cambiar a través del tiempo, un ejemplo clásico es un robot explorador el cual puede verse afectado por la interacción que tenga con el ambiente que está explorando, la forma en que lo perciba, además de lo cambiante que este medio puede ser, por su naturaleza propia y la variabilidad de los entornos que lo conforman (terreno, carretera, oficina, etc). El tipo de modelo necesario para resolver este problema de diagnóstico requiere incluir los componentes estocásticos que surgen.



,9

Uno de los enfoques en el estado del arte es el Filtro de Partículas (Particle Filtering, PF) el cual es un método de Monte Carlo secuencial. El centro de investigación de la NASA en Ames, USA, ha desarrollado y patrocinado varios proyectos usando estas técnicas. Un PF es un algoritmo de Monte Carlo basado en cadenas de Markov (Markov chain Monte Carlo, McMC) que aproxima la distribución de probabilidad de un estado usando un conjunto de muestras, llamadas partículas, y mantiene dicha distribución actualizada a medida que se tienen nuevas observaciones a través del tiempo. La tarea de diagnóstico se puede establecer así: dadas las observaciones del proceso y el modelo JMLG de este, determinar cuál es el modo discreto (falla) más probable. El modelo JMLG surge de manera natural de la representación de Espacio de Estados (State-Space Model) y los modelos ocultos de cadenas de Markov (Hidden Markov Model). Se describirán brevemente 3 algoritmos para aprender el modelo JMLG y sus parámetros: (1) el aprendizaje variacional (Variational Learning), el cual maximiza el límite inferior de la verosimilitud logarítmica, (2) el método EM (Expectation-Maximization), el cual es un procedimiento iterativo para maximizar la verosimilitud en la estimación de parámetros a partir de un conjunto de datos. Este conjunto de datos puede tener variables ocultas o información faltante, y (3) el método de Estimación usando Mínimos Cuadrados (Least Squares Estimation), el cual busca minimizar la suma de errores al cuadrado entre los valores reales y los valores predichos (por un modelo) de una variable. La combinación de estos 3 algoritmos permite calcular el modelo JMLG. Además del PF, se presentará una variante basada en la fórmula de Rao-Blackwell: RBPF (Rao-Blackwellized Particle Filtering), de donde se propone la versión mejorada: la-RBPF (look-ahead Rao-Blackwellized Particle Filtering) cuya ventaja principal es la precisión del diagnóstico y la reducción en la varianza de este. Estas propuestas han sido exitosamente validades. 4.1. EL MODELO JMLG El modelo híbrido JMLG, Figura 1, tiene un comportamiento dinámico que puede generalizarse así:

zt ∼ p(zt|zt−1) (1) xt = A(zt)xt−1 + B(zt)γt + F(zt)ut (2) yt = C(zt)xt + D(zt)vt + G(zt)ut, (3)



,10

donde yt ∈ Rny representa las mediciones, xt ∈ Rn

x representa los estados continuos desconocidos no observables, ut ∈ Rn

u es una entrada conocida, y zt ∈ {1, . . . , nz} representa los estados discretos desconocidos no observables, en este caso representa los modos de falla. Los ruidos modelados son i.i.d. Gaussianos: γt ∼ N (0, I) y vt ∼ N (0, I). Nótese que los parámetros {A(i), B(i), C(i), D(i), F(i), G(i) }nzi=1 dependen del modo de falla. Para cada modo de falla, se tiene un simple modelo lineal Gaussiano. Se debe asegurar que D(i)D(i)T > 0 para cualquier i. Los estados iniciales son x0 ∼ N (μ0, Σ0) y z0 ∼ p(z0) y corresponden a una condición normal de operación. En el anexo 6.1 se concentran todas las variables utilizadas en este artículo.

Tabla 1 Acrónimos

Acrónimo Definición

EKF Filtro Extendido de Kalman (Extended Kalman Filter) EM Esperanza maximización (Expectation-Maximization) FDI Detección y Aislamiento de Fallas

HMM Modelos ocultos Markovianos (Hidden Markov Model) iid Independiente e Idénticamente Distribuida

JMLG Modelo lineal Gausiano con saltos Markovianos KF Filtro de Kalman LSE Estimación de Mínimos Cuadrados

la−RBPF Un paso adelante del RBPF (look-ahead RBPF) McMC Monte Carlo basado en cadenas de Markov

PF Filtro de partículas (Particle Filtering) RBPF Filtro de partículas Rao-Blackwellized RTS Rauch-Tung-Streibel SIS Sequential Importance Sampling SIR Remuestreo por Importancia (Sampling Importance Resampling) SSM Modelo de espacio de estados VL Aprendizaje variacional (Variational Learning)

El problema de aprender los parámetros del modelo JMLG, no ha sido resuelto en forma exacta. Sin embargo, hay importantes contribuciones a la solución aproximada. Los enfoques más relevantes son: Aprendizaje variacional para modelos JMLG, (Ghahramani and Hinton, 1998). El método EM para modelos de espacio de estados (modelo JMLG con nz = 1),

(Ghahramani and Hinton, 1996).



,11

Aunque los resultados obtenidos no son totalmente satisfactorios, constituyen los fundamentos de esta propuesta, particularmente el método EM.

Figura 1: Modelo híbrido con entradas observables. El algoritmo EM, (Dempster et al., 1977) posee una estructura general a la estimación de parámetros de máxima verosimilitud en modelos estadísticos (con variables latentes). Este algoritmo toma ventaja de la independencia condicional de los modelos gráficos. Las variables latentes son generalmente usadas para simplificar el modelo. Cuando se tiene un patrón complejo de dependencia entre un conjunto de variables y1:T , en lugar de modelar esta dependencia directamente, puede ser más simple establecer esa dependencia (de arriba hacia abajo) a través de variables ocultas x1:T . Básicamente, el algoritmo EM es un algoritmo iterativo que consiste en dos pasos: 1. Paso-Esperanza (paso-E). Los valores de las variables latentes son definidos calculando

la probabilidad de estas variables, dada las variables observadas y los valores actuales de los parámetros. Se calculan los valores esperados de los estadísticos.

2. Paso-Maximización (paso-M). Los parámetros son ajustados en base a las variables latentes definidas.

La distribución de probabilidad del modelo está dada por la ecuación p(y1:T , x1:T|θ), donde y1:T son variables observables y x1:T son variables latentes; θ representa los parámetros del modelo {A, B, C, D, F, G, Q, R, N (μ0, Σ0)} y p(y1:T |θ) representa la distribución de probabilidad marginal, tal que la verosimilitud logarítmica es:

L (θ; x1:T ) = log p(x1:T |θ) (4) = log Σ y1:T p(y1:T , x1:T |θ) (5)

= log Σ y1:T q(x1:T |y1:T )p(y1:T , x1:T |θ) q(x1:T |y1:T ) (6) ≥ Σ y1:T q(x1:T |y1:T ) log p(y1:T , x1:T |θ) q(x1:T |y1:T ) (7) = L ( q(x1:T ), θ) (8)



,12

donde, la sumatoria en la ecuación (5) representa la marginalización, y q(x1:T |y1:T ) es una distribución promedio. La ecuación (7) implica la desigualdad de Jensen, debido a la concavidad de la función logarítmica. L (q(x1:T ), θ) es una función auxiliar que representa un límite inferior de la función de verosimilitud logarítmica de una distribución arbitraria q(x1:T |y1:T ). El método EM es un algoritmo coordinado ascendente en la función L (q(x1:T), θ). En la iteración (t + 1), primero se maximiza L (q(x1:T ), θ(t)) con respecto a q(x1:T |y1:T ). Para el paso de optimización se selecciona la distribución promediante q(t+1), posteriormente se maximiza L (q(x1:T)(t+1), θ(t)) con respecto a θ, lo cual actualiza el valor de θ(t+1). Debido a estos pasos, es el nombre el algoritmo:

q(t+1) = arg maxq(x1:T) L (q(x1:T ), θ(t)) (9) θ(t+1) = arg maxθ L (q(x1:T )(t+1), θ) (10)

donde la ecuación (9) representa el paso-E y la ecuación (10) el paso-M, anexo 6.2. (Ghahramani and Hinton 1996) proponen el algoritmo EM para la estimación de parámetros de sistemas lineales representados por el modelo de espacio de estados. En lugar de considerar el estado como un valor determinístico contaminado con ruido aleatorio, las variables de los estados y del ruido son combinadas en una variable Gaussiana aleatoria. Una idea similar fue utilizada para las variables observables. Basadas en las ecuaciones (2) y (3) se pueden escribir las densidades de probabilidad condicional para las variables de estado y salida, p(yt|xt) y p(xt|xt−1). Utilizando la probabilidad conjunta de las secuencias de estados se puede calcular la ecuación (11) para la distribución de probabilidad logarítmica conjunta y obtener el algoritmo EM:

log p(x0:T , y1:T ) = − ΣTt=1 ( (1/2)( yt − Cxt – Gut )TR−1( yt − Cxt – Gut ))

− T log |R|/2 - ΣTt=2 ((1/2)(xt − Axt−1 – Fut) TQ−1(xt –

Axt−1 – Fut)) − (T − 1) log |Q|/2 – (1/2)(x0 − μ0)′ Σ−1

0 (x0 − μ0) − log |Σ0|/2 − T(nx + ny) log(2π)/2 (11) El método EM puede pensarse como un algoritmo hacia adelante - hacia atrás, donde la parte hacia adelante es calculada usando el Filtro de Kalman (Kalman Filter, KF) y la parte hacia-atrás es calculada por la recursión de Raunch. 4.2 FILTRO DE PARTÍCULAS (PF) Si se desea trabajar con modelos dinámicos probabilísticos los cuales combinan estados discretos y continuos, tales como el modelo JMLG, es necesario trabajar con algoritmos para aproximar el proceso de inferencia. Uno de los enfoques en el estado del arte es el PF basado en el método de Monte Carlo. La tarea de diagnóstico/estimación se puede definir de manera muy simple como:



,13

Dadas: las observaciones (variables de entrada y salida) {ut, yt}Tt=1, el modelo JMLG y

sus parámetros Calcular: el modo de falla más probable {zt}T

t=1. La tarea de inferencia para cualquier subconjunto propiedad de los modos discretos de falla z0:t recae en la distribución de probabilidad conjunta p(z0:t|y1:t, u1:t). El problema original se convierte en la estimación de la distribución p(z0:t|y1:t, u1:t) o alguna de sus características como la densidad p(zt|y1:t). El objetivo es calcular la distribución marginal a posteriori de los modos discretos p(z0:t|y1:t). Esta distribución puede ser derivada de la distribución a posteriori p(x0:t, z0:t|y1:t) por un procedimiento estándar de marginalización. La densidad de probabilidad a posteriori satisface la siguiente recursión: p(x0:t, z0:t|y1:t)=p(x0:t−1, z0:t−1|y1:t−1)p(yt|xt, zt)p(xt, zt|xt−1, zt−1)p(yt|y1:t−1) (12) Sin embargo, esta recursión implica integrales intratables; por lo cual se deben buscar esquemas numéricos que aproximen la función, tales como PF. El algoritmo PF calcula (a través del tiempo) una aproximación puntual estocástica de la distribución de probabilidad a posteriori de los estados dadas las observaciones, anexo 6.3. En la formulación del algoritmo PF, se utilizan los conjuntos ponderados de muestras llamadas partículas, {(x(i)

0:t, z(i)0:t), w(i)

t}Ni=1 para aproximar la distribución de probabilidad a

posteriori con la siguiente distribución puntual: N(x0:t, z0:t|y1:t) =ΣN

i=1w(i)t δx

(i)0:t,z(i)

0:t(x0:t, z0:t), (13) donde δx

(i)0:t, z(i)

0:t (x0:t, z0:t) representa la función delta de Dirac. Dadas N partículas {x(i)0:t-1,

z(i)0:t-1 }N

i=1 en tiempo t−1, aproximadamente distribuidas de acuerdo a la función de distribución p(x(i)

0:t-1, z(i)0:t-1 |y1:t−1), el algoritmo PF permite calcular N partículas {x(i)

0:t, z(i)

0:t}Ni=1 aproximadamente distribuidas de acuerdo a p(x(i)

0:t, z(i)0:t |y1:t) en tiempo t. Puesto

que no se puede muestrear directamente de la distribución a posteriori, el paso de actualización del algoritmo PF propone una distribución de probabilidad basada en la importancia de las partículas q(x0:t, z0:t). El pseudo-código para este algoritmo básico se muestra en la Figura 2. El algoritmo consiste de dos pasos básicos, los cuales se describen en detalle.

Es necesario extender los patrones actuales { : , : }Ni=1 para generar nuevos patrones

en el tiempo t, { : , : }Ni=1. Se sugiere utilizar la distribución q ( : , : |y1:t) dada por la

integral: q( 0:t, 0:t|y1:t) = ∫ q ( 0:t, 0:t|x0:t−1, z0:t−1, y1:t)dp(x0:t−1, z0:t−1|y1:t−1) (14)



,14

Se propone q( 0:t, 0:t|x0:t−1, z0:t−1, y1:t) = q( t, t|x0:t−1, z0:t−1, y1:t)δx0:t−1,z0:t−1( 0:t−1, 0:t−1) (15) Muestreo Secuencial por Importancia paso (SIS) Para i = 1, ...,N, muestrear de la matriz de transición a priori

∼ p(zt|z(i)t−1) ∼ p(xt|x(i)

t−1, z(i)t )

y definir ( : ),( , , x(i)0:t−1, z(i)

0:t−1). Para i = 1, ...,N, evaluar y normalizar los pesos basados en su importancia

w(i)t ∝ p(yt| , )

Paso de Selección (Re-muestreo)

Multiplicar/Eliminar partículas{ : , : }Ni=1 con respecto a los pesos importantes

alto/bajo w(i)t para obtener N partículas { : , : }N

i=1

Figura 2: Algoritmo de Monte Carlo secuencial estándar en el tiempo t tal que se dejen las trayectorias pasadas intactas; solamente las partículas actuales (en el tiempo t) son modificadas. Esto es necesario para eliminar la integral intratable en la ecuación (14). La distribución propuesta resultante es: q( 0:t, 0:t|y1:t) = p(x0:t−1, z0:t−1|y1:t−1)q( t, t|x0:t−1, z0:t−1, y1:t) (16) Debido a que se está muestreando de q( 0:t, 0:t|y1:t), las partículas deben ser ponderadas por la importancia de los pesos:

wt = : , : | :

: , : | :

= : , : | :

: , : | :

, | : , : , :

, | : , : , : (17)

∝ | , , | : , : , :

, | : , : , : (18)

Puede demostrarse que la distribución óptima importante, de acuerdo a la ecuación (17) es:

q( t, t|x0:t−1, z0:t−1, y1:t) = p( t, t|x0:t−1, z0:t−1, y1:t) (19)



,15

Sin embargo, la ecuación (19) puede ser difícil de evaluar, por lo cual se prefiere utilizar la matriz de transición a priori (la cual se simplifica a la densidad de Markov) como una distribución propuesta: ( t, t|x0:t−1, z0:t−1, y1:t) = p ( t|xt−1, zt−1) p ( t|zt−1), (20) La ecuación (18) se simplifica a la función de verosimilitud:

wt ∝ p (yt| t, t) (21) Las primeras implementaciones del algoritmo PF estuvieron basadas únicamente en el muestreo secuencial por importancia, el cual se puede degenerar con el tiempo. (Gordon et al., 1993) propuso un paso de selección (o re-muestreo). El paso de selección elimina las muestras con pesos de poca importancia y multiplica las muestras con pesos de alta importancia. Una distribución uniformemente ponderada puede generarse a través de re-muestrear un conjunto de partículas uniformemente ponderadas de la distribución representada por las muestras ponderadas. El paso de selección o esquema de re-muestreo asocia a cada partícula ( (i)

0:t, (i)0:t) a un número de hijos, sea Ni ∈ N, tal que la ΣN

i=1 Ni = N. Existen varios esquemas de selección tales como: (1) Re-muestreo por importancia SIR (Sampling Importance Re-sampling), (2) Muestreo de Varianza Mínima, y (3) Re-muestreo Residual. Todos estos algoritmos

satisfacen (Ni) = N , pero su desempeño varia en términos de la varianza en función de Ni, var (Ni) . Resultados presentados en (Kitagawa ,1996); (Crisan et al. 1999) indican que la restricción (Ni) = N (i)

t es innecesaria para garantizar la convergencia. Es posible diseñar esquemas de selección sin sesgo y sin carga computacional excesiva. Se ha encontrado que la selección específica del esquema de re-muestreo no afecta significativamente el desempeño del algoritmo PF. Se usó el algoritmo de muestreo de varianza mínima, los algoritmos SIR y re-muestreo residual se incluyen en los anexos 6.6-6.7. El algoritmo de Muestreo de Varianza Mínima incluye un procedimiento de muestreo sistemático/estratificado (Kitagawa, 1996) y el algoritmo Tree Base Branching, (Crisan, 2001). Un conjunto de N puntos h son muestreados en el intervalo [0, 1], cada uno de los puntos separados a una distancia 1/N . El número de hijos Ni es tomado para ser el número de puntos que cae entre Σi−1

j=1 w(j)t y Σi j=1 w(j)

t. Esta estrategia introduce una varianza en Ni, definida como var(Ni) = tw′(i)t(1 − tw′(i)t) , donde w′(i)t = t

-1 ( (i)t N − i), i = N

(i)t y t = N − ΣN

i=1 i. La complejidad computacional del algoritmo es del orden de b(N). La Figura 3 muestra una representación gráfica del algoritmo PF, usando 10 partículas. En este ejemplo se muestran los siguientes cuatro pasos secuenciales:



,16

1. Empezar en el tiempo t − 1 con un conjunto de muestras sin ponderación { (i)t−1, 1/N}N

i=1. Este conjunto de muestras da una aproximación de p(zt−1|y1:t−2). 2. Para cada muestra, se calcula el peso normalizado por su importancia utilizando esta

información en tiempo t−1, obteniendo un conjunto de muestras ponderadas { (i)t-1, (i)

t-1}Ni=1. Este nuevo conjunto de partículas da una nueva aproximación de p(zt−1|y1:t−1).

3. El paso de selección escoge las partículas más importantes para obtener un conjunto de partículas sin ponderación { (i)t−1, 1/N}N

i=1. Este nuevo conjunto, es otra aproximación de p(zt−1|y1:t−1).

4. El paso de muestreo genera variedad. Se obtiene un nuevo conjunto de partículas { (i)t, 1/N}N

i=1 en el tiempo t las cuales aproximan p(zt|y1:t−1). 4.3 PF Y LA ECUACIÓN DE RAO-BLACKWELL (RBPF) El filtro RBPF (Rao-Blackwellized Particle Filtering) ; es una variante del algoritmo clásico de PF, el cual utiliza una estructura analítica del modelo. Básicamente, si se conocen los valores de los modos discretos de falla zt, es posible calcular exactamente la distribución de los estados continuos xt. Se puede combinar un algoritmo PF para calcular la distribución de los modos discretos de falla con un banco de KF para calcular la distribución de los estados continuos. Es decir, se puede aproximar la distribución de probabilidad a posteriori con una mezcla recursiva de distribuciones de probabilidad Gaussianas. Esta estrategia es conocida como Rao-Blackwellization debido a que esta relacionada con la fórmula de Rao-Blackwell, (Casella and Robert, 1996), anexo 6.8. Utilizando la fórmula de Rao-Blackwell, se puede realizar la siguiente factorización: p (x0:t, z0:t| y1:t) = p (x0:t | y1:t, z0:t) p ( z0:t | y1:t) , (22) La densidad de probabilidad p(x0:t|y1:t, z0:t) en la ecuación (22) es Gaussiana y puede ser calculada analíticamente si se conoce la distribución de probabilidad a posteriori p(z0:t|y1:t). La siguiente distribución de probabilidad se puede calcular recursivamente utilizando:

p (z0:t |y1:t) = p (z0:t−1|y1:t−1) × | : , : |

| : (23)

La ecuación (23) no tiene una solución en forma cerrada. Si se trata de resolver el problema en forma analítica, se generan integrales intratables, por tanto se requiere una solución numérica aproximada. Es importante puntualizar que la densidad de probabilidad p(yt|y1:t−1, z0:t) en la ecuación (23) no se simplifica a p(yt|zt), como su equivalente en la ecuación (12), porque hay una dependencia con los valores anteriores de x0:t. Usando un conjunto de muestras ponderadas {z(i)

0:t,w(i)t}N

i=1 para representar la distribución de probabilidad marginal, se puede aproximar la ecuación (23) utilizando:



,17

N(x0:t|y1:t) = ΣNi=1w(i)

t δz(i)0:t(z0:t), (24)

Figura 3: Algoritmo del Filtro de Partículas (PF). La densidad marginal de x0:t es una mezcla de Gaussianas: N(x0:t|y1:t) = ∫ p(x0:t|z0:t, y1:t)dp(z0:t|y1:t) = ∫ p(x0:t|z0:t, y1:t) ΣN

i=1w(i)t δz

(i)0:t(z0:t)

=ΣN

i=1w(i)t p(x0:t|y1:t, z(i)

0:t)

que puede ser calculada eficientemente con un banco estocásticos de filtros de Kalman. El algoritmo RBPF cuyo pseudo-código se presenta en la Figura 4, consiste de tres pasos básicos: (1) Muestreo secuencial por importancia, (2) Paso de selección, y (3) Paso de actualización. Muestrear z(i)

t y entonces propagar la media μ(i)t y covarianza Σ(i)

t de xt con un KF. La Tabla 2 muestra la formulación del KF. Puesto que la dimensión de p(z0:t|y1:t) es menor que la dimensión de p(z0:t, x0:t|y1:t), utilizada en el algoritmo estándar PF, es de esperarse obtener mejores resultados con una menor varianza, anexo 6.9.



,18

El KF es un conjunto de ecuaciones matemáticas, Tabla 2, que implementa un estimador tipo predictor-corrector, el cual es óptimo en el sentido que minimiza la covarianza del error estimado. El filtro estima el estado del proceso en algún tiempo y entonces obtiene retroalimentación en forma de medición (ruidosa). Como tal, las ecuaciones del KF caen en dos grupos: ecuaciones para actualización en tiempo, y actualización en mediciones. Las ecuaciones de actualización en tiempo son responsables de proyectar el estado actual ecuación (1) en la Tabla 2 y el error en la covarianza (ecuación 2) estima hacia adelante en el tiempo para obtener una estimación a priori para el siguiente paso de tiempo. Las ecuaciones de actualización de mediciones (5 y 6) son responsables de la retroalimentación, para incorporar la nueva medición en la estimación a priori y obtener una mejora en la estimación a posteriori. Las ecuaciones de actualización en tiempo pueden también ser pensadas como ecuaciones de predicción, mientras que las ecuaciones de actualización de las mediciones pueden ser consideradas como ecuaciones de corrección. Ciertamente, el algoritmo de estimación final corresponde a un algoritmo de predicción-corrección para resolver problemas numéricos. Si el proceso a ser estimado es no-lineal, o la relación entre las mediciones y el proceso son no-lineales, o ambos casos; entonces, es necesario utilizar el KF extendido: EKF (Extended Kalman Filter). Utilizando la distribución propuesta a priori para zt y aplicando la ecuación (23) se encuentra que los pesos por importancia para zt están dados por la densidad de predicción:

p (yt| y1:t−1, z0:t) = N (yt; yt|t−1, St) (25)

Esta es la más importante distribución utilizada porque es fácil de calcular. Sin embargo, puede ser ineficiente al ignorar la más reciente evidencia. Así como el algoritmo PF estándar, se utiliza el procedimiento de re-muestreo para eliminar la degeneración del muestreo secuencial basado en la importancia. Se ejecuta un paso de la recursión del KF para calcular los estadísticos mínimos: {μ(i)

t+1|t, Σ(i)

t+1|t, y(i)t+1|t, S(i)

t+1|t,} dado {z(i)t , μ(i)

t|t-,Σ(i)t|t-1 }. Básicamente, se usan las ecuaciones (5) y

(6) de la Tabla 2 con las mejores partículas después del paso de re-muestreo. El costo computacional de la estimación usando el algoritmo RBPF es mayor que el algoritmo estándar PF. Sin embargo, existe una mejoría en el algoritmo RBPF cuando la varianza condicional promedio de la variable x0:t es alta.



,19

Tabla 2: Ecuaciones del Filtro de Kalman

Ecuación Formula Definición 1 μ(i)

t|t−1 = A(z(i)t )μ(i)

t−1|t−1 + F(z(i)t )ut μt|t−1 ≜ (xt| y1:t−1)

2 Σ(i)t|t−1 = A(z(i)

t )Σ(i)t-1|t-1A(z(i)

t) T + B(z(i)t )B(z(i)

t)T Σt|t−1 ≜ cov (xt| y1:t−1) 3 S(i)

t = C(z(i)t)Σ(i)t|t−1C(z(i)

t) T + D(z(i)t)D(z(i)

t) T St ≜ cov (yt| y1:t-1) 4 y(i)

t|t−1 = C(z(i)t)μ(i)

t|t−1 + G(z(i)t)ut yt|t−1 ≜ (yt| y1:t-1)

5 μ(i)t|t = μ(i)

t|t−1 + Σ(i)t|t−1 C(z(i)

t) T S(i)t−1 (yt − y(i)

t|t−1) μt|t ≜ (xt| y1:t) 6 Σ(i)

t|t = Σ(i)t|t-1 − Σ(i)

t|t-1 C(z(i)t) T S(i)

t−1 C(z(i)

t )Σ(i)t|t-1 Σt|t ≜ cov (xt| y1:t)

4.4 UN PASO ADELANTE RBPF (la-RBPF) Tal como se mostró, en el algoritmo RBPF, al factorizar p(x0:t, z0:t|y1:t) = p(x0:t|y1:t, z0:t)p(z0:t|y1:t), es posible diseñar un algoritmo eficiente con menor varianza. La densidad p(x0:t|y1:t, z0:t) es una Gaussiana y puede calcularse analíticamente si se conoce la densidad marginal a posteriori p(z0:t|y1:t). Esta densidad satisface la siguiente ecuación recursiva alterna:

p (z0:t|y1:t) = p (z0:t−1|y1:t−1) × | : , : |

| : (26)

Buscando manejar adecuadamente observaciones inesperadas, es posible mejorar el algoritmo estándar RBPF, al ver un paso adelante. En el paso de muestreo secuencial por importancia del algoritmo PF, necesita una aproximación de p(z1:t|y1:t) la cual se realiza utilizando una distribución q(z1:t |y1:t) en cualquier tiempo t, y posteriormente se propaga esta estimación en tiempo sin modificar subsecuentemente las trayectorias simuladas en el pasado {z(i)

1:t}Ni=1. Se propone una formula recursiva fácil de implementar para mejorar el

desempeño. q(z1:t|y1:t) = q(z1|y1)q(z2|y1:2, z1)q(z3|y1:3, z1:2) · · · q(zt|y1:t, z1:t−1) q(z1:t|y1:t) = q(z1|y1) Πt

k=2 q(zk|y1:k, z1:k−1) (27) La ecuación (27) permite una evaluación recursiva de los pesos de importancia wt :

wt = : | :

: | :

= | : , : |

| : | : , :

∝ | : , : |

| : , : (28)



,20

Paso de muestreo secuencial por importancia Para i = 1, ...,N , defina ( (i)

t|t−1, μ(i)t|t−1, (i)

t|t−1 , Σ(i)t|t−1, muestrear

(i)t ∼ Pr(zt|z(i)

t−1) y definer (i)0:t ,( (i)t , z(i)0:t−1)

Para i = 1, ...,N, evaluar y normalizar los pesos importantes w(i)

t ∝ p(yt|y1:t−1, (i)t) Paso de Selección(Re-muestreo) Multiplicar/Eliminar partículas { (i)t|t−1, (i)

t|t−1, (i)t}Ni=1 con respecto a los pesos por

importancia alta/baja w(i)t obtener N partículas{μ(i)

t|t−1,Σ(i)t|t−1, z(i)

t}Ni=1

Paso de Actualización Para i = 1, ...,N, usar un paso de recurción de Kalman para calcular los estadísticos

mínimos {μ(i)t+1|t, Σ(i)

t+1|t, y(i)t+1|t, S(i)

t+1,} dado { z(i)t , μ(i)

t+1|t, Σ(i)t+1|t }

Figura 4: Algoritmo RBPF en el tiempo t.

La proporcionalidad en la ecuación (28) surge porque se eliminó el término constante p(yt|y1:t−1). Existen muchas maneras de seleccionar q(z1:t|y1:t); pero todas deben incluir el soporte de p(z1:t|y1:t), considerando que se desea minimizar la varianza de los pesos de importancia. También la ecuación propuesta debe tener la forma propuesta en la ecuación (27) donde se considera que z1:t−1 y y1:t es información conocida. La mínima varianza en los pesos de importancia en el tiempo t, condicional en y1:t y z1:t−1, se obtiene utilizando p(zt|y1:t, z1:t−1) como la distribución óptima de importancia. Esta distribución permite calcular la probabilidad de los modos discretos de falla {zt = k}nz

k=1.

p(zt = k|y1:t, z1:t-1) = | : , : , |

| : , : (29)

y los pesos de importancia son:

wt ∝ p(yt|y1:t-1, z1:t-1) =Σnzk=1 p(yt|y1:t-1, z1:t-1, zt = k)p(zt = k|zt−1)

=Σnz

k=1 N ( t|t−1(zt = k), t(zt = k)) p(zt = k|zt−1) (30) donde los parámetros en la ecuación (30), t|t−1, (yt|yt−1), y t , cov(yt|y1:t−1) son la innovación y predicción de la covarianza de la observación condicional en z1:t−1 y zt = k(k ∈ {1, …, nz}). Se tiene que calcular un paso del KF para poner obtener los pesos de importancia. Calcular



,21

los pesos de importancia requiere nz evaluaciones del término N ( t|t−1, t). Esto puede ser computacionalmente costoso cuando el número posible de modos discretos nz de falla es grande. Sin embargo, cuando el número es pequeño (10-100), pueden calcularse las distribuciones en la ecuación (30) analíticamente. Tal como puede verse en la ecuación (30), los pesos de importancia no dependen de zt, (se está marginalizando sobre esta variable), por lo cual es posible seleccionar partículas antes del paso de muestreo secuencial de importancia. Escogiendo las mejores partículas en el tiempo t − 1 usando información del tiempo t. En los algoritmos estándar PF y RBPF, los pesos de importancia dependen de la muestra en z(i)

t , por lo cual no se puede realizar la selección antes del muestreo. La selección de partículas antes del muestreo nos permite tener un conjunto más rico de partículas al final de cada tiempo. Básicamente, se está muestreando los modos discretos de falla directamente de la distribución a posteriori. Enseguida se presenta un resumen de pasos básicos del algoritmo la-RBPF, para cada partícula:

1. Vea un paso adelante en cada posible modo discreto de falla zla ∈ {1, . . . , nz} 2. Actualizar las aproximaciones de los parámetros continuos en el estado muestreado zla 3. Calcular la verosimilitud de la observación con estas aproximaciones 4. Calcular la probabilidad a posteriori de zla como el nuevo modo discreto de falla 5. Calcular el peso de cada partícula 6. Seleccionar las mejores partículas 7. Muestrear el modo discreto directamente de la distribución de probabilidad a posteriori 8. Actualizar los estadísticos suficientes utilizando un paso adelante la recursión de Kalman

El punto clave es el orden de los pasos de selección (6) y muestreo (7). El pseudo-código para el algoritmo la-RBPF se muestra en la Figura 5. Debido a que se están muestreando modos discretos de la distribución de probabilidad posterior, las cuales son probabilidades a priori muy pequeñas (por tratarse de probabilidades de fallas), no representa problema. Al capturar la evidencia a través del tiempo, si un modo discreto que contenga una falla aparece, eventualmente será identificado. En ocasiones es necesario acumular suficiente evidencia para sobreponerse a probabilidades a priori muy bajadas; sin embargo, las fallas podrán ser detectadas. La Figura 6 muestra una representación gráfica del algoritmo estándar PF. Se muestran los dos pasos (muestreo secuencial por importancia y selección o re-muestreo). Para enfatizar la diferencia entre los algoritmos se van a comparar los siguientes eventos: Un conjunto de 10 partículas seleccionadas (re-muestreadas) que existe en el tiempo t-1. Un nuevo conjunto de 10 partículas es muestreada utilizando la matriz de transición a

priori en el tiempo t-1. Los pesos de importancia son calculados para cada partícula en el tiempo t-1.



,22

Un nuevo conjunto de 10 partículas es re-muestreado (seleccionado) de acuerdo a los pesos (del paso anterior) en el tiempo t.

Paso de Predicción de Kalman Para i=1, . . . , N, y zt = 1, . . . , nz calcular μ(i)

t|t−1(zt), Σ(i)t|t−1(zt), (i)

t|t−1 (zt), (i)t(zt)

Para i=1 , . . . , N , evaluar y normalizar la importancia de los pesos w(i)

t = p(yt|y1:t−1, z(i)0:t−1) = Σnz zt=1 N ( (i)

t|t-1(zt), S(i)t (zt))p(zt|z(i)

t−1) Paso de Selección Multiplicar/Eliminar partículas { (i)t−1, Σ(i)

t−1, z(i)0:t−1}N

i=1 con respecto a los pesos por importancia alta/baja w(i)

t para obtener N partículas {μ(i)t−1,Σ(i)

t−1, z(i)0:t−1}N

i=1. Paso de muestreo secuencial por importancia Predicción de Kalman. Para i=1, . . . , N, y para zt = 1, . . . , nz usando la información de remuestreo, re-calcular (i)t|t−1 (zt), Σ(i)

t|t−1(zt), y (i)t|t−1 (zt), S(i)

t (zt) Para zt = 1, . . . , nz calcular p(zt|z(i)

0:t−1, y1:t) ∝ N (y (i)t|t−1 (zt), S(i)

t (zt)p(zt|z(i)t−1)

Paso de muestreo

z(i)t∼ p(zt|z(i)

0:t−1, y1:t) Paso de actualización Para i=1 , . . . , N, usar un paso de la recursión de Kalman para calcular los estadísticos suficientes {μ(i)

t ,Σ(i)t } dado { t|t−1(z(i)

t ), t|t−1(z(i)t )}

Figura 5: Algoritmo la-RBPF en tiempo t.

Para el caso del algoritmo la-RBPF, los eventos se realizan en el siguiente orden: Un conjunto de 10 partículas seleccionadas (re-muestreadas) existe en el tiempo t-1. Los pesos de importancia son calculados para cada partícula en el tiempo t-1. Un nuevo conjunto de 10 partículas es seleccionada (re-muestreada) en el tiempo t-1. Se

están seleccionado las mejores partículas en el tiempo t-1 utilizando la información en el tiempo t.

Un nuevo conjunto de 10 partículas es muestreado en el tiempo t.



,23

Tal como puede verse en la Figura 7 las partículas seleccionadas antes del muestreo resultan en un conjunto rico de muestras al final del tiempo de muestreo, con lo cual es más probable manejar distribuciones de probabilidad cambiantes.

Figura 6: Representación gráfica del método PF. Se calculan los pesos por importancia de cada partícula. Finalmente, se seleccionan las mejores partículas de acuerdo a sus pesos. Note que el algoritmo PF, falló en el seguimiento de los modos discretos que aparecen (a la derecha) en la distribución de probabilidad a posteriori en el tiempo t. La prueba de convergencia del algoritmo RBPF también aplica al algoritmo la-RBPF; la principal diferencia entre estos dos algoritmos es la distribución propuesta. El esquema de muestreo basado en la ecuación de Rao-Blackwell usado en el algoritmo la-RBPF ha sido ampliamente validado. Sea B (Rn) un espacio limitado de funciones medibles de Boreal en Rn. ∥g∥ , sup x∈Rn |g(x)|. El siguiente teorema es presentado por (Crisan and Doucet, 2000). Teorema. Si los pesos de importancia wt están en el límite superior y si se usa un esquema de selección, anexo 6.6, entonces, para todos t ≤ 0, existe ct independiente de N tal que para cualquier gt ∈ B((Rnz )t+1):

∑ : : : | : :‖ ‖

(31)



,24

donde el valor esperado es tomado con respecto a la aleatoriedad introducida por el algoritmo PF (como el algoritmo la-RBPF). La convergencia de este algoritmo general PF está garantizada y la velocidad de convergencia es independiente de la dimensión del espacio de estado.

Figura 7: Representación gráfica del método un paso adelante RBPF (la-RBPF). 4.5 CASO DE ESTUDIO Los algoritmos de diagnóstico de fallas serán ejemplificados con un sistema real: un robot móvil, donde se inducirán situaciones de fallas. Este ejemplo considera un sistema no-lineal, señales con ruido, diferentes tipos de señales de entrada/salida, etc. Los principales resultados a mostrar serán la representación del proceso utilizando el modelo JMLG y el desempeño de los algoritmos de diagnóstico de fallas. Dadas las observaciones reales y los modos discretos a través del tiempo, se probaron los algoritmos PF. Cada algoritmo fue probado con diferentes números de partículas N. Se definió el error de diagnóstico como el porcentaje de veces en que el modo discreto no fué identificado adecuadamente. Se utilizó la distribución Máxima A Posteri (Maximum A Posteriori, MAP) para definir el estado discreto más probable a través del tiempo.

ó ú

ú ó × 100% (32)

Debido a que los algoritmos de diagnóstico de fallas son estocásticos, normalmente se realizaron varias pruebas independientes (∼ 30). Con estos datos se calcularon las medias y



,25

desviaciones estándar del error de diagnóstico para cada algoritmo al utilizar diferente número de partículas. Estos resultados se presentan en forma gráfica. Algunos procesos industriales tienen diversos puntos de operación normal o con fallas; sin embargo, los robots móviles adicionalmente tienen que tratar con ambientes cambiantes. Descripción. José es un robot móvil, Figura 8, con interfase universal B-14 con una base B-12; José ha sido ampliamente utilizado en el Laboratorio de Inteligencia Computacional de la Universidad de British Columbia, Canada.

Figura 8: El robot móvil José. José, ganó de la competencia 2001 AAAI Hors d’Oeuvres

La base B-12 de José contiene 2 motores separados, uno para la traslación y otro para la rotación. El motor de traslación maneja 3 ruedas simultáneamente tal que siempre estén orientadas en la misma dirección. No existe el concepto de adelante o atrás - una rueda puede terminar al frente (relativa a una dirección de viaje), para atrás, o en cualquier lugar intermedio. José se puede mover en trayectorias circulares a través de trasladarse y rotarse simultáneamente. Los motores de la base B-12 son motores de pasos, controladores por un variador de pulsos. Las velocidades de traslación y rotación son medidas con unos encoders óptimos (uno para traslación y otro para rotación); se asume que las 3 ruedas se mueven a la misma velocidad. José tiene una estéreo cámara, sensores infra-rojo y sonares. Software. La computadora de José usa Linux, en donde existe un software de control de la unidad base (base-server), un software para mapeo a profundidad Triclops y diferentes módulos a un nivel superior tales como: localización, planeación de trayectorias, etc. La memoria de arquitectura compartida permite ejecutar simultáneamente múltiples aplicaciones, Figura 9.



,26

Figura 9: Arquitectura del software de José. Se desarrolló una aplicación para monitoreo en línea a bajo nivel, asimismo para tener acceso a información como corriente de motores, velocidades, etc. que normalmente no son necesarias en módulos de alto nivel. El código Collector2 se comunica directamente con el BaseServer y las librerías de Triclops, permitiendo ejecutar diferentes comandos tales como velocidad de muestreo y/o accesar cualquier dato de la memoria de José. Modelación. Se definieron los estados de monitoreo de José en términos el movimiento, específicamente, estados en los cuales existe una carga extra, Tabla 3. La condición de operación normal corresponde a carga extra nula. Un cambio de un estado a otro ocurre si José golpea o se atora con algo del entorno. Para simular estos estados en forma repetitiva, manualmente se le agregaron diversas cargas/pesos. Se implementaron estas condiciones de falla cuando José se desplazaba a través de una superficie lisa, pero también para un piso con mosaicos y otro tipo de superficies, Tabla 3. La velocidad de desplazamiento de José fue la variable observada yt; se monitoreo cada 0.1 segundos. La Tabla 4 muestra los parámetros del modelo JMLG para la superficie lisa; estos parámetros también se obtuvieron para el resto de las superficies. Para zt = 1 se consideró condición normal de operación y zt > 1 corresponde a algún modo discreto de falla.

Tabla 3: Condiciones de operación de José.

zt Nombre del modelo Carga extra Tipo de superficie 1 Normal 0.0 kg Liso 2 Carga baja 0.8 kg Liso 3 Carga media 1.6 kg Liso 4 Carga alta 2.4 kg Liso



,27

Tabla 4: Parámetros del modelo JMLG para José en la superficie lisa. zt x0(zt) A(zt) B(zt) C(zt) D(zt) F(zt) G(zt) 1 0.56187 0.72977 0.005 1.0 0.005 0.15183 0 2 0.5037 0.7385 0.005 1.0 0.005 0.13171 0 3 0.4265 0.69264 0.005 1.0 0.005 0.13108 0 4 0.35805 0.74912 0.005 1.0 0.005 0.08982 0

Pruebas de diagnóstico. Se diseñó una matriz de transición P(zt|zt−1), así como una distribución de probabilidad inicial z0 ∼ P(z0):

P(zt|zt−1) = 0,99425 ⋯ 0,00025

⋮ ⋱ ⋮0,00025 ⋯ 0,99425

P(z0) = [ 0,9825 … 0,0025 ]T (33)

Más de 30 secuencias aleatorias fueron implementadas en ambas superficies, en las cuales físicamente cambiaron las condiciones de operación de José (carga extra, es decir, condición de falla) a través del tiempo, de acuerdo a la secuencia estocástica generada. La Figura 10 muestra dos secuencias representativas de cambios de ambientes para ambas superficies. La gráfica superior muestra los modos discretos de operación (zt = 1 operación normal, zt > 1 operación con falla) a través del tiempo, mientras que la gráfica inferior muestra los datos reales y calculados por el modelo JMLG. Las gráficas a la izquierda corresponden a la superficie lisa, mientras que las gráficas a la derecha corresponden a la superficie con mosaico, note que la generación de ruido en esta última superficie. Resultados. Se muestra una gráfica del error de diagnóstico versus el número de partículas, y el error de diagnóstico versus el tiempo de cómputo por cada intervalo de muestreo, Figura 12. Ambas gráficas corresponden a la superficie lisa, el tiempo de computo máximo permitido es 0.1 segs. Las Figuras (12-14) muestran algunos resultados del diagnóstico cuando el robot móvil caminó en un piso liso y en un piso con mosaico. Una forma más completa de mostrar los resultados es graficando la distribución de probabilidad p(zt|y1:t) a través del tiempo. La Figura 15 muestra la distribución de probabilidad p(zt|y1:t) para 25 intervalos de tiempo. La gráfica izquierda muestra los resultados para el algoritmo PF, mientras que la gráfica derecha muestra los resultados para el algoritmo RBPF; en ambos casos se utilizaron N = 5 partículas. La Figura 16 muestra los resultados para el algoritmo la-RBPF. La gráfica izquierda muestra los resultados para el caso que utiliza N = 5 partículas, mientras que la gráfica derecha muestra el caso donde se utilizaron N = 400 partículas. Una prueba de robustez muy simple puede ser implementada al realizar algunas variaciones en la probabilidades como la distribución de probabilidad a priori en los modos discretos



,28

p(z0), el modo discreto menos representativo (zt = 1) en la matriz de transición y el modo discreto más representativo (zt = 3) en la matriz de transición.

Figura 10: Secuencias aleatorias de desplazamiento de José en ambas superficies.

Figura 11: Error de diagnóstico del robot móvil en la superficie lisa.

Figura 12: Secuencia aleatoria cuando José caminó por un piso liso.



,29

Figura 13: Secuencia aleatoria cuando José caminó por un piso con mosaico.

Figura 14: Secuencia aleatoria cuando José caminó por un piso con mosaico. En este caso

la señal fue filtrada.

Figura 15: Distribución de probabilidad p(zt|y1:t) a través del tiempo.



,30

Figura 16: Distribución de probabilidad p(zt|y1:t) a través del tiempo 4.6 CONCLUSIONES Los algoritmos de diagnóstico de fallas basados en métodos de Monte Carlo secuencial mostraron muy buenos resultados estimando el estado híbrido más probable a partir de un conjunto de observaciones dinámicas. Utilizando diferentes medidas de desempeño se puede concluir:

1. Número de partículas. El error de diagnóstico se reduce al incrementar el número de partículas; los algoritmos trabajan significativamente mejor.

2. Tiempo de cómputo. Aunque la demanda de cómputo es significativamente diferente, la reducción en el error de diagnóstico se justifica ampliamente incluso para aplicaciones en tiempo real.

3. Probabilidades a priori. El diagnóstico de fallas es una tarea difícil, considerando

que las probabilidades de fallas son usualmente muy pequeñas; más aun, considerando métodos aproximados. Sin embargo, al incorporar la evidencia en las observaciones los algoritmos corrigen inmediatamente.

4. Aplicaciones en tiempo real. Considerando el avance tecnológico en los equipos de cómputo, tanto en computadoras individuales como en sistemas de cómputo paralelo, estos algoritmos tienen pocas limitaciones.

5. Varianza en los resultados. Aunque la varianza en las estimaciones es un tema de alta relevancia en los métodos de estocásticos, la reducción al utilizar la ecuación de Rao-Blackwell y aumentar el número de partículas es importante.

6. Número de estados discretos. Aunque matemática y conceptualmente el incremento en estados posibles del sistema no afecta el algoritmo; el aprendizaje y mantenimiento



,31

del modelo JMLG es un aspecto que requiere atención práctica. Lo cual aplica a los modos continuos y discretos.

7. Señales con ruido. El ruido en las señales es un problema general, el tratamiento que

requiere es similar a cualquier aplicación de este tipo.

8. Sistemas no lineales. El modelo JMLG considera procesos híbridos no lineales, lo cual le da un potencial muy importante y generalidad

9. Validación con sistemas reales. La propuesta ha sido validada con procesos reales con muy buenos resultados.

Los algoritmos de diagnóstico de fallas propuestos para procesos continuos, representan una opción al problema de monitoreo automático de procesos y una alternativa para los sistemas de control tolerante a fallas.



,32

5.-BIBLIOGRAFIA Akashi, H and H Kumamoto (1977). Random Sampling Approach to State Estimation in

Switching Environments. Automatica 13, 429–434. Beard, R. V. (1971). Failure Accommodation in Linear Systems through Self-

Reorganization. Doctoral thesis. Massachusetts Institute of Technology, Cambridge, USA.

Casella, G and C P Robert (1996). Rao-Blackwellisation of Sampling Schemes. Biometrika 83(1), 81–94.

Chow, E. y A. Willsky (1984). Analytical Redundancy and the Design of Robust Failure Detection Systems. IEEE Trans. Automatic Control 29(7), 603-614.

Clark, R. N. (1978). Instrument Fault Detection. IEEE Transactions on Aerospace and Elec. Sys. AES-14(3), 456-465.

Crisan, D (2001). Particle Filters - A Theoretical Perspective. In: Sequential Monte Carlo Methods in Practice (A Doucet, N de Freitas and N J Gordon, Eds.). Springer-Verlag.

Crisan, D and A Doucet (2000). Convergence of Sequential Monte Carlo Methods. Technical Report CUED/FINFENG/TR 381. Cambridge University Engineering Department.

de Kleer, J. y B. Williams (1987). Diagnosing Multiple Faults. Artificial Intelligence 32, 97-130.

de Kleer, J. y J. Kurien (2003). Fundamentals of Model-Based Diagnosis. IFAC-SafeProcess, Washington, DC.

Dempster, A P, N M Laird y D B Rubin (1977). Maximum Likelihood from Incomplete Data Via The EM Algorithm. J. of the Royal Statistical Society Series B 39(1), 1–38.

Frank, P. (1990). Fault Diagnosis in Dynamic Systems Using Analytical and Knowledge-Based Redundancy. Automatica 26(2), 459-474.

Goupil, P. (2009). AIRBUS State of the Art and Practices on FDI and FTC, 7th IFAC SafeProcess, Barcelona.

Ghahramani, Z y G E Hinton (1996). Parameter Estimation for Linear Dynamical System. Technical Report CRG-TR-96-2. Department of Computer Science, Universityóf Toronto. Toronto.

Ghahramani, Z y G E Hinton (1998). Variational Learning for Switching State-Space Models. Neural Computation 12(4), 963–996.

Gordon, N, D Salmond and Smith (1993). Novel Approach to Nonlinear/Non-Gaussian Bayesian State Estimation. IEEE Proceedings-F 140(2), 107–113.

Henley, E. J. (1984). Application of Expert Systems to Fault Diagnosis. AIChE Annual Meeting, San Francisco, California, USA.

Isermann, R. (1993). Fault Diagnosis of Machines via Parameter Estimation and Knowledge Processing. Automatica 29, 815-835.

Isermann, R. (1997). Supervision, Fault-Detection and Fault-Diagnosis Methods: An Introduction. Control Eng. Practice 5(5), 639-652.

Isermann, R. y P. Ballé (1997). Trends in the Application of Model-Based Fault Detection and Diagnosis of Technical Processes. Control Engineering Practice 5, 709-719.



,33

Jones, H. L. (1973). Failure Detection in Linear Systems. Doctoral thesis. Massachusetts Institute of Technology, Cambridge, USA.

Kitagawa, G (1996). Monte Carlo Filter and Smoother for Non-Gaussian Nonlinear State Space Models. Journal of Computational and Graphical Statistics 5, 1–25.

Schuermann, J. (1996). Pattern Classification: A Unified View of Statistical and Neural Approaches. Wiley.

Massoumnia, M. (1986). A Geometric Approach to the Synthesis of Failure Detection Filters. IEEE Transactions on Automation Control AC-31(9), 839-846.

Morales-Menendez, R, N de Freitas and D Poole (2002). Real-Time Monitoring of Complex Industrial Processes with Particle Filters. In: Advances in Neural Information Processing Systems 16. MIT Press. Cambridge, MA.

Patton, R. J., P. M. Frank y R. N. Clark (1989). Fault Diagnosis in Dynamic Systems: Theory and Applications.

Poole D. (1997). The Independent Choice Logic for Modelling Multiple Agents under Uncertainty, Artificial Intelligence, 94(1-2), 7-56.

Venkatasubramanian, V. (1989). A Neural Network Methodology for Process Fault Diagnosis. American Institute of Chemical Engineers Journal 35(12), 1993-2002.

Verde, C, S, Gentil, y R Morales-Menendez (2013) Monitoreo y Diagnóstico Automático de Fallas en Sistemas Dinámicos, Ed. Trillas.

Rauch, H E, F Tung y C T Striebel (1965). Maximum Likelihood Estimates of Linear Dynamic Systems. AIAA Journal 3(8), 1445–1450.

Reiter, T. (1987). A Theory of Diagnosis from First Principles. Artificial Intelligence 32, 57-95.

Villemeur, A. (1988). Sureté de Fonctionnement des Systèmes Industriels. Fiabilité, Facteurs Humains, Informatisation. Eyrolles.

Wold, H. (1978) Cross Validation Estimation of the Number of Components in Factor and Principal Components Models. Technometrics 20(4), 397-405.

Willsky, A. S. y H. L. Jones (1976). A Generalized Likelihood Ratio Approach to the Detection and Estimation of Jumps in Linear Systems. IEEE Trans. Automatic Control 21, 108-121.

Venkatasubramanian, V., R. Rengaswamyd, R. Yin y S. Kavuri (2003a). A Review of Process Fault Detection and Diagnosis; Part I: Quantitative Model Based Methods; Computers and Chemical Engineering 27, 293-346.

Venkatasubramanian, V., R. Rengaswamyd, R. Yin y S. Kavuri (2003b). A Review of Process Fault Detection and Diagnosis: Part II: Qualitative Model And Search Strategies. Computers and Chemical Engineering 27, 313-326.

Venkatasubramanian, V., R. Rengaswamyd, R. Yin y S. Kavuri (2003c). A review of Process Fault Detection and Diagnosis: Part III: Process History based Methods. Computers and Chemical Engineering 27, 326-346.



,34

6.-ANEXOS 6.1.- NOMENCLATURA Símbolo Dimensión Descripción de Variables

yt ny × 1 Vector de observaciones en tiempo t y1:t ny × t Secuencia de vectores de observación [y1, y2, . . . , yt] xt nx × 1 Vector de estados en tiempo t

x0:t nx × t Secuencia de vectores de estado [x1, x2, . . . , xt] ut nu × 1 Observación de entradas en tiempo t

u1:t nu × t Secuencia de observaciones de entrada [u1, u2, . . . , ut] zt nz × 1 Variable de estado de saltos en tiempo t

z0:t nz × t Secuencia de vectores de estado de saltos [z1, z2,…, zt] γt nx ×1 Ruido del proceso, N (0, I) υt ny × 1 Ruido de la medición, N (0, I) A nx × nx Matriz de transición de estados B nx × nγ Matriz de estado del ruido C ny × nx Matriz de estado de salidas D ny × nυ Matriz de estado de ruido en la salida F nx × nu Matriz de estado de entradas G ny × nu Matriz nula Q nx × nx Matriz de covarianza del ruido de estado R ny × ny Matriz de covarianza del ruido de salida μ0 nx × 1 Media del estado inicial Σ0 nx × nx Matriz de covarianza del ruido del estado inicial

p(z0) nz × 1 Distribución de probabilidad inicial de la variable de saltos zt p(zt|zt−1) nz × nz Matriz de transición de la variable de saltos zt {·}N

i=1 Conjunto de N datos i = 1,…,N {·, ·}N

i=1 Conjunto de N pares de datos i = 1,… N O (·) Orden de complejidad del algoritmo (·)t|t−1 Función en un valor de t condicionado a t – 1

ny 1 × 1 Tamaño del vector de observación nx 1 × 1 Tamaño del vector de estados nu 1 × 1 Tamaño del vector de entradas nz 1 × 1 Número de modos discretos nγ 1 × 1 Número de ruidos en el proceso nυ 1 × 1 Número de ruidos en la medición zla 1 × 1 Modo discreto de falla, un paso adelante T 1 × 1 Longitud de la secuencia en los vectores de observación A′ nx × nx Matriz transpuesta de A |A| Determinante de A

i.i.d. Independiente e idénticamente distribuidas



,35

6.2.- ALGORÍTMO DE OPTIMIZACIÓN EM (EXPECTATION-MAXIMIZATION) A continuación se detallan los dos pasos del algoritmo: E de Esperanza y M de Maximización. Paso M. Dado el modelo de probabilidad p(y1:T, x1:T|θ), se puede promediar sobre x1:T para eliminar la aleatoriedad (porque x1:T es no observada) utilizando una distribución promediante q(x1:T |y1:T ). Se puede definir el valor esperado del logaritmo de la máxima verosimilitud completa: Eq(x1:T |y1:T )[lc(θ; y1:T, x1:T)] ≜ Σx1:T q(x1:T |y1:T , θ) log p(y1:T , x1:T |θ) (A.1) El paso M maximiza el valor esperado del logaritmo de la máxima verosimilitud completa como se explica a continuación: L(q(x1:T|y1:T), θ) = Σx1:t q(x1:T |y1:T) log p(y1:T, x1:T|θ)q(x1:T|y1:T) (A.2) =Σx1:t q(x1:T |y1:T) log p(y1:T, x1:T |θ) − Σx1:t q(x1:T |y1:T) log q(x1:T|y1:T) = q(x1:T|y1:T)[lc(θ; y1:t, x1:t)] − Σx1:t q(x1:T |y1:T) log q(x1:T|y1:T) (A.3) La ecuación (A.3) muestra que maximizando L(q(x1:T|y1:T), θ) con respecto a θ es equivalente a maximizar q(x1:T|y1:T)[lc(θ; y1:t, x1:t)] con respecto a θ, porque el segundo término es independiente de θ. Paso E. Si se utiliza p(x1:T |y1:T, θ(t)) como una distribución promediante q(t+1)(x1:T|y1:T) en la ecuación (A.2), se tiene L(p(x1:T |y1:T, θ(t)), θ(t)) = Σx1:tp(x1:T|y1:T, θ(t)) log p(y1:T, x1:T |θ(t))p(x1:T |y1:T, θ(t))(A.4) = Σx1:tp(x1:T |y1:T, θ(t)) log p(y1:T|θ(t)) (A.5) = log p(y1:T |θ(t)) (A.6) = l(θ(t); y1:T) (A.7) La ecuación (A.7) muestra que L(q(x1:T|y1:T), θ) está maximizada, porque l(θ; y1:T) es un límite superior para L (p(x1:T|y1:T), θ). El algoritmo EM utiliza la mejor distribución posible para calcular el valor esperado del logaritmo de la verosimilitud completa. El paso M maximiza el valor esperado del logaritmo de la verosimilitud completa con respecto a los parámetros para producir nuevos valores de θ(t+1). El paso E utiliza el mejor pronóstico p(x1:T |y1:T, θ(t+1)), el cual es utilizado como distribución promediante en la subsecuente iteración. 6.3.- LA SIMULACIÓN DE MONTE CARLO PERFECTA Considere un conjunto de muestras ponderadas llamadas partículas generadas de una distribución de probabilidad posterior para mapear (convertir) una integral en una sumatoria discreta. La distribución de probabilidad posterior puede ser aproximada por la siguiente estimación empírica



,36

N(x0:t|y1:t) = ΣNi=1δx

(i)0:t(x0:t), (A.8)

donde las partículas aleatorias {x(i)

0:t}Ni=1 son generadas de una distribución de probabilidad

posterior; δx(i)

0:t(x0:t) representa la función delta de Dirac. Por tanto, cualquier valor esperado de la forma (gt(x0:t))=∫gt(x0:t)p(x0:t|y1:t)dx0:t (A.9) puede ser aproximado por la siguiente estimación:

gt x0: t = ΣNi=1gt(x(i)

0:t) (A.10)

donde las partículas x(i)0:t se consideran que serán independientes e identicamente distribuidas (i.i.d) para la aproximación a estimar. De acuerdo a la ley de los grandes números

gt x0: t . .

N→∞ (gt(x0:t)) (A.11)

donde . .

N→∞ significa casi seguro converge (almost sure convergence). Si la varianza de la distribución de probabilidad posterior gt(x0:t) está limitada (var p(·|y1:t)(gt(x0:t))< ∞); entonces, se cumple el teorema del límite central que establece √ [ _ 0: − (gt(x0:t)) ) ] ⇒N→∞ N (0, var p(·|y1:t)(gt(x0:t))) (A.12) donde ⇒N→∞ significa convergencia en la distribución. 6.4.- MUESTREO BAYESIANO POR IMPORTANCIA De acuerdo a la ecuación (A.11) a medida que el número de partículas N crece, el valor esperado (A.8) puede mapearse en las sumatorias. En ocasiones, es a menudo imposible muestrear directamente de la función de densidad de probabilidad posterior. Sin embargo, se puede proponer para muestreo una distribución de probabilidad conocida q(x0:t|y1:t) basado en la siguiente manipulación de la ecuación (A.9):

(gt(x0:t)) = ∫gt(x0:t): | :

: | :q(x0:t|y1:t)dx0:t

= ∫gt(x0:t): | : :

: : | : q(x0:t|y1:t)dx0:t

= ∫gt(x0:t):

: q(x0:t|y1:t)dx0:t (A.13)

donde wt(x0:t) son los pesos por importancia sin normalizar

wt(x0:t) = : | : :

: | : (A.14)



,37

La función de densidad normalizante p(y1:t) en la ecuación (A.13) puede ser eliminada como se indica enseguida:

(gt(x0:t)) = :

∫gt(x0:t)wt(x0:t)q(x0:t|y1:t)dx0:t

= : : : | : :

: | : : : | :: | :

:

= : : : | : :

: : | : :

= : | : : :

: | : : (A.15)

De esta manera pueden aproximarse los valores esperados a través de tomar partículas de la función de distribución de probabilidad propuesta q(x0:t|y1:t) y utilizando la siguiente estimación:

:∑ : :

∑ :

∑ g : w : (A.16)

donde w : son los pesos por importancia normalizados

w ::

∑ :

(A.17)

El estimador (A.16) es sesgado (debido a que es una división de estimadores), pero bajo ciertas suposiciones: x(i)

0:t son partículas i.i.d muestreadas de la distribución de probabilidad propuesta q(x0:t|y1:t), el soporte de la distribución de probabilidad propuesta incluye el soporte de la distribución de probabilidad posterior, y (gt(x0:t)) existe y es finita. La esperanza de wt(x(i)

0:t) y wt(x(i)0:t)gt(x(i)

0:t) sobre la distribución de probabilidad posterior existen y son finitos. (La varianza de gt(x(i)

0:t) y wt(x(i)0:t) deben ser limitadas.

Se demostró que es posible obtener una convergencia asintótica y cumplir con el teorema del límite central. Entonces, la función de densidad probabilidad posterior puede ser arbitrariamente bien aproximada por la estimación (point-mass): N(x0:t|y1:t) = ΣN

i=1 (i)t δx

(i)0:t(x0:t) (A.18)

6.5.- MUESTREO SECUENCIAL POR IMPORTANCIA La función de distribución de probabilidad propuesta debe tener la siguiente forma: q(x0:t|y1:t) = q(x0:t−1|y1:t−1)q(xt|x0:t−1, y1:t) (A.19)



,38

porque no se desean modificar los estados previamente simulados x0:t−1 (seria computacionalmente muy costoso). Se desea calcular la estimación secuencial de la distribución de probabilidad posterior a través del tiempo utilizando la ecuación (A.19). Considerando que el modelo cumple la propiedad Markoviana p(x0:t) = p(x0) Πt

i=1p(xi|xi−1) (A.20) y las observaciones son i.i.d. p(y1:t|x0:t) =Πt

i=1p(yi|xi) (A.21) La ecuación de cálculo de los pesos por importancia sin normalizar, puede obtenerse al substituir las ecuaciones (A.19-A.21) en la ecuación (A.14):

wt = wt−1 | |

| : , (A.22)

Los pesos por importancia pueden calcularse secuencialmente utilizando la ecuación (A.22). Únicamente se requiere proponer la distribución de probabilidad correcta q(xt|x0:t−1, y1:t) y muestrear directamente de esta. Este procedimiento es conocido como muestreo Secuencial por Importancia (Sequential Importance Sampling). Elección de la distribución de probabilidad propuesta. Este es uno de los pasos más críticos en el diseño del algoritmo SIS. Se recomienda proponer funciones que minimicen la varianza de los pesos por importancia. Se mostró que q(xt|x0:t−1, y1:t) = p(xt|x0:t−1, y1:t) minimiza la varianza de los pesos por importancia, tal que esta p(·|·) es llamada distribución de probabilidad propuesta óptima. Sin embargo, la distribución de probabilidad a priori, q(xt|x0:t−1, y1:t) = p(xt|xt−1), es la elección más popular. La distribución de probabilidad de transición a priori usualmente es más fácil de implementar, pero tiene más varianza que la distribución probabilidad óptima propuesta, p(xt|x0:t−1, y1:t); debido a que no incluye la última información (evidencia) disponible. Degeneración del algoritmo SIS. La ecuación (A.14) puede reescribirse y mostrar que la varianza de los pesos por importancia se incrementa estocásticamente a través del tiempo.

: | : :

: | :

: , :

: | :

: | : :

: | : = :

: | :

: | :

∝ : | :

: | : (A.23)

La relación mostrada en la ecuación (A.23) es llamada la relación de importancia; se ha demostrado que la varianza se incrementa a través del tiempo. La degeneración de las



,39

partículas causada por el incremento de la varianza puede monitorearse a través de los pesos por importancia. Después de algunas iteraciones, algunos de los pesos por importancia tenderán al valor de uno (1) y otros tenderán al valor de cero (0). Este problema es la principal razón para incorporar el paso de Selección o Re-muestreo dentro del algoritmo. 6.6.- RE-MUESTREO POR IMPORTANCIA. El re-muestreo por importancia (Sampling Importance Resampling) implica el mapeo de la

medición aleatoria de la función de Dirac {x(i)0:t

} en una medición aleatoria igualmente

ponderada {x(j)0:t , }. Esto puede obtenerse muestreando uniformemente del conjunto

discreto {x(i)0:t}N

i=1 con probabilidades { }Ni=1.

La Figura A.1 presenta una manera de muestrear el conjunto discreto. Después de construir la distribución acumulada del conjunto discreto, un índice de muestreo uniformemente generado i es proyectado en el rango (eje-y) de la distribución y después en del dominio (eje-x) de la distribución. El nuevo índice de muestro j es la intersección con el dominio. En otras palabras, el vector x(j)

0:t es aceptado como la nueva muestra. Tal como se puede ver en la Figura A.1, los vectores muestreados con los mayores pesos generarán más copias después del proceso de re-muestreo (o selección).

Figura A.1: Selección: Re-muestreo por Importancia

Muestreando N veces de la distribución de probabilidad acumulada discreta ∑

:: es equivalente a tomar {Ni}N

i=1 muestras de la distribución multinomial

con parámetros N y . Doucet (1998); Pitt and Shephard (1999); mostraron que este

procedimiento puede ser implementado en O(N) operaciones donde 1

es la varianza de este procedimiento utilizando la distribución (multinomial).



,40

6.7.- RE-MUESTREO RESIDUAL Este esquema de selección se puede implementar en 3 pasos :

1. Definir i = N (i)t 2. Ejecutar el procedimiento de Re-Muestreo por Importancia (SIR) para seleccionar las

muestras remanentes Nt = N –ΣNi=1 i con nuevos pesos w′(i)t = −1

t ( (i)t N − i)

3. Sumar los resultados a los actuales i donde var (Ni) = −1t w′(i)t (1 − w′(i)t) es la

varianza de este esquema, la cual es menor a la varianza dada por el esquema SIR.

6.8.- FILTRO DE PARTÍCULAS UTILIZANDO LA ECUACIÓN DE RAO-BLACKWELL El teorema de Rao-Blackwell muestra como mejorar un estimador bajo una función de perdida convexa. El teorema establece var(f(x, z)) = var( (f(x, z)|z))+ (var(f(x, z)|z)) (A.24) donde f(x, z) es un estimador de x y z. Por lo tanto, var ((f(x, z)|z) ) ≤ var(f(x, z)), se puede concluir que (f(x, z)|z) es un estimador de menor varianza. Si se pueden generar partículas de z y analíticamente evaluar el valor esperado de x dado z, se necesitarán menos partículas para una misma exactitud. Si se muestrea un pequeño espacio discreto (z), en lugar de un gran espacio híbrido (z, x), el desempeño tiene que ser mucho mejor. 6.9.- REDUCCIÓN DE VARIANZA Si se pudieran muestrear N i.i.d partículas aleatoriamente, {z(i)

0:t, x(i)0:t }N

i=1, de acuerdo a p(z0:t, x0:t |y1:t), entonces un estimador empírico de esta distribución estaría dado por:

N(z0:t, x0:t |y1:t) = ΣNi=1

: , :(z0:t, x0:t) (A.25)

donde δ(z(i)

0:t,x(i)0:t)(z0:t, x0:t) denota la función delta de Dirac localizada en (z(i)

0:t, x(i)0:t). El

valor esperado de cualquier función gt de la variable oculta con respecto a esta distribución, (gt), usando

(gt) = ∫ gt(z0:t, x0:t) N(z0:t, x0:t |y1:t)dz0:tdx0:t (A.26) pudiera ser aproximado por la siguiente estimación:

(gt) = ΣNi=1 gt(z(i)

0:t, x(i)0:t) (A.27)

esta estimación es insesgada y sigue las condiciones dadas por las ecuaciones (A.11-A.12)



,41

Utilizando el método de muestreo Bayesiano por Importancia (anexo 6.4) se puede introducir arbitrariamente una distribución por importancia fácil de muestrear q(z0:t, x0:t|y1:t). Entonces,

(gt) = : , : | : : , : : , :

: , : | : : , : (A.28)

donde el peso por importancia es igual a

wt(z0:t, x0:t) = : , : | :

: , : | : (A.29)

Dadas N i.i.d muestras{z(i)

0:t, x(i)0:t }N

i=1 distribuidas de acuerdo a q(z0:t, x0:t|y1:t), una estimación de Monte Carlo de (gt) está dada por ecuaciones (A.16-A.17):

gt ∑ : , : : :

∑ : , :∑ gt : , : (A.30)

donde los pesos por importancia normalizados (i)

t son iguales a:

: , :

∑ : , :

(A.31)

es sesgado para un valor finito de N, pero converge hacia (gt), ecuaciones (A.11-

A.12). Considérese el caso donde se marginaliza x0:t analíticamente. Se puede proponer un estimación alternativa para (gt), con varianza reducida. Si p(z0:t, x0:t|y1:t) = p(z0:t|y1:t)p(x0:t|y1:t, z0:t) (anexo 6.8) donde p(x0:t|y1:t,z0:t) es una distribución que puede ser calculada exactamente, entonces una aproximación de p(z0:t|y1:t) genera directamente una aproximación de p(z0:t, x0:t |y1:t). If p(x0:t|y1:t,z0:t) (gt(z0:t, x0:t)) puede ser evaluado en una expresión cerrada, entonces la siguiente estimación alternativa de muestreo por importancia de (gt) puede ser utilizada:

gt ∑ x0: t y1: t, z i 0: t : , :

∑ :∑ gt : , :

gt ∑

: | : , :: , : :

∑ :

(A.32)

donde :: | :

: | : (A.33)

Las siguientes dos proposiciones demuestran Doucet et al. (2000) que requerirá un número reducido de N de muestras sobre . Solo será necesario muestrear de la distribución de menor dimensión.



,42

Proposición 1 Las varianzas de los pesos por importancia, los numeradores y los denominadores satisfacen para cualquier N varq(z0:t|y1:t) (w(z0:t)) ≤ var q(z0:t,x0:t|y1:t) (w(z0:t, x0:t)) (A.34) varq(z0:t|y1:t) ≤ var q(z0:t,x0:t|y1:t) (A.35) varq(z0:t|y1:t) ≤ var q(z0:t,x0:t|y1:t) (A.36) Se demostró que si la varianza var p(z0:t,x0:t|y1:t)(gt(z0:t, x0:t)) < +∞ y w(z0:t, x0:t) < +∞ para cualquier (z0:t, x0:t), entonces satisface el Teorema del límite central CLT. tambien satisface a CLT. Proposición 2 Bajo la proposición 1, y satisface el CLT √ [ − (gt) ] ⇒N→∞ N (0, σ2

1) (A.37) √ [ − (gt) ] ⇒N→∞ N (0, σ2

2) (A.38) donde σ2

1 ≥ σ22, σ2

1 y σ22 siendo dado por

σ2

1 = : , : | : [((gt(z0:t, x0:t) − (gt))wt(z0:t, x0:t))2] (A.39) σ2

2 = : | : [(( : | : , : (gt(z0:t, x0:t)) − (gt)wt(z0:t))2] (A.40) 6.10.- TEOREMA DE RAO-BLACKWELL Basado en el teorema de Rao-Blackwell, se puede aseverar que los estadísticos suficientes juegan un rol importante en la búsqueda de un buen estimador. Si es un estimador insesgado para θ y si U es un estadístico que es suficiente para θ entonces existe una función de U que es también un estimador insesgado para θ y no tiene una varianza mayor que . Si se busca un estimador insesgado con varianza pequeña, la búsqueda se puede restringir a estimadores que sean funciones de los estadísticos suficientes (como el caso de la-RBPF). Teorema de Rao-Blackwell. Sea un estimador insesgado para θ tal que V ( ) < ∞. Si U es un estadístico suficiente de θ, definir ∗ = ( |U). Entonces para todo θ, ( ∗) = θ y V ( ∗) ≤ V ( ) Puesto que U es un estadístico suficiente para θ, la distribución condicional para cualquier estadístico, dado U, no depende de θ. Por tanto, ∗ = E( |U) no es una función de θ y es por tanto un estadístico. Puesto que es un estimador insesgado de θ, esto implica que:



,43

( ∗) = ( ( |U))= ( ) = θ Por tanto, ∗ es un estimador insesgado para θ, también, V( ) = V( ( |U)) + (V ( |U)) = V( ∗) + (V( |U)) Puesto que V( |U = u) ≥ 0 para todo u, entonces (V( |U))≥ 0 y por tanto V ( ∗) ≤ V ( ). Este teorema implica que un estimador insesgado por θ con una pequeña varianza es una función de un estadístico suficiente. Puesto que muchos estadísticos son suficientes para un parámetro θ asociado con una distribución, entonces se tienen que definir cuales estadísticos suficientes deberían ser aplicados. Para las distribuciones utilizadas, el criterio de factorización típicamente identifica un estadístico U que mejor sumariza la información en los datos acerca del parámetro θ. Tales estadísticos son llamados estadísticos mínimos suficientes. Estos estadísticos tienen una propiedad muy importante la (completez) garantizando que, si se aplica el teorema de Rao-Blackwell utilizando U, se obtiene un estimador insesgado para θ con Mínima Varianza. Tal estimador es llamado: Estimador Insesgado de Varianza Mínima (Minimum Variance Unbiased Estimator, MUVE). El cálculo directo del valor esperado condicional puede ser difícil. Sin embargo, si U es un estadístico suficiente que sumariza muy bien los datos y alguna función de U, f(U), puede encontrarse que E(f(U))= θ, implica que f(U) es un MVUE de θ. Criterio de Factorización. Sea U un estadístico basado en una muestra aleatoria Y1, Y2, …, Yn. Entonces U es un estadístico suficiente para la estimación de parámetros θ si y solo si la verosimilitud L puede ser factorizada en dos funciones no negativas, L(y1, y2, …, yn|θ) = g(u, θ) × h(y1, y2, . . . , yn) (A.41) donde g(u, θ) es una función solamente de u y θ; y h(y1, y2, ..., yn) no es una función de θ.