z1 - Modelado Espacio Estado

Embed Size (px)

Citation preview

UNIVERSIDAD NACIONAL DE CRDOBA FACULTAD DE CIENCIAS EXACTAS, FSICAS Y NATURALES CONTROL PTIMO Y SISTEMAS ESTOCSTICOS Filminas para apuntes de clases a cargo de Prof. Dr. Ing. Julin A. Pucheta 2009 Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)2 Contenidos 1. INTRODUCCIN .......................................................................................................................................................... 3 1.1. Modelo en el espacio de estado......................................................................................................................... 3 1.2. Diseo de controladores de estado lineales ....................................................................................................... 6 1.3. Esquema bsico del controlador lineal de estado .............................................................................................. 7 1.4. Metodologas de diseo ms utilizadas ............................................................................................................. 8 1.5. Diseo del controlador mediante asignacin de polos ...................................................................................... 8 1.6. Controlador de tiempo finito ............................................................................................................................. 9 2. CONTROL PTIMO EN SISTEMAS LINEALES................................................................................................................. 9 2.1. Motivacin ........................................................................................................................................................ 9 3. REGULADOR PTIMO LINEAL EN TIEMPO CONTINUO ................................................................................................ 10 3.1. Formulacin del problema............................................................................................................................... 10 3.2. Estabilidad en el sentido de Lyapunov............................................................................................................ 10 3.3. Problema de control ptimo cuadrtico........................................................................................................... 12 4. REGULADOR PTIMO LINEAL EN TIEMPO DISCRETO ................................................................................................. 14 4.1. Formulacin del problema............................................................................................................................... 14 4.2. Formulacin del problema de estado estacionario........................................................................................... 14 4.3. Problema de control ptimo lineal de continuo a discreto............................................................................... 19 5. REGULADOR PTIMO LINEAL EN EL TRANSITORIO.................................................................................................... 28 5.1. Formulacin del problema en el transitorio..................................................................................................... 28 6. CONTROL PTIMO BASADO EN PROGRAMACIN DINMICA...................................................................................... 33 6.1. Principio de optimalidad de Bellman .............................................................................................................. 33 7. PROGRAMACIN DINMICA ..................................................................................................................................... 40 7.1. Versin simblica: Ecuacin de Hamilton-Jacobi-Bellman............................................................................ 40 7.2. Versin numrica: Ecuacin de Bellman ........................................................................................................ 44 7.3. Problema bsico .............................................................................................................................................. 44 7.4. La poltica ptima de decisiones ..................................................................................................................... 45 7.5. Programacin dinmica regresiva ................................................................................................................... 45 7.6. Algunos funcionales tpicos ............................................................................................................................ 49 7.7. Programacin Dinmica iterativa .................................................................................................................... 51 7.8. Programacin dinmica aproximada ............................................................................................................... 52 7.9. Discusin y comentario final........................................................................................................................... 61 8. CONTROL DIGITAL ESTOCSTICO................................................................................................................. 62 8.1. Modelo matemtico estocstico de seales reales. .......................................................................................... 62 8.2. Ecuaciones diferenciales estocsticas.............................................................................................................. 63 8.3. Modelos de Estado para Sistemas Estocsticos de Tiempo continuo.............................................................. 65 8.4. Modelos de Estado para Sistemas Estocsticos de Tiempo Discreto. ............................................................. 71 8.5. Diseo de Controladores de Estado para Sistemas Estocsticos Lineales....................................................... 78 9. BIBLIOGRAFA.......................................................................................................................................................... 87 Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)3 1. Introduccin 1.1.Modelo en el espacio de estado La representacin de sistemas en el espacio de estado constituye una herramienta de gran utilidad para el anlisis y diseo de sistemas de control en el dominio temporal. En particular resulta de gran significacinparaeltratamientodelossistemasmultivariable.Estaformaderepresentacinfue desarrollada para el tratamiento de modelos continuos y fue extendida posteriormente a los modelos discretos en razn de los requerimientos impuestos por el control digital. Se puede dar informalmente para un sistema la siguiente definicin de estado dinmico del sistema. El estado de un sistema causal, es la informacin mnima que es necesario conocer en un instante t=t0 para que conjuntamente con el valor de las entradas definidas en todo tiempo a partir de tt0; se pueda determinar el comportamiento del sistema para cualquier tt0. Elestadodinmicodeunsistemaconstituyeunainformacininstantneaquesevamodificando conlaevolucintemporaldelsistema.Lasvariablesquesonnecesariasparadefinirelestadose denominan variables de estado. Se puede dar la siguiente definicin. Las variables de estado constituyen el conjunto ms pequeo de variables, tales que el conocimiento de las mismas en t=t0, conjuntamente con las entradas para tt0, determinan el comportamiento del sistema para cualquier tiempo tt0. De igual modo se puede definir el vector de estado como: Un vector de estado de dimensin n es aqul cuyas componentes estn constituidas por las n variables de estado. Finalmentesedefinealespaciodeestadodela siguientemanera.Espacio deestadoeselespacio geomtrico n-dimensional donde se puede representar cualquier estado por un punto. Conelobjetodeasociarestasdefinicionesalamodelacindeunsistemafsico,setomacomo ejemplo un circuito elemental RLC; representado en la Fig. 1-1. Fig. 1-1. (a) Circuito RLC; (b) Entrada-Salida del circuito RLC Se toma u=ve(t) como seal de entrada al sistema y la tensin vr(t) sobre el resistor R como salida. Por relaciones fsicas es conocido que la evolucin de las distintas variables fsicas en este circuito, talescomotensionesycorrientes,quedardefinidaenunfuturosiseconoceparauninstantede tiempo t=t0, la corriente que fluye en el inductor L, la tensin que exista sobre el capacitor C y la tensin de entrada desde t0 en adelante. En base a la definicin que se ha dado de variables de estado es posible elegir a la corriente en el Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)4circuitoyalatensinsobreelcapacitorcomovariablesdeestado,yaquestasdefinenelestado dinmico del circuito. La evolucin futura del estado dinmico para tt0 se podr determinar si se conoce para t=t0 las variables de estado i(t), vc(t) y adems la tensin de entrada ve(t) para tt0. Para analizar la evolucin del circuito se pueden plantear las ecuaciones diferenciales del mismo. (1-1) Las Ec. (1-1) se pueden expresar en una ecuacin matricial-vectorial. (1-2) Definiendo a i, vc como variables de estado y a x como vector de estado, la Ec. (1-2) se tiene u(t) b + A x(t) = x& con (1-3) La matriz A se denomina matriz del sistema y b vector de entrada. La variable de salida y=vR puede obtenerse tambin a partir del vector de estado mediante (1-4) con cT=[R 0]. El vector C se denomina vector de salida. De esta forma el circuito RLC de la Fig. 1-1 queda modelado en el espacio de estado por (1-5) con (t).v= y(t)(t)v= u(t)] v i [ = (t)xrecT estando A, b, c definidas en las Ec. (1-3) y Ec. (1-4). 1.1.1. Representacin de sistemas multivariables Cuando se consideran varias entradas y varias salidas del sistema simultneamente, se recurre a la iC1=dtdvvL1+vL1iLR=dtdice c [ ].v0L1+vi 0C1 L1LR=dtdvdtdiecc((((

((

((((((

((((

.01/L= b ,01/C1/L - R/L -= A ((

((

x(t)c= y Tx(t)c= y(t)u(t) b + Ax(t) = (t) xT&Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)5representacin mostrado en la Fig. 1-2, en el cual existen interacciones mltiples de las e entradas conlasssalidas.Sisedeseamodelarconecuacionesdiferenciales,conduceaunsistemadese ecuacionesdiferenciales,dedistintoordenquecontemplanlasrelacionesdinmicasdetodaslas entradasconlasdistintassalidas.Lademayorordendefineelordenndelsistemamultivariable. Adems,elordendelsistemaestdadoporelnmeromnimodevariablesdeestadonecesarias para describir la evolucin del sistema. Fig. 1-2. Sistema Multivariable. Elsistemadelasseecuacionesdiferencialestransformadasaldominiodelafrecuenciaen variablecomplejaspermitenmodelarelsistemamultivariableatravsdelamatrizde transferencia G(s), (1-6) donde y(s) es el vector de salida de dimensin s, u(s) es el vector de entrada de dimensin e, y G(s) eslamatrizdetransferenciadedimensinse.CadaelementodelamatrizG(s)representala Funcin de Transferencia Gij(s) de la entrada uj(s) respecto de la salida yi(s). Delamismaformaqueparaelcasomonovariable,aunqueconunmayorgradodecomplejidad resulta posibleatravsdeunaadecuadaeleccin delas variablesdeestado,transformar todaslas ecuaciones diferenciales en conjuntos de ecuaciones diferenciales de primer orden, y compactar la notacinparaobtenerunaecuacindiferencialmatricial-vectorialdeprimerordendelamisma forma que las Ec. (1-5), (1-7) Donde A es la matriz del sistema, B es la matriz de entrada, C es la matriz de salida y D es la matriz detransferenciadirecta,todasexpresadascomofuncindeltiempoparasealarladependencia temporal en el caso de ser necesario. Para determinar la correcta dimensin de las distintas matrices componentes de la Ec. (1-7), resulta tilrepresentarlosvectoresymatricesdelaEc.(1-7)porrectnguloscuyaslongitudesdelados representan la dimensin considerada. Las Ec. (1-7) pueden representarse esquemticamente para un sistema multivariable con e entradas y s salidas como en la Fig. 1-3. ( ) ( ) ( ) s u s G s y =u(t). D(t) + x(t) C(t) = y(t)u(t) B(t) + x(t) A(t) = (t) x&Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)6Fig. 1-3. Representacin esquemtica de las ecuaciones de estado. SeobservaqueparaunsistemamultivariablelamatrizdeentradaBtomaladimensinne,la matrizdesalidaCladimensinsn,lamatrizdetransferenciadirectaDladimensinseyla matriz de entrada A, la dimensin nn, igual que para el caso monovariable. 1.2. Diseo de controladores de estado lineales Existen diversos esquemas de control, basados en la teora de Entrada-Salida y en la de variables de estado. A continuacin se muestran los esquemas ms difundidos. 1.1.2. Entrada-salida Se realimenta el error de control, definido como e(k)=yd(k)-y(k). LosesquemasmsdifundidossonlosdeltipoProporcionalIntegralDerivativoPID,consus diversas variantes, por ejemplo, Modificado, con predictor, con anti-wind up, auto sintona, etc. Fig. 1-4. Esquema de control en la representacin de sistemas Entrada-Salida. yk ek ProcesoControlador yd uk - Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)7 1.1.3. Espacio de estados Se realimenta el estado del proceso, x(k). Fig. 1-5. Esquema de control basado en realimentacin de estados. 1.3. Esquema bsico del controlador lineal de estado Se modifica el funcionamiento del proceso mediante el controlador, implementado como u(k)=-k(k)x(k). Modelo de proceso lineal en el espacio de estados con realimentacin lineal ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) = = +k k K k D k C kk k K k B k A 1 kx yx x x(k) Iq-1 A(k) u(k) x(0) C(k)B(k) x(k+1) D(k) y(k) -K(k) rk uk Proceso Controlador yk ek - - Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)8 1.4. Metodologas de diseo ms utilizadas En el mbito de diseo de controladores de estado lineales, los ms difundidos son: Asignacin de polos a) Ecuacin caracterstica dada b) De tiempo finito Espacio de estados Funcional de costo Regulador ptimo lineal 1.5. Diseo del controlador mediante asignacin de polos El objetivo es trasladar los polos de det(zI-A)=0 a un lugar deseado mediantedet (zI-A+BK)=0. Ecuacin caracterstica dada Para el caso monovariable, se hacen transformaciones lineales en el sistema para obtener la forma cannica controlable 0] 0b b[ =c~ 1.000= b~ a- . .a-. . . .0 0 0 00 1 0 00 0 1 0= A~o mT1 nK KKKKKK((((((((

((((((((

( ) ( ) ( ) k u1..0k wa- . aa-. . . .0 0 0 00 1 0 00 0 1 01 k w1 1 n n(((((

+((((((((

= +KKKKK Con u(k)=-K.w(k) ( ) ( ) k wk a ... k a k a. . . .0 1 . .0 ... 1 01 k w1 1 1 n 1 n n n(((((

= + La ecuacin caracterstica es ( ) ( ) ( ) 0 z k a ... z k a k an1 1 1 n 1 n n n= + + + + + + . Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)9 Las races de sta ecuacin caracterstica ser ( )( ) ( ) 0 p z ... p z p zn 2 1= . El diseo del controlador comienza ubicando a los polos pi, que son los polos de lazo cerrado. Tiene como ventaja de que es un mtodo simple y directo. La desventaja es que no se tiene en cuenta el efecto conjunto de los polos en el comportamiento del sistema, ni tampoco la magnitud de las acciones de control. 1.6. Controlador de tiempo finito Es un caso particular del anterior, donde se sita a todos los polos de lazo cerrado en el origen del plano complejo. Se llega a ki=ai por lo tanto u ser ( ) [ ]( ) k a ... a a k u1 1 n nx= . La ventaja de ste mtodo es que es rpido, simple, y considera el efecto del conjunto de los polos de lazo cerrado. La desventaja es que las acciones de control son muy elevadas. 2. Control ptimo en sistemas lineales 2.1. Motivacin Para el caso del diseo de controladores en tiempo discreto, siempre que el sistema sea controlable, los polos de lazo cerrado pueden ubicarse en cualquier punto del plano complejo, pero el lmite de lasrespuestasestdadoporlasaccionesdecontrol.Lavelocidadderespuestadelprocesoyla magnitud de las acciones de control estn inversamente relacionadas. Una solucin se encuentra proponiendo un funcional de costo que incluya estos elementos y luego realizar su minimizacin. Elusodelcriteriodeminimizacinesampliamenteutilizado,inclusoencontroladoresEntrada-Salida para optimizar los parmetros del PID, Fletcher-Powell propone ( )( ) ( )[ ]= + = =M0 k2k2ku r e u , e J J La solucin analtica es posible solamente para controladores de bajo orden. Se puede minimizar a prueba y error numricamente. Para el diseo en el espacio de estados, se emplear el funcional ( )( ) ( )[ ]=+ = =M0 k2k2kru e u , e J J Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)10El funcional propuesto es convexo y continuo de sus argumentos ek y uk. El controlador ser ptimo en el sentido de ste funcional. 3. Regulador ptimo lineal en tiempo continuo 3.1. Formulacin del problema Dado el sistema lineal determinstico en tiempo continuo (3-1) se desea encontrar una ley de control ut (3-2) que haga evolucionar al proceso desde x(0)0 a x()=0 minimizando el funcional de costo (3-3) con Q simtrica y semidefinida positiva y R simtrica y definida positiva. Paradisearelcontroladorenespaciodeestadoseneldominodeltiempocontinuo,seusarel segundo mtodo de Lyapunov, porque no requiere resolver las ecuaciones diferenciales del sistema a controlar. En general, el sistema se define como ( ) ( )0x 0 x , t , x f x = = &con la solucin ( ) . x t , x ; t0 0 0 0= 3.2. Estabilidad en el sentido de Lyapunov Definicin de equilibrio: Es un punto del espacio de estado, xe, donde ( ) 0. t0 t , x fe =Los sistemas lineales tienen el origen como nico punto de equilibrio si A es no singular. Se definen las esferas S() y S() alrededor del punto de equilibrio, tt0. mediante , x xe 0 ( ) , x t , x ; te 0 0 respectivamente. El sistema ser estable en el sentido de Lyapunov si para cada esfera S() existe una esfera S() tal que las trayectorias que empiezan en S() no salen de S() con t. Si no depende de t0, el equilibrio es uniformemente estable. El sistema ser inestable si para algn >0 y cualquier >0 siempre existir un x0 en S() tal que las trayectorias que all comienzan se salen de S(). ( ) ( )+ =0T Tdt Ru u Q u , J x x x = + =t tt t tCu B Ax yx x&t tK u x =Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)113.2.1. Teorema de Lyapunov Sea la funcin escalar definida positiva V(x) una funcin de energa (ficticia) que depende de x y de t. Si la derivada temporal de V(x) es definida negativa entonces el punto de equilibrio xe en el origen es uniformemente asintticamente estable y la funcin V(x) se denominar funcin Lyapunov. 3.2.2. Teorema de Krasovskii Sea el sistema modelado mediante las ecuaciones ( ) ( ) , x 0 x, t , x f x0= = &donde xRn. Para ste sistema, se define la matriz Jacobiano ( ) .xfxfxfxfx ... xf ... fx Fnn1nn111n 1n 1((((((

= =LM O ML Adems, se define la matriz ( ) ( ) ( ), x F x F x FT+ =se establece una funcin Lyapunov para ste sistema haciendo ( ) ( ) ( ), x f x f x VT =debido a que ( ) ( ) ( ). x f Fx f x VT =& 3.2.3. Aplicacin en sistemas lineales Sea el sistema modelado mediante las ecuaciones lineales homogneas (3-4) Se elige la funcin candidata de Lyapunov (3-5) siendo P una matriz simtrica y definida positiva, la derivada temporal de V(x) es (3-6) dondeserequierequelamatrizentreparntesisseadefinidanegativaparaquelacandidataV(x) propuesta sea funcin de Lyapunov. Por lo tanto debe cumplirse que (3-7) donde Q debe ser definida positiva. Para verificar la existencia de P, se hace el estudio sobre ( ) , I PA P AT = +PA P A QT+ = ( ) ( ) x PA P A x x VT T + =&( ) , x P x x VT =( ) . x 0 x , Ax x0= = &Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)12igualando a la matriz identidad. Ntese la relacin existente entre la funcin Lyapunov V(x) y su derivada temporal, las expresiones (3-5) y (3-6) muestran que (3-8) 3.3. Problema de control ptimo cuadrtico Se usar el segundo mtodo de Lyapunov para resolver el problema del control ptimo formulado. Primerosefijanlascondicionesdeestabilidadyluegosediseaelcontroladordentrodesas condiciones. El mtodo supone que el sistema es controlable. Reemplazando (3-2) en la primer ecuacin del sistema (3-1), se tiene(3-9) donde se asume que (A-BK) es estable, es decir, tiene todos los autovalores con parte real negativa. Sustituyendo (3-2) en (3-3), (3-10) Usando el Teorema de Lyapunov, para que la candidata (3-11) sea Funcin Lyapunov, entonces su derivada temporal deber ser definida negativa. Derivando en el tiempo a la V(x),(3-12) reemplazando la Ec (3-9) en la derivada temporal de x, se tiene que(3-13) El primer trmino est definido en la Ec (3-7). El segundo trmino, debe ser definido positivo, y se har la igualdad (3-14) teniendo en cuenta la (3-10). As, la derivada temporal de V(x) deber cumplir con (3-15) Igualando las expresiones, se tiene que (3-16) Derivando respecto a t, se tiene ( ) ( )x BK A P x Px BK A x Px x Px xT T T T T + = + (3-17) quedeberesolverseenPsimtricaydefinidapositiva.Comolacondicin(3-17)debecumplirse para todo xRn, se resuelve la igualdad a partir de igualar las matrices de ponderacin de la forma cuadrtica. Por lo tanto,( )t tBK A x x = &( ) ( ) ( ) ( ) . dt RK K Q dt RK K Q u , J0T T0T T + = + = x x x x x x x( ) ( ) . x Q x x PA P A x x P xtT T T T = + = ( ) ( ) . x RK K Q x x VT T + =&( ) , x P x x VT =( ) ( ) . x RK K Q x x P xtT T T + = ( ) ( ) ( ) ( ) , x RK K Q x x BK A P P BK A xT T T T + = + ( ) x P x Px x x VT T& &&+ =( ) ( ) ( ) . x PBK P B K x x PA P A x x VT T T T T+ + =&PBK P B K RK KT T T+ =Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)13(3-18) corresponde al argumento del funcional de costos a minimizar, y definiendo a la funcin como (3-19) ParahallarK,seminimizalaexpresin(3-19)respectodeK,teniendoencuentalasreglasde derivacin matricial e igualando a 0 el resultado verificando que la derivada segunda de (3-19) sea positiva para que el extremo sea un mnimo. Dada una matriz X y dos vectores x, y se verifica (3-20) pero la tercera propiedad slo es vlida si X es simtrica. Derivando la (3-19) respecto a K, se tiene RK 2 P B P BKT T+ + = y la derivada segunda de (3-19) es T22R 2K= que es definida positiva, lo que indica que el extremo de la derivada primera es un mnimo. Por lo tanto, igualando a cero la derivada primera y despejando K se tiene que (3-21) La ley de control ser, entonces, (3-22) ReemplazandoelvalordeKenlaigualdad(3-18)seobtieneelvalormnimodelafuncin implcita. As, ( ) ( ) ( ) , Q PBK PA P A P BK RK K Q BK A P P BK A RK K 0T T T T T+ + + = + + + = reemplazando, entonces, K por la Ec. (3-21), se tiene ( ) ( ) , Q P B PBR PA P A P P B BR P B RR P B R 0T 1 TTT 1 T 1TT 1+ + + = ( )( ) ( )( ) , Q P B PBR PA P A P BR P B P B R P B 0T 1 TT1TT TT1TT+ + + = que operando, se llega a (3-23) que es la Ecuacin de Riccati reducida. Evaluando a J de la Ec. (3-10) con el ut de la Ec. (3-22) se obtiene (3-24) dondesehausadolaigualdad(3-8)pararesolverlaintegral.ParadeterminarelvalorenlaEc. (3-24), se considera que los autovalores de (A-BK) tienen parte real negativa, entonces x(t)0 con t. Por lo tanto la Ec. (3-24) resulta (3-25) ( ) ( ). BK A P P BK A RK K QT T + + + = ( ) ( ) ( ), x X 2 =xx X x; xX=yy X x; y X =xy X xTTT T . P B R KT 1 =. x P B R utT 1t =, 0 Q P B PBR PA P AT 1 T= + +( ) ( ) ( )0T0T0T0T TP P P . dt RK K Q u , J x x x x x x x x x = = + = ( ) . P u , J0T0x x x =( ) ( ) ( ) , RK K Q BK A P P BK AT T+ = + Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)14Dado el caso en que se disee al funcional de costos en trminos de la salida y, del sistema de Ec. (3-1), (3-26) se reemplaza y por la segunda fila de la Ec. (3-1), quedando (3-27) y se emplea CTQC en lugar de Q. Para el diseo del controlador ptimo cuadrtico, una vez formulado el problema, se debe resolver la Ecuacin de Riccati (3-23) con respecto a P verificando que (A-BK) sea estable. Para calcular el controlador usando Matlab, se dispone del comando K=LQR(A,B,Q,R) o bien [K,P,E]=LQR(A,B,Q,R) donde E contiene a los autovalores de (A-BK). 4. Regulador ptimo lineal en tiempo discreto 4.1. Formulacin del problema LaformulacindelproblemadecontrolparaelReguladorptimo linealentiempodiscretoes la siguiente. Dado el sistema lineal determinstico (4-1) se desea encontrar una ley de control uk que haga evolucionar al proceso desde x(0)0 a x(N)=0 minimizando el siguiente funcional de costo (4-2) con S y Q simtricas y semidefinidas positivas y R simtrica y definida positiva. Paraencontrarlaleydecontroluk,existendiversosmtodos,entrelosmsdifundidosestnlos basadosenelprincipiodeoptimalidaddeBellmanylosqueempleanlosmultiplicadoresde Lagrange. Para el caso en que N tienda a infinito en la definicin del funcional (4-2), se tiene una formulacindelproblemaconocidacomodeestadoestacionariodondepierdesentidoeltrmino xTNSxNyaquealserestableelsistemacontroladosiempresernulo,lacualadmiteun procedimiento de cmputo basado en la Teora de Lyapunov. 4.2. Formulacin del problema de estado estacionario SeproponeformularelproblemadecontrolptimoparaemplearlaTeoradeLyapunov,que considera un sistema dinmico en estado estacionario. Dado el modelo dinmico de la Ec. (4-1), se desea encontrar una ley de control uk (4-3) ( ) [ ]NTN kTk kTk1 - N0 = kS Ru u + Q u , x J x x x x + = + =+ =+k k k k kk k k k 1 ku D Cu B Ax yx x( ) ( )+ =0T Tdt Ru u Q u , J y y x( ) ( )+ =0T T T, dt Ru u QC C u , J x x xk kK u x =Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)15 que haga evolucionar el sistema para k=0 hasta k=, minimizando el funcional de costos (4-4) donde Q es simtrica y semidefinida positiva, y R es simtrica y definida positiva. Para resolver ste problema, se emplear el Teorema de estabilidad de Lyapunov. 4.2.1. Estabilidad en tiempo discreto ElanlisisdeestabilidadenelsentidodeLyapunovsirveparasistemaslinealesonolinealesde tiempo discreto, variantes o invariantes en el tiempo. Se basa en el segundo mtodo de Lyapunov. Teorema Sea el sistema en tiempo discreto (4-5) donde xRn, f(x) Rn, f(0)=0, y T perodo de muestreo. Seempleaunafuncinquecontemplalaenergadelsistema,ydestafuncinsecalculala diferencia temporal, es decir, que dada (4-6) y la funcin diferencia para dos intervalos de muestreo se define como (4-7) Si existe una funcin escalar continua V(x) tal que 1.V(x)>0 x0, 2.V(x)>t, K es aproximadamente 1, y el sistema es estable ya que reemplazando en la Ec 2tu41g =t tu x a + =( )t t*x2tu , x J u41H + =( ) t , x J u21uHt*x t+ =021uH22> =( ). t , x J 2 ut*x*t =[ ] [ ] [ ]2*x t*x2*x*tJ 2 x J J 241J 0 + + =[ ] [ ]t*x2*x*tx J J J 0 + =( ) . x41T , x * J2T T=( )2t t tx K21t , x * J =( )t t t*xx K t , x J =t t*tx K 2 u =( )2t t t*tx K21t , x J&=. K K K210t2t t+ =&( )( ) ( ) T t exp t T expt T expKt + =Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)44(7-15) se tiene (7-32) Ntese que la solucin para un problema con un sistema modelado con una variable de estado, y un funcional de costo cuadrtico es muy laborioso y tedioso, incrementando la dificultad si el sistema es modelado como no lineal y el funcional de costo propuesto no es cuadrtico. 7.2. Versin numrica: Ecuacin de Bellman Hasta aqu no se han considerado las restricciones, ni tampoco las no linealidades en el modelo del proceso a controlar ni funcionales de costo no cuadrticos. Sinembargo,endeterminadassituacionesesconvenientetenerencuentalasrestriccionesenel proceso para el diseo del controlador. Cuandosetrataconprocesoscuyosmodelosnosondeltipolinealosedebenconsiderar saturaciones en los actuadores o en las variables de estado, sucede que la expresin analtica cerrada de la solucin al problema de control ptimo no siempre puede hallarse, por lo que se hace uso de la aproximacin numrica de la ley de control mediante la cuantificacin de los estados de la planta. 7.3. Problema bsico Para formular el problema, se presentan las expresiones del modelo del proceso, las restricciones enlasvariablesyelfuncionaldecostoaminimizar.Seconsideraelproblemademinimizarla funcin de costos separable (7-33) donde x(0) tiene un valor fijo C y deben ser satisfechas la ecuacin del sistema (7-34) y las restricciones (7-35) (7-36) Por simplicidad se supone que f y L son funciones acotadas y continuas de sus argumentos, y que x yupertenecenasubconjuntoscerradosyacotadosdeRnyRm,respectivamente.Entonces,el teorema de Weierstrass asegura que existe una poltica de minimizacin. Fig. 12. Implementacin del controlador basado en programacin dinmica numrica. Sedeseahallarunafuncin( ) ( )m n: k , k x ,quehagaevolucionaralprocesomodelado Sistema x(k+1)=f(x(k),u(k),k) (x(k),k) x(k)u(k)=(x(k),k) [ ] 1 N ,... 1 , 0 k , k ), k ( ), k ( f ) 1 k ( = = + u x x, R Xn x. R Um u( ) [ ]==N0 kk ), k ( u , k x L J. x xt t = &Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)45mediante la Ec (7-34) desde cualquier condicin inicial hasta el estado final x(N) cumpliendo con las restricciones(7-35) - (7-36), y que minimice al funcional de costo (7-33). Aplicando el principio de optimalidad, se obtiene (7-37) denominada Ecuacin de Bellman., y por lo tanto la accin de control u ser (7-38) 7.4. La poltica ptima de decisiones Se desea obtener la ley de control mediante el cmputo de ( ) ( ) ( ) ( ) { }. 1 k , k ), k ( u , x f J k ), k ( u , x L min arg k , x u*) k ( uo+ + = Paraobtenerlaleydecontrolse proponen tres mtodos,conocidoscomoProgramacindinmica regresiva (Clsica), Programacin dinmica Iterativa, y Programacin dinmica aproximada. 7.5. Programacin dinmica regresiva Mediante ste mtodo, se obtiene una tabla de valores con dos entradas: x y k, conociendo que ( ) { } N ), N ( u , x L min J) N ( u*=y luego se resuelve numricamente mediante la programacin dinmica. En la metodologa del ejemplo 6.1.2, cuyos resultados estn en la Tabla 6-1, puede verse que hay dos pasos: uno es para calcular la secuencia ptima de decisiones y otra para calcular la trayectoria ptima del estado del proceso para cada valor numrico de x(0). 7.5.1. Procedimiento de evaluacin numrica Sea el funcional de costo [ ] . 1 ) 5 ( x e ) k ( u 2 J40 k) k ( x= + + = , el sistema expresado por ) k ( u ) k ( x41) k ( x45) k ( x 2 2 ) k ( x ) 1 k ( x3 2((

+ + = +con las siguientes restricciones . 1 u 1, 3 x 0 utilizando una cuantificacin uniforme con x=1 y u=1. Se desea: -Hallar la solucin completa por programacin dinmica. -Generar la solucin para el estado inicial x(0)=2. ( ) ( ) ( ) { }, 1 k , k ), k ( u , x f J k ), k ( u , x L min ) k , x ( J min*) k ( u ) k ( u+ + =( ) ( ) ( ) ( ) { }. 1 k , k ), k ( u , x f J k ), k ( u , x L min arg k , x u*) k ( uo+ + =Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)46-Aplicar interpolacin lineal para cualquier interpolacin requerida. Solucin: Paralosincrementosdecuantificacin indicados,elconjuntodeestadosadmisibleses x={0,1,2,3} y el conjunto de decisiones admisibles es u={-1,0,1}. Con el objeto de facilitar el anlisis es til calcular la funcin de transicin de estados y la funcin de costo para cada etapa en cada estado cuantificado en funcin de la variable de decisin u. Dadoque,enesteejemplo,ambasfuncionessoninvarianteseneltiempo,ahorratiempode computarlasalprincipioyalmacenarlasparareferencia.Losresultadossemuestranenlastablas Tabla 7-1 y Tabla 7-2. x(k)x(k+1) 0) k ( u 2 1) k ( u 1+2) k ( u 2 +3) k ( u 5 , 0 3 +Tabla 7-1. Funcin de transicin de estados. x(k)L[x(k),u(k),k] 02+u(k) 1 [ ] ) k ( u 2 36788 , 0 + 2 [ ] ) k ( u 2 13534 , 0 + 3 [ ] ) k ( u 2 04979 , 0 + Tabla 7-2. ndice de desempeo para cada etapa en cada estado cuantificado. Debe notar que en el estado x = 3 la decisin u = -1 lleva a un prximo estado igual a 2,5. Dado que esteestadonoesunodelosestadoscuantificadosdeXsernecesariaunainterpolacinpara obtener el costo mnimo de dicho prximo estado. LosclculoscomienzanespecificandoL[x,5]enlosestadoscuantificadoscomosemuestraenla Fig. 7-13 donde para cada estado cuantificado de esa etapa se tiene, L[3,5] = |3-1| = 2 L[2,5] = |2-1| = 1 L[1,5] = |1-1| = 0 L[0,5] = |0-1| = 1. x=3 x=2 x=1 x=0 k=012345 2 1 0 1 Fig. 7-13. Condiciones de borde. Para ilustrar el procedimiento de interpolacin, se consideran los tres controles aplicados al estado Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)47x=3 en la etapa k=4, como se muestra en la Tabla 7-3. ug(x,u,k)J*(g,k+1)L(x,u,k)Costo Total 13,5*** 0320,099582,09958 -12,51,50,049791,54979 Tabla 7-3. Clculos en x=3, k=4. Para u = +1 el prximo estado es x = 3,5, el cual viola las restricciones de estados. Para u = 0 el prximo estado es x = 3. El costo mnimo en el prximo estado es I(3,5) = 2 y el costo de la etapa es L(3,0,4)=0,09958 lo que da un costo total de 2,09958. Parau=-1elprximoestadoesx=2,5,unvalorintermedioenlamitadentrelosestados cuantificados x = 2 y x = 3. Una interpolacin lineal entre el costo I(2,5)=1 e I(3,5)=2 da un costo de I(2,5,5) = 1,5. El costo de la etapa es L(3,-1,4) = 0,04979 lo queda un costo total de 1,54979. Este ltimo costo es, claramente, el valor mnimo. La solucin completa se muestra en la Fig. 7-14. x=3x=2x=1x=0k=03.6766921010 -1 -1 -1 -10.83720 0.73762 0.69898 0.89236 1.549791 0 0 0 -11.14363 0.94735 0.67669 0.40601 0.135341 1 1 102.05099 1.78033 1.50965 1.23898 0.735761 1 1 1 03.40601 3.135343.000k=1 k=2 k=3 k=4 k=5 Fig. 7-14. Solucin completa utilizando interpolacin lineal. kXuL(x,u,k) 0210,40602 13-10,04979 22,50-0,500,12313 32,05-0,050,24792 42-10,13534 51-0,0 0,96220 Tabla 7-4. Solucin ptima para x(0) = 2. Paraelestadoinicialx(0)=2lasolucinsemuestraenlaTabla7-4.Cabedestacarqueesta solucin requiere interpolacin para obtener la decisin ptima para k 2. La decisin ptima para x(0) = 2 es u = 1 la cual lleva al prximo estado x(1) = 3 con un estado de etapa L(2,1,0) = 0,40602. La decisin ptima para x(1) = 3 es u=-1 la cual lleva al prximo estado x(2) = 2,5y un costo de etapa de L(3,-1,1) = 0,04979. A partir de este estado se requiere realizar interpolaciones dado que no es uno de los estados cuantificados para los cuales ya se han calculado las decisiones ptimas. Las decisiones ptimas para los dos estados ms cercanos son( ) 0 2 , 2 u = y( ) 1 2 , 3 u = .La ecuacin general de interpolacin lineal es Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)48( ) ( )( ) [ ] ( )( ) x xxk , x a u k , x 1 a uk , x a u k , x u ++ =para( ) x 1 a x x a + . En este caso x = 2.5 y1 x = , a = 2 ( ) ( ) 0 2 , 2 u k , x a u = = ( ) [ ] ( ) 1 2 , 3 u k , x 1 a u = = +Reemplazando en la ecuacin general de interpolacin lineal se obtiene ( )( )( ) 5 , 0 2 5 . 210 10 2 , 5 . 2 u = + = . Estosvaloresdelestadoydeladecisinptimapuedenahoraintroducirseenlasecuaciones originalesdelsistemaydelcostodeetapa.Dichosclculosindicanqueelprximoestadoes x(3)=2,05 y que el costo de la etapa es 0,12313. ( ) 05 , 2 5 . 0 5 . 2415 . 2452 5 . 2 2 5 . 2 x3 23 ((

+ + = ( ) ( ) [ ] 12313 , 0 e 5 . 0 2 3 , 5 . 0 , 5 . 2 L5 . 2= + = La interpolacin entre( ) 0 2 , 2 u =y( ) 1 3 , 3 u =da ( ) ( ) 05 , 0 2 05 . 210 10 3 , 05 . 2 u = + = . La sustitucin en las ecuaciones originales del sistema y del costo muestra que x(4)=2 y que el costo es 0,24792. Acontinuacinseobtienedirectamentequeladecisinptima( ) 1 4 , 2 u = ,elcostoenk=4es 0,13534 y el estado final x(5)=1, con una penalidad (o costo) terminal de 0. Es dable destacar que el costo total a lo largo de esta trayectoria es de 0,96220 y no 1,14363 que es elvalorcalculadoenelarmadodelagrilla.Estadiscrepanciamuestraqueparaecuacionesdel sistema y funciones de costo no lineales, como las aplicadas en este ejemplo, es a veces necesario utilizarintervalosdecuantificacinmsfinosy/ointerpolacionesdemayorordenparaobtener resultados precisos. EnelprogramaparaMatlabPDNumerica_01.msepresentaunaimplementacindelalgoritmo propuesto. Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)490 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50123EstadosEstados0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 500.511.52CostoCostos0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5-1-0.500.51Accin de controlAcciones de controlEtapas Nmax=4 . Mmax=3Nmax=45 . Mmax=45 Fig. 15. Evolucin usando la poltica tabulada sin interpolacin. 7.6. Algunos funcionales tpicos Enlaformulacindelproblemageneraldeoptimizacinenmltiplesetapasodiscreto,se distinguen tres elementos esenciales: La descripcin de la planta o proceso en consideracin por medio de una ecuacin dinmica discreta como la expresada mediante la Ec (7-34). La presencia de k en los argumentos de g indica que la funcin puede, en general, variar con el tiempo (o etapa). Las dinmicas del sistema estn fijadas por la fsica del problema. Lasrestriccionesenlosestadosyenlasaccionesdecontrol,expresadasmediantelasEc(7-35)- (7-36), estn fijadas por la fsica del proceso y por el ingeniero. El funcional de costo (a minimizar o ndice de desempeo a maximizar), expresado mediante la Ec (7-33), es elegido exclusivamente por el ingeniero. ElvalordelndiceL(x(k),u(k),k)parak=Nnormalmenteesunaexpresinquenodepende explcitamente de u(N), por lo que se puede expresar mediante una funcinque es una funcin del tiempo final N y del estado en el tiempo final N, es decir (7-39) Representa el costo o penalidad que el usuario le designa a cada estado final admisible. Si se desea que el sistema llegue, en N etapas a un determinado estado final, se asigna costo cero a dicho estado y un costo o penalizacin elevada a los otros estados. De esta manera se puede lograr que el costo total de la trayectoria sea el mnimo, cuando el estado final es el estado al cual el ingeniero desea que llegue dicha trayectoria ptima en las N etapas. LafuncinL[x(k),u(k),k]esunafuncinquepuedevariarconlaetapak(amenudoeltiempo), ( ) ( ) N. k N ), N ( x : k ), k ( u ), k ( x L = =Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)50diseada por el ingeniero para alcanzar una determinada respuesta o comportamiento por parte del sistema. Paraalcanzardiferentesobjetivosdecontrolseseleccionandiferentestiposdendicesde comportamiento. Algunos de los ndices comnmente utilizados se describen a continuacin. 7.6.1. Problemas de tiempo mnimo Suponiendo que se desea encontrar la secuencia de control uk que lleve el sistema desde el estado inicialdadox(0)aunestadofinaldeseadox(N)eneltiempomnimo.Entoncessepodra seleccionar el funcional [ ] [ ]=+ = + =1 N0 k1 ) N ( x N ) N ( x J y especificar la condicin de borde x(N)=xd. En este caso es L=1, y N puede o no ser una variable a minimizar. 7.6.2. Problemas de Mnimo Consumo de Combustible Cuando se desea encontrar la secuencia de control {uk} para llevar el sistema desde x(0) a un estado final deseado x(N), en un tiempo fijo N utilizando el mnimo combustible, el funcional a utilizar es [ ]= + =1 N0 k) N ( x ) k ( u J debido a que el combustible que se quema es proporcional a la magnitud del vector de control. En este caso L=u(k). Por ejemplo si el control es proporcional a la diferencia de temperaturas TD-TA entre la temperatura deseada y la temperatura ambiente, al variar TA la diferencia puede ser positiva onegativa,indicandolanecesidaddeaplicarcalefaccinorefrigeracin.Enamboscasosexiste consumo de combustible. 7.6.3. Problemas de mnima energa Este funcional se utiliza si se desea encontrar u(k) para minimizar la energa del estado final y de todos los estados intermedios y tambin del control. Nuevamente suponiendo fijado el tiempo final N, se puede utilizar el funcional [ ] ) N ( x S ) N ( x21) k ( u R ) k ( u ) k ( x Q ) k ( x21JT1 N0 kT T+ + == donde Q, R y S son matrices de ponderacin definidas positivas. Enestecaso) N ( x S ) N ( x21T= y( ) ( ) ( ) ( ) [ ] k u R k u k x Q k x21LT T+ = ,ambassonfunciones cuadrticas. Minimizar la energa corresponde, en cierto sentido, a mantener el estado y el control cerca de cero. Si se considera ms importante que los estados intermedios sean pequeos entonces se podr elegir qi grande para pesar los estados fuertemente en J que es el funcional que se trata de minimizar. Si es Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)51ms importante que sea pequea la energa de control, entonces se elegira un valor grande de ri. Si interesa ms que el estado final sea pequeo, entonces S debera ser grande. El problema de control ptimo se caracteriza por compromisos y ajustes con diferentes factoresde pesoenJqueresultanendiferentesequilibriosentreobjetivosdedesempeoymagnituddelas acciones ptimas requeridas. En la prctica, es usualmente necesario hacer un diseo de control con unfuncionalJestimado,computarlasecuenciadecontrolptimoukycorrerunasimulacinen computadoraparavercomorespondeelsistemaaestasecuenciadeaccionesdecontrol.Sila respuesta no es aceptable, se repite la operacin usando otro J con diferentes pesos en los estados y controles.Despusdevariasrepeticionesparaencontrarunasecuenciaukaceptable,estaversin final de uk se aplica al sistema real. Las ventajas de la PDR pueden destacarse en los problemas de baja dimensionalidad, ya que es una metodologa que encuentra un mnimo global, y la ley de control resultante reside en una tabla de valores.Sinembargo,paraampliarelmbitodeaplicacindelaPDRasistemasdealta complejidad y de grandes dimensiones existen dos alternativas: la Programacin dinmica iterativa y la Programacin dinmica aproximada. 7.7. Programacin Dinmica iterativa Fue propuesta por Luus en 1990, para procesos qumicos. Intenta ampliar el campo de aplicacin hacia los problemas de ingeniera de grandes dimensiones. Propone implementar el algoritmo de la PDR sobre una regin determinada del espacio de estados. Para aplicar la PDR, se aproxima el problema de control ptimo buscando una poltica de control constante por partes,generando una secuencia de decisiones como poltica decontrol que vara en forma continua, sobre P etapas de tiempo, cada una de longitud L, tal que PtLf= . Por lo tanto, en el intervalo tk t < tk+1, se tiene el control constante: k tu u = . Elproblemaentoncesesencontrarlasecuenciau0,u1,....,uP1queminimizaelfuncionalde costos. Se define k 1 kt t L =+ con tP = tfy t0 = 0. 7.7.1. Algoritmo de la PDI Paso 1: Dividir el intervalo de tiempo tf en P etapas de tiempo, cada una de longitud L. Paso2:ElegirelnmeroNdepuntosdelagrillaxyelnmeroMdevaloresadmisiblespara cada una de las variables de control uj. Paso 3: Elegir la regin rj para cada una de las variables de control. Paso4:EligiendoNu(impar)valoresdecontroldentrodelareginadmisible,evaluarlaEc. (7-34) del modelo dinmico de proceso Nu veces para generar la grilla x en cada etapa de tiempo. Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)52 Paso5:ComenzandoenlaltimaetapadetiempoP,correspondientealtiempo(tfL),para cada punto de la grilla x evaluar la Ec. (7-34) desde (tf L) hasta tf paratodos los Mum valores admisibles de control. Elegir el control u que minimiza el funcional de costo y almacenar el valor del control para usarlo en el paso 6. Paso 6: Retroceder a la etapa P 1, correspondiente al tiempo (tf 2L) y evaluar a la Ec. (7-34) desde(tf2L)hasta(tfL)paracadapuntodelagrillaxconlosMmvaloresadmisiblesde control.Paracontinuarlaintegracindesde(tfL)hastatfelegirelcontroldelpaso5que corresponde al punto de la grilla ms cercano al x resultante en (tf L). Comparar los Mm valores del funcional de costo y almacenar el valor de control que da el mnimo valor. Paso7:Continuarelprocedimientohastaalcanzarlaetapa1correspondientealtiempoinicial t=0.Almacenarlapolticadecontrolqueminimizaelfuncionaldecostoyalmacenarla trayectoria x correspondiente. Paso 8: Reducir la regin de valores de control admisibles por un factor , o sea ( )j 1 jr 1 r =+ dondejeselndicedeiteracin.Usarlatrayectoriaxptimadelpaso7comopuntosmedios paralagrillaxencadaetapadetiempo,yusarlapolticadecontrolptimadelpaso7como puntos medios para los valores admisibles del control u en cada etapa de tiempo. Paso9:Incrementarelndicedeiteracinjen1yvuelvaalpaso4.Contineiterandoporun nmero especificado de iteraciones tal como 20 y verificar los resultados. 7.7.2. Comentario Comoventaja,selogrobtenerunasecuenciadeaccionesdecontrolempleandomenores recursoscomputacionesqueenelcasodelaPDR.Sinembargo,statcnicapermiteencontrar una solucin para el problema de control ptimo dependiente del estado inicial del proceso, por locualenlaoperacinenlnearequieredeunequipamientocapazdeimplementarlaPDIen lnea y en el tiempo de muestreo impuesto por el proceso real y la especificacin de control. 7.8. Programacin dinmica aproximada Existenvariasposibilidadesdedisminuirlacantidadderecursossegnladimensionalidady naturaleza del problema. A continuacin se van a describir dos mtodos muy difundidos, que son losmtodosdeIteracindepolticaaproximadaaproximandoelfuncionaldecostosy aproximando el funcional y la ley de control. 7.8.1. Aprendizaje Q Esunmtodocomputacionalalternativoquepuedeusarsecuandonosedisponedeunmodelo explcitodelproceso.Sesuponequeesdatoelvalordelcostoasociadoalastransicionesde estados. Se define para un par estado accin (i,u) el factor Q mediante ( ) ( ), j J j , u , i L ) u , i ( Q + =Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)53(7-40) dondeieselestadoactual,jeselestadoalcanzadounavezaplicadolaaccinu,eslaleyo poltica de control para las transiciones desde el estado j hasta el final del proceso y J es el costo asociado formado por la sumatoria de los costos parciales. A partir de stos valores, se mejora la poltica mediante (7-41) A sta poltica mejorada, se le vuelve a computar los costos asociados y se calculan nuevamente los factores Q mediante la Ec. (7-40). Repitiendo ste procedimiento, se llega a la poltica ptima cuando no hay ms cambio en los factores Q o en la mejora de la poltica. Se actualizan los valores de los factores Q asociados a una poltica, evitando evaluar la poltica en el proceso. Se definen los factores Q ptimos Q*(i,u) correspondientes al par (i,u) mediante (7-42) donde la Ecuacin de Bellman puede escribirse como (7-43) Combinando las ecuaciones Ec. (7-42) y la Ec. (7-43), se tiene (7-44) Los factores Q ptimos Q*(i,u) son la solucin nica del sistema de la Ec. (7-44). El algoritmo se escribe como (7-45) y en una forma ms general, (7-46) Lafuncincambiadeunaiteracinaotraparaelmismopar(i,u).Sedemuestraquela convergencia estar asegurada si se cumple que (7-47) entoncesQn(i,u)convergeaQ*(i,u).SesuponequeexisteunapolticaptimayqueQest acotado para todo su dominio. En el programa para Matlab PD_Q_731.m se implement un algoritmo que calcula la poltica de controlptimaparaelEjemplo7.3.1,elmismosemuestraenlaFig.16.Lafuncintienela forma ( ) ( ), j J j , u , i L ) u , i ( Q* *+ =( )( ). u , i Q min ) i ( J*i U u*=( )()( ). v , j Q min j , u , i L ) u , i ( Q*j U v*+ =( )( )( ). v , j Q min j , u , i L ) u , i ( Qj U v+ =( ) ( )( )( ) . v , j Q min j , u , i L ) u , i ( Q 1 ) u , i ( Qnj U vn 1 n||

\|+ + =+( ) ( ) ( ) == < = 0 n2n0 nn, i U u i, , u , i , u , i( )( ). u , i Q min arg ) i (i U u= Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)54n 1010n+= donde n indica la cantidad de veces que se actualiza al par estado accin(i,u). En laFig. 17 se muestran grficamente los resultados obtenidos. Control ptimo y procesos estocsticos J. A. Pucheta (www.labimac.blogspot.com)55 Fig. 16. Cdigo para implementar el algoritmo de aprendizaje Q en Matlab. % Programacin dinmica. % Apredizaje Q. % Para el Ejemplo 7.3.1. % x(k+1)=x(k)+(2-2*x(k)+5/4*x(k)^2-1/4*x(k)^3)*u(k); % con el funcional de costo J=sum((2+u(k))*exp(-x(k))); %Autor JAP %06 12 07

clear,clc,close all;

TM=200; Mmax=15; color='.-k'; tic; du=Mmax; etapas=6; xmin=0; xmax=3;umin=-1; umax=1;

%%%Carga de datos

rand('state',0); equis1=3*(rand(TM,1)); tiempo=ceil((etapas-1)*rand(TM,1)); M_est = [tiempo,equis1]'; Au=(umax-umin)/(Mmax-1); for i=1:Mmax uf(i)=umin+Au*(i-1); end CI=2;vfinal=1; Q = zeros(TM,du); J=zeros(1,TM); sal(1)=CI;costo(1)=0; Ya=zeros(1,TM); for k=1:etapas-1 entrada = [k; sal(k)]; consigna(k) = pol_tab_mu1(entrada,M_est,Ya); sal(k+1)=mopdm(k,sal(k),consigna(k)); costo(k+1)=costo(k)+indice(k,sal(k),consigna(k)); end costo(k+1)=costo(k+1)+abs(sal(k+1)-vfinal); evoluc(1)=costo(etapas); costo(etapas) m=zeros(TM,du);for iterac=1:10 for iq=1:TM k=M_est(1,iq); x=M_est(2,iq); %Recorre todas las acciones for acc=1:du xy=mopdm(k,x,uf(acc)); m(iq,acc)=m(iq,acc)+1; gama=10/(10+m(iq,acc)); if k