Upload
camilo-penilla
View
220
Download
0
Embed Size (px)
Citation preview
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 1/32
Investigación d
Operaciones IProf. Juan José Bravo, PhD
Cadenas de Markov
Construcción de matrices de transición en contemanufactura con múltiples eventos aleatorios y
Procesos de Decisión de Markov
Sugerencia: Ver este materialen modo de presentación
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 2/32
En sistemas de manufactura o de servicios es común que la incertidumbreaparezca.
Desde mi perspectiva la incertidumbre se “siente” y en la vida real sentirá en(no pocas) ocasiones ganas de decirle a su subalterno: ¿por qué no pudisteprever lo que iba a pasar? A lo que él seguramente le responderá: “es que nosabía que eso pasaría justo en este momento”…”hay veces pasa y hay vecesque no”. Es común también escuchar: “nunca sabemos el momento en quellegará ese cliente”, “hay veces llega cuando menos lo esperamos, y noestamos listos”. Muchas veces los fallos de máquinas ocurren de manera
inesperada, generando paros de producción con pérdidas que pueden sersignificativas. Como puede ver, la incertidumbre perturba su estado detranquilidad y la clave está en identificar lo mejor posible las fuentes deincertidumbre para ver como adelantarse al evento “aleatorio” que tanto loincomoda y tomar así medidas de protección que le generen tranquilidad ensu labor diaria.
Lea primero esto
Juan J. Bra
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 3/32
A continuación resolveremos un problema que he diseñadocon el objeto de:
•
Identificar los eventos aleatorios que podrían participaren cierta problemática.• Mostrar el impacto que podría tener la interacción de
distintos eventos aleatorios sobre un sistema objeto deestudio.
• Aprender a relacionar dichos eventos, considerando dosposibles tipos de relación: intersección y unión de
eventos.• Estudiar de qué manera ese análisis de eventos puede
conducir a la construcción de matrices de probabilidadesde transición entre estados.
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 4/32
Cliente
Probabilidad de
que llegue un
cliente = 20%
Si un cliente llega:Demandará 2 unidades con probabilidad del 60%
Demandará 1 unidad con probabilidad del 30%Demandará 0 unidades con probabilidad del 10%
Se desea explorar la evolución del inventario en el almacén A1, considerando que pueden llegaclientes a solicitar productos, tal como se ha esquematizado. Considere entonces el análisis concadenas de markov del proceso estocásticoXt = Cantidad de productos en A1 al inicio de cada hora t
Listado de eventosa. M1 saca lote bub. M1 saca lote dec. M2 funciona bied. M2 falla (10%)e. Llega un clientef. No llega ningúng. Un cliente demh. Un cliente demai. Un cliente no d
p r i o r i t a r
i o
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 5/32
Listado de eventosa. M1 saca lote bueno (95%)b. M1 saca lote defectuoso (5%)c. M2 funciona bien (90%)d. M2 falla (10%)e. Llega un cliente (20%)f. No llega ningún cliente (80%)
Observe que lalista de eventos aleatorios
debería tener mejor el siguiente esquema:
g. Un cliente demanda 2 unid. (60%)h. Un cliente demanda 1 unid. (30%)i. Un cliente no demanda nada (10%)
Lo anterior deja establecido que los eventos aleatorios g, h, i dependen de la ocurdel evento aleatorio e.
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 6/32
Habiendo considerado la Listade Eventos, se deberá construir laMatriz de Probabilidades deTransición entre estados, propiade las cadenas de markov.
¿Cuáles son los estados posibles pa
Xt = {0, 1, 2, 3}
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 7/32
Para el cálculo de las probabilidades condicionales asociadas a la matrizP
, le doy lassiguientes recomendaciones:
• Mas importante que los valores de las probabilidades asignadas a los eventos de laEVENTOS, son los eventos en sí mismos y la relación entre ellos. Identificar qu
esa lista participan en cierta problema puntual y cómo ellos se relacionan, es unLos eventos interactúan entre sí produciendo consecuencias o efectos que se desea
• Luego de definir los eventos correctos y la relación entre ellos, los cálculos numérirealizan generalmente sin inconvenientes.
• Respecto a la relación entre eventos, manejaremos dos tipos de relaciones: La intereventos (eventos que deben ocurrir de manera simultánea para lograr cierta consecuunión. Considere tres eventos cualquiera A, B y C, y asuma que tiene clara cierta co
cuya ocurrencia se debe a la interacción de dichos eventos. En caso por ejemplo derelacionarlos de la siguiente manera: [(A ∩ B) U (A ∩ C)], implica que la consecuebuscada se obtiene si ocurren (A
y
B)ó
(Ay
C), es decir, note que la unión se encaenlazar “alternativas” que generan la “misma consecuencia”, enlaza opciones que co
mismo resultado final. En este caso, la probabilidad de que ocurra dicha consecuen
a: P((A ∩ B) U (A ∩ C)) = P(A ∩ B)+
P(A ∩ C) = P(A)P(B)+
P(A)P(C)
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 8/32
Calculo de las probabilidades condicionales
P00 =
P02 =
P03 =
P(b) U P(a ∩ e ∩ g) U P(a ∩ e ∩ h ∩c)
= P(b) + P(a)P(e)P(g) + P(a)P(e)P(h)P(c) = 0,2153
P01 = P(a ∩ e ∩ h ∩ d) U P(a ∩ f ∩ c) U P(a ∩ e ∩ i ∩ c)= P(a)P(e)P(h)P(d) + P(a)P(f)P(c) + P(a)P(e)P(i)P(c) = 0,7068
P(a ∩ f ∩ d) U P(a ∩ e ∩ i ∩ d)
= P(a)P(f)P(d) + P(a)P(e)P(i)P(d) = 0,0779
0
P10 = P(b ∩ f ∩ c) U P(b ∩ e ∩ i ∩c) U P(b ∩ e ∩ (g U h))U P(a ∩ e ∩ g ∩ c)
= P(b)P(f)P(c) + P(b)P(e)P(i)P(c) + P(b)P(e)(P(g)+P(h)) +
P(a)P(e)P(g)P(c) = 0,1485
Uso de la prioridaddel cliente
Supuesto: Si el clientedemanda 2 unidades ysolo hay 1, se lleva esa
unidad.
Tenga en cuenta queeventos es en cada ca
lógico” basado simpl
sentido común. Uste
preguntarse: ¿Qué evocurrir para que…?
Continúe usted…
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 9/32
La matriz final es por lo tanto la siguiente:
=0,2153 0,7068 0,0779 00,1485 0,0668 0,7068 0,07790,1113 0,0999 0,7109 0,07790,108 0,066 0,744 0,082
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 10/32
¿Que pasaría si la prioridad la tuviera la máquina
M2 sobre el Cliente?
P00 = P(b) U P(a ∩ e ∩ g ∩ d) U P(a ∩ e ∩ (g U h) ∩ c)
Rompimiento de laprioridad del cliente
Compare cuidadosamente la estructura de P00 cuando la
prioridad es del cliente y el cambio de dicha estructuracuando la prioridad es de la máquina M2
P00 = P(b)+
P(a)*P(e)*P(g)*P(d)+
P(a)*P(e)*[P(g) + P(h)]*P(c) =0,2153
En este caso, ambas estructuras de P00 con distintas prioridades arrojael mismo resultado (coincidencia que no debe generalizarse).
Consideración delestado de la máquinaM2
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 11/32
¿Cómo podría usted construir la matriz de
probabilidades de transición en la práctica?
Concéntrese SOLAMENTEen los estados que tenga A1 Debe tener usted un registro de lo
del almacén en cada hora, a lo larg
periodo de tiempo. Es decir, debeen la empresa por la siguiente info
¿Cuál ha sido el nivel de inventario en A1 al inicio de cadahora, durante (por ejemplo) las últimas 100 horas?
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 12/32
¿Cómo podría usted construir la matriz de
probabilidades de transición en la práctica?
Observación
No.
Estados
Observados
al inicio de
cada hora
Observación
No.
Estados
Observados
al inicio de
cada hora
Observación
No.
Estados
Observados
al inicio de
cada hora
Observación
No.
E
O
a
ca
1 2 21 2 41 1 61
2 0 22 3 42 0 62
3 0 23 2 43 1 63
4 0 24 0 44 2 64
5 1 25 2 45 2 65
6 0 26 1 46 0 66
7 1 27 2 47 2 67
8 2 28 1 48 1 68
9 3 29 3 49 2 69
10 1 30 1 50 3 70
11 1 31 2 51 3 7112 0 32 3 52 0 72
13 2 33 1 53 0 73
14 0 34 2 54 1 74
15 0 35 2 55 2 75
16 0 36 3 56 2 76
17 2 37 3 57 1 77
18 3 38 3 58 3 78
19 3 39 3 59 3 79
20 2 40 3 60 2 80
Asuma que le proporcionanla siguiente información:
Esta información es
suficiente para construir la
Matriz de Probabilidades
de Transición
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 13/32
¿Cómo podría usted construir la matriz de
probabilidades de transición en la práctica?
Observación
No.
Estados
Observados
al inicio decada hora
Registro de
Transiciones
1 2
2 0 de 2 a 0
3 0 de 0 a 0
4 0 de 0 a 0
5 1 de 0 a 1
6 0 de 1 a 0
7 1 de 0 a 1
8 2 de 1 a 2
9 3 de 2 a 3
10 1 de 3 a 1
11 1 de 1 a 1
12 0 de 1 a 0
13 2 de 0 a 2
14 0 de 2 a 0
15 0 de 0 a 0
16 0 de 0 a 0
17 2 de 0 a 2
18 3 de 2 a 3
19 3 de 3 a 3
20 2 de 3 a 2
0
0 8
1 5
2 7
3 2
Matri
Prob
Transi0
0 36%
1 19%
2 28%
3 8%
…
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 14/32
¿Una vez encontrada la matriz de probabilidades
de transición, cómo se puede aprovechar dicha
matriz?
Análisis Básico
Procesos de Decisión de Markov
• Análisis topológico (identificación de estados recurrentes, ytransitorios, definición de clases)
• Análisis de estado estable (probabilidades de estado estable y sinterpretación)
• Análisis de interacción entre estados transitorios y recurrentes
Considera un conjunto de acciones a tomar relacionadas con laocurrencia de distintos estados, y busca encontrar las “acciones
óptimas” que el decisor debe seguir, teniendo en cuenta el
beneficio que implica el tomar cada acción.
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 15/32
Análisis de interacción entre estados transitorios
y recurrentes
(1) ¿Cuánto tiempo tardará el Sistema en ser “absorbido” por estadosrecurrentes?
(2) ¿Cuanto tiempo el Sistema permanecerá en cada estado transitorio,antes de que sea “absorbido” el sistema?
(3) Si hay múltiples estados/clases recurrentes, ¿cuál es la probabilidadde que el Sistema finalice en esos estados/clases?
Pueden habitualmente existir las siguientes inquietudes:
Aquí se muestra una forma de realizar esos cálculos:
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 16/32
Análisis de interacción entre estados transitorios
y recurrentes
1. Determine cuales estados son transitorios (T) y cuales recurrentes, llamados tambiabsorbentes, (A)
2. Partiendo de la matriz P, identifique y extraiga la sub-matriz PTT, la cual muestra solas probabilidad de pasar de un estado transitorio a otro transitorio.
3. Partiendo de la matriz P, identifique y extraiga la sub-matriz PTA , la cual muestra solas probabilidad de pasar de un estado transitorio a otro recurrente.
4. Realice los siguiente cálculos, donde I representa la matriz identidad:
(a) M = (I −PTT )−1. Entonces el element Mij de la matriz M es el numero esperad
visitas hacia el estado transitorio j desde el estado transitorio i, antes de la abso
(a) X = (I −PTT )−1PTA . Entonces el element Xij de la matriz X es la probabilidad,comenzando en el estado i, que el Sistema sea absorbido por el estado recurre
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 17/32
Análisis de interacción entre estados transitorios
y recurrentes
Ejemplo:
A B C D
A 100% 0% 0% 0%
B 9% 27% 41% 23%
C 18% 31% 9% 42%
D 0% 5% 26% 69%
A B
CD
Clase I = {A} RClase II = {B,C
P =
P =
A B C D
A 100% 0% 0% 0%
B 9% 27% 41% 23%
C 18% 31% 9% 42%D 0% 5% 26% 69%
A
B 9%
C 18%
D 0%
=
=
B C D
B 27% 41% 23%
C 31% 9% 42%
D 5% 26% 69%
1 0 0
0 1 0
0 0 1
27% 41% 23%
31% 9% 42%
5% 26% 69%
=
=
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 18/32
Análisis de interacción entre estados transitorios
y recurrentes
Ejemplo:
A B C D
A 100% 0% 0% 0%
B 9% 27% 41% 23%
C 18% 31% 9% 42%
D 0% 5% 26% 69%
Clase I = {A} Recurrente (p=1)Clase II = {B,C,D} Transitoria
P =
M =
B C D
B 3,51 3,8 7,8
C 2,38 4,37 7,7
D 2,56 4,27 11
A
B 1,00
C 1,00
D 1,00
X =
El numero esperado de visitas al estado transitorio C, pa
estado transitorio D, antes de ser el proceso estocástico
por el estado recurrente A, es de 4,27 visitas.
Partiendo del estado transitorio C, la probabilidad de que
el proceso estocástico sea absorbido por el estado
recurrente A es de 1 (en este caso por razones lógicas,
dado que hay un solo estado recurrente).
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 19/32
Procesos de Decisión de Markov
Componentes de un proceso de decisión de markov
MOMENTO de la decisión Tiempo en el cual las decisiones son tomadas.T = {1…N}, donde t ∈ T.
Espacio de ESTADOS Conjunto S de estados mutuamente excluyentes que definen los p
proceso en cada momento. Cada estado se simboliza como s ∈ S.estado que puede tomar el proceso en el momento t.
Espacio de ACCIONES Conjunto de posibles acciones que pueden realizarse al llegar a casimboliza como el conjunto A, donde a ∈ A, y a
t
representa una ael momento t.
Probabilidades de Transición Matriz de probabilidades de transición entre estados. La probabilestado en t+1, dependerá del estado actual en t y de la acción quehaya tomado. Puede decirse que Pij (a) = P(s
t+1
= j/ st
= i, a
t
= a)
Función de RECOMPENSA Valor asociado a tomar una acción cuando se llega a un estado entiempo. Se simboliza r
t
s,a). Estan relacionados con un factor de dque le indica la importancia de las recompensas futuras versus las
REGLA de decisión Qué acción del conjunto A (es decir, qué decision) se toma en una cada estado. Se simboliza como d
t
s) ∈ A.
POLITICA Una secuencia de “REGLAS de decisión” en cada periodo de tiem
simbolizar la política =(d1,…,dN-1)
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 20/32
Procesos de Decisión de Markov
En cada período de tiempo t, el estado del sistema s prove altomador de decisions toda la información necesaria para queescoja una acción a.
Como resultado de escoger esa acción, el tomador dedecisiones recibe una recompensa
r
y el sistema evoluciona a otro estado posiblemente diferente
con probabilidad p.
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 21/32
Procesos de Decisión de Markov
∗ = max∈
, (1 − )∈
( , )+∗ , ∈ , = 1,
Ecuación de Bellman
Considere a ∗ el valor óptimo de la recompensa total esperada en el momento t, cuanestado del sistema es , y faltan (N- t) periodos en el horizonte de tiempo.
En cada periodo de tiempo t, se escoje la acción ∈ que maximiza ∗ , considerant, t+1,..,N, para un estado actual.
Para un estado dado y una acción particular ∈ , la recompense total esperada es calla recompensa “inmediata ” , y la recompensa “futura ” . Esta última se obtiene mulprobabilidad de llegar (en t+1) a un estado j partiendo de , por la maxima recompensa espara el estado j, y esto se suma para todos los posibles estados en t+1. Como puede verse erecursivo.
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 22/32
Procesos de Decisión de Markov
Algoritmo de decisión alternativo (enumeración exhaustiva)
1. Se cuenta con la matriz de probabilidades de transición entre estados.
2. Si se toma la decisión ()=, se incurre en un costo “inmediato” esperado
3. Se definen a priori ciertas políticas de decisión a evaluar4. Cada política estará relacionada con una matriz de probabilidades de transición
especifica, derivada de la matriz de probabilidades de transición de estadosoriginal.
5. Se calculan las probabilidades de estado estable de cada matriz,
6. Se evalúa el costos esperado de cada política con la expresión = 7. El objetivo es encontrar una política óptima que maximice la recompensa
(minimice los costos) esperada.
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 23/32
Procesos de Decisión de Markov
Tomado de
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 24/32
Procesos de Decisión de Markov
Estado 0 1 2 3
0
1
2
3
0 7/8 1/16 1/16
0 3/4 1/8 1/8
0 0 1/2 1/2
0 0 0 1
Solicitando datos históricos asociados a los estados demaquina de un mes a otro se construyó la siguiente matrizde probabilidades de transición de estados.
Se puede observar que, una vese vuelve inoperable (estado 3en ese estado, situación queporque detiene la producción,máquina debe reemplazarsemáquina comenzaría en el estad
El proceso de reemplazo toma 1 semana de manera que la producción se pierde dueste período. El costo de la producción perdida es de $2,000 y el costo de reemplamaquina es de $4,000, de manera que el costo total asociado a llegar al estado 3$6,000.
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 25/32
Procesos de Decisión de Markov
Aún antes de que la máquina llegue alestado 3, puede incurrirse en costospor producción de artículos
defectuosos.
Estado Costo esperado debido a
artículos defectuosos ($)
0
12
0
1,0003,000
Se han mostrado los costos de laPolítica 1: reemplazar la máquinacuando es inoperable y no darlemantenimiento en otros casos.
Estado
0
1
2
3
Con esta política la matriz detransición de transición ahoraes la siguiente:
Para evaluar la Política 1 con cadenas de markov, se usa el costo o beneficio) promedio espe
unidad de tiempo a la larga) que podríamos simbolizar como E(C). Para calcular estaprimero deben calcularse las probabilidades de estado estable. Verifique que en este caprobabilidades dan el siguiente resultado: =
, = , =
, =
E(C) = 0+1,000 3,000 6,000 = 1,923.07
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 26/32
Procesos de Decisión de Markov
Pero pueden existir otrasposibles acciones a tomar
Por ejemplo, quizás la máquina debierreemplazarse antes de llegar al estado 3es decir, reemplazar también en 1 y 2.
Decisión acciones) Estados
involucrados
Costo esperado por
defectuosos
Costo de
mantenimiento
Costo por
producción
perdida
1. No hacer nada 012
01,0003,000
000
000
2. Reparación general 2 0 2,000 2,000
3. Reemplazar 1,2,3 0 4,000 2,000
Otra alternativa es realizar una reparación general a un costo de $2,000. Esta opción no es en el estado 3 y no mejora la máquina si está en estado 0 o el 1, siendo solo de interés en e2. En ese estado, una reparación colocaría la máquina en el estado 1. Se requiere de una separa ello y por lo cual hay un costo adicional de $2,000 asociado a las pérdidas por no prod
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 27/32
Procesos de Decisión de Markov
Decisión acciones) Estados
involucrados
Costo esperado por
defectuosos
Costo de
mantenimiento
Costo por
producción
perdida
1. No hacer nada 012
01,0003,000
000
000
2. Reparación general 2 0 2,000 2,000
3. Reemplazar 1,2,3 0 4,000 2,000
Estados Decisiones (acciones)
1 2 3
0 0 0 0
1 1,000 0 6,000
2 3,000 4,000 6,000
3 0 0 6,000
Por lo tanto es igual a:
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 28/32
Procesos de Decisión de Markov
Después de cada inspección de la máquina se elige entonces entre tres decisiones(acciones) posibles:1. no hacer nada, 2. reparación general, 3. reemplazo
Considere a
la decisión (acción) a tomar al encontrarnos en el estado s. Se tiene
entonces que la Política 1 puede esquematizarse como: (, , , )=(1,1,1,3)
La políticas se van a considerar est ion ri s, es decir, siempre que el sistema se encuentredeterminado estado se aplicará cierta acción.Las políticas que se evaluarán y compararán en el ejemplo serán las siguientes:
Política Descripción (R) (R) (R) (R)
Reemplazo en el estado 3 1 1 1 3
Reemplazo en 3, reparación general en 2 1 1 2 3
Reemplazo en 2 y 3 1 1 3 3
Reemplazo en 1,2 y 3 1 3 3 3
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 29/32
Cada política da una matriz de transicióndiferente
Matriz de Transición original
Estado Ra
0 1 2 3
0
1
2
3
0 7/8 1/16 1/16
0 3/4 1/8 1/8
0 0 1/2 1/2
1 0 0 0
Estado Rb
0 1
0
1
2
3
0 7/8
0 3/4
0 1
1 0
Estado Rc
0 1 2 3
01
2
3
0 7/8 1/16 1/160 3/4 1/8 1/8
1 0 0 0
1 0 0 0
Estado Rd
0
01
2
3
0 71
1
1
Estado 0 1 2 3
0
1
23
0 7/8 1/16 1/16
0 3/4 1/8 1/8
0 0 1/2 1/20 0 0 1
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 30/32
Procesos de Decisión de Markov
Política E C)
2/13 7/13 2/13 2/13 0+1,000 3,000 6,000 =1,923.07
2/21 5/7 2/21 2/21 0+1,000 4,000 6,000 =1,667
2/11 7/11 1/11 1/11 0+1,000 6,000 6,000 = 1,727
1/2 7/16 1/32 1/32 0+6,000 6,000 6,000 = 3,000
Se puede observar que la política óptima es con un costo esperado a largoplazo de $1,667.
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 31/32
Procesos de Decisión de Markov con PL
Sea la probabilidad de estado estable asociada al estado s cuando en él setoma la decision a.
Sea la probabilidad de estado estable asociada al estado s.
= ∈
∈
= 1
∈
∈
= ∈
∈
= ∈
∈
() Para un estado s ∈
Modelo de PL
= ∈
∈
Sujeto a:
∈
∈
= 1
∈
= ∈
∈
()Escriba aquí la ecuación. ∈
≥ 0 para todo (s,a)
7/23/2019 Clase Markov Ultima_campus
http://slidepdf.com/reader/full/clase-markov-ultimacampus 32/32
Procesos de Decisión de Markov con PL