13
1 Metódy adaptívneho Metódy adaptívneho kritika kritika Ján Kašprišin

Metódy adaptívneho kritika

  • Upload
    errin

  • View
    56

  • Download
    5

Embed Size (px)

DESCRIPTION

Metódy adaptívneho kritika. Ján Kašprišin. Osnova prezentácie. Základné pojmy Heuristické dynamické programovanie (HDP) Duálne heuristické programovanie (DHP) Aplikácia: Realizácia Kalmanovho estimátora stavu použitím DHP. - PowerPoint PPT Presentation

Citation preview

Page 1: Metódy adaptívneho kritika

1

Metódy adaptívneho kritikaMetódy adaptívneho kritika

Ján Kašprišin

Page 2: Metódy adaptívneho kritika

2

Osnova prezentácieOsnova prezentácie

Základné pojmy Heuristické dynamické programovanie (HDP) Duálne heuristické programovanie (DHP) Aplikácia: Realizácia Kalmanovho estimátora stavu

použitím DHP. Zhodnotenie vhodnosti použitia metódy na riešenie

daného problému

Page 3: Metódy adaptívneho kritika

3

Základné pojmyZákladné pojmy

ACD optimalizačné metódy zahŕňajú v sebe výhody

RL a dynamického

programovania

Základné moduly v ACD Action Critic Model

Page 4: Metódy adaptívneho kritika

4

Základné pojmyZákladné pojmy

Typy ACD Heuristické dynamické programovanie (HDP) Duálne heuristické programovanie (DHP) Globalizované duálne heuristické programovanie (GDHP) Action-dependent design (Q-learning)

Page 5: Metódy adaptívneho kritika

5

Heuristické dynamické programovanieHeuristické dynamické programovanie

- je založené na myšlienke aproximácie riešenia Bellmanovej rovnice

- ktorú je možné nahradiť približným vzťahom

- kde U je kvadratickým kritériom

- funkcia užitočnosti J v zmysle riadenia odpovedá Ljapunovovej funkcii

)()(0

ikUkJi

i

))1(()())(( kxJkUkxJ

)()()()()( kRukukQxkxkU TT

)1()()1())1(( kxkPkxkxJ T

Page 6: Metódy adaptívneho kritika

6

Heuristické dynamické programovanieHeuristické dynamické programovanie

- zavedieme si nasledujúce označenie

- z Pontryaginovho principu minima vyplíva, že u(k) musí byť také, že platí

- na základe čoho je možné odvodiť chybu siete Action

)()()())((

)()()()())(),((

)1()()())(),((

kukxkKkxg

kRukukQxkxkukxr

kxkGukFxkukxfTT

0))((

))(),(()1())1((

))(())(),((

))(())((

kxgkukxf

kxkxJ

kxgkukxr

kxgkxJ

))(())((

0)(kxgkxJ

kea

Page 7: Metódy adaptívneho kritika

7

Heuristické dynamické programovanieHeuristické dynamické programovanie

Chyba siete Critic je na základe Bellmanovej rovnice určená ako

Základná schéma HDP

)()()1()( kJkUkJkec

Page 8: Metódy adaptívneho kritika

8

Duálne heuristické programovanieDuálne heuristické programovanie

je založené na diferenciácii Bellmanovej rovnice chyba siete Action sa získava rovnakým spôsobom ako u (HDP), rozdiel je

v získavaní chyby pre sieť Critic výstupom siete Critic nie je odhad funkcie J, ale priamo jej derivácia

diferenciáciou Bellmanovej rovnice je možné získať žiadanú hodnotu výstupu siete Critic

)()(

)(kxkJ

ki

i

M

j

N

h

M

j

N

h i

j

j

h

hi

h

hi

j

ji

iiiii

kx

ku

kukx

kxkJ

kxkx

kxkJ

kx

ku

kukr

kxkr

kxkx

kxkJ

kxku

kukukxr

kxkukxr

kxkJ

1 1 1 1

0

)(

)(

)()1(

)1()1(

)()1(

)1()1(

)(

)(

)()(

)()(

)()1(

)1()1(

)()(

)())(),((

)())(),((

)()(

Page 9: Metódy adaptívneho kritika

9

Duálne heuristické programovanieDuálne heuristické programovanie

M

j

N

h

M

j

N

h i

j

j

h

hi

h

hi

j

jii kx

ku

kukx

kxkJ

kxkx

kxkJ

kx

ku

kukr

kxkr

1 1 1 1

0

)(

)(

)()1(

)1()1(

)()1(

)1()1(

)(

)(

)()(

)()(

Page 10: Metódy adaptívneho kritika

10

Realizácia KE použitím DHRealizácia KE použitím DHPP

Popis systému

Rovnice Kalmanovho estimátora

Popis duálneho systému

)()()()(

)()()()1(

kokDukHxky

kvkGukFxkx

1))(()()(

)()()()1(

)1|()(

)]()()[()()1|()|1(

TT

TT

ee

ee

HkHPRHkFPkK

FkHPkKQFkFPkP

kkHxky

kykykKkGukkFxkkx

)()()(

)()()1(

kDwkqGky

kwHkqFkqT

TT

Page 11: Metódy adaptívneho kritika

11

Realizácia KE použitím DHRealizácia KE použitím DHPP

K ó p iaC ri tic

C ri tic

D u á ln y m o d e l s y s té m u

A c tio n

e (k + 1 )

e (k )

(k + 1 )

(k + 1 )

w (k )

(k )

(k )

-

+0

U e w,

S y stém

K a lm a n o ve s tim á to r

e (k )

u (k -1 )

x (k )

x (k )

y (k -1 )

-

K

e

Page 12: Metódy adaptívneho kritika

12

Zhodnotenie výsledkovZhodnotenie výsledkov

Závislosť koeficientov matice K (získaných pomocou DHP) na čase

Page 13: Metódy adaptívneho kritika

13

Ďakujem za pozornosťĎakujem za pozornosť

;o)