23
Partially Observable Markov Decision Processes (POMDP) םםםם םםםםBased on ch. 15 in “Probabilistic Robotics by Thrun et al . ם"ם

Partially Observable Markov Decision Processes (POMDP) תומר באום Based on ch. 15 in “Probabilistic Robotics” by Thrun et al. ב"הב"ה

  • View
    218

  • Download
    1

Embed Size (px)

Citation preview

Partially Observable Markov Decision Processes (POMDP)

תומר באום

Based on ch. 15 in “Probabilistic Robotics”by Thrun et al.

ב"ה

מוטיבציה

אנו מחפשים תהליכים שבוחרים את הפעולות •הנכונות. כאשר המצב נצפה בצורה חלקית ולא

מלאה.

דוגמא )המשך מהתרגול הקודם(:•

רובוט שרודף אחרי מטרה שעלולה להעלם •יכול לבחור בין תנועה לעבר המטרה לבין

תנועה לכיוון פינה של האוביקט המסתיר )כדי שהמטרה לא תעלם(. המטרה נעה ללא ידיעה

שרודפים אחריה.

Value iterationתזכורת:

:Vאנו מנסים למקסם את התועלת הצפויה •:1עבור אופק תכנון •

:Tעבור אופק תכנון • '),|'()'(),(maxarg)( 1 dxxuxpxVuxrx T

uT

),(maxarg)(1 uxrxu

),(max)(1 uxrxVu

'),|'()'(),(max)( 1 dxxuxpxVuxrxV Tu

T

?מה נשתנההרעיון בתרגול הקודם היה שאנו רוצים לעבור למצב בעל •

הערך הגבוה ביותר. אבל במקרה שלנו אנו לא יודעים באיזה מצב הרובוט. אלא אנחנו מעריכים מה המצב :

. beliefפונקציה זו נקראת אמונה •

),|()( :1:1 tttt uzxpbxbel

Value iterationבחזרה ל

:Vאנו מנסים למקסם את התועלת הצפויה •:Tעבור אופק תכנון

בעיה: אוסף ההיפוטזות באינטגרל הוא אינסופי!

'),|'()'(),(maxarg)( 1 dbbubpbVubrb Tu

T

'),|'()'(),(max)( 1 dxbubpbVubrbV Tu

T

:דוגמא

50),(100),(

100),(100),(

2221

1211

uxruxr

uxruxr

התועלת במצבים השונים עם תכסיסים שמסימים את המשחק )שני סיומים אפשריים(:

1),(),( 3231 uxruxr

תכסיס שלישי יאמר שאנו לא מסיימים את המשחק:

הוא בהסתברות גבוהה מחליף את המצב•

ובשאר המצבים:

התכסיס

2.0),|'(8.0),|'(

8.0),|'(2.0),|'(

322321

312311

uxxpuxxp

uxxpuxxp

3u

3u2.0),|'(),)(|)1(( 311311 uxxpuSxtXxtXp

:תצפיות ומדיניות

המדיניות מתאימה לכל ו •

תכסיס.

7.0)|(3.0)|(

3.0)|(7.0)|(

2221

1211

xzpxzp

xzpxzp

u]1;0[:

11)( pxb 122 1)( ppxb

מה התועלת הצפויה מתכסיס מסוים?

),( 21 ppb

),(),()],([),( 2211 uxrpuxrpuxrEubr x

)1(100100100100),( 11211 ppppubr

האמונה היא:

התועלת הצפויה מתכסיס מסוים היא:

)1(50100),( 112 ppubr

איזה תכסיס נבחר?),(max)(1 ubrbV

u ),(maxarg)(1 ubrb

u

:אסטרטגיות שולטות

כעת נעבור למערכת שמבצעת תצפיות:

)(

7.0

)(

)()|()|('

1

1

1

111111 zp

p

zp

xpxzpzxpp

)(

)1(3.0'

1

12 zp

pp

)1(3.07.0)|()|()( 112211111 pppxzPpxzPzp

),('),('),'( 2211 uxrpuxrpubr

שלנו יהיה:beliefנניח שזוהתה התצפית . אז ה

כאשר:

ותועלת חדשה:

1z

וערך:•

),'(max)|(1 ubrzbVu

i

אם עלינו לתת ערך לפני התצפית ניתן:•

במקרה שלנו:•

))|(()(

)|()(

)|()()]|([)(

111

2

1

111

2

1

1

2

111

pxzpVzp

pxzpVzp

zbVzpZbVEbV

iii

i

ii

ii

iZ

)1(3530

)1(7030max

)1(1570

)1(3070max)(

11

11

11

111

pp

pp

pp

ppbV

:שלב החיזוי

כעת עלינו לחזות מה יהיו התוצאות של פעולה •:beliefאפשרית, נעדכן את ה

אם היינו יודעים שאנו במצב אז לפי הנתון:•

ובאופן כללי:•

2.0),|'(' 3111 uxxpp

1x

2

131311 ),|'()],|'(['

iii puxxpuXxpEp

חיזוי הערך

הערך הצפוי מפעולה מתקבל מהצבת • החדש בנוסחא: beliefה

במקרה שלנו: •

3u

)')|(()'( 111

2

1

1 pxzpVbV ii

)1(7020

)1(4352

)1(6060

max)|(

11

11

11

31

pp

pp

pp

ubV

2אופק תכנון :

אפשר לעשות אחת משתי פעולות הסיום •)שמפיקות תשלום( או את פעולת המעבר בין

-:1מצבים שלה יש הפסד בטוח

)1(6921

)1(4251

)1(6159

)1(50100

)1(100100

max)(

11

11

11

11

11

2

pp

pp

pp

pp

pp

bV

3u

:האסטרטגיות

מה יקרה אם גם המטרה מנסה להתחמק?

כדאי לעבור לתורת •המשחקים!

:קצת תורת המשחקים

משחק בצורה אסטרטגית:דוגמא "דילמת האסיר":•

צמד אסטרטגיות )אחת לכל שחקן( שבהינתן שיווי משקל נאש: •שאחד השחקנים לא משנה אסטרטגיה גם לשני לא כדאי לשנות

את האסטרטגיה שבחר.אסטרטגיות מעורבות: השחקנים יכולים לבחור הסתברויות לכל •

מהלך.

לא מודה2שחקן מודה2שחקן

מודה1שחקן

לא מודה1שחקן

)2,2(

)1,1(

)5,0(

)0,5(

תועלת לשחקן תועלת לשחקן 2

1

:קצת תורת המשחקים

משחק בצורה רחבה: דוגמא פשוטה וסופית:•

שני שחקנים, לכל שחקן בתורו יש אפשרות לאחד משני תכסיסים אז אפשר לייצג את

המשחק ע"י עץ בינארי. כאשר כל זוגיות עומק בעץ תקבע תור מי לקחת החלטה.

משחק חוזר הוא משחק שחוזר על עצמו •פעמים רבות ומאפשר למידה והתאמה

לתוצאות.

אפשר להסתכל על משחק כעל תהליך בזמן •שתלוי במצבים בהם השחקנים נמצאים. אם

נניח שהפרשי הזמן קטנים אפשר להגדיר נגזרות של המשחק.

במקרה שלנו הגיוני להגדיר משחק גזיר •בצורה רחבה ולנתח אותו הסתכלו ב:

• http://www.cs.ubc.ca/~emtiyaz/Writings/EMTgame.pdf

reference

• Wikipedia• http://www.cs.brown.edu/research/ai/

pomdp/tutorial/