33
ללללללל לללללל לללל לללללל ללללל ללללללללל לללללל לללללל ללללל לללל לללל ללללל לללל לללללל: ללל לללל לללל ללללללללללל לללל: לללל ללל

הפקולטה להנדסת חשמל המעבדה לבקרה ורובוטיקה

  • Upload
    dustin

  • View
    68

  • Download
    2

Embed Size (px)

DESCRIPTION

הפקולטה להנדסת חשמל המעבדה לבקרה ורובוטיקה. מגישים: משה שגיברועי דימינטשטיין מנחה: כפיר לוי. מערכות לומדות מימוש סוכן לומד המשחק פקמן. מבנה המצגת. הצגת הנושא מימוש האלגוריתמים סוכן אמיץ/פחדן התוכנה הדגמה תוצאות ומסקנות שלבים בפיתוח. הצגת הנושא. למידה ע"י חיזוקים - PowerPoint PPT Presentation

Citation preview

Page 1: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

חשמל להנדסת הפקולטהורובוטיקה לבקרה המעבדה

לומדות מערכות

המשחק לומד סוכן מימושפקמןמגישים:

שגיב דימינטשטיין משה רועי 

מנחה:לוי כפיר

Page 2: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

המצגת מבנה

הנושא • הצגתהאלגוריתמים • מימוש•/ פחדן אמיץ סוכןהתוכנה•הדגמה •ומסקנות • תוצאותבפיתוח • שלבים

Page 3: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

הנושא הצגת

• " חיזוקים י ע למידהבנושא • קודמות עבודותמוטיבציה•

Page 4: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

" חיזוקים י ע למידה

•? " חיזוקים י ע למידה מהיהמודל • הצגת

– , , פונקצית אפשריות פעולות אפשריים מצבים. רווח, ופונקצית מדיניות פונקצית מעבר

Page 5: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

בנושא קודמות עבודותSarsaאלגוריתם •

תוחלות – חישוב על מתבססבלמן - – משוואת את 1957משערך

:actor-criticגישת •

'

( , ) ( , ) ( ' | , ) ( , )s

Q s a r s a P s s a V s a

Page 6: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

בנושא קודמות עבודות

CVaR – 2010אלגוריתם •תוחלת – במקום הסתברות צפיפות פונקצית משערךבלמן – משוואת את שכתבו הראשונים הם של לפילוגהיפנים

, התגמול פונקצית ושל הרווח .Qפונקצית

–: במאמר העבודה מקור Nonparametric return distribution approximation for

reinforcement learning by Tetsuro Morimura, Masashi Sugiyama, Hisashi Kashima, Hirotaka Hachiya, Toshiyuki

Tanaka

1 1

1 1 1 1 1 1( | , ) ( | , ) ( | ) | , ( | , , )t t

E T t t t E t t R ts S a A r R

rP s a p s s a a s P s a dP r s a s

Page 7: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

מוטיבציה

בין • - Sarsaהשוואה CvaRל

•/ פחדן אמיץ סוכן יצירת

Page 8: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

האלגוריתמים - Sarsaמימוש

•: על במבט האלגוריתםאקראית – ממדיניות מתחיליםפונקצית – לפי הנוכחי למצב פעולה בוחרים

המדיניות– , שהתקבל ) הבא המצב התצפית בערכי צופים

.)' וכד הרווחהתגמול , – פונקצית ופעולה, Qעדכון המצב עבור

: הנוסחא לפי1 1 1( , ) (1 ) ( , ) [ ( , )]t t t t t t t t t t t tQ s a Q s a r Q s a

Page 9: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

האלגוריתמים - Sarsaמימוש

•Bellman error – " את " לעדכן ויש מספיק למד הסוכן למתי מדד

המדיניות.

1 2 1 1

( | ) ( | ) ( )

( ) ( | ) ( , )

( ) ( , ) ( , )

1 1[ ... ]

1 1

a

t t t t t t

T T t t t

Q s a r s a V s

V s a s Q s a

V s r s a Q s a

tM M M

T t t

Page 10: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

האלגוריתמים - Sarsaמימוש

המניבה: – דרך מוצא הפקמן בו מצב נניח בעיה , הדרך איננה היא אך מאוד חיוביים רווחים

נקרא. זה מצב exploitationהאופטימאלית

ובכך: – הפעולה לבחירת אקראיות נוסיף פתרון. explorationנאפשר

greedy

Page 11: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

האלגוריתם - CVaRמימוש

ההסתברות • צפיפות פונקצית שערוך–Particles

צפיפות – בין התלות את המראה המאמר לפי פיתוחהמצבים של לזו הנוכחי המצב של ההסתברות

האחרים.– - ב לשערוך particlesשימוש

Page 12: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

האלגוריתם - CVaRמימוש

על • במבט האלגוריתםפעולה – מצב כל עבור מפולגים K particlesמאתחלים

בגובה (. K/1יוניפורמית עדיין ) מידע בידינו איןפונקצית – לפי פעולה בוחרים הנוכחי המצב עבור

המדיניות.–.) הבא ) והמצב הרווח התצפית בערכי צופיםמספר – :particlesמזיזים הנוסחא לפי מראש קבוע

שני p , qכאשר -particlesמייצגים ו מיצג vאקראיים. מיקומם את

, 1, , ,t t p t ts a t s a qv r v

Page 13: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

האלגוריתם - CVaRמימוש

לשגיאת • דואלי bellmanמדדהמצב – של הסתברות צפיפות פונקציות על מיצוע יצירת

נסמן הבא והמצב .f , gהנוכחי– : מצטברת הסתברות פונקציות .F, Gיצירת–: ש מכך

להיות ) צריך הנוכחי המצב של המצטבר המהוון הרווח

.) " הבא" המצב של לזה קרובהבא – שהביטוי נקבל

קטן להיות צריך

( | ) ( | ) ( )

( ) ( | ) ( , )a

Q s a r s a V s

V s a s Q s a

1( ) ( )

b

a

x rF x G dx

b a

Page 14: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

/ פחדן אמיץ סוכן

• / מפונקצית פחדנית אמיצה התנהגות גזירתההסתברות

מצטברת – הסתברות פונקצית יצירת– / ההסברות פונקצית של תחתון עליון חלק שערוך

Page 15: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

/ פחדן אמיץ סוכן

להצליח: " • רוצה אני אז מצליח אני אם אמיץ" שאפשר הרבה הכי

•" פחות: " אפול אז נפלתי כבר אם פחדן

 

Page 16: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

התוכנה

בשפת • מונחה – Javaפותחה תכנות מבוססתעצמים.

מאובייקט • היורש כאובייקט מומש אלגוריתם כל ( " מוח " הנקרא (Brainאבסטרקטי בתוכנה

" reuseמאפשרת • " אחרים מוחות ל והרחבהלמשחק • האלגוריתמים מימוש בין מלאה הפרדה

עצמו.• – " קונבנציות י עפ javadocתיעוד•UML

Page 17: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

התוכנה

Page 18: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

UML – Class Diagram

Page 19: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

הדגמה

Page 20: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

ומסקנות תוצאות

איסוף • על מתבססים ההשוואה קריטריוני( אונליין נתונים הרווח) של ריצה כדי תוך

. שונות דגימה בנקודות המהווןנותחו • אלו .matlabבעזרת אופליין נתונים• , מהווים האופייניים לגרפים פרט הגרפים כל

של , 10אינטרפולציה המשחק של הרצות. שעה כחצי של למידה היא הרצה כל כאשר

) !!! קשה ) עבד הפקמן

Page 21: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

אופייניים גרפים

Page 22: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

אופייניים גרפים

Page 23: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

אופייניים גרפים

Page 24: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

אומץ מדד

Page 25: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

פחדנות מדד

Page 26: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

פחדנות מדד

Page 27: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

ממוצע מדד

Page 28: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

לבגרות מינקות הפקמן

של • ראשונית – Sarsaהרצה– , מפלצת ללא גדול מסךבקירות – נתקע הפקמן

מצב על עונש .standהוספתמספר • כעבור לפני ) עדכון צעדים של קבוע

bellman error )מהירים – , עדכונים נמנע קצר מסלול לומד

. " מהר" יותר שיגעון מ–.".. , לומד: " הוא לומד הוא רועי

Page 29: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

• " אליה " קרוב שהוא ברגע המטרה על התבייתות ישעדיין ) המסך אקראי נראה המצב המקומות בשאר

גדול(–" למידה: " פה יש משה

• , כל בין הזמן הגדלת אקראיות הוספת) קבוע ) עדיין עדכון

יותר – נחלץ הוא אקראיות הרבה יש כאשר." " שטויות מ מהר

מסקנה: •מהירים – מהירה עדכונים יותר התחלתית למידהארוכים – יותר טובה עדכונים יותר התכנסות

Page 30: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

הוא " • כאשר סטירות לו לתת אקראיות צריך תמידנתקע".

להקטין: • הזמן ועם רבה אקראיות עם להתחיל רעיוןאותה.

בלמן • שגיאת הוספתמסך • הקטנתמצב • fast forwardהוספת

התכנסות + • למידה ישמפלצת • הוספנו

!!!!!!!!!!"רועי: • עובד" זה

Page 31: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

... בעתיד הפקמן

נוספים • מוחות בחינתסוכנים • שני בין תחרות•" מוח " עם מפלצתמשחק • לוחות על במוחות שימוש

שונים משחקים או

Page 32: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

שאלות???

Page 33: הפקולטה להנדסת חשמל  המעבדה לבקרה ורובוטיקה

!!! ההקשבה על תודה