26
קקקקק קקקקקקקק – קקק קקקק קקקקקק קקקקקקקק: קקקקק קקק קקקק4

התניה אופרנטית – חלק א

  • Upload
    zihna

  • View
    69

  • Download
    8

Embed Size (px)

DESCRIPTION

התניה אופרנטית – חלק א'. מבוא ללמידה והתנהגות: התניה ומח שעור 4. נושאים. חובות מפעם קודמת: כמה מלים על חוק בייס ו- Kalman filter התניה קלאסית ובני אדם: טיפול בפוביות Thorndike וה- Law of Effect סוגי פרוצדורות בצעדים בדידים Skinner ולוחות חיזוק - PowerPoint PPT Presentation

Citation preview

Page 1: התניה אופרנטית – חלק א

'התניה אופרנטית – חלק א

מבוא ללמידה והתנהגות: התניה ומח

4שעור

Page 2: התניה אופרנטית – חלק א

נושאיםחובות מפעם קודמת: •

Kalman filterכמה מלים על חוק בייס ו-–התניה קלאסית ובני אדם: טיפול בפוביות–

•Thorndike -וה Law of Effectסוגי פרוצדורות בצעדים בדידים••Skinnerולוחות חיזוק , מימוש ברשת נוירוניםTD – קשר ל-Actor Criticמודל • – fMRIמימוש במח – תאוריה, ומעשה )•

O’Doherty+Dayan, Wightman+Phillips - FSCV)

Page 3: התניה אופרנטית – חלק א

אי ודאות והתניה קלאסית( uncertainty )בטחוןלכל ערך של גירוי מוצמד גם מידת •

בערך. הבטחון יורד ככל שעובר זמן מאז שהגירוי הוצג לאחרונה.

מבחינת שילוב אופטימלי של מידע חדש עם ישן, ככל • את קצב הלמידה להגביר יותר, נרצה נמוךשהבטחון

איך זה קשור לחוק בייס ולהסקה סטטיסטית אופטימלית?•

Page 4: התניה אופרנטית – חלק א

– הסקה סטטיסטיתBayesחוק המטרה: לייצג אמונות על העולם•: אם מייצגים אמונות ע"י מספרים Coxאקסיומות •

ממשיים, הדרך היחידה לתפעל אותם, שהיא סבירה .Bayesוקונסיסטנטית, היא ע"י חוק

דרך אופטימלית )מבחינה סטטיסטית( לשלב בין הנחות •קודמות למידע חדש

המון מחקר כיום מראה כי אנשים ובע"ח משתמשים •בהסקה בייסאנית )מע' מוטורית, ויזואלית וכו'(. עוד בסוף

הקורס.

(Vs)P(Vs|nsobservatio)P(nsobservatio|Vs)P

(b)P

(a)P(a|b)P(b|a)P

Page 5: התניה אופרנטית – חלק א

Kalman filterהסקה סטטיסטית ותחרות – במודל סטטיסטי מסויים של העולם )הילוך מקרי עם רעש •

גאוסיאני של הערכים, רעש גאוסיאני בתצפיות(, ההסקה הסטטיסטית האופטימלית )מהנצפה אל הערכים

:Kalman filter( היא עפ"י Bayesהאמיתיים, לפי חוק

כמודל של למידה קלאסית מגלם: קצב למידה תלוי •בבטחון היחסי; תחרות בין גירויים )לא כתוצאה ממחסור

במשאבים!(

kk

2k

i2i

i

ii

EX

X(t)

(t)(t)(t)V

Page 6: התניה אופרנטית – חלק א

שימושי התניה קלאסית בבני אדם: טיפול בפוביות

, דרך התניה קלאסיתנלמדותרוב התגובות האמוציונליות שלנו ••Watson+Rayner )1920( בדקו תגובות של תינוקות לגירויים –

)אש, חולדות, כלבים( – אף אחד מפחידים מלידהשחשבו שהם מהם לא היה מפחיד. צליל חזק: כן.

ניסוי אלברט הקטן המפורסם )לא הגיע לסיומו(• 7-20%פוביות: פחד בלתי פרופורציונלי לסכנה שבמצב. ל- •

- פוביה חמורה הפוגעת 1%מהאוכלוסיה יש סימפטומים, ב- בתפקוד.

בכדי נגד בהתניית השתמשה Watson: Mary Jonesתלמידה של •לבטל התניית פחד.

-ים עם תגובות נוגדות. התהליך הדרגתיCSהתניית נגד: שילוב • במצב של רגיעה Systematic desensitizationכיום מקובל: •

עמוקה מעלים באופן הדרגתי גירויים יותר ויותר מפחידים

Page 7: התניה אופרנטית – חלק א

שימושים נוספים בהתניה קלאסית בבני אדם

ע"י כמותרפיהמניעת אברסיה למזון בחולים המקבלים •סוכריה מסויימת לפני הטיפול )תהיה אברסיה רק אליה(

המעורר תגובה רגשית US: צימוד של המוצר ל-פרסום•חיובית גורם ליחס חיובי יותר למוצר

•Conditioned immunosuppression לטיפול בשלבקת :(, למשל. התרופות גורמות לעיכוב Lupusחוגרת )

)שמן עם טעם מסויים( CSמערכת החיסון. צימוד של בהמשך ניתן לתת את השמן במקום עם התרופה

התרופה ותתקבל אותה תגובה חיסונית! – אלרגיה נלמדת למראה באלרגיות)אותו דבר אולי •

פרחים, ולא לאבקנים(

Page 8: התניה אופרנטית – חלק א

סיכום: התניה קלאסית

צימוד בין גירויים גורר )בתנאים מסויימים( למידהללא תלות בהתנהגות החיה – אך מתבטא בהתנהגות

)סרט(

נעבור עכשיו להתניה אופרנטית

שאלות חשובותתזכורת: באילו תנאים ישנה למידה )מה תפקיד החיזוק?(•מה נכנס לאסוסיאציה הנוצרת?•האם יש יותר מסוג אחד של למידה?•

Page 9: התניה אופרנטית – חלק א

Edward Thorndike )1874-1949(רקע: דרווין, נסיונות להראות שבע"ח אינטליגנטים• 23הראשון שעשה זאת באופן סיסטמטי )לא אנקדוטות(. בגיל •

Animal intelligence: An experimentalהגיש תזת דוקטורט:study of the associative processes in animals

)גם כלבים, אפרוחים(Puzzle boxesחתולים רעבים ב-•הגדרה אופרציונלית ללמידה: זמן עד •

החלצותעקומת למידה: הדרגתית. לא נראה•

אלא ניסוי וטעיה )הצלחה(.insightכמו

Page 10: התניה אופרנטית – חלק א
Page 11: התניה אופרנטית – חלק א

Law of Effect קשר בין הגירויים לפעולות (stamps in)החיזוק "מקבע" •

(satisfiers vs. annoyersמסוימות, ולא אחרות. )

אין צורך להניח אינטליגנציה•נוספת )אין חיקוי(, או למידה מתוך תובנה/הבנת סיבתיות

)ברגע שיש אוטומטיתהליך •לחיה מטרה(

גם: ניסויי הכללה, אבחנה•אנקדוטה )אבחנה(:•

“I must feed those cats”“I will not feed them”

Page 12: התניה אופרנטית – חלק א

Thorndikeתפקיד החיזוק עפ"י S-R, אך לא חלק מהאסוסיאציה stamping inרק • הופך בסוף להרגל ולא תלוי יותר תפקיד רק בלמידה •

בחיזוק )לא חקר/הסביר הכחדה כלל(כנ"ל תפקיד המוטיבציה – חיונית ללמידה, לא לביצוע•

)סרט(

Page 13: התניה אופרנטית – חלק א

התניה אופרנטית/אינסטרומנטליתמקור השם )פעולה רצונית על הסביבה; משיגה מטרה(•, key/מקש/לחיצה על דוושהתגובות נחקרות: ריצה במבוך, •

משיכת חבל, וכו'סוגי פרוצדורות:•

בשונה מהתניה להגביר או להוריד תגובה!USניתן עם כל •קלאסית – לטבע החיזוק אין השפעה אוטומטית על

התגובה

אפטטיבי חיוביחיזוק

Rewardהשמטה Omission

אברסיבי שליליחיזוק

Escape/ avoidance

עונש

Page 14: התניה אופרנטית – חלק א

מספר גורמים המשפיעים על הביצוע( – משפיע גם על למידה וגם על ביצוע driveמוטיבציה )•

)נפרט יותר בהמשך הקורס(גודל החיזוק )גם: אפקט קונטרסט וכו'(•עיכוב החיזוק. הסברים אפשריים:•

delayתגובות מתערבות בזמן ה-–ערך החיזוק מוקטן )חיות מעדיפות חיזוק מיידי על מעוכב(–

( – נפוץ מאוד בחיים. CRF לעומת PRFחיזוק חלקי )•סדר רנדומלי: ריצה מהירה אחרי צעד מחוזק, איטית

אחרי לא מחוזק. בסדר קבוע )דוג' – לסירוגין( בהדרגה לומדים את החוקיות.

( החיזוק גם יכול לספק מידע. איך נראה שהחיהמשתמשת בזכרון הצעד הקודם לקביעת תגובתה?(

Page 15: התניה אופרנטית – חלק א

Free operant training: B.F. Skinner

1904-1990בהביוריסט, ••(Watson)אבי הבהביוריזם – שלל מנטליזם – •(1938 )The behavior of organismsטען שפסיכולוגיה צריכה להתבסס רק על מה•

.black boxשניתן למדוד. מדע תאורי ולא תאורטי, האמין שמלבד מעט רפלקסים כל ההתנהגות היא •

נלמדת ע"י חיזוקים. הבנת התנהגות = עיצוב התנהגותדיבר על •

של התנהגות – functional analysisניבוי ושליטה בה )הסברים מנטליסטים חסרי ערך ניבויי ושליטתי(.

, וכן – למה להניח שנוצרים S – לא ברור מה ה-S-Rנגד •קשרים תאורטים היפותטים?

Page 16: התניה אופרנטית – חלק א

Schedules of reinforcement בקופסת סקינרFree operantאימון •לוחות חיזוק: •

–Fixed ratio )FR(–Fixed interval )FI(–Variable ratio )VR(–Variable interval )VI(RR/RIתוספת מאוחרת: –...DRL, DRHלוחות מורכבים: –

– עוד )SD )occasion setterכמו כן – גירוי מבחין •, גירוי שאינו מעורר תגובה בעצמו אלא S-Rהתנגדות ל-

מעיד על כדאיות של תגובה

Page 17: התניה אופרנטית – חלק א
Page 18: התניה אופרנטית – חלק א

מבחינה מעשית – אימון•Pretraining•Shaping•(superstitious behaviors)יש תגובות שקל יותר ללמד כי הסמיכות הקלאסית •

מסייעת להם )ניקור ביונים( ויש להיפך.CRFמתחילים תמיד עם ••Ratio-מייצר תגובות מהירות יותר מ interval )yoked(•Interval-קל יותר ללמד מ ratio)בייחוד גבוהים( מסובך לנתח את ההתנהגות בלוחות אלו: הרבה •

התיאשו. נחזור לכך בעוד שני שעורים.

Page 19: התניה אופרנטית – חלק א

Actor להתניה אופרנטית: TDהרחבת Critic

•S3 ,אם בוחרים חצי מהפעמים שמאל - V)S3( = 1 :אבל , )קבל יותר מהצפוי(חיוביתבכל בחירה של שמאל תהיה טעות ניבוי – )קבל פחות מהצפוי(שליליתבכל בחירה של ימין תהיה טעות ניבוי –

אם החיה תבחר יותר פעמים את הפעולה שיצרה טעות ניבויחיובית, ההתנהגות תהיה יותר אופטימלית

-אותו דבר בדיוק בS2-ו S1 לטווח ארוך – תכנון אופטימלי!

4 02

S1

S31 S2

Page 20: התניה אופרנטית – חלק א

4 02

S1

S31 S2

TD: לא רק למידת ניבוי אלא גם שליטה

Policy

V(t) - Value Function

Environment

Critic

Actor

acti

on

stat

e s1

s2

s3

V

wsv

r(t) - reward

TD errorδ)t(

Positive prediction error: Things are better than expected

→update value of state →update policy )prob. of action(

Negative prediction error: Things are worse than expected

→update value of state →update policy

s1

s2

s3

a1

a2

a3

wsa

Page 21: התניה אופרנטית – חלק א

Actor-Critic:במח דופמיןטעות ניבוי: ••Actor: dorsolateral striatum•Critic: ventral striatum )NAC()שני מסלולים דופמינרגים(•

Page 22: התניה אופרנטית – חלק א

O’Doherty et al. 2004הרבה עדויות: דוגמא -

rewarding; neutralשני סוגי צעדים: •(High – 60%, Low – 30%בכל צעד: שני גירויים )• – בוחרת גירויים )התניה אינסטרומנטלית( – 1קבוצה •

, אך לא בצעדי reward בצעדי Highאכן רואים העדפה ל-neutral

)התניה קלאסית(, מצביעים רק על Yoked – 2קבוצה •(RTהצד שהמחשב בחר )מדד ללמידה –

)מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?(

Page 23: התניה אופרנטית – חלק א

O’Doherty et al. 2004הרבה עדויות: דוגמא -

•(NAC )Ventral striatum קורלציה עם – PE:בשתי המטלות

•Dorsal striatum קורלציה עם – PE רק במטלה האינסטרומנטלית:

Page 24: התניה אופרנטית – חלק א

Roitman et al. 2004הרבה עדויות: דוגמא -

Fast scan cyclic voltammetry in striatumCue elicited lever-pressing for sucrose at peak of DA burst

Cues elicit DA burst in trained but not untrained rats

Page 25: התניה אופרנטית – חלק א

Corticostriatal synapses: 3 factor learning

X1 X2 X3 XN

V1 V2 V3 VN

P

StimulusRepresentation

AdjustableConnections)“weights”(

RPPTN?

Cortex

Striatum

VTA/SNcPredictionError )Dopamine(

Page 26: התניה אופרנטית – חלק א

קריאה נוספת:דוגמאות לחיזוקים שליליים וללוחות חיזוק – באתר•קיצור תולדות הבהביוריזם- •

http://www.biozentrum.uni-wuerzburg.de/genetics/behavior/learning/behaviorism.html

//:httpמאמר קצר של סקינר על אמונות תפלות ביונים •psychclassics.yorku.ca/Skinner/Pigeon

//:httpביוגרפיה קצרה של סקינר )נכתבה ע"י בתו( - •www.bfskinner.org/bio.asp

//:httpסקינר על התנהגות אופרנטית - •www.bfskinner.org/Operant.asp

//:httpועוד סיכום טוב על האיש ופועלו - •www.ship.edu/~cgboeree/skinner.html