17
: 강화 학습을 이용한 똑똑한 쥐 만들기 유재준 김윤태 남윤우 박주원 김빛남 강력ㅋ한 쥐

reinforcement learning

Embed Size (px)

Citation preview

:�강화�학습을�이용한�똑똑한�쥐�만들기�

유재준�김윤태�남윤우�박주원�김빛남

더�강력ㅋ한�쥐

목표blank

-100,�die,�cliff

+100�coin

-100�coin

0,�end,�cheese

-1/move

계획�및�진행상황

• 오후�8:30�­�9:30�� Intro.�to�reinforcement�learning�by�TA�• 오후�9:30�­�10:00��역할�분담�및�계획��� � � � ①�강화학습�알고리즘�구현��� � � � ②�GUI�구현�

• 오후�10:00�­�12:00��� � � � ①�강화학습�toy�example�손으로�직접�풀기�� � � � ②�GUI�구성�및�프로그래밍���

• 오전�12:00�­�5:00��� � � � ①�강화학습�code�작성�(pseudo�code�완료)�� � � � ②�GUI와의�interactive�code�구현��

• 오전�5:00�~�� � 학습�알고리즘�+�GUI�모듈�

• ~�오후�3:00�� 두�프로그램�모듈�합�TO�THE�체!!퓨전!

강화학습이란

화면을�보고�퐁을�배우자!�(Pong�from�pixels)

강화학습이란

즉,�지도학습과�달리�LABEL이�정확히�정해진�것이�아닌��정책에�대한�평가�방법(REWARD)이�주어진�경우의�학습이다.�

데이터 최적의�의사결정쥐�(30세,�데이터�사이언티스트)

강화학습이란(예제)

강화학습이란(예제)

다이내믹�프로그래밍!!

찍!!

강화학습이란(예제)

다른�방법은?

강화학습이란(예제)

다른�방법은?�몬테카를로�시뮬레이션

강화학습이란(예제)

다른�방법은?�몬테카를로�시뮬레이션

노가

다!!

강화학습이란(예제)

Temporal-Difference�Learning�

:�DP�+�MC의�장점만�(Online�learning�+�No�model)

 

결과�(짠!)

결과�(짜잔!)

DEMONSTRATION!!!

찍!!

결과�(짜잔!)

동영상�주소:�https://youtu.be/xS6aopn-DIU

다양한�시도들…

• 새벽�3시�그�때까지�짠�GUI가�근본적으로�안�되는�것을�발견함�• 새벽�5시�강화학습�코드가�버그가�많다는�것을�발견함..orz..�• 아침�9시�둘�다�안되는�이유를�발견함…lol�• 디버깅�디버깅�…

왜 안 끝나니…ㅜ

Q&A

• TA�김빛남:�Intro,�Visualization,�합체�• 김윤태,�박주원:�Visualization,�User�Interactive�플랫폼�만들기�• 유재준,�남윤우:�Reinforcement�Learning�coding�• 유재준:�ppt�• 남윤우:�거북이�visualization�• ALL:�GUI�+�Learning�Code