Upload
yunwoo-nam
View
104
Download
0
Embed Size (px)
Citation preview
계획�및�진행상황
• 오후�8:30��9:30�� Intro.�to�reinforcement�learning�by�TA�• 오후�9:30��10:00��역할�분담�및�계획��� � � � ①�강화학습�알고리즘�구현��� � � � ②�GUI�구현�
• 오후�10:00��12:00��� � � � ①�강화학습�toy�example�손으로�직접�풀기�� � � � ②�GUI�구성�및�프로그래밍���
• 오전�12:00��5:00��� � � � ①�강화학습�code�작성�(pseudo�code�완료)�� � � � ②�GUI와의�interactive�code�구현��
• 오전�5:00�~�� � 학습�알고리즘�+�GUI�모듈�
• ~�오후�3:00�� 두�프로그램�모듈�합�TO�THE�체!!퓨전!
강화학습이란
즉,�지도학습과�달리�LABEL이�정확히�정해진�것이�아닌��정책에�대한�평가�방법(REWARD)이�주어진�경우의�학습이다.�
데이터 최적의�의사결정쥐�(30세,�데이터�사이언티스트)
다양한�시도들…
• 새벽�3시�그�때까지�짠�GUI가�근본적으로�안�되는�것을�발견함�• 새벽�5시�강화학습�코드가�버그가�많다는�것을�발견함..orz..�• 아침�9시�둘�다�안되는�이유를�발견함…lol�• 디버깅�디버깅�…
왜 안 끝나니…ㅜ