14
충북대 인공지능 1 기계 학습 Part V. 강화 학습 충북대학교 소프트웨어학과 이건명

Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 1

기계 학습

Part V. 강화 학습

충북대학교 소프트웨어학과이건명

Page 2: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 2

11.1 강화 학습

강화 학습(reinforcement learning) 어떤 모르는 환경에서 동작하는 에이전트가 있을 때, 에이전트가 현재

상태(state)에서 향후 기대되는 누적 보상값(reward)이 최대가 되도록행동(action)을 선택하는 정책(policy)을 찾는 것

강화학습 문제 표현• 마르코프 결정 과정(MDP) 사용 표현

– 불확실성 반영

. . . . . .

에이전트

환경sk+1

rk+1

보상rk

상태sk

행동ak

강화 학습

Page 3: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 3

강화 학습

강화 학습

Page 4: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 4

강화 학습

image : Richard S. Sutton

11.2 누적 보상치

Page 5: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 5

11.3 값 함수

값 함수

s

a

s’

r

Page 6: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 6

값 함수

값 함수 (value function)

s

ar

s,a

r

image : Richard S. Sutton

값 함수

Page 7: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 7

11.4 최적 정책

s

a

s’

r

11.5 강화 학습 알고리즘

s

a

s’

r

Page 8: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 8

강화 학습 알고리즘

정책 반복 학습 알고리즘

정책평가 정책개선 정책평가 정책개선 . . . 정책개선

image : Richard S. Sutton

Page 9: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 9

값 반복 학습 알고리즘

Q-learning 알고리즘

정책 반복, 값 반복 학습 알고리즘 정확한 MDP 모델이 필요 실제 상황에서는 정확한 MDP 모델을 모르는 경우가 많음

Q-learning 알고리즘 모델이 없이 학습하는 강화학습 알고리즘

Page 10: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 10

Q-learning 알고리즘

강화 학습 알고리즘

강화 학습 알고리즘

몬테카를로 방법(Monte Carlo method)

시간 차이 학습(temporal difference learning, TD-learning)

정책 그레이언트 알고리즘(policy gradient algorithm)

• 연속구간 행동을 갖는 강화학습

Page 11: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 11

13. 기계학습 환경 및 도구

기계학습 환경 및 도구 Public libraries in C, C++, Java, etc. WEKA R package Python MatLab or Octave

Page 12: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 12

Weka 소개

Weka Waikato Environment for Knowledge Analysis 뉴질랜드 Waikato 대학에서 개발된 Data Mining/Machine Learning 소

프트웨어 SAS, E-Miner 등의 소프트웨어보다 쉽고 무료로 제공 전처리, 분류, 군집화, 연관규칙, 속성 선택, 시각화에 대한 도구들을 포

함 ARFF, CSV, XRFF, binary와 같은 다양한 포맷의 파일 지원 URL이나, JDBC를 사용한 SQL 데이터베이스로부터도 데이터 import 가

능 Java에서 import해서 사용 가능

Weka

ARFF(Attribute-Relation File Format) 데이터 형식 붓꽃(iris) 데이터

Page 13: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 13

Weka

결정트리 알고리즘 J48

Weka

Page 14: Part V. 강화학습contents.kocw.net/KOCW/document/2016/chungbuk/leegeonmyeong/12.pdf강화학습알고리즘 강화학습알고리즘 몬테카를로방법(Monte Carlo method) 시간차이학습(temporal

충북대 인공지능 14

Java에서 Weka 사용