169
아두면 데있는 기한 화학습 김태훈 carpedm20

알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Embed Size (px)

Citation preview

Page 1: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

알아두면 쓸데있는

신기한 강화학습김태훈

carpedm20

Page 2: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

저는

졸업

머신러닝 엔지니어

+

20+

Page 3: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

강화 학습Reinforcement�Learning�(RL)

Page 4: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017
Page 5: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Environment

Agent

Page 6: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Environment

Agent

State�𝑠"

Page 7: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Environment

Agent

State�𝑠" Action�𝑎" = 2

Page 8: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Environment

Agent

Action�𝑎" = 2State�𝑠" Reward�𝑟" = 1

Page 9: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Environment

Agent

Action�𝑎" = 2State�𝑠" Reward�𝑟" = 1

Page 10: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Environment

Agent

Action�𝑎" = 0State�𝑠" Reward�𝑟" = −1

Page 11: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Environment

Agent

Action�𝑎" = 0State�𝑠" Reward�𝑟" = −1

Page 12: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

행동을 하고 시행착오를 겪으며 학습

강화 학습

Page 13: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

최근 강화 학습 연구들

Page 14: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

https://deepmind.com/blog/agents-imagine-and-plan/https://blog.openai.com/learning-to-cooperate-compete-and-communicate/

Page 15: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

2017.08.09

Page 16: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017
Page 17: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

2017.08.11

Page 18: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017
Page 19: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

https://sites.google.com/view/nips17assembly/homehttps://www.slideshare.net/carpedm20/ai-67616630

Page 20: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

2014

Mnih,�Volodymyr,�et�al.�"Human-level�control�through�deep�reinforcement�learning." Nature 518.7540�(2015):�529-533.Silver,�David,�et�al.�"Mastering�the�game�of�Go�with�deep�neural�networks�and�tree�search." Nature 529.7587�(2016):�484-489.

Vinyals,�Oriol,�et�al.�"StarCraft�II:�A�New�Challenge�for�Reinforcement�Learning."

2016

2017

Page 21: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

2014

2016

이전의 강화학습은 잘 알려진 반면..

Page 22: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

2014

2016

이후의 강화학습?

Page 23: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

그래서

Page 24: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

최근 강화 학습17.08.16

Page 25: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

다섯 가지 트렌드

Page 26: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

1.Multi�Agent

2.Planning

3.Meta�Learning

4.Guided�RL

5.ETC�Exploration, Continuous�action,�Imitation�learning�…

Page 27: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

1.여러 로봇 학습하기

2.전략 세우기

3.배경 지식 활용하기

4.명령에 따라 다르게 행동하기

5.그 외 다양한 시도, 연속적인 행동,�따라하기,�…

Page 28: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

WARNING강화 학습이 처음이신 분께 다소 어려울 수 있기 때문에

전체적인 흐름 파악에만 집중해 주세요

Page 29: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

하나씩 얕고 좁게..

Page 30: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

1.�여러 로봇 학습하기Multi�Agent�RL

Page 31: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Single�Agent

https://deepmind.com/research/alphago/alphago-vs-alphago-self-play-games/

Page 32: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

협업 or�경쟁이 필요한 Multi�Agent

자율 주행 자동차, 대화 AI,�대규모 공장 로봇 …

Page 33: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Starcraft

Peng,�Peng,�et�al.�"Multiagent Bidirectionally-Coordinated�Nets�for�Learning�to�Play�StarCraft�Combat�Games." arXiv preprint�arXiv:1703.10069 (2017).

Page 34: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Multi-Agent�RL다중 에이전트 강화 학습

Page 35: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Single�Agent�학습 방식을

그대로 쓰기 어렵다

Deep�Q­learning,�Policy�Gradient�…

Page 36: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

다양한 어려움이 있지만..Multi-Agent�RL

Page 37: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Non�stationary�environment다른 Agent�때문에 생기는 불확실성 때문에 학습이 어렵고 기존의 경험을 바로 활용하기 어렵다

Page 38: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

B

A

Page 39: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

B에 가까이 갈 때 +1 reward

B

A

Page 40: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

+1

+1-1

-1

B에 가까이 갈 때 +1 reward

B

A

Page 41: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

+1+1-1+1+1+1Q(���)�=�+2

Q(𝑎")�:�각 행동 𝑎"가 가져울 미래 가치

B

A

Page 42: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

+1+1-1+1+1+1Q(���)�=�+2

+1+1-1+1+1+1Q(���)�=�+4

Q(𝑎")�:�각 행동 𝑎"가 가져울 미래 가치

B

A

Page 43: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

+1+1-1+1+1+1Q(���)�=�+2

+1+1-1+1+1+1Q(���)�=�+4

-1-1-1+1-1+1Q(���)�=�-2

-1+1-1-1-1-1Q(���)�=�-4

Q(𝑎")�:�각 행동 𝑎"가 가져울 미래 가치

B

A

Page 44: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

+1+1-1+1+1+1Q(���)�=�+2

+1+1-1+1+1+1Q(���)�=�+4

-1-1-1+1-1+1Q(���)�=�-2

-1+1-1-1-1-1Q(���)�=�-4

Q(𝑎")�:�각 행동 𝑎"가 가져울 미래 가치

B

A

Page 45: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

B가 갑자기 움직이기 시작한다면?

B

B

A

Page 46: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Q(���)�=�?

Q(�� )�=�?Q(�� )�=�?

Q(�� )�=�?

A가 이전에 배웠던 Q(𝑎")는 무쓸모

B

A

B

예를 들어 B가 갑자기 순간 이동을 한다고 했을때

Page 47: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

B가 다른 reward를 받는 Agent라면?학습하면서 행동을 바꾼다면

B

B

Q(���)�=�?

Q(�� )�=�?Q(�� )�=�?

Q(�� )�=�?

A

Page 48: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Q-value�학습이 굉장히 불안정해 질 것

B

B

Q(���)�=�?

Q(�� )�=�?Q(�� )�=�?

Q(�� )�=�?

A

Page 49: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

다양한 시도Multi-Agent�RL

Page 50: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Communication

Mordatch,�Igor,�and�Pieter�Abbeel.�"Emergence�of�Grounded�Compositional�Language�in�Multi-Agent�Populations." arXiv�preprint�arXiv:1703.04908 (2017)https://blog.openai.com/learning-to-communicate/

다른 모든 Agent에게 메세지 전달

Page 51: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Actor-Critic�+�Centralized�Q-value

다른 Agent의 내부 정보를 공유

Lowe,�Ryan,�et�al.�"Multi-Agent�Actor-Critic�for�Mixed�Cooperative-Competitive�Environments." arXiv preprint�arXiv:1706.02275 (2017)https://blog.openai.com/learning-to-cooperate-compete-and-communicate/

Centralized�Q-value

Page 52: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

2.�전략 세우기Hierarchical�RL�+�Model-based�RL

Page 53: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Reward가 자주 생겨서 학습이 쉬움

Page 54: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Reward가 너무 드물어서 학습이 어려움

Page 55: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Sparse�Reward

Kulkarni,�Tejas D.,�et�al.�"Hierarchical�deep�reinforcement�learning:�Integrating�temporal�abstraction�and�intrinsic�motivation." Advances�in�Neural�Information�Processing�Systems.�2016.Vezhnevets,�Alexander�Sasha,�et�al.�"Feudal�networks�for�hierarchical�reinforcement�learning." arXiv preprint�arXiv:1703.01161 (2017).

30번 정도의 올바른 행동 후에 0이 아닌 Reward을 얻음Feedback

밧줄을 타고 내려가서 해골을 피하고 사다리를 타서 열쇠를 얻어야 100점 얻음

Page 56: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Hierarchical�RL계층 강화 학습

Page 57: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

A

Non-hierarchical�RL

Page 58: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

A

행동 𝑎"

Non-hierarchical�RL

Page 59: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

A

행동 𝑎"Reward 𝑟"

Non-hierarchical�RL

Page 60: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Kulkarni,�Tejas�D.,�et�al.�"Hierarchical�deep�reinforcement�learning:�Integrating�temporal�abstraction�and�intrinsic�motivation." Advances�in�Neural�Information�Processing�Systems.�2016Vezhnevets,�Alexander�Sasha,�et�al.�"Feudal�networks�for�hierarchical�reinforcement�learning." arXiv�preprint�arXiv:1703.01161 (2017)

Bacon,�Pierre-Luc,�Jean�Harb,�and�Doina�Precup.�"The�Option-Critic�Architecture." AAAI.�2017

A A

행동 𝑎"Reward 𝑟"

Non-hierarchical�RL Hierarchical�RL

Page 61: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Kulkarni,�Tejas�D.,�et�al.�"Hierarchical�deep�reinforcement�learning:�Integrating�temporal�abstraction�and�intrinsic�motivation." Advances�in�Neural�Information�Processing�Systems.�2016Vezhnevets,�Alexander�Sasha,�et�al.�"Feudal�networks�for�hierarchical�reinforcement�learning." arXiv�preprint�arXiv:1703.01161 (2017)

Bacon,�Pierre-Luc,�Jean�Harb,�and�Doina�Precup.�"The�Option-Critic�Architecture." AAAI.�2017

A A

행동 𝑎"Reward 𝑟"

Non-hierarchical�RL Hierarchical�RL

목표1 목표2 목표3

Page 62: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Kulkarni,�Tejas�D.,�et�al.�"Hierarchical�deep�reinforcement�learning:�Integrating�temporal�abstraction�and�intrinsic�motivation." Advances�in�Neural�Information�Processing�Systems.�2016Vezhnevets,�Alexander�Sasha,�et�al.�"Feudal�networks�for�hierarchical�reinforcement�learning." arXiv�preprint�arXiv:1703.01161 (2017)

Bacon,�Pierre-Luc,�Jean�Harb,�and�Doina�Precup.�"The�Option-Critic�Architecture." AAAI.�2017

A A

행동 𝑎"Reward 𝑟"

Non-hierarchical�RL Hierarchical�RL

밧줄 잡기

목표1 목표2 목표3

Page 63: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Kulkarni,�Tejas�D.,�et�al.�"Hierarchical�deep�reinforcement�learning:�Integrating�temporal�abstraction�and�intrinsic�motivation." Advances�in�Neural�Information�Processing�Systems.�2016Vezhnevets,�Alexander�Sasha,�et�al.�"Feudal�networks�for�hierarchical�reinforcement�learning." arXiv�preprint�arXiv:1703.01161 (2017)

Bacon,�Pierre-Luc,�Jean�Harb,�and�Doina�Precup.�"The�Option-Critic�Architecture." AAAI.�2017

A A

행동 𝑎"Reward 𝑟"

Non-hierarchical�RL Hierarchical�RL

밧줄 잡기 사다리 내려가기

목표1 목표2 목표3

Page 64: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Kulkarni,�Tejas�D.,�et�al.�"Hierarchical�deep�reinforcement�learning:�Integrating�temporal�abstraction�and�intrinsic�motivation." Advances�in�Neural�Information�Processing�Systems.�2016Vezhnevets,�Alexander�Sasha,�et�al.�"Feudal�networks�for�hierarchical�reinforcement�learning." arXiv�preprint�arXiv:1703.01161 (2017)

Bacon,�Pierre-Luc,�Jean�Harb,�and�Doina�Precup.�"The�Option-Critic�Architecture." AAAI.�2017

A A

행동 𝑎"Reward 𝑟"

Non-hierarchical�RL Hierarchical�RL

밧줄 잡기 사다리 내려가기 점프 하기

목표1 목표2 목표3

Page 65: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Kulkarni,�Tejas�D.,�et�al.�"Hierarchical�deep�reinforcement�learning:�Integrating�temporal�abstraction�and�intrinsic�motivation." Advances�in�Neural�Information�Processing�Systems.�2016Vezhnevets,�Alexander�Sasha,�et�al.�"Feudal�networks�for�hierarchical�reinforcement�learning." arXiv�preprint�arXiv:1703.01161 (2017)

Bacon,�Pierre-Luc,�Jean�Harb,�and�Doina�Precup.�"The�Option-Critic�Architecture." AAAI.�2017

목표1 목표2 목표3

A A

행동 𝑎"Reward 𝑟"

𝑎*,"𝑎,,"

Non-hierarchical�RL Hierarchical�RL

𝑎-,"

밧줄 잡기 사다리 내려가기 점프 하기

Page 66: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Kulkarni,�Tejas�D.,�et�al.�"Hierarchical�deep�reinforcement�learning:�Integrating�temporal�abstraction�and�intrinsic�motivation." Advances�in�Neural�Information�Processing�Systems.�2016Vezhnevets,�Alexander�Sasha,�et�al.�"Feudal�networks�for�hierarchical�reinforcement�learning." arXiv�preprint�arXiv:1703.01161 (2017)

Bacon,�Pierre-Luc,�Jean�Harb,�and�Doina�Precup.�"The�Option-Critic�Architecture." AAAI.�2017

목표1 목표2 목표3

- - ON

A A

목표 Ω

행동 𝑎"Reward 𝑟"

Non-hierarchical�RL Hierarchical�RL

𝑎*,"𝑎,," 𝑎-,"

Page 67: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Kulkarni,�Tejas�D.,�et�al.�"Hierarchical�deep�reinforcement�learning:�Integrating�temporal�abstraction�and�intrinsic�motivation." Advances�in�Neural�Information�Processing�Systems.�2016Vezhnevets,�Alexander�Sasha,�et�al.�"Feudal�networks�for�hierarchical�reinforcement�learning." arXiv�preprint�arXiv:1703.01161 (2017)

Bacon,�Pierre-Luc,�Jean�Harb,�and�Doina�Precup.�"The�Option-Critic�Architecture." AAAI.�2017

목표1 목표2 목표3

- - ON

A A

목표 Ω

행동 𝑎-,"행동 𝑎"Reward 𝑟"

𝑎*,"𝑎,,"

Non-hierarchical�RL Hierarchical�RL

Page 68: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Kulkarni,�Tejas�D.,�et�al.�"Hierarchical�deep�reinforcement�learning:�Integrating�temporal�abstraction�and�intrinsic�motivation." Advances�in�Neural�Information�Processing�Systems.�2016Vezhnevets,�Alexander�Sasha,�et�al.�"Feudal�networks�for�hierarchical�reinforcement�learning." arXiv�preprint�arXiv:1703.01161 (2017)

Bacon,�Pierre-Luc,�Jean�Harb,�and�Doina�Precup.�"The�Option-Critic�Architecture." AAAI.�2017

목표1 목표2 목표3

- - ON

A A

목표 Ω

행동 𝑎-,"행동 𝑎"Reward 𝑟" Reward 𝑟"

𝑎*,"𝑎,,"

Non-hierarchical�RL Hierarchical�RL

Page 69: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Montezuma�잘 풀었다

Kulkarni,�Tejas�D.,�et�al.�"Hierarchical�deep�reinforcement�learning:�Integrating�temporal�abstraction�and�intrinsic�motivation." Advances�in�Neural�Information�Processing�Systems.�2016Vezhnevets,�Alexander�Sasha,�et�al.�"Feudal�networks�for�hierarchical�reinforcement�learning." arXiv�preprint�arXiv:1703.01161 (2017)

Bacon,�Pierre-Luc,�Jean�Harb,�and�Doina�Precup.�"The�Option-Critic�Architecture." AAAI.�2017

Page 70: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

하.지.만.

Page 71: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

하지만,암기로 풀 수 있음

Page 72: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

암기로 풀 수 없는 문제

Weber,�Théophane,�et�al.�"Imagination-Augmented�Agents�for�Deep�Reinforcement�Learning." arXiv�preprint�arXiv:1707.06203 (2017).https://deepmind.com/blog/agents-imagine-and-plan/

Page 73: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Weber,�Théophane,�et�al.�"Imagination-Augmented�Agents�for�Deep�Reinforcement�Learning." arXiv�preprint�arXiv:1707.06203 (2017).https://deepmind.com/blog/agents-imagine-and-plan/

실제로 일어날 일을 시뮬레이션으로 (internal�simulation) 상상해 보고 행동

Page 74: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Model-free�RL +�Model-based�RL

Deep�Q-learningPolicy�Gradient

Page 75: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Model-free�RL�+�Model-based�RLImagination

Weber,�Théophane,�et�al.�"Imagination-Augmented�Agents�for�Deep�Reinforcement�Learning." arXiv�preprint�arXiv:1707.06203 (2017).https://deepmind.com/blog/agents-imagine-and-plan/

Page 76: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

3.�배경 지식 활용하기Meta�Learning

Page 77: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

사람처럼 기존의 경험을 활용해

새로운 환경에서 어떻게 잘 적응을 할 수 있을까?

Meta�Learning

Page 78: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

여러가지 접근법Meta�Learning

Page 79: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Weight�Update를 빠르게 하려면?

http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/

Page 80: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

최적의 네트워크를 찾으려면?

http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/

Page 81: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

작은 데이터만 보고도 잘 분류하려면?

http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/

Page 82: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

한번도 안 본 게임도 잘 클리어 하려면?

http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/

Meta�Learning + RL

Page 83: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Meta�Learning

http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/

Page 84: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Meta�Learning + RL

Page 85: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Meta�Reinforcement�Learning한번도 안 본 게임도 잘 클리어 하려면?

Page 86: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Duan,�Yan,�et�al.�"RL�$^�2$:�Fast�Reinforcement�Learning�via�Slow�Reinforcement�Learning." arXiv�preprint�arXiv:1611.02779 (2016).https://www.youtube.com/playlist?list=PLp24ODExrsVeA-ZnOQhdhX6X7ed5H_W4q

Page 87: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Duan,�Yan,�et�al.�"RL�$^�2$:�Fast�Reinforcement�Learning�via�Slow�Reinforcement�Learning." arXiv preprint�arXiv:1611.02779 (2016).

한판 = 한 Episode

Page 88: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Duan,�Yan,�et�al.�"RL�$^�2$:�Fast�Reinforcement�Learning�via�Slow�Reinforcement�Learning." arXiv preprint�arXiv:1611.02779 (2016).

Episode가 끝나도 정보를 리셋하지 않고 계속 사용

Page 89: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Duan,�Yan,�et�al.�"RL�$^�2$:�Fast�Reinforcement�Learning�via�Slow�Reinforcement�Learning." arXiv preprint�arXiv:1611.02779 (2016).

N번의 Episode를 하나의 Trial로 정의

N번의 Episode를 통해서 최적의 플레이를 찾는 방법을 학습

Page 90: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Duan,�Yan,�et�al.�"RL�$^�2$:�Fast�Reinforcement�Learning�via�Slow�Reinforcement�Learning." arXiv preprint�arXiv:1611.02779 (2016).

새로운 시도에는 새로운 게임(여기서는 새로운 맵)을 플레이

Page 91: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Duan,�Yan,�et�al.�"RL�$^�2$:�Fast�Reinforcement�Learning�via�Slow�Reinforcement�Learning." arXiv preprint�arXiv:1611.02779 (2016).

새로운 시도에는 새로운 게임(여기서는 새로운 맵)을 플레이

Page 92: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

좀 더 현실적인 예시: 마리오를 N번 플레이 내에 끝까지 클리어

Page 93: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017
Page 94: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017
Page 95: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017
Page 96: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

다양한 마리오 게임을 학습하고 학습하지 않았던 마리오 게임을 플레이

Page 97: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

다양한 레이싱 게임을 학습하고 학습하지 않았던 레이싱 게임을 플레이

ex.�GTA,�실제 자율 주행 자동차

Page 98: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

다양한 시도Meta�RL

Page 99: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

RL2:�Recurrent�Network

Duan,�Yan,�et�al.�"RL�$^�2$:�Fast�Reinforcement�Learning�via�Slow�Reinforcement�Learning." arXiv preprint�arXiv:1611.02779 (2016).https://www.youtube.com/playlist?list=PLp24ODExrsVeA-ZnOQhdhX6X7ed5H_W4q

Episode의 Return이 아닌 Trial의 Return을 optimize

Page 100: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Model-Agnostic�Meta-Learning

Finn,�Chelsea,�Pieter�Abbeel,�and�Sergey�Levine.�"Model-Agnostic�Meta-Learning�for�Fast�Adaptation�of�Deep�Networks." arXiv preprint�arXiv:1703.03400 (2017).

여러 Task를 동시에 학습해 weight의 central�point를 찾음

그리고 1번의 gradient�update로 새 Task에 적응

Page 101: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

4.�명령에 따라 다르게 행동하기

Page 102: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

단 한가지 목표

Page 103: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

단 한가지 목표 자율 주행 = 무한가지 목표

학교까지 주행앞 차를 따라서 주행주차장에 주차

...

Page 104: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Guided�RL명령에 따라 다르게 행동하도록 Agent를 학습

Page 105: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

+ Guided�RL

Page 106: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Teaching�Machines�to Understand�Visual�Manuals

via�Attention�Supervision for�Object�Assembly

Taehoon�Kim1,�Youngwoon�Lee2,�Joseph�Lim2

1

2

Page 107: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

왜?

Page 108: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

사람처럼 새로운 환경에서 잘 적응하려면?Generalization in�Reinforcement�Learning

Page 109: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

http://www.ikea.com/ms/en_US/customer_service/assembly_instructions.html

의자 조립을 배운 사람

Page 110: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

http://www.ikea.com/ms/en_US/customer_service/assembly_instructions.html

책상을 매뉴얼 없이 조립할 수 있을까?

Page 111: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

http://www.ikea.com/ms/en_US/customer_service/assembly_instructions.html

하지만 매뉴얼이 있다면?

Page 112: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

사람도 새로운 문제를 풀기 위해서는

매뉴얼을 봐야한다

Page 113: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

무엇을?

Page 114: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

칠교 퍼즐 가구 조립

Hierarchical�Planning이 필요한 문제

Page 115: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

State�𝑠"

Page 116: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

State�𝑠" Manual�𝑚"

Page 117: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

어떻게?두가지 방법으로 접근

Page 118: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017
Page 119: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Page 120: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Page 121: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly. "Pointer networks." Advances in Neural Information Processing Systems. 2015.

Pointer�Network

Page 122: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

𝒔𝒩,"

𝝅

𝑽

𝑎"5,

𝑒𝑛𝑐

𝒔*,"𝒔,,"

⟨𝑔⟩

… …

𝑠<,", 𝑠<,"* 𝑠<,"𝒮 𝑝<,", 𝑝<,"𝒫5,

𝑴"

Image�segmentation�+�Pointer�Network

Page 123: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

하지만 Pointer�Network�학습을 위해

추가적인 Supervision 필요

단점

몇 번째 segment가 매뉴얼 조각을 포함하는지

Page 124: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Attention

Xu, Kelvin, et al. "Show, attend and tell: Neural image caption generation with visual attention." International Conference on Machine Learning. 2015.

Page 125: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

메뉴얼에 해당하는 부분에 집중(Attention)

Page 126: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

QueryAttention maps

GuidedAttention

πV

Manual

State

Context Fusion

Map Fusion

……

Guided�Attention�+�A3C

Page 127: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

그리고 복잡한 학습 과정을 거쳐서..

Curriculum�LearningSemi-supervised�Learning

Self-supervision…

Page 128: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

결과

Page 129: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

https://sites.google.com/view/nips17assembly/home

:�입력

Page 130: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

https://sites.google.com/view/nips17assembly/home

:�입력

Page 131: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

https://sites.google.com/view/nips17assembly/home

:�입력

Page 132: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

다른 Guided�RL�연구들Text�as�Manual

Page 133: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Gated-Attention�+�A3C

Hermann,�Karl�Moritz,�et�al.�"Grounded�language�learning�in�a�simulated�3D�world." arXiv�preprint�arXiv:1706.06551 (2017)https://sites.google.com/view/gated-attention/home

Page 134: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Self-Supervision�+�A3C

Chaplot,�Devendra Singh,�et�al.�"Gated-Attention�Architectures�for�Task-Oriented�Language�Grounding." arXiv�preprint�arXiv:1706.07230 (2017)https://www.youtube.com/watch?v=wJjdu1bPJ04

물체들의 관계까지 이해해야 하는 Agent

Page 135: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

5.�ETCExploration, Continuous�action,�Imitation�learning

Page 136: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Exploration지금까지 좋다고 생각했던 행동이 아닌 모험(랜덤 행동)을 하는 것

Page 137: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Exploration랜덤으로모험(행동)을 하는 것

Page 138: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Exploration랜덤으로모험(행동)을 하는 것

Exploitation지금까지 배운최선의 행동을 하는 것

Page 139: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Exploration

Pathak,Deepak,etal."Curiosity-drivenexplorationbyself-supervisedprediction." arXivpreprintarXiv:1705.05363 (2017)https://pathak22.github.io/noreward-rl/

Curiosity�reward+

Inverse�Dynamics�Model

Page 140: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Curriculum�Learning쉬운 문제부터 어려운 문제까지 차근차근 난이도를 올려가며 학습

Page 141: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

학습 시간

난이도 하 중 상

Non-curriculum�learning

특정 난이도의 문제 뽑을 확률

Page 142: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

학습 시간

난이도 하 중 상

학습 처음부터 끝까지 모든 난이도를 동일한 확률로 뽑기

Non-curriculum�learning

Page 143: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

학습 시간

난이도 하 중 상

Curriculum�learning

처음에는 가장 쉬운 문제를 많이 학습

Page 144: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

학습 시간

난이도 하 중 상 하 중 상

Curriculum�learning

특정 조건 달성 이후 좀 더 어려운 문제 풀기 시작

문제 하 성공률 80% 달성

Page 145: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

학습 시간

난이도 하 중 상 하 중 상 하 중 상

문제 하 성공률 80% 달성 문제 중 성공률 80% 달성

Curriculum�learning

특정 조건 달성 이후 좀 더 어려운 문제 풀기 시작

Page 146: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Curriculum�Learning�+�GAN

Held,David,etal."AutomaticGoalGenerationforReinforcementLearningAgents." arXivpreprintarXiv:1705.06366 (2017)https://sites.google.com/view/goalgeneration4rl

Page 147: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Continuous�Action연속적인 행동을 가진 Agent의 학습 (ex.�로봇)

Page 148: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

DiscreteAction 𝑎"< ∈ {0,1}위 아래

ON -

Page 149: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

ContinuousAction−1 ≤ 𝑎"< ≤ 1DiscreteAction 𝑎"< ∈ {0,1}어깨 무릎 허리

0.1 -0.2 0.5

위 아래

ON -

Page 150: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Continuous�Action

Schulman,John,etal."ProximalPolicyOptimizationAlgorithms." arXivpreprintarXiv:1707.06347 (2017)https://blog.openai.com/openai-baselines-ppo/

PPO

Page 151: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Continuous�Action

Heess,Nicolas,etal."EmergenceofLocomotionBehavioursinRichEnvironments." arXivpreprintarXiv:1707.02286 (2017)https://www.youtube.com/watch?v=hx_bgoTF7bs

Distributed�PPO

Page 152: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

이 외에도..

Page 153: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

문제는 여전히 많다

Page 154: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

네.

Page 155: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

강화 학습 캉화 학습 강화 학습 강화 학습

강화 학습 강화 학습 강화 학습 강화 학습

강화 학습 강화 학습 강화 학습 강화 학습

강화 학습 강화 학습 강화 학습 감화 학습

강화 학습 강화 학습 강화 학습 강화 학습

강회 학습 강화 학습 강화 학습 강화 학습

Page 156: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Neural�Turing�Machine

Differentiable�Neural�Computer

Neural�Module�Network

Neural�Programmer-Interpreter

Programmable�Agent

강화 학습 외에도 관심있는 분야

Graves,�Alex,�Greg�Wayne,�and�Ivo�Danihelka.�"Neural�turing machines." arXiv preprint�arXiv:1410.5401 (2014).Graves,�Alex,�et�al.�"Hybrid�computing�using�a�neural�network�with�dynamic�external�memory." Nature 538.7626�(2016):�471-476.

Andreas,�Jacob,�et�al.�"Neural�module�networks." Proceedings�of�the�IEEE�Conference�on�Computer�Vision�and�Pattern�Recognition.�2016.Reed,�Scott,�and�Nando De�Freitas.�"Neural�programmer-interpreters." arXiv preprint�arXiv:1511.06279 (2015).

Denil,�Misha,�et�al.�"Programmable�agents." arXiv preprint�arXiv:1706.06383(2017).

Page 157: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

다 이야기하고 싶지만 오늘은..

Page 158: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Generative�ModelGAN이라던가..

Page 159: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Berthelot,�David,�Tom�Schumm,�and�Luke�Metz.�"Began:�Boundary�equilibrium�generative�adversarial�networks." arXiv preprint�arXiv:1703.10717 (2017).https://github.com/carpedm20/BEGAN-tensorflow

Page 160: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Kim,�Taeksoo,�et�al.�"Learning�to�discover�cross-domain�relations�with�generative�adversarial�networks." arXiv preprint�arXiv:1703.05192 (2017).https://github.com/carpedm20/DiscoGAN-pytorch

Page 161: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Shrivastava,�Ashish,�et�al.�"Learning�from�simulated�and�unsupervised�images�through�adversarial�training." arXiv preprint�arXiv:1612.07828 (2016).https://github.com/carpedm20/simulated-unsupervised-tensorflow

Page 162: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Generative�Model�+�Audio

Page 163: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

Generative�Model�+�Audio

Page 164: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

카카오뱅크가 개시 5일만에 100만 계좌를 돌파하면서 돌풍을 일으키고 있다.

CVPR2017�현장 풍경입니다.�많은 컴퓨터비전 연구자들이 네이버랩스 부스를 찾았습니다.

오늘의 날씨는 어제보다 3도 높습니다.�총 3개의 일정이 등록되어 있습니다.

Page 165: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

.voiceVoice Synthesis Technologies for Developers

Page 166: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

더 자세한건...

Page 167: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017
Page 168: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

http://www.devsisters.com/jobs/

Page 169: 알아두면 쓸데있는 신기한 강화학습 NAVER 2017

ENDhttp://carpedm20.github.io/