Lecture’12:’종단학습모델 교재 Chapter’10’종단학습 모델scai/Courses/ML2019/slides/Chap12_.pdfLecture’12:’종단학습모델 (교재 Chapter’10’종단학습

Lecture 12: 종단학습모델(교재 Chapter 10 종단학습모델)

<기계학습개론> 2019강의서울대학교컴퓨터공학부

장병 탁

교재:장교수의딥러닝,홍릉과학출판사, 2017.

Biointelligence LaboratorySchool of Computer Science and Engineering

Seoul National University

Version 20171120/20191030

목차

© 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 2

12.1 인코더디코더 모델(EncDec) ……….…….………… 4

12.2 문장대문장 모델(Seq2Seq) ……..….………………. 8

12.3 종단학습 메모리넷(MemN2N) …………..………… 12

12.4 활용사례: 기계번역(NMT) ….…..……...…...……… 17

요약 …………………………………….......………………. 22

n 종단학습(End-to-End Learning)n 학습에필요한 데이터를거의원본그대로 입력하여중간과정을명시적으로모델링하지않고 직접출력데이터형태로 산출되도록하는자동화된학습 방식n 자율주행자동차(self-driving car)n 자연어질의응답(Q&A)챗봇

n 최근빅컴퓨팅과 빅데이터에힘입어딥러닝에기반한 종단학습으로해법을얻을수 있는문제의종류와복잡도가 크게증가

© 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr

Overview

3

n 인코더디코더 모델(EncDec)n 인코딩모듈을 통해입력정보를부호화한 뒤디코딩모듈을통해 부호화하여원하는형태의 출력을도출

n 원본입력 정보를부호화모듈을통해 중간층의압축된정보로적절히 표상하는것이중요: 입력데이터에대한 의미적, 개념적축약


10.1 인코더디코더모델(EncDec) (1/4)

3

( (x))x Decoder Encoder→

n 오토인코더 모델 (Bengio, 2009)(Ng, 2011)n 대표적인무감독 학습모델

n 레이블정보 없이입력에대한정보만으로 모델을학습n 항등함수의근사



3

𝑦",$(𝑥) ≈ 𝑥 𝑥),… , 𝑥+ → ℎ),… , ℎ+ → [𝑥/),… , 𝑥/+]

n 오토인코더 모델(Bengio, 2009)(Ng, 2011)

n 𝑚 > 𝑛 : 압축된 표현 학습n 𝑚 < 𝑛 ?

n 희소성(sparsity) 제약을통해 유의미한 특징 표현 도출

n 𝜌67 = 0.05? 은닉노드 j의 평균활성화 값을 0.05에 가깝도록제약



3

𝑦",$(𝑥) ≈ 𝑥 𝑥),… , 𝑥+ → ℎ),… , ℎ+ → [𝑥/),… , 𝑥/+]

𝜌/6 =1𝑚?𝑎6

A (𝑥 B )C

BD)

?𝐾𝐿(𝜌| 𝜌/6 =HI

6D)

?𝜌 log𝜌𝜌/6+ 1 − 𝜌 log

1 − 𝜌1 − 𝜌/6

HI

6D)

𝐽PQRSPT 𝑊, 𝑏 = 𝐽 𝑊, 𝑏 + 𝛽?𝐾𝐿(𝜌| 𝜌/6

HI

6D)

𝐽 𝑊, 𝑏 =1𝑚?(

12𝑦",$ 𝑥 B − 𝑥 B A

)C

BD)

다중모달 인코더디코더 모델n 이미지 설명모델/이미지 합성 모델

n 복합지능: 단일지능(시각지능혹은언어지능)과 구분n 특성이매우 다른이미지와문장간의 의미적동기화



3

𝑥Y) = CNN 𝐼𝑥] = 𝑊T𝑆], 𝑡 ∈ 0,… ,𝑁 − 1𝑝]d) = LSTM 𝑥] , 𝑡 ∈ {0,… ,𝑁 − 1}

𝐿 𝐼, 𝑆 = −?log 𝑝] 𝑠]

l

]D)

n 문장대문장 모델(Seq2Seq)n 자연어처리를 위한인코더디코더모델n 연속적인 속성을가진데이터입력, 연속적인속성을가진 데이터출력n 순환신경망과의 비교: 가변적인자연어 처리


10.2 문장대문장모델(Seq2Seq) (1/4)

3

n 문장대문장 모델(Seq2Seq) 작동 원리n 장단기메모리 활용(Ch. 7)n “A”,”B”,”C” 순차적인입력에대해 “W”,”X”,”Y”,”Z”를 순차적으로 출력하도록 로그확률(log probability)를증가시키도록 학습



3

인코더

디코더

n 문장대문장 모델(Seq2Seq)의 예: 기계 번역 (Sutskever et al, 2014)n WMT ‘ 14 English to French 데이터 셋활용n 입력언어 f, 출력언어 e, 번역모델 f(f|e), 언어 모델 f(e)



3

�̂� = argmaxT𝑝(𝑒|𝑓) = argmax

T𝑝 𝑒 𝑓 𝑝(𝑒)

n 문장대문장 모델(Seq2Seq)의 예: 사람과 대화가가능한 모델(Vinyals& Le, 2015)n IT help desk 데이터 셋: 고객센터질의응답, 영화자막 데이터셋n 대화의적절성을 판단하여목적함수를설정하기 어렵고, 다양한소스에서 수집한데이터를 이용하여학습하기때문에실제 사람처럼느껴지지않는단점

n 기타 기계번역, 음성인식, 이미지캡션 생성, 질의응답(QA) 챌린지 등다양한 자연어처리 분야에서 활용



3

n 종단학습 메모리넷(MemN2N)n 질의응답문제에 주로사용되는모델인메모리넷(9.4절)의 일종n 집중주의 기작n 종단방식으로 학습되어훈련과정에서지지 문장(Supporting fact)에대한 추가감독이필요하지 않음n 질의응답데이터

n 답변정보를포함하고있는지지문장(Supporting fact) 존재n 예) Facebook의BaBI데이터셋


10.3 종단학습메모리넷(MemN2N) (1/5)

3

3. John went to the bedroom:질의 Q. Where is John?의답변을제공

n 종단학습 메모리넷(MemN2N)



3

n 종단학습 메모리넷(MemN2N)의 단일 메모리접근 연산n 𝑚B ← 𝐴𝑥Bn 𝑢B ← 𝐵𝑞Bn 𝑐B ← 𝐶𝑥Bn 𝑝B ← softmax(𝑢�𝑚B)n 𝑜 = ∑ 𝑝B𝑐BB

n 주의집중 기작n 함수의입력부터 출력까지연속적이기때문에, 역전파과정을통해파라미터 값을학습

n 𝑎/ = softmax(𝑊 𝑜+ 𝑢 )

n 𝐴, 𝐵, 𝐶,𝑊는 𝑎/과 𝑎사이의크로스엔트로피손실을 줄이는방향으로학습n 확률적경사하강법(Stochastic Gradient Descent)으로학습



3

softmax(u )Ti ip m=

i im Ax←i iu Bq←i ic Cx←

i i ii

o p c=∑

n 종단학습 메모리넷(MemN2N)의 다중 메모리접근 연산n 첫번째메모리 접근이후다음메모리 층의입력은 k번째 메모리층의출력과입력의합

n 각층의 입력 {𝑥B} 를임베딩시키기위한 서로다른임베딩행렬 𝐴�, 𝐶�

n 모델의가장 마지막에서행렬W의입력은마지막메모리 층의출력과입력을합침



3

𝑢�d) = 𝑢� + 𝑜�

𝑎/ = softmax 𝑊𝑢�d) = softmax 𝑊 𝑜� + 𝑢�

n 종단학습 메모리넷(MemN2N)의 모델 파라미터개수 감소법n 인접방식

n 메모리층의 임베딩 C는그다음층의임베딩 A와같게한다.

n 대답예측 행렬W는마지막메모리층의임베딩 행렬 C와같게한다.

n 질의임베딩 행렬은첫번째층의임베딩 A와같게한다.

n RNN 방식n 임베딩행렬 A와 C를모든층에걸쳐동일하게한다.

n 선형매핑 H를메모리층중간에 적용한다.



3

𝐴�d) = 𝐶�

𝑊� = 𝐶�

𝐵 = 𝐴)

𝐴) = 𝐴A = ⋯ = 𝐴�, 𝐶) = 𝐶A = ⋯ = 𝐶�

𝑢�d) = 𝑢� + 𝑜�


10.4 종단학습활용사례 (1/5)

3

n 규칙 기반기계번역(Rule-Based Machine Translation)n 각언어의 의미론적, 형태학적, 구문론적문법을규칙화n 소스언어 형태론분석기/구문분석기, 소스언어사전, 타겟언어 형태학적생성기, 타겟언어파서(parser), 타겟언어 사전등다양한 구성요소필요



3

n 통계기반 기계번역(Statistical Machine Translation, SMT)n 신경기계번역(Neural Machine Translation, NMT)

n 깊은표현의 학습을통해성능을향상n 예) 10.2 Sutskever의문장대문장(Seq2Seq) 모델기반의기계번역n 예) 구글의신경기계번역시스템



3

n 9.4 메모리넷 è 10.3 종단학습 메모리넷n 동적 메모리넷(Dynamic Memory Network)



3

n 멀티모달 질의응답 문제n 둘이상의 모달리티를활용한질의응답(이미지/영상에 대한질의응답 문제)



3

n 종단학습

n 학습에필요한데이터를거의원본그대로입력하여중간과정을명시적으로모델링하지않고직접출력데이

터형태로산출되도록하는자동화된학습방식

n 인코더디코더(EncDec)모델n 인코딩모듈을통해입력정보를부호화한뒤디코딩모듈을통해부호화하여원하는형태의출력을도출

n 오토인코더모델, 다중모달인코더디코더모델, 문장대문장모델등

n 문장대문장(Seq2Seq) 모델

n 자연어처리를위한인코더디코더모델

n “A”,”B”,”C” 순차적인입력에대해 “W”,”X”,”Y”,”Z”를순차적으로출력하도록 로그확률(log probability)를증

가시키도록학습

n 종단학습메모리넷(MemN2N) 모델

n 질의응답문제에주요사용되는모델인메모리넷(9.4절)의일종

n 종단방식으로학습되어훈련과정에서지지문장(Supporting fact)에대한추가감독이필요하지않음

n 주의집중기작

n 응용사례

n 규칙기반기계번역 -> 통계기반기계번역 -> 신경기계번역

n 질의응답문제: 메모리넷 -> 종단학습메모리넷 -> 동적메모리넷


요약

22

질문n 종단학습딥러닝 모델의특징은무엇인가?기존의학습방법과 어떻게다른가?

종단학습이가능한 이유는무엇인가?

n 인코더디코더모델은 주로어떤문제에적용이 되는가?입력과 출력이어떤형

태를갖는 문제에주로적용되는가?

n 인코더디코더모델의 다양한종류를기술하고그 차이를설명하시오.각각의 활

용문제를 예를들어설명하시오.

n 자연어처리를 위한문장대문장모델을기술하시오. 이모델은어떤 문제를해결

할수 있는가?모델의 구조와학습방법을기술하시오. 재귀신경망에의한 자연

언어처리와는어떻게 다른가?

n 종단학습메모리넷(MemN2N)의구조를설명하시오. 어떤문제를 해결하는가?

어떤형태의 학습데이터를사용하는가?학습방식을설명하시오.

n 구글의딥러닝 기반신경기계번역기(NMT)에대해서설명하시오. 핵심아이디어

는무엇인가?성능이우수한 이유는무엇이라고생각하는가?© 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 23

Documents

Lecture’12:’종단학습모델 교재 Chapter’10’종단학습 모델scai/Courses/ML2019/slides/Chap12_.pdfLecture’12:’종단학습모델 (교재 Chapter’10’종단학습