Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿.
포지션인코딩기반포인터네트워크를이용한
상호참조해결
강원대학교
박천음, 이창기
2017.06.09
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 2
Coreference Resolution
[[미국]에있는국제통화기금(IMF)]은신속히 [신임총재]를결정해야하며이제 [[현명한여성]이 [[IMF] 총재직]을맡을때]가됐다고 [1일] [[미셸캉드쉬]전 [IMF] 총재]가주장했다. [[캉드쉬]총재]는 [[이날] [파리]에서열린한세미나]에서 [[IMF]의목적]에맞게 [현명한여성]이[총재직]을맡게되면…
상호참조 (Coreference)• 문서내에서이미언급된개체에대하여별명, 약어그리고대명사등으로다시언급하는것
상호참조해결 (Coreference Resolution)• 상호참조가가능한멘션(mention)들끼리하나의엔티티(entity)로참조관계를만드는것
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 3
Pointer Networks for Pronouns
포인터네트워크를이용한대명사상호참조해결• 포인터네트워크:입력열의위치를출력결과로학습하는딥러닝모델
• 입력기준: 대명사디코더시작입력이대명사만가능• Chaining order: 대명사가포함된엔티티의멘션들순서
• 그오바마대통령오바마미국대통령
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 4
OverviewMotivation
• 기존상호참조해결학습방법의한계• Mention Pair: 두멘션에대해서만참조관계확인 (문맥정보확인불가)• Pointer Networks for Pronoun: 대명사엔티티에대해서만참조해결
• 포인터네트워크모델은입력이여러문장으로이루어지거나입력문장이길어지면성능이저하됨
Goal• 문장의길이가긴경우에대한성능향상• 대명사뿐만아니라모든멘션에대하여 end-to-end로학습
Key Contribution• 포인팅할때더중요한문장이어딘지가중치를부여하는포지션인코딩적용
• 포지션인코딩방법• 동적포지션인코딩방법
• 포인팅개념을이용하여모든멘션에대한분류수행
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 5
Pointing based Coreference Resolution
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 6
Position encoding based Pointer Networks
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 7
Dynamic position encoding based Pointer Networks
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 8
Position Encoding based Pointer Networks
Encoder Decoder
𝑃𝑃𝑃𝑃(𝑥𝑥𝑠𝑠) = 𝑀𝑀𝑠𝑠 ∗ 𝑃𝑃 𝑥𝑥𝑠𝑠𝑀𝑀𝑠𝑠 = 1 − 𝑠𝑠/𝑆𝑆 − (𝑘𝑘/𝑑𝑑)(1 − 2𝑠𝑠/𝑆𝑆)
ℎ𝑠𝑠 = 𝐺𝐺𝐺𝐺𝐺𝐺 𝑃𝑃𝑃𝑃 𝑥𝑥𝑠𝑠 , ℎ𝑠𝑠−1ℎ𝑠𝑠 = 𝐺𝐺𝐺𝐺𝐺𝐺 𝑃𝑃𝑃𝑃 𝑥𝑥𝑠𝑠 , ℎ𝑠𝑠+1
ℎ⃡𝑠𝑠 = [ℎ𝑠𝑠, ℎ𝑠𝑠]
ℎ𝑡𝑡 = 𝐺𝐺𝐺𝐺𝐺𝐺 ℎ⃡𝑦𝑦𝑡𝑡−1 , ℎ𝑡𝑡−1
𝑠𝑠𝑡𝑡 𝑠𝑠 =exp 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 ℎ𝑡𝑡,ℎ⃡𝑠𝑠
∑𝑠𝑠 exp 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 ℎ𝑡𝑡,ℎ⃡𝑠𝑠
𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 ℎ𝑡𝑡, ℎ⃡𝑠𝑠
= �𝑣𝑣𝑡𝑡𝑇𝑇 tanh 𝑊𝑊𝑎𝑎 ℎ𝑡𝑡; ℎ⃡𝑠𝑠 , 𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝐼𝐼
𝑣𝑣𝑡𝑡𝑇𝑇 tanh 𝑊𝑊𝑎𝑎 ℎ𝑡𝑡;𝐷𝐷𝑃𝑃𝑃𝑃 ℎ⃡𝑠𝑠 , 𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝐼𝐼_𝐷𝐷𝑃𝑃𝑃𝑃
𝐷𝐷𝑃𝑃𝑃𝑃 ℎ⃡𝑠𝑠 = 𝐷𝐷𝑠𝑠 ∗ ℎ⃡𝑠𝑠
𝑦𝑦𝑡𝑡 = argmax(𝑠𝑠𝑡𝑡 𝑠𝑠′ )
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 9
Dynamic position encoding example
𝐷𝐷𝑠𝑠 = �1 + 1 − 𝑠𝑠/𝑆𝑆 − ((𝑘𝑘 + 1) /𝑑𝑑)(1 − 2𝑠𝑠/𝑆𝑆), 𝑘𝑘𝑠𝑠 − 𝑘𝑘 > 𝐼𝐼𝜏𝜏, 𝑠𝑠𝐼𝐼ℎ𝐼𝐼𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝐼𝐼
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 10
Experiment setting본논문에서적용한문제
• 상호참조해결 (모든명사대상)데이터셋
• ETRI 퀴즈도메인상호참조해결데이터 2,224 질문문서• 학습데이터: 1,819 문서• 개발데이터: 184 문서• 테스트데이터: 221 문서실험평가지표 CoNLL F1실험방법교차검증(Cross validation) 수행포인터네트워크하이퍼파라미터설정
• 단어표현: 10만단어, NNLM 학습• Encoder와 decoder의활성함수: tanh• Attention layer의활성함수: ReLU• Attention의 scoring 방법, 히든레이어차원최적화수행• Dropout: 0.5 (optimized)• 학습율시작: 0.1 (5 에포크마다성능개선이없으면 50% 감소)• 학습방법: RMSprop
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 11
Experiment results표 1. Bi-GRU 기반과 포지션 인코딩(PE, DPE) 기반 포인터 네
트워크의 상호참조해결 성능 비교
Encoder model Precision Recall CoNLL F1 (%, dev)
Bi-GRU 기반 포인터 네트워크 85.53 63.39 72.57 PE 기반 포인터 네트워크 85.52 64.20 73.18
DPE 기반 포인터 네트워크 84.62 66.01 73.90
표 2. 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄에 대한 히든 레이어 유닛 수 최적화
Attention scoring method
Dimension of
[𝒉𝒉𝒔𝒔�⃖��⃗ ,𝒉𝒉𝒄𝒄] Precision Recall
CoNLL F1 (%, dev)
concat
[100, 50] 90.54 65.31 75.81 [200, 100] 89.57 67.31 76.71 [400, 200] 89.20 66.96 76.40 [800, 400] 89.82 66.67 76.47
[1600, 800] 90.03 64.09 74.82
+ 1.47
Baseline
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 12
Experiment results
표 3. 규칙기반과 포지션 인코딩(PE, DPE) 기반 포인터 네트워크 성능 비교 (%, test)
Model Pre Rec CoNLL F1 규칙기반[10] 54.95 46.98 50.60
규칙기반+포인터 네트워크[6] 70.45 61.76 65.77 DPE 기반 포인터 네크워크 82.39 59.79 69.21
+ 18.61
Baseline
𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼𝑠𝑠𝑠𝑠𝑠𝑠𝐼𝐼 𝐿𝐿𝑠𝑠𝐿𝐿. 13
Conclusion포지션인코딩기반포인터네트워크를이용한상호참조해결제안
모든멘션에대한분류가능방법제안 (포인팅기반)실험결과
• 기존규칙기반상호참조해결에비하여성능향상• 50.60% 69.21% (+ 18.61%)
• 규칙기반 + 대명사포인터네트워크에비하여성능향상• 65.77% 69.21% (+ 3.44%)
향후연구• 일반문서는아직적용어려움
• 포지션인코딩기반계층모델개발일반문서적용• GRU (Gated recurrent unit) LSTM (Long short-term
memory) 적용• 상호참조해결이외의자연어처리문제에적용