Upload
yuki-tomo
View
714
Download
4
Embed Size (px)
Citation preview
ACL 2015 読み会 @ 小町研
Gated Recursive Neural Network for Chinese Word SegmentationXinchi Chen, Xipeng Qiu, Chenxi Zhu, Xuanjing Huang首都大学東京 情報通信システム学域 小町研究室
M2 塘 優旗
05/03/2023 ACL 2015 読み会 @ 小町研 1
Abstract
中国語の単語わかち書きタスク
素性選択の負担軽減が注目されているが、これまでの NN は離散的なfeatures を用いた traditional な手法のように complicated feature compositions を抽出できなかった
reset gate, update gate という二つのゲートを持つ Gated Recursive Neural Network (GRNN) を利用することで文脈文字の複雑な組み合わせを取り入れることができて素性選択が必要ない
GRNN は deep なので layer-wise training を利用することでgradient diffusion (勾配拡散)の問題を回避
現時点での最高精度を達成
05/03/2023 ACL 2015 読み会 @ 小町研 2
Chinese Word Segmentation 文字ベースの系列ラベリング
{B, M, E, S} = { Begin, Middle, End, Single }
05/03/2023 ACL 2015 読み会 @ 小町研 3
B E B E E B S
ACL 2015 読み会 @ 小町研 4
Gated Recursive Neural Network (GRNN)
for Chinese Word Segmentation •RNN • 系列のモデル化を行うために位
相グラフが必要
•directed acyclic graph (DAG)有向非巡回グラフ• ある頂点 v から出発し、辺を
たどり、頂点 v に戻ってこない
• 文字の組み合わせをボトム層から連続してミックスすることでモデル化できる
• 各ノードは複数文字のcomplicated feature composition とみなせる
05/03/2023 ACL 2015 読み会 @ 小町研 5
Gated Recursive Neural Network (GRNN)
for Chinese Word Segmentation
文字セット:
文字 embedding:↓
h_i : 隠れノード, d 次元g : 非線形関数 , シグモイドなど
05/03/2023 ACL 2015 読み会 @ 小町研 6
Gated Recursive Neural Network (GRNN)
complicated combination features を表現するにはシンプルすぎるため、gated recurrent neural network (Cho et al., 2014b; Chung et al., 2014) を参考に2 種類のゲートの導入• reset gate (r_L, r_R)• 右,左それぞれの子ノードから情報読み込み
• update gate• 子ノードの情報を統合する際に何を保持するか決
定
→ どのようにアップデートし、 combination information を利用するかを決定
update gate
reset gate
05/03/2023 ACL 2015 読み会 @ 小町研 7
Gated Recursive Neural Network (GRNN)
for Chinese Word Segmentation 最後のレイヤー(出力)エンベディングが 1st レイヤーに入
力され、1つの固定長ベクトルになるまで上層のレイヤーまで繰り返し伝達される
異なるニューロンの出力は、異なるfeature compositions とみなす
最後に全てのニューロンの出力を連結しベクトル x_i を得る
x_i を線形変換することで、文字 c_i に対しての各タグのスコアを得る
q : 総ノード数
3つのゲートの要素は同じ次元が正規化されている
05/03/2023 ACL 2015 読み会 @ 小町研 8
Gated Recursive Unit
• update gate の定義 new activation
• j-th hidden node の更新式
正規化
05/03/2023 ACL 2015 読み会 @ 小町研 9
Gated Recursive Unit
• reset gates の定義
new activation
• j-th activationの定義、更新
reset gate :
係数 :
シグモイド関数
reset gates は right , left の child node の出力を選択の仕方をコントロールし、結果的に new activation を得るupdate gates は new activation, left child, right child の選択としてみなすことができる
→ この gating mechanism は文字のコンビネーションを効率よくモデル化できる
Inference GRNN によって各文字に対してラベル付けされるスコアが得られたため, Viterbi アルゴリズムを利用して系列全体を通して最適なラベル列を推定する
先行研究にならい、 transition matrix を導入し,タグ間の遷移のスコアとして利用する
05/03/2023 ACL 2015 読み会 @ 小町研 10
B E B E S → へ遷移するスコア
従って、 sentence-level のスコア付けは以下のようになる
05/03/2023 ACL 2015 読み会 @ 小町研 11
Training - Layer-wise Training
Deep Learning の学習は難しいgradient diffusion ( 勾配の拡散 )overfitting のリスク
(Hinton and Salakhutdinov, 2006)
Layer-wise TrainingLayer を1つづつ追加して学習を行う
1. 隠れ層の 1 層目のみ学習
2. 1 層目の学習が終わったら 2 つの隠れ層の学習を行う。一番上の隠れ層 まで繰り返し学習を行う (1 ~ )
3. 最後の層まで学習が終わったら現在のパラメータを初期値として 1 ~ の層において学習を行う
05/03/2023 ACL 2015 読み会 @ 小町研 12
Training - Max-Margin criterion
Taskar et al., 2005 によって提案
モデルの決定境界の頑健さに着目することで確率、尤度の代替となる尺度を与える
:全ての可能なラベル列のセット
:正解ラベル列
:予測ラベル列
与えられた文 x _i に対して
Margin Loss
トレーニングインスタンス に対して最もスコアのものを探索
Max-Margin training の目的は最も高いスコアとなるタグ系列が正解と一致すること
Subgradien MethodRatliff et al., 2007最急降下の帰納法gradient-like direction を計算
目的関数の最小化 (Socher et al., 2013a) にならうAdaGrad (Duchi et al., 2011) を利用し
てみにバッチでパラメータを更新
上記の式から m training example に対しての正規化された目的関数 J(θ) を定義
下記式を最小化することで正しいタグ系列 のスコアが増加し、間違っているタグ系列 のスコアが減少する
05/03/2023 ACL 2015 読み会 @ 小町研 13
Training - Max-Margin training
Experiments ドメインの異なる二種類のテキストで実験
1. Newswire ( Web 上で配信されるニュース)
2. Micro-blog 評価
•一般的な Bakeoff scoring program•Precision, Recall, F1-score
05/03/2023 ACL 2015 読み会 @ 小町研 14
Experiments (Newswire) - データセット•PKU, MSRA• the second International Chinese Word Segmentation Bakeoff
(Emerson, 2005) で提供• Training set: train data 中の 90%• Development set : train data 中の 10%
•CTB6• Chinese TreeBank 6.0 (LDC2007T36) (Xue et al., 2005) による• 分かち書き、 POS タグ付け済み、選択的な形式主義において完全に構造化
されたコーパス• Training, Development, Test のデータセットの分割は (Yang and Xue,
2012) らにならう
→ 前処理:中国語の熟語、英字、数字 は特殊記号で置き換える
05/03/2023 ACL 2015 読み会 @ 小町研 15
Experiments (Newswire) - ハイパーパラメータbatch size: 20文字エンベディングサイズ• 計算機リソース、実験結果にお
ける underfit を考慮して決定
Dropout (Srivastava et al., 2014) • 過学習を避ける• 効率、パフォーマンスを考慮し
て右の rate にする
05/03/2023 ACL 2015 読み会 @ 小町研 16
Experiments(Newswire) - Layer-wise Training
05/03/2023 ACL 2015 読み会 @ 小町研 17
Layer-wise training の効果を調査
提案手法:window幅 5 ,recursion layer 5
異なる recursion layer で実験各モデルの収束スピードの比較
パフォーマンスの比較
Experiments (Newswire) - Layer-wise Training - F値の収束スピード
異なるレイヤー数、 layer-wise training を行ったかどうか
1 layer最後の線形スコア関数のみ利用非線形レイヤーがないため
underfit, 性能低い
5 layer 5 層利用し、全てのニューロンを利
用ただ単に学習すると遅い、性能低い
Layer-wise5 層利用しても F値の収束が早く,
性能も良い
05/03/2023 ACL 2015 読み会 @ 小町研 18
Experiments (Newswire) - Layer-wise Training - テストセットにおける評価PKU (test set) における性能評価
layer-wise training を利用した場合が常に一番良い結果
→ layer-wise を利用することで layer 数が増えても高い性能で安定する
05/03/2023 ACL 2015 読み会 @ 小町研 19
Results (Newswire)- Gated Recursive Architecture の効果
05/03/2023 ACL 2015 読み会 @ 小町研 20
Character Embedding (文字エンベディング)ランダム初期化
Gated Recursive Architecture の導入により性能向上
Results (Newswire)- pre-trained, bigram の効果
05/03/2023 ACL 2015 読み会 @ 小町研 21
文字embedding : ランダム初期化
文字 embedding : 中国語 Wikipedia ,word2vec で事前学習
bigram feature embedding の利用( Pei et al., 2014 )
Experiments(Micro-blog)データセット• NLPCC 2015 dataset1 (Qiu et al., 2015) • NLPCC 2015 のシェアドタスクで提供• Sina Weibo から抽出
• Training set : Training data 中の 90%• Development set : Training data 中の 10%• 比較的 informal なテキスト• 以下のような様々なトピックを含む
05/03/2023 ACL 2015 読み会 @ 小町研 22
Results (Micro-blog)
05/03/2023 ACL 2015 読み会 @ 小町研 23
提案手法(以下を利用)• pre-trained• bigram character
embeddings比較手法• FNLP3 (Qiu et al., 2013) • CRF++ toolkit (デフォル
ト)
ConclusionGated recursive neural network (GRNN) を提案し、 3 種のベンチマークセットで state-of-the-art を達成
GRNN 中の各ニューロンは入力文字列の複雑な組み合わせと見なせ、 traditional な手法における洗練された素性の選択を再現する能力があるといえる
中国語の単語分かち書きタスクは特殊になりうる(マイクロブログなど)が、提案モデルは簡単に適応させることができ、その他のラベリングタスクにおいても対応させることができる
将来的には、その他のラベリングタスクにおいても調査したい
05/03/2023 ACL 2015 読み会 @ 小町研 24