Upload
yusuke-matsubara
View
788
Download
2
Embed Size (px)
Citation preview
最小記述長原理に基づいた日本語話し言葉の単語分割
東京大学大学院 松原勇介豊橋技術科学大学 秋葉友良
東京大学/Univ. of Manchester/NaCTeM 辻井潤一
NLP2007 (2007-03-20)
2
本発表の概要N-gram言語モデル向けの教師なし単語分割法を提案
本研究が対象としている単語分割の説明 提案手法の概要 結果:形態素解析による分割を改善すること
に成功
3
背景
単語分割されたコーパス
生コーパ
ス
単語ベースN-gram
言語モデル
音声認識候補の順位付け
文書とクエリの類似度評価
うまい単語分割ができると、言語モデルやその応用システムの性能が向上する
目的: 言語モデル性能の向上
4
ドメインへの特化
ドメイン向けに辞書を補充 そのドメインの単語分割済みコーパスで教師あり学習 そのドメインの生コーパスで言語モデルの性能指標を
最適化する教師なし学習
ドメインに特化した単語分割をする既存手法
N-gram言語モデルの性能はドメインに敏感
5
なぜ教師なし学習か 作業コストが低い
辞書の作成、単語分割済みコーパスが不要 形態素や人間の基準がよいとは限らない
区切りの与え方はドメイン次第 [よろしく][お][願い][し][ます] ? [よ][ろ][し][く][お][願][い][し][ま][す] ? [よろしくお願いします] ?
6
提案手法(学習)
1. 隣接して現れる2単語の対のうち、ある指標(コーパスの記述長)の減少幅が最大の組を連結する
2. 連結されたものを1単語とみなして、同じ手続きを繰り返す
仮の単語分割済みコーパス
(最初は文字分割など)
改良された単語分割済み
コーパス
3. 1.で減少する候補がなくなったら終了4. 連結した単語対を連結した順に出力する
7
何を最適化するか
言語モデルの性能指標そのもの
N=1の場合のみしか実現されていない
この基準のみでは、過学習に陥る
N-gram パープレキシティ
パープレキシティ+辞書の符号長
N=2の場合の実用的な計算が可能になった
指標自身が過学習を防いでいる
N-gram 符号化による記述長(提案)
8
記述長の定義記述長は コーパスの符号長 と 辞書の符号長 の和
− ∑w∈辞書
∑c∈w
log#辞書中の c語彙数
− ∑w1∈辞書
∑w2∈辞書
#w1w2 log#w1w2
#w1
コーパスの符号長
辞書の符号長
9
1ステップあたりの計算量
全単語対に対して、連結後の記述長を再計算する
→ O(延べ単語数x語彙数 2)
素朴な方法
全単語対に対して、記述長の差分を計算する1つの単語対についての差分の計算は O(語彙数) で済む
→ O(延べ単語数+語彙数x語彙数 2)
我々の方法
10
提案手法(適用)基本的には
学習で出力された連結手順をそのまま再現する
ヘルドアウトデータを用いて最適な連結数を決定する
連結手順すべてを適用すると、連結が起こりすぎて言語モデルの性能が悪化
予備実験の結果
11
動作例(初期分割:文字)
12
動作例(10ステップ後)
13
動作例(100ステップ後)
14
動作例(1000ステップ後)
15
実験 対話音声書き起こし文(約25万字)を使用
言語モデルの訓練 ヘルドアウト 評価19 : 1 : 1
次を比較 形態素解析(MeCab)による分割 文字を初期分割にした提案手法 MeCabを初期分割にした提案手法
2-gram言語モデルの文字あたりパープレキシティで性能を評価
16
文字当
たり
パー
プレ
キシ
ティ
提案手法(文字)
提案手法(形態素)
連結数
形態素解析
結果
17
文字当
たり
パー
プレ
キシ
ティ
提案手法(文字)
提案手法(形態素)
連結数
形態素解析
結果 提案手法(形態素)は形態素解析の分割を改善した ヘルドアウトにより最適値をほぼ予測できた
18
まとめ 2-gramパープレキシティを近似的に最適化す
る教師なし単語分割の手法を提案した 文字当たりパープレキシティの観点で形態素解
析による分割を改善した
言語モデルの応用システムの性能の点でも本手法が有効かどうかを調べる
3-gram、およびそれ以上への手法の拡張
今後の課題