Segmenting Sponteneous Japanese using MDL principle

最小記述長原理に基づいた日本語話し言葉の単語分割

東京大学大学院　松原勇介豊橋技術科学大学　秋葉友良

東京大学/Univ. of Manchester/NaCTeM　辻井潤一

NLP2007 (2007-03-20)

2

本発表の概要N-gram言語モデル向けの教師なし単語分割法を提案

本研究が対象としている単語分割の説明提案手法の概要結果：形態素解析による分割を改善すること

に成功

3

背景

単語分割されたコーパス

生コーパ

ス

単語ベースN-gram

言語モデル

音声認識候補の順位付け

文書とクエリの類似度評価

うまい単語分割ができると、言語モデルやその応用システムの性能が向上する

目的：言語モデル性能の向上

4

ドメインへの特化

ドメイン向けに辞書を補充そのドメインの単語分割済みコーパスで教師あり学習そのドメインの生コーパスで言語モデルの性能指標を

最適化する教師なし学習

ドメインに特化した単語分割をする既存手法

N-gram言語モデルの性能はドメインに敏感

5

なぜ教師なし学習か作業コストが低い

辞書の作成、単語分割済みコーパスが不要形態素や人間の基準がよいとは限らない

区切りの与え方はドメイン次第 [よろしく][お][願い][し][ます] ？ [よ][ろ][し][く][お][願][い][し][ま][す] ？ [よろしくお願いします] ？

6

提案手法（学習）

1. 隣接して現れる2単語の対のうち、ある指標（コーパスの記述長）の減少幅が最大の組を連結する

2. 連結されたものを1単語とみなして、同じ手続きを繰り返す

仮の単語分割済みコーパス

(最初は文字分割など)

改良された単語分割済み

コーパス

3. 1.で減少する候補がなくなったら終了4. 連結した単語対を連結した順に出力する

7

何を最適化するか

言語モデルの性能指標そのもの

N=1の場合のみしか実現されていない

この基準のみでは、過学習に陥る

N-gram パープレキシティ

パープレキシティ＋辞書の符号長

N=2の場合の実用的な計算が可能になった

指標自身が過学習を防いでいる

N-gram 符号化による記述長(提案)

8

記述長の定義記述長はコーパスの符号長と辞書の符号長の和

− ∑w∈辞書

∑c∈w

log#辞書中の c語彙数

− ∑w1∈辞書

∑w2∈辞書

#w1w2 log#w1w2

#w1

コーパスの符号長

辞書の符号長

9

1ステップあたりの計算量

全単語対に対して、連結後の記述長を再計算する

→ O(延べ単語数ｘ語彙数 2)

素朴な方法

全単語対に対して、記述長の差分を計算する1つの単語対についての差分の計算は O(語彙数) で済む

→ O(延べ単語数+語彙数ｘ語彙数 2)

我々の方法

10

提案手法（適用）基本的には

学習で出力された連結手順をそのまま再現する

ヘルドアウトデータを用いて最適な連結数を決定する

連結手順すべてを適用すると、連結が起こりすぎて言語モデルの性能が悪化

予備実験の結果

11

動作例（初期分割：文字）

12

動作例（10ステップ後）

13


14


15

実験対話音声書き起こし文（約25万字）を使用

言語モデルの訓練　ヘルドアウト　評価19 ： 1 ：　1

次を比較形態素解析(MeCab)による分割文字を初期分割にした提案手法 MeCabを初期分割にした提案手法

2-gram言語モデルの文字あたりパープレキシティで性能を評価

16

文字当

たり

パー

プレ

キシ

ティ

提案手法（文字）

提案手法（形態素）

連結数

形態素解析

結果

17

文字当

たり

パー

プレ

キシ

ティ

提案手法（文字）

提案手法（形態素）

連結数

形態素解析

結果提案手法(形態素)は形態素解析の分割を改善したヘルドアウトにより最適値をほぼ予測できた

18

まとめ 2-gramパープレキシティを近似的に最適化す

る教師なし単語分割の手法を提案した文字当たりパープレキシティの観点で形態素解

析による分割を改善した

言語モデルの応用システムの性能の点でも本手法が有効かどうかを調べる

3-gram、およびそれ以上への手法の拡張

今後の課題

Education

Segmenting Sponteneous Japanese using MDL principle