機械学習を用いたニ格深層格の自動付与の検討

機械学習を用いたニ格深層格の自動付与の検討

○長岡技術科学大学電気系竹野峻輔

金沢大学松田真希子

長岡技術科学大学電気系梶原智之

長岡技術科学大学電気系山本和英

1

導入－研究背景・関連研究

機械翻訳・含意関係認識においては

計算機による意味の自動判定が必要

⇒ 深層格（体言と用言の関係）の理解

ニ格の出現頻度が高い［渋木ら 06］

ヲ格に次ぎ２番目の出現頻度である

Rule-basedの二格の深層格推定［田辺ら 09］

意味属性を人手で付与。

小規模コーパスでの深層格推定

2

導入－研究背景・関連研究

機械翻訳・含意関係認識においては

計算機による意味の自動判定が必要

⇒ 深層格（体言と用言の関係）の理解

ニ格の出現頻度が高い［渋木ら 06］

ヲ格に次ぎ２番目の出現頻度である

Rule-basedの二格の深層格推定［田辺ら 09］

意味属性を人手で付与。

小規模コーパスでの深層格推定

3

深層格の分類項目の共通見解がない

既存の分類項目では網羅性が不十分

[松田ら12,14]による分類項目の提案日本語学／言語学に基づき、専門家による項目の選定

12 種類の深層格分類項目

［時間］［場所］［結果］［対象］［動作主］［目的］［役割］［頻度］［副詞化］［複合辞］［起点］［その他］

導入－先行研究

e.g) 8時に起きる［時間］、医者になる［結果］映画を見に行く［目的］、東京に行く［場所］

4

導入－本研究における目的

12種の深層格分類項目の自動付与

３種類の大規模コーパスを使った分類器を構築

BCCWJ

– 書き言葉均衡コーパス

京都大学テキストコーパス– 情報が付与された新聞記事コーパス

Web日本語Nグラム– Web上の高頻度n-gramコーパス

e.g) 8時に起きる［時間］、医者になる［結果］映画を見に行く［目的］、東京に行く［場所］

5

分類器の構築 – 流れ

① 分類器の選定

② 素性抽出

③ 汎化処理

④ 素性選択

⑤ 評価

6



② 素性抽出

③ 汎化処理

④ 素性選択

⑤ 評価

ナイーブベイズ分類器

7

分類器の構築 – 分類器の選定

• ナイーブベイズ分類器

– 軽量かつ高速な学習が可能

– 頻度情報に基づいたモデルの分析が可能

𝑛𝑓,𝑐 ∶分類項目𝑐と素性𝑓の共起頻度

𝑛𝑐 ∶分類項目𝑐と出現頻度

𝛼:平滑化パラメータ(1で固定)

𝐹:素性集合, 𝐶:分類項目集合𝑃(𝑐|𝐹) = 𝑃 𝑐 𝑃 𝐹 𝑐

= 𝑝𝑐 𝑝𝑓,𝑐𝛿𝑓 ∙ 1 − 𝑝𝑓,𝑐

1−𝛿𝑓

𝑓∈𝐹

𝑝𝑓,𝑐 =𝑛𝑓,𝑐 + 𝛼

𝑛𝑐𝑐∈𝐶 + 2𝛼,

　𝑝𝑐 =𝑛𝑐 + 𝛼

𝑛𝑐𝑐∈𝐶 + 𝛼|𝐶|

𝑐 = argmax𝑐𝑃(𝑐|𝐹)

8



② 素性抽出

③ 汎化処理

④ 素性選択

⑤ 評価


係り元文節および係先文節の抽出

9

係り受け・形態素解析結果から下記素性を抽出

仮説：

深層格は前接の体言と後接の用言で決まる

係り元文節全ての形態素※

係り先文節サ変接続名詞・動詞・形容詞形容動詞・副詞・助動詞

以上より原形および品詞・品詞細分類活用形・IREXタグを抽出

分類器の構築 – 素性の抽出

※判定に必要ないまた雑音となる形態素を除去記号、フィラー、接頭詞、助詞などその他数値表現の均一化

10



② 素性抽出

③ 汎化処理

④ 素性選択

⑤ 評価



日本語語彙大系による名詞の汎化

11

名詞

具体

人<職業>

人

<役割>

抽象主体

• 日本語語彙大系を利用した名詞の汎化を行う

適当な深さNを定め、その位置の意味属性を取り出す

学生

医者

深さ 1

深さ 2

深さ6

分類器の構築 – 名詞素性の汎化

汎化の深さ

学生になる[結果]

医者になる[結果]

12

名詞

具体

人<職業>

人

<役割>

抽象主体



学生

医者

深さ 1

深さ 2

深さ6


汎化の深さ

人<職業> になる

学生になる[結果]

医者になる[結果]

13

名詞

具体

人<職業>

人

<役割>

抽象主体



学生

医者

深さ 1

深さ 2

深さ6


汎化の深さ

学習効率

-未知の名詞対応可

-正答率向上が期待

14



② 素性抽出

③ 汎化処理

④ 素性選択

⑤ 評価




tfidfによる閾値基準

15

分類器の構築 – 素性選択

tfidf を用いた素性選択

出現頻度が高く、限られた深層格でのみ

出現する素性ほど高くなる

scoreが閾値以下の素性 f を削除することで素性選択

𝑡𝑓𝑐,𝑓 =log2 𝑛𝑐,𝑓log2 𝑛𝑐

,　 𝑖𝑑𝑓𝑓 = log2(𝐶

𝑑𝑓𝑓) + 1

𝑡𝑓𝑖𝑑𝑓𝑐,𝑓 = 𝑡𝑓𝑐,𝑓 ∙ 𝑖𝑑𝑓𝑓

𝑠𝑐𝑜𝑟𝑒 𝑓 = max𝑐∈𝐶 𝑡𝑓𝑖𝑑𝑓𝑐,𝑓

𝑛𝑓,𝑐 ∶分類項目𝑐と素性𝑓の共起頻度

𝑛𝑐 ∶分類項目𝑐と出現頻度

𝑑𝑓𝑓:素性𝑓の出現する深層格種類数

16

tfidf による素性の評価



② 素性抽出

③ 汎化処理

④ 素性選択

⑤ 評価




tfidfによる閾値基準

F値, 正答率

17

訓練セット

• BCCWJ – 9,970件– 書き言葉均衡コーパス(ランダム抽出)

• 京都大学テキストコーパス – 9,743件– 情報が付与された新聞中の文章コーパス (ランダム抽出)

• Web日本語Nグラム – 9,826件– Web上の高頻度n-gram コーパス (7-gram 高頻度順抽出)

評価セット

• 評価用コーパス – 1,086件※文体、世代や位相の代表性を有するように下記情報源から抽出

青空文庫, 読売新聞, アメーバブログ, Wikipedia, 論文, 論文抄録, サイゾーウーマン, サイゾー, Twitter

分類器の構築 – 利用するコーパス 18

分類器の構築 – 評価

正答率： 𝑆𝑎𝑣𝑒 =分類正解数

評価コーパスのデータ数

精度： 𝑃𝑐 =𝑐と予測したうちの正解数

深層格𝑐 と予測した数,

再現率: 𝑅𝑐 =𝑐と予測したうちの正解数

評価コーパス中の深層格𝑐である数

F値：𝐹𝑐 =2𝑃𝑐𝑅𝑐𝑃𝑐 + 𝑅𝑐

深層格ごとの結果比較→Ｆ値

コーパスの結果比較→正答率

19

分類器構築の検討– 流れ

① tfidf の閾値の検討

② ３種のコーパスの比較

③ 誤り分析

20




③ 誤り分析

21

tfidf閾値によるＦ値・正答率の変化

0%

20%

40%

60%

80%

100%

0 0.3 0.6 0.9 1.2 1.5

[時間］［場所］［結果］［対象］［動作主］

［目的］［役割］［その他］［頻度］［副詞］

［複合辞］［起点］正答率

正答率

tfidf の閾値

全体の正答率

[%],

各深層格の

F値

[%] tfidf の閾値の変化による

正答率の改善を検討する

BCCWJ 汎化の深さ5

22


61%

0%

20%

40%

60%

80%

100%

0 0.3 0.6 0.9 1.2 1.5




正答率

tfidf の閾値

全体の正答率

[%],

各深層格の

F値

[%] tfidfの閾値の変化による

正答率の改善を検討する

BCCWJ 汎化の深さ5閾値の変化により正答率は大きな改善は無ししかし推定に必要な素性は少ない（142/7489）

23

0%

20%

40%

60%

80%

100%

0 0.3 0.6 0.9 1.2 1.5





tfidf の閾値の変化による正答率の改善を検討する


正答率

tfidf の閾値

全体の正答率

[%],

各深層格の

F値

[%]

正答率の傾向は［対象］のF値の傾向と一致［対象］の割合が最も多いため

対象

24


TFIDFの閾値の変化による正答率の改善を検討する

tfidf 閾値によるＦ値・正答率の変化

0%

20%

40%

60%

80%

100%

0 0.3 0.6 0.9 1.2 1.5




正答率

tfidf の閾値

全体の正答率

[%],

各深層格の

F値

[%]

結果

副詞

副詞・複合辞・結果（約3割）は改善傾向あり⇒閾値による余分な素性が削除された

複合辞

25




③ 誤り分析

26

コーパス同士の比較

訓練セット

BCCWJ 京大 Nグラム

評価セット

BCCWJ 67% 62% 55%

京大 66% 74% 59%

Nグラム 59% 67% 78%

評価用コーパス 67%

66% 53%

訓練事例数：8500件

評価事例数：1086件

汎化の深さ：0 ～ 15,

tfidfの閾値 : 0～1.5

最大値を抽出

※京大：京都大学テキストコーパスNグラム : Web日本語Nグラム

として評価

３種のコーパスについて分類器の正答率を検証

27


訓練セット


評価セット

BCCWJ 67% 62% 55%

京大 66% 74% 59%

Nグラム 59% 67% 78%


66% 53%



汎化の深さ：0 ～ 15,


最大値を抽出


として評価


28

対評価用（未知の事例）：

BCCWJ(67%)ベースライン：

[対象]の割合(41%)


訓練セット


評価セット

BCCWJ 67% 62% 55%

京大 66% 74% 59%

Nグラム 59% 67% 78%


66% 53%



汎化の深さ：0 ～ 15,


最大値を抽出


として評価


29

対評価用（未知の事例）：

BCCWJ(67%)ベースライン：

[対象]の割合(41%)

BCCWJ は均衡コーパスのため評価用コーパスと近似性が高い




③ 誤り分析

30

誤り分析

［対象］以外を［対象］と誤判定（148/360）

e.g) … 壊滅に追い込まれ、一家離散した［結果］→ [対象]

壊滅追い込まれるが訓練コーパスに含まれない

未知の単語に効果的な素性が抽出できていないことに起因• 素性抽出(n-gram 等) 、汎化方法の再考。棄却オプションの導入

［複合辞］［副詞化］［結果］の誤判定（84/360 ）

e.g) … モデルによる分析に加え … ［複合辞］→ ［動作主］

… 具体的に話すと … ［副詞化］→ ［対象］

一定の構文パターンを持つが、他の素性の影響で誤判定

• 構文パターンを予め記憶し、照合することで改善可

BCCWJの誤り件数 360/1086件において

※以上の誤り件数で202/360を占める

31

結論

• ニ格の深層格の自動付与を検討–大規模コーパスを利用した12種の自動分類

–日本語語彙大系による汎化

– tfidf を基準とした素性選択

• 分類器の構築の検討– tfidf を使った正答率の改善効果は低い

– 最大性能は訓練セットBCCWJで最高67％

• 今後の課題– 異なる素性抽出方法の再考の必要性

– 構文パターンの適応で改善可能

32

33

Science

機械学習を用いたニ格深層格の自動付与の検討