Upload
tomoyuki-kajiwara
View
130
Download
0
Embed Size (px)
Citation preview
機械学習を用いたニ格深層格の自動付与の検討
○長岡技術科学大学 電気系 竹野峻輔
金沢大学 松田真希子
長岡技術科学大学 電気系 梶原智之
長岡技術科学大学 電気系 山本和英
1
導入-研究背景・関連研究
機械翻訳・含意関係認識においては
計算機による意味の自動判定が必要
⇒ 深層格(体言と用言の関係)の理解
ニ格の出現頻度が高い[渋木ら 06]
ヲ格に次ぎ2番目の出現頻度である
Rule-basedの二格の深層格推定[田辺ら 09]
意味属性を人手で付与。
小規模コーパスでの深層格推定
2
導入-研究背景・関連研究
機械翻訳・含意関係認識においては
計算機による意味の自動判定が必要
⇒ 深層格(体言と用言の関係)の理解
ニ格の出現頻度が高い[渋木ら 06]
ヲ格に次ぎ2番目の出現頻度である
Rule-basedの二格の深層格推定[田辺ら 09]
意味属性を人手で付与。
小規模コーパスでの深層格推定
3
深層格の分類項目の共通見解がない
既存の分類項目では網羅性が不十分
[松田ら12,14]による分類項目の提案日本語学/言語学に基づき、専門家による項目の選定
12 種類の深層格分類項目
[時間][場所][結果][対象] [動作主][目的][役割][頻度][副詞化][複合辞][起点][その他]
導入-先行研究
e.g) 8時に起きる[時間]、医者になる[結果] 映画を見に行く[目的]、東京に行く[場所]
4
導入-本研究における目的
12種の深層格分類項目の自動付与
3種類の大規模コーパスを使った分類器を構築
BCCWJ
– 書き言葉均衡コーパス
京都大学テキストコーパス– 情報が付与された新聞記事コーパス
Web日本語Nグラム– Web上の 高頻度n-gramコーパス
e.g) 8時に起きる[時間]、医者になる[結果] 映画を見に行く[目的]、東京に行く[場所]
5
分類器の構築 – 流れ
① 分類器の選定
② 素性抽出
③ 汎化処理
④ 素性選択
⑤ 評価
6
分類器の構築 – 流れ
① 分類器の選定
② 素性抽出
③ 汎化処理
④ 素性選択
⑤ 評価
ナイーブベイズ分類器
7
分類器の構築 – 分類器の選定
• ナイーブベイズ分類器
– 軽量かつ高速な学習が可能
– 頻度情報に基づいたモデルの分析が可能
𝑛𝑓,𝑐 ∶分類項目𝑐と素性𝑓の共起頻度
𝑛𝑐 ∶分類項目𝑐と出現頻度
𝛼:平滑化パラメータ(1で固定)
𝐹:素性集合, 𝐶:分類項目集合𝑃(𝑐|𝐹) = 𝑃 𝑐 𝑃 𝐹 𝑐
= 𝑝𝑐 𝑝𝑓,𝑐𝛿𝑓 ∙ 1 − 𝑝𝑓,𝑐
1−𝛿𝑓
𝑓∈𝐹
𝑝𝑓,𝑐 =𝑛𝑓,𝑐 + 𝛼
𝑛𝑐𝑐∈𝐶 + 2𝛼,
𝑝𝑐 =𝑛𝑐 + 𝛼
𝑛𝑐𝑐∈𝐶 + 𝛼|𝐶|
𝑐 = argmax𝑐𝑃(𝑐|𝐹)
8
分類器の構築 – 流れ
① 分類器の選定
② 素性抽出
③ 汎化処理
④ 素性選択
⑤ 評価
ナイーブベイズ分類器
係り元文節および係先文節の抽出
9
係り受け・形態素解析結果から下記素性を抽出
仮説:
深層格は前接の体言と後接の用言で決まる
係り元文節全ての形態素※
係り先文節サ変接続名詞・動詞・形容詞 形容動詞・副詞・助動詞
以上より原形および品詞・品詞細分類活用形・IREXタグ を抽出
分類器の構築 – 素性の抽出
※判定に必要ないまた雑音となる形態素を除去 記号、フィラー、接頭詞、助詞など その他数値表現の均一化
10
分類器の構築 – 流れ
① 分類器の選定
② 素性抽出
③ 汎化処理
④ 素性選択
⑤ 評価
ナイーブベイズ分類器
係り元文節および係先文節の抽出
日本語語彙大系による名詞の汎化
11
名詞
具体
人<職業>
人
<役割>
抽象主体
• 日本語語彙大系を利用した名詞の汎化を行う
適当な深さNを定め、その位置の意味属性を取り出す
学生
医者
深さ 1
深さ 2
深さ6
分類器の構築 – 名詞素性の汎化
汎化の深さ
学生になる[結果]
医者になる[結果]
12
名詞
具体
人<職業>
人
<役割>
抽象主体
• 日本語語彙大系を利用した名詞の汎化を行う
適当な深さNを定め、その位置の意味属性を取り出す
学生
医者
深さ 1
深さ 2
深さ6
分類器の構築 – 名詞素性の汎化
汎化の深さ
人<職業> になる
学生になる[結果]
医者になる[結果]
13
名詞
具体
人<職業>
人
<役割>
抽象主体
• 日本語語彙大系を利用した名詞の汎化を行う
適当な深さNを定め、その位置の意味属性を取り出す
学生
医者
深さ 1
深さ 2
深さ6
分類器の構築 – 名詞素性の汎化
汎化の深さ
学習効率
-未知の名詞対応可
-正答率向上が期待
14
分類器の構築 – 流れ
① 分類器の選定
② 素性抽出
③ 汎化処理
④ 素性選択
⑤ 評価
ナイーブベイズ分類器
係り元文節および係先文節の抽出
日本語語彙大系による名詞の汎化
tfidfによる閾値基準
15
分類器の構築 – 素性選択
tfidf を用いた素性選択
出現頻度が高く、限られた深層格でのみ
出現する素性ほど高くなる
scoreが閾値以下の素性 f を削除することで素性選択
𝑡𝑓𝑐,𝑓 =log2 𝑛𝑐,𝑓log2 𝑛𝑐
, 𝑖𝑑𝑓𝑓 = log2(𝐶
𝑑𝑓𝑓) + 1
𝑡𝑓𝑖𝑑𝑓𝑐,𝑓 = 𝑡𝑓𝑐,𝑓 ∙ 𝑖𝑑𝑓𝑓
𝑠𝑐𝑜𝑟𝑒 𝑓 = max𝑐∈𝐶 𝑡𝑓𝑖𝑑𝑓𝑐,𝑓
𝑛𝑓,𝑐 ∶分類項目𝑐と素性𝑓の共起頻度
𝑛𝑐 ∶分類項目𝑐と出現頻度
𝑑𝑓𝑓:素性𝑓の出現する深層格種類数
16
tfidf による素性の評価
分類器の構築 – 流れ
① 分類器の選定
② 素性抽出
③ 汎化処理
④ 素性選択
⑤ 評価
ナイーブベイズ分類器
係り元文節および係先文節の抽出
日本語語彙大系による名詞の汎化
tfidfによる閾値基準
F値, 正答率
17
訓練セット
• BCCWJ – 9,970件– 書き言葉均衡コーパス(ランダム抽出)
• 京都大学テキストコーパス – 9,743件– 情報が付与された新聞中の文章コーパス (ランダム抽出)
• Web日本語Nグラム – 9,826件– Web上の 高頻度n-gram コーパス (7-gram 高頻度順抽出)
評価セット
• 評価用コーパス – 1,086件※文体、世代や位相の代表性を有するように下記情報源から抽出
青空文庫, 読売新聞, アメーバブログ, Wikipedia, 論文, 論文抄録, サイゾー ウーマン, サイゾー, Twitter
分類器の構築 – 利用するコーパス 18
分類器の構築 – 評価
正答率: 𝑆𝑎𝑣𝑒 =分類正解数
評価コーパスのデータ数
精度: 𝑃𝑐 =𝑐と予測したうちの正解数
深層格𝑐 と予測した数,
再現率: 𝑅𝑐 =𝑐と予測したうちの正解数
評価コーパス中の深層格𝑐である数
F値:𝐹𝑐 =2𝑃𝑐𝑅𝑐𝑃𝑐 + 𝑅𝑐
深層格ごとの結果比較→F値
コーパスの結果比較→正答率
19
分類器構築の検討– 流れ
① tfidf の閾値の検討
② 3種のコーパスの比較
③ 誤り分析
20
分類器構築の検討– 流れ
① tfidf の閾値の検討
② 3種のコーパスの比較
③ 誤り分析
21
tfidf閾値によるF値・正答率の変化
0%
20%
40%
60%
80%
100%
0 0.3 0.6 0.9 1.2 1.5
[時間] [場所] [結果] [対象] [動作主]
[目的] [役割] [その他] [頻度] [副詞]
[複合辞] [起点] 正答率
正答率
tfidf の閾値
全体の正答率
[%],
各深層格の
F値
[%] tfidf の閾値の変化による
正答率の改善を検討する
BCCWJ 汎化の深さ5
22
tfidf閾値によるF値・正答率の変化
61%
0%
20%
40%
60%
80%
100%
0 0.3 0.6 0.9 1.2 1.5
[時間] [場所] [結果] [対象] [動作主]
[目的] [役割] [その他] [頻度] [副詞]
[複合辞] [起点] 正答率
正答率
tfidf の閾値
全体の正答率
[%],
各深層格の
F値
[%] tfidfの閾値の変化による
正答率の改善を検討する
BCCWJ 汎化の深さ5閾値の変化により正答率は大きな改善は無ししかし推定に必要な素性は少ない(142/7489)
23
0%
20%
40%
60%
80%
100%
0 0.3 0.6 0.9 1.2 1.5
[時間] [場所] [結果] [対象] [動作主]
[目的] [役割] [その他] [頻度] [副詞]
[複合辞] [起点] 正答率
BCCWJ 汎化の深さ5
tfidf の閾値の変化による正答率の改善を検討する
tfidf閾値によるF値・正答率の変化
正答率
tfidf の閾値
全体の正答率
[%],
各深層格の
F値
[%]
正答率の傾向は[対象]のF値の傾向と一致[対象]の割合が最も多いため
対象
24
BCCWJ 汎化の深さ5
TFIDFの閾値の変化による正答率の改善を検討する
tfidf 閾値によるF値・正答率の変化
0%
20%
40%
60%
80%
100%
0 0.3 0.6 0.9 1.2 1.5
[時間] [場所] [結果] [対象] [動作主]
[目的] [役割] [その他] [頻度] [副詞]
[複合辞] [起点] 正答率
正答率
tfidf の閾値
全体の正答率
[%],
各深層格の
F値
[%]
結果
副詞
副詞・複合辞・結果(約3割)は改善傾向あり⇒閾値による余分な素性が削除された
複合辞
25
分類器構築の検討– 流れ
① tfidf の閾値の検討
② 3種のコーパスの比較
③ 誤り分析
26
コーパス同士の比較
訓練セット
BCCWJ 京大 Nグラム
評価セット
BCCWJ 67% 62% 55%
京大 66% 74% 59%
Nグラム 59% 67% 78%
評価用コーパス 67%
66% 53%
訓練事例数:8500件
評価事例数:1086件
汎化の深さ:0 ~ 15,
tfidfの閾値 : 0~1.5
最大値を抽出
※京大:京都大学テキストコーパスNグラム : Web日本語Nグラム
として評価
3種のコーパスについて分類器の正答率を検証
27
コーパス同士の比較
訓練セット
BCCWJ 京大 Nグラム
評価セット
BCCWJ 67% 62% 55%
京大 66% 74% 59%
Nグラム 59% 67% 78%
評価用コーパス 67%
66% 53%
訓練事例数:8500件
評価事例数:1086件
汎化の深さ:0 ~ 15,
tfidfの閾値 : 0~1.5
最大値を抽出
※京大:京都大学テキストコーパスNグラム : Web日本語Nグラム
として評価
3種のコーパスについて分類器の正答率を検証
28
対評価用(未知の事例):
BCCWJ(67%)ベースライン:
[対象]の割合(41%)
コーパス同士の比較
訓練セット
BCCWJ 京大 Nグラム
評価セット
BCCWJ 67% 62% 55%
京大 66% 74% 59%
Nグラム 59% 67% 78%
評価用コーパス 67%
66% 53%
訓練事例数:8500件
評価事例数:1086件
汎化の深さ:0 ~ 15,
tfidfの閾値 : 0~1.5
最大値を抽出
※京大:京都大学テキストコーパスNグラム : Web日本語Nグラム
として評価
3種のコーパスについて分類器の正答率を検証
29
対評価用(未知の事例):
BCCWJ(67%)ベースライン:
[対象]の割合(41%)
BCCWJ は均衡コーパスのため評価用コーパスと近似性が高い
分類器構築の検討– 流れ
① tfidf の閾値の検討
② 3種のコーパスの比較
③ 誤り分析
30
誤り分析
[対象]以外を[対象]と誤判定(148/360)
e.g) … 壊滅 に 追い込まれ、一家離散した[結果]→ [対象]
壊滅 追い込まれる が訓練コーパスに含まれない
未知の単語に効果的な素性が抽出できていないことに起因• 素性抽出(n-gram 等) 、汎化方法の再考。棄却オプションの導入
[複合辞][副詞化][結果]の誤判定(84/360 )
e.g) … モデル に よる分析に加え … [複合辞]→ [動作主]
… 具体的 に話すと … [副詞化]→ [対象]
一定の構文パターンを持つが、他の素性の影響で誤判定
• 構文パターンを予め記憶し、照合することで改善可
BCCWJの誤り件数 360/1086件において
※以上の誤り件数で202/360を占める
31
結論
• ニ格の深層格の自動付与を検討–大規模コーパスを利用した12種の自動分類
–日本語語彙大系による汎化
– tfidf を基準とした素性選択
• 分類器の構築の検討– tfidf を使った正答率の改善効果は低い
– 最大性能は訓練セットBCCWJで最高67%
• 今後の課題– 異なる素性抽出方法の再考の必要性
– 構文パターンの適応で改善可能
32
33