Upload
sekizawayuuki
View
86
Download
3
Embed Size (px)
Citation preview
辞書定義文を用いた二字漢語の
言い換え表現の生成. 萩行正嗣, 黒橋禎夫.
言語処理学会第15回年次大会 発表論文集, pp.256-‐259, 2009.
プレゼンテーション
関沢祐樹
2015/06/12 1
概要
• どのような問題を解いたのか – JUMAN基本語辞書の登録語彙数は約3万 – 意味情報を記載するには多すぎる
• どうやって解いたのか – 語の意味を他の語で表現する – 半数が二字漢語であることを利用する • 語構成漢字と辞書定義文から、言い換え表現を自動生成 • その過程で、逐次的に語構成漢字の言い換え表現を獲得
2015/06/12 2
提案手法1
• 語構成漢字と辞書定義文の対応付け – 例 水鳥:川や湖の水辺にすむ鳥。
1. 辞書定義文をJUMAN・KNPを用いて、形態素解析、構文解析
2015/06/12 3
提案手法1
• 語構成漢字と辞書定義文の対応付け – 例 水鳥:川や湖の水辺にすむ鳥。
2.自立語のうち、各語構成漢字に対応する語の探索
2015/06/12 4
提案手法1
• 語構成漢字と辞書定義文の対応付け – 例 水鳥:川や湖の水辺にすむ鳥。
3.定義文主辞に到達する係り受けを言い換え表現
2015/06/12 5
提案手法2
• ブートストラップによる語構成漢字の言い換えパターンの獲得 – 提案手法1で獲得できない言い換えの獲得 – 例 “疾”の言い換えを探索
1.二字漢語の言い換え生成 悪疾 : たちの悪い病気 疾風 : 速く吹く風 廃疾 : 不治の病気
2015/06/12 6
提案手法2
2.未対応語構成漢字と自立語を全て組み合わせ
2015/06/12 7
提案手法2
3.個々の語構成漢字に対し、言い換えパターン らしさ ”score” を出現回数をもとに計算
2015/06/12 8
提案手法2
4.候補のscore 、出現回数がそれぞれの閾値より 大きいものを言い換えパターンとする 疾→病気を獲得
2015/06/12 9
提案手法2
5.新たに獲得した言い換えパターンを加えて、 1〜4を繰り返す
反復するごとに、獲得できる言い換えは減少 獲得された 語構成言い換え パターンの数は 右表の通り
2015/06/12 10
実験設定
• 岩波国語辞典の二字漢語26,157語を対象 • 辞書定義文の一文目のみ使用 – 補足的説明を外すため
• 評価対象 – JUMANの15,523語が二字漢語 – そのうち、岩波国語辞典に存在 : 13,281語 – 手法2のスコア閾値:0.5、出現回数閾値:3
2015/06/12 11
生成された言い換えパターン
• ブートストラップを用いて獲得された 言い換えパターンを利用した場合:反復回数 – 全体の1/3を言い換え
約10%増加
2015/06/12 12
終わりに
• 提案手法 – 二字漢語の語構成漢字を利用した 辞書定義文からの言い換え表現生成 – JUMANの二字漢語の約1/3を言い換え生成 – 語構成漢字の言い換えパターンを獲得
• 今後に向けて – 生成できなかった二字漢語の言い換え生成 – 語構成が構成的でない語の意味表現の検討
2015/06/12 13