読解支援@2015 06-12

Preview:

Citation preview

 辞書定義文を用いた二字漢語の  

言い換え表現の生成.    萩行正嗣,  黒橋禎夫.  

言語処理学会第15回年次大会  発表論文集,  pp.256-­‐259,  2009.

 プレゼンテーション  

関沢祐樹

2015/06/12 1

概要

•  どのような問題を解いたのか  –  JUMAN基本語辞書の登録語彙数は約3万  – 意味情報を記載するには多すぎる  

•  どうやって解いたのか  – 語の意味を他の語で表現する  – 半数が二字漢語であることを利用する  •  語構成漢字と辞書定義文から、言い換え表現を自動生成  •  その過程で、逐次的に語構成漢字の言い換え表現を獲得

2015/06/12 2

提案手法1

•  語構成漢字と辞書定義文の対応付け  – 例  水鳥:川や湖の水辺にすむ鳥。  

1.  辞書定義文をJUMAN・KNPを用いて、形態素解析、構文解析  

2015/06/12 3

提案手法1

•  語構成漢字と辞書定義文の対応付け  – 例  水鳥:川や湖の水辺にすむ鳥。  

2.自立語のうち、各語構成漢字に対応する語の探索  

2015/06/12 4

提案手法1

•  語構成漢字と辞書定義文の対応付け  – 例  水鳥:川や湖の水辺にすむ鳥。  

3.定義文主辞に到達する係り受けを言い換え表現                   

2015/06/12 5

提案手法2

•  ブートストラップによる語構成漢字の言い換えパターンの獲得  – 提案手法1で獲得できない言い換えの獲得  – 例    “疾”の言い換えを探索  

1.二字漢語の言い換え生成  悪疾  :  たちの悪い病気  疾風  :  速く吹く風  廃疾  :  不治の病気  

2015/06/12 6

提案手法2

2.未対応語構成漢字と自立語を全て組み合わせ  

2015/06/12 7

提案手法2

3.個々の語構成漢字に対し、言い換えパターン   らしさ  ”score”  を出現回数をもとに計算  

2015/06/12 8

提案手法2

4.候補のscore  、出現回数がそれぞれの閾値より   大きいものを言い換えパターンとする                  疾→病気を獲得  

2015/06/12 9

提案手法2

5.新たに獲得した言い換えパターンを加えて、   1〜4を繰り返す  

 反復するごとに、獲得できる言い換えは減少    獲得された  語構成言い換え  パターンの数は  右表の通り  

2015/06/12 10

実験設定

•  岩波国語辞典の二字漢語26,157語を対象  •  辞書定義文の一文目のみ使用  – 補足的説明を外すため  

•  評価対象  –  JUMANの15,523語が二字漢語  – そのうち、岩波国語辞典に存在  :  13,281語  – 手法2のスコア閾値:0.5、出現回数閾値:3  

2015/06/12 11

生成された言い換えパターン

•  ブートストラップを用いて獲得された    言い換えパターンを利用した場合:反復回数  – 全体の1/3を言い換え  

   

                                                                                                           約10%増加

2015/06/12 12

終わりに

•  提案手法  – 二字漢語の語構成漢字を利用した    辞書定義文からの言い換え表現生成  –  JUMANの二字漢語の約1/3を言い換え生成  – 語構成漢字の言い換えパターンを獲得  

•  今後に向けて  – 生成できなかった二字漢語の言い換え生成  – 語構成が構成的でない語の意味表現の検討

2015/06/12 13

Recommended