13
辞書定義文を用いた二字漢語の 言い換え表現の生成. 萩行正嗣, 黒橋禎夫. 言語処理学会第15回年次大会 発表論文集, pp.256259, 2009. プレゼンテーション 関沢祐樹 2015/06/12 1

読解支援@2015 06-12

Embed Size (px)

Citation preview

Page 1: 読解支援@2015 06-12

 辞書定義文を用いた二字漢語の  

言い換え表現の生成.    萩行正嗣,  黒橋禎夫.  

言語処理学会第15回年次大会  発表論文集,  pp.256-­‐259,  2009.

 プレゼンテーション  

関沢祐樹

2015/06/12 1

Page 2: 読解支援@2015 06-12

概要

•  どのような問題を解いたのか  –  JUMAN基本語辞書の登録語彙数は約3万  – 意味情報を記載するには多すぎる  

•  どうやって解いたのか  – 語の意味を他の語で表現する  – 半数が二字漢語であることを利用する  •  語構成漢字と辞書定義文から、言い換え表現を自動生成  •  その過程で、逐次的に語構成漢字の言い換え表現を獲得

2015/06/12 2

Page 3: 読解支援@2015 06-12

提案手法1

•  語構成漢字と辞書定義文の対応付け  – 例  水鳥:川や湖の水辺にすむ鳥。  

1.  辞書定義文をJUMAN・KNPを用いて、形態素解析、構文解析  

2015/06/12 3

Page 4: 読解支援@2015 06-12

提案手法1

•  語構成漢字と辞書定義文の対応付け  – 例  水鳥:川や湖の水辺にすむ鳥。  

2.自立語のうち、各語構成漢字に対応する語の探索  

2015/06/12 4

Page 5: 読解支援@2015 06-12

提案手法1

•  語構成漢字と辞書定義文の対応付け  – 例  水鳥:川や湖の水辺にすむ鳥。  

3.定義文主辞に到達する係り受けを言い換え表現                   

2015/06/12 5

Page 6: 読解支援@2015 06-12

提案手法2

•  ブートストラップによる語構成漢字の言い換えパターンの獲得  – 提案手法1で獲得できない言い換えの獲得  – 例    “疾”の言い換えを探索  

1.二字漢語の言い換え生成  悪疾  :  たちの悪い病気  疾風  :  速く吹く風  廃疾  :  不治の病気  

2015/06/12 6

Page 7: 読解支援@2015 06-12

提案手法2

2.未対応語構成漢字と自立語を全て組み合わせ  

2015/06/12 7

Page 8: 読解支援@2015 06-12

提案手法2

3.個々の語構成漢字に対し、言い換えパターン   らしさ  ”score”  を出現回数をもとに計算  

2015/06/12 8

Page 9: 読解支援@2015 06-12

提案手法2

4.候補のscore  、出現回数がそれぞれの閾値より   大きいものを言い換えパターンとする                  疾→病気を獲得  

2015/06/12 9

Page 10: 読解支援@2015 06-12

提案手法2

5.新たに獲得した言い換えパターンを加えて、   1〜4を繰り返す  

 反復するごとに、獲得できる言い換えは減少    獲得された  語構成言い換え  パターンの数は  右表の通り  

2015/06/12 10

Page 11: 読解支援@2015 06-12

実験設定

•  岩波国語辞典の二字漢語26,157語を対象  •  辞書定義文の一文目のみ使用  – 補足的説明を外すため  

•  評価対象  –  JUMANの15,523語が二字漢語  – そのうち、岩波国語辞典に存在  :  13,281語  – 手法2のスコア閾値:0.5、出現回数閾値:3  

2015/06/12 11

Page 12: 読解支援@2015 06-12

生成された言い換えパターン

•  ブートストラップを用いて獲得された    言い換えパターンを利用した場合:反復回数  – 全体の1/3を言い換え  

   

                                                                                                           約10%増加

2015/06/12 12

Page 13: 読解支援@2015 06-12

終わりに

•  提案手法  – 二字漢語の語構成漢字を利用した    辞書定義文からの言い換え表現生成  –  JUMANの二字漢語の約1/3を言い換え生成  – 語構成漢字の言い換えパターンを獲得  

•  今後に向けて  – 生成できなかった二字漢語の言い換え生成  – 語構成が構成的でない語の意味表現の検討

2015/06/12 13