20
日本語の語彙平易化システムの構築 長岡技術科学大学 梶原 智之 山本 和英

日本語の語彙平易化システムの構築

Embed Size (px)

Citation preview

Page 1: 日本語の語彙平易化システムの構築

日本語の語彙平易化システムの構築

長岡技術科学大学 梶原 智之 山本 和英

Page 2: 日本語の語彙平易化システムの構築

研究の背景

2

大量・多様なテキストデータ

アクセスは容易 理解は容易?

子供 大人 外国人 高齢者

Page 3: 日本語の語彙平易化システムの構築

研究の背景

3

大量・多様なテキストデータ

アクセスは容易 理解は容易?

子供 大人 外国人 高齢者

効率的な情報収集・知識獲得のため 言語能力の差を埋める技術が必要

文章読解支援のための語彙平易化

Page 4: 日本語の語彙平易化システムの構築

語彙平易化

4

文中の難解な語をより平易な同義語に置換

四国に赴く

四国に行く

対象 評価尺度 赴く 行く 大人 単語親密度DB 難:1 → 易:7 5.0 6.469 子ども 学習基本語彙 難:- → 易:✓ - ✓ 外国人 日本語能力試験 難:1 → 易:4 1 4 外国人 日本語教育語彙表 難:6 → 易:1 5 1

幅広い読者の文章読解を支援する

Page 5: 日本語の語彙平易化システムの構築

関連研究 •  SemEval-2012: English Lexical Simplification Task [1] •  9つのシステムが参加 •  文脈を考慮して高頻度語に置換

•  Simple English Wikipedia •  語彙と文法に制限をかけた平易なWikipedia •  Wikipediaとのアライメント → 対訳コーパス [2], [3] •  語彙平易化規則を学習 [4] •  統計翻訳の枠組みで平易化 [5], [6]

[1] Lucia Specia et al. (2012) “Semeval-2012 Task 1: English Lexical Simplification” [2] Zhemin Zhu et al. (2010) “A Monolingual Tree-based Translation Model for Sentence Simplification” [3] David Kauchak (2013) “Improving Text Simplification Language Modeling Using Unsimplified Text Data” [4] Colby Horn et al. (2014) “Learning Lexical Simplifier Using Wikipedia” [5] William Coster and David Kauchak (2011) “Learning to Simplify Sentences Using Wikipedia” [6] Sander Wubben et al. (2012) “Sentence Simplification by Monolingual Machine Translation” 5

Page 6: 日本語の語彙平易化システムの構築

関連研究(英語)

http://homepages.inf.ed.ac.uk/kwoodsen/demos/simplify.html https://rewordify.com/ 6

•  任意の英語のテキストをWeb上で平易化できる •  Automatic Sentence Simplification Using Wikipedia •  Rewordify.com

Page 7: 日本語の語彙平易化システムの構築

関連研究(日本語)

http://www3.nhk.or.jp/news/easy/

7

•  特定の日本語のテキストがWeb上で平易化されている •  NHK: NEWS WEB EASY

•  任意の日本語のテキストを平易化することはできない

Page 8: 日本語の語彙平易化システムの構築

日本語の語彙平易化システムの構築 本研究の目的

読解支援を必要とする読者に 語彙平易化の技術を届ける

本研究の貢献 ・任意の日本語の文を平易化  するシステムを構築した ・日本語の平易化システムを  初めてWebで公開した

http://www.jnlp.org/SNOW/S3

8

Page 9: 日本語の語彙平易化システムの構築

日本語の平易化への一般の関心

9 平成27年2月18日 日本経済新聞

Page 10: 日本語の語彙平易化システムの構築

日本語の語彙平易化システムの構築 公開されている日本語の言語処 理ツールや言語資源を組み合わ せ、標準的なシステムを構築

形態素解析:MeCab 平易語:学習基本語彙

語彙的換言知識: •  基本的意味関係の事例ベース •  内容語換言辞書(SNOW D2) •  動詞含意関係DB •  日本語WordNet同義語DB

難易度:単語親密度DB 10

入力文

未来は若者が担う 語彙的換言の生成

担う:伝承する,引継ぐ,支える,受け継ぐ 難解語の検出

担う

出力文

未来は若者が支える 難易度に基づく並び替え

1:支える, 2:受け継ぐ, 3:伝承する, 4:担う, 5:引継ぐ

[1] Lucia Specia et al. (2012) [1] “Semeval-2012 Task 1: English Lexical Simplification” 語彙平易化の基本的な流れ [1]

Page 11: 日本語の語彙平易化システムの構築

1.  形態素解析(MeCab) 2.  平易語リスト(学習基本語彙)に含まれない 内容語(名詞、動詞、形容詞、副詞)の抽出

11

難解語の検出

未来 名詞 / は 助詞 / 若者 名詞 / が 助詞 / 担う動詞

未来 名詞 / は 助詞 / 若者 名詞 / が 助詞 / 担う動詞

入力文

未来は若者が担う 語彙的換言の生成

担う:伝承する,引継ぐ,支える,受け継ぐ 難解語の検出

担う

出力文

未来は若者が支える 難易度に基づく並び替え

1:支える, 2:受け継ぐ, 3:伝承する, 4:担う, 5:引継ぐ

Page 12: 日本語の語彙平易化システムの構築

12

語彙的換言の生成

0% 20% 40% 60% 80% 100%

PPDB: Japanese 用言等換言辞書 普通名詞換言辞書 WordNet同義語DB 動詞含意DB(Ntriv) 動詞含意DB(Triv)

略記対 異形同義語対 異表記対

常に換言可能 文脈によって換言可能 常に換言不可能

入力文

未来は若者が担う 語彙的換言の生成

担う:伝承する,引継ぐ,支える,受け継ぐ 難解語の検出

担う

出力文

未来は若者が支える 難易度に基づく並び替え

1:支える, 2:受け継ぐ, 3:伝承する, 4:担う, 5:引継ぐ

Page 13: 日本語の語彙平易化システムの構築

•  先行研究 [7] の調査に基づき、 比較的高精度な言い換えを換言知識から収集 •  内容語換言辞書(SNOW D2) •  日本語WordNet同義語データベース •  動詞含意関係データベース •  基本的意味関係の事例ベース

[7] 梶原智之, 山本和英 (2014) “日本語の語彙的換言知識の質的評価”

13

語彙的換言の生成

入力文

未来は若者が担う 語彙的換言の生成

担う:伝承する,引継ぐ,支える,受け継ぐ 難解語の検出

担う

出力文

未来は若者が支える 難易度に基づく並び替え

1:支える, 2:受け継ぐ, 3:伝承する, 4:担う, 5:引継ぐ

Page 14: 日本語の語彙平易化システムの構築

14

難易度に基づく並び替え •  単語親密度データベースを用いて単語に難易度を付与

  担う:5.3 (親密度が高いほど平易)   引継ぐ:5.0 支える:5.7 受け継ぐ:5.5

入力文

未来は若者が担う 語彙的換言の生成

担う:伝承する,引継ぐ,支える,受け継ぐ 難解語の検出

担う

出力文

未来は若者が支える 難易度に基づく並び替え

1:支える, 2:受け継ぐ, 3:伝承する, 4:担う, 5:引継ぐ

Page 15: 日本語の語彙平易化システムの構築

システム入出力 http://www.jnlp.org/SNOW/S3

15

【百貨店】から離れがちな【顧客】を、どう引き戻すか。 【デパート】から離れがちな【お客さん】を、どう引き戻すか。

【よもや】と思う変化が【いとも】簡単に起こる。 【まさか】と思う変化が【とても】簡単に起こる。

自覚の【欠如】が【嘆かわしい】。 自覚の【不足】が【悲しい】。

その笑顔には、子供を【慈しむ】父親の【眼差し】があった。 その笑顔には、子供を【愛する】父親の【視線】があった。

【ただただ】【感嘆する】ばかりである。 【とにかく】【感動する】ばかりである。

Page 16: 日本語の語彙平易化システムの構築

評価 •  データセットの規模(クラウドソーシング:のべ500人が作業)

•  233語 × 10文脈 = 2,330文 •  名詞:63語、動詞:72語、形容詞:50語、副詞:48語

•  データセットの例  二つの位置がピッタリ合ったところを【検出する】か、  差を【検出する】かという部分だけが異なる。

平易 ← (見つける) (発見する・【検出する】) (検知する) → 難解

16

評価セット → http://www.jnlp.org/SNOW/E4 評価セットについては言語処理学会(明日)で発表

Precision Recall F-measure 84.4 % 71.4 % 77.3 %

Page 17: 日本語の語彙平易化システムの構築

Precisionの改善 •  Precision:84.4 % ← 誤った16%の変換は理解を妨害

•  誤りの例 •  高騰する:上がる, 値上がりする, ・・・ •  石油の値段が【高騰する】→ 石油の値段が【上がる】 •  石油が【高騰する】→ 石油が【上がる】            石油が【値上がりする】

•  解決策 •  「値段」は上がる •  「石油」は上がらない → 述語と項の関係を評価すれば精度が上がる! → 述語項構造解析を用いた語義曖昧性の解消

Page 18: 日本語の語彙平易化システムの構築

18 入力文

未来は若者が担う 語彙的換言の生成

担う:伝承する,引継ぐ,支える,受け継ぐ 難解語の検出

担う

出力文

未来は若者が支える 語義曖昧性の解消

引継ぐ,支える,受け継ぐ 難易度に基づく並び替え

1:支える 2:受け継ぐ 3:引継ぐ

語義曖昧性の解消 1.  述語項構造解析(SynCha)で【項, 格, 述語】の組を抽出 2.  格フレーム辞書(京大格フレーム)で三つ組を評価

石油が高騰する → 述語:高騰する, ガ格:石油

(石油, ガ, 上がる)(石油, ガ, 値上がりする) (石油, ガ, 上昇する) (石油, ガ, 高くなる)

Page 19: 日本語の語彙平易化システムの構築

システム入出力 http://www.jnlp.org/SNOW/S3

19

Input 【レタス】がさっぱり【 感 】を醸し出す Original 【 野 菜 】がさっぱり【気持ち】を醸し出す + WSD 【 野 菜 】がさっぱり【 気 分 】を醸し出す Input ~と【 決 意 】を語る Original ~と【決まる】を語る + WSD ~と【 決 心 】を語る Input ASEANへの【加盟】はベトナムの発展に貢献し Original ASEANへの【入る】はベトナムの発展に貢献し + WSD ASEANへの【参加】はベトナムの発展に貢献し

System Precision Original 84.4 % + WSD 89.0 %

4.6 ポイント改善

Page 20: 日本語の語彙平易化システムの構築

日本語の語彙平易化システムの構築

入力文

未来は若者が担う 語彙的換言の生成

担う:伝承する,引継ぐ,支える,受け継ぐ 難解語の検出

担う

出力文

未来は若者が支える 語義曖昧性の解消

引継ぐ,支える,受け継ぐ 難易度に基づく並び替え

1:支える 2:受け継ぐ 3:引継ぐ

形態素解析:MeCab 平易語:学習基本語彙

語彙的換言知識: •  基本的意味関係の事例ベース •  内容語換言辞書(SNOW D2) •  動詞含意関係DB •  日本語WordNet同義語DB

難易度:単語親密度DB 述語項構造解析:SynCha 格フレーム辞書:京都大学格フレーム 20

http://www.jnlp.org/SNOW/S3 任意の日本語のテキストを平易 化する初のシステム 精度 89%