18
文章読解支援のための 日本語の語彙平易化システム 首都大学東京(小町研)D1 梶原 智之 [email protected] https://sites.google.com/site/moguranosenshi/ 2015年7月2日 データ解析の実務プロセス入門出版記念勉強会

20150702文章読解支援のための日本語の語彙平易化システム

Embed Size (px)

Citation preview

文章読解支援のための 日本語の語彙平易化システム

首都大学東京(小町研)D1 梶原 智之 [email protected]

https://sites.google.com/site/moguranosenshi/

2015年7月2日 データ解析の実務プロセス入門出版記念勉強会

自己紹介 •  梶原 智之 @moguranosenshi https://sites.google.com/site/moguranosenshi/

•  首都大学東京(小町研)http://cl.sd.tmu.ac.jp/ Ø  自然言語処理 Ø  言い換え・テキスト平易化 Ø  NLP若手の会プログラム委員

2

大量・多様なテキストデータ

子ども 外国人 高齢者

研究の背景

アクセスは容易

理解も容易に! 四国に赴く おググりください   ↓      ↓ 四国に行く  調べてください

3

関連研究(英語)

http://homepages.inf.ed.ac.uk/kwoodsen/demos/simplify.html https://rewordify.com/ 4

•  任意の英語のテキストをWeb上で平易化できる •  Automatic Sentence Simplification Using Wikipedia •  Rewordify.com

関連研究(日本語)

http://www3.nhk.or.jp/news/easy/

5

•  特定の日本語のテキストがWeb上で平易化されている •  NHK: NEWS WEB EASY

•  任意の日本語のテキストを平易化することはできない

日本語の語彙平易化システムの構築 本研究の目的

読解支援を必要とする読者に 語彙平易化の技術を届ける

本研究の貢献 ・任意の日本語の文を平易化  するシステムを構築した ・日本語の平易化システムを  初めてWebで公開した

http://www.jnlp.org/SNOW/S3

6

語彙平易化システム

言い換え

担う:伝承する, 支える, 受け継ぐ

難解語の検出

担う

文脈に合わない語の削除

担う, 支える, 受け継ぐ

平易な順にランキング

1: 支える, 2: 受け継ぐ, 3: 担う

難解な日本語(入力文)

未来は若者が担う 平易な日本語(出力文)

未来は若者が支える

7

1. 難解語の検出 •  形態素解析 •  文を単語に区切る技術 •  未来 / は / 若者 / が / 担う

•  平易語リスト •  ここに含まれない単語が難解語になる •  子ども向け(小学校で習う単語リスト) •  外国人向け(日本語能力試験のレベル別単語リスト)

8

2. 言い換え •  同じ意味を表す別の表現への変換

9

先生 教員 教師 教諭

2. 言い換え •  分布仮説:似た意味の語は似た文脈で使われる •  __に教わる, __に尋ねる, __に叱られる  → 先生 = 教員, 先生 ≠ 猫

•  うどんが__ → 好き, 嫌い (反義語) •  ___が好き → うどん, そば(類義語)

•  国語辞典 •  【要求】強く求めること ⇒ 要求する = 強く求める

•  2回翻訳 •  先生 → Teacher → 教師 ⇒ 先生 = 教師 10

3. 文脈に合わない語の削除 •  述語項構造解析 •  述語のガ格,ヲ格,ニ格が何か当てる技術 •  未来は若者が担う → 述語:担う, ガ格:若者

•  格フレーム辞書 •  述語のガ格,ヲ格,ニ格に何が入るかという辞書 •  先生, ニ, 尋ねる 猫, ニ, 尋ねる

11

4. 平易な順にランキング •  単語そのもの •  頻度: よく使われる表現が平易 •  親密度:多くの人が知っている表現が平易

•  文脈との馴染みも見る •  N-gram頻度:単語N語の連続の頻度

12

システム入出力 http://www.jnlp.org/SNOW/S3

13

【百貨店】から離れがちな【顧客】を、どう引き戻すか。 【デパート】から離れがちな【お客さん】を、どう引き戻すか。

【よもや】と思う変化が【いとも】簡単に起こる。 【まさか】と思う変化が【とても】簡単に起こる。

自覚の【欠如】が【嘆かわしい】。 自覚の【不足】が【悲しい】。

その笑顔には、子供を【慈しむ】父親の【眼差し】があった。 その笑顔には、子供を【愛する】父親の【視線】があった。

【ただただ】【感嘆する】ばかりである。 【とにかく】【感動する】ばかりである。

システム入出力 http://www.jnlp.org/SNOW/S3

14

Input 【レタス】がさっぱり【 感 】を醸し出す Original 【 野 菜 】がさっぱり【気持ち】を醸し出す + WSD 【 野 菜 】がさっぱり【 気 分 】を醸し出す Input ~と【 決 意 】を語る Original ~と【決まる】を語る + WSD ~と【 決 心 】を語る Input ASEANへの【加盟】はベトナムの発展に貢献し Original ASEANへの【入る】はベトナムの発展に貢献し + WSD ASEANへの【参加】はベトナムの発展に貢献し

System Precision Original 84.4 % + WSD 89.0 %

4.6 ポイント改善

ツール •  形態素解析(MeCab) http://taku910.github.io/mecab/

•  述語項構造解析(SynCha) http://www.cl.cs.titech.ac.jp/~ryu-i/syncha/

15

データ •  使用者数付き単語リスト http://mednlp.jp/software.html

•  難易度付き単語リスト http://jhlee.sakura.ne.jp/JEV.html

•  単語親密度 http://hon.gakken.jp/reference/special/jiten/kihongo_db/index.html

16

データ •  言い換え辞書(単語) http://www.jnlp.org/SNOW/D2

•  言い換え辞書(フレーズ) http://isw3.naist.jp/~masahiro-mi/jppdb/

•  格フレーム辞書 http://www.gsk.or.jp/catalog/gsk2008-b/

17

第10回 NLP若手の会シンポジウム

•  9/3-5(木金土) 2泊3日の合宿 •  場所:石川県の和倉温泉 •  参加費:無料(宿泊費、懇親会費は別途) •  テーマ:エンジニアリング

•  自然言語処理の技術を活用したい 現場のエンジニアの方の参加を歓迎します

•  スポンサーも募集しています   http://yans.anlp.jp/