Upload
tomoyuki-kajiwara
View
504
Download
1
Embed Size (px)
Citation preview
文章読解支援のための 日本語の語彙平易化システム
首都大学東京(小町研)D1 梶原 智之 [email protected]
https://sites.google.com/site/moguranosenshi/
2015年7月2日 データ解析の実務プロセス入門出版記念勉強会
自己紹介 • 梶原 智之 @moguranosenshi https://sites.google.com/site/moguranosenshi/
• 首都大学東京(小町研)http://cl.sd.tmu.ac.jp/ Ø 自然言語処理 Ø 言い換え・テキスト平易化 Ø NLP若手の会プログラム委員
2
関連研究(英語)
http://homepages.inf.ed.ac.uk/kwoodsen/demos/simplify.html https://rewordify.com/ 4
• 任意の英語のテキストをWeb上で平易化できる • Automatic Sentence Simplification Using Wikipedia • Rewordify.com
関連研究(日本語)
http://www3.nhk.or.jp/news/easy/
5
• 特定の日本語のテキストがWeb上で平易化されている • NHK: NEWS WEB EASY
• 任意の日本語のテキストを平易化することはできない
日本語の語彙平易化システムの構築 本研究の目的
読解支援を必要とする読者に 語彙平易化の技術を届ける
本研究の貢献 ・任意の日本語の文を平易化 するシステムを構築した ・日本語の平易化システムを 初めてWebで公開した
http://www.jnlp.org/SNOW/S3
6
語彙平易化システム
言い換え
担う:伝承する, 支える, 受け継ぐ
難解語の検出
担う
文脈に合わない語の削除
担う, 支える, 受け継ぐ
平易な順にランキング
1: 支える, 2: 受け継ぐ, 3: 担う
難解な日本語(入力文)
未来は若者が担う 平易な日本語(出力文)
未来は若者が支える
7
1. 難解語の検出 • 形態素解析 • 文を単語に区切る技術 • 未来 / は / 若者 / が / 担う
• 平易語リスト • ここに含まれない単語が難解語になる • 子ども向け(小学校で習う単語リスト) • 外国人向け(日本語能力試験のレベル別単語リスト)
8
2. 言い換え • 分布仮説:似た意味の語は似た文脈で使われる • __に教わる, __に尋ねる, __に叱られる → 先生 = 教員, 先生 ≠ 猫
• うどんが__ → 好き, 嫌い (反義語) • ___が好き → うどん, そば(類義語)
• 国語辞典 • 【要求】強く求めること ⇒ 要求する = 強く求める
• 2回翻訳 • 先生 → Teacher → 教師 ⇒ 先生 = 教師 10
3. 文脈に合わない語の削除 • 述語項構造解析 • 述語のガ格,ヲ格,ニ格が何か当てる技術 • 未来は若者が担う → 述語:担う, ガ格:若者
• 格フレーム辞書 • 述語のガ格,ヲ格,ニ格に何が入るかという辞書 • 先生, ニ, 尋ねる 猫, ニ, 尋ねる
11
4. 平易な順にランキング • 単語そのもの • 頻度: よく使われる表現が平易 • 親密度:多くの人が知っている表現が平易
• 文脈との馴染みも見る • N-gram頻度:単語N語の連続の頻度
12
システム入出力 http://www.jnlp.org/SNOW/S3
13
【百貨店】から離れがちな【顧客】を、どう引き戻すか。 【デパート】から離れがちな【お客さん】を、どう引き戻すか。
【よもや】と思う変化が【いとも】簡単に起こる。 【まさか】と思う変化が【とても】簡単に起こる。
自覚の【欠如】が【嘆かわしい】。 自覚の【不足】が【悲しい】。
その笑顔には、子供を【慈しむ】父親の【眼差し】があった。 その笑顔には、子供を【愛する】父親の【視線】があった。
【ただただ】【感嘆する】ばかりである。 【とにかく】【感動する】ばかりである。
システム入出力 http://www.jnlp.org/SNOW/S3
14
Input 【レタス】がさっぱり【 感 】を醸し出す Original 【 野 菜 】がさっぱり【気持ち】を醸し出す + WSD 【 野 菜 】がさっぱり【 気 分 】を醸し出す Input ~と【 決 意 】を語る Original ~と【決まる】を語る + WSD ~と【 決 心 】を語る Input ASEANへの【加盟】はベトナムの発展に貢献し Original ASEANへの【入る】はベトナムの発展に貢献し + WSD ASEANへの【参加】はベトナムの発展に貢献し
System Precision Original 84.4 % + WSD 89.0 %
4.6 ポイント改善
ツール • 形態素解析(MeCab) http://taku910.github.io/mecab/
• 述語項構造解析(SynCha) http://www.cl.cs.titech.ac.jp/~ryu-i/syncha/
15
データ • 使用者数付き単語リスト http://mednlp.jp/software.html
• 難易度付き単語リスト http://jhlee.sakura.ne.jp/JEV.html
• 単語親密度 http://hon.gakken.jp/reference/special/jiten/kihongo_db/index.html
16
データ • 言い換え辞書(単語) http://www.jnlp.org/SNOW/D2
• 言い換え辞書(フレーズ) http://isw3.naist.jp/~masahiro-mi/jppdb/
• 格フレーム辞書 http://www.gsk.or.jp/catalog/gsk2008-b/
17