16
Learning a Lexical Simplifier Using Wikipedia Colby Horn, Cathryn Manduca, David Kauchak In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, pp.458–463, 2014. プレゼンテーション:野口真人 1

Learning a lexical simplifier using wikipedia

  • Upload
    swenbe

  • View
    110

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Learning a lexical simplifier  using wikipedia

Learning a Lexical Simplifier Using Wikipedia

Colby  Horn,  Cathryn  Manduca,  David  Kauchak  In  Proceedings  of  the  52nd  Annual  Meeting  

of  the  Association  for  Computational  Linguistics,  pp.458–463,  2014.  

プレゼンテーション:野口真人

1

Page 2: Learning a lexical simplifier  using wikipedia

Learning a Lexical Simplifier Using Wikipedia

どういう問題を解いたのか English WikipediaとSimple English Wikipediaから、語彙の平易化対を獲得してそれを適用する

どうやって解いたのか 1. 平易化の規則リストを学ぶ

w → c1, c2, ... , cm

2. SVMを用いて最適な平易語を選択する

どのような結果を達成したか

precision : 76%, changed : 86%

2

Page 3: Learning a lexical simplifier  using wikipedia

テキストの意味を保持しながら、文法などの複雑さを減らす

テキスト平易化のためには幅広い変換規則が必要 語彙の言い換え 文法の変化 文の分割 語の削除・付加

今回は、語彙の平易化のみに制限して考える

3

テキストの平易化

Page 4: Learning a lexical simplifier  using wikipedia

語彙の平易化変換規則に則り、ある単語や句を似た意味の平易語に置き換える

二つの主な課題 変換規則を一般化するのが難しい 網羅性を高めるためにはたくさんの規則が必要

変換規則がすべての文に適用できるわけではない 原文の意味を保持するため 文法性・局所のまとまりを保持するため

4

Page 5: Learning a lexical simplifier  using wikipedia

語彙の平易化規則の獲得語彙を平易化するための規則を学習する

w → c1, c2, ... , cm

例 : established

established → started, made, ...

5

English Wikipedia(normal)

Simple English Wikipedia (simple)

normal

simple

Page 6: Learning a lexical simplifier  using wikipedia

語彙の平易化規則の学習137K対の対応付けされたEnglish WikipediaとSimple English Wikipediaの文を利用

GIZA++で単語アライメントをとる

アライメントのエラーがある場合平易化対を削除 normalの単語がストップリストにある場合

2つの品詞が異なる場合 固有名詞がある場合

形態的な変化を規則に追加(一般化のため)

6

Page 7: Learning a lexical simplifier  using wikipedia

平易化の実現のために平易化の規則を適用するとき、最適な平易化候補を選ばなくてはならない 例 : established

established → started, made, started, settled

The ACL was established in 1962.

The researcher established a new paperwriting routine.

最適な平易化候補をSMV-rankで求める

7

Page 8: Learning a lexical simplifier  using wikipedia

ランキング問題ラベル付けされたデータとSVM-rankを利用

SVM-rank : ランキング問題を2値分類問題として解く

平易化がされない場合も考える

元の規則  : w → c1, c2, ... , cm

新しい規則 : w → c1, c2, ... , cm, w

wのランクが最高の場合は変換が行われない

8

Page 9: Learning a lexical simplifier  using wikipedia

素性-その1

候補の確率 P(ci | w)

normalに単語wが出たときciが対応する確率

出現頻度 c自体の出現数をみる

Simple English Wikipediaとgoogle n-gramから

9

Page 10: Learning a lexical simplifier  using wikipedia

素性-その2

言語モデル Simple English Wikipediaから

English Wikipediaから

上2つの線形結合( λ = 0.5で )

google n-gram

文脈頻度 文脈の前後1語または2語を文脈窓として、文脈における頻度をgoogle n-gramで求める

10

Page 11: Learning a lexical simplifier  using wikipedia

データAmazon's Mechanical Turkでラベル付きデータを得る

アノテーションやNLPタスクの評価に広く用いられる

他で行われている人手で行われるアノテーションと同じくらいの信頼性がある

Simple English Wikipediaから500の文を選択

それぞれの文を50人に平易化してもらう

→ 計25000のアノテーション

11

Page 12: Learning a lexical simplifier  using wikipedia

データ収集の例

12

Page 13: Learning a lexical simplifier  using wikipedia

比較手法rank-simplify : 今回の手法

frequency 素性に基づいたSVM-rank手法の利点を調べる

ランキングはSimple English Wikipedia内での出現頻度で行う

平易化規則はrank-simplifyと同じ

rank-Biran 平易化規則の獲得手法の利点を調べる

平易化規則はSimple English WikipediaとEnglish

Wikipediaの分布類似度から求める

ランキングの手法はrank-simplifyと同じ

13

Page 14: Learning a lexical simplifier  using wikipedia

評価方法Amazon's Mechanical Turkで収集した500のラベル付きデータ

10分割交差検定で値を算出

precision : システムが変換した単語が、誰かの

アノテーションと一致する割合

changed : 人間がアノテーションした単語のうち

システムが変換を行った割合

(適切な変換でなくて良い)

14

Page 15: Learning a lexical simplifier  using wikipedia

実験結果

frequency : 網羅性はあるが精度が低い

rank-Biran : 精度はあるが網羅性は低い

rank-simplify : 14478語の平易化規則を学習

rank-Biran : 3598語しか平易化規則を学習できない

rank-simplifyは精度・網羅性ともに高い

提案手法平易化規則が異なるランキングが異なる

15

Page 16: Learning a lexical simplifier  using wikipedia

終わりにEnglish WikipediaとSimple English Wikipedia

を用いた語彙の平易化を行った

語彙の平易化規則をGIZA++でアライメントをとり、さらに一般化した 高い網羅性を実現

素性に基づくSVM-rankを用いた手法

高い精度を実現

16