Learning a lexical simplifier using wikipedia

Learning a Lexical Simplifier Using Wikipedia

Colby Horn, Cathryn Manduca, David Kauchak In Proceedings of the 52nd Annual Meeting

of the Association for Computational Linguistics, pp.458–463, 2014.

プレゼンテーション:野口真人

1

Learning a Lexical Simplifier Using Wikipedia

どういう問題を解いたのか English WikipediaとSimple English Wikipediaから、語彙の平易化対を獲得してそれを適用する

どうやって解いたのか 1. 平易化の規則リストを学ぶ

w → c1, c2, ... , cm

2. SVMを用いて最適な平易語を選択する

どのような結果を達成したか

precision : 76%, changed : 86%

2

テキストの意味を保持しながら、文法などの複雑さを減らす

テキスト平易化のためには幅広い変換規則が必要語彙の言い換え文法の変化文の分割語の削除・付加

今回は、語彙の平易化のみに制限して考える

3

テキストの平易化

語彙の平易化変換規則に則り、ある単語や句を似た意味の平易語に置き換える

二つの主な課題変換規則を一般化するのが難しい網羅性を高めるためにはたくさんの規則が必要

変換規則がすべての文に適用できるわけではない原文の意味を保持するため文法性・局所のまとまりを保持するため

4

語彙の平易化規則の獲得語彙を平易化するための規則を学習する

w → c1, c2, ... , cm

例 : established

established → started, made, ...

5

English Wikipedia(normal)

Simple English Wikipedia (simple)

normal

simple

語彙の平易化規則の学習137K対の対応付けされたEnglish WikipediaとSimple English Wikipediaの文を利用

GIZA++で単語アライメントをとる

アライメントのエラーがある場合平易化対を削除 normalの単語がストップリストにある場合

２つの品詞が異なる場合固有名詞がある場合

形態的な変化を規則に追加（一般化のため）

6

平易化の実現のために平易化の規則を適用するとき、最適な平易化候補を選ばなくてはならない例 : established

established → started, made, started, settled

The ACL was established in 1962.

The researcher established a new paperwriting routine.

最適な平易化候補をSMV-rankで求める

7

ランキング問題ラベル付けされたデータとSVM-rankを利用

SVM-rank : ランキング問題を２値分類問題として解く

平易化がされない場合も考える

元の規則　 : w → c1, c2, ... , cm

新しい規則 : w → c1, c2, ... , cm, w

wのランクが最高の場合は変換が行われない

8

素性-その１

候補の確率 P(ci | w)

normalに単語wが出たときciが対応する確率

出現頻度 c自体の出現数をみる

Simple English Wikipediaとgoogle n-gramから

9

素性-その２

言語モデル Simple English Wikipediaから

English Wikipediaから

上２つの線形結合( λ = 0.5で )

google n-gram

文脈頻度文脈の前後１語または２語を文脈窓として、文脈における頻度をgoogle n-gramで求める

10

データAmazon's Mechanical Turkでラベル付きデータを得る

アノテーションやNLPタスクの評価に広く用いられる

他で行われている人手で行われるアノテーションと同じくらいの信頼性がある

Simple English Wikipediaから500の文を選択

それぞれの文を50人に平易化してもらう

→ 計25000のアノテーション

11

データ収集の例

12

比較手法rank-simplify : 今回の手法

frequency 素性に基づいたSVM-rank手法の利点を調べる

ランキングはSimple English Wikipedia内での出現頻度で行う

平易化規則はrank-simplifyと同じ

rank-Biran 平易化規則の獲得手法の利点を調べる

平易化規則はSimple English WikipediaとEnglish

Wikipediaの分布類似度から求める

ランキングの手法はrank-simplifyと同じ

13

評価方法Amazon's Mechanical Turkで収集した500のラベル付きデータ

10分割交差検定で値を算出

precision : システムが変換した単語が、誰かの

アノテーションと一致する割合

changed : 人間がアノテーションした単語のうち

システムが変換を行った割合

（適切な変換でなくて良い）

14

実験結果

frequency : 網羅性はあるが精度が低い

rank-Biran : 精度はあるが網羅性は低い

rank-simplify : 14478語の平易化規則を学習

rank-Biran : 3598語しか平易化規則を学習できない

rank-simplifyは精度・網羅性ともに高い

提案手法平易化規則が異なるランキングが異なる

15

終わりにEnglish WikipediaとSimple English Wikipedia

を用いた語彙の平易化を行った

語彙の平易化規則をGIZA++でアライメントをとり、さらに一般化した高い網羅性を実現

素性に基づくSVM-rankを用いた手法

高い精度を実現

16

Science

Learning a lexical simplifier using wikipedia