27
Keyword and Keyphrase Extraction Techniques: A Literature Review Sifatullah Siddiqi and Aditi Sharan (e-musu) 2015 10 16 1 / 27

Keyword and Keyphrase Extraction Techniques: A Literature Review

  • Upload
    e-musu

  • View
    133

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Keyword and Keyphrase Extraction Techniques: A Literature Review

Keyword and Keyphrase Extraction Techniques:A Literature Review

Sifatullah Siddiqi and Aditi Sharan(e-musu)

2015年 10月 16日

1 / 27

Page 2: Keyword and Keyphrase Extraction Techniques: A Literature Review

Source

http://research.ijcaonline.org/volume109/number2/pxc3900607.pdf

2 / 27

Page 3: Keyword and Keyphrase Extraction Techniques: A Literature Review

Abstract

I キーワードやキーフレーズについてのサーベイ論文I キーワードやキーフレーズの抽出は色んな恩恵が得られる

3 / 27

Page 4: Keyword and Keyphrase Extraction Techniques: A Literature Review

1. Indroduce

I 多くのドキュメントを分析するには,メインとなる特徴やテーマ等を表すキーワードがあると便利

4 / 27

Page 5: Keyword and Keyphrase Extraction Techniques: A Literature Review

1.1 What is a Keyword?

I International Encyclopedia of Information and Library Scienceではキーワードは,「主題または主題の側面を表す簡潔で正確な語」と定義

I key wrods と key phrases は key termsと呼ばれている場合もI Manning and Schutzeは「言語は語順という制約を持つ.しかし,単語は単に品詞の配列として並んでいないのもまた事実.代わりに単語はフレーズとしてまとめられている」と考えている

5 / 27

Page 6: Keyword and Keyphrase Extraction Techniques: A Literature Review

1.2 Difference between Keyphrase and Keyword

I キーフレーズは複数語の語彙素 (ex. hard disk)を含むものであるのに対して,キーワードは単一の語 (ex. disk)である

I 単一の単語だと例えば hot dogは誤解を与えてしまう

6 / 27

Page 7: Keyword and Keyphrase Extraction Techniques: A Literature Review

2. APPROACHES FOR KEYWORD EXTRACTION 1

キーワードの自動抽出には大きく 4つの手法がある1. Rule Based Linguistic approaches

I 言語知識・特徴から生まれた手法I 正確だが計算量が多く,専門語を含めたドメイン知識を必要I 語彙分析や構文分析,談話分析など含む

2. Statistical approachesI 言語コーパスとその統計的特徴を基にした手法I 一番の特徴は言語に依存しないI 正確な結果は保証できないI データは大きいほうがいい

7 / 27

Page 8: Keyword and Keyphrase Extraction Techniques: A Literature Review

2. APPROACHES FOR KEYWORD EXTRACTION 2

1. Machine Learning approachesI 一般的に教師ありI モデルを学習するためのトレーニングデータからキーワードが抽出される

I 十分なモデルの構築後,新しい文章からキーワードを発見するために使用

I ナイーブベイズや SVMなどI 学習データの作成が大変

2. Domain specific approachesI さまざまな手法が特定のドメインコーパスに当てはめることが可能

I キーワードを特定し,抽出するためにドメインに関するバックエンドな知識 (ex. オントロジー)や特定のコーパスの構造を活用

8 / 27

Page 9: Keyword and Keyphrase Extraction Techniques: A Literature Review

3. MODES OF KEYWORD AND KEYPHRASEGENERATION

1. Keyphrase/keyword assignmentI 可能性のあるキーフレーズ集合は予め定義されたものに限るI ドメインに依存せず,個々の文書を記述する小さな用語集合の発見が目的

利点 単純さと一貫性 (類似した文書は同じキーフレーズで表され,統制語の使用が目的の文書範囲をより確かなものに)

欠点 統制語の作成と持続においてコスト大2. Keyword/keyphrase extraction

I 文書で最も重要な語を選択I 語彙の依存はしないI 抽出された語は文書自体に存在

利点 統制語の作成の必要が無い欠点 一貫性の無さ (類似した文書が異なるキーフレーズで表され

る場合が)

9 / 27

Page 10: Keyword and Keyphrase Extraction Techniques: A Literature Review

4. SOME LINGUISTIC PROPERTIES OF KEYPHRASES

I キーフレーズは一般的に幾つかの言語学的なパターンをもつI フレーズの構成要素は品詞に依存I 以下は主要なパターン

Table 1: major linguistic patterns

pattern exampleA N (Adjetive Noun) Linear functionN N Regression coeffecientsA A N Gaussian random variableA N N Cumulative distribution functionN A N Mean squared errorN N N Class probability functionN P N (Noun Preposition Noun) Degrees of freedom

10 / 27

Page 11: Keyword and Keyphrase Extraction Techniques: A Literature Review

5.1 Statistical Approach (RELATED WORK) 1

I G. SaltonI どれくらいその文書を他の文書を区別できるかについで,語をランク付けする識別値分析を用いた手法

I 最も大きな分離をしている単語がベストな語I J.D. Cohen

I テキストから索引語を取り出す手法I ストップワードリストやステミング等不要I n-gramカウント

I M. OrtunoI テキストの重要語はお互い引かれ合う傾向にあり,クラスタを形成すると指摘

I J.P. HerreraI spatial use of the wordsに言及している統計情報を用いて,文書の関連語を発見,ランク付けする問題に取り組む

I P. CarpenaI 文学的なテキストからの自動キーワード抽出手法

11 / 27

Page 12: Keyword and Keyphrase Extraction Techniques: A Literature Review

5.2 Supervised Approach 2

I TurneyI 遺伝的アルゴリズムとルールセットを用いたキーフレーズ抽出

I FrankI KEA(Keyphrase extraction algorithm)I トレーニングデータからベイズの定理に基づき分類器を構築

I SongI 幾つかの自然言語処理技術と Information Gain(エントロピー)を組み合わせた KPSpotter

I HulthI POSタグ等の言語知識を用いた手法I POSタグの使用によって候補選択の結果が向上

I Turney(再)I 抽出されたキーフレーズの一貫性の向上を目指した, フレーズ間の統計的連想を用いた手法

I TangI ベイズの決定理論をキーワード抽出に適用した手法

12 / 27

Page 13: Keyword and Keyphrase Extraction Techniques: A Literature Review

5.2 Supervised Approach 3

I Yasin UzunI ナイーブベイズ分類器を使用

I K. ZhangI キーワード抽出を良いキーワード,悪いキーワード,無関係なキーワードの 3つの分類問題と捉える

I SVMによるアプローチI Medelyan and Witten

I KEA++を提案I シソーラスから抽出した用語やフレーズの意味情報を用いた自動キーフレーズ抽出

I Nguyen and KanI 科学分野のキーフレーズに見られる形態的な現象を捉える特徴を用いた科学記事からのキーフレーズ抽出

13 / 27

Page 14: Keyword and Keyphrase Extraction Techniques: A Literature Review

5.2 Supervised Approach 4

I C. ZhangI キーワード抽出のための条件付き確率場モデルを用いた手法

I Jiajia FengI 語のシーケンスとして見受けられる文書の上で適用できる連続したパターンに基づくアルゴリズムを提案

I 単語間で意味的な相関性を反映する重要な連続したパターンが抽出

I Bao HongI Extended TFを提案I 単語頻度や品詞,構文機能,出現位置などの言語的特徴を利用

14 / 27

Page 15: Keyword and Keyphrase Extraction Techniques: A Literature Review

5.3 UnsupervisedApproach 1

I Steier and BelewI 相互情報量を用いて 2語からなるフレーズの発見を目指した手法

I Krulwich and BurkeyI 文書からの発見的な手法I イタリック文字やセクションの始めに存在するフレーズなどを利用

I MunozI 2語からなるフレーズの発見を目指した Adaptive Resonance

Theoryに基づくアルゴリズムI Barker and Cornacchia

I 文書から名詞のフレーズをキーフレーズとして選択する単純なシステム

I TomokiyoI 複数の言語間で,ランク付けするために単一のスコアにまとめあげることのできるフレーズのフレーズ性と情報性の両方を測るためにpoint wise KL ダイバージェンスを用いた手法

15 / 27

Page 16: Keyword and Keyphrase Extraction Techniques: A Literature Review

5.3 Unsupervised Approach 2

I MihalceaI TextRankI 単語間共起リンクに基づくグラフのランキングアルゴリズム

I BracewellI 文書から名詞句を抽出し,同じ名詞の用語をもつもの同士まとめる手法

I クラスタは用語の頻度に基づきランキングされ,上位のものがその文書のキーフレーズ

I LiuI 文書が意味的にキーフレーズによって表されることを保証するクラスタリング技術を利用したキーフレーズ抽出方法

16 / 27

Page 17: Keyword and Keyphrase Extraction Techniques: A Literature Review

5.3 Unsupervised Approach 3

I Stuart RoseI Rapid Automatic Keyword ExtractionI 個々の文書からキーワードを抽出するためのドメイン、言語非依存手法

I Luit GazendamI シソーラスを用いて制限された語彙をよるキーワードランキング,抽出手法

I Marina LitvakeI DegExtI 言語横断型キーフレーズ抽出器

I Ali MehriI テキスト中の単語タイプの共起度を測るための指標を用いた単語のランキング手法

17 / 27

Page 18: Keyword and Keyphrase Extraction Techniques: A Literature Review

5.4 Semi-Supervised Approach

I Decong LiI タイトルに文書の内容が反映されやすいという考えを受けた,半教師あり学習

I 意味ネットワーク上でのフレーズの重要性をクラスタリングすることによるキーフレーズ抽出

I 意味の繫がりはWikipediaを使用

18 / 27

Page 19: Keyword and Keyphrase Extraction Techniques: A Literature Review

6.1 Features based on Phraseness

I Mutual informationI 1つの語がどれほど他の語についての情報をもっているかを測る

I Mean and varianceI 2つの語について分散が小さいほど,2つの語は同じような距離を持つ語

19 / 27

Page 20: Keyword and Keyphrase Extraction Techniques: A Literature Review

6.2 Features based on Informativeness 1

Based on term weightI Term count

I 文書内での単語の出現回数I 文書内の重要な語は何回も繰り返される

I Term frequencyI コーパス内の総単語出現回数

I Document frequencyI その単語が出現した文書数

I Inverse document frequencyI 珍しい語ほど,それが出現する文書と関連する確率が高いとする指標

20 / 27

Page 21: Keyword and Keyphrase Extraction Techniques: A Literature Review

6.2 Features based on Informativeness 2I XI measure:XI

w = fw - dwI fw:単語の頻度I dw:文書頻度I 二つの語の出現頻度が同じなら,文書数が少ない方がより高い値を取る

I Average frequencyI コーパス内の総文書数における,その語がコーパス内で出現した数の割合

I Relative frequencyI その語が出現する文書数における,単語の総出現頻度の割合I 基本的に Average frequencyよりも高い値を取る

I Term lengthI キーフレーズに含まれるトークンの数I より長いフレーズによって表される概念は,より明確で関連性が強い

I Tf-IdfI 文書内で多い単語ほど重要だが,反してコーパス全体で多い単語は重要ではない

21 / 27

Page 22: Keyword and Keyphrase Extraction Techniques: A Literature Review

6.2 Features based on Informativeness 3

Based on location in the documentI First N terms

I 最初の Nタームだけ選択I 文書の始めの箇所には重要なキーフレーズがあるという考え

I Last N termsI 最後の Nタームだけ選択I 文書の最後の箇所には結論があり,最も重要なキーフレーズがあるという考え

I At the beginning of a paragraphI 始めのパラグラフ付近に重要なキーフレーズがあるという考え

I At the end of its paragraphI 最後のパラグラフ付近に重要なキーフレーズがあるという考え

22 / 27

Page 23: Keyword and Keyphrase Extraction Techniques: A Literature Review

6.2 Features based on Informativeness 4

I Resemblance to titleI 文書のタイトルと類似するフレーズほどスコアが高い

I Maximal section headline importanceI 記事のセクションや表題内の最も重要なものによって判断I 導入や結論など記事の一部の箇所がより重要

I Accumulative section headline importanceI 6と似ているが記事内の重要なセクションや表題をすべて使用

23 / 27

Page 24: Keyword and Keyphrase Extraction Techniques: A Literature Review

6.2 Features based on Informativeness 5

MiscellaneousI Negative Brackets

I 括弧で囲まれたフレーズはキーフレーズではないと判断し,否定的なスコア付けを行う

I Shorter concept subsumptionI より長いフレーズにスコア付けを行う方法I キーフレーズがより出現頻度が高く,より長いものに含まれるとき,短い方のが頻度が長い方の頻度に移動する

I computer science engineeringの頻度:6, computer scienceの頻度:4 => computer science engineeringのランク:10, computerscienceのランク:0

24 / 27

Page 25: Keyword and Keyphrase Extraction Techniques: A Literature Review

6.2 Features based on Informativeness 6

I Longer concept boostingI キーフレーズがより出現頻度が低く,より長いものに含まれるとき,2つのフレーズの頻度の平均を計算し,その値はより頻度が少ない方に割り当て,より頻度が高い方から引く

I computer science engineeringの頻度:4, computer scienceの頻度:6 => computer science engineeringのランク:5, computerscienceのランク:6-5=1

I SpreadI フレーズに広がりに着目I そのフレーズが最初と最後に出現した間の距離が長いほど,スコアが高い

25 / 27

Page 26: Keyword and Keyphrase Extraction Techniques: A Literature Review

7. CONCLUSION

(特に記述するものなし)

26 / 27

Page 27: Keyword and Keyphrase Extraction Techniques: A Literature Review

Supplementary information

他のサーベイ論文http://www.cs.unm.edu/~pdevineni/papers/Lott.pdf

27 / 27