Positive Unlabeled Learning for Deceptive Reviews Detection

Positive Unlabeled Learning for Deceptive Reviews Detection

by Y.Ren, etc

担当： Quasi_quant2010

EMNLP2014読み会@PFI1

【EMNLP2014読み会】

本論文を読んだ動機- 負例に偏ったデータにおける情報推薦の考察 -


データがスパース性を持つ場合、負例に偏ったデータが大半

検索連動広告ではCTRが数%

通常の識別モデルでは、データの大半が負例のため、汎化性能が低い

低い汎化性能のため、10-fold・CVとかABテストとかで性能を担保する

バイアス高い・・・

基本的な疑問

人間の観測測度で、データがスパース性を持つのでは？

神様の観測測度で、データはデンス性を持っているはず？

PU(Positive Unlabeled) Learning

データをスパースからデンスにし、スパース正則化でRecallを上げる

今回の論文はスパース正則化ではない

神様と人間の中間を目指す!!

Likely Positive(注)後述とLikely Negativeにより情報がデンスになる

例えば短文データの場合、同義語への拡張が識別可能性を上げる

本論文のタスク具体例- 同じ商品なのに、レビューが全く違う -

異なるユーザー嗜好でレビューが変化するのは望ましい

ただし、ユーザーレビューが他ユーザーに有益とは限らない

本論文は、ユーザーを欺くレビューを発見するタスクの実証

ECサイトの品質向上を狙った応用が考えられる


レビューがユーザーの役に立たない

レビューがユーザーの役に立つ

アイディア①：スパースからデンスへ- |Reliable Negative| ≫ |Positive| -

典型的な例として、データが負例に偏っている場合がある

負例ラベルを持つデータには、正例を持ってもよいものもある

正例ラベル(=P)、ラベルなしデータ(=U)が与えられた時、本当の意味での負例(RN)が識別できれば、U/RNが分かる

U/RNをさらに、Likely Positive(LP)・ Likely--Negatibe(LN)として分類し、学習データをデンスにすることで、学習関数の識別可能性を上げるただし、本研究ではスパース正則化は議論の対象外


アイディア②：先行研究との違い- {Unlabelled/Reliable Negative}を使う -

ノーテーション

P = Positive samples

U = Unlabelled samples

RN = Reliable Negative samples

U/RN = Unlabelled / Reliable Negative samples

先行研究①

P・RNをのみから学習関数を求める為、識別可能性に限界がある

先行研究②

P・RN・U/RNを使う

本研究

P・RN・U/RNを使い、学習関数を求める。他方、特徴量生成の際、global・local特徴量を考慮する事で、識別可能性を高める


U/RNをポジ・ネガを識別する特徴量ソースとして利用できれば苦労しないが・・・

先行研究の結果- U/RNの活用と特徴量生成の工夫 -


U/RNをポジ・ネガ識別の新たな特徴量ソースとして利用すれば識別可能性は上がる

本研究では、global・local特徴量ソースをマージしている

U/RNを使用- Global SPUL : global特徴量のみを考慮- Local SPUL : local特徴量のみを考慮- LELC : SPULと異なる点は、特徴量にglobal・local性を考慮しない

U/RNを使用しない- Spy-EM : SpyでRNを抽出し、NBで学習関数推定- Roc-SVM : RocchioでRNを抽出し、SVMで学習関数推定

ポジ・ネガ識別の特徴量ソースとしてU/RNを利用

[11 Xiao] IJCAI, Similarity-Based Approach for Positive and Unlabelled Learning

問題設定- PU Learningと計算手順 -

Given

Positiveデータとラベルなしデータ

Positiveデータ、{“+1”:秋口には飲みたくなるビール}

ラベルなしデータ、{“null”:苦みのあるプレミアムビール}

Then

Step1 : Reliable Negative Extraction

Step2 : PとRNを使ったポジ・ネガの単語表現(ベクトル)作成

Step3 : Step2で計算した単語表現によるLPとLN構築

Step4 : P∪LP・RN∪LNを使った、ソフトSVMによる識別予測EMNLP2014読み会@PFI7

PU

RNLP

LN PとRNがポジ・ネガを表現していればよいLP・LNを構築できる・・・

PとRNを使ったポジ・ネガの単語表現構築- LDAにより(文書内)単語に潜在意味を付与 -

抽出したRNにLDAを適用し、単語トピックを同定。

次に、各レビュー文書を以下のような表現に変換；

{“トピック”:青, “単語”:国境の長い, “φ”:1.0e-5}

1レビューを上記JSONの集まりと考え、k-meansでRNをクラスタリング(コサイン類似度)

ただし、内積を計算する際、トピックが異なる場合はゼロ


[持橋大地] 機械学習に基づく自然言語処理, IBIS 2013 tutorial

論文中にはLDAを使ったとだけ記述。Multi Grain-LDAなどの記述なし。また、どの様にBoWを作ったかも記述なし・・・

スパースなデータでk-meansで大丈夫？Sparse k-meansとかもあるが・・・

PとRNを使ったポジ・ネガの単語表現構築- RNで作成したクラスターがネガ表現としてGood -

PとRN(= Ui=1 RNi)を使ってn個のp・nの単語ベクトル構築

従来

レビュー文にtf-idfを適用してからk-means

割り引いた頻度情報でクラスタリング

提案手法

レビュー文にLDAを適用してからk-means

潜在意味を獲得


n

n

p・nがよりリッチな情報に

P∪LP・RN∪LNを使った、識別予測(ソフトSVM)- 新規性:Global・Local特徴量のマージ -

Population Property : Global特徴量

Individual Property : Local特徴量

Similarity Weight : Global特徴量 + Local特徴量


先行研究のSPUL Localに相当

先行研究のSPUL Globalに相当

提案手法のMPIPULに相当

データ- Positive and Unlabelled sample -

6977レビューがPositiveとして記録(TripAdvisor)

ただし、Positiveレビューの内、以下を除去

1. 5つ星でないレビュー

2. 英語でないレビュー

3. 75文字未満のレビュー

4. 初めてレビューを書き込んだ人の場合は、除去


Likely Positiveとして機能するのは1・3・4

Positive Unlabelled

訓練データ 72 648 720

Positive decceptive

訓練データ 360 360 720

Positive decceptive

テストデータ 40 40 80 訓練データのデータ量を20%・30%・40%と変えて頑強性も評価

訓練データの内訳

結果①- 人手の評価 -

3人にテストデータのラベルを予測させた

個々人のバイアスを除くため、

多数決による予測ラベル決定

3人中２人がP(ポジ)と判断した時、P(ポジ)

全会一致による欺くレビューの決定

3人中3人がN(ネガ)と判断した時、N(ネガ)

→ 人間は、ユーザーを欺くレビューを62.4%の正確性で予測


注）ユーザーを欺くレビュー(ネガ)を予測できた場合。よくある、Precision is ポジRecall is ポジ+ネガ

ではないので注意

結果②- 実験結果：提案手法、MPIPUL -


Global特徴量のみを考慮

Local特徴量のみを考慮

①LDAを用いた潜在意味獲得②Global・Local特徴量をマージ

LDAを利用したことによる性能向上の考察

SPUL-local(global) vs SPUL-local(global)-ldaは・・・

Global・Local特徴量のマージによる性能向上の考察

SPUL-local(global)-ldaとMPIPULを比較すべきでは・・・

スパースなデータにk-meansで大丈夫・・・

Stopwordを除きk-meansで文書クラスタリングした場合は・・・

Sparse k-meansあるけど・・・

本タスクの比較として適切でない

個人的な気づき- サービスのステージにおける手法選択 -

モデルという観点では、RN・Pが増えるほど半教師から教師あり学習へ近づき、LP・LNに対する考察が深まる

LP・LNの考察が性能向上という観点で重要!!

実務という観点では、サービス開始時期はコールドスタートになるので、機械情報推薦する場合は拡張の工夫が必要。本手法はLP・LNも考慮するので適している


RN P

- - - : サービス構築の為の累積コスト：企業利益(日次)

時間

サービス開始時期

サービス安定時期

参考文献 Positive Unlabeled Learning for Data Stream

Classification

Similarity-Based Approach for Positive and Unlabelled Learning

The effect of adding relevance information in a relevance feedback environment

Building Text Classifiers Using Positive and Unlabeled Examples

Partially Supervised Classification of Text Documents

Experimental Perspectives on Learning from Imbalanced Data


Data & Analytics

Positive Unlabeled Learning for Deceptive Reviews Detection