Upload
quasiquant2010
View
2.903
Download
0
Embed Size (px)
DESCRIPTION
EMNLP2014読み会 @PFI
Citation preview
Positive Unlabeled Learning for Deceptive Reviews Detection
by Y.Ren, etc
担当: Quasi_quant2010
EMNLP2014読み会@PFI1
【EMNLP2014読み会】
本論文を読んだ動機- 負例に偏ったデータにおける情報推薦の考察 -
EMNLP2014読み会@PFI2
データがスパース性を持つ場合、負例に偏ったデータが大半
検索連動広告ではCTRが数%
通常の識別モデルでは、データの大半が負例のため、汎化性能が低い
低い汎化性能のため、10-fold・CVとかABテストとかで性能を担保する
バイアス高い・・・
基本的な疑問
人間の観測測度で、データがスパース性を持つのでは?
神様の観測測度で、データはデンス性を持っているはず?
PU(Positive Unlabeled) Learning
データをスパースからデンスにし、スパース正則化でRecallを上げる
今回の論文はスパース正則化ではない
神様と人間の中間を目指す!!
Likely Positive(注)後述とLikely Negativeにより情報がデンスになる
例えば短文データの場合、同義語への拡張が識別可能性を上げる
本論文のタスク具体例- 同じ商品なのに、レビューが全く違う -
異なるユーザー嗜好でレビューが変化するのは望ましい
ただし、ユーザーレビューが他ユーザーに有益とは限らない
本論文は、ユーザーを欺くレビューを発見するタスクの実証
ECサイトの品質向上を狙った応用が考えられる
EMNLP2014読み会@PFI3
レビューがユーザーの役に立たない
レビューがユーザーの役に立つ
アイディア①:スパースからデンスへ- |Reliable Negative| ≫ |Positive| -
典型的な例として、データが負例に偏っている場合がある
負例ラベルを持つデータには、正例を持ってもよいものもある
正例ラベル(=P)、ラベルなしデータ(=U)が与えられた時、本当の意味での負例(RN)が識別できれば、U/RNが分かる
U/RNをさらに、Likely Positive(LP)・ Likely--Negatibe(LN)として分類し、学習データをデンスにすることで、学習関数の識別可能性を上げるただし、本研究ではスパース正則化は議論の対象外
EMNLP2014読み会@PFI4
アイディア②:先行研究との違い- {Unlabelled/Reliable Negative}を使う -
ノーテーション
P = Positive samples
U = Unlabelled samples
RN = Reliable Negative samples
U/RN = Unlabelled / Reliable Negative samples
先行研究①
P・RNをのみから学習関数を求める為、識別可能性に限界がある
先行研究②
P・RN・U/RNを使う
本研究
P・RN・U/RNを使い、学習関数を求める。他方、特徴量生成の際、global・local特徴量を考慮する事で、識別可能性を高める
EMNLP2014読み会@PFI5
U/RNをポジ・ネガを識別する特徴量ソースとして利用できれば苦労しないが・・・
先行研究の結果- U/RNの活用と特徴量生成の工夫 -
EMNLP2014読み会@PFI6
U/RNをポジ・ネガ識別の新たな特徴量ソースとして利用すれば識別可能性は上がる
本研究では、global・local特徴量ソースをマージしている
U/RNを使用- Global SPUL : global特徴量のみを考慮- Local SPUL : local特徴量のみを考慮- LELC : SPULと異なる点は、特徴量にglobal・local性を考慮しない
U/RNを使用しない- Spy-EM : SpyでRNを抽出し、NBで学習関数推定- Roc-SVM : RocchioでRNを抽出し、SVMで学習関数推定
ポジ・ネガ識別の特徴量ソースとしてU/RNを利用
[11 Xiao] IJCAI, Similarity-Based Approach for Positive and Unlabelled Learning
問題設定- PU Learningと計算手順 -
Given
Positiveデータとラベルなしデータ
Positiveデータ、{“+1”:秋口には飲みたくなるビール}
ラベルなしデータ、{“null”:苦みのあるプレミアムビール}
Then
Step1 : Reliable Negative Extraction
Step2 : PとRNを使ったポジ・ネガの単語表現(ベクトル)作成
Step3 : Step2で計算した単語表現によるLPとLN構築
Step4 : P∪LP・RN∪LNを使った、ソフトSVMによる識別予測EMNLP2014読み会@PFI7
PU
RNLP
LN PとRNが ポジ・ネガを表現していればよいLP・LNを構築できる・・・
PとRNを使ったポジ・ネガの単語表現構築- LDAにより(文書内)単語に潜在意味を付与 -
抽出したRNにLDAを適用し、単語トピックを同定。
次に、各レビュー文書を以下のような表現に変換;
{“トピック”:青, “単語”:国境の長い, “φ”:1.0e-5}
1レビューを上記JSONの集まりと考え、k-meansでRNをクラスタリング(コサイン類似度)
ただし、内積を計算する際、トピックが異なる場合はゼロ
EMNLP2014読み会@PFI8
[持橋大地] 機械学習に基づく自然言語処理, IBIS 2013 tutorial
論文中にはLDAを使ったとだけ記述。Multi Grain-LDAなどの記述なし。また、どの様にBoWを作ったかも記述なし・・・
スパースなデータでk-meansで大丈夫?Sparse k-meansとかもあるが・・・
PとRNを使ったポジ・ネガの単語表現構築- RNで作成したクラスターがネガ表現としてGood -
PとRN(= Ui=1 RNi)を使ってn個のp・nの単語ベクトル構築
従来
レビュー文にtf-idfを適用してからk-means
割り引いた頻度情報でクラスタリング
提案手法
レビュー文にLDAを適用してからk-means
潜在意味を獲得
EMNLP2014読み会@PFI9
n
n
p・nがよりリッチな情報に
P∪LP・RN∪LNを使った、識別予測(ソフトSVM)- 新規性:Global・Local特徴量のマージ -
Population Property : Global特徴量
Individual Property : Local特徴量
Similarity Weight : Global特徴量 + Local特徴量
EMNLP2014読み会@PFI10
先行研究のSPUL Localに相当
先行研究のSPUL Globalに相当
提案手法のMPIPULに相当
データ- Positive and Unlabelled sample -
6977レビューがPositiveとして記録(TripAdvisor)
ただし、Positiveレビューの内、以下を除去
1. 5つ星でないレビュー
2. 英語でないレビュー
3. 75文字未満のレビュー
4. 初めてレビューを書き込んだ人の場合は、除去
EMNLP2014読み会@PFI11
Likely Positiveとして機能するのは1・3・4
Positive Unlabelled
訓練データ 72 648 720
Positive decceptive
訓練データ 360 360 720
Positive decceptive
テストデータ 40 40 80 訓練データのデータ量を20%・30%・40%と変えて頑強性も評価
訓練データの内訳
結果①- 人手の評価 -
3人にテストデータのラベルを予測させた
個々人のバイアスを除くため、
多数決による予測ラベル決定
3人中2人がP(ポジ)と判断した時、P(ポジ)
全会一致による欺くレビューの決定
3人中3人がN(ネガ)と判断した時、N(ネガ)
→ 人間は、ユーザーを欺くレビューを62.4%の正確性で予測
EMNLP2014読み会@PFI12
注)ユーザーを欺くレビュー(ネガ)を予測できた場合。よくある、Precision is ポジRecall is ポジ+ネガ
ではないので注意
結果②- 実験結果:提案手法、MPIPUL -
EMNLP2014読み会@PFI13
Global特徴量のみを考慮
Local特徴量のみを考慮
①LDAを用いた潜在意味獲得②Global・Local特徴量をマージ
LDAを利用したことによる性能向上の考察
SPUL-local(global) vs SPUL-local(global)-ldaは・・・
Global・Local特徴量のマージによる性能向上の考察
SPUL-local(global)-ldaとMPIPULを比較すべきでは・・・
スパースなデータにk-meansで大丈夫・・・
Stopwordを除きk-meansで文書クラスタリングした場合は・・・
Sparse k-meansあるけど・・・
本タスクの比較として適切でない
個人的な気づき- サービスのステージにおける手法選択 -
モデルという観点では、RN・Pが増えるほど半教師から教師あり学習へ近づき、LP・LNに対する考察が深まる
LP・LNの考察が性能向上という観点で重要!!
実務という観点では、サービス開始時期はコールドスタートになるので、機械情報推薦する場合は拡張の工夫が必要。本手法はLP・LNも考慮するので適している
EMNLP2014読み会@PFI14
RN P
- - - : サービス構築の為の累積コスト :企業利益(日次)
時間
サービス開始時期
サービス安定時期
参考文献 Positive Unlabeled Learning for Data Stream
Classification
Similarity-Based Approach for Positive and Unlabelled Learning
The effect of adding relevance information in a relevance feedback environment
Building Text Classifiers Using Positive and Unlabeled Examples
Partially Supervised Classification of Text Documents
Experimental Perspectives on Learning from Imbalanced Data
EMNLP2014読み会@PFI15