Appendix document of Chapter 6 for Mining Text Data

Mining Text Data

Charu C. Aggarwal and ChengXiang Zhai Chapter 6 補足資料

藤井研究室

D1　中山祐輝 2012/11/09(金)

1

A set-‐valued featureとは

•  W. Cohen. Learning with set-‐valued features. AAAI Conference, 1996. – A set-‐valued is simply a feature whose value is a set of strings.

•  （サイズ，種類，色）を動物に対する特徴空間とすると – 上の写真=（小さい，犬，{白，黒}　）

2

集合値特徴

補足：ジニ係数

•  式(6.1)より

3

ww

w

w

w

Class 1 Class 2 Class 3 Class 4

補足：クラス分布を考慮するジニ係数

4

ww

w

w

w


総文書数

クラスiに属する文書数

語wを含む文書が出現する割合

分布による重み

同様に

補足：クラス分布を考慮するジニ係数（つづき）

•  分布によって正規化されたジニ係数G(w)

•  分布を考慮する前と比べて，語wにおけるジニ係数は小さくなった

•  クラス1は語wが出現する文書を多く含むが，属する文書数も多い –  文書数が多いからwを含む文書数は多くなるはず

•  クラス4は語wが出現する文書をあまり含まないが，文書数は少ない –  文書数が少ないから，wを含む文書数が少ないのは当然

•  クラス分布を考慮（正規化）することによって，wは正規化前と比べて特徴のない語であると判断された

5

補足：情報利得（エントロピー）

•  まとめると… –  語wがあるクラスに偏って出現　　　　　　　　　　　　　　　　　

すると，良い素性だということ –  元々の文書のクラス分布やwの個数も考慮している

6

文書のクラス分布のばらつきが小さいほど、値が大きい

語wを含む文書がクラス全体で偏って出現するほど，値が大きい

語wを含む文書がクラス全体で偏って出現するほど，値が大きい

補足：相互情報量

7

ww

w

w

w


例えば，Class1から見ると語wは正の相関がある

補足：カイ二乗値

•  一般的に，観測値と期待値は以下のように表される

8

クラスiである i以外の全てのクラス合計

語wを含む (1)3／2.05 (2)2／2.95 5 語wを含まない (3)6／6.95 (4)11／10.1 17

合計 9 13 22

観測値期待値

(1) (2) (3) (4)

観測値／期待値

補足：カイ二乗値（つづき）

9

•  それぞれの観測値と期待値を上式に代入し，(1)〜(4)の総和をとると，式(6.6)が導出される

•  期待値と観測値との間に差が生じると，あるクラスに偏って出現するとみなされ，良い素性となる

Linear Discriminant Analysis 〜フィッシャーの線形判別〜

•  D次元の素性空間を1次元に縮減する！ •  D次元の文書ベクトルを１次元のスカラー値

に射影 •  １次元空間で最もデータが分離するようなパ

ラメータαを選択

10

D1

D2

射影

D1

D2 α

Linear Discriminant Analysis 〜フィッシャーの線形判別〜（つづき）

•  最もデータが分離するとは→目的関数を用意

11

D1

D2

射影後のクラスD1 の平均値

射影後のクラスD2 の平均値

目的関数を最大するパラメータを求める →微分して解析的に式(6.10)を導出できる

ナイーブベイズ分類器

•  クラスが未知の文書を最も確率値P(CT=i|T=Q)の高いクラスに割り当てる分類器

– Qは文書中に含まれる用語の集合 •  上の例だとQ={t1,t4,t5,t8,t10}

12

用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中に含まれるか 1 0 0 1 1 0 0 1 0 1

ある文書のbag-‐of-‐words

これを求めたい！

補足：多変数ベルヌーイモデルによる分類のイメージ

•  語wが文書で出現するか否か(0/1)をモデル化 – 表裏があるコインを思い浮かべるとわかりやすい

– それぞれのクラスがt1〜t10の値を1か0かに決定するコインを持っている

– コインの表裏の出る確率は違う – 表裏の出る確率は前の結果に依存しない – それぞれのクラスでのt1〜t10のコインを振って，一番

上の表のように出たクラスに割り当てる 13 13

用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中に含まれるか 1 0 0 1 1 0 0 1 0 1

補足：多変数ベルヌーイモデルの定式化

•  P(T=Q|CT=i)はどのよう定式化できるか – クラスiが与えられた時に，サンプルTがQ（前ペー

ジの表）となる確率

•  同時確率P(t1,t2,…,tn|CT=i)を考える •  P(A,B)=P(A|B)P(B)の関係をひたすら繰り返す

14

補足：多変数ベルヌーイモデルの定式化（つづき）

•  t2はt1に依存して，t3はt1とt2に依存している •  独立性を仮定してP(T=Q|CT=i)計算を簡便に

する

15 tjが1（出現）の確率 {t1,t4,t5,tn-‐1}∈Q

0(出現しない)の確率

多項分布による分類のイメージ

•  語wがある文書で出現する回数をモデル化

•  それぞれのクラスで|V|(=10)面体の歪んだサイコロをL(=18)回振る •  サイコロは各クラスで歪みが違う •  サイコロの目は前の結果に依存しない

•  出現回数の分布が上の表に近そうなクラスに割り当てる

16

用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中の出現回数 4 0 1 2 5 0 2 1 0 3

多項分布の定式化

17

サンプル順番を考慮する

独立試行により単純に用語の出現確率を掛け合わせる

重複する用語を排除

用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中の出現回数 4 0 1 2 5 0 2 1 0 3

Mixture distribu_on

補足：混合モデル

•  用語の確率分布がk個の確率分布の重み付け線形和で表現できる確率分布 – クラスiの用語tjが出現する確率はクラスiの情報だけ

でなく他クラスの確率分布も使いましょう •  ベイズは単一のクラス分布から推定していた

– クラスの分布だけでなく任意の分布を混ぜてもOK

18

Class 1 Class 2

Class 3 Class 4 Mix!!

補足：混合モデル（つづき）

•  どうやって混合するか？

•  パラメータ推定に関して – 本サーベイ論文には紹介されていなかったので

省略 – EMアルゴリズムが使われる…らしい

•  混合モデルは訓練データの量が制限された場合に役に立つ。

19

推定すべきパラメータ各混合要素でのtjの確率

ロジスティック回帰

20

•  質的変数を線形に回帰するための手法 •  テストデータXがクラスyiに属する確率P(C=yi|X)が出力される

•  シグモイド関数で表現する

•  ２値分類であれば –  :クラス1に属する –  :クラス2に属する

補足：回帰に基づく分類器（ロジット変換）

•  上式をについて解くと

21

Rocchioの手法

•  各クラスの代表となる文書を構築する – メタ文書とサーベイ中では呼ばれている

•  メタ文書（代表）ベクトル中の用語の重みをどのように定めるか

22

P Class N Class

テストデータ

Nの代表 Pの代表

類似度の計算

Rocchioの手法（つづき）

•  Rocchioの手法によるメタ文書のベクトルd中の用語tkの重みfkrocchio

23

P Class

0.28

0.40 0.30

N Class

0.00

0.01 0.05 用語tkの正規化頻度（割合）

Pクラス中でランダムに選択された文書におけるtkの正規化頻度

Nクラス中でランダムに選択された文書におけるtkの正規化頻度

重みパラメータ

Documents

Appendix document of Chapter 6 for Mining Text Data