23
Mining Text Data Charu C. Aggarwal and ChengXiang Zhai Chapter 6 補足資料 藤井研究室 D1 中山 祐輝 2012/11/09() 1

Appendix document of Chapter 6 for Mining Text Data

Embed Size (px)

Citation preview

Page 1: Appendix document of Chapter 6 for Mining Text Data

 Mining  Text  Data    

Charu  C.  Aggarwal  and  ChengXiang  Zhai    Chapter  6  補足資料  

藤井研究室  

D1 中山 祐輝  2012/11/09(金)

 

1

Page 2: Appendix document of Chapter 6 for Mining Text Data

A  set-­‐valued  featureとは

•  W.  Cohen.  Learning  with  set-­‐valued  features.  AAAI  Conference,  1996.    – A  set-­‐valued  is  simply  a  feature  whose  value  is  a  set  of  strings.  

•   (サイズ,種類,色)を動物に対する特徴空間とすると  – 上の写真=(小さい,犬,{白,黒} )  

2

集合値特徴

Page 3: Appendix document of Chapter 6 for Mining Text Data

補足:ジニ係数

•   式(6.1)より  

3

ww

w

w

w

Class  1 Class  2 Class  3 Class  4

Page 4: Appendix document of Chapter 6 for Mining Text Data

補足:クラス分布を考慮するジニ係数

   

   

4

ww

w

w

w

Class  1 Class  2 Class  3 Class  4

総文書数

クラスiに属する文書数

語wを含む文書が  出現する割合

分布による重み

同様に

Page 5: Appendix document of Chapter 6 for Mining Text Data

補足:クラス分布を考慮するジニ係数  (つづき)

•  分布によって正規化されたジニ係数G(w)  

•  分布を考慮する前と比べて,語wにおけるジニ係数は小さくなった  

•  クラス1は語wが出現する文書を多く含むが,属する文書数も多い  –  文書数が多いからwを含む文書数は多くなるはず  

•  クラス4は語wが出現する文書をあまり含まないが,文書数は少ない  –  文書数が少ないから,wを含む文書数が少ないのは当然  

•  クラス分布を考慮(正規化)することによって,wは正規化前と比べて特徴のない語であると判断された  

5

Page 6: Appendix document of Chapter 6 for Mining Text Data

補足:情報利得(エントロピー)

•  まとめると…  –  語wがあるクラスに偏って出現                 

すると,良い素性だということ  –  元々の文書のクラス分布やwの個数も考慮している

6

文書のクラス分布のばらつきが小さいほど、値が大きい

語wを含む文書がクラス全体で偏って出現するほど,値が大きい

語wを含む文書がクラス全体で偏って出現するほど,値が大きい

Page 7: Appendix document of Chapter 6 for Mining Text Data

補足:相互情報量

7

ww

w

w

w

Class  1 Class  2 Class  3 Class  4

例えば,Class1から見ると語wは正の相関がある

Page 8: Appendix document of Chapter 6 for Mining Text Data

補足:カイ二乗値

   •  一般的に,観測値と期待値は以下のように表される

8

クラスiである i以外の全てのクラス 合計

語wを含む (1)3/2.05 (2)2/2.95 5 語wを含まない (3)6/6.95 (4)11/10.1 17

合計 9 13 22

観測値 期待値

(1) (2) (3) (4)

観測値/期待値

Page 9: Appendix document of Chapter 6 for Mining Text Data

補足:カイ二乗値(つづき)

9

•  それぞれの観測値と期待値を上式に代入し,(1)〜(4)の総和をとると,式(6.6)が導出される  

•  期待値と観測値との間に差が生じると,あるクラスに偏って出現するとみなされ,良い素性となる

Page 10: Appendix document of Chapter 6 for Mining Text Data

Linear  Discriminant  Analysis  〜フィッシャーの線形判別〜

•  D次元の素性空間を1次元に縮減する!  •  D次元の文書ベクトルを1次元のスカラー値

に射影  •  1次元空間で最もデータが分離するようなパ

ラメータαを選択

10

D1

D2

射影

D1

D2 α

Page 11: Appendix document of Chapter 6 for Mining Text Data

Linear  Discriminant  Analysis  〜フィッシャーの線形判別〜(つづき)

•  最もデータが分離するとは→目的関数を用意  

11

D1

D2

射影後のクラスD1  の平均値

射影後のクラスD2  の平均値

目的関数を最大するパラメータを求める  →微分して解析的に式(6.10)を導出できる

Page 12: Appendix document of Chapter 6 for Mining Text Data

ナイーブベイズ分類器

•  クラスが未知の文書を最も確率値P(CT=i|T=Q)の高いクラスに割り当てる分類器  

 

– Qは文書中に含まれる用語の集合  •  上の例だとQ={t1,t4,t5,t8,t10}

12

用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中に含まれるか 1 0 0 1 1 0 0 1 0 1

ある文書のbag-­‐of-­‐words

これを求めたい!

Page 13: Appendix document of Chapter 6 for Mining Text Data

補足:多変数ベルヌーイモデルによる  分類のイメージ

•  語wが文書で出現するか否か(0/1)をモデル化  – 表裏があるコインを思い浮かべるとわかりやすい  

– それぞれのクラスがt1〜t10の値を1か0かに決定するコインを持っている  

– コインの表裏の出る確率は違う  – 表裏の出る確率は前の結果に依存しない  – それぞれのクラスでのt1〜t10のコインを振って,一番

上の表のように出たクラスに割り当てる  13 13

用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中に含まれるか 1 0 0 1 1 0 0 1 0 1

Page 14: Appendix document of Chapter 6 for Mining Text Data

補足:多変数ベルヌーイモデルの  定式化

•  P(T=Q|CT=i)はどのよう定式化できるか  – クラスiが与えられた時に,サンプルTがQ(前ペー

ジの表)となる確率  

•  同時確率P(t1,t2,…,tn|CT=i)を考える  •  P(A,B)=P(A|B)P(B)の関係をひたすら繰り返す  

14

Page 15: Appendix document of Chapter 6 for Mining Text Data

補足:多変数ベルヌーイモデルの  定式化(つづき)

 •  t2はt1に依存して,t3はt1とt2に依存している  •  独立性を仮定してP(T=Q|CT=i)計算を簡便に

する  

15 tjが1(出現)の確率  {t1,t4,t5,tn-­‐1}∈Q

0(出現しない)の確率

Page 16: Appendix document of Chapter 6 for Mining Text Data

多項分布による分類のイメージ

•  語wがある文書で出現する回数をモデル化  

•  それぞれのクラスで|V|(=10)面体の歪んだサイコロをL(=18)回振る  •  サイコロは各クラスで歪みが違う  •  サイコロの目は前の結果に依存しない  

•  出現回数の分布が上の表に近そうなクラスに割り当てる  

16

用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中の出現回数 4 0 1 2 5 0 2 1 0 3

Page 17: Appendix document of Chapter 6 for Mining Text Data

多項分布の定式化

17

サンプル順番を考慮する

独立試行により単純に用語の出現確率を掛け合わせる

重複する用語を排除

用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中の出現回数 4 0 1 2 5 0 2 1 0 3

Page 18: Appendix document of Chapter 6 for Mining Text Data

Mixture  distribu_on  

補足:混合モデル

•  用語の確率分布がk個の確率分布の重み付け線形和で表現できる確率分布  – クラスiの用語tjが出現する確率はクラスiの情報だけ

でなく他クラスの確率分布も使いましょう  •  ベイズは単一のクラス分布から推定していた  

– クラスの分布だけでなく任意の分布を混ぜてもOK  

18

Class  1 Class  2

Class  3 Class  4 Mix!!

Page 19: Appendix document of Chapter 6 for Mining Text Data

補足:混合モデル(つづき)

•  どうやって混合するか?  

•  パラメータ推定に関して  – 本サーベイ論文には紹介されていなかったので

省略  – EMアルゴリズムが使われる…らしい  

•  混合モデルは訓練データの量が制限された場合に役に立つ。

19

推定すべきパラメータ 各混合要素でのtjの確率

Page 20: Appendix document of Chapter 6 for Mining Text Data

ロジスティック回帰

20

•  質的変数を線形に回帰するための手法  •  テストデータXがクラスyiに属する確率P(C=yi|X)が出力される  

•  シグモイド関数で表現する  

 •  2値分類であれば  –                                                   :クラス1に属する  –                                                   :クラス2に属する

Page 21: Appendix document of Chapter 6 for Mining Text Data

補足:回帰に基づく分類器  (ロジット変換)

 •  上式を                                        について解くと

21

Page 22: Appendix document of Chapter 6 for Mining Text Data

Rocchioの手法

•  各クラスの代表となる文書を構築する  – メタ文書とサーベイ中では呼ばれている  

•  メタ文書(代表)ベクトル中の用語の重みをどのように定めるか  

22

P  Class   N  Class

テストデータ

Nの代表 Pの代表

類似度の計算

Page 23: Appendix document of Chapter 6 for Mining Text Data

Rocchioの手法(つづき)

•  Rocchioの手法によるメタ文書のベクトルd中の用語tkの重みfkrocchio

23

P  Class  

0.28

0.40 0.30

N  Class  

0.00

0.01 0.05 用語tkの  正規化頻度(割合)

Pクラス中でランダムに選択された文書におけるtkの正規化頻度

Nクラス中でランダムに選択された文書におけるtkの正規化頻度

重みパラメータ