Upload
yuki-nakayama
View
299
Download
2
Embed Size (px)
Citation preview
Mining Text Data
Charu C. Aggarwal and ChengXiang Zhai Chapter 6 補足資料
藤井研究室
D1 中山 祐輝 2012/11/09(金)
1
A set-‐valued featureとは
• W. Cohen. Learning with set-‐valued features. AAAI Conference, 1996. – A set-‐valued is simply a feature whose value is a set of strings.
• (サイズ,種類,色)を動物に対する特徴空間とすると – 上の写真=(小さい,犬,{白,黒} )
2
集合値特徴
補足:ジニ係数
• 式(6.1)より
3
ww
w
w
w
Class 1 Class 2 Class 3 Class 4
補足:クラス分布を考慮するジニ係数
4
ww
w
w
w
Class 1 Class 2 Class 3 Class 4
総文書数
クラスiに属する文書数
語wを含む文書が 出現する割合
分布による重み
同様に
補足:クラス分布を考慮するジニ係数 (つづき)
• 分布によって正規化されたジニ係数G(w)
• 分布を考慮する前と比べて,語wにおけるジニ係数は小さくなった
• クラス1は語wが出現する文書を多く含むが,属する文書数も多い – 文書数が多いからwを含む文書数は多くなるはず
• クラス4は語wが出現する文書をあまり含まないが,文書数は少ない – 文書数が少ないから,wを含む文書数が少ないのは当然
• クラス分布を考慮(正規化)することによって,wは正規化前と比べて特徴のない語であると判断された
5
補足:情報利得(エントロピー)
• まとめると… – 語wがあるクラスに偏って出現
すると,良い素性だということ – 元々の文書のクラス分布やwの個数も考慮している
6
文書のクラス分布のばらつきが小さいほど、値が大きい
語wを含む文書がクラス全体で偏って出現するほど,値が大きい
語wを含む文書がクラス全体で偏って出現するほど,値が大きい
補足:相互情報量
7
ww
w
w
w
Class 1 Class 2 Class 3 Class 4
例えば,Class1から見ると語wは正の相関がある
補足:カイ二乗値
• 一般的に,観測値と期待値は以下のように表される
8
クラスiである i以外の全てのクラス 合計
語wを含む (1)3/2.05 (2)2/2.95 5 語wを含まない (3)6/6.95 (4)11/10.1 17
合計 9 13 22
観測値 期待値
(1) (2) (3) (4)
観測値/期待値
補足:カイ二乗値(つづき)
9
• それぞれの観測値と期待値を上式に代入し,(1)〜(4)の総和をとると,式(6.6)が導出される
• 期待値と観測値との間に差が生じると,あるクラスに偏って出現するとみなされ,良い素性となる
Linear Discriminant Analysis 〜フィッシャーの線形判別〜
• D次元の素性空間を1次元に縮減する! • D次元の文書ベクトルを1次元のスカラー値
に射影 • 1次元空間で最もデータが分離するようなパ
ラメータαを選択
10
D1
D2
射影
D1
D2 α
Linear Discriminant Analysis 〜フィッシャーの線形判別〜(つづき)
• 最もデータが分離するとは→目的関数を用意
11
D1
D2
射影後のクラスD1 の平均値
射影後のクラスD2 の平均値
目的関数を最大するパラメータを求める →微分して解析的に式(6.10)を導出できる
ナイーブベイズ分類器
• クラスが未知の文書を最も確率値P(CT=i|T=Q)の高いクラスに割り当てる分類器
– Qは文書中に含まれる用語の集合 • 上の例だとQ={t1,t4,t5,t8,t10}
12
用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中に含まれるか 1 0 0 1 1 0 0 1 0 1
ある文書のbag-‐of-‐words
これを求めたい!
補足:多変数ベルヌーイモデルによる 分類のイメージ
• 語wが文書で出現するか否か(0/1)をモデル化 – 表裏があるコインを思い浮かべるとわかりやすい
– それぞれのクラスがt1〜t10の値を1か0かに決定するコインを持っている
– コインの表裏の出る確率は違う – 表裏の出る確率は前の結果に依存しない – それぞれのクラスでのt1〜t10のコインを振って,一番
上の表のように出たクラスに割り当てる 13 13
用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中に含まれるか 1 0 0 1 1 0 0 1 0 1
補足:多変数ベルヌーイモデルの 定式化
• P(T=Q|CT=i)はどのよう定式化できるか – クラスiが与えられた時に,サンプルTがQ(前ペー
ジの表)となる確率
• 同時確率P(t1,t2,…,tn|CT=i)を考える • P(A,B)=P(A|B)P(B)の関係をひたすら繰り返す
14
補足:多変数ベルヌーイモデルの 定式化(つづき)
• t2はt1に依存して,t3はt1とt2に依存している • 独立性を仮定してP(T=Q|CT=i)計算を簡便に
する
15 tjが1(出現)の確率 {t1,t4,t5,tn-‐1}∈Q
0(出現しない)の確率
多項分布による分類のイメージ
• 語wがある文書で出現する回数をモデル化
• それぞれのクラスで|V|(=10)面体の歪んだサイコロをL(=18)回振る • サイコロは各クラスで歪みが違う • サイコロの目は前の結果に依存しない
• 出現回数の分布が上の表に近そうなクラスに割り当てる
16
用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中の出現回数 4 0 1 2 5 0 2 1 0 3
多項分布の定式化
17
サンプル順番を考慮する
独立試行により単純に用語の出現確率を掛け合わせる
重複する用語を排除
用語(索引語)w∈V t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 文書中の出現回数 4 0 1 2 5 0 2 1 0 3
Mixture distribu_on
補足:混合モデル
• 用語の確率分布がk個の確率分布の重み付け線形和で表現できる確率分布 – クラスiの用語tjが出現する確率はクラスiの情報だけ
でなく他クラスの確率分布も使いましょう • ベイズは単一のクラス分布から推定していた
– クラスの分布だけでなく任意の分布を混ぜてもOK
18
Class 1 Class 2
Class 3 Class 4 Mix!!
補足:混合モデル(つづき)
• どうやって混合するか?
• パラメータ推定に関して – 本サーベイ論文には紹介されていなかったので
省略 – EMアルゴリズムが使われる…らしい
• 混合モデルは訓練データの量が制限された場合に役に立つ。
19
推定すべきパラメータ 各混合要素でのtjの確率
ロジスティック回帰
20
• 質的変数を線形に回帰するための手法 • テストデータXがクラスyiに属する確率P(C=yi|X)が出力される
• シグモイド関数で表現する
• 2値分類であれば – :クラス1に属する – :クラス2に属する
補足:回帰に基づく分類器 (ロジット変換)
• 上式を について解くと
21
Rocchioの手法
• 各クラスの代表となる文書を構築する – メタ文書とサーベイ中では呼ばれている
• メタ文書(代表)ベクトル中の用語の重みをどのように定めるか
22
P Class N Class
テストデータ
Nの代表 Pの代表
類似度の計算
Rocchioの手法(つづき)
• Rocchioの手法によるメタ文書のベクトルd中の用語tkの重みfkrocchio
23
P Class
0.28
0.40 0.30
N Class
0.00
0.01 0.05 用語tkの 正規化頻度(割合)
Pクラス中でランダムに選択された文書におけるtkの正規化頻度
Nクラス中でランダムに選択された文書におけるtkの正規化頻度
重みパラメータ