3. 線形回帰および識別
線形回帰のモデル正則化項の導入
L2 正則化L1 正則化
正則化項の Bayes 的解釈線形識別
生成モデルを利用した識別2 乗誤差最小化の線形識別の問題点
クラシックな機械学習の入門
by 中川裕志(東京大学)
線形モデル
データ の分布状況から線形回帰式を求める
w0
x
y y=w1x+w0
線形モデル
T101
0
],,,,[,],,,1[, KT
Ki
K
ii wwwxxxwy
wxwx ただし、
入力ベクトル: x から出力: y を得る関数が xの線形関数( w と x の内積)
一般に観測データはノイズを含んでいる。つまり
得られた N 個の観測データ の組( y,X)に対して最適な wを推定する。
そこで、 yと の 2 乗誤差を最小化するように wを選ぶ。
と考える。はノイズで ),0(, 2 Ny wx
wX
2 乗誤差の最小化
yXXXw
yXXwXw
XwyXwy
XwyXwyww
x
x
Xy
TT
w
N
1
TT
T
T
KNKN
K
T
T
N w
w
w
w
xx
xx
y
y
1
1
0
1
1111
)(
0)()(
)()(minargˆ
1
1
を解くと
の推定値
正規方程式 と呼ばれる基本式
補遺:正規方程式の導出
)(2)()(
..)(
..)(..)(..)(
..)(
..)(..)(..)()()(
)()(rulechain
0222)1(
2
)1(0)()(
)()()(
1
XwyXXwyXXwyX
y
yy
w
y
y
yy
w
y
w
XwyXwy
x
x
x
x
x
x
yXXXw
XwXyXXwXyXXwyX
XwXXXwXwXw
wXXw
w
XwXw
w
XwXw
yXXyw
Xwya
x
xayX
w
yXwa
x
ax
w
XwXw
w
Xwy
w
yXw
w
XwyXwy
XwXwXwyyXwyyXwyXwyXwyXwy
TTT
T
TTTT
TT
TTTTT
TTTTTTTTTTT
TTTTT
TTTT
TTTTTT
TTTTTTTTTT
g
gfggfcf
を使えば の 行列で微分する場合
よりより
正規方程式を解く簡単な例
N
ii
N
ii
N
ii
N
ii
N
ii
N
ii
N
iii
N
ii
N
ii
N
ii
N
ii
N
iii
N
ii
N
ii
N
ii
N
ii
N
ii
N
ii
N
ii
N
iii
N
ii
N
ii
N
ii
N
ii
N
ii
T
TTN
iii
N
ii
N
ii
N
ii
N
ii
NN
NN
T
NN
xwN
yN
w
xxN
yxyxN
N
x
N
y
xxN
yxxyxw
xxN
yxyxNw
Nx
xx
xxN
yx
y
w
w
xx
xN
y
y
xxw
w
x
x
xx
w
w
y
y
x
x
11
102
11
2
111112
11
2
1111
2
0
2
11
2
1111
1
11
2
2
11
2
1
1
1
1
0
1
2
1
1
1
11
01
1
1
011
11
1
11
1
111
1
1
XX
yXwXX
yXXwXwyX T
は 正規方程式
用語:誤差、損失、目的関数線形モデルで最小化したかったのは2乗誤差真のモデルにおける値 ( 2乗誤差における y) と 予測値 ( 2乗誤差における Xw) の差異を表す関
数を損失関数(単に損失)あるいは Loss と呼び、 L で表すことが多い。
上記のような最適化問題において最小化(一般的には最適化)したい関数を目的関数と呼ぶ。
線形モデルの2乗誤差最小化では 2乗誤差=損失=目的関数
線形モデルの一般化 T
Ky )](,,)(,1[, 1 xxxw(x)
基底関数 重みN 個の観測データ( y,x )に対して
( y 、 φ ( x ))が得られたとすると、 2 乗誤差を最小化するwは前を同じく以下の通りだが、少し別の見方で解く。
yxφxφxφ TTw )())()((ˆ 1
基底関数の例
T
T
x
x
xφ
N
1
N
1
y
y
y
urier Fast Fo:even):(m 2exp
sigmoidal : /exp1
1
Gaussian : 2
exp
lpolynomina :
2
2
m
xjix
sxx
s
xx
xx
j
jj
jj
jj
{x( ベクトル ),y} が観測データ (training data) w,β を決定する、即ち (p(y|x,w,β) を最大化) N 組の i.i.d. 観測データすなわち教師データがあると
する。
正規方程式を求める別の方法
K
T
T
TN
w
w
w
wyy
1
0
1 ),,(
N
1
x
x
Xy
すると次のページのように p(y|x,w,β )が書ける。
),),(|(),|(
.),0(),(1
21
wxwx,
wx
φyNyp
Nφy を精度と呼ぶ
両辺の log をとる
),),|(),( 1
1
N
ii φyNp w(xwX,|y i
N
iiyL
LNN
wp
1
2
0
,2
1)(
)(2log2
log2
),,(log
w)(xw
wX,w|y
i
log p(y|w,X,β) を w,β について最大化したい。まず、 wについて最大化する。
yφ(X)φ(X)φ(X)w
wφ(X)φ(X)yφ(X)
w)(x)(x)(x
w)(x)(xw
Xw,|y
iii
ii
TT
TT
N
i
TN
ii
N
ii
y
yp
1
11
1
)(ˆ
)(
0
0,),(log
T
N
T
φ
φ
x
x
xφ 1
バイアス w0 の部分だけに注目してみると• 対数近似関数から最適な w0 を によって求め
ると
K
j
N
ijj
N
ii
N
iK
Ki
N
i
K
Ki
N
iK
Ki
N
i
K
Ki
wN
yN
w
w
w
w
y
w
w
w
y
w
w
w
w
y
w
w
w
w
y
w
L
1 110
10
1
11
1
0
1
0
1
2
0
1
1
0
1
2
1
0
1
0
)11
0))),..(2))),..,1(2
))),..())),..,1(
i
iiii
iiii
(x
(x(x(x(x
(x(x(x(x
w
yの平均 基底関数の学習データの平均のw重み付き和
精度 β を求める。
log p(y|w,X,β) を β に対して最大化
ただし、 w は最適化されたものを用いる
N
ii
N
ii
yN
yL
LNp
1
21
1
2
ˆ1ˆ
ˆ2
1)(
)ˆ(2
),ˆ(log
w)φ(x
w)φ(xw
wX,w|y
i
i
yの予測値と観測された値の差の2乗の平均
φ 1 (x)
φ2 (x)
新規データ:y
S:が張る空間wx
y から S に最も近い点(垂直に落としている)
幾何学的イメージ
計算の効率化大きな data sets に対して の右辺第 1 項の逆行列計算量が問題特にデータの次元 N に対して O(N3) なので
高次元だと大変定石は、コレスキー分解 O(N2) して上 / 下
半 3 角行列で表現される連立方程式を 2 回解く
L(w)を最小化するような wの数値計算
yφφφw TT 1)(ˆ
Tnnny
L
)())((
)()()(
)()1(
xwxw
www
目的関数(すなわち損失 L(w)) の減る方向へ進む( ー gradient を w に加える)方法を gradient descent は呼ばれ、最適化における基本的数値計算法である。
正則化項の導入
モデルを複雑にするほど学習データにはよく合致するが、学習データ以外のデータには弱いという過学習を起こす。
過学習を抑えるために、損失関数に正則化項を導入。
正則化項にはモデルをできるだけ簡単化する方向に作用する。データが高次元の場合には次元削減効果あり。
一般的な正則化項
正則化項 q=2 のときが L2 正則化 q=1 のときは LASSO: 1ノルムによる正則
化なので L1 正則化と呼ぶ Least Absolute Shrinkage and Selection
Operator
λ が十分大きいと、 wj のいくつかは 0 になりやすい → スパースなモデル
q=0 のときは L0 正則化。解きにくい問題(上記2つと違い凸ではない)
K
j
qj
N
iii wφyL
1
2
1
||2
),2
1)(
w(xw
• 制約
のもとで、 L(w) を最小化する、と考える。
qK
jjw
1
q=0.5 q=1 q=2 q=4
正則化項
(w の影響を小さくする効果 )
W の2ノルムによる正則化であるので、 L2 正則化と呼ぶ
yφ(Xφ(Xφ(XIww
www(xw
w
TT
TN
iii
L
φyL
))))()(minargˆ
2),
2
1)(
1
2
1
最小化すると
最適な wは L(w) を微分して0とすれば上記のように解析的に閉じた式で求まる。
これは φ(X) と λ の案配よって決まり、どの成分も強制的にゼロにしようという力は働かない
L2 正則化
K
jj
N
iii wφyL
1
22
1 2),
2
1)(
w(xw
W1
W2
最短の 2 乗距離で結ぶ
L2正則化のイメージ
L1 正則化
L 2正則化では w の最適値 を損失 Lの微分で閉じた式で求められたが、 L1 正則化では |w| がw=0で微分できないので、ややこしくなる。
L1 正則化を行う逐次的な方法と L1 正則化がwの要素の多くをゼロ化す
る傾向を以下で説明する
w
1
K
jj
N
iii wφyL
1
2
1 2),
2
1)(
w(xw
W1
W2
Loss+L1 の最小距離で結ぶCase 3 では、W2=0 となる
2
3
L oss L1
L1正則化イメージ: (1) 軸での Loss の微分 =0 として を求める
2w 2~w
1
K
jj
N
iii wφyL
1
2
1 2),
2
1)(
w(xw
W1
W2
Loss+L1 の最小距離で結ぶCase 3 では、W2=0 となる
2
3
L oss L1
L1正則化イメージ : (2) 軸での Loss の微分 =0 として を求める
2w 2~w
1
K
jj
N
iii wφyL
1
2
1 2),
2
1)(
w(xw
W1
W2
Loss+L1 の最小距離で結ぶCase 3 では、W2=0 となる
2
3
L oss L1
(1)(2)(3)で2本の赤い矢印線の長さの和が変わらない点
に注目以下で L1 正則化に関してもう少し細かく議
論する。
L1正則化イメージ: (3) 軸での Loss の微分 =0 として を求める
2w 2~w
ある次元 d に着目して L(w) を最小化するような wd を求める。
これを各次元について繰り返し、 L(w) の最小化を図る。 wd について L(w) を書き直すと
とおき wd の最適値を求めたいが絶対値を含む第2項 L1(w) が微分できないので、ひとまず Loss(w) を微分して0とおくと
)101(||2
),2
1)(
1
2
1
LwφyLK
jj
N
iii
w(xw
)201(1
22
1
1
2
LLLoss
wwwwyLdj
jd
N
i djjijdidi
ww
xxw
0
dw
L w
N
iid
N
i djjijiid
d
d
N
i djjijdidiid
N
i djjijdidi
dd
wy
w
wwwy
wwyww
Loss
1
2
1
1
1
2
~
~0
2
1
x
xx
xxx
xxw
とするの解を
これを用いて L(w) を書き換える。ただし、 wd に関係しないところは当面定数と見なせるので、無視した。
Constwwww
Constwwywww
ConstwwywwwL
d
N
iiddd
N
iidd
d
N
i
N
iid
djjijidid
N
iidd
N
iidd
d
N
i djjijididdidd
1
2
1
22
1 1
2
1
2
1
22
1
22
~2
2
2)~(2
xx
xxxxx
xxx
が働くスパース化)される力 になりゼロ化
がゼロに近づくとの解のすなわちにより
矛盾すなわちだと
矛盾すなわちだと
なぜなら なら なので なら
なので なら
を探すなる
とおくと、ここで
(0
~~3 case
~0~0
~0~0
0~3 case
~00~2 case
~00~1 case
0)(
0undefined
0~0~
)(
~2
1)(
2
2
1
2
d
ddd
ddd
ddd
dd
dddd
dddd
dd
d
d
ddd
ddd
d
d
dddddN
i id
w
wwLossw
www
www
ww
wwww
wwww
ww
wL
w
www
www
w
wL
constwwwwwL
w
x
W全体の正則化
[step 1] w の各要素を適当な値に初期化[step 2] w の各要素の値 w_k(k=1,..,K) が収束するまで以下 step 3,4,5 を繰り返す[step 3] k=1,.., K で step 4, step 5 を繰り返す [step 4] wj (j ≠ k) を用いて case1,2,3 にし たがって wj を計算してゼロ化 [step 5] wk を更新 [step 6] 収束したら wの最終結果とする
wd のゼロ化のイメージ
dw~
dw
L1 正則化が支配的になり をゼロ化する様子を下図で例示する
dw
λ 大
λ 小
wd
L(wd)
dw 2 乗誤差 Lossが支配的
正規化項 L1が支配的
0
正則化項の Bayes 的解釈Bayes では事後確率は 観測データの確率 ×事前確率事後確率を最大化するパラメタ η を求めたい
ここで対数尤度にしてみると、次のように解釈できる
|log|logmaxargˆ
||maxargˆ
PXP
PXP
パラメタは事前分布のハイパー
損失関数 正則化項
例:事前分布、事後分布とも正規分布
ノルムによる正則化項
とすると 事前分布の重みをここで、
も同様にすると事前分布
L22
),(2
1maxarg
,0
2
1),(
2
1minarg
),|(log),|(logminarg
2/),|(log
,|
2/),()1,),(|(log)1,|(log
)1,0()(
),,(
2
2
2
1
0
1
wwwx
wwwx
ww,x
www
w
wxwxw,x
wx
w
x
x
Xy
w
w
w
N
1
T
iii
T
iii
iii
T
iii
iii
iii
K
T
T
TN
φy
φy
pyp
p
p
φyφyNyp
Nφy
w
w
w
yy
事前分布の wの分散 :λ ー 1 と
も見える。
例:事前分布が Laplace 分布、事後分布が正規分布
ノルムによる正則化項
も同様にすると分布の事前分布は期待値
L12
),(2
1minarg
)|(log),|(logminarg
2)|(log
2exp
4|0
2/),()1,),(|(log)1,|(log
)1,0()(
2
2
wwx
ww,x
ww
ww
wxwxw,x
wx
w
w
iii
iii
iii
iii
iii
φy
pyp
p
pLaplace
φyφyNyp
Nφy
以上、述べてきた線形回帰のよるモデル化は、生成モデル
当然、線形の識別モデルもある。次以降は線形識別モデルの話
線形識別
と の領域の境界面を線形関数として求める
線形識別 データ : xがいくつかのクラス(あるいはカテゴリー): C
kのどれかに属する。 例:新聞記事が「政治」「経済」「スポーツ」「芸能」「社会」などのクラスのどれかに属する場合。この場合、データ:xは例えば、記事に現れる単語の集合、など。
データ: xが K 個のクラスの各々に属するかどうかの判定は(-1=属さない,1=属する)の2値を要素とする K 次元ベクトル: yi =( -1,1,-1,..,1) で表される。 ただし、1つのクラスに属するか属さないかだけを識別すの
場合は 2 クラス分類という。当然、 yi =ー 1 or yi = 1 この属するか否かの判断をする式が線形の場合を線
形識別という。
TMxxx ],,,[ 21 x
線形識別の関数
一般化線形識別の関数は以下
2クラス分類クラス C 1に属するか C2 (= notC1 )に属する
かは、次の通り if y(x)≥0 then データ:xは C 1に属する otherwise データ:xは C2 に属す
る ( すなわ
ち C1 に属さない)
wxxw
wx
x
wxx
~,~)(~,1~
,)(
0
0
yw
wy
とおくならあるいは
は非線形でもよいfwfy ),()( 0 wxx
2 値分類の直観的説明
y={-1,1} 、 x は 2 次元とする。(下図を参照) {y,x} を教師データとして、 2 乗誤差の最小化
を行って正規方程式を求めると、下図の のようなクラスを分類する分離平面が得られる。
y=-1
y=1
x1
x2
境界面
線形識別関数の幾何学的解釈
x
xa
xb
w
xc
||||
)(
w
xy
||||0
wx
wd
直交。すなわち識別境界線とは )(
),()()(0
0,)(,0,)( 00
ba
baba
bbaa
yy
wywy
xxw
wxxxx
wxxwxx
識別境界線
||||||0||||||||,
|||||||,
,)(0
000
0
wxwxwx
wxwxwx
wxx
x
www
wy
ddd
ddd
dd
d
整理するとこれを上式に代入して
から、に並行で横ベクトルだは
とおく。の垂線の交点を原点から識別境界線へ
xd
線形識別関数の幾何学的解釈
x
w
xc
||||
)(
w
xyr
||||0
w
w
識別境界線
||||
)(0)(
||||
||||)(
||||
,,,)(
||||2
00
0
w
xx
w
wx
w
wwwxwxx
ww
wxx
yry
ryrwwy
wr
c
cc
c
だから
を足すとの内積をとり、両辺と
xaxb
xd
w の計算方法 :2 クラス分類の場合
.すると新規のデータ: xは が正ならク
ラス C1 に ,負なら C 2属する
.
で書けるとするの境界がクラス wxx ~,~)(, 21 yCC
)~(xy
wx
wx
WXY
x
x
X
x
~,~
~,~~~
~
~~
10,1
),1(,~
111
NNT
N
T
nn
nn
y
y
yy
NnyN
なら ただしクラス1ならがあったとき個の教師データ
すると、観測データ(教師データ)において個々のクラスに分類されたか否かの観点からの2乗誤差は次式となる
もう少し詳しく書くと
YWXYWXW ~~~~)
~(
TE
22
11
11
11
~,~~,~
~,~
~,~
~,~~,~
~~~~
NN
NN
NN
T
yy
y
y
yy
wxwx
wx
wx
wxwx
YWXYWX
これを最小化する は で微分して0とおけば、線形回帰のときと同様の計算により求まる。
微分は次式:
YWXYWXW ~~~~)
~(
TE
W~
W~
YXXXW
YWXXW
W
TT
TE
~)
~~(
~
0~~~
~
~
1
YWXXYWXAAW
A
W
AA
~~~
2~~
2 TTT
新規のデータ xnew に対する予測を行う y(xnew)も求まる。
YXXXxWx
x
x
xy
YXXXW
TTnewnew
newK
new
new
TT
y
y~
)~~
(~~~
)~(
)~(
)~(
~)
~~(
~
11
1
y(xnew)が大きいほどクラス C1 に属する可能性が高い。
w の計算方法 :多クラス分類の場合 .
すると新規のデータ: xは が最大の kのクラス Ck に属する
.
で書けるとする。が線形識別モデルクラス kkk yC wxx ~~)(
)~(xky
Wxwxwx
xxyx~~~,~~,~
)]()([)(
1
1
K
TKk yyKy
個並べたベクトルを
KNN
K
NT
N
T
n
n
nn
K
K
NnN
wxwx
wxwx
WX
y
y
Y
x
x
X
y
x
yx
~,~~,~
~,~~,~~~
~
~~
)1,...,1,1,1(
~),..,1(,~
1
11111
のような形。次元ベクトルはらに属することもあるな個のクラス内の複数個は
注
があったとき個の教師データ
すると、観測データ(教師データ)において個々のクラスに分類されたか否かの観点からの2乗誤差は次式となる
もう少し詳しく書くと
YWXYWXW ~~~~)
~(
TTrE
22
11
2
11
2
1111
11
111111
11
111111
~,~~,~
~,~~,~
~~~~
~,~~,~
~,~~,~
~,~~,~
~,~~~
~~~~
NKKNKK
NN
T
NKKNNN
KK
NKKNKK
NN
T
yy
yy
Tr
yy
yy
yy
yy
wxwx
wxwx
YWXYWX
wxwx
wxwx
wxwx
wxwx
YWXYWX
これを最小化する は で微分して0とおけば、線形回帰のときと同様の計算により求まる。
Tr の微分は次式:
YWXYWXW ~~~~)
~(
TTrE
W~
W~
YXXXW
YWXXW
W
TT
TE
~)
~~(
~
0~~~
~
~
1
YWXXYWXAAW
A
W
AA
~~~2
~~2
)( TTTTr
新規のデータ xnew に対する予測を行う y(xnew)も求まる。
YXXXxWx
x
x
xy
YXXXW
TTnewnew
newK
new
new
TT
y
y~
)~~
(~~~
)~(
)~(
)~(
~)
~~(
~
11
1
yi(xnew)が大きいほどそのクラス i に属する可能性が高い。
もちろん、 yi(xnew)が最大となる i のクラスに属すると考えるのが自然。だが。。。
生成モデルを利用した識別識別はベイズ統計的には次式
N 個のデータ: xk ( k=1,..,N) があるクラスに属するかどうかの判定は( 0 =属さない,1=属する)の2値を要素とする N 個の K 次元ベクトル: y =( 0,1,0,..,1) で表される。以下のベイズ統計による分類では、属さない場合を -
1 ではなく0とすることに注意。以下ではベイズ統計による 2 クラス分類をする
場合に事後確率について考える。
)(
)()|()|(
x
xx
p
CpCpCp kk
k
Logistic sigmoid function
クラス C1 の事後分布は次式 (s-1)
)1()exp(1
)exp(
)exp(1
1
)exp(1
)exp(
d
d1
log)(1)(
)()|(
)()|(log
function sigmoid logistc1)-(s-)()exp(1
1
)()|()()|(
)()|()|(
2
22
11
2211
111
a
a
aa
a
a
aaa
CpCp
CpCpawhere
aa
CpCpCpCp
CpCpCp
x
x
xx
xx
クラス C1,C2 が共分散∑が等しい 2 つの正規分布の場合の事後確率 p(C1|x)
式 (s-1) によって以下のように導ける。
)(
)(log
2
1
2
1)(
)(
)(log
2
1
2
1
)(
)(log
2
1
2
1
||2log
||2log
)()|(
)()|(log
2
1exp
||
1
2
1)|(
2
12
121
1121
1
2
12
12
122
11
11
111
1
2
12
121
11
21
2
21
2
22
11
1
21
2
Cp
Cp
Cp
Cp
Cp
Cp
CpCp
CpCp
Cp
TTT
TTTTTT
TT
K
K
iT
iKi
x
xxxx
xxxx
x
x
xxx
∑ が 2 つのクラスで等しいことにとってキャンセルしていることに注意。等しくないともう少し複雑。
クラス C1,C2 が共分散∑が等しい 2 つの正規分布の場合の事後確率 p(C1|x)
)(
)(log
2
1
2
1
)(
exp1
1)|(
)(
)(log
2
1
2
1)(
)()|(
)()|(log
2
1exp
||
1
2
1)|(
2
12
121
110
211
001
2
12
121
1121
1
22
11
1
21
2
Cp
Cpw
where
wwCp
Cp
Cp
CpCp
CpCp
Cp
TT
TT
TTT
iT
iKi
w
xwxwx
xx
x
xxx
事後確率:
∑ が 2 つのクラスで等しいことにとってキャンセルしていることに注意。等しくないともう少し複雑。
次に Maximum likelihood solution (つまりw,w0) を求める。これによって、各クラスの事後
確率が求まる ここで各クラスの事前確率が以下だったとする
)10(,....,
1,|)1(,|),,,|(
,|)1()|()(),(
0
,|)|()(),(
1
1)()(
1
21
121
2222
2
1111
1
21
sttwhere
ntNnt
Np
Nlikelihood
NCpCpCp
tC
NCpCpCp
tC
CpCp
TN
n
N
nn
nnn
nn
nnn
nn
t
xxt
xxx
x
xxx
x
う個あることを思い出そ観測データはは次式ここで
としに属するときが観測データ
としに属するときがこのとき観測データ
(s-10) の log すなわち log likelihood function を最大化することが目標
まず、最大化する π を求める。(s-10) の log の π に関する部分は次式 (s-20) logp (π)
に属するデータ数。はクラス
に属するデータ数。はクラス
22
11
21
11
1
1
10
)(log
)1log()1(log)(log
CN
CNwhere
NN
N
N
Nt
N
p
ttp
N
nn
N
nnn
次に (s-10) の log を最大化する μ1 を求める。
(s-10) の log の μ 2 に関する部分は次式 (s-30) logp (μ1 )
N
nnn
nT
n
N
nnn
N
nn
tN
p
tNtp
111
1
1
11
11
11
1
10
)(log
const2
1),|(log)(log
x
xxx
同様にして μ 1も求めると
N
nnn
nT
n
N
nnn
N
nn
tN
p
tNtp
122
2
2
21
21
21
2
)1(1
0)(log
const
)1(2
1),|(log)1()(log
x
xxx
最後に (s-10) の log を最大化する精度行列 Λ =∑-1 ( C1 と C2共分散) を求める。
(s-10) の log の∑ に関する部分は次式 (s-40) logp (∑ )
logp (Λ ) を Λ で微分して0とおき、 (s-10) の log を最大化する Λ =∑-1 を求める。
まず第 1 項の微分は線形代数学の公式より
)40()(2
||log2
)())(1(2
1||log)1(
2
1
)()(2
1||log
2
1)(log
2211
1111
sSTrNN
tt
ttp
nT
n
N
nn
N
nn
nT
n
N
nn
N
nn
xx
xx
が対称が対称 1
11 )50(22
||log2
sNNN
T
T
Cnnn
T
Cnnn NN
S
Ss
21
))((1
))((1
)40(
2211 xxxx
は次式の
次は Tr(ΛS) を Λ で微分して0とおき、 logp(Λ) を最大化する Λ を求める。
T
Cnnn
T
Cnnn
T
NNS
SNNp
sSSSTr
21
))((1
))((1
022
)(log
)60()(
22111
1
xxxx
このようにして、教師データ集合{(xn,tn)n=1,..N} から μ1, μ2,Σ-1( = Λ ) ,π が求まったので、これらを用いて定義されるw,w0 も求まる。
未知データ xがクラス C1 に属する確率は
なので、この分布を教師データから学習できた。
1log
2
1
2
1
)(
exp1
1)|(
21
211
10
211
001
TT
TT
w
where
wwCp
w
xwxwx
2 乗誤差最小化の線形識別の問題点
この領域の判断が困難
この領域に青の境界線が引っ張られることあり。
そもそも、 Y の値は正規分布を想定した理論なのに、{ 0 、 1}の 2 値しかとらないとして 2 乗誤差最小化を当てはめたところに無理がある。