37
1 章 & 2 章 章章章章 & 章章章章章章章章 章章章章章章章章章章章章章章章章章章章章 ~ 章章章章章章章章章章章章章 *1 ~ 2016-2-10 @hagino3000 (Takashi Nishibayashi)

スパース性に基づく機械学習 2章 データからの学習

Embed Size (px)

Citation preview

Page 1: スパース性に基づく機械学習 2章 データからの学習

1 章 & 2 章はじめに & データからの学習機械学習プロフェッショナルシリーズ輪読会

~ スパース性に基づく機械学習 *1~

2016-2-10@hagino3000 (Takashi Nishibayashi)

Page 2: スパース性に基づく機械学習 2章 データからの学習

*1 機械学習プロフェッショナルシリーズスパース性に基づく機械学習著:冨岡亮太http://bookclub.kodansha.co.jp/product?isbn=9784061529106

Page 3: スパース性に基づく機械学習 2章 データからの学習

1 章 はじめに• スパース性とは

• まばらである事• 多くの変数のうち殆どがゼロでごく一部だけが非ゼロ

• ゲノムの個人差からの予測ケース• feature が膨大• 現実的な仮定を置いて、少ないサンプルで推定したい• 組み合わせ爆発を防いで現実的な計算量で推定したい

Page 4: スパース性に基づく機械学習 2章 データからの学習

要素単位のスパース性

多くの要素が非ゼロで、構造が無い

Page 5: スパース性に基づく機械学習 2章 データからの学習

グループ単位のスパース性

ゼロ / 非ゼロのパターンが存在するex. 活性経路 (1 列目が非ゼロの行は 2 列目以降も非ゼロ )

Page 6: スパース性に基づく機械学習 2章 データからの学習

行列の低ランク性

ランクの説明は 9 ページこの図だと線形独立な列の数 =2 なのでランク落ちしている

Page 7: スパース性に基づく機械学習 2章 データからの学習

2 章の流れ• データから学習する、とは• 汎化• 経験誤差の最小化と過学習• 正則化

Page 8: スパース性に基づく機械学習 2章 データからの学習

2.1 訓練データと汎化

Page 9: スパース性に基づく機械学習 2章 データからの学習

データから学習するとは• 訓練データ (xi, yi)i が何らかの規則に従って生成されている時に、データを生成する規則をなるべくよく模倣し、再現する事• (xi, yi) が同時確率 P(x,y) から独立同一に生成されているという状況を考えるのが統計的機械学習• 訓練データには無い、新しく書かれた数字を識別できるようになることを汎化すると言う

Section 2.1

Page 10: スパース性に基づく機械学習 2章 データからの学習

学習の評価• データを生成する規則をどの程度よく模倣しているか• 入力ベクトル x からラベル y をどの程度予測できるか → 判別的なモデル• 手書き文字認識では、新しく書かれた数字を平均的にどれだけ識別できるかを評価基準とする

Section 2.1

Page 11: スパース性に基づく機械学習 2章 データからの学習

期待二乗誤差

Section 2.1

データ x からラベル y を出力する関数 f についての損失(Loss)

新たな入力ベクトル x と ラベル y (≠ 訓練データ )

正解値と予測値の誤差の二乗

予測値が数値

Page 12: スパース性に基づく機械学習 2章 データからの学習

期待誤分類率

Section 2.1

予測値がラベル ( 手書き文字認識 )

f(x) の出力は予測ラベルのみ 1 、それ以外は -1 が立つベクトル ?

y は正解ラベルのみ 1 、それ以外はゼロが立つベクトル ?

Page 13: スパース性に基づく機械学習 2章 データからの学習

相対エントロピー

Section 2.1

真の分布 p と、予測分布 q のKL-divergence

定数項を除いた物を対数損失と呼ぶ

Page 14: スパース性に基づく機械学習 2章 データからの学習

ロジスティック損失の導出

Section 2.1

2 クラス分類 y ∈ {-1, +1} の場合クラス事後確率の比の対数を f とすると

Page 15: スパース性に基づく機械学習 2章 データからの学習

Section 2.1

Page 16: スパース性に基づく機械学習 2章 データからの学習

ロジスティック損失の導出

Section 2.1

二値なので q(y = +1|x) + q(y = -1|x) = 1

q(y = -1|x) = 1 - q(y = +1|x) を使って式 2.4 を q(y = +1|x) について整理すると

y=+1, y=-1 のケースを一つの式で表現すると

Page 17: スパース性に基づく機械学習 2章 データからの学習

ロジスティック損失の導出

Section 2.1

対数損失 (2.3) の式に q(x|y) を代入すると

ロジスティック損失

Page 18: スパース性に基づく機械学習 2章 データからの学習

期待誤差• 未知の確率分布 P(x, y) に関する期待値なので、直接評価できない• 期待誤差と呼び、訓練データで計算できる経験誤差とは区別• 直接計算できない → 訓練データで近似する

Section 9.1

Page 19: スパース性に基づく機械学習 2章 データからの学習

経験誤差最小化

Section 2.1

訓練データを使って経験誤差を最小化するには

期待誤差の推定値訓練データ xi, yi

まとめると

Page 20: スパース性に基づく機械学習 2章 データからの学習

経験誤差最小化

Section 2.1

線形モデル f(x) = xTw + b を仮定すると

L(f) を最小化する w, b

推定量 を求めるのが経験誤差最小化誤差を正規分布とした時の最尤推定と同じ

Page 21: スパース性に基づく機械学習 2章 データからの学習

確率分布と損失関数

Section 2.1

• 二乗誤差、対数損失、ロジスティック損失に対する経験誤差はいずれもそれに対応する確率モデルが存在する• 確率モデル基づかない損失関数

• 0 - 1 損失• ヒンジ損失

ヒンジ損失とロジスティッ ク損失はどちらも凸関数

Page 22: スパース性に基づく機械学習 2章 データからの学習

確率分布と損失関数

Section 2.1

• ヒンジ損失とロジスティック損失は定性的に似た振舞をする → ??

Page 23: スパース性に基づく機械学習 2章 データからの学習

2.2 分散とバイアス

Page 24: スパース性に基づく機械学習 2章 データからの学習

過剰適合

Section 2.2

• 訓練データに対する当てはまりがよかったとしても期待誤差がよいとは限らない( 未知のデータに対する当てはまり )

Page 25: スパース性に基づく機械学習 2章 データからの学習

Section 2.2

真のモデルy = 100(xi - 0.2)(xi - 0.5)(xi - 0.8) + εiへの当てはめ

Page 26: スパース性に基づく機械学習 2章 データからの学習

Section 2.2

Page 27: スパース性に基づく機械学習 2章 データからの学習

過剰適合を防ぐ

Section 2.2

• 10次の多項式で当てはめると誤差ゼロ• 真の関数だけでなく、ノイズにも適合してしまった

• モデルを制約するには• 多項式などの独立な基底関数の和として関数 f を表現し、その基底関数の数を小さくおさえる• 関数 f の何らかのノルムを抑える

• モデルを小さくしすぎると、モデル化したい関数も表現できなくなる → 過少適合• モデルの小ささに由来する誤差 → バイアス or 近似誤差

Page 28: スパース性に基づく機械学習 2章 データからの学習

バイアス - バリアンス分解

Section 2.2

期待二乗誤差の訓練データに関する期待値を定義

この時、平均期待二乗誤差は次の 3 項に分解できる

w の推定量とw の平均の差 → 分散 w の平均と誤差を最小化する

w の差 → バイアス

選択した基底での最小の誤差

Page 29: スパース性に基づく機械学習 2章 データからの学習

2.3 正則化

Page 30: スパース性に基づく機械学習 2章 データからの学習

パラメータベクトルのノルム制約

Section 2.3

• 仮説集合の大きさを制御する方法• 特徴量を増やしたり減らしたりするだけではない• 同じ特徴空間であってもパラメータベクトル w をより小さい集合から選ぶ事で分散を減らせる

• ノルム

Page 31: スパース性に基づく機械学習 2章 データからの学習

Section 2.3

Page 32: スパース性に基づく機械学習 2章 データからの学習

罰則項付き推定量

Section 2.3

誤差 + パラメータベクトルのノルム (罰則項 ) を最小化

正則化パラメータ

この推定量は次の制約付き最小化問題と等価

Page 33: スパース性に基づく機械学習 2章 データからの学習

2.4 交差確認

Page 34: スパース性に基づく機械学習 2章 データからの学習

モデル選択

Section 2.4

• モデルの持つパラメータを決定したい• 訓練データに対しては C を大きくすれば当てはまりは良くなってしまう → 訓練データは使えない

• 検証 (validation) データを使う• データを訓練用と検証用に分ける• 検証データに対する誤差を最小化する

• 交差確認 (cross validation)• 訓練データを K 個に分割し、 K-1 個で学習し、残りで誤差を評価する

K をデータと同じまで増やすと Leave-one-out

Page 35: スパース性に基づく機械学習 2章 データからの学習

2.5 制約付き最小化問題と罰則項付き最小化問題の等価性

Page 36: スパース性に基づく機械学習 2章 データからの学習

Section 2.5

罰則項付き最小化問題

と次の制約付き最小化問題が等価である事の説明

ラグランジュ緩和っぽいが本文中では別の説明がなされている

Page 37: スパース性に基づく機械学習 2章 データからの学習

Question?