Upload
hagino-3000
View
7.149
Download
1
Embed Size (px)
Citation preview
1 章 & 2 章はじめに & データからの学習機械学習プロフェッショナルシリーズ輪読会
~ スパース性に基づく機械学習 *1~
2016-2-10@hagino3000 (Takashi Nishibayashi)
*1 機械学習プロフェッショナルシリーズスパース性に基づく機械学習著:冨岡亮太http://bookclub.kodansha.co.jp/product?isbn=9784061529106
1 章 はじめに• スパース性とは
• まばらである事• 多くの変数のうち殆どがゼロでごく一部だけが非ゼロ
• ゲノムの個人差からの予測ケース• feature が膨大• 現実的な仮定を置いて、少ないサンプルで推定したい• 組み合わせ爆発を防いで現実的な計算量で推定したい
要素単位のスパース性
多くの要素が非ゼロで、構造が無い
グループ単位のスパース性
ゼロ / 非ゼロのパターンが存在するex. 活性経路 (1 列目が非ゼロの行は 2 列目以降も非ゼロ )
行列の低ランク性
ランクの説明は 9 ページこの図だと線形独立な列の数 =2 なのでランク落ちしている
2 章の流れ• データから学習する、とは• 汎化• 経験誤差の最小化と過学習• 正則化
2.1 訓練データと汎化
データから学習するとは• 訓練データ (xi, yi)i が何らかの規則に従って生成されている時に、データを生成する規則をなるべくよく模倣し、再現する事• (xi, yi) が同時確率 P(x,y) から独立同一に生成されているという状況を考えるのが統計的機械学習• 訓練データには無い、新しく書かれた数字を識別できるようになることを汎化すると言う
Section 2.1
学習の評価• データを生成する規則をどの程度よく模倣しているか• 入力ベクトル x からラベル y をどの程度予測できるか → 判別的なモデル• 手書き文字認識では、新しく書かれた数字を平均的にどれだけ識別できるかを評価基準とする
Section 2.1
期待二乗誤差
Section 2.1
データ x からラベル y を出力する関数 f についての損失(Loss)
新たな入力ベクトル x と ラベル y (≠ 訓練データ )
正解値と予測値の誤差の二乗
予測値が数値
期待誤分類率
Section 2.1
予測値がラベル ( 手書き文字認識 )
f(x) の出力は予測ラベルのみ 1 、それ以外は -1 が立つベクトル ?
y は正解ラベルのみ 1 、それ以外はゼロが立つベクトル ?
相対エントロピー
Section 2.1
真の分布 p と、予測分布 q のKL-divergence
定数項を除いた物を対数損失と呼ぶ
ロジスティック損失の導出
Section 2.1
2 クラス分類 y ∈ {-1, +1} の場合クラス事後確率の比の対数を f とすると
Section 2.1
ロジスティック損失の導出
Section 2.1
二値なので q(y = +1|x) + q(y = -1|x) = 1
q(y = -1|x) = 1 - q(y = +1|x) を使って式 2.4 を q(y = +1|x) について整理すると
y=+1, y=-1 のケースを一つの式で表現すると
ロジスティック損失の導出
Section 2.1
対数損失 (2.3) の式に q(x|y) を代入すると
ロジスティック損失
期待誤差• 未知の確率分布 P(x, y) に関する期待値なので、直接評価できない• 期待誤差と呼び、訓練データで計算できる経験誤差とは区別• 直接計算できない → 訓練データで近似する
Section 9.1
経験誤差最小化
Section 2.1
訓練データを使って経験誤差を最小化するには
期待誤差の推定値訓練データ xi, yi
まとめると
経験誤差最小化
Section 2.1
線形モデル f(x) = xTw + b を仮定すると
L(f) を最小化する w, b
推定量 を求めるのが経験誤差最小化誤差を正規分布とした時の最尤推定と同じ
確率分布と損失関数
Section 2.1
• 二乗誤差、対数損失、ロジスティック損失に対する経験誤差はいずれもそれに対応する確率モデルが存在する• 確率モデル基づかない損失関数
• 0 - 1 損失• ヒンジ損失
ヒンジ損失とロジスティッ ク損失はどちらも凸関数
確率分布と損失関数
Section 2.1
• ヒンジ損失とロジスティック損失は定性的に似た振舞をする → ??
2.2 分散とバイアス
過剰適合
Section 2.2
• 訓練データに対する当てはまりがよかったとしても期待誤差がよいとは限らない( 未知のデータに対する当てはまり )
Section 2.2
真のモデルy = 100(xi - 0.2)(xi - 0.5)(xi - 0.8) + εiへの当てはめ
Section 2.2
過剰適合を防ぐ
Section 2.2
• 10次の多項式で当てはめると誤差ゼロ• 真の関数だけでなく、ノイズにも適合してしまった
• モデルを制約するには• 多項式などの独立な基底関数の和として関数 f を表現し、その基底関数の数を小さくおさえる• 関数 f の何らかのノルムを抑える
• モデルを小さくしすぎると、モデル化したい関数も表現できなくなる → 過少適合• モデルの小ささに由来する誤差 → バイアス or 近似誤差
バイアス - バリアンス分解
Section 2.2
期待二乗誤差の訓練データに関する期待値を定義
この時、平均期待二乗誤差は次の 3 項に分解できる
w の推定量とw の平均の差 → 分散 w の平均と誤差を最小化する
w の差 → バイアス
選択した基底での最小の誤差
2.3 正則化
パラメータベクトルのノルム制約
Section 2.3
• 仮説集合の大きさを制御する方法• 特徴量を増やしたり減らしたりするだけではない• 同じ特徴空間であってもパラメータベクトル w をより小さい集合から選ぶ事で分散を減らせる
• ノルム
Section 2.3
罰則項付き推定量
Section 2.3
誤差 + パラメータベクトルのノルム (罰則項 ) を最小化
正則化パラメータ
この推定量は次の制約付き最小化問題と等価
2.4 交差確認
モデル選択
Section 2.4
• モデルの持つパラメータを決定したい• 訓練データに対しては C を大きくすれば当てはまりは良くなってしまう → 訓練データは使えない
• 検証 (validation) データを使う• データを訓練用と検証用に分ける• 検証データに対する誤差を最小化する
• 交差確認 (cross validation)• 訓練データを K 個に分割し、 K-1 個で学習し、残りで誤差を評価する
K をデータと同じまで増やすと Leave-one-out
2.5 制約付き最小化問題と罰則項付き最小化問題の等価性
Section 2.5
罰則項付き最小化問題
と次の制約付き最小化問題が等価である事の説明
ラグランジュ緩和っぽいが本文中では別の説明がなされている
Question?