20170618論文読み会 伊藤

Preview:

Citation preview

論文紹介Learning Important Features

Through Propagating Activation Differences

東京大学工学系研究科

システム創成学専攻和泉研究室

D1 伊藤友貴

自己紹介

• 東京大学工学系研究科和泉研究室所属

–金融に関するデータマイニング

–人工市場によるシミュレーション

• 普段はロイターニュースとかヤフーファイナンス掲示板とか触って遊んでます

• 今日紹介する論文、ちょいちょい正確に理解できていないです…お手柔らかにお願い致します

概要

• 紹介する論文

– Learning Important Features Through Propagating Activation Differences

(A. Shrikumar et. Al, ICML, 2017)

• 概要

– Neural Network から重要な要素は何かを抽出する方法のアプローチ(Deep Lift 法)を提案

–既存手法より色々良さそう

既存手法

• Perturbation approach

• Back propagation approach

– Gradients

• (Springenberg et. al. 2014) など

– Gradients × Input

• (Shrikumar et. al. 2016) など

問題点1

• 勾配0になると問題が起こる

Fig. 1

問題点2 (ジャンプ)

• ジャンプする(不連続)

Fig. 2

Deep Lift

• 勾配の問題やジャンプの問題を解決する方法を提案 (Deep Lift )

–個人的にはどうしてこの発想になったのかわかっていないので多分ちゃんと理解できていない

Deep Lift Philosophyある層の値:

出力:

reference activation:

difference-from-reference:

← 基準値みたいなもの(後で定義)

Contribution Scores:

• 各入力値 (xi) の出力値(t) への影響度(後で定義)

• これをどう計算するかが肝

← 基準値からどれくらい外れるか

Multipliers and the Chain RuleMultipliers を以下のように定義

CHAIN RULE で を計算 (式(3))

Defining the reference

i1

i2

入力:

出力:

Reference activation:

より以下のように Reference activation を計算

Separating positive and negative

• ポジティブ項とネガティブ項を別々に考える

Linear Rule, Rescale Rule, or Reveal cancel Rule により計算(後で定義)

Contribution Scoresの計算

• 線形な変換→ Linear Ruleで計算

–例: 結合層・たたみ込み層

• 非線形な変換

→ Rescale Rule or Reveal cancel Rule で計算

–例: tanh, ReLU

The Linear Rule• 線形な部分 (結合・畳み込み)では以下のようにContribution Scoresを計算

に対して

The Linear Rule

このとき, 以下が成立

THE RESCALE RULE

• 非線形部分(ReLU, tanhなど)では以下のように Contribution Scoresを計算

• このとき以下が成立

具体例: Rescale Rule

i10 = i2

0 = 0, i1 + i2 > 1 の場合 Rescale Rule だと

具体例: Rescale Rule2

x0 = y0 = 0, x = 10 + εの場合 Rescale Rule だと

不自然なジャンプ

連続

The Reveal Cancel Rule

具体例3

Fig. 3

これについて i1 > i2 , i10 = i2

0 = 0 という条件で

と を計算

Rescale Rule を使う場合:

Reveal Cancel Ruleを使う場合:

その他の工夫

• 最終層の活性化後の値に対する入力値のContribution Score ではなく活性化前のContribution Score を計算

• 最終層が Softmaxのときは全体の平均を引いたスコアで考える

数値実験1

• MNIST

– Ex.数字を8 から 3 に変える

(一部消す)

– Contribution Scoreの変化

値が消した部分に対応

するかどうか検証

– (ちゃんと把握できてません)

数値実験2

• DNA 配列の分類に関する実験

• 意図通りに Contribution Scoreがつくかどうかを検証

• (すいません、ちゃんと把握できてません。)

比較手法

• 既存手法– Guided backprop * inp ()

– Gradient * input

– Integrated gradient -5

– Integrated gradient -10

• 提案手法 (Deep LIFT)– Deep LIFT Rescale

– Deep LIFT Reveal Cancel

– Deep LIFT fc-RC-conv-RS

結果(MNIST)

Deep Lift の方がよい

結果 (DNA)

• Deep Lift の方がよい結果• Reveal Cancel 入れた方がよい結果

結論

• Deep Lift という重要な要素は何かを抽出する方法のフレームワーク(Deep Lift 法)を提案

• 既存手法 (gradientや gradient * input で起こるような不自然なジャンプや勾配が0のときに起こる問題を解決)

• RNNへの適用方法, Maxout, MaxPoolingへのベストな適用方法などが課題

Recommended