誤差逆伝播法によるニューラルネットワーク (BackPropagation … · 2018. 7. 14. · 誤差逆伝播法サンプルごとの誤差E 10 ( )2 E 1 2 サンプルごとの誤差E

0

誤差逆伝播法によるニューラルネットワーク(BackPropagationNeural Network, BPNN)

明治大学理⼯学部応用化学科データ化学⼯学研究室⾦⼦弘昌

BPNN とは︖ニューラルネットワークおよびその学習法の一つ

目的変数の誤差が小さくなるように、各ニューロンの重みを最適化

深層学習 (ディープラーニング) も基本的には同じ学習方法で可能• ディープニューラルネットワーク

隠れ層の数が多くなると、⼊⼒変数 (説明変数) に近くなるにつれて学習が進まなくなるので注意

1

ニューラルネットワークの構造 1/2 2

x0=1

x1

x2

xm

⼊⼒変数(説明変数)

z0(1)=1

z1(1) = f(a1(1))

zm(1)(1) = f(am(1)(1))

・・・

z2(1) = f(a2(1))

・・・

w0,1(0)

wm,m(1)(0)

・・・・・・

z0(2)=1

z1(2) = f(a1(2))

zm(2)(2) = f(am(2)(2))

z2(2) = f(a2(2))

w0,1(1)

wm(1),m(2)(1)

・・・・・・

隠れ層1 層目

隠れ層2 層目

w0,1(2)

wm(2),m(3)(2)

・・・・・・

i

・・・・・・

・・・

w2,2(1) w2,2(3)

xi zi (1) = f(ai (1)) zi (2) = f(ai (2))

ニューラルネットワークの構造 2/2 3

z0(k)=1

z1(k) = f(a1(k))

zm(k)(k) = f(am(k)(k))

z2(k) = f(a2(k))

w0,1(k-1)

wm(k-1),m(k)(k-1)

・・・・・・

隠れ層k 層目

・・・・・・

i

・・・・・・

・・・出⼒変数(目的変数)

yE

・・・・・・

i

・・・・・・

・・・隠れ層j 層目

w0(k)

w2,2(k-1)

w2(k)

wm(k)(k)

zi (k) = f(ai (k))

y

ニューラルネットワークの構造の補足⼊⼒変数 (説明変数) と隠れ層 1 層目の間や、隠れ層の前後の間や、

隠れ層 k 層目と出⼒変数 (目的変数) の間の、すべての線 (ー) に重み w がある

それぞれの隠れ層における四角 ( ) をニューロンと呼ぶ

⼊⼒変数 (説明変数) には x0 = 1 が、それぞれの隠れ層にも 0 番目のニューロンとして z0(j) =1 が、バイアスパラメータとしてある

隠れ層 j-1 層目の p 番目のニューロンと、隠れ層 j 層目の i 番目のニューロンとの間の重みを、wp,i(j) とする

4

zi(j) = f(ai(j))

ニューラルネットワークの構造を式で表す 5

xi︓i 番目の⼊⼒変数 (説明変数)y︓出⼒変数 (目的変数)yE︓推定された出⼒変数 (目的変数)f : 活性化関数

( ) ( ) ( ) ( ) ( )1 0 0 0, 0, , 01 0

1m m

i p i p i p i pp p

a w x w w x x= =

= + = =

( ) ( ) ( )( )

( ) ( ) ( )( )

( )( )1 1

1 1 1 1 1 1, 0, , 0

1 0

1j jm m

j j j j j j ji p i p i p i p

p p

a w z w w z z− −

− − − − − −

= =

= + = =

( ) ( )( )j ji iz f a=( ) ( )

( )( ) ( ) ( )

( )( )( )E 0 0

1 0

1k km m

k k k k k kp p p p

p p

y w z w w z z= =

= + = =

活性化関数の例 1/2 6

( ) ( )( )j ji iz f a=

( )( )( )

1

1 exp

ji j

i

za

=+ −

( )( )

( )1

jj i

i ji

az

a=

+

( )( )( )

( )( )( )

1

exp

expj

jij

i mj

pp

az

a=

=

シグモイド関数

ソフトサイン

ソフトマックス関数

活性化関数の例 1/2 7

( ) ( )( )j ji iz f a=

( ) ( )( )max 0,j ji iz a=

( ) ( )( )2expj ji iz aγ = −

ReLU(Rectified Linear Unit)

動径基底関数

活性化関数についての補足活性化関数によって、ニューラルネットワークが非線形になる

活性化関数は微分可能である必要がある (後述)

以前はシグモイド関数が多く用いられたが、近年は隠れ層の数 k を多くすることもあり、ReLUやその改良版が用いられることが多い (後述)

クラス分類のときは、出⼒層にソフトマックス関数を用いる

動径基底関数を用いたとき、RBF (Radial Basis Function) ネットワークの一つになる

8

ネットワークを構築するとは︖ 9

すべての重み ( wp(k) や wp,i(j) ) を決めるということ

決める方法の一つが、誤差逆伝播法

誤差逆伝播法サンプルごとの誤差 E 10

( )2E1

2E y y= −サンプルごとの誤差 E は

サンプルごとに E が小さくなるように、重み w を変化させていけばよい

w を微小変化させることでどう E が変化するか、を求めるため、E を w で微分する

これにより w を変化させるべき方向 (大きくするか小さくするか) が求まるので、たとえば確率的勾配降下法 [1] などで重みを更新する・・・

[1] https://ja.wikipedia.org/wiki/確率的勾配降下法

誤差逆伝播法隠れ層 k 層目から y への重み11

( ) ( )E

Ek k

p p

yE E

yw w

∂∂ ∂=∂∂ ∂

(連鎖則) ・・・

EE

Ey y

y

∂ = −∂

( )2 2d 1log 2d x xx x=

でやっていることと同じ

p. 10 より

p. 5 の４式目より ( )( )E kpk

p

yz

w

∂ =∂

よって、 ( ) ( )( )

Ek

pkp

Ey y z

w

∂ = −∂

誤差逆伝播法 k = 1 のとき 12

続いて、隠れ層 j 層目から j+1層目への重みを考えたいが、まずは、最も単純な k = 1 つまり隠れ層が 1 層のときを考える

ニューラルネットワークの構造隠れ層 1 層 13

x0=1

x1

x2

xm

⼊⼒変数(説明変数)

z0(1)=1

z1(1) = f(a1(1))

zm(1)(1) = f(am(1)(1))

・・・

z2(1) = f(a2(1))

・・・

w0,1(0)

wm,m(1)(0)

・・・・・・

隠れ層1 層目

xi zi (1) = f(ai (1))

出⼒変数(目的変数)

yE

w0(1)

w2(1)

wm(1)(1)

y

誤差逆伝播法 x から隠れ層 1 層目への重み14

( ) ( )

( )

( )

1

0 1 0, ,

i

p i i p i

aE E

w a w

∂∂ ∂=∂ ∂ ∂

(連鎖則)

( )

( )

1

0,

ip

p i

ax

w

∂ =∂

p. 5 の１式目より

( ) ( ) ( ) ( )E EE1 1 1Ei i i

y yE Ey y

ya a a

∂ ∂∂ ∂= = −∂∂ ∂ ∂また、

(p. 11)(連鎖則)

p. 5 の４式目より ( )( )

( )

( )

11E

1 1i

i

i i

zyw

a a

∂∂ =∂ ∂

よって、 ( ) ( )( )

( )

( )

11

E0 1,

ip i

p i i

zEx y y w

w a

∂∂ = −∂ ∂

誤差逆伝播法活性化関数の微分 15

( )

( )

1

1i

i

z

a

∂∂

は、p. 6, 7 の活性化関数を ai(j) で微分して、その導関数に

活性化関数は ai(j) で微分可能である必要がある

ai(1) を代⼊したもの

誤差逆伝播法 k > 1 のとき 1/3 16

隠れ層が 2 層以上のとき (ディープニューラルネットワーク)、隠れ層 j-1 層目から j 層目への重みを考える

( ) ( )

( )

( )1 1, ,

ji

j j jp i i p i

aE E

w a w− −∂∂ ∂=

∂ ∂ ∂(連鎖則)

p. 5 の２式目より( )

( )( )1

1,

jji

pjp i

az

w−

−

∂ =∂

( ) ( )

( )

( )

( )1 1

11

j jmq

j j jqi q i

aE E

a a a

+ +

+=

∂∂ ∂=∂ ∂ ∂

隠れ層 j 層目の i 番目のニューロンにつながっている、隠れ層 j+1 層目の m(j+1) 個のニューロンを考えると、


( ) ( )

( )

( )

( )1 1

11

j jmq

j j jqi q i

aE E

a a a

+ +

+=

∂∂ ∂=∂ ∂ ∂

( )

( )( )

( )

( )

1

,

j jq j i

i qj ji i

a zw

a a

+∂ ∂=∂ ∂

p. 5 の２式目より ( ) ( ) ( )( )1

1,

0

jmj j j

q p q pp

a w z−

+

=

= から、

( )

( )

ji

ji

z

a

∂∂

は、p. 6, 7 の活性化関数を ai(j) で微分して、その導関数に

ai(1) を代⼊したもの


p. 16, 17 をまとめると、 ( )( )

( )( )

( )

( )

( )11

,1 11,

j jmj j i

p i qj j jqp i q i

zE Ez w

w a a

+

−− +

=

∂∂ ∂=∂ ∂ ∂

( )1jq

E

a +∂

∂ について、p. 17 と同様にして、隠れ層 j+1 層目の q 番目の

ニューロンにつながっている、隠れ層 j+2 層目の m(j+2) 個のニューロンを考えることができる

これを繰り返すと、j+2 層目、 j+3 層目、・・・となり、最後は y になる

つまり、 EE

Ey y

y

∂ = −∂

誤差逆伝播法名前の由来 19

以上のように、y の誤差 yE – y が、隠れ層 k 層目、k-1 層目、・・・と逆に伝播して、重みの変化に寄与していることから、誤差逆伝播法と呼ぶ

誤差逆伝播法注意点 20

y の誤差が伝播するとき、隠れ層 k 層目、k-1 層目、・・・と⼊⼒変数(説明変数) に近くなるにつれて、値が小さくなってしまうことに注意

( )

( )

ji

ji

z

a

∂∂

重み w が変化しなくなってしまう

p. 18に活性化関数の微分係数があるが、たとえば

シグモイド関数の微分係数の最大値は 0.25 であり、隠れ層の層が深くなるにつれて、最大でも 0.25j と指数関数的に小さくなってしまう

そこで、特に隠れ層の数 k を多くするときには、微分係数が 1 になるReLUが使われる

Documents

誤差逆伝播法による ニューラルネットワーク (BackPropagation … · 2018. 7. 14. · 誤差逆伝播法サンプルごとの誤差E 10 ( )2 E 1 2 サンプルごとの誤差E

誤差逆伝播法によるニューラルネットワーク (BackPropagation … · 2018. 7. 14. · 誤差逆伝播法サンプルごとの誤差E 10 ( )2 E 1 2 サンプルごとの誤差E