Upload
yu-ohori
View
276
Download
3
Embed Size (px)
Citation preview
PATTERN RECOGNITION and MACHINE LEARNING
READING5.1 Feed-forward Network Functions
5.2 Network Training
GSIS Tohoku Univ. Tokuyama Lab. M1 Yu Ohori
5 Neural Networks
2015/6/3 PRML Reading 2
็ทๅฝขใขใใซ
๐ฆ ๐ฑ, ๐ฐ = ๐ ๐=1
๐
๐ค๐๐๐ ๐ฑ
โข ๐๐ ๐ฑ :ๅบๅบ้ขๆฐ
โข ๐ โ : ๆ็ญๅๅ๏ผๅๅธฐ๏ผใใใใฏ้็ทๅฝขๆดปๆงๅ้ขๆฐ๏ผใฏใฉในๅ้ก๏ผ
โข ่งฃๆใ่จ็ฎใซใใใฆๆ็จใชๆง่ณชใๆใค
โข ๆฌกๅ ใฎๅชใใฎใใๅฎ้็ใชๅฟ็จๅฏ่ฝๆงใฏ้ใใใ
โข ๅบๅบ้ขๆฐใใใผใฟใซ้ฉๅฟใใใๅฟ ่ฆใใใ
โข ใตใใผใใใฏใใซใใทใณ ( SVM )
โข ใใฃใผใใใฉใฏใผใใใฅใผใฉใซใใใใฏใผใฏ
5.1 Feed-forward Network Functions
ใใฅใผใฉใซใใใใฏใผใฏใขใใซโข ๅบๅบ้ขๆฐใฏใใฉใกใผใฟไพๅญ
โข ่จ็ทดไธญใซใใฉใกใผใฟใ่ชฟๆด
โข ๅฉ็นโข ใณใณใใฏใ๏ผๅบๅบ้ขๆฐใฎๆฐใๅฐใชใ๏ผ
โข ๆฐ่ฆใใผใฟใฎ่ฟ ้ใชๅฆ็ใๅฏ่ฝโข ไธ่ฝ่ฟไผผๅจ
โข ้ซใ้ขๆฐ่ฟไผผ่ฝๅ
โข ๆฌ ็นโข ๅฐคๅบฆ้ขๆฐใ้ๅธ้ขๆฐ
โข ้ๅธๆ้ฉๅๅ้กใ่งฃใๅฟ ่ฆใใใ
2015/6/3 PRML Reading 3
ฮฃ ๐ โoutput
input
unit
๐ฅ1
๐ฅ2
๐ฅ3
๐ฅ๐ท
๐ฆ
ยฉ 2015 WDB Co., Ltd
5.1 Feed-forward Network Functions
2015/6/3 PRML Reading 4
ๅบๆฌ็ใชใใฅใผใฉใซใใใใฏใผใฏใขใใซ
โข ๅ ฅๅๅคๆฐใฎ็ทๅฝขๅใ็ๆ
๐๐ = ๐=1
๐ท
๐ค๐๐1
๐ฅ๐ + ๐ค๐01
= ๐=0
๐ท
๐ค๐๐1
๐ฅ๐
โข ๐๐ : ๆดปๆง
โข ๐ค๐01
: ใใคใขในใใฉใกใผใฟ
โข ๐ฅ0 = 0
โข 1 ใฏ 1ๅฑค็ฎใ็คบใ
โข ๆดปๆงใ้็ทๅฝขๆดปๆงๅ้ขๆฐใงๅคๆ๐ง๐ = โ ๐๐
โข ๐ง๐ : ้ ใใฆใใใ
โข โ โ : ๅพฎๅๅฏ่ฝใช้็ทๅฝขๆดปๆงๅ้ขๆฐ
Fig. 5.1 ( p. 228 )
5.1 Feed-forward Network Functions
2015/6/3 PRML Reading 5
ๅบๆฌ็ใชใใฅใผใฉใซใใใใฏใผใฏใขใใซ
โข ้ ใใฆใใใใฎ็ทๅฝขๅใ็ๆ
๐๐ = ๐=1
๐
๐ค๐๐2
๐ง๐ + ๐ค๐02
= ๐=0
๐ท
๐ค๐๐2
๐ง๐
โข ๐๐ : ๅบๅใฆใใใๆดปๆง
โข ๐ค๐02
: ใใคใขในใใฉใกใผใฟ
โข ๐ง0 = 0
โข 2 ใฏ 2ๅฑค็ฎใ็คบใ
โข ๅบๅใฆใใใๆดปๆงใ้็ทๅฝขๆดปๆงๅ้ขๆฐใงๅคๆ๐ฆ๐ = ๐ ๐๐
โข ๐ฆ๐ : ๅบๅๅคๆฐ
โข ๐ โ : ใญใธในใใฃใใฏใทใฐใขใคใ้ขๆฐ
โข ๆดปๆงๅ้ขๆฐใฎ้ธๆใฏใใผใฟใฎๆง่ณชใจ็ฎๆจๅคๆฐใฎๅๅธใซไพๅญ
Fig. 5.1 ( p. 228 )
5.1 Feed-forward Network Functions
2015/6/3 PRML Reading 6
ใใผใ๏ผๅ ฅๅๅคๆฐ๏ผ้ ใๅคๆฐ๏ผๅบๅๅคๆฐใชใณใฏ๏ผ้ใฟใใฉใกใผใฟ
ๅบๆฌ็ใชใใฅใผใฉใซใใใใฏใผใฏใขใใซ
โข ใใใใฏใผใฏๅ จไฝใฎ้ขๆฐ
๐ฆ๐ ๐ฑ, ๐ฐ = ๐ ๐=1
๐
๐ค๐๐2
โ ๐=1
๐ท
๐ค๐๐1
๐ฅ๐ + ๐ค๐01
+ ๐ค๐02
= ๐ ๐=0
๐
๐ค๐๐2
โ ๐=0
๐ท
๐ค๐๐1
๐ฅ๐
Fig. 5.1 ( p. 228 )
5.1 Feed-forward Network Functions
2015/6/3 PRML Reading 7
ใใใใฏใผใฏๆง้ ใฎๆกๅผต
โข ้ ใใฆใใใใใใชใๅฑคใฎ่ฟฝๅ
โข ๅฑคใ้ฃใณ่ถใใ็ตๅใฎๅฐๅ ฅ
โข ๆๅ้่ทฏใใใฃใฆใฏใชใใชใ๏ผใใฃใผใใใฉใฏใผใๆง้ ๏ผ
๐ง๐ = โ ๐๐ค๐๐๐ง๐
Fig. 5.2 ( p. 230 )
5.1.1 Weight Space Symmetries
็ฌฆๅทๅ่ปขๅฏพ็งฐๆง
โข ไธ้จใฎ้ใฟใฎ็ฌฆๅทใๅ่ปขใใใฆใใใใใฏใผใฏใ่กจใๅ ฅๅบๅ้ขๆฐใฏๅคๅใใชใ
2015/6/3 PRML Reading 8
็ญไพก โ๐๐ tanh โ๐๐
๐ฅ1
๐ฅ2
๐ฅ3
๐ฅ๐ท
๐ง๐
๐ฅ0
โ๐ค๐0
โ๐ค๐1
โ๐ค๐2
โ๐ค๐3
โ๐ค๐๐ท
โ๐ค1๐
โ๐ค3๐โ๐ค2๐
๐ง๐
๐ง๐
๐ง๐โ๐ค๐๐
tanh โ๐๐ = โtanh ๐๐
๐๐ tanh ๐๐
๐ฅ1
๐ฅ2
๐ฅ3
๐ฅ๐ท
๐ง๐
๐ฅ0
๐ค๐0
๐ค๐1
๐ค๐2
๐ค๐3
๐ค๐๐ท
๐ค1๐
๐ค3๐๐ค2๐
๐ง๐
๐ง๐
๐ง๐๐ค๐๐
hidden unit
5.1.1 Weight Space Symmetries
ไบคๆๅฏพ็งฐๆง
โข ไบใคใฎ้ ใใฆใใใใซใคใชใใ็ตๅใฎ้ใฟใๅ ฅใๆใใฆใๅ ฅๅบๅ้ขๆฐใฏๅคๅใใชใ
2015/6/3 PRML Reading 9
็ญไพก
๐๐โฒ tanh ๐๐โฒ๐ฅ๐ท ๐ง๐โฒ
๐ค๐โฒ1
๐ค๐โฒ2
๐ค๐โฒ๐ท
๐ค1๐โฒ
๐ค3๐โฒ
๐ค2๐โฒ
๐ง๐โฒ
๐ง๐โฒ
๐ง๐โฒ
๐ค๐๐โฒ
๐๐ tanh ๐๐๐ฅ1
๐ฅ2
๐ง๐
๐ฅ0
๐ค๐0
๐ค๐1
๐ค๐2
๐ค1๐
๐ค3๐๐ค2๐
๐ง๐
๐ง๐
๐ง๐๐ค๐๐
๐ค๐๐ท
๐ค๐โฒ0
๐๐ tanh ๐๐๐ฅ๐ท ๐ง๐
๐ค๐1
๐ค๐2
๐ค๐๐ท
๐ค1๐
๐ค3๐๐ค2๐
๐ง๐
๐ง๐
๐ง๐๐ค๐๐
๐๐โฒ tanh ๐๐โฒ๐ฅ1
๐ฅ2
๐ง๐โฒ
๐ฅ0
๐ค๐โฒ0
๐ค๐โฒ1
๐ค๐โฒ2
๐ค1๐โฒ
๐ค3๐โฒ
๐ค2๐โฒ
๐ง๐โฒ
๐ง๐โฒ
๐ง๐โฒ
๐ค๐๐โฒ
๐ค๐โฒ๐ท
๐ค๐0
5.1.1 Weight Space Symmetries
้ใฟ็ฉบ้ๅฏพ็งฐๆง
โข ๅใๅ ฅๅใใๅบๅใธใฎ้ขๆฐใ่กจใ้ใฟใใฏใใซ ๐ฐใ่คๆฐๅญๅจ
โข ็ฌฆๅทๅ่ปขๅฏพ็งฐๆง
โข 2๐ ้ใ
โข ไบคๆๅฏพ็งฐๆง
โข ๐!้ใ
โข ๅ จ้จใง ๐! 2๐ ๅใฎ็ญไพกใช้ใฟใใฏใใซใๅญๅจ
โข ใใคใบใขใใซๆฏ่ผใ่ใใ้ใซ้่ฆใชๅฝนๅฒใๆใใ ( Sec. 5.7 )
2015/6/3 PRML Reading 10
5.2 Network Training
ใใใใฏใผใฏใใฉใกใผใฟๆฑบๅฎๅ้ก
โข ๆใๅ็ดใชใขใใญใผใโฆไบไนๅ่ชคๅทฎ้ขๆฐใฎๆๅฐๅ
ใใใใฏใผใฏๅบๅใฎ็ขบ็็่งฃ้
โข ๅ้กใซๅฟใใฆๅบๅใฆใใใใฎๆดปๆงๅ้ขๆฐใจ่ชคๅทฎ้ขๆฐใ้ธๆ ( Sec. 4.3.6 )
โข ๆดปๆงๅ้ขๆฐ๏ผๆญฃๆบ้ฃ็ต้ขๆฐ
โข ็ฎๆจๅคๆฐใซๅฏพใใๆกไปถไปๅๅธ๏ผๆๆฐๅๅๅธๆ
โข ใใใใฎๅ ดๅใ่ชคๅทฎ้ขๆฐใฎๅพฎๅใฏๆฌกใฎๅฝขใใจใ๐๐ธ
๐๐๐= ๐ฆ๐ โ ๐ก๐
โข ่ชคๅทฎ้ไผๆญใ่ญฐ่ซใใ้ใซๅฉ็จ ( Sec. 5.3 )
2015/6/3 PRML Reading 11
ๆฌๅฝใซๅ จ้จใฎๅ้กไบไนๅ่ชคๅทฎ้ขๆฐใงใใใฎ๏ผ๏ผใ ใ๏ผ
ยฉ 2009 ใใฃใณใฌใผใ
5.2 Network Training
2015/6/3 PRML Reading 12
ๅบๅใฆใใใใฎๆดปๆงๅ้ขๆฐ ็ทๅฝขๅบๅ้ขๆฐ
๐ฆ๐ = ๐๐
็ฎๆจๅคๆฐใซๅฏพใใๆกไปถไปๅๅธ ใฌใฆในๅๅธ
๐ ๐ก ๐ฑ, ๐ฐ, ๐ฝ = ๐ฉ ๐ก ๐ฆ ๐ฑ, ๐ฐ , ๐ฝโ1
ๅฐคๅบฆ้ขๆฐ๐ ๐ญ ๐, ๐ฐ, ๐ฝ =
๐=1
๐
๐ ๐ก๐ ๐ฑ๐, ๐ฐ, ๐ฝ
่ชคๅทฎ้ขๆฐ ไบไนๅ่ชคๅทฎ้ขๆฐ
๐ธ ๐ฐ =1
2
๐=1
๐
๐ฆ ๐ฑ๐, ๐ฐ โ ๐ก๐2
ๅๅธฐๅ้ก
5.2 Network Training
2015/6/3 PRML Reading 13
ๅบๅใฆใใใใฎๆดปๆงๅ้ขๆฐ ใญใธในใใฃใใฏใทใฐใขใคใ้ขๆฐ
๐ฆ๐ = ๐ ๐๐ โก1
1 + exp ๐๐
็ฎๆจๅคๆฐใซๅฏพใใๆกไปถไปๅๅธ ใใซใใผใคๅๅธ
๐ ๐ก ๐ฑ, ๐ฐ = Bern ๐ก ๐ฆ ๐ฑ, ๐ฐ
ๅฐคๅบฆ้ขๆฐ๐ ๐ญ ๐, ๐ฐ =
๐=1
๐
๐ ๐ก๐ ๐ฑ๐, ๐ฐ
่ชคๅทฎ้ขๆฐ ไบคๅทฎใจใณใใญใใผ่ชคๅทฎ้ขๆฐ
๐ธ ๐ฐ = โ ๐=1
๐
๐ก๐ ln ๐ฆ๐ + 1 โ ๐ก๐ ln 1 โ ๐ฆ๐
๐ใฏใฉในๅ้กๅ้ก
5.2 Network Training
2015/6/3 PRML Reading 14
ๅบๅใฆใใใใฎๆดปๆงๅ้ขๆฐ ใฝใใใใใฏใน้ขๆฐ
๐ฆ๐ =exp ๐๐ ๐ฑ,๐ฐ
๐ exp ๐๐ ๐ฑ, ๐ฐ
็ฎๆจๅคๆฐใซๅฏพใใๆกไปถไปๅๅธ ใใซใใผใคๅๅธ
๐ ๐ญ ๐ฑ, ๐ฐ = ๐=1
๐พ
๐ฆ๐ ๐ฑ, ๐ฐ ๐ก๐
ๅฐคๅบฆ้ขๆฐ๐ ๐ ๐, ๐ฐ =
๐=1
๐
๐=1
๐พ
๐ฆ๐ ๐ฑ๐, ๐ฐ ๐ก๐๐
่ชคๅทฎ้ขๆฐ ๅคใฏใฉในไบคๅทฎใจใณใใญใใผ่ชคๅทฎ้ขๆฐ
๐ธ ๐ค = โ ๐=1
๐
๐=1
๐พ
๐ก๐๐ ln ๐ฆ๐ ๐ฑ๐, ๐ฐ
ๅคใฏใฉในๅ้กๅ้ก
5.2 Network Training
ๅๅธฐๅ้ก
โข๐๐ฆ๐
๐๐๐= 1
โข๐๐ธ
๐๐๐=
๐๐ธ
๐๐ฆ๐โ
๐๐ฆ๐
๐๐๐= ๐ฆ๐ โ ๐ก๐ โ 1 = ๐ฆ๐ โ ๐ก๐
๐ใฏใฉในๅ้กๅ้ก
โข๐๐ฆ๐
๐๐๐= ๐ ๐๐ 1 โ ๐ ๐๐ = ๐ฆ๐ 1 โ ๐ฆ๐
โข๐๐ธ
๐๐๐=
๐๐ธ
๐๐ฆ๐โ
๐๐ฆ๐
๐๐๐= โ ๐ก๐
1
๐ฆ๐+ 1 โ ๐ก๐
โ1
1โ๐ฆ๐โ ๐ฆ๐ 1 โ ๐ฆ๐ = ๐ฆ๐ โ ๐ก๐
ๅคใฏใฉในๅ้กๅ้ก
โข๐๐ฆ๐
๐๐๐= ๐ฆ๐ ๐ฟ๐๐ โ ๐ฆ๐
โข๐๐ธ
๐๐๐๐=
๐๐ธ
๐๐ฆ๐๐โ
๐๐ฆ๐๐
๐๐๐๐= โ ๐ ๐ก๐๐
1
๐ฆ๐๐โ ๐ฆ๐๐ ๐ฟ๐๐ โ ๐ฆ๐๐ = ๐ฆ๐๐ โ ๐ก๐๐
2015/6/3 PRML Reading 15
5.2.1 Parameter optimization
่ชคๅทฎ้ขๆฐใฎๅนพไฝๅญฆ็ๆๅ
โข ๐ธ ๐ฐ ใฏ ๐ฐใฎๆปใใใง้ฃ็ถใชๆฒ้ข
โข ๐ฐใใ ๐ฐ + ๐ฟ๐ฐใธๅฐใใ ใ็งปๅ
โข ่ชคๅทฎ้ขๆฐใฎๅคๅใฏ ๐ฟ๐ธ โ ๐ฟ๐ฐT๐ป๐ธ ๐ฐ
โข ๐ป๐ธ ๐ฐ : ่ชคๅทฎ้ขๆฐใๆใๅคๅใใๆนๅ
โข ๐ธ ๐ฐ ใฎๆๅฐๅคใฏ ๐ป๐ธ ๐ฐ = 0ใซใชใ็น
2015/6/3 PRML Reading 16
Fig. 5.6 ( p. 240 )
5.2.1 Parameter optimization
ๅ็็นโข ๐ป๐ธ ๐ฐ = 0ใๆบใใ็น
โข ๆฅตๅฐ็นโข ๅคงๅ็ๆๅฐ็น
โข ่ชคๅทฎ้ขๆฐใฎๆๅฐๅคใซ็ธๅฝใใๆฅตๅฐ็น
โข ๅฑๆ็ๆฅตๅฐ็น
โข ใใไปฅๅคใฎๆฅตๅฐ็น
โข ๆฅตๅคง็น
โข ้็นโข ๆฅตๅคใๅใใชใๅ็็น
โข ้็ทๅฝขๆงใฎใใๅ็็นใฏ้ใฟ็ฉบ้ๅ ใซๅคๆฐๅญๅจ
2015/6/3 PRML Reading 17
Fig. 5.6 ( p. 240 )
5.2.1 Parameter optimization
้็ทๅฝขๆ้ฉๅๅ้ก
โข ๐ป๐ธ ๐ฐ = 0ใ่งฃๆ็ใซ่งฃใใใจใฏใปใผไธๅฏ่ฝ
โข ๆฐๅค็ใชๅๅพฉๆ้ ใๅฉ็จ
๐ฐ ๐+1 = ๐ฐ ๐ + โ๐ฐ ๐
โข ๐ : ๅๅพฉในใใใๆฐ
โข ๅคใใฎใขใซใดใชใบใ ใงใฏ โ๐ฐ ๐ ใซๅพ้ ๆ ๅ ฑใๅฉ็จ
2015/6/3 PRML Reading 18
Fig. 5.6 ( p. 240 )
5.2.2 Local quadratic approximation
2015/6/3 PRML Reading 19
ใใ็น ๐ฐ ใฎใพใใใงใฎ่ชคๅทฎ้ขๆฐใฎๅฑๆไบๆฌก่ฟไผผ
๐ธ ๐ฐ โ ๐ธ ๐ฐ + ๐ฐ โ ๐ฐ T๐ +1
2๐ฐ โ ๐ฐ T๐ ๐ฐ โ ๐ฐ
โข ๐ โก ๐ป๐ธ ๐ฐ= ๐ฐ : ๐ฐใง่ฉไพกใใใๅพ้
โข ๐ ๐๐ โก ๐๐ธ
๐๐ค๐๐๐ค๐ ๐ฐ= ๐ฐ
: ๐ฐใง่ฉไพกใใใใใใป่กๅ
ๅ็็น ๐ฐโ ใฎใพใใใงใฎ่ชคๅทฎ้ขๆฐใฎๅฑๆไบๆฌก่ฟไผผ
๐ธ ๐ฐ โ ๐ธ ๐ฐโ +1
2๐ฐ โ ๐ฐโ T๐ ๐ฐ โ ๐ฐโ
โข ๐ = ๐
โข ๐ ๐๐ โก ๐๐ธ
๐๐ค๐๐๐ค๐ ๐ฐ=๐ฐโ
5.2.2 Local quadratic approximation
่ชคๅทฎ้ขๆฐใฎๅนพไฝๅญฆ็่งฃ้
โข ๅบๆๆน็จๅผ
๐๐ฎ๐ = ๐๐๐ฎ๐โข ๐ : ใใใป่กๅ๏ผๅฎๅฏพ็งฐ่กๅ๏ผ
โข ๐๐ : ๅบๆๅค
โข ๐ฎ๐ : ๅบๆใใฏใใซ๏ผๅฎๅ จๆญฃ่ฆ็ดไบค็ณป๏ผ
โข ๐ฎ๐T๐ฎ๐ = ๐ฟ๐๐
โข ๐ฐ โ ๐ฐโ = ๐ ๐ผ๐๐ฎ๐ ใจๅฑ้ใใใฐ
๐ธ ๐ฐ โ ๐ธ ๐ฐโ +1
2๐ฐ โ ๐ฐโ T๐ ๐ฐ โ ๐ฐโ = ๐ธ ๐ฐโ +
1
2
๐๐๐๐ผ๐
2
2015/6/3 PRML Reading 20
5.2.2 Local quadratic approximation
่ชคๅทฎ้ขๆฐใฎๅนพไฝๅญฆ็่งฃ้
โข ๅ็็น่ฟๅใซใใใ่ชคๅทฎ้ขๆฐใฎๅฐๅบ
๐ธ ๐ฐ
โ ๐ธ ๐ฐโ +1
2๐ฐ โ ๐ฐโ T๐ ๐ฐ โ ๐ฐโ
= ๐ธ ๐ฐโ +1
2
๐๐ผ๐๐ฎ๐
T
๐ ๐๐ผ๐๐ฎ๐
= ๐ธ ๐ฐโ +1
2
๐๐ผ๐๐ฎ๐
T ๐๐ผ๐๐๐๐ฎ๐
= ๐ธ ๐ฐโ +1
2
๐
๐๐๐๐ผ๐๐ผ๐๐ฎ๐
T๐ฎ๐
= ๐ธ ๐ฐโ +1
2
๐๐๐๐ผ๐
2
2015/6/3 PRML Reading 21
โต ๐ฐ โ ๐ฐโ = ๐๐ผ๐๐ฎ๐
โต ๐๐ฎ๐ = ๐๐๐ฎ๐
โต ๐ฎ๐T๐ฎ๐ = ๐ฟ๐๐
5.2.2 Local quadratic approximation
่ชคๅทฎ้ขๆฐใฎๅนพไฝๅญฆ็่งฃ้โข ๐ฐโ ใง่ฉไพกใใใใใใป่กๅ ๐ ๐ธ ใๆญฃๅฎๅค
โข โ ๐ ๐ธ โป 0
โข โ โ๐ฏ = ๐ ๐๐๐ฎ๐ โ ๐ โถ ๐ฏT๐๐ฏ = ๐ ๐๐2๐๐ > 0
โข โ โ๐ โถ ๐๐ > 0
โข โ ๐ธ ๐ฐ โ ๐ธ ๐ฐโ +1
2 ๐ ๐๐๐ผ๐
2 > ๐ธ ๐ฐโ
โข ๐ฐ โ ๐ฐโ = ๐ ๐ผ๐๐ฎ๐
โข โๅ็็น ๐ฐโ ใฏๆฅตๅฐ็น
2015/6/3 PRML Reading 22
5.2.2 Local quadratic approximation
่ชคๅทฎ้ขๆฐใฎๅนพไฝๅญฆ็่งฃ้
โข ๆฅตๅฐๅค ๐ฐโ ใฎ่ฟๅใซใใใฆ่ชคๅทฎ้ขๆฐใฏไบๆฌก้ขๆฐใง่ฟไผผ
โข ่ชคๅทฎ้ขๆฐใฎ็ญ้ซ็ทใฏๆฅๅใฎๅฝข
โข ไธญๅฟ ๐ฐโ
โข ้ทใใฏ ๐๐
โ1
2 ใซๆฏไพ
2015/6/3 PRML Reading 23
Fig. 5.6 ( p. 240 )
5.2.3 Use of gradient information
ๅพ้ ๆ ๅ ฑใๅฉ็จใใชใๅ ดๅ
โข ่ชคๅทฎๆฒ้ขใฏ ๐ใจ ๐ใง็นๅฎ
๐ธ ๐ฐ โ ๐ธ ๐ฐ + ๐ฐ โ ๐ฐ T๐ +1
2๐ฐ โ ๐ฐ T๐ ๐ฐ โ ๐ฐ
โข ๐ใฎ็ฌ็ซใช่ฆ็ด ๆฐ๐ ๅโข ๐ : ๐ฐใฎๆฌกๅ
โข ๐ใฎ็ฌ็ซใช่ฆ็ด ๆฐ๐2โ๐
2+ ๐ =
๐ ๐+1
2ๅ
โข ๆฅตๅฐ็นใฎไฝ็ฝฎใฏ ๐ ๐2 ๅใฎใใฉใกใผใฟใซไพๅญ
โข ๅ้ขๆฐใฎ่ฉไพกใซๅฟ ่ฆใชในใใใๆฐ ๐ ๐
โข ๆฅตๅฐๅคใ่ฆใคใใใใใซๅฟ ่ฆใช่จ็ฎ้ ๐ ๐3
2015/6/3 PRML Reading 24
๐ =
๐
๐
5.2.3 Use of gradient information
ๅพ้ ๆ ๅ ฑใๅฉ็จใใๅ ดๅ
โข ๐ป๐ธ ๐ฐ ใ่ฉไพกใใๆฏใซ๐ ๅใฎๆ ๅ ฑใๅพใ
โข ๐ ๐ ๅใฎ่ฉไพกใงๆฅตๅฐ็นใ่ฆใคใใใใจใๅฏ่ฝ
โข ๅๅพ้ ใฎ่ฉไพกใซๅฟ ่ฆใชในใใใๆฐ ๐ ๐
โข ่ชคๅทฎ้ไผๆญใๅฉ็จ
โข ๆฅตๅฐๅคใ่ฆใคใใใใใซๅฟ ่ฆใช่จ็ฎ้ ๐ ๐2
2015/6/3 PRML Reading 25
ใใใๆๆณ
โข ๅ จใฆใฎ่จ็ทดใใผใฟ้ๅใไธๅบฆใซๅฆ็
โข ๅพ้ ้ไธๆณ
๐ฐ ๐+1 = ๐ฐ ๐ โ ๐๐ป๐ธ ๐ฐ ๐
โข ๐ > 0 : ๅญฆ็ฟ็ใใฉใกใผใฟ
โข ๅพ้ ้ไธๆณใใ้ ๅฅใงใใค้ซ้ใชใขใซใดใชใบใ
โข ๅ ฑๅฝนๅพ้ ๆณ
โข ๆบใใฅใผใใณๆณ
5.2.4 Gradient decent optimization
2015/6/3 PRML Reading 26
5.2.4 Gradient decent optimization
ใชใณใฉใคใณๆๆณ
โข ใใผใฟ็นใไธๅบฆใซไธใคใ ใ็จใใฆใใฉใกใผใฟใ้ ๆฌกๆดๆฐ
โข ้ๆฌก็ๅพ้ ้ไธๆณ
๐ฐ ๐+1 = ๐ฐ ๐ โ ๐๐ป๐ธ๐ ๐ฐ ๐
โข ๐ธ ๐ฐ = ๐=1๐ ๐ธ๐ ๐ฐ
โข ๅฉ็น
โข ใใผใฟใฎๅ้ทๅบฆใๅน็็ใซๆฑใใใจใๅฏ่ฝ
โข ๅฑๆ็ๆฅตๅฐๅคใๅ้ฟใงใใๅฏ่ฝๆงใใใ
2015/6/3 PRML Reading 27
Reference
Pattern Recognition and Machine Learning [ Christopher M. Bishop, 2006 ]
โข English
โข pp. 225 โ 241
โข Japanese ( vol. 1 )
โข pp. 225 โ 242
โข Web site
โข http://research.microsoft.com/en-us/um/people/cmbishop/prml/
2015/6/3 PRML Reading 28