14
Geriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı Öğrenme hızını belirleyen büyüklük η i j ji k ji ji ji y k w w E k w k w ηδ η + = - = + ) ( ) ( ) 1 ( η küçük ağırlıklardaki değişim bir iterasyondan diğerine küçük olacağı için, ağırlık uzayında diğerine küçük olacağı için, ağırlık uzayında düzgün bir değişim gözlenecek öğrenme yavaş olacak η büyük öğrenme hızlanacak salınım oluşacağından yakınsama mümkün olmayabilir Hızı artıralım ama salınım da olmasın. Bu mümkün mü? Momentum Terimi )) 1 ( ) ( ( ) ( ) 1 ( - - + + = + k w k w y k w k w ji ji i j ji ji α ηδ Momentum terimi ) ( ) 1 ( ˆ ) ( k w k w k w ji ji ji - + = Δ ) 1 ( ) ( ) 1 ( - - = - Δ k w k w k w ji ji ji i j ji ji y k w k w ηδ α + - Δ = Δ ) 1 ( ) ( ) ( ) 1 ( ˆ ) ( ˆ k u k w k w ji ji + - = α ) ( ) ( ) 1 ( k Bu k Ax k x + = + Bu ifade neyi anımsatıyor? ) ( ) ( ) 1 ( k Bu k Ax k x + = + Lineer zamanla değişmeyen ayrık zaman sistemi HATIRLATMA ) ( ) ( ) 1 ( k Bu k Ax k x + = + ) 0 ( ) 0 ( ) 1 ( Bu Ax x + = ) 1 ( ) 1 ( ) 2 ( Bu Ax x + = ) 1 ( )] 0 ( ) 0 ( [ ) 2 ( Bu Bu Ax A x + + = ) 1 ( ) 0 ( ) 0 ( ) 2 ( 2 Bu ABu x A x + + = ) 1 ( ) 0 ( ) 0 ( ) 2 ( 2 Bu ABu x A x + + = ) 2 ( ) 1 ( ) 0 ( ) 0 ( ) 3 ( 2 3 Bu ABu Bu A x A x + + + = = - - + = n k k n k n Bu A x A n x 1 ) 1 ( ) ( ) 0 ( ) ( Bu sistemin çözümü nereye gidiyor? A matrisinin özdeğerleri birim daire içinde ise girişin belirlediği değere A matrisinin özdeğerleri birim daire üstünde ise salınım yapan bir sistem A matrisinin özdeğerleri birim daire dışında ise sonsuza hatırlatmanın sonu Momentum terimi varken güncellemede ne oluyor ona bakalım = - = Δ k t i j t n ji t y t k w 0 ) ( ) ( ) ( δ α η = - - = Δ k t ji t n ji t w t E k w 0 ) ( ) ( ) ( α η 1 0 < α Ardışık iterasyonlarda aynı işaretli ise ‘nın genliği büyüyecek, ağırlıklardaki değişim büyük olacak. Ardışık iterasyonlarda farklı işaretli ise ‘nın ) ( ) ( t w t E ji ) ( k w ji Δ ) ( ) ( t w t E ji ) ( k w ji Δ genliği azalacak, ağırlıklardaki değişim küçük olacak ) (t w ji Momentum teriminin gradyenin işaretinin değiştiği doğrultularda kararlı kılma etkisi var.

Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

Geriye Yayılım AlgoritmasıBazı İpuçlarıÖğrenme Hızı• Öğrenme hızını belirleyen büyüklük η

ijji

kjijiji ykw

w

Ekwkw ηδη +=

∂∂−=+ )()()1(

η• küçük ağırlıklardaki değişim bir iterasyondandiğerine küçük olacağı için, ağırlık uzayındadiğerine küçük olacağı için, ağırlık uzayındadüzgün bir değişim gözleneceköğrenme yavaş olacakη• büyük öğrenme hızlanacak

salınım oluşacağından yakınsama mümkünolmayabilirHızı artıralım ama salınım da olmasın. Bu mümkün mü?

Momentum Terimi))1()(()()1( −−++=+ kwkwykwkw jijiijjiji αηδ

Momentum terimi)()1(ˆ)( kwkwkw jijiji −+=∆ )1()()1( −−=−∆ kwkwkw jijiji

ijjiji ykwkw ηδα +−∆=∆ )1()( )()1(ˆ)(ˆ kukwkw jiji +−=α

)()()1( kBukAxkx +=+Bu ifade neyi anımsatıyor? )()()1( kBukAxkx +=+Lineer zamanla değişmeyen

ayrık zaman sistemiHATIRLATMA)()()1( kBukAxkx +=+

)0()0()1( BuAxx +=

)1()1()2( BuAxx +=

)1()]0()0([)2( BuBuAxAx ++= )1()0()0()2( 2 BuABuxAx ++=

)1()0()0()2( 2 BuABuxAx ++=

)2()1()0()0()3( 23 BuABuBuAxAx +++=

∑=

− −+=n

k

kn knBuAxAnx1

)1( )()0()(

Bu sistemin çözümü nereye gidiyor? • A matrisinin özdeğerleri birim daire içinde ise girişinbelirlediği değerebelirlediği değere• A matrisinin özdeğerleri birim daire üstünde ise salınımyapan bir sistem• A matrisinin özdeğerleri birim daire dışında ise sonsuza

hatırlatmanın sonuMomentum terimi varken güncellemede ne oluyor ona bakalım

∑=

−=∆k

tij

tnji tytkw

0

)()()( δαη ∑=

∂∂−=∆

k

t ji

tnji tw

tEkw

0 )(

)()( αη

10 <≤ α•

• Ardışık iterasyonlarda aynı işaretli ise ‘nıngenliği büyüyecek, ağırlıklardaki değişim büyük olacak.• Ardışık iterasyonlarda farklı işaretli ise ‘nın

)(

)(

tw

tE

ji∂∂

)(kw ji∆

)()(tw

tE

ji∂∂ )(kw ji∆

genliği azalacak, ağırlıklardaki değişim küçük olacak)(tw ji∂

Momentum teriminin gradyenin işaretinin değiştiğidoğrultularda kararlı kılma etkisi var.

Page 2: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

01.0=η

1.0=η

S. Haykin, “Neural Networks- A Comprehensive Foundation”,2nd Edition, Prentice Hall, 1999, New Jersey.

5.0=η

9.0=η

S. Haykin, “Neural Networks- A Comprehensive Foundation”,2nd Edition, Prentice Hall, 1999, New Jersey.

S. Haykin, “Neural Networks- A Comprehensive Foundation”, 2nd Edition, Prentice Hall, 1999, New Jersey.

Adaptif Öğrenme Hızı )(kjiη

][)( )1()( −∆+∂∂−=∆ k

jiji

kjiji w

w

Ekw βη

1

)1(

)1(

)( ~ 0

))1(())((

0))1(())((

=

<−∂∂≥∂

−∂∂

∂= ba

kwEkwEb

w

kwE

w

kwEa

kji

jiji

kji

kji

η

ηη

)1( 0<∂∂ ww

bjiji

kjiη

9.075.0 ,3.11.1 ,1.0 ,10 3)0( ≤≤≤≤== − baji βη

Page 3: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

Grup-Veri Uyarlamalı Eğitim• Veri Uyarlamalı Eğitim“sequential mode”“on-line mode”“ pattern mode”“stochastic mode”

• Grup Uyarlamalı Eğitim“batch mode”

Eğitim kümesindeki her örüntü Eğitim kümesindeki tümEğitim kümesindeki her örüntüağa uyarlandıktan sonraağırlıklar değiştiriliyorEğitim kümesindeki tümörüntüler ağa uyarlandıktansonra ağırlıklar değiştiriliyor

kjijiji

w

Ekwkw

∂∂−=+ η)()1(

ji

ortjiji

w

Ekwkw

∂∂−=+ η)()1(

Grup Uyarlamalı Veri uyarlamalıAmaç Ölçütü

Her bağlantı için gereken bellekÖrüntülerin ağa sunuluşuAlgoritmanın yakınsamasıParalelliğin

kjijiji

w

Ekwkw

∂∂−=+ η)()1(

ji

ortjiji

w

Ekwkw

∂∂−=+ η)()1(

ParalelliğinsağlanmasıEğitim kümesinin fazlalıklı olmasıAlgoritmanın basitliğiBüyük boyutlu ve zor problemlerde etkin çözün sağlanması

Geriye Yayılım Algoritmasının YakınsamasıGenlikte Ayrık Algılayıcıdaki gibi yakınsaması garanti değil.Ne zaman durduracağız?• Kramer+Sangionanni-Vincentelli (1989)

ε≤∇E• ε≤∆ ortE ε≤∆ ortE

• ε≤jj

emax

• Çapraz değerlendirme (cross-validation)

Eğitim KümesiYaklaşıklık Kümesi (estimation subset)Değerlendirme Kümesi (validation subset)

S. Haykin, “Neural Networks- A Comprehensive Foundation”, 2nd Edition, Prentice Hall, 1999, New Jersey.

Page 4: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

Hata FonksiyonlarıLojistik Fonksiyon

ß ß

eeE T

2

1=

)]/ln[cosh(2 ββ eEL =

LE

eß ßHuber Fonksiyonu

e

ß ß e

HE

>−≤=ββββ

ee

eeEH

2

22

2

Talvar Fonksiyonu

ß ß e

TE

ß ß e

>≤=βββ

e

eeET

2

22

2

YSAEğitilmişYSAmodeliEğitimKümesi

Ölçekleme

GeriÖlçekleme

ÖlçeklenmişVeri

x x

y

yy

x

y

yVerilerin Ölçeklenmesi

Ölçekleme Ölçekleme

x

x xx

x x

)ˆˆ(ˆˆ minmaxminmax

minmin xx

xx

xxxx −

−+=

)(ˆˆ

ˆˆminmax

minmax

minmin xx

xx

xxxx −

−+=

Doğrusal Ölçekleme:

xexx

xxInxˆ

min

min )ˆ(ˆ

+=

−=

µ

µLogaritmik Ölçekleme:

Son İpuçları• ‘ler büyük ise ağırlıkların değişim aralığı küçülür; fizikselgerçeklemeye uygun olur. Ancak girişlerdeki gürültüyetolerans azalır.

{ } { }2121 1, ,1, εεεε −∈−∈ id xyi

• Ağırlıklar başlangıçta aynı seçilirse, değişimleri de aynıolabilir. Dolayısıyla ağırlıklar yenilendiğinde aynı kalabilirler.Bunu engellemek için başlangıç ağırlıkları sıfıra yakınBunu engellemek için başlangıç ağırlıkları sıfıra yakınsayılardan rastgele seçilmeli.• Ağırlıklar başlangıçta aynı seçilirse, değişimleri de aynıolabilir. Dolayısıyla ağırlıklar yenilendiğinde aynı kalabilirler.Bunu engellemek için başlangıç ağırlıkları sıfıra yakınsayılardan rastgele seçilmeli.• Her katman eklendiğinde geriye yayılım algoritmasıyavaşlar. Bunu engellemek için girişten çıkışa doğrudanbağlantılar yapılabilir.

Page 5: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

• Geriye yayılım algoritması “en dik iniş” ve gradyen yöntemedayalı olduğundan, bu yöntemi iyileştirici tüm tekniklergeriye yayılım algoritmasını da iyileştirmek için kullanılabilir.• İkinci türevleri kullanan lineer olmayan eniyilemeyöntemlerinden herhangi biri de kullanılabilir.

SONLU ADIMDA GLOBAL MİNİMUMA YAKINSAMASISONLU ADIMDA GLOBAL MİNİMUMA YAKINSAMASIGARANTİ DEĞİLDİR.

T ve L harfini ayırt eden bir ağ

Bu harfleri ağa nasıl sunacağız? 25X1 boyutlu vektörler ile

[ ]'00100001000010000100111111=T

[ ]'11111000010000100001000011=L

Bu verilerin yanı sıra bozuk veriler de verelim....

2T2L2

3T 3L

Bir de test kümesi oluşturalım...Test kümesinde sağlam veriler ve eğitim kümesindekilerden farklı bozuk veriler olsun

4T 4L

Page 6: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

]1[

][

][

.

.

]1[

][

ny

ny

mnu

nu

nu

F(.) y[n+1]

Mahmut Meral, Lisans Bitirme Ödevi, 2003

Giriş – Çıkış Modeline göre Dinamik Sistem Tanıma

][

.

.

]1[

kny

ny

Giriş Vektörü

Giriş-Çıkış Eşleme

Fonksiyonu

Çıkış

NARX (nonlinear autoregressive with exogenous inputs) modeli

))(),..,1(),(),(),..,1(),(()1( mnununuknynynyFny −−−−=+

Çok Katmanlı

AğF(.)

z-1

z-1

z-1

Girişu(n)

Çıkışy(n+1)

u(n-1)

u(n-m)

y(n-k)

Mahmut Meral, Lisans Bitirme Ödevi, 2003

z-1

z-1

z-1

y(n)

y(n-1)

Nonlineer Sistem

F(.)

z-1

z-1

z-1

z-1

z-1

+

+

y(n+1)

e(n)=y(n+1)- ŷ(n+1)

Girişu(n)

z-1

Mahmut Meral, Lisans Bitirme Ödevi, 2003

Çok Katmanlı Ağ

z-1

z-1

z-1

z-1

z-1

ŷ(n+1)

Billings sistemi test sonuçları o- gerçek değer *- ağın çıkışı

Mahmut Meral, Lisans Bitirme Ödevi, 2003

Page 7: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

Mahmut Meral, Lisans Bitirme Ödevi, 2003

Feigenhoum sistemi için bir adım sonrasının öngörümü o- gerçek değer *- ağın çıkışı

Mahmut Meral, Lisans Bitirme Ödevi, 2003

Feigenhoum sisteminin otonom davranışı o- gerçek değer *- ağın çıkışı

Çok katmanlı a ğın çekicisi

Mahmut Meral, Lisans Bitirme Ödevi, 2003

Gerçek sistemin çekicisi

Çok katmanlı a ğın çekicisi

Mahmut Meral, Lisans Bitirme Ödevi, 2003

Çok katmanlı a ğın çıkı şı

Page 8: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

Bu yapı farklı bir öğrenme kuralı ile korku şartlanması için kullanılmıştır....

Armony, Servan-Schreiber, Cohen & LeDoux (1997)

• CS (Conditioned Stimulus) şartlı uyaran

• US (Unconditioned Stimulus) şartsız uyaran• US (Unconditioned Stimulus) şartsız uyaran

• CS-US eşleştirilmesi tipik davranışlar fizyolojik tepkiler

Korku Şartlanması

Şartlanma sırasında: CSİşitme alanı Talamus

MGB

CS

Amygdala

korteks

Yapılan Nedir?

Bir ses tonu ile birlikte, rahatsız edici bir etki uygulayarakbeynin-deneğin-modelino sese karşı şartlanmasını modellemek…

Serkan Çapkan, Lisans Bitirme Ödevi, 2007

o sese karşı şartlanmasını modellemek…

Yapılan Nedir?Örnek;Bir insana,çok sayıda farklı ses veriliyor.Bu seslerin herhangi biri ile birlikte, bu insanın ayağına küçük bir elektrik şoku uygulanıyor.

Daha sonra yine sesler dinletilirken “o” ses verildiğinde, kişinin korkması bekleniyor

Page 9: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

Yapılan Nedir?Bu çalışmada;Modele,15 farklı ses veriliyor, bu seslere tepkisi ölçülüyor.Sonra,bu seslerden herhangi biri ile birlikte, modele rahatsız edici bir uyaran uygulanıyor.Daha sonra yine sesler aynı verilirken “o ses” verildiğinde, modelin beklenmeyen bir tepki vermesi bekleniyor

Ses Nasıl Modelleniyor? (15 farklı frekansta ses)

1

1

0

0

0

0

0

0

0

1

1

0

0

0

0

0

0

0

1

1

0

0

0

0

……….

0

0

0

0

0

0

0

0

16 0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

………. 0

0

0

0

0

0

0

1

1

16 boyutlu

bir vektör

Ses Nasıl Modelleniyor? (15 farklı frekansta ses)

1

1

0

0

0

0

0

0

0

1

1

0

0

0

0

0

0

0

1

1

0

0

0

0

……….

0

0

0

0

0

0

0

0

Bu seslerin birbiriyle benzerliği…

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

………. 0

0

0

0

0

0

0

1

1

1 2 3 15

İşlem Basamakları

Seslerin Uygulanması, tepkilerin ölçülmesi

Yine seslerin uygulanması, 5. seste rahatsız edici uyaranın uygulanmasıuyaranın uygulanması

Gözlem

Page 10: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

Model

mgv acw− mgmpin acw

ac amgw−

mgvwmgmpinw

mgv ac− mgmpin ac−

mgmpin amgw−

us amgw−

us mgmpinw−

Örnek Bir İşlem (auditory cortex -> amygdala için)

( )amg othersx

( )amg othersx

( )f x

( )amg othersx

( )amg othersx

( )f x

( )f x

( )amg othersa

( )amg othersa

Auditory Cortex

Amygdala

( )amg winx ( )f x ( )amg wina

( )ac amgw− * ( )a ca = ( )a m gx

Hücreye gelen girişin ağırlıklandırılması

Örnek Bir İşlem (auditory cortex -> amygdala için)

Kazanan hücre çıkışının aktivasyon fonksiyonunda geçirilmesi

( )f x

( )amg winx ( )amg wina

( )f x

Örnek Bir İşlem (auditory cortex -> amygdala için)

Diğer hücre çıkışlarının aktivasyon fonksiyonundan geçirilmesi

( )amg othersx = ( )amg othersx - µ * ( )amg wina

( )x ( )a( )amg othersx ( )amg othersa

Tüm aktive edilmiş hücre çıkışları

( )amg othersa( )amg winaamga = +

Page 11: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

Örnek Bir İşlem (auditory cortex -> amygdala için)

Ağırlıkların Yenilenmesi

Yalnızca değeri o bölgenin çıkışlarının ortalamasından büyük olan çıkışlara ilişkin ağırlıklar yenilenir

Örnek Bir İşlem (auditory cortex -> amygdala için)

'rsw = . .rs r sw a a+∈ s orta a>,

rsw'rsw = , diğerleri

İşlem Basamakları

Seslerin Uygulanması

Sesler ile birlikte rahatsız edici uyaranın uygulanması

Gözlem

Sonuçların İncelenmesi (Seslerin İlk Uygulanması ) Sonuçların İncelenmesi (Seslerin İlk Uygulanması )

Page 12: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

Sonuçların İncelenmesi (Seslerin İlk Uygulanması ) Sonuçların İncelenmesi (Seslerin İlk Uygulanması )

Sonuçların İncelenmesi (Şartlanmadan sonra ve öncekiler) Sonuçların İncelenmesi (Şartlanmadan sonra ve öncekiler)

Page 13: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

Sonuçların İncelenmesi (Şartlanmadan sonra ve öncekiler) Sonuçların İncelenmesi (Şartlanmadan sonra ve öncekiler)

Sonuçların İncel. (Şartlanma öncesi ve sonrası çıkışların farkları) Sonuçların İncel. (Şartlanma öncesi ve sonrası çıkışların farkları)

Page 14: Geriye Yayılım Algoritması Momentum Terimi Bazı …ayhant/dersler/ysa/dn/ysa_ders6.pdfGeriye Yayılım Algoritması Bazı İpuçları Öğrenme Hızı • Öğrenme hızını belirleyen

Sonuçların İncel. (Şartlanma öncesi ve sonrası çıkışların farkları) Sonuçların İncel. (Şartlanma öncesi ve sonrası çıkışların farkları)