Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
Geriye Yayılım AlgoritmasıBazı İpuçlarıÖğrenme Hızı• Öğrenme hızını belirleyen büyüklük η
ijji
kjijiji ykw
w
Ekwkw ηδη +=
∂∂−=+ )()()1(
η• küçük ağırlıklardaki değişim bir iterasyondandiğerine küçük olacağı için, ağırlık uzayındadiğerine küçük olacağı için, ağırlık uzayındadüzgün bir değişim gözleneceköğrenme yavaş olacakη• büyük öğrenme hızlanacak
salınım oluşacağından yakınsama mümkünolmayabilirHızı artıralım ama salınım da olmasın. Bu mümkün mü?
Momentum Terimi))1()(()()1( −−++=+ kwkwykwkw jijiijjiji αηδ
Momentum terimi)()1(ˆ)( kwkwkw jijiji −+=∆ )1()()1( −−=−∆ kwkwkw jijiji
ijjiji ykwkw ηδα +−∆=∆ )1()( )()1(ˆ)(ˆ kukwkw jiji +−=α
)()()1( kBukAxkx +=+Bu ifade neyi anımsatıyor? )()()1( kBukAxkx +=+Lineer zamanla değişmeyen
ayrık zaman sistemiHATIRLATMA)()()1( kBukAxkx +=+
)0()0()1( BuAxx +=
)1()1()2( BuAxx +=
)1()]0()0([)2( BuBuAxAx ++= )1()0()0()2( 2 BuABuxAx ++=
)1()0()0()2( 2 BuABuxAx ++=
)2()1()0()0()3( 23 BuABuBuAxAx +++=
∑=
− −+=n
k
kn knBuAxAnx1
)1( )()0()(
Bu sistemin çözümü nereye gidiyor? • A matrisinin özdeğerleri birim daire içinde ise girişinbelirlediği değerebelirlediği değere• A matrisinin özdeğerleri birim daire üstünde ise salınımyapan bir sistem• A matrisinin özdeğerleri birim daire dışında ise sonsuza
hatırlatmanın sonuMomentum terimi varken güncellemede ne oluyor ona bakalım
∑=
−=∆k
tij
tnji tytkw
0
)()()( δαη ∑=
−
∂∂−=∆
k
t ji
tnji tw
tEkw
0 )(
)()( αη
10 <≤ α•
• Ardışık iterasyonlarda aynı işaretli ise ‘nıngenliği büyüyecek, ağırlıklardaki değişim büyük olacak.• Ardışık iterasyonlarda farklı işaretli ise ‘nın
)(
)(
tw
tE
ji∂∂
)(kw ji∆
)()(tw
tE
ji∂∂ )(kw ji∆
genliği azalacak, ağırlıklardaki değişim küçük olacak)(tw ji∂
Momentum teriminin gradyenin işaretinin değiştiğidoğrultularda kararlı kılma etkisi var.
01.0=η
1.0=η
S. Haykin, “Neural Networks- A Comprehensive Foundation”,2nd Edition, Prentice Hall, 1999, New Jersey.
5.0=η
9.0=η
S. Haykin, “Neural Networks- A Comprehensive Foundation”,2nd Edition, Prentice Hall, 1999, New Jersey.
S. Haykin, “Neural Networks- A Comprehensive Foundation”, 2nd Edition, Prentice Hall, 1999, New Jersey.
Adaptif Öğrenme Hızı )(kjiη
][)( )1()( −∆+∂∂−=∆ k
jiji
kjiji w
w
Ekw βη
1
)1(
)1(
)( ~ 0
))1(())((
0))1(())((
−
−
−
=
<−∂∂≥∂
−∂∂
∂= ba
kwEkwEb
w
kwE
w
kwEa
kji
jiji
kji
kji
η
ηη
)1( 0<∂∂ ww
bjiji
kjiη
9.075.0 ,3.11.1 ,1.0 ,10 3)0( ≤≤≤≤== − baji βη
Grup-Veri Uyarlamalı Eğitim• Veri Uyarlamalı Eğitim“sequential mode”“on-line mode”“ pattern mode”“stochastic mode”
• Grup Uyarlamalı Eğitim“batch mode”
Eğitim kümesindeki her örüntü Eğitim kümesindeki tümEğitim kümesindeki her örüntüağa uyarlandıktan sonraağırlıklar değiştiriliyorEğitim kümesindeki tümörüntüler ağa uyarlandıktansonra ağırlıklar değiştiriliyor
kjijiji
w
Ekwkw
∂∂−=+ η)()1(
ji
ortjiji
w
Ekwkw
∂∂−=+ η)()1(
Grup Uyarlamalı Veri uyarlamalıAmaç Ölçütü
Her bağlantı için gereken bellekÖrüntülerin ağa sunuluşuAlgoritmanın yakınsamasıParalelliğin
kjijiji
w
Ekwkw
∂∂−=+ η)()1(
ji
ortjiji
w
Ekwkw
∂∂−=+ η)()1(
ParalelliğinsağlanmasıEğitim kümesinin fazlalıklı olmasıAlgoritmanın basitliğiBüyük boyutlu ve zor problemlerde etkin çözün sağlanması
Geriye Yayılım Algoritmasının YakınsamasıGenlikte Ayrık Algılayıcıdaki gibi yakınsaması garanti değil.Ne zaman durduracağız?• Kramer+Sangionanni-Vincentelli (1989)
ε≤∇E• ε≤∆ ortE ε≤∆ ortE
• ε≤jj
emax
• Çapraz değerlendirme (cross-validation)
Eğitim KümesiYaklaşıklık Kümesi (estimation subset)Değerlendirme Kümesi (validation subset)
S. Haykin, “Neural Networks- A Comprehensive Foundation”, 2nd Edition, Prentice Hall, 1999, New Jersey.
Hata FonksiyonlarıLojistik Fonksiyon
ß ß
eeE T
2
1=
)]/ln[cosh(2 ββ eEL =
LE
eß ßHuber Fonksiyonu
e
ß ß e
HE
>−≤=ββββ
ee
eeEH
2
22
2
Talvar Fonksiyonu
ß ß e
TE
ß ß e
>≤=βββ
e
eeET
2
22
2
YSAEğitilmişYSAmodeliEğitimKümesi
Ölçekleme
GeriÖlçekleme
ÖlçeklenmişVeri
x x
y
yy
x
y
yVerilerin Ölçeklenmesi
Ölçekleme Ölçekleme
x
x xx
x x
)ˆˆ(ˆˆ minmaxminmax
minmin xx
xx
xxxx −
−
−+=
)(ˆˆ
ˆˆminmax
minmax
minmin xx
xx
xxxx −
−
−+=
Doğrusal Ölçekleme:
xexx
xxInxˆ
min
min )ˆ(ˆ
+=
−=
µ
µLogaritmik Ölçekleme:
Son İpuçları• ‘ler büyük ise ağırlıkların değişim aralığı küçülür; fizikselgerçeklemeye uygun olur. Ancak girişlerdeki gürültüyetolerans azalır.
{ } { }2121 1, ,1, εεεε −∈−∈ id xyi
iε
• Ağırlıklar başlangıçta aynı seçilirse, değişimleri de aynıolabilir. Dolayısıyla ağırlıklar yenilendiğinde aynı kalabilirler.Bunu engellemek için başlangıç ağırlıkları sıfıra yakınBunu engellemek için başlangıç ağırlıkları sıfıra yakınsayılardan rastgele seçilmeli.• Ağırlıklar başlangıçta aynı seçilirse, değişimleri de aynıolabilir. Dolayısıyla ağırlıklar yenilendiğinde aynı kalabilirler.Bunu engellemek için başlangıç ağırlıkları sıfıra yakınsayılardan rastgele seçilmeli.• Her katman eklendiğinde geriye yayılım algoritmasıyavaşlar. Bunu engellemek için girişten çıkışa doğrudanbağlantılar yapılabilir.
• Geriye yayılım algoritması “en dik iniş” ve gradyen yöntemedayalı olduğundan, bu yöntemi iyileştirici tüm tekniklergeriye yayılım algoritmasını da iyileştirmek için kullanılabilir.• İkinci türevleri kullanan lineer olmayan eniyilemeyöntemlerinden herhangi biri de kullanılabilir.
SONLU ADIMDA GLOBAL MİNİMUMA YAKINSAMASISONLU ADIMDA GLOBAL MİNİMUMA YAKINSAMASIGARANTİ DEĞİLDİR.
T ve L harfini ayırt eden bir ağ
Bu harfleri ağa nasıl sunacağız? 25X1 boyutlu vektörler ile
[ ]'00100001000010000100111111=T
[ ]'11111000010000100001000011=L
Bu verilerin yanı sıra bozuk veriler de verelim....
2T2L2
3T 3L
Bir de test kümesi oluşturalım...Test kümesinde sağlam veriler ve eğitim kümesindekilerden farklı bozuk veriler olsun
4T 4L
−
−
−
]1[
][
][
.
.
]1[
][
ny
ny
mnu
nu
nu
F(.) y[n+1]
Mahmut Meral, Lisans Bitirme Ödevi, 2003
Giriş – Çıkış Modeline göre Dinamik Sistem Tanıma
−
−
][
.
.
]1[
kny
ny
Giriş Vektörü
Giriş-Çıkış Eşleme
Fonksiyonu
Çıkış
NARX (nonlinear autoregressive with exogenous inputs) modeli
))(),..,1(),(),(),..,1(),(()1( mnununuknynynyFny −−−−=+
Çok Katmanlı
AğF(.)
z-1
z-1
z-1
Girişu(n)
Çıkışy(n+1)
u(n-1)
u(n-m)
y(n-k)
Mahmut Meral, Lisans Bitirme Ödevi, 2003
z-1
z-1
z-1
y(n)
y(n-1)
Nonlineer Sistem
F(.)
z-1
z-1
z-1
z-1
z-1
+
+
y(n+1)
e(n)=y(n+1)- ŷ(n+1)
Girişu(n)
z-1
Mahmut Meral, Lisans Bitirme Ödevi, 2003
Çok Katmanlı Ağ
z-1
z-1
z-1
z-1
z-1
ŷ(n+1)
Billings sistemi test sonuçları o- gerçek değer *- ağın çıkışı
Mahmut Meral, Lisans Bitirme Ödevi, 2003
Mahmut Meral, Lisans Bitirme Ödevi, 2003
Feigenhoum sistemi için bir adım sonrasının öngörümü o- gerçek değer *- ağın çıkışı
Mahmut Meral, Lisans Bitirme Ödevi, 2003
Feigenhoum sisteminin otonom davranışı o- gerçek değer *- ağın çıkışı
Çok katmanlı a ğın çekicisi
Mahmut Meral, Lisans Bitirme Ödevi, 2003
Gerçek sistemin çekicisi
Çok katmanlı a ğın çekicisi
Mahmut Meral, Lisans Bitirme Ödevi, 2003
Çok katmanlı a ğın çıkı şı
Bu yapı farklı bir öğrenme kuralı ile korku şartlanması için kullanılmıştır....
Armony, Servan-Schreiber, Cohen & LeDoux (1997)
• CS (Conditioned Stimulus) şartlı uyaran
• US (Unconditioned Stimulus) şartsız uyaran• US (Unconditioned Stimulus) şartsız uyaran
• CS-US eşleştirilmesi tipik davranışlar fizyolojik tepkiler
Korku Şartlanması
Şartlanma sırasında: CSİşitme alanı Talamus
MGB
CS
Amygdala
korteks
Yapılan Nedir?
Bir ses tonu ile birlikte, rahatsız edici bir etki uygulayarakbeynin-deneğin-modelino sese karşı şartlanmasını modellemek…
Serkan Çapkan, Lisans Bitirme Ödevi, 2007
o sese karşı şartlanmasını modellemek…
Yapılan Nedir?Örnek;Bir insana,çok sayıda farklı ses veriliyor.Bu seslerin herhangi biri ile birlikte, bu insanın ayağına küçük bir elektrik şoku uygulanıyor.
Daha sonra yine sesler dinletilirken “o” ses verildiğinde, kişinin korkması bekleniyor
Yapılan Nedir?Bu çalışmada;Modele,15 farklı ses veriliyor, bu seslere tepkisi ölçülüyor.Sonra,bu seslerden herhangi biri ile birlikte, modele rahatsız edici bir uyaran uygulanıyor.Daha sonra yine sesler aynı verilirken “o ses” verildiğinde, modelin beklenmeyen bir tepki vermesi bekleniyor
Ses Nasıl Modelleniyor? (15 farklı frekansta ses)
1
1
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
1
1
0
0
0
0
……….
0
0
0
0
0
0
0
0
16 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
………. 0
0
0
0
0
0
0
1
1
16 boyutlu
bir vektör
Ses Nasıl Modelleniyor? (15 farklı frekansta ses)
1
1
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
1
1
0
0
0
0
……….
0
0
0
0
0
0
0
0
Bu seslerin birbiriyle benzerliği…
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
………. 0
0
0
0
0
0
0
1
1
1 2 3 15
İşlem Basamakları
Seslerin Uygulanması, tepkilerin ölçülmesi
Yine seslerin uygulanması, 5. seste rahatsız edici uyaranın uygulanmasıuyaranın uygulanması
Gözlem
Model
mgv acw− mgmpin acw
−
ac amgw−
mgvwmgmpinw
mgv ac− mgmpin ac−
mgmpin amgw−
us amgw−
us mgmpinw−
Örnek Bir İşlem (auditory cortex -> amygdala için)
( )amg othersx
( )amg othersx
( )f x
( )amg othersx
( )amg othersx
( )f x
( )f x
( )amg othersa
( )amg othersa
Auditory Cortex
Amygdala
( )amg winx ( )f x ( )amg wina
( )ac amgw− * ( )a ca = ( )a m gx
Hücreye gelen girişin ağırlıklandırılması
Örnek Bir İşlem (auditory cortex -> amygdala için)
Kazanan hücre çıkışının aktivasyon fonksiyonunda geçirilmesi
( )f x
( )amg winx ( )amg wina
( )f x
Örnek Bir İşlem (auditory cortex -> amygdala için)
Diğer hücre çıkışlarının aktivasyon fonksiyonundan geçirilmesi
( )amg othersx = ( )amg othersx - µ * ( )amg wina
( )x ( )a( )amg othersx ( )amg othersa
Tüm aktive edilmiş hücre çıkışları
( )amg othersa( )amg winaamga = +
Örnek Bir İşlem (auditory cortex -> amygdala için)
Ağırlıkların Yenilenmesi
Yalnızca değeri o bölgenin çıkışlarının ortalamasından büyük olan çıkışlara ilişkin ağırlıklar yenilenir
Örnek Bir İşlem (auditory cortex -> amygdala için)
'rsw = . .rs r sw a a+∈ s orta a>,
rsw'rsw = , diğerleri
İşlem Basamakları
Seslerin Uygulanması
Sesler ile birlikte rahatsız edici uyaranın uygulanması
Gözlem
Sonuçların İncelenmesi (Seslerin İlk Uygulanması ) Sonuçların İncelenmesi (Seslerin İlk Uygulanması )
Sonuçların İncelenmesi (Seslerin İlk Uygulanması ) Sonuçların İncelenmesi (Seslerin İlk Uygulanması )
Sonuçların İncelenmesi (Şartlanmadan sonra ve öncekiler) Sonuçların İncelenmesi (Şartlanmadan sonra ve öncekiler)
Sonuçların İncelenmesi (Şartlanmadan sonra ve öncekiler) Sonuçların İncelenmesi (Şartlanmadan sonra ve öncekiler)
Sonuçların İncel. (Şartlanma öncesi ve sonrası çıkışların farkları) Sonuçların İncel. (Şartlanma öncesi ve sonrası çıkışların farkları)
Sonuçların İncel. (Şartlanma öncesi ve sonrası çıkışların farkları) Sonuçların İncel. (Şartlanma öncesi ve sonrası çıkışların farkları)