Upload
alen-irovic-pemac
View
229
Download
0
Embed Size (px)
Citation preview
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 1/29
Milan M. Milosavljević
NEURONSKE MREŽEradni materijal uz predmet
Veštačka inteligencija i neuronske mreže
Milan M. MilosavljevićElektrotehnički fakultet Beogradskog Univerziteta
januar 2005.
Elektrotehnički fakulktet u Beogradu 1
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 2/29
Milan M. Milosavljević
1.UVOD
Neuronske mreže Fon Nojmanov digitalni računar
1Obučavanje (učenje na osnovu primera)zasnovano na podešavanju jačineknekcionih veza, pragova i strukture
Programiranje kroz instrukcije(ako-onda analiza zasnovana na logici)
2 Memorijski i procesni elementi sukolocirani
Memorija i procesiranje su separisani
3 Paralelni i asinhroni rad (kontinualni ilidiskretni)
Sekvencijalni ili serijski rad, sinhronisanzajedničkim taktom
4 Otporan na greške usled distribuiranereprezentacije i velike redudanse
Nije otporan na greške
5 Smoorganizovanje u toku obučavanja Zavisan od programa
6Kodovano znanje je adaptibilno.Prezentovano je interkonekcijamaizmedju neurona
Znanje je memorisano u adresibilnojmemoriji i striktno je replikabilno
7 Procesiranje je anarhično Procesiranje je autokratično8 Osnovni vremenski ciklus obrade je reda
milisekundiOsnovni vremenski ciklus obrade je redananosekundi
Elektrotehnički fakulktet u Beogradu 2
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 3/29
Milan M. Milosavljević
Tabela 1.1 Sličnosti i razlike izmedju neuronskih mreža i Fon Nojmaovog računara.
Neuronske mreže Fon Nojmanov digitalniračunar
1
Broj procesnih jedinica 1CPU, 105 bajtova 1011 neurona
2 Memorijske jedinice 109 bita RAM,1010 bita disk
1011 neurona1014 sinapsi
3 Vreme jednog ciklusa 10-8 sec 10-3 sec4 Propusni opseg 109 b/sec 1014 b/sec5 Promene u vremenu 105 1014
Tabela 1. 2. Sličnosti i razlike izmedju neuronskih mreža i Fon Nojmaovog računara,kvantitativni pokazatelji
2.DEFINICIJA NEURONSKIH MREŽA Neuronske mreže simuliraju način rada ljudskog mozga pri obavljanju datog zadatka ilineke funkcije. Neuronska mreža je masovno paralelizovan distribuirani procesor sa prirodnom sposobnošću memorisanja iskustvenog znanja i obezbedivanja njegovogkorišćenja. Veštačke neuronske mreže podsećaju na ljudski mozak u dva pogleda:
1. Neuronska mreža zahvata znanje kroz proces obučavanja2. Težine medjuneuronskih veza (jačina sinaptičkih veza) služe za memorisanje
znanja.Procedura kojom se obavlja obučavanje je algoritam obučavanja. Kroz ovu se procesuruse na algoritamski (sistematičan) način menjaju sinaptičke težine u cilju dostizanjaželjenih performansi mreže.Osnovnu računarsku snagu neuronskih mreža čini masivni paralelizam, sposobnostobučavanja i generalizacija.Generalizacija predstavlja sposobnost produkovanja zadovoljavajućeg izlaza neuronskemreže i za ulaze koji nisu bili prisutni u toku obučavanja.
3. SVOJSTVA NEURONSKIH MREŽA
1. Nelinearnost, koja je u osnovi distribuirana.
2. Ulazno-izlazno preslikavanje, koje se restauriše kroz proces obučavanja3. Adaptivnost-sposobnost menjanja jačine sinaptičkih veza.4. Evidencionalni odziv. Neuronska mreža kao izlaz može da produkuje i stepen
uverenja o datoj odluci.5. Kontekstualna informacija. Svaki neuron u neuronskoj mreži je pod uticajem
globalne aktivnosti ostalih neurona. Stoga je kontekstualna informacija prirodnoimanentna ovim strukturama
6. Otpornost na otkaz.
Elektrotehnički fakulktet u Beogradu 3
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 4/29
Milan M. Milosavljević
7. Mogućnost realizacije u VLSI (Very Large Scale Integration) tehnologiji.8. Uniformnost analize i sinteze. Neuron je zajednički element za sve tipove
neuronskih mreže. Modularne neuronske mreže se mogu formirati integracijom pojedinih celina-modula. Za rešavanje različitih praktičnih problema koriste seiste teorijske postavke i algoritmi obučavanja.
9. Neurobiološke analogije. Neurobiolozi gledaju na neuronske mreže kaoistraživački alat za interpretaciju neurobioloških fenomena, i obrnuto, inženjerigledaju na neurobiologiju kao oblast iz koje mogu da izvlače nove ideje zarešavanje kompleksnijih problema od onih koji se mogu rešiti klasičnimhardversko-softverskim tehnikama.
4. MODELI NEURONA
Model neurona čine tri bazična elementa:
• Skup sinaptičkih težina ijw . Pozitivne težine odgovaraju ekscitirajućimsinaptičkim vezama, a negativne inhibitornim.
• Sumator (linearni kombajner) – formira težinsku sumu ulaza.• Aktivaciona funkcija – limitira amplitudu izlaznog signala neurona. Tipično se
uzima normalizacija izlaza na interval [0,1] ili [-1,1].
Jednačine modela sa sl.4.1
∑=
=m
j jkjk xwu
1(4.1)
∑ a( . )
1k w
2k w
kmw
1 x
2 x
m x
k u k y
k θ
sumator aktivaciona
funkcija
prag
izlaz
ulazi
sinaptičke vez e
Sl.4.1. Nelinearni model neurona
)( k k k ua y θ −= (4.2)
Alternativni zapis
Elektrotehnički fakulktet u Beogradu 4
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 5/29
Milan M. Milosavljević
∑ =−=== .,1,)(, 00 k k k k jkjk w xva y xwv θ (4.3)
∑ a( . )
1k w
2k w
kmw
1 x
2 x
m x
k u k y
k θ
sumator aktivaciona
funkcija
prag
izlaz
ulazi
sinaptičke veze
fiksni ulaz
10 −= x
k k w θ =0
Sl.4.2. Nelinearni model neurona sa proširenim ulazom i prenosom praga u sinaptičkutežinu.
Ako stavimo da je k k bwa x == 00 ,1 , tada se k b naziva bajas, videti sl.3.3.
∑ a( . )
1k w
2k w
kmw
1 x
2 x
m x
k u k y
k θ
sumator aktivaciona
funkcija
prag
izlaz
ulazi
sinaptičke veze
fiksni ulaz
10 = x
k k bw =0
Sl.3.3. Nelinearni model neurona sa proširenim ulazom i bajasom u obliku sinaptičketežine.
Elektrotehnički fakulktet u Beogradu 5
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 6/29
Milan M. Milosavljević
4.1. TIPOVI AKTIVACIONIH FUNKCIJA
Razlikujemo sledeće najčešće tipove aktivacionih funkcija.Funkcija praga
<≥
=0,0
0,1)(
v
v
va
Sl.3.4. Aktivaciona funkcija tipa praga. Neuron sa ovom aktivacionom funkcijom je poznat kao Mek Kuloč – Pitasov model neurona (1943)
U delovima linearna
−≤−<<−+
≥=
2/1,0
2/12/1,2/1
2/1,1
)(v
vv
v
va
Sl.3.5. U delovima linearna aktivaciona funkcija
Sigmoidalna (logistička)
)exp(11)(
bvva
−+=
Sl.4.6. Sigmoidalna (logistička) aktivaciona funkcija. Parametar b je parametar nagiba.
Ukoliko se izlaz neurona normira na interval [-1,1], tada dobijamo
Elektrotehnički fakulktet u Beogradu 6
a(v)
1
0 v
a(v)
1
-1/2 1/2v
a(v)
v
1 1b
2b
21 bb >
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 7/29
Milan M. Milosavljević
<−=
≥
=0,10,0
0,1
)(v
v
v
va
Sl.4.7. Bipolarna aktivaciona funkcija tipa znaka (sgn(v))
)exp(1)exp(1
)2
tanh()(vvv
va−+
−−==
Sl.4.8. Bipolarna aktivaciona funkcija tipa tangensa hiperboličnog (sigmoidalnaaktivaciona funkcija)
4.2. ARHITEKTURE NEURONSKIH MREŽA
Jednoslojne neuronske mreže sa prostiranjem signala unapred (feed forward singlelayer neural network)
Elektrotehnički fakulktet u Beogradu 7
a(v)
1
0 v
-1
a(v)
v
1 1b
2b
21 bb >
-1
ulazni sloj izlazni sloj
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 8/29
Milan M. Milosavljević
Sl.4.9. Jednoslojni perceptron sa prostiranjem unapred
Višeslojne neuronske mreže sa prostiranjem signala unapred (feedforwardmultilayer neural network)
Sl.4.10. Višeslojna neuronska mreža sa prostiranjem unapred
Rekurentske neuronske mreže
Za razliku od višeslojnih neuronskih mreža, rekurentne neuronske mreže posedujuzatvorene petlje povratnih sprega.
Elektrotehnički fakulktet u Beogradu 8
ulazni sloj izlazni sloj
skriveni sloj
1− z 1− z 1− z
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 9/29
Milan M. Milosavljević
Sl.4.11. Rekurentna neuronska mreža bez sopstvenih povratnih sprega i skrivenih slojeva.Operator 1− z ima značenje jediničnog vremenskog kašnjenja.
Sl.4.12. Rekurentna neuronska mreže sa skrivenim slojem
5. PREZENTACIJA ZNANJA U NEURONSKIM MREŽAMA
Znanje o okruženju je generalno dvojako
1. Poznata znanja o okruženju, izražena kroz činjenice o tome šta je poznato – apriorno znanje.
2. Observacije (merenja) – dobijena od različitih senzora kao odraz stanja okruženja. Na osnovu ovih observacija se kreiraju obučavajući skupovi za obučavanjeneuronskih mreža. Svaki primer u njemu se sastoji od parova (ulaz, izlaz).
Elektrotehnički fakulktet u Beogradu 9
1− z
1− z
1− z
1− z
t
e
xt
t
e
x
t
te
x
t
t
ex
t
t
e
x
t
t
e
x
t
t
e
x
t
t
ex
t
t
e
xtte
xt
te
x
t
ulaz
izlaz
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 10/29
Milan M. Milosavljević
Obučavajući skupovi predstavljaju znanje o okruženju od interesa.U klasičnom procesiranju, prirodno je prvo kreirati matematički model observacija,izvršiti validaciju ovog modela na realnim podacima Neuronske mreže su direktno bazirane na podacima i daju implicitni model okruženja uzistovremeno obavljanje željenog procesiranja.
Znanje o okruženju u neuronskim mrežama je kodovano kroz konkretne vrednostislobodnih parametara dobijenih kroz obučavanje.Teško je bilo šta konkretno reći o reprezentaciji samog znanja unutar neuronske mreže.Postoje četiri pravila o reprezentaciji znanja u neuronskim mrežama, koji su opšte prirode.
Pravilo 1. Slični ulazi sličnih klasa prouzrokuju sličnu unutrašnju reprezentaciju.Pravilo 2. Primeri koji pripadaju različitim klasama treba da budu predstavljeni različitimunutrašnjim reprezentacijama.Pravilo 3. Apriorne informacije se ugradjuju direktno u neuronsku mrežu bez procesaobučavanja (specijalizacija strukture). Ovo se postiže ili
•
restrikcijom arhitekture (lokalne konekcije)• restrikcijom izbora sinaptičkihh težina (weight shearing – metoda zajedničkihsinaptičkih težina).
Specijalizacijom strukture se postiže:• manji broj slobodnih parametara• manji potrebni obučavajući skupovi• brže obučavanje• bolja generalizacija• ubrzana je prenos signala kroz restriktovanu neuronsku mrežu• cena realizacije je manja.
6. OBUČAVANJE NEURONSKIH MREŽA
Obučavanje je proces adaptiranja slobodnih parametara neuronske mreže, koji se obavljakroz stimulaciju okruženja u kome se neuronska mreža nalazi. Proces obučavanja jeklasifikovan u tri kategorije:
1. obučavanje sa učiteljem (nadzorom), (supervized learning)2. obučavanje sa podsticanjem (reinforcement learning)3. samoobučavanje (obučavanje bez učitelja), (unsupervised learning)
Elektrotehnički fakulktet u Beogradu 10
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 11/29
Milan M. Milosavljević
Neuronska mre ža
W
Generator signala greške
ulaz izlaz
signal greške željeni signal
yx
Sl.6.1.a Obučavanje sa učiteljem
Neuronska mre ža
W
Generator signala kritike
ulaz izlaz
signal kritike signal podsticanja
yx
Sl.6.1.b.Obučavanje sa podsticanjem
Sl.6.1.c.Samoobučavanje
Kod obučavanja sa učiteljem prisutan je obučavajući skup u formi parova )()( , ii d X ,gde je )( i X ulaz, a )( id željeni izlaz.
Elektrotehnički fakulktet u Beogradu 11
Neuronska mre ža
Wulaz izlaz
yx
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 12/29
Milan M. Milosavljević
Kod obučavanja sa podsticanjem, neuronska mreža dobija rudimentirane informacije otome kakav izlaz produkuje, najčešće samo u formi jednog bita informacije tipa dobar,loš. Analogno obučavanju sa učiteljem, ova forma obučavanja se može tretirati na istinačin s tim što umesto učitelja, koji egzaktno ukazuje kakav odziv neuronske mreže trebada bude, u ovom slučaju imamo “kritičara” koji daje grublju ocenu odziva neuronske
mreže.Samoobučavanje je karakterisano odsustvom bilo kakve povratne sprege od okruženja.
6.1. OPŠTA FORMA PRAVILA OBUČAVANJA
Generator signala
obučavanja
η
+
×
i y
id r
iW ∆
X
1 x
2 x
1−m x
1−=m x
•
•
•
•
•
i-ti neuron
1iw
2iw
1−miw
θ =imw
X
Sl.6.1.Opšta šema obučavanja i-tog neurona
niwwww T imiii ,...,2,1,),...,,( 21 == - vektor sinaptičkih težina i-tog neurona
)()( t xr t w i η =∆ , (6.1)
η - koeficijent obučavanja – pozitivna konstanta.
r – signal obučavanja, u opštem slučaju funkcija oblika ),,( iir d xw f r = , (6.2)
,)())(),(),(()()1( t xt d t xt w f t wt w iir ii η +=+ (6.3)
Na osnovu opšte jednačine (6.3), generisani su mnogi zakoni obučavanja, dominantnovariranjem načina generisanja signala obučavanja r.
Elektrotehnički fakulktet u Beogradu 12
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 13/29
Milan M. Milosavljević
6.2 HEBOVO UČENJE
Hebov princip učenja je jedan od najstarijih i najpoznatijih. Zasniva se na Hebovom
postulatu: Kada je akson neurona A dovoljno blizu neurona B, tako da ga može eksitovati, i ako seto ponavlja dovoljno često, dešavaju se takve promene i metabolički procesi u obe ćelijeda je efikasnost uticaja neurona A na neuron B povećana.
., x yw yr iii η =∆⇒= (6.4)
Hebovo učenje je u osnovi samoobučavajuće, budući da nije prisutan signal željenogizlaza. U skalarnoj formi (6.4), ima formu
m jni x yw jiij ,...,2,1,,...,2,1, ===∆ η (6.5)
Ako je ulazno-izlazni korelacioni član ji x y pozitivan, ijw se povećava (u suprotnomse smanjuje), usled čega se povećava izlaz. Stoga će ulaz koji se najčešće pojavljuje,imati najveći uticaj na promenu težina, i na kraju će produkovati najveći izlaz, što i jesteideja Hebovog postulata.
7. ADALINA (Adaptive Linear Element)
Neuron sa linearnom aktivacionom funkcijom se naziva linearni neuron. Neka je na
raspolaganju obučavajući skup ).(),...,,( )()()1()1( p p d xd x . (7.1)
Cilj obučavanja je izračunavanje težinaiw , koje zadovoljavaju relaciju
pk d xwm
j
k k j j ,...,2,1,
1
)()( ==∑=
(7.2)
i pri tome se minimizira kriterijum performansi
.)(21
)(21
)(21
)(1
2
1
)()(
1
2)()(
1
2)()( ∑ ∑∑∑= ===
−=−=−= p
k
m
j
k j j
k p
k
k T k p
k
k k xwd xW d yd w E (7.3)
Ekstremizaciju kriterijuma (7.3) možemo obaviti gradijentnom metodom. datom sa
)( w E w w∇=∆ η , (7.4)
odnosno
Elektrotehnički fakulktet u Beogradu 13
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 14/29
Milan M. Milosavljević
m j x xW d w E
w k j
p
k
k T k
j j ,...,2,1,)( )(
1
)()( =−=∂∂=∆ ∑
=η η (7.5)
Ukoliko se ove promene obavljaju individualno za svaki ulazni signal)( k x , nalazimo da je
,)( )()()( k j
k T k j x xW d w −=∆ η (7.6)
što je poznato Vidrov-Hofovo pravilo obučavanja. Ono se susreće i pod nazivom LMS pravilo (pravilo najmanjih kvadrata, Least Mean Square).Akoželimo da Vidrov-Hofovo pravilo obučavanja izvedemo iz opšte jednačineobučavanja, neophodno je staviti za signal učenja xW d yd r T −=−= . (7.7)Budući da je E(w) hiperparabolična površ u prostoru sinaptičkih težina w, sa jedinstvenim globalnim ekstremumom (minimumom), postupak konvergira ka njemu bezobzira na početne uslove, pod uslovom da jeη dovoljno malo.
Sl.7.1. Ilustracija Vidrov-Hofovog pravila obučavanja za jedan koeficijent sinaptičkihtežina w.
8. JEDNOSLOJNI PERCEPTRON
Prethodni rezultat se lako može generalisati na slučaj opšte nelinearne diferencijabilne
aktivacione funkcije a(). Razmotrimo strukturu jednoslojnog perceptrona.
Elektrotehnički fakulktet u Beogradu 14
min E
0w )(nw)1( +nw
we E
w∂
∂=∆ )(η
ww E
∂∂ )(
)(w E
w
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 15/29
Milan M. Milosavljević
-
-
željeni izlazizlaz
neuronske mreže
1 x
2 x
1−m x
1−=m x
11w
12w
11 −mw
mw1
1
n
nmw
1nw2nw
1e
ne
1d
nd
1 y
n y
Sl.8.1. Jednoslojni perceptron
( )nnmmm www θ θ θ === ...,,, 2211
m – broj ulazan – brj izlaza p – dužina obučavajućeg skupa
( ) ..,2,1,,,2,1,)()(
1
)()( pk nid xwa xW a y k i
k j
m
jij
k T i
k i ===
== ∑=
(8.1)
gde je
[ ]T
imiiT
i wwwW ,,, 21= (8.2)vektor težina pridružen neuronu i. Ako definišemo kriterijumsku funkciju kaomatematičko očekivanje greške na izlazu neuronske mreže, odnosno u slučaju konačnihobučavajućih skupova u obliku ukupne kvadratne greške na obučavajućem skupu,dobijamo
( ) [ ]∑ ∑∑ ∑∑∑∑= = = === =
−=−=−=
p
k
p
k
n
i
k j
m
jij
k i
n
i
k T i
k i
p
k
n
i
k i
k i xwad xwad yd w E
1 1 1
2
)(
1
)(
1
2)()(
1 1
2)( .21
)(21
21
)(
( )[ ] ( ) ,1
)()(')()(
∑= −−=∂∂ p
k
k
j
k
i
k
i
k
iij xnet anet ad w
E
(8.3)
)()( k T i
k i xW net = - ulaz u i-ti neuron kada je k-ti ulazni vektor prisutan.
( ) ( ).)(
)()('
k i
k ik
inet
net anet a
∂∂
= (8.4)
Korekcija ijw nakon prezentacije k-tog obučavajućeg uzorka je
Elektrotehnički fakulktet u Beogradu 15
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 16/29
Milan M. Milosavljević
[ ] ( ) ,)( )()(')()( k j
k i
k i
k i
ijij xnet anet ad
w E
w −=∂∂−=∆ η η (8.5)
i naziva se Delta pravilo obučavanja (delta learning rule), koje se iz opšteg pravila
obučavanja dobija stavljanjem
)()( ' xwa xwad r T i
T ii −= . (8.6)
Opisana procedura konvergira ka nekom od lokalnih ekstremuma. Budući da kriterijumobučavanja poseduje više lokalnih ekstremuma, gradijentna procedura (8.5) ne garantujeglobalni, već samo neki od lokalnih ekstremuma, zavisno od početnih uslova i parametaraobučavanj.
9. VIŠESLOJNI PERCEPTRON
Višeslojni perceptron (feed forward artificial neural networks FFANN), predstavlja jednuod najvažnijih neuronskih struktura, kako zbog opštosti preslikavanja koju potencijalnomože restaurisati, tako i zbog efikasnog algoritma obučavanja poznato pod nazivomalgoritam propagacije greške unazad (backpropagation algorithm).
9.2. HORNIK STINCHOMBE WHITE-OVA TEOREMA (1989)
HSW Teorema
Višeslojna neuronska mreža sa najmanje jednim skrivenim slojem i aktivacionom funkcijom koja poseduje sledeća svojstva
1. 1)(lim =∞→
λ λ
a
2. )1(0)(lim −=−∞→
λ λ
a
3. )( λ a je neopadajuća funkcija
aproksimira bilo koju Borel merljivu funkciju na kompaktnim skupovima, sa proizvoljnom tačnošću, pod uslovom da je na raspolaganju dovoljan broj neurona u skrivenom sloju.
Borel merljive funkcije na kompaktnim skupovima obuhvataju sve neprekidne i udelovima neprekidne funkcije (sa konačno ili prebrojivo mnogo diskontinuiteta naskupovima mere nula).
Elektrotehnički fakulktet u Beogradu 16
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 17/29
Milan M. Milosavljević
Odavde sledi da je FFANN univerzalni aproksimator. Stoga neuspeh FFANN da u nekomkonkretnom slučaju restauriše preslikavanje implicitno zadato obučavajućim skupom, potiče ili od neadekvatnog izbora arhitekture, parametara obučavanja, obučavajućihskupova i drugih faktora, ali ne i od samog osnovnog restauratorskog principa FFANN.Za mnoge praktične probleme, pokazuje se da uprkos HSV teoremi jedan skriveni sloj
nije dovoljan, budući da zahteva neprihvatljivo velik broj neurona. raktično bolji rezultatise često dobijaju razmeštanjem manjeg broja neurona u dva ili više skrivenih slojeva.
9.3. ALGORITAM PROPAGACIJE GREŠKE UNAZAD Ovaj algoritam obuhvata dve faze:
1. ulazni vektor )( k x propagira od ulaznog ka izlaznom sloju, produkujući izlaz)( k y .
2. sinal greške, zatim u drugoj fazi propagira unazad od izlaznog ka ulaznom sloju ucilju korigovanja težina ijw .
U cilju ilustracije rada algoritma propagacije greške unazad (BP algoriram) razmotrimovišeslojni perceptron tipa m – l – n sa jednim skrivenim slojem.
1 x m x j x
1 yi y n y
qqw1
iqwnqw
1qvqjv qmv
Sl.9.1. Višeslojni perceptron sa jednim skrivenim slojem Neka je neuronskoj mreži sa sl.9.1 prezentovan par (x,d) iz zadatog obučavajućeg skupa.Uvedimo sledeće oznake
qnet - ulazni signal u neuron q u skrivenom sloju,
Elektrotehnički fakulktet u Beogradu 17
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 18/29
Milan M. Milosavljević
,1
j
m
jqjq xvnet ∑
==
q z - izlazni signal neurona q
( )
== ∑=
m
j jqjqq xvanet a z
1
Ulaz u i-ti neuron u izlaznom sloju dat je sa
∑ ∑ ∑= = =
==
l
q
l
q
m
j jqjiqqiqi xvaw z wnet
1 1 1.
Izlazi neurona u izlaznom sloju dati su sa
( ) .1 11
=
== ∑ ∑∑= ==
l
q
m
j jqjiqq
l
qiqii xvawa z wanet a y
Ovim je opisana prva faza, propagacija ulaynog signala. Kriterijumska funkcijaobučavanja ima oblik
( ) ( )[ ]∑ ∑ ∑ ∑= = = =
−=−=−=
n
i
n
k
n
i
l
qqiqiiiii z wad net ad yd w E
1 1 1
2
1
22 .2
1
2
1
2
1)(
U skladu sa gradijentnim postupkom ekstremizacije, korekcija težina izmedju skrivenog iizlaznog sloja je data sa
iqiq w
E w
∂
∂−=∆ η ,
odnosno uzimajući u obzir relaciju o prostiranju unapred i lančano pravilo parcijalnih
izvoda za iqw E ∂∂ / , imamo[ ] ( )[ ][ ] ,0 qiqiii
iq
i
i
i
iiq z z net a yd
wnet
net y
y E
w η δ η η ∆=′−=∂
∂∂∂
∂∂−=∆
gde je sa i0δ označen signal greške
[ ] ( )[ ] ,0 iiii
i
iii net a yd
net y
y E
net E ′−=
∂∂
∂∂−=
∂∂−=δ
gde je inet ulaz u neuron i u izlaznom sloju, dok je
( ) ( )i
ii net
net anet a
∂∂=′ .
Rezultat je u potpunosti identičan Delta pravilu za jednoslojni perceptron čiji je ulazq z jednak izlazu neurona iz skrivenog sloja.Korekcija težina izmedju neurona j u ulaznom i ineurona q u skrivenom sloju je data sa
( ) ( )[ ] ( )∑=
′′−=∂
∂∂∂
∂∂−=
∂∂
∂∂−=∂=
n
i qiqiii
qj
q
q
q
qqj
q
qqjqj xnet awnet a yd
v
net
net
z
z E
v
net
net E
v E
v1
η η η η
Korišćenjem izraza za signal greškei0δ , dobijamo
Elektrotehnički fakulktet u Beogradu 18
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 19/29
Milan M. Milosavljević
[ ] ( ) ,1
0∑=
=′=∆n
i jhq jqiqiqj x xnet awv η δ δ η
gde je hqδ signal greške za neuron q u skrivenom sloju i definiše se kao
( ) ,1
0 iq
n
i
iq
q
q
hq wnet a
net
z
z
E
net
E ∑=
′=∂
∂
∂
∂−=∂
∂−= δ δ
gde je qnet ulaz u neuron q.Izraz za hq
δ pokazuje da se ovaj signal greške za neuron q u skrivenom sloju dobija propagiranjem unazad od izlaznog sloja signala greškei0
δ pridruženih izlaznimneuronima. Ovo svojstvo pokazuje važnu lokalnu osobinu algoritma, naime, da bi seizračunala korekcija koeficijenata zadate grane potrebne su samo veličine (signali) na obakraja ove grane.Ova razmatranja se lako mogu proširiti na perceptron sa proizvoljnim brojem slojeva,sukcesivnom primenom pravilom ulančavanja za diferenciranje. U opštem slučaju, za proizvoljan broj slojeva, pravilo korekcije težina u algoritmu propagacije greške unazadima formu
jinput ioutput jiij x xw −−==∆ ηδ ηδ ,
gde se „output-i“ i „input-j“ odnose na dva kraja konekcije neurona j ka neuronu i.Sumarno, algoritam propagacije greške unazad se može opisati kroz sledeće korake. Neka višeslojni perceptron ima Q slojeva, q=1,2,...,Q i neka je
iq net - net ulaz za i-ti neuron u q-tom sloju
iq y - izlaz neurona i u q-tom sloju.
Neka postoji m ulaznih i n izlaznih čvorova. Nekaijq w označava težinu veze izmedju j
q y1−i i
q y .ULAZ: Skup parova( ) pk d x k k ,...,2,1,, )()( =KORAK 0: (Inicijalizacija) Izabrati 0>η i max E (maksimalna prihvatljivagreška).Inicijalizovati sve sinaptičke težine malim slučajnim vrednostima. E=0, k=1.KORAK 1. Primeniri k-ti obučavajući vektor na ulaz (q=1):
)(1 k iii
q x y y == , za sve i.KORAK 2. (Propagacija unapred). Propagirati signal unapred do izlaza po formuli
( ) qi ywanet a y j
jq
ijq
iq
iq ,1
∀
== ∑ −
sve dok se ne dobije izlaz iQ y .
KORAK 3: (Računanje izlazne greške iQ δ )
( ) E yd E
n
ii
Qk
i +−= ∑=
2
1
)(
2
1
,( ) ( )i
Qi
Qk ii
Q net a yd y ′−= )( .KORAK 4: (Propagacija greške unazad). Propagacija greške unazad u cilju korigovanjatežina i sračunavanja greške i
q δ 1− za prethodni sloj:,,1
ijqolld
ijqnew
ijq
jq
iq
ijq www yw ∆+==∆ −δ η
Elektrotehnički fakulktet u Beogradu 19
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 20/29
Milan M. Milosavljević
( )∑ −=′= −−
j j
q ji
qi
qi
q QQq zawnet a .2,...,1,,11 δ δ
KORAK 5. Provera da li su svi uzorci iz obučavajućeg skupa jednom prošli proceduru.Ako je k<p, tada je k=k+1 i prelazi se na korak 1. U suprotnom prelazi se na korak 6.
KORAK 6. (Provera ukupne greške). Da li je ukupna akumulirana greška prihvatljiva?Ako je max E E < , prekida se proces obuke, u suprotnom E=0, k=1, preći na korak 1.
END algoritam propagacije greške unazad.
Ova varijanta algoritma propagacije greške unazad je tzv. inkrementalna, tj. težine sekoriguju nakon predstavljanja svakog uzorka iz obučavajućeg skupa. Alternativni pristup je tzv. blokovski (batch – mod training) algoritam, po kome se težine menjaju nakon štosu svi uzorci u obučavajućem skupu prezentovani.
9.4 PROBLEM KONVERGENCIJEPovršina na kojoj se traži ekstremum (error surface – površina greške) nije
deterministička. Algoritam ustvari pripada klasi algoritama stohastičkeaproksimacije. Za površinu greške se znaju tri bazična svojstva:
• veliki broj lokalnih minimuma, budući da postoji veliki broj kombinatornih permutacija težina koje daju isti izlaz mreže.
• postojanje lokalnih minimuma iznad nivoa globalnog minimuma• postojanje višestrukih platoa sa malim nagibima. Ovo je direktna posledica
zasićenja aktivacionih funkcija u domenu velikih signala, kada su izlazineosetljivi na male promene težina. Postojanje ovakvih delova površine greške prouzrokuje sporu konvergenciju algoritma propagacije greške unazad.
9.5 FAKTORI KOJI UTIČU NA OBUČAVANJE ALGORITMAPROPAGACIJE GREŠKE UNAZAD
9.5.1.Inicijalizacija težina
Početne vrednosti izuzetno utiču na krajnji rezultat obučavanja. Tipična inicijalizacija jemalim slučajnim vrednostima. Velike vrednosti vode u zasićenje i zaglavljivanje ulokalnim ekstremumima bliskim startnoj poziciji. Praktična preporuka zainicijalizaciju je izbor početnih težina u opsegu−
ii k k
3,
3 , gde je ik broj
ulaznih konekcija u neuron i.9.5.2.Koeficijent obučavanja. (learning constant)
Elektrotehnički fakulktet u Beogradu 20
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 21/29
Milan M. Milosavljević
Velike vrednost zaη mogu da ubrzaju konvergenciju, ali i da dovedu do premašaja cilja,dok isuviše male vrednosti imaju suprotan efekat. Dosadašnja praksa pokazuje da seη može kretati, zavisno od konkretnog problema u opsegu od 0.001 do 10. Dobra strategija je adaptivna promena zaη , npr. po sledećem zakonu
>∆−<∆
=∆a s l uč l u č ao s t au
E b
n ok o n z i s t E a
l i m,0
0,
,0,
µ η , a,b>0
Konzistentno, može da ima značenje ili npr. K uzastopnih koraka ili težinsko pokretnousrednjavanje E ∆ .
9.5.3.Funkcija cilja
Kvadratna funkcija nije jedini mogući izbor. promenom ove funkcije menja se samosignal greške i0
δ u izlaznom sloju, dok ostale jednačine ostaju nepromenjene. Mogućiizbori funkcije greške su p L norma
( ) ,1,1 ∞<≤−= ∑ p yd p
E i
pii
Čebiševljeva normaii
i yd L −=
∞ sup .9.5.4.Momentum.
Jedan od načina da se konstanta obučavanja poveća, a da ne dodje do divergentnogoscilovanja je dodavanje tzv. momentum člana. Momentum je u stvari dodatni inercijalničlan koji omogućava odvijanje procesa obučavanja u pravcu „srednje sile na dole“. Ovose može ostvariti uključivanjem prethodnih promena težina u trenutnu promenu, npr. nasledeći način
[ ]1,0,,)1()()( ∈−∆+∇−=∆ α α η t wt E t w ,gde jeα momentum parametar (uobičajena praktična vrednost je 0.9).
Na sl.9.2. prikazana je analiza uticaja momentuma na proces korekcije težina neuronskemreže u toku obučavanja. Elipse prikazuju izohipse hipotetičke površine greške (error surface) kvadratnog tia. Primer A A ′ ilustruje slučaj dobrog usmerenja vektorakorekcije težina. Korekcija momentumom u ovom slučaju poboljšava usmerenjekorekcije težina. Priner B B ′ ilustruje slučaj pogrešno usmerenog vektora korekcije
Elektrotehnički fakulktet u Beogradu 21
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 22/29
Milan M. Milosavljević
težina (prebačaj). Korekcija momentumom preusmerava ovaj vektor u dobrom pravcu.Ovi primeri pokazuju da momentup tipično ubrzava konvergenciju.
Sl.9.2. Uticaj momentuma na konvergenciju težina u toku obučavanja
9.5.5.Pravila korekcije.
Do sada analizirano pravilo korekcije težina se zasnivalo na najjednostavnijem postupkugradijentnog spusta. Dobro razvijena teorija optimizacije nudi niz daleko razvijenijih iefikasnijih tehnika. Prvo poboljšanje se može učiniti uključivanjm viših redovakriterijumske funkcije. Ako( )w E razvijemo u tajlorov red dobijamo
+−−+∇−+= ))(()(2
1)()()()( 00000
T T T www H www E www E w E
gde je.,)()(
22
jiij ww
E H w E w H ∂∂
∂=∇=
Da bi smo našli minimum od E(w), stavljamo 0)( =∇ w E , odnosno.0))(()()( 000 =+−+∇=∇ www H w E w E
Ako zanemarimo članove reda većeg od dva u gornjem razvoju, dobijamo,)()( 0
10 w E w H ww ∇−= −
ili u iterativnoj proceduri,)()( )()(1)()1( k k k k w E w H ww ∇−= −+
Elektrotehnički fakulktet u Beogradu 22
A
A′( )t w ′∆α ( )t w ′∆
( )1+′∇− t E η
B
B′( )1+∇− t E η
( )t w∆α
( )t w∆
( ) ( )t wt E ∆++∇− α η 1
( ) ( )t wt E ∆++′∇− α η 1
momentumabez jatrajektori
momentumom saijatrajektora
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 23/29
Milan M. Milosavljević
što je poznat Njutnov metod korekcije težina, za koga se dokazuje da u slučajukonveksnih kriterijumskih funkcija E, konvergira kvadratno ka rešenju. Medjutim i dalje procedura ima niz nedostataka:
• računarska kompleksnost• zahteva dobro početno pogadjanje• za ne konveksne kriterijumske funkcije može da konvergira ka lokalnomekstremumu i sedlastim tačkama.
Računarski relaksirana metoda pogodna za implementaciju je npr. kvazi Njutnovametoda ili algoritam konjugovanih pravaca.
9.5.6.Obučavajući skup i generalizacija.
Algoritam propagacije greške umazad ima dobra svojstva generalizacije. Neuronskamreža dobro generalizuje ukoliko daje dobre interpolacije za nove ulaze, koji nisu bili prisutni u postupku obučavanja. Neuronska mreža sa isuviše slobodnih parametara zazadati obučavajući skup može biti dobro obučena, sa velikom verovatnoćom loše
generalizacije. Ovaj fenomen se naziva overfitting. Ukoliko medjutim mreža ima isuvišemalo slobodnih parametara, nije u stanju da se obuči na obučavajućem skupu, a samimtim ima loše performanse i na test skupu ( skup za testiranje obuhvata primere koji ne pripadaju obučavajućem skupu). Budući da generalizacija predstavlja važno svojstvo,razvijeno je više procedura za njeno poboljšanje.
a.Smanjivanje osetljivosti mreže. Da bi neuronska mreža posedovala dobra svojstvageneralizacije, potrebno je da male promene ulaznih signala ne izazivaju velike promenena izlazu neuronske mreže. Jedan od mogućih načina za poboljšanje generalizacijedirektnom primenom ovog principa je proširivanje obučavajućeg skupa varijacijamaulaznih signala, recimo dodavanjem šuma niskog nivoa oko svakog elementa
obučavajućeg skupa. Formalno, obučavajući skup( ) ( .,,1,,1,,, pim jd x sa zamenjuje sed x i jiii ==+ξ
Druga mogućnost postizanja sličnog efekta smanjivanja osetljivosti mreže u odnosu naulazne signale je dodavanje novog člana standardnoj kriterijumskoj funkciji oblika
,21
22
2
2
1
∂∂++
∂∂+
∂∂=
n
f f f b
x
E
x
E
x
E E
gde je f E funkcional greške u standardnom algoritmu obučavanja. Razlog zauključivanje b E je da njegova minimizacija u stvari znači, prema gornjoj definiciji,malu osetljivost f E na varijacije ulaza, što je i bio cilj.
b .Regularizacija. Ovaj metod se svodi na proširivanje kriterijumske funkcije tzv.regularizacionim članom
+= ν E E ~
gde je E standardni kriterijum,ν je parametar kojim se kontroliše uticaj dodatnog članaΩ , koji je u direktnoj vezi sa kompleksnošću neuronske mreže. Na taj način,
Elektrotehnički fakulktet u Beogradu 23
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 24/29
Milan M. Milosavljević
minimizacijom ukupnog kriterijuma E ~ postiže se uslovna ekstremizacija standardnog
kriterijuma E uz uslov minimalne kompleksnosti neuronske mreže, koja je osnovni uzrok overfittinga. Najčešće korišćen oblik regularizacionog člana je
∑=Ωi
iw 2
21
,
poznat pod nazivom weight decay – smanjivanje težina, pri čemu se suma odnosi na svetežine i bajase u mreži. Praksa pokazuje da se na ovaj način postiže značajno poboljšanjegeneralizacije. Moguće heurističko objašnjenje ovog efekta se svodi na sledećerezonovanje. Ukoliko su težine mreže velike, aktivacije neurona su u predelu zasićenja,dakle nelinearnih oblasti koje upravo prouzrokuju kompleksna preslikavanja mreže, iobrnuto, za male vrednosti težina aktivacije su u predelu linearnosti aktivacionih funkcijai kompleksnost mreže je mala, čime se smanjuje verovatnoća overfitinga za fiksiranudužinu obučavajućeg skupa.
c .Rano zaustavljanje(early stopping).
Tokom tipične procedure obučavanja greška obučavanja (vrednost kriterijumskefunkcije) po pravilu opada sa brojem iteracija obučavanja. Medjutim greška merena naskupu podataka nezavisnih od obučavajućeg skupa (test ili validacioni skup) po praviluopada do jedne odredjene vrednosti iteracia, a zatim počinje da raste. Ovaj rast je vezanza pojavu overfittinga, pa je stoga celishodno proceduru obučavanja zaustaviti u toj tački,iako kriterijumska funkcija na obučavajućem skupu i dalje opada. Otuda naziv ovemetode – rano zaustavljanje.
Elektrotehnički fakulktet u Beogradu 24
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 25/29
Milan M. Milosavljević
Sl.9.3. Tipični oblik zavisnosti greške obučavanja i validacije
d. Kresanje (Prunning)
Budući da je generalizacija vezana za adekvatan odnos izmedju broja slobodnih parametara (bogatstvo arhitekture) i složenosti modelovane pojave (struktura i dužinaobučavajućeg skupa), ideja kresanja se temelji na principu ostvarivanja što boljih performansi sa što siromašnijom arhitekturom. Operativno se ovo može postići sledećomklasom procedura:
korak.1. Izabrati početnu bogatu arhitekturu neuronske mreže. Obučiti zatim. neuronskumrežu na obučavajućem skupu i testirati na validacionom skupu. Neka su vrednosti ovihkriterijuma obuka E i valid E .korak.2. Saobrazno nekom od unapred usvojenih kriterijuma značajnosti parametra,izračunati značajnost svih parametara obučene neuronske mreže i sortirati ih po rastućimvrednostima, tako da se na prvom mestu nalazi najneznačajniji parametar.
korak.3. Izbaciti granu lil bajas koji odgovara najneznačajnijem parametru. Na ovaj načinsmo smanjili složenost arhitekture i broj slobodnih parametara
Elektrotehnički fakulktet u Beogradu
0 2 6 8 10 12 14 16 180.2
0.4
0.6
0.8
1
1.2
1.4
1.6
Broj iteracija obučavanja
Gre
ške
obu
kei
vali
dac
ije
Greška validacije
Greška obuke
Trenutak obucav anja Minimalna greška validacije
25
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 26/29
Milan M. Milosavljević
korak.4. Za novu arhitekturu izvršiti novu slučajnu inicijalizaciju mreže i novoobučavanje. Izračunati ponovovalid E ′ . Ako je valid valid E E ≤′ , staviti da je valid valid E E ′= i preći na korak 2., u suprotnom zaustaviti proceduru.
Nakon završetka rada ovog algoritma, posedovaćemo neuronsku mrežu najsiromašnijearhitekture i minimalne vrednosti kriterijumske funkcije na validacionom skupu, što i jeste bio cilj.
Postavlja se pitanje izbora kriterijuma značajnosti. Jedan od češće korišćenih je tzv.kriterijum oštećenja mozga (brain demage), po kome je značajniji onaj parametar za koga je vezana veća promena kriterijumske funkcije nakon njegovog uklanjanja. Pored ovogkriterijuma i njegovih različitih varijanti, razvijeni su i drugi, vezani prevashodno zarazličite statističke testove značajnosti nelinearnih parametarskih modela.
U nardnoj seriji slika dat je primer izbora arhitekture sa dobrim generalizacionimsvojstvima, u problemu predvidjanja broja sunčevih pega.
Elektrotehnički fakulktet u Beogradu 26
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 27/29
Milan M. Milosavljević
Elektrotehnički fakulktet u Beogradu 27
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 28/29
Milan M. Milosavljević
Elektrotehnički fakulktet u Beogradu 28
8/8/2019 NEURONSKE MREZE_predavanja
http://slidepdf.com/reader/full/neuronske-mrezepredavanja 29/29
Milan M. Milosavljević
9.5.7.Broj skrivenih neurona
Pitanje broja neurona u skrivenom sloju je fundamentalno pitanje koje se nezaobilazno javlja gotovo u svakoj primeni višeslojnog perceptrona. Egzaktnu analizu je teškosprovesti, budući da je preslikavanje koje ostvaruje višeslojni perceptron veomakomleksno, kao i usled stohastičke prirode većine algoritama obučavanja. Praktične preporuke se svode na princip: probaj sa početnim brojem neurona u skrivenom slojuznatno manjim od dimenzije ulaznog sloja. Ako je obučavanje zadovoljavajuće, pokušatisa daljnjim smanjivanjem, u suprotnom, inkrementalno povećavati njihov broj. postoje iodredjene analitički zasnovane analize o ovom broju. Ekvivalentrirajmo pitanjeodgovarajućeg broja neurona u sk rivenom sloju sa pitanjem koliko je tih neurona potrebno da bi se u m dimenzionom ulaznom prostoru formiralo M disjunktnih oblasti nakojima mreža ima konstantne izlaze, razdeljene medjusobno hiperravnima. Ako taj broj
obeležimo sa m N , tada je u važnosti.,0,1
0∑
=<=
≤≤+
m
jm
mmm j N za
j
N je gde
j
N M N
Maksimalan broj linearno separabilnih oblasti upotrebomm N skrivenih neurona u m-dimenzionom prostoru, maxM je dat sa
( ) ( ) ( ).,
!11
!21
10
max m N zam
j N N N N N N
j
N M m
mmmmmm
m
j
m >+−−++−++=
=∑
=
U slučaju m N m ≤ , važi ,2maxm N M = odnosno max2log M N m = . Podsetimo se da je
broj disjunktnih particija u izlazno prostoru neuronske mreže u direktnoj vezi sa
maksimalnim brojem koncepata (klasa) koje ta mreža može da prepozna.
10.Literatura
[1] C.M. Bishop, Neural Networks for Pattern Recognition , Oxford university press,2000.[2] C.T. Lin, C.S.George Lee, Neural Fuzzy Systems , Prentice Hall, 1996.