NEURONSKE MREZE_predavanja

8/8/2019 NEURONSKE MREZE_predavanja

http://slidepdf.com/reader/full/neuronske-mrezepredavanja 1/29

Milan M. Milosavljević

NEURONSKE MREŽEradni materijal uz predmet

Veštačka inteligencija i neuronske mreže

Milan M. MilosavljevićElektrotehnički fakultet Beogradskog Univerziteta

januar 2005.

Elektrotehnički fakulktet u Beogradu 1




1.UVOD

Neuronske mreže Fon Nojmanov digitalni računar

1Obučavanje (učenje na osnovu primera)zasnovano na podešavanju jačineknekcionih veza, pragova i strukture

Programiranje kroz instrukcije(ako-onda analiza zasnovana na logici)

2 Memorijski i procesni elementi sukolocirani

Memorija i procesiranje su separisani

3 Paralelni i asinhroni rad (kontinualni ilidiskretni)

Sekvencijalni ili serijski rad, sinhronisanzajedničkim taktom

4 Otporan na greške usled distribuiranereprezentacije i velike redudanse

Nije otporan na greške

5 Smoorganizovanje u toku obučavanja Zavisan od programa

6Kodovano znanje je adaptibilno.Prezentovano je interkonekcijamaizmedju neurona

Znanje je memorisano u adresibilnojmemoriji i striktno je replikabilno

7 Procesiranje je anarhično Procesiranje je autokratično8 Osnovni vremenski ciklus obrade je reda

milisekundiOsnovni vremenski ciklus obrade je redananosekundi





Tabela 1.1 Sličnosti i razlike izmedju neuronskih mreža i Fon Nojmaovog računara.

Neuronske mreže Fon Nojmanov digitalniračunar

1

Broj procesnih jedinica 1CPU, 105 bajtova 1011 neurona

2 Memorijske jedinice 109 bita RAM,1010 bita disk

1011 neurona1014 sinapsi

3 Vreme jednog ciklusa 10-8 sec 10-3 sec4 Propusni opseg 109 b/sec 1014 b/sec5 Promene u vremenu 105 1014

Tabela 1. 2. Sličnosti i razlike izmedju neuronskih mreža i Fon Nojmaovog računara,kvantitativni pokazatelji

2.DEFINICIJA NEURONSKIH MREŽA Neuronske mreže simuliraju način rada ljudskog mozga pri obavljanju datog zadatka ilineke funkcije. Neuronska mreža je masovno paralelizovan distribuirani procesor sa prirodnom sposobnošću memorisanja iskustvenog znanja i obezbedivanja njegovogkorišćenja. Veštačke neuronske mreže podsećaju na ljudski mozak u dva pogleda:

1. Neuronska mreža zahvata znanje kroz proces obučavanja2. Težine medjuneuronskih veza (jačina sinaptičkih veza) služe za memorisanje

znanja.Procedura kojom se obavlja obučavanje je algoritam obučavanja. Kroz ovu se procesuruse na algoritamski (sistematičan) način menjaju sinaptičke težine u cilju dostizanjaželjenih performansi mreže.Osnovnu računarsku snagu neuronskih mreža čini masivni paralelizam, sposobnostobučavanja i generalizacija.Generalizacija predstavlja sposobnost produkovanja zadovoljavajućeg izlaza neuronskemreže i za ulaze koji nisu bili prisutni u toku obučavanja.

3. SVOJSTVA NEURONSKIH MREŽA

1. Nelinearnost, koja je u osnovi distribuirana.

2. Ulazno-izlazno preslikavanje, koje se restauriše kroz proces obučavanja3. Adaptivnost-sposobnost menjanja jačine sinaptičkih veza.4. Evidencionalni odziv. Neuronska mreža kao izlaz može da produkuje i stepen

uverenja o datoj odluci.5. Kontekstualna informacija. Svaki neuron u neuronskoj mreži je pod uticajem

globalne aktivnosti ostalih neurona. Stoga je kontekstualna informacija prirodnoimanentna ovim strukturama

6. Otpornost na otkaz.





7. Mogućnost realizacije u VLSI (Very Large Scale Integration) tehnologiji.8. Uniformnost analize i sinteze. Neuron je zajednički element za sve tipove

neuronskih mreže. Modularne neuronske mreže se mogu formirati integracijom pojedinih celina-modula. Za rešavanje različitih praktičnih problema koriste seiste teorijske postavke i algoritmi obučavanja.

9. Neurobiološke analogije. Neurobiolozi gledaju na neuronske mreže kaoistraživački alat za interpretaciju neurobioloških fenomena, i obrnuto, inženjerigledaju na neurobiologiju kao oblast iz koje mogu da izvlače nove ideje zarešavanje kompleksnijih problema od onih koji se mogu rešiti klasičnimhardversko-softverskim tehnikama.

4. MODELI NEURONA

Model neurona čine tri bazična elementa:

• Skup sinaptičkih težina ijw . Pozitivne težine odgovaraju ekscitirajućimsinaptičkim vezama, a negativne inhibitornim.

• Sumator (linearni kombajner) – formira težinsku sumu ulaza.• Aktivaciona funkcija – limitira amplitudu izlaznog signala neurona. Tipično se

uzima normalizacija izlaza na interval [0,1] ili [-1,1].

Jednačine modela sa sl.4.1

∑=

=m

j jkjk xwu

1(4.1)

∑ a( . )

1k w

2k w

kmw

1 x

2 x

m x

k u k y

k θ

sumator aktivaciona

funkcija

prag

izlaz

ulazi

sinaptičke vez e

Sl.4.1. Nelinearni model neurona

)( k k k ua y θ −= (4.2)

Alternativni zapis





∑ =−=== .,1,)(, 00 k k k k jkjk w xva y xwv θ (4.3)

∑ a( . )

1k w

2k w

kmw

1 x

2 x

m x

k u k y

k θ

sumator aktivaciona

funkcija

prag

izlaz

ulazi

sinaptičke veze

fiksni ulaz

10 −= x

k k w θ =0

Sl.4.2. Nelinearni model neurona sa proširenim ulazom i prenosom praga u sinaptičkutežinu.

Ako stavimo da je k k bwa x == 00 ,1 , tada se k b naziva bajas, videti sl.3.3.

∑ a( . )

1k w

2k w

kmw

1 x

2 x

m x

k u k y

k θ

sumator aktivaciona

funkcija

prag

izlaz

ulazi

sinaptičke veze

fiksni ulaz

10 = x

k k bw =0

Sl.3.3. Nelinearni model neurona sa proširenim ulazom i bajasom u obliku sinaptičketežine.





4.1. TIPOVI AKTIVACIONIH FUNKCIJA

Razlikujemo sledeće najčešće tipove aktivacionih funkcija.Funkcija praga

<≥

=0,0

0,1)(

v

v

va

Sl.3.4. Aktivaciona funkcija tipa praga. Neuron sa ovom aktivacionom funkcijom je poznat kao Mek Kuloč – Pitasov model neurona (1943)

U delovima linearna

−≤−<<−+

≥=

2/1,0

2/12/1,2/1

2/1,1

)(v

vv

v

va

Sl.3.5. U delovima linearna aktivaciona funkcija

Sigmoidalna (logistička)

)exp(11)(

bvva

−+=

Sl.4.6. Sigmoidalna (logistička) aktivaciona funkcija. Parametar b je parametar nagiba.

Ukoliko se izlaz neurona normira na interval [-1,1], tada dobijamo


a(v)

1

0 v

a(v)

1

-1/2 1/2v

a(v)

v

1 1b

2b

21 bb >




<−=

≥

=0,10,0

0,1

)(v

v

v

va

Sl.4.7. Bipolarna aktivaciona funkcija tipa znaka (sgn(v))

)exp(1)exp(1

)2

tanh()(vvv

va−+

−−==

Sl.4.8. Bipolarna aktivaciona funkcija tipa tangensa hiperboličnog (sigmoidalnaaktivaciona funkcija)

4.2. ARHITEKTURE NEURONSKIH MREŽA

Jednoslojne neuronske mreže sa prostiranjem signala unapred (feed forward singlelayer neural network)


a(v)

1

0 v

-1

a(v)

v

1 1b

2b

21 bb >

-1

ulazni sloj izlazni sloj




Sl.4.9. Jednoslojni perceptron sa prostiranjem unapred

Višeslojne neuronske mreže sa prostiranjem signala unapred (feedforwardmultilayer neural network)

Sl.4.10. Višeslojna neuronska mreža sa prostiranjem unapred

Rekurentske neuronske mreže

Za razliku od višeslojnih neuronskih mreža, rekurentne neuronske mreže posedujuzatvorene petlje povratnih sprega.


ulazni sloj izlazni sloj

skriveni sloj

1− z 1− z 1− z




Sl.4.11. Rekurentna neuronska mreža bez sopstvenih povratnih sprega i skrivenih slojeva.Operator 1− z ima značenje jediničnog vremenskog kašnjenja.

Sl.4.12. Rekurentna neuronska mreže sa skrivenim slojem

5. PREZENTACIJA ZNANJA U NEURONSKIM MREŽAMA

Znanje o okruženju je generalno dvojako

1. Poznata znanja o okruženju, izražena kroz činjenice o tome šta je poznato – apriorno znanje.

2. Observacije (merenja) – dobijena od različitih senzora kao odraz stanja okruženja. Na osnovu ovih observacija se kreiraju obučavajući skupovi za obučavanjeneuronskih mreža. Svaki primer u njemu se sastoji od parova (ulaz, izlaz).


1− z

1− z

1− z

1− z

t

e

xt

t

e

x

t

te

x

t

t

ex

t

t

e

x

t

t

e

x

t

t

e

x

t

t

ex

t

t

e

xtte

xt

te

x

t

ulaz

izlaz




Obučavajući skupovi predstavljaju znanje o okruženju od interesa.U klasičnom procesiranju, prirodno je prvo kreirati matematički model observacija,izvršiti validaciju ovog modela na realnim podacima Neuronske mreže su direktno bazirane na podacima i daju implicitni model okruženja uzistovremeno obavljanje željenog procesiranja.

Znanje o okruženju u neuronskim mrežama je kodovano kroz konkretne vrednostislobodnih parametara dobijenih kroz obučavanje.Teško je bilo šta konkretno reći o reprezentaciji samog znanja unutar neuronske mreže.Postoje četiri pravila o reprezentaciji znanja u neuronskim mrežama, koji su opšte prirode.

Pravilo 1. Slični ulazi sličnih klasa prouzrokuju sličnu unutrašnju reprezentaciju.Pravilo 2. Primeri koji pripadaju različitim klasama treba da budu predstavljeni različitimunutrašnjim reprezentacijama.Pravilo 3. Apriorne informacije se ugradjuju direktno u neuronsku mrežu bez procesaobučavanja (specijalizacija strukture). Ovo se postiže ili

•

restrikcijom arhitekture (lokalne konekcije)• restrikcijom izbora sinaptičkihh težina (weight shearing – metoda zajedničkihsinaptičkih težina).

Specijalizacijom strukture se postiže:• manji broj slobodnih parametara• manji potrebni obučavajući skupovi• brže obučavanje• bolja generalizacija• ubrzana je prenos signala kroz restriktovanu neuronsku mrežu• cena realizacije je manja.

6. OBUČAVANJE NEURONSKIH MREŽA

Obučavanje je proces adaptiranja slobodnih parametara neuronske mreže, koji se obavljakroz stimulaciju okruženja u kome se neuronska mreža nalazi. Proces obučavanja jeklasifikovan u tri kategorije:

1. obučavanje sa učiteljem (nadzorom), (supervized learning)2. obučavanje sa podsticanjem (reinforcement learning)3. samoobučavanje (obučavanje bez učitelja), (unsupervised learning)





Neuronska mre ža

W

Generator signala greške

ulaz izlaz

signal greške željeni signal

yx

Sl.6.1.a Obučavanje sa učiteljem

Neuronska mre ža

W

Generator signala kritike

ulaz izlaz

signal kritike signal podsticanja

yx

Sl.6.1.b.Obučavanje sa podsticanjem

Sl.6.1.c.Samoobučavanje

Kod obučavanja sa učiteljem prisutan je obučavajući skup u formi parova )()( , ii d X ,gde je )( i X ulaz, a )( id željeni izlaz.


Neuronska mre ža

Wulaz izlaz

yx




Kod obučavanja sa podsticanjem, neuronska mreža dobija rudimentirane informacije otome kakav izlaz produkuje, najčešće samo u formi jednog bita informacije tipa dobar,loš. Analogno obučavanju sa učiteljem, ova forma obučavanja se može tretirati na istinačin s tim što umesto učitelja, koji egzaktno ukazuje kakav odziv neuronske mreže trebada bude, u ovom slučaju imamo “kritičara” koji daje grublju ocenu odziva neuronske

mreže.Samoobučavanje je karakterisano odsustvom bilo kakve povratne sprege od okruženja.

6.1. OPŠTA FORMA PRAVILA OBUČAVANJA

Generator signala

obučavanja

η

+

×

i y

id r

iW ∆

X

1 x

2 x

1−m x

1−=m x

•

•

•

•

•

i-ti neuron

1iw

2iw

1−miw

θ =imw

X

Sl.6.1.Opšta šema obučavanja i-tog neurona

niwwww T imiii ,...,2,1,),...,,( 21 == - vektor sinaptičkih težina i-tog neurona

)()( t xr t w i η =∆ , (6.1)

η - koeficijent obučavanja – pozitivna konstanta.

r – signal obučavanja, u opštem slučaju funkcija oblika ),,( iir d xw f r = , (6.2)

,)())(),(),(()()1( t xt d t xt w f t wt w iir ii η +=+ (6.3)

Na osnovu opšte jednačine (6.3), generisani su mnogi zakoni obučavanja, dominantnovariranjem načina generisanja signala obučavanja r.





6.2 HEBOVO UČENJE

Hebov princip učenja je jedan od najstarijih i najpoznatijih. Zasniva se na Hebovom

postulatu: Kada je akson neurona A dovoljno blizu neurona B, tako da ga može eksitovati, i ako seto ponavlja dovoljno često, dešavaju se takve promene i metabolički procesi u obe ćelijeda je efikasnost uticaja neurona A na neuron B povećana.

., x yw yr iii η =∆⇒= (6.4)

Hebovo učenje je u osnovi samoobučavajuće, budući da nije prisutan signal željenogizlaza. U skalarnoj formi (6.4), ima formu

m jni x yw jiij ,...,2,1,,...,2,1, ===∆ η (6.5)

Ako je ulazno-izlazni korelacioni član ji x y pozitivan, ijw se povećava (u suprotnomse smanjuje), usled čega se povećava izlaz. Stoga će ulaz koji se najčešće pojavljuje,imati najveći uticaj na promenu težina, i na kraju će produkovati najveći izlaz, što i jesteideja Hebovog postulata.

7. ADALINA (Adaptive Linear Element)

Neuron sa linearnom aktivacionom funkcijom se naziva linearni neuron. Neka je na

raspolaganju obučavajući skup ).(),...,,( )()()1()1( p p d xd x . (7.1)

Cilj obučavanja je izračunavanje težinaiw , koje zadovoljavaju relaciju

pk d xwm

j

k k j j ,...,2,1,

1

)()( ==∑=

(7.2)

i pri tome se minimizira kriterijum performansi

.)(21

)(21

)(21

)(1

2

1

)()(

1

2)()(

1

2)()( ∑ ∑∑∑= ===

−=−=−= p

k

m

j

k j j

k p

k

k T k p

k

k k xwd xW d yd w E (7.3)

Ekstremizaciju kriterijuma (7.3) možemo obaviti gradijentnom metodom. datom sa

)( w E w w∇=∆ η , (7.4)

odnosno





m j x xW d w E

w k j

p

k

k T k

j j ,...,2,1,)( )(

1

)()( =−=∂∂=∆ ∑

=η η (7.5)

Ukoliko se ove promene obavljaju individualno za svaki ulazni signal)( k x , nalazimo da je

,)( )()()( k j

k T k j x xW d w −=∆ η (7.6)

što je poznato Vidrov-Hofovo pravilo obučavanja. Ono se susreće i pod nazivom LMS pravilo (pravilo najmanjih kvadrata, Least Mean Square).Akoželimo da Vidrov-Hofovo pravilo obučavanja izvedemo iz opšte jednačineobučavanja, neophodno je staviti za signal učenja xW d yd r T −=−= . (7.7)Budući da je E(w) hiperparabolična površ u prostoru sinaptičkih težina w, sa jedinstvenim globalnim ekstremumom (minimumom), postupak konvergira ka njemu bezobzira na početne uslove, pod uslovom da jeη dovoljno malo.

Sl.7.1. Ilustracija Vidrov-Hofovog pravila obučavanja za jedan koeficijent sinaptičkihtežina w.

8. JEDNOSLOJNI PERCEPTRON

Prethodni rezultat se lako može generalisati na slučaj opšte nelinearne diferencijabilne

aktivacione funkcije a(). Razmotrimo strukturu jednoslojnog perceptrona.


min E

0w )(nw)1( +nw

we E

w∂

∂=∆ )(η

ww E

∂∂ )(

)(w E

w




-

-

željeni izlazizlaz

neuronske mreže

1 x

2 x

1−m x

1−=m x

11w

12w

11 −mw

mw1

1

n

nmw

1nw2nw

1e

ne

1d

nd

1 y

n y

Sl.8.1. Jednoslojni perceptron

( )nnmmm www θ θ θ === ...,,, 2211

m – broj ulazan – brj izlaza p – dužina obučavajućeg skupa

( ) ..,2,1,,,2,1,)()(

1

)()( pk nid xwa xW a y k i

k j

m

jij

k T i

k i ===

== ∑=

(8.1)

gde je

[ ]T

imiiT

i wwwW ,,, 21= (8.2)vektor težina pridružen neuronu i. Ako definišemo kriterijumsku funkciju kaomatematičko očekivanje greške na izlazu neuronske mreže, odnosno u slučaju konačnihobučavajućih skupova u obliku ukupne kvadratne greške na obučavajućem skupu,dobijamo

( ) [ ]∑ ∑∑ ∑∑∑∑= = = === =

−=−=−=

p

k

p

k

n

i

k j

m

jij

k i

n

i

k T i

k i

p

k

n

i

k i

k i xwad xwad yd w E

1 1 1

2

)(

1

)(

1

2)()(

1 1

2)( .21

)(21

21

)(

( )[ ] ( ) ,1

)()(')()(

∑= −−=∂∂ p

k

k

j

k

i

k

i

k

iij xnet anet ad w

E

(8.3)

)()( k T i

k i xW net = - ulaz u i-ti neuron kada je k-ti ulazni vektor prisutan.

( ) ( ).)(

)()('

k i

k ik

inet

net anet a

∂∂

= (8.4)

Korekcija ijw nakon prezentacije k-tog obučavajućeg uzorka je





[ ] ( ) ,)( )()(')()( k j

k i

k i

k i

ijij xnet anet ad

w E

w −=∂∂−=∆ η η (8.5)

i naziva se Delta pravilo obučavanja (delta learning rule), koje se iz opšteg pravila

obučavanja dobija stavljanjem

)()( ' xwa xwad r T i

T ii −= . (8.6)

Opisana procedura konvergira ka nekom od lokalnih ekstremuma. Budući da kriterijumobučavanja poseduje više lokalnih ekstremuma, gradijentna procedura (8.5) ne garantujeglobalni, već samo neki od lokalnih ekstremuma, zavisno od početnih uslova i parametaraobučavanj.

9. VIŠESLOJNI PERCEPTRON

Višeslojni perceptron (feed forward artificial neural networks FFANN), predstavlja jednuod najvažnijih neuronskih struktura, kako zbog opštosti preslikavanja koju potencijalnomože restaurisati, tako i zbog efikasnog algoritma obučavanja poznato pod nazivomalgoritam propagacije greške unazad (backpropagation algorithm).

9.2. HORNIK STINCHOMBE WHITE-OVA TEOREMA (1989)

HSW Teorema

Višeslojna neuronska mreža sa najmanje jednim skrivenim slojem i aktivacionom funkcijom koja poseduje sledeća svojstva

1. 1)(lim =∞→

λ λ

a

2. )1(0)(lim −=−∞→

λ λ

a

3. )( λ a je neopadajuća funkcija

aproksimira bilo koju Borel merljivu funkciju na kompaktnim skupovima, sa proizvoljnom tačnošću, pod uslovom da je na raspolaganju dovoljan broj neurona u skrivenom sloju.

Borel merljive funkcije na kompaktnim skupovima obuhvataju sve neprekidne i udelovima neprekidne funkcije (sa konačno ili prebrojivo mnogo diskontinuiteta naskupovima mere nula).





Odavde sledi da je FFANN univerzalni aproksimator. Stoga neuspeh FFANN da u nekomkonkretnom slučaju restauriše preslikavanje implicitno zadato obučavajućim skupom, potiče ili od neadekvatnog izbora arhitekture, parametara obučavanja, obučavajućihskupova i drugih faktora, ali ne i od samog osnovnog restauratorskog principa FFANN.Za mnoge praktične probleme, pokazuje se da uprkos HSV teoremi jedan skriveni sloj

nije dovoljan, budući da zahteva neprihvatljivo velik broj neurona. raktično bolji rezultatise često dobijaju razmeštanjem manjeg broja neurona u dva ili više skrivenih slojeva.

9.3. ALGORITAM PROPAGACIJE GREŠKE UNAZAD Ovaj algoritam obuhvata dve faze:

1. ulazni vektor )( k x propagira od ulaznog ka izlaznom sloju, produkujući izlaz)( k y .

2. sinal greške, zatim u drugoj fazi propagira unazad od izlaznog ka ulaznom sloju ucilju korigovanja težina ijw .

U cilju ilustracije rada algoritma propagacije greške unazad (BP algoriram) razmotrimovišeslojni perceptron tipa m – l – n sa jednim skrivenim slojem.

1 x m x j x

1 yi y n y

qqw1

iqwnqw

1qvqjv qmv

Sl.9.1. Višeslojni perceptron sa jednim skrivenim slojem Neka je neuronskoj mreži sa sl.9.1 prezentovan par (x,d) iz zadatog obučavajućeg skupa.Uvedimo sledeće oznake

qnet - ulazni signal u neuron q u skrivenom sloju,





,1

j

m

jqjq xvnet ∑

==

q z - izlazni signal neurona q

( )

== ∑=

m

j jqjqq xvanet a z

1

Ulaz u i-ti neuron u izlaznom sloju dat je sa

∑ ∑ ∑= = =

==

l

q

l

q

m

j jqjiqqiqi xvaw z wnet

1 1 1.

Izlazi neurona u izlaznom sloju dati su sa

( ) .1 11

=

== ∑ ∑∑= ==

l

q

m

j jqjiqq

l

qiqii xvawa z wanet a y

Ovim je opisana prva faza, propagacija ulaynog signala. Kriterijumska funkcijaobučavanja ima oblik

( ) ( )[ ]∑ ∑ ∑ ∑= = = =

−=−=−=

n

i

n

k

n

i

l

qqiqiiiii z wad net ad yd w E

1 1 1

2

1

22 .2

1

2

1

2

1)(

U skladu sa gradijentnim postupkom ekstremizacije, korekcija težina izmedju skrivenog iizlaznog sloja je data sa

iqiq w

E w

∂

∂−=∆ η ,

odnosno uzimajući u obzir relaciju o prostiranju unapred i lančano pravilo parcijalnih

izvoda za iqw E ∂∂ / , imamo[ ] ( )[ ][ ] ,0 qiqiii

iq

i

i

i

iiq z z net a yd

wnet

net y

y E

w η δ η η ∆=′−=∂

∂∂∂

∂∂−=∆

gde je sa i0δ označen signal greške

[ ] ( )[ ] ,0 iiii

i

iii net a yd

net y

y E

net E ′−=

∂∂

∂∂−=

∂∂−=δ

gde je inet ulaz u neuron i u izlaznom sloju, dok je

( ) ( )i

ii net

net anet a

∂∂=′ .

Rezultat je u potpunosti identičan Delta pravilu za jednoslojni perceptron čiji je ulazq z jednak izlazu neurona iz skrivenog sloja.Korekcija težina izmedju neurona j u ulaznom i ineurona q u skrivenom sloju je data sa

( ) ( )[ ] ( )∑=

′′−=∂

∂∂∂

∂∂−=

∂∂

∂∂−=∂=

n

i qiqiii

qj

q

q

q

qqj

q

qqjqj xnet awnet a yd

v

net

net

z

z E

v

net

net E

v E

v1

η η η η

Korišćenjem izraza za signal greškei0δ , dobijamo





[ ] ( ) ,1

0∑=

=′=∆n

i jhq jqiqiqj x xnet awv η δ δ η

gde je hqδ signal greške za neuron q u skrivenom sloju i definiše se kao

( ) ,1

0 iq

n

i

iq

q

q

qq

hq wnet a

net

z

z

E

net

E ∑=

′=∂

∂

∂

∂−=∂

∂−= δ δ

gde je qnet ulaz u neuron q.Izraz za hq

δ pokazuje da se ovaj signal greške za neuron q u skrivenom sloju dobija propagiranjem unazad od izlaznog sloja signala greškei0

δ pridruženih izlaznimneuronima. Ovo svojstvo pokazuje važnu lokalnu osobinu algoritma, naime, da bi seizračunala korekcija koeficijenata zadate grane potrebne su samo veličine (signali) na obakraja ove grane.Ova razmatranja se lako mogu proširiti na perceptron sa proizvoljnim brojem slojeva,sukcesivnom primenom pravilom ulančavanja za diferenciranje. U opštem slučaju, za proizvoljan broj slojeva, pravilo korekcije težina u algoritmu propagacije greške unazadima formu

jinput ioutput jiij x xw −−==∆ ηδ ηδ ,

gde se „output-i“ i „input-j“ odnose na dva kraja konekcije neurona j ka neuronu i.Sumarno, algoritam propagacije greške unazad se može opisati kroz sledeće korake. Neka višeslojni perceptron ima Q slojeva, q=1,2,...,Q i neka je

iq net - net ulaz za i-ti neuron u q-tom sloju

iq y - izlaz neurona i u q-tom sloju.

Neka postoji m ulaznih i n izlaznih čvorova. Nekaijq w označava težinu veze izmedju j

q y1−i i

q y .ULAZ: Skup parova( ) pk d x k k ,...,2,1,, )()( =KORAK 0: (Inicijalizacija) Izabrati 0>η i max E (maksimalna prihvatljivagreška).Inicijalizovati sve sinaptičke težine malim slučajnim vrednostima. E=0, k=1.KORAK 1. Primeniri k-ti obučavajući vektor na ulaz (q=1):

)(1 k iii

q x y y == , za sve i.KORAK 2. (Propagacija unapred). Propagirati signal unapred do izlaza po formuli

( ) qi ywanet a y j

jq

ijq

iq

iq ,1

∀

== ∑ −

sve dok se ne dobije izlaz iQ y .

KORAK 3: (Računanje izlazne greške iQ δ )

( ) E yd E

n

ii

Qk

i +−= ∑=

2

1

)(

2

1

,( ) ( )i

Qi

Qk ii

Q net a yd y ′−= )( .KORAK 4: (Propagacija greške unazad). Propagacija greške unazad u cilju korigovanjatežina i sračunavanja greške i

q δ 1− za prethodni sloj:,,1

ijqolld

ijqnew

ijq

jq

iq

ijq www yw ∆+==∆ −δ η





( )∑ −=′= −−

j j

q ji

qi

qi

q QQq zawnet a .2,...,1,,11 δ δ

KORAK 5. Provera da li su svi uzorci iz obučavajućeg skupa jednom prošli proceduru.Ako je k<p, tada je k=k+1 i prelazi se na korak 1. U suprotnom prelazi se na korak 6.

KORAK 6. (Provera ukupne greške). Da li je ukupna akumulirana greška prihvatljiva?Ako je max E E < , prekida se proces obuke, u suprotnom E=0, k=1, preći na korak 1.

END algoritam propagacije greške unazad.

Ova varijanta algoritma propagacije greške unazad je tzv. inkrementalna, tj. težine sekoriguju nakon predstavljanja svakog uzorka iz obučavajućeg skupa. Alternativni pristup je tzv. blokovski (batch – mod training) algoritam, po kome se težine menjaju nakon štosu svi uzorci u obučavajućem skupu prezentovani.

9.4 PROBLEM KONVERGENCIJEPovršina na kojoj se traži ekstremum (error surface – površina greške) nije

deterministička. Algoritam ustvari pripada klasi algoritama stohastičkeaproksimacije. Za površinu greške se znaju tri bazična svojstva:

• veliki broj lokalnih minimuma, budući da postoji veliki broj kombinatornih permutacija težina koje daju isti izlaz mreže.

• postojanje lokalnih minimuma iznad nivoa globalnog minimuma• postojanje višestrukih platoa sa malim nagibima. Ovo je direktna posledica

zasićenja aktivacionih funkcija u domenu velikih signala, kada su izlazineosetljivi na male promene težina. Postojanje ovakvih delova površine greške prouzrokuje sporu konvergenciju algoritma propagacije greške unazad.

9.5 FAKTORI KOJI UTIČU NA OBUČAVANJE ALGORITMAPROPAGACIJE GREŠKE UNAZAD

9.5.1.Inicijalizacija težina

Početne vrednosti izuzetno utiču na krajnji rezultat obučavanja. Tipična inicijalizacija jemalim slučajnim vrednostima. Velike vrednosti vode u zasićenje i zaglavljivanje ulokalnim ekstremumima bliskim startnoj poziciji. Praktična preporuka zainicijalizaciju je izbor početnih težina u opsegu−

ii k k

3,

3 , gde je ik broj

ulaznih konekcija u neuron i.9.5.2.Koeficijent obučavanja. (learning constant)





Velike vrednost zaη mogu da ubrzaju konvergenciju, ali i da dovedu do premašaja cilja,dok isuviše male vrednosti imaju suprotan efekat. Dosadašnja praksa pokazuje da seη može kretati, zavisno od konkretnog problema u opsegu od 0.001 do 10. Dobra strategija je adaptivna promena zaη , npr. po sledećem zakonu

>∆−<∆

=∆a s l uč l u č ao s t au

E b

n ok o n z i s t E a

l i m,0

0,

,0,

µ η , a,b>0

Konzistentno, može da ima značenje ili npr. K uzastopnih koraka ili težinsko pokretnousrednjavanje E ∆ .

9.5.3.Funkcija cilja

Kvadratna funkcija nije jedini mogući izbor. promenom ove funkcije menja se samosignal greške i0

δ u izlaznom sloju, dok ostale jednačine ostaju nepromenjene. Mogućiizbori funkcije greške su p L norma

( ) ,1,1 ∞<≤−= ∑ p yd p

E i

pii

Čebiševljeva normaii

i yd L −=

∞ sup .9.5.4.Momentum.

Jedan od načina da se konstanta obučavanja poveća, a da ne dodje do divergentnogoscilovanja je dodavanje tzv. momentum člana. Momentum je u stvari dodatni inercijalničlan koji omogućava odvijanje procesa obučavanja u pravcu „srednje sile na dole“. Ovose može ostvariti uključivanjem prethodnih promena težina u trenutnu promenu, npr. nasledeći način

[ ]1,0,,)1()()( ∈−∆+∇−=∆ α α η t wt E t w ,gde jeα momentum parametar (uobičajena praktična vrednost je 0.9).

Na sl.9.2. prikazana je analiza uticaja momentuma na proces korekcije težina neuronskemreže u toku obučavanja. Elipse prikazuju izohipse hipotetičke površine greške (error surface) kvadratnog tia. Primer A A ′ ilustruje slučaj dobrog usmerenja vektorakorekcije težina. Korekcija momentumom u ovom slučaju poboljšava usmerenjekorekcije težina. Priner B B ′ ilustruje slučaj pogrešno usmerenog vektora korekcije





težina (prebačaj). Korekcija momentumom preusmerava ovaj vektor u dobrom pravcu.Ovi primeri pokazuju da momentup tipično ubrzava konvergenciju.

Sl.9.2. Uticaj momentuma na konvergenciju težina u toku obučavanja

9.5.5.Pravila korekcije.

Do sada analizirano pravilo korekcije težina se zasnivalo na najjednostavnijem postupkugradijentnog spusta. Dobro razvijena teorija optimizacije nudi niz daleko razvijenijih iefikasnijih tehnika. Prvo poboljšanje se može učiniti uključivanjm viših redovakriterijumske funkcije. Ako( )w E razvijemo u tajlorov red dobijamo

+−−+∇−+= ))(()(2

1)()()()( 00000

T T T www H www E www E w E

gde je.,)()(

22

jiij ww

E H w E w H ∂∂

∂=∇=

Da bi smo našli minimum od E(w), stavljamo 0)( =∇ w E , odnosno.0))(()()( 000 =+−+∇=∇ www H w E w E

Ako zanemarimo članove reda većeg od dva u gornjem razvoju, dobijamo,)()( 0

10 w E w H ww ∇−= −

ili u iterativnoj proceduri,)()( )()(1)()1( k k k k w E w H ww ∇−= −+


A

A′( )t w ′∆α ( )t w ′∆

( )1+′∇− t E η

B

B′( )1+∇− t E η

( )t w∆α

( )t w∆

( ) ( )t wt E ∆++∇− α η 1

( ) ( )t wt E ∆++′∇− α η 1

momentumabez jatrajektori

momentumom saijatrajektora




što je poznat Njutnov metod korekcije težina, za koga se dokazuje da u slučajukonveksnih kriterijumskih funkcija E, konvergira kvadratno ka rešenju. Medjutim i dalje procedura ima niz nedostataka:

• računarska kompleksnost• zahteva dobro početno pogadjanje• za ne konveksne kriterijumske funkcije može da konvergira ka lokalnomekstremumu i sedlastim tačkama.

Računarski relaksirana metoda pogodna za implementaciju je npr. kvazi Njutnovametoda ili algoritam konjugovanih pravaca.

9.5.6.Obučavajući skup i generalizacija.

Algoritam propagacije greške umazad ima dobra svojstva generalizacije. Neuronskamreža dobro generalizuje ukoliko daje dobre interpolacije za nove ulaze, koji nisu bili prisutni u postupku obučavanja. Neuronska mreža sa isuviše slobodnih parametara zazadati obučavajući skup može biti dobro obučena, sa velikom verovatnoćom loše

generalizacije. Ovaj fenomen se naziva overfitting. Ukoliko medjutim mreža ima isuvišemalo slobodnih parametara, nije u stanju da se obuči na obučavajućem skupu, a samimtim ima loše performanse i na test skupu ( skup za testiranje obuhvata primere koji ne pripadaju obučavajućem skupu). Budući da generalizacija predstavlja važno svojstvo,razvijeno je više procedura za njeno poboljšanje.

a.Smanjivanje osetljivosti mreže. Da bi neuronska mreža posedovala dobra svojstvageneralizacije, potrebno je da male promene ulaznih signala ne izazivaju velike promenena izlazu neuronske mreže. Jedan od mogućih načina za poboljšanje generalizacijedirektnom primenom ovog principa je proširivanje obučavajućeg skupa varijacijamaulaznih signala, recimo dodavanjem šuma niskog nivoa oko svakog elementa

obučavajućeg skupa. Formalno, obučavajući skup( ) ( .,,1,,1,,, pim jd x sa zamenjuje sed x i jiii ==+ξ

Druga mogućnost postizanja sličnog efekta smanjivanja osetljivosti mreže u odnosu naulazne signale je dodavanje novog člana standardnoj kriterijumskoj funkciji oblika

,21

22

2

2

1

∂∂++

∂∂+

∂∂=

n

f f f b

x

E

x

E

x

E E

gde je f E funkcional greške u standardnom algoritmu obučavanja. Razlog zauključivanje b E je da njegova minimizacija u stvari znači, prema gornjoj definiciji,malu osetljivost f E na varijacije ulaza, što je i bio cilj.

b .Regularizacija. Ovaj metod se svodi na proširivanje kriterijumske funkcije tzv.regularizacionim članom

+= ν E E ~

gde je E standardni kriterijum,ν je parametar kojim se kontroliše uticaj dodatnog članaΩ , koji je u direktnoj vezi sa kompleksnošću neuronske mreže. Na taj način,





minimizacijom ukupnog kriterijuma E ~ postiže se uslovna ekstremizacija standardnog

kriterijuma E uz uslov minimalne kompleksnosti neuronske mreže, koja je osnovni uzrok overfittinga. Najčešće korišćen oblik regularizacionog člana je

∑=Ωi

iw 2

21

,

poznat pod nazivom weight decay – smanjivanje težina, pri čemu se suma odnosi na svetežine i bajase u mreži. Praksa pokazuje da se na ovaj način postiže značajno poboljšanjegeneralizacije. Moguće heurističko objašnjenje ovog efekta se svodi na sledećerezonovanje. Ukoliko su težine mreže velike, aktivacije neurona su u predelu zasićenja,dakle nelinearnih oblasti koje upravo prouzrokuju kompleksna preslikavanja mreže, iobrnuto, za male vrednosti težina aktivacije su u predelu linearnosti aktivacionih funkcijai kompleksnost mreže je mala, čime se smanjuje verovatnoća overfitinga za fiksiranudužinu obučavajućeg skupa.

c .Rano zaustavljanje(early stopping).

Tokom tipične procedure obučavanja greška obučavanja (vrednost kriterijumskefunkcije) po pravilu opada sa brojem iteracija obučavanja. Medjutim greška merena naskupu podataka nezavisnih od obučavajućeg skupa (test ili validacioni skup) po praviluopada do jedne odredjene vrednosti iteracia, a zatim počinje da raste. Ovaj rast je vezanza pojavu overfittinga, pa je stoga celishodno proceduru obučavanja zaustaviti u toj tački,iako kriterijumska funkcija na obučavajućem skupu i dalje opada. Otuda naziv ovemetode – rano zaustavljanje.





Sl.9.3. Tipični oblik zavisnosti greške obučavanja i validacije

d. Kresanje (Prunning)

Budući da je generalizacija vezana za adekvatan odnos izmedju broja slobodnih parametara (bogatstvo arhitekture) i složenosti modelovane pojave (struktura i dužinaobučavajućeg skupa), ideja kresanja se temelji na principu ostvarivanja što boljih performansi sa što siromašnijom arhitekturom. Operativno se ovo može postići sledećomklasom procedura:

korak.1. Izabrati početnu bogatu arhitekturu neuronske mreže. Obučiti zatim. neuronskumrežu na obučavajućem skupu i testirati na validacionom skupu. Neka su vrednosti ovihkriterijuma obuka E i valid E .korak.2. Saobrazno nekom od unapred usvojenih kriterijuma značajnosti parametra,izračunati značajnost svih parametara obučene neuronske mreže i sortirati ih po rastućimvrednostima, tako da se na prvom mestu nalazi najneznačajniji parametar.

korak.3. Izbaciti granu lil bajas koji odgovara najneznačajnijem parametru. Na ovaj načinsmo smanjili složenost arhitekture i broj slobodnih parametara

Elektrotehnički fakulktet u Beogradu

0 2 6 8 10 12 14 16 180.2

0.4

0.6

0.8

1

1.2

1.4

1.6

Broj iteracija obučavanja

Gre

ške

obu

kei

vali

dac

ije

Greška validacije

Greška obuke

Trenutak obucav anja Minimalna greška validacije

25




korak.4. Za novu arhitekturu izvršiti novu slučajnu inicijalizaciju mreže i novoobučavanje. Izračunati ponovovalid E ′ . Ako je valid valid E E ≤′ , staviti da je valid valid E E ′= i preći na korak 2., u suprotnom zaustaviti proceduru.

Nakon završetka rada ovog algoritma, posedovaćemo neuronsku mrežu najsiromašnijearhitekture i minimalne vrednosti kriterijumske funkcije na validacionom skupu, što i jeste bio cilj.

Postavlja se pitanje izbora kriterijuma značajnosti. Jedan od češće korišćenih je tzv.kriterijum oštećenja mozga (brain demage), po kome je značajniji onaj parametar za koga je vezana veća promena kriterijumske funkcije nakon njegovog uklanjanja. Pored ovogkriterijuma i njegovih različitih varijanti, razvijeni su i drugi, vezani prevashodno zarazličite statističke testove značajnosti nelinearnih parametarskih modela.

U nardnoj seriji slika dat je primer izbora arhitekture sa dobrim generalizacionimsvojstvima, u problemu predvidjanja broja sunčevih pega.













9.5.7.Broj skrivenih neurona

Pitanje broja neurona u skrivenom sloju je fundamentalno pitanje koje se nezaobilazno javlja gotovo u svakoj primeni višeslojnog perceptrona. Egzaktnu analizu je teškosprovesti, budući da je preslikavanje koje ostvaruje višeslojni perceptron veomakomleksno, kao i usled stohastičke prirode većine algoritama obučavanja. Praktične preporuke se svode na princip: probaj sa početnim brojem neurona u skrivenom slojuznatno manjim od dimenzije ulaznog sloja. Ako je obučavanje zadovoljavajuće, pokušatisa daljnjim smanjivanjem, u suprotnom, inkrementalno povećavati njihov broj. postoje iodredjene analitički zasnovane analize o ovom broju. Ekvivalentrirajmo pitanjeodgovarajućeg broja neurona u sk rivenom sloju sa pitanjem koliko je tih neurona potrebno da bi se u m dimenzionom ulaznom prostoru formiralo M disjunktnih oblasti nakojima mreža ima konstantne izlaze, razdeljene medjusobno hiperravnima. Ako taj broj

obeležimo sa m N , tada je u važnosti.,0,1

0∑

=<=

≤≤+

m

jm

mmm j N za

j

N je gde

j

N M N

Maksimalan broj linearno separabilnih oblasti upotrebomm N skrivenih neurona u m-dimenzionom prostoru, maxM je dat sa

( ) ( ) ( ).,

!11

!21

10

max m N zam

j N N N N N N

j

N M m

mmmmmm

m

j

m >+−−++−++=

=∑

=

U slučaju m N m ≤ , važi ,2maxm N M = odnosno max2log M N m = . Podsetimo se da je

broj disjunktnih particija u izlazno prostoru neuronske mreže u direktnoj vezi sa

maksimalnim brojem koncepata (klasa) koje ta mreža može da prepozna.

10.Literatura

[1] C.M. Bishop, Neural Networks for Pattern Recognition , Oxford university press,2000.[2] C.T. Lin, C.S.George Lee, Neural Fuzzy Systems , Prentice Hall, 1996.

Documents

NEURONSKE MREZE_predavanja