Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Verona - 10 Giugno 2008
(Seminario integrativo del corso di MMB,
titolare M. Squassina, A.A. 2007/2008)
Memoria associativae dinamica del riconoscimento:
introduzione al modello di Hopfield
Antonio Ponno∗ †
Universita degli Studi di Padova
Dipartimento di Matematica Pura ed Applicata
∗E-mail: [email protected]†Homepage: http://www.math.unipd.it/∼ponno
MINI - ESPERIMENTO
SULLA DINAMICA
DEL RICONOSCIMENTO
������������
��������������������������������������������
������������
����������������������
• Neuroni: struttura e funzionamento
• Un modello di rete neurale
• Memoria associativa
il problema degli attrattori
Il modello di Hopfield
• Dinamica del riconoscimento
Il Neurone
ASSONE
SINAPSI(ELABORAZIONE)
SOMA
INPUT
OUTPUT
DENDRITI
La d.d.p. di membrana di un neurone a
riposo e
∆Vr = V intr − V est
r ≃ −70mV ;
pompa sodio/potassio: eccesso di ioni Na+
all’esterno e ioni K+ all’interno. Quando
e stimolato il neurone puo depolarizzar-
si e il potenziale di membrana raggiunge
una intensita di picco ∆Va ≃ +40mV (po-
tenziale d’azione). Si genera cosı un’onda
di depolarizzazione (impulso elettrico) che
si propaga (1-100 m/s) lungo l’assone e
si ramifica attraverso le sinapsi (giunzio-
ni chimiche) raggiungendo i dendriti o il
soma di altri neuroni.
Il neurone si depolarizza se una opportuna
somma pesata dei potenziali postsinaptici
(∆Vps ≃ 1mV da ogni neurone presinap-
tico) che lo raggiungono supera una so-
glia specifica (circa 10 mV), altrimenti non
risponde allo stimolo.
Vps∆
Vps∆
aV∆Vps∆
giunzionesinaptica
Regionepre−sinaptica
Regionepost−sinaptica
Corteccia cerebrale: circa 1011 neuroni sud-
divisi in circa 107 “microreti” fortemen-
te connesse, ognuna contenente circa 104
neuroni ed avente dimensione lineare di
1mm. Ogni neurone della microrete rice-
ve da molti dei neuroni componenti. La
connettivita tra microreti e minore.
Tra lo “sparo” di un neurone e la rice-
zione del segnale da parte dei neuroni ad
esso connessi in uscita passa un intervallo
di tempo τ di qualche millisecondo, duran-
te il quale il neurone non puo operare di
nuovo: e il periodo refrattario (assoluto).
Dunque l’attivita cerebrale ha frequenza
limitata (meno di 1 KHz) e la dinamica
neuronale e a tempo discreto (multipli di
τ).
Topologia delle connessioni
• E conveniente introdurre la cosı detta
matrice di adiacenza del grafo di rete:
εij = 1 se j afferisce ad i, altrimenti
εij = 0; in particolare εii = 0.
• La matrice ε definisce completamen-
te la topologia delle connessioni. Ad
esempio essa individua le due compo-
nenti pre- e post-sinaptica:
Cpre(i) = {j ∈ {1, . . . , N} : εij = 1}
e
Cpost(i) = {j ∈ {1, . . . , N} : εji = 1} .
• Il neurone i riceve segnali in ingresso
dai neuroni in Cpre(i) e quando e attivo
invia un segnale di uscita ai neuroni di
Cpost(i).
Esempio di rete
26=64 configurazioni possibilirete a 6 neuroni
asimmetrica
ε61= ε65=1ε54=1
ε43= ε45= ε46=1ε36=1
ε21= ε23= ε26=1ε12= ε16=1
1
2
5
3
4
6
Modellizzazione
Introduciamo le seguenti definizioni
• ∆Vi(t): la d.d.p. (tra interno ed ester-
no) del neurone i-esimo al tempo t.
∆Vi puo assumere solo due valori: ∆Va
(depolarizzazione) o ∆Vr (riposo).
• ∆vi(t) d.d.p. post-sinaptica del neu-
rone i al tempo t; ∆vi puo assume-
re due valori: 0 (i a riposo) oppure
∆Vps ≃ 1mV (i attivo).
• hi(∆v1, . . . ,∆vN): funzione di integra-
zione sinaptica del neurone i (o “cam-
po locale” i-esimo), differenziabile vi-
cino a (0, . . . ,0) e t.c. hi(0, . . . ,0) =
−Si < 0.
Per i = 1, . . . , N si ha
∆Vi(t + τ)−∆Vr = (∆Va −∆Vr) Θ(hi(t))
dove Θ(x) = 1 se x > 0 e Θ(x) = 0 se
x ≤ 0. Se hi(t) ≤ 0 ∆Vi(t + τ) = ∆Vr e il
neurone non risponde allo stimolo, mentre
se hi(t) > 0 allora ∆Vi(t + τ) = ∆Va e il
neurone“spara”.
Le d.d.p. post-sinaptiche ∆vi sono piccole,
quindi
hi(∆v1, . . . ,∆vN) ≃ −Si +∑
j
Kij∆vj
a meno di un resto O(∑
j ∆v2j ) (Taylor).
Le Kij sono le componenti della matrice
sinaptica. Dalle ipotesi fatte sulle connes-
sioni
Kij ∝ εij :
hi dipende da ∆vj sole se j ∈ Cpre(i).
Introduciamo variabili dicotomiche simme-
triche, definite per ogni i = 1, . . . , N da
∆Vi(t) − ∆Vr ≡ (∆Va − ∆Vr)σi(t) + 1
2,
∆vi(t) ≡ ∆Vpsσi(t) + 1
2,
σi(t) = 2∆Vi(t) − ∆Vr
∆Va − ∆Vr− 1 =
= 2∆vi(t)
∆Vps− 1 .
• σi(t) = +1 se i e attivo (∆Vi = ∆Va,
∆vi = ∆Vps);
• σi(t) = −1 se i e a riposo (∆Vi = ∆Vr,
∆vi = 0).
In termini di variabili di spin σi = ±1 le
equazioni del modello diventano
σi(t + τ) = sign(hi(t))
hi(t) =∑
j
Jijσj(t) − si
per i = 1, . . . , N , dove sign(x) = +1 se
x > 0 e sign(x) = −1 se x ≤ 0.
Jij ≡1
2Kij∆Vps
si ≡ Si −∑
j
Jij
ridefiniscono matrice sinaptica e soglia ri-
spettivamente.
Una semplificazione ragionevole (?):
si = 0 cioe Si =1
2
∑
j
Kij∆Vps :
la soglia e meta di quello che il neurone ri-
ceve se i suoi afferenti (pre-sinaptici) sono
tutti attivi.
Il modello dinamico di rete e descritto da
σi(t + τ) = sign
∑
j
Jijσj(t)
per i = 1, . . . , N . Se e nota la matrice si-
naptica Jij (N×N) di ogni neurone i, resta
definita una mappa
S : {−1,+1}N −→ {−1,+1}N : σ 7→ S[σ]
Lo stato della rete al tempo nτ e dato
dalla iterata n-esima di S calcolata nello
stato iniziale σ(0):
σ(nτ) = Sn[σ(0)] ≡
n volte︷ ︸︸ ︷
(S ◦ · · · ◦ S)[σ(0)]
Lo spazio degli stati {−1,+1}N puo essere
visualizzato come l’insieme dei vertici di
un cubo N-dimensionale di spigolo lungo
2. Ad ogni iterata, ovvero ad ogni passo
temporale (τ) si salta da un vertice ad un
altro.
Per l’esempio di rete a 6 neuroni (v. figu-
ra):
σ1(t + τ) = sign[J12σ2(t) + J16σ6(t)]
σ2(t + τ) = sign[J21σ1(t) + J23σ3(t) +
+J26σ6(t)]
σ3(t + τ) = sign[J36σ6(t)]
σ4(t + τ) = sign[J43σ3(t) + J45σ5(t) +
+J46σ6(t)]
σ5(t + τ) = sign[J54σ4(t)]
σ6(t + τ) = sign[J61σ1(t) + J65σ5(t)]
Memoria ed attrattori
Problema Il modello deve includere unamemoria contenente oggetti (parole, im-magini, suoni...), ogni oggetto corrispon-dente ad un determinato stato di attivitadella rete:
un oggetto = stringa di N bit = ξ1, . . . , ξN= una configurazione della rete;
ξi = ±1: neurone i-esimo attivo o a riposo
Evidentemente matrice sinaptica e memo-ria devono essere legate. Regola di Hebb:
Jij =εij
N
p∑
µ=1
ξ(µ)i ξ
(µ)j =
εij
N
p∑
µ=1
[
ξ(µ)(
ξ(µ))T
]
ij
Dunque p stringhe ξ(µ) = ξ(µ)1 , . . . , ξ
(µ)N (µ =
1, . . . , p) di N bit ciascuna (oggetti in me-moria) e una assegnata matrice di adia-cenza (struttura delle connessioni) deter-minano la matrice sinaptica: questo e il
modello di Hopfield.
Le stringhe ξ(µ) che determinano la matri-
ce sinaptica sono attrattori per il sistema
dinamico se
σ(nτ)n→∞−→ ξ(ν)
per qualche ν = 1, . . . , p che dipende dallo
stato iniziale σ(0) della rete. In questo
caso parliamo di memoria associativa:
ad una classe di stati iniziali di attivita vie-
ne associato (dalla dinamica) uno stesso
stato di attivita asintotico della rete, sta-
to che quindi rappresenta la classe di dati
di partenza.
Il modello matematicamente piu semplice
da trattare e quello in cui ξ(µ)i e ξ
(ν)j sono
variabili aleatorie indipendenti (per i 6= j
e/o µ 6= ν) e suscettibili di assumere i va-
lori ±1 con la stessa probabilita a priori.
In questo caso il riconoscimento ha ovvio
carattere probabilistico.
Perche la regola di Hebb?
Vogliamo che un dato pattern ξ risulti pun-
to fisso di S: S[ξ] = ξ, ovvero
ξi = sign
∑
j
Jijξj
. (⋆)
Se Jij = cεijξiξj (un solo pattern memoriz-
zato), con c > 0, allora
∑
j
Jijξj =∑
j
[cεijξiξj]ξj =
∑
j
εij
cξi
= card [Cpre(i)] cξi ,
di segno ξi, cioe la (⋆), se esiste almeno
un neurone presinaptico.
Quando si memorizzano piu pattern e la
matrice J e somma di proiettori, ci si aspet-
ta l’esistenza di punti fissi in senso proba-
bilistico.
Esistenza di punti fissi
Proposizione 1
Per il modello di Hopfield con p patterns
di memoria aleatori ξ(µ), µ = 1, . . . , p, e
matrice di adiacenza assegnata, vale, per
ogni i = 1, . . . , N e ogni µ = 1, . . . , p, la
stima
P
ξ(µ)i = sign
∑
j
Jijξ(µ)j
≥ 1 −p − 1
Ai,
dove Ai = card [Cpre(i)].
Dimostrazione∑
j
Jijξ(µ)j =
Ai
Nξ(µ)i + Ri ,
in cui il “resto” Ri ha valore di aspettazio-
ne nullo:
E(Ri) = 0 .
Osserviamo inoltre che se |Ri| < Ai/N , al-
lora sign
(∑
j Jijξ(µ)j
)
= ξ(µ)i .
Quindi:
P
ξ(µ)i = sign
∑
j
Jijξ(µ)j
=
= P
[
ξ(µ)i = sign
(Ai
Nξ(µ)i + Ri
)]
≥
≥ P
[
|Ri| <Ai
N
]
=
= 1 − P
[
|Ri| ≥Ai
N
]
≥
≥ 1 −E(R2
i )
(Ai/N)2= 1 −
p − 1
Ai.
Osservazione: se Ai ∝ N e p/N → 0 quan-
do N → +∞, si dimostra che
P
[
ξ(µ) = S
[
ξ(µ)]]
→ 1
per N → +∞, per ogni pattern µ.
Dinamica I
Proposizione 2
Se Jij = Jji (cioe εij = εji) allora σ(nτ) =
Sn[σ(0)] tende, per n → ∞, ad un punto
fisso di S oppure ad un ciclo binario (orbita
periodica di periodo 2τ).
Dimostrazione Definiamo, per t ≥ τ ,
E(t) ≡ −N∑
i,j=1
Jijσi(t)σj(t − τ)
E(t) ≥ −N(N − 1) supij{|Jij|}. Inoltre
E(t + τ) − E(t) =
−∑
i
[σi(t + τ) − σi(t − τ)]∑
j( 6=i)
Jijσj(t) =
= −∑
i
[σi(t + τ) − σi(t − τ)]hi(t) ≤ 0
e il segno di uguaglianza vale se e solo se
σi(t + τ) = σi(t − τ) per ogni i.
Dinamica II(Riconoscimento ad un passo)
Proposizione 3
Sia σi(0) = ηiξ(µ)i (i = 1, . . . , N), dove ηi =
−1 con probabilita q < 0.5 ed ηi = 1 con
probabilita 1 − q (meno del 50% dei bit
di partenza sbagliati rispetto alla stringa
µ). Se Ai ∝ N per ogni i e p/N → 0 per
N → +∞, allora
P
[
S [σ(0)] = ξ(µ)]
→ 1
per N → +∞.
• D. J. Amit, Modellizzare le funzioni del
cervello, Cedam, Padova, 1995.
• B. Tirozzi, Modelli matematici di reti
neurali, Cedam, Padova, 1995.
• J. J. Hopfield, Brain, neural networks,
and computation, Review of Modern
Physics 71 S431 (1999).