Learning Non Supervisionato

Learning Non Supervisionato

LEARNING NON SUPERVISIONATOLEARNING NON SUPERVISIONATO

Non c’è insegnante Reti con Input e Output,Nessun Feedback dall’ambiente

La Rete deve scoprire Da SolaCaratteristiche, Regolarità, Correlazioni, etc.nei dati di input. (AUTO-ORGANIZZAZIONE)

Durante il Learning i pesi varianoin accordo con una Regola Internaspecificata A Priori

LNS-1

LNS-2Cosa possono individuare tali reti? FAMILIARITA’

Quando un nuovo input è simile ai pattern visti in passato(ex: un output a valori continui)

ANALISI DELLE COMPONENTI PRINCIPALIestendendo il caso precedente a più unità porta ad una base lungo cui misurare la somiglianza a esempi precedenti CLUSTERINGUn set di output a valori binari può indicare a quale categoria appartiene un dato input

CODIFICAL’output può essere una versione codificata dell’input

FEATURE MAPPINGUn output con una data struttura geometrica (ex: una matrice) può mappare gli input in punti diversi della struttura, realizzando una mappa topografica dell’input Input simili Output vicini

LNS-3Quando utilizzare le Reti NON Supervisionate:

Quando il learning supervisionato non è possibile

Quando il learning supervisionato è troppo lento

In cascata ad una rete supervisionata

LNS-4LEARNING HEBBIANOLEARNING HEBBIANO

1940: Donald Hebb, studiando la comunicazione tra neuroni, verificò che l’eccitazione ripetuta di un neurone i da parte di un neurone j portava all’abbassamento della soglia di eccitazione del neurone i.

LA COMUNICAZIONE E’ FACILITATADALL’ECCITAZIONE RIPETUTA

j iwij

xj yi

Estensione ai sistemi neurali artificiali:Il peso della wij della connessione tra i neuroni i e j cresce al fluire di un segnale da j a i:

ijij yxw ijij yxw Regola di Hebb

LNS-51 StratoD Input1 Output Lineare

Dx

x

x 1

y

w1

w2

wD

x1

x2

xD

cos1

xwwxxwxwy TD

i

Tii

cos1

xwwxxwxwy TD

i

Tii

yx

yx

w

D

1

yx

yx

w

D

1

xwyGli Input più frequenti

avranno, a lungo termine, più influenza e produrranno un output maggiore.

wx

wx grande y

y = 0

L’ampiezza di y misura la somiglianza tra Input e Pesi

Durante il learning, i pesi sono esposti ai dati di Input e condensano l’informazione in essi contenuta nel loro valore

I PESI SONO LA MEMORIA A LUNGO TERMINE DELLA RETE

1 xw

LNS-6Per un singolo peso:

21 xwxwxwxyww oldoldoldoldnew 21 xwxwxwxyww oldoldoldoldnew

PROBLEMA: I pesi crescono senza limite ed il learning non si ferma mai

REGOLA DI OJA (versione stabile)

Vincolare la crescita dei pesi:1. Rinormalizzazione dei pesi dopo l’aggiornamento:

oppure

1'' www ii

iii wyxyw iii wyxyw Regola di Oja

2. Aggiungere un termine proporzionale a y2, nella formula di Hebb

LNS-7Hebb correlazione

Learning on-line nwnxnxnxnynw T nwnxnxnxnynw T

Learning batch 0ˆ01

wRwixixw xT

N

i

0ˆ01

wRwixixw xT

N

i

DDD

D

xx

xxExxE

xxExxE

RR

1

111

ˆ

DDD

D

xx

xxExxE

xxExxE

RR

1

111

ˆ Matrice di autocorrelazionedegli Input

Il learning Hebbiano aggiorna i pesi con una stima della funzione di autocorrelazione

LNS-8Hebb potenza

Nxx ,,1 Set di dati

N

ix

TN

i

TT wRwwxxwN

iyN

V1 1

2 11

N

ix

TN

i

TT wRwwxxwN

iyN

V1 1

2 11

potenza in uscita

ixixN

RR TN

ix

1

1 ixixN

RR TN

ix

1

1

definita positiva

wRwRRww

VV xxx

T 2

wRwRRww

VV xxx

T 2

La regola di Hebb muove i pesi nella direzione del gradiente, nel campo di potenza dei dati di Input

Divergenza (campo illimitato)

02 wRwwRV 02 wRwwRV

Es: D=2

w2w1

V

wRV

LNS-9

Legame Potenza - Varianza

Massima Potenza Massima Varianza

Varianza - Informazione

Esempio:

Nube di punti 2-D

Spazio a dimensione minore(Componente Principale)

E’ la direzione a maggiore varianza

LNS-10

Regola di Oja

Mantiene i pesi con norma unitaria

iii wyxyw

per piccolo

x i x i y n w nn n i' ( ) ( ) ( ) ( ) Input effettivo

LNS-11

w n w n y n x ni i i( ) ( ) ( ) ' ( ) 1

Posto:

Dimostrazione:

2

21

1

2

1

Onwnynxnynw

nxnynw

nxnynwnw

iii

D

ii

ii

Esempio: 2121 wwwxxx

• I pesi partono da piccoli valori random e vengono aggiornati secondo la regola di Oja:

1

;; 222111

w

wyxywwyxyw 1

;; 222111

w

wyxywwyxyw

L’output finale è la proiezione dell’input x nella direzione di w

È dovuto alla scelta di UNITA’ LINEARI

LNS-12

w0

w

x1

x2

w0

w

x1

x2

1w

LNS-13

a) Input a media zero < x > = 0

Output a media zero < y > = 0(qualunque sia la direzione di w)

MA la direzione di wOja fa sì che <| y |> sia massimo

b) Input a media diversa da zero

Output con media massima in corrispondenza di wOja

La direzione di wOja fa sì che <| y |> sia massimo

LNS-14

Significato di wOja

wwR wwR

R funzione di autocorrelazione scalare reale

w è un autovettore di R e l’autovalore massimo

x1

x2

a asse principale

Ojawa Ojawa

Ricapitolando:

La regola di Oja converge ad un vettore peso che ha le seguenti proprietà:

w ha la direzione dell’ autovettore di C con autovalore massimo

w ha la direzione che massimizza la <y2>

La forma quadratica, per w fissato è massimizzata quando w ha la direzione dell’autovettore massimo di C

LNS-15

1 w

wCwwxxwxwy TTTT 22

)varianzamax(max0 2 yxPer dati con

LNS-16

ANALISI DELLE COMPONENTI PRINCIPALI (PCA)ANALISI DELLE COMPONENTI PRINCIPALI (PCA)

La regola di Oja produce un vettore di pesi nella direzione in cui si trova la maggiore informazione sui dati di input

COMPONENTE PRINCIPALE

Come trovare altre direzioni che tengono conto il più possibile della varianza dei dati di Input?

Dx

Scopo Trovare un sistema di coordinate

ORTONORMALE

M vettori tra loro ortogonali

M vettori di lunghezza unitariaDM

che riduca la dimensione dei dati, massimando l’informazione contenuta

LNS-17Esempio

PCA

B

A

O

OAPRIMA

COMPONENTEPRINCIPALE

(AD ALTA VARIANZA)

OBSECONDA

COMPONENTEPRINCIPALE

(A BASSA VARIANZA)

La proiezione lungo OA consente di evidenziare i cluster

La prima componente principale si prende lungo la direzione a massima varianza;

La seconda lungo la direzione a massima varianza del sottospazio ortogonale alla prima;

La terza lungo …

LNS-18Procedura:

Dx

se TT yyconxQyx 0 TT yyconxQyx 0

Sia C la matrice di covarianza di x :TxxC

D

0

01

D

0

01 dove:

D 21 autovalori di C e

colonne di Q: autovettori corrispondenti

y vettore delle componenti principali di x

RCx 0 RCx 0 matrice di autocorrelazione

Scartando le combinazioni a piccola varianza:

MD

LNS-19Riassumendo:

Q

xQqxqxqxy T

D

TTT 21

j

D

jiqyyQx

1

M

Mj

M

jj

y

y

qqqyx 1

11

ˆ

M

Mj

M

jj

y

y

qqqyx 1

11

ˆ

LNS-20

PCA

Algoritmi basati sulla risoluzionedi equazioni matriciali

Reti Neurali RETI NEURALI PCA

x1x2

xD

w11

w21w31

w1D

w2D

wMD

y1

y2

yM

Rete Lineare

DMyx MD

Mixwy j

D

jiji ,1

1

LNS-21

i

kkkjjiij ywxyw

1

i

kkkjjiij ywxyw

1

Regola di Sanger

I componente principale

1111 ywxyw jjj (regola di Oja)

xj

w1j y1

i = 1

proiezione in uno spazio ortogonale alla I componente

xj

w2j y2

i = 2

II componente principale

222

221122

' ywxy

ywywxyw

jj

jjjj

11' ywxx jjj

i = 3 jw3

jj xx '

LNS-22

N.B. I pesi relativi alla II CP convergeranno solo dopo la convergenza dei pesi della I CP, e così via …

PCA è il miglior “feature extractor” LINEARE

1 COMPRESSIONE DATI

Non esiste un sistema lineare che fornisca migliori caratteristiche per la ricostruzione applicazione PCA per la compressione dei dati

T Ry

W W-1

x

al trasmettitore: compressione proiezione

x~

al ricevitore: decompressione

LNS-23

2 CLASSIFICAZIONE

x1 ricostruzione

x2 classificazione

2 CLASSI

Direzione principale

x2

1

2x1

Reti Competitive e di Kohonen

CK-1

LEARNING NON SUPERVISIONATO COMPETITIVOLEARNING NON SUPERVISIONATO COMPETITIVO

Scopo: clusterizzare i dati in ingressoCodificaCompressioneElaborazione di immaginiOttimizzazione combinatoria

y2

y1

x1 x2 x3 x4

Non sono robusteNon possono rappresentare una conoscenza gerarchica

Un Output per ogni categoria

•Feature Mapping (Kohonen)

Solo un’unità è attiva (vincitore)

CK-2SEMPLICE LEARNING COMPETITIVOSEMPLICE LEARNING COMPETITIVO

x = [x1 , . . . , xN] (0 , 1)y = [y1 , . . . , yN] (0 , 1)

. . .

. . .

x1x2 x3 xN

y1 yM

x

wi

wi • x

Ni

jijiji

www

xwxwh

111

1

:*

*

*

i

TTi

y

xwxwi

xwxww iii *1

IL VINCITORE E’ L’UNITA’ PIU’ VICINA ALL’INPUT

VINCITORE

CK-3IL LEARNINGIL LEARNING

w(t = 0) = random

jijji wxw **

*0

1*

iiy

y

i

i jijiji wxyw REGOLA INSTAR

wi newx

x-wi

wi

(x-wi)

Sposta wi* verso x p

Fa sì che l’unità i* abbia maggiore probabilità di vincere in

futuro per un Input simile a x

CK-4Esempio di CLUSTERING

pppp xxxx 321 P = 1, … , Nnumero di esempi

p1

p2 Input binari Input continui

1;321 iiiii wwwww

Stato iniziale

Stato finale

w i vettori prototipo - individuano dei punti nello spazio

Tassellazione di Voronoi

CK-5

1 solo strato partizioni convesse dello spazio degli input

N° di cluster da fissare a prioritroppi cluster cluster morti

input simili in cluster diversipochi cluster ogni unità rappresenta + di un cluster

Problema delle unità morte

COSCIENZA

ii

iii

bb

bhh

*

CK-6

Anche i neuroni vicini al vincitore possono essere attivi (bolla di attività)

Connessioni laterali funzione della distanza dal vincitore

wij

+ +

- -

i - j

distribuzionea cappellomessicano

E’ possibile un mappaggio topologico dallo spazio degli ingressi a quello delle uscite

COMPETIZIONE SOFTCOMPETIZIONE SOFT

CK-7

. . .

y1 yM-

-

+

+

x1x2

y2

y1

x1 x2

CK-8RETI DI KOHONENRETI DI KOHONEN

-Cappello messicano SENZA connessioni laterali

-Le relazioni di vicinato compaiono nel learning

-Output organizzato secondo una griglia

2-D

1- D 2 vicini

1

0 1

1

0 1Input2-D

Rete1-D

CK-9

y2

y1

x1 x2

…xD

vincitore* * xwxwi ii

ijjij wxiiw *,

*, ii ** iirrf ii

*1 ii

funzione di vicinato

Rete di Kohonen Rete elastica

x

wi

wi • x

wi - x

ALGORITMO DI LEARNINGALGORITMO DI LEARNING

CK-10

Scelta sperimentale del numero di neuroni

Conservazione della DENSITA’ dei dati di Input

(n) (n)

23

00

00

10101

1

n

KN

nn

N

nn

ijjij

rr

wxiiw

eii ii

*,

*,22

* 2

Vi(0)

Vi(t1)

Vi(t2)

Esempi

CK-11

CK-12

Applicazioni:

Controllo di motori Riconoscimento del parlato Ottimizzazione combinatoria Quantizzazione vettoriale (LBG algorithm)

Kohonen è un algoritmo ottimale per la quantizzazione vettoriale

LVQ Learning Vector Quantization

sbagliata classe

corretta classe

*

**

jij

jijji wx

wxw

sbagliata classe

corretta classe

*

**

jij

jijji wx

wxw

Documents

Learning Non Supervisionato