Download ppt - Rappresentazione intermedia Da 2-D a 3-D. Rappresentazione intermedia E’ un livello ipotizzato dell’elaborazione visiva E’ calcolata da processi basati

Rappresentazione intermedia

Da 2-D a 3-D

Rappresentazione intermedia

• E’ un livello ipotizzato dell’elaborazione visiva• E’ calcolata da processi basati sull’osservatore• Rappresenta il mondo in modo generale:

– identificazione di superfici e oggetti (no riconoscimento) – loro orientamento e distanza dall’osservatore

• Sembra essere richiesta per alcuni processi – percezione del movimento– forme di stereopsi

• Il primo livello dell’elaborazione i cui risultati sono accessibili a livello della coscienza (attenzione)

Kanizsa (1979)

Il cubo di Kanizsa (da Necker)

Intermedia VS Alto livello

Rotazione degli oggetti

Estrazione dell’informazione a 3-D

Tre fasi dell’estrazione:

• segmentazione della scena in oggetti distinti• determinare la posizione e l’orientamento di ogni

oggetto in relazione all’osservatore• determinare la forma di ogni oggetto

1. Segmentazione

• organizzazione della matrice di pixel in regioni che corrispondono a entità nella scena semanticamente significative

• output dello stadio iniziale della visione è lo schema primario: individuazione (tramite i contorni) delle aree principali di diversa intensità

– contorni non rilevati a causa del basso contrasto– contorni dovuti a “rumore” o ombre

• occorre mettere assieme gli elementi di un singolo oggetto in modo da poterlo confrontare con i modelli in memoria (riconoscimento) o da conoscerne la forma (presa)

2. Posizione e orientamento

è la posa dell’oggetto rispetto all’osservatore (utile per manipolazione e navigazione)

Z

Y

X P (X, Y, Z)

P’ (x, y)

OP

n

X

Y

Z

3. Forma

• La forma di un oggetto si mantiene anche quando la distanza e l’orientamento di un oggetto cambiano a causa del movimento relativo osservatore/oggetto

• Definizione di forma: ciò che rimane invariato rispetto a un qualche gruppo di trasformazioni (es. rotazioni, traslazioni)

– Forma di un oggetto e forma di una superficie rispetto al movimento

– Forma fondamentale per la presa di un oggetto e per il riconoscimento

Questione fondamentale

Dato che nella proiezione prospettiva tutti i punti lungo una stessa direzione nel mondo a 3-D sono stati appiattiti in un unico punto dell’immagine, come si fa a recuperare l’informazione sulle 3-D?

Si possono consultare degli indizi:– profondità (stereopsi binoculare)– tessitura– movimento– ombre– contorni

La profondità

Stereopsi binoculare

La stereopsi (visione stereoscopica)

Differenti posizioni diosservazionerisultano inviste 2D differentidellastessascenaa 3D.

Esperimento dei pollici

Immaginesinistra

Immagine destra

Oggettopercepito

Il punto di fissazione cadesempre al centro di ciascunaretina, dove è la massimadensità di recettori.

Gli altri punti proiettano suentrambe le retine: distanzae direzione dal centro sono determinate dai punti stessi.

La profondità relativadi un punto si ricavacon la trigonometria.

Immagine del punto lontano

Immagine del punto di fissazioneImmagine del punto vicino

Punto vicino

P0

PPunto lontanoLa disparità binoculare

Punto di fissazione

Immagine del punto lontano

Immagine del punto di fissazioneImmagine del punto vicino

Punto di fissazione

Punto vicino

Punto di fissazione P0:punto in cui gli assi otticidei due occhi si intersecano

Calcolo della disparità: disparità angolare in radianti- a P0 è 0- a P è la disparità tra PL e PR, = /2 + /2

tan(/2) = b / 2 Z

per angoli piccoli tan()=/2 = b / 2 Ze, derivando rispetto a Z,/2Z = -b/Z2

P0

P

Z

b

Punto lontano

Z

/2 /2

PL PR

La trigonometria

b /2 b /2

Dati numerici

• i possono fare delle assunzioni plausibili sul funzionamento della geometria (della visione)

– si conosce l’orientamento relativo degli occhi (presenza dei muscoli oculari comandati dal cervello)

– anche per le telecamere questo è possibile

• negli umani, b=6 cm– Per Z=100cm

• il più piccolo rilevabile è 2.42 x 10-5 radianti• ciò corrisponde a Z di circa 0.4 mm

– Per Z=30 cm• si arriva a un Z di circa 0.036 mm

Il problema della corrispondenza

Come si fa a mettere in corrispondenza (matching ) le proiezioni che nelle due immagini visive corrispondono a uno stesso punto della scena?

• si matchano le stesse posizioni sulle due retine (o immagini della telecamera): non è utile a causa della disparità tra le due immagini

• processi top-down e bottom up

Top-down e bottom -up

• top-down – si identificano gli oggetti nella scena e si matchano le

medesime parti degli oggetti nelle due immagini– circolo vizioso: la visione stereoscopica serve a

identificare la profondità e l’orientamento delle superfici per poi identificare gli oggetti

• bottom-up– si matchano i valori di intensità delle due matrici– problema: le intensità dei punti corrispondenti possono

essere diverse per i due occhi (esperimento lente affumicata davanti a un solo occhio)

Come si fa?

• il problema “top-down o bottom-up o entrambi” nasce quando si desidera assegnare una struttura a dei dati secondo qualche principio

– top-down: si usano i principi per predire i dettagli dei dati (struttura degli oggetti per predire le disparità retiniche)

– bottom-up: si usano i dati per predire le strutture a livello più alto (disparità retiniche per struttura oggetti)

• differenti modalità di predizione: qual è la migliore?– le sole considerazioni computazionali non permettono di

decidere quale modalità adotta un sistema cognitivo– necessità di prove empiriche

• bottom-up: il sistema funziona senza conoscenze di alto livello• top-down: il sistema funziona quando i dati sono degradati

Stereogrammi: evidenza per bottom-up

• stereoscopio: strumento che presenta agli occhi separatamente due immagini di una stessa scena

stereogrammi supagine opposte

specchi uniti insieme

• il sistema visivo fonde le due immagini: l’osservatore vede una scena unica con una forte impressione di profondità

Stereogrammi con figuregeometriche (‘800)

Stereogrammi a punti casuali di Julesz (anni ‘60)

Autostereogrammi (1979)

Implicazioni di Julesz

• la visione stereoscopica può funzionare bottom-up– non si possono vedere le immagini senza la stereopsi– le conoscenze di alto livello non aiutano la stereopsi

• Frisby, Clatworthy: dire alle persone che cosa si dovrebbe vedere non rende più veloce la percezione

• La visione stereoscopica potrebbe essere – ampiamente indipendente da altri processi visivi – essere un modulo separato del sistema visivo stesso

Vincoli al matching stereoscopico

due fatti relativi al mondo e cablati nel cervello che guidano il processo di matching

• vincolo di unicità: una cosa non può essere allo stesso tempo in due posti diversi

– un punto di una immagine può essere matchato con uno e un solo punto dell’altra immagine

• vincolo di continuità: poiché le superfici degli oggetti sono di solito opache e lisce, la loro profondità varia lungo un continuum (non a balzi)

– punti adiacenti di un’immagine tenderanno a rappresentare punti della scena con profondità simile

Vincoli di unicità e continuità

•un osservatore guarda un oggetto

•si considerano 3 punti adiacenti

•le linee ottiche si incrociano in 9 punti

•i 9 punti sono potenzialmente effettivi

•ma quali sono i 3 genuini?

vincolo di unicità: non più di un puntosi trova su una linea ottica

Profondità

Possibile

Profondità

Non possibile

Profondità

Possibile

Profondità

Non possibile

Profondità

Possibile

Profondità

Possibile

vincolo di continuità: le superficidegli oggetti variano gradualmente

Implementazione dei vincoli

• punti di fusione rappresentati da una matrice mentale di processori (un processore per fusione) con grado di attività = probabilità di fusione

• rappresentazione dei vincoli = collegamento adeguato dei processori– vincolo di unicità: legami inibitori tra processori sulla

stessa linea di vista• ogni volta che un processore indica una possibile fusione, gli

altri processori sulla stessa linea vengono inibiti

– vincolo di continuità: legami eccitatori tra processori alla stessa profondità rispetto all’osservatore

• ogni volta che un processore indica una possibile fusione, gli altri processori alla stessa profondità vengono eccitati

legami eccitatori

legami inibitori

Implementazione dei vincoli

Stereogrammi a punti casuali:un programma

• programma per la visione stereoscopica basato su i vincoli di unicità e continuità (Marr e Poggio)

• funziona direttamente su elementi che rappresentano i punti casuali

• come si mettono in relazione i punti quando le profondità sono diverse (a causa della disparità)

frammento di una riga dellamatrice sinistra

frammento di una riga dellamatrice destra

Il programma

• vasta matrice di processori che operano in parallelo (operazioni locali tra processori vicini)– comportamento simile alle reti connessioniste– cicli di attività fino a valori stabili (“rilassamento”)

• operazione di “rilassamento”– input iniziale: righe dalla coppia di stereogrammi– la matrice elabora le fusioni possibili– output: processori attivi (punto di fusione) o inerti

• la configurazione stabile rappresenta le corrispondenze appropriate nei due stereogrammi

Matrice di fusionevincolo di unicità:

i processori ricevonoinibizione dai processori sulla stessa linea di vista

vincolo di continuità:i processori ricevonoeccitazione dai vicini

sullo stesso pianodi profondità

legame eccitatoriolegame inibitoriopunto di fusione

Profondità

3

- 3

0

3

- 3

0

3

- 3

0

3

- 3

0

3

- 3

0

3

- 3

0

Esempio di rilassamento bidimensionale

Conclusioni sul programma

• il programma rende possibile lo svolgimento in parallelo di una grande quantità di operazioni

• ogni processore ha bisogno dell’informazione proveniente dai suoi vicini

• tuttavia, il processo richiede un gran numero di cicli

• le cellule nervose sono molto lente (1/100 di secondo) per ciclo

• questo programma non è realistico per la visione “veloce” di un mammifero

Come avviene in realtà la visione stereoscopica

• qual è l’input della visione stereoscopica umana?– dati di basso livello (matrici di pixel organizzate)– solo qualche elemento deve essere matchato

• ma quali elementi vengono matchati?– occorre lavorare sulle superfici (a cui si applica il

vincolo di continuità)– candidati più ovvii i passaggi per zero

• si assegna un segno + se, da sx a dx, si passa da regione scura a regione chiara

• si assegna un segno - se, da sx a dx, si passa da regione chiara a regione scura

Programma per la visione stereoscopica reale

• si parte con pochi passaggi per zero (sombrero di grandi dimensioni): minore probabilità di errori

• si matchano passaggi per zero dello stesso segno– si procede punto per punto lungo i passaggi per zero

(con tolleranza sulle posizioni)– se un passaggio per zero ha due match possibili

nell’altra immagine, questi ultimi corrisponderanno a elementi a profondità diversa

– si risolve l’ambiguità con corrispondenze sicure vicine

• si ripete il tutto con immagini filtrate da sombreri di dimensioni inferiori

Conclusioni sulla profondità

• programma usato per analisi di fotografie aeree (profondità utile per scoprire le mimetizzazioni)

• sebbene psicologicamente plausibile, non è detto che il sistema umano usi la stessa procedura– sensibilità alla disparità dimostrata nella corteccia visiva– i passaggi per zero forse non sono i candidati corretti

• in alcuni casi è dimostrato che vengono matchati i picchi• non sempre si matchano gli spigoli (tipici passaggi per zero)• passaggi per zero solo rumore tra picchi e gole

• unici elementi certi della visione stereoscopica– utilizza elementi di basso livello dello schema primario– è guidata da vincoli innati propri del mondo fisico

La tessitura (texture)

La tessitura

• proprietà delle superfici associate con le qualità tattili che essi suggeriscono

– in visione, pattern ripetuto spazialmente su una superficie– pattern periodici reali, o in senso statistico– un gradiente di tessitura è creato dalla presenza di

oggetti o segni più o meno della stessa forma o dimensione a intervalli regolari su una superficie

• Esempi:– pattern di aperture (finestre e balconi) su un edificio– macchie sulla pelle di un leopardo– fili d’erba su un prato– gente allo stadio

Esempio

Un pattern periodico

Tessitura e superfici

• Quando i pattern sono regolari è possibile scoprire l’orientamento e la forma delle superfici da una singola immagine

• Come è possibile?– Gli elementi fondamentali della tessitura sono i tasselli– La loro dimensione, forma e spaziatura sono

“abbastanza” uniformi nella scena 3-D– Invece la dimensione, la forma e la spaziatura

variano nell’immagine (una volta proiettati)

Esempi di tessitura

Due cause per la variazione nell’immagine

• distanza dei singoli tasselli dall’occhio (telecamera)– in prospettiva, gli oggetti più distanti appaiono più piccoli– il fattore di scala è 1/Z

• rimpicciolimento della superficie esposta dei tasselli– relativo all’orientamento del tassello / linea di vista– se il tassello è perpendicolare, non vi è rimpicciolimento– il fattore di rimpicciolimento è proporzionale al cos , dove

è l’angolo tra la normale alla superficie e la linea di vista

O

nY

Z

X

Gradiente di tessitura e orientamento

• gradienti di tessitura funzione della forma e dell’orientamento di una superficie

• connessione tra profondità e orientamento– data la profondità di ciascuna parte di una superficie

rispetto all’osservatore orientamento– come il sistema visivo calcola l’inclinazione di una

superficie• fissa gli assi dell’inclinazione in modo che siano perpendicolari

alla direzione in cui la densità degli elementi varia di più• esistono dei programmi che utilizzano tale metodo, ma non si

sa come il sistema umano interpreti i gradienti di tessitura

Processo a due passi• misurare i gradienti di tessitura• stimare la forma della superficie, slant e tilt, che

darebbero origine ai gradienti misurati

Il movimento

Il movimentomovimento e forma: la dimostrazione di Ullman– si proiettano dei punti su uno schermo– punti stazionari: l’osservatore vede soltanto una

schermata di punti distribuiti in modo casuale– punti in movimento: l’osservatore vede due cilindri che

ruotano in direzioni opposte– ma i cilindri non esistono: è il movimento a crearli

Stereopsi e movimento

• il sistema visivo tratta il movimento come la stereopsi– occorre mettere in corrispondenza i punti in due

immagini separate da una frazione di tempo (risp. spazio)

– misura dello spostamento di ciascun punto per determinare la profondità delle parti e la direzione del movimento

• vincolo di unicità: una cosa va in un solo posto– cose che appaiono e scompaiono (risp. visibili da un

solo occhio)

• differenza tra stereopsi e movimento– stereopsi: due occhi vedono la stessa forma in un

momento determinato– movimento: la forma di un oggetto può mutare nel

tempo (aprire e chiudere un pugno)

Teoria computazionale della visione in relazione al movimento

• molti problemi irrisolti: qual è l’input al sistema? – non può essere la matrice di livelli di grigio– passaggi per zero (Marr) ?

• interpretazione dei punti corrispondenti– vincolo di rigidità delle parti degli oggetti: esperimento di

Johansson (importanza delle giunture)– teoria computazionale di Ullman

• rigidità: inferire la struttura di oggetti in movimento da immagini separate nel tempo

• 4 punti in corrispondenza in 3 immagini successive ricostruzione della loro configurazione statica su 3-D

• restrizione: i 4 punti non devono essere sullo stesso piano

Il caso del “flusso ottico”

• osservatore in movimento rispetto a una superficie ampia (non si può applicare la teoria di Ullman)

• proprietà matematiche (Longuet-Higgins)– orientamento di una superficie rigida in base alla velocità

istantanea di cambiamento di una immagine – si basa sull’assunzione di rigidità

• tale computazione si verifica nella visione umana ?

Il flusso otticomovimento apparente risultante nella immagine dal

movimento relativo osservatore/scena – descrive la direzione e la velocità di elementi dell’immagine– contiene informazioni utili sulla struttura della scena

• Es. oggetti distanti hanno un movimento apparente più lento (movimento distanza degli oggetti)

(a) un cubo di Rubik rotante

(b) 1/2 secondopiù tardi

Rappresentazione del flusso ottico mediante vettori

• vx(x, y) nella direzione x, vy(x, y) nella direzione y

• per misurare il flusso ottico occorre trovare i punti corrispondenti nelle due immagini successive

– si considera un blocco di pixel intorno a p(x0, y0) a tempo t0

– si confronta tale blocco di pixel con i blocchi intorno ad alcuni pixel candidati q (x0+Dx, y0+Dy) a tempo t0+Dt.

– due possibili misure di similitudine:• somma delle differenze quadrate: (x,y) ((I(x,y,t)-I(x+Dx, y+Dy ,t+Dt))2

• correlazione incrociata: (x,y) I(x,y,t) I(x+Dx, y+Dy ,t+Dt)

– il flusso ottico a (x0, y0) è (vx,vy)=(Dx/Dt, Dy/Dt) t

t+Dt

Dx/Dt

Dy/Dt

Equazioni

• velocità dell’osservatore, flusso ottico, posizione degli oggetti nella scena

• Si può recuperare la profondità data la dimensione dei vettori del flusso ottico

vx(x,y)=-Tx+xTz

Z(x,y) vy(x,y)=-Ty+yTz

Z(x,y)

La prospettiva e i contorni

Indizi dati dalle distorsioni della forma

dovute alla proiezione

Contorno e forma

• E’ utile il contorno per ricavare la forma di una superficie o oggetto?

• La mano può proiettare un coniglio sul muro– visione impossibile? infinite forme 3-D proiettano la

stessa immagine 2-D– top-down (conoscenza sui conigli) o bottom-up ?

Ancora i vincoli innati (Marr)

• assunzione: ciascun punto nell’immagine di un contorno ha una e una sola corrispondenza sul contorno reale dell’oggetto– tutti i punti del contorno giacciono su un unico piano– guardando una silhouette, ciascuna linea di vista passa

per un punto soltanto

• eccezioni: particolari punti di vista producono punti su piani diversi

Casi standard

• la percezione della forma reale di un oggetto avviene più facilmente per i casi standard

• casi standard– oggetti appartenenti a classi parametrizzate di forme– Es.: poliedri o solidi derivati da rivoluzioni di superfici

• l’ambiguità data dalla proiezione prospettiva si può risolvere imponendo i vincoli appropriati per la classe di oggetti in questione

Disegni senza sfumature e con ombre

La ricerca in IA

Interpretazione di una scena 3-D costituita da disegni senza sfumature

• idea di base: uso della conoscenza del mondo– impone vincoli all’interpretazione dei simboli primitivi in

un disegno (linee e punti di incontro di linee)– rende possibile un’interpretazione 3-D sensata

• programma di Clowes (o Huffman)– input: disegni senza sfumature dal mondo dei blocchi– assunzioni:

• i blocchi hanno superfici piane• soltanto 3 superfici piane si incontrano in un angolo

– output: ciascun simbolo primitivo del disegno riceve un’etichetta che ne rappresenta l’interpretazione 3-D

Il programma di interpretazione

• base del programma: dizionario dei significati possibili di ciascun tipo di simbolo primitivo che può comparire in un disegno

• Es. linea retta (4 significati)

superficieoggetto

spigolo esternodi un oggetto

sfondo

superficieoggetto

sfondo

spigolo internodi un oggetto

superficieoggetto

superficieoggetto

superficieoggetto

superficieoggetto

concavo convesso

Mondo dei blocchi (seicentesco)

4 tipi di giunzione:L, T, Y,

Interpretazioni delle giunzioni

• 4 interpretazioni possibili per una linea– 16 per una giunzione a L, 16 per T, 64 per Y, 64 per – molte combinazioni non sono possibili (superfici in

comune tra gli spigoli)

• vincoli di alto livello sull’interpretazione di un disegno– l’interpretazione dei simboli primitivi (linee e giunzioni)

deve essere coerente– possibilità di oggetti impossibili

Oggetti impossibili

Linea tra A e B.- nei pressi di A:

sx: superficie occlusadx: superficie (orizzontale)

- nei pressi di B:sx: superficie (verticale)dx: superficie (orizzontale)

Linea tra C e D.nei pressi di C:

sx: superficie occlusadx: superficie (orizzontale)

nei pressi di B:sx: superficie (orizzontale)

dx: superficie (verticale)

A

B

C

D

Procedura di Clowes e Huffman

• ripeti– assegna a ciascun primitivo tutte le interpretazioni

ammissibili

– controlla la coerenza di ogni assegnazione con le assegnazioni di un vicino

– si eliminano le interpretazioni incoerenti

– si passa a un altro primitivo

• fino a esaurimento dei primitivi• se l’oggetto è possibile

– si danno in output tutte le interpretazioni del disegno

• altrimenti: non si dà alcuna interpretazione

Le ombre di Waltz

Complicazioni come introdurre ombre, blocchi più complessi, configurazioni più complesse, portano a delle semplificazioni

Una linea può denotare - una discontinuità di un blocco- il margine di un’ombra

Informazioni dalle ombre:un oggetto poggiasu una superficieo è vicino a essa

Etichettatura di Waltz

+

_

+

_

+ : spigolo convesso °: ombre : spigolo oscurante -: spigolo concavoC : discontinuità - : spigolo concavo separabile

+

Risultati dell’approccio IA

• distinzione tra forma e funzione (risultati di Sutherland sugli animali)

– dominio dell’immagine (linee, regioni, giunzioni)– dominio della scena (superfici, spigoli, forme)– dominio degli oggetti funzionali (seggiole, tavoli, persone)

• stimolo per la ricerca sperimentale: scene semplici generano domande complesse

Limiti dell’approccio

• difficoltà nel riconoscere l’impossibilità di alcuni oggetti

• critica di Marr: – l’approccio non è in grado di trattare la questione di cosa

deve essere computato– il risultato umano è un’interpretazione 3-D della scena– qui solo orientamento di superfici connesse

Lo schema a 2-D e 1/2

Dove arriva la percezione pura

La percezione pura

• la mente deve possedere informazioni indipendenti supplementari sul mondo (vincoli innati)

– unicità, continuità di superfici, rigidità, vincoli sui contorni• risultati: profondità e orientamento delle superfici

– altri indici: brillantezza e colore, ombreggiatura, contorni• anch’essi basati su vincoli innati (risultati: forma)

• percezione pura: insieme dei moduli visivi che operano indipendentemente dalla conoscenza

• partono dalla matrice di livelli di grigio– producono lo schema primario (bottom-up)– percezione delle superfici (visione stereoscopica,

movimento, contorni) tramite vincoli innati

Lo schema a 2-D e 1/2

• ultimo stadio della percezione pura: rappresentazione esplicita di profondità relativa e orientamento di ciascuna superficie visibile

• rappresentazione che non rende completamente esplicite le relazioni 3-D degli oggetti (la profondità è relativa all’osservatore)

– fonti dello schema: visione stereoscopica, movimento, contorno, ... indici di profondità

– integra le info fornite dalle fonti, stabilisce la coerenza e riempie le parti mancanti delle superfici

• Non è noto se il sistema visivo umano costruisca una tale rappresentazione

Sketch a2-D e 1/2

puntaspilli: ciascuno spillo rappresenta profondità e orientamento di una regione

Conclusioni sulla percezione pura

• Molti programmi simulano gli indici illustrati– non si riesce ancora a simulare tutti i processi connessi

alla percezione della profondità– lo schema a 2-D e 1/2 non è sufficiente a far muovere il

robot nel mondo (superfici visibili dal punto di vista del robot)

• Rappresentazione di una scena:– deve rendere possibile l’identificazione degli oggetti– deve essere indipendente dal punto di vista particolare

• Non risulta esclusivamente dalla percezione pura: dipende anche dalle esperienze personali

Rappresentazione ad alto livello

La struttura 3-D indipendente

dal punto di vista dell’osservatore

Processi tipici di alto livello

• Riconoscimento di oggetti e volti• Percezione di scene e effetti contestuali• Effetti delle intenzioni e delle conoscenze sugli

oggetti sulla percezione• Strutture mentali in grado di integrare viste

successive di oggetti e scene

Oggetti e scene

• obiettivo di un sistema visivo: rappresentazione simbolica del mondo a 3-D (che cosa è dove )

• tre problemi per il sistema visivo:– percepire le forme 3-D degli oggetti– identificare gli oggetti sulla base della forma (che cosa):

riconoscimento di oggetti– percepire la collocazione relativa nello spazio (dove):

localizzazione degli oggetti

• percezione della forma e delle relazioni spaziali – un solo compito su scale diverse

• scena come oggetto complesso con più oggetti componenti, oggetti che si muovono in relazione agli altri

• oggetto costituito da più parti componenti, parti in movimento rispetto alle altre parti

– differenze• gli oggetti hanno nomi e funzioni, le scene no (di solito)

Costruire il modello 3-D: input (schema a 2-D e 1/2)

• rappresentazione simbolica della profondità e dell’orientamento delle superfici nel campo visivo

• tale rappresentazione cambia quando il sistema si muove

• rappresentazione più utile e stabile se rende esplicite sia la forma a 3-D intrinseca degli oggetti che le relazioni spaziali tra di essi

Costruire il modello 3-D: output (modello 3-D della scena)

• rende esplicita la forma di tutto ciò che si trova nella scena (aree piene e spazi vuoti)

• cosa si intende esattamente– NO: il programma che manipola il modello funziona

come se la realizzazione fisica dell’hw fosse 3-D– SI: gli elementi riconosciuti devono essere raggiungibili

e manipolabili specificando le posizioni in 3 coordinate

Costruire il modello 3-D: operazioni

• dipendono dallo schema a 2-D e 1/2 • sono costituite da trasformazioni geometriche• esistono programmi che fanno queste operazioni

e presentano scene da più punti di vista

• non è noto come il sistema umano operi tali trasformazioni

L’identificazione degli oggetti

• confronto tra la descrizione dell’oggetto percepito e un catalogo mentale delle forme 3-D

• descrizione dell’oggetto a partire dallo schema 2-D e 1/2– lo schema non sempre contiene dati sufficienti – Es.: recuperare oggetto completo da elementi parziali

• si fa appello a conoscenza derivata dall’esperienza del mondo• meccanismo inconscio

Cosa deve spiegare una teoria adeguata

• Accuratezza nel riconoscimento di oggetti nonostante cambiamenti di dimensione, localizzazione, orientamento

• Come si rappresentano le relazioni spaziali tra le componenti di un oggetto (riconoscimento degli oggetti avviene in aree cerebrali diverse da quella spaziale)

• Attributi del riconoscimento a livello base e a livello subordinato (riconoscimento di una vipera sia rettile che come serpente)

Due approcci principali1. Biederman

• oggetti analizzati in parti primitive determinate nelle estremità concave dei contorni (geoni)

• parti memorizzate come componenti astratte• processo di riconoscimento

– si estraggono tali componenti dalla descrizione, inclusa la loro relazione spaziale

– si confronta tale struttura con il catalogo

• facilità di riconoscimento se l’orientamento permette una buona estrazione delle componenti

• si memorizzano solo poche viste dell’oggetto

• Sono viste specifiche degli oggetti a essere rappresentate da proprietà fondamentali (es. proprietà geometriche)

• Il riconoscimento diventa dipendente dall’orientamento

• Si memorizzano diverse viste di un oggetto (una vista non in catalogo richiede più elaborazione)

• Processo di riconoscimento– Si computano le proprietà– Si seleziona il modello con il maggior fit dei valori

Due approcci fondamentali2. Tarr, Rock, ...

Evidenza empirica

• Si sta accumulando evidenza a favore di Tarr (orientation-dependent)– cronologicamente successiva a Biederman– riconoscimento di oggetti a partire da viste multiple

dell’oggetto in memoria

• Tuttavia, le estremità concave sono più importanti per il riconoscimento di altri segmenti del contorno– la struttura influenza in modo critico il riconoscimento– forse occorrerà un’integrazione delle due teorie

Scomposizione in parti primitive (Roberts 1963, MIT)

• obiettivo: interpretazione di fotografie di oggetti in un mondo dei blocchi identificando dei prototipi immagazzinati in memoria

• idea: tutte le forme possono essere decomposte in un vocabolario primitivo di forme solide elementari (3 prototipi solidi)

Il programma

• parte bottom-up– converte una fotografia in un disegno senza sfumature

(tramite un grossolano identificatore di linee)– identificando particolari giunzioni di linee, indica un

prototipo (Es. giunzione a Y può attivare il cubo)

• parte top-down– utilizza il prototipo indicato per interpretare la parte

restante dell’oggetto nel disegno– operazioni sul prototipo per farlo corrispondere all’oggetto

della scena• proiezioni del prototipo interno a 3-D su immagini a 2-D• dimensionamento, rotazione, traslazione del prototipo• congiunzione di più prototipi per oggetti complessi

Uso avanzato dei prototipi (Marr, Nishihara 1978)

• considerazione di base: l’identificazione di un oggetto può avvenire da molti punti differenti

• idea: la forma dell’oggetto deve essere specificata con coordinate relative all’oggetto stesso– lo schema a 2-D e 1/2 è relativo all’osservatore

• supporto sperimentale delle immagini mentali: gli esseri umani sono in grado di ...– ... immaginare un oggetto da più punti di vista– ... ruotare l’oggetto (come cambiare il punto di vista)

La forma degli oggetti

• idea: muovere una sezione trasversale bidimensionale lungo un asse– Es. cerchio cilindro

– Es. cerchio con restringimento cono

– In generale: sezione trasversale di qualsiasi forma + asse che può cambiare direzione coni generalizzati

• Catalogo di Marr e Nishihara– tutti le forme di oggetti si possono rappresentare mediante

un numero di coni generalizzati

– idea di base: figure a bastoncino nel disegno infantile

– lunghezza e struttura degli assi sono misure esplicite: utile nell’identificazione di oggetti complessi

Catalogo di Marre Nishihara

In realtà si usano i conigeneralizzati: geoni

Esistono forme che nonsi possono rappresentarecome coni generalizzati

Es.: giornali spiegazzatiorigami

Organizzazione gerarchica degli oggetti complessi

Estensione al movimento (Hogg)

• programma che interpreta sequenze cinematografiche di un uomo che cammina

– prototipo interno, proiettato sull’immagine in movimento– vincoli su variabili che controllano gli angoli delle giunture

• parte bottom-up– rilevamento della differenza tra fotogrammi successivi

(matrice a livelli di grigio)– si traccia un rettangolo intorno all’area di variazione e si

assume un asse coincidente con l’asse del prototipo

• parte top-down– far corrispondere i dettagli delle braccia e delle gambe a

quelli dell’immagine (dato il punto di osservazione)

Conclusioni su approcci top-down• caratteristica fondamentale: uso di informazioni di alto

livello acquisite tramite esperienza relative alla forma degli oggetti

• assunzione sperimentale: se un processo si verifica anche se i dati di basso livello sono degradati, si può sostenere che tale processo è guidato da conoscenze di alto livello

Conclusioni su approcci top-down• caratteristica fondamentale: uso di informazioni di alto

livello acquisite tramite esperienza relative alla forma degli oggetti

• assunzione sperimentale: se un processo si verifica anche se i dati di basso livello sono degradati, si può sostenere che tale processo è guidato da conoscenze di alto livello

• Es. questa immaginedegradata rappresentaun cane che annusa ilterreno vicino a un albero

Attenzione!

• Non tutte le forme di conoscenza o memoria possono influenzare la percezione

• Non tutti gli aspetti della percezione possono essere influenzati da conoscenza o memoria

• Esempio: l’illusione della luna– vicino all’orizzonte luna molto più grande che allo zenit– ma non cambia dimensione, né occupa più spazio sulla retina

• E’ una illusione e tale rimane nonostante la conoscenza

Percezione e conoscenza:forma, funzione, identificazione

• concetto di tavolo (Miller, Johnson-Laird)– i tavoli non hanno una forma canonica (come gli umani)– è possibile riconoscere tavoli di forme mai viste prima

• un manufatto è identificato come membro di una categoria perché le sue proprietà visibili sono appropriate per una funzione particolare– capacità di “vedere” le potenzialità inerenti al manufatto– Es. tavolo: superficie su cui appoggiare utensili

• riconoscimento avanzato (nessun programma)– dalla forma alla funzione, e dalla funzione alla forma– eccezioni: forma funzione (regalo misterioso)

Riconoscimento visivo e neuropsicologia

• distinzione tra i meccanismi preposti alla percezione della forma e della funzione (Warrington)

– danno al lobo parietale sinistro:• compromessa capacità di riconoscere la funzione di un oggetto• intatta la capacità di percepirne la forma a 3-D

– danno al lobo parietale destro (effetti opposti)

• doppia dissociazione tra due capacità– capacità controllate da moduli differenti: possono essere

compromesse in maniera indipendente– i risultati sperimentali confermano la distinzione tra i

meccanismi percettivi sottostanti a forma e funzione

• conclusione: il riconoscimento visivo esiste!

Conclusioni generali sulla visione

• problema della visione: quali oggetti hanno provocato le configurazioni luminose sulla retina?– più scene possono causare la stessa configurazione

• la mente sembra lavorare con due tipi di conoscenza– bottom-up (modulo di basso livello)

• nasce dall’evoluzione, è incapsulata nel sistema nervoso• questo livello non è molto influenzato dal controllo conscio

– top-down (modulo di alto livello)• acquisita dall’individuo, conoscenza esplicita, accessibile• consapevolezza (e non) dell’uso di tale conoscenza (inferenza)

Percezione pura e cognizione

• approccio computazionale adeguato data l’immediatezza della percezione?

• dov’è il confine tra percezione pura e cognizione?– Marr: tra lo schema a 2-D e 1/2 e il modello a 3-D– dati neuro: tra il modello a 3-D e l’identificazione degli

oggetti e delle loro funzioni

• soltanto due certezze– le informazioni sulla profondità relativa non si possono

recuperare senza vincoli innati– l’identificazione non può avvenire senza utilizzare

conoscenze personali