Scale Invariant Feature Transform...

Keypoint detector:

Scale Invariant Feature

Transform (SIFT)

David G. Lowe,“Distintive Image Features from

Scale-Invariants Keypoints”, International Journal of

Computer Vision, 2004

Outline

• Cosa è SIFT

• Overview dell’Algoritmo

• Applicazioni

• Per descrivere oggetti in immagini è utile determinare la

forma di ogni oggetto

• data l’immagine di un oggetto si possono determinare i

punti di interesse (KEYPOINTS), ovvero punti con un alto

contenuto di informazione.

• la forma di un oggetto può essere rappresentata/

caratterizzata da un insieme di keypoints.

• Invarianza a scala.

• Invarianza a rotazione.

• Invarianza a traslazione.

• Invarianza a illuminazione.

Un keyoint detector deve essere

stabile: forme uguali in immagini

diverse devono avere gli stessi

keypoint. Requisiti sono quindi:

• Determina i keypoints in una immagine e le caratteristiche

locali associate ad essi.

• I keypoints (e le caratteristiche associate) sono:

• Invarianti a traslazione rotazione e scala.

• Invarianti a cambiamenti di illuminazione e punti di vista.

Scale Invariant Feature Transform (SIFT)

Regioni in cui vengono calcolate le caratteristiche mediante SIFT

VANTAGGI DI SIFT

• STRUTTURA: le caratteristiche estratte da SIFT associano ai

keypoints le informazioni relative alla struttura locale di

intorni dei keypoints stessi. I keypoints da soli non fornirebbero

sufficiente informazione riguardo alla forma.

• LOCALITA’: le caratteristiche sono locali e quindi robuste a

rumore e occlusioni.

• ALTAMENTE DISCRIMINANTI: forme diverse hanno

keypoints e caratteristiche associate molto diverse.

• QUANTITA’: anche per oggetti piccoli vengono generate

molte caratteristiche. La forma viene esaustivamente

descritta.

• EFFICIENZA: la computazione delle caratteristiche è veloce.

Overview dell’algoritmo

• Costruire una rappresentazione in spazio-frequenza

• Tramite la funzione DoG (Difference of Gaussian).

• Localizzazione dei massimi e minimi (keypoints) nella

rappresentazione in spazio-frequenza.

• Eliminazione dei punti non stabili o non significativi.

• Determinazione dell’orientazione dei keypoints

• Una o più orientazioni per ogni keypoints.

Descrizione del keypoint e del suo intorno

• Si utilizzano gradienti locali dell’immagine.

Costruzione dello spazio multi scala

• La rappresentazione multi-scala di una immagine I(x,y) è definita

tramite la funzione

• Si ottiene applicando all’immagine I(x,y) il kernel di convoluzione

gaussiano a diverse scale

),(),,(),,( yxIyxGyxL

222 2/)(

yxeyxG

Definizione di rappresentazione “multi scala” data da

Koenderink e Lindeberg (1984 e 1994)

Diversi livelli della rappresentazione multi-scala di una immagine

per diversi valori di scala = 0,2,8,32,64,128; a fianco sono

indicati i minimi locali

• L’individuazione di strutture in una rappresentazione multi

scala avviene tramite la convoluzione con gaussiane seguita

da filtri derivativi specifici adatti alla struttura da localizzare (ad es.: laplaciani per localizzare gli angoli e le regioni circolari)

• In SIFT i keypoints sono localizzati cercando gli estremi nella

funzione D ottenuta come Differenza di Gaussiane (DoG).

),()),,(),,((),,( yxIyxGkyxGyxD ),,(),,( yxLkyxL

SCELTA PERCHE’:

• Approssima bene 22G, il laplaciano della gaussiana

normalizzata con la scala 2 proposto da Koenderink, Lindeberg

• La normalizzazione del laplaciano con fattore 2 è richiesta per avere

invarianza rispetto alla scala (Lindeberg, 1994).

• I massimi e minimi di 22G producono le caratteristiche più efficienti

e stabili se comparati ad altre funzioni quali gradiente, hessiana, Harris

corner function (Mikolajczyk, 2002).

• Approssimando ∂G/∂σ con le differenze finite si ha che:

• Quando D si ottiene con scale che differiscono di un fattore

COSTANTE k, incorpora direttamente la normalizzazione di

scala con fattore σ2 che garantisce l’invarianza di scala.

GkyxGkyxG 22)1(),,(),,(

yxGkyxGG ),,(),,(G

yxGkyxG 2),,(),,(

Approssimazione con DoG del Laplaciano

della gaussiana normalizzata con la scala

Sotto campionamento + filtro G(x,y, 2σ)

Rappresentazione spazio-frequenza

Per passare alla ottava successiva si sottocampiona

l’immagine filtrata con gaussiana a scala 2σ

Immagini nella

rappresentazione spazio-

frequenza

first octave

second octave

third octave

fourth octave

VARIAZIONE DI

SPAZIO (sotto

campionamento)

Differenza di Gaussiane

UTILIZZO DI FILTRI GAUSSIANI

DIFFERENZA DI FILTRI GAUSSIANI

Mette in

evidenza le

frequenze,

i dettagli

dell’immagine

Mette in

evidenza le

frequenze,

l’immagine

Localizzazione degli estremi o keypoint

• Ogni pixel dell’immagine (indicato con X) viene selezionato

solo se è un minimo o un massimo rispetto a un intorno 3x3

nella stessa immagine e nelle scale precedente e successiva.

DoG scale spaceMassimi e Minimi

Scelta del valore iniziale di σ

• Aumentando σ aumenta la robustezza, ma aumenta il

costo computazionale.

• σ = 1.6 è un buon tradeoff.

• Le dimensioni dell’immagine originale sono raddoppiate

mediante interpolazione lineare per ottenere la base della

piramide

• Esperimenti sulla stabilità dei keypoint (al variare di scala,

orientazione);

• Esperimenti sul numero numero di keypoint per immagine;

Localizzazione accurata dei keypoints mediante

fitting di una funzione quadratica

Localizzazione accurata dei keypoint

• Fitting di una funzione quadratica nell’intorno locale dei

keypoint 3D X=(x,y,) per ottenere la loro precisa

localizzazione.

• Si usa l’espansione di Taylor (traslata in modo che il keypoint

sia nell’origine, X è lo spostamento da valutare).

• Per trovare gli estremi pongo a 0 la derivata rispetto a X

ottenendo:

Ciò si ottiene risolvendo un sistema 3x3

DDDD T

• Per risolvere approssimo le derivate con le differenze finite

• La soluzione è lo scostamento dal keypoints (origine della

espansione): se una delle sue dimensioni è > 0.5, il keypoint trovato

non è un estremo => si sposta il keypoint e si ripete il processo.

• Si eliminano keypoint che corrispondono a regioni a basso

contrasto: non contengono informazione discriminante;

• usando equazione di prima:

• Se | D(X) | < 0.03, elimina il keypoint.

Si eliminano keypoint su picchi poco definiti o keypoint sui bordi:

curvature principali date dalla matrice hessiana:

• Calcola il rapporto delle curvature principali R=

• Se il R > (r+1)2/(r), elimina il keypoint (SIFT usa R=10).

Eliminazione dei keypoint meno significativi

xyyyxx

DDDHDet

Trace(H)2

Determinante(H)

Estremi della

rappresentazione

spazio-frequenze

Rimozione dei

punti a basso

contrasto

Rimozione dei

punti sui bordi

Eliminazione dei keypoint meno significativi

Orientazione del keypoint (K) sulla base delle proprietà locali

• La scala K del keypoint è usata per selezionare l’immagine

gaussiana L(x,y,) con la scala più vicina

• Per ogni pixel (x,y) nell’intorno di K si calcola il modulo e

l’orientazione del gradiente:

))),1(),1(/())1,()1,(((2tan),(

))1,()1,(()),1(),1((),( 22

yxLyxLyxLyxLayx

yxLyxLyxLyxLyxm

Al keypoint K viene associata una orientazione al fine di

ottenere invarianza a rotazione.

• Ogni (x,y) viene pesata per m(x,y)

e da una finestra gaussiana

circolare con =1.5 K

• Istogramma diviso in 36 bins (per coprire i 360).

• Il picco dell’istogramma è l’orientazione del keypoint K

(orientazione dominante nell’intorno locale).

• Le altre orientazioni dominanti sono quelle che sono pari

a 80% della principale: per ognuna di esse viene creato

un keypoint con la propria orientazione e modulo.

• Se ho due picchi della stessa altezza ho due keypoint

uguali che differiscono solo per l’orientazione.

Istogramma delle orientazioni

KEYPOINT CON ORIENTAZIONE E SCALA

Se si ruota e si scala l’immagine i keypoint persistono e

l’orientazione è la stessa.

• Ogni keypoint ha associate 3 informazioni: (x,y,θK, K)

• Posizione nell’immagine: serve a definire l’intorno

locale che contiene l’informazione rilevante;

• Scala dell’immagine in cui è stato determinato:

• serve a scegliere l’immagine Gaussiana L(x,y, K) da cui

estrarre le informazioni;

• Orientazione:

• serve ad ottenere un descrittore invariante a rotazioni;

DESCRITTORE DEL KEYPOINT

Contiene le informazioni locali di una

regione di interesse nell’immagine

Descrittore del keypoint K

• Per ogni pixel nell’intorno di K in L(x,y, K) computa

l’orientazione (x,y) e il modulo m(x,y) del gradiente.

• Ruota i gradienti e le coordinate degli elementi dell’intorno

in modo che l’orientazione del keypoint coincida con l’asse

• Suddividi la regione in sotto-regioni e crea un istogramma

delle orientazioni per ogni sottoregione

• Si pesano le (x,y) con m(x,y) e con una finestra gaussiana

circolare con =1.5 K (TUTTO COME PRIMA!), cosìcche:

• si da meno importanza a quei gradienti che sono lontani

dal keypoint che è centro del descrittore;

• si evitano bruschi cambiamenti di orientazione dovuti a

un piccolo spostamento dell’intorno locale del keypoint.

Descrittore del keypoint

• L’intorno viene diviso in sottofinestre di NxN pixels e per

ognuna viene calcolato l’istogramma delle orientazioni (con P

orientazioni preferenziali).

• I risultati sperimentali migliori si hanno con finestre 4x4 e 8

orientazioni.

• Il descrittore è un vettore a 4x4x8 componenti.

• Normalizzazione del vettore a norma unitaria

• Per ridurre gli effetti di cambiamenti uniformi di

illuminazione

• Riduci a 0 tutti i valori sopra 0.2 e rinormalizza a norma

unitaria.

• Per ridurre gli effetti di cambiamenti non uniformi di

illuminazione

• 0.2 determinato sperimentalmente

• Riconoscimento di oggetti basato su IMMAGINI

• Si impara il modello dell’oggetto dall’immagine (o da un

insieme di immagini):

• si ottengono un insieme di caratteristiche dalle immagini;

• si crea una base dati di oggetti in cui ad ogni oggetto sono

associate le caratteristiche che lo descrivono.

Riconoscimento di Oggetti da immagini

Trovare i rasoi

IMMAGINE

Riconoscimento di oggetti

Un base dati di oggetti è composta

dai descrittori trovati da SIFT, per

ogni oggetto, in una (o più) sua

(sue) immagine.

Data una nuova immagine viene

applicato l’algoritmo SIFT per

trovare i keypoints e i loro

descrittori nell’immagine.

I descrittori più simili a quelli trovati

vengono cercati nella base dati

tramite l’algoritmo Nearest-

Neighbor.

Base dati Oggetti

Supponete che questi siano i

keypoints trovati e le corrispondenze

trovate con quelli nella base dati.

Supponiamo di volere riconoscere gli oggetti in una immagine di

test che contiene questi tre oggetti.

c’è un errore di matching tra i

keypoints sul pesce.

obj2obj3

Ogni keypoint in obj1, obj2,obj3 vota per un oggetto noto, a una

certa posizione, scala e orientazione.

obj1 3 voti

1 voto

0 voti

obj2 0 voti

4 voti

0 voti

Obj3 0 voti

0 voti

3 voti

Si considerano solo i gruppi di almeno 3 voti che identificano lo

stesso oggetto, con la stessa scala e la stessa orientazione.

Le informazioni date da questi voti sono usate per effettuare un

fitting geometrico dell’immagine al modello nella base dati.

Se l’esito del fitting non è preciso, le informazioni vengono

scartate.

Applicazioni di Riconoscimento di oggetti

Applicazioni per la localizzazione di oggetti

Scale Invariant Feature Transform...

Documents

75502390 Invariant Theory 1

Algoritmo SIFT

Phuong phap SIFT

ashamini@dena.kntu.ac.ir varshosazm@kntu.ac.ir msaadat@ut.acgej.issge.ir/article-1-123-en.pdf · invariant feature transform).i.ii.iii.iv ... Yokoy, N. and Yamazawa, K. (2000). "Construction

Scale-Invariant Feature Transform (SIFT) Jinxiang Chai

SIFT Algorithm Introduction

melt. beat. sift

invariant object recognition - Visnet

視覚的顕著性とパーツ特徴量に基づく屋内シーンの …ている．彼らは，物体上の特徴記述にSIFT（Scale-Invariant Feature Transform）8) を使用した．さら

web.icmc.usp.br · 2020-05-12 · Classification of quadratic differential systems with invariant hyperbolas according to their configurations of invariant hyperbolas and invariant

Fourier Analysis - TU Delft OCW · Fourier Analysis Continuous Fourier transform Discrete Fourier Transform and Sampling Theorem Linear Time-Invariant (LTI) systems and Convolution

Scale-Invariant Feature Transform (SIFT)

2015-10-201Zhongguo Liu_Biomedical Engineering_Shandong Univ. Biomedical Signal processing Chapter 5 Transform Analysis of Linear Time-Invariant Systems

SIFT 特征匹配技术

Specific Object Recognition using SIFT

Gradient-Based Musical Feature Extraction Based on Scale ... · GRADIENT-BASED MUSICAL FEATURE EXTRACTION BASED ON SCALE-INVARIANT FEATURE TRANSFORM Tomoko Matsui1, Masataka Goto1,2,

1 數位控制（三）. 2 z transform z transformation transforms linear difference equation into algebraic in s. Laplace transformation transforms linear time- invariant

SIFT Scale-Invariant-Feature-Transform Abschlusspräsentation Team Tim B. JaglaPatrick Nierath tim.jagla@st.ovgu.depatrick.nierath@st.ovgu.de

DES SEGMENTS PLOSIFS DE PAROLE · ESPRIT : Estimation of Signal Parameters via Rotational Invariant Techniques = Algorithme destimation spectrale FChT : Fan-Chirp Transform

Navigation anhand natürlicher Landmarken mit Hilfe der Scale Invariant Feature Transform Thorsten Jost INF-M2 – AW1 – Sommersemester 2008 27. Mai 2008