45
Computergrafik 2: Objekt-/Bilderkennung Prof. Dr. Michael Rohs, Dipl.-Inform. Sven Kratz [email protected] MHCI Lab, LMU München Folien teilweise von Andreas Butz, sowie von Klaus D. Tönnies (Grundlagen der Bildverarbeitung. Pearson Studium, 2005.)

LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2: Objekt-/Bilderkennung

Prof. Dr. Michael Rohs, Dipl.-Inform. Sven Kratz [email protected]

MHCI Lab, LMU München

Folien teilweise von Andreas Butz, sowie von Klaus D. Tönnies

(Grundlagen der Bildverarbeitung. Pearson Studium, 2005.)

Page 2: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 2 Rohs / Kratz, LMU München

Vorlesungen Datum Thema

24.4. Einführung, Organisatorisches (Übungen, Klausur) 1.5./8.5. keine Vorlesungen (wegen 1. Mai und CHI-Konferenz)

15.5. Abtastung von Bildern, Punktbasierte Verfahren der Bildverbesserung 22.5. Licht, Farbe, Farbmanagement

30.5. Konvolution, Filterung im Ortsraum (Verschiebung wegen Pfingstdienstag)

5.6. Fouriertransformation: Grundlagen 12.6. Filterung im Frequenzraum 19.6. Kanten, Linien, Ecken 27.6. Segmentierung

3.7. Segmentierung, Morphologische Operationen 10.7. Klassifikation 17.7. Image Matching 24.7. Klausur (Hörsaal M 018 im Hauptgebäude, 14-16 Uhr)

Page 3: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 3 Rohs / Kratz, LMU München

Themen heute

•  Objekt-/Bilderkennung •  Lokale Merkmale •  Skalenraum •  Scale Invariant Feature Transform (SIFT)

Page 4: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 4 Rohs / Kratz, LMU München

OBJEKT-/BILDERKENNUNG

Page 5: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 5 Rohs / Kratz, LMU München

Objekt und Bilderkennung

•  Identifikation von Objekten, Szenen, Teilbildern •  Bestimmung von Parametern

–  Position, Größe, Orientierung, etc.

•  Bildregistrierung: Transformation berechnen, um zwei Bilder der selben Szene in Übereinstimmung bringen

–  unbekannte Perspektivenänderung der Kamera

•  Anwendungen –  Visuelle Suche: Finden ähnlicher Bilder zu einem Anfragebild –  Automatisierung und Qualitätskontrolle in der Industrie –  Lokalisierung –  Panoramabilder –  Augmented Reality

Page 6: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 6 Rohs / Kratz, LMU München

Server-based Image Recognition

Source: Rahul Swaminathan, T-Labs

Page 7: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 7 Rohs / Kratz, LMU München

•  Landmark recognition under varying illumination and pose –  Time of day, weather conditions

•  Creating landmark database –  Keeping database up-to-date

•  Location to restrict search space –  GPS, GSM cell id

•  Applications –  Advertisements –  Museum guide –  Tourist guide

Server-based Image Recognition

Source: Rahul Swaminathan, T-Labs

Page 8: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 8 Rohs / Kratz, LMU München

Visual Search

•  Camera phones recognize the world around us •  Example: Google Goggles for Android

–  Visual search queries for the Web –  Recognizes a wide range of artifacts –  Text translation

•  Privacy?

Page 9: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 9 Rohs / Kratz, LMU München

Markerless Tracking for Mobile Devices

•  Daniel Wagner et al.: Pose Tracking from Natural Features on Mobile Phones. ISMAR 2008.

–  Real-time tracking of natural features on planar targets

–  FAST corner detector –  Not fully scale invariant

Page 10: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 10 Rohs / Kratz, LMU München

OBJEKT-/BILDERKENNUNG MIT LOKALEN MERKMALEN

Page 11: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 11 Rohs / Kratz, LMU München

Objekt-/Bilderkennung durch lokale Merkmale

Bildquelle: Schmid, Mohr: Local Grayvalue Invariants for Image Retrieval. PAMI, 19(5):530-534, 1997.

( ) lokaler

Deskriptor

•  Charakteristische Orte im Bild (“interest points”)

–  charakteristisch, unverwech- selbar, hoher Informationsgehalt

–  stabil lokalisierbar –  robust gegenüber Veränderung

der Perspektive, Helligkeit, etc.

•  lokale Deskriptoren, Merkmalsvektoren –  beschreiben / repräsentieren charakteristische Orte im Bild –  robust / invariant gegenüber Veränderung der Perspektive,

Helligkeit, Translation / Rotation / Skalierung, etc. –  effizient berechenbar

•  Vorteil: teilweise Verdeckung unproblematisch

Page 12: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 12 Rohs / Kratz, LMU München

Objekt-/Bilderkennung durch lokale Merkmale

Bildquelle: Schmid, Mohr: Local Grayvalue Invariants for Image Retrieval. PAMI, 19(5):530-534, 1997.

•  Finden von ähnlichen Bildern 1.  Charakteristische Orte extrahieren (z.B. Harris Corner-Detektor) 2.  lokale Deskriptoren (Merkmalsvektoren) berechnen 3.  korrespondierende Deskriptoren in anderen Bildern finden 4.  Bild mit den meisten Treffern auswählen à Korrektheit?

Page 13: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 13 Rohs / Kratz, LMU München

Stitching Panoramic Images

•  PhotoSynth, MSR –  Tools to create and view

panoramic images –  http://photosynth.net –  Capture multiple images

from single location

•  Alternative: Capture images with camera phone walking around object

–  http://www.technologyreview.com/computing/37021/?a=f

Page 14: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 14 Rohs / Kratz, LMU München

Stitching Panoramic Images

http://www.youtube.com/watch?v=tXCobp1ViS0

Page 15: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 15 Rohs / Kratz, LMU München

Zhang et al. 1994: Matching Corners

Bildquelle: Zhang, Deriche, Faugeras, Luong: A Robust Technique for Matching Two Uncalibrated Images Through the Recovery of the Unknown Epipolar Geometry. Technical Report, INRIA, 1994.

•  Bildregistrierung mit Hilfe lokaler Merkmale –  Bildregistrierung: Transformation berechnen, um zwei Bilder

der selben Szene in Übereinstimmung bringen –  unbekannte Perspektivenänderung der Kamera

•  Finden von korrespondierenden Punkten in den Bildern –  Harris Corner-Detektor –  Template-Matching durch Korrelation an den Ecken

Page 16: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 16 Rohs / Kratz, LMU München

Zhang et al. 1994: Matching Corners

•  Template-Matching: Skalierung? Rotation? Bildquelle: Zhang, Deriche, Faugeras, Luong: A Robust Technique for Matching Two Uncalibrated Images Through the Recovery of the Unknown Epipolar Geometry. Technical Report, INRIA, 1994.

Page 17: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 17 Rohs / Kratz, LMU München

Schmid & Mohr 1997: Rotationsinvarianz

•  Finden von korrespondierenden Punkten in den Bildern –  Harris Corner-Detektor –  Rotationsinvariante Merkmale (Kombinationen von Gaußablei-

tungen, z.B. quadrierte Gradientenlänge, Laplace-Operator)

•  Rotationsinvarianz, keine Skalierungsinvarianz

•  Voting zum Finden des ähnlichsten Bildes –  Bilder in Datenbank nummeriert 1..k –  Merkmalsvektor j für Bild i in Datenbank gespeichert als (mij,i) –  Für alle Merkmale m im Anfragebild:

Falls Distanz d(m, mij) < t, dann erhält Bild i eine Stimme –  Auswahl des Bildes mit den meisten Stimmen à (Korrektheit? Effizienz?)

Schmid, Mohr: Local Grayvalue Invariants for Image Retrieval. PAMI, 19(5):530-534, 1997.

Page 18: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 18 Rohs / Kratz, LMU München

SKALENRAUM

Page 19: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 19 Rohs / Kratz, LMU München

Robustheit des Harris Corner Detektors

•  Invariant gegenüber Helligkeitsänderungen •  Invariant gegenüber Translation und Rotation

•  Nicht invariant gegenüber Skalierung

skalieren

Kante Ecke

Slide and illustration adapted from Bern Girod, Digital Image Processing

Page 20: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 20 Rohs / Kratz, LMU München

Repeatability •  Starke Abhängigkeit

des Harris-Detektors von der Skalierung:

0%

20%

40%

60%

80%

100%

0 0.2 0.4 0.6 0.8 1

Page 21: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 21 Rohs / Kratz, LMU München

•  Bestimmung der charakteristischen Größe eines „interest points“

•  Kombiniert Harris-Corner-Detection mit Laplace-Operator

•  Harris-Laplace-Methode –  Berechnung des Skalenraums für das Bild –  Berechnung von Harris-Corners

für jede Skalierung à interest points –  Berechnung der zweiten Ableitung

(Laplace-Operator) an den interest points –  Auswahl von Harris-Corners, die lokales Maximum

entlang der Skalierungs-Achse aufweisen

Mikolajczyk, Schmid: Indexing Based on Scale Invariant Interest Points. ICCV 2001, pp. 525-531

...

Gewichtungen

*1/16Reduce-Operationfür eine Bildzeile

Bildzeile

1 46 14

Bild: K.Tönnies, Grundlagen der Bildverarbeitung

Skalierungsinvarianz durch Harris-Laplace-Methode

Page 22: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 22 Rohs / Kratz, LMU München

Multiskalen-Repräsentation eines Signals

•  Glätten eines 1D-Signals mit Gaußfiltern •  Gröbere Strukturen auf größeren Skalierungsstufen

Andrew P. Witkin: Scale-Space Filtering. IJCAI, pp. 1019-1022, 1983.

σ

t σ1

σ2

σ3

σ4

… σ

t

Signal f (Multiskalen-Repr.): zweite Ableitung fxx = 0:

Page 23: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 23 Rohs / Kratz, LMU München

Multiskalen-Repräsentation eines Bildes

•  Glätten eines 2D-Signals mit Gaußfiltern •  Gröbere Strukturen auf höheren

Skalierungsstufen

σ

x

σ1

σ2

σ3

y

Bild (Multiskalen-Repr.):

Page 24: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 24 Rohs / Kratz, LMU München

•  Charakteristische Skalierung eines Merkmals ist lokales Extremum des Laplacian of Gaussian (LoG) Operators

Bild: Mikolajczyk, Schmid: Indexing Based on Scale Invariant Interest Points. ICCV 2001, pp. 525-531

charakteristische Skalierung: σ = 10.1 (links) σ = 3.90 (rechts)

“blob detector”

LoG-Operator:

Charakteristische Skalierungsstufe

Page 25: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 25 Rohs / Kratz, LMU München

LoG-Operator:

Skalenraum: Betrag des LoG-Operators

σ 2 fxx (x, y,σ )+ fyy (x, y,σ )( )

Page 26: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 26 Rohs / Kratz, LMU München

Harris-Laplace-Methode (Mikolajczyk, Schmid, 2001)

•  Berechnung des Skalenraums •  Berechnung von Harris-Corners

für jede Skalierung à interest points C(x,y,σi) > th ∧ C(x,y,σi) > C(xw,yw,σi) mit (xw,yw) 8-Nachbarn

•  Berechnung der zweiten Ableitung (LoG-Operator) an den interest points

•  Auswahl von Harris-Corners, die lokales Maximum des LoG entlang der Skalierungs-Achse aufweisen L(x,y,σi) > tl ∧ L(x,y,σi) > L(x,y,σi-1) ∧ L(x,y,σi) > L(x,y,σi+1)

•  Normalisierung bzgl. Skalierung notwendig

σ

x

y Harris

Harris

Harris

σ1

σ2

σ3

Page 27: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 27 Rohs / Kratz, LMU München

Skalenraum: Betrag des DoG-Operators

•  DoG ist effiziente Näherung für LoG

f (x, y,σ n−1)− f (x, y,σ n )( ) = f (x, y)*G(σ n−1)− f (x, y)*G(σ n )( )

Page 28: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 28 Rohs / Kratz, LMU München

David Lowe: SIFT Interest Points •  SIFT = Scale Invariant Feature Transform •  DoG-Operator für Lokalisierung in Bild und Skalierung

–  DoG ist effiziente Näherung für LoG –  Interest points sind Maxima und Minima in 3D-Nachbarschaft

Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999.

x ist interest point, falls DoG(x) größer/kleiner als alle 26 Nachbarn

Page 29: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 29 Rohs / Kratz, LMU München

Robustheit gegenüber Skalierung

•  Harris-Laplacian hat höhere repeatability als SIFT

Harris-Laplacian

SIFT

Harris-standard

Mikolajczyk, Schmid: Indexing Based on Scale Invariant Interest Points. ICCV 2001, pp. 525-531

Page 30: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 30 Rohs / Kratz, LMU München

FEATURE DESKRIPTOREN (MERKMALSVEKTOREN)

Page 31: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 31 Rohs / Kratz, LMU München

David Lowe: Skalierungsinvariante lokale Merkmale (SIFT) •  Lokales Koordinatensystem um interest point

–  invariant gegenüber Translation, Rotation, Skalierung

David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999.

Page 32: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 32 Rohs / Kratz, LMU München

David Lowe: Skalierungsinvariante lokale Merkmale (SIFT)

David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999.

•  Skalierungsinvarianz –  Bestimme charakteristische Skalierung für jedes Merkmal

•  Rotationsinvarianz –  Ausrichtung des lokalen patches entsprechend der dominanten

Orientierung der Gradienten –  Histogramm der Gradientenorientierungen im lokalen patch

•  Auswahl der Maxima im Histogramm •  falls mehrere Maxima: ein Merkmalsvektor

für jedes Maximum •  falls zu viele Maxima: Unterdrücken des Punktes

0

20000

40000

60000

80000

100000

120000

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34

Page 33: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 33 Rohs / Kratz, LMU München

SIFT Merkmalsvektor

•  patch: 16x16 „pixel“ im lokalen Koordinatensystem des interest points

–  Koordinatensystem lokalisiert in x, y, Skalierung, Orientierung

•  4x4 Orientierungshistogramme mit je 8 Orientierungen –  Gewichtet mit Gradientenlänge und Distanz zum Zentrum

à 128 Dimensionen

Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999.

Page 34: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 34 Rohs / Kratz, LMU München

Bilderkennung mit SIFT

Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999.

Page 35: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 35 Rohs / Kratz, LMU München

SIFT for Mobile Devices [Wagner at al.]

•  Variant of SIFT with 36 component feature vector –  Less computation (original feature vector: 128 components)

•  Efficient computation of interest points –  Variant of FAST corner detector

•  Process template at multiple scales

Daniel Wagner, Gerhard Reitmayr, Alessandro Mulloni, Tom Drummond, Dieter Schmalstieg: Pose Tracking from Natural Features on Mobile Phones. Proc. ISMAR 2008.

Page 36: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 36 Rohs / Kratz, LMU München

Interest Points

•  Choose interest points –  Can be precisely located in images –  Robust and repeatable under changing

lighting, perspectives, sizes, rotations –  Surrounding patch descriptive for the image

•  Corners are well localized & robust

•  Corners:

•  No corners:

•  Corner detection –  Idea: “It’s a corner if it’s not part of a straight line” –  Can be implemented efficiently

Page 37: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 37 Rohs / Kratz, LMU München

Mobile SIFT: Feature Descriptors

•  Inspect 15x15 pixel patch around corner point •  Compute gradient magnitudes and orientations

–  Convolution with a derivative of Gaussian kernel

•  Orientation histogram with 36 buckets (each covering 10°)

Original image: Gradient magnitudes: Gradient orientations:

θ large mag. small mag.

0

20000

40000

60000

80000

100000

120000

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34

Page 38: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 38 Rohs / Kratz, LMU München

Mobile SIFT: Feature Descriptors

•  Compute dominant orientations (within 80% of max) –  Weighted by distance patch center –  Discard feature if too many orientations

•  Rotate patch to each dominant orientation

Page 39: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 39 Rohs / Kratz, LMU München

Mobile SIFT: Feature Descriptors

•  Patch rotated to dominant orientation •  Create 3x3x4-component SIFT vector

–  9 sub-regions (3x3 patches) –  4 orientations

•  For 3x3 sub-patches with 5x5 pixels each –  Compute gradient magnitudes and orientations –  Compute orientation histogram with 4 buckets (each covering 90°) –  Normalize feature vector (length 1) –  Limit longest component to 0.2, renormalize

Example feature vector with 36 components:

Page 40: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 40 Rohs / Kratz, LMU München

Mobile SIFT: Scale Space for Template

•  Compute SIFT features for multiple scales •  Allows recognizing features over wider range of scales

Scale 0 Scale 1 Scale 2 Scale 3 Scale 4

Scale space pyramid width(i+1) = width(i) / sqrt(2)

Page 41: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 41 Rohs / Kratz, LMU München

Mobile SIFT: Feature Matching

•  SIFT features are robust to perspective distortion –  Each individual feature relatively weak

(about <30% correct matches)

•  Find best feature matches –  Given query descriptor, find closest descriptor in template –  Distance measure: sum of squared differences (ssd) –  Match: pairs of SIFT features in camera image and template

(minimum ssd) –  Search: very time consuming for linear search, use approximate

nearest neighbor KD tree •  [Marius Muja and David G. Lowe. Fast approximate nearest neighbors with

automatic algorithm configuration. International Conference on Computer Vision Theory and Applications (VISAPP), Lisbon, Portugal, Feb. 2009.]

•  [Silpa-Anan, Hartley: Optimised KD-trees for fast image descriptor matching. CVPR 2008.]

Page 42: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 42 Rohs / Kratz, LMU München

0

10

20

30

40

50

60

70

80

-180 -130 -80 -30 20 70 120 170

Mobile SIFT: Feature Matching

•  Found feature matches may be wrong –  Patches may not correspond, even though descriptor very close

•  Removing outliers from feature matches

•  Orientation difference test –  For all matches compute orientation differences –  Remove all matches ≥ ±30° from histogram peak –  Works best for planar scenes

Page 43: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 43 Rohs / Kratz, LMU München

Mobile SIFT: Feature Matching

•  Line test –  Select two “good” (small ssd) matches: (fq1, ft1), (fq2, ft2) –  Compute line lq through (fq1, fq2) in query image –  Compute line lt through (ft1, ft2) in template image –  For other matches (q,t): position of q to lq should be same as t to lt –  Measure number of inliers for (lq, lt) –  If inlier rate >70% then assume line is correct

and remove outlier matches

Query image Template image

lq lt

fq1 ft1 match

fq2 ft2 match

Query image Template image

fq2

fq1

ft2

ft1 lq

lt

match

match

match match q t

t q

Page 44: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 44 Rohs / Kratz, LMU München

Matching Images in large Databases

•  Scalability –  Find matching image in large database

•  Methods from document retrieval –  Compute clusters of descriptors

(“visual words”) –  Weight descriptor by frequency in

image and inverse frequency across images

–  Term Frequency Inverse Document Frequency (TF-IDF)

–  [Nister, Stewenius: Scalable Recognition with a Vocabulary Tree. CVPR 2006.]

Vocabulary trees:

Page 45: LMU München - Computergrafik 2: Objekt-/Bilderkennung · 2020. 10. 1. · Quelle Abb.: David G. Lowe: Object Recognition from Local Scale-Invariant Features. Proc. of ICCV 1999

Computergrafik 2 – SS2012 45 Rohs / Kratz, LMU München

THE END