39
SVEU ˇ CILIŠTE U SPLITU FAKULTET ELEKTROTEHNIKE, STROJARSTVA I BRODOGRADNJE Poslijediplomski doktorski studij Elektrotehnike i informacijske tehnologije Kvalifikacijski doktorski ispit Pregled metoda za automatsku detekciju i prepoznavanje objekata na digitalnim slikama Split, 4. rujna 2012. Maja Braovi´ c, mag. ing.

Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

SVEUCILIŠTE U SPLITUFAKULTET ELEKTROTEHNIKE, STROJARSTVA I BRODOGRADNJEPoslijediplomski doktorski studij Elektrotehnike i informacijske tehnologije

Kvalifikacijski doktorski ispit

Pregled metoda za automatsku detekciju iprepoznavanje objekata na digitalnim slikama

Split, 4. rujna 2012. Maja Braovic, mag. ing.

Page 2: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Sadržaj

1 Uvod 4

2 Ljudska vizualna percepcija 52.1 Teorije vizualne percepcije . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1 Gestalt pristup percepciji . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.2 Ekološki (direktni) pristup percepciji . . . . . . . . . . . . . . . . . . 6

2.1.3 Konstruktivisticki pristup percepciji . . . . . . . . . . . . . . . . . . . 7

2.1.4 Racunalni pristup percepciji . . . . . . . . . . . . . . . . . . . . . . . 8

3 Umjetna vizualna percepcija 103.1 Analiza boje na slici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1.1 Histogram boja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1.2 Korelogram boja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1.3 Koherentni vektor boja . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1.4 Momenti boja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.2 Analiza teksture na slici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.2.1 Statisticke metode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.2.2 Geometrijske metode . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.2.3 Metode utemeljene na modelima . . . . . . . . . . . . . . . . . . . . . 12

3.2.4 Metode utemeljene na obradi signala . . . . . . . . . . . . . . . . . . 14

3.3 Analiza oblika na slici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.4 Lokalne znacajke slike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.4.1 Pregled metoda za detekciju lokalnih znacajki . . . . . . . . . . . . . . 18

3.4.1.1 Moravecov interesni operator . . . . . . . . . . . . . . . . . 18

3.4.1.2 Harrisov detektor . . . . . . . . . . . . . . . . . . . . . . . 18

3.4.1.3 Hessian detektor . . . . . . . . . . . . . . . . . . . . . . . . 21

3.4.1.4 Laplacian Gaussiana . . . . . . . . . . . . . . . . . . . . . . 21

3.4.1.5 Razlika Gaussiana . . . . . . . . . . . . . . . . . . . . . . . 23

3.4.1.6 Istaknute regije . . . . . . . . . . . . . . . . . . . . . . . . 24

3.4.1.7 SUSAN detektor . . . . . . . . . . . . . . . . . . . . . . . . 26

3.5 Globalne znacajke slike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Zakljucak 32

Popis oznaka i kratica 33

2

Page 3: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Literatura 34

3

Page 4: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

1 Uvod

Automatska detekcija i prepoznavanje objekata na digitalnim slikama predstavljaju najveceizazove s kojima se trenutno suocava podrucje racunalnog vida. Algoritmi digitalne obrade ianalize slike koji danas postoje uglavnom su orijentirani na automatsku detekciju i prepozna-vanje jednog ili ogranicenog skupa objekata ili kategorija, dok algoritam koji bi bio u stanjudetektirati i prepoznavati proizvoljne ili opcenite objekte ne postoji.

Unatoc razlicitim projekcijama koje 3D objekti iz stvarnoga svijeta mogu imati na 2Dpovršini slike, te unatoc eventualnom zaklanjanju objekata drugim objektima, promjenama uosvjetljenju scene ili neuobicajenom kontekstu unutar kojeg se objekti nalaze, ljudi ih opcenitomogu detektirati i prepoznati bez vecih poteškoca, a znanstvenici još uvijek nastoje objasnitikako im to uspijeva.

Tijekom povijesti, znanstvenici su probleme cesto nastojali riješiti pokušavajuci otkritinacin na koji ih rješava priroda. Bilo da se radi o promatranju leta ptica u svrhu izuma zrako-plova, ili o proucavanju ljudskog vida u svrhu izuma fotografskih aparata, priroda cesto nudinajbolja rješenja. Ovakav nacin razmišljanja preuzet je i u ovom radu, te se za rješavanje prob-lema automatske detekcije i prepoznavanja objekata na digitalnim slikama proucavaju teorijeljudske percepcije koje nastoje objasniti nacin na koji ljudi razumijevaju scene koje vide.

U drugom poglavlju ovog rada dan je pregled teorija koje nastoje objasniti ljudsku vizualnupercepciju. U trecem poglavlju dan je pregled metoda koje se tradicionalno koriste za au-tomatsku detekciju i prepoznavanje objekata na digitalnim slikama (poput analize boje, teks-ture, oblika, te lokalnih i globalnih znacajki slike), te koje se vecinom spominju u teorijamaljudske vizualne percepcije. U cetvrtom poglavlju donesen je zakljucak.

4

Page 5: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

2 Ljudska vizualna percepcija

Vizualna percepcija se može definirati kao proces interpretacije i organizacije vizualnih infor-macija [1]. Ljudi ovaj proces obavljaju nesvjesno, i u njemu su toliko dobri da se je godinamasmatralo kako taj proces sam po sebi zasigurno ne može biti složen. Složenost ovog problemapostala je ocita 1966. godine, kada su znanstvenici na MIT-u (engl. Massachusetts Instituteof Technology) svoje ljetne radnike zaposlili na projektu ciji je cilj bio preko ljeta racunalnoimplementirati znacajan dio ljudskog vizualnog sustava. Prijedlog projekta opisan je u [2], asloženi problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek su promijenilinacin na koji se danas razmišlja o ljudskom vizualnom sustavu. Godina 1966. oznacila je poce-tak razvoja racunalnog vida, no racunalna implementacija vizualnog sustava još uvijek (gotovo50 godina kasnije) ne postoji.

U posljednjih pedesetak godina došlo je do napretka i u znanosti o ljudskoj vizualnoj per-cepciji i u pokušaju njezine racunalne implementacije. Danas se smatra da se prepoznavanjeobjekata u ljudskom mozgu vrši putem niza refleksivnih i vecinom unaprijednih proracuna kojikulminiraju snažnom neuronskom reprezentacijom, no algoritam koji vodi do nje je slabo poz-nat [3], a teorija koja bi ga objasnila još uvijek nastavlja predstavljati izazov [4]. Da bi se stvarijoš više zakomplicirale, u racunarstvu su automatsko prepoznavanje svih objekata na nekojproizvoljnoj slici i razumijevanje onoga što ta slika prikazuje proglašeni AI-potpunim (engl.AI-complete) problemima. Rješavanje jednog takvog problema zahtijevalo bi ili bi omogucilorješavanje svih ostalih AI-potpunih problema, tj. dovelo bi do rješavanja središnjeg problemacitave umjetne inteligencije, a to je izrada racunala koje bi moglo imati ili nadmašiti ljudskuinteligenciju.

2.1 Teorije vizualne percepcije

Iako još uvijek ne postoji teorija koja bi na zadovoljavajuci nacin objasnila vizualnu percepciju,u nastavku teksta objašnjene su one teorije vizualne percepcije koje su se tijekom vremenaizdvojile od ostalih. Prve tri teorije spadaju u skupinu kognitivnih teorija vizualne percepcije,dok je posljednja racunalna teorija vizualne percepcije.

2.1.1 Gestalt pristup percepciji

Gestalt psihologiju osnovala su 1910. godine tri njemacka psihologa: Max Wertheimer, KurtKoffka i Wolfgang Köhler [5]. Njemacku rijec Gestalt nije lako prevesti, ali otprilike znaciforma ili konfiguracija [6]. Po Gestalt psihologiji, dijelovi se u percepciji ne tretiraju kaoodvojeni i izolirani entiteti [6], vec se grupiraju u cjeline (tzv. Gestalte). Pravila po kojimaljudski vizualni sustav vrši ova grupiranja nazivaju se principi ili zakoni grupiranja u Gestaltpsihologiji, a sam proces grupiranja naziva se percepcijsko grupiranje (engl. perceptual group-ing).

Neki od najcešce korištenih principa grupiranja u vizualnoj percepciji prikazani su u tablici2.1. Iz tablice 2.1 može se primijetiti da ljudi cesto nadopunjavaju stimulanse koji im dolazedo ociju i mozga dodatnim informacijama, što za posljedicu ima to da cesto vide nešto što ustvarnosti ne postoji (npr. slika 2.1).

5

Page 6: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Slika 2.1: Na lijevoj se slici vidi izobliceni trokut, iako on u stvarnosti ne postoji. Na srednjojse slici vide konture koje ljudi nesvjesno vide dok gledaju lijevu sliku, a na desnoj je slici

prikazan prvi plan lijeve slike i njezina pozadina. Preuzeto iz [7]

Tablica 2.1: Gestalt principi vizualne percepcije

Princip OpisPrincip slicnosti (engl.principle of similarity)

Elementi koji imaju slicne znacajke biti ce percipirani kao cjelinaodvojena od onih koji imaju manje slicne znacajke [8]. Znacajkekoje se pri tome promatraju su: boja, velicina, orijentacija [9],oblik i tekstura [10].

Princip blizine (engl.principle of proximity)

Elementi koji se prostorno ili vremenski nalaze u blizini jednidrugih percepcijski ce biti povezani [11], odnosno biti ce grupi-rani zajedno.

Princip zajednicke sud-bine (engl. principle ofcommon fate)

Elementi koji se istovremeno pomicu u istom smjeru i koji pritomimaju istu brzinu imaju tendenciju da budu grupirani zajedno [12].

Princip dobre kon-tinuiranosti (engl.principle of goodcontinuation)

Ovo je princip prostorne organizacije koji kaže da se susjednevizualne znacajke imaju tendenciju grupirati i formirati pro-duženu konturu kada su prostorno uskladene [13].

Princip zatvorenosti(engl. principle ofclosure)

Ako je to moguce, objekti ce percepcijski izgledati kao jednos-tavne zatvorene figure, a ne kao nedovršene figure [14]. Na prim-jer, ljudima ce neki 2D objekt sastavljen od isprekidanih linijaizgledati kao cjelina, a ne kao skup isprekidanih linija.

Princip površine (engl.principle of area, prin-ciple of figure/groundsegregation)

Ako se dvije površine preklapaju, manja ce percepcijski izgledatikao da je u prvome planu dok ce veca u tome slucaju predstavljatipozadinu [14].

Prägnanz ili principdobrog izgleda (engl.good figure)

Naziva se još i zakon jednostavnosti, te kaže da ce slike biti per-cipirane na takav nacin da su im strukture što je moguce jednos-tavnije [15].

2.1.2 Ekološki (direktni) pristup percepciji

Americki psiholog James Gibson (1904–1979) [6] zagovarao je teoriju poznatu pod nazivomekološki ili direktni pristup percepciji. Po Gibsonu, percepcija objekta ne ukljucuje samo per-cepciju njegovih vizualnih znacajki, vec i percepciju svega što taj objekt pruža (engl. affor-

6

Page 7: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

dances) [16], odnosno interakcija koje se mogu postici njegovim korištenjem.

Goldstein je u [16] naveo da je Gibson naglašavao cinjenicu da promatraci u stvarnomesvijetu nisu staticni, vec da neprestalno pomicu svoje oci, glavu ili tijelo. Kao posljedica tihpomaka i slike na retinama njihovih ociju se neprestalno mijenjaju. Unatoc tim promjenama,informacije na retinama ociju ostaju konstantne. Gibson je tu staticnost objasnio invarijantnimznacajkama (engl. invariant features) slike, tj. odredenim svojstvima slike koja su invari-jantna na transformacije slike ili na promjene u njezinom osvjetljenju. Primjeri takvih znacajkiukljucuju ravne linije, tocke, proporcije, gradijente teksture, itd.

Gibsonov znanstveni rad, cesto kontroverzan, imao je dubok utjecaj na današnju znanost.

2.1.3 Konstruktivisticki pristup percepciji

Po konstruktivistickom pristupu percepciji, percepcija je mnogo složenija no što je to pret-postavio Gibson [17] u svom ekološkom pristupu percepciji. U kriticne dijelove percepcijespadaju ocekivanja koja ljudi imaju, znanje, motivacije i osjecaji (tj. kontekst) [17], a ne samostimulansi koje dolaze do njihovih ociju i mozga. Za percepciju je dakle potrebno nešto višeod onoga što je predstavljeno u ekološkom pristupu percepciji.

Percepcija i inteligencija su u filozofiji i znanosti tradicionalno bile odvojene [18], no unovije vrijeme granica izmedu njih se je pocela brisati. Jedna od novijih (i kontroverznih)ideja koja prkosi tradicionalnom mišljenju jest da percepcija zahtijeva inteligentno rješavanjeproblema utemeljeno na znanju [18].

Britanski psiholog Richard Gregory (1923–2010) bio je zagovornik teorije ljudske percep-cije u kojoj nije važno samo ono što covjek trenutno vidi (tj. stimulansi koji dolaze do njegovihociju i mozga), vec i znanje koje je prikupio u prošlosti. Svojom se je teorijom nadovezaona rad Hermanna von Helmholtza (koji se je zagovarao za to da je ljudima potrebno znanje osvijetu da bi mogli razumijeti signale koji im dolaze do ociju [18]), te se usprotivio onoj kojuje predložio James Gibson. Smatrao je da je Gibson nijekao fenomene optickih iluzija te dapo njegovoj teoriji nije jasno kako ljudi mogu prepoznati nove objekte bez prethodnog znanja[18].

Gregory je, prilikom pokušaja razjašnjavanja nacina na koji ljudi vide, u [18] opisao dvatipa ljudske ’inteligencije’. Prvi tip takve inteligencije nazvao je potencijalna inteligencija,i ona se odnosi na znanje koje je covjek prikupio u prošlosti. Drugi tip takve inteligencijenazvao je kineticka inteligencija, i ona se odnosi na aktivnu obradu informacija. Što covjekposjeduje više znanja, tj. što mu je potencijalna inteligencija viša, za rješavanje problemapotrebno mu je manje kineticke inteligencije. U situacijama u kojima covjek posjeduje gotovopotpune odgovore na probleme, potencijalna inteligencija postaje dominantna. Tada proceszakljucivanja kod kojega se od cjeline zakljucuje o dijelovima (tzv. pristup odozgo premadolje) (engl. top-bottom approach) postaje dominantan nad pristupom kod kojeg se na temeljudijelova zakljucuje o cjelini (tzv. pristup odozdo prema gore) (engl. bottom-up approach), štoje možda upravo ono što se dogada i u ljudskom vidu.

Gregory je u svom znanstvenom radu veliku pažnju poklonio i pogreškama u percepciji(tzv. optickim iluzijama ili varkama). U [18] je objasnio da do takvih pogrešaka može docikada je znanje koje covjek posjeduje neprimjereno ili primijenjeno na pogrešan nacin. Primjerneprimjerenog znanja i rezultirajuce opticke iluzije prikazani su na slici 2.2, gdje znanje o tomeda su lica u prirodi gotovo uvijek konveksna nije primjereno u situaciji u kojoj se promatrarotirajuca maska. Detaljnije informacije o optickim iluzijama mogu se pronaci u [18, 19].

7

Page 8: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Slika 2.2: Primjer opticke iluzije. Na slikama je prikazana rotirajuca maska. Maska naposljednje dvije slike izgleda konveksno iako je u stvarnosti konkavna. Adaptirano iz [18]

2.1.4 Racunalni pristup percepciji

David Marr (1945–1980) bio je zagovornik racunalnog pristupa vizualnoj percepciji. Navizualnu je percepciju uglavnom gledao kao na problem koji se nalazi unutar podrucja obradeinformacija, te koji zapocinje sa velikim nizom intenziteta sive boje koji aproksimira sliku kojugledatelj vidi, a završava opisom koji ovisi o tom nizu i o svrsi koju mu pridoda gledatelj [20].

Algoritam za dobivanje opisa slike (tj. opisa niza intenziteta sive boje) koji bi bio pogodanza prepoznavanje 3D oblika Marr je opisao u [20]. Njegov se algoritam sastoji od tri koraka:prvobitne skice (engl. primal sketch), 21

2 -dimenzionalne skice (engl. 212 -sketch) i 3D modela.

Marr je u [20] objasnio da su scena i crtež te scene jako slicni, cak i unatoc potpuno ra-zlicitim slikama u razinama sive boje koje na temelju njih mogu nastati. Ovo znaci da simbolina crtežu koje je umjetnik nacrtao na neki nacin odgovaraju simbolima u stvarnome svijetu kojegledatelj vidi dok gleda scenu na temelju koje je crtež nacrtan. Marr je na temelju toga pred-ložio da bi se u prvobitnoj skici slika trebala transformirati u primitivan, ali bogat, opis nacinana koji se intenziteti mijenjaju unutar vidnog polja. Prvobitna se skica ne bi trebala racunatiza sve tocke, vec bi se mogla racunati za samo odredene tocke (npr. tocke lokalno niskogili visokog intenziteta). U racunalu bi prvobitna skica trebala predstavljati niz brojeva koji bisadržavali informacije o smjeru, velicini i prostornim razmjerima promjena intenziteta na slici.Uz ove informacije, trebala bi se zapamtiti i lokalna geometrija slike, odnosno polažaja tocakaza koje je izracunata prvobitna skica te njihov raspored medu neposrednim susjednim tockama.Nadalje, informacije koje se dobiju iz stereo vida (engl. stereopsis), pokreta (ako se anal-izira niz slika), kontura, teksture, boje i sjena na slici kombiniraju se u tzv. 21

2 -dimenzionalnuskicu koja predstavlja konture površinskih diskontinuiteta, te informacije o orijentaciji i du-bini površina na slici. No, unatoc svim ovim informacijama, iz položaja, velicine i orijentacijenekog oblika ne može se mnogo toga saznati o njegovoj 3D strukturi. Marr je stoga pred-ložio da se za oblike koji dopuštaju prirodan rastav na sastavne dijelove koji se mogu opisatipomocu svoga položaja, velicine i orijentacije, taj rastav i obavi (npr. slika 2.3). Tada bi rel-ativni prostorni raspored tih dijelova mogao pripomoci prepoznavanju oblika (npr. slika 2.4).Dodatne informacije o Marrovom racunalnom pristupu vizualnoj percepciji mogu se pronaciu [20, 21, 22], a o prepoznavanju objekata na temelju sastavnih dijelova od kojih se sastoje u[23].

8

Page 9: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Slika 2.3: Primjer rastava oblika na njegove sastavne dijelove. Adaptirano iz [20]

Slika 2.4: Ljudi mogu prepoznati oblike cak i kada su predstavljeni na jako jednostavan nacin,sve dok je relativni prostorni raspored njihovih sastavnih dijelova jednak onome koji postoji u

stvarnosti. Adaptirano iz [20]

9

Page 10: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

3 Umjetna vizualna percepcija

Pokušaj racunalne imitacije ljudske vizualne percepcije naziva se umjetna vizualna percep-cija. Iako trenutno ne postoji racunalni sustav koji bi u potpunosti imitirao ljudsku vizualnupercepciju, postoje sustavi koji implementiraju neke njezine dijelove (npr. sustavi za detek-ciju specificnih objekata, sustavi za prepoznavanje kategorije kojoj scena na slici pripada i sl.).Takvi sustavi kao ulaz primaju digitalnu sliku (ili niz digitalnih slika), i obicno se zasnivajuna analizi boje, teksture i oblika regija te slike, te na detekciji i analizi lokalnih i/ili globalnihznacajki te slike.

3.1 Analiza boje na slici

Ljudsko oko osjetljivo je na boje, a znacajke boje jedan su od najvažnijih elemenata kojiomogucavaju ljudima da prepoznaju slike [24].

Boja se obicno predstavlja pomocu histograma boja (engl. color histogram), korelogramaboja (engl. color correlogram), koherentnog vektora boja (engl. color coherence vector) imomenta boja (engl. color moment) pod odredenim prostorom boja [25].

3.1.1 Histogram boja

Huang et al. su u [26] naveli da histogrami boja opisuju globalnu distribuciju boja na slici.Lako ih je izracunati i nisu osjetljivi na male promjene u gledištu, medutim nedostatak im je tajšto ne ukljucuju prostorne informacije.

Nadalje, Wang i Chen su u [27] naveli da su histogrami boja invarijantni na rotaciju,translaciju i skaliranje. Nadalje, ako dvije slike imaju slicne histograme boje, te slike sve-jedno mogu izgledati vrlo razlicito. Ovaj se problem javlja zbog toga što se prilikom racunanjahistograma boja zanemaruju lokacije regija boja na slici.

3.1.2 Korelogram boja

Huang et al. su u [26] predstavili novu znacajku za indeksiranje i dohvacanje slika koju sunazvali korelogram boje. Korelogram boje se može upotrijebiti za opis globalne distribucijelokalne prostorne korelacije boje, jednostavno ga je izracunati, prilicno je malen i, za razliku odhistograma boja, ukljucuju prostornu korelaciju boja. Dakle, korelogram boja daje informacijeo tome kako se prostorna korelacija parova boja mijenja sa udaljenošcu.

Korelogram boja je, dakle, tablica indeksirana parovima boja, gdje k-ti element (engl. entry)za (ci,c j) specificira vjerojatnost pronalaska piksela boje c j na udaljenosti k od piksela boje cina slici [28].

3.1.3 Koherentni vektor boja

Pass i Zabih su u [29] opisali tehniku za usporedivanje slika koja se naziva rafiniranje his-tograma (engl. histogram refinement). Tom se tehnikom pikseli u odredenom stupcu (engl.bucket) dijele na više klasa, u ovisnosti o nekome lokalnom svojstvu (npr. teksturi, orijentaciji,

10

Page 11: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

udaljenosti od najbližeg ruba, itd.). Metoda koherentnih vektora boja je profinjeniji oblik rafini-ranja histograma u kojemu se svaki stupac histograma dijeli se na temelju prostorne koherent-nosti. Piksel se naziva koherentnim pikselom (engl. coherent pixel) ako je dio povece granicneregije (tj. ako pripada velikoj skupini piksela jednake boje), a nekoherentnim pikselom (engl.incoherent pixel) ako nije. Za odredenu diskretnu boju, neki ce pikseli biti koherentni, a nekinekoherentni. Ako za j-tu diskretnu boju postoji α j koherentnih piksela i β j nekoherentnih pik-sela, onda ce ukupni broj piksela te boje biti α j +β j. Koherentni vektor boja može se izrazitikao {(α1,β1), ...,(αn,βn)}, a histogram boja ce glasiti {α1 +β1, ...,αn +βn}.

U odnosu na histograme boja, koherentni vektori boja funkcioniraju mnogo bolje [30].

3.1.4 Momenti boja

Maheshwari et al. su u [31] momente boja opisali kao mjere koje se mogu upotrijebiti za ra-zlikovanje slika na temelju njihovih znacajki koje su vezane uz boju. Temelji ovoga pristupanalaze se u pretpostavci da se distribucija boje na slici može interpretirati kao vjerojatnosna dis-tribucija (engl. probability distribution). Vjerojatnosne distribucije su karakterizirane brojemjedinstvenih momenata (npr. normalne distribucije se razlikuju putem njihove sredine (engl.mean) i varijance). Dakle, ako boja na slici slijedi odredenu vjerojatnosnu distribuciju, onda semomenti te distribucije mogu koristiti kao znacajke na temelju kojih se ta slika može identifi-cirati na temelju boje.

3.2 Analiza teksture na slici

Petrou i Sevilla su u [32] teksturu definirali kao varijaciju u podacima koja se dogada na skalikoja je manja od skale interesa, te nadodali da je tekstura važna zbog dva razloga:

• može predstavljati smetnju u automatskim vizualnim sustavima (npr. algoritmi za detek-ciju objekata na temelju oblika bili bi zbunjeni postojanjem dodatnih linija koje teksturauzrokuje),

• može predstavljati važnu znacajku prilikom prepoznavanja objekata, jer sadrži neke in-formacije o materijalu od kojega je objekt napravljen.

Tuceryan i Jain su u [33] metode za analizu teksture podijelili na statisticke metode, ge-ometrijske metode, metode utemeljene na modelima (engl. model based methods) i metodeutemeljene na obradi signala (engl. signal processing methods).

Dodatne informacije o razlicitim metodama za analizu teksture mogu se pronaci u [33, 34,35].

3.2.1 Statisticke metode

Statistickim metodama za analizu teksture mjeri se prostorna distribucija vrijednosti piksela[35]. Primjeri tehnika koje pripadaju ovoj skupini metoda su histogrami drugoga reda (engl.co-occurrence matrices) i autokorelacijske znacajke [33].

Petrou i Sevilla su u [32] opisali histograme drugoga reda te objasnili da oni predstavljajujako bogate reprezentacije slike te da prenose informacije o istovremenom pojavljivanju dvijuvrijednosti u odredenoj relativnoj poziciji. Tekstura se uz pomoc (najcešce normaliziranog)

11

Page 12: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

histograma drugoga reda može prepoznati racunanjem njegovih odredenih znacajki, a od takvihsu znacajki najpoznatije energija, entropija, kontrast, korelacija i homogenost. Formule zaracunanje ovih znacajki mogu se pronaci u [32].

S druge strane, autokorelcijska funkcija definira se pomocu formule 3.1, i kao takva semože koristiti za karakteriziranje teksture na tri nacina: kao potpis teksture kojoj pripada, za-kljucivanjem o periodicnosti teksture, te izvlacenjem parametarskih znacajki iz nje [32].

ρ(x,y) =1

(Ni−|x|)(N j−|y|)∑i ∑ j I(i, j)I(i+ x, i+ y)

1NiN j

Ni∑

i=1

N j

∑j=1

I(i, j)2

(3.1)

gdje je [32]:

ρ(x,y) – autokorelacijska funkcija,I(i, j) – razina sive koja se nalazi na koordinatama (i, j),x,y – pomaci,Ni×N j – dimenzije slike.

3.2.2 Geometrijske metode

Tuceryan i Jain su u [33] naveli da geometrijske metode za analizu teksture karakterizira nji-hova definicija teksture za koju kažu da se sastoji od "elemenata teksture" ili primitiva (engl.primitives). Takve metode analize obicno ovise o geometrijskim svojstvima elemenata teksture,i mogu se podijeliti u dvije skupine: one pomocu kojih se racunaju statisticka svojstva pron-adenih elemenata teksture, te one koje pokušavaju pronaci tzv. pravilo rasporedivanja (engl.placement rule) koje opisuje teksturu. Primjeri geometrijskih metoda su znacajke dobivenepomocu Voronoijevog mozaika (engl. Voronoi tessellation features), te strukturalne metode.

U [33] je opisana metoda za pronalazak tokena teksture pomocu svojstava Voronoijevogmozaika slike. Primjeri tokena koji se na slici mogu pronaci su tocke visokog gradijenta isegmenti linija. Tokeni se sa ulazne slike u razinama sive boje pronalaze filtriranjem te slikepomocu Laplaciana Gaussiana (detaljnije u poglavlju 3.4.1.4), odabiranjem onih piksela kojina filtriranoj slici leže na maksimalnom lokalnom intenzitetu (promatra se susjedstvo od osamnajbližih piksela) i dobivanje binarne slike, te naposljetku provodeci analizu povezanih kom-ponenti (engl. connected component analysis) na binarnoj slici, gdje povezane komponentepredstavljaju primitive teksture ili tokene. Na temelju pronadenih tokena stvara se Voronoijevmozaik. Pronalaze se znacajke svake Voronoijeve celije, te se tokeni sa slicnim znacajkamagrupiraju zajedno kako bi formirali jednolike regije teksture. Detaljnije informacije o seg-mentaciji teksture pomocu Voronoijevog mozaika mogu se pronaci u [36].

Strukturalni model teksture pretpostavlja da se tekstura sastoji od primitiva teksture (tj.elemenata teksture koji obicno predstavljaju regije slike koje se sastoje od jednolike razine siveboje), te da je tekstura proizvedena rasporedivanjem tih primitiva pomocu odredenih pravilarasporedivanja [33].

3.2.3 Metode utemeljene na modelima

Tuceryan i Jain su u [33] opisali metode za analizu teksture koje su utemeljene na modelima, tenaveli da se takve metode temelje na izgradnji modela slika koji bi se mogli koristiti ne samo za

12

Page 13: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

opis teksture, vec i za njezinu sintezu. Primjeri metoda koji spadaju u ovu skupinu su metodenasumicnih polja (engl. random field models) i fraktali.

Fraktal je oblik koji ima jednaku strukturu na svim skalama i koji se, izmedu ostalog, možekarakterizirati fraktalnom dimenzijom [32]. Fraktalna dimenzija daje mjeru hrapavosti (engl.roughness) neke površine (što je fraktalna dimenzija veca, površina je hrapavija) [33]. Frak-talna dimenzija teksture može poslužiti kao znacajka koja tu teksturu karakterizira [32], pa semože koristiti za analizu teksture u obradi i analizi digitalne slike.

Kilic i Abiyev su u [37] objasnili da fraktalna dimenzija sadrži informacije o geometri-jskoj strukturi fraktala, no da se može koristiti i za ne-fraktale. Ona predstavlja mjeru pomocukoje se kvantizira kompleksnost geometrijskih objekata. Postoji mnoštvo metoda za procjenufraktalne dimenzije slike, a najpopularnije metode su Hausdorffova dimenzija (engl. Haus-dorff dimension), dimenzija prebrojavanja blokova (engl. box-counting dimension, doslovanprijevod bi bio "dimenzija prebrojavanja kutija"), dimenzija samoslicnosti (engl. self-similaritydimension) i dimenzija korelacije (engl. correlation dimension).

Jedna od najcešce korištenih metoda za odredivanje fraktalne dimenzije je metoda prebro-javanja blokova. Po ovoj metodi, oblik za koji se želi izracunati fraktalna dimenzija prekrije seblokovima (engl. boxes) velicine 1

2n , gdje n poprima vrijednosti 0, 1, 2, ..., a zatim se svaki putbroji broj blokova N(n) te velicine potrebnih da bi se oblik prekrio [32]. Fraktalna dimenzijaje tada dana formulom 3.2 [32]:

D = limn→∞

ln N(n)ln 2n (3.2)

gdje je:

D – fraktalna dimenzija,n – cijeli broj (poprima vrijednosti 0, 1, 2, ...),N(n) – broj blokova velicine 1

2n potrebnih da bi se prekrio oblik za kojega se racunafraktalna dimenzija.

Petrou i Sevilla su u [32] objasnili da fraktalna dimenzija nije dobar opisnik teksture iz višerazloga:

• slike nisu stvarno fraktali i ne pokazuju jednaku strukturu na svim skalama;

• razlicite teksture mogu imati jednaku fraktalnu dimenziju;

• procjena fraktalne dimenzije ovisi o skali i o metodi koja se za tu procjenu koristi.

Markovljeva nasumicna polja (engl. Markov random fields, MRF) su bila popularna metodaza modeliranje slika [33].

Blunsden je u [38] naveo da se MRF modeli temelje na pretpostavci da je distribucija inten-ziteta piksela uvjetno ovisna samo o lokalnom susjedstvu, i neovisna o ostatku slike. MRF nas-toji obuhvatiti statisticka svojstva lokalnog susjedstva, i predstaviti ih unutar modela. OpcenitiMRF model se gradi od slika homogenih tekstura, tako da ukljuci samo informacije o teksturi,a ne i pozadinske informacije.

13

Page 14: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

3.2.4 Metode utemeljene na obradi signala

U metode za analizu teksture koje se temelje na obradi signala spadaju filteri prostorne domene(engl. spatial domain filters), filtriranje u Fourierovoj domeni (engl. Fourier domain filtering),Gaborovi modeli (engl. Gabor models) i modeli valica (engl. wavelet models) [33].

Materka i Strzelecki su u [39] objasnili da transformacijske metode analize teksture, kao štosu Fourierova i Gaborova transformacija te transformacija uz pomoc valica, sliku prikazuju uprostoru ciji koordinatni sustav ima interpretaciju blisku znacajkama teksture (npr. frekvencijeili velicine). Metode koje se temelje na Fourierovoj transformaciji loše funkcioniraju u praksi,zbog nedostatka informacija o prostornoj lokalizaciji. Gaborovi filteri omogucavaju bolju pros-tornu lokalizaciju, ali buduci da obicno ne postoji jedna rezolucija filtera pomocu koje se moželokalizirati prostorna struktura u prirodnim teksturama, njihova je korisnost ogranicena. Uodnosu na Gaborovu transformaciju, transformacije koje se temelje na valicima nude nekolikoprednosti u: mijenjanjem prostorne rezolucije tekstura se može predstaviti na najpovoljnijojskali, a velik izbor funkcija valica omogucava odabir onih valica koji su najpovoljniji za anal-izu teksture u odredenoj aplikaciji.

3.3 Analiza oblika na slici

Loncaric je u [40] oblik objekta definirao kao binarnu sliku koja prikazuje njegov opseg (engl.extent), te nadodao da se oblik može zamisliti kao silueta objekta dobivena, na primjer, osv-jetljivanjem objekta pomocu beskonacno udaljenog izvora svjetlosti.

Zhang i Lu su u [41] objasnili kako je oblik važna vizualna znacajka i kako spada utemeljne znacajke koje se koriste za opis sadržaja slike. Medutim, reprezentacija (koja rezul-tira ne-numerickom reprezentacijom (npr. grafom) originalnog oblika [40]) i opis (koji slijedireprezentaciju i rezultira numerickim opisnikom oblika [40]) oblika je težak zadatak jer se pro-jekcijom 3D objekta iz stvarnoga svijeta na 2D ravninu slike gubi jedna dimenzija informacijeo objektu. Da bi se stvari još više zakomplicirale, na oblik cesto utjecu i razlicite smetnje naslici (npr. šum i okluzije), pa opisnici oblika trebaju savladati te poteškoce.

Postoji više metoda za analizu oblika na slici, i one se mogu podijeliti na:

• algoritme koji se usredotocavaju samo na obrub (engl. boundary) objekta i zanemarujunjegovu unutrašnjost, te na algoritme koji u obzir uzimaju i tocke koje se nalaze u un-utrašnjosti [42] objekta. Ove se metode nazivaju metode utemeljene na konturi (engl.contour-based methods) i metode utemeljene na regiji (engl. region-based methods) [41],

• tehnike koje cuvaju informacije (engl. information preserving) i tehnike koje ne cuvajuinformacije (engl. information nonpreserving) [42]. Ove tehnike ovise o tome da li je izopisnika objekata moguce rekonstruirati razumnu aproksimaciju slike ili ne [42],

• tehnike koje daju numericke rezultate analize i tehnike koje daju ne-numericke rezultateanalize (npr. sliku) [40].

U [41] su metode za reprezentaciju i opis oblika na slici podijeljene na one koje su utemel-jene na konturi te na one koje su utemeljene na regiji. Te se metode nadalje mogu podijelitina strukturalne i globalne. U usporedbi sa globalnim metodama, strukturalne metode su pres-ložene za implementaciju. Hijerarhijski prikaz navedenih metoda prikazan je na slici 3.5.

14

Page 15: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Slika 3.5: Primjer znacajki koje se mogu racunati prilikom reprezentacije i opisa oblika naslici. Adaptirano iz [41]

U [41] su metode za reprezentaciju i opis oblika utemeljene na konturi podijeljene na glob-alne (kontinuirane) i strukturalne (diskretne). U globalnom pristupu oblik se ne dijeli na manjedijelove, vec se iz sastavne granice (engl. integral boundary) racuna vektor znacajki koji sekoristi za opis oblika. Strukturalnim pristupom se, pomocu odredenog kriterija, granica oblikarazbija na segmente (tj. primitive), a konacna reprezentacija oblika je obicno niz, graf ili stablo.

U [41] su metode za reprezentaciju i opis oblika utemeljene na regiji podijeljene na globalnei strukturalne. Globalnim metodama oblik se tretira kao cjelina, a reprezentacija oblika jenumericki vektor znacajki koji se može koristiti za opis oblika. Strukturalnim metodama seregija oblika dijeli na manje dijelove koji se onda koriste za reprezentaciju i opis oblika.

U [41] je navedeno da su metode za reprezentaciju i opis oblika utemeljene na konturiu literaturi popularnije od onih koje su utemeljene na regiji. Uzrok ove popularnosti je tajšto se misli da ljudi oblike uglavnom razlikuju po znacajkama njihovih kontura, te što je umnogim aplikacijama koje koriste oblik važna samo njegova kontura, a ne i unutrašnjost. Sdruge strane, metode za reprezentaciju i opis oblika utemeljene na regiji su robusnije jer koristesve informacije vezane uz oblik, a ne samo one koje su vezane za njegovu konturu. Uz to,opcenito daju i bolje rezultate, a njihova implementacija nije nužno složenija od one koja jepotrebna za metode utemeljene na konturi.

Detaljniji pregled metoda za analizu oblika na slici može se pronaci u [40, 41, 43].

3.4 Lokalne znacajke slike

Lokalne znacajke (engl. local features) neke slike su manji dijelovi te slike (npr. tocke, rubovi,kutovi ili regije) koji se, na temelju odredenih svojstava, razlikuju od svoje okoline. Obicno

15

Page 16: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

se povezuju sa promjenama intenziteta, boje i teksture, iako se ne moraju nužno nalaziti namjestima na slici na kojima je došlo do tih promjena [44]. Primjeri lokalnih znacajki dobivenihdetekcijom kutova prikazani su na slici 3.6, a ilustracija važnosti lokalnih znacajki u ljudskomvidu na slici 3.7.

Slika 3.6: Primjeri lokalnih znacajki dobivenih detekcijom kutova na slici. Adaptirano iz [44]

Slika 3.7: Ilustracija važnosti lokalnih znacajki u ljudskom vidu. Ljudi teže prepoznajuobjekte kojima nedostaju kutovi (treci stupac na slici), nego objekte kojima nedostaju ravne

linije (drugi stupac na slici). Adaptirano iz [44]

Razlozi zbog kojih se lokalne znacajke koriste u obradi i analizi digitalne slike su mnogob-rojni, a u nastavku teksta su nabrojani neki od njih [44]:

16

Page 17: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

• lokalne znacajke mogu imati odredenu semanticku interpretaciju u ogranicenom kon-tekstu neke aplikacije (npr. na slikama snimljenima iz zraka detektirani rubovi cestopredstavljaju ceste);

• lokalnim znacajkama se najcešce nastoje detektirati stabilne tocke (engl. anchor points)koje su dobro lokalizirane (tj. ciji se položaj i eventualne promjene položaja mogu odred-iti sa visokom sigurnošcu) i koje se mogu individualno identificirati, što znaci da ih semože koristiti za pracenje objekata na nizovima slika (u [45] se mogu saznati detaljnijeinformacije o odabiru i pracenju znacajki na slikama) ili za kalibraciju kamere (npr. [46]);

• skup lokalnih znacajki detektiranih na jednoj slici može na robustan nacin predstavljatitu sliku, te takva prezentacija slika može eliminirati potrebu za segmentacijom slike kojaobicno prethodi fazi prepoznavanja objekata i scena na njoj.

Iz navedenoga se može zakljuciti da razlicite vrste lokalnih znacajki nece jednako dobrofunkcionirati u svim kontekstima, te da njihov izbor treba biti utemeljen na vrsti aplikacije ukojoj ce se koristiti. Na primjer, ako se aplikacijom nastoji riješiti problem kalibracije kamereili 3D rekonstrukcije nekog objekta, lokalne znacajke ce obicno biti tocke na razini piksela ilipodpiksela (engl. sub-pixel), koje se obicno nazivaju tocke interesa (engl. interest points) [44].S druge strane, ako je cilj aplikacije prepoznavanje ili detekcija objekata na nekoj slici, tockeinteresa se nece promatrati zasebno vec ce se promatrati i njihova okolina, tj. kontekst unutarkojega se nalaze. Tada se obicno više ne govori o tockama interesa vec o regijama [44] interesa.

Dobre znacajke trebale bi imati slijedeca svojstva [44]:

• ponovljivost (engl. repeatability) – visok postotak lokalnih znacajki pronadenih na nekojslici trebao bi se pronaci i na slici iste scene prikazane iz razlicitog kuta gledišta,

• posebnost ili informativnost (engl. distinctivness or informativeness) – lokalne znacajketrebaju biti dovoljno posebne (tj. sadržavati dovoljno informacija) da bi ih se moglorazlikovati jednu od druge,

• lokalitet (engl. locality) – znacajke trebaju biti lokalne da se smanji vjerojatnost okluzija(tj. zaklanjanja) objekata,

• kvantitet (engl. quantity) – dovoljan broj lokalnih znacajki bi se trebao pronaci cak i zamalene objekte na slici,

• preciznost (engl. accuracy) – lokaciju lokalnih znacajki je potrebno biti u mogucnostiprecizno odrediti,

• ucinkovitost (engl. efficiency) – detekcija znacajki na novoj slici trebala bi se moci ko-ristiti i u vremenski kriticnim aplikacijama.

Tuytelaars i Mikolajczyk su u [44] naveli da se ponovljivost može implementirati pomocuinvarijantnosti (ako se ocekuju vece deformacije slike) ili robusnosti (ako se ocekuju relativnomale deformacije slike). Pomocu invarijantnosti se, ako je to moguce, matematicki modelirajudeformacije koje se ocekuju na slici, te se razviju metode za detekciju znacajki koje su invar-ijantne na te matematicke transformacije. Ako se prilikom detekcije znacajki koristi svojstvorobusnosti umjesto invarijantnosti (jer potpuna invarijantnost nije uvijek moguca), najcešce

17

Page 18: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

je dovoljno metode za detekciju znacajki uciniti manje osjetljivima na deformacije (npr. za-mucenje slike, šum na slici, efekti diskretizacije, itd.). Ovo znaci da ce rezultati detekcijedobiveni metodama koje se oslanjaju na robusnost možda biti nešto (ali ne drasticno) lošiji odonih koje se oslanjaju na invarijantnost.

U [44] je navedeno da važnost opisanih svojstava znacajki ovisi o aplikaciji i okruženju ukojem ce se te znacajke koristiti, te da mora doci do nekakvog kompromisa jer su u praksi nave-dena svojstva znacajki medusobno isprepletena (npr. s povecanjem invarijantnosti smanjuje seposebnost ili informativnost).

Da bi se u praksi mogle koristiti, lokalne se znacajke trebaju numericki opisati pomocuopisnika ili deskriptora (engl. descriptors) (engl. descriptors). Primjeri metoda pomocu kojihse može postici detekcija i opis tocaka interesa su SIFT (engl. Scale-Invariant Feature Trans-form) [47] i SURF (engl. Speeded-Up Robust Features) [48].

3.4.1 Pregled metoda za detekciju lokalnih znacajki

U nastavku teksta dan je pregled metoda za detekciju lokalnih znacajki.

3.4.1.1 Moravecov interesni operator

Najraniji detektor kutova na slici bio je Moravecov interesni operator [49]. Moravecov in-teresni operator se temelji na intuiciji da se regija W (koja je obicno prozor dimenzija N x N)neke slike može nedvosmisleno pronaci na nekoj drugoj slici jedino u slucajevima kada se taregija dovoljno razlikuje od svih preklapajucih susjednih regija [49]. Ako se regija ne razlikujeod susjednih regija, onda se nalazi u monotonom podrucju slike u kojem ne dolazi do vecihpromjena u osvijetljenosti piksela.

Slicnost regije sa središtem u (u,v) i njezine susjedne regije cije je središte pomaknutoza (δu,δv) definirano je formulom 3.3, i racuna se za pomake u osam kardinalnih smjerova((δu,δv) ∈ D) [49]. S obzirom na trenutni piksel regije, ti se pomaci odvijaju u smjeru gorelijevo, gore, gore desno, lijevo, desno, dolje lijevo, dolje, dolje desno). Najmanja vrijednost(formula 3.4) [49] koja se pri tome dobije predstavlja stupanj zanimljivosti promatranog pik-sela. Tocke interesa se nalaze na onim koordinatama slike gdje je CM visok [49].

s(u,v,δu,δv) = ∑(i, j)∈W

(I[u+δu + i,v+δv + j]− I[u+ i,v+ j])2 (3.3)

CM(u,v) = min(δu,δv)∈D

s(u,v,δu,δv) (3.4)

U literaturi su predloženi brojni detektori interesnih tocaka koji su nadogradnje i poboljšanjaMoravecovog detektora. Najpoznatiji od njih je Harrisov detektor.

3.4.1.2 Harrisov detektor

Harris i Stephens su u [50] predložili detektor lokalnih znacajki koji je invarijantan na rotaciju,promjene u osvjetljenju, šum na slici, te robustan na razlicitim skalama [51]. Taj se detektor

18

Page 19: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

danas naziva Plessey detektor [44], Harrisov detektor ili Harrisov detektor kutova, i nadograd-nja je Moravecovog detektora kutova. Temelji se na racunanju autokorelacijske matrice kojaopisuje distribuciju gradijenta u lokalnom susjedstvu neke tocke [44], tj. piksela, na slici. Pro-ces racunanja autokorelacijske matrice µ (adaptirane na nacin da bude neovisna o rezolucijislike, odnosno invarijantna na promjene skale) može se prikazati formulom 3.5 [52]:

µ(x,σI,σD) =

[µ11 µ12µ21 µ22

]= σ

2D g(σI)∗

[L2

x(x,σD) LxLy(x,σD)LxLy(x,σD) L2

y(x,σD)

](3.5)

gdje je:

σD – diferencijacijska skala (engl. differentiation scale),σI – integracijska skala (engl. integration scale),g – Gaussova funkcija,∗ – konvolucijski operator,Lx – derivacija slike u x smjeru,Ly – derivacija slike u y smjeru.

Na slici 3.8 dan je shematski prikaz rada Harrisovog detektora.

Slika 3.8: Shematski prikaz rada Harrisovog detektora. Preuzeto iz [44]

Mikolajczyk i Schmid su u [52] opisali nacin na koji se mogu izracunati σD i σI . Za skupskala σn, za tocku x na slici racunaju se odzivi na funkciju predstavljenu formulom 3.6 (de-taljnije u poglavlju 3.4.1.4). Lokalni ekstrem tih odziva predstavlja tzv. karakteristicnu skalu(engl. characteristic scale) (slika 3.9) na kojoj algoritam pronalazi lokalnu znacajku. Inte-gracijskoj skali σI se zatim dodijeljuje ta vrijednost, a diferencijacijskoj skali σD se dodijeljuje

19

Page 20: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

vrijednost sσI , gdje je s konstanta koja je u [52] postavljena na 0.7. Opisana se metoda u lit-eraturi još naziva i Harris-Laplace [44]. Detaljnije informacije o automatskom odabiru skaleprilikom detekcije znacajki mogu se pronaci u [53].

|LoG(x,σn)|= σn2 ∣∣Lxx(x,σn)+Lyy(x,σn)

∣∣ (3.6)

Slika 3.9: Primjer odabira karakteristicne skale. Adaptirano iz [52]

Parcijalne derivacije prvoga reda, potrebne za dobivanje formule 3.5, se u digitalnoj obradii analizi slike mogu diskretizirati na nacin prikazan formulom 3.7 [54]. Harris i Stephens su ihpak u [50] definirali na nacin prikazan formulama 3.8 i 3.9:

∂ I∂x

= I(x+1)− I(x) (3.7)

∂ I∂x≈ I ∗ (−1,0,1) (3.8)

∂ I∂y≈ I ∗ (−1,0,1)T (3.9)

Harrisov detektor na slici pronalazi kutove na nacin da pronade one tocke na slici za kojese svojstvene vrijednosti matrice M nalaze iznad odredenog praga. U praksi ovo znaci da setraže tocke u cijoj se okolini nalazi tekstura ili rubovi koji idu u najmanje dva razlicita smjera(baš kao što i pravi kutovi imaju najmanje dva ruba koji se sastaju u tocki), te da ce one koje sepronadu biti invarijantne na rotaciju slike [55]. Ovaj se postupak implementira pomocu formule3.10 [52], jer bi racunanje svojstvenih vrijednosti usporilo algoritam:

kutnost = det(µ(x,σI,σD))−α trag2(µ(x,σI,σD)) (3.10)

20

Page 21: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

gdje je:

kutnost (engl. cornerness) – mjera zanimljivosti trenutnog piksela (što je ovaj broj veci,veca je vjerojatnost da se radi o kutu),det (engl. determinant) – determinanta matrice,α – konstanta,trag (engl. trace) – trag matrice.

Harrisov detektor je poslužio kao podloga mnoštvu novih metoda za detekciju lokalnihznacajki. Jednu od najpoznatijih predstavili su Shi i Tomasi u [45]. Oni su došli do zakljucka dase dobri kutovi na slici mogu pronaci i traženjem onih tocaka za koje vrijedi da je min(λ1,λ2)veci od nekog minimalnog praga [55]. Njihova metoda je u velikom broju slucajeva davalabolje rezultate od one koju su predložili Harris i Stephans [55]. Drugu znacajnu nadogradnjuna Harrisov detektor predstavili su Mikolajczyk i Schmid u [56, 52] (engl. Harris-Affine), gdjeje Harrisov detektor modificiran na nacin da bude invarijantan i na afine transformacije.

3.4.1.3 Hessian detektor

Hessian detektor se temelji na racunanju tzv. Hessian matrice (formula 3.11 [44]), te odredi-vanju njezine determinante na nacin prikazan na slici 3.10:

H =

[Ixx(x,σD) Ixy(x,σD)Ixy(x,σD) Iyy(x,σD)

](3.11)

gdje je:

H – Hessian matrica,Ixx, Ixy, Iyy – derivacije drugog reda ulazne slike koje su zamucene uz pomoc Gaussovogfiltera [44]. Ixx je derivacija drugog reda u smjeru x, Iyy u smjeru y, a Ixy je mješovitaderivacija.

Hessian detektor je invarijantan na rotaciju [44] slike. Nadogradnje ovog detektora kojemu omogucuju potragu za lokalnim znacajkama preko razlicitih skala te invarijantnost na afinetransformacije slicne su onima koje postoje za Harrisov detektor.

3.4.1.4 Laplacian Gaussiana

Laplace operator (ili krace Laplacian) spada u skupinu izotropnih filtera, tj. onih filtera kojisu invarijantni na rotaciju slike [54]. Temelji se na racunanju druge parcijalne derivacije slike.Druga derivacija ima bolji odziv na fine detalje na slici od prve derivacije, pa je u vecini sluca-jeva i pogodnija za korištenje [54].

Laplacian funkcije f (x,y) (koja u ovome slucaju predstavlja sliku, a x i y koordinate pikselakoji se nalaze na njoj) je definiran formulom 3.12 [54].

∇2 f =

∂ 2 f∂x2 +

∂ 2 f∂y2 (3.12)

21

Page 22: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Slika 3.10: Shematski prikaz rada Hessian detektora. Preuzeto iz [44]

Buduci da je Laplacian linearni operator, prije primjene na sliku mora se prebaciti u diskretnioblik. Jednadžbe koje se pri tome najcešce koriste prikazane su formulama 3.13 (za parcijalnuderivaciju drugog reda u x smjeru) i 3.14 (za parcijalnu derivaciju drugog reda u y smjeru) [54].

∂ 2 f∂x2 = f (x+1,y)+ f (x−1,y)−2 f (x,y) (3.13)

∂ 2 f∂y2 = f (x,y+1)+ f (x,y−1)−2 f (x,y) (3.14)

Formula 3.15 prikazuje diskretni oblik 2D Laplaceovog operatora koji se dobije zbrajanjemjednadžbi 3.13 i 3.14. Formula 3.15 može se implementirati pomocu filtera prikazanog na slici3.11 [54].

∇2 f = [ f (x+1,y)+ f (x−1,y)+ f (x,y+1)+ f (x,y−1)]−4 f (x,y) (3.15)

Slika 3.11: Primjeri filtera pomocu kojih se može implementirati diskretni Laplace operator.Primjenom prvog filtera zanemaruju se dijagonalni susjedi trenutnog piksela, a primjenom

drugog filtera se ne zanemaruju. Adaptirano iz [54]

22

Page 23: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Laplace operator je jako osjetljiv na šum na slici, pa se najcešce ne koristi sam vec u kom-binaciji sa razlicitim filterima za zamucivanje slike. Pomocu takvih se filtera sa slike moguukloniti visoke frekvencije koje eventualno predstavljaju šum, te se poboljšati rezultati koji sedobiju Laplace operatorom.

Kada se Laplace operator koristi zajedno sa Gaussovim filterom za zamucivanje slike,nastala metoda naziva se Laplacian Gaussiana (engl. Laplacian of Gaussians, LoG). LoGmetoda prikazana je formulama 3.16 i 3.17 [54]:

h(r) =−e−r2

2σ2 (3.16)

∇2h(r) =−

[r2−σ2

σ4

]e−

r2

2σ2 (3.17)

gdje je:

h(r) – Gaussova funkcija,r2 = x2 + y2,σ – standardna devijacija Gaussove distribucije.

Na slici 3.12 prikazana je aproksimacija LoG funkcije pomocu 2D filtera. Cilj prikazanogfiltera je prikazati oblik LoG funkcije, pa stoga ova aproksimacija nije jedinstvena [54].

Slika 3.12: Aproksimacija LoG funkcije pomocu 2D filtera. Adaptirano iz [54]

Buduci da je LoG racunski neefikasan [57], cesto se kao njegova aproksimacija koristimetoda koja se naziva razlika Gaussiana.

3.4.1.5 Razlika Gaussiana

U obradi i analizi digitalne slike, razlikom Gaussiana (engl. Difference of Gaussians, DoG)detektiraju se regije koje su invarijantne na rotaciju i promjenu skale [58]. Razlika Gaussianase temelji na konvoluciji dviju kopija ulazne slike sa Gaussovim filterima razlicitih velicina(tj. standardnih devijacija Gaussove distribucije), te oduzimanju tih kopija s ciljem detekcijelokalnih znacajki na ulaznoj slici (slika 3.13).

Invarijantnost lokalnih znacajki na skalu postiže se korištenjem DoG piramide, tj. inkre-mentalnim oduzimanjem niza slika koje su zamucene Gaussovim filterima razlicitih standard-nih devijacija, te smanjivanjem dimenzija tih slika i ponavljanjem navedenog postupka (npr.

23

Page 24: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Slika 3.13: Primjer rada jednostavnog DoG detektora. Adaptirano iz [44]

Slika 3.14: Primjer rada složenog DoG detektora. Lokalne znacajke koje se pronadu na ovajnacin su invarijantne i na skalu i na rotaciju. Adaptirano iz [44]

[47]) (slika 3.14). Invarijantnost lokalnih znacajki na rotaciju postiže se zato što je Gaussovfilter cirkularno simetrican.

Gaussov filter je niskopropusni filter (engl. low-pass filter) ciji je impulsni odziv Gaussovafunkcija. U obradi i analizi digitalne slike ovaj se filter još naziva i Gaussovo zamucivanje(engl. Gaussian blur, Gaussian smoothing), jer se njime propuštaju niske a zagušuju visokefrekvencije na slici. Gaussovi filteri razlicitih velicina konstruiraju se korištenjem Gaussovihfunkcija razlicitih standardnih devijacija Gaussove distribucije. Što je σ veca, veca je i velicinaGaussovog filtera, tj. zamucenje koje njegova konvolucija sa slikom uzrokuje.

Buduci da je Gaussova funkcija uvijek razlicita od nule, Gaussov filter teoretski ima beskon-acne dimenzije. U praksi filteri ipak nisu beskonacni, pa je i ovaj filter potrebno aproksimiratinekim konacnim filterom. Aproksimacija se temelji na 3-sigma pravilu koje kaže da se 99.73%[59] vrijednosti koje se nalaze unutar Gaussove distribucije nalaze unutar ±3σ podrucja odsredine te distribucije. Uzimajuci u obzir da velicina filtera mora biti neparan broj da bi fil-ter mogao imati središnji element, velicina filtera se može aproksimirati sa 6σ i zaokružiti nanajbližu neparnu vrijednost.

Na slici 3.15 prikazani su primjeri lokalnih znacajki detektiranih DoG detektorom.

3.4.1.6 Istaknute regije

Istraživanja u psihologiji i kognitivnim znanostima pokazala su da se ljudski vizualni sustav,prilikom promatranja neke slike, najprije brzo usredotoci na jednu ili više "zanimljivih" regijana slici prije no što nastavi sa daljnjom analizom njezinog sadržaja [60]. Ove zanimljive regijena slici cesto se nazivaju istaknute regije (engl. salient regions) [60].

24

Page 25: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Slika 3.15: Lokalne znacajke detektirane DoG detektorom. Preuzeto iz [44]

Metodu za detekciju istaknutih regija slike predložili su Kadir i Brady u [61]. Njihovase metoda zasniva na pretpostavci da je kompleksnost na slikama rijetka, te da bi slike koje sukompleksne na svim prostornim lokacijama i preko svih skala bile nasumicne (kao npr. potpunišum) ili bi predstavljale fraktale. Nasumicne slike i fraktali pokazuju svojstva samo-slicnosti(engl. self-similarity), pa ih se u [61] ne smatra nepredvidljivima (tj. autori ih ne smatrajuzanimljivima). Metoda predstavljena u [61] može se podijeliti u tri koraka: u prvom se korakuracuna entropija (formula 3.18 [44]) svakog piksela slike preko razlicitih skala, u drugom sekoraku odabiru one skale za koje je entropija imala visoku vrijednost ili postigla maksimum, a utrecem se koraku definira težinska vrijednost W (formula 3.19 [44]) s kojom se množi entropijau svrhu pronalaska istaknutih regija na slici. Istaknutost Y se racuna pomocu formule 3.20, aza istaknute regije slike odabire se onih P regija cija je istaknutost bila najviša [44].

H =−∑I

p(I) log p(I) (3.18)

gdje je:

H – lokalna entropija,p(I) – funkcija razdiobe ili distribucije vjerojatnosti (engl. probability distribution func-tion) vrijednosti osvjetljenja piksela unutar lokalne regije [44].

Funkcija razdiobe vjerojatnosti, p(I), procjenjuje se empiricki na temelju distribucije osv-jetljenja piksela unutar kružnog susjedstva radijusa s [44] (gdje s predstavlja skalu) oko pro-matranog piksela x. Autori u [62] su slikovito objasnili funkciju P(I), te naveli da se ona možeaproksimirati histogramom ciji vrhovi oznacavaju one razine osvijetljenosti piksela koje su upromatranom kružnom susjedstvu oko x ceste, tj. predvidljive i nezanimljive. Ravna podrucjau histogramu ukazuju na to da su pripadne vrijednosti osvijetljenosti piksela jednako moguceunutar kružnog susjedstva oko x, tj. da je za te vrijednosti entropija visoka i da se takve regijeisticu na slici.

W =s2

2s−1 ∑I

∣∣∣∣∂ p(I;s)∂ s

∣∣∣∣ (3.19)

25

Page 26: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Y =WH (3.20)

Metoda predstavljena u [61] invarijantna je na planarne rotacije i promjene u osvjetljenju,te robusna na skalu i na promjene u gledištu.

Slika 3.16: Primjer istaknutih regija na slici. Adaptirano iz [44]

U usporedbi sa Hessian detektorom i njegovim nadogradnjama (koji detektiraju i do neko-liko stotina ili tisuca znacajki na slici), metodom predstavljenom u ovom poglavlju detektira sesamo mali broj lokalnih znacajki na slici (obicno samo nekoliko desetaka) [44]. U ovisnostio aplikaciji u kojoj ce se ovi detektori koristiti, njihova svojstva mogu biti i prednosti i mane[44]. Na slici 3.16 prikazani su primjeri istaknutih regija na slici.

3.4.1.7 SUSAN detektor

Smith i Brady su u [63, 64] predstavili detektor lokalnih znacajki kojega su nazvali SUSAN(engl. Smallest Univalue Segment Assimilating Nucleus). Ovaj se detektor temelji na povezi-vanju svakog piksela na slici sa pikselima slicne ili jednake osvijetljenosti koji se nalaze unjegovom susjedstvu. Za realizaciju detektora korištena je maska (koja se još može nazvati iprozor ili kernel) kružnog oblika ciji je središnji piksel nazvan jezgra, a ostali pikseli cija jerazina osvijetljenosti slicna ili jednaka osvijetljenosti jezgre, a koji se nalaze unutar podrucjakojega obuhvacaju granice maske, nazvani su USAN (engl. Univalue Segment AssimilatingNucleus). Jezgra maske predstavlja onaj piksel slike koji se trenutno obraduje, a uobicajeniradijus maske je 3.4 piksela (tj. obicno se koristi maska površine 37 piksela).

Kao što se može vidjeti sa slike 3.17, te kao što je navedeno u [63, 64], površina USAN-aje maksimalna kada se maska nalazi na jednolikom dijelu slike, gdje svi pikseli imaju otpri-like jednake razine osvijetljenosti. Površina USAN-a padne otprilike na polovicu maksimalnevrijednosti kada se maska nalazi izmedu dva dijela slike koji imaju razlicite razine osvijetl-jenosti (tj. kada se maska nalazi na rubu), te padne još i više kada se maska nalazi na kutu.Matematicki se ovo može izraziti pomocu formula 3.21, 3.22, 3.23 i 3.24. Formulom 3.21 iliformulom 3.22 (koja je stabilnija) detektiraju se oni pikseli maske cija je osvijetljenost slicnaili jednaka onoj koju ima jezgra. Formulom 3.23 odreduje se ukupan broj takvih piksela (tj.površina USAN-a), a formulom 3.24 traže se rubovi na slici. Iz ovoga se može zakljuciti da sena temelju površine USAN-a mogu dobiti informacije o strukturi slike.

26

Page 27: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Slika 3.17: Princip rada SUSAN detektora. Narancastom bojom prikazana je površinaUSAN-a. Preuzeto iz [44]

c(~r,~r0) =

{1, ako |I(~r)− I(~r0)| ≤ t.0, ako |I(~r)− I(~r0)|> t.

(3.21)

gdje je [64]:

~r0 – koordinate jezgre na 2D slici,~r – koordinate nekog drugog piksela unutar maske,I(~r0) – osvijetljenost jezgre,I(~r) – osvijetljenost nekog drugog piksela unutar maske,t – prag razlike osvijetljenosti izmedu jezgre i nekog drugog piksela unutar maske (uvecini situacija t se može postaviti na 25),c – rezultat usporedbe osvijetljenosti jezgre i nekog drugog piksela unutar maske.

c(~r,~r0) = e−(

I(~r)−I(~r0)t

)6

(3.22)

n(~r0) = ∑~r

c(~r,~r0) (3.23)

gdje je [64]:

n – broj piksela unutar USAN-a (tj. površina USAN-a).

R(~r0) =

{g−n(~r0), ako n(~r0)< g.0, inace.

(3.24)

gdje je [64]:

27

Page 28: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

R(~r0) – pocetni odziv na rub. Konacni odziv na rub dobije se nakon daljnje obrade slikeu kojoj se koristi stanjivanje detektiranih rubova (engl. edge thinning) (detaljnije u [65]),g = 3nmax

4 – tzv. geometrijski prag koji se koristi u svrhu odbacivanja šuma,nmax – maksimalna vrijednost koju n može poprimiti.

SUSAN detektor invarijantan je na rotaciju slike [44]. Od ostalih metoda za detekcijulokalnih znacajki razlikuje se najviše po tome što ne koristi derivacije slike niti su mu potrebnazamucivanja slike u svrhu smanjenja šuma. Na slici 3.18 prikazan je primjer rada SUSANdetektora.

Slika 3.18: Primjer detekcije lokalnih znacajki pomocu SUSAN detektora. Preuzeto iz [44]

3.5 Globalne znacajke slike

Globalne znacajke (engl. global features) neke slike nastoje numericki opisati tu sliku kaocjelinu, tj. predstaviti je kao tocku u n-dimenzionalnom prostoru. Primjer globalne znacajkeneke slike bio bi njezin histogram boja ili histogram vizualnih rijeci.

Globalne znacajke su manje robusne na eventualne okluzije objekata ili na smetnje na sliciod lokalnih znacajki [44, 66], medutim pomocu njih se može predstaviti kontekst scene naslici, tj. sve ono što se na slici nalazi. Bez upotrebe kontekstualnih informacija ponekad jevrlo teško, cak i ljudima, ispravno klasificirati objekte koji se nalaze na slici. Primjer važnostikontekstualnih informacija u prepoznavanju objekata prikazan je na slikama 3.19 i 3.20.

Reprezentacija slike pomocu globalnih znacajki može biti korisna u dva slucaja:

• kada slika sadrži samo jedan objekt ili kada se segmentacijom slike objekt može izdvojitiiz pozadine [66];

• u aplikacijama za pretraživanje slika na temelju sadržaja (engl. content-based imageretrieval, query by image content), kada je podjednako važno opisati i pozadinu slike kaoi objekte koji se na njoj nalaze.

Globalne znacajke neke slike mogu se izracunati na više nacina. Jedan od tih nacina bio bipredstavljanje slike pomocu njezinih manjih dijelova, te racunanje njihovih lokalnih znacajki.

28

Page 29: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Slika 3.19: Ilustracija važnosti globalnih znacajki prilikom prepoznavanja objekata na slici ikategorije kojoj scena na slici pripada. Iako su "zgrade" na lijevoj slici u stvarnosti dijelovi

kuhinje, ljudski vizualni sustav ih na temelju globalnog prostornog rasporeda slike klasificirakao zgrade. Preuzeto iz [67]

Slika 3.20: Prepoznavanje objekata na slikama niske rezolucije (32x32) je gotovo nemoguceako ih se izdvoji iz konteksta. Adaptirano iz [68]

Manji dijelovi slike mogu se dobiti segmentacijom slike (kao npr. u [69]) ili uzorkovanjem(engl. sampling) slike. Kombinacijom informacija dobivenih na ovaj nacin mogu se dobitiglobalne znacajke citave slike. Metode uzorkovanja slike (npr. slika 3.21) koje se koriste udigitalnoj obradi i analizi slike su:

• iscrpno uzorkovanje [44] (engl. exhaustive sampling) – ovom se metodom uzorkovanjaslike postavlja putujuci prozor (engl. sliding window) preko slike, i to preko razlicitihskala i lokacija unutar te slike. Za svaki dio slike koji se trenutno nalazi unutar tog pro-zora racunaju se globalne znacajke. Ova metoda može rezultirati tisucama ili milijunima

29

Page 30: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

globalnih znacajki po slici, što je cini jako neefikasnom;

• uzorkovanje pomocu pravilnih mreža (engl. fixed/regular/uniform grid sampling) (npr.[70, 71]) – ovom se metodom uzorkovanja slika se jednoliko dijeli na blokove koji sene preklapaju. Ako se blokovi preklapaju, metoda se naziva metoda gustog uzorkovanja(engl. dense sampling) (detaljnije u [72]);

• kombinacija gustog uzorkovanja i tocaka interesa (engl. dense interest points) (detaljnijeu [72]) – ova metoda uzorkovanja slike zapocinje sa gustim uzorkovanjem, a dobiveniblokovi se nadalje prilagodavaju "zanimljivim" podrucjima slike;

• nasumicno uzorkovanje (engl. random sampling) (npr. [70, 73, 74]) – ovom se metodomuzorkovanja slike regije slike za koje ce se racunati globalne znacajke odreduju na na-sumican nacin. U [70] je pokazano da se za kategorizaciju prirodnih scena bolji rezultatipostižu korištenjem pravilnih mreža nego nasumicnim uzorkovanjem.

Slika 3.21: Prvi stupac slike prikazuje izvorne slike, drugi prikazuje preklapajuce pravilnemreže, tj. gusto uzorkovanje, treci prikazuje kombinacije gustog uzorkovanja i tocaka

interesa, a cetvrti prikazuje tocke interesa. Preuzeto iz [72]

Primjer racunanja globalnih znacajki neke slike može se pokazati na modelu zbirki znacajki(engl. bag of words, bag of features), koji je nastao kao tehnika za statisticku obradu prirodnogjezika (engl. natural language processing) pomocu koje bi se mogle odrediti kategorije kojojobradivani dokumenti pripadaju, a kasnije se proširio i na obradu i analizu digitalne slike.

Bosch et al. su u [75] opisali model zbirki znacajki1 i objasnili da se on sastoji od cetiri ko-raka: automatske detekcije tocaka ili regija interesa, racunanja lokalnih opisnika tih znacajki,kvantiziranja tih opisnika u tzv. vizualne rijeci te izgradnje rjecnika vizualnih rijeci, i na krajuodredivanje vrste i broja vizualnih rijeci koje se nalaze na slici i konstrukcije histograma vizual-nih rijeci. Graficki prikaz konstrukcije histograma vizualnih rijeci u modelu zbirki znacajki danje na slici 3.22.

Histogram vizualnih rijeci predstavlja globalnu reprezentaciju slike. Usporedbom tog his-tograma sa histogramima drugih slika, mogu se pronaci slike koje imaju slicne histograme, tj.slike koje imaju slican sadržaj i najvjerojatnije pripadaju istoj semantickoj kategoriji.

1U nastavku teksta se pojam "model zbirki znacajki" odnosi na model zbirki znacajki koji se koristi u obradii analizi digitalnih slika, a ne u obradi prirodnog jezika.

30

Page 31: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Slika 3.22: Primjer konstrukcije histograma vizualnih rijeci u modelu zbirki znacajki.Adaptirano iz [75]

31

Page 32: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

4 Zakljucak

Možda dijelom zbog toga što je podrucje racunalnog vida još uvijek mlado, te dijelom zbogtoga što je proces ljudske percepcije još uvijek nepoznat, danas ne postoji racunalni algoritamkoji bi omogucio automatsku detekciju i prepoznavanje proizvoljnih objekata na slikama. Al-goritmi obrade i analize digitalne slike koji danas postoje uglavnom su orijentirani na specificnedomene, te nastoje detektirati i/ili prepoznati jedan ili manji broj tocno odredenih objekata ilikategorija. Nastojeci u prirodnim sustavima pronaci kljuc za rješavanje ovog problema, ovaj jerad zapoceo pregledom teorija ljudske vizualne percepcije, te se nastavio pregledom tehnika zaobradu i analizu digitalne slike pomocu kojih se ona nastoji imitirati.

Daljnja istraživanja u podrucju obrade i analize digitalne slike, a pogotovo u automatskomdetektiranju i prepoznavanju objekata, ne bi se trebala odvijati samo na podrucju tehnickihznanosti, vec i na podrucju kognitivnih znanosti, ontologija i inženjerstva znanja (engl. knowl-edge engineering).

32

Page 33: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Popis oznaka i kratica

2D – 2-Dimensional

3D – 3-Dimensional

AI – Artificial Intelligence

DoG – Difference of Gaussians

IPNAS – Inteligentni protupožarni nadzorni sustav

LoG – Laplacian of Gaussians

MIT – Massachusetts Institute of Technology

MRF – Markov Random Fields

SIFT – Scale-Invariant Feature Transform

SURF – Speeded-Up Robust Features

33

Page 34: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

Literatura

[1] A. K. M. Rezaul Karim and Haruyuki Kojima. The what and why of perceptual asymme-tries in the visual domain. Advances in Cognitive Psychology, 6:103–115, 2010.

[2] Seymour Papert. The summer vision project. Massachusetts Institute of Technology, July1966. AIM-100.

[3] James J. DiCarlo, David Zoccolan, and Nicole C. Rust. How does the brain solve visualobject recognition? Neuron, 73:415–434, February 2012.

[4] Jessie J. Peissig and Michael J. Tarr. Visual object recognition: do we know more nowthan we did 20 years ago? Annual Review of Psychology, 58:75–96, 2007.

[5] Roy R. Behrens. Art, design and Gestalt theory. Leonardo, 31(4):299–303, 1998.

[6] John P. Frisby and James V. Stone. Seeing: The Computational Approach to BiologicalVision. The MIT Press, 2nd edition, 2010.

[7] Friedrich Heitger, Rüdiger von der Heydt, and Olaf Kübler. A computational model ofneural contour processing: Figure-ground segregation and illusory contours. In Proceed-ings of PerAc ’94 Conference – From Perception to Action, pages 181–192, September1994.

[8] Titia L. van Zuijen, Elyse Sussman, István Winkler, Risto Näätänen, and Mari Tervaniemi.Grouping of sequential sounds – an event-related potential study comparing musiciansand nonmusicians. Journal of Cognitive Neuroscience, 16(2):331–338, March 2004.

[9] Stephen E. Palmer, Joseph L. Brooks, and Rolf Nelson. When does grouping happen?Acta Psychologica, 114(3):311–330, 2003.

[10] Kristinn R. Thórisson. Simulated perceptual grouping: An application to human-computer interaction. In Proceedings of the Sixteenth Annual Conference of the CognitiveScience Society, pages 876–881, 1994.

[11] Sharon Oviatt, Rachel Coulston, Stefanie Tomko, Benfang Xiao, Rebecca Lunsford, MattWesson, and Lesley Carmichael. Toward a theory of organized multimodal integrationpatterns during human-computer interaction. In Proceedings of the 5th International Con-ference on Multimodal Interfaces, ICMI ’03, pages 44–51, New York, NY, USA, 2003.ACM.

[12] Shihui Han, Glyn W. Humphreys, and Lin Chen. Uniform connectedness and classicalGestalt principles of perceptual grouping. Perception and Psychophysics, 61(4):661–674,1999.

[13] Sang-Hun Lee and Randolph Blake. Neural synergy in visual grouping: when goodcontinuation meets common fate. Vision Research, 41:2057–2064, 2001.

34

Page 35: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

[14] Kritina L. Holden. The effectiveness of multidimensional symbolsin the display of complex multivariate data: Exploring the cogni-tive limitations. PhD thesis, Rice University, May 1990. Link:http://scholarship.rice.edu/bitstream/handle/1911/16349/9110978.PDF?sequence=1.Posljednji put posjeceno 04. rujna 2012.

[15] Dabo Sun and Kenny Wong. On evaluating the layout of UML class diagrams for pro-gram comprehension. In Proceedings of the 13th International Workshop on ProgramComprehension (IWPC’05), 2005.

[16] E. Bruce Goldstein. The ecology of J. J. Gibson’s perception. Leonardo, 14(3):191–195,1981.

[17] Sirel Karakas and Erol Basar. Models and theories of brain function in cognition within aframework of behavioral cognitive psychology. International Journal of Psychophysiol-ogy, 60(2):186–193, May 2006.

[18] Richard L. Gregory. Knowledge in perception and illusion. Philosophical Transactions ofthe Royal Society of London. Series B: Biological Sciences, 352(1358):1121–1128, 1997.

[19] Richard L. Gregory. Perceptual illusions and brain models. Philosophical Transactionsof the Royal Society of London. Series B: Biological Sciences, 171, 1968.

[20] David Marr. Visual information processing: the structure and creation of visual represen-tations. Philosophical Transactions of the Royal Society of London. Series B: BiologicalSciences, 290:199–218, 1980.

[21] David Marr and Ellen Hildreth. Theory of edge detection. Proceedings of the RoyalSociety of London. Series B, Biological Sciences, 207(1167):187–217, February 1980.

[22] David Marr and H. Keith Nishihara. Representation and recognition of the spatial orga-nization of three-dimensional shapes. Proceedings of the Royal Society of London. SeriesB: Biological Sciences, 200:269–294, 1978.

[23] Irving Biederman. Recognition-by-components: A theory of human image understanding.Psychological Review, 94(2):115–147, 1987.

[24] Shengjiu Wang. A robust CBIR approach using local color histograms. Technical reportTR 01-13, University of Alberta, October 2001.

[25] Zhenhua Zhang, Wenhui Li, and Bo Li. An improving technique of color histogram insegmentation-based image retrieval. In 2009 Fifth International Conference on Informa-tion Assurance and Security, pages 381–384. IEEE Computer Society, 2009.

[26] Jing Huang, S. Ravi Kumar, Mandar Mitra, Wei-Jing Zhu, and Ramin Zabih. Imageindexing using color correlograms. In Proceedings of the 1997 Conference on ComputerVision and Pattern Recognition, CVPR ’97, pages 762–768, 1997.

[27] Chuan-Cheng Wang and Ling-Hwei Chen. Content-based color trademark retrieval sys-tem using hit statistic. International Journal of Pattern Recognition and Artificial Intelli-gence, 16(5):603–619, 2002.

35

Page 36: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

[28] Jongan Park, Seungjo Han, and Youngeun An. Heuristic features for color correlogramfor image retrieval. In International Conference on Computational Sciences and Its Ap-plications, ICCSA, pages 9–13, 2008.

[29] Greg Pass and Ramin Zabih. Histogram refinement for content-based image retrieval. InProceedings of the 3rd IEEE Workshop on Applications of Computer Vision (WACV ’96),pages 96–102, 1996.

[30] Ki-Hyun Kang, Yong-In Yoon, Jong-Soo Choi, Jin-Tae Kim, Hasung Koo, and Jong-HoChoi. Additive texture information extraction using color coherence vector. In Proceed-ings of the 7th WSEAS International Conference on Multimedia Systems & Signal Pro-cessing, pages 56–59, April 2007.

[31] Manish Maheshwari, Sanjay Silakari, and Mahesh Motwani. Image clustering using colorand texture. In 2009 First International Conference on Computational Intelligence, Com-munication Systems and Networks, pages 403–408, 2009.

[32] Maria Petrou and Pedro García Sevilla. Image Processing – Dealing With Texture. JohnWiley & Sons, Ltd., 2006.

[33] Mihran Tuceryan and Anil K. Jain. Texture analysis. In C. H. Chen, L. F. Pau, and P. S. P.Wang, editors, Handbook of Pattern Recognition & Computer Vision, chapter 2.1, pages235–276. World Scientific Publishing Co., 1993.

[34] Manish H. Bharati, J. Jay Liu, and John F. MacGregor. Image texture analysis: methodsand comparisons. Chemometrics and Intelligent Laboratory Systems, 72(1):57–71, 2004.

[35] Xianghua Xie. A review of recent advances in surface defect detection using textureanalysis techniques. Electronic Letters on Computer Vision and Image Analysis, 7(3):1–22, 2008.

[36] Mihran Tüceryan and Anil K. Jain. Texture segmentation using Voronoi polygons. IEEETransactions on Pattern Analysis and Machine Intelligence, 12(2):211–216, February1990.

[37] Kemal Ihsan Kilic and Rahib Hidayat Abiyev. Exploiting the synergy between frac-tal dimension and lacunarity for improved texture recognition. Signal Processing,91(10):2332–2344, 2011.

[38] Scott Blunsden. Texture classification using non-parametric Markov Ran-dom Fields. Master’s thesis, University of Edinburgh, 2004. Link:http://www.inf.ed.ac.uk/publications/thesis/online/IM040154.pdf. Posljednji put pos-jeceno 04. rujna 2012.

[39] Andrzej Materka and Michal Strzelecki. Texture analysis methods – a review. COST B11report, Technical University of Lodz, Institute of Electronics, 1998. Brussels.

[40] Sven Loncaric. A survey of shape analysis techniques. Pattern Recognition, 31(8):983–1001, August 1998.

[41] Dengsheng Zhang and Guojun Lu. Review of shape representation and description tech-niques. Pattern Recognition, 37(1):1–19, January 2004.

36

Page 37: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

[42] Theodosios Pavlidis. Algorithms for shape analysis of contours and waveforms. IEEETransactions on Pattern Analysis and Machine Intelligence, PAMI-2(4):301–312, July1980.

[43] Babu M. Mehtre, Mohan S. Kankanhalli, and Wing Foon Lee. Shape measures forcontent based image retrieval: A comparison. Information Processing & Management,33(3):319–337, 1997.

[44] Tinne Tuytelaars and Krystian Mikolajczyk. Local invariant feature detectors: a survey.Foundations and Trends in Computer Graphics and Vision, 3(3):177–280, July 2008.

[45] Jianbo Shi and Carlo Tomasi. Good features to track. In 1994 IEEE Conference onComputer Vision and Pattern Recognition (CVPR’94), pages 593–600, 1994.

[46] Clemens Arth, Christian Leistner, and Horst Bischof. Robust local features and theirapplication in self-calibration and object recognition on embedded systems. IEEE Con-ference on Computer Vision and Pattern Recognition, pages 1–8, 2007.

[47] David G. Lowe. Distinctive image features from scale-invariant keypoints. InternationalJournal of Computer Vision, 60(2):91–110, November 2004.

[48] Herbert Bay, Andreas Ess, Tinne Tuytelaars, and Luc Van Gool. Speeded-up robust fea-tures (SURF). Computer Vision and Image Understanding, 110(3):346–359, June 2008.

[49] Peter Corke. Robotics, Vision and Control - Fundamental Algorithms in MATLAB R©,volume 73 of Springer Tracts in Advanced Robotics. Springer, 2011.

[50] Chris Harris and Mike Stephens. A combined corner and edge detector. In Proceedingsof the 4th Alvey Vision Conference, pages 147–151, 1988.

[51] Andrea Kovacs and Tamas Sziranyi. Shape detection of structural changes in long time-span aerial image samples by new saliency methods. In ISPRS Istanbul Workshop 2010on Modeling of Optical Airborne and Spaceborne Sensors, October 2010.

[52] Krystian Mikolajczyk and Cordelia Schmid. Scale and affine invariant interest point de-tectors. International Journal of Computer Vision, 60(1):63–86, 2004.

[53] Tony Lindeberg. Feature detection with automatic scale selection. International Journalof Computer Vision, 30(2):79–116, November 1998.

[54] Rafael C. Gonzalez and Richard E. Woods. Digital Image Processing. Prentice-Hall, Inc.,2nd edition, 2001.

[55] Gary Bradski and Adrian Kaehler. Learning OpenCV. O’Reilly Media, Inc., 1st edition,September 2008.

[56] Krystian Mikolajczyk and Cordelia Schmid. An affine invariant interest point detector. In7th European Conference on Computer Vision, ECCV ’02, pages 128–142, 2002.

[57] Soo-Chang Pei and Ji-Hwei Horng. Design of FIR bilevel Laplacian-of-Gaussian filter.Signal Processing, 82(4):677–691, April 2002.

37

Page 38: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

[58] Guoshen Yu and Jean-Michel Morel. A fully affine invariant image comparison method.2009 IEEE International Conference on Acoustics, Speech, and Signal Processing, pages1597–1600, 2009.

[59] Barry N. Taylor and Chris E. Kuyatt. Guidelines for evaluating and expressing the uncer-tainty of NIST measurement results. NIST technical note 1297, United States Departmentof Commerce, Technology Administration, National Institute of Standards and Technol-ogy, September 1994.

[60] Zheshen Wang and Baoxin Li. A two-stage approach to saliency detection in images.In IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP2008, pages 965–968, April 2008.

[61] Timor Kadir and Michael Brady. Saliency, scale and image description. InternationalJournal of Computer Vision, 45(2):83–105, November 2001.

[62] Timor Kadir, Djamal Boukerroui, and Michael Brady. An analysis of the Scale Saliencyalgorithm. Technical report, ouel no: 2264/03, University of Oxford, 2003.

[63] Stephen M. Smith and J. Michael Brady. SUSAN - a new approach to low level im-age processing. Technical report TR95SMS1c, Defence Research Agency, Farnborough,Hampshire, UK, 1995.

[64] Stephen M. Smith and J. Michael Brady. SUSAN - a new approach to low level imageprocessing. International Journal of Computer Vision, 23(1):45–78, May 1997.

[65] Stephen M. Smith. Edge thinning used in the SUSAN edge detector. Technical reportTR95SMS5, Defence Research Agency, Farnborough, Hampshire, UK, 1995.

[66] Dimitri A. Lisin, Marwan A. Mattar, Matthew B. Blaschko, Mark C. Benfield, and Erik G.Learned-Miller. Combining local and global image features for object class recognition.In Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision andPattern Recognition (CVPR’05) - Workshops, CVPR ’05, Washington, DC, USA, June2005. IEEE Computer Society.

[67] Aude Oliva and Antonio Torralba. Building the gist of a scene: The role of global imagefeatures in recognition. Progress in Brain Research, 155:23–36, 2006.

[68] Antonio Torralba. How many pixels make an image? Visual Neuroscience, 26(1):123–131, 2009.

[69] Chad Carson, Serge Belongie, Hayit Greenspan, and Jitendra Malik. Blobworld: Im-age segmentation using expectation-maximization and its application to image querying.IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(8):1026–1038, Au-gust 2002.

[70] Li Fei-Fei and Pietro Perona. A Bayesian hierarchical model for learning natural scenecategories. In Proceedings of the 2005 IEEE Computer Society Conference on ComputerVision and Pattern Recognition, CVPR ’05, pages 524–531, Washington, DC, USA, 2005.IEEE Computer Society.

38

Page 39: Pregled metoda za automatsku detekciju i prepoznavanje ...intranet.fesb.hr/Portals/0/docs/nastava... · složeni problemi na koje se je naišlo prilikom pokušaja implementacije zauvijek

[71] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce. Beyond bags of features: Spa-tial pyramid matching for recognizing natural scene categories. In Proceedings of the2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition -Volume 2, CVPR ’06, pages 2169–2178, 2006.

[72] Tinne Tuytelaars. Dense interest points. In IEEE Conference on Computer Vision andPattern Recognition, pages 2281–2288, 2010.

[73] Raphaël Marée, Pierre Geurts, Justus Piater, and Louis Wehenkel. Random subwindowsfor robust image classification. In International Conference on Computer Vision andPattern Recognition (CVPR), pages 34–40, 2005.

[74] Eric Nowak, Frédéric Jurie, and Bill Triggs. Sampling strategies for bag-of-features imageclassification. In European Conference on Computer Vision, ECCV ’06, pages 490–503.Springer, May 2006.

[75] Anna Bosch, Xavier Muñoz, and Robert Martí. Review: Which is the best way to or-ganize/classify images by content? Image and Vision Computing, 25(6):778–791, June2007.

39