26
1 Algorytmy graficzne Charakterystyki oraz wyszukiwanie obrazów cyfrowych

Charakterystyki oraz wyszukiwanie obrazów cyfrowych · (wektorach cech) obrazów, a nie bezpośrednio na obrazach. Kluczowym zagadnieniem jest ekstrakcja cech wizualnych obrazów

Embed Size (px)

Citation preview

1

Algorytmy graficzne

Charakterystyki oraz wyszukiwanie obrazów

cyfrowych

Pojęcie i reprezentacje obrazu

Obraz cyfrowy, I, definiuje się jako odwzorowanie z przestrzeni pikseli P do przestrzeni kolorów C, tzn. I: P C.Klasy obrazów

• obrazy k-spektralne. W tym przypadku przestrzeń kolorów to k - wymiarowa przestrzeń wektorowa Rk. Przykładem sąwielozakresowe obrazy satelitarne lub meteorologiczne. W przypadku obrazów wielozakresowych wykonanych przez próbkowanie poza spektrum widzialnym, konieczne jest kolorowanie przy użyciu sztucznych kolorów.

• obrazy 3-spektralne (RGB) są szczególnym przypadkiem obrazów k-spektralnych.

• obrazy w odcieniach szarości. Przestrzeń kolorów jest przestrzenią liczbową (skalarną): C={0,1,2,…,L-1}.

• obrazy binarne – przypadek szczególny obrazów z odcieniami szarości. W tym przypadku C={0,1}.

Obraz cyfrowy reprezentowany jest najczęściej przez macierz lub zbiór macierzy. Elementy macierzy odpowiadająpodstawowym elementom obrazu – pikselom. Przyjętymi formatami reprezentacji obrazów cyfrowych są formaty z przeplotem pikseli (pixel interleaved) oraz przeplotem koloru (color interleaved).

i

k

jjjjjjjjjjj

255 0 ∫ 0255 0 0ª ∏

2 176 76

y

{

zzzzzzzzzzz,

i

k

jjjjjjjjjjj

0 255 ∫ 00 255 0ª ∏

168 116 76

y

{

zzzzzzzzzzz,

i

k

jjjjjjjjjjj

0 0 ∫ 00 0 0ª ∏

101 98 45

y

{

zzzzzzzzzzz

ba

i

k

jjjjjjjjjjj

118 0 ∫ 91110 1 91ª ∏

0 0 0

y

{

zzzzzzzzzzz

i

k

jjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjj

i

k

jjjjjj

15511020

y

{

zzzzzzi

k

jjjjjj

0255255

y

{

zzzzzz ...i

k

jjjjjj

101010

y

{

zzzzzz

i

k

jjjjjj

25500

y

{

zzzzzzi

k

jjjjjj

02550

y

{

zzzzzzi

k

jjjjjj

303030

y

{

zzzzzz

ª ∏

i

k

jjjjjj

171112

y

{

zzzzzzi

k

jjjjjj

20015

y

{

zzzzzzi

k

jjjjjj

2516199

y

{

zzzzzz

y

{

zzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzz

c

Rys. 1. Sposoby reprezentacji obrazów cyfrowych. a) – reprezentacja obrazu w odcieniach szarości za pomocą pojedynczej macierzy prostokątnej; reprezentacja obrazów RGB w formacie: b) –color interleaved za pomocą trzech macierzy kwadratowych. Każda macierz reprezentuje inny kanał barwny; c) pixel interleaved. W tym przypadku, cały obraz jest reprezentowany pojedynczą macierzą, której elementami są wektory trójwymiarowe.

3

Deskryptory obrazu

Najprostszymi deskryptorami obrazu są deskryptory statystyczne. Niech dany jest obraz cyfrowy reprezentowany macierzą NxN, dla którego wartości pikseli opisane są funkcją f(x,y). Wówczas:

Średnia jasność obrazu

Wariancja (moment centralny drugiego rzędu)

Wariancja niesie informację o dynamice (zróżnicowaniu) obrazu. Stanowi prostąmiarę kontrastu: mała wartość wariancji – obraz o małym kontraście; duża wartość wariancji – obraz o dużym kontraście. W praktyce wykorzystuje się teżmomenty wyższych rzędów. Dla przykładu, moment centralny trzeciego rzędu jest miarą asymetrii rozkładu prawdopodobieństwa poziomów jasności (asymetrii histogramu). Wartość momentu centralnego dla rozkładów symetrycznych jest zerowy, ujemny dla rozkładów o asymetrii lewostronnej i dodatni dla rozkładów o symetrii prawostronnej.

Kontrast:

gdzie fmax oraz fmin stanowią odpowiednio maksymalną oraz minimalną wartośćjasności w obrazie lub w bloku (kontrast lokalny).

Rys. Obraz (a) – średnia: 218, wariancja: 1134.5, entropia: 5.89, wartość minimalna: 2, wartośćmaksymalna 255.

Obraz (b) – średnia: 218, wariancja: 42.17, entropia: 3.80, wartość minimalna: 176, wartość maksymalna: 225

a

b

4

Histogram

Histogram

Jest jednym z podstawowych narzędzi wykorzystywanych w przetwarzaniu i analizie obrazów. Jest wykorzystywany m. in. jako etap procedur korekcji jakości wizualnej obrazu, kwantyzacji, kompresji, segmentacji, wyszukiwania obrazów, etc.

Histogram jest funkcją przyporządkowującą możliwym poziomom jasności lub możliwym kolorom liczbęodpowiadających im pikseli w obrazie.

Jest narzędziem globalnego opisu obrazu – zawiera informacje o liczbie wystąpień poszczególnych wartości pikseli, ale nie o ich strukturze przestrzennej!.

Odtworzenie obrazu na podstawie znajomości histogramu nie jest praktycznie możliwe. Kiedy histogram jest odwzorowaniem odwracalnym?

W praktyce często stosuje się histogramy unormowane: h(k)=nk/N, gdzie N – liczba pikseli obrazu. Dla dużych wartości N (teoretycznie, zmierzających do nieskończoności), prawo wielkich liczb pozwala identyfikować częstość wystąpienia poszczególnych wartości jako prawdopodobieństwo ich wystąpienia.

Innym deskryptorem obrazu jest dystrybuanta histogramu unormowanego (suma wysokości słupków jest równa 1):

50 100 150 200 250

100

200

300

400

500

Histogram

462 316 6a b

50 100 150 200 250

0.002

0.004

0.006

0.008Histogram znormalizowany

c

Rys. Przyk ładowy obraz (a), jego histogram (b) oraz histogram znormalizowany (c).

50 100 150 200 250

100

200

300

400

500

Histogram

462 316 6a b

50 100 150 200 250

0.002

0.004

0.006

0.008Histogram znormalizowany

c

5

Histogram obrazu (przykłady)

Rys. Obraz czterech typów oraz ich histogramy i dystrybuanty histogramów: a) - obraz o średnim kotraście; b) – obraz o słabym kontraście; c) – obraz prześwietlony; d) obraz niedoświetlony. Entropia obrazów jest równa odpowiednio: 6.99, 2.72, 3.02 oraz 5.38.

dziecko .tif

50 100 150 200 250

0.005

0.01

0.015

0.02

0.025

Histogram , PDF

50 100 150 200 250

0.2

0.4

0.6

0.8

1Dystrybuanta , CDF

dziecko .tif

50 100 150 200 250

0.05

0.1

0.15

0.2

0.25Histogram , PDF

dziecko .tif

50 100 150 200 250

0.10.20.30.40.50.60.7

Histogram , PDF

50 100 150 200 250

0.2

0.4

0.6

0.8

1Dystrybuanta , CDF

dziecko .tif

50 100 150 200 250

0.1

0.2

0.3

Histogram , PDF

50 100 150 200 250

0.2

0.4

0.6

0.8

1

Dystrybuanta , CDF

50 100 150 200 250

0.2

0.4

0.6

0.8

1

Dystrybuanta , CDF

a b c d

Istotne cechy histogramu: liczby punktów dla których wartości w histogramie są niezerowe, szerokość, środek ciężkości, liczba modów, entropia

6

Histogram jako deskryptor obrazu

Histogram nie reprezentuje obrazu w sposób jednoznaczny. Wiele obrazów może posiadać identyczny histogram.

10

20

30

40

50a b

c d

e

Rys. (a) – (d) przykładowe obrazy o rozmiarze 10x10 o identycznym histogramie przedstawionym na rysunku (e). Przykład pokazuje, że w nietrywialnych przypadkach histogram nie jest odwzorowaniem odwracalnym.

7

Histogramy wielowymiarowe

Rys. (a) - przykładowy obraz RGB; (b) - histogram RGB; odpowiednio (c), (d) oraz (e) - histogram składowych RG; histogram składowych RB; histogram składowych BG.

Histogramy wielowymiarowe (2D) wykorzystywane są do wizualizacji korelacji zachodzących pomiędzy wyróżnionymi składowymi obrazu cyfrowego. Ze względu na łatwość wizualizacji w praktyce wykorzystywane są najczęściej histogramy dwuwymiarowe.

Histogramy 3D wykorzystuje się jako narzędzie porównywania obrazów kolorowych w systemach wyszukiwania obrazów.

Reprezentują względną liczbę (częstość) wystąpień pikseli przyjmujących określone wartości dwóch lub więcej składowych (korelacje) – patrz rysunki.

Mogą być wykorzystane do podziału wielowymiarowej przestrzeni atrybutów obrazu we wstępnej fazie kwantyzacji wektorowej.

Histogram 2D, RB

1020

30Red

10

20

30

Blue0

20406080n

1020Red

Histogram 2D, RG

1020

30Red

10

20

30

Green0

50100150200n

1020Red

Histogram 2D, BG

1020

30Blue

10

20

30

Green0

10203040n

1020Blue

Rysunek beans .tif

Brak pikseli przyjmujących wartości jednocześnie r=[0..10] oraz b=[0..10].

W obrazie przeważają piksele dla których składowe r i b leżą w przedziałach odpowiednio: r=[5..20], b=[10..30]

a

c d e

5 10 15 20 25 30

b

8

Entropia obrazu

W przypadku, gdy znany jest rozkład prawdopodobieństwa wartości pikseli w obrazie możliwe jest oszacowanie entropii obrazu jako miary ilości informacji w nim zawartej. Zakładając, że wartość piksela obrazu jest zmienną losowąprzyjmującą wartości n=1,2,…,N, entropia jest dana równaniem

gdzie H(n) odpowiada prawdopodobieństwu wystąpienia piksela o wartości n i jest wartością n-tego słupka histogramu unormowanego do jedności. Takie oszacowanie entropii zakłada, że wartość danego piksela jest zmienną losową i nie zależy od wartości pikseli sąsiednich. W ogólności założenie takie nie jest poprawne, ponieważ w obrazach istnieją bardzo silne korelacje przestrzenne (fakt ten wykorzystuje się w kompresji).

Entropię można interpretować jako nieoznaczoność (losowość) związaną z wynikiem eksperymentu (pojawieniem się symbolu źródła, etc.). Entropia jest równa minimalnej liczbie bitów koniecznych do reprezentacji wartości pojedynczego piksela obrazu.

Entropia, podobnie jak momenty statystyczne, pozwala reprezentować obrazy w przestrzeni liczb rzeczywistych. Oznacza to radykalną redukcję wymiaru przestrzeni reprezentacji w porównaniu z wielowymiarowymi przestrzeniami wektorowymi histogramów.

Rys. Przykładowe obrazy cyfrowe. Prawdopodobieństwo wystąpienia czarnych pikseli na kolejnych obrazach wynosi odpowiednio 1/2, 95/100, 1 oraz 0. Entropia obrazów wynosi odpowiednio 1.0, 0.29, 0 oraz 0.

Ramka wokół obrazu (d) nie stanowi jego fragmentu. Obrazy (c) i (d) sąnierozróżnialne z punktu widzenia entropii.

a b

c d

9

Korelacje w danych obrazowych (1)

Jedną z cech charakteryzujących dane obrazowe są silne korelacje przestrzenne objawiające się podobnymi wartościami pikseli sąsiadujących w obrazie (o podobnych współrzędnych przestrzennych).

Wielkość korelacji zależy do rodzaju obrazu oraz od przyjętego modelu barw zgodnie z którym obraz jest reprezentowany. Model RGB prowadzi do bardzo dużych korelacji pomiędzy składowymi R, G oraz B.

Istnienie korelacji wykorzystuje się w procedurach kompresji danych obrazowych.

Rys. Przykład korelacji w obrazie. (a) – przykładowy obraz; (b) – zależność wartości sąsiednich pikseli w wierszach obrazu; (b) zależnośćwartości pikseli przesuniętych względem siebie o 5 (w wierszach obrazu). Widoczna koncentracja punktów na prostej y=x.

a b c

10

Korelacje w danych obrazowych (2)

Rys. Kolejny przykład korelacji pomiędzy wartościami sąsiednich pikseli.

a b

11

Korelacje w danych obrazowych (3)

Statystyczną miarą liniowych zależności w zbiorze danych jest kowariancja. Dla dwóch zmiennych losowych X1 oraz X2kowariancja ma postać:

W przypadku, gdy zmienne losowe są niezależne kowariancja jest równa zero:

Zmienne losowe o takiej własności nazywa się nieskorelowanymi. Kowariancja niesie zatem informację o tym czy zmienne losowe są ze sobą powiązane zależnością liniową.

Dla wektora n zmiennych losowych X1, X2, …, Xn utworzyć można macierz kowariancji M, której (i,j) elementem jest cov(Xi,Xj), tzn.

Macierz korelacji ρ uzyskuje się przez normalizację elementów macierzowych macierzy kowariancji. Elementy macierzy korelacji posiadają własność: |ρ|≤1.

12

Korelacje w danych obrazowych (4)

0 50 100 150 200 250 3000

50

100

150

200

0 20 40 60 80 1000

20

40

60

80

100

0 20 40 60 80 1000

20

40

60

80

100

0 50 100 150 2000

50

100

150

200Rys. (a) Losowa macierz kwadratowa 100x100 o

wartościach z przedziału [0,255]. Na rysunku (b) przedstawiona jest macierz korelacji wyznaczona dla wierszy macierzy losowej (a). Wyraźnie widoczna jest główna przekątna macierzy na której elementy osiągają maksymalną wartośćrówną 1.

Rysunek (c) przedstawia przykładowy obraz oraz macierz korelacji (d) dla jego wierszy. Postać macierzy kowariancji sugeruje istnienie silnych korelacji pomiędzy wierszami obrazu.

a

c

b

d

13

Wyszukiwanie obrazów ze względu na zawartość (CBIR)

Wyszukiwanie obrazów ze względu na zawartość (content-based image retrieval, CBIR) jest techniką przeszukiwania dużych kolekcji obrazów w oparciu o ich własności wizualne. W odróżnieniu od tradycyjnych metod wyszukiwania ze względu na format, rozmiar, czas utworzenia, algorytm kompresji, rozdzielczość, etc. metody wyszukiwania ze względu na zawartość dążądo symulowania procesu wyszukiwania właściwego dla człowieka – wyszukiwania ze względu na treść obrazu.

Wykorzystanie tekstowego opisu obrazów w wielu przypadkach jest niewystarczające i niepraktyczne.

Rys. Schemat procesu wyszukiwania obrazów ze względu na zawartość.

Operacje oceny podobieństwa obrazów wykorzystujące odpowiednią funkcję podobieństwa operują na deskryptorach(wektorach cech) obrazów, a nie bezpośrednio na obrazach. Kluczowym zagadnieniem jest ekstrakcja cech wizualnych obrazów. Proces ten wykonywany w trybie off-line. Wyszukiwanie obrazów ze względu na zawartość wymaga technik automatycznej ekstrakcji takich własności wizualnych. Do najczęściej wykorzystywanych własności należą: kolor (histogram, momenty statystyczne, etc.), tekstura, kształt (wymaga segmentacji, tzn. podziału obrazu na obszary o jednakowym kolorze lub poziomie jasności) oraz lokalizacja (położenie segmentów, kolorów i kształtów w obrazie).

Sformułowanie zapytania (query) przez użytkownika polega na zadaniu obrazu wzorca, określonego kształtu, tekstury lub określeniu własności statystycznych obrazów, które powinny być wyszukane.

W systemie QBIC (Query By Image Content, IBM) własnościami wizualnymi na podstawie których przebiega proces wyszukiwania mogą być: procentowy udział kolorów w obrazie, kształty, tekstury oraz ich lokalizacja w obrazie.

Wyszukiwanie polega na porównywaniu deskryptora wyznaczonego na podstawie zapytania użytkownika z deskryptorami obrazów przechowywanych w bazie. Konieczne jest zadanie funkcji porównania.

Sprzężenie zwrotne (dla polepszenia jakości wyszukiwania).

14

Problemy związane z CBIR

Problem 1: Jakie własności wybrać jako reprezentację (treści) obrazu? Odpowiedź: Niezmiennicze (odporne) ze względu na zmienne warunki, w których obraz może być pozyskany (zmiany poziomu oświetlenia, przesłanianie, przestawianie elementów sceny, odległość kamera-obiekt, etc.) Posługiwanie się cechami o takich własnościach może zapewnićpoprawne klasyfikowanie obrazów obiektów w różnych warunkach. Najczęściej wykorzystywane deskryptory to: momenty statystyczne, histogram, tekstura, kształty.

Przed określeniem wartości poszczególnych cech najczęściej wykonywana jest odpowiednia modyfikacja obrazu umożliwiająca pozyskanie cech reprezentujących obraz. Modyfikacja może sprowadzać się do: zmiany przestrzeni barw, kwantyzacji, segmentacji, wyodrębnienia określonych fragmentów obrazu, wyeliminowania szumu, etc.

Nie istnieje uniwersalna przestrzeń nadająca się do opisu obrazów niezależnie od zastosowania. Najczęściej wykorzystywanymi przestrzeniami barw są: rgb, CIELUV, CIELAB, Munsell, HSV oraz modele barw przeciwstawnych. W wielu zastosowaniach pożądaną cechą przestrzeni barw jest percepcyjna jednorodność (spośród wymienionych, cechę tęposiadają CIELUV oraz CIELAB).

Problem 2: Miary podobieństwa. Jakich miar podobieństwa wektorów cech użyć? Różne miary prowadzą do różnej efektywności procesu wyszukiwania. Nie istnieje miara idealna, niezależna od zastosowania. W praktyce wykorzystuje się również funkcje, które nie są metrykami (odległościami).

Problem 3: Z jednej strony, użytkownik zainteresowany jest wyszukiwaniem ze względu na treść obrazu. Z drugiej strony, wyszukiwanie polega na ustalaniu stopnia podobieństwa wektora cech obrazów, a nie ich treści. W zależności od konkretnego zastosowania należy więc zapewnić reprezentowanie obrazu przez takie cechy, które mogą zapewnićzwiązek (korelacje) z treścią obrazu. Problem tzw. przepaści semantycznej (semantic gap).

Rys. Kwantyzacja sześcianu barw RGB. (a) – obraz oryginalny; (b)-(f) obraz po kwantyzacji do odpowiednio 64, 16, 8, 4 oraz 2 wartości na każdą składową wektora koloru. Zadaniem kwantyzacji jest zmniejszenie dynamiki wartości pikseli na potrzeby procesu wyszukiwania. Kwantyzacja niweluje również nieistotne fluktuacje wartości pikseli.

a b c d e f

15

Deskryptory obrazu

Najczęściej wykorzystywaną własnością do definiowania deskryptorów obrazu jest kolor. Informacja o poziomach szarości (luminancja) jest niewystarczająca do porównywania obrazów.

Deskryptory

Momenty statystyczne. Najczęściej wykorzystuje się trzy pierwsze momenty statystyczne: średnia, wariancja oraz moment trzeciego rzędu, będący miarą asymetrii. W przypadku obrazów o trzech składowych koloru, obraz reprezentowany jest przez 9 liczb: 3 deskryptory dla każdej z trzech składowych. Wyszukiwanie w oparciu o momenty statystyczne może stanowić etap wstępny służący do zawężenia przestrzeni poszukiwań, po którym następuje proces wyszukiwania w oparciu o inne cechy.

Entropia. Prosty deskryptor, ale o mocno ograniczonej efektywności.

Entropia względna (odległości Kullbacka-Leiblera) i funkcje z nią związane.

Histogramy składowych barwy. Histogram uważany jest za bardzo efektywną i zwięzłą reprezentację zawartości wizualnej obrazu cyfrowego. Do jego zalet należą prostota wyznaczenia, odporność ze względu na translacje i obroty osi widzenia, oraz ograniczona wrażliwość na zmianę skali, przesłanianie i zmianę kąta widzenia. Histogram nie zawiera jednak informacji o strukturze przestrzennej.

Histogramy można interpretować jako elementy wielowymiarowych przestrzeni wektorowych. Wymiarem przestrzeni można regulować przez proces kwantyzacji obrazów.

Wektor spójności koloru (Color Coherence Vector). Wektor spójności stanowi rozszerzenie koncepcji histogramu o informacje przestrzenne. Dany kolor (słupek histogramu, składowa koloru) jest klasyfikowany jako spójny (coherent) lub niespójny (coherent) w zależności od tego, czy piksele go reprezentujące tworzą spójny, zamknięty obszar w obrazie, czy też są rozproszone. Wektor spójności ma postać: { (a1,b1), (a2,b2), …, (aN,bN)}, gdzie ai oznacza liczbę pikseli tworzących spójny obszar, bi liczbę pikseli obszarów niespójnych.

16

Konstrukcja histogramu jako deskryptoraJak budować histogramy jako wektory cech? Stosowanie histogramów obrazów nieprzetworzonych, np. histogram RGB,

gdzie każda składowa przyjmuje 256 różnych wartości jest niepraktyczne, wymaga bowiem posługiwania się wektorami o 2563 składowych! W praktyce przeprowadza się redukcję liczby możliwych kolorów w drodze kwantyzacji.

Grupowanie słupków histogramu. Technika ta polega na zmniejszaniu liczby kolorów występujących w obrazie przez utożsamianie ze sobą sąsiednich wartości (słupków) składowych koloru, np. wartości [0,3] składowej R w obrazie RGB sklejane są ze sobą i reprezentowane przez wartość 0; wartości [5,8] reprezentowane przez 1; wartości [10,13] reprezentowane przez 2 itd. dla całego dopuszczalnego zakresu i wszystkich składowych. Efektywnie jest to równoważne kwantyzacji obrazu; w tym przypadku kwantyzacji do 256/4=64 wartości dla jednej składowej, co daje histogramy o rozmiarze 643.

Składowe wektora opisujące kolor piksela nie muszą być kwantyzowane w jednakowy sposób. W przypadku przestrzeni HSV uzasadniona może być silna kwantyzacja składowych S i/lub V, podczas gdy składowa H powinna być kwantowana w sposób znacznie słabszy.

Kafelkowanie obrazu polega na pokryciu całego obrazu oknami (kafelkami) o ustalonym rozmiarze, np. 4x4 i wyznaczeniu dla każdego takiego bloku średniej wartości poszczególnych składowych. Lista średnich wziętych ze wszystkich bloków obrazu stanowi listę możliwych wartości jakie przyjmują składowe koloru.

Histogram obrazu nie zawiera informacji o rozkładzie przestrzennym pikseli. Istnieje wiele różnych sposobów włączenia takiej informacji do histogramu. Do najprostszych należy podział każdego słupka histogramu na określoną liczbęskładowych, które opisują liczbę pikseli danego koloru leżących w określonych partiach (blokach) obrazu. Metoda ta wymaga podziału obrazu na rozdzielne bloki (patrz rysunek). W takim przypadku zwiększa się wymiar wektora cech.

1

2

3 45

1 5

Rys. (a) - Przykładowy podział obrazu na bloki; (b) – W standardowym przypadku wszystkie piksele danego koloru reprezentowane są przez słupek histogramu; (c) – Podział słupka histogramu na części opisujące liczbę pikseli danego koloru w poszczególnych blokach obrazu.

a b c

… …

2 3 4

17

Funkcje podobieństwa histogramówW przypadku porównywania obrazów reprezentowanych przez histogramy zaproponowanych zostało wiele różnych miar

podobieństwa. Niech dane są dwa obrazy cyfrowe reprezentowane przez odpowiednio histogramy H1 oraz H2. Niech obrazy są jednakowego rozmiaru, a kolory pikseli opisane są w N wymiarowej przestrzeni wektorowej (histogramy sąwówczas N-wymiarowymi wektorami).

Odległość Manhattan

Unormowana korelacja wzajemna

Odległość Euklidesa

Odległość kosinusowa Miara przekroju histogramów

18

Odległości Manhattan oraz Euklidesa (1)

Odległości Manhattan oraz Euklidesa są przykładami miar wywodzących się od uogólnionej metryki Minkowskiego. Ich wykorzystanie jest uzasadnione wtedy, gdy składowe wektora cech (w tym przypadku słupki histogramów) są od siebie niezależne i posiadają jednakową wagę. Chociaż warunki te nie są najczęściej spełnione (dlaczego?), to miary tego typu należą do najbardziej popularnych i najczęściej wykorzystywanych.

1 2 3 4 5 6 7 8 9 101 2 3 4 5 6 7 8 9 10

H1

1 2 3 4 5 6 7 8 9 10

H2

1 2 3 4 5 6 7 8 9 10

H3

Przykład.

Niech dane są trzy obrazy o jednakowej liczbie pikseli równej N, których histogramy (nieunormowane) przedstawione są na rysunku obok (wysokość każdego słupka jest równa 1/3 N). Histogramy zostały uporządkowane w taki sposób, że sąsiednie słupki histogramów odpowiadają kolorom percepcyjnie podobnym.

Odległości obrazów w przestrzeni histogramów obliczone na podstawie odległości Manhattan są równe odpowiednio:

Podobnie, wykorzystując odległość Euklidesa otrzymujemy:

W obu przypadkach odległość w przestrzeni histogramów nie odpowiada percepcyjnemu podobieństwu obrazów. Obrazem percepcyjnie najbardziej podobnym do (1) jest obraz (2). W przestrzeni histogramów obrazem bliższym jest jednak obraz (3).

19

Odległości Manhattan oraz Euklidesa (2)

Rozwiązaniem problemu przedstawionego na poprzednim rysunku może być posługiwanie się odległościami Manhattan oraz Euklidesa w przestrzeni skumulowanych histogramów (odpowiedniki dystrybuant), zamiast w przestrzeniach samych histogramów. Ilustruje to poniższy przykład.

Rysunki przedstawiają skumulowane histogramy (dystrybuanty) obrazów opisanych na poprzedniej stronie. Odległości Manhattan oraz Euklidesa dla dystrybuant są równe odpowiednio:

1 2 3 4 5 6 7 8 9 10

h1

1 2 3 4 5 6 7 8 9 10

h2

1 2 3 4 5 6 7 8 9 10

h3

oraz

Wniosek: W tym przypadku wyznaczone odległości odpowiadają percepcyjnemu podobieństwu obrazów.

20

Odległość biliniowa (kwadratowa)

Z odległością Euklidesa związana jest odległość biliniowa, zaproponowana w jednym z pierwszych systemów wyszukiwania obrazów – systemie QBIC.

Odległość pary obrazów definiuje się zgodnie z równaniem:

gdzie H1 oraz H2 reprezentują histogramy obrazów (uporządkowane w postaci wektorów), natomiast A jest macierzą podobieństwa kolorów w rozpatrywanej przestrzeni barw (w której opisane są kolory obrazów).

Macierz podobieństwa kolorów A jest kwadratową macierzą symetryczną, której element (i,j) określa podobieństwo kolorów Ci oraz Cj w przestrzeni barw:

W macierzy podobieństwa elementy diagonalne osiągają wartośćmaksymalną równą 1, ponieważ podobieństwo barwy do samej siebie jest równe 1. Podobieństwo barw najbardziej odległych jest równe 0.

Działanie macierzy podobieństwa sprowadza się do ważenia różnic wartości histogramów tak, by uwzględnić podobieństwo lub brak określonych barw obrazu.

W tym przypadku barwy powinny być reprezentowane w przestrzeniach percepcyjnie jednorodnych (odległość proporcjonalna do postrzeganego podobieństwa pomiędzy barwami).

W przeciwieństwie do wcześniej opisanych funkcji, odległość tego typu uwzględnia wzajemne podobieństwo barw.

Rys. (a) - Histogramy trzech przykładowych obrazów, których piksele są elementami trójwymiarowej przestrzeni barw: (czerwony, pomarańczowy, zielony). Dla uproszczenia przyjęto, że obrazy zawierają piksele tylko jednego koloru oraz, że są identycznego rozmiaru (każdy zawiera Npikseli).

(b) – Przykładowa macierz podobieństwa w rozpatrywanej trójwymiarowej przestrzeni barw.

Jest jasne, że odległości Manhattan pomiędzy histogramami H1 i H2 oraz H1 i H3 są identyczne i równe N. Odległość kwadratowa pomiędzy tymi samymi histogramami jest równa odpowiednio: N oraz 1.41 N. Sugeruje to, że obraz reprezentowany przez H1 jest bardziej podobny do obrazu reprezentowanego przez H2 niż obrazu reprezentowanego przez H3. Jest to zbieżne z wrażeniem postrzeganym przez człowieka.

a

bi

k

jjjjj1 0.5 0.

0.5 1 0.20. 0.2 1

y

{

zzzzz

1 2 3

H1

1 2 3

H2

1 2 3

H3

21

Entropia względna (odległość Kullbacka-Leiblera)

Entropia Shannona pozwala reprezentować obrazy w przestrzeni jednowymiarowej (przestrzeń wartości entropii), podobnie jak pojedyncze momenty statystyczne.

Entropia względna (odległość Kullbacka-Leiblera) jest funkcją określającą podobieństwo dwóch rozkładów prawdopodobieństwa. Entropia względna dwóch dyskretnych rozkładów prawdopodobieństwa określona jest równaniem:

gdzie dla zapewnienia ciągłości wymaga się by:

Entropia względna nie jest stabilna numerycznie (nieskończoności) dlatego w praktyce stosować można funkcję Jeffreyazdefiniowaną w następujący sposób:

22

Ocena efektywności procesu wyszukiwaniaZaproponowanych zostało kilka miar służących ocenie efektywności wyszukiwania informacji (niekoniecznie obrazów).

Powszechnie stosowanymi miarami jest dokładność (precision) oraz kompletność (recall)

dokładność (precision) jest miarą zdefiniowaną jako stosunek liczby dokumentów istotnych (na temat, relewantnych) podanych w odpowiedzi na zapytanie do całkowitej liczby dokumentów wygenerowanych jako odpowiedź na zapytanie. Miara ta przyjmuje wartości z przedziału [0,1]. Wartość 1 przyjmuje gdy wszystkie dokumenty podane w odpowiedzi sąrelewantne (odpowiadają wzorcowi).

W kontekście wyszukiwania obrazów, w przypadku gdy zbiór obrazów podzielony jest na rozłączne kategorie, dokładność określa stosunek liczby obrazów wygenerowanych na wyjściu i pochodzących z kategorii identycznej z kategorią wzorca do całkowitej liczby obrazów na wyjściu.

kompletność (recall) jest definiowana jako stosunek liczby dokumentów istotnych obecnych w odpowiedzi na zapytanie do całkowitej liczby dokumentów istotnych w zbiorze dokumentów. Kompletność przyjmuje wartości z przedziału [0,1]. Aby zapewnić możliwość przyjęcia wartości 1 liczba dokumentów na wyjściu powinna być równa co najmniej liczbie elementów istotnych. Parametr ten nazywany jest czasem czułością metody.

R(q)

Q(q)

Rys. Ilustracja miar dokładności i kompletności. R(q) oraz Q(q) oznaczają odpowiednio zbiór elementów istotnych skojarzonych z wzorcem q oraz zbiór elementów wygenerowanych jako odpowiedź na zapytanie.

23

Ilustracja

Rys. Przykładowy podzbiór obrazów wykorzystanych do prezentacji algorytmu wyszukiwania obrazów ze względu na zawartość.

24

Ilustracja

Rys. Rezultat wyszukiwania w zbiorze obrazów obrazu najbardziej podobnego do obrazu podanego w pierwszej kolumnie. (a), (b) i (c) stanowią wyniki wyszukiwania z miarą podobieństwa, odpowiednio: odległość Euklidesa, modułowa, przekrój histogramów. Obrazy uszeregowane są w wierszu ze względu na stopień podobieństwa (podobieństwo maleje w kierunku do prawej).

a

b

c

25

Ilustracja

Rys. Inny przykład wyszukiwania obraz z funkcjami jak na poprzednim slajdzie.

a

b

c

Wnioski…?

26

Projekt (laboratorium)Projekt w wersji podstawowej obejmuje:

Przygotowanie systemu wyszukiwania obrazów cyfrowych barwnych w zbiorze co najmniej 70 obrazów o jednakowych wymiarach (np. 100x100 pikseli). Obrazy powinny pochodzić z różnych (nazwanych) kategorii tematycznych (co najmniej 5 kategorii), każda kategoria reprezentowana przez zbliżoną liczbę obrazów. Poza tym obrazy powinny być wybierane bez konkretnego klucza.

Uproszczony interfejs, pełna funkcjonalność systemu.

Redukcja liczby kolorów przez kwantyzację do zadanej liczby poziomów oraz praca w przestrzeni RGB.

Porównanie efektywności wyszukiwania na podstawie porównania momentów statystycznych oraz zastosowania różnych funkcji odległości histogramów: Manhattan, Euklidesa, przekroju histogramów, Jeffreya, Kullbacka-Leiblera. Komentarz. Wnioski.

Przykłady zapytania i generowanych przez system odpowiedzi.

Kod. Opis użytych funkcji, klas, etc… Dokumentacja opublikowana w sieci lub w postaci wydruku.

Całość: 10 punktów

Bonusy:

Praca w przestrzeni rgb lub HSV: +0.5 punktu. Każda dodatkowa przestrzeń: +1 punkt. Uwzględnienie rozkładu przestrzennego wartości pikseli: +2 punkty.

Każda dodatkowa miara podobieństwa (inna niż podana na wykładzie, konieczne wskazanie źródła): + 0.25 punktu.

Czas i warunki:

Czas na przygotowanie projektu: 4 tygodnie. Projekty oddawane w trakcie laboratorium.

Każdy tydzień spóźnienia: -3 punkty (spóźnienie >3 tygodnie: max. 1 punkt)

Oddanie projektów skopiowanych (w całości lub części): 0 punktów za projekt lub całość laboratorium.