Upload
reyna
View
18
Download
0
Embed Size (px)
DESCRIPTION
Trademarking retrieval. Jana Maláčová. Obsah. Co je to trademark a trademarking retrieval Motivace pro trademarking retrieval Obecné systémy Metody pro reprezentaci tvarů Projekt Davida Liu Systémy využívající genetické algoritmy Použitá literatura. Co je to trademark. - PowerPoint PPT Presentation
Citation preview
Trademarking retrieval
Jana Maláčová
Obsah Co je to trademark a trademarking retrieval Motivace pro trademarking retrieval Obecné systémy Metody pro reprezentaci tvarů Projekt Davida Liu Systémy využívající genetické algoritmy Použitá literatura
Co je to trademark Trademark, neboli obchodní známka je
označení, kterým firma nebo jedinec identifikují samy sebe, své výrobky nebo služby. Pomocí trademarku je zákazníci odlišují od jiných firem
Dnes je počet trademarků v řádu miliónů a stále tento počet stoupá
U nás má ochranné známky na starost …
Motivace Trademarky hrají důležitou roli v poskytování
unikátní identity v oblasti marketingu Nových trademarků neustále přibývá Systémy pro klasifikaci trademarků být
schopné zajistit, že existující trademarky jsou navzájem odlišné, musí se vyhnout kolizím
Systémy musí být dostatečně rychlé
Obecné systémy Oddělení systémů pro vyhledávání trademarků a
obyčejných obrázků Různé druhy indexace a jejich výhody a
nevýhody Indexace trademarků
Ruční Automatická
Indexace Textová Visuální
Dnešní trademark retrieval systémy
Projekt Davida Liu – popis systému Databáze trademarků obsahuje naskenované
trademarky Dotaz může být buď naskenovaný obrázek
nebo nakreslený Systém je založen na porovnávání vzoru
(dotazu) se všemi trademarky v databázi
Projekt Davida Liu – popis systému
Fáze přípravy dotazu - filtrování Filtrování šumu
Při naskenování se dostává do obrázku šum. V obrázku se vyskytují tečky nebo prázdné díry, které by v obrázku neměli být. Ty jsou označeny za vady
Na vstupu je více obrázků a z těchto se pak do další fáze zkombinuje jediný, ve kterém je již šum odstraněn
Příklady odstraňování šumu
Fáze přípravy dotazu - extrakce
Extrakce kostry versus extrakce obrysu Vyfiltrovaný obrázek je rozdělen do několika regionů Každý region je buď převeden na kostru nebo obrys,
rozhoduje se podle charakteru daného regionu Rozhodování, zda zvolit kostru nebo obrys
Podíváme se na každý pixel kostry a sledujeme, vzdálenost tohoto pixelu od nejbližšího pixelu obrysu. Pokud je tato vzdálenost „malá“ a navíc pro každý pixel kostry je vzdálenost k nejbližšímu obrysovému pixelu přibližně stejná, pak volíme reprezentaci kostrou. V opačném případě volíme obrys
Fáze přípravy dotazu – extrakce - příklad
Fáze přípravy dotazu – extrakce charakteristických znaků a výpočet podobnosti Charakteristické vlastnosti trademarku jsou získávány z
každého tahu ze tří základních charakteristik každého tahu: střed daného tahu, konvexnost tahu a celková délka tahu.
Ostatní charakteristiky jsou odvozeny z těchto základních. Tyto charakteristiky jsou pak použity systémem pro odhadování tvarů, který vypočítává podobnost daného tahu ke třem základním tvarům: přímka, kružnice, polygon
Tyto podobnosti jsou pak základními charakteristikami pro každý obrázek
Z se počítá podobnost mezi jednotlivými obrázky
Extrakce charakteristických znaků - příklad Podobnost kruhu(a) 0.8536 (b) 0.6806 (c) 0.273
Podobnost polygonu
(a) 0.9772 (b) 0.5390 (c) 0
Extrakce charakteristických znaků - příklad Podobnost přímce
(a) 0.9953 (b) 0.4958 (c) 0
Výpočet podobnosti mezi dotazem a trademarkem z DB
Vzorec pro výpočet podobnosti dvou tahů, kde SQi je i-tý tah z dotazu, SDj je j-tý tah z trademarku z DB, p je jeden ze základních tvarů, cp(s) je podobnost k tomuto základnímu tvaru, fp,k(s) je k-tá vlastnost tvaru p tahu s, a G(f1 ,f2) je podobnost mezi vlastnostmi 1 a 2
Vzorec pro výpočet podobnosti dvou obrázků, kde SQi je i-tý tah z dotazu, SDj je j-tý tah z trademarku z DB
Příklad
Srovnání použití různých reprezentací tvarů
Druhy trademark retrieval systémů QBIC(query by image content) – slouží jako
databázový filter obrázků, který umožňuje dotazy založené na obsahu obrázku jako podíl barev obrázku, rozložení barev a struktur, systém musí být dobře natrénovaný, aby dobře pracoval
STAR(systém for trademark archival and retrieval) systém pracující na základě charakteristik R, G a B barevných komponent, invariantních momentů a Fourierových deskriptorech extrahovaných z manuálně vybraných objektů
Obecně si vybíráme některé vlastnosti obrázků pro jejich reprezentaci a na jejichž základě rozhodujeme o jejich vzájemné podobnosti
Systémy využívající genetické algoritmy Existuje mnoho vizuálně význačných
charakteristických znaků pro každý obrázek (např. obrys, kruhovitost, …). Každá z těchto charakteristik má vliv na to, jak obrázek vypadá, každá má ale také jinou váhu v celkovém vzhledu. Snahou tohoto systému je najít vizuálně významné charakteristiky a přiřadit jim patřičnou váhu, která odpovídá vizuální důležitosti tohoto znaku. Pak je obrázek chápán jako soubor těchto význačných znaků s jejich váhou.
Systémy využívající genetické algoritmy – popis systému Definujeme si DB trademarků jako množinu obrázků
{Ii}, pro každý obrázek definujeme zobrazení f:IxV->Rd , kde V je množina charakteristických znaků, R je d-dimenzionální vektor reálných hodnot charakteristik
DB pak trénujeme na trénovací množině, což je množina párů Tp=(IT,IS), kde IT je cílový obrázek dotazu a IS je uživatelem definovaný nejlepší obrázek. Takových trénovacích párů máme n.
Mějme funkci DT (Ii,Ij), která počítá podobnost mezi obrázky Ii a Ij , kde Dfi je
Euklidovská vzdálenost mezi vektory charakteristických znaků obrázku i a j
TC(w) je definován jako počet korektních hitů daných funkcí DT pracující s množinou vah w
Systémy využívající genetické algoritmy – popis systému Abychom mohli spočítat ideální rozložení vah
pro dané charakteristické znaky obrázku, použijeme genetické algoritmy
Jako chromozom si vezmeme vektror vah ci = (w1, …, wn)
Populace P je dána množinou vektorů ci, kde každý ci je chromozom představující vektor vah
Pomocí genetického algoritmu se z populace vybere vektor ideálních vah pro charakteristické vlastnosi
Počáteční generace byla vygenerována náhodně
Systémy využívající genetické algoritmy – výsledky Pomocí genetického algoritmu bylo vybráno pět
charakteristických znaků obrázku, kterým byly přiděleny váhy. Tyto vlastnosti jsou: Fourierovy deskriptory, aproximované hranice, sedm invariantních momentů, mimostřednost, kruhovitost a Eulerovo číslo
Tento výběr zároveň umožňuje, že může mít trademark i více komponent
Ke každému obrázku v DB jsou pak uloženy extrahované hodnoty těchto charakteristických znaků
Při zadání dotazu , jsou první z dotazu extrahovány charakteristické znaky a pak je počítána ke každému obrázku počítána DT funkce. Výsledky jsou pak seřazeny podle podobnosti.
Systémy využívající genetické algoritmy – popis systému
Systémy využívající genetické algoritmy – příklad výsledků
Systémy využívající genetické algoritmy – příklad výsledků
Trocha z reálného života Systém založený na kombinovaném vyhledávání Pracuje nad reálnou databází o velikosti 63718
trademarků z US Patent and Trademark office Ke každému obrázku je asociováno několik textových
položek (obsahuje kód obrázku (označuje kategorii obrázku), zboží a služby asociované s obrázkem, sériové číslo trademarku, krátký popisný text, registrační číslo obrázku, datum registrace, vlastníka, …)
Obrázky v DB jsou normalizované, převedeny na černobílé a jejich velikost je redukována na jednotnou velikost v celé DB
Každý obrázek je rozdělen na 4 stejné části a každá z nich je reprezentována příslušnými histogramy
Vyhledávání Vyhledávání: nejdříve se vyhledává podle
některé nebo všech textových položek Výsledkem vyhledávání je množina obrázků Uživatel si vybere některé ze zobrazených
a dále může kombinovat vyhledávání podle textu a obsahu obrázku
Pokud se provádí vyhledávání pouze na základě obrázku, porovnává se histogram zadaného obrázku se všemi histogramy obrázků v DB
Příklad
Příklad
Použitá literatura
www.google.com http://www.cs.cuhk.hk/~king/PUB/c
han99a.pdf http://amp.ece.cmu.edu/projects/
TrademarkRetrieval/