ТЕХНИЧЕСКИ УНИВЕРСИТЕТ – СОФИЯkonkursi-as.tu-sofia.bg/doks/SF_FKSU/ns/510/avtoreferat.pdf · интерактивни конферентни зали за

ТЕХНИЧЕСКИ УНИВЕРСИТЕТ – СОФИЯ Факултет Компютърни системи и технологии

Катедра Компютърни системи

Маг. инж. Петър Василев Маринов

МЕТОДИ ЗА ОПТИМИЗИРАНЕ НА НАМИРАНЕТО НА

ДАДЕНА ИНФОРМАЦИЯ В ИНТЕРНЕТ (SEO), БАЗИРАНИ

НА DATA MINIG АНАЛИЗИ И НАДГРАЖДАНЕ НА

СЪЩЕСТВУВАЩИ ТАКИВА

А В Т О Р Е Ф Е Р А Т

на дисертация за придобиване на образователна и научна степен

"ДОКТОР"

Област: 5. Технически науки

Професионално направление: 5.3 Комуникационна и компютърна техника

Научна специалност: Компютърни системи, комплекси и мрежи

Научен ръководител: Доц. д-р Надежда Ангелова

СОФИЯ, 2019 г.

2

Дисертационният труд е обсъден и насочен за защита от Катедрения съвет

на катедра „Компютърни системи“ към Факултет Компютърни системи и технологии на ТУ-София на редовно заседание, проведено на 09.07.2019 г..

Публичната защита на дисертационния труд ще се състои на 11.11.2019 г. oт 13:00 часа в Конферентната зала на БИЦ на Технически университет – София на открито заседание на научното жури, определено със заповед № ОЖ-5.3-73 от 18.07.2019 г. и заповед № ОЖ-5.3-78 от 02.08.2019 на Ректора на ТУ-София в състав:

1. Проф. д-р Даниела Гоцева – председател

2. Доц. д-р Надежда Ангелова-Кучмова – научен секретар

3. Проф. д-р Нина Синягина

4. Доц. д-р Йорданка Анастасова

5. Проф. д.т.н. Стойчо Стойчев

Рецензенти:

1. Проф. д-р Даниела Гоцева

2. Доц. д-р Йорданка Анастасова

Материалите по защитата са на разположение на интересуващите се в канцеларията на Факултет Компютърни системи и технологии на ТУ-София, блок № 1, кабинет № 1443.

Дисертантът е редовен докторант към катедра „Компютърни системи“ на

факултет Компютърни системи и технологии. Изследванията по дисертационната разработка са направени от автора.

Автор: маг. инж. Петър Маринов Заглавие: Методи за оптимизиране на намиране на дадена информация в

интернет (SEO), базирани на DATA MINING анализи и надграждане на съществуващи такива

Тираж: 30 броя Отпечатано в ИПК на Технически университет – София

3

I. ОБЩА ХАРАКТЕРИСТИКА НА ДИСЕРТАЦИОННИЯ ТРУД

Актуалност на проблема

В интернет пространството се натрупват огромни количества лесно достъпна информация като се споделя все по-голям обем от изображения и видеоклипове, но ефективното извличане на желана информация е задача с нарастваща трудност. Извличането на визуална информация с определена насоченост от интернет пространството е нерешена задача. Методите за компютърно зрение могат да опростят достъпа до данните във визуалните хранилища. През последните години в областта на разпознаване на образи се работи усилено и е постигнат значителен напредък, дължащ се най-вече на въвеждането на идейно нов подход за разпознаване – локални визуални особености на изображение. Този подход, изисква обработването на голям обем от информация. Анализът на изображения на ниво обект се разделя на две подзадачи: откриване на характерни обекти и откриване на класове обекти. Предизвикателство тук е огромното количество данни. Затова са важни идеите за прототипи на алгоритми, които да помагат при анализиране и търсене на големи хранилища от визуални данни. Добиването на данни от големи бази данни и тяхното „осмисляне” е много актуална и бързо развиваща се област в областта на компютърните системи, която дава ефективни алгоритми за обработване на огромни масиви от данни.

Естествена тенденция е подобряването на работата на интернет търсачките да се търси в областта на обработването на визуалните данни чрез DATA MINING. Важно направление тук е откриването на обект в интернет задачите де се постига с методи DATA MINING, доколкото те се конкурират с най-съвременните методи, използвани за откриване на обекти и доколкото тази идея подобрява работата на интернет търсачките (SEO). Друга специфика на визуалните данни, споделени в интернет е, че те често са вградени в мултимодален контекст. Затова са актуални изследванията за възможността тази мултимодалност на описанията да се използва при изучаване и откриване на обектите в интернет. Затова темата за анализ на методи за оптимизиране на намирането на дадена информация в интернет (SEO), базирани на DATA MINIG и надграждане на съществуващи такива е актуална и с потенциал за сериозни практически приложения.

Цел на дисертационния труд, основни задачи и методи за изследване

Дисертационният труд цели сериозен анализ на съществуващите и прилагащите се към момента методи за разпознаване на образи и оптимизиране на намиране на дадена визуална информация (SEO) в съвременните интернет търсачки и техните „машини за търсене” (Search Engine). Целта е да бъдат разгледани методи и алгоритми за обработване на

4

визуални данни в интернет пространството и на база натрупаната информация от данни, да бъде извършен DATA MINING анализ на намерената информация за съответно търсене. На база анализа, да бъдат предложени методи, които да повишат ефективността на обработване на дадена информация от търсачките чрез прилагане на подобрените подходи, предложени в дисертационния труд, както и чрез надграждане на познатите такива.

Основните задачи за постигане на поставената цел са свързани с е изследване на възможността за прилагане на алгоритми за добиване на данни в областта на визуалните данни, на многообещаващия подход с често срещани множества от елементи (itemset) и на методите за работа с локални визуални особености, подходите за добиване на данни. Обсъжда се адаптирането на тези методи за успешното им използване за добиване на конкретни обекти и за идентифициране на често срещани конфигурации от особености като представители на класове обекти, на получаването на визуален речник, на подобрения при кодирането и обединението на извлечените особености като стоп особености и хибридно представяне на визуалните думи. като предпоставка за подобряване качеството и бързината на работата на търсачките. Изследва се приложението на подхода за добиване на често срещани множества от данни при работа с визуални данни, включването на пространствена информация към визуалните думи, филтриране на голямо количество от особености, базиран на добиване на често срещани конфигурации от особености и обучение. Друга задача е приложение на описаните методи за разпознаване на образи чрез добиване на данни при извличане на изображения във фотоколекции в интернет пространството. Друга задача е извличането на визуална информация в мултимодален контекст, базирана на заявка чрез пример и приложения на прототип за мащабируемо извличане на визуални данни, които да да се използват при мобилни устройства, включвайки мултимодален контекст.

Научна новост

Научната новост в тази работа е в извличане на визуални данни на ниво обект с методите DATA MINING и използването на този подход за подобряване на параметрите на търсачките в интернет пространството:

Първо, това е изследване на възможността за прилагане на алгоритми за добиване на данни в областта на визуалните данни. Направен е подробен преглед на използваните подходи за разпознаване на образи и на многообещаващия подход с често срещани множества от елементи, на методите за работа с локални визуални особености, както и на подходите за добиване на данни. Тук се обсъжда адаптирането на тези методи за успешното им използване за добиване на конкретни обекти и за често срещани конфигурации от особености като представители на класове обекти като предпоставка за подобряване качесвото и бързината на работата на

5

търсачките. Отделено е внимание на получаването на визуален речник, на подобрения при кодирането и обединението на първоначално извлечените особености от изображенията чрез въвеждане на стоп особености и на хибридно представяне на визуалните думи.

Второ, това е приложение на DATA MINING подхода за добиване на често срещани множества от визуални данни, т.е. поредица от изображения отразяващи движение на обект, често срещани конфигурации от особености за намиране на класове от обекти, е включването на пространствена информация към визуалните думи, филтриране на голямо количество от особености като междинен слой между добиване на особености и откриване на клас обекти опростяващо и ускоряващо търсенето в интернет пространството. Обсъдена е и възможността да се използват графи за търсене на визуална информация.

Трето, това е приложение на описаните методи за разпознаване на образи чрез DATA MINING при извличане на изображения във фотоколекции в интернет пространството, т.е. събиране на данни от фотоколекции, създаване на клъстери по събраните снимки, класифицирането им на събития и обекти. След разпознаване на конкретно заявено изображение, да се осъществи връзка с Уикипедия за линкове с информация за обекта или събитието в снимката, както и автоанотация на ниво обект. Изследвано е мултимодално извличане за автоматично добиване на обекти и събития в Интернет фото колекции. След обхождането на геотаговите снимки, методът автоматично клъстерира снимките, показващи един и същ обект или събитие чрез визуални особености, анализира мултимодалния контекст на всеки идентифициран клъстер (текст), дава текстово описание на клъстерите. Този подход се използва за идентифициране на страници в Уикипедия и изграденият въз основа на добитите визуални данни документ се проверява и пречиства до анотация на ниво обект на добитите съществуващи обекти.

Четвърто, това е извличането на визуална информация в мултимодален контекст, базирана на заявка чрез пример. Направени са предложения за приложения на прототип за мащабируемо извличане на визуални данни, въз основа на данните, добити в предишните стъпки и за използването им при мобилни устройства, включвайки мултимодален контекст такъв като GPS местоположението на потребителя. Обсъдени са възможности за уеб и десктоп приложения, за разпознаване на обекти чрез мобилни устройства и интерфейси. Разгледани са приложения, които могат да се използват в интерактивни конферентни зали за създаване на хиперлинк слайдове, както и за тип туристически пътеводител за град за създаване на хиперлинк сгради.

Практическа приложимост

Получените резултати имат практическа насоченост за получаване на по-ефективни подходи и алгоритми за разпознаване на обекти с интернет

6

търсачки, за приложения към мобилни устройства за търсене на конкретен обект или събитие, за класифициране и подреждане на информация в колекции от снимки в интернет пространството, за създаване на хиперлинк обекти.

Апробация

Резултатите в дисертационния труд са представени на две конференции НСНТК в България – 2014 и 2015 г., на конференция BALCOR в Румъния – 2015 г. и на конференция Computer Science в Гърция – 2018 г.

Публикации

Основни постижения и резултати от дисертационния труд са публикувани в шест публикации, от които четири са самостоятелни и две в съавторство с научния ръководител. Три от тях са на български език, публикувани в България и три са на английски, публикувани в чужбина.

Структура и обем на дисертационния труд

Дисертационният труд е в обем от 179 страници, като включва увод (първа глава), три глави за решаване на формулираните основни задачи, заключение (пета глава), списък на основните приноси, списък на публикациите по дисертацията и използвана литература. Цитирани са общо 137 литературни източници, всички на латиница, от които 2 интернет адреса. Работата включва общо 54 фигури и 11 таблици. Номерата на фигурите и таблиците в автореферата съответстват на тези в дисертационния труд.

7

II. СЪДЪРЖАНИЕ НА ДИСЕРТАЦИОННИЯ ТРУД

ГЛАВА 1. Разглежда състоянието на проблема за разпознаване на обекти и проблема за добиване на данни.

Голямо количество дигитални снимки се споделят на цифрови платформи в Интернет. Методите за Компютърно зрение могат да опростят достъпа до данните във визуалните хранилища. Анализът на изображения на ниво обект се разделя на две подзадачи: 1) откриване на характерни обекти и 2) откриване на класове обекти (напр. сграда в изображение, независимо коя). В този труд се предлагат подходи тези резултати да бъдат приложени при оптимизирането на търсачките в интернет. Предизвикателство тук е огромното количество данни. Работи се върху идеята откриването на обект в интернет де се постига с DATA MINING методи за добиване на данни.

Визуалните данни споделени в интернет често са вградени в мултимодален контекст. В тази работа се разглежда възможността тази мултимодалност на описанията да се използва при изучаване и откриване на обектите.

Накрая, в интернет пространството се натрупват огромни количества лесно достъпна информация, но ефективното извличане на желана информация е задача с нарастваща трудност. Затова са важни идеите за прототипи на алгоритми, които да помагат при анализиране и търсене в големи хранилища от визуални данни. Направеното в работата в тази насока може да подпомогне създаването на приложения, помагащи при получаване на знания от нарастващия поток от информация.

1.1 Проблема за Разпознаване на Обекти Задачата е разпознаване на тримерни обекти от 2D изображения. Целта е

метод за разпознаване на обекти с постигане на всеобщност и лесно обучение с минимални ограничения. Има две тенденции в методите за разпознаване на обекти – геометрично базирани методи и методи базирани на появяването.

Методите за локално появяване са основна идея при изследванията в тази дисертация.

1.1.2 Методи Базирани на Появяване включват две фази: 1) изграждане на модела от набор от обучаващи изображения и 2) извличане на части от входното изображение. Системата за разпознаване сравнява извлечената част от входното изображение с референтните. 1.1.3 Методи Базирани на Локални Особености Тъй като не се изисква съвпадение на всички локални особености, подходите са устойчиви на прикриване и претрупан фон.

Детектори. Най-напред се откриват интересни елементи от образа. Дескриптори. Локалното появяване на изображението в околност на

8

интерените точки се кодира по начин, позволяващ търсене на подобни елементи.

Индексиране. Базата данни от дескрипторите с локално появяване се индексира, така че ефективно да се извличант подобни дескриптори.

Съпоставяне. При търсенето в базата данни, се оценява разстоянието между заявената особеност и особеностите, съхранявани в базата данни.

Проверка. на присъствието на модела в заявеното изображение. Оценява се обща трансформация, свързваща изображенията.

1.2 Състояние на Проблема за Добиване на Визуални Данни Етапите при Добиване на Образи са следните.

Разпознаване на обекти. се състои от четири компонента: 1) база данни от модели, 2) детектор на особености, 3) създаване на хипотеза, 4) проверка на хипотезата.

Добиването на изображения става на три нива: 1) чрез примитивни особености (цвят, текстура, форма), 2) чрез производни или логически особености (обекти от определен тип), 3) добиване на изображения от абстрактни атрибути – значение или предназначение на изобразените обекти или сцени.

Индексиране на изображения. Класификация и клъстериране на изображения става с контролирана

и неконтролирана класификация на изображенията в групи. Правилата за присъединяване се създават по поддръжка и

доверителност: 1) Намиране на множествата от елементи над минимална за поддръжка, 2) Генериране на правила от големите множества над минимална доверителност. ГЛАВА 2. Разглежда методи и алгоритми, важни за разпознаване на изображения чрез методи за добиване на данни, използващи се в търсачки – 1) детектори и дескриптори, локални визуални особености, и 2) клъстериране и методи с локално появяване за откриване на обект с визуален речник.

2.1. Детектори и Дескриптори на Локални Особености Сравняването на две изображения с помощта на локални особености се

свежда до изпълнението на три етапа: 1) Извличане на особености 2) Съвпадение на особености 3) Разпознаване

Разпознаването е въз основа на броя и местоположението на съвпаденията.

2.1.2 Детектори на Локални Особености 2.1.2.2 Детектори на Ъгли (точки с голяма кривина в 2D образа)

- Харис детектор - SUSAN детектор Харис и SUSAN детекторите са инвариантни спрямо транслация и

ротация.

9

2.1.2.3 Детектори на Петна Те са допълващи към детекторите на ъгли и често се използват заедно.

Хесе детекторът се основава на производни. Използва се 2х2 Хесиан матрицата за функцията на интензивността на образа I(x)

Афинният Хесе детектор намира първото устойчиво значимо място в мащабираното пространство и определя елиптична област около него.

2.1.2.4 Детектори на Области IВR детекторът открива афинни инвариантни области. Той започва от

максимумите на интензивност и изследва образа около тях в радиална посока MSER детекторът е афинно–ковариантен детектор. Всички пиксели

вътре в MSER областта имат или по-висок (светли области) или по-нисък (тъмни области) интензитет, в сравнение с пикселите на външната й граница.

2.1.2.5 Ефикасни Детектори DoG детекторът е мащабно инвариантен и извлича петна в образа чрез

апроксимиране на Лапласиана. Така се заобикаля изчисляването на производните от втори ред по x и y.

SURF детекторът дава бързо извличане и компактно описание като използва интегрални образи. Входът на интегралния образ е сумата от всички пиксели на правоъгълна област във входния образ.

FAST детекторът се основава на промените в интензивността. Той използва морфология, за да извлече точки с голяма кривина както и изпъкнали и вдлъбнати точки от ръбове.

2.1.3 Визуални Дескриптори След локализиране на интересна точка, около нея се кодира област с

помощта на вектор дескриптор.

2.1.3.3 Дескриптори на Цветове Цвят е най-основното качество на визуалното съдържание. DCD дескрипторът на доминантен цвят дава компактно описание на

представителните цветове в изображение. При извличането се групират стойностите на цветовете на пикселите.

CLD дескрипторът обхваща пространственото оформление на представителните цветове по мрежа върху изображението.

SCD мащабируемият дескриптор на цвят е цветова хистограма. Ползва се при съпоставяне на два образа и за извличане на образи.

GoF и GoP са разширения на SCD до група от кадри.

2.1.3.4 Често Използвани Дескриптори SIFT съдържа и детектор и дескриптор на значими места и е инвариантен

спрямо мащабиране и ротация. SURF включва и детектор и дескриптор. Той изчислява набор от прости

особености, в подобласт на правоъгълна околност на значимо място. MSER намира елипса спрямо изходните области и след нормализиране

се изчислява MSER дескриптор на областта върху пикселите в областта.

10

2.2 Клъстериране Тук се разглеждат алгоритми, които могат да работят с векторни данни.

2.2.1 Клъстериране на Основата на Типичен Представител Дадени са множество от данни и броят на желаните клъстери k. Целта е

да се раздели множеството на k клъстера C ={C1,C2, ... ,Ck}. За всеки клъстер Ci има представяща го точка центроид μi на точките в клъстера,

ij Cx

j

i

ix

n

1 ni = |Ci| е броят на точките в клъстера Ci (2.4)

2.2.1.1 K – Средни За клъстерирането C={C1,C2,...,Ck} се дефинира функция за качество –

сумата от квадратите на грешите: 2

1

)(

k

i Cx

ij

ij

xCSSE (2.5)

Целта е да се намери клъстериране минимизиращо оценката за SSE:

2.2.1.2 К-средни с ядра Когато се използват ядра, алгоритъмът k – средни позволява да бъдат извлечени нелинейни граници между клъстерите.

2.2.1.3 Максимизиране на Очакването Може да се използва подход чрез меко назначаване – за всяка точка се

определя вероятността да принадлежи към всеки клъстер. Клъстерирането е чрез максимизиране на очакването.

2.2.2 Йерархично Клъстериране Сливат се последователно двойки елементи и клъстери, като се започне

от най-близките докато се достигне някакъв критерий за прекъсване. Има две основни групи: 1) Агломеративни 2) Делителни

Разстояние между клъстери: Определянето на най-близката двойка клъстери е главната стъпка. Базира се на разстояние между две точки

Единичен Линк обединява групи въз основа на минималното разстояние между точка в Ci и точка в Cj

},|),(min{),( jiji CyCxyxCC .

Пълен линк се основава на максимално разстояние между точки в Ci и Cj

},|),(max{),( jiji CyCxyxCC

Усреднен линк използва разстоянието между центроидите на двата клъстера

),(),( jiji CC .

Усреднен по групи линк е усредненото по двойки разстояние между точки в Ci и Cj

ji

Cx Cy

jinn

yxCC

i j

),(),(

,

където ni е броят на точките в клъстера Ci.

11

2.2.3 Клъстериране по плътност Чрез методите базирани на плътност се добиват неизпъкнали клъстери

като се използва локална плътност на вероятността за точки вместо разстоянията между точки.

2.2.3.1 Алгоритъм DBSCAN първо изчислява ε-околност )(i

xN за всяка

точка xi в n

i 1}{ ixD и проверява дали е централна. Започвайки от всяка централна точка, алгоритъмът рекурсивно намира всички нейни свързани по плътност точки, които се назначават към същия клъстер.

2.2.4 Клъстериране с Графи Данните са зададени чрез граф. Клъстерират се върховете като се

използват ребрата и техните тегла.

2.2.5 Измерване на Качеството на Клъстер Обща статистическа мярка за качеството. Оценяването на

клъстерирането обхваща три основни задачи: 1) качество, 2) устойчивост и 3) тенденция. Мерки се разделят на три основни групи: външни, вътрешни и относителни.

2.2.5.1 Външни мерки Използват критерии, не присъщи на множеството от данни. Предполагат,

че правилното клъстериране е известно предварително. Oсновават се на таблица на непредвидените случаи, получена от клъстериране C, и от истинското разделяне T.

2.2.5.1.1 Мерки по Съответствие

Чистотата определя доколко клъстера Ci съдържа обекти от едно делене

}{max1

1 j

k

ji

in

npurity

.

Чистотата на клъстерирането C е: }{max1

1 11ij

r

i

k

ji

r

i

i nn

purityn

npurity

Максимално Съответствие избира налагания между клъстери и деления, така че сумата от броя на общите точки nij да е максимална, при условие че само един клъстер може да съответства на дадено делене.

2.2.5.1.2 Мерки по Двойки За дадени клъстериране C и истинско делене T мерките по двойки

използват етикетите на деленето и клъстера по всички двойки точки.

Нека D, ji

xx ( ji ) yi е етикетът на истинското делене и i

y е етикетът на

клъстера за точка xi. Ако xi и xj принадлежат на един и същ клъстер, ji

yy ˆˆ ,

това е положителен случай. Ако xi и xj не принадлежат на един и същ клъстер,

jiyy ˆˆ , това е отрицателен случай. Има четири възможности:

• Верни положителни: |}ˆˆи:),{(|jijiji

yyyyxxTP

• Погрешни отрицателни: |}ˆˆи:),{(|jijiji

yyyyxxFN

12

• Погрешни положителни: |}ˆˆи:),{(|jijiji

yyyyxxFP

• Верни отрицателни: |}ˆˆи:),{(|jijiji

yyyyxxTN

Броят на двойките точки е N = TP + FN + FP + TN.

Коефициент на Джакард FPFNTP

TPJaccard

Ударението е на подобието на двойките точки с обща принадлежност и при клъстерирането и при вярното делене.

Статистика на Ранд N

TNTPRand

.

Измерва частта от двойки точки в С и Т, които си съответстват.

2.2.5.2 Вътрешни Мерки Те използват самите данни –компактност (подобие между клъстерите) и

отделеност (вътрешна в клъстера отделеност), като се търси оптималност между тези две цели.

2.2.5.3 Относителни Мерки Относителните метри целят директно да сравнят различни

клъстерирания, при различни параметри на един и същ алгоритъм. Силует за всяка точка sj и средна стойност SC се използват за оценяване

броя на клъстерите в данните. Избира се k, даващо най-добро клъстериране с много точки с високи стойности sj вътре във всеки клъстер и високи стойности за SC.

Индекс на Калински-Харазац. За дадена стойност на k оценява дисперсията вътре в клъстерите и дисперсията между клъстерите. По-голяма стойност CH(k) – по добро клъстериране.

2.2.5.4 Устойчивост на Клъстер Основна идея е клъстерирането, получено от няколко множества от

данни с едно и също основно разпределение да бъде подобно, т.е. устойчиво. Устойчивостта на клъстер се използва да се намерят добри стойности на параметрите за даден алгоритъм

2.2.5.5 Тенденция на Клъстериране Определя дали в множеството от данни D има смислени групи, с които да

се започне. Пространствена Хистограма. Сравнят се пространствена хистограма на

входното множество от данни D с хистограмата от извадки, генерирани случайно в същото пространство от данни.

Разпределение на Разстоянията. Сравняват се разстоянията между двойките точки от D, с тези от случайните извадки Ri от нулевото разпределение.

Статистика на Хопкинс е тест за редки извадки при пространствена случайност.

2.3 Представяне на Изображение с Визуални Думи Забавянето в процеса на разпознаване на образи, често е при

13

съпоставянето на особеностите. Някои особености се описват по конкретен елемент, някои – по общ елемент, т.е. плътността на едно множество от особености за съвпадение във векторното пространство не може да бъде описана с един и същ параметър за всички особености. Предлага се групиране на особености във визуални речници.

2.3.2 Папка от Думи 2.3.2.1 Ниско Ниво на Извличане на Особености

SIFT детекторът е особено подходящ при пресмятане на особеностите във всяко парче от образа. Два параметъра имат силно влияние върху изпълнението на класификацията: 1) Плътност на избора на образци и 2) Мащабност на особености

2.3.2.2 Средно Ниво на Кодиране и Обединяване Нека X = (x1,...,xj,...,xN) е множеството от локални дескриптори в един

образ. Нека bi (biRd) е визуална дума, d е размерността на локалната особеност. В модела взуални речници генерирането на сигнатура на средно ниво изисква множество от кодови думи B=(b1,...,bi,...,bM), представляващо матрица Bmxn, наречена визуална кодова книга.

2.3.2.2.1 Схеми за Кодиране и Обединяване

Кодиране с „твърдо” назначаване дава единствен ненулев кодиращ коефициент за локална особеност xi и съответства на най-близката визуална дума

случаиостаналитев0

)||||minarg(ако1 2

2,...,1 ji

ij

bxju nj (2.38)

Кодиране с „меко” назначаване. Кодиращият кефициент j е степента на принадлежност на локалната особеност xi към j-тата визуална дума

n

k 1

2

2

2

2

)||||exp(

)||||exp(

ki

ji

ijbxβ

bxβu (2.39)

β контролира мекотата на назначаването. Дадена локална особеност се присвоява към всички визуални думи и намалява грешката при квантуването.

Рядко кодиране. Локалната особеност xi се представя чрез линейна комбинация от редки множества от базисни вектори и нормализирано приближение по ℓ1 норма

lRu

n||||||||minarg 2

2 uλbxujii

(2.40)

Локално линейно кодиране (LLC) набляга на локализация вместо на рядкост.

2

2

2

2 ||||||||minarg udλBuxuiiio

nRu

(2.41)

където di е очакването на евклидовото разстояние между xi и всеки bj. Параметърът λ управлява тегловния вектор di.

Осреднено обединяване. j-тата компонента на g е

M

i ijj ug1

, където M е

общият брой локални особености в изображението. Максимално обединяване. j-тата компонента на g е gj = maxi(uij),

14

i=1,2,...,M. Максималното обединяване често дава по-добра класификация от осреднено обединяване.

2.3.2.2.2 Кодиране с Меко Назначаване Мекото кодиране е по-опростено и изчислително по-ефективно, но

постоянното използване на принадлежността към всички визуални думи влошава изпълнението на класификацията, защото не се взема под внимание, че структурата на локалните особености е структура на многообразие.

„Локализирано” Кодиране с Меко Назначаване Разглеждат се само k на брой визуални думи в съседство с локалната

особеност. Това „локализиране” създава ефект на „ранно отрязване.

n

l 1)),(ˆexp(

)),(ˆexp(

li

ji

ij

bxdβ

bxdβu ,

случаиостаналитев0

))(ако),(),(ˆ iklli

li

xNbbxdbxd (2.42)

Максимално обединяване Най-добрата ответна реакция на всеки от детекторите се записва чрез

максимално обединяване на кодиращите коефициенти.

Максимално обединяване със „смесен ред” Освен вероятността за наличие на визуална дума в изображението, максимално обединяване със смесен-ред дава информация и за честотата на появяване.

2.3.2.4 Подобрено Средно Ниво За по-добро изпълнение при ниско контрастни области в процеса на

класифициране с Папки от думи може да се предложат следните подобрения: да се дефинират визуални стоп особености и, да се използват специални методи за кодиране и обединение.

2.3.2.4.1 Визуални Стоп Особености Визуалните стоп думи са най-често срещаните визуални думи в

изображенията, които се премахват от представянето на особеностите (преди пресмятането на папката от думи). За тази цел се поставят прагове γ на големината на нормата на дескриптора.

Ако x е особеност, извлечена с SIFT дескриптор в някакна област на даден образ, получената особеност може да се преобразува в xp по следния начин:

случайпротивенв

||||ako0

||x||

xx

xp

(2.46)

2.3.2.4.2 Хибридно Представяне и Обединяване Схема с отделно кодиране на областите с малък и голям контраст и

последващо обединяване.

Предлага се хибриден подход при обединяване като се използва осреднено обединяване за Xs и максимално обединяване за Xm. Двете представяния след това се свързват в общ дескриптор преди нормализирането и обучението.

15

Такова хибридно обединяване при създаването на Папка от думи има следните предимства:

(1) Кодовата книга се обучева само за особености на Xm, (2) Твърдото назначаване на b0 за Xs е уместно, тъй като всяка хомогенна

област не трябва да бъде кодирана в „нехомогенните кодови думи”; (3) Кодирането на Xs е по-бързо, (4) Осреднено обединяване, приложен към хомогенната кодова дума b0,

включва по-богата информация относно отношенито на хомогенни.

2.4 Добиване на Често Срещани Множества от Елементи Добиването на често срещани множества от елементи е метод за

откриване на съвместно появяване на известни елементи от голямо количество данни. Те произхождат от анализа на пазарната кошница, където трябва да се изучават големи бази данни на клиентски транзакции, за да се разберат покупателските навици на клиентите.

Добитите често срещани множества позволяват да се извлекат правила на

свързване между множествата от елементи.

2.4.1 Често Срещани Множества от Елементи и Правила за Свързване Едно множество X се нарича често срещано в D, ако sup(X, D) ≥ s, където

s е определен минимален праг на поддръжка. Поддръжката sup(X, D) на множество от елементи X в множество от

данни D е броят на транзакциите в D, които съдържат X

Правила на свързване. След добиването на често срещани множества от елементи, се търси статистическа зависимост между отделните елементи или подмножества, които образуват множеството под формата на правила на свързване.

2.4.2 Алгоритми за Добиване на Често Срещани Множества от Елементи 2.4.2.1 Brute-Force Изброява всички възможни множества от данни X I и определя тяхната поддръжка във входното множество от данни D в две главни стъпки: (1) генериране на кандидат и (2) пресмятане на поддръжката.

2.4.2.2 Apriori Ефективно търсене на често срещано множество от елементи дава

свойството на низходящо прекратяване – за X Y, → sup(X) ≥ sup(Y): (1) ако X е често срещано, то всяко YX е често срещано (2) ако X не е често срещано, то всяко YX не е често срещано.

Apriori използва тези две свойства. Той изследва по нива и отстранява всички надмножества на нечесто срещани кандидати. Apriori не пресмята поддръжката на отделно множество от елементи, а изучава дървото от префикси и пресмята поддръжката на действителните кандидати с размер k, които обхващат ниво k в дървото от префикси.

16

2.4.2.3 FP-Growth Алгоритъмът FP-Growth прилага първо дълбоко търсене. Той се основава

на две допълнителни наблюдения: • От покритието на множество от елементи A се избират транзакции,

съдържащи А, които формират Условна База Данни, от която се намират образци, съдържащи А.

• Всички множества от елементи се сортират по един и същ начин (напр. чрез намаляване на поддръжката), за да не се намери един и същ образец в много УБД.

2.4.2.4 Eclat Пресмятането на поддръжката може да се подобри, ако базата данни се

индексира, така че да се ускори пресмятането на честотата на появяванията. Алгоритъмът Eclat използва сечения на тид-множества като ги обработва директно при пресмятане на поддръжката. Eclat се интересува от тид-множествата само, ако често срещаните множества от елементи споделят общ префикс.

2.4.3 Генериране на Правила за Свързване За да се генерират правила за свързване, се правят итерации по всички

множества от елементи FZ и се пресмята доверителността на различните правила. Правилото трябва да бъде често срещано. Така че трябва само да се провери дали доверителността на правилото удовлетворява прага minconf. sup(XY)=sup(Z) ≥ minsup

2.4.4 Мерки за Интересност на Множества от Елементи и на Правила За да се оцени качеството на често срещаните множества от елементи и

правилата за свързване, бяха използвани мерките поддръжка и доверителност.

В настоящата работа освен поддръжка и доверителност се ползва и разликата в отношението на поддръжката до 1. Разликата служи като мярка за качество. Само множества от елементи, при които тази разлика е над определен праг, се задържат като интересни.

)(

])[(1)( 1

Aportsup

iAportsupAdep

l

i

Добиването на множества от елементи е една от основните техники, използвани в тази дисертация, и се прилага в цялата глава 3 и в някои части на глава 4.

2.4.6 Добиване на Поредици При добиването в Уеб пространството често се работи с последователни

и временни данни. Добиването на поредици помага да се открият образци във времето или по места в дадено множество от данни.

2.4.6.2 Добиване на Често Срещани Поредици За добиване на поредици редът на символите има значение. Трябва да се разглеждат всички възможни пермутации на символите

17

като възможни често срещани кандидати. Това се различава от добиването на множества от елементи, където се разглеждат само комбинациите от елементите.

Добиване по Нива: Алгоритъм GSP. Добиване по Вертикала: Алгоритъмът Spade.

2.4.7 Оценяване на Правила и Образци Добитите образци и правила трябва да удовлетворяват желани свойства

като краткост, простота и др. Мерките за оценяване на образци и правила целят количествена оценка на различни свойства на добитите резултати. Цели се отстраняването на правила и образци, които не са значими статистически.

2.4.7.1 Мерки за Оценяване на Правила и Образци 2.4.7.1.1 Мерки за оценяване на Правила

Повдигането е отношението на наблюдаваната съвместна вероятност на X и Y спрямо очакваната съвместна вероятност и измерва неочакваността на правилото.

Лостовата мярка измерва разликата между наблюдаваната и очакваната съвместна вероятност на XY и дава „абсолютно” измерване на това, колко е неочаквано едно правило.

Коефициент на Джакард измерва подобието между две множества (тид-множествата)

Убедителност измерва очакваната грешка на правилото, т.е. колко често X се появява в една транзакция, където Y не се появява.

2.4.7.1.2 Мерки за Оценяване на Образци Най-основните мерки са поддръжката и относителната поддръжка,

даващи броят и относителната част от транзакции в D, които съдържат множеството от елементи X.

2.4.7.1.3 Сравняване на Многократни Образци и Правила При сравняване на многократни множества от елементи фокусът може да

бъде върху максималните множества от елементи, които удовлетворяват някакво свойство, или върху затворени множества от елементи, които обхващат цялата информация за поддръжката.

2.5 Добиване чрез Графи 2.5.3 Централен анализ

Понятието централност се използва да се класифицират върховете на граф по важност.

2.5.3.2 Централности за Уеб Тук се разглеждат централности на насочени графи в контекста на Уеб.

Например, хипертекст документите имат насочени линкове от един документ към друг.

Престиж за връх в насочен граф е мярка за важността на един връх. Ранг на Страница (PageRank) е метод за пресмятане на престижа или

18

централността на страниците в Уеб. Методът използва предположение за случайно сърфиране.

Ранг на Уеб страница е вероятността за случайно попадане на тази страница и зависи рекурсивно от ранга на други страници, които сочат към нея.

Случайни Скокове. Уеб графът може да се разглежда като (виртуален) напълно свързан насочен граф с единична n×n матрица на съседство Ar. Ако се позволят само случайни скокове от един връх на друг, рангът на страница може да бъде пресметнат като

u

upuod

vuvp )(

)(

),()( rA

Пълният ранг на страница се пресмята при предположението, че сърфиращият скача с някаква малка вероятност α от текущия връх u към всеки друг случаен връх v, и с вероятност 1−α сърфиращият следва съществуващ линк от u към v.

Използват се две други оценки: Авторитет на страница зависи от това колко „добри” страници сочат към

нея. Хъб на страница се основава на това към колко „добри” страници

насочва тази страница.

2.5.4 Методи за Добиване чрез Графи Добиването чрез графи спада към структурираното извличане на данни,

което освен графи включва добиване на XML данни, сродни бази данни и др.

В тази работа са предпочетени подходите базирани на математическата теория на графите, тъй като те са концептуално близки до добиването на често срещани множества от елементи.

Интернетът е важен пример за графи от данни.

Целта на добиването чрез графи в едни случаи е да се извлекат интересни подграфи от отделен голям граф или от база данни на много графи

2.5.5 Алгоритми за Добиване чрез Графи gSpan се основава на първо дълбоко търсене и кодиране за канонично

поставяне на етикети и използва дървовидно представяне, за да генерира инвариантен код за графите.

AGM използва матрица на съседство за генериране на инвариантен код за графите.

FSG също използва матрица на съседство, но постига по-висока ефективност от AGM като използва инварианти на върховете на графа и съхранява идентификаторите на транзакциите (тид).

CloseGraph модификация на алгоритъма gSpan, който намира само затворени често срещани подграфи.

MoSS/MoFa за разлика от алгоритмите, описани по-горе, използва дълбоко първо търсене.

19

2.6 Усилване Усилването в тази работа е техника за съчетаване на множество от слаби

класификатори в силен класификатор. Слабите класификатори са класификатори, които могат да бъдат само малко по-добри от шанса, един силен класификатор показва неоспорима корелация с истинската класификация. Така усилването е мета алгоритъм за надзиравано обучение.

2.6.2 Алгоритъм Adaboost 2.6.2.1 Дискретен Adaboost

Нека слабите класификатори са ht(x), а силнияо класификатор е Н(х). Дискретният Adaboost има вида

))(()(1

T

t

tt xhsignxH , (2.81)

където Т е броят на слабите класификатори и αt са коефициенти, избрани от Adaboost.

ГЛАВА 3. Описва подходи за добиване на визуални данни чрез откриване на повтарящи се структури от локални особености, подходи за добиване на предвижвани данни по определен модел. Разглежда се приложението на описаните методи към задачи за проучване на видео материали, представени като поредица от данни и откриване на обект при използване на стандартни данни.

3.2 Добиване на Обекти в Поредица от Изображения Целта на метода, описан в този раздел, е да извлича интересни обекти и

сцени от видео данни чрез автоматично откриване на често срещани обекти.

3.2.1 Етапи при Добиване 1) Предварително разделяне на видеото на сцени, 2) Избор на „ключови кадъра” за секунда в рамките на всяка сцена. 2) За всеки ключов кадър се извличат два вида афинно ковариантни

особености (региони): афинен Хесе детектор на петна (§2.1.2.3) и MSER детектор на области (§2.1.2.4).

3) Всеки нормализиран регион се описва с дескриптор SIFT (§2.1.3.4). 4) Създава се визуален речник чрез йерархично клъстериране на

дескрипторите SIFT (§2.2.2.1). 5) За подобряване се предлагат „стоп-особености” (§2.3.2.4) (5% от най-

често срещаните и 5% от най-рядко срещаните визуални думи се отстраняват от кодовата книга).

3.2.2 Подход за Добиване Методите за добиване на често срещани множества от елементи са добър

избор, тъй като те са решавали аналогични проблеми за други видове данни (глава 2.4).

3.2.2.1 Включване на Пространствена Информация В най-простия случай една транзакция се състои от неподредена папка от

20

всички думи в някоя околност на образа. Предлага се в процеса на добиване допълнително да се включи и пространствена информация (местоположения на визуалните думи), която да се кодира директно в думата.

3.2.2.2 Използване на Движение Сцени с движения позволяват да се увеличи степента на специфичност на

транзакциите.

Като централни визуални думи vc се вземат двете области, най-близки до центъра на отделената област от изображението. Всички други визуални думи вътре в отделената област са включени в транзакцията. Когато интересни обекти се движат независимо в рамките на една сцена, могат да се идентифицират групи от визуални думи, които преминават последователно от кадър в кадър. Това води до бърз алгоритъм за разделяне на движение за намиране на кандидат обекти, който се състои от две стъпки:

Етап 1. Съвпадащи думи. Две думи от два кадъра f(t), f(t+n) в моменти t и t+n се считат съвпадащи,

ако те имат едни и същи ID-та (са в един и същ клъстер на появяване), Етап 2. Клъстериране на транзакции. (Фигура 3.3). двойките области съвпадащи между два кадъра f(t) и f(t+n) могат да се

групират според тяхната транзакция, използвайки, например, клъстериране с алгоритъма k – средни

Избор на Минимална Поддръжка. Определят се два прага за поддръжка, slow и shigh и брой на множествата от елементи nmin и nmax. Алгоритъмът да се стартира с няколко прага, докато броят на често срещаните множества от елементи попадне в рамките на разумен обхват

Намиране на Интересни Множества от Елементи. Изходът на алгоритъма APriori е голямо множество от чести множества. Намирането на интересни множества от елементи (и правилата за свързване) става с

- статистически мерки. -специфични знания за областта (покриващи пространствена

конфигурация от няколко секции).

Предложеният процес на добиване на множества се демонстрира с музикален видеоклип. Алгоритъмът добива и обекти като място от видеото.

В заключение може да се каже, че подходът за добиване с често срещани множества от елементи е подходящ инструмент за добиване във видео материали.

3.3 Добиване на Често Срещани Конфигурации от Особености Тук се предлага метод за филтриране на голямо количество от

особености, базиран на добиване. Методът избира особености, които имат висока степен на вероятност да попаднат на примери от класа интересуващи ни обекти. Техниката е предвидена като междинен слой между добиване на особености и откриване на клас обекти. Филтрираното множество от особености може да се подава в детектор на обекти от по високо ниво.

21

Този подход има няколко предимства:

1) Добиването позволява бързо да се обработват големи множества за обучение.

2) Правилата са разграничителни и лесни за тълкуване. 3) Включва се пространствено подреждане на особености в процеса на

добиване на множества от елементи. Работи с несортирани образи, съдържащи отделни случаи на клас обекти вместо подредена последователност от образи, показващи специфичен обект.

Първо се добиват често срещани пространствени конфигурации на локални особености от образи за обучение. След това се определя доверителност, с която особеностите, появяващи се в нови образи, покриват отделен случай от класа обекти.

3.3.1 Често Срещани Конфигурации от Особености Множеството за обучение се състои от положителни образи, съдържащи

примери на обекта, снабдени с анотации чрез ограничаваща кутия, и отрицателни образи, които не съдържат примери от интересния клас.

Първо, се събира голям брой пространствени конфигурации от локални особености на образа от всички изображения за обучение.

Второ, се прилага алгоритъм за добиване, за да се подберат често появяващите се конфигурации от това голямо множество.

Трето, често срещаните пространствени конфигурации се превръщат в правила за свързване. С тези правила се генерират специфични за класа доверителни стойности за особености на нововъведени изображения.

Правилата се извлечат от големи множества данни с лесно за интерпретиране означаване. Затова се прилагат при добиване във Уеб.

Най-ниският слой на системата е построен върху набор от локални особености, извлечени от всяко изображение с детектор DoG и дескриптор SIFT.

Вторият слой на системата представя образ от етикети на кодовата книга. Кодирането не само на присъствието на визуални думи но и на тяхното пространствено разположение дава много по-силен дескриптор.

Третият слой е добиване на отличителни конфигурации (чести при обекта и по-рядки при фона).

С APriori се добиват чести множества и правила за свързване. Правилата се филтрират. Така се намират често срещани и отличителни конфигурации от особености.

3.3.2 Доверителност на Класове Специфични Особености Добитите конфигурации се съпоставят с ново изображение за тестване за

откриване на особености, съвпадащи със случаите на класа обекти. Започва се с генериране на всички околности на новото изображение, по една за всяка област. Всяка добита конфигурация се съпоставя с всяка околност на изображението.

22

От съвпадащите околности на изображението за тестване се получава мярка на доверителността.

За количествена оценка на метода за доверителност се измерва степента

на попадение в ограничителната кутия BBHR (bounding box hit rate). Методът се сравнява с базов предел.

В обобщение, този клас-специфична мярка за доверителност работи добре при избор на особености.

3.4 От Често Срещани Конфигурации към Обекти Добитите конфигурации се използват за разпознаване на клас обект като

се използва Модел на подразбираща се форма (ISM).

3.4.2 Разпознаване с Активиране на Правила ISM подходът може да се адаптира към откриването на клас обекти чрез

използване на комбинация от добити конфигурации от често срещани особености. Основната разлика е, че вотовете се пораждат само в местата, където има съвпадение на често срещащи се конфигурации. Предложената промяна е следната:

Нека е налице множество от анотации за обекти по данни от обучението. За всяка анотация добитите често срещани конфигурации са съпоставени с околностите вътре в пространството на анотациите. За всяка съвпаднала конфигурация се записва относителното положение на центъра на обекта. За всяко правило се съхранява списък на всички активации с относителното положение на центъра на обекта.

С вече събраните данни се открива положението на кандидатите за обекти в нови снимки. Във всеки кандидат образ отново се съпоставят добитите често срещани конфигурации на околностите. За всяко съответствие в пространството на Хаф се гласува инвариантно с активации от списъка След попълване на пространството на Хаф за гласуване, максимумите в него се намират чрез променяне на средното. Всеки максимум генерира хипотеза.

Повечето от съществуващите подходи, които разчитат на локални особености за откриване на обект, са изградени върху единични случаи за тези особености, или бързо стават твърде сложни, за да се справят ефективно. С този подход за добиване се заобикалят такива ограничения.

3.5. Добиване чрез Графи като Алтернатива на Множество от Елементи Алтернативен начин за кодиране на пространствени зависимости между

локалните особености е чрез графи. Възлите представляват особеностите на образите, чиито етикети са id-тата на техните визуални думи, а ребрата описват пространствената връзка между особеностите в равнината на образа. Идеята е да се приложат алгоритми за добиване, които работят директно с граф, за да идентифицират често срещащи подграфи, които са свързани с даден обект или клас обекти. Популярни такива алгоритми са описани в

23

раздел 2.5.

Събирането на данни под формата на често срещани подграфи може да се разглежда като слаб класификатор за вземане на решение относно наличието или липсата на случай на клас обект. Като следваща стъпка се добавя метод за усилване веднага след тези прости класификатори, за да се обучи по-силен класификатор за даден клас обект (раздел 2.6).

3.5.1 Добиване на Графи от Често Срещани Особености Съдържанието на изображението първо се кодира с локални особености

квантовани във визуален речник, напр. с SIFT. Визуалните думи и техните относителни позиции за всяко изображение са кодирани като граф.

3.5.2 Класификация Използваща Усилване В тази част от работата се изследва дали добиването с често срещани

подграфи е подходящо за разпознаване и откриване на клас обекти. Вместо подграфите да се комбинират със съществуваща рамка за разпознаване на обекти, както при чести множества, те се разглеждат като прост класификатор и се комбинират в един по-силен класификатор чрез усилване.

Прост класификатор се конструира чрез изброяване на осъществяванията на добитите подграфи и праг за стойността на изброеното

Съпоставяне на Графи. При класифициране на непознат образ за тестване, първата стъпка е определяне на появяванията на добити чести подграфи в изображението за тестване.

Мекото съпоставяне помага за намаляването на грешните отрицателни попадения, появили се от квантуване на пространството от особености във визуални думи.

ГЛАВА 4. Пренася добиването от ниво особености до ниво обект. Разглежда се метод за добиване на обекти и събития от фото колекции на общност в Интернет от снимки, снабдени с геотагове. Снимките се клъстерират по съвпадения на локални особености. Методът се разширява с условни знаци от други модалности като текстови тагове за поставяне на етикети и процедура за проверка. Тук се разглежда и идеята добитите данни да бъдат използвани за получаване на авто-анотации ниво обект.

Обсъжда разпознаване на обекти с фокусиране върху мобилните устройства и възможности за взаимодействие на потребителя със системата. Вниманието се спира на две приложения за конферентни зали пътеводител за град

4.2 Фото Колекции в Интернет Споделянето на информация е една основна дейност на Интернет.

Таг е ключова дума, назначена към парче от информация, напр. изображение, която не разчита на надзираван речник или обучени редактори. Геотаг е специална форма на поставяне на тагове, когато част от данните са

24

белязани с географското им местоположение API (Application Programming Interface) e форма на уеб-услуга за достъп до техните данни и услуги. Това са заявки към базата данни от снимки по няколко критерия – етикет, време, потребител, географско местоположение.

4.3 Добиване на Клъстери Базира се на фотографии с геотагове. Информацията за света, разгледана

като карта, се разделя на мрежа от квадратни плочки. За всяка плочка се извличат снимките със съответните геотагове.

4.3.1 Събиране на Данни Изпраща се заявка до фото колекции. За всяка плочка се заявява API, с

координатите на центъра на плочката и ограничителната кутия, за да се получат всички снимки, маркирани с геотагове за тази област.

4.3.2 Клъстериране на Снимки След изтеглянето, снимките за всяка плочка се обработват за групи от

снимки с подобно съдържание като кандидати за обекта. Създават се матрици на различие за модалностите (визуални и текстови) по разстояния между снимките за всяка модалност. С йерархично клъстериране на матриците се създават клъстери за един и същ обект / събитие.

За идентифициране на двойки от снимки, се използва съпоставяне на локални особености, инвариантни спрямо мащаба, и проекционна геометрия.

За да се намерят кандидати за обекта по съпоставените особености, се изчисляват хомографски съответствия за всяка двойка съпоставени изображения.

Разглеждат се три източника за текстови мета-данни – тагове, заглавие и описание. Съчетават се в един текст за по-нататъшните етапи.

Първият етап е стоп списък от стоп думи (години, месеци, „геотаг”, „пътуване”, „почивка”, местоположение, име на мястото). Това дава добри етикети на клъстърите в по-късните етапи на процеса.

Вторият етап е изчисляване сходствата на текстове по двойки между снимките.

Освен визуални и текстови прилики между снимки се разглеждат и времеви отпечатъци и данни на потребителя. Те позволяват кандидат клъстер да се класифицира като събитие или обект.

За всяка плочка се прилага йерархично агломеративно клъстериране към матрицата на разстоянията на всяка модалност. С различни критерии за сливане на клъстери – единичен, пълен и осреднен линк, се създават различни видове клъстери. С тях се уловят различни визуални качества за семантично тълкуване.

4.4 Поставяне на Етикети на Клъстери Последващо обработване на съдържанието на клъстерите:

25

1) Класификация в обекти и събития. 2) Извличане на текстови етикети от мета данните. 3) Формиране на текстови запитвания за насочване към Уикипедия

съотносими статии към клъстерите. 4) Проверка на правилността на определянето чрез изображенията от

статиите на Уикипедия.

4.4.1 Класификация на Предметите и Събитията За отличаването на обекти от събития се използват мета данните за

снимките във всеки клъстер. Обект е неподвижен материален елемент като сграда. Събитие е случай със специфично време и място, нап. концерти.

4.4.2 Свързване с Уикипедия След класифицирането се добавят още описателни етикети. Целта е на

клъстерите да бъдат дадени етикети с най-доминиращите думите и автоматично да бъдат свързани със съдържанието в Интернет.

1) Намират се уместните комбинации от думи в текста, свързан с всеки клъстер, използвайки добиване на множества от често срещани елементи.

2) Прави се запитване в Уикипедия. 3) Проверява дали линковете са верни на базата на съвпадение на образи.

Текстът се използва, за да се получи повече информация за обекта чрез запитване до интернет търсачките.

Текстът, свързан с всяка снимка (тагове, надписи, заглавия и т.н.), генерира транзакция и базата данни се състои от множество от снимки в един клъстер. За добиване на чести множества за всеки клъстер се предлага алгоритъмът FP-Growth заради неговата скорост и мащабируемост.

Всяко добито често множество се използва за заявка до интернет търсачка (напр. Wikipedia). За всеки получен като резултат списък се съхраняват първите няколко резултата.

За всяка страница се съхранява броят на нейните изтегляния при запитвания. След това се обхожда всеки от URL адресите и се прави разбор на съответната страница в Уикипедия за изображения. По този начин се извличат особености от образите на Уикипедия и се съпоставят с изображенията в клъстера. При съвпадение на изображения, предложеният линк се поддържа, в противен случай той се отхвърля.

4.5 Авто-Анотация на Ниво Обект Като се използват данните от добиването, могат да се поставят анотации

на нови изображения и да се подобрят анотациите за образите в базата данни.

Основен момент е оценяването на ограничаващата кутия за обекти, за постигане на анотации на ниво обект. Оценката на ограничаващата кутия се основава на праг за тази доверителна стойност.

Ограничаващите кутии позволяват анотация на ниво обект и подобряват

26

индексирането на особености за съответните обекти като се индексират само особености, лежащи в ограничителните кутии.

4.6 Примери 4.6.1 Клъстери

Фигура 4.7: Клъстери около базилика Св. Петър (отгоре) и храм Ал. Невски

(отдолу), автоматично разделяне на (а) изгледи вътре, (б) изгледи отвън, (в) елементи

от фасадата, (г) отделни обекти

а) б) # Образи в плочка 2524 447 # Случайно подмножество 200 200 # Клъстери 12 8 Среден размер на клъстер 16 21 Максимален размер на клъстер 47 73 Минимален размер на клъстер 3 3 Средна точност на 5 най-големи клъстера 77 % 81 %

Таблица 4.4: Обобщение на резултати за а) Св. Петър б) Ал. Невски

Групирането разделя данните на семантично отделни обекти и контексти. Местоположенията на различните клъстери се оценяват близо до истинските позиции на съответните субекти. Използва се клъстериране по единичен линк. Оценява се точността с броя на верните изображения, разделени на общия брой изображения в клъстера. Тъй като се решава задача за ненадзиравано добиване, няма надеждни резултати при повторение на

27

заявката. 4.6.2 Обекти и Събития

С подхода за класификация се откриват и обекти и събития.

4.6.3 Мултимодално Свързване с Уикипедия Фигура 4.9 показва примери за мултимодално свързване с Уикипедия,

представени с две изображения: от Уикипедия (ляво) и най-близкото съвпадение в клъстера (дясно).

Фигура 4.9: Резултати за мултимодално свързване с Уикипедия.

С голям брой снимки и малко неверни положителни резултати се обхващат известни забележителности. Подходът дава линк не само към статията за конкретния образ, но и към по общи статии както и към статии на множество езици.

Следователно, заявките към Уикипедия, осъществени чрез чести множества е ефективен метод при добиване на уместни линкове независимо от огромното количество несъотносими данни.

4.6.4 Aвто-Анотация На основата на доверителност за специфичните особености на обект се

оценяват ограничаващите кутии за добивани обекти, и за съществуващи изображения в базата данни, и за нови заявени изображения. На фигура 4.10 са показани резултати за анотация на ниво обект за добити изображения в база данни.

Общото ниво на разпознаване може да достигне почти същото като при конкретни обекти.

Фигура 4.10: Авто анотации на ниво обект с ограничаващи кутии.

4.7. Приложение на извличане в мултимодален контекст 4.7.1 Заявка чрез Пример

Типичен подход при разбирането на съдържанието на изображение е да се започне с примерно изображение като заявка и да се използват неговите (глобални) особености, за да се извлекат подобни изображения от базата данни. Подобието типично се изразява като разстояние в пространството на особеностите. Това взаимодействие със системата се нарича Заявка чрез

28

пример.

4.7.2 Разпознаване на Обекти за Мобилни Устройства Интернетът дава възможност за широк кръг от взаимодействия.

Едни от методите търсене на информация за физически обекти в Интернет се основава на маркер, интегриран в обекта.

Второ направление са входни устройства за взаимодействие с физически обекти. Мобилните телефони имат мултимедийни компютри, които могат да се използват като устройства за взаимодействие със средата на потребителя (Bluetooth, WLAN). Телефонният номер става персонален вход за Интернет.

Методите за разпознаване на обекти за свързване на физически обекти с хиперлинкове с дигиталния свят имат предимства. Някои обекти не са добре нагодени към приложените маркери. Или потребителят би могъл да поиска информация от разстояние.

4.7.2.1 Мобилни Интерфейси Тук се обсъждат възможности за потребителско взаимодействие на

система за извличане, предназначена за мобилни устройства.

Кои задачи могат и следва да бъдат извършени в самия телефон и кои да бъдат делегирани на сървъра на системата. За големи бази данни може да се разглежда преместването поне на извличането на особености при клиента и изпращането на особеностите като заявка към сървъра. Тук могат да се използват SIFT и SURF извличане на особености на мобилна платформа. И двата подхода в абсолютно време са относително бавни и се търсят възможности за тяхното оптимизиране, за да бъдат ефикасно използвани в мобилни устройства

Имайки предвид по-ограничените процесорни възможности на устройствата, подходът за разпознаването на обектите при сървъра е за предпочитане. Тук предизвикателството е при предаването на данните за изображението към сървъра и предаването на отговора. Могат да се предложат три прототипни приложения:

1. Единично процедиране на сървъра при единично попадение с ръчно пускане

2. Непрекъснато разпознаване в реално време от видео потоци 3. Хибридно: Единично процедиране на сървъра с автоматично

освобождаване.

4.7.2.2 Примерни Приложения 4.7.2.2.1 Хиперлинк Слайдове от Конферентни Зали

Поставят се тагове на слайдове в оборудвани конферентни зали. Ползвателите имат възможност да „кликнат” на слайдове, които са били представяни, за да бъдат регистрирани като техни бележки или да бъдат добавени тагове.

Тези слайдове могат да бъдат разглеждани като връзка между всичките

29

регистрирани модалности. Така те правят естествена отправна точка към дадена база данни на записани презентации.

Използвайки вградената камера на своя мобилен телефон, участник на среща прави снимка на слайд. Снимката се препраща към сървър за разпознаване чрез мобилна Интернет връзка.

Участникът има достъп до всичките си записани слайдове във всяко време. Чрез фотографирането само на част от слайд потребителят има също възможността да подчертае известни елементи (текст или фигури). Така, мобилният телефон става дигитален инструмент за маркиране.

Описаната система за разпознаване на слайдове в сървъра включва извличане на инвариантни по отношение на мащаба локални особености за входящите заявки, търсене на най-близкия съсед в съотносимата база данни от слайдове за всяка особеност, проверка на предполагаемите съвпадения като с проективната геометрия.

Разпознаването на слайдове се състои от две стъпки – съпоставяне на особености и глобална геометрична проверка.

4.7.2.2.2 Хиперлинк Сгради за Пътеводител на Град Ползвателите имат възможност да направят снимка на дадено място, да я

изпратят за разпознаване, и да получат като отговор съответната статия в Уикипедия. За това приложение пространството на търсене е ограничено от информация за място.

Това е създаване на хиперлинкове на сгради към дигитално съдържание и приложението формира интерфейс към база данни. Акцентът е върху изпълнението на извличането и обхващането на мултимодален контекст (географско местоположение) в процеса на извличане.

От гледна точка на потребителя, процесът на взаимодействие остава същият както в сценария на конферентната зала: с кликването на бутон на мобилния телефон, се прави снимка и се предава на сървъра. Kлиентската страна добавя и информация за местоположение, правейки по този начин търсенето мултимодално. Географската информация се състои от настоящата позиция, получена от внедрено в камерата GPS устройство.

След като се обработи заявката, потребителят получава исканата информация директно на екрана на своя мобилен телефон например като отваряне на уеб браузър със страницата в Уикипедия съответстваща на обекта

Системата за ръководство по града се състои от система за разпознаване в сървъра и софтуер на мобилния телефон на клиента.

Елементите в системата на сървъра се състоят от релационна база данни за съхраняване на мета данни от образи (GPS местоположения, клетъчна информация и т.н.) и информация за съхранените забележителности, например mySQL. Разпознаването на образа се изпълнява в сървъра, който

30

може да бъде достигнат като HTTP. За по-добро съвпадение присъединеното съдържание се изпраща обратно на клиента и се показва в автоматично отварящ се браузър.

ГЛАВА 5. Обсъжда резултатите – научно-приложни и приложни приноси от извършената работа и посочва по нататъшни направления в научните изследвания на базата на направените констатации.

5.1 Приноси 5.1.1 Научно-приложни приноси

В глава 2 е обсъдено създаването и кодирането на визуален речник: За подобряване на кодирането на визуалните речници се предлага въвеждането на визуални стоп особености.

В Глава 3 са разгледани алгоритми за извличане на множество от елементи в областта на визуалните данни. Тези относително прости и ефективни методи се адаптират да работят с конфигурации на локални визуални особености. Пространственото подреждане на визуални думи в специфични локални околности може да се кодира като транзакции и впоследствие да се извличат, за да се идентифицират повтарящите се образци на конфигурации от локални особености в данните. Предложение как откритите образци могат да бъдат използвани за извличане на конкретни обекти от видео данни. Разгледано е създаване на кандидат околности на основата на сегментиране на движенията. Разширен подход за извличане на конфигурации от особености за случаи на класове обекти, като се използват алгоритми за извличане при обучаване на конфигурации от често срещани особености.

В глава 4 извличането от ниво на особеност е пренесено до ниво на обект. Представен е напълно ненадзираван подход по покриване с географски плочки, който е достатъчно гъвкав и мащабируем. В него са добавени слоеве на преработка, които извличат семантична информация, като класификация на обекти и събития, които автоматично включват други източници на съдържание за ненадзиравано поставяне на етикети на обекти. Въведена е комбинация от методи, които позволяват добиването на обекти и събития от обществени фото колекции в Интернет. Подходът се основава на географски снимки, които са групирани въз основа на техните прилики, изчислени от съпоставяне на техните локални особености. Освен визуалните знаци, методът е разширен като са включени мултимодални знаци, като текстови маркери, описващи снимките. Използва

31

се класификация, основана на метаданните на клъстерираните снимки, за разделяне на клъстерите на обекти и събития.

5.1.2 Приложни приноси Обсъдени са прототипни реализации за мобилно визуално търсене на ниво обект. Разпознаването на обекта се извършва на сървъра, а клиентските приложения показват резултатите. Разгледани са разпознаване поискано от потребителя, разпознаване на обекти в реално време и хибриден подход за разпознаване, когато движението на клиента е бавно. Предложено е приложение за разпознаване на слайдове от конферентни зали на базата на организираната мобилна система за разпознаване. Предложено е приложение за мобилен екскурзовод на базата на организираната мобилна система за разпознаване. Мобилният екскурзовод включва няколко типа географска информация, за да ограничи пространството за търсене. Фокусът е върху подобряването на способностите за разпознаване, използвайки информативни и компактни особености. СПИСЪК НА ПУБЛИКАЦИИТЕ ПО ДИСЕРТАЦИОННИЯ ТРУД 1. Маринов П., Що е SEO ?, Сборник с доклади НСНТК 2014, сс. 236-242, 2014, Хта НСНТК, 2014, ТУ-София, България, ISSN: 1314-0442.

2. Маринов П., Клъстеринане и визуални речници в Уеб търсачките, Сборник

с доклади НСНТК 2015, сс. 237-243, ХIта НСНТК, 2015, ТУ-София, Созопол, България, ISSN: 1314-0442.

3. Маринов П., Относно извличане на визуални данни в Интернет, Сборник с долади НСНТК 2015, сс. 230-236, ХIта НСНТК, 2015, ТУ-София, Созопол, България, ISSN: 1314-0442.

4. Marinov P.V., Mining Approaches in Visual Data Sets, „Micrea cel Bartan” Naval Academy Scientific Bulletin, volume XVIII – 2015 – Issue 2, pp. 235 – 243, Constanta, Romania, ISSN: 1454-864X, 2392-8956. (Списанието е индексирано в Proquest Engineering Journals, Proquest Technology Journals)

5. Marinov P., Angelova N., An Approach to Mid-level Representation in Object Recognition, Proceedings 8th International Scientific Conference Computer

Science’2018, pp. 149-156, 13-15 Sept. 2018, Kavala, Greece, ISBN: 978-619-167-177-9.

6. Marinov P., Angelova N., Query by Example – Retrieval in a Multimodal Context Applications, Proceedings 8th International Scientific Conference Computer Science’2018, pp. 123-130, 13-15 Sept. 2018, Kavala, Greece, ISBN: 978-619-167-177-9.

32

TECHNICAL UNIVERSITY OF SOFIA

Faculty of Computer Systems and Technologies Department of Computer Systems

PETER MARINOV, M.Eng.

METHODS FOR SEARCH ENGINE OPTIMIZATION BASED ON DATA MINING ANALYSIS AND UPGRADES OF EXISTING METHODS

SUMMARY OF Ph.D. THESIS

In the past years there has been significant progress in the field of image recognition, manly tied to the introduction of local features. Meanwhile Internet’s content of readily available images and videos has greatly grown. This thesis researches effective algorithms for data mining and processing of visual data in Internet.

The contributions of the thesis are divided in three key areas.

Firstly, an application of itemset mining algorithms for visual data. Existing algorithms proven for other types of data are adapted to local visual features, and are used for mining objects in visual data and identification of frequent itemsets of features representing a typical class of objects.

Secondly, a multimodal method for data mining, used for automatic object and event detection in photo collections in Internet. After gathering photos with geotag, the method clusters them with no supervision by visual features to groups representing objects and events. Then a multimodal analysis is made for each of the resulting clusters. The multimodal context is formed by adding the text descriptions linked to each photo. This results in text label for each cluster, which is used to identify web page articles. The articles are verified based on the mined visual data. The result is object annotation, which is used for further mining and auto-annotation.

Thirdly, application for scalable excerption from visual data, based on the data mining results from the previous steps, such as mobile device applications using multimodal context (e.g. user GPS location).

Documents

ТЕХНИЧЕСКИ УНИВЕРСИТЕТ – СОФИЯkonkursi-as.tu-sofia.bg/doks/SF_FKSU/ns/510/avtoreferat.pdf · интерактивни конферентни зали за