Методы автоматического аннотирования изображений

Методы автоматического аннотирования изображений

Докладчик:Баев Александр, 5 курс

Научный руководитель:Лукашевич Наталья Валентиновна

В интернет много фотографий, картинок- Нужно уметь искать,- Один из видов поиска – по текстовой

аннотации к изображению- Не все фотографии, картинки имеют

подписи (аннотации)- Задача: автоматическое создание

подписи изображения

Поиск изображений в интернет:

Два метода автоматического аннотирования изображений

1) Анализ структурных элементов изображений, сопоставление их с текстовыми аннотациями на основе обучающей коллекции

2) Анализ текста (статьи, сообщения), к которому прикреплено изображение

Используемые статьи:

Yong Wang and Shaogang Gong,

«Refining Image Annotation Using ContextualRelations Between Words»

«Улучшение аннотации к картинке, используя контекстную зависимость между словами»

Ключевые методы: Binary image classifiers: получение набора

слов-подписей с их весом. The normalized Google distances (NGD's):

вычисление контекстной зависимости между словами.

Conditional Random Field (CRF): ранжирование с учётом веса и контекстной зависимости слов.

Обзор статьи:

5000 цветных изображения, каждое содержит 1~5 слов-заголовков (проставленных вручную). (Corel Data set)

Всего 374 слова-заголовка.

4000 – training set, 500 - testing set, 500 - validation set.

Исходные данные:

Пример картинки:

Corel data set

Схема работы системы

Обзор статьи:

Необходимо подписать изображения (указав вес слов-заголовков).

В качестве одного из методов был выбран: Relevance vector machine (RVM)

Основан на выделении визуальных областей изображений и сопоставлении с ними слов-заголовков из исходной базы (всех слов в заголовках к исходным картинкам) с весом каждого из них.

Binary Image Classification:

Relevance vector machine (RVM)

1. Создаём словарь визуальных областей (кластеров) картинок.

2. Размечаем области словами-заголовками

3. Классифицируем их с помощью RVM4. Получаем набор слов-кандидатов для

каждой картинки (с весом).

Relevance vector machine (RVM)

w1, w2 – слова.

f(w1), f(w2), f(w1,w2) – кол-во страниц, выданных Google на запрос со словом w1, w2 и «w1 and w2» соответственно.

M – размер индекса Google.

Normalized Google Distance:

Normalized Google Distance:

Conditional Random Field (CRF):

Пример работы CRF.Результат – ранжированный набор слов-аннотаций

Результаты:

Сравнительныйанализ трёх методов.

RWR – Random Walkwith Restarts

Пример:

Постановка задачи диплома

Имеется текст новостного сообщения с иллюстрацией

Нужно проанализировать текст и выдать список текстовых сущностей, которые могут быть изображены на иллюстрации

Визуальные сущности в тексте Слова: существительные и прилагательные Концепты из тезауруса НИВЦ МГУ (учет

синонимов, словосочетания) Характеристики

Частотность в документе Частотность в коллекции (1 млн. новостных

сообщений ) Вхождение в заголовок Собственные имена Визуальность – приписана экспертами к

концептам тезауруса

Формирование списка кандидатов для аннотации

В отличие от метода, изложенного выше, я беру слова-кандидаты из текста статьи (новостной).

Веса вычисляются по формуле (условной):Freq*iFreq*(a + b + v + n).a – базовая оценка, b – учёт заголовка, v – учёт визуальности,n – учёт имени собственного.iFreq – относительная частота.

Оценка предложенных кандидатов

Всем словам предварительно проставлены оценки (ManScore) вручную. (0 – нет на картинки, 1 – косвенно присутствует, 2 – присутствует)

Конечная оценка вычисляется по трем словам,имеющим наибольший вес, как:w1* ManScore1 + w2* ManScore2 + w3* ManScore3.где w1 = 1, w2 = 0.5, w3 = 0.33.

Дальнейшая работа Сейчас учет простых характеристик Первая задача: подобрать параметры,

чтобы получить максимально хорошие аннотации – базовый уровень

Следующая задача: Более глубокий анализ текста статьи и/или

списка кандидатов Учет начал предложений, подлежащих,

местоимений Автоматическая сборка словосочетаний Контекстная зависимость кандидатов в

аннотации

Documents

Методы автоматического аннотирования изображений