View
232
Download
2
Category
Preview:
Citation preview
Методы автоматического аннотирования изображений
Докладчик:Баев Александр, 5 курс
Научный руководитель:Лукашевич Наталья Валентиновна
В интернет много фотографий, картинок- Нужно уметь искать,- Один из видов поиска – по текстовой
аннотации к изображению- Не все фотографии, картинки имеют
подписи (аннотации)- Задача: автоматическое создание
подписи изображения
Поиск изображений в интернет:
Два метода автоматического аннотирования изображений
1) Анализ структурных элементов изображений, сопоставление их с текстовыми аннотациями на основе обучающей коллекции
2) Анализ текста (статьи, сообщения), к которому прикреплено изображение
Используемые статьи:
Yong Wang and Shaogang Gong,
«Refining Image Annotation Using ContextualRelations Between Words»
«Улучшение аннотации к картинке, используя контекстную зависимость между словами»
Ключевые методы: Binary image classifiers: получение набора
слов-подписей с их весом. The normalized Google distances (NGD's):
вычисление контекстной зависимости между словами.
Conditional Random Field (CRF): ранжирование с учётом веса и контекстной зависимости слов.
Обзор статьи:
5000 цветных изображения, каждое содержит 1~5 слов-заголовков (проставленных вручную). (Corel Data set)
Всего 374 слова-заголовка.
4000 – training set, 500 - testing set, 500 - validation set.
Исходные данные:
Пример картинки:
Corel data set
Схема работы системы
Обзор статьи:
Необходимо подписать изображения (указав вес слов-заголовков).
В качестве одного из методов был выбран: Relevance vector machine (RVM)
Основан на выделении визуальных областей изображений и сопоставлении с ними слов-заголовков из исходной базы (всех слов в заголовках к исходным картинкам) с весом каждого из них.
Binary Image Classification:
Relevance vector machine (RVM)
1. Создаём словарь визуальных областей (кластеров) картинок.
2. Размечаем области словами-заголовками
3. Классифицируем их с помощью RVM4. Получаем набор слов-кандидатов для
каждой картинки (с весом).
Relevance vector machine (RVM)
w1, w2 – слова.
f(w1), f(w2), f(w1,w2) – кол-во страниц, выданных Google на запрос со словом w1, w2 и «w1 and w2» соответственно.
M – размер индекса Google.
Normalized Google Distance:
Normalized Google Distance:
Conditional Random Field (CRF):
Пример работы CRF.Результат – ранжированный набор слов-аннотаций
Результаты:
Сравнительныйанализ трёх методов.
RWR – Random Walkwith Restarts
Пример:
Постановка задачи диплома
Имеется текст новостного сообщения с иллюстрацией
Нужно проанализировать текст и выдать список текстовых сущностей, которые могут быть изображены на иллюстрации
Визуальные сущности в тексте Слова: существительные и прилагательные Концепты из тезауруса НИВЦ МГУ (учет
синонимов, словосочетания) Характеристики
Частотность в документе Частотность в коллекции (1 млн. новостных
сообщений ) Вхождение в заголовок Собственные имена Визуальность – приписана экспертами к
концептам тезауруса
Формирование списка кандидатов для аннотации
В отличие от метода, изложенного выше, я беру слова-кандидаты из текста статьи (новостной).
Веса вычисляются по формуле (условной):Freq*iFreq*(a + b + v + n).a – базовая оценка, b – учёт заголовка, v – учёт визуальности,n – учёт имени собственного.iFreq – относительная частота.
Оценка предложенных кандидатов
Всем словам предварительно проставлены оценки (ManScore) вручную. (0 – нет на картинки, 1 – косвенно присутствует, 2 – присутствует)
Конечная оценка вычисляется по трем словам,имеющим наибольший вес, как:w1* ManScore1 + w2* ManScore2 + w3* ManScore3.где w1 = 1, w2 = 0.5, w3 = 0.33.
Дальнейшая работа Сейчас учет простых характеристик Первая задача: подобрать параметры,
чтобы получить максимально хорошие аннотации – базовый уровень
Следующая задача: Более глубокий анализ текста статьи и/или
списка кандидатов Учет начал предложений, подлежащих,
местоимений Автоматическая сборка словосочетаний Контекстная зависимость кандидатов в
аннотации
Recommended