51
Анализ изображений и видео Наталья Васильева [email protected] HP Labs Russia 23 ноября 2012, Computer Science Center Лекция 8: Обнаружение текста на изображениях

Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

  • Upload
    yandex

  • View
    8.630

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

Анализ изображений и видео

Наталья Васильева [email protected] HP Labs Russia

23 ноября 2012, Computer Science Center

Лекция 8: Обнаружение текста на изображениях

Page 2: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

2 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Вопросы (разбор ответов)

1. Преобразуйте цепной код 1527650432 так, чтобы он стал инвариантным по отношению к выбору начальной точки и к повороту.

2. Дано изображение шахматного поля с клетками размером nxn пикселей. Какие параметры сдвига будут порождать матрицу смежности диагонального вида?

3. К каким трансформациям изображения не инвариантен детектор Харриса?

4. Какая индексная структура требует меньшего объема памяти для организации индекса: kD-tree или Vocabulary tree?

5. Какова вероятность коллизии для двух объектов x и y при использовании b-битных хеш-кодов и t независимых хеш-таблиц, если известно что sim(x,y)=p?

a) pt

b) 1 – (1 – pb)t

c) b(1 – pt)

Page 3: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Организационные объявления

• 30 ноября: семинар по последнему домашнему заданию

• 7 декабря: зачет по чтению статей • (мне никто не присылал запросы на скачивание статей!!!)

• 14 декабря: консультация, досдача домашних заданий

• 21 декабря: экзамен (начало в 18:30?)

Page 4: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

4 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Page 5: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Зачем?

• Необходимо для дальнейшего распознавания текста (OCR) • Документы (document images):

• page layout analysis

• Фотографии, чертежи, графики (scene images, charts, plots, diagrams): • text detection and localization

• Самостоятельные приложения • Автоматическое построение коллажей • Автоматическое изменение размера изображений

Page 6: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

6 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Компоненты системы извлечения текста

Fig. credit: J. Gllavata

+ Text Enhancement

Page 7: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

7 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Приложения • Оцифровка документов

• Индексирование и извлечение информации из графиков и чертежей

• Индексирование и поиск изображений, автоматическое построение аннотаций

Page 8: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

8 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Page 9: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

9 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Page 10: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

10 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Приложения • Оцифровка документов

• Индексирование и извлечение информации из графиков и чертежей

• Индексирование и поиск изображений, автоматическое построение аннотаций

• Переводчик в кармане пример: Word Lens (http://questvisual.com/)

Page 11: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

11 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Page 12: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

12 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Приложения • Оцифровка документов

• Индексирование и извлечение информации из графиков и чертежей

• Индексирование и поиск изображений, автоматическое построение аннотаций

• Переводчик в кармане пример: Word Lens (http://questvisual.com/)

• Помощь слабовидящим

• Навигация роботов в помещениях, в городских условиях

Fig. credit: N. Ezaki et al.

Page 13: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

13 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обнаружение текста – газеты, журналы, книги

• обнаружение текстовых областей • определение угла поворота текста (skew detection) • определение порядка чтения

Page 14: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

14 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Основные задачи Печатные документы

• Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)

Fig. credit: Y.Y. Tang et al.

Page 15: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

15 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Основные задачи Печатные документы

• Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)

Fig. credit: Y.Y. Tang et al.

• Методы • «Сверху-вниз» (top-down)

• XY-cuts, whitespace segmentation • «Сверху-вниз» (bottom-up)

• группировка ближайших соседей, диаграммы Вороного

Page 16: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

16 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Projection profiles and XY-cuts

Вертикальная проекция

Горизонтальная проекция

Fig. credit: Y.Y. Tang et al.

Page 17: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

17 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Результат алгоритма Docstrum Методы «снизу-вверх»

Fig. credit: A. Namboodiri et al.

Page 18: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

18 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Использование диаграмм Вороного Методы «снизу-вверх»

Fig. credit: A. Namboodiri et al.

Page 19: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

19 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Основные задачи Печатные документы

• Определение поворота текста (page rotation, skew detection)

• Projection profiles (для исходного изображения или компонент связности)

• Использование преобразования Хафа • Определение угла наклона тектовых строк

Page 20: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

20 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Преобразование Хафа (Hough transform)

• Каждая прямая задается уравнением

• Через произвольную точку проходит бесконечное число прямых

• Преобразование Хафа основано на «голосовании» точек за те линии, на которых они могут лежать

• Линии с максимальным числом голосов выигрывают

Основная идея

Page 21: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

21 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Преобразование Хафа

image space Hough space

• Для данного набора точек (x, y) найти все точки (a, b), такие что y = ax+b

y=ax+b

• Точке (xi, yi) соответсвует прямая в пространстве Хафа: b = –xia + yi

Page 22: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

22 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Преобразование Хафа

• Разбиваем пространство параметров на «ячейки накопления»

• Для каждой точки из заданного множества точек на плоскости перебираем все значения параметра a и вычисляем соответствующее значение параметра b, увеличиваем счетчик соответствующей ячейки

• Выбираем ячейки с большим значением счетчика

Page 23: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

23 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Преобразование Хафа

Обычно, используют полярные координаты:

Page 24: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

24 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Преобразование Хафа

Диапазон θ: [-90°, 90°] Диапазон ρ: [-D√2, D√2]

Page 25: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

25 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Основные задачи Печатные документы

• Определение поворота текста (page rotation, skew detection)

• Обнаружение текстовых строк (text line finding, baseline finding)

• Projection profiles (для исходного изображения или компонент связности)

• Использование преобразования Хафа • Определение угла наклона тектовых строк

Page 26: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

26 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обнаружение текста – произвольные изображения

Исходное изображение

Возможные результаты работы алгоритмов обнаружения текста

Page 27: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

27 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Классификация подходов Фотографии

Text detection and localization

Texture-based Region-based

CC-based Edge-based

K. Jung et al.

Page 28: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

28 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Методы, основанные на анализе текстуры Фотографии

Построение пирамиды изображений

Извлечение текстурных признаков (Gabor, Wevelets, DCT)

Классификация регионов (SVM)

Text

NoText

Объединение результатов

Page 29: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

29 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Методы, основанные на анализе текстуры Фотографии

• Сложный фон

• Вычислительно сложные (обработка нескольких масштабов, операции свертки) • Произвольная направленность текста (негоризонтальный текст) • Произвольный размер шрифта

+

Page 30: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

30 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Region-based methods (bottom-up) Фотографии

• Выделение компонент связности на основе локальных признаков (близкий цвет или принадлежность границе)

• Объединение выделенных компонент связности в группы по признакам близкого расположения и схожих локальных признаков (размер, цвет)

Page 31: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

31 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Region-based methods Фотографии

• Произвольный размер шрифта • Произвольная направленность текста • Просты в реализации

• Сложный фон • Шум и нерезкость изображения • Используют большое количество эвристик

+

Page 32: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

32 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Stroke Width Transform (SWT)

B. Epshtein et al.

Исходное изображение

Результат SWT После фильтрации по признаку постоянства

ширины штриха

Найденный текст

Page 33: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

33 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обнаружение текста при помощи SWT

B. Epshtein et al.

Page 34: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

34 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Вычисление SWT

(a) Фрагмент штриха

(b) p – пиксель на границе штриха, q – пиксель на противоположной стороне штриха (градиенты в p и q направлены друг на друга)

(c) Всем пикселям вдоль луча pq присваивается значение ширины штриха

B. Epshtein et al.

Page 35: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

35 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обнаружение текста с помощью SWT

• Границы для нерезких изображений, низкого разрешения – • Погрешность SWT на стыках штрихов – • Эвристики для фильтрации компонент – • Двойной проход и интеграция результатов –

Page 36: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

36 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Saurav Kumar, Andrew Perrault

Page 37: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

37 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Комбинированные методы

Y.-F. Pan et al., 2011

Page 38: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

38 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Шаг 1 – анализ текстуры Комбинированные методы

Y.-F. Pan et al.

Page 39: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

39 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Шаг 2 – анализ компонент связности Комбинированные методы

Y.-F. Pan et al.

Page 40: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

40 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Шаг 3 – выделение текстовых строк и слов Комбинированные методы

Y.-F. Pan et al.

• построение минимального остовного дерева • решение оптимизационной задачи

Page 41: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

41 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Robust Reading Competitions ICDAR (2003, 2005, 2009, 2011)

• Распознавание символов • Распознавание слов • Локализация текста • Распознавание текста

Page 42: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

42 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Text detection with unsupervised feature learning

1. Построение словаря признаков • Кластеризация фрагментов 8x8

пикселей (аналог k-Means) • Словарь в виде матрицы D (64хd)

2. Представление произвольного фрагмента изображения 8х8 пикселей при помощи словаря:

• z=max{0, |Dx|-α} 3. Представление фрагмента 32х32

пикселя: каждый пиксель как центр окрестности 8x8 пикселей, суммирование векторов для блоков изображения: финальная размерность признаков изображения = 9d

4. Классификация фрагментов

Page 43: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

43 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обнаружение текста – чертежи и графики

• Обнаружение текстовых областей • Определение угла поворота текстовых строк

• Короткие фрагменты текста • Разнообразие шрифтов, текст под разными углами • Однородный фон • Высокая контрастность

фотографии

печатные документы

Page 44: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

44 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Графики и диаграммы Анализ компонент связности по цвету

Page 45: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

45 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Экспериментальная оценка

LRR LPR TRR TPR

Preprocess 79.0% 88.7% 44.7% 44.6%

NoPreprocess 33.7% 84.2% 2.5% 2.9%

LocationRecognitionRate = NLoc/NG LocationPrecisionRate = NLoc/NF

TextPrecisionRate = NTxt/NF TextRecognitionRate = NTxt/NG

NLoc – the number of correctly localized text blocks NTxt – the number of correctly recognized text blocks

NG – the total number of text blocks NF – the total number of detected text blocks

Тестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool

Page 46: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

46 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Screenshots

(+) Быстрая бинаризация − Время обработки изображения1600x008

• Tesseract OCR: ~6.56 секунд

• Данный алгоритм: ~0.45 seconds

(–) Требует фильтрации компонент − Naïve Bayes

– Выделение границ и пороговая бинаризация

– Удаление длинных горизонтальных и вертикальных границ

– Выделение компонент связности

– Классификация компонент связности и адаптивная бинаризация

Page 47: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

47 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Stroke Width Transform Script dependency

Page 48: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

48 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Adaptive binarization Script dependency

Page 49: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

49 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Stroke Width Transform Script dependency

Page 50: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

50 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Adaptive binarization Script dependency

Page 51: Анализ изображений и видео. Обнаружение текста на изображенияхслайды последней

51 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Заключение

• Зачем нужны алгоритмы обнаружения текста?

– Распознавание текста: оцифровка, индексирование, извлечение информации, автоматический перевод, text to speech, навигация

• Печатные документы (document images)

– Анализ структуры документа, определение поворота, выделение текстовых строк

• Фотографии (natural scenes)

– Texture-based & region-based

– Stroke Width Transform

• Графики, диаграммы, обложки