Upload
vladimir-pavlov
View
699
Download
1
Embed Size (px)
Citation preview
Построение гендерного классификатора
Результаты экспериментов и пути дальнейшего улучшения алгоритма
Лев Шмаглит
Ярославский государственный университет им. П.Г. Демидова150000, г. Ярославль, ул. Советская, 14
Физический факультетКафедра динамики электронных систем
2
План доклада:
1. Задача понимания изображений. Вводные замечания.
2. Построение гендерного классификатора. Результаты экспериментов.
3. Обзор современных подходов, позволяющих увеличить вероятность распознавания.
3
Понимание изображений
Небо
Дорога
Знак
МашинаМашина
Машина
Машина
Машина
Машина
Здание
[Ivan Laptev. Human Action Recognition // MCVS 2011]
4
Понимание изображений
[Andrew Zisserman. Visual Search and Recognition // MCVS 2011]
Набор классов
Детектирование
Автобус
Машина
РаспознаваниеКлассификация
5
Детектирование• Сканирование
пирамиды масштабированных изображений окном
K
K
K
«не лицо»
«лицо»• Принятие решения
для каждого окна - классификация
6
Классификация
Входной фрагмент
XКлассификатор
),,,,( 21 mXf
Скалярное число
Сравнение с порогом
Решение
Обучающий набор
iXОПТИМИЗАЦИЯ
;,,,, 21 miXE
Вектор данных
Машинное обучение
7
Понимание изображений(компьютерное зрение)
Детектирование + Распознавание
Классификация(машинное обучение)
Оптимизация
8
Сколько пикселей относится к «людям»?
[Ivan Laptev. Human Action Recognition // MCVS 2011]
9
Сколько пикселей относится к «людям»?
[Ivan Laptev. Human Action Recognition // MCVS 2011]
10
Сколько пикселей относится к «людям»?
[Ivan Laptev. Human Action Recognition // MCVS 2011]
11
План доклада:
1. Задача понимания изображений. Вводные замечания.
2. Построение гендерного классификатора. Результаты экспериментов.
3. Обзор современных подходов, позволяющих увеличить вероятность распознавания.
12
Постановка задачи
Исходное изображение
Изображение с выделенными лицами
Распознавание пола
мм
мжж
Применение:• системы видеонаблюдения• Digital Signage
13
Пример работы алгоритма
14
Схема работы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
15
Алгоритм на базе SNoW
Вычисление SMQT признаков
001010010
Представление в виде вектора
82
Пересчет в виде
индекса
Wx
facex
Wx
nonfacex xMhxMh
Классификатор
Wx
ifacex xMhЕсли ))(( ))(())(( xMhxMh i
facexi
facex
))(())(( xMhxMh ifacexi
facex
Wxi
facex xMhЕсли ))((
Процедура обновления весов
16
Классификаторы KDDA и SVMЛинейные классификаторы с использованием ядра
для внесения нелинейности:
ядерная функция Гаусса
KDDA SVM
ASAASA
ASAA
WTHT
BTWT
BTWT
A maxarg
m
iiii bXXkyXf
1
),(sgn)(
2
2
2121 exp),(
zz
zzk
17
Методика обучения и тестирования
Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up
SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007
База изображений (2770 шт.)
Анализ работы алгоритмов
Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов
Классификатор KDDA(81,5%)
Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке
Классификатор SVM(89%)
ПредобработкаМасштабирование до разрешения 40 × 40 пикселей
Выравнивание гистограммы яркости
Обучающая база (300 шт.)
Тестовая база (100 шт.)
18
База обучающих изображений
• 2770 изображений• фронтальные лица• равномерное освещение • однородный фон
Мужчины Женщины Дети
19
Результаты экспериментов
Классификатор
KDDA
81,5%
Классификатор
SVM
89%
20
План доклада:
1. Задача понимания изображений. Вводные замечания.
2. Построение гендерного классификатора. Результаты экспериментов.
3. Обзор современных подходов, позволяющих увеличить вероятность распознавания.
21
Подходы связанные с модификацией схемы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
1. Уточнение области лица после его выделения
Выделенная область квадратная, она наложена на лицо не точно, как по положению, так и по масштабу
Реализация: а) оценка положения глаз б) выделение овальной маской, захватывающей определенный процент лицевых пикселей, классифицированных до этого по цвету; в) фильтрация краевых эффектов.
Потенциальный выигрыш: 3 - 5 %
22
Подходы связанные с модификацией схемы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
2. Использование информации из областей рядом с лицом
Лица могут быть очень похожи, в то время как другие части тела и одежда могут сильно отличаться
Реализация: эмпирическое задание рамки, захватывающей нужные области, исходя из размера и положения детектированного лица
Потенциальный выигрыш: 5 - 10%
23
Подходы связанные с модификацией схемы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
3. Переход в пространство признаков
Переход в пространство признаков позволяет достичь:
а) инвариантности к масштабу, освещенности, положению и т.п.;
б) выделения особенностей, характерных тому или иному классу.
Реализация: дескрипторы SIFT, PHOW, HOG, реализованные в библиотеках VL-Feet и OpenCV
Потенциальный выигрыш: 5 - 15%
24
SIFT дескрипторы
[Andrew Zisserman. Visual Search and Recognition // MCVS 2011]
Вектор SIFT размерностью 128 Визуальное слово
Построение гистограммы визуальных слов
25
HOG дескрипторы
[Andrew Zisserman. Visual Search and Recognition // MCVS 2011]
• Разбиение изображения на блоки• Вычисление гистограммы
градиентов
26
Подходы связанные с модификацией схемы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
4. Использование всех трех цветовых компонент
Три – лучше, чем одна
Реализация: а) переход в пространство HSV б) вычисление признаков независимо для каждой из компонент
Потенциальный выигрыш: 1 - 5%
27
Подходы связанные с модификацией схемы алгоритма
Выделение лиц Алгоритм на базе обучающей процедуры
Sparse Network of Winnows
Входное изображение
Решение
Масштабирование выделенных фрагментов
Линейный классификатор:Линейный дискриминантный анализ (LDA);
Метод опорных векторов (SVM)
Преобразование с помощью ядерной функции
Выравнивание гистограммы яркости
5. Усложнение ядра
Никогда заранее не известно, какое ядро будет лучше работать при конкретной задаче (полиномиальное, RBF, хи-квадрат и т.д.)
Кроме того, произведение (сложение) нескольких ядер, существенно увеличивает силу классификатора.
Реализация: SVM библиотеки: libSVM, SVMlight и т.д.
Потенциальный выигрыш: 5 - 10%
28
Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up
SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007
База изображений (2770 шт.)
Анализ работы алгоритмов
Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов
Классификатор KDDA(81,5%)
Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке
Классификатор SVM(89%)
ПредобработкаМасштабирование до разрешения 40 × 40 пикселей
Выравнивание гистограммы яркости
Обучающая база (300 шт.)
Тестовая база (100 шт.)
Подходы связанные с модификацией схемы обучения
1. Увеличение обучающей базы
Обучающих изображений всегда не хватает
Реализация: а) поиск новых изображений б) размножение изображений путем применения ротации, аффинного преобразования, изменения яркости / контраста
Потенциальный выигрыш: 100%
29
Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up
SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007
База изображений (2770 шт.)
Анализ работы алгоритмов
Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов
Классификатор KDDA(81,5%)
Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке
Классификатор SVM(89%)
ПредобработкаМасштабирование до разрешения 40 × 40 пикселей
Выравнивание гистограммы яркости
Обучающая база (300 шт.)
Тестовая база (100 шт.)
Подходы связанные с модификацией схемы обучения
2. Усложнение алгоритма оптимизации параметров ядра
Оптимизация ядра необходима, чтобы избежать переобучения и достигнуть наилучшей обобщающей способности
Реализация: а) кроссвалидация б) алгоритмы оптимизации (GA)
Потенциальный выигрыш: 1 - 10%
30
Выделение лиц (98,2%)Nilsson M., Nordberg J., Claesson I. Face Detection Using Local SMQT Features and Split Up
SNoW Classifier // Proceedings of IEEE Int. Conf. ICASSP, V. 2, P. 589-592, 2007
База изображений (2770 шт.)
Анализ работы алгоритмов
Удаление ложно выделенных фрагментовФормирование обучающей и тестовой баз выделенных фрагментов
Классификатор KDDA(81,5%)
Оптимизация параметров ядра с использованием кросвалидации и поиска по сетке
Классификатор SVM(89%)
ПредобработкаМасштабирование до разрешения 40 × 40 пикселей
Выравнивание гистограммы яркости
Обучающая база (300 шт.)
Тестовая база (100 шт.)
Подходы связанные с модификацией схемы обучения
3. Применение древовидной (каскадной) структуры
Объединение решений нескольких классификаторов всегда дает преимущество в итоговой вероятности распознавания
Следующий слой классификатора можно обучать на ошибках предыдущего
Реализация: а) каскадная структура б) дерево (решающий лес)
Потенциальный выигрыш: 5 - 10%
Построение гендерного классификатора
Результаты экспериментов и пути дальнейшего улучшения алгоритма
Лев Шмаглит
Ярославский государственный университет им. П.Г. Демидова150000, г. Ярославль, ул. Советская, 14
Физический факультетКафедра динамики электронных систем