Upload
lilosea
View
767
Download
1
Embed Size (px)
Citation preview
РАСПОЗНАВАНИЕ ИЗОБРАЖЕНИЙКонушин Антон
CSEDays-2010
Задача
• Понять, что запечатлено на изображении
Мы видим Компьютер видит
Source: S. Narasimhan
Что мы можем сказать про изображение?
Категория изображения
• outdoor
• city
• …
Найти интересные объекты (людей)
Семантическая сегментация
mountain
building
tree
people
street lamp
tree
sky
Идентификация: что это за здание?
Почему это сложно?
Michelangelo 1475-1564
slide credit: Fei-Fei, Fergus & Torralba
Проблемы: точка наблюдения
Проблемы: освещение
Source: J. Koenderink
Проблемы: масштаб
Slide credit: Fei-Fei, Fergus & Torralba
Проблемы: деформации
Xu, Beihong 1943
Slide credit: Fei-Fei, Fergus & Torralba
Проблемы: перекрытия
Magritte, 1957
slide credit: Fei-Fei, Fergus & Torralba
Проблемы: текстуры и беспорядок
Проблемы: движение
Проблемы: внутриклассовая изменчивость
slide credit: Fei-Fei, Fergus & Torralba
Проблемы: локальная неоднозначность
slide credit: Fei-Fei, Fergus & Torralba
Сложности или возможности?
• Изображение запутывает, но дает много подсказок • Наша задача – интерпретировать подсказки
Image source: J. Koenderink
Цвет и текстура
Тени и освещение
Source: J. Koenderink
Отбрасываемые тени
Source: J. Koenderink
Перспектива
Дымка
Упорядочивание по глубине
Source: J. Koenderink
Форма: текстурный градиент
Резюме
• Распознавание изображений изначально нечеткая задача• Разные 3D сцены дают одно и то же 2D изображение
Image source: F. Durand
История: Л.Дж. Робертс
1960 г:
L. G. Roberts, Machine Perception of Three Dimensional Solids, Ph.D. thesis, MIT Department of Electrical Engineering,
1963.
История: Давид Марр (1980)
• «Primal sketch»• Низкоуровневые («low-level») свойства изображения:
направленные края, отрезки и т.д.
• «2.5D sketch»• Упорядочивание по глубине (бинокулярное стерое), учёт
текстуры и т.д.
• «3D model»• Распознавание объектов и представление о 3х мерном
мире
• Marr prize (!)
Зрение человека
25+% мозга отвечает за зрение
Как человек видит…
Устройство глаза
Что мы на самом деле видим
Движения глаз
Что сейчас работает?
• Изображения и видео повсюду• Бурно растущая область
• Распознавание текста, лиц, улыбки• Идентификация по отпечаткам пальцев, радужке,
лицу (лицу – плохо)• Распознавание пола, возраста человека• Классификация изображений (сотни классов)• Поиск изображений в базах• Распознавание человека, машин в видео
Распространение изображений
Personal photo albums
Surveillance and security
Movies, news, sports
13.04.23 Slide 35
Распознавание текста
Digit recognition, AT&T labshttp://www.research.att.com/~yann/ License plate readers
http://en.wikipedia.org/wiki/Automatic_number_plate_recognition
Source: S. Seitz
Поиск лиц
• В бытовых фотокамерах!• Canon, Sony, Fuji, …
Source: S. Seitz
Поиск улыбки
Sony Cyber-shot® T70 Digital Still Camera Source: S. Seitz
Распознавание лиц
Кто она?
Source: S. Seitz
Биометрия
“How the Afghan Girl was Identified by Her Iris Patterns” Read the story
Source: S. Seitz
Идентификация пользователя
Fingerprint scanners on many new laptops, other devices
Face recognition systems now beginning to appear more widelyhttp://www.sensiblevision.com/
Source: S. Seitz
Распознавание объектов
• Microsoft Research
Source: S. Seitz
iPhone Apps (www.kooaba.com)
Умные машины
• Mobileye• Топ-модели от BMW, GM, Volvo• К 2010: 70% производителей машин
Source: S. Seitz
Посмотрим, как работает классификация изображений….