Upload
cs-center
View
115
Download
4
Embed Size (px)
Citation preview
Распознавание изображений
Many slides adapted from Fei-Fei Li, Rob Fergus, Antonio Torralba and Svetlana Lazebnik
• Н.с. в Лаборатории компьютерной графики и мультимедиа ВМК МГУ имграфики и мультимедиа ВМК МГУ им. М.В. Ломоносова• И.о. м.н.с. НИИ Нормальной физиологии РАМН им. П.К. Анохина
• С/к «Компьютерное зрение» (год), ВМК• С/к «Анализ изображений и видео»
(год), ШАД Яндекс
• Задавать вопросы по ходу можно и !нужно!
Задача компьютерного зрения
• Понять, что запечатлено на изображении
Мы видим Компьютер видит
Задача компьютерного зрения
• Понять, что запечатлено на изображении• Вариант:Вариант:
• принятие решений о реальных физических объектах и сценах, основываясь на воспринимаемых изображениях
• Что это в действительности обозначает?• Зрение - источник семантической информации о мире• Зрение - источник метрической информации о трехмерном мире
Семантическая информация
22.12.2010 Slide 5Slide credit: Fei-Fei, Fergus & Torralba
Классификация сцены• outdoor• city
t ffi• traffic• …
slide credit: Fei-Fei, Fergus 22.12.2010 Slide 6
Поиск и локализация объектов
sky
building
flag
facewallbanner
street lampbus bus
street lamp
Slide credit: Fei-Fei, Fergus & Torralba cars22.12.2010 Slide 7
Качественная информация об объектах
slanted
i id inon-rigid moving object
vertical
rigid moving
vertical
rigid movingrigid moving object
horizontal slide credit: Fei-Fei, Fergus
rigid moving object
22.12.2010 Slide 8
Метрическая информация
Real-time stereo Structure from motionMulti-view stereo forcommunity photo collectionsy p
NASA Mars Rover
Pollefeys et al. Goesele et al.
Почему зрение – это сложно?
Точка наблюдения
Mi h l l 1475 1564Michelangelo 1475-1564
slide credit: Fei-Fei, Fergus & Torralba
Разное освещение
image credit: J. Koenderink
Масштаб
Slide credit: Fei-Fei, Fergus & Torralba
Деформация формы
X B ih 1943Xu, Beihong 1943
Slide credit: Fei-Fei, Fergus & Torralba
Перекрытие
Magritte, 1957
slide credit: Fei-Fei, Fergus & Torralba
Маскировка
Движение
Внутриклассовая изменчивость
slide credit: Fei-Fei, Fergus & Torralba
Локальная неоднозначность
slide credit: Fei-Fei, Fergus & Torralba
Сложности или возможности?
• Изображение запутывает, но дает много подсказок • Наша задача – интерпретировать подсказки
Image source: J. Koenderin
ЦветЦвет
22.12.2010 Slide 21
Тени и освещениеТени и освещение
Source: J. Koenderink
Отбрасываемые тениОтбрасываемые тени
Source: J. Koenderink
Группировка: положениеГруппировка: положение
Image credit: Arthus-Bertrand (via
Глубина: линейная перспективаГлубина: линейная перспектива
ТекстураТекстура
Упорядочивание по глубинеУпорядочивание по глубине
Source: J. Koenderink
Глубина: воздушная перспективаГлубина: воздушная перспектива
Резюме
• Зрение изначально нечеткая задача• Разные 3D сцены дают одно и то же 2D изображение• Разные 3D сцены дают одно и то же 2D изображение• Необходимы априорные знания о структуре и свойствах мира
Image source: F. D
НачалоНачало
• Работы Дэвида Марра, 1970х• «Primal sketch»«Primal sketch»
• Низкоуровневые («low-level») свойства изображения: направленные края, отрезки и т.д.
• «2.5D sketch»• Упорядочивание по глубине (бинокулярное стерое), учёт
е с ртекстуры и т.д.
• «3D model»• Распознавание объектов и представление о 3х мерном• Распознавание объектов и представление о 3х мерном мире
Зрение человека
Зрение человека
Д (D t )• Данные (Data)• Устройство глаза• Данные в жизни• Данные в жизни
• Признаки (Features)• Low-level visionLow level vision
• (?) Стерео, группировка, форма• Mid-level vision
• Распознавание (Классификация)• High-level vision
Камера-обскура
Камера-обскура:• Захватывает пучок лучей, проходящих через одну точку • Точка называется Центр проекции (фокальная точка / focal
point)• Изображение формируется на картинной плоскости (ImageИзображение формируется на картинной плоскости (Image
plane)
Slide by Steve Seitz
Цифровая камера - дискретизация
Человеческий глаз
conecone
rod
Глаз как камера!• Хрусталик – «линза», меняет форму под действием мышцру ф р у• Зрачок - дырка (апертура), диаметр управляется радужкой
– Радужка – цветная пленка с радиальными мышцамиМ К ф• Матрица - Клетки-фоторецепторы на сетчатке
Slide by Steve Seitz
Цветные фотографии??
Что такое цвет?Цвет – это психологическое свойство нашего зрения,
возникающее при наблюдении объектов и света, а не физические свойства объектов и света (S Palmer Visionфизические свойства объектов и света (S. Palmer, Vision Science: Photons to Phenomenology)
Цвет – это результат взаимодействия света, сцены и нашей зрительной системы
Wassily Kandinsky (1866-1944), Murnau Street with Women, 1908 Slide by S. Lazebnik
Восприятие цветаM L
Power
S
Wavelength
Палочки и колбочки (3 вида) – фильтры спектра• Спектр света умножается на кривую откликаСпектр света умножается на кривую отклика фоторецептора, производится интегрирование по всем длинам волн
– Каждая колбочка даёт 1 число– Каждая колбочка даёт 1 число
• В: Как же мы можем описать весь спектр 3мя числами?• О: Мы и не можем! Большая часть информации теряется.ф р ц р
– Два разных спектра могут быть неотличимы» Такие спектры называются метамеры
Slide by Steve Seitz
Спектры некоторых объектов
metamers
Slide by S. Lazebnik
Трихроматическая теория
В экспериментах по сопоставлению цвета большинству людей достаточно 3х основныхбольшинству людей достаточно 3х основных цветов, чтобы сопоставить любой цвет• Основные цвета должны быть независимы
Для одного и того же спектра, и одних и тех же основных цветов, люди выбирают одинаковые веса• Исключения: цветовая слепота
ТТрихроматическая теория• Трех чисел оказывается достаточно, чтобы описать цвет• История восходит к 18у веку (Томас Юнг)• История восходит к 18у веку (Томас Юнг)
Slide by S. Lazebnik
Первые цветные фотографииСергей Прокудин-Горский (1863-1944)Фотографии Российской империи(1909-р ф р (
1916)
Lantern Lantern projector
http://www.loc.gov/exhibits/empire/http://en.wikipedia.org/wiki/Sergei_Mikhailovich_Prokudin-Gorskii
Slide by А.Efros
Лев Толстой
Цветное цифровое изображение
Байеровский шаблон
Демозаикинг (оценка пропущенных значений цвета)значений цвета)
Source: Steve Seitz
«Фишка» глаза
Плотность палочек и колбочек
cone pigmentmolecules
rod
Палочки и колбочки распределены неравномерно• Палочки измеряют яркость, колбочки цвет• Fovea – маленькая область(1 or 2°) в центре визуального поля с ( ) ц р у
наибольшей плотностью колбочек и без палочек• На периферии все больше палочек подсоединены к одному нейрону
Slide by Steve Seitz
Что мы на самом деле видим
Движения глаз
Адаптация зрительной системыЧувствительность зрительной системы меняется в зависимости от доминантной освещенности б й (Б б )наблюдаемой сцены (Баланс белого)
• Механизм плохо изученАдаптация к разным уровням освещенностиАдаптация к разным уровням освещенности
• Размер зрачка регулирует объем света, попадающий на сетчатку Р• Размер резко меняется при входе в здание с ярко освещенной солнцем улицы
Цветовая адаптацияЦ• Клетки сетчатки меняю свою чувствительность• Пример: если доля красного в освещении повышается, понижается чувствительность клеток отвечающий запонижается чувствительность клеток, отвечающий за красный, пока вид сцены не придет к норме
• Мы лучше адаптируемся при яркой освещенности, при освещении свечой все остается в желтых тонахосвещении свечой все остается в желтых тонах
http://www.schorsch.com/kbase/glossary/adaptation.htmlSlide by S. Lazebnik
Баланс белого• Когда мы смотрим на фотографию или монитор, глаза
адаптируются к освещению в комнате, а не к освещению сцены на фотографиифотографии
• Если баланс белого неточен, цвета фотографии кажутся неестественными
incorrect white balance correct white balance
http://www.cambridgeincolour.com/tutorials/white-balance.htmSlide by S. Lazebnik
Постоянство яркости
Slide by S. Lazebnik
Постоянство яркости
http://web.mit.edu/persci/people/adelson/checkershadow_illusion.htmlSlide by S. Lazebnik
Данные - продолжение
• Сколько нам нужно данных для обучения алгоритмов?алгоритмов?
• Сколько есть классов объектов?• Сколько изображений?• Сколько изображений?
• Что мы про них будем знать?
Сколько всего классов объектов?
1500 3000 10 й
Biederman 1987
1500-3000 основных существительных, ~10 подкатегорий
OBJECTS
ANIMALS INANIMATEPLANTS
MAN-MADENATURALVERTEBRATEVERTEBRATE…..
MAMMALS BIRDS
GROUSEBOARTAPIR CAMERA
10 в степениЧисло картинок на диске: 104
Ч 10 108Число картинок, виденных за 10 лет: 108(3 images/second * 60 * 60 * 16 * 365 * 10 = 630720000)
Число картинок,виденных всем человечеством: 1020106,456,367,669 humans1 * 60 years * 3 images/second * 60 * 60 * 16 * 365 = 1 f htt // b /A ti l /2002/H M P l H E Li d E th1 from http://www.prb.org/Articles/2002/HowManyPeopleHaveEverLivedonEarth.aspx
Число картинок во вселенной: 102431081 atoms * 1081 * 1081 =
Число всех картинок 32x32 : 107373256 32*32*3 ~ 107373
Slide by Antonio Torralba
Доступные данные
Number of
1020
pictures
Human Click Limit( ll h it t ki
Lenaa dataset in one picture
1015
(all humanity takingone picture/secondduring 100 years)COREL
a dataset in one picture
1010
2 billion
100
105
40.000
1972
100
Time 1996 2007 2020?
Slide by Antonio Torralba
Крошки-картинки (Tiny images)
A Torralba R Fergus W T Freeman 80 million tiny images: a large dataset forA. Torralba, R. Fergus, W. T. Freeman 80 million tiny images: a large dataset for non-parametric object and scene recognition IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.30(11), pp. 1958-1970, 2008.
Примеры изображений
Примеры изображений
Сегментация
Отдельные объекты
Распознавание человеком
80 Million Tiny Images
http://people.csail.mit.edu/torralba/tinyimages/
80 Million Tiny Images
Поиск по громадной коллекцииSSD метрика для сравнения изображений
2
,,21
2 )),,(),,((∑ −=cyx
SSD cyxIcyxID
Для ускорения поиска используем индексацию по первым 19 главным компонентам всей коллекции 80М изображенийколлекции 80М изображений
221
2 ))()((ˆ ∑ −=n
SSD nvnvDn
Отдельно расчет, сколько приблизительных M изображений нужно
б б й N 50выбрать, чтобы найти N=50 точных ближайших (график)Выбираем 16000 по приближенной р рметрики, внутри сравниваем точно
Более сложные метрики
221
2 )),,(),,((min ∑ −=warp cyxITcyxID θθ ,,∑
cyxp θ
Результат улучшенной метрики
Анализ коллекции
Вероятность найти соседа, с корреляцией больше 0.8 или 0.9 в зависимости от
Вероятность того, что изображения отнесены к одной категории в
размера коллекции зависимости от корреляции
Поиск лиц на основе коллекции
Caltech 101 & 256http://www.vision.caltech.edu/Image_Datasets/Caltech101/http://www.vision.caltech.edu/Image_Datasets/Caltech256/
Griffin, Holub, Perona, 2007
Fei-Fei, Fergus, Perona, 2004
PASCAL (2005-2009)
http://pascallin.ecs.soton.ac.uk/challenges/VOC/
Классы 2008 :Человек: человекЖивотные: птица, кошка, корова, собака, лошадь, оцва ц , , р , , д , цТранспорт: самолет, велосипед, лодка, автобус, машина, мотоцикл, поездПомещения: бутылка кресло стол растение в горшкеПомещения: бутылка, кресло, стол, растение в горшке, монитор, диван
The PASCAL Visual Object Classes Challenge (2005-2009)
• Основные конкурсы• Классификация: Для каждого из 20 классов, определить
/ б бприсутствие/отсутствие объекта этого класса в изображении• Поиск: Определить рамку и метку каждого объекта из 20 классов в изображениир
http://pascallin.ecs.soton.ac.uk/challenges/VOC/
The PASCAL Visual Object Classes Challenge (2005-2009)
• Новые конкурсы• Семантическая• Семантическая сегментация:попиксельная аннотация областианнотация области объектов и фона
• Человек: Пометить рамкой и меткой каждую часть тела (голову, руки, ступни)( у, ру , у )
LabelMehttp://labelme.csail.mit.edu/
Russell, Torralba, Murphy, Freeman, 2008
Mechanical Turk
Workers
Task: Dog?
Answer: Yes
Pay: $0 01Broker
Task
Is this a dog?o Yeso No
Pay: $0.01www.mturk.com
as
$0.01
Life of a Turker1. Go to mturk.com2. Find a HIT3. Accept it4. Do work4. Do work5. Submit work6. Wait for approval6. Wait for approval7. Get paid
Life of a Requester1. Design the task interface2. Prepare datap3. Publish HITs4. Wait for assignments4. Wait for assignments5. Approve(Reject) assignments6. Post more HITs6. Post more HITs
Annotation language• Common annotation types
• Polygons• Bounding boxes• Segmentations
Sti k fi / h• Stick figure/graphs
• Recursion
QuickTime™ and aTIFF (Uncompressed) decompressor
are needed to see this picture.
Require qualification• Qualification is a test that a worker has to pass to work on the tasks
Please read the detailed instructions to learn how to perform the task. Please confirm that you understand the instructions by answering the following questions:
Which of the following checboxes are correct for this annotation?
No people (there are people in the image)
> 20 people (there are more than 20 people of appropriate size)
Small heads (there are unmarked small heads in the image)
Task: Put a box around every head
Ideal task properties• Easy cognitive task
Good: Where is the car? (bounding box)Good: How many cars are there? (3)Good: How many cars are there? (3)Bad: How many cars are there? (132)
• Low amount of input requiredGood: few clicks or a couple wordsGood: few clicks or a couple wordsBad: detailed outlines of all objects (100s of control points)“Sometimes, Mturk hits requiring many words are not worth the effort to
complete ” From Singaporecomplete. From Singapore• Well-defined task
Good: Locate the corners of the eyes.B d L b l j i t l ti (l l ti l i )Bad: Label joint locations (low resolution, close-up images)
• Concise definitionGood: 1-2 paragraphs, fixed for all tasksGood: Lots of imagesBad: 300 pages annotation manualBad: Similarly-looking, but different tasks
Who are the Turkers?
70
80
90
50
60
70
US
IndiaUSIndia
20
30
40India
Other
IndiaOther
0
10
20
) ) ) ) ) ) )
2008
(Ipe
irotis
)
2008
(Ipe
irotis
)ay
200
9 (R
oss)
ug 2
009
(Ros
s)
ov 2
009
(Ros
s)
2010
(Ipe
irotis
)20
10 (J
ohn
Le)
Mar 2
0
Nov 2
0
May Aug
Nov
Feb
20
May 2
0
Income level comparison
• Turk pay ~ $2/hr• Minimum salary in India ~ $6/day• Maximum work week in India ~ 48 hrs
2*48*48 = $4608 per worker$Average annual earnings in India - $1733