85
Распознавание изображений Many slides adapted from Fei-Fei Li, Rob Fergus, Antonio Torralba and Svetlana Lazebnik

Семантическая классификация изображений, осень 2010: Распознавание изображений

Embed Size (px)

Citation preview

Page 1: Семантическая классификация изображений, осень 2010: Распознавание изображений

Распознавание изображений

Many slides adapted from Fei-Fei Li, Rob Fergus, Antonio Torralba and Svetlana Lazebnik

Page 2: Семантическая классификация изображений, осень 2010: Распознавание изображений

• Н.с. в Лаборатории компьютерной графики и мультимедиа ВМК МГУ имграфики и мультимедиа ВМК МГУ им. М.В. Ломоносова• И.о. м.н.с. НИИ Нормальной физиологии РАМН им. П.К. Анохина

• С/к «Компьютерное зрение» (год), ВМК• С/к «Анализ изображений и видео»

(год), ШАД Яндекс

• Задавать вопросы по ходу можно и !нужно!

Page 3: Семантическая классификация изображений, осень 2010: Распознавание изображений

Задача компьютерного зрения

• Понять, что запечатлено на изображении

Мы видим Компьютер видит

Page 4: Семантическая классификация изображений, осень 2010: Распознавание изображений

Задача компьютерного зрения

• Понять, что запечатлено на изображении• Вариант:Вариант:

• принятие решений о реальных физических объектах и сценах, основываясь на воспринимаемых изображениях

• Что это в действительности обозначает?• Зрение - источник семантической информации о мире• Зрение - источник метрической информации о трехмерном мире

Page 5: Семантическая классификация изображений, осень 2010: Распознавание изображений

Семантическая информация

22.12.2010 Slide 5Slide credit: Fei-Fei, Fergus & Torralba

Page 6: Семантическая классификация изображений, осень 2010: Распознавание изображений

Классификация сцены• outdoor• city

t ffi• traffic• …

slide credit: Fei-Fei, Fergus 22.12.2010 Slide 6

Page 7: Семантическая классификация изображений, осень 2010: Распознавание изображений

Поиск и локализация объектов

sky

building

flag

facewallbanner

street lampbus bus

street lamp

Slide credit: Fei-Fei, Fergus & Torralba cars22.12.2010 Slide 7

Page 8: Семантическая классификация изображений, осень 2010: Распознавание изображений

Качественная информация об объектах

slanted

i id inon-rigid moving object

vertical

rigid moving

vertical

rigid movingrigid moving object

horizontal slide credit: Fei-Fei, Fergus

rigid moving object

22.12.2010 Slide 8

Page 9: Семантическая классификация изображений, осень 2010: Распознавание изображений

Метрическая информация

Real-time stereo Structure from motionMulti-view stereo forcommunity photo collectionsy p

NASA Mars Rover

Pollefeys et al. Goesele et al.

Page 10: Семантическая классификация изображений, осень 2010: Распознавание изображений

Почему зрение – это сложно?

Page 11: Семантическая классификация изображений, осень 2010: Распознавание изображений

Точка наблюдения

Mi h l l 1475 1564Michelangelo 1475-1564

slide credit: Fei-Fei, Fergus & Torralba

Page 12: Семантическая классификация изображений, осень 2010: Распознавание изображений

Разное освещение

image credit: J. Koenderink

Page 13: Семантическая классификация изображений, осень 2010: Распознавание изображений

Масштаб

Slide credit: Fei-Fei, Fergus & Torralba

Page 14: Семантическая классификация изображений, осень 2010: Распознавание изображений

Деформация формы

X B ih 1943Xu, Beihong 1943

Slide credit: Fei-Fei, Fergus & Torralba

Page 15: Семантическая классификация изображений, осень 2010: Распознавание изображений

Перекрытие

Magritte, 1957

slide credit: Fei-Fei, Fergus & Torralba

Page 16: Семантическая классификация изображений, осень 2010: Распознавание изображений

Маскировка

Page 17: Семантическая классификация изображений, осень 2010: Распознавание изображений

Движение

Page 18: Семантическая классификация изображений, осень 2010: Распознавание изображений

Внутриклассовая изменчивость

slide credit: Fei-Fei, Fergus & Torralba

Page 19: Семантическая классификация изображений, осень 2010: Распознавание изображений

Локальная неоднозначность

slide credit: Fei-Fei, Fergus & Torralba

Page 20: Семантическая классификация изображений, осень 2010: Распознавание изображений

Сложности или возможности?

• Изображение запутывает, но дает много подсказок • Наша задача – интерпретировать подсказки

Image source: J. Koenderin

Page 21: Семантическая классификация изображений, осень 2010: Распознавание изображений

ЦветЦвет

22.12.2010 Slide 21

Page 22: Семантическая классификация изображений, осень 2010: Распознавание изображений

Тени и освещениеТени и освещение

Source: J. Koenderink

Page 23: Семантическая классификация изображений, осень 2010: Распознавание изображений

Отбрасываемые тениОтбрасываемые тени

Source: J. Koenderink

Page 24: Семантическая классификация изображений, осень 2010: Распознавание изображений

Группировка: положениеГруппировка: положение

Image credit: Arthus-Bertrand (via

Page 25: Семантическая классификация изображений, осень 2010: Распознавание изображений

Глубина: линейная перспективаГлубина: линейная перспектива

Page 26: Семантическая классификация изображений, осень 2010: Распознавание изображений

ТекстураТекстура

Page 27: Семантическая классификация изображений, осень 2010: Распознавание изображений

Упорядочивание по глубинеУпорядочивание по глубине

Source: J. Koenderink

Page 28: Семантическая классификация изображений, осень 2010: Распознавание изображений

Глубина: воздушная перспективаГлубина: воздушная перспектива

Page 29: Семантическая классификация изображений, осень 2010: Распознавание изображений

Резюме

• Зрение изначально нечеткая задача• Разные 3D сцены дают одно и то же 2D изображение• Разные 3D сцены дают одно и то же 2D изображение• Необходимы априорные знания о структуре и свойствах мира

Image source: F. D

Page 30: Семантическая классификация изображений, осень 2010: Распознавание изображений

НачалоНачало

• Работы Дэвида Марра, 1970х• «Primal sketch»«Primal sketch»

• Низкоуровневые («low-level») свойства изображения: направленные края, отрезки и т.д.

• «2.5D sketch»• Упорядочивание по глубине (бинокулярное стерое), учёт

е с ртекстуры и т.д.

• «3D model»• Распознавание объектов и представление о 3х мерном• Распознавание объектов и представление о 3х мерном мире

Page 31: Семантическая классификация изображений, осень 2010: Распознавание изображений

Зрение человека

Page 32: Семантическая классификация изображений, осень 2010: Распознавание изображений

Зрение человека

Д (D t )• Данные (Data)• Устройство глаза• Данные в жизни• Данные в жизни

• Признаки (Features)• Low-level visionLow level vision

• (?) Стерео, группировка, форма• Mid-level vision

• Распознавание (Классификация)• High-level vision

Page 33: Семантическая классификация изображений, осень 2010: Распознавание изображений

Камера-обскура

Камера-обскура:• Захватывает пучок лучей, проходящих через одну точку • Точка называется Центр проекции (фокальная точка / focal

point)• Изображение формируется на картинной плоскости (ImageИзображение формируется на картинной плоскости (Image

plane)

Slide by Steve Seitz

Page 34: Семантическая классификация изображений, осень 2010: Распознавание изображений

Цифровая камера - дискретизация

Page 35: Семантическая классификация изображений, осень 2010: Распознавание изображений

Человеческий глаз

conecone

rod

Глаз как камера!• Хрусталик – «линза», меняет форму под действием мышцру ф р у• Зрачок - дырка (апертура), диаметр управляется радужкой

– Радужка – цветная пленка с радиальными мышцамиМ К ф• Матрица - Клетки-фоторецепторы на сетчатке

Slide by Steve Seitz

Page 36: Семантическая классификация изображений, осень 2010: Распознавание изображений

Цветные фотографии??

Page 37: Семантическая классификация изображений, осень 2010: Распознавание изображений

Что такое цвет?Цвет – это психологическое свойство нашего зрения,

возникающее при наблюдении объектов и света, а не физические свойства объектов и света (S Palmer Visionфизические свойства объектов и света (S. Palmer, Vision Science: Photons to Phenomenology)

Цвет – это результат взаимодействия света, сцены и нашей зрительной системы

Wassily Kandinsky (1866-1944), Murnau Street with Women, 1908 Slide by S. Lazebnik

Page 38: Семантическая классификация изображений, осень 2010: Распознавание изображений

Восприятие цветаM L

Power

S

Wavelength

Палочки и колбочки (3 вида) – фильтры спектра• Спектр света умножается на кривую откликаСпектр света умножается на кривую отклика фоторецептора, производится интегрирование по всем длинам волн

– Каждая колбочка даёт 1 число– Каждая колбочка даёт 1 число

• В: Как же мы можем описать весь спектр 3мя числами?• О: Мы и не можем! Большая часть информации теряется.ф р ц р

– Два разных спектра могут быть неотличимы» Такие спектры называются метамеры

Slide by Steve Seitz

Page 39: Семантическая классификация изображений, осень 2010: Распознавание изображений

Спектры некоторых объектов

metamers

Slide by S. Lazebnik

Page 40: Семантическая классификация изображений, осень 2010: Распознавание изображений

Трихроматическая теория

В экспериментах по сопоставлению цвета большинству людей достаточно 3х основныхбольшинству людей достаточно 3х основных цветов, чтобы сопоставить любой цвет• Основные цвета должны быть независимы

Для одного и того же спектра, и одних и тех же основных цветов, люди выбирают одинаковые веса• Исключения: цветовая слепота

ТТрихроматическая теория• Трех чисел оказывается достаточно, чтобы описать цвет• История восходит к 18у веку (Томас Юнг)• История восходит к 18у веку (Томас Юнг)

Slide by S. Lazebnik

Page 41: Семантическая классификация изображений, осень 2010: Распознавание изображений

Первые цветные фотографииСергей Прокудин-Горский (1863-1944)Фотографии Российской империи(1909-р ф р (

1916)

Lantern Lantern projector

http://www.loc.gov/exhibits/empire/http://en.wikipedia.org/wiki/Sergei_Mikhailovich_Prokudin-Gorskii

Slide by А.Efros

Page 42: Семантическая классификация изображений, осень 2010: Распознавание изображений

Лев Толстой

Page 43: Семантическая классификация изображений, осень 2010: Распознавание изображений

Цветное цифровое изображение

Байеровский шаблон

Демозаикинг (оценка пропущенных значений цвета)значений цвета)

Source: Steve Seitz

Page 44: Семантическая классификация изображений, осень 2010: Распознавание изображений

«Фишка» глаза

Page 45: Семантическая классификация изображений, осень 2010: Распознавание изображений

Плотность палочек и колбочек

cone pigmentmolecules

rod

Палочки и колбочки распределены неравномерно• Палочки измеряют яркость, колбочки цвет• Fovea – маленькая область(1 or 2°) в центре визуального поля с ( ) ц р у

наибольшей плотностью колбочек и без палочек• На периферии все больше палочек подсоединены к одному нейрону

Slide by Steve Seitz

Page 46: Семантическая классификация изображений, осень 2010: Распознавание изображений

Что мы на самом деле видим

Page 47: Семантическая классификация изображений, осень 2010: Распознавание изображений

Движения глаз

Page 48: Семантическая классификация изображений, осень 2010: Распознавание изображений

Адаптация зрительной системыЧувствительность зрительной системы меняется в зависимости от доминантной освещенности б й (Б б )наблюдаемой сцены (Баланс белого)

• Механизм плохо изученАдаптация к разным уровням освещенностиАдаптация к разным уровням освещенности

• Размер зрачка регулирует объем света, попадающий на сетчатку Р• Размер резко меняется при входе в здание с ярко освещенной солнцем улицы

Цветовая адаптацияЦ• Клетки сетчатки меняю свою чувствительность• Пример: если доля красного в освещении повышается, понижается чувствительность клеток отвечающий запонижается чувствительность клеток, отвечающий за красный, пока вид сцены не придет к норме

• Мы лучше адаптируемся при яркой освещенности, при освещении свечой все остается в желтых тонахосвещении свечой все остается в желтых тонах

http://www.schorsch.com/kbase/glossary/adaptation.htmlSlide by S. Lazebnik

Page 49: Семантическая классификация изображений, осень 2010: Распознавание изображений

Баланс белого• Когда мы смотрим на фотографию или монитор, глаза

адаптируются к освещению в комнате, а не к освещению сцены на фотографиифотографии

• Если баланс белого неточен, цвета фотографии кажутся неестественными

incorrect white balance correct white balance

http://www.cambridgeincolour.com/tutorials/white-balance.htmSlide by S. Lazebnik

Page 50: Семантическая классификация изображений, осень 2010: Распознавание изображений

Постоянство яркости

Slide by S. Lazebnik

Page 51: Семантическая классификация изображений, осень 2010: Распознавание изображений

Постоянство яркости

http://web.mit.edu/persci/people/adelson/checkershadow_illusion.htmlSlide by S. Lazebnik

Page 52: Семантическая классификация изображений, осень 2010: Распознавание изображений

Данные - продолжение

• Сколько нам нужно данных для обучения алгоритмов?алгоритмов?

• Сколько есть классов объектов?• Сколько изображений?• Сколько изображений?

• Что мы про них будем знать?

Page 53: Семантическая классификация изображений, осень 2010: Распознавание изображений

Сколько всего классов объектов?

1500 3000 10 й

Biederman 1987

1500-3000 основных существительных, ~10 подкатегорий

Page 54: Семантическая классификация изображений, осень 2010: Распознавание изображений

OBJECTS

ANIMALS INANIMATEPLANTS

MAN-MADENATURALVERTEBRATEVERTEBRATE…..

MAMMALS BIRDS

GROUSEBOARTAPIR CAMERA

Page 55: Семантическая классификация изображений, осень 2010: Распознавание изображений

10 в степениЧисло картинок на диске: 104

Ч 10 108Число картинок, виденных за 10 лет: 108(3 images/second * 60 * 60 * 16 * 365 * 10 = 630720000)

Число картинок,виденных всем человечеством: 1020106,456,367,669 humans1 * 60 years * 3 images/second * 60 * 60 * 16 * 365 = 1 f htt // b /A ti l /2002/H M P l H E Li d E th1 from http://www.prb.org/Articles/2002/HowManyPeopleHaveEverLivedonEarth.aspx

Число картинок во вселенной: 102431081 atoms * 1081 * 1081 =

Число всех картинок 32x32 : 107373256 32*32*3 ~ 107373

Slide by Antonio Torralba

Page 56: Семантическая классификация изображений, осень 2010: Распознавание изображений

Доступные данные

Number of

1020

pictures

Human Click Limit( ll h it t ki

Lenaa dataset in one picture

1015

(all humanity takingone picture/secondduring 100 years)COREL

a dataset in one picture

1010

2 billion

100

105

40.000

1972

100

Time 1996 2007 2020?

Slide by Antonio Torralba

Page 57: Семантическая классификация изображений, осень 2010: Распознавание изображений

Крошки-картинки (Tiny images)

A Torralba R Fergus W T Freeman 80 million tiny images: a large dataset forA. Torralba, R. Fergus, W. T. Freeman 80 million tiny images: a large dataset for non-parametric object and scene recognition IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.30(11), pp. 1958-1970, 2008.

Page 58: Семантическая классификация изображений, осень 2010: Распознавание изображений

Примеры изображений

Page 59: Семантическая классификация изображений, осень 2010: Распознавание изображений

Примеры изображений

Page 60: Семантическая классификация изображений, осень 2010: Распознавание изображений

Сегментация

Page 61: Семантическая классификация изображений, осень 2010: Распознавание изображений

Отдельные объекты

Page 62: Семантическая классификация изображений, осень 2010: Распознавание изображений

Распознавание человеком

Page 63: Семантическая классификация изображений, осень 2010: Распознавание изображений

80 Million Tiny Images

http://people.csail.mit.edu/torralba/tinyimages/

Page 64: Семантическая классификация изображений, осень 2010: Распознавание изображений

80 Million Tiny Images

Page 65: Семантическая классификация изображений, осень 2010: Распознавание изображений

Поиск по громадной коллекцииSSD метрика для сравнения изображений

2

,,21

2 )),,(),,((∑ −=cyx

SSD cyxIcyxID

Для ускорения поиска используем индексацию по первым 19 главным компонентам всей коллекции 80М изображенийколлекции 80М изображений

221

2 ))()((ˆ ∑ −=n

SSD nvnvDn

Отдельно расчет, сколько приблизительных M изображений нужно

б б й N 50выбрать, чтобы найти N=50 точных ближайших (график)Выбираем 16000 по приближенной р рметрики, внутри сравниваем точно

Page 66: Семантическая классификация изображений, осень 2010: Распознавание изображений
Page 67: Семантическая классификация изображений, осень 2010: Распознавание изображений

Более сложные метрики

221

2 )),,(),,((min ∑ −=warp cyxITcyxID θθ ,,∑

cyxp θ

Page 68: Семантическая классификация изображений, осень 2010: Распознавание изображений

Результат улучшенной метрики

Page 69: Семантическая классификация изображений, осень 2010: Распознавание изображений

Анализ коллекции

Вероятность найти соседа, с корреляцией больше 0.8 или 0.9 в зависимости от

Вероятность того, что изображения отнесены к одной категории в

размера коллекции зависимости от корреляции

Page 70: Семантическая классификация изображений, осень 2010: Распознавание изображений

Поиск лиц на основе коллекции

Page 71: Семантическая классификация изображений, осень 2010: Распознавание изображений
Page 72: Семантическая классификация изображений, осень 2010: Распознавание изображений
Page 73: Семантическая классификация изображений, осень 2010: Распознавание изображений

Caltech 101 & 256http://www.vision.caltech.edu/Image_Datasets/Caltech101/http://www.vision.caltech.edu/Image_Datasets/Caltech256/

Griffin, Holub, Perona, 2007

Fei-Fei, Fergus, Perona, 2004

Page 74: Семантическая классификация изображений, осень 2010: Распознавание изображений

PASCAL (2005-2009)

http://pascallin.ecs.soton.ac.uk/challenges/VOC/

Классы 2008 :Человек: человекЖивотные: птица, кошка, корова, собака, лошадь, оцва ц , , р , , д , цТранспорт: самолет, велосипед, лодка, автобус, машина, мотоцикл, поездПомещения: бутылка кресло стол растение в горшкеПомещения: бутылка, кресло, стол, растение в горшке, монитор, диван

Page 75: Семантическая классификация изображений, осень 2010: Распознавание изображений

The PASCAL Visual Object Classes Challenge (2005-2009)

• Основные конкурсы• Классификация: Для каждого из 20 классов, определить

/ б бприсутствие/отсутствие объекта этого класса в изображении• Поиск: Определить рамку и метку каждого объекта из 20 классов в изображениир

http://pascallin.ecs.soton.ac.uk/challenges/VOC/

Page 76: Семантическая классификация изображений, осень 2010: Распознавание изображений

The PASCAL Visual Object Classes Challenge (2005-2009)

• Новые конкурсы• Семантическая• Семантическая сегментация:попиксельная аннотация областианнотация области объектов и фона

• Человек: Пометить рамкой и меткой каждую часть тела (голову, руки, ступни)( у, ру , у )

Page 77: Семантическая классификация изображений, осень 2010: Распознавание изображений

LabelMehttp://labelme.csail.mit.edu/

Russell, Torralba, Murphy, Freeman, 2008

Page 78: Семантическая классификация изображений, осень 2010: Распознавание изображений

Mechanical Turk

Workers

Task: Dog?

Answer: Yes

Pay: $0 01Broker

Task

Is this a dog?o Yeso No

Pay: $0.01www.mturk.com

as

$0.01

Page 79: Семантическая классификация изображений, осень 2010: Распознавание изображений

Life of a Turker1. Go to mturk.com2. Find a HIT3. Accept it4. Do work4. Do work5. Submit work6. Wait for approval6. Wait for approval7. Get paid

Page 80: Семантическая классификация изображений, осень 2010: Распознавание изображений

Life of a Requester1. Design the task interface2. Prepare datap3. Publish HITs4. Wait for assignments4. Wait for assignments5. Approve(Reject) assignments6. Post more HITs6. Post more HITs

Page 81: Семантическая классификация изображений, осень 2010: Распознавание изображений

Annotation language• Common annotation types

• Polygons• Bounding boxes• Segmentations

Sti k fi / h• Stick figure/graphs

• Recursion

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.

Page 82: Семантическая классификация изображений, осень 2010: Распознавание изображений

Require qualification• Qualification is a test that a worker has to pass to work on the tasks

Please read the detailed instructions to learn how to perform the task. Please confirm that you understand the instructions by answering the following questions:

Which of the following checboxes are correct for this annotation?

No people (there are people in the image)

> 20 people (there are more than 20 people of appropriate size)

Small heads (there are unmarked small heads in the image)

Task: Put a box around every head

Page 83: Семантическая классификация изображений, осень 2010: Распознавание изображений

Ideal task properties• Easy cognitive task

Good: Where is the car? (bounding box)Good: How many cars are there? (3)Good: How many cars are there? (3)Bad: How many cars are there? (132)

• Low amount of input requiredGood: few clicks or a couple wordsGood: few clicks or a couple wordsBad: detailed outlines of all objects (100s of control points)“Sometimes, Mturk hits requiring many words are not worth the effort to 

complete ” From Singaporecomplete. From Singapore• Well-defined task

Good: Locate the corners of the eyes.B d L b l j i t l ti (l l ti l i )Bad: Label joint locations (low resolution, close-up images)

• Concise definitionGood: 1-2 paragraphs, fixed for all tasksGood: Lots of imagesBad: 300 pages annotation manualBad: Similarly-looking, but different tasks

Page 84: Семантическая классификация изображений, осень 2010: Распознавание изображений

Who are the Turkers?

70

80

90

50

60

70

US

IndiaUSIndia

20

30

40India

Other

IndiaOther

0

10

20

) ) ) ) ) ) )

2008

(Ipe

irotis

)

2008

(Ipe

irotis

)ay

200

9 (R

oss)

ug 2

009

(Ros

s)

ov 2

009

(Ros

s)

2010

(Ipe

irotis

)20

10 (J

ohn

Le)

Mar 2

0

Nov 2

0

May Aug

Nov

Feb

20

May 2

0

Page 85: Семантическая классификация изображений, осень 2010: Распознавание изображений

Income level comparison

• Turk pay ~ $2/hr• Minimum salary in India ~ $6/day• Maximum work week in India ~ 48 hrs

2*48*48 = $4608 per worker$Average annual earnings in India - $1733