Семантическая классификация изображений, осень 2010: Распознавание изображений

Распознавание изображений

Many slides adapted from Fei-Fei Li, Rob Fergus, Antonio Torralba and Svetlana Lazebnik

• Н.с. в Лаборатории компьютерной графики и мультимедиа ВМК МГУ имграфики и мультимедиа ВМК МГУ им. М.В. Ломоносова• И.о. м.н.с. НИИ Нормальной физиологии РАМН им. П.К. Анохина

• С/к «Компьютерное зрение» (год), ВМК• С/к «Анализ изображений и видео»

(год), ШАД Яндекс

• Задавать вопросы по ходу можно и !нужно!

Задача компьютерного зрения

• Понять, что запечатлено на изображении

Мы видим Компьютер видит

Задача компьютерного зрения

• Понять, что запечатлено на изображении• Вариант:Вариант:

• принятие решений о реальных физических объектах и сценах, основываясь на воспринимаемых изображениях

• Что это в действительности обозначает?• Зрение - источник семантической информации о мире• Зрение - источник метрической информации о трехмерном мире

Семантическая информация

22.12.2010 Slide 5Slide credit: Fei-Fei, Fergus & Torralba

Классификация сцены• outdoor• city

t ffi• traffic• …

slide credit: Fei-Fei, Fergus 22.12.2010 Slide 6

Поиск и локализация объектов

sky

building

flag

facewallbanner

street lampbus bus

street lamp

Slide credit: Fei-Fei, Fergus & Torralba cars22.12.2010 Slide 7

Качественная информация об объектах

slanted

i id inon-rigid moving object

vertical

rigid moving

vertical

rigid movingrigid moving object

horizontal slide credit: Fei-Fei, Fergus

rigid moving object

22.12.2010 Slide 8

Метрическая информация

Real-time stereo Structure from motionMulti-view stereo forcommunity photo collectionsy p

NASA Mars Rover

Pollefeys et al. Goesele et al.

Почему зрение – это сложно?

Точка наблюдения

Mi h l l 1475 1564Michelangelo 1475-1564

slide credit: Fei-Fei, Fergus & Torralba

Разное освещение

image credit: J. Koenderink

Масштаб

Slide credit: Fei-Fei, Fergus & Torralba

Деформация формы

X B ih 1943Xu, Beihong 1943

Slide credit: Fei-Fei, Fergus & Torralba

Перекрытие

Magritte, 1957


Маскировка

Движение

Внутриклассовая изменчивость


Локальная неоднозначность


Сложности или возможности?

• Изображение запутывает, но дает много подсказок • Наша задача – интерпретировать подсказки

Image source: J. Koenderin

ЦветЦвет

22.12.2010 Slide 21

Тени и освещениеТени и освещение

Source: J. Koenderink

Отбрасываемые тениОтбрасываемые тени


Группировка: положениеГруппировка: положение

Image credit: Arthus-Bertrand (via

Глубина: линейная перспективаГлубина: линейная перспектива

ТекстураТекстура

Упорядочивание по глубинеУпорядочивание по глубине


Глубина: воздушная перспективаГлубина: воздушная перспектива

Резюме

• Зрение изначально нечеткая задача• Разные 3D сцены дают одно и то же 2D изображение• Разные 3D сцены дают одно и то же 2D изображение• Необходимы априорные знания о структуре и свойствах мира

Image source: F. D

НачалоНачало

• Работы Дэвида Марра, 1970х• «Primal sketch»«Primal sketch»

• Низкоуровневые («low-level») свойства изображения: направленные края, отрезки и т.д.

• «2.5D sketch»• Упорядочивание по глубине (бинокулярное стерое), учёт

е с ртекстуры и т.д.

• «3D model»• Распознавание объектов и представление о 3х мерном• Распознавание объектов и представление о 3х мерном мире

Зрение человека

Зрение человека

Д (D t )• Данные (Data)• Устройство глаза• Данные в жизни• Данные в жизни

• Признаки (Features)• Low-level visionLow level vision

• (?) Стерео, группировка, форма• Mid-level vision

• Распознавание (Классификация)• High-level vision

Камера-обскура

Камера-обскура:• Захватывает пучок лучей, проходящих через одну точку • Точка называется Центр проекции (фокальная точка / focal

point)• Изображение формируется на картинной плоскости (ImageИзображение формируется на картинной плоскости (Image

plane)

Slide by Steve Seitz

Цифровая камера - дискретизация

Человеческий глаз

conecone

rod

Глаз как камера!• Хрусталик – «линза», меняет форму под действием мышцру ф р у• Зрачок - дырка (апертура), диаметр управляется радужкой

– Радужка – цветная пленка с радиальными мышцамиМ К ф• Матрица - Клетки-фоторецепторы на сетчатке


Цветные фотографии??

Что такое цвет?Цвет – это психологическое свойство нашего зрения,

возникающее при наблюдении объектов и света, а не физические свойства объектов и света (S Palmer Visionфизические свойства объектов и света (S. Palmer, Vision Science: Photons to Phenomenology)

Цвет – это результат взаимодействия света, сцены и нашей зрительной системы

Wassily Kandinsky (1866-1944), Murnau Street with Women, 1908 Slide by S. Lazebnik

Восприятие цветаM L

Power

S

Wavelength

Палочки и колбочки (3 вида) – фильтры спектра• Спектр света умножается на кривую откликаСпектр света умножается на кривую отклика фоторецептора, производится интегрирование по всем длинам волн

– Каждая колбочка даёт 1 число– Каждая колбочка даёт 1 число

• В: Как же мы можем описать весь спектр 3мя числами?• О: Мы и не можем! Большая часть информации теряется.ф р ц р

– Два разных спектра могут быть неотличимы» Такие спектры называются метамеры


Спектры некоторых объектов

metamers

Slide by S. Lazebnik

Трихроматическая теория

В экспериментах по сопоставлению цвета большинству людей достаточно 3х основныхбольшинству людей достаточно 3х основных цветов, чтобы сопоставить любой цвет• Основные цвета должны быть независимы

Для одного и того же спектра, и одних и тех же основных цветов, люди выбирают одинаковые веса• Исключения: цветовая слепота

ТТрихроматическая теория• Трех чисел оказывается достаточно, чтобы описать цвет• История восходит к 18у веку (Томас Юнг)• История восходит к 18у веку (Томас Юнг)


Первые цветные фотографииСергей Прокудин-Горский (1863-1944)Фотографии Российской империи(1909-р ф р (

1916)

Lantern Lantern projector

http://www.loc.gov/exhibits/empire/http://en.wikipedia.org/wiki/Sergei_Mikhailovich_Prokudin-Gorskii

Slide by А.Efros

Лев Толстой

Цветное цифровое изображение

Байеровский шаблон

Демозаикинг (оценка пропущенных значений цвета)значений цвета)

Source: Steve Seitz

«Фишка» глаза

Плотность палочек и колбочек

cone pigmentmolecules

rod

Палочки и колбочки распределены неравномерно• Палочки измеряют яркость, колбочки цвет• Fovea – маленькая область(1 or 2°) в центре визуального поля с ( ) ц р у

наибольшей плотностью колбочек и без палочек• На периферии все больше палочек подсоединены к одному нейрону


Что мы на самом деле видим

Движения глаз

Адаптация зрительной системыЧувствительность зрительной системы меняется в зависимости от доминантной освещенности б й (Б б )наблюдаемой сцены (Баланс белого)

• Механизм плохо изученАдаптация к разным уровням освещенностиАдаптация к разным уровням освещенности

• Размер зрачка регулирует объем света, попадающий на сетчатку Р• Размер резко меняется при входе в здание с ярко освещенной солнцем улицы

Цветовая адаптацияЦ• Клетки сетчатки меняю свою чувствительность• Пример: если доля красного в освещении повышается, понижается чувствительность клеток отвечающий запонижается чувствительность клеток, отвечающий за красный, пока вид сцены не придет к норме

• Мы лучше адаптируемся при яркой освещенности, при освещении свечой все остается в желтых тонахосвещении свечой все остается в желтых тонах

http://www.schorsch.com/kbase/glossary/adaptation.htmlSlide by S. Lazebnik

Баланс белого• Когда мы смотрим на фотографию или монитор, глаза

адаптируются к освещению в комнате, а не к освещению сцены на фотографиифотографии

• Если баланс белого неточен, цвета фотографии кажутся неестественными

incorrect white balance correct white balance

http://www.cambridgeincolour.com/tutorials/white-balance.htmSlide by S. Lazebnik

Постоянство яркости


Постоянство яркости

http://web.mit.edu/persci/people/adelson/checkershadow_illusion.htmlSlide by S. Lazebnik

Данные - продолжение

• Сколько нам нужно данных для обучения алгоритмов?алгоритмов?

• Сколько есть классов объектов?• Сколько изображений?• Сколько изображений?

• Что мы про них будем знать?

Сколько всего классов объектов?

1500 3000 10 й

Biederman 1987

1500-3000 основных существительных, ~10 подкатегорий

OBJECTS

ANIMALS INANIMATEPLANTS

MAN-MADENATURALVERTEBRATEVERTEBRATE…..

MAMMALS BIRDS

GROUSEBOARTAPIR CAMERA

10 в степениЧисло картинок на диске: 104

Ч 10 108Число картинок, виденных за 10 лет: 108(3 images/second * 60 * 60 * 16 * 365 * 10 = 630720000)

Число картинок,виденных всем человечеством: 1020106,456,367,669 humans1 * 60 years * 3 images/second * 60 * 60 * 16 * 365 = 1 f htt // b /A ti l /2002/H M P l H E Li d E th1 from http://www.prb.org/Articles/2002/HowManyPeopleHaveEverLivedonEarth.aspx

Число картинок во вселенной: 102431081 atoms * 1081 * 1081 =

Число всех картинок 32x32 : 107373256 32*32*3 ~ 107373

Slide by Antonio Torralba

Доступные данные

Number of

1020

pictures

Human Click Limit( ll h it t ki

Lenaa dataset in one picture

1015

(all humanity takingone picture/secondduring 100 years)COREL

a dataset in one picture

1010

2 billion

100

105

40.000

1972

100

Time 1996 2007 2020?

Slide by Antonio Torralba

Крошки-картинки (Tiny images)

A Torralba R Fergus W T Freeman 80 million tiny images: a large dataset forA. Torralba, R. Fergus, W. T. Freeman 80 million tiny images: a large dataset for non-parametric object and scene recognition IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.30(11), pp. 1958-1970, 2008.

Примеры изображений

Примеры изображений

Сегментация

Отдельные объекты

Распознавание человеком

80 Million Tiny Images

http://people.csail.mit.edu/torralba/tinyimages/

80 Million Tiny Images

Поиск по громадной коллекцииSSD метрика для сравнения изображений

2

,,21

2 )),,(),,((∑ −=cyx

SSD cyxIcyxID

Для ускорения поиска используем индексацию по первым 19 главным компонентам всей коллекции 80М изображенийколлекции 80М изображений

221

2 ))()((ˆ ∑ −=n

SSD nvnvDn

Отдельно расчет, сколько приблизительных M изображений нужно

б б й N 50выбрать, чтобы найти N=50 точных ближайших (график)Выбираем 16000 по приближенной р рметрики, внутри сравниваем точно

Более сложные метрики

221

2 )),,(),,((min ∑ −=warp cyxITcyxID θθ ,,∑

cyxp θ

Результат улучшенной метрики

Анализ коллекции

Вероятность найти соседа, с корреляцией больше 0.8 или 0.9 в зависимости от

Вероятность того, что изображения отнесены к одной категории в

размера коллекции зависимости от корреляции

Поиск лиц на основе коллекции

Caltech 101 & 256http://www.vision.caltech.edu/Image_Datasets/Caltech101/http://www.vision.caltech.edu/Image_Datasets/Caltech256/

Griffin, Holub, Perona, 2007

Fei-Fei, Fergus, Perona, 2004

PASCAL (2005-2009)

http://pascallin.ecs.soton.ac.uk/challenges/VOC/

Классы 2008 :Человек: человекЖивотные: птица, кошка, корова, собака, лошадь, оцва ц , , р , , д , цТранспорт: самолет, велосипед, лодка, автобус, машина, мотоцикл, поездПомещения: бутылка кресло стол растение в горшкеПомещения: бутылка, кресло, стол, растение в горшке, монитор, диван

The PASCAL Visual Object Classes Challenge (2005-2009)

• Основные конкурсы• Классификация: Для каждого из 20 классов, определить

/ б бприсутствие/отсутствие объекта этого класса в изображении• Поиск: Определить рамку и метку каждого объекта из 20 классов в изображениир

http://pascallin.ecs.soton.ac.uk/challenges/VOC/

The PASCAL Visual Object Classes Challenge (2005-2009)

• Новые конкурсы• Семантическая• Семантическая сегментация:попиксельная аннотация областианнотация области объектов и фона

• Человек: Пометить рамкой и меткой каждую часть тела (голову, руки, ступни)( у, ру , у )

LabelMehttp://labelme.csail.mit.edu/

Russell, Torralba, Murphy, Freeman, 2008

Mechanical Turk

Workers

Task: Dog?

Answer: Yes

Pay: $0 01Broker

Task

Is this a dog?o Yeso No

Pay: $0.01www.mturk.com

as

$0.01

Life of a Turker1. Go to mturk.com2. Find a HIT3. Accept it4. Do work4. Do work5. Submit work6. Wait for approval6. Wait for approval7. Get paid

Life of a Requester1. Design the task interface2. Prepare datap3. Publish HITs4. Wait for assignments4. Wait for assignments5. Approve(Reject) assignments6. Post more HITs6. Post more HITs

Annotation language• Common annotation types

• Polygons• Bounding boxes• Segmentations

Sti k fi / h• Stick figure/graphs

• Recursion

QuickTime™ and aTIFF (Uncompressed) decompressor

are needed to see this picture.

Require qualification• Qualification is a test that a worker has to pass to work on the tasks

Please read the detailed instructions to learn how to perform the task. Please confirm that you understand the instructions by answering the following questions:

Which of the following checboxes are correct for this annotation?

No people (there are people in the image)

> 20 people (there are more than 20 people of appropriate size)

Small heads (there are unmarked small heads in the image)

Task: Put a box around every head

Ideal task properties• Easy cognitive task

Good: Where is the car? (bounding box)Good: How many cars are there? (3)Good: How many cars are there? (3)Bad: How many cars are there? (132)

• Low amount of input requiredGood: few clicks or a couple wordsGood: few clicks or a couple wordsBad: detailed outlines of all objects (100s of control points)“Sometimes, Mturk hits requiring many words are not worth the effort to

complete ” From Singaporecomplete. From Singapore• Well-defined task

Good: Locate the corners of the eyes.B d L b l j i t l ti (l l ti l i )Bad: Label joint locations (low resolution, close-up images)

• Concise definitionGood: 1-2 paragraphs, fixed for all tasksGood: Lots of imagesBad: 300 pages annotation manualBad: Similarly-looking, but different tasks

Who are the Turkers?

70

80

90

50

60

70

US

IndiaUSIndia

20

30

40India

Other

IndiaOther

0

10

20

) ) ) ) ) ) )

2008

(Ipe

irotis

)

2008

(Ipe

irotis

)ay

200

9 (R

oss)

ug 2

009

(Ros

s)

ov 2

009

(Ros

s)

2010

(Ipe

irotis

)20

10 (J

ohn

Le)

Mar 2

0

Nov 2

0

May Aug

Nov

Feb

20

May 2

0

Income level comparison

• Turk pay ~ $2/hr• Minimum salary in India ~ $6/day• Maximum work week in India ~ 48 hrs

2*48*48 = $4608 per worker$Average annual earnings in India - $1733

Documents

Семантическая классификация изображений, осень 2010: Распознавание изображений