Transcript
Page 1: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

И. Л. Ерош, М. Б. Сергеев, Н. В. Соловьев

ОБРАБОТКА И РАСПОЗНАВАНИЕИЗОБРАЖЕНИЙ

В СИСТЕМАХ ПРЕВЕНТИВНОЙБЕЗОПАСНОСТИ

Учебное пособие

Санкт&Петербург2005

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

Государственное образовательное учреждениевысшего профессионального образования

САНКТ&ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТАЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ

Page 2: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

2

УДК 681.327.8.06(075)ББК 32.973.26&018.2.я73

Е78

Ерош И. Л., Сергеев М. Б., Соловьев Н. В.

Е78 Обработка и распознавание изображений в системах пре&вентивной безопасности: Учеб. пособие/ СПбГУАП. СПб., 2005.154 с.: ил.ISBN 5&8088&0171&0

В учебном пособии изложены методы обработки и распознаванияизображений, связанные с опознаванием человека по его биометричес&ким характеристикам, получаемым в форме изображений. Основноевнимание уделено методам коррекции яркостных и пространственныхискажений растровых монохромных изображений, а также методампонижения размерности пространства признаков при распознавании.Рассмотрены основные подходы к опознаванию человека по отпечаткампальцев, радужной оболочке глаза и портрету.

Пособие предназначено для студентов, обучающихся по специаль&ности «Информатика и вычислительная техника», и может использо&ваться при изучении дисциплин «Цифровая обработка и распознава&ние изображений», «Системы искусственного интеллекта», «Методыи средства защиты информации», «Аппаратно&программное обеспече&ние финансовых систем». Может быть полезно аспирантам и инжене&рам, занимающимся цифровой обработкой и распознаванием изобра&жений, проектированием устройств контроля и разграничения досту&па и систем превентивной безопасности.

Рецензенты:

доктор технических наук, профессор кафедры биомедицинской электроникии охраны среды Санкт&Петербургского электротехнического университета

З. М. Юлдашев;ЗАО «КБ Юпитер»

Утвержденоредакционно&издательским советом университета

в качестве учебного пособия

© ГОУ ВПО «СПбГУАП», 2005© И. Л. Ерош, М. Б. Сергеев,

Н. В. Соловьев, 2005

ISBN 5&8088&0171&0

Page 3: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

3

Предисловие

В последнее время в России и за рубежом все большее значениеприобретает защита от несанкционированного доступа к различнымфизическим объектам и информационным ресурсам. Одним из основ&ных способов защиты является разграничение доступа на основе иден&тификации личности человека. Идентификация может производить&ся как по кодовым словам (паролям, ключам), вводимым человеком,или картам доступа, содержащим код, так и по биометрическим ха&рактеристикам человека. Последний способ является более надеж&ным, так как ключевая информация может быть передана другомулицу, а биометрические характеристики позволяют идентифициро&вать человека с высокой надежностью, и их достаточно трудно под&делать.

Такие биометрические характеристики человека как отпечаткипальцев, радужная оболочка глаза, портрет анфас обладают следую&щими свойствами:

– постоянством во времени и под воздействием различных вне&шних факторов;

– уникальностью, т.е. наличием множества признаков, присущихтолько данному индивидууму;

– универсальностью, т. е. наличием в той или иной форме у всехлюдей;

– собираемостью, т. е. возможностью достаточно просто и опера&тивно получить исходные данные для идентификации человека в видерастровых изображений.

Различные аспекты обработки изображений и распознаванияобъектов по их изображениям, связанные с проблемой опознаваниячеловека, и рассматриваются в настоящем пособии, состоящем издвух больших частей.

Первая часть – основы цифровой обработки изображений, поми&мо основных понятий включает в себя вопросы восприятия света ицвета как человеком, так и техническими устройствами, представле&ние изображения в цифровой форме и способы его сжатия, основные

Page 4: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

4

подходы к устранению яркостных искажений, а также вопросы би&наризации и сегментации растровых изображений.

Во второй части, наряду с общими принципами распознаванияобразов, рассматриваются различные подходы к распознаваниюобъектов по их изображениям и методы коррекции пространствен&ных искажений, а также реальные системы опознавания человека поего биометрическим характеристикам.

Следует отметить, что рассмотренные в пособии методы обработ&ки и распознавания изображений применяются в системах превен&тивной безопасности не только для идентификации человека, но идля автоматизации решения многих других задач. Например, сличе&ние подписей на документах, распознавание номеров транспортныхсредств, выявление опасных предметов в багаже. В последнее времятакие системы все чаще создаются на основе нейросетевых техноло&гий, что приводит к значительному увеличению их быстродействия.

Page 5: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

5

Часть I. Основы цифровой обработки изображений

1. ВВЕДЕНИЕ

1.1. Изображение – разновидность сигнала

Любые объекты, естественные – биологические или искусствен&ные – технические, представляющие собой сложные системы, под&вергаются воздействию внешней среды и целенаправленно реагиру&ют на эти воздействия, что приводит к изменению окружающей ихсреды. Простые объекты, например камень или стена, тоже подвер&гаются воздействию внешней среды, скажем, оказываются под дож&дем или на солнце, и в результате могут изменяться или даже разру&шаться, но это никак нельзя назвать целенаправленной реакцией.

Уровень воздействия среды, а также изменение уровня этого воз&действия регистрируются имеющимися у объекта датчиками, спо&собными воспринимать определенный вид воздействия: освещен&ность, температуру, давление. Результат работы датчика, функцио&нально зависящий от изменения воздействия, называется сигналом,т. е. сигнал зависит от уровня воздействия одного из факторов внеш&ней среды. Последовательность сигналов определяет изменение не&которого воздействия во времени и пространстве. Примерами такихпоследовательностей являются поток звуковых волн, регистрируе&мых микрофоном, или электромагнитное излучение, фиксируемое ввиде изображения.

Изображение, как функция двух переменных, представляет со&бой один из наиболее сложных видов сигналов, причем временнойпоток изображений позволяет в общем случае получить информа&цию как о расположении в пространстве окружающих объектов и иххарактеристиках, таких как размеры, форма, поверхность, так и обих взаимных перемещениях. Необходимо отметить, что человек по&лучает до 90% информации об окружающем его мире с помощью зре&ния.

На рис. 1.1 приведена обобщенная схема сложного объекта, спо&собного целенаправленно реагировать на изменение окружающейсреды. Объект состоит из системы распознавания, оснащенной раз&

Page 6: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

6

нообразными сенсорными датчиками, системы управления, приво&дов и исполнительных механизмов. Система распознавания послеполучения и обработки сенсорной информации поставляет системеуправления данные об окружающей среде, на основании анализа ко&торых последняя вырабатывает управляющие сигналы для приво&дов исполнительных механизмов, а они совершают целенаправлен&ные движения в соответствии с общей задачей, поставленной передобъектом. Кроме информации о внешней среде система управленияполучает от имеющихся датчиков внутреннюю информацию, в част&ности, данные о состоянии приводов и положении исполнительныхмеханизмов. Необходимо заметить, что именно наличие сенсорныхдатчиков, особенно датчиков видеоинформации, и системы распо&знавания позволяет объекту совершать целесообразные действия вусловиях изменяющейся внешней среды.

Примерами таких объектов искусственного происхождения, в пер&вую очередь, являются различные стационарные и мобильные робо&ты промышленного и исследовательского назначения. Однако систе&му автоматического пропуска в помещение сотрудников с их иденти&фикацией по видеоизображению тоже можно отнести к подобнымустройствам, хотя и упрощенного типа. Такая система получает ин&формацию об изменении в окружающей среде (появление сотрудника

Рис. 1.1. Взаимодействие сложного объекта с внешней средой

�������

������ ���� �������

�� ��������

�������

������ ���������

������

������ ��������

���������� ������

������� �� ��������

�������������� � ���

!�������������� ��������

���"��� ����

���������

��#��$��

Page 7: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

7

в поле зрения видеокамеры), производит его идентификацию, по ре&зультатам которой подает или не подает команду на открывание две&ри, фиксирует проход сотрудника и закрытие за ним двери. Очевид&но, в системе имеются все блоки и связи из рис. 1.1.

1.2. Понятие о цифровой обработке изображений

Как правило, системе управления необходима информация не про&сто об уровне воздействия какого&либо фактора внешней среды, на&пример освещенности, а некоторая обобщенная информация – ско&рость изменения сигнала, разность сигналов от разных областей ок&ружающей среды и т. п. В общем случае системе управления для при&нятия правильного решения необходимо знать о наличии определен&ных объектов и их положении в пространстве, т. е. иметь модельсцены. На основании этих данных и в соответствии с заранее задан&ной целью система управления вырабатывает команды приводам.Например, имеются робот&манипулятор с видеокамерой и плоскийстол, на котором находятся плоские детали разной формы и разме&ров. Цель – взять деталь заданной конфигурации. Очевидно, что си&стема управления манипулятором должна иметь информацию о фор&ме каждой детали и ее положении в пространстве.

На рис. 1.2 приведена типичная последовательность операций надизображением, производимых для получения необходимой инфор&мации. Отраженный от объектов сцены световой поток попадает наустройство получения дискретного изображения. Далее после пред&варительной обработки, заключающейся в подавлении помех, выде&

Рис. 1.2. Последовательность операций при распознавани

��������� ������� � �����������

��������������� ��������

�������� ����

�������� ����������� ����

��������� ��������

����������

����������� �������� � ������

����� ��������

��� ������ � � � ����������

Page 8: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

8

лении контуров, бинаризации и сегментации, т. е. выделении изоб&ражений отдельных объектов сцены, для каждого объекта произво&дится вычисление значений признаков. Полученный вектор призна&ков используется для распознавания объекта, т. е. отнесения его кодному из известных классов и вычисления его характеристик.

Условимся относить к собственно обработке сигнала в виде изоб&ражения такие операции или преобразования, в результате которыхфункциональность сигнала не меняется, т. е. результат операцииможно представить как изображение. Например, операции дискре&тизации, фильтрации, сегментации относятся к обработке изобра&жений, так как на входе и выходе в результате выполнения этих опе&раций присутствуют изображения. Однако вычисление признаков,строго говоря, не относится к обработке изображений, так как в ре&зультате выполнения этой операции получается набор чисел (векторпризнаков), который невозможно интерпретировать как изображе&ние.

Сигнал, поступающий непосредственно с датчика, фиксирующе&го уровень внешнего воздействия, всегда аналоговый, т. е. непрерыв&ный, так как процессы в природе непрерывны. Заметим, что такиепроцессы, как правило, описываются дифференциальными уравне&ниями. Однако системе управления требуется только информацияо состоянии чего&либо, например о расположении объектов сцены,а информация, как известно, носит принципиально дискретный ха&рактер.

Наряду с дискретностью, т. е. наличием минимальной единицы,информация обладает еще рядом важных для ее обработки свойств.Во&первых, она не существует без какого&либо носителя и может пе&реходить с одного носителя на другой путем изменения структурыносителя. Следовательно, для получения информации необходимовыявить структуру ее носителя. Во&вторых, выявленную структурутолько тогда можно считать информацией, когда она правильно ин&терпретирована или распознана. Следовательно, для обработки вы&явленной структуры носителя необходимо эту структуру соответству&ющим образом интерпретировать. Заметим, что компьютеры зани&маются именно хранением, передачей, обработкой и предоставлени&ем информации.

Можно сказать, что информация об объектах сцены, находящих&ся в поле зрения устройства получения изображения, содержится впространственной и яркостной структуре светового потока, поступа&ющего на вход этого устройства. Для дальнейшего использованияинформационной составляющей видеосигнала при компьютерной

Page 9: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

9

обработке его необходимо, во&первых, представить в дискретном,т. е. цифровом виде, а во&вторых, произвести обработку дискретногоизображения с целью формирования модели сцены.

1.3. Направления обработки изображений

Компьютерная обработка изображений включает в себя получе&ние дискретного изображения, его передачу, хранение, преобразова&ние и отображение.

Изображения по способам получения можно разделить на два клас&са – изображения реальных сцен и синтезированные; последние мож&но, в свою очередь, разделить на графические, т. е. графики, черте&жи, картинки, рисованные мультфильмы, и квазиреальные, т. е. ста&тический и динамический виртуальные миры. Последние предпола&гают построение максимально приближенного к реальности изобра&жения на основе некоторой модели виртуального мира с учетом фор&мы, геометрических размеров и характеристик поверхности объек&тов, составляющих сцену, а также расположения и характеристикисточников освещения и устройства получения изображения. Сле&дует отметить, что для синтезированных изображений трудно четкоразделить этапы получения изображения и его обработки.

Для получения синтезированных изображений используются мно&гочисленные графические среды. Для получения изображения реаль&ных сцен используют цифровые фото& и видеокамеры. Отдельно мож&но выделить сканеры, которые позволяют вводить в компьютер изоб&ражения с плоских носителей, например с бумаги.

Необходимо заметить, что синтезированные и реальные изобра&жения отличаются способом их представления в памяти компьюте&ра. Первые хранятся в векторной форме, для которой указываютсясвойства отдельных примитивов, составляющих изображение, а вто&рые – в растровой форме, для которой указывается код цвета каждойточки изображения. Переход от векторного представления к растро&вому представлению производится сравнительно легко. Такой пере&ход происходит каждый раз при отображении на дисплее синтезиро&ванного изображения. Обратный переход практически невозможен,так как требует разбиения растрового изображения на примитивы вавтоматическом режиме, что в общем случае крайне трудно выпол&нить.

При хранении и, особенно, при передаче растровых изображенийосновной проблемой является гигантский объем информации, тре&буемый для их представления. Для решения этой проблемы приме&

Page 10: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

10

няются различные методы сжатия с возможностью восстановления,как без потерь информации, так и с потерями. Представление изоб&ражений в векторной форме требует несравнимо меньших объемов.Однако при их отображении возникает проблема скорости преобра&зования в растровую форму, что особенно актуально при работе в ре&альном масштабе времени, например для видеопотоков в игровыхпрограммах или системах видеонаблюдения. Дополнительные про&блемы при воспроизведении изображений на экране дисплея или набумаге вызывает нестабильность характеристик устройств воспро&изведения, что может отразиться на геометрии и качестве цветопере&дачи.

В дальнейшем будут рассматриваться только растровые изобра&жения реальных сцен. Необходимо отметить, что при обработке рас&тровых изображений могут преследоваться различные цели: улуч&шение восприятия изображения человеком, синтезирование изобра&жения из нескольких реальных, повышение вероятности распозна&вания объектов сцены. Далее основное внимание будет уделено имен&но последнему направлению.

Page 11: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

11

2. ВОСПРИЯТИЕ СВЕТА И ЦВЕТА

2.1. Системы описания цвета

Как известно, физические объекты при нагревании, например лам&пы накаливания, или в процессе электрохимических реакций, напри&мер люминофоры, испускают электромагнитные волны различной дли&ны: от радиоволн (104 м) до рентгеновского излучения (10–14 м). Узкийдиапазон электромагнитных волн (380–780 нм, т. е. 10–9 м), которыйможет воспринимать биологический приемник электромагнитного из&лучения – человеческий глаз, называется видимым светом, световымизлучением или просто светом. Отметим, что технические приемникинаряду с видимым светом воспринимают более широкий диапазон элек&тромагнитных колебаний, называемый оптическим излучением: отближнего рентгеновского (10–11 м) и ультрафиолетового (10–6 м) доинфракрасного (10–3 м) излучения.

Исходящий из источника свет, как правило, представляет собойсмесь излучений различной частоты. Весь диапазон этих частот назы&вается спектром излучения. Отметим, что источники когерентного из&лучения, например лазеры или натриевые лампы, дают излучение од&ной частоты, а цветные лампы излучают свет в сравнительно узком ди&апазоне.

Известно, что белый свет при про&хождении через стеклянную тре&угольную призму, согласно схеме(рис. 2.1), раскладывается на разно&цветные полосы. Этот эффект объяс&няется тем, что угол преломленияэлектромагнитной волны при ее про&хождении через границу двух сред за&висит от длины этой волны. Полосакрасного цвета соответствует наибо&лее длинноволновой составляющей

Рис. 2.1. Разложение белогосвета на спектральные

составляющие

����� ���� �����

� ��������

�������

������

�������

�������

� � �

���� ��

Page 12: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

12

видимой части спектра, а фиолетового – соответственно коротковолно&вой. Если эти цветные полосы света вновь пропустить сквозь аналогич&ную призму, то в результате получится опять белый свет.

Свет любого оттенка можно получить, смешивая три основных,так называемых, «чистых» света красный (длина волны 700 нм),зеленый (длина волны 546 нм) и синий (длина волны 436 нм). На&пример, смешение синего и зеленого света одинаковой интенсивнос&ти дает свет, воспринимаемый человеком как голубой, синего и крас&ного – пурпурный, красного и зеленого – желтый. В зависимости отпроцентного соотношения основных цветов можно получить светлюбого оттенка. Отметим, что если свет голубого или желтого оттен&ка в природе существует, то пурпурный свет природного происхожде&ния не встречается. Последнее явление объясняется тем, что получе&ние света пурпурного оттенка требует удаления зеленой составляю&щей спектра, лежащей на частотной шкале между красной и синейспектральными полосами.

Цветовая схема RGB (red, green, blue – красный, зеленый, синий),основанная на смешении трех основных цветов, была предложенаМеждународной комиссией по освещению еще в 1931 г. В ней отте&нок результирующего света определяется по формуле

C � rR � gG � bB, (2.1)

где С – результирующий свет некоторого оттенка или тона; r, g, b –коэффициенты красной, зеленой и синей составляющих соответствен&но, изменяющиеся от 0 до 1.0; R, G, B – максимальное значение яр&кости данной составляющей.

Такая модель формирования цвета, а точнее – оттенка света, таккак она применяется для описания цвета электромагнитного излу&чения в видимом диапазоне, называется аддитивной, т. е. суммирую&щей. На ней основан принцип работы цветных дисплеев. Каждаяточка дисплея, называемая пикселем, состоит из трех сегментов,которые могут испускать свет основного цвета заданной интенсивно&сти. В результате их смешения излучение пикселя на экране получа&ет требуемый цвет.

Как известно, яркость света определяется энергией составляю&щих его волн. В свою очередь, энергия электромагнитных колебанийзависит от их частоты. Таким образом, разные цветовые составляю&щие вносят разную долю в суммарную яркость света. Эксперимен&тально установлено, что для человека ощущение яркости света опре&деляется на 59% его зеленой составляющей, на 30% – красной и на11% – синей.

Page 13: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

13

Графически цветовую схемуили систему RGB можно предста&вить в виде куба (рис. 2.2). Очевид&но, что белый свет и его оттенки отабсолютно черного до ярко&белогочерез оттенки серого лежат на ди&агонали куба, на которой коэффи&циенты r, g, b имеют одинаковыезначения.

В системе RGB легко изменитьяркость белого света, т. е. перейтиот одного оттенка серого к друго&му. Для этого следует изменить на одинаковую величину значениякоэффициентов r, g, b. Однако составляющие любого другого оттен&ка, за исключением трех основных цветов, имеют разные значенияэтих коэффициентов. Простое изменение составляющих на одинако&вую величину в большинстве случаев приводит к изменению не толь&ко яркости света, но и его оттенка, что затрудняет изменение ярко&сти оттенка света в системе RGB.

Для решения этой проблемы были разработаны другие схемы пред&ставления оттенков света, например HSV (hue, saturation, value –цветовой тон, насыщенность, величина). Цветовой тон характери&зует длину волны чистого цвета, насыщенность – степень разбавлен&ности чистого цвета белым, величина или светлота отражает величи&ну яркости. Такая система находит применение при синтезе изобра&жений, так как интуитивно наиболее понятна человеку. Следует от&метить, что для человека величина яркости носит достаточно субъек&тивный характер. Например, яркость букв газетного заголовка насолнце объективно выше, чем яркость в тени бумаги, на которой онинапечатаны. Однако для человека это не так, что связано с адаптацион&ными возможностями его зрения.

Графически система HSV пред&ставляется в виде цилиндра (рис. 2.3).Цветовой тон определяется углом,насыщенность определяется дли&ной радиуса в процентах или доляхединицы, от 0 в центре до 1 на ок&ружности; яркость определяет вы&соту цилиндра. Следовательно, от&тенки серого лежат на оси цветово&го цилиндра или, скорее, конуса,так как при яркости, близкой к

Рис. 2.2. Цветовой кубсистемы RGB

�����������

������

� �� �

����

�����

���������

������

Рис. 2.3. Основаниецилиндра системы HSV

�������

����������

� �� �

����� ���������

��

����

����

Page 14: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

14

нулю, диапазон насыщенности очевидно меньше, чем при яркости,близкой к единице.

Еще одна система, в которой разделяются оттенок света и его яр&кость, – система с фиктивными цветами (XYZ). Данная схема удобнадля программного преобразования яркости цветных изображений вавтоматическом режиме. Графически систему XYZ, как и системуRGB, тоже можно представить как куб. Ниже приведены формулыпересчета коэффициентов из системы RGB в XYZ и обратно:

x � 0.49r � 0.31g � 0.2b;

y � 0.177r � 0.81238g � 0.01063b;

z � 0.00002r � 0.01002g � 0.98996b;

r � 2.36467x – 0.89658y – 0.46809z;

g � –0.51523x � 1.42637y � 0.08877z;

b � 0.00518x – 0.01442y � 1.00925z,

где x, z – фиктивные цвета; y – яркость.Таким образом, для изменения яркости без изменения оттенка

света необходимо перейти от системы RGB к системе XYZ, изменитьсоставляющую y, не изменяя x и z, и произвести пересчет составляю&щих обратно в систему RGB.

Большинство объектов не испускают свет, а частично поглощаюти отражают его. Величина поглощения и диапазон поглощаемых ча&стот зависит от вещества поверхности объекта. В результате цветобъектов на изображении сцены определяется, в основном, отражен&ным светом. Если на объект падает белый свет, то при полном отра&жении всего видимого диапазона частот объект имеет на изображе&нии белый цвет, при полном поглощении – черный, при отражениитолько частот, соответствующих красному цвету, – красный.

Если в падающем свете отсутствует какой&то диапазон частот, тоэто может привести к изменению цвета объекта. Например, в послед&нем случае, если объект облучается светом, в котором отсутствуеткрасная составляющая, то объект будет выглядеть черным. Следо&вательно, спектр падающего света тоже влияет на воспринимаемыйцвет объекта. Например, в продовольственном магазине лампы крас&новатого оттенка делают мясо на прилавке более привлекательным,а лампы желтоватого оттенка усиливают цвет масла и сыра.

Для описания отраженного света удобнее использовать системуCMYK (cyan – голубой, magenta – пурпурный, yellow – желтый, black –черный). Эти цвета соответствуют основным цветам, используемым

Page 15: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

15

в четырехцветной печати.При печати цветных изобра&жений приходится подби&рать краску по ее поглощаю&щим, а не отражающим спо&собностям. Пурпурный кра&ситель поглощает зеленыйцвет, а отражает красный исиний, желтый поглощаетсиний. Степень поглощенияразных составляющих бело&го света и определяет цветточки при печати. Например, если напечатать в непосредственнойблизости или с наложением пурпурные и желтые точки, то получит&ся точка красного цвета, так как пурпурный краситель устранит зе&леную составляющую, а желтый – синюю. Естественно, при усло&вии, что падающий свет – белый.

Модель CMYK называется субтрактивная, т. е. вычитающая, таккак ее основные цвета получаются вычитанием из белого основныхцветов RGB. Схематически ее можно представить как куб (рис. 2.4).Начало координат соответствует белому цвету. По диагонали распо&ложены оттенки серого от белого цвета до абсолютно черного в про&тивоположной вершине куба. При печати с наложением всех трехсоставляющих теоретически должен получиться черный цвет, нопрактически получается некоторый оттенок серого цвета. Поэтомудля точек черного цвета используется дополнительный черный кра&ситель. Вообще говоря, на практике для воспроизведения на бумагечистых цветов используют специальные красители, а не смеси. На&пример, черный или золотистый.

Основное отличие при печати цветных изображений от их воспро&изведения на дисплее состоит в том, что цветовое ощущение точкивозникает не в результате суммирования излучения трех основныхцветов, а в результате того, что основные красители поглощают раз&ные цветовые составляющие, отражая остальные.

В заключение необходимо отметить, что обеспечить адекватнуюпередачу цвета при воспроизведении изображения на дисплее, а осо&бенно на бумаге, довольно сложно. Для дисплеев существует пробле&ма стабильности характеристик люминофоров у разных дисплеев, адля печати – проблема стабильности красителя, учета оттенка бума&ги и оттенка падающего света. В связи с этим при распознаванииобъектов по изображениям, как правило, используются монохром&

Рис. 2.4. Цветовой куб системыCMYK

���������

������

�� ��

�������

������

�������

�����

�����

Page 16: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

16

ные изображения, полученные как в видимом диапазоне, так и в дру&гих диапазонах электромагнитного излучения, например инфракрас&ные или рентгеновские снимки. Хотя возможно и использованиеименно цветового различия для выделения объекта. Например,объект зеленого цвета на синем фоне хорошо различим на цветномснимке по значениям RGB даже при условии, что их яркость одина&кова, но этот же объект совершенно сливается с фоном на монохром&ном изображении.

Следует отметить, что цвет – понятие достаточно субъективное.Определения цветов расплывчаты, однако в технике необходимо од&нозначное определение каждого конкретного цвета. Для этого ис&пользуются различные RGB&палитры. Как правило, для представле&ния цвета одной точки в компьютере под уровень яркости каждого изтрех основных цветов выделяется один байт, что позволяет задавать256 градаций уровня яркости каждой RGB&составляющей. Следова&тельно, при 24&разрядном способе задания цвета всего можно задать2563 � 16 млн различных цветов. Однако такое количество явно из&лишне, так как человек не способен различать столь тонкие перехо&ды цветовых оттенков. Для большинства компьютерных приложе&ний вполне достаточно палитры из 256 цветов. Такие палитры назы&ваются индексными. Конкретный 24&разрядный RGB&код каждогоиз 256 цветов этой палитры хранится в заголовке файла, содержа&щего изображение, что составляет около 1 кб. Очевидно, код цветакаждой точки изображения занимает всего один байт. Проблема адек&ватной передачи цвета Web&страниц или необходимость использова&ния для цветного изображения палитры, значительно превышаю&щей 256 оттенков, требует другого решения. В таком случае исполь&зуются стандартные палитры с заранее обусловленным набором цве&тов. Это 216&цветная «безопасная» палитра для Web&страниц и «фик&сированная» палитра на 65000 цветов, требующая для задания кодацвета каждой точки изображения два байта.

2.2. Устройства восприятия света

Для фиксации изображения необходимо устройство, восприни&мающее свет и вырабатывающее сигнал, пропорциональный интен&сивности падающего на него света. Например электронный полупро&водниковый преобразователь – фоторезистор, сопротивление кото&рого меняется в зависимости от яркости падающего света. Если кнему приложить входное напряжение, то выходное может являтьсямерой интенсивности света.

Page 17: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

17

В последние годы все более широкое распространение получаютприемники оптического излучения на основе матриц с пространствен&ной зарядовой связью (ПЗС&матрицы), являющиеся основой скане&ров и цифровых фото& и видеокамер. Они представляют собой несколь&ко рядов МДП&структур (металл&диэлектрик&полупроводник), вы&полненных на одном кристалле и сформированных таким образом,что полоски металлических электродов шириной порядка 15 мкмобразуют регулярную систему с расстоянием между соседними элект&родами около 1 мкм.

В ПЗС&матрице осуществляется: формирование зарядового релье&фа, соответствующего распределению освещенности на поверхностиматрицы, хранение и перенос зарядового рельефа к выходному уст&ройству, а также последовательное преобразование пространствен&ных зарядов в выходное напряжение видеосигнала [1].

За счет регулярности структуры на одном кристалле удается раз&местить до 1 млн элементов. Например, ПЗС&камера С7190 компа&нии Hamamatsu, являющейся международным лидером в производ&стве приемников оптического излучения в видимом, инфракрасном иультрафиолетовом диапазонах, имеет общее число ячеек 680 � 1000,а размер элемента – 14 � 14 мкм.

Чтобы получить значения яркости трех основных цветов, передфоторезисторным датчиком или элементом ПЗС&матрицы устанав&ливается вращающийся светофильтр или призма, распределяющаясвет на три отдельных датчика. Первый способ повышает разрешаю&щую способность устройства, но увеличивает время получения изоб&ражения, второй способ – наоборот, позволяет получать значенияяркости основных цветов в параллельном режиме, но снижает разре&шающую способность примерно в три раза. В связи с этим первыйспособ находит применение в сканерах, для которых время получе&ния изображения не является критичным, а второй способ – в видео&и фотокамерах.

Биологический приемник оптического излучения – глаз человека(рис. 2.5) – представляет собой сложное устройство. Он состоит изхрусталика, стекловидного тела и сетчатки. Хрусталик играет рольлинзы, фокусирующей световой поток на сетчатке. Его фокусное рас&стояние изменяется специальными мышцами.

Сетчатка состоит из нервных клеток, которые в результате воз&буждения под воздействием света вырабатывают электрический сиг&нал, пропорциональный уровню яркости. Этот сигнал по зрительно&му нерву поступает в мозг, где и обрабатывается. Место на сетчатке,где нервные пути от отдельных клеток сливаются в зрительный нерв,называется слепым пятном, так как здесь нервных клеток нет.

Page 18: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

18

В области пересечения оптической оси хрусталика и сетчатки на&ходится особенно много специфических зрительных клеток – колбо&чек, которые отвечают за цветное зрение. Эта область называетсяжелтое пятно. Общее число колбочек – около 6,5 млн. Они разделе&ны на три вида, каждый из которых имеет максимум чувствительно&сти в красной (575 нм), зеленой (540 нм) и синей (430 нм) областяхспектра.

На сетчатке есть и клетки другого типа – палочки, способные реа&гировать только на суммарную яркость попадающего на них света.Как следствие, они фиксируют монохромное изображение. Палочкирасположены более равномерно по сетчатке и их значительно боль&ше (около 130 млн). Они позволяют распознавать предметы в усло&виях плохого освещения, а также фиксировать движущиеся объек&ты на периферии поля зрения. Максимум чувствительности палочексоответствует 550 нм, т. е. желто&зеленому цвету, причем их чув&ствительность превышает чувствительность колбочек в 1000 раз.

Поле зрения человеческого глаза составляет около 120�. Про&странственная разрешающая способность – около 30�, что не такуж и много, по сравнению с некоторыми животными. Глаз облада&ет высокими адаптационными возможностями как к изменениюобщей освещенности, так и к локальным перепадам освещенностив поле зрения. Инерционность по яркости обусловлена физико&химическими процессами и составляет от секунды до несколькихминут в зависимости от величины перепада яркости. Различимаячастота мелькания составляет около 60 Гц. Восприятие движе&ния по тангенциальной составляющей от 6 �/с при наличии ориен&тиров и до 20� без них.

Многочисленные эксперименты показали, что человек способеночень точно и быстро выделять на изображении контуры объектов и

Рис. 2.5. Устройство глаза

����

���������������

�������

������ ���

��� �� ���

��������� ���

���������

Page 19: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

19

распознавать их при наличии существенных искажений, разделятьна изображении области с различной текстурой, особенно простойформы, а также фиксировать упорядоченные линейные структуры, вособенности вертикальные и горизонтальные. Вместе с тем человек сочень большим трудом может выделить неструктурированный фраг&мент заданного вида на изображении, сформированном случайнымобразом.

2.3. Стереозрение

Наличие двух изображений одной и той же сцены, полученных сразных точек зрения, теоретически позволяет определить расстоя&ние от точки съемки до объектов и, как следствие, построить объем&ную модель сцены.

Для стереозрения используются две разнесенные на некоторое рас&стояние видеокамеры, оптические оси которых параллельны другдругу (рис. 2.6). Предполагается, что объект, трехмерную моделькоторого необходимо построить, находится в поле зрения камер.Фокусные расстояния объективов принимаются одинаковыми. Пря&мая линия, соединяющая центры объективов, называется базой. Онаперпендикулярна оптическим осям и параллельна плоскости проек&ции. Разность координат проекций одной точки поверхности тела надвух изображениях называется диспаратность.

Рис. 2.6. Вычисление расстояния по стереоизображениям:

Т – точка в пространстве; Р – плоскость проецирования; F – фокусноерасстояние видеокамеры; L – расстояние между камерами; H – искомое

расстояние; X1, X

2 – проекции точки Т на изображениях от первой и

второй камер; L1, L

2 – расстояние от точки Т до оптических осейсоответствующих камер

��

��

��

��

Page 20: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

20

Согласно рис. 2.6, имеем

1 1 ;L X

H F

�� 2 2 ;

L X

H F� 1 2 ;L L L� �

11 ;

XL H

F

�� 2

2 ;X

L HF

� 2 1( ).H

L X XF

� �

Тогда

,LF

HX

��

(2.2)

где X � X2–X1 – диспаратность.Необходимо отметить, что:– расстояние до объекта обратно пропорционально диспаратнос&

ти, т. е. расстояние до близких объектов измеряется точнее, чем доудаленных;

– диспаратность прямо пропорциональна базе, т. е. при фиксиро&ванной погрешности определения диспаратности точность определе&ния расстояния растет с увеличением базы. Однако, чем больше база,тем меньше похожи изображения одного объекта, полученные с раз&ных камер.

Как видно из уравнения (2.2), последовательно определяя рассто&яние до точек на поверхности объекта, можно построить его трехмер&ную модель.

Основной проблемой стереозрения является нахождение на двухизображениях одной сцены точек, соответствующих одной точке сце&ны. Несколько упрощает задачу тот факт, что соответствующие точ&ки на изображениях лежат на одной прямой, которая называетсяэпиполярной. Эта прямая является линией пересечения плоскости изоб&ражения с плоскостью, проходящей через центры обеих линз и точкуобъекта. Для рис. 2.6 эпиполярные линии параллельны оси Х.

Наличие эпиполярных линий значительно сужает область поис&ка соответствующих точек на стереоизображениях. Обычно приме&няются методы отождествления по уровню яркости, отождествле&ния по контурным точкам, корреляционные методы, однако наилуч&шее решение – сканирующая лазерная подсветка объектов статич&ной сцены.

Частным случаем стереозрения, при котором не требуется выяв&ление соответствующих точек, можно считать электронный дально&мер (рис. 2.7). Принцип его работы основан на сравнении двух изоб&ражений, полученных одной камерой при ее перемещении на задан&

Page 21: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

21

ное расстояние вдоль оптической оси. Последовательно изменяя,обычно уменьшая, масштаб одного изображения и проводя корреля&ционное сравнение с другим изображением, можно найти коэффици&ент масштаба и соответственно расстояние до объекта. Действитель&

но, согласно рис. 2.7:1

;H F

D X� c

2

;H L F

D X

�� X1 � kX2. Тогда

c ,1

LH

k�

�(2.3)

где k – масштабный коэффициент. Необходимо отметить, что в выра&жение (2.3) не входит фокусное расстояние камеры.

Основное ограничение на область применения этого метода – всеобъекты в поле зрения должны находиться на одном расстоянии откамеры или объект должен быть только один. В противном случае неудастся добиться совпадения изображений при изменении масшта&ба, так как размеры объектов, находящихся на разных расстояни&ях, будут иметь разные масштабные коэффициенты. Например, дваизображения фасада здания, полученные с разных расстояний, мож&но совместить, изменяя масштаб одного из них. Однако два изобра&жения фасада здания с человеком на переднем плане, тоже получен&ные с разных расстояний, совместить путем масштабирования одно&го из них не удастся, так как расстояния от точки съемки до здания ичеловека существенно отличаются.

Рис. 2.7. Электронный дальномер:

Lс – смещение камеры

���

���

����

Page 22: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

22

3. ПРЕДСТАВЛЕНИЕ ИЗОБРАЖЕНИЯ

3.1. Математические характеристики изображения

Математически монохромное изображение удобно представлятькак функцию двух переменных z � f(x, y), описывающую распреде&ление яркости на плоскости проецирования. Предполагается, чтоэта функция непрерывна и задана в некоторой прямоугольной об&ласти, называемой полем зрения, а также является гладкой, т. е.имеющей производную в любой точке, неотрицательной и ограни&ченной сверху. Как правило, начало координат задается в центреполя зрения (рис. 3.1, а). Полихромное изображение, т. е. цвет&ное, можно представить как три отдельные функции zr, zg, zb, ана&логично z описывающие распределение трех основных цветов.

При компьютерной обработке изображение представляется пря&моугольной матрицей Z[M, N], элементы которой – целые неотрица&тельные числа, а общее число элементов S � M·N. Значение каждогоэлемента определяется средней яркостью некоторой области изобра&жения, называемой пикселем. Такое изображение является дискрет&ным. В соответствии с общепринятым отсчетом элементов матрицыначало координат дискретного изображения оказывается в левомверхнем углу дискретного поля зрения (рис. 3.1, б).

Рис. 3.1. Система координат поля зрения: а – непрерывноеизображение; б – дискретное изображение

а) б)

Page 23: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

23

Для получения изображения, пригодного для цифровой обработ&ки, необходимо провести дискретизацию исходного непрерывногоизображения f(x, y), а также выполнить квантование аналоговогосигнала, соответствующего среднему уровню яркости пикселя, дляполучения целочисленного значения z. Первое условие достигаетсяза счет использования матрицы или линейки с необходимым числомсветочувствительных элементов. А второе – за счет использованияаналого&цифровых преобразователей требуемой разрядности.

На плоском носителе, т. е. экране дисплея или бумаге, изображениеможет быть представлено или как обычно, когда каждый пиксель име&ет свою яркость, а плоскость изображения совпадает с плоскостью но&сителя, или как криволинейная поверхность в некоторой проекции.Последний вариант не всегда нагляден, но иногда лучше передает пере&пады яркости, особенно для монохромных изображений.

Что касается характеристик изображения, то наиболее легко оп&ределимыми из них являются максимальная и минимальная яркость(zmin, zmax). Их диапазон определяет контрастность изображения ипределы ее увеличения.

К статистическим характеристикам дискретного изображенияотносятся средняя яркость

,

ср, 1

1/ ( , ),M N

m n

z S z m n�

� � (3.1)

дисперсия яркости

,2

cp, 1

1/ [ ( , ) ) ,M N

m n

D S z m n z�

� �� (3.2)

а также центр яркости

, ,

ср ср, 1 , 1

1 1( , ); ( , ).

M N M N

c cm n m n

m mz m n n nz m nz S z S

� �

� �� � (3.3)

При анализе изображений широко применяются гистограммы ярко&сти B(z), т. е. количественное распределение пикселей по значениямяркости, причем форма гистограммы существенно зависит от вида изоб&ражения. Например (рис. 3.2), для изображений деталей на сборочномстоле или страницы текста характерна ярко выраженная бимодальностьгистограммы яркости. Изображению крупного одиночного объекта наровном фоне, например фотографии на паспорте, соответствует сгла&женная бимодальная гистограмма. Отсутствие заметных пиков харак&терно для гистограмм изображений пейзажей и аэрофотоснимков, изо&билующих мелкими деталями различной яркости.

Page 24: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

24

Рис. 3.2. Гистограммы яркости различных изображений

Детали на сборочном столе Гистограммы яркости

Аэрофотоснимок

Оценить локальную резкость, т. е. отношение перепада яркостейна некотором фрагменте изображения к величине фрагмента, позво&ляет срез функции яркости по горизонтали или вертикали. Примерсреза функции яркости изображения приведен на рис. 3.3.

Рис. 3.3. Сечение функции яркости

А

А

Page 25: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

25

Следует отметить разницу между понятиями «контрастность»и «резкость» изображения. Контрастность изображения являетсяинтегральной характеристикой и в основном определяется диапа&зоном яркости изображения. Чем он больше, тем выше контраст&ность. Понятие резкость, скорее, относится к локальным харак&теристикам, описывающим скорость изменения функции яркостипо некоторому направлению, т. е. фактически ее производную.Естественно, может быть определено и среднее значение резкостипо всему изображению. Увеличение контрастности изображенияпутем расширения его диапазона яркости всегда приводит к уве&личению резкости. Однако изменение наклона функции яркостиможет происходить и без изменения разности яркостей, напримерпутем подчеркивания контуров.

При анализе пространственно&яркостной структуры изображениячасто используется его амплитудно&частотная характеристика, ко&торая может быть получена путем разложения функции яркости вряд по базису Фурье:

( , ) ( , )exp[ ( )] .x y x yf x y i x y dxdy� �

�� ��

� � � � � � ��� � (3.4)

Существует и обратное преобразование

2

1( , ) ( , )exp[ ( )] ,

4x y x y x yf x y i x y d d

� �

�� ��

� � � � � �� � �� � �

где 1i � � ; x, y – круговые пространственные частоты спектра внаправлении осей X и Y.

Для дискретного изображения, представленного в виде квадрат&ной матрицы Z[N, N], операции интегрирования в (3.4), естествен&но, заменяются суммированием, а дискретное преобразование Фурьеимеет вид

� � � � � �1 1

20 0

1 2, , exp .

N N

m n

k l z n m i kn lmNN

� �

� �

�� �� � � �� � � (3.5)

Как видно из (3.5), каждое значение Ф(k, l) зависит от всех значе&ний z(m, n) в поле зрения. Хотя матрица экспоненциальных коэффи&циентов зависит только от координат и может быть вычислена зара&нее, выполнение как преобразования Фурье, так и преобразования вдругие базисы для больших изображений требует значительных вре&менных затрат.

Page 26: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

26

Амплитудно&частотная характеристика изображения позволяетоценить степень резкости изображения и наличие мелких объектов,так как именно высокочастотные составляющие определяются кон&турами, которые и несут основную информацию об объектах. Следу&ет отметить, что контурные линии определяются фазовой составля&ющей спектра. Последнее подтверждается экспериментами [2], в ко&торых показано, что даже при существенном искажении амплитуд&ного спектра изображения контуры объектов остаются различимы&ми. Однако, если искажениям подвергается фазовый спектр, то раз&личимость резко снижается.

Экспериментальные исследования [3] также показали, что суще&ствует анизотропия спектральных интенсивностей реальных изоб&ражений, что выражается в более медленном их убывании вдоль осейx, y, чем в других направлениях. Последнее объясняется тем, что вреальных изображениях вертикальные и горизонтальные контурныелинии встречаются чаще, чем контуры, ориентированные в другихнаправлениях, что в целом определяется формой поверхности Зем&ли, направлением силы тяжести и рядом других факторов.

3.2. Оцифровка изображений

Как сказано выше, изображение при вводе в память компьютеранеобходимо преобразовать из аналоговой формы в цифровую, т. е.произвести дискретизацию изображения как в пространстве, так ипо яркости. Последняя операция иногда называется квантованием.

В результате этих преобразований в изображение неизбежно вно&сятся искажения, величина которых определяется, во&первых, ха&рактеристиками изображения, а во&вторых, параметрами оцифров&ки, главным образом, шкалой квантования и плотностью растровыхотсчетов. При выборе параметров оцифровки изображения следуетисходить из того, для каких целей в дальнейшем это изображениебудет использоваться. Неправильный выбор этих параметров может,с одной стороны, привести к неоправданно большому объему памя&ти, необходимой для хранения изображения, а с другой – к недопус&тимо большому уровню искажений, которые в дальнейшем уже немогут быть исправлены.

Вначале рассмотрим вопрос выбора необходимого числа уровнейквантования. Как показали исследования [3], человек способен раз&личать не более 64 уровней серого, т. е. для целочисленного пред&ставления уровня яркости вполне достаточно 6 бит. Однако, учиты&вая, что квантование всегда происходит с некоторой ошибкой, зна&

Page 27: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

27

чение последнего бита нельзя считать надежным. Кроме этого, со&временные компьютеры устроены так, что наиболее быстро обраба&тывают целочисленные данные, кратные 8 битам, т. е. одному байту.Как следствие, квантование уровня яркости, как правило, произво&дится по 256 уровням. Следует отметить, что недостаточное количе&ство уровней квантования вносит в дискретное изображение искаже&ния, которые проявляются в виде так называемых ложных конту&ров. Последние особенно заметны на участках изображения с плав&ным изменением яркости, например на портретах.

Как сказано ранее, глаз человека имеет разную чувствительностьк различным цветам. Желто&зеленые тона различаются почти также хорошо, как полутона серого, а синие и красные тона различают&ся гораздо хуже. Очевидно, при оцифровке цветных изображенийможно было бы устанавливать число уровней квантования в зависи&мости от цвета конкретного пикселя. Однако технические сложнос&ти при реализации подобного способа перевешивают очевидный вы&игрыш от сокращения объема памяти, необходимой для храненияцветного растрового изображения. Поэтому в современных устрой&ствах для получения таких изображений число уровней квантова&ния каждого из трех основных цветов одинаково и равно 256, а воз&можное сокращение объема памяти за счет использования указан&ной особенности человеческого зрения производится уже на этапесжатия дискретного изображения.

Как нетрудно увидеть, при 24&битном представлении цвета пик&селя изображение может иметь около 16 млн различных цветов с уче&том насыщенности и яркости. Это гораздо больше, чем может вос&принимать человеческий глаз. Большинство людей способно разли&чать приблизительно 128 различных цветов при 30 значениях насы&щенности и 5 уровнях яркости, что соответствует 192000 сочета&ний. Эта особенность зрения человека тоже используется при разра&ботке методов сжатия цифровых изображений.

Что касается выбора уровня дискретизации изображения, то, всоответствии с теоремой Котельникова, размер пикселя не долженпревышать половины размера минимальной детали изображения. Напрактике для уменьшения влияния помех размер пикселя выбирает&ся таким, чтобы линейные размеры минимальной детали составлялине менее 4–6 пикселей.

При невыполнении этого условия происходит не только потеря мел&ких деталей на дискретном изображении, с чем еще можно смириться,если они не несут существенной информации, но, что самое неприятное,возникает ложный узор в виде пятен, полос или волнистых линий, ко&

Page 28: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

28

торый может существенно исказить изображение (рис. 3.4). Следуетотметить, что вид, который принимают помехи дискретизации наизображении, определяется его структурой. Так, при оцифровке изоб&ражения, содержащего много мелких, хаотично расположенных де&талей, неправильный выбор размера пикселя приведет к появлениюпомех в виде тоже хаотично расположенных светлых и темных то&чек, распределение которых по яркости описывается нормальнымзаконом. Если же мелкие детали на исходном изображении собраныв периодические структуры, например, как окна на изображении фа&сада многоэтажного здания, то помеха дискретизации проявится ввиде муарового рисунка.

Необходимо напомнить, что такая широко используемая ха&рактеристика устройств получения и отображения изображенийкак число точек на дюйм (dpi) определяет линейное разрешениеустройства, а максимальное число различимых линий составляетполовину этого значения. Например, если разрешение сканера со&ставляет 300 dpi, то на одном дюйме можно отобразить 150 чер&ных линий на белом фоне, так как между линиями минимальновозможной ширины в одну точку должен оставаться промежутокшириной тоже в одну точку.

3.3. Сжатие дискретных изображений

Как уже сказано, для хранения отдельных дискретных изображе&ний, особенно видеопотоков, в исходном виде требуются очень зна&чительные объемы памяти. В самом деле, для хранения цветного изоб&

Рис. 3.4. Возникновение ложных контуров при сканированиис разрешением: а – 100dpi; б – 400 dpi

а) б)

Page 29: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

29

ражения в системе RGB размером 800 � 600 пикселей требуется око&ло 1,5 Мб. Соответственно, видеопоток таких изображений, получа&емых со скоростью 25 кадров в секунду, займет для минутной записиоколо 2000 Мб. Обработка, хранение и передача таких объемов ин&формации вызывают значительные трудности, особенно если эти опе&рации необходимо выполнять в реальном масштабе времени. Одна&ко, благодаря тому, что на подавляющем большинстве изображенийсуществуют корреляционные связи между яркостями соседних пик&селей, а также благодаря наличию аналогичных связей между после&довательными кадрами видеопотока, в изображении имеет место ин&формационная избыточность. Последнее позволяет провести коди&рование дискретного изображения с уменьшением необходимого объе&ма памяти для его хранения.

Для дискретных изображений применяются различные методысжатия с возможностью последующего восстановления как без по&терь, так и с потерями. Последние позволяют довести коэффициентсжатия до 100 и более и используются в основном для сжатия пото&ков видеоданных.

Существующие программы сжатия информации без потерь, т. е.позволяющие точно восстанавливать распределение по пикселямяркости в изображении, обеспечивают сокращение объема данныхлибо за счет оптимизации кодирования элементов информации, на&пример яркости пикселей, либо за счет удаления избыточной инфор&мации из изображения.

Типичным примером является метод кодирования длин серий илиRLE&метод. Он наиболее прост и основан на поиске в исходной ин&формации, представленной в виде последовательности кодов, повто&ряющихся одинаковых значений кодов. В результирующем файлезапоминаются значение кода и число его повторений. Метод приме&няется в формате PCX и дает хорошие результаты при сжатии бинар&ных изображений или монохромных изображений с малым числомградаций яркости.

Метод сжатия Хаффмана основан на анализе гистограммы яр&кости и использовании двоичных кодов переменной длины, приэтом наиболее часто встречающимся значениям яркости присваи&ваются короткие коды, а наиболее редко – длинные. На рис. 3.5приведен поясняющий данный метод пример построения так на&зываемого «кодового дерева». Предполагается, что восемь симво&лов имеют разную вероятность появления и представляют собойоснование дерева из восьми узлов. Для построения кодового дере&ва необходимо последовательно объединять в вершину по два сим&

Page 30: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

30

вола, имеющих минимальные вероятности, причем данной верши&не приписывается суммарная вероятность ее ветвей. В результатевсе вершины сходятся к одной корневой вершине, которая долж&на получить вероятность 1. После построения дерева ветвям при&сваиваются значения 1 или 0 в зависимости от того, в какую сто&рону они расходятся от текущей вершины. Код каждого символаможно получить, записав последовательность нулей и единиц,которыми обозначены ветви на пути от вершины к данному симво&лу. В выходной файл вначале записывается кодовая таблица, адалее – поток битов переменной длины. Следует отметить, что иног&да применяется заранее сформированная, т. е. стандартная, таб&лица кодировки, как, например, в формате TIFF. Основное огра&ничение данного метода – необходимость существенных различийвероятности появления различных символов.

В методе LZW&кодирования использован другой подход, которыйне требует предварительно создавать и хранить вместе с закодиро&ванным файлом таблицу кодов. Метод основан на поиске в сжимае&мой информации повторяющихся сочетаний различных кодов, кото&рые, в свою очередь, кодируются более короткой последовательнос&тью нулей и единиц. Сначала часть информации записывается безсжатия, а далее следуют либо другие несжатые последовательностикодов, либо данные, которые указывают, где можно найти требуе&мую последовательность кодов в уже записанной информации. Та&кие широко известные программы сжатия без потерь как PKZIP, RAR,ARC используют различные модификации LZW&метода, которыйиногда называется «методом на основе словаря», так как в процессе

Рис. 3.5. Дерево кодов Хаффмана

����

����

����

����

����

����

����

доK 00 01 010 110 011 0111 01111 11111

ловмиС A B C D E F G H

ьтсонтяореВ 52.0 12.0 91.0 51.0 80.0 70.0 30.0 20.0

Page 31: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

31

сжатия полученная последовательность кодов образует своего родапостоянно просматриваемый словарь.

Известно [4], что реальное сжатие монохромных и цветных изоб&ражений методами сжатия без потерь составляет не более 50%,причем для цветных изображений этот результат – скорее исклю&чение. Зачастую происходит даже увеличение размера файла, вкотором хранится изображение. Очевидно, степень сжатия зави&сит от насыщенности деталями и цветового многообразия сжима&емого изображения.

Методы сжатия изображений с потерями позволяют добитьсявысокой степени сжатия ценой контролируемой потери качества.Они основаны на том, что как отдельные дискретные изображе&ния, так и в особенности видеопотоки обладают не только инфор&мационной избыточностью, за счет устранения которой, собствен&но, и производится сжатие без потерь, но и психофизической из&быточностью. Она объясняется ограниченными возможностямизрения человека по различению цветовых оттенков и мелких дета&лей, особенно при быстрой смене изображений. По оценкам физи&ологов [5], количество информации, воспринимаемое зрительнойсистемой человека, не превышает 70 бит/c, что указывает на прин&ципиальную возможность достижения очень значительного сжа&тия воспринимаемой человеком видеоинформации без существен&ной потери качества.

В настоящее время наиболее широко применяемым методом сжа&тия растровых изображений с потерями является дискретное коси&нусное преобразование (ДКП), которое служит основой форматовJPEG и MPEG. Метод ДКП основан на удалении несущественныхинформационных составляющих путем анализа спектра изображе&ния, разложенного по дискретным базисным функциям. Посколькутребующиеся для этого вычисления занимают достаточно много вре&мени, изображение предварительно разбивается на маленькие фраг&менты размером не более 16 � 16 пикселей, затем вычисляются спек&тральные составляющие каждого фрагмента, сохраняются толькосущественные из них, и результат записывается с применением ме&тодов сжатия без потерь.

Программно ДКП реализуется для каждого фрагмента как после&довательность матричных перемножений. Вначале производитсяпреобразование фрагмента изображения из пространственной облас&ти в частотную путем умножения матрицы яркости элементов фраг&мента на заранее вычисленную матрицу коэффициентов ДКП. В по&давляющем большинстве случаев значения элементов в левом верх&

Page 32: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

32

нем углу полученной матрицы, характеризующей распределение ча&стот, существенно превышают значения элементов в противополож&ном углу. Далее производится квантование элементов по установ&ленному заранее порогу, так как предполагается, что существеннаяспектральная информация о данном фрагменте изображения долж&на превышать некоторый порог, индивидуально устанавливаемыйдля каждого спектрального отсчета. Именно на этом этапе и проис&ходит потеря качества изображения, что, собственно, и позволяетреализовать значительное сжатие. Фактически уровень порога и оп&ределяет как степень сжатия, так и степень искажения изображенияпосле восстановления. Оптимизация порога позволяет довести сжа&тие до 80% и более, прежде чем потери качества изображения станутвизуально различимы.

Ниже в качестве примера приведена табл. 3.1, содержащая значе&ния яркостей пикселей фрагмента сжимаемого изображения (P) раз&мером 8 � 8 элементов. Табл. 3.2 содержит значения матрицы D ко&

эффициентов ДКП, вычисленные по формуле1

,ijN

�D если i � 0, и

2cos (2 1) ,

2ij j iN N

�� �� �� �� D если i>0, для N � 8, i, j � 0…7. В табл. 3.3

приведена матрица спектрального распределения видеоданныхPD � D P DT как результат матричного умножения, причем передумножением значения видеоданных уменьшаются на 128, благода&ря чему они смещаются в диапазон –128… � 127. Табл. 3.4 содержитодну из возможных матриц делителей, на которые необходимо цело&численно разделить значения матрицы PD для выполнения кванто&вания, результат которого приведен в табл. 3.5. Далее полученные врезультате ДКП значения матрицы могут кодироваться методамисжатия без потерь, например по Хаффману или RLE.

Таблица 3.1

59 88 88 78 59 88 59 59

341 441 151 151 351 071 381 181

351 151 261 661 261 151 621 711

341 441 331 031 341 351 951 571

321 211 611 031 341 741 261 981

331 151 261 661 071 881 661 821

061 861 661 951 531 101 39 89

451 551 351 441 621 601 811 331

Page 33: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

33

Таблица 3.2

6353.0 6353.0 6353.0 6353.0 6353.0 6353.0 6353.0 6353.0

4094.0 7514.0 8772.0 5790.0 5790.0– 8772.0– 7514.0– 4094.0–

9164.0 3191.0 3191.0– 9164.0– 9164.0– 3191.0– 3191.0 9164.0

7514.0 5790.0– 4094.0– 8772.0– 8772.0 4094.0 5790.0 7514.0–

6353.0 6353.0– 6353.0– 6353.0 6353.0 6353.0– 6353.0– 6353.0

8772.0 4094.0– 5790.0 7514.0 7514.0– 5790.0– 4094.0 8772.0–

3191.0 9164.0– 9164.0 3191.0– 3191.0– 9164.0 9164.0– 3191.0

5790.0 8772.0– 7514.0 4094.0– 4094.0 7514.0– 8772.0 5790.0–

Таблица 3.3

19 3 5– 6– 2 0 0 1

83– 75– 9 71 2– 2 4 2

08– 85 0 81– 4 3 4– 4

25– 63– 11– 31 9– 3 2– 0

68– 04– 44 7– 71 6– 2– 4

26– 46 31 1– 3 8– 1– 0

61– 41 53– 71 11– 2 3 1–

35– 23 9– 8– 22 0 0 2

Таблица 3.4

3 5 7 9 11 31 51 71

5 7 9 11 31 51 71 91

7 9 11 31 51 71 91 12

9 11 31 51 71 91 12 32

11 31 51 71 91 12 32 52

31 51 71 91 12 32 52 72

51 71 91 12 32 52 72 92

71 91 12 32 52 72 92 13

Page 34: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

34

Таблица 3.5

03 0 0 0 0 0 0 0

7– 8– 1 1 0 0 0 0

11– 6 0 1 0 0 0 0

5– 3– 0 0 0 0 0 0

7– 3– 2 0 0 0 0 0

4– 4 0 0 0 0 0 0

1– 0 1 0 0 0 0 0

3– 1 0 0 0 0 0 0

Для более эффективного применения RLE&метода к матрице кван&тованных спектральных коэффициентов она преобразуется в вектортак называемым «зигзаг&сканированием». При этом в вектор зано&сятся элементы матрицы, стоящие по диагональным линиям, начи&ная от угла матрицы, соответствующего нулевым спектральным от&счетам, к противоположному углу, соответствующему максималь&ным спектральным отсчетам, в результате чего малые и нулевые ко&эффициенты группируются вместе. Например, результат зигзаг&ска&нирования матрицы, представленной в табл. 3.5, будет иметь следу&ющий вид:

30, 0, –7, –11, –8, 0, 0, 1, 6, –5, –7, –3, 0, 1, 0, 0, 0, 1, 0, –3, –4, –1, 4, 2, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, –3, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.

Иногда перед сжатием цветных изображений методом ДКП при&меняется субдискретизация, что позволяет сократить объем данныхдля ДКП примерно в два раза при минимальных потерях качества.Как уже указывалось, точное сохранение информации о яркости пик&селя существенно важнее для качества изображения, чем сохранениеинформации о его цвете, так как зрение человека значительно силь&нее реагирует на небольшие изменения яркости, чем на небольшиеизменения цвета, ведь в сетчатке глаза плотность распределения па&лочек значительно выше, чем колбочек. Следовательно, можно за&поминать полную цветовую информацию не для каждого пикселя.

На первом шаге при реализации данного вида сжатия выполняетсяперевод изображения из системы RGB в систему, разделяющую ярко&стную и цветовую информацию, например XYZ. Значения яркости каж&дого пикселя сохраняются для каждого фрагмента неизменными, а яр&костные составляющие соседних четырех или восьми элементов заме&няются их средними значениями. Легко подсчитать, что в последнем

Page 35: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

35

случае степень сжатия составляет более 50%, так как количество дан&ных на один пиксель сокращается с 24 до 10 бит. При восстановленииизображения цветовые составляющие пикселей определяются путеминтерполяции. Более высокие коэффициенты субдискретизации прак&тически всегда приводят к заметным потерям качества изображения, иих можно применять только для видеопотоков.

Особенностью сжатия потока видеоданных является использова&ние не только внутрикадровой, но и межкадровой информационнойи психофизической избыточности. Именно межкадровая избыточ&ность позволяет, во&первых, существенно сократить размер кадра до288 строк по 334 пикселя в каждой, а во&вторых, уменьшить числокадров до 16 в секунду без существенных потерь качества воспроиз&водимого изображения и плавности движения объектов.

Существует много различных методов сжатия видеопотока, на&пример Indeo 3.2, MJPEG, MPEG, которые используют межкадро&вую избыточность. В основе этих методов лежит тот факт, что в пос&ледовательности кадров подвижного изображения соседние кадры вбольшинстве случаев не очень существенно отличаются друг от дру&га. Вполне возможно запоминать один опорный кадр, а затем разно&стную информацию, т. е. дельта&кадры, которые показывают, чемпоследующие кадры отличаются от опорного кадра.

При реализации устранения межкадровой избыточности для со&кращения вычислений изображения разбиваются на блоки размером16 � 16 пикселей и все операции сравнения для получения разно&стной информации проводятся над ними. Кроме этого, изменения откадра к кадру, как правило, происходят в определенном направле&нии, что позволяет для следующих смежных кадров запоминать толь&ко векторы смещения отдельных блоков. К полученным таким обра&зом кадрам применяются методы внутрикадрового сжатия. В резуль&тате сжатия видеопотока получаются цепочки, состоящие из опор&ного кадра и последовательности его дельта&кадров. Естественно, чемдлиннее цепочка, тем выше сжатие, но и выше степень искажения.Уровень сжатия может выбираться динамически в зависимости отконкретного содержания видеопотока.

Следует отметить, что в большинстве случаев при преобразова&нии изображения к одному из графических форматов последователь&но используется несколько методов, что позволяет добиться макси&мально возможной степени сжатия. Например, процесс преобразова&ния цветного изображения с 24&битным RGB&представлением цветак формату JPEG включает в себя следующую последовательностьопераций:

Page 36: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

36

– изображение разбивается на блоки размером 16 � 16 пикселейкаждый, которые кодируются далее независимо друг от друга;

– производится перекодирование RGB&представления в схему XYZ,и матрица, представляющая яркостную компоненту Y, разделяетсяна 4 матрицы размером 8 � 8 элементов, а для двух матриц цветовыхкомпонент X и Z выполняется субдискретизация с коэффициентом2, в результате чего получается 6 матриц размером 8 � 8 элементов;

– к каждой из шести матриц применяется ДКП с квантованием на4096 уровней и записью каждого спектрального отсчета 12&разряд&ным двоичным кодом;

– каждая матрица квантованных спектральных отсчетов преоб&разуется в вектор из 64 элементов зигзаг&сканированием;

– полученный вектор вначале сжимается RLE&методом, а его ре&зультат сжимается методом Хаффмана с фиксированной таблицей, вкоторой короткие коды соответствуют малым последовательностямнулей и малым значениям ненулевых спектральных коэффициентов.

Преобразование из JPEG&формата к RGB&представлению повто&ряет все операции в обратном порядке.

Необходимо отметить, что в случае многократного JPEG&сжатияразными программами и с различными параметрами может проявить&ся блочная структура, однако повторяющееся сжатие одной и той жепрограммой с постоянными параметрами некритично.

Page 37: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

37

4. ИСКАЖЕНИЯ ИЗОБРАЖЕНИЙ И ИХ УСТРАНЕНИЕ

4.1. Классификация искажений

Как сказано выше, в результате анализа изображений системараспознавания должна сформировать модель сцены, т. е. фактичес&ки выделить на изображении объекты, составляющие сцену, отнес&ти их к одному из известных классов и определить их характеристи&ки, например положение в пространстве. Естественно, такое распо&знавание может быть успешно выполнено только при условии, чтоизображения разных объектов чем&то отличаются друг от друга.В противном случае для системы распознавания эти объекты будутидентичны. К сожалению, различаются не только изображения раз&ных объектов, но в подавляющем большинстве случаев два изобра&жения одного и того же объекта тоже существенно отличаются другот друга. В этом и заключается основная сложность распознаванияобъектов по их изображениям.

Причины, вызывающие указанное отличие, можно условно раз&делить на три группы:

1) технические помехи, обусловленные систематическими погреш&ностями и случайными сбоями аппаратуры при получении, передачеи хранении изображений;

2) изменения освещенности сцены, связанные с перемещениемисточников света, изменением их числа и характеристик;

3) изменение взаимного положения объектов сцены и устройстваполучения изображения.

Искажения изображения, вызываемые первыми двумя причина&ми, принято называть яркостными, а искажения, вызываемые тре&тьей причиной, – пространственными.

Следует отметить, что, если яркостные искажения в принципемогут быть в большинстве случаев достаточно эффективно устране&ны, то от пространственных искажений, связанных с изменениемракурса съемки или движением объектов в поле зрения, избавитьсязначительно труднее, так как они являются непосредственным ре&

Page 38: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

38

зультатом изменения окружающей среды. Фактически, именно ха&рактер этого изменения и необходимо выявить системе распознава&ния, с тем чтобы с учетом полученной ею информации система управ&ления могла принять наиболее верное решение.

Остановимся на процессе возникновения искажений. Как уже ска&зано, в результате освещения сцены, состоящей из отдельных объек&тов, отраженный от них поток электромагнитного излучения, т. е.видимый свет, радиоволны, инфракрасное или рентгеновское излу&чение, проходит через среду распространения и попадает на устрой&ство формирования изображения, объектив которого проецирует этотпоток на фиксирующую поверхность. Зафиксированный тем илииным образом в некоторый момент времени результат воздействияэлектромагнитного потока на поверхность проецирования и являет&ся изображением.

В математической форме процесс формирования изображенияможно описать как отображение трехмерного пространства R3 наплоскость R2, т. е. 3 2: .F R R� Сцена может быть задана в простран&стве R3 как функция ( , , ),� � � � тогда изображение есть результат ото&бражения

( , ) [ ( , , )],f x y F� � � � (4.1)

где x, y – координаты пространства R2; �, �, ��– координаты простран&ства R3. Значение функции f(x, y) при таком подходе представляетсобой яркость изображения в точке (x, y) плоской декартовой систе&мы координат. В результате отображения размерность пространствапонижается, что позволяет говорить, в лучшем случае, о гомоморф&ном отображении объектов на плоскость, т. е. потере части информа&ции о трехмерной сцене при ее отображении на плоскости. Однакопри выполнении ряда ограничений отображение может быть изоморф&ным, т. е. изображение будет полностью адекватно сцене в информа&ционном смысле.

Отображение F описывает процесс прохождения электромагнит&ного потока от объектов сцены до поверхности проецирования и впринципе может быть представлено в виде некоторой системы урав&нений. Однако в процесс получения изображения на практике всегдавносятся искажения, обусловленные свойствами среды распростра&нения, ее флуктуациями и турбулентностью, движением видеокаме&ры и ее вибрацией, несовершенством оптики, например неточной фо&кусировкой и дифракцией, нелинейностью характеристик и шумомсистемы формирования изображения и каналов передачи. Как след&ствие, в систему распознавания поступает уже искаженное изобра&

Page 39: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

39

жение ( , ) [ ( , )],f x y A f x y� � � � где A – оператор, описывающий искаже&ния, вносимые в изображение f(x, y), которое, в свою очередь, можноназвать идеальным или эталонным. Таким образом, математическизадача устранения искажений сводится к нахождению обратного опе&ратора A–1 и применению его к искаженному изображению, т. е. про&ведению преобразования 1( , ) [ ( , )].f x y A f x y� � � ��

Как сказано выше, все искажения можно условно разделить напространственные, проявление которых описывается оператором A1,и яркостные, описываемые оператором A2. Тогда оператор

A � A1 A

2, (4.2)

причем порядок следования операторов определяется спецификойпроцесса получения изображения, так как вид и параметры операто&ра A2 в общем случае зависят от координат (x, y). При таком подходепространственное искажение можно представить как некоторое от&клонение при отображении точки пространства R3 в R2, т. е. реаль&ный результат проецирования точки (�������) в точку 2( , )R x y� � не со&впадает с точкой R2 (x, y) � F(�������) согласно (4.1). Яркостное иска&жение можно представить как некоторое отклонение яркости дан&ной точки от эталонного значения при отсутствии пространствен&ных искажений, т. е. когда результат проецирования ( , )f x y� � � отли&чается от f(x, y) при , .x x y y� �� �

В некоторых случаях при коррекции искажений их разделениена пространственные и яркостные не производится, что может бытьоправдано, если пространственные искажения несущественны,скомпенсированы при настройке устройства получения изображе&ния или не имеют значения для используемых алгоритмов распо&знавания.

Следует отметить, что для случая отсутствия пространственныхискажений существуют эффективные алгоритмы распознаванияобъектов, которые могут вполне удовлетворительно работать дажепри существенных яркостных помехах. Естественно, вероятностьправильного распознавания при одном и том же уровне помех зави&сит как от применяемого метода, так и от степени отличия распозна&ваемых объектов по выбранным признакам. Однако вероятность пра&вильного распознавания объектов при отсутствии яркостных помех,но наличии пространственных искажений различного вида быстроснижается, даже при простейших пространственных искаженияхтипа «смещение», если признаки, по которым производится распо&знавание, не инвариантны к данному искажению. Очевидно, в об&щем случае для правильного распознавания объекта по его изобра&

Page 40: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

40

жению необходимо эффективно компенсировать как пространствен&ные, так и яркостные искажения.

Структура оператора A2 из (4.2), описывающего яркостные искаже&ния, может быть достаточно сложна и в общем случае эквивалентнапоследовательному действию нескольких операторов, каждый изкоторых соответствует различным этапам и особенностям получе&ния изображения. Следует отметить, что проблема коррекции ярко&стных искажений тесно связана с вопросами сегментации, т. е. отне&сения точек изображения к фону или отдельным фрагментам, каж&дый из которых в дальнейшем анализируется отдельно. В самом деле,для успешной коррекции помех необходимо иметь некоторую апри&орную информацию о «полезном» изображении и характеристикахпомех, в какой&то мере аналогичную априорной информации о сег&ментируемых фрагментах и фоне. Очевидно, что чем детальнее этаинформация, тем результативнее процесс обработки изображения.Однако затруднительно дать универсальное, применимое на практи&ке определение помех. Приходится в каждом конкретном случае да&вать некоторое описание помехи и полезного сигнала, что не позво&ляет найти универсальный метод определения оператора 1

2 ,A� об&ратного к A2, для компенсации любых яркостных помех.

Приведем классификацию яркостных помех по различным харак&теристикам.

По размерам на изображении:– точечные (случайно расположенные компактные фрагменты раз&

мером 1–3 пикселя, более яркие или более темные, чем окружающаяих область – «зерно»);

– линейные (регулярные и расположенные случайным образомгоризонтальные, вертикальные и произвольно направленные линиималой толщины);

– локальные (различимые пятна произвольной формы и яркости,часто образующие ложные контуры).

Наиболее трудно устранимы последние, так как требуют анализаструктуры изображения, чтобы отличить ложные контуры от реальных.

По яркости:– слабые (ярче или темнее окружающей области на 1–3 значения

яркости);– сильные (яркость помехи существенно отличается от яркости ее

окрестности).Основные сложности при компенсации как тех, так и других воз&

никают, если яркость точек окружающей области непостоянна, чтоимеет место, например, на контуре фрагмента.

Page 41: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

41

По степени распространения:– глобальные (выявляемые на всем изображении);– изолированные (присутствующие только на одном или несколь&

ких участках изображения);– связанные (присущие только некоторым структурным элемен&

там изображения, например, «смаз» контурной линии однородногопо яркости фрагмента на однородном фоне, вызванный относитель&ным движением объекта и камеры во время получения изображения).

Наиболее сложным случаем яркостных искажений следует при&знать сочетание нескольких типов помех на одном изображении, на&пример наличие «смаза» и «зерна».

По вероятности появления:– случайные (яркость, размеры и положение определяются стати&

стическими закономерностями);– систематические (характеристики помехи детерминированы,

например, равномерное изменение яркости – «засветка»).Выявление статистических закономерностей требует большого

объема информации и ее предварительной обработки. Систематичес&кие помехи могут быть определены заранее с помощью тестовых изоб&ражений и в дальнейшем сравнительно легко компенсироваться.

4.2. Методы коррекции яркостных искажений

Следует отметить, что методы коррекции яркостных искаже&ний часто рассматриваются по аналогии с методами подавленияшумов и выявления полезного одномерного сигнала. При этом из&вестные фильтры и методы, используемые для сигнала как функ&ции одной переменной, модернизируются под функцию двух пере&менных, часто без учета других специфических особенностей изоб&ражения. Например, для подавления помех и выделения контураприменяется прямое преобразование Фурье, результат преобразо&вания обрабатывается фильтром, подавляющим, соответственно,высокочастотную или низкочастотную составляющую, после чеговыполняется обратное преобразование Фурье [6]. Наибольшаяэффективность достигается при использовании оптоэлектронныхпреобразователей или специализированных микропроцессорныхустройств. Однако аналогичных результатов можно добиться, исполь&зуя пространственные фильтры без перевода изображения в базисФурье, что существенно упрощает процесс обработки изображе&ния на компьютере и не требует специальных устройств. В литера&туре по обработке изображений [7] подчеркивается, что в отличие

Page 42: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

42

от «звуковых» образов шум и «полезное» изображение не адди&тивны, т. е. ( , ) ( , ) ( , ),f x y f x y n x y� � � где n(x, y) – шум, а для звуко&вых сигналов ( , ) ( , ) ( , ).f x y f x y n x y� � � Как следствие, методы вы&деления и обработки звуковых сигналов мало применимы в об&работке изображений.

Наиболее перспективным, с точки зрения создания алгоритмовобработки изображения, представляется их разделение на преобра&зования шкалы яркости и пространственные фильтры.

Преобразование шкалы яркости предполагает формирование понекоторому закону функции преобразования шкалы яркости исход&ного, т. е. искаженного, изображения в шкалу яркости результиру&ющего, т. е. скорректированного, изображения и последовательноепреобразование яркости точек исходного изображения в соответствиис этой функцией:

( , ) [ ( , )],f x y S f x y�� �� (4.3)

где ( , ), ( , )f x y f x y� �� – яркости точек соответственно исходного и ре&зультирующего изображений; S – функция преобразования шкалыяркости. Областью возможных значений как аргумента функции S,так и значений самой функции является диапазон возможных значе&ний яркости изображения. Функция S должна быть непрерывной имонотонной, задавая тем самым однозначное соответствие междузначениями аргумента и функции.

Для дискретного изображения S представляет собой одномерныймассив размером с возможный диапазон яркости исходного изобра&жения, причем значение каждого элемента этого массива равно неко&торой яркости результирующего изображения в соответствии с выб&ранным законом преобразования. Преобразование происходит сле&дующим образом. Яркость текущего пикселя исходного изображе&ния определяет номер элемента массива S, значение которого и при&нимается в качестве яркости соответствующего пикселя результиру&ющего изображения. Скорость преобразования очень высока, так какиз (4.3) видно, что яркость пикселя результирующего изображениязависит от яркости только одного пикселя исходного изображения стеми же координатами.

В свою очередь, из преобразований шкалы яркости можно выде&лить линейные преобразования, при которых

( , ) ( , ) ,f x y kf x y l�� �� � (4.4)

где k, l – параметры конкретного преобразования. Например, дляобеспечения полного использования диапазона яркости изображе&

Page 43: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

43

ния в пределах {0, 255} путем растяжения шкалы яркости парамет&ры k, l определяются из системы уравнений

min

max

( , ) 0;

( , ) 255,

kf x y l

kf x y l

� � ��� � � ��

(4.5)

где min max, f f� � – соответственно минимальное и максимальное значе&ния яркости исходного изображения.

Преобразования шкалы яркости, которые нельзя представить в виде(4.4), относятся к нелинейным преобразованиям. Например, для бина&ризации изображения по некоторому порогу S определяется как

[ ( , )] 0, ( , ) ;

[ ( , )] 1, ( , ) ,

S f x y f x y R

S f x y f x y R

� �� ��� � �� ��

где R – значение порога бинаризации.К нелинейным преобразованиям шкалы яркости относятся и ме&

тоды, основанные на построении преобразования S по известной ги&стограмме яркости исходного изображения и требуемой гистограммерезультирующего изображения, такие как эквализация, логарифми&зация, гиперболизация шкалы яркости.

Пространственная фильтрация предполагает, что яркость точкирезультирующего изображения зависит от яркости нескольких, какправило, смежных, точек исходного изображения. Пространствен&ные фильтры тоже можно разделить на фильтры, реализующие ли&нейное и нелинейное преобразования.

Линейная пространственная фильтрация предполагает определе&ние яркости точки f�(x, y) результирующего изображения как функ&ции от яркостей точек f�(x, y) некоторой окрестности соответствую&щей точки исходного изображения:

( , ) [ ( , ), ..., ( , ), ..., ( , )],f x y F f x p y q f x y f x p y q�� � � �� � � � � (4.6)

где F – некоторая функция; p, q – размер окрестности; x ��–p, ..., 0,..., p, y ��–q, ..., 0, ..., q – координаты точки исходного изображенияиз этой окрестности.

Работу большинства линейных пространственных фильтров мож&но представить как операцию свертки исходного изображения f�(x, y)с импульсной характеристикой фильтра h(x, y), называемой функ&цией рассеяния точки, т. е.

( , ) ( , ) ( , ) ,f x y f h x y d d� �

�� ��

�� �� � � � � �� � �� �

Page 44: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

44

где �, � – переменные интегрирования. Например, для сглаживающе&го высокочастотную составляющую функции яркости интегрально&го фильтра с импульсной характеристикой, постоянной в окрестнос&ти S, яркость результирующего изображения

1( , ) ( , ) .

S

f x y f x y dsS

�� �� �� (4.7)

Импульсную функцию линейного пространственного фильтра длядискретного изображения можно представить в виде маски

00

...

... ... ,

...

p q pq

H

p q pq

h h

H k h

h h

� � �

� �� �

� � �� �� �

где kH – нормирующий коэффициент; hij – весовые коэффициенты,учитывающие степень влияния данного пикселя из окрестности раз&мером (2 1) (2 1)p q� � � на результат фильтрации. Тогда операцию про&странственной фильтрации дискретного изображения можно пред&ставить как

,

,

( , ) ( , ).p q

H iji p j q

f x y k h f x i y j�� ��

�� �� � ��

Соответственно, маска для фильтра (4.7) имеет вид

1 1 11

1 1 1 .9

1 1 1

H

� �� �� � �� �� �

(4.8)

Размер и форма окрестности ( , )f x y� , учитываемая при определе&нии ( , ),f x y�� зависит от конкретного фильтра и может варьироватьсяот квадрата 2�2 для контурного фильтра Робертса до полного изобра&жения для разложения в спектры Фурье, Уолша, Адамара, Хаара и др.

Для некоторых фильтров преобразование функции яркости не&возможно представить в виде (4.6). Такие фильтры следует отнести кнелинейным пространственным фильтрам. Например, одна из раз&новидностей медианного фильтра, предназначенного для подавленияимпульсных помех, представляется как

( , ) mid{ ( , ), ..., ( , ), ..., ( , )},pq

f x y f x p y q f x y f x p y q�� � � �� � � � � (4.9)

Page 45: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

45

где mid – операция выбора среднего по номеру элемента в упорядо&ченном по возрастанию наборе значений яркости из заданной окрест&ности pq.

Необходимо отметить неопределенность, возникающую при обра&ботке краев изображения методами пространственной фильтрации.Согласно (4.6), для пикселей, лежащих на крайних строках и столб&цах, необходимо задавать неизвестную яркость соседних пикселей,лежащих за границей изображения. Возможны два подхода для раз&решения этой проблемы. Первый подход предполагает сокращениеразмеров результирующего изображения на величину окрестности.Недостаток подхода заключается в том, что в результате многократ&ной обработки изображения его размер может заметно уменьшиться.Во втором подходе предлагается яркость пикселя, лежащего за гра&ницей изображения, принимать равной яркости ближайшего пиксе&ля изображения. Последнее вполне оправдано, так как существен&ное изменение яркости соседнего с крайним пикселя возможно, толь&ко если граница объекта на изображении совпадает с границей изоб&ражения, что в большинстве случаев маловероятно.

Сравнительную оценку эффективности методов обработки изоб&ражения можно произвести, во&первых, по степени сложности ал&горитма, во&вторых, по влиянию на вероятность распознаванияобраза, изображение которого обработано сравниваемыми мето&дами. На практике для сравнения различных фильтров использу&ется набор тестовых изображений с наложенными на них искаже&ниями заданного вида. Тогда для оценки результата коррекциипомех можно использовать норму разности изображений, т. е. ре&зультат коррекции можно считать положительным, если по всемуизображению

| ( , ) ( , ) | | ( , ) ( , ) | .f x y f x y f x y f x y�� �� � � (4.10)

Следует заметить, что методы обработки изображений, подпада&ющие под данную классификацию, помимо собственно компенсациияркостных помех включают в себя:

– редактирование изображений, т. е. наложение и совмещениеизображений, выделение простых фрагментов, сдвиг по горизонталии вертикали, поворот на 90�, изменение масштаба, преобразованиенегатив&позитив и т. п.;

– преобразование изображения из одной системы координат в дру&гую, например из декартовой в полярную;

– улучшение качества изображения, т. е. повышение контрастно&сти и резкости изображения;

Page 46: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

46

– выделение контура как бинарного, так и многоградационногоизображения;

– бинаризацию многоградационного изображения;– сегментацию изображения.Все эти методы включают в себя большое количество разнообраз&

ных алгоритмов и находят практическое применение при обработкеизображений. Серьезной проблемой является выбор наиболее эффек&тивных алгоритмов обработки для конкретного класса изображенийв зависимости от его дальнейшего использования. Известно, что кон&тур отдельного фрагмента изображения, наряду с текстурой, облада&ет существенной информативностью с точки зрения распознавания.Последнее условие особенно важно для малоразмерных и бинарныхфрагментов. В связи с этим представляется вполне оправданным вдальнейшем основное внимание уделить рассмотрению методов, су&щественно влияющих на качество выделения контура и бинариза&цию изображений.

Page 47: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

47

5. ПРЕОБРАЗОВАНИЯ ШКАЛЫ ЯРКОСТИ

5.1. Линейные преобразования

Согласно (4.4), линейное преобразование шкалы яркости опреде&ляется коэффициентами k и l. Можно сказать, что l определяет изме&нение яркости изображения, а k – изменение его контрастности. Еслиk � 1, то значение l показывает величину смещения шкалы яркости.В результате общая яркость изображения повышается или понижа&ется в зависимости от знака l в пределах возможного диапазона ярко&сти. Гистограмма яркости также смещается на величину l без изме&нения формы.

Если значение l выбрано так, что часть преобразованной шкалыяркости оказывается за пределами диапазона допустимых значенийяркости (zd

min…zdmax), то преобразованное изображение будет частич&

но засвечено или затемнено, а ее гистограмма яркости не только сме&стится, но и изменит форму за счет увеличения числа пикселей с мак&симальной или минимальной яркостью соответственно. В дальней&шем будем полагать zd

min � 0, zdmax � 255, что справедливо для боль&

шинства монохромных изображений.Если l � 0, k>0, то k определяет уровень растяжения или сжатия

шкалы яркости. Если k>1, то преобразование будет заключаться врастяжении шкалы яркости, что приведет к увеличению контраст&ности изображения, если же k < 1, то контрастность, соответствен&но, понизится. Учитывая дискретность изображения и ограничен&ный диапазон возможных значений яркости, можно предположить,что форма гистограммы яркости результирующего изображения бу&дет зависеть от значения k и диапазона яркости исходного изображе&ния. Если значение k выбрано так, что при увеличении контрастнос&ти максимальная яркость результирующего изображения не превы&сит 255, то на гистограмме яркости произойдет смещение отдельныхвертикальных составляющих по оси яркости без изменения их зна&чений. При других значениях k гистограмма яркости изменится бо&

Page 48: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

48

лее существенно, так как произойдет не только смещение отдельныхсоставляющих гистограммы, но их частичное слияние.

Максимально возможное увеличение контрастности изображениябез слияния составляющих гистограммы может быть получено приодновременном смещении и растяжении шкалы яркости с коэффи&циентами, определяемыми уравнением (4.5).

Необходимо отметить, что последовательное сжатие и растяже&ние шкалы яркости позволяет подавить слабые по яркости, но про&извольные по размерам помехи. Эффект достигается за счет дискрет&ного представления значения яркости. В результате при сжатии шка&лы яркости пиксели, имеющие близкие значения яркости, получаютодинаковое значение, т. е. происходит сглаживание, а при растяже&

Исходные изображения

Рис. 5.1. Подавление слабых локальных помех сжатием@растяжениемшкалы яркости

Результаты обработки

Моделирование изображения с засветкой и тенью

Детали на конвейере (сжатие@растяжение шкалы яркости с коэффициентом 30)

Page 49: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

49

нии шкалы информация о первоначальной яркости восстанавлива&ется не для всех пикселей. На рис. 5.1 продемонстрировано примене&ние данного метода для удаления локальных помех. Основная про&блема заключается в подборе коэффициента сжатия шкалы яркоститаким образом, чтобы, с одной стороны, в результате подавить поме&хи, а с другой, не удалить полезную информацию.

Преобразования шкалы яркости, при которых k < 0, приводят кчастичной или полной инверсии яркости пикселей изображения взависимости от значения l. Например, при k � –1, l � 255 произойдетполная инверсия монохромного изображения, т. е. наиболее яркиепиксели исходного изображения станут наиболее темными пикселя&ми преобразованного изображения и наоборот.

5.2. Нелинейные преобразования

Линейное преобразование шкалы яркости позволяет увеличитьконтрастность исходного изображения, только если диапазон ярко&сти исходного изображения меньше допустимого. Если же диапазоняркости полностью занимает весь допустимый интервал, то увеличе&ния контрастности можно добиться путем частичного смещения фун&кции преобразования шкалы яркости вне данного диапазона с сохра&нением линейности преобразования. Применение нелинейных функ&ций преобразования шкалы яркости позволяет более эффективнодобиться увеличения контрастности в требуемой области изображе&ния.

Логарифмическое преобразование шкалы яркости исходного изоб&ражения ln( ),p

nz c z� где сn – нормирующий коэффициент; z, zp – со&ответственно значения исходной и преобразованной шкал яркости,приводит к увеличению контраста для наиболее темных областейизображения и слиянию наиболее светлых областей. Экспоненци&альное преобразование zp�� cez, соответственно, приводит к обратно&му результату (рис. 5.2). Значение коэффициента сn необходимо под&бирать таким, чтобы диапазон изменения zр был максимальным, на&пример, для логарифмического преобразования шкалы яркости

max

max

.ln( )

d

n d

zc

z�

Увеличения контрастности отдельных плохо различимых облас&тей изображения, яркость которых лежит в средней области гисто&граммы, можно добиться выравниванием или эквализацией гисто&

Page 50: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

50

Рис. 5.2. Преобразование шкалы яркости

Исходное изображение Гистограммы яркости

Логарифм яркости

Экспонента яркости

Эквализация гистограммы

Page 51: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

51

граммы [8]. Предполагается, что, с точки зрения статистики, наи&большая контрастность достигается на изображении, гистограммакоторого представляет равномерное распределение пикселей по яр&костям на всем диапазоне. Тогда дискретная форма преобразованияшкалы яркости имеет вид

255

0

( ),p nkk

k

cz B z

S�

� � (5.1)

где pkz – значение элемента преобразованной шкалы яркости, соот&

ветствующей k&й яркости исходной шкалы; B(zk) – гистограмма яр&кости исходного изображения; S – число пикселей изображения. Изуравнения (5.1) следует, что для получения яркости пикселя резуль&тирующего изображения, соответствующего яркости пикселя исход&ного изображения, необходимо суммировать элементы гистограммыот минимального значения яркости до данной яркости. На рис. 5.3

Рис. 5.3. Выравнивание гистограммы яркости ( – выявленный объект)

Исходное изображение Гистограммы яркости

Обработанное изображение

Page 52: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

52

приведен пример повышения контрастности путем выравнивания ги&стограммы.

5.3. Методы бинаризации изображений

Бинаризацией называется процесс преобразования полутоновогоизображения в изображение, яркость пикселей которого может иметьтолько два значения – 0 или 1. Такое изображение называется би&нарным. Метод часто применяется в качестве предварительной обра&ботки как для последующей сегментации, так и для выполнения рядадругих операций, так как известно большое число эффективных ал&горитмов обработки бинарных изображений [9].

Как уже отмечалось, методы бинаризации изображений можноотнести к нелинейным преобразованиям шкалы яркости. Алгоритмсобственно преобразования изображения предельно прост, и основ&ная проблема состоит в выборе значения порога бинаризации R вуравнении (4.6) на основании некоторой априорной информацииоб изображении. Одно из наиболее общих предположений о струк&туре изображения заключается в следующем. В большинстве слу&чаев на изображении некоторой сцены, состоящей из отдельныхобъектов, имеется существенное отличие яркости пикселей, соответ&ствующих фону, от яркости пикселей, соответствующих объектам,причем яркость последних практически совпадает. Фактически вы&бор порога бинаризации основан на вполне правдоподобном предпо&ложении о выраженной бимодальности гистограммы яркости.

Наиболее простой метод – установка порога еще на этапе форми&рования изображения в процессе его квантования. Он позволяет сра&зу получить бинарное изображение и в дальнейшем применять к немуметоды логической фильтрации, рассматриваемые далее. Метод на&ходит применение в простых системах ввода изображений для объек&тов с близкими яркостями, существенно отличающимися от яркостифона, и стабильным во времени равномерным освещением сцены.Конкретное значение порога, как правило, выбирается эксперимен&тально на этапе настройки аппаратуры получения изображений.

Близким к предыдущему является метод установления порога каксреднего арифметического максимального и минимального значенияяркости на всем изображении, т. е.

min max0.5( ).R z z� � (5.2)

Очевидно, данный метод позволяет компенсировать равномерноеизменение освещенности сцены на разных изображениях.

Page 53: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

53

Более сложные методы выбора порога стремятся как&то адаптиро&ваться к неравномерному по площади освещению сцены и его измене&нию во времени, к различным значениям яркости изображений от&дельных объектов в одной сцене, а также к различиям яркости от&дельных точек изображения одного объекта. Практически все ониоснованы на анализе гистограммы яркости.

Так, например, на некоторых гистограммах значения B(zmin) илиB(zmax) малы по величине по сравнению с другими и отстоят от нихна значительное расстояние. Как правило, такой эффект возникаетпри наличии небольшого количества нескомпенсированных импуль&сных яркостных помех, значительно отличающихся по яркости отосновного изображения. В таком случае определение порога R по фор&муле (5.2) может привести к существенным искажениям при бинари&зации. Избежать этого можно, модифицировав гистограмму перед вы&числением R путем удаления значений B(zmin) или B(zmax), если онималы по величине и отстоят от основной гистограммы на значитель&ное расстояние.

Как указано ранее, гистограмма яркости изображения сцены, со&стоящей из нескольких объектов близкой яркости на равномерномфоне, имеет два выраженных максимума, один из которых соответ&ствует яркости точек объектов, а другой – яркости точек фона. Есте&ственно, чем больше неравномерность яркости точек фона и объек&тов и чем больше разница средней яркости для изображений отдель&ных объектов в данной сцене, тем менее выражены эти максимумы.В пределе на сложных изображениях, типа аэрофотоснимков земнойповерхности с большим количеством мелких деталей разной ярко&сти, гистограмма может иметь несколько локальных максимумов,которые слабо коррелируют с конкретными объектами. Однако наизображениях технологических и ряде других сцен эту корреляциюможно обнаружить.

В качестве порога можно использовать значение глобального ми&нимума гистограммы, расположенное между двумя наибольшимимаксимумам. Алгоритм его нахождения для дискретных изображе&ний не вызывает каких&либо трудностей. В самом деле, если предпо&ложить, что объекты на изображении имеют большую яркость, а фон– меньшую, то вначале находятся максимумы гистограммы, соот&ветствующие яркостям точек фона и объектов, а потом последова&тельным перебором определяется глобальный минимум между ними.Метод дает приемлемые результаты при наличии хорошо различи&мых максимумов и явно выраженном минимуме. Однако для гисто&грамм, имеющих существенный диапазон значений, близких к гло&

Page 54: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

54

бальному минимуму, могут возникнуть трудности в его локализа&ции. А ведь значительное смещение порога в ту или иную сторонуможет привести к заметным изменениям результата бинаризации.

В какой&то мере компенсировать этот недостаток позволяет ме&тод, определяющий порог как

255

0255

0

( )

,

( )

k

k

kB k

R

B k

��

�(5.3)

т. е. средневзвешенное значение модифицированной гистограммыяркости. Заметим, что для немодифицированной гистограммы R со&ответствует среднему значению яркости по всему изображению. Оче&видно, алгоритм данного метода не требует поиска экстремумов гис&тограммы, что существенно сокращает время обработки изображе&ния, особенно для скользящих порогов, описанных ниже. Интеграль&ный характер зависимости R от B(k) в формуле (5.3) определяет не&сколько большую устойчивость данного алгоритма к уровню помехпо сравнению с методом определения порога по глобальному мини&муму. На рис. 5.4 приведены исходные изображения, отличающиесяналичием практически неразличимых визуально помех с яркостью,близкой к порогу бинаризации, их гистограммы и результаты бина&ризации с порогом, определяемым глобальным минимумом и средне&взвешенным значением гистограммы яркости.

Изложенные методы определяли порог бинаризации как постоян&ное значение для всего изображения. Однако при наличии неравно&мерного освещения или существенных отличий в яркости изображе&ний разных объектов установка постоянного порога при бинариза&ции не дает положительного результата, что хорошо видно из приме&ра на рис. 5.5. В таком случае можно применить переменный порог,определяемый для некоторой прямоугольной области изображения.Однако при таком подходе возникает проблема возможного возник&новения как разрывов линий контуров, так и ложных контуров награнице областей. Избежать этого в какой&то мере можно, используячастично перекрывающиеся области. В данном случае для определе&ния гистограммы используется вся заданная область, но значениепорога применяется для бинаризации пикселей только ее централь&ной части.

В пределе для каждого пикселя изображения можно определятьсвой порог бинаризации по гистограмме яркости некоторой окрест&

Page 55: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

55

Рис. 5.4. Сравнение методов бинаризации

������ ��� ���

Исходные изображения

Гистограммы яркости

Результаты бинаризации

Метод глобального минимума (порог 36 и 23 соответственно)

Метод средневзвешенного порога (порог 30 и 29 соответственно)

ности данного пикселя. Данный метод, называемый бинаризацией соскользящим порогом, относится не к преобразованию шкалы ярко&сти, а к нелинейной пространственной фильтрации. Метод, даваяхорошие результаты (см. рис. 5.5), приводит к существенному увели&

23 2930 36

Page 56: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

56

Рис. 5.5. Применение скользящего порога бинаризации по гистограммеяркости

Исходные изображения

Равномерное освещение Неравномерное освещение

Гистограммы яркости

Бинаризация постоянным порогом

Бинаризация скользящим порогом

Page 57: Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие

57

чению времени обработки по сравнению с бинаризацией постояннымпорогом. Кроме этого, гистограмма окрестности текущего пикселядалеко не всегда носит бимодальный характер, что может привести ктрудностям при определении значения порога и, как следствие, кошибкам бинаризации. Эксперименты показали, что вполне прием&лемые результаты как по качеству бинаризации, так и по скоростиобработки получаются при определении значения скользящего по&рога по формуле (5.3).

Основной проблемой для методов, использующих скользящийпорог, является выбор размера окрестности, для которой строитсягистограмма. Например, на результате бинаризации со скользящимпорогом (см. рис. 5.5) хорошо видны ложные объекты, возникаю&щие при бинаризации пикселей фона, в окрестность которых не по&падают пиксели объектов. Избавиться от этих ложных объектов мож&но на этапе сегментации, так как их форма и размеры носят во мно&гом случайный характер. Очевидно, изменяя размер окрестности, длякоторой строится гистограмма яркости, можно не допустить появле&ния ложных объектов, но подобрать оптимальный, с точки зрениярезультата бинаризации, размер окрестности можно только экспе&риментально по набору тестовых изображений, отражающих особен&ности реальных сцен.


Recommended