31
ТЕХНИЧЕСКИ УНИВЕРСИТЕТ - СОФИЯ КАТЕДРА „КОМПЮТЪРНИ СИСТЕМИ” маг. инж. МИРОСЛАВ ДИМИТРОВ ПЕТРОВ МОДЕЛИ И АЛГОРИТМИ ЗА ИЗВЛИЧАНЕ НА ИНФОРМАЦИЯ В СИСТЕМИТЕ ЗА УЕЙВЛЕТ-БАЗИРАНО ТЪРСЕНЕ ПО СЪДЪРЖАНИЕ АВТОРЕФЕРАТ на дисертационен труд за присъждане на образователна и научна степен „ДОКТОР” докторска програма „Автоматизирани системи за обработка на информация и управление” научно направление: 5.3. “Комуникационна и компютърна техника” Научни ръководители: проф. д-р инж. Пламенка Боровска проф. д-р инж. Маргарита Тодорова Рецензенти: проф. д-р Огнян Наков проф. д-р Кънчо Иванов София , 2014

МОДЕЛИ И АЛГОРИТМИ ЗА ИЗВЛИЧАНЕ НА …konkursi-as.tu-sofia.bg/doks/SF_FKSU/ns/206/avtoreferat.pdf · За построяването на характеристичните

Embed Size (px)

Citation preview

ТЕХНИЧЕСКИ УНИВЕРСИТЕТ - СОФИЯ

КАТЕДРА „КОМПЮТЪРНИ СИСТЕМИ”

маг. инж. МИРОСЛАВ ДИМИТРОВ ПЕТРОВ

МОДЕЛИ И АЛГОРИТМИ ЗА ИЗВЛИЧАНЕ НА

ИНФОРМАЦИЯ В СИСТЕМИТЕ ЗА УЕЙВЛЕТ-БАЗИРАНО

ТЪРСЕНЕ ПО СЪДЪРЖАНИЕ

А В Т О Р Е Ф Е Р А Т

на дисертационен труд за присъждане

на образователна и научна степен

„ДОКТОР”

докторска програма „Автоматизирани системи за обработка на

информация и управление”

научно направление: 5.3. “Комуникационна и компютърна техника”

Научни ръководители: проф. д-р инж. Пламенка Боровска

проф. д-р инж. Маргарита Тодорова

Рецензенти: проф. д-р Огнян Наков

проф. д-р Кънчо Иванов

София , 2014

2

Дисертационният труд е обсъден и насочен за защита от катедрен съвет на катедра

„Компютърни системи“ при ФКСУ, Технически университет – София.

Защитата на дисертационния труд ще се състои на 07.10.2014 г. от 17:00 ч. в зала 2140

Материалите по защитата са на разположение на интересуващите се в канцеларията на

ФКСУ, каб. 1443А на ТУ–София.

Автор: маг. инж. Мирослав Димитров Петров

Заглавие: М о д е л и и а л г о р и т м и з а и з в л и ч а н и е н а и н ф о р м а ц и я в

с и с т е м и т е з а уе й в л е т - б аз и р а н о т ъ р се н е п о с ъ д ъ р ж а н и е

Тираж: 30 бр.

Печатна база на ТУ-София

3

ОБЩА ХАРАКТЕРИСТИКА НА ДИСЕРТАЦИОННИЯ ТРУД

Актуалност на проблема

Все по-интензивното навлизане на съвременните информационни технологии в

системите за организация, съхранение, търсене и пренос на данни е предпоставка за

непрестанното увеличаване, както на количеството и обемите на колекции изображения, така

и на различните типове мултимедийни бази от данни. В тази връзка въпросите за

разработването на ефективни методи за индексиране и извличане на изображения по

съдържание, разпознаване и идентификация, притежаващи бързодействие, надежност и

сигурност продължават да бъдат открити, актуални и динамично развиващи се.

Дисертационният труд е посветен на системите за търсене по съдържание, спектрално

индексирано чрез различни уейвлетни преобразувания. Основното предимство на тези

многомащабни трансформации пред други спектрални методи е възможността за

анализиране на обектите при различни резолюции.

Точките, в които протичат преходни процеси в сигналите и изображенията, се явяват

носители на важна информация и те могат да бъдат идентифицирани по максимумите на

модула на уейвлет-преобразуванието. Следователно, изолираните особености на сигнали и

изображения могат да бъдат използвани за построяване на признаково пространство в

системите за разпознаване. Това прави актуална задачата за разработване на системи за

уейвлет-базирано търсене по съдържание.

Цел и задачи на дисертационния труд

Основната цел на дисертационният труд е да се разработят модели и алгоритми за

извличане на информация в системите за уейвлет-базирано търсене по съдържание на

сигнали и изображения, индексирани по локалните им особености.

В съответствие с поставената цел, на база извършения анализ на системите за търсене

по съдържание, в работата се решават следните задачи:

1. Построяване на модел на система за търсене на сигнали по тяхното съдържание,

индексирано чрез локалните им особености и реализацията му.

2. Построяване на модел на система за търсене на изображения по тяхното

съдържание, индексирано чрез локалните им особености и реализацията му.

3. Разработване на алгоритъм за извличане на компютърно-томографски изображения

от медицински бази данни:

- на база репагулярно уейвлет-преобразувание;

- по проекционни данни.

4

Научна новост

В съответствие с направените анализи и изводи са разработени модели на системи за

уейвлет-базирано търсене по съдържание на сигнали и изображения, индексирани чрез

локалните им особености, с отчитане на техните позиции. Проведен е съответния анализ на

уейвлетните преобразувания за определяне на базисния уейвлет чрез ненормираната

ентропия на Shannon. Предложена е методика за определяне на оптималните (по дадени

критерии) параметри на разработените системи, с цел намаляване на размерността на

дескрипторното пространство, времето за изпълнение и повишаване на точността на

извличане. Реализиран е нов алгоритъм за уейвлет-базирано търсене по съдържание в

пространството на Радон. Проведено е разпознаване на изображения по проекционни данни,

показващо по-висока точност (на база метрика) в сравнение с това по възстановените

срезове. Проведен е еднофакторен дисперсионен анализ за изследване на устойчивостта на

предложените алгоритми за извличане на изображения, относно влиянието на факторите

ротация, контраст, яркост и шум.

Приложимост и полезност

Част от получените в дисертационния труд резултати са използвани в:

проект № РНФ02-19 (RNF_09_0061) 2009 г. Фонд „Научни изследвания” конкурс

„Развитие на научната инфраструктура – 2009” на тема: Проектиране и изграждане

на устройство за безконтактно ултразвуково изследване на среди и материали с

възможност за вграждане в автоматизирани производствени системи;

учебен процес за обучение на студенти от бакалаварска степен, специалност

„Компютърни науки” по дисциплината „Компютърно зрение”.

Апробация

Резултатите от дисертационния труд са докладвани изцяло в катедра „Компютърни

системи“ на Технически Университет-София, а основните ѝ части са публикувани в списания

и сборници на научни конференции: Computer & Communications Engeneering, Serdica Journal

of Computing, International Conference AUTOMATICS AND INFORMATICS’09, International

Conference AUTOMATICS AND INFORMATICS’10, Sixth International Conference "Computer

Science" 2011, XV Майски четения “Дни на науката 2011” и XVIII Майски четения “Дни на

науката 2014”.

Обем и структура

Дисертационният труд съдържа увод и основен текст, структуриран в четири глави,

заключение, приложения и библиография. Обемът е 186 страници, списъкът на

литературните източници включва 130 заглавия, от които 88 на латиница и 8 интернет

източници.

Представен е списък на 7 публикации, свързани с дисертационния труд.

5

КРАТКО СЪДЪРЖАНИЕ НА ДИСЕРТАЦИЯТА

Увод

В увода е обоснована необходимостта от разработването на специализирани

алгоритми за извличане на данни от медицински бази. Тази необходимост се поражда, както

от специфичните особености на медицинските изображения в сравнение с тези от общ

характер, така и от потребностите на лечебно-диагностичната практика, научно-

изследователската и преподавателската дейности в медицинските заведения.

ГЛАВА ПЪРВА

СИСТЕМИ ЗА ТЪРСЕНЕ ПО СЪДЪРЖАНИЕ И МНОГОМАЩАБНИ МЕТОДИ

ЗА ОБРАБОТКА НА ДАННИ

Разработените към настоящия момент методи за извличане на графична информация

се разделят основно в две направления: методи за търсене по текстова анотация (Text-Based

Image Retrieval – TBIR) и методи за търсене по съдържание (Content-Based Image Retrieval –

CBIR). Описването на данните в системите от първия вид се извършва с помощта метаданни

(ключови думи, наименования на изображения и др.). Сред основните недостатъци на тези

системи могат да се посочат: възможността за различна интерпретация на метаданните,

описващи съответния обект и заявените данни от потребителя; необходимостта от

значителен времеви и човешки ресурс, както и възможността за получаване на неточни

резултати от търсенето.

За преодоляване на посочените проблеми се използва вторият подход – CBIR.

Заявеното за извличане изображение от базата данни може да бъде получено от скенер,

видеокамера, компютърен томограф или скица, направена от самия потребител. Този базов

подход за формиране на образеца се среща под различни наименования: търсене или

извличане по съдържание (образец, подобие, скица).

Текстурата се явява главен признак на изображенията от гледна точка на зрителното

им възприемане и разпознаване от човека, затова тя е предпочитана при построяването на

признаковото пространство в CBIR-системите.

Уейвлет-методите за описване и анализиране на текстурата се основават на базовото

свойство на уейвлет-анализа за представяне и анализиране на изображенията на различни

мащабни нива, т.е. при различни резолюции. Елементите на уейвлет-пространствата

отразяват промените, които протичат в спектъра на сигнала, при прехода от едно мащабно

ниво към съседното му. При фиксиран базис в тези пространства, носители на тази

информация се явяват съответните уейвлет-коефициенти. Затова уейвлет-преобразуванието

може да бъде използвано за спектрално индексиране на данните в системите за търсене по

съдържание.

6

Преобразуванието на Радон е в основата на компютърната томография, чиято цел e

анализиране на вътрешната структура на изследвания обект, посредством поредица от

успоредни напречни сечения. Два са основните етапа в работата на съвременния томограф –

регистрация на проекциите на анализирания обект, които като цяло задават неговия образ в

пространството на Радон и възстановяване на томографското изображение по получения

радоновски образ. Един от основните принципи в статистическата теория за вземане на

решения гласи, че всяка предварителна обработка на изходните данни може само да намали,

но не и да повиши съдържащата се в тях информация. Прилагането на този принцип в

системите за търсене води до използването на проекционните данни в задачата за

разпознаване, вместо възстановеното томографско изображение.

Изводи

1. Разширените матрици на съседство, използвани при организацията на система за

търсене на медицински изображения, отразяват добре основните им признаци (текстура,

цвят и форма), но пораждат висока размерност на дескрипторното пространство.

2. За построяването на характеристичните вектори в CBIR-системите, могат да бъдат

използвани уейвлет-коефициентите, тъй като те се явяват индикатори на промените,

протичащи в спектрите на сигнали и изображения.

3. Използването на подходящ базисен уейвлет при спектралното индексиране води до

значително намаляване на дескрипторното пространство.

4. Обратното преобразувание на Радон води до намаляване на информационното

съдържание на проекционните данни, което може да бъде отчетено в методите за

идентификация.

ГЛАВА ВТОРА

УЕЙВЛЕТ-ИНДЕКСИРАНЕ НА СИГНАЛИ НА БАЗА ЛОКАЛНИТЕ ИМ

ОСОБЕНОСТИ

2.1. Локална регулярност на сигнали и уейвлет-преобразуванието им

Описването на регулярността на сигналите в даден интервал (глобално) или в дадена

точка (локално) се осъществява посредством т. нар. показател на Hӧlder. Сигналът s t

удовлетворява условието на Hӧlder ( 0 1 ) в точката 0t , ако съществува константа

0 0H H t , такава че е изпълнено неравенството 0 0 0s t s t H t t

за всички стойности на

t , близки до 0t . За дефинирането на глобалната регулярност се използва понятието

равномерно условие на Hӧlder, ако горното неравенство е изпълнено за всяка точка от

даден интервал и константата 0H не зависи от избора на точката 0t . Най-малката от всички

7

стойности на , за които е изпълнено това неравенство се нарича показател или експонента

на Hӧlder [56].

Точката 0t се нарича особена за сигнала s t , ако показателят на Hӧlder в нея не е

равен на единица. Равномерната и точковата регулярност на сигналите е тясно свързана с

асимптотичното поведение на уейвлет-коефициентите им при малки мащаби и при

определени ограничения за базисния уейвлет – 0,5,, a bs A a , където A е константа и

0 1 .

2.2. Определяне на точките на рязко изменение на сигналите чрез максимумите

на модула уейвлет-преобразуванието им

Локалната регулярност на сигнала s t в дадена точка 0b се измерва с намаляването на

0,sW a b , при малки мащаби, в околност на тази точка.

Максимум на модула на уейвлет-преобразуванието се нарича всяка точка 0 0,a b , за

която функцията 0,sW a b има локален максимум при 0a a . За избягването на случаите, в

които тя е константа, се предполага наличието на строг локален екстремум поне в едната

полуоколност на точката 0a . Ако ,sW a b няма локални екстремуми при малки мащаби, то

сигналът е локално регулярен. Откъдето следва, че 0b е особена (сингулярна) точка на

сигнала s t , ако съществува редица от уейвлет-максимуми ,r r ra b

, която е сходяща за

мащаби, клонящи към нула, т.е. 0lim rr

b b

и lim 0rr

a

. Следователно, локализирането на

особеностите на сигнала се извършва посредством намирането на точките, към които клонят

максимумите на модула на уейвлет-преобразуванието му при малки мащаби.

За намирането на потенциалната изолирана особеност на сигнала в точка 0b се

проследява намаляването на уейвлет-максимумите на модула в нейния конус на влияние.

Същественото в тези разглеждания е факта, че ако базисния уейвлет е с компактен

носител и има n нулеви момента, то съществува функция t с компактен носител и

ненулева средна стойност – 0t dt

, такава че 1n n

t t . Тогава уейвлет-

преобразуванието на сигнала s t може да се представи във вида ,n

ns an

dW a b a s b

db ,

където 1

a

tt

aa

, т.е. уейвлет-преобразуванието на сигнала е пропорционално на n -

тата производна на конволюцията на сигнала с a t в области, пропорционални на мащаба.

2.3. Двоично уейвлет-преобразувание

Максимумите на модула на непрекъснатото уейвлет-преобразувание характеризират

8

локалните сингулярности на сигнала, описващи се посредством показателя на Hӧlder. На

практика анализираните сигнали се задават с отчетите си, получени от дискретизацията на

аналоговия сигнал. В тази връзка възниква въпросът – дали тази дискретизация не лишава от

смисъл понятията сингулярност и показател на Hӧlder? При определени условия, наложени

на базовия уейвлет се оказва, че съответните уейвлет-коефициенти, като функции на

мащабния параметър, се явяват измерител на регулярността на сигнала.

Уейвлет-преобразуванието 2 ,js

jW b

се получава по формулата за непрекъснатата

трансформация, като параметърът a се задава с двоичната скала 2 j

j

. Нека базисният

уейвлет удовлетворява неравенствата 2 j

j

A B

, където A и B са положителни

константи, а с е означено преобразуванието на Фурие на функцията . Полученото

преобразувание се нарича двоично уейвлет-преобразувание, а самият уейвлет – двоичен. Това

преобразувание притежава свойствата на непрекъснатото, в частност остават в сила

твърденията за глобална и локална регулярност. За запазването на инвариантността относно

преместването, задължителна в задачите за разпознаване, в дисертационния труд се използва

SDWT (Stationary Discrete Wavelet Transform).

2.4. Модел на система за търсене по съдържание на сигнали на база изолираните

им особености

За построяване на модела на системата се използва база данни от сигнали iS s n ,

където maxmax, 0,1,...,2 1,

ki I n k и е фиксиран двоичен уейвлет. SDWT поражда

еднозначно представяне на всеки сигнал от базата S във векторното пространство на

признаците 1 2 max, ,..., , 1i i k i

i I

D s D s D s k k

. При извършването на пълна декомпозиция на

сигналите, т.е. при maxk k , размерността на това пространство ще е равна на max2 1k

.

Първоначалното ѝ намаляване може да се осъществи посредством използването на

значимите уейвлет-коефициенти. Отделянето им се извършва с помощта на прагова

обработка по определен критерий, скоростта на изменение на ентропията на Shannon и др. За

всяко ниво на декомпозиция 1,2,...,r k се определят по rm съответно най-големи и най-малки

детайлизиращи коефициента, съответстващи на максимумите на модула на SDWT. По този

начин се конструира 2k блокова матрица на признаците (дескрипторите) ,D s s S . За

r тото ниво на разлагане всеки блок представлява 2 rm мерен масив: единият е rP s ,

съдържащ стойностите на тези локални екстремуми, а другият е rL s и съдържа техните

позиции, т.е. точките на екстремумите. Аналогична матрица на дескрипторите 0D s се

построява и за всеки тестови сигнал 0s .

9

Сходството на матриците на дескрипторите D s и 0D s се оценява посредством

разстоянията между съответните масиви: 0 01

,iL r i r

r kmin L s L s

и 01max ,i

P r i rr k

P s P s

,

където 0 е релацията равенство в множеството на реалните числа, а е фиксирана

метрична функция.

Резултатът от търсенето по съдържание в базата S е множеството от подобни

(релевантни) сигнали 0,iR s i I I , ако 1

2

kiL r

r

m

и iP , за всяко 0i I . Параметрите

0 ,I и се задават допълнително от потребителя. На фиг. 2.3 е представена блокова схема

на предложената система за търсене по съдържание.

изходен

сигнал

заявен

сигнал

индексни

матрици

характеристичен

вектор

определяне

на сходство

индексни

матрици

индексирана

базаданни

Базаданни

изходни

резултати

сортиране по

метрика

Електромиограф

потребителхарактеристичен

вектор

фиг. 2.3. Блокова схема на системата за търсене по съдържание

2.5. Методика за определяне на параметрите на системата за търсене в база

данни от медицински сигнали

За тестването и анализирането на алгоритъма за търсене е използвана специално

създадена база данни от медицински сигнали. Входните данни са от проведено

електромиографско изследване на биоелектричната активност на осем различни мускула

(бицепс и трицепс – за лява и дясна ръка, преден и заден бедрен мускул – за ляв и десен крак)

на четирима пациенти, при извършването на различни физически действия – бягане,

скачане, вървене и навеждане. За целта към всеки изследван мускул се прикрепя иглен или

контактен електрод, посредством който се осъществява отвеждането на биосигналите до

входа на електромиографа за регистрирането им. Данните за всяко измерване са съхранени в

отделни текстови файлове в ASCII формат. Всеки един от сигналите е представен с

приблизително 10000 отчета, които се редуцират до 9216 на брой – ограничение, налагащо се

от изискването на алгоритъма за реализиране на SDWT. Те се подреждат в многомерен масив

10

1 2 3 4, , ,s i i i i , чийто индекси съответстват на: 1i вид на физическото действие, което се

изменя в диапазона от 1 до 4, съответно за анализираните двигателни задачи: бягане,

скачане, вървене и навеждане; 2i номер на изследваното лице, който също се изменя в

диапазона от 1 до 4; 3i номер на измерителния канал, изменящ се в диапазона от 1 до 8 ; 4i

степен на зашумяване, изменяща се в диапазона от 1 до 8, като при 4 1i сигналът е в реалния

си вид, без добавянето на допълнителен шум. Останалите – 4 2 8i , съответстват на

стойностите на средноквадратичното отклонение 1,5,10,20,25,30,35 .

Определянето на параметрите на системата за търсене по съдържание в построената

база медицински сигнали, се основава на сравнителен уейвлет-анализ. За тази цел се налага

решаването на следните задачи:

определяне на най-информативното ниво на декомпозиция;

избор на анализиращия базисен уейвлет;

минимизиране на размерността на дескрипторното пространство.

В качеството на анализиращи базисни уейвлети са използвани представители на

следните три основни групи:

ортогонални уейвлети с компактен носител – Daubechies (db2; db3; db4);

Coiflets (coif 1; coif 2; coif 3); Symlets (sym 2; sym 3; sym 4; sym 6);

биортогонални уейвлети с компактен носител – (bior 2.4; bior 2.6; bior 3.1);

уейвлети на Mayer – (dmey).

Определянето на най-информативното ниво на декомпозиция се извършва по

критерия за минимална ентропия. За решаването на тази задача е използвана предварително

формирана извадка от шестнадесет случайно избрани сигнала от съществуващите в базата

данни. Всеки от тях съответства на отделен мускул за всяко едно от изследваните лица, при

изпълнението на отделните физически действия:

1,1,6,1 , 2,1,8,1 , 3,1,1,1 , 4,1,7,1 ,

1,2,1,1 , 2,2,7,1 , 3,2,2,1 , 4,2,6,1 ,

1,3,8,1 , 2,3,5,1 , 3,3,8,1 , 4,3,8,1 ,

1,4,5,1 , 2,4,6,1 , 3,4,7,1 , 4,4,3,1 .

s s s s

s s s s

s s s s

s s s s

Тези сигнали се разлагат с помощта на всички базисни уейвлети от трите разглеждани

групи до десето ниво на декомпозиция, т.е. 10k . Пресмятат се съответните стойности на

ненормираната ентропия на Shannon при всеки от избраните уейвлети и за всяко от десетте

нива на разлагане. На фиг. 2.5 в графичен вид са представени получените резултати за

сигналите 1,1,6,1 , 2,2,7,1 , 3,3,8,1s s s и 4,4,3,1s . Всички резултати за формираната извадка

са дадени в табл. 1.1÷1.4 от Приложение 1.

На основата на получените резултати може да се направи извода, че оптималното

ниво на декомпозиция, съгласно критерия за минимална ентропия, за използваните базисни

11

уейвлети е 6r . Този резултат се потвърждава и по критерия за абсолютния минимум на

метричната функция, оценяваща сходството.

Изборът на базисен уейвлет се определя въз основа на неговата „чувствителност” към

съответната база данни, която се оценява с относителното изменение на ентропията на

Shannon – 1

0 0

r rE EdE

E E

(с 0E е означена ентропията на изходния сигнал), при 6r и за

всеки един уейвлет от разглежданите три групи. Използвана е формираната в предходното

изследване извадка от шестнадесет сигнала.

фиг. 2.5. Експериментални резултати за определяне на оптималното

ниво на декомпозиция

Относителното изменение на ентропията на Shannon за 1,1,6,1 , 2,2,7,1 ,s s 3,3,8,1s и

4,4,3,1s е представено в графичен вид на фиг. 2.10, а данните за всички сигнали от

формираната извадка са дадени в табл. 1.21 от Приложение 1.

фиг. 2.10. Относително изменение на ентропията на Shannon

12

От получените резултати може да бъде направен извода, че максималното

относително изменение на ентропията се получава, когато за базисна функция се използва

bior 3.1, т.е. този уейвлет е с най-висока чувствителност към анализираната база от

биомедицински сигнали. За потвърждаване на получения резултат е проведено

допълнително експериментално изследване.

Определянето на минималната дължина на индексния вектор се свежда до намирането

на оптималната стойност на параметъра m . В качеството на критерий за оптималност отново

е използвано относителното изменение на ентропията за вече избраните тестови сигнали –

1,1,6,1 , 2,2,7,1 , 3,3,8,1s s s и 4,4,3,1s , като се изследва интервала на изменение на m , в

диапазона от пет до петдесет. На фиг. 2.12 са представени в графичен вид резултатите от

проведеното експериментално изследване.

фиг. 2.12. Отностелно изменение на ентропията, в зависимост

от размерността на дескрипторите

От графиката се вижда, че до третото деление на скалата относителното изменение на

ентропията е значително и след това рязко намалява. Въз основа на това се приема, че

. 20optm .

Проведено е допълнително изследване със същите тестови сигнали, което показва че

при използването на стойности за 20m качеството на разпознаване не се променя

съществено.

2.6. Реализация на aлгоритъма за търсене в база данни от медицински сигнали

Предложеният алгоритъм за търсене по съдържание в база биомедицински сигнали,

на основата на локалните екстремуми на дескрипторите им чрез SDWT (фиг.2.3), е

реализиран в програмната среда Matlab, като са използвани и допълнителните пакети –

Signal Processing Toolbox и Wavelet Toolbox [99, 108].

За провеждането на експерименталното изследване е създадена специална за целта

тестова база данни, съдържаща 1024 биомедицински сигнала. От тях 128 са реални (от

проведено електромиографско изследване), а останалите са допълнително генерирани, като

към всеки един е добавен шум със следните параметри: математическо очакване 0 и

13

съответно средноквадратично отклонение 1;5;10;20;25;30 35и . Така построената база данни

се състои от близки по структура сигнали, което позволява да се изследва, както точността на

предложения алгоритъм, така и неговата устойчивост при различни нива на шум.

Основните параметри в алгоритъма за търсене по съдържание – . 6optr и . 20optm ,

бяха определени в предходната точка.

Експерименталната проверка на описания алгоритъм се извършва с помощта на

формираната по-рано извадка от шестнадесет сигнала от базата данни. В резултат на

изпълнението му на изхода на системата се получава множество от сходни сигнали (relevant

signals) за всеки подаден на входа ѝ тестови сигнал. В табл. 2.4 са представени данните от

проведено експериментално тестване на системата за търсене при различни стойности на

0.8, 0.9 1и . Елементите на всяко от тези множества се анализират от специалист, който

взема окончателното решение, в съответствие с конкретната задача.

От получените резултати при експерименталното тестване, може да бъде направен

извода, че предложения алгоритъм притежава висока точност при разпознаване и добра

шумоустойчивост.

Табл. 2.4. Брой на сходните сигнали, в зависимост от параметрите и

прагова стойност за индекс

4i

прагова стойност за 5e 6e 7e 8e

0.8

1 16 16 16 16

2 12 10 8 1

3 7 4 1 0

4 8 1 0 0

5 4 0 0 0

6 1 0 0 0

7 1 0 0 0

8 0 0 0 0

0.9

1 16 16 16 16

2 12 10 8 1

3 7 4 1 0

4 8 1 0 0

5 4 0 0 0

6 1 0 0 0

7 1 0 0 0

8 0 0 0 0

1

1 16 16 16 16

2 9 7 6 1

3 3 2 1 0

4 1 0 0 0

5 2 0 0 0

6 1 0 0 0

7 0 0 0 0

8 0 0 0 0

На фиг. 2.13 е представен алгоритъмa за извличане на информация от база

биомедицински сигнали, на основата на локалните им особености.

14

SWA SWD

намиране

на локалните

особености

прагова

оработка

дескрипторна

функция

SDWT

LOCS i ≈LOCS test

вх. сигнал

DATABASE

SWD SWA

дескрипторна

функция

SDWT

PKS i ≈ PKS test

i:=i+1

да

да

.

.

.

не

ch=1 : 8

ch=1 : 8

1

2

i

ch=1 : 8

не

заявка

метрична

функция

(PKS i , PKS test)

анализ и оценка на

изходните резултати

намиране

на локалните

особености

прагова

оработка

фиг. 2.13. Алгоритъм за извличане на информация от база биомедицински сигнали, на

основата на локалните им особености

2.7. Изводи

1. Проведеният анализ показва, че шестото ниво на уейвлет-декомпозиция на

медицинските сигнали от разглежданата база, се явява оптимално по отношение на

информативност, както по критерия за минимална ентропия, така и съгласно

критерия за абсолютния минимум на метричната функция в признаковото

пространство.

2. Оптималният базисен уейвлет за индексиране на разглежданата база от

медицински сигнали, относно критерия за относителното изменение на ентропията

на Shannon, се явява bior.3.1. Резултатът се потвърждава и от установената му най-

висока „чувствителност” към данните от базата чрез максималната стойност на

метричната функция.

3. Направеният анализ показва, че метричната функция приема най-малки стойности

в индексното пространство, когато за оценка на сходството се използва

15

косинусовото разстояние. Подобни резултати се получават и с корелационното

разстояние, което се обяснява със сходството на двете метрични функции.

4. Оптималната размерност на характеристичния вектор, съгласно критерия за

относителното изменение на ентропията, се получава при стойност на параметъра

20m .

5. Предложеният алгоритъм за извличане на сигнали, спектрално индексирани по

локалните им особености, притежава висока точност (по метрика) на разпознаване

и добра шумоустойчивост.

ГЛАВА 3. УЕЙВЛЕТ-ИНДЕКСИРАНЕ НА ИЗОБРАЖЕНИЯ ПО ЛОКАЛНИТЕ

ИМ ОСОБЕНОСТИ

3.1. Многомащабна реализация на детектора на Canny

Особеностите на функция могат да се определят като точки на прекъсвания, в които

нормата на градиента нараства неограничено. Независимо, че данните за изображението са

дискретни, то често ръбовете му се определят чрез локалните максимуми на градиента му.

Един от методите за откриването на точките на ръб се явява детекторът на Canny.

Наличието на параметъра стандартно отклонение в гаусовата функция позволява

разглеждането на метода на Canny като многомащабна версия на градиентните методи.

Продължаването на тази идея довежда до построяването на многомащабния детектор на

Canny. Нека изображението ,s x y е подложено на двумерна конволюция с ядро ,x y ,

чиито частни производни задават ориентираните уейвлети 1 , ,xx y x y и

2 , ,yx y x y . По този начин уейвлет-преобразуванието на изображението ,s x y се

записва във вида: , , , .asW a u v a s u v Следователно, компонентите на двоичното

уейвлет-преобразувание на даденото изображение са пропорционални на координатите на

градиента на изгладеното изображение, посредством функцията ,a x y . Тогава локалните

максимуми на този градиент са пропорционални на съответните максимуми на модула на

уейвлет-преобразуванието на изображението.

3.2. Локална регулярност на изображения и уейвлет-преобразуванието им

Както и при уейвлет-анализа на сигналите, двумерното стационарно двоично уейвлет-

преобразувание запазва свойствата на непрекъснатото, т.е. понятията локална особеност,

показател на Hӧlder и съответните твърдения остават в сила и в дискретния случай.

Измерването на гладкостта на изображението ,s x y по Hӧlder се свежда до изследване на

поведението на компонентите 1 2 , ,jsW u v и 2 2 , ,j

sW u v на двоичното му уейвлет-

16

преобразувание в съответната околност, при малки мащаби.

В случая, когато алгоритъмът на Mallat за двумерното уейвлет-преобразувание се

осъществява с помощта на разделими филтри, т.е. прилага се едномерното преобразувание

по хоризонтали и след това по вертикали на изображението, се получават три диапазона

уейвлет-коефициенти: ,H VD D и DD . Коефициентите с голяма амплитуда сред

хоризонталните HD съответстват на измененията във вертикално направление, т.е. ще се

открояват ръбовете в хоризонтална посока. Аналогично, тези от VD ще отразяват

измененията по хоризонтали, а за диагоналните DD – по двете направления.

3.3. Модел на системата за търсене на изображения на база изолирани особености

За построяването на модела на системата за търсене се използва база от полутонови

изображения ,iS s n m , където max, , 0,2,...,2 1k

i I n m , maxk и е фиксиран двоичен

уейвлет. От резултатите в т.1.3.2 следва, че SDWT поражда еднозначно представяне на всяко

изображение от S в дескрипторното пространство

1 1 1

, , ;...; , , ,k k k

H V D H V Di i i i i i

i I

D s D s D s D s D s D s

където max1 .k k При пълна декомпозиция

на изображенията, т.е. при maxk k , размерността на това пространство ще е равна на max22 1

k .

Първоначалното намаляване на тази размерност може да се реализира на базата на значимите

уейвлет-коефициенти. Прилагайки прагова обработка по определен критерий за всяко ниво

на декомпозиция 1,2,...,r k , се определят съответно по , , ,rm H V D най-големи и най-

малки детайлизиращи коефициента, отговарящи на максимумите на модула на SDWT. По

този начин се конструира 3 2k блокова матрица на признаците (дескрипторите)

,D s s S . За r тото ниво на разлагане всеки блок представлява 2 rm мерен масив:

единият е , , ,rP s H V D , съдържащ стойностите на тези локални екстремуми, а другият –

, , ,rL s H V D съдържа техните позиции. Аналогична матрица на дескрипторите 0D s се

построява и за тестовото изображение 0s .

Сходството на матриците на дескрипторите D s и 0D s се оценява посредством

разстоянията между съответните им масиви: 0 01

,r

ii rL r k

min L s L s

и

01max , , , ,

r r

iiP r k

P s P s H V D

, където 0 е релацията равенство в множеството на

реалните числа и е метрична функция.

3.4. Методика за определяне на параметрите на системата за търсене в база

данни от медицински изображения

За провеждане на изследването, анализа, както и определянето на параметрите на

17

предложения модел на система за търсене по съдържание е разработена специално за целта

база данни с медицински изображения от проведено компютърно-томографско изследване на

15 пациенти. Получените резултати са разпределени в три различни групи: глава, гръбначен

стълб и колянна става. Всяка от тях съдържа съответно по 5437, 2998 и 1847 на брой среза.

Медицинските изображения са във изходен формат DICOM и преди да постъпят на входа на

системата се преобразуват в полутонови .

Определянето на параметрите на системата за търсене по съдържание в построената

база медицински изображения се основава на проведен сравнителен уейвлет-анализ. За тази

цел се решават следните задачи:

определяне на най-информативното ниво на декомпозиция;

избор на анализиращия базисен уейвлет;

минимизиране размерността на дескрипторното пространство.

изследване устойчивостта на системата при различни фактори: ротация, изменение

на яркост, контраст и шум.

В качеството на критерий за определяне на най-информативното ниво на

декомпозиция, както и в Глава 2 (т. 4) се използва ненормираната ентропия на Shannon. За

тази цел се формира извадка от 300 изображения (среза) от всичките налични в базата данни

– 10282. За всеки един от пациентите, от произволно избрана подпапка от неговите

изследвания, се избират по 20 среза, чиито номера са генерирани на базата на графичния

редактор ImageJ (Java-базиран софтуер за анализ и обработка на изображения). След това

всяко едно изображение се подлага на SDWT, посредством всичките 24 базисни уейвлети от

указаните във втора глава групи, до шесто ниво на декомпозиция ( 6k ). Пресмята се

средноаритметичната стойност на ентропията за трите направления, за всяка от изследваните

групи. Получените резултати за отностителното изменение на ентропията са представени на

фиг. 3.2, от която е видно, че след третата скала изменението на / rdE E силно намалява, т.е.

фиг.3.2. Относително изменение на ентропията при промяна

на нивото на декомпозиция

r

dE

E

18

по-горните нива на разлагане не водят до съществени изменения на количеството

информация, съдържаща се в съответните уейвлет-коефициенти. Следователно, може да се

приеме, че четвъртото ниво на декомпозиция е най-информативно, т.е. 4r .

Изборът на базисен уейвлет се определя по неговата чувствителност към съответната

база данни, определена посредством дадена метрика. За целта е проведено експериментално

изследване като от вече формираната извадка се избират по един срез за всеки един пациент,

от всяка една от изследваните групи анатомични органи. На тяхна база се генерират по пет

допълнителни изображения, получени чрез добавяне на гаусов шум със следните параметри:

математическо очакване 0 , при различни стойности на дисперсията

0.01;0.02;0.05;0.75;0.1v , които за удобство са означени с vs . За всякo от шестте изображения

се построяват матриците на дескрипторите им vD s , както и D s , при . 4optr и за всички

базисни уейвлети от трите групи. За оценка на сходството на дескрипторните матрици

vD s и D s са използвани релацията 0 , явяваща се равенство в множеството на

реалните числа, подходяща прагова обработка и е една от следните метрични функции:

евклидово разстояние или косинусова метрика. Чувствителността на анализиращия уейвлет

се определя чрез максималната стойност на 4 4, vssP P , за всяка от стойностите

0.01;0.02;0.05;0.75;0.1v . На фиг. 3.4. а) са показани графиките, отразяващи чувствителността

на анализиращия уейвлет за пациент_1.

фиг.3.4. а) Чувствителност на анализиращия уейвлет

За минимизиране на размерността на дескрипторното пространство са проведени две

групи изследвания за диапазона на изменение на m : {25,50,100,150,200,250,300}m и

{500,1000,1500,2000,m ,2500,3000 . В първият случай се решава задачата за търсене на

визуално сходни изображения в индивидуален пациентски архив, а втората група

изследвания се отнася за задачата за извличане на подобни изображения от аналогични

изследвания на други пациенти.

19

Получените резултати за относителното изменение на ентропията са показани на фиг.

3.5. а) и б). Следователно, за оптимални стойности на размерността на характеристичните

вектори се избират съответно 150m и 1750m , в зависимост от това кой от двата режима на

търсене ще бъде използван.

а) за {25,50,100,150,200,250,300}m

б) за {500,1000,1500,2000,2500,3000}m

фиг. 3.5. Относително изменение на ентропията при отделните нива на m

За изследване на устойчивостта на предложения алгоритъм в системата за търсене се

провежда експериментално изследване за влиянието на четири групи фактори са приложени

следните нива на съответния фактор:

за ротация – 2 , 1 ,1 , 2 ;

за контраст – 5% ,10% ,15% ;

за яркост – 5% ,10% ,15% ;

за шум (гаусов) – 0.01, 0.02 ,0.05 .

20

Резултатите от проведения дисперсионен анализ показват неустойчивост на

алгоритъма единствено относно фактора ротация.

3.5. Реализация на система за търсене в база данни от медицински изображения

Предложеният модел на система за търсене по съдържание в база от медицински

изображения, индексирани чрез локалните им особености, е програмно реализиран в Matlab,

като са използвани и допълнителните пакети – Image Processing Toolbox и Wavelet Toolbox.

Експерименталното тестване на системата за търсене е проведено със създадената

база данни, съдържаща 10282 изображения (среза) от образно-диагностични изследвания,

получени посредством компютърна томография на 15 пациента в три категории изследвания

(глава, гръбначен стълб и колянна става). Използваните медицински изображения са в

изходен формат DICOM и са получени от компютърни томографи Siemens – Somatom

Definition / Spirit на МБАЛ „Св. Марина” ЕАД – Варна.

На фиг. 3.6 е представен моделът на използваната база данни.

фиг. 3.6. Модел на индексираната база данни

За тестване работоспособността на системата за търсене и времето за изпълнение е

проведено експериментално изследване с построената база данни, при двата режима на

извличане – от индивидуален пациентски архив и от изследванията на други пациенти. За

целта е използвана компютърна система със следните параметри:

GIGABYTE 970A-DS3/AM3/4xDDR3/2xPCI, rev.1.0;

CPU AMD FX-Series X8 8350 /4.0GHz,16MB,125W,AM3+/;

8GB DDR3/1600MHz/PC3-12800/;

ATI Radeon R667D3/HD6670 GPU/2GB GDDR3;

HDD 2TB/SATAIII/7200rpm/64MB.

21

Получените резултати за времето за изпълнение са представени в табл. 3.5.

Табл. 3.5. Време за изпълнение, в зависимост от обема на базата данни

пациент

№ изследване

разделителна

способност

брой

срезове

вариант_I вариант_II

бр. срезове

време за

изпълнение

[s]

бр.

срезове

време за

изпълнение

[s]

1

HEAD

512x512

5437

120 26.46 5317 1133.58

2 512x512 522 98.99 4915 1064.86

3 512x512 4483 1213.04 954 194.22

4 512x512 312 61.33 5125 1073.73

5

SPINE

512x512

2998

188 36.53 2810 505.14

6 512x512 813 170.69 2185 406.84

7 512x512 538 100.37 2460 445.86

8 512x512 274 54.75 2724 493.84

9 512x512 217 42.55 2781 504.15

10 512x512 766 147.01 2230 404.79

11 512x512 202 40.27 2796 503.72

12

KNEE

1024x1024

1268

94 20.38 1174 316.95

13 1024x1024 619 126 1228 231.30

14 1024x1024 839 166.56 429 187.54

15 1024x1024 295 61.75 973 288.34

На фиг. 3.9 и фиг. 3.10 са представени резултатите от намерени визуално сходни

изображения по зададен образец, при двата режима на търсене, като за входно изображение

са използвани съответно срезове от категории – глава и гръбначен стълб.

фиг. 3.9. Експериментални резултати от търсенето – Вариант I

22

фиг. 3.10. Експериментални резултати от търсенето – Вариант II

3.6. Изводи

1. Проведеният анализ показва, че четвъртото ниво на уейвлет-декомпозиция на

медицинските изображения от разглежданата база, се явява оптимално по

отношение на информативност, съгласно критерия за относителното изменение на

ентропията.

2. Оптималният базисен уейвлет за индексиране на разглежданата база от

медицински изображения, относно критерия „чувствителност” се явява bior.3.1.

Резултатът се потвърждава и от графиката на относителното изменение на

ненормираната ентропия на Shannon.

3. Проведеният анализ показва, че оптималната размерност на характеристичния

вектор, съгласно критерия за относителното изменение на средната ентропия е:

150m – в задачата за търсене на визуално сходни изображения в

индивидуален пациентски архив;

1750m – в задачата за извличане на сходни изображения от аналогични

изследвания на други пациенти.

4. Предложеният алгоритъм за извличане на изображения, спектрално индексирани

по локалните им особености, е относително устойчив на влиянието на факторите

контраст, яркост и шум, но е съществено зависим от ротацията.

23

ГЛАВА 4. ПРИЛОЖЕНИЕ НА ПРЕОБРАЗУВАНИЕТО НА РАДОН И

РЕПАГУЛЯРНОТО УЕЙВЛЕТ-ПРЕОБРАЗУВАНИЕ В СИСТЕМИТЕ ЗА

ТЪРСЕНЕ ПО СЪДЪРЖАНИЕ

4.1. Приложение на проекционните данни на томографски изображения в

системите за търсене по съдържание

Предимствата при използването на проекционните данни за анализирания обект в

задачата за разпознаване, пред това на възстановените томографски изображения, са

показани чрез две експериментални изследвания. Използвани данните за пациенти с номера

1, 6 и 12 от формираната в Глава 3 (т. 4) извадка. В първия случай всеки един от двадесетте

среза на указаните представители се подлагат на преобразуванието на Радон, при изменение

на параметъра от 0 до 360 , със стъпка от 1 . Всяка една от получените проекции се

подлага на SDWT, при определените в Глава 3 (т. 4) параметри bior3.1 и четвърто ниво на

декомпозиция, след което се формират характеристичните вектори. На входа на системата за

търсене като заявка последователно се подават всички срезове от формираната извадка. За

провеждане на второто изследване, на база получените проекционни данни, се извършва

възстановяване на изображенията по метода на филтрираните обратни проекции. След това

се прилага алгоритъмът, предложен в трета глава.

В табл. 4.1 са представени получените резултати от оценката на сходството при

тестване на системата в двете експериментални задачи: разпознаване (идентификация) и

намиране на релевантни изображения. Получените средноаритметични стойности на мярката

за сходство при идентификация с използване на проекционните данни показват, че тя е с

44,37% по-малка от тази при възстановените срезове, а при търсенето на релевантни

изображения – с 18,21%.

Тези резултати потвърждават ефективността от използването на проекционните данни

в алгоритмите за извличане на изображения от медицински бази данни, пред това на

възстановения томографски срез.

Табл.4.1. Оценка на сходството по метрика

вид изследване по проекционни данни по възстановени образи

идентификация релевантни идентификация релевантни

глава 2.13E-16 1.36E-03 5.39E-16 1.99E-03

гръбначен стълб 3.89E-16 1.60E-03 4.79E-16 1.83E-03

колянна става 5.18E-16 6.22E-04 5.99E-16 4.03E-03

4.2. Репагулярно уейвлет-преобразувание

Базисният уейвлет на репагулярното уейвлет-преобразувание (Repagulum Wavelet

Transform – RWT ) се явява фамилия функции, локализирани в една точка. При него

24

изменението на мащаба не се осъществява с помощта на преобразуванието подобие, както в

обичайната уейвлет-трансформация, а чрез използването на функции с различна

регулярност.

В приложенията за базисен уейвлет на RWT се избира , 2 t at a , която е подходяща

за числената му реализация. Тогава уейвлет-преобразуванието ,rsW a b , на сигнала s t , се

получава чрез конволюция с помощта на филтъра

0

2 11 12 22 ,..., 2 , 2 , 1,1,2 ,2 ,...,2

aa a

n

NN a N aa a a a

aG n

. Стойностите на

параметъра a на репагулярното уейвлет-преобразувание може да се зададат с формулата

02 ja , където 0 е някакво фиксирано число от интервала 0,1 , а 0,1,2,...j . Промяната

на j води до изменение на параметъра на регулярност, т.е. при репагулярното уейвлет-

преобразувание преминаването от едно ниво на разрешение към друго се осъществява чрез

промяна на параметъра a .

4.3. Алгоритъм за извличане на изображения на базата на репагулярното

уейвлет-преобразувание

Използвайки предложената методика в Глава 3 (т. 4) се решават следните задачи:

определяне на най-информативното ниво на декомпозиция и параметрите на

базисния уейвлет;

изследване устойчивостта на системата при различни фактори: ротация, изменение

на яркост, контраст и шум.

От графиката на фиг. 4.2 се вижда, че след четвъртата скала изменението на j

dE

E силно

намалява, т.е. по-горните нива на разлагане не водят до съществени изменения на

количеството информация, съдържаща се в съответните уейвлет-коефициенти. Следователно

фиг.4.2. Относително изменение на ентропията, при промяна

на нивото на декомпозиция

j

dE

E

25

може да се приеме петото ниво на декомпозиция за най-информативно – т.е. 5j , при

0 0.99 .

Устойчивостта на предложения алгоритъм в системата за търсене се изследва за

същите фактори и за същите нива. Потвърждава се неустойчивостта и на този алгоритъм

относно фактора ротация.

4.4. Сравнителен анализ на предложените алгоритми за извличане на

изображения

Методите за оценяване на системите за извличане на информация от медицински бази

данни са по-слабо развити в сравнение с тези за изображения от общ характер.

Ограничеността на общодостъпни специализирани тестови медицински информационни

бази, подобни на Harvard Medical School [125], необходимостта от експерт-оценител, както и

конфиденциалността на данните, са сред основните проблеми при оценка на

работоспособността на CBIR-системите в областта на медицината.

За оценка на работата на предложените алгоритми в системата за търсене са

използвани следните мерки: precision , recall и mF .

В проведеното експериментално изследване са използвани данните от формираната в

т. 3.4 извадка от 300 изображения. Наборът от срезове принадлежащи към всеки един от

избраните пациенти с номера 1, 6 и 12 (по един представител за всяка една от изследваните

групи анатомични органи) са групирани по визуално сходство. По този начин изображенията

на изследваните пациенти са разпределени съответно в 13, 6 и 13 групи. За оценяване на

системата от всеки един срез се генерират допълнителни изображения, получени чрез

добавяне на гаусов шум със следните параметри: математическо очакване 0 и стойности

на дисперсията 0.00025, 0.0005, 0.00075, 0.001, 0.005, 0.0075, 0.01, 0.025, 0.05, 0.1v . В качеството на

заявка е използван целият набор от представители на всяка една от сформираните групи,

като за релевантни се считат всички срезове от съответната група, както и допълнително

генерираните при 0.00025, 0.0005, 0.00075, 0.001, 0.005, 0.0075, 0.01v . В табл. 4.5 са представени

получените резултати от проведените изследвания за оценка на качествата на системата за

търсене, а в табл. 4.6 – резултатите, оценяващи алгоритмите по метрика.

Табл.4.5. Метрични оценки за качеството на системата

за търсене при SDWT и RWT

вид изследване

SDWT RWT

Precision Recall mF Precision Recall mF

глава 0.905 0.914 0.909 0.929 0.984 0.956

гръбначен стълб 0.904 0.879 0.891 0.938 0.98 0.959

колянна става 0.913 0.95 0.931 0.93 0.973 0.951

26

Въз основа на данните в табл.4.5 може да се заключи, че системата за търсене,

използваща RWT, превъзхожда по качество тази, базирана на SDWT, относно избраните

мерки за оценка. Това се изразява в постигането на по-висока точност, както при

извличането на необходимите на потребителя данни, така и за откриването на релевантни

изображения на подадената заявка.

Табл.4.6. Сравнителна таблица на метричните стойности при индентификация

с SDWT и RWT

срезове SDWT 16E RWT 16E

1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8

пациент 1

/глава/ 4.33 2.92 3.61 4.22 4.88 4.94 10.2 3.39 2.78 2.66 3.05 0.83 2.22 1.83 1.39 2.39

пациент 6

/гръбначен

стълб/

4.38 4.16 3.1 6.02 5.27 5.92 7.6 3.72 1.35 0.74 2.04 1.11 2.15 3.4 1.7 1.44

пациент 12

/колянна става/ 6.83 3.28 3 5.33 4.04 4.44 2.57 3.39 4.05 2.72 2.61 3.39 3.22 1.22 1.55 0.94

4.5. Изводи

1. Точността на разпознаване по томографски проекции в системите за търсене е по-

висока от съответната на тези, използващи възстановените срезове;

2. В резултат на направените изследвания се установява неустойчивостта на

алгоритъма за извличане по отношение на фактора ротация, когато индексирането

на данните е извършено с RWT. С това се потвърждава съответният извод,

направен в трета глава;

3. Стойностите на избраните мерки за оценка качествата на предложената система за

търсене са по-високи при алгоритъма, базиран на RWT.

Заключение

Създаването на специализирани бази данни е предпоставка за конструиране и анализ

на съответните подходящи алгоритми за извличане на информацията от тях. Приоритетно се

разработват системи за търсене по съдържание, поради очевидните им предимства пред тези,

които използват анотирани данни.

Текстурата на изображенията е една от най-често използваните характеристики при

индексирането на данни, като основен визуален техен признак. Използването на локалните

особености на данните в алгоритмите за извличане, прави спектралните методи за

27

построяване на характеристичните вектори предпочитани пред пространствените, поради

способността им да локализират по-точно тези нерегулярности.

Компютърно-томографските изображения се характеризират с високо контрастни

участъци, което ги прави подходящи за индексиране посредством локалните екстремуми на

уейвлет-преобразуванието им.

Провеждането на подходящ анализ на уейвлетните преобразувания има за цел да

осигури оптималност (по определени критерии) на параметрите на системата за търсене по

съдържание в съответните бази от данни. Тестването и оценката на качествата на системата

са необходими етапи при реализацията на системите за търсене.

28

ПРИНОСИ НА ДИСЕРТАЦИОННИЯ ТРУД

Поставените задачи в първа глава на настоящата разработка са изпълнени, като за

целта са проведени необходимите теоретични и практически изследвания, придружени със

съответните изводи. В дисертационния труд могат да бъдат формулирани следните приносни

моменти:

I. Научно-приложни приноси:

I.1. Разработени са модели на системи за уейвлет-базирано търсене по съдържание на

сигнали и изображения, индексирани чрез локалните им особености, с отчитане на техните

позиции.

I.2. Предложена е методика за определяне на оптималните (по дадени критерии)

параметри на разработените системи, с цел намаляване на размерността на дескрипторното

пространство, времето за изпълнение и повишаване на точността на извличане.

I.3. Предложен е нов алгоритъм за уейвлет-базирано търсене по съдържание в

пространството на Радон. Реализирано е разпознаване по проекционни данни, показващо по-

висока точност (на база метрика) в сравнение с това по възстановените срезове.

II. Приложни приноси:

II.1. Проведен е анализ на уейвлетните преобразувания в алгоритмите за извличане

на медицински сигнали и изображения, състоящ се в:

• определяне на най-информативното ниво на декомпозиция на медицинските

данни;

• определяне на анализиращия базисен уейвлет.

II.2. Изследвана е устойчивостта на алгоритъма за извличане на медицински

изображения относно качествените фактори: ротация, контраст, яркост и шум.

II.3. Предложено е индексиране на съдържанието чрез RWT в алгоритъма за

извличане на медицински изображения, като е проведен и съответния факторен анализ за

устойчивостта му.

II.4. Проведен е сравнителен анализ на точността на предложените в дисертационния

труд алгоритми за извличане на изображения, който показва ефективността на RWT за

индексиране на данните.

II.5. Направена е програмна реализация, тестване и оценка на предложените

алгоритми за търсене по съдържание на медицински данни, индексирани чрез максимумите

на модула на SDWT и RWT.

29

ПУБЛИКАЦИИ, СВЪРЗАНИ С ДИСЕРТАЦИОННИЯ ТРУД

1. Петров, Д., Петров М., Приложение на уейвлет-максимумите в S - задачата за сигнали с

изолирани особености, International Conference AUTOMATICS AND INFORMATICS’09,

29.09-04.10. 2009, София, pp I-69_I-71.

2. Petrov, D., Petrov M., Algorithm for machine recognition images with isolated peculiarities,

International Conference AUTOMATICS AND INFORMATICS’10, 2010, Sofia, pp I-157_I-

159.

3. Петров, М., Тодорова М., Разпознаване на медицински изображения на основата на

двумерно стационарно уейвлет преобразувание, международна конференция - XV

Майски четения “Дни на науката 2011”, Велико Търново, с. 485-489.

4. Petrov, М., M. Todorova, P. Borovska. A comparative analysis of stationary wavelet transform

and repagulary wavelet transform in image recognition, Sixth International Conference

"Computer Science", Ohrid, Macedonia, University for Information Science and Technology

“St. Paul The Apostole”, 01-03 September 2011, ISBN: 978-954-438-914-7, pp. 214-218, /best

paper award certificate/.

5. Petrov, M. A comparative wavelet analysis and a model of a content-based indexing and

searching system in biomedical signal databases, Computer & Communications

Engeneering,Vol. 7, No2, pp. 63-68, 2013.

6. Petrov, M. Content-based image retrieval for computer tomography images, using wavelet

descriptors. Serdica Journal of Computing - accepted for publication.

7. Боровска, П., М. Тодорова, М. Петров. Текстурно базирани системи за търсене по

съдържание. XVIII Майски четения “Дни на науката 2014”, Велико Търново - под печат.

30

ВНЕДРЯВАНЕ НА РЕЗУЛТАТИТЕ ОТ ДИСЕРТАЦИОННИЯ ТРУД

Част от получените в дисертационния труд резултати са използвани в:

проект № РНФ02-19 (RNF_09_0061) 2009 г. Фонд „Научни изследвания” конкурс

„Развитие на научната инфраструктура – 2009” на тема: Проектиране и изграждане

на устройство за безконтактно ултразвуково изследване на среди и материали с

възможност за вграждане в автоматизирани производствени системи;

учебен процес за обучение на студенти от бакалаварска степен, специалност

„Компютърни науки” по дисциплина „Компютърно зрение”.

Цитирания:

Работа [1] от списъка с публикации е цитирана в:

Цанева, Г. Уейвлет компресия на електрокардиографски сигнали с прагова

обработка. Списание “Автоматика и информатика”, №3, 2012, с. 38-42.

Работа [2] от списъка с публикации е цитирана в:

Господинова, Е., М. Господинов. Фрактален и мултифрактален анализ на едномерни

и двумерни медицински данни. Списание “Автоматика и информатика”, №4, 2012.

31

SUMMARY

The present doctoral dissertation is dedicated to onе of the most actively developing

branches of Computer Vision and Image Recognition – Graphic Information Context Retrieval

Systems. The spectral-based approach in constructing the descriptor space in search systems has

been chosen on the basis of the analysis of the recent publications on this topic that has been carried

out. Basically the texture of the images is considered their main feature in terms of their visual

perception and recognition by people.

The thesis works out models and algorithms for wavelet-based content search of signals and

images indexed according to their local characteristics, recognizing their positions in the data. The

module maxima of their wavelet transforms are a reliable detector of these isolated local

characteristics.

The methodology suggested for defining optimal parameters of data retrieval systems

(according to given criteria) is made for particular medical databases. For this purpose the

corresponding analysis of the wavelet transforms used has been carried out.

The thesis works out an algorithm for medical data retrieval based on their projections in

Radon space that proves a well-known decision-making principle in Statistical Theory.

The suggested algorithms in search systems have been tested in terms of resistance to certain

quality factors, as well as in terms of an accurate, complete and fast retrieval.