Automatyczne rozpoznawanie elementów mimiki w obrazie ...home.agh.edu.pl/~przybylo/PhD.pdf ·...

Akademia Górniczo-Hutnicza im. St. Staszica w KrakowieWydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Rozprawa doktorska

Automatyczne rozpoznawanieelementów mimiki w obrazie

twarzy i analiza ich przydatnoścido sterowania

Jaromir Przybyło

Promotor: dr hab. inż. Piotr Augustyniak

Kraków, 2008

Rodzicom

za to że wspierali mnie cały czas

Mirkowi J.

za motywowanie mnie zarówno do pracy jak i do odpoczynku

Izie G.

za wyrozumiałość, troskę oraz motywowanie do pogłębiania wiedzyw innych dziedzinach

Filipowi W.

życząc mu w przyszłości kariery naukowej (o ile będzie to jego marzeniem)

Spis treści

Spis treści i

I O rozprawie 3

1 Wstęp 51.1 Kontekst pracy, uzasadnienie podjęcia tematu . . . . . . . . . . . . 51.2 Zakres, teza oraz cele rozprawy . . . . . . . . . . . . . . . . . . . . 61.3 Streszczenie rozprawy . . . . . . . . . . . . . . . . . . . . . . . . . 8

II Elementy mimiki 11

2 Sposoby pomiaru oraz opisu ekspresji mimicznych twarzy 132.1 Mimika twarzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Facial Action Coding System . . . . . . . . . . . . . . . . . . . . . 152.3 MPEG-4 FAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Określenie i wybór rozpoznawanych elementów mimiki 213.1 Systematyka typowych zadań wykonywanych przez użytkowników . 213.2 Własności i systematyka urządzeń wejściowych . . . . . . . . . . . 233.3 Analiza możliwości jakie oferuje mimika . . . . . . . . . . . . . . . 243.4 Wybór elementów mimiki potencjalnie przydatnych do sterowania 32

4 Atrybuty elementów mimiki 374.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2 Atrybuty stałe — kształt . . . . . . . . . . . . . . . . . . . . . . . 384.3 Atrybuty zmienne — lokalne zmiany wyglądu . . . . . . . . . . . . 394.4 Atrybuty dynamiczne — ruch i jego trajektoria . . . . . . . . . . . 40

SPIS TREŚCI

III Automatyczne rozpoznawanie elementów mimiki 41

5 Elementy systemu automatycznego rozpoznawania mimiki 435.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.2 Selektywne przetwarzanie informacji, segmentacja . . . . . . . . . . 46

5.2.1 Segmentacja na podstawie barwy skóry . . . . . . . . . . . 485.2.2 Dobór przestrzeni kolorów oraz metody segmentacji . . . . 50

5.3 Detekcja i lokalizacja twarzy . . . . . . . . . . . . . . . . . . . . . . 555.3.1 Algorytm detekcji i lokalizacji twarzy . . . . . . . . . . . . 575.3.2 Rezultaty detekcji i lokalizacji twarzy . . . . . . . . . . . . 59

6 Wyodrębnianie z obrazu twarzy elementów mimiki 636.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636.2 Statystyczne modele kształtu . . . . . . . . . . . . . . . . . . . . . 646.3 Histogramy orientacji . . . . . . . . . . . . . . . . . . . . . . . . . 676.4 Detekcja ruchu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

7 Rozpoznawanie wybranych elementów mimiki 757.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 757.2 Opis wybranych metod klasyfikacji . . . . . . . . . . . . . . . . . . 767.3 Rozpoznawanie elementów mimiki — rezultaty i wnioski . . . . . . 78

7.3.1 Statystyczne modele kształtu . . . . . . . . . . . . . . . . . 807.3.2 Histogramy orientacji . . . . . . . . . . . . . . . . . . . . . 81

8 Adaptacja systemu rozpoznawania mimiki 878.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 878.2 Estymacja położenia głowy człowieka względem kamery . . . . . . 89

8.2.1 Algorytm estymacji położenia głowy . . . . . . . . . . . . . 918.2.2 Rezultaty estymacji położenia głowy . . . . . . . . . . . . . 96

8.3 Wpływ parametrów kamery oraz zmian oświetlenia sceny . . . . . 998.3.1 Automatyzacja tworzenia modelu barwy skóry . . . . . . . 100

8.4 Metoda kalibracji systemu . . . . . . . . . . . . . . . . . . . . . . . 1038.4.1 Detekcja mrugnięć . . . . . . . . . . . . . . . . . . . . . . . 1078.4.2 Lokalizacja nozdrzy . . . . . . . . . . . . . . . . . . . . . . 109

9 Podsumowanie 1139.1 Główne rezultaty i wnioski . . . . . . . . . . . . . . . . . . . . . . . 1139.2 Kierunki dalszych badań . . . . . . . . . . . . . . . . . . . . . . . . 117

Bibliografia 121

A Opis metod i algorytmów 131A.1 Przestrzenie barw . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

A.2 Metody segmentacji twarzy . . . . . . . . . . . . . . . . . . . . . . 132A.3 Estymacja i usuwanie szumów z sekwencji video . . . . . . . . . . . 135A.4 Metoda PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137A.5 Metoda przestrzeni skali (ang. scale-space) . . . . . . . . . . . . . . 140A.6 Filtry Gabora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141A.7 Wyznaczanie mapy prawdopodobieństwa oczu oraz ust . . . . . . . 142

B Opis jednostek czynnościowych mimiki 145

C Rezultaty rozpoznawania elementów mimiki — wykresy i tabele 161C.1 Informacje ogólne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161C.2 Histogramy orientacji — konfiguracja nr 1 . . . . . . . . . . . . . . 162C.3 Histogramy orientacji — konfiguracja nr 2 . . . . . . . . . . . . . . 164C.4 Histogramy orientacji — konfiguracja nr 3 . . . . . . . . . . . . . . 165C.5 Histogramy orientacji — konfiguracja nr 4 . . . . . . . . . . . . . . 166C.6 Histogramy orientacji — badanie wpływu oświetlenia . . . . . . . . 167C.7 Histogramy orientacji — badanie wpływu skali . . . . . . . . . . . 168C.8 Histogramy orientacji — badanie wpływu skali i rotacji . . . . . . 169C.9 Statystyczne modele kształtu — test 1 . . . . . . . . . . . . . . . . 170C.10 Statystyczne modele kształtu — test 2 . . . . . . . . . . . . . . . . 171C.11 Statystyczne modele kształtu — test 3 . . . . . . . . . . . . . . . . 172C.12 Statystyczne modele kształtu — test 4 . . . . . . . . . . . . . . . . 173

D Rezultaty segmentacji twarzy 175

E Rezultaty detekcji i lokalizacji twarzy 181

F Rezultaty estymacji położenia głowy — wykresy i tabele 183F.1 Informacje ogólne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183F.2 Sekwencja nr 1 — rezultaty . . . . . . . . . . . . . . . . . . . . . . 184F.3 Sekwencja nr 2 — rezultaty . . . . . . . . . . . . . . . . . . . . . . 185F.4 Sekwencja nr 3 — rezultaty . . . . . . . . . . . . . . . . . . . . . . 186

G Rezultaty detekcji mrugnięć 189G.1 Informacje ogólne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189G.2 Skuteczność detekcji . . . . . . . . . . . . . . . . . . . . . . . . . . 191G.3 Średni błąd lokalizacji oczu . . . . . . . . . . . . . . . . . . . . . . 193

H Rezultaty innych algorytmów 195H.1 Lokalizacja nozdrzy . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

Podziękowania

Autor chciałby serdecznie podziękować promotorowi dr hab inż. Piotrowi Au-gustyniakowi, za wiele inspirujących uwag które pomogły ukształtować niniejsząrozprawę doktorską, jego czas poświęcony w okresie bezpośredniej pracy nad roz-prawą, jak również za okazywane zrozumienie i cierpliwość.

Podziękowania należą się również całemu zespołowi Laboratorium Biocyber-netyki AGH, pod kierownictwem profesora Ryszarda Tadeusiewicza, a w szcze-gólności:

dr inż. Zbigniewowi Mikrutowi za dobre rady i okazywane w każdejsytuacji poczucie humoru

dr n. techn. lek. med. Pawłowi Woloszynowi za inspirujące rady

dr hab inż. Markowi Gorgoniowi za pomoc na różnych etapach pracy

oraz mgr. inż. Mirosławowi Jabłońskiemu za motywowanie mnie dopracy oraz za wiele przydatnych pomysłów.

Część I

O rozprawie

Rozdział 1

Wstęp

1.1 Kontekst pracy, uzasadnienie podjęcia tematu

Głównym sposobem interakcji człowieka z komputerem jest — i zapewne długojeszcze pozostanie — interfejs graficzny, oparty na technice okien, manipulacjimyszką i wprowadzania danych z pomocą klawiatury. Możliwości wprowadzaniadanych, rozszerzane są poprzez szereg urządzeń, bardziej specjalizowanych dlaokreślonych zastosowań. W przypadku rozrywki (gry) klasycznym przykładem sąróżnego rodzaju manipulatory (joystick, trackball) bądź też gamepady do gier.W zastosowaniach bardziej profesjonalnych (np. aplikacje typu CAD) wykorzy-stywane są również ekrany dotykowe, tablety czy też manipulatory w postaci„rękawicy” pozwalającej na pracę z interfejsem trójwymiarowym (3D).

Obecnie obserwuje się zmianę podejścia w konstruowaniu interfejsów kompu-terowych w kierunku wykorzystania wielu równoległych sposobów komunikacjimiędzy użytkownikiem a maszyną. Podejście to często określane jest w literatu-rze jako interfejsy multimodalne (ang. multimodal interfaces) [63]. Przykłademtakiego sposobu interakcji jest system „Put That There” opracowany na uniwer-sytecie MIT [11]. Interfejs ten bazował na rozpoznawaniu gestów wskazywania(urządzenie elektroniczne zapewniające sygnał o pozycji i orientacji) oraz mowy,jak również zapewniał generację mowy i wizualizację na dużym ekranie ścien-nym. Dzięki połączeniu dwóch metod komunikacji skuteczność i wygoda inte-rakcji została zwiększona. Innym przykładem, ukierunkowanym na zapewnieniemożliwości pracy z komputerem osobom niewidomym, jest aplikacja „Meditor:Multimode Text Editor” wykorzystująca zarówno standardową klawiaturę jaki specjalny terminal Braille’a [5]. Dodatkowo Meditor używa technologii synte-zy (TTS ang. text to speech) oraz rozpoznawania mowy (ASR ang. automatedspeech recognition).

W katedrze Automatyki AGH prowadzono pionierskie prace, których celem

ROZDZIAŁ 1. WSTĘP

było zapewnienie komunikacji głosowej z pomocą sygnału mowy [81]. Prowadzonesą również badania mające na celu wykorzystanie do sterowania czujników po-tencjałów bioelektrycznych, na przykład elektronystagmografii, elektromiografiilub elektroencefalografii [12]. W tym kontekście wymienić również należy pra-ce, których celem jest opracowanie systemu adaptacyjnego dla potrzeb zdalnegonadzoru kardiologicznego pacjentów [1].

Na świecie istnieją także projekty badawcze poświęcone wykorzystaniu infor-macji wizyjnej (obraz) do sterowania. Przeznaczony dla osób niepełnosprawnychruchowo, interfejs oparty o metody wyszukiwania wzorców na obrazie, może byćrównież wykorzystany przez osoby w pełni sprawne [6]. W katedrze AutomatykiAGH prowadzone są badania mające na celu określenie reguł postrzegania na-turalnego przez człowieka w celu ich wykorzystania w inteligentnych systemachwizyjnych [2][61].

Obserwując komunikację człowieka z innymi ludźmi łatwo można stwierdzić,że bardzo ważna jest tu komunikacja niewerbalna, której istotnym elementemjest mimika twarzy. Ten kanał łączności między człowiekiem a komputerem i in-nymi systemami technicznymi (na przykład robotem medycznym albo wózkieminwalidzkim) odgrywa szczególną rolę w przypadku niektórych osób dotkniętychszczególnie głęboką niepełnosprawnością. W przypadku gdy kalectwo albo choro-ba odbiorą człowiekowi zręczność rąk konieczną do operowania myszką czy kla-wiaturą, gdy te same przyczyny utrudnią artykułowanie wyrazistych, nadającychsię do automatycznej interpretacji wypowiedzi słownych — mimika pozostaje jed-nym z ostatnich kanałów łączności chorego ze światem, w tym także ze światemsystemów technicznych. Przykładem niepełnosprawności, która praktycznie eli-minuje użycie tradycyjnych metod komunikacji człowieka z komputerem (myszka,klawiatura), są osoby z porażeniem czterokończynowym. W tym przypadku pod-stawowym problemem są ograniczenia sprawności ruchowej takich osób. Jedynąmożliwością ruchu jest mimika twarzy, prawidłowa ruchomość żuchwy i językaoraz minimalne ruchy głowy. Dodatkowym utrudnieniem jest niewyraźna mowa,wynikająca ze stosowanych w wielu przypadkach elektronicznych stymulatorówoddechu.

1.2 Zakres, teza oraz cele rozprawy

W sytuacjach ograniczenia sprawności ruchowej alternatywę w sposobie sterowa-nia komputerem, mogą stanowić metody i algorytmy rozpoznawania oraz analizyobrazów. Podstawową zaletą tego typu interfejsów sterujących jest możliwośćdostosowania interfejsu do człowieka oraz sytuacji a nie odwrotnie. Trend ta-ki można zaobserwować w aktualnie prowadzonych badaniach — zmiana podej-ścia w konstruowaniu interfejsów komputerowych z architektur skoncentrowanychna maszynie (ang. machine-centered architecture) do architektur skupionych na

1.2. ZAKRES, TEZA ORAZ CELE ROZPRAWY

użytkowniku (ang. human-centered interaction architecture) [55].Obserwacja optyczna nie wymaga przeprowadzania odpowiedniej procedury

dokowania użytkownika do stanowiska pracy; wystarczające jest, aby użytkownikznalazł się w obszarze działania systemu. Podobnie zakończenie pracy nie wymagaodłączania stanowiska lub odłączania urządzeń. W przypadku osoby poruszającejsię z pomocą wózka lub innego pojazdu rozpoczęcie i zakończenie pracy z kompu-terem może więc nie wymagać udziału opiekunów. Samo stanowisko pracy możebyć także łatwo przenoszone. Ogromną zaletą jest również możliwość dowolne-go wyboru obserwowanej okolicy ciała bez zmiany konstrukcji systemu. Daje tomożliwość zastosowania nawet przy skrajnym ograniczeniu sprawności ruchowejużytkownika i zawężeniu jej na przykład do mimiki twarzy lub jednego palca ręki.System taki stwarza też możliwość jednoczesnego obserwowania dwóch różnych,nawet odległych okolic ciała, jeśli ruchomość każdej z nich osobno nie wystarczado wyrażenia wszystkich poleceń sterujących.

Zaletą tego typu interfejsów sterujących jest również bezkontaktowość interak-cji. Brak fizycznego kontaktu elementów systemu z ciałem użytkownika zapobieganiedogodnościom higienicznym i estetycznym, usuwa też zagrożenia elektrycznewymagające stosowania zabezpieczeń przed porażeniem prądem. System wizyjnynie wymaga stosowania dodatkowych elementów pogarszających wygodę użyt-kowania, jak różnego rodzaju elektrody, czujniki, opaski, okulary, ustniki i tympodobne.

Należy również nadmienić, iż system oparty o rozpoznawanie obrazów możerównież służyć osobom w pełni sprawnym, rozszerzając w ten sposób możliwościwymiany informacji między człowiekiem a maszyną.

Prowadzone w ramach niniejszej rozprawy badania, ograniczonodo rozpoznawania elementów mimiki przy użyciu metod i algorytmówanalizy obrazów. Wybór elementów mimiki, jako sposobu przekazywania infor-macji, podyktowany został faktem — potwierdzanym przez wyniki wielu badańpsychologicznych — iż nie licząc głosu, dużą część informacji człowiek przeka-zuje przy pomocy komunikacji niewerbalnej, w tym dzięki mimice twarzy. Wkontekście systemu dla osób niepełnosprawnych wydaje się to szczególnie istot-ne ze względu na zasygnalizowane wcześniej ograniczenia sprawności ruchowej.Celem prowadzonych prac jest również określenie sposobów wykorzystania ele-mentów mimiki do rozszerzenia możliwości komunikacji między użytkownikiema komputerem. Uwzględniając powyższą analizę sformułowano następującą tezęrozprawy:

ROZDZIAŁ 1. WSTĘP

Elementy mimiki automatycznie wyodrębnione z cyfrowegoobrazu twarzy są przydatne w komunikacji człowiek-maszyna i

mogą być wykorzystane do sterowania.

Aby wykazać słuszność powyższej tezy sformułowano następujące główne celerozprawy:

1. Określenie sposobu pomiaru oraz precyzyjnego opisu elementów mimiki.

2. Określenie możliwości jakie oferuje mimika w kontekście typowych scenariu-szy interakcji człowieka z maszyną i własności istniejących urządzeń. Wybórelementów mimiki przydatnych w komunikacji człowiek-maszyna.

3. Zdefiniowanie atrybutów elementów mimiki oraz odpowiadających im cechcharakterystycznych na obrazie, pozwalających na rozpoznanie gestów mi-micznych.

4. Opracowanie metody automatycznego rozpoznawania wybranych elemen-tów mimiki.

Realizacja celu sformułowanego w punkcie -4- wymagała określenia następu-jących celów składowych:

a) Zaproponowanie struktury i elementów składowych systemu automatycznegorozpoznawania gestów mimicznych.

b) Opracowanie metod wyodrębniania z obrazu twarzy cech charakterystycznych,odpowiadających atrybutom rozpoznawanych elementów mimiki.

c) Opracowanie metod rozpoznawania gestów mimicznych wykorzystujących wy-odrębnione cechy. Badanie skuteczności algorytmów dla typowych sytuacjiwystępujących podczas interakcji człowieka z maszyną.

d) Usystematyzowanie czynników wpływających na skuteczność rozpoznawaniaoraz opracowanie metody adaptacji systemu do człowieka oraz zmieniającychsie warunków otoczenia.

1.3 Streszczenie rozprawy

Struktura rozprawy jest następująca:

• W części pierwszej (rozdziały 2 - 4) przedstawiono sposoby pomiaru orazopisu ekspresji mimicznych twarzy, dokonano wyboru elementów mimikioraz określono ich atrybuty i cechy.

1.3. STRESZCZENIE ROZPRAWY

• Część druga (rozdziały 5 - 8) poświęcona została zagadnieniom automatycz-nego wyodrębniania z obrazu i rozpoznawania elementów mimiki. Przedsta-wiono również kwestie adaptacji systemu.

• Zestawienie wyników pracy i najistotniejszych wniosków oraz krytycznąanalizę zaproponowanych rozwiązań przedstawiono w podsumowaniu (roz-dział 9).

• Rezultaty przeprowadzonych badań oraz opisy algorytmów zamieszczonezostały w dodatkach.

W poszczególnych rozdziałach zagadnieniami wiodącymi są:

• Rozdział 2 — Sposoby pomiaru oraz opisu ekspresji mimicznychtwarzy. Wykorzystanie elementów mimiki do sterowania, wymaga uwzględ-nienia szeregu zagadnień, wśród których szczególnie istotne są: psychofizjo-logiczne uwarunkowania człowieka oraz sposób reprezentacji i opisu mimi-ki. W rozdziale 2 przedstawione zostały zagadnienia związane z komunika-cją niewerbalną (istotne w kontekście wykorzystania mimiki do sterowania)oraz istniejące sposoby opisu ekspresji mimicznych twarzy. Spośród metodreprezentacji mimiki szczegółowo opisane zostały dwie z nich, wykorzystanew dalszej części pracy.

• Rozdział 3 — Określenie i wybór rozpoznawanych elementów mi-miki. Skonstruowanie urządzenia wejściowego umożliwiającego sterowanieprzy pomocy gestów mimicznych, wymaga uwzględnienia wymagań wynika-jących z typowych zadań jakie wykonuje użytkownik podczas pracy z kom-puterem. W rozdziale 3 przedstawiono usystematyzowanie typowych zadańwykonywanych przez człowieka podczas interakcji z interfejsem graficznymkomputera. Poprzez analizę akcji użytkownika oraz porównanie własnościtypowych urządzeń wejściowych z możliwościami jakie oferuje mimika, do-konano wyboru elementów mimiki, które są potencjalnie przydatne w ko-munikacji człowiek-maszyna.

• Rozdział 4 — Atrybuty elementów mimiki. Rozpoznawanie różnychelementów mimiki w oparciu o informacje wyodrębnione z obrazu, wymagaokreślenia atrybutów oraz cech charakterystycznych opisujących poszcze-gólne gesty mimiczne (np. kształt, zależności geometryczne, wygląd...). Te-mu zagadnieniu poświęcony jest rozdział 4. Dokonana analiza elementówmimiki pozwoliła na zdefiniowanie podstawowych atrybutów oraz odpowia-dających im cech, które mogą zostać następnie wyodrębnione z obrazu.

• Rozdział 5 — Elementy systemu automatycznego rozpoznawaniamimiki. Rozpoznawanie obiektów przez ludzi wydaje się łatwe i bezproble-mowe. Na podstawie ogólnej wiedzy o danym obiekcie, np. sylwetka ludzka

ROZDZIAŁ 1. WSTĘP

— człowiek natychmiast jest w stanie rozpoznać nowe osoby, niezależnie odtego z jakiego punktu widzenia są one obserwowane czy też np. siedzą lubstoją. Z punktu widzenia komputerowej analizy obrazów, rozpoznawaniewymaga wyodrębnienia z obrazu użytecznej informacji na temat interesu-jących obiektów. W rozdziale 5 zaproponowano schemat struktury systemuautomatycznego wyodrębniania z obrazu elementów mimiki, zawierającykilka bloków składowych realizujących wymagane zadania. Omówione zo-stały etapy przetwarzania i analizy obrazu, na które składają się: selektyw-ne przetwarzanie informacji (segmentacja), detekcja i lokalizacja twarzy,wyodrębnianie cech, klasyfikacja oraz adaptacja systemu. Wśród istotnychrezultatów wymienić można opracowaną metodę doboru przestrzeni barwdla algorytmu segmentacji oraz algorytm detekcji twarzy.

• Rozdział 6 — Wyodrębnianie z obrazu twarzy elementów mimiki.Zdefiniowane w pierwszej części rozprawy atrybuty elementów mimiki orazodpowiadające im cechy oczekiwane na obrazie twarzy, stanowią podstawęumożliwiającą rozpoznanie wybranych gestów mimicznych. W pierwszej ko-lejności odpowiednie cechy (kształt, wygląd...) muszą zostać wyodrębnionez obrazu. W rozdziale 6 przedstawiono wybrane metody i algorytmy pozwa-lające na ekstrakcję z obrazu twarzy wymaganych na etapie rozpoznawaniawektorów cech, reprezentujących elementy mimiki. Wybrane metody to:statystyczne modele kształtu, histogramy orientacji oraz detekcja ruchu.

• Rozdział 7 — Rozpoznawanie wybranych elementów mimiki. Wzadaniu rozpoznawania celem jest określenie przynależności różnego typuobiektów (w tym przypadku elementów mimiki) do pewnych klas na pod-stawie znanych wcześniej przynależności do klas innych obiektów. Jest tozatem typowe zadanie klasyfikacji, w którym obiekty opisane są przy po-mocy zestawu atrybutów/cech. W rozdziale 7 przedstawiono metodykę orazrezultaty rozpoznawania wybranych elementów mimiki, wykorzystując danebędące wynikiem etapu wyodrębniania cech. Na podstawie analizy wynikówwybrano najlepszą metodę rozpoznawania oraz zaproponowano dalsze kie-runki prac.

• Rozdział 8 — Adaptacja systemu rozpoznawania mimiki. Dużazmienność wyglądu twarzy oraz elementów mimiki, wynikająca z wpływuróżnych czynników stanowi istotne utrudnienie w automatycznym rozpo-znawaniu gestów. W rozdziale 8 usystematyzowano czynniki wpływającena skuteczność rozpoznawania oraz zaproponowano metody adaptacji sys-temu rozpoznawania mimiki do człowieka oraz zmieniających się warunkówotoczenia.

Część II

Elementy mimiki

Rozdział 2

Sposoby pomiaru oraz opisuekspresji mimicznych twarzy

Streszczenie

Wykorzystanie elementów mimiki do sterowania, wymaga uwzględnieniaszeregu zagadnień, wśród których szczególnie istotne są: psychofizjologiczneuwarunkowania człowieka oraz sposób reprezentacji i opisu mimiki. W niniej-szym rozdziale przedstawione zostały zagadnienia związane z komunikacjąniewerbalną (istotne w kontekście wykorzystania mimiki do sterowania) orazistniejące sposoby opisu ekspresji mimicznych twarzy. Spośród metod repre-zentacji mimiki szczegółowo opisane zostały dwie z nich, wykorzystane wdalszej części pracy.

2.1 Mimika twarzy

Twarz człowieka może być traktowana jako bardzo elastyczny system zdolny dogeneracji wielu sygnałów informacyjnych oraz komunikatów jednocześnie. Możnawyróżnić cztery ogólne klasy sygnałów:

• sygnały statyczne, na które składają się stałe cechy takie jak: naturalnabudowa twarzy, zmarszczki mimiczne i fałdy skórne,

• sygnały wolnozmienne reprezentujące zmiany wyglądu twarzy zachodzącestopniowo w czasie (np. starzenie się),

• sztuczne elementy umieszczane na twarzy takie jak okulary, makijaż,

• szybkie sygnały czyli gesty mimiczne twarzy wywołane ruchami odpowied-nich mięśni.

ROZDZIAŁ 2. SPOSOBY POMIARU ORAZ OPISU EKSPRESJI MIMICZNYCH TWARZY

Spośród powyższych klas sygnałów głównie gesty mimiczne twarzy niosą infor-macje użyteczne z punktu widzenia ich wykorzystania do sterowania. Dlategokonieczne jest zdefiniowanie takiego sposobu opisu, który pozwoli na usystematy-zowanie gestów mimicznych oraz nada im określone znaczenie. Pod uwagę należyrównież wziąć psychofizjologiczne uwarunkowania człowieka — podczas absorbu-jącej pracy z aplikacją systemu komputerowego użytkownik może w odruchowysposób zmieniać mimikę twarzy w odpowiedzi na bodźce somatyczne lub emo-cjonalne (np. mruganie oczami, uśmiech, ziewanie, marszczenie brwi). Z punktuwidzenia niesionych informacji istnieje następujący podział funkcjonalny [22][23]związany z komunikacją niewerbalną (mimika):

• Wskaźniki uczuć — przekazują odbiorcy aktualny stan emocji nadawcy (ra-dość, smutek, zaskoczenie, gniew, wstręt, strach), wyrażane głównie twarzą,parajęzykiem, tonem głosu i pozycją ciała.

• Emblematy (inaczej znaki autonomiczne) — zastępują określone słowa ifrazy, wyrażają konkretne emocje i postawy (przykładem emblematu jestwzruszenie ramion jako odpowiednik wypowiedzi „nie mam pojęcia”). Przyj-muje się, że emblemat to taki sygnał, który jest identycznie interpretowanyprzez co najmniej 70 % populacji, w której się go używa.

• Ilustratory — służą do uzupełnienia treści wypowiadanych słów. Najczęściejwykonuje się je rękami, np. w celu zasygnalizowania wielkości, odległości ikierunku, ale używa się tu również mimiki i kanału wokalnego, aby np.podkreślić wagę pewnego słowa.

• Regulatory — organizują całość sytuacji komunikacyjnej, a więc takie sy-gnały, jak: tempo mówienia, przerwy, intonacja pytająca lub kończąca frazę,wzrokowe sygnały zamiaru przejęcia inicjatywy w dialogu lub odwrotnie —chęci przekazania głosu któremuś z pozostałych uczestników konwersacji itym podobne.

• Manipulatory — nazywane też adaptatorami zapewniają większy komfortdanej osobie, np. zmiana pozycji na krześle, oparcie się o ścianę, założe-nie nogi na nogę, poprawianie włosów. Należą tu także ruchy, takie jak:pocieranie jednej części ciała o drugą, drapanie, czyszczenie, przestawianieprzedmiotów na stole i tym podobne.

Odróżnianie mimiki spontanicznej od celowych, znaczących ruchów jest zada-niem spoczywającym na oprogramowaniu interfejsu.

Spośród systemów opisu mimiki można wyróżnić MAX (ang. Maximally Di-scriminative Affect Coding System) [40]. Jest to teoretyczna metoda pomiaruokreślająca mimikę w kategoriach zmian wyglądu twarzy wywołanych poszcze-gólnymi emocjami. Istnieje również wiele metod pozwalających na precyzyjny

2.2. FACIAL ACTION CODING SYSTEM

opis ruchów mimicznych twarzy bez nadawania im konkretnego znaczenia. Donajczęściej używanych zaliczyć można systemy:

• FACS (ang. Facial Action Coding System) — oparty na anatomii systempomiaru ruchów mimicznych twarzy, grupujący je w jednostki czynnościowe(ang. action units) ściśle związane z anatomią muskulatury twarzy,

• FAP (ang. Facial Animation Parameters) — zdefiniowana w ramach stan-dardu MPEG-4 specyfikacja oraz metoda opisu i animacji twarzy i ciałaludzkiego.

Poniżej zostały omówione dwie z wymienionych metodyk opisu mimiki — FACSoraz FAP — użyteczne z punktu widzenia wyboru gestów mimicznych przydat-nych do sterowania.

W tabelach B.1, B.2, B.3 zawarto krótki opis jednostek czynnościowych wy-korzystywanych w dalszej części pracy. Natomiast tabele B.4 do B.13 zawierająbardziej szczegółowe informacje o elementach mimiki. Tabele jak również zdjęciawybranych elementów mimiki zamieszczono w dodatku B.

2.2 Facial Action Coding System

Metodyka FACS (ang. Facial Action Coding System) jest jednym z częściej wyko-rzystywanych sposobów pomiaru oraz opisu ekspresji mimicznych twarzy. Zostałaona opracowana przez psychologów P. Ekmana oraz W.V. Friesen w latach 1970,w oparciu o analizę zmian wyglądu twarzy wywołanych przez ruchy poszcze-gólnych mięśni. Naukowcy ci przebadali wiele nagranych materiałów filmowychobrazujących różne ekspresje mimiczne. Na podstawie wiedzy o budowie anato-micznej twarzy oraz badań palpacyjnych (czyli badania przez dotyk), analizowanebyły specyficzne zmiany wyglądu wywołane skurczem poszczególnych mięśni lubich grup oraz próbowano określić sposoby odróżniania poszczególnych ruchówmimicznych od siebie. Celem prowadzonych badań było opracowanie wiarygod-nego sposobu rozróżniania i kategoryzowania ekspresji mimicznych twarzy przezwykwalifikowanych obserwatorów. Wynikiem prowadzonych prac jest metodykaFACS, która została opisana w podręczniku [24] zawierającym również bogatymateriał filmowy.

W metodyce tej wykorzystuje się pojęcie „jednostki czynnościowej” (ang. Ac-tion Unit, AU). Jednostka czynnościowa rozumiana jest jako izolowany i niepo-dzielny ruch mimiczny możliwy do świadomego wykonania przez człowieka orazwywołujący obserwowalne zmiany w wyglądzie twarzy. Zmiany geometrii oraz wy-glądu szczegółów anatomicznych twarzy wywołane są głównie przemieszczaniemobszarów skóry pociąganych przez mięśnie mimiczne. Wykonanie ruchu mimicz-nego może prowadzić na przykład do powstania bruzdy, wygładzenia zmarszczek

bądź uwypuklenia fragmentu skóry. Klasyfikacja FACS opisuje 44 jednostki AU.Większość z nich (trzydzieści) związana jest z ruchami mięśni, pozostałe nato-miast — z ruchem głowy lub oczu. Dwanaście AU dotyczy górnej części twarzy,osiemnaście dolnej. Podział mimiki na jednostki czynnościowe nie odpowiada do-kładnie anatomii muskulatury twarzy, ale jest z nią ściśle związany. Wynika to zdwóch powodów — po pierwsze, w niektórych przypadkach skurcze różnych mię-śni wywołują podobne wizualnie zmiany w wyglądzie twarzy. Po drugie, skurczposzczególnych części jednego mięśnia często wywołuje różne zmiany, które mogąbyć zaklasyfikowane jako odmienne jednostki czynnościowe. Ilość podstawowychjednostek czynnościowych jest relatywnie niewielka, w rzeczywistości występująone jednak częściej w kombinacjach. Zaobserwowana całkowita liczba kombinacjiwynosi ponad 7000 [73]. Kombinacje mogą być addytywne, gdy połączenie niewpływa na wygląd poszczególnych jednostek, oraz nie nieaddytywne — wyglądjednostek składowych zmienia się.

Klasyfikacja FACS opisuje zmiany wyglądu twarzy wywołane jednostkamiczynnościowymi zarówno w aspekcie dynamicznym, jak i statycznym. Pozwalato na analizę ruchów mimicznych nie tylko obserwowanych w czasie rzeczywi-stym, ale także zarejestrowanych na nieruchomym obrazie twarzy.

W opisie FACS można wyróżnić następujące elementy:

• określenie jednostek czynnościowych AU składających się na dany ruch mi-miczny,

• pomiar stopnia intensywności oraz czasu wykonywanych ruchów w pięcio-stopniowej skali — od A (śladowy gest mimiczny) do E (maksymalny gest),

• podział na ruchy jednostronne oraz symetryczne,

• uwzględnienie zależności z innymi AU, m.in. ruchami głowy oraz oczu,

• instrukcje w jaki sposób wykonywać ruch.

FACS jest klasyfikacją ściśle opisową — nie zawiera informacji o znaczeniu danegogestu mimicznego. Przyporządkowanie jednostkom AU emocji zostało opracowa-ne w ramach innego systemu nazwanego FACSAID (ang. Facial Action CodingSystem Affect Interpretation Dictionary), który został opracowany przez tą samągrupę badawczą.

Wśród pozycji literaturowych, poświęconych automatycznemu rozpoznawa-niu jednostek czynnościowych przy użyciu metod analizy obrazów, wymienićmożna prace prowadzone na uniwersytecie CMU (Carnegie Mellon University)[86][87][88]. W ramach projektu badawczego powstał system rozpoznawania mi-miki AFA (ang. Automated Facial Image Analysis). Pozwala on na automatycznerozróżnianie subtelnych zmian mimiki w oparciu o klasyfikację FACS dla twarzywidocznych frontalnie. Algorytm rozpoznawania wykorzystuje metody śledzenia

2.2. FACIAL ACTION CODING SYSTEM

wybranych cech oraz sieci neuronowe. Śledzone części twarzy mogą stanowić stałecechy charakterystyczne (takie jak np. oczy, brwi, usta) oraz cechy pojawiającesię przejściowo (np. zmarszczki mimiczne). Stałe cechy reprezentowane są przezszczegółowe parametryczne modele (nazywane: ang. multistate facial componentmodels), uwzględniające różne stany w jakich może znaleźć się śledzony element(np. otwarte-zamknięte oczy). System rozwijany jest nie tylko w kierunku au-tomatycznego rozpoznawania mimiki, ale również rozpoznawania i interpretacjizachowania ludzi. Posiada on (wg autorów) średnią skuteczność rozpoznawania96.4% dla AU górnej części twarzy oraz 96.7% AU dolnej części twarzy. Testyprzeprowadzane były na dwóch bazach danych: CMU Facial Expression Databa-se [44] oraz Ekman-Hager Facial Action Exemplars [25].

Prace w kierunku rozpoznawania jednostek czynnościowych prowadzone sąrównież w innych ośrodkach naukowych. Wśród nich wyróżnić należy systemopracowany przez Valstara [92]. Zaproponowana metoda wykorzystuje czaso-we szablony (ang. temporal templates) oraz klasyfikację opartą na algorytmiekNN (ang. k-Nearest-Neighbor) połączonym z algorytmem regułowym (ang. rule-based). System pozwala na rozpoznawanie 15 jednostek AU występujących poje-dynczo lub w kombinacjach i charakteryzuje się średnią skutecznością rozpozna-wania 76.2% (testy przeprowadzane na bazie CMU). Autorzy prowadzą równieżprace nad rozpoznawaniem emocji opartym o jednostki AU [64].

Interesujące podejście do problemu rozpoznawania mimiki zaprezentował A.Kapor w pracy [45]. Przedstawione rozwiązanie pozwala na automatyczne roz-poznawanie jednostek czynnościowych oraz ich kombinacji w obrębie górnej czę-ści twarzy. System wykorzystuje dodatkowe urządzenie — aktywny oświetlaczpodczerwieni. Zastosowanie oświetlacza daje możliwość skutecznej detekcji oczuczłowieka poprzez obserwację odbicia światła od siatkówki oka. Siatkówka okaludzkiego działa jak lustro sferyczne odbijając od dna oka promieniowanie, którewpada poprzez obszar źrenicy. Zjawisko to jest powszechnie znane jako efekt „ja-snych źrenic” (ang. bright pupil effect) i występuje gdy źródło światła i systemoptyczny z sensorem zostaną umieszczone współosiowo. W przypadku oświetleniabocznego (niewspółosiowego), obszar źrenicy na obrazie uzyskanym z kamery jestznacznie ciemniejszy od otoczenia — efekt „ciemnych źrenic” (ang. dark pupileffect). Wykorzystanie oświetlacza w dużym stopniu zwiększa skuteczność orazautomatyzuje detekcję oczu. Informacja o położeniu oczu jest następnie wyko-rzystywana do pobrania odpowiednich obszarów obrazu zawierających elementymimiki (oko, powieka, brwi). Dalsza analiza wykorzystująca statystyczny algo-rytm PCA oraz liniową kombinację wzorców, pozwala na otrzymanie parame-trów kształtu. Kształt ten jest następnie rozpoznawany poprzez klasyfikator zwykorzystaniem metody SVM (ang. support vector machines). Przedstawionerozwiązanie charakteryzuje się skutecznością rozpoznawania około 69% (testy nawłasnej bazie autorów) oraz 81.22% — testy dla bazy CMU. Jak wynika z analizy

autorów, metoda ta nie radzi sobie z dużymi zmianami skali obserwowanej twarzyoraz obrazami nowych twarzy o odmiennym wyglądzie.

Istotnym problemem w automatycznym rozpoznawaniu jednostek czynnościo-wych jest fakt, iż gesty mimiczne wykonywane przez ludzi podczas interakcji (np.rozmowa) z innymi osobami bardzo często połączone są z dużymi ruchami głowy(np. potrząsanie, przechylanie głowy, itp). Ruchy te przekładają się na rotacjepoza płaszczyzną obrazu (ang. out-of-plane rotations), będącego dwuwymiaro-wą reprezentacją trójwymiarowej sceny. Skutkuje to istotnymi zniekształceniamikształtu twarzy oraz wyglądu jej elementów. Problem ten jest poruszany w pra-cy [4]. Autorzy uwzględnili zniekształcenia obrazu wynikające z ruchów głowyw następujący sposób. W pierwszej kolejności estymowane są parametry mode-lu kamery (ang. camera calibration parameters) oraz wyznaczane jest geometriatwarzy na scenie trójwymiarowej (3D). Następnie informacje te wykorzystywa-ne są do utworzenia modelu twarzy niezależnego od parametrów sceny (skala,rotacja). Na podstawie takiego modelu generowany jest obraz twarzy w pozycjifrontalnej względem kamery (ang. image warping). Mając do dyspozycji frontalnyobraz twarzy, wyodrębniane są jej cechy charakterystycznych przy użyciu filtrówGabora (ang. Gabor wavelets). Zestaw takich cech jest następnie klasyfikowanyprzy pomocy SVM oraz ukrytych modeli Markowa (ang. Hidden Markov Mo-dels). Zaproponowane rozwiązanie testowany było na własnej bazie autorów —osiągnięta skuteczność wynosiła 95.9%.

2.3 MPEG-4 FAP

W ramach standardu MPEG-4 [62][53] zdefiniowana została specyfikacja metodyopisu i animacji twarzy oraz ciała ludzkiego. Definiuje ona model geometrycznytwarzy (siatka wieloboków lub model powierzchni NURBS), określa parametryanimacji i sposób ich kodowania oraz zawiera reguły pozwalające na obliczaniedeformacji modelu geometrycznego na podstawie parametrów animacji.

W odróżnieniu od metodyki FACS, ściśle związanej ze szczegółami anato-micznymi (mięśnie mimiczne, zmarszczki i fałdy skórne), standard ten określa 84punkty charakterystyczne pozwalające na opisanie wyglądu twarzy. Zostały onepodzielone na kilka grup w zależności od ich położenia oraz przynależności dookreślonych elementów twarzy (np. oczy, brwi, policzki, język, itp.) — rysunek2.1.

Niektóre z punktów związane są z parametrami animacji FAP (ang. FacialAnimation Parameters), które pozwalają na opisanie ruchu pojedynczych punk-tów, bądź też zapisanie całych gestów mimicznych (przesunięcie całej grupy).Ruch definiowany jest względem stanu neutralnego, tzw. pojęcia „neutralnej twa-rzy”, określającego nie tylko wygląd elementów twarzy (np. usta zamknięte, wargizłączone), ale również położenie głowy względem kamery oraz układ odniesienia.

2.3. MPEG-4 FAP

Rysunek 2.1: Punkty charakterystyczne twarzy definiowane w standardzieMPEG-4 FAP, [62]

Amplituda ruchu mierzona jest względem trzech osi współrzędnych w jednost-kach określanych przez tablicę FAPU (ang. Facial Animation Parameter Unit).FAPU (rys. 2.2) pozwala na pomiar ruchu w jednostkach względnych — przykła-dowo jednostka ES0 związana jest z odległością między źrenicami. Oprócz gestówmimicznych FAP pozwalają również na opisanie ruchów głowy oraz języka.

Rysunek 2.2: Standard MPEG-4 — jednostki FAPU, [62]

Zdefiniowana specyfikacja pozwala na generację realistycznych animacji, po-przez odpowiednie deformacje modelu geometrycznego twarzy w zależności odzmian parametrów FAP. Animacje takie wykorzystywane są nie tylko do tworze-nia realistycznych „avatarów” (wirtualna postać reprezentująca człowieka), alerównież pozwalają na realizację wideokonferencji nie wymagającej dużych przepu-stowości łączy — przesyłane są tylko parametry FAP oraz informacje o teksturze.Istotnym elementem w tego typu zastosowaniach jest automatyczna lokalizacjaoraz śledzenie punktów charakterystycznych twarzy na obrazach otrzymywanych

z kamery. Stosowane są rozwiązania oparte na umieszczaniu łatwo odróżnialnychmarkerów w odpowiednich miejscach twarzy, a następnie wykorzystanie metodprzetwarzania i analizy obrazów do ich lokalizacji. Przykładem może być sys-tem animacji [51] umożliwiający rozpoznawanie wybranych gestów mimicznych,a następnie animowanie sztucznie generowanego avatara. System wykorzystujesztuczne markery umieszczane w określonych punktach charakterystycznych twa-rzy. W artykule [30] autorzy zaprezentowali podejście nie wymagające stosowaniamarkerów. Punkty charakterystyczne określane są ręcznie przez operatora pod-czas inicjalizacji systemu — pobierane są informacje o kolorze oraz krawędziachw otoczeniu punktu. Następnie elementy twarzy są śledzone na kolejnych obra-zach sekwencji video. Do śledzenia używane są algorytmy wykorzystujące budowęmorfologiczną poszczególnych elementów twarzy — np. dla oka są to: położenieźrenicy, powiek oraz brwi.

Rozdział 3

Określenie i wybórrozpoznawanych elementówmimiki

Streszczenie

Skonstruowanie urządzenia wejściowego umożliwiającego sterowanie przypomocy gestów mimicznych, wymaga uwzględnienia wymagań wynikającychz typowych zadań jakie wykonuje użytkownik podczas pracy z kompute-rem. Na potrzeby niniejszej rozprawy dokonano usystematyzowania typo-wych zadań wykonywanych przez człowieka podczas interakcji z interfejsemgraficznym komputera. Poprzez analizę akcji użytkownika oraz porównaniewłasności typowych urządzeń wejściowych z możliwościami jakie oferuje mi-mika, dokonano wyboru elementów mimiki, które są potencjalnie przydatnew komunikacji człowiek-maszyna.

3.1 Systematyka typowych zadań wykonywanych przez użyt-kowników

Sterowanie komputerem przy pomocy gestów mimicznych, wymaga od projektan-ta wzięcia pod uwagę szeregu czynników. Oprócz specyfikacji technicznej (dobórkamery, sposobu transmisji danych...) i informatycznej (określenie w jaki sposóbsygnał wizyjny będzie interpretowany przez komputer), konieczne jest uwzględ-nienie wymagań wynikających z typowych zadań jakie wykonuje użytkownik pod-czas pracy z interfejsem graficznym.

Na wczesnym etapie rozwoju informatyki, wymagania te zostały określonew postaci standardów: GSPC, 1977; GSPC, 1979; ISO, 1983. Wprowadzają onekoncepcje „logicznych urządzeń wejściowych” (ang. logical devices), stanowiących

ROZDZIAŁ 3. OKREŚLENIE I WYBÓR ROZPOZNAWANYCH ELEMENTÓW MIMIKI

poziom pośredni między sterownikami sprzętu a aplikacjami. Programista apli-kacji dysponuje standardowym API (ang. Application Programming Interface),udostępniającym funkcje pozwalające m.in. na: określenie pozycji (np. kursora wewspółrzędnych ekranu), wybór (np. elementu graficznego), wprowadzanie tekstu,liczb. Z powyższymi sposobami wprowadzania informacji do komputera powiąza-ne są konkretne typy urządzeń (np. klawiatura, myszka).

W pracy [27] autorzy zaprezentowali podejście, które systematyzuje urządze-nia wejściowe z punktu widzenia udostępnianej przez nie funkcjonalności. Wy-szczególnili oni sześć elementarnych zadań pozwalających na realizację dowolnegocelu sterowania odpowiadającego intencjom użytkownika:

• wybór obiektu lub elementu graficznego spośród kilku możliwości (ang. se-lection),

• określenie pozycji 1,2 lub 3 wymiarach (ang. position),

• określenie orientacji w 1,2 lub 3 wymiarach (ang. orientation),

• podanie ścieżki, rysowanie (ang. path or ink), co wymaga podania kolejnychpozycji lub orientacji w czasie,

• wprowadzanie tekstu (ang. text entry),

• ustalenie wartości numerycznej (ang. quantify).

Zadania te odpowiadają w przybliżeniu podejściu zawartemu w standardzie GSPC.Powyższy podział nie jest do końca jednoznaczny, ponieważ zależy od rodzaju

wykorzystanego urządzenia [35]. Jako przykład można przedstawić zadanie wy-boru elementu graficznego. Wykorzystanie myszki wymaga w pierwszej kolejnościokreślenia pozycji, a następnie dokonania wyboru (kliknięcie). Aby osiągnąć celpotrzebne są dwa elementarne zadania. Natomiast przy pomocy ekranu dotyko-wego lub tabletu graficznego wystarczające jest jedno zadanie — bezpośredniewskazanie żądanego obiektu. Ominięcie problemu jednoznaczności można osią-gnąć poprzez zdefiniowanie pojęcia „zadań złożonych” (ang. compound tasks),czyli akcji które z punktu widzenia użytkownika stanowią jedno zadanie (lubmogą być wykonane hierarchicznie). Przykładem może być wybór odnośnika nastronie WWW, który wymaga przewijania dokumentu oraz wskazania kursoremoraz wybrania odnośnika.

Wymienione sposoby opisu funkcjonalności urządzeń wejściowych prezentujądwa odmienne podejścia, które można zaobserwować w konstruowaniu interfejsówkomputerowych [55]. Koncepcja „logicznych urządzeń wejściowych” jest przykła-dem architektury skoncentrowanej na maszynie (ang. machine-centered architec-ture). Z kolei w architekturach skupionych na użytkowniku (ang. human-centered

3.2. WŁASNOŚCI I SYSTEMATYKA URZĄDZEŃ WEJŚCIOWYCH

interaction architecture), urządzenia wejściowe rozpatruje się nie od strony inter-fejsu programowego (API), ale z punktu widzenia udostępnianej funkcjonalności.W takim podejściu istotny staje się odpowiedni dobór urządzenia wejściowego dowymaganego zadania.

3.2 Własności i systematyka urządzeń wejściowych

Użytecznymi kryteriami w doborze urządzenia do określonego zadania, mogą byćwłasności danego urządzenia. Do najistotniejszych własności można zaliczyć [36]:

• Mierzona fizyczna cecha. Typowy sprzęt wykorzystuje pomiar pozycji(np. tablet), ruchu (myszka), siły (dżojstik izometryczny1) lub kąta (dżoj-stik izotoniczny2). Urządzenia mierzące pozycję pozwalają na jej określeniew sposób bezwzględny. Umożliwiają również emulację względnej pozycji.Z kolei urządzenia oparte na pomiarze ruchu są zdolne tylko do podawa-nia względnego położenia poprzez sterowanie kursorem na ekranie. Zazwy-czaj wymagana jest również odpowiednia funkcja przejścia (ang. transferfunction) zapewniająca odpowiednie przekodowanie siły na położenie. Możeone przyjąć postać funkcji akceleracji pozwalającej na realizację mniejszegoprzesunięcia na początku ruchu, a większego przy końcu. Definiuje się rów-nież pojęcie stosunku sterowania do wyświetlania (ang. control to displayratio), czyli współczynnika definiującego przesunięcie kursora na ekranie wstosunku do ruchu np. myszki.

• Ilość stopni swobody. Akcje wykonywane przez użytkownika podczas ob-sługi interfejsu graficznego wymagają określenia położenia w jednym (su-wak), dwóch (położenie na ekranie), lub trzech wymiarach oraz określanieorientacji (zastosowania CAD, gry). Urządzenia które nie zapewniają żąda-nych informacji wymagają dodatkowych sposobów interakcji (np. podziałzadania na kilka wykonywanych sekwencyjnie).

• Szybkość i dokładność. Pod tymi pojęciami rozumie się potocznie szeregnastępujących parametrów takich jak: rozdzielczość, częstotliwość próbko-wania, opóźnienie reakcji, szum, nieliniowości.

• Pośrednie lub bezpośrednie sterowanie. Przykładem bezpośredniegosterowania jest ekran dotykowy, w którym powierzchnia wyświetlająca in-formacje służy równocześnie do wprowadzania informacji. Pozostałe urzą-dzenia udostępniają sterowanie pośrednie, np. myszka.

1sygnał wyjściowy jest funkcją siły przyłożonej do drążka2sygnał wyjściowy jest funkcją wychylenia drążka z pozycji neutralnej

• Ciągły pomiar wielkości lub wykrywanie zdarzeń. Wszelkiego ro-dzaju przyciski (ang. buttons) zapewniają sygnały w postaci zdarzeń (naci-śnięty/zwolniony...), w odróżnieniu od np. dżojstika umożliwiającego ciągłypomiar siły.

• Obsługiwane stany. Zadania takie jak np. zaznaczenie ikony na pulpicie,operacje „przeciągnij i upuść”, wymagają dodatkowej sygnalizacji stanuodpowiadającego intencji użytkownika. W pracy [13] określone zostały trzypodstawowe stany wymagane dla poprawnej obsługi interfejsu graficznego.

– stan 0: poza zasięgiem (ang. out of range) — przykładowo oderwanierysika od tabletu graficznego,

– stan 1: śledzenie (ang. tracking) — ruch kursora,

– stan 2: przeciąganie (ang. dragging) — pozwala na przesuwanie ele-mentów interfejsu np. ikon.

Nie wszystkie urządzenia wspierają obsługę powyższych stanów. Jako przykładpodać można pracę z myszką oraz z panelem dotykowym — 3.1. W przypadkupanelu odróżnienie operacji przeciągania od śledzenia wymaga zastosowania do-datkowego przycisku. Z kolei myszka nie obsługuje stanu „poza zasięgiem”. Mato znaczenie w niektórych typach zadań.

Rysunek 3.1: Stany obsługiwane przez: (a) myszkę, (b) panel dotykowy.

3.3 Analiza możliwości jakie oferuje mimika

Przedstawiona systematyka własności urządzeń wejściowych oraz analiza typo-wych zadań stanowi dobry punkt wyjścia do wyboru potencjalnych gestów mi-micznych, które zapewnią sterowanie komputerem. Na potrzeby niniejszej pracydokonano usystematyzowania i wyboru typowych zadań wykonywanych przezczłowieka podczas interakcji z interfejsem graficznym. Są to:

• wskazanie i wybór elementu graficznego (ang. point and select),

3.3. ANALIZA MOŻLIWOŚCI JAKIE OFERUJE MIMIKA

• operacja „przeciągnij i upuść” (ang. drag and drop),

• operacja „rozciągania gumki” (ang. rubber banding) służąca np. do ryso-wania ramki zaznaczania wielu obiektów,

• rysowanie (ang. ink),

• menu rozwijalne i wyskakujące (ang. pull-down menu, pop-up menu),

• wprowadzanie tekstu (ang. text entry),

• rozpoznawanie gestu (ang. gesture recognition) wykonywanego np. myszą,

• operacje złożone (ang. compound tasks), np. manipulacja obiektem 3D.

Analizując przedstawione zadania (tab. 3.1) można zauważyć, iż urządzenie wej-ściowe oraz jego interfejs programowy powinno:

• udostępniać sygnały sterujące takie jak: pozycja, orientacja, trajektoria,wybór,

• oraz obsługiwać następujące stany: śledzenie i przeciąganie (w niektórychprzypadkach również stan „poza zasięgiem”).

Udostępnianie sygnałów sterujących jest realizowane w odmienny sposób przezróżne urządzenia (myszka, tablet), które charakteryzują się odmiennymi własno-ściami.

Bezpośrednie wskazanie pozycji na ekranie (ang. direct locator) możliwe jestzazwyczaj w tabletach graficznych. Z kolei myszka komputerowa pozwala na po-średnie wskazanie pozycji poprzez przesunięcie kursora w zadane miejsce (ang.indirect locator). Często wykorzystuje się również wskazanie pozycji przy pomo-cy dedykowanych klawiszy (ang. location direction keys). W przypadku gestówmimicznych sterowanie odbywa się pośrednio, ponieważ powierzchnia wyświetla-jąca nie może być zintegrowana z urządzeniem. Nie wydaje się możliwe równieżbezwzględne mapowanie niewielkich zmian mimiki na położenie kursora, stąd ta-ki sposób sterowania można zaklasyfikować jako względny. Wyjątkiem może byćograniczona możliwość bezwzględnego mapowania ruchów głowy na orientację.

Różne zadania wymagają od urządzenia obsługi innej ilości stopni swobody.Przykładowo do przesuwania suwaka wystarczający jest jeden stopień swobody.Dlatego w konstrukcji myszek komputerowych dodaje się rolkę sterującą. Z ko-lei wybór obiektu na ekranie wymaga zapewnienia w urządzeniu dwóch stopniswobody (wskazanie pozycji). W przypadku mimiki zapewnienie jednego stopniaswobody nie stanowi problemu — prawie każdy gest może zostać do tego celuwykorzystany — ruch brwi w górę (jednostka czynnościowa AU 1+2) oraz w dół(AU4). W przypadku dwóch stopni swobody konieczny jest wybór przynajmniej

Tabela 3.1: Zestawienie typowych zadań oraz wymaganych dla nich sygnałów istanów

ZadanieWymagane sygnały

sterująceWymagana

obsługa stanów

wskazanie elementugraficznego

pozycja w 1, 2 lub 3 wymiarach1 (opisy stanów narysunku 3.1 )

wskazanie i wybórelementu graficznego

pozycja w 1, 2 lub 3 wymiarachoraz sygnał wyboru

operacja „przecią-gnij i upuść”

pozycja w 1, 2 lub 3 wymiarachoraz sygnał wyboru

operacja „rozciąga-nia gumki”

pozycja w 1, 2 lub 3 wymiarachoraz sygnał wyboru 1, 2

rysowanietrajektoria w 1, 2 lub 3 wymia-rach oraz sygnał wyboru

menu rozwijalne iwyskakujące

pozycja lub trajektoria w 1, 2lub 3 wymiarach oraz sygnał wy-boru

wprowadzanie tekstu(klawiatura)

wymagana klawiatura lub wprzypadku klawiatury progra-mowej — pozycja w 2 wy-miarach oraz sygnał wyboru(dla jednowymiarowej klawiatu-ry programowej – sygnał pozycji1D)

W przypadku kla-wiatury programo-wej — 1, 2

wprowadzanie tek-stu (rozpoznawaniepisma)

trajektoria w 1, 2 lub 3 wymia-rach oraz sygnał wyboru

0 (ze względu nakonieczność sygna-lizacji końca wpisy-wania tekstu), oraz1 i 2

rozpoznawanie gestu trajektoria w 1, 2 lub 3 wymia-rach

operacje złożone —np. rotacja w progra-mie CAD

orientacja w 1, 2 lub 3 wymia-rach

czterech gestów. Możliwe jest również uzyskanie trzech stopni swobody, poprzeznp. pomiar ruchów głowy w różnych płaszczyznach (góra/dół, przechylenie pra-wo/lewo, obrót prawo/lewo).

W przypadku mimiki możliwy jest pomiar następujących parametrów: wyko-nanie lub brak wykonania gestu, intensywność gestu, oraz szybkość wykonaniagestu. Wszystkie zmiany odbywają się względem mimiki neutralnej, a ich am-

plituda jest raczej niewielka. Sugeruje to wykorzystanie mimiki do sterowaniapodobnie jak w przypadku joysticka. Istnieje możliwość wyboru pomiaru inten-sywności lub szybkości wykonania gestu (pomiar wielkości fizycznej ciągłej —dżojstik analogowy) lub faktu wykonania lub braku wystąpienia gestu (detekcjazdarzenia — dżojstik cyfrowy).

Zadanie wyboru obiektu lub elementu graficznego również może być reali-zowane na kilka sposobów. Bezpośredni wybór (ang. direct pick) udostępniająurządzenia takie jak tablety graficzne lub ekrany dotykowe. Pośrednie wybranieelementu graficznego realizowane jest zazwyczaj na kilka różnych sposobów:

• poprzez wskazanie pozycji oraz akcję wyboru (ang. indirect locator),

• pośrednie wybranie elementu graficznego poprzez wskazanie pozycji orazoczekiwanie określonego czasu (ang. time scan),

• wybranie jednego ze zdefiniowanych wcześniej elementów poprzez naciśnię-cie dedykowanego przycisku.

Możliwe jest również wybranie elementu poprzez rozpoznanie rysowanego ge-stu (przykład — sterowanie przeglądarką Opera przy pomocy gestów wykony-wanych kursorem). Wymienione sposoby wymagają od urządzenia bądź udostęp-nienia bezpośredniego wyboru (tablet, dedykowane klawisze), lub obsługi stanówśledzenia, przeciągania (czasami również stanu „poza zasięgiem”). W kontekściesterowania mimiką możliwy jest wybór obiektu poprzez wcześniejsze wskazaniepozycji oraz akcję wyboru (analogicznie jak dla myszki). Wymaga to jednak zde-finiowania gestów zapewniających sygnały sterujące pozycją oraz dodatkowegogestu dla akcji wyboru. Możliwe jest również pominięcie dodatkowe gestu wyborui emulacja poprzez oczekiwanie określonego czasu (ang. time scan). Potencjalnązaletą mimiki jest duża różnorodność gestów mimicznych (np. ilość kombinacjijednostek czynnościowych = 4000), która pozwala na wybranie jednego z wieluzdefiniowanych wcześniej elementów poprzez przypisanie gestom akcji naciśnięciadedykowanych przycisków.

Uzyskanie sygnału trajektorii, w przypadku mimiki, jest również możliwe.Najprostszym sposobem może być zdefiniowanie sekwencji gestów (góra, dół,prawo, lewo) definiujących dane pozycji w czasie i składających się na trajek-torię. Możliwe wydaje się również rozpoznawanie ruchów głowy lub ruchów gałekocznych i kierunku patrzenia (ang. eye gaze direction).

Wszystkie wykorzystane gesty powinny być łatwe do wykonania dla człowiekaoraz w miarę możliwości intuicyjne. Wymaga to uwzględnienia umiejętności orazpsychofizjologicznych uwarunkowań człowieka — nie każda osoba potrafi wyko-nać wszystkie gesty, występuje mimika mimowolna (emocje) oraz problem powta-rzalności. Wiele zależy również od budowy i specyfikacji technicznej urządzenia(parametry toru przetwarzania i analizy — częstotliwość próbkowania obrazu

FPS, szumy, nieliniowości), która będzie miała wpływ na szybkość i dokładnośćpomiaru.

W tabelach 3.2 oraz 3.3 i 3.4, zawarte zostało podsumowanie własności typo-wych urządzeń wejściowych w kontekście systemu opartego o mimikę oraz pod-sumowano możliwości jakie oferuje mimika (sygnały sterujące, ilość potrzebnychgestów).

ność

ożliw

kość

ość,

żyró

kość

ność

żała

ożliw

ścią

ożliw

kość

śćge

kość

ożliw

ilośc

kość

ność

kość

3.4 Wybór elementów mimiki potencjalnie przydatnychdo sterowania

Z przedstawionej analizy wynika, że podstawowym sygnałem wymaganym do re-alizacji większości zadań, jest informacja o pozycji oraz sygnał wyboru. Informa-cja o trajektorii lub orientacji może zostać podana w sposób pośredni, podobniejak w typowych urządzeniach wejściowych (zapamiętanie zmian pozycji w czasie,zamiana pozycji na orientację). Operacje wymagające obsługi kilku stanów (śle-dzenie, przeciąganie) są również możliwe do obsłużenia, jednakże warunkiem jestzapewnienie dodatkowego sygnału informującego o aktualnym stanie lub wyko-rzystanie do tego celu sygnału wyboru (analogicznie jak przycisk w myszce). Wniniejszym rozdziale dokonano wyboru gestów, które będą potencjalnie przydat-ne do sterowania. Przy selekcji wykorzystano systematykę FACS, która określam.in. stopień trudności wykonania danego gestu mimicznego, oraz wzięto poduwagę możliwość niezależnego wykonania wymaganej ilości gestów. Propozycjezostały podsumowane w tabelach 3.5, 3.6 oraz 3.7. Metodyka FAP również możezostać wykorzystana. Należy jednak mieć na uwadze fakt, że standard ten defi-niuje model geometryczny i jego animacje — w odróżnieniu od standardu FACS,który jest ściśle związany z ruchami mięśni.

Duża różnorodność obserwowanych i możliwych do wykonania przez człowiekagestów mimicznych pozwala na elastyczny dobór elementów mimiki i powiązanieich z określonymi sygnałami sterującymi. Dlatego zaproponowany wybór nie jestjedynym możliwym — w zależności od umiejętności lub preferencji człowieka dotych samych celów mogą zostać użyte różne zestawy gestów. Jest to szczególnazaleta w kontekście wykorzystania systemu przez osoby niepełnospraw-ne. Kilka przykładów które obrazują możliwości sterowania przy pomocy mimiki— do emulacji myszki/dżojstika z dwoma przyciskami mogą zostać wykorzysta-ne elementy mimiki nr 1 i 2 (tab. 3.5, tab. 3.6). Sterowanie pozycją zapewnianejest poprzez gesty mimiczne dolnej części twarzy (różne ruchy ust), natomiastudostępnianie sygnału wyboru dzięki gestom górnej części twarzy (ruch brwi).Jako alternatywne źródła sygnałów można zaproponować — zestawy nr 4 i 2,wykorzystujące ruchy głowy do sterowania kursorem oraz ruchy brwi do emulacjiprzycisków. Osoby które posiadają lepszą kontrolę mimiki górnej części twarzyzaproponować można zestaw nr 5, wykorzystujący gesty mrugania oraz ruchówbrwiami.

Jak widać na powyższych przykładach wybór gestów do sterowania jest dośćszeroki. Należy jednak pamiętać, iż mimika jest sprawą bardzo indywidualną igest łatwy do wykonania dla jednego człowieka może być niewykonalny dla in-nego (panowanie nad muskulaturą twarzy, stopień niepełnosprawności). Do psy-chofizjologicznych uwarunkowań człowieka można również zaliczyć emocje, któ-rych skutkiem często jest odruchowa zmiana mimiki twarzy. Dlatego interfejs

3.4. WYBÓR ELEMENTÓW MIMIKI POTENCJALNIE PRZYDATNYCH DOSTEROWANIA

człowiek-komputer oparty o rozpoznawanie mimiki powinien raczejudostępniać użytkownikowi „alfabet” z którego może on skorzystaćwybierając najbardziej dla siebie naturalne gesty, niż ustalone z górysposoby sterowania.

Użycie gestów mimicznych do emulacji funkcjonalności myszki lub dżojstikanie wykorzystuje pełnych możliwości jakie oferuje mimika. Duża ilość istniejącychelementów mimiki pozwala na zaprojektowanie interfejsu bardziej elastycznego,który będzie udostępniał wiele równoczesnych sposobów komunikacji (interfejsmultimodalny). Wykorzystanie redundancji gestów mimicznych może w znacznysposób uprościć realizację bardziej złożonych zadań takich jak np. nawigacja podokumentach. Wybrane zadania złożone oraz sposoby użycia elementów mimikiprzedstawiono w tabeli 3.7.

Analizując możliwości jakie oferuje mimika do sterowania, wymienić należyrównież urządzenia przenośne — takie jak telefony komórkowe, palmtopy orazkomputery przenośne PDA. Zastosowania tych urządzeń są bardzo szerokie (ka-lendarz, terminarz, notatnik, przeglądanie multimediów, gry, współpraca z urzą-dzeniami do nawigacji GPS, itp).

W przypadku palmtopów oraz PDA podstawowym sposobem interakcji wy-korzystywanym przez użytkowników jest rysik pozwalający na wybór elementów,czy też rysowanie na ekranie dotykowym. Do wprowadzania informacji w telefo-nach komórkowych, najpopularniejsza jak dotąd, jest klawiatura udostępniającawybrany zestaw cyfr i liter oraz klawisze funkcyjne.

Prowadzone są również badania i wdrożenia nad alternatywnymi możliwościa-mi interakcji, takimi jak rozpoznawanie mowy. Innym przykładem jest urządzeniefirmy Apple — iPhone. Udostępnia ono wielodotykowy ekran (ang. multitouch)pozwalający na bardziej naturalną dla człowieka pracę z urządzeniem. Ekranwielodotykowy, w odróżnieniu od typowego ekranu dotykowego, pozwala na jed-noczesną detekcję wielu dotknięć ekranu.

Coraz więcej urządzeń przenośnych jest wyposażanych w kamerę. Otwiera tomożliwości do analizy obrazu i rozpoznawania mimiki. Przykładem może być pra-ca [32], w której autorzy zaproponowali sterowanie typowymi aplikacjami kompu-tera przenośnego (gry, mapa) przy pomocy analizy obrazu z wbudowanej kamery.

Potencjalne możliwości sterowania jakie oferuje mimika twarzy mogą zostaćrównież wykorzystane w urządzeniach przenośnych. Jako przykład można podaćwspomaganie rozpoznawania mowy poprzez jednoczesną analizę ruchu ust. Roz-poznawanie jednostek fonetycznych mowy (fonemy) może być wspomagane przezrównoczesną detekcję analogicznych jednostek w dziedzinie obrazu — tzw. „vise-mów” (ang. visemes) [15]. Nie zawsze mogą one być traktowane jako odpowiedni-ki fonemów — raczej niosą informacje uzupełniające, przydatne do wspomaganiarozpoznawania mowy np. w przypadku dużego hałasu w pomieszczeniu.

•pra

•dół

y)•A

•wyb

róż-

•rot

52•A

różn

ołoż

3.4. WYBÓR ELEMENTÓW MIMIKI POTENCJALNIE PRZYDATNYCH DOSTEROWANIA

•pra

•lew

•dół

52•A

53•A

•pra

•dół

•wyb

46•A

ęści

częś

•A •B •C •D

częś

ęści

złoż

•prz

ół•p

„pag

n”•z

„zoo

•wsk

ł)•p

-dół

•prz

•odś

15•A

y”—

„vis

i”lu

du„v

ów”

Rozdział 4

Atrybuty elementów mimiki

Streszczenie

Rozpoznawanie różnych elementów mimiki w oparciu o informacje wy-odrębnione z obrazu, wymaga określenia atrybutów oraz cech charaktery-stycznych opisujących poszczególne gesty mimiczne (np. kształt, zależno-ści geometryczne, wygląd...). Temu zagadnieniu poświęcony jest niniejszyrozdział. Dokonana analiza elementów mimiki pozwoliła na zdefiniowaniepodstawowych atrybutów oraz odpowiadających im cech, które mogą zostaćnastępnie wyodrębnione z obrazu.

4.1 Wstęp

Analizując bardziej szczegółowo wybrane elementy mimiki (dodatek: B, tabele:B.4 do B.13), można zauważyć że gesty mimiczne powodują powstawanie róż-nych zmian w wyglądzie twarzy. Zmiany te mogą zostać wykorzystane do wy-odrębnienia z obrazu danego gestu. Przykładowo — marszczenie brwi (rys. B.2)skutkuje m.in. opuszczeniem oraz przyciągnięciem brwi do siebie połączonym zwywołaniem różnego rodzaju zmarszczek (zmiana wyglądu). Z kolei podczas uno-szenia brwi (rys. B.1) następuje wyraźna zmiana kształtu brwi (powstają równieżzmarszczki). Istotna dla gestów mimicznych jest również szybkość ich wykonania.

Opierając się na powyższych obserwacjach przyjęto, że elementy mimiki mogąskładać się z następujących elementarnych atrybutów:

• Atrybuty stałe, związane z budową morfologiczną twarzy (oczy, usta, brwi,bruzdy). Są one widoczne cały czas i mogą podlegać deformacji w zależnościod rodzaju gestu. Zaliczamy do nich: kształt elementów twarzy (np. brwi)oraz ich wzajemne położenie (np. wielkość szczeliny ust).

ROZDZIAŁ 4. ATRYBUTY ELEMENTÓW MIMIKI

• Atrybuty zmienne, wśród których wymienić należy różnego rodzaju zmarszcz-ki, bruzdy oraz fałdy skórne. Może wystąpić również deformacja już istnie-jących bruzd lub pogłębienie zmarszczek. Powstają one podczas ruchówmimicznych i wywołują najczęściej lokalne zmiany wyglądu.

• Atrybuty dynamiczne takie jak np. szybkość wykonania gestu lub trajektoriaruchu. Mimo iż człowiek jest w stanie rozpoznać np. emocje ze statyczne-go obrazu, dynamika zmian wyglądu twarzy niesie dużą część informacji.Dlatego też uwzględnienie tego aspektu może ułatwić proces rozpoznawaniamimiki. Przykładem wykorzystania dynamiki może być odróżnienie gestówwykonywanych intencjonalnie od wykonywanych mimowolnie (mruganie odprzymknięcia oczu).

Przedstawione powyżej atrybuty stanowią raczej abstrakcyjną reprezentację ele-mentów mimiki. Aby były one użyteczne do rozpoznawania, konieczne jest zgro-madzenie ewidencji o wystąpieniu danego atrybutu na obrazie (cechy charakte-rystyczne). Przykładowo, jeśli obiekt jest reprezentowany przez jego kształt, tospodziewać się można istnienia na obrazie krawędzi odpowiadających konturowiobiektu.

Wybór cech jest istotnym zagadnieniem, od którego zależy skuteczność rozpo-znawania oraz złożoność obliczeniowa algorytmów. Zagadnienia te opisane zostaływ bardzo interesujący sposób w [19][47], gdzie można znaleźć informacje na temattego w jaki sposób zmieniało się podejście do rozpoznawania w trakcie rozwojudziedziny przetwarzania i analizy obrazów.

4.2 Atrybuty stałe — kształt

Badania nad percepcją człowieka [7], dowiodły że do rozpoznania obiektu czło-wiek wykorzystuje głównie informację o kształcie. W przypadku kształtu, możebyć on reprezentowany na wiele sposobów, które można podzielić na trzy kate-gorie [18]:

• Kontury — przybliżenie kształtu przy pomocy parametryzowanych kon-turów [3][46], zestawu punktów charakterystycznych lub też aproksymacjikrzywej [72].

• Regiony — dekompozycja kształtu na prostsze elementy składowe [34],aproksymacja predefiniowanym elementem geometrycznym, lub reprezenta-cja przy pomocy zestawu cech związanych z wnętrzem kształtu (np. szkie-let) [76].

• Transformacje — kształt reprezentowany przez parametry liniowej lub nie-liniowej transformacji przestrzennej z kształtu bazowego, np. transformataHouga [20].

4.3. ATRYBUTY ZMIENNE — LOKALNE ZMIANY WYGLĄDU

Z powyższych reprezentacji możliwe jest uzyskanie zestawu cech charakterystycz-nych opisujących dany kształt. W najprostszym przypadku mogą to być, częstowykorzystywane, współczynniki kształtu. Możliwe jest również opisanie kształ-tu przy pomocy sygnałów jednowymiarowych (np. orientacja wzdłuż konturu),oraz wykorzystanie algorytmów takich jak transformacja Fouriera lub falkowa.Bardziej zaawansowane algorytmy, oparte o analizę statystyczną, pozwalają nauwzględnienie zmienności kształtu obiektów tej samej klasy. Wymienić tu należyaktywne modele kształtu (ang. active shape models, point distributed models)[16].

4.3 Atrybuty zmienne — lokalne zmiany wyglądu

W przypadku, występujących podczas ruchów mimicznych deformacji istnieją-cych oraz powstawania nowych zmarszczek i bruzd, kształt nie jest wiarygodnymatrybutem. Konieczne jest wyodrębnienie z obrazu lokalnych zmian wyglądu.Można do nich zaliczyć m.in.:

• Teksturę — określenie zmian tekstury skóry wywołanych mimiką realizowa-ne jest przez metody dopasowania wzorców (ang. template matching). Donajprostszych można zaliczyć znormalizowaną korelację (ang. normalizedcross-corelation) wykorzystaną w systemie rozpoznawania mimiki zapropo-nowanym przez Margrit Betke [6]. Do opisu tekstury wykorzystuje się rów-nież liniową transformację PCA (analiza składowych głównych) [91] orazsieci neuronowe [82].

• Lokalną orientację krawędzi — uwypuklanie się zmarszczek i bruzd powo-duje powstawanie i znikanie krawędzi na obrazie. Ilościowy i jakościowypomiar stopnia zmian może być wykonany przy pomocy lokalnych histo-gramów orientacji [28][85].

• Lokalne cechy obrazu — uwypuklanie się zmarszczek i bruzd powoduje rów-nież powstawanie i znikanie innych cech. Do ich wykrycia bardzo dobrzenadają się falki Gabora, które umożliwiają detekcję cech w różnych ska-lach i orientacjach [89]. Dodatkową zaletą falek Gabora jest ich teoretycznaniewrażliwość na zmiany oświetlenia sceny. Działanie tych falek można po-równać do operacji realizowanych przez pierwszorzędową korę wzrokowączłowieka [67]. Do opisu zmian obrazu wywołanych mimiką, wykorzystanymoże być również algorytm SIFT (ang. Scale Inwariant Features Trans-form), który pozwala na detekcję cech charakteryzujących się odpornościąna obrót, zmianę skali oraz pewną odpornością na zmiany oświetlenia [65].

ROZDZIAŁ 4. ATRYBUTY ELEMENTÓW MIMIKI

4.4 Atrybuty dynamiczne — ruch i jego trajektoria

Istotnym elementem mimiki są jej dynamiczne atrybuty. Szybkość wykonaniagestu mimicznego, trajektoria ruchu poszczególnych cech lub kolejność wykony-wania jednostek czynnościowych, niosą również istotne informacje. Wśród metodpozwalających na detekcję zmian można wyróżnić m.in.:

• Detekcję ruchu — wykrycie ruchu w określonym miejscu na obrazie twarzystanowi istotną przesłankę o wykonywanym geście mimicznym. Przykła-dowo wykrycie zmian w obszarze ust może świadczyć o wykonaniu gestuustami (uśmiech, otwarcie ust, itp.). Wśród metod wykorzystywanych wrozpoznawaniu mimiki znaleźć można algorytm wykorzystujący szablonyruchu [92].

• Wykorzystanie modeli ruchu. Wykonanie gestu powoduje ruch niektórychelementów charakterystycznych twarzy (np. brwi). Śledzenie tych zmianw czasie pozwala na estymację parametrów ruchu, m.in. trajektorii orazszybkości. W praktyce stosowany jest filtr Kalmana, lub w przypadku niespełnienia założeń tego filtru (nieliniowości, wielomodalny rozkład szumuobserwacji), filtr cząsteczkowy (ang. particle filter, condensation algorithm)[8]. Oprócz śledzenia cech wykorzystywana jest również informacja uzyskanaz analizy lokalnego przepływu optycznego (ang. local optic flow).

Część III

Automatyczne wyodrębnianie zobrazu oraz rozpoznawanie

elementów mimiki

Rozdział 5

Elementy systemuautomatycznego rozpoznawaniamimiki

Streszczenie

Rozpoznawanie obiektów przez ludzi wydaje się łatwe i bezproblemowe.Na podstawie ogólnej wiedzy o danym obiekcie, np. sylwetka ludzka — czło-wiek natychmiast jest w stanie rozpoznać nowe osoby, niezależnie od tego zjakiego punktu widzenia są one obserwowane czy też np. siedzą lub stoją.Z punktu widzenia komputerowej analizy obrazów, rozpoznawanie wyma-ga wyodrębnienia z obrazu użytecznej informacji na temat interesującychobiektów.

W rozdziale zaproponowano schemat struktury systemu automatycznegowyodrębniania z obrazu elementów mimiki, zawierający kilka bloków skła-dowych realizujących wymagane zadania. Omówione zostały etapy przetwa-rzania i analizy obrazu, na które składają się: selektywne przetwarzanie in-formacji (segmentacja), detekcja i lokalizacja twarzy, wyodrębnianie cech,klasyfikacja oraz adaptacja systemu. Wśród istotnych rezultatów wymienićmożna opracowaną metodę doboru przestrzeni barw dla algorytmu segmen-tacji oraz algorytm detekcji twarzy.

5.1 Wstęp

Jedną z podstawowych funkcji systemu wzrokowego człowieka jest rozpoznawa-nie obiektów, czyli zdolność do powiązania informacji docierającej do ludzkiegooka (fale elektromagnetyczne) z posiadaną wiedzą na temat otaczającego świa-ta. Pozwala to człowiekowi na wyciąganie wniosków oraz podejmowanie działań.

ROZDZIAŁ 5. ELEMENTY SYSTEMU AUTOMATYCZNEGO ROZPOZNAWANIAMIMIKI

Przykładem może być powitanie osoby znajomej dzięki rozpoznaniu jej twarzylub określenie jej zamiarów poprzez obserwację mimiki.

Istnieje bogata literatura poświęcona ludzkiemu systemowi wzrokowemu, wśródwielu publikacji wymienić można pracę powstałą w Katedrze Automatyki AGH[58]. W niniejszym rozdziale przedstawiono natomiast spojrzenie na problem zpunktu widzenia komputerowej analizy obrazów.

„Celem sztucznego przetwarzania lub analizy obrazu jest takie automatyczneprzetworzenie i przeanalizowanie obrazu wybranych obiektów lub całego otocze-nia systemu zautomatyzowanego, aby uzyskać użyteczną informację na temat in-teresujących obiektów (np. będących przedmiotem manipulacji ze strony robotaprzemysłowego) lub na temat otoczenia, które może wpływać (i zwykle znaczącowpływa) na sterowany automatycznie proces” [84].

Klasyczny schemat komputerowego przetwarzania obrazu przedstawiony zo-stał na rysunku 5.1. Składa się on z kilku etapów — począwszy od akwizycjiobrazów, a skończywszy na rozpoznaniu obrazu i jego semantycznej interpretacji.Celem wstępnego przetwarzania jest eliminacja zakłóceń, często poprawa jako-ści obrazu (np. wyostrzanie), oraz wyeksponowanie istotnych cech (np. detekcjakrawędzi). Za nim następuje etap analizy pozwalający na wyodrębnienie z ob-razu interesujących obiektów lub ich części (segmentacja), oraz wydobycie cechcharakteryzujących obiekty (np. współczynniki kształtu). W literaturze podejścietakie określane jest często jako „metody oparte na ekstrakcji cech” (ang. feature-based approaches). Możliwe jest również bezpośrednie rozpoznanie obrazu z po-minięciem etapu analizy (ang. image-based approaches). Przykładem mogą byćmetody dopasowania wzorców, w których zawartość obrazu porównywana jestbezpośrednio z zapamiętanym wzorcem wyglądu obiektu.

W kontekście automatycznego rozpoznawania elementów mimiki, klasycznyschemat przetwarzania obrazu przedstawia się zazwyczaj w odmienny sposób[26]. Na rysunku 5.2 przedstawiono schemat systemu rozpoznawania mimiki za-adoptowany i dostosowany na potrzeby niniejszej rozprawy.

Pierwszym etapem jest recepcja obrazu oraz selektywne przetwarzanie infor-macji, których celem jest wydzielenie z obrazu obszarów zawierających użytecz-ne dane. Proces ten porównać można do działania drogi wzrokowej człowieka,w szczególności funkcjonalności ciała kolankowatego bocznego, odpowiedzialnegoza porządkowanie informacji o kolorze, ruchu i formie [58].

Kolejnym etapem jest detekcja i lokalizacja twarzy na obrazie, której celemjest odróżnienie twarzy od innych obiektów występujących na scenie oraz segmen-tacja obszarów zainteresowań. Etap ten często łączony jest z normalizacją twarzy(pod względem skali, orientacji połączonej z korektą jasności), aczkolwiek istniejąmetody rozpoznawania, które tego nie wymagają. W literaturze funkcjonuje wielerodzajów usystematyzowania i pogrupowania metod detekcji i lokalizacji twarzy[37],[99].

5.1. WSTĘP

Rysunek 5.1: Operacje składające się na proces automatycznego widzenia.

Ponieważ elementy mimiki mogą mieć różny charakter, konieczne jest wyod-rębnianie z obrazu cech opisujących poszczególne gesty mimiczne. Takimi cechamimogą być np. kształt, zależności geometryczne, kolor lub też bezpośredni wyglądobiektu. Z etapem tym ściśle łączy się kolejny krok algorytmu jakim jest roz-poznawanie elementów mimiki. Podczas rozpoznawania, dane będące wynikiemetapu wyodrębniania cech podlegają klasyfikacji do jednej z założonych wcześniejkategorii. Obszerną systematykę metod rozpoznawania elementów mimiki możnaznaleźć w pracy [26]. Zagadnienia te zostały opisane w rozdziałach 6 oraz 7.

Duża zmienność wyglądu twarzy oraz elementów mimiki, wynikająca z wpły-wu wielu czynników, powoduje iż praktycznie niemożliwe jest opracowanie jednejuniwersalnej metody rozpoznawania. Dlatego istotnym zagadnieniem przy pro-jektowaniu systemu rozpoznawania mimiki, jest jego dostosowywanie się do czło-wieka oraz zmieniających się warunków otoczenia. Zagadnienia adaptacji zostałyopisane w rozdziale 8.

Rysunek 5.2: Ogólny schemat systemu rozpoznawania mimiki.

5.2 Selektywne przetwarzanie informacji oraz segmenta-cja obszarów zainteresowań

W procesie postrzegania sceny przez człowieka istotną rolę pełni selektywne prze-twarzanie informacji istotnych dla aktualnie przyjętego celu działania. Potwier-dzają to rezultaty badań funkcjonowania zmysłu wzroku oraz kory wzrokowej(ang. visual cortex) [31]. Przykładem skupiania uwagi na wybranych elementachpostrzeganej sceny jest rozmowa z drugą osobą — człowiek często spogląda natwarz rozmówcy aby zorientować się w jego aktualnym stanie emocjonalnym.Skupiając uwagę na elementach twarzy (brwi, oczy, usta) oczekuje ich zmian wzależności od mimiki i jej znaczenia (radość, gniew, smutek, zaskoczenie). Dzię-ki temu człowiek może zareagować w odpowiedni sposób. Trzeba jednak zwrócićuwagę iż sam proces selektywnego przetwarzania informacji nie jest równoznacznyz prawidłowym rozpoznaniem rzeczywistego obiektu. Często zdarza się że „wi-dzimy tylko to czego się spodziewamy”. Przykładem mogą być różnego rodzajuiluzje takie jak na rysunku 5.3.

Z selektywnym przetwarzaniem informacji związany jest również proces gru-powania percepcyjnego (ang. perceptual grouping). Tematyka ta omówiona zo-

5.2. SELEKTYWNE PRZETWARZANIE INFORMACJI, SEGMENTACJA

Rysunek 5.3: Przykład optycznej iluzji — „trójkąt Kanizsa”.

stała w teorii percepcji, nazywanej teorią Gestalt (ang. gestalt psychology), którazostała zaproponowana przez berlińską szkołę psychologii na początku XX wieku[48][94]. Opisywała ona pierwotnie organizowanie przez system nerwowy człowie-ka percepcji i spostrzeżeń odbieranych ze wzrokowego pola widzenia. Zauważono,iż ludzie mają tendencję do grupowania i konfigurowania bodźców pochodzącychz wzrokowego pola widzenia wg zasad: bliskości, podobieństwa, domykania sięw pewną całość oraz wyróżnionej cechy prostoty. Później twórcy teorii Gestaltuogólnili te zasady na opis działania innych zmysłów oraz przenieśli spostrzeże-nia na pole psychologii, dostrzegając, że te same prawa dotyczą także zjawiskpsychicznych.

W kontekście rozpoznawania obrazów przez maszynę, selektywne przetwarza-nie informacji ma istotne znaczenie i realizowane jest najczęściej poprzez seg-mentację. W literaturze proces segmentacji określany jest również jako problemgrupowania przestrzennego pikseli (ang. spatial grouping). W przypadku analizyobrazów dynamicznych (sekwencja video), konieczne jest również uwzględnieniekontekstu czasowego (ang. correspondence problem). Polega on na ustanowieniuasocjacji czasowych pomiędzy elementami obrazu należącymi do tej samej czę-ści fizycznego obiektu. Segmentacja która stanowi wstępny etap przetwarzania,zapewnia szereg wskazówek dla algorytmów rozpoznawania obrazu. Pozwala nazawężenie obszaru poszukiwań, poprzez wyeliminowanie pikseli które nie są istot-ne dla dalszej analizy. Zawężenie obszaru poszukiwań skutkuje zmniejszeniemczasu obliczeń, a w konsekwencji ułatwia pracę systemu w czasie rzeczywistym.

Do najczęściej wykorzystywanych w selektywnym przetwarzaniu informacjimetod można zaliczyć:

• Kolor — odgrywa istotną rolę w rozumieniu obrazu przez człowieka. Jestsilną wskazówką odporną na zmiany skali, orientacji oraz przysłonięcie czę-ści obiektu.

• Ruch — pozwala na stwierdzenie czy w obserwowanej scenie zaszły jakieś

zmiany np. w położeniu cech. Powoduje zmiany intensywności pikseli ob-razu.

• Tekstura powierzchni — umożliwia odróżnienie od siebie części obiektóworaz wyznaczenie ich kształtu.

• Rozbieżność stereoskopowa (ang. stereo disparity) — pozwala na ocenę od-ległości.

• Charakterystyczne cechy (ang. salient features) — widoczne cechy obiek-tów odróżniające się w dużym stopniu od otoczenia (np. plamy, krawędzie,narożniki).

Z powyższych wskazówek szczególnie użyteczny w systemach detekcji twarzyjest kolor, który odgrywa istotną rolę w rozumieniu obrazu przez człowieka. Po-zwala na odróżnienie od siebie obiektów — wśród nich wyróżnić można m.in.twarze innych ludzi. Również w komputerowej analizie obrazów wykorzystuje sięinformacje o kolorze do segmentacji obszarów zainteresowań (ang. ROI — regionof interest).

5.2.1 Segmentacja na podstawie barwy skóry

Barwa skóry człowieka teoretycznie jest niezależna od rasy (z wyjątkiem albino-sów) [37], dlatego też segmentacja w oparciu o kolor pozwala na wydzielenie miejscobrazu w których istnieje duże prawdopodobieństwo wystąpienia twarzy. Wynikimogą zostać wykorzystane do właściwej detekcji i lokalizacji twarzy. Właściwo-ści niektórych przestrzeni kolorów (YCbCr) pozwalają również na wydzielenie zobrazu potencjalnych obszarów oczu oraz ust [38]. Jest to pomocne w weryfikacjiwyników detekcji twarzy.

W pracy [14] autorzy skupili się na automatycznej segmentacji twarzy przyużyciu mapy kolorów skóry człowieka. Celem prowadzonych badań była inteli-gentna selekcja informacji z obrazu dla potrzeb aplikacji wideotelefonu. W ar-tykule [74] przedstawiona została realizacja podobnego celu — wybór obszarówzainteresowań dla potrzeb systemu kodowania i kompresji sygnału wideo. Seg-mentacja i śledzenie twarzy stanowi w opisywanym systemie istotny element re-alizowany poprzez użycie danych o kolorze. W wielu przypadkach segmentacjaoparta o barwę skóry jest częścią etapu detekcji i rozpoznawania twarzy [38].Często skuteczność detekcji zwiększa się poprzez kompensację oświetlenia i wy-korzystanie dodatkowej wiedzy (np. budowa morfologiczna twarzy). W kontek-ście wykorzystania koloru wymienić również należy prace prowadzone w polskichośrodkach naukowych. Jedną z nich jest segmentacja twarzy dla potrzeb systemurozpoznawania mimiki [41] — laboratorium Biocybernetyki AGH. Interesującezastosowanie przedstawiła autorka pracy doktorskiej [57] — wykorzystanie in-

formacji o barwie skóry w algorytmie rozpoznawania znaków polskiego alfabetupalcowego.

Wykorzystanie informacji o kolorze wymaga określenia dwóch podstawowychzałożeń:

• wybór przestrzeni barw (ang. color space) — różne przestrzenie kolorówcharakteryzują się różnymi własnościami,

• sposób modelowania rozkładu kolorów segmentowanego obiektu.

Jedną z podstawowych przestrzeni barw jest RGB, szeroko wykorzystywa-ny w torach obróbki sygnału wizyjnego. Większość barw można wywołać przezzmieszanie w ustalonych proporcjach trzech wiązek światła o barwie czerwonej,zielonej i niebieskiej, czyli światła o odpowiedniej częstotliwości fali elektromagne-tycznej. Przestrzeń kolorów RGB stanowi również punkt wyjścia do transformacjipikseli obrazu do innych przestrzeni barw. Wykorzystanie RGB do segmentacjiskóry człowieka napotyka na szereg trudności, wynikających ze specyfiki tej prze-strzeni. Przede wszystkim zwrócić należy uwagę na istnienie wysokiej korelacjipomiędzy składowymi oraz brak odseparowania informacji o chrominancji i lu-minancji. Istotny jest również brak percepcyjnej jednolitości (ang. perceptualuniformity) polegający na tym, że jednostkowe zmiany jednej ze składowej nie sątak samo postrzegane dla różnego zakresu tej składowej [1]. Dlatego w algoryt-mach segmentacji wykorzystuje się inne przestrzenie barw, otrzymywane poprzezodpowiednie transformacje:

• znormalizowana RGB [38],

• HSI, HSV, HSL (Hue Saturation Intensity – Value, Lightness), [60],

• YCrCb [14],

• inne.

Więcej informacji na temat wykorzystania różnych przestrzeni kolorów możnaznaleźć w pracy [77].

Celem modelowania rozkładu kolorów jest segmentacja obiektu (twarz, ręka)— inaczej mówiąc określenie reguły decyzyjnej pozwalającej na zaklasyfikowaniedanego piksela jako części obiektu lub tła. Wśród stosowanych metod wyróżnićmożna:

• segmentację poprzez bezpośrednie określenie zestawu reguł [66],

• metody nieparametryczne nie wymagające modelu lecz bezpośrednio wy-korzystujące rozkład statystyczny kolorów pikseli uzyskany z analizy przy-kładów [78],

• metody parametryczne, w których na podstawie danych uczących tworzonyjest model rozkładu kolorów [95],

• metody dynamiczne wykorzystywane w przypadku jednoczesnej detekcji iśledzenia twarzy.

Zestawienie różnych metod modelowania rozkładu kolorów i segmentacji możnaznaleźć w pracy [93].

5.2.2 Dobór przestrzeni kolorów oraz metody segmentacji

Istnieje wiele metod segmentacji wykorzystujących różne przestrzenie kolorów.Porównanie skuteczności różnych metod segmentacji w oparciu o kolor jest trudneze względu na testowanie dla różnych baz danych zawierających obrazy twarzypobrane w różnych warunkach i różnymi kamerami.

Z punktu widzenia systemu rozpoznawania mimiki istotny jest odpowiedniwybór reprezentacji kolorów oraz sposobu modelowania pikseli skóry człowieka.W niniejszej pracy porównano następujące przestrzenie kolorów: znormalizowanąRGB, HSV oraz YCbCr. Spośród metod segmentacji wybrano do porównanianastępujące: bezpośrednie określenie zestawu reguł, znormalizowane tablice prze-kodowań (ang. LUT – look-up-table) oraz gaussowski model barwy skóry. Opisprzestrzeni kolorów oraz metod segmentacji zamieszczony został w dodatku A(rozdziały: A.1 oraz A.2). W dalszej części rozprawy używane będzie pojęcie„modelu barwy skóry”, które odnosi się do sposobu reprezentacji barwy skóryczłowieka, dla potrzeb algorytmów segmentacji.

W celu obiektywnego porównania skuteczności segmentacji przy pomocy róż-nych metod i przestrzeni kolorów, na wybranych obrazach sekwencji video (uzna-nych za referencyjne) wyznaczono manualnie obszary zawierające piksele repre-zentujące skórę twarzy. W ten sposób utworzona została binarna maska twarzy(rys. 5.4).

Rysunek 5.4: Przykładowy obraz sekwencji zawierający twarz (a) oraz przyjętamaska twarzy (b).

Następnie zdefiniowano kryterium porównawcze, w postaci funkcji celu (5.1):

fs(ψ) =nbnonfacennonface

− nbfacenface

gdzie:

fs(ψ)− funkcja celu

nbface − ilość pikseli poprawnie zaklasyfikowanych do skóry w obszarzemaski twarzy

nface − całkowita ilość pikseli obszarze maski twarzy

nbnonface − ilość pikseli niepoprawnie zaklasyfikowanych do skóry poza ob-szarem maski twarzy

nnonface − całkowita ilość pikseli poza obszarem maski twarzy

Funkcja przyjmuje wartość minimalną dla przypadku gdy wszystkie pikselenależące do twarzy, zostały poprawnie do niej zaklasyfikowane oraz piksele tłazostały zaklasyfikowane do obszaru tła.

Ta sama funkcja celu zastosowana została także do automatycznego tworzeniamodeli barwy skóry dla poszczególnych metod. W przypadku metody bezpośred-niego określenia zestawu reguł, modelem są wyznaczone progi binaryzacji po-szczególnych składowych koloru (Cb-Cr, Y, r-g1). Optymalne progi wyznaczonominimalizując funkcję celu (5.2):

fs(ψ) (5.2)

Jako wartości początkowe wektora parametrów przyjęto progi określone jako prze-dział dwóch odchyleń standardowych od wartości oczekiwanej pikseli w obszarzemaski twarzy (5.3):

µξ ± 2 · stdξ (5.3)

Dodatkowo w funkcji celu następuje sortowanie wartości progów co pozwalauniknąć sytuacji, gdy dolny próg jest większy od górnego. Optymalizacji doko-nano przy pomocy funkcji fmincon z modułu Optimization Toolbox środowi-ska MATLAB, która opiera się na metodzie sekwencyjnego programowania SQP(ang. Sequential Quadratic Programming). Na rysunku 5.5 pokazane są wyni-ki segmentacji dla progów przyjętych jako wartości początkowe oraz dla progówwyznaczonych poprzez optymalizację przyjętej funkcji celu.

W metodach opartych o tablice przekodowań (LUT) oraz gaussowskiej funk-cji rozkładu prawdopodobieństwa, rezultatami są obrazy prawdopodobieństwa —wartościom bliskim 1 odpowiadają piksele należące z dużą pewnością do twarzy,

1w rozprawie użyto oznaczenia „r-g” dla składowych znormalizowanej przestrzeni RGB

Rysunek 5.5: Wyniki segmentacji: (a) dla progów przyjętych wg kryterium (5.3),(b) dla progów wyznaczonych metodą minimalizacji funkcji celu (5.2)

wartościom w pobliżu zera — tła. Obrazy te mogą zostać wykorzystane bezpo-średnio, np. w dalszej analizie skupień, bądź też można z nich uzyskać obrazybinarne. W tym celu konieczne jest określenie progu pozwalającego na klasyfi-kację pikseli do jednej z dwu kategorii — twarz i tło. Próg ten jest wyznaczanyautomatycznie poprzez optymalizację funkcji celu. Ponieważ w tym przypadkufunkcja jest jednowymiarowa, wystarczające jest obliczenie jej wartości dla linio-wo zmieniającego się progu binaryzacji oraz znalezienie minimum — wykres (rys5.6).

Rysunek 5.6: Wykres funkcji celu dla przypadku jednowymiarowego.

Porównanie rezultatów segmentacji przeprowadzono dla obrazów sekwencjivideo pochodzących z różnych kamer, w odmiennych sytuacjach oraz w różnychwarunkach oświetleniowych:

• sekwencja 1 — kamera EVI, optymalne warunki akwizycji (jednolite tło,natężenie oświetlenia około 320lux), (rys. 5.7a),

• sekwencja 2 — kamera EVI, słabe oświetlenie (jednolite tło, natężenieoświetlenia około 40lux), (rys. 5.7b),

• sekwencja 3 — kamera USB Creative WebCam, skomplikowana scena iwarunki akwizycji (tzn. skomplikowane tło, boczne oświetlenie, okulary),(rys. 5.7c),

• sekwencja 4 — kamera EVI, skomplikowana scena i warunki akwizycji (tzn.skomplikowane tło, boczne oświetlenie, okulary), (rys. 5.7d).

Każdy obraz został poddany operacji usuwania szumów (filtr medianowy o masce5*5). Segmentację przeprowadzono dla wcześniej opisanych przestrzeni koloróworaz metod.

Rysunek 5.7: Przykładowe obrazy z wybranych sekwencji video.

Rezultaty segmentacji twarzy, wraz z wyznaczonymi wartościami funkcji celu,zamieszczone zostały w dodatku D (rysunki D.1 — D.4, tabele D.1 — D.4).

W przypadku dobrych warunków akwizycji i braku na scenie obiektów o bar-wie skóry, wyniki segmentacji są dobre i pozwalają na wyodrębnienie z obrazutwarzy. Wybór metody oraz przestrzeni kolorów nie jest krytyczny, aczkolwiekmetoda wykorzystująca zestaw reguł okazuje się najskuteczniejsza (najmniejszawartość funkcji celu).

Duży wpływ na skuteczność algorytmu ma nieprawidłowe oświetlenie sceny(sekwencja 2). W tym przypadku wybór odpowiedniej metody oraz przestrzenikolorów jest istotny dla prawidłowej segmentacji. W szczególności boczne oświe-tlenie (często spotykane ze względu na typowe ustawienie biurka komputera) maniekorzystny wpływ. Wynika to z powstawania cieni, które znacząco wpływają narejestrowaną barwę skóry. Widoczne jest to na dwuwymiarowych histogramachrozkładu prawdopodobieństwa kolorów pikseli (rys 5.8). W przypadku oświetleniajednorodnego rozkład jest zgodny z teorią [93] — barwa skóry człowieka tworzyteoretycznie w przestrzeni kolorów zwarty, niewielki obszar (rozkład prawdopo-dobieństwa pikseli obszaru skóry normalny lub skośny). Natomiast dla bocznegooświetlenia rozkład jest wielomodalny.

Podczas eksperymentów natrafiono na sytuację, gdy prawidłowo dobrane pro-gi segmentacji (metody regułowa), były nieskuteczne do segmentacji innych obra-zów tej samej sekwencji wideo. Dlatego konieczne okazało się sprawdzenie stabil-ności progów dla testowanych sekwencji. W tym celu wyznaczono progi binary-zacji na wybranym z sygnału wideo obrazie, a następnie dla pozostałych obrazówsekwencji (kilkadziesiąt obrazów pobranych dla stabilnych globalnych warunków

Rysunek 5.8: Rozkłady prawdopodobieństwa pikseli obszaru skóry dla: (a)(b)sekwencja 1; (c)(d) sekwencja 4. Rozkłady przedstawione w postaci: (a)(c) obra-zu będącego odwzorowaniem histogramu 2D, (b)(d) wykresu powierzchniowegohistogramu 2D.

oświetleniowych) wyznaczono wartość funkcji celu fS(Ψ). Na podstawie otrzyma-nych wyników obliczono wartość oczekiwaną i odchylenie standardowe funkcji celudla poszczególnych sekwencji oraz przestrzeni barw. Wyniki przedstawia tabela5.1. Na jej podstawie można zauważyć że najlepsze wyniki uzyskano dla przestrze-ni Cb-Cr, natomiast przestrzeń r-g okazuje się cechować największą zmiennością,dla występujących niewielkich wahań oświetlenia sceny.

5.3. DETEKCJA I LOKALIZACJA TWARZY

Tabela 5.1:

r-g Cb-Cr Hue

sekwencja 1 µ = −0.83757σ = 0.051141

µ = −0.86744σ = 0.0043139

µ = −0.81677σ = 0.005981

sekwencja 2 µ = −0.56997σ = 0.17913

µ = −0.69882σ = 0.0089865

µ = −0.32583σ = 0.019995

sekwencja 3 µ = −0.26569σ = 0.27182

µ = −0.50389σ = 0.018087

µ = −0.53638σ = 0.054475

sekwencja 4 µ = −0.14738σ = 0.11159

µ = −0.22583σ = 0.057913

µ = −0.35548σ = 0.042728

5.3 Detekcja i lokalizacja twarzy

Selektywne przetwarzanie informacji (segmentacja) pozwala na określenie obsza-rów zainteresowań dzięki wykorzystaniu wskazówek takich jak kolor, ruch, tekstu-ra. Nie zapewnia jednak jednoznacznego stwierdzenia istnienia na obrazie twarzyczłowieka. Konieczna jest weryfikacja, czy znaleziony obiekt jest twarzą oraz okre-ślenie jest położenia i wielkości. Cały proces nazywany jest w literaturze detekcjąoraz lokalizacją twarzy. Istniejące metody detekcji i lokalizacji twarzy na obrazachstatycznych, można podzielić na kilka grup:

1. metody wykorzystujące wiedzę o budowie morfologicznej twarzy (ang. know-ledge based methods),

2. metody oparte na detekcji strukturalnych cech obrazu, niezależnych odzmian oświetlenia oraz punktu widzenia kamery (ang. feature invariant ap-proaches),

3. metody oparte na wyszukiwaniu wzorców twarzy oraz jej morfologicznychelementów, np. oczy (ang. template matching methods, appearance-basedmethods).

Wyczerpujące ich omówienie można znaleźć w pracach: [96],[37]. Pierwszagrupa metod (punkt -1-), która wykorzystuje wiedzę o budowie morfologicznejtwarzy, reprezentuje podejście „od ogółu do szczegółu” (ang. top-down). Detek-cja odbywa się na podstawie zestawu reguł przyjętych na podstawie wiedzy oanatomii człowieka [50]. Przykładem może być: symetria elementów twarzy, za-leżności geometryczne pomiędzy nimi oraz informacje o intensywności pikseli wposzczególnych obszarach.

Przykładem odmiennego podejścia jest strategia „od szczegółu do ogółu”(ang. bottom-up). Jest to grupa algorytmów opartych na ekstrakcji struktu-ralnych cech obrazu (punkt -2-). Głównym założeniem jest niewrażliwość cechna zmiany położenia twarzy w stosunku do kamery, zmiany oświetlenia bądźteż indywidualnego wyglądu człowieka. Detekcja twarzy realizowana jest poprzez

dopasowaniu znalezionych cech (np. własności pikseli obrazu takie jak poziomyszarości, kolor, krawędzie) do modelu twarzy. Model ten może być o różnym stop-niu szczegółowości, dwu- lub trójwymiarowy. Przykładem jest publikacja [38], wktórej wykorzystano informacje o kolorze skóry człowieka do identyfikacji obszarutwarzy oraz jej elementów charakterystycznych (oczy, usta). Autorzy zapropono-wali algorytm lokalizacji oczu i ust, oparty na analizie składowych chrominancjiCb-Cr. Poprzez porównanie prostego modelu twarzy ze znalezionymi cechamiuzyskano skuteczną detekcję twarzy. Główną wadą metod opartych na detekcjicech jest ich wrażliwość na dobór parametrów oraz problem niejednoznaczno-ści dopasowania cech do modelu. Charakteryzują się jednak małą złożonościąobliczeniową, co pozwala na ich stosowanie w systemach pracujących w czasierzeczywistym.

Osobną grupę (punkt -3-) stanowią metody oparte na wyszukiwaniu wzorcówwyglądu twarzy. Zadanie detekcji postawione jest jako problem klasyfikacji nie-znanego obrazu do jednej ze znanych kategorii utworzonych w procesie uczenia naprzykładach. Jedną z metod częściej wykorzystywanych do detekcji twarzy, jestalgorytm nazywany „eigenfaces” [91]. Na podstawie zestawu przykładów orazanalizy składowych głównych PCA (ang. principal component analysis), two-rzony jest statystyczny model twarzy. Detekcja na nieznanym obrazie odbywasię poprzez przesuwanie okna analizy (w różnych skalach) i porównanie wycin-ka obrazu z wzorcem. Porównanie odbywa się poprzez rzutowanie wycinka doprzestrzeni bazowej i obliczenie błędu średniokwadratowego określającego mia-rę podobieństwa do twarzy (ang. DFFS – distance-from-face-space). Metoda tawykorzystywana jest również do rozpoznawania twarzy. Skuteczność tego podej-ścia jest większa niż algorytmów opartych na ekstrakcji cech, ale zależy w dużymstopniu od sposobu uczenia oraz wielkości bazy wzorców.

Wyżej przedstawiony podział dotyczy algorytmów pracujących na obrazachstatycznych, natomiast detekcja twarzy na sekwencji wideo, wymaga uwzględ-nienia szeregu dodatkowych czynników. Jednym z nich jest zmienność warunkówakwizycji dla sekwencji obrazów wpływająca na jej jakość. W rzeczywistych wa-runkach interakcji człowieka z komputerem warunki akwizycji mogą zmieniać siędość znacznie w czasie (np. oświetlenie naturalne i sztuczne, pozycja osoby przedkamerą itp.). Drugim czynnikiem — który pozytywnie wpływa na proces detekcji— jest fakt iż w przypadku sekwencji obrazów dostępne są dodatkowe wskazówki,takie jak ruch oraz zależności czasowe pomiędzy poszczególnymi cechami obrazu.Dowiedziono [33], iż dla człowieka wyszukiwanie twarzy na sekwencji wideo jestłatwiejsze niż na losowo prezentowanych obrazach statycznych. Metody detek-cji i lokalizacji twarzy na sekwencji obrazów, wykorzystujące zarówno informacjeprzestrzenne jak i czasowe, rozwinęły się dopiero niedawno i — wg [99] — wdalszym ciągu wymagają dalszych badań w tym kierunku.

5.3.1 Algorytm detekcji i lokalizacji twarzy

Segmentacja twarzy na podstawie barwy skóry umożliwia wydzielenie miejsc ob-razu w których istnieje duże prawdopodobieństwo wystąpienia twarzy. Nie pozwa-la jednak na jednoznaczną detekcję i lokalizację twarzy. Konieczne jest wykorzy-stanie dodatkowych informacji. W niniejszej pracy połączono algorytm wstępnejsegmentacji twarzy z metodą detekcji jej elementów charakterystycznych. Loka-lizacja oczu i ust wraz z zestawem reguł opracowanych na podstawie wiedzy obudowie morfologicznej twarzy umożliwia bardziej skuteczną jej detekcję. Sche-mat blokowy algorytmu przedstawiony został na rysunku 5.9.

W pierwszej kolejności odbywa się wstępna filtracja (filtr medianowy), dziękiktórej uzyskuje się minimalizację wpływu szumów. Operację tą poprzedza zmniej-szenie wymiarów obrazu, co pozwala na skrócenie czasu obliczeń. Segmentacjaobszaru twarzy odbywa się jedną z metod opisaną w poprzednim rozdziale (por.5.2.2) — wybór metody, przestrzeni kolorów oraz parametrów algorytmów zostałzrealizowany na podstawie kryterium najlepszej segmentacji (minimalna wartośćfunkcji celu dla wybranego obrazu z danej sekwencji video). W wyniku otrzymujesię binarną maskę twarzy (5.4). Maska ta poddawana jest dodatkowo następują-cym operacjom morfologicznym: usunięcie niewielkich obiektów, zamknięcie orazzalewanie otworów.

BWface = Γ(BW ) (5.4)

gdzie:

BW ∈ BWr,g, BWhue, BWcb,crΓ(BW )− operacja lub ciąg operacji morfologicznych na obrazie binarnym

(w tym przypadku zalewanie otworów poprzedzone usunięciemniewielkich obiektów)

Do lokalizacji oczu oraz ust wykorzystano algorytm zaproponowany w publi-kacji [38]. Opiera się on na fakcie, iż obszary oczu i ust charakteryzują się innymiwartościami składowych chrominancji Cb oraz Cr. Na obrazie okolic oczu wy-stępują wysokie wartości Cb oraz niskie Cr, natomiast obraz ust zawiera innystosunek składowych Cr/Cb niż inne obszary twarzy. Na tej podstawie tworzonesą mapy prawdopodobieństwa wystąpienia oczu i ust. Algorytm został przystoso-wany na potrzeby systemu rozpoznawania mimiki poprzez wprowadzenie szereguzmian, m.in. wykorzystanie algorytmu detekcji plam (ang. blobs) oraz własnyzestaw reguł na podstawie zależności geometrycznych elementów twarzy.

Obliczanie mapy prawdopodobieństwa oczu oraz ust zostało szerzej opisane wdodatku A.7. Z binarnych masek twarzy, oczu i ust (BWface, BWeye, BWmouth),po indeksacji (ang. labelling), otrzymywane są obiekty będące potencjalnymi

Rysunek 5.9: Schemat blokowy algorytmu detekcji twarzy.

oczami i ustami. Na podstawie badań okazało się, że ilość znajdowanych ele-mentów jest dość duża (rys. E.1). Dlatego konieczne okazało się opracowaniealgorytmu selekcji i weryfikacji, który wybierałby z zestawu kandydatów jedną(najbardziej prawdopodobną) trójkę obiektów „oko-oko-usta”. W tym celu wy-korzystano głównie zależności geometryczne elementów twarzy. Podsumowuje tonastępująca lista kryteriów:

• obiekty muszą leżeć w obszarze maski twarzy (poddanej operacji erozji abyusunąć zakłócenia pojawiające się na krawędziach twarzy i tła),

• wielkość obiektów musi być większa niż założone minimum (usunięcie nie-wielkich obiektów składających się z kilku pikseli będących zakłóceniami),

• odległość lewego oka od ust musi być w przybliżeniu równa odległości pra-wego oka od ust (w rzeczywistości duży obrót głowy w lewo lub prawopowoduje iż zależność ta nie jest spełniona, jednakże w większości przypad-ków kryterium to jest spełnione),

• odległość pomiędzy oczami musi być proporcjonalna do średniej odległościoczu od ust (czyli oczy nie mogą być położone zbyt blisko siebie),

• oczy muszą leżeć powyżej ust (zakłada się że niedopuszczalna jest sytuacjaodwrócenia kamery do góry nogami).

Powyższe kryteria pozwalają na selekcję oczu i ust. W przypadku gdy dalej pozo-stanie wiele kandydatów, jako właściwy wybierana jest trójka obiektów, którychsuma ilości pikseli jest największa. Wyznaczenie położenia oraz wielkości twarzyna podstawie lokalizacji oczu i ust jest już nieskomplikowane.

5.3.2 Rezultaty detekcji i lokalizacji twarzy

Skuteczność algorytmu detekcji twarzy określono dla kilku sekwencji wideo:

• sekwencja 1 — kamera EVI, optymalne warunki akwizycji (jednolite tło,natężenie oświetlenia około 320lux), (rys 5.7a),

• sekwencja 2 — kamera EVI, słabe oświetlenie (jednolite tło, natężenieoświetlenia około 40lux), (5.7b),

• sekwencja 3 — kamera USB Creative WebCam, skomplikowana scena iwarunki akwizycji (tzn. skomplikowane tło, boczne oświetlenie, okulary),(5.7c).

Jako poprawnie wykrytą i zlokalizowaną twarz przyjęto sytuację gdy zosta-ły spełnione założone kryteria selekcji oczu i ust oraz błąd lokalizacji cech był

mniejszy niż zadany próg (10 pikseli). Na podstawie analizy wyników segmenta-cji przeprowadzonej w poprzednim rozdziale (por. 5.2.2), odpowiednio dobranonajlepszą metodę oraz przestrzeń kolorów. Była nią segmentacja oparta o zestawreguł (dwuprogowa binaryzacja składowych) w przestrzeni Cb-Cr.

Przy większych ruchach głowy, może się zdarzyć że niektóre elementy (szcze-gólnie oczy) nie są widoczne. Ponieważ są one niezbędne do prawidłowego dzia-łania algorytmu, ich brak uniemożliwia prawidłową detekcję. Z tego powodu ba-danie skuteczności algorytmu przeprowadzono dla wybranych z sekwencji obra-zów, odpowiadających położeniu neutralnemu (twarz frontalnie do kamery) —rys (5.10).

Rysunek 5.10: Skrajne położenia głowy dla twarzy uznanej za frontalną.

Rezultaty detekcji i lokalizacji twarzy dla powyższych sekwencji przedstawio-no w dodatku E, tabele: E.1, E.2. Na podstawie wyników można stwierdzić, że wprzypadku gdy twarz usytuowana jest względem kamery w przybliżeniu frontal-nie, detekcja i lokalizacja jest wystarczająca na potrzeby systemu rozpoznawaniamimiki (> 80%). Podczas testów nie uwzględniono również obrazów sekwencjidla których występuje gest mrugania. W takim przypadku poprawna lokalizacjaoczu jest trudna, ponieważ cechy je reprezentujące nie są dobrze widoczne naobrazie.

Podsumowując zagadnienia przedstawione w rozdziale — można przyjąć na-stępujące kierunki dalszych prac, które pozwolą na zwiększenie skuteczności al-gorytmu detekcji twarzy:

• wykorzystanie informacji o ruchu na obrazie do wykrycia sytuacji mrugania,a następnie do lokalizacji oczu,

• użycie współczynników kształtu do selekcji cech (zamiast kryterium wiel-kości obiektów),

• znalezienie innych kryteriów odległości cech dla położenia twarzy innegoniż pozycja neutralna,

• wykorzystanie większej ilości elementów twarzy (np. brwi, nozdrza), wi-docznych również w przypadku położenia głowy innego niż frontalne,

• użycie algorytmów śledzenia cech (ang. feature tracking).

Rozdział 6

Wyodrębnianie z obrazu twarzyelementów mimiki

Streszczenie

Zdefiniowane w pierwszej części rozprawy atrybuty elementów mimikioraz odpowiadające im cechy oczekiwane na obrazie twarzy, stanowią pod-stawę umożliwiającą rozpoznanie wybranych gestów mimicznych. W pierw-szej kolejności odpowiednie cechy (kształt, wygląd...) muszą zostać wyod-rębnione z obrazu. W rozdziale przedstawiono wybrane metody i algorytmypozwalające na ekstrakcję z obrazu twarzy wymaganych na etapie rozpozna-wania wektorów cech, reprezentujących elementy mimiki. Wybrane metodyto: statystyczne modele kształtu, histogramy orientacji oraz detekcja ruchu.

6.1 Wstęp

W niniejszej rozprawie dokonano wyboru trzech metod reprezentujących różnepodejścia do wyodrębniania z obrazu cech odpowiadających elementom mimiki:

• Statystyczne modele kształtu (ang. point distributed models) umożliwiającerozpoznawanie kształtu jakie tworzą cechy charakterystyczne wybranychjednostek czynnościowych. Jako wybrane jednostki czynnościowe przyjętoelementy mimiki górnej części twarzy: AU1+2 (unoszenie brwi) oraz AU4(marszczenie brwi). U większości osób niezależne wywołanie ruchu AU1 lubAU2 jest niemożliwe bez długotrwałego treningu dlatego zrezygnowano zrozpoznawania osobno tych gestów.

• Histogramy orientacji pozwalające na rozpoznawanie lokalnych zmian wy-glądu. W tym przypadku skupiono się na rozpoznawaniu mimiki dolnej

ROZDZIAŁ 6. WYODRĘBNIANIE Z OBRAZU TWARZY ELEMENTÓW MIMIKI

części twarzy, ponieważ występuje tam więcej zmarszczek oraz bruzd. Wy-brane do rozpoznawania jednostki czynnościowe przyjęto na podstawie kry-terium łatwości wykonania oraz ich przydatności do sterowania (patrz roz-dział 3). Są to: AU12 (unoszenie kącików ust — obustronne i jednostronne),AU25+AU26 (otwarcie ust).

• Detekcja ruchu wykorzystana do segmentacji dynamicznych atrybutów ele-mentów mimiki, co pozwala na rozpoznawanie gestów takich jak mrugnięcia,zmrużenia lub przymknięcia oczu (AU43, AU45, AU46).

W dalszej części rozprawy, do opisu elementów mimiki, wykorzystano główniemetodykę FACS. Nie oznacza to jednak że informacje z metodyki FAP nie są przy-datne — obydwa te sposoby opisu mimiki są w pewien sposób komplementarne.Przykładowo — za odpowiedniki jednostek AU1+2 oraz AU4 w metodyce FAP,można przyjąć elementy FAP31-36. Określają one położenie punktów charakte-rystycznych brwi oraz sposób ich deformacji. Jest to istotne np. przy wyborzepunktów kształtu.

Obszerną systematykę algorytmów wykorzystywanych w rozpoznawaniu mi-miki, można znaleźć w pracy [26].

6.2 Statystyczne modele kształtu

Tworzenie modelu opisującego zmiany kształtu cech twarzy pod wpływem wybra-nych jednostek czynnościowych (AU1+2, AU4) wymaga określenia szeregu punk-tów charakterystycznych definiujących analizowane w dalszych etapach kształty.Przy ustalaniu położenia punktów kierowano się kilkoma następującymi kryte-riami:

• Punkty charakterystyczne powinny być łatwe do zlokalizowania na dwu-wymiarowym statycznym obrazie. Oznacza to, że powinny być położone wobrębie wyraźnych i dobrze odróżnialnych elementów twarzy. Przykładempunktu stwarzającego problem podczas lokalizacji jest wierzchołek nosa,dobrze określony anatomicznie na rzeczywistej twarzy, lecz trudny do od-różnienia od jego otoczenia na zarejestrowanym obrazie.

• Punkty charakterystyczne powinny pozostawać widoczne i rozróżnialne po-mimo wykonywanych ruchów mimicznych, przynajmniej w akceptowalnymich zakresie. Punkty nie spełniające tego kryterium są na przykład położonew obrębie bruzdy powiekowej górnej, która przy wyraźniejszym zmarszcze-niu brwi zostaje zasłonięta.

• Punkty charakterystyczne muszą reprezentować trwałe i powtarzalne cechyobrazu. Wyklucza to punkty zlokalizowane w zmiennych szczegółach ana-tomicznych, na przykład bruzdach, zmarszczkach czy liniach owłosienia.

6.2. STATYSTYCZNE MODELE KSZTAŁTU

Biorąc pod uwagę powyższe kryteria ustalono łącznie 14 punktów charaktery-stycznych, po 7 dla obu stron obserwowanej twarzy. Po każdej stronie wyzna-czono 3 punkty położone w obrębie brwi oraz 4 dodatkowe punkty odniesienia.Lokalizacje punktów oraz tworzony przez nie kształt przedstawia rysunek 6.1.Punkty kształtów (oprócz dwóch punktów — nozdrza) odpowiadają lokalizacjizdefiniowanej w standardzie FAP — rys. 2.1, rys. 2.2. Szczegółowe informacje natemat doboru punktów oraz ich lokalizacji znajdują się w artykule autora [71].

Rysunek 6.1: Lokalizacja punktów kształtu jednostek czynnościowych górnej czę-ści twarzy (AU1+2, AU4)

Proces tworzenia modelu jednostki czynnościowej jest następujący (rys. 6.2).Na całej serii obrazów uczących, zawierających kształty danej klasy (np. AU0),zaznaczane są manualnie charakterystyczne punkty określające położenie i wza-jemną relację wybranych elementów morfologicznych twarzy. Aby możliwe by-ło wyznaczenie parametrów statystycznych, przeprowadzane jest wyrównywaniekształtów (ang. shape alignment), wg algorytmu przedstawionego w artykule [80].

Rysunek 6.2: Tworzenie statystycznego modelu jednostki czynnościowej

Następnie, przy pomocy metody PCA (ang. Principal Component Analysis),tworzony jest statystyczny model, opisujący średni kształt oraz jego poszczególne

deformacje. Metoda PCA została opisana szerzej w dodatku A.4.W przypadku modeli kształtu składowe główne US określają nową przestrzeń,

w której każdy kształt (obiekt) reprezentowany jest przez wektor wag ΩS,i. Wek-tor wag określa stopień deformacji kształtu. Tylko część składowych głównychniesie istotne informacje, pozostałe mogą zostać pominięte, dzięki czemu uzy-skuje się redukcję informacji. Ilość istotnych składowych głównych KS zostałaokreślona na podstawie kryterium (6.1):

λi pS100·N∑

λi (6.1)

gdzie:

i− indeks kolejnego kształtu

λi − wartość własna macierzy kowariancji danych kształtów zestawuuczącego

N − ilość punktów kształtu

pS − zadana, procentowa wartość określająca proporcję wariancji da-nych z zestawu uczącego

Przy założeniu odpowiedniej ilości obrazów uczących, na podstawie parame-trów tak utworzonego modelu, możliwe jest zsyntetyzowanie dowolnej instancjikształtu obiektu. Odbywa się to poprzez złożenie średniego kształtu oraz liniowejkombinacji poszczególnych deformacji (równanie 6.2).

Si = S + US · ΩS,i (6.2)

gdzie:

Si − wektor współrzędnych punktów i-go kształtu

S − wektor współrzędnych punktów kształtu średniego

US − składowe główne modelu

ΩS,i − wektor wag i-go kształtu

W przypadku nowego (nieznanego) kształtu, sposób postępowania jest nastę-pujący:

1. Nieznany kształt wyrównywany jest względem kształtu średniego otrzyma-nego podczas budowy modelu

2. Wyrównany kształt jest następnie rzutowany do przestrzeni kształtów mo-delu (równanie 6.3).

6.3. HISTOGRAMY ORIENTACJI

3. Z otrzymanego wektora wag wybierane jest KS elementów tworząc wektorcech, poddawany klasyfikacji przy pomocy jednej z dostępnych metod.

ΩS,tst = UTS · Stst (6.3)

gdzie:

ΩS,tst − wektor wag testowego kształtu

S − wektor współrzędnych punktów kształtu średniego

US − składowe główne modelu

Stst − wektor współrzędnych punktów testowego kształtu (po wyrów-naniu)

Z perspektywy budowy interfejsu, który powinien adaptować się do użytkow-nika, wyznaczanie położenia punktów charakterystycznych, powinno odbywać sięautomatycznie. Na potrzeby niniejszej rozprawy punkty wyznaczono w sposóbręczny. Problematyka automatyzacji tego procesu została krótko opisana w roz-dziale 8.4.

6.3 Histogramy orientacji

Histogramy orientacji pozwalają na opisanie lokalnej orientacji krawędzi obrazu.Mogą być wyznaczane na wiele różnych sposobów. W niniejszym rozdziale opisanodwa z nich, różniące się sposobem detekcji krawędzi. Pierwszy z nich, wzorowanyna rozwiązaniu stosowanym w pracy [28], realizowany jest następująco:

• dla całego obrazu wyznaczana jest jego reprezentacja w przestrzeni skali(ang. scale-space) L : <N × <+ → < (metoda ta została opisana szerzej wdodatku A.5).

• następnie obliczane są gradienty poziome oraz pionowe Lx, Ly

• na ich podstawie wyznaczany jest moduł oraz orientacja gradientu dla każ-dego piksela (6.4)

• dla wybranego regionu zainteresowań obliczany jest histogram orientacjikrawędzi hedge, poprzez zliczanie pikseli o danej orientacji Lθ.

Lm =√L2x + L2

Lθ = arc tg(Lx, Ly)(6.4)

Rysunek 6.3 przedstawia rezultaty wyznaczania reprezentacji skali dla przy-kładowych filtrów. Do zalet tego typu histogramów orientacji można zaliczyć:szybkość obliczeń, małą wrażliwość na zmiany oświetlenia sceny, niezależność odtranslacji i skali na obrazie.

Rysunek 6.3: Maski filtrów przestrzeni skali i odpowiadające im obrazy po filtracjidla różnych skal: (a) σ = 1,(b) σ = 2,(c) σ = 4.

Drugi sposób wyznaczania histogramów orientacji wykorzystuje reprezentacjęobrazu powstałą przez konwolucję z zestawem filtrów Gabora. Umożliwiają onedetekcję cech w różnych skalach i orientacjach [89]. Motywacją do ich użycia jestteoretyczna niewrażliwość cech wyznaczonych w ten sposób od globalnych zmianoświetlenia sceny, połączona z małą wrażliwością na deformacje afiniczne obrazu.Dodatkową zaletą jest to, iż dobrze zachowane są informacje o lokalnej geometriii teksturze obrazu. Filtry Gabora zostały opisane szerzej w dodatku A.6. Wcelu wydobycia z obrazu interesujących informacji o obiektach, niezależnie odich skali i orientacji, tworzony jest zestaw filtrów (tzw. bank filtrów). Zestawten jest określany dla różnych parametrów — z reguły są to częstotliwość orazkąt. Więcej informacji na temat zastosowania filtrów Gabora w przetwarzaniuobrazów oraz doboru ich parametrów, można znaleźć w pracy [39]. Algorytmwyznaczania histogramów orientacji jest następujący:

• dla całego obrazu wyznaczana jest jego reprezentacja dla wybranego bankufiltrów Gabora (kilka częstotliwości i kątów): LψG(i), i - numer filtru

• w wybranym regionie zainteresowań obliczane są histogramy dla każdej re-prezentacji - hgabor,

• następnie histogramy łączone są (kolejno) w jeden wektor cech reprezentu-jący dany obszar zainteresowań.

6.4. DETEKCJA RUCHU

Rysunek 6.4 przedstawia rezultaty wyznaczania reprezentacji Gabora dla przy-kładowych filtrów.

Rysunek 6.4: Maski filtrów Gabora i odpowiadające im obrazy po filtracji. Para-metry: fG = 0.125, (a) θG = 0,(b) θG = 45,(c) θG = 90,(d) θG = 135

6.4 Detekcja ruchu

Istnieje wiele metod detekcji ruchu [52]. Metody podstawowe umożliwiają uzy-skanie informacji o zaistnieniu zmian na scenie oraz ich lokalizacji. Zaliczyć donich można: odejmowanie obrazu od tła, obrazy różnicowe, analizę histogramówsekwencji, testy statystyczne, potok optyczny (ang. optical flow). Jednym z prost-szych sposobów detekcji zmian na obrazie jest odejmowanie obrazu tła (ang.background subtraction). Ponieważ oprócz poruszających się obiektów mogą wy-stąpić zmiany oświetlenia sceny, sposób ten jest mało skuteczny bez zastosowaniametod automatycznej generacji tła [79]. Algorytmy generacji tła poprawiają wwidoczny sposób rezultaty detekcji. W przypadku jednak obserwacji pracujące-go przed komputerem człowieka, który nie tylko wykonuje ruchy głową ale teżczęsto pozostaje nieruchomo, mogą wystąpić trudności w prawidłowym doborzeparametrów szybkości uaktualniania tła (zbyt szybkie uaktualnianie spowodu-je iż twarz człowieka zostanie uwzględniona jako tło). Innym sposobem detekcjizmian na obrazie jest obliczanie różnicy jasności piksela w kolejnych chwilach cza-sowych (ang. image difference). Z matematycznego punktu widzenia odpowiadato wyznaczaniu pochodnej cząstkowej funkcji jasności względem czasu ∂I(x,y,t)

∂t .Ponieważ w przypadku przetwarzania obrazów sygnał jest dyskretny, w praktycewyznaczaniu pochodnej czasowej odpowiada zwykłe odejmowanie wartości pik-seli obrazu aktualnego od obrazu poprzedniego: I(x, y, k) − I(x, y, k–1). Częstostosuje się również obliczanie wartości bezwzględnej dla różnicy.

Bardziej złożone metody pozwalają na rozpoznanie obiektów ruchomych orazich śledzenie, estymację parametrów ruchu (translacja, orientacja, skala). Jedną

z ciekawszych metod są tzw. szablony ruchu (ang. temporal templates) . Wśródnich wyróżnić można:

• obrazy historii ruchu MHI (ang. motion history images),

• obrazy energii ruchu MEI (ang. motion energy images).

Obydwie techniki wykorzystują analizę historii zmian intensywności pikseli w cza-sie do określenia obszarów, w których występuje ruch. W pracy [10] zastosowanopowyższe metody jako wstępny etap rozpoznawania akcji wykonywanych przezczłowieka (siadanie, ćwiczenia aerobik). Interesującym zastosowaniem rozpozna-wania akcji jest użycie metody do analizy zachowania dzieci w interaktywnympokoju zabaw [9]. Wyczerpujące omówienie komputerowej analizy ruchu możnaznaleźć w pracy Kuriańskiego [52].

Dużym problemem podczas detekcji ruchu, są zmiany oświetlenia sceny, któ-re mogą zostać zinterpretowane błędnie jako ruch. Zmiany oświetlenia mogą byćwprowadzane nie tylko przez np. zaświecenie światła w pomieszczeniu, ale rów-nież mogą pochodzić od zmian jasności monitora przed którym znajduje się użyt-kownik systemu. Jednym ze sposobów ominięcia tego problemu, jest wykrywanieglobalnych zmian jasności sceny. Z kolei zakłócenia powodowane przez monitorkomputera mogą zostać wykorzystane do wstępnej segmentacji twarzy, która zreguły jest obiektem pierwszoplanowym — najbliższym monitora i kamery ob-serwującej scenę. Wykorzystanie tego efektu opisano w rozdziale 8.3.

W systemie rozpoznawania mimiki detekcja ruchu może być wykorzystana dowstępnej segmentacji obszarów zainteresowań takich jak:

• obręb oczu — mruganie, ruchy oczu oraz jednostki mimiki wpływające natą część twarzy,

• obszar głowy — ruchy głowy powodują zazwyczaj duże zmiany intensyw-ności pikseli obrazu,

• miejsca w których występują zmiany wyglądu wywołane ruchami mimicz-nymi.

Lokalizacja powyższych zmian umożliwia nie tylko zawężenie obszaru poszukiwańdo odpowiedniego regionu twarzy, ale również uzyskanie bezpośrednich wskazó-wek użytecznych do rozpoznania niektórych gestów mimicznych (np. mruganie).Przykładem może być praca [56], której autorzy wykorzystali detekcję mrugnięćdo inicjalizacji algorytmu rozpoznawania ruchu brwi.

W badaniach opisanych w niniejszej rozprawie wykorzystano obrazy historiiruchu MHI oraz energii ruchu MEI. W odróżnieniu od prostej różnicy obrazów,pozwalają one na uwzględnienie kontekstu historii zmian intensywności piksela.

6.4. DETEKCJA RUCHU

Daje to w efekcie większą ilość użytecznych do dalszej analizy danych — nie tylkoinformacje gdzie wystąpił ruch, ale również jego charakterystykę.

Rysunek 6.5 przedstawia schemat blokowy algorytmu wyznaczenia MHI orazMEI.

Rysunek 6.5: Model algorytmu (Simulink) obliczania obrazów: (a) energii ruchuMEI, (b) historii ruchu MHI.

Pierwszym krokiem jest obliczenie binarnego obrazu ruchu — piksele gdziewystąpił ruch przyjmują wartość 1. Dla każdego piksela obrazu wyznaczany jestmoduł różnicy kolejnych wartości w czasie, a otrzymana tablica wartości podda-wana jest operacji binaryzacji z progiem Mtreshprzyjętym doświadczalnie (6.5).

Idiff (x, y, k) =

0; |I(x, y, k)− I(x, y, k − 1)| ¬Mtresh

1; |I(x, y, k)− I(x, y, k − 1)| > Mtresh(6.5)

gdzie:

x, y − koordynaty pikseli

k − numer obrazu z sekwencji video

I(x, y, k)− jasność piksela obrazu o współrzędnych x, y w chwili k

Mtresh − próg binaryzacji dla wyznaczania obrazów energii ruchu

Idiff (x, y, k)−moduł różnicy piskeli w chwili k

Obraz MEI powstaje poprzez akumulowanie w czasie binarnych obrazów ru-chu (6.6).

MEIτ (x, y, k) =τ−1⋃

BWdiff (x, y, k − 1) (6.6)

gdzie:

τ − wartość okresu akumulacji dla obrazów energii i historii ruchu

BWdiff (x, y, k)− binarny obraz ruchu dla piksela o współrzędnych x, y w chwili k

MEIτ (x, y, k)− obraz energii ruchu dla piksela o współrzędnych x, y w chwili k

Natomiast reprezentacja MHI powstaje poprzez przyjęcie wartości okresu aku-mulacji τ dla pikseli binarnego obrazu ruchu BWdiff równych 1, i sukcesyw-ne zmniejszanie dla kolejnych obrazów sekwencji video tej wartości, jeśli pikselBWdiff będzie miał wartość 0 (6.7):

MHIτ (x, y, k) =

τ ; BWdiff (x, y, k) = 1

max [0,MHIτ (x, y, k − 1)] ; BWdiff (x, y, k) = 0

gdzie:

MHIτ (x, y, k)− obraz historii ruchu dla piksela o współrzędnych x, y w chwili k

Wartość okresu akumulacji τ wpływa na czasowy kontekst wykonywanegoruchu mimicznego i została dobrana tak, aby odpowiednio wykryć obszary wktórych występuje gest mimiczny lub ruch głowy.

Na rysunku 6.6 zamieszczone zostały rezultaty wyznaczania reprezentacjiMEI, MHI dla sekwencji ramek obrazu zawierającej akcję mrugania oczu.

W przypadku gdy nie występuje ruch głowy, reprezentacja MEI może zostaćużyta do zidentyfikowania obszarów oczu podczas wykonywania np. gestów mru-gania (AU45, AU46). Również reprezentacja MHI niesie informacje przydatnedo identyfikacji gestu. Obrazy MEI pozwalają stwierdzić „gdzie” wystąpił ruch,natomiast MHI udostępnia informacje o charakterystyce ruchu. Piksele MHI odużej wartości odpowiadają miejscom, w którym aktualnie występują zmiany ja-sności, natomiast wartości niewielkie sygnalizują że ruch w tym miejscu odbywałsię wcześniej w czasie. Przy pomocy parametru τ (okres akumulacji) możliwy jestwpływ na detekcję obszarów charakteryzujących się założoną szybkością wykony-wanego ruchu. Przykładowo — gdy celem jest wykrycie szybkich ruchów (odróż-nienie zamykania oczu od ich otwierania), parametr τ powinien mieć niewielkąwartość. W przeciwnym przypadku szybkie zmiany mimiki zostaną zinterpreto-wane jak jeden ciągły ruch.

6.4. DETEKCJA RUCHU

Rysunek 6.6: Kolejne obrazy sekwencji zawierającej gest mrugania: (a) obrazy zkamery EVI, (b) reprezentacja MEI, (c) reprezentacja MHI.

Na rysunku 6.6, oprócz miejsc w których występuje gest mimiczny, widocznesą również zakłócenia. Powstają one w wyniku istnienia szumów oraz mimowol-nych poruszeń głowy (widoczny zarys głowy). Szumy występujące na obrazie mo-gą być usunięte w znacznym stopniu poprzez zastosowanie wstępnej filtracji me-dianowej, która skutecznie zmniejsza lokalny szum, równocześnie pozostawiającnienaruszoną główną składową ruchu (lub zmieniając ją w pomijalnym stopniu).Problem estymacji i usuwania szumów z sekwencji video został szerzej opisany wdodatku A.3.

Z kolei usunięcie zakłóceń od mimowolnych ruchów głowy, może być zreali-zowane poprzez wybór tych obiektów, które spełniają założone dla danego gestulub ruchu własności (np. kształt, orientacja, wzajemne położenie, czas trwania).W tym celu wykorzystane mogą być współczynniki kształtu. Zostało to szerzejopisane w rozdziale 8.4.1.

Rozdział 7

Rozpoznawanie wybranychelementów mimiki

Streszczenie

W zadaniu rozpoznawania celem jest określenie przynależności różnegotypu obiektów (w tym przypadku elementów mimiki) do pewnych klas napodstawie znanych wcześniej przynależności do klas innych obiektów. Jest tozatem typowe zadanie klasyfikacji, w którym obiekty opisane są przy pomocyzestawu atrybutów/cech. W niniejszym rozdziale przedstawiono metodykęoraz rezultaty rozpoznawania wybranych elementów mimiki, wykorzystującdane będące wynikiem etapu wyodrębniania cech. Na podstawie analizy wy-ników wybrano najlepszą metodę rozpoznawania oraz zaproponowano dalszekierunki prac.

7.1 Wstęp

Uzyskane na etapie ekstrakcji cech charakterystycznych informacje, pozwalają naopisanie elementów mimiki poprzez zbiór wartości (cechy) i na tym zbiorze możnadokonywać obliczeń w celu podjęcia decyzji o przynależności obiektu do określo-nej klasy. Istnieje wiele metod klasyfikacji obrazów — ich szerszą systematykęi matematyczne podstawy można znaleźć np. w pracy [83]. Wśród najpopular-niejszych algorytmów, wykorzystywanych w rozpoznawaniu obrazów, wymienićmożna:

• Metody minimalno-odległościowe (np. klasyfikator kNN), opierające się naprzesłankach związanych z geometrią przestrzeni cech i wykorzystujący róż-ne metryki [92].

ROZDZIAŁ 7. ROZPOZNAWANIE WYBRANYCH ELEMENTÓW MIMIKI

• Metody probabilistyczne (np. naiwny klasyfikator bayesowski), pozwalająceprzewidzieć prawdopodobieństwo przynależności obiektu do klasy w oparciuo twierdzenie Bayesa [75].

• Statystyczna analiza dyskryminacyjna — pozwalająca na klasyfikację obiek-tów do dwóch lub większej liczby klas przy pomocy funkcji dyskryminują-cych, utworzonych w oparciu o zbiór uczący[98].

• Maszyny wektorów wspierających1 (SVM - ang. suport vector machines)[17][42]. Metoda ta poszukuje hiperpłaszczyzny w wielowymiarowej prze-strzeni, która rozdziela przykłady ze zbioru treningowego, rzutowane do tejprzestrzeni przez odpowiednią funkcję zwaną jądrem.

• Sieci neuronowe pozwalające na przetwarzanie informacji w sposób równole-gły, analogicznie do ludzkiego mózgu. Jednym z zastosowań jest klasyfikacjawzorców [82].

W literaturze dotyczącej problematyki rozpoznawania formułuje się równieżkomplementarne w stosunku do klasyfikacji — zadanie grupowania (ang. cluste-ring). W odróżnieniu od klasyfikacji, w której celem jest określenie przynależno-ści pojedynczego obiektu do znanego zbioru klas, zadanie klasteryzacji polega naautomatycznym wyznaczeniu ilości oraz charakterystyki klas na podstawie danejzbiorowości obiektów. W kontekście systemu rozpoznawania mimiki, to drugie po-dejście jest również istotne, ponieważ nie wymaga etapu uczenia, który zazwyczajjest realizowany z udziałem człowieka („ręczne” przyporządkowanie elementówzbioru uczącego do przyjętych klas). Wśród metod grupowania można wymienić:

• Metody grupowania hierarchicznego (ang. hierarchical clustering), które ge-nerują sekwencję podziałów zbiorów obiektów w procesie grupowania.

• Metoda k-średnich (ang. k-means) należąca do grupy algorytmów iteracyjno-optymalizacyjnych [90].

7.2 Opis wybranych metod klasyfikacji

W niniejszej pracy, do rozpoznawania elementów mimiki, wykorzystano dwie me-tody klasyfikacji — klasyfikator kNN oraz wielowymiarową analizę dyskrymina-cyjną.

Metoda kNN (k najbliższych sąsiadów) polega na tym, że klasyfikowany obiektjest zaliczany do klasy najliczniej reprezentowanej wśród jego k „najbliższychsąsiadów”. Jeżeli w tej samej odległości, co k-ty „sąsiad” znajdą się jeszcze inneelementy, to wszyscy ci „sąsiedzi” biorą udział w głosowaniu. Działanie tej reguły

1spotykana jest również nazwa „metoda wektorów nośnych”

7.2. OPIS WYBRANYCH METOD KLASYFIKACJI

dla k=3 i sztucznego małego dwuwymiarowego zbioru odniesienia zilustrowanona rysunku (rys. 7.1). Zaletą tej metody jest jej prosta implementacja, możliwośćzrównoleglenia obliczeń, duża skuteczność. Wadą — konieczność zapamiętaniacałego zbioru uczącego.

Rysunek 7.1: Ilustracja reguły k-NN dla k=3. Źródło: [43]

Wielowymiarowa analiza dyskryminacyjna opiera się na podziale zbioru da-nych uczących na obszary ograniczone funkcjami dyskryminującymi, które naj-lepiej rozróżniają dwie lub więcej klas obiektów. Funkcje te mogą być liniowe(liniowa analiza dyskryminacyjna), kwadratowe (kwadratowa analiza dyskrymi-nacyjna), itp. Mogą one być następnie wykorzystane do klasyfikacji nowych da-nych do poszczególnych klas na podstawie prostego kryterium wyboru (rys. 7.2)— przypisz wektor danych X do klasy ωi jeśli dfi (X) > dfj (X) ∀j 6= i

Optymalne parametry funkcji dyskryminacyjnych wyznaczane są na podsta-wie zbioru obserwacji (dane uczące) poprzez minimalizację prawdopodobieństwabłędu z wykorzystaniem reguły maksimum prawdopodobieństwa a posteriori Bay-esa (MAP) . W przypadku parametrycznej analizy dyskryminacyjnej przyjmujesię, że funkcje gęstości prawdopodobieństwa zbioru posiadanych obserwacji sąopisane rozkładem normalnym. Reguła MAP prowadzi do następującego ogólne-go wzoru (7.1):

dfi = −12· (X− µXi)T · Σ−1

Xi· (X− µXi)−

12· log (|ΣXi |) + log (P (ωi)) (7.1)

gdzie:

µXi ,ΣXi − wartość oczekiwana oraz macierz kowariacji dla elementów zbiorudanych uczących należących do i-tej klasy

P (ωi)− prawdopodobieństwo apriori dla i-tej klasy

Rysunek 7.2: Ilustracja klasyfikacji przy pomocy analizy dyskryminacyjnej.

W przypadku gdy macierze kowariancji są takie same dla każdej z klas (ΣXi =ΣX), jest to liniowa analiza dyskryminacyjna (LDA – ang. Linear DiscriminantAnalysis). Gdy macierze kowariancji estymowane są osobno dla każdej z grup —kwadratowa analiza dyskryminacyjna (QDA – Quadratic Discriminant Analysis).W porównaniu do metody kNN, analiza dyskryminacyjna wymaga pamiętanianiewielu parametrów, a nie całego zbioru uczącego. Posiada jednak silne zało-żenie normalności i unimodalności rozkładów zbioru elementów należących doposzczególnych klas. Więcej informacji na temat powyższych metod klasyfikacjimożna znaleźć w pracy [21].

7.3 Rozpoznawanie elementów mimiki — rezultaty i wnio-ski

Testy rozpoznawania elementów mimiki przeprowadzono niezależnie dla dwóch zopisanych wcześniej metod (tj. modeli kształtu oraz histogramów orientacji). Wprzypadku informacji uzyskanych z algorytmów detekcji ruchu, rozpoznawanierealizowane jest w odmienny sposób. Z tego powodu detekcja mrugnięć zostałaodrębnie opisana w rozdziale 8.4.1. Przyjęto następującą ogólną procedurę testo-wą:

1. Przygotowanie danych do rozpoznawania. Dla każdego obrazu sekwencjivideo:

a) ekstrakcja cech charakterystycznych wg odpowiedniej metody (modelekształtu, histogramy orientacji...),

b) utworzenie wektorów cech.

7.3. ROZPOZNAWANIE ELEMENTÓW MIMIKI — REZULTATY I WNIOSKI

2. Podział danych na sekwencje uczące oraz testowe, standaryzacja danych(zerowa wartość oczekiwana oraz odchylenie standardowe).

3. Tworzenie modelu — uczenie klasyfikatora i dobór jego parametrów (nadanych ze zbioru uczącego).

4. Ocena skuteczności klasyfikacji na danych ze zbioru testowego.

Etapy pierwszy i drugi, zostały omówione dokładniej w kolejnych podrozdziałachpoświęconych poszczególnym metodom (por. 7.3.1, 7.3.2).

Uczenie i dobór parametrów klasyfikatora zrealizowano z wykorzystaniem jed-nej z technik testowania jakości klasyfikacji — algorytm K-krotnej walidacji krzy-żowej (ang. K-fold crossvalidation) [49]. W metodzie tej oryginalna próba jestdzielona na K możliwie równych, wzajemnie niezależnych podzbiorów. Następniekolejno każdy z nich brany jest jako zbiór testowy, a pozostałe razem jako zbióruczący i dokonywana jest klasyfikacja. Klasyfikacja jest wykonywana K-krotnie,a rezultaty są następnie uśredniane w celu uzyskania jednego wyniku.

Jako K przyjęto 3 (ze względu na niewielką liczność poszczególnych klas zbio-ru uczącego). Aby zmniejszyć wariancję oceny jakości algorytm walidacji byłpowtarzany 10-krotnie. Ponadto każdy podzbiór danych uczących został podzie-lony losowo na część trenującą i walidującą w stosunku 70% do 30% (tzw. stra-tified sampling). Sumaryczny błąd klasyfikacji wyznaczony został jako średniaze wszystkich klasyfikatorów i prób. Jako najlepszy klasyfikator został wybranyten, który zapewniał największą dokładność klasyfikacji — przyjęte kryteriumdokładności jest określone równaniem 7.2.

arg maxi

Nω∑

PPV +NPV

, i = 1 . . .Kfold (7.2)

gdzie:

PPV,NPV − wartość predykcyjna dodatnia i ujemna klasyfikacji (ang. positivepredictive value, negative predictive value)

Kfold− ilość podzbiorów dla walidacji krzyżowej K-fold pomnożona przezilość powtórzeń walidacji

Nω − ilość klas

Oceny skuteczności klasyfikacji dokonano na zbiorze testowym dla najlepsze-go klasyfikatora. Wyznaczono następujące parametry jakości klasyfikacji: wartośćpredykcyjna dodatnia, wartość predykcyjna ujemna, swoistość, czułość. Objaśnie-nia znajdują się w dodatku C.1.

7.3.1 Statystyczne modele kształtu

Do testów skuteczności działania przedstawionego algorytmu, wykorzystane zo-stały sekwencje obrazów zawierających wybrane jednostki czynnościowe górneczęści twarzy, wykonywane przez różne osoby:

• AU0 — położenie neutralne,

• AU1+2 — unoszenie brwi,

• AU4 — marszczenie brwi.

Jak wspomniano w rozdziale 6.1, za odpowiedniki jednostek AU1+2 oraz AU4w metodyce FAP, można przyjąć elementy FAP31-36. Określają one położeniepunktów charakterystycznych brwi oraz sposób ich deformacji.

Podczas manualnego wyznaczania punktów charakterystycznych kształtówważne jest zachowanie powtarzalności umieszczania punktów na kolejnych ob-razach. W celu ułatwienia tego procesu utworzona została aplikacja pomocniczapozwalająca na: edycję punktów kształtu, obserwację profili obrazu w wybranychmiejscach oraz tworzenie zestawu kształtów [71].

Przygotowane w ten sposób dane kształtów, podzielono następnie na zbioryuczące oraz testowe, użyte w kolejnych testach:

• Test 1 — sprawdzenie skuteczności rozróżniania jednostki AU0 od AU1+2dla danych jednej osoby.

• Test 2 — sprawdzenie skuteczności rozróżniania jednostki AU0 od AU1+2dla danych kilku osób.

• Test 3 — sprawdzenie skuteczności rozróżniania jednostek AU0, AU1+2oraz AU4 dla danych jednej osoby.

• Test 4 — sprawdzenie skuteczności rozróżniania jednostek AU0, AU1+2oraz AU4 dla danych kilku osób.

Parametry klasyfikatora dobrano z wykorzystaniem kryterium dokładności(7.2) dla sekwencji uczącej. Są one następujące:

• dla klasyfikatora kNN: metryka euklidesowa, K=2,

• rodzaj analizy dyskryminacyjnej: liniowa analiza dyskryminacyjna LDA.

Wyniki testów przedstawiono w dodatku C, tabele: C.15 — C.22, wykresy:C.12 — C.19.

Z przeprowadzonych testów wynika, że rozpoznawanie jednostek czynnościo-wych przy pomocy statystycznych modeli kształtów jest skuteczne. Testy nr 1 i2 dla wszystkich gestów: > 90%. Testy nr 3 i 4 > 86% (oprócz jednego z gestówdla którego wyniki były niższe). Wybór rodzaju klasyfikatora ma wpływ na re-zultaty, przy czym dla większej ilości rozpoznawanych jednostek czynnościowychlepszy okazał się klasyfikator kNN.

Istotną obserwacją jest stosunkowo niewielka wrażliwość algorytmu rozpozna-wania opartego o kształty na cechy osobnicze (dobre rezultaty dla odróżnianiakształtów dla różnych osób). Daje to niezaprzeczalną zaletę w porównaniu do al-gorytmu opartego na histogramach orientacji, które z definicji są wrażliwe na ce-chy osobnicze. Należy jednak pamiętać, że badania przeprowadzono na niewielkiejgrupie osób, w związku z czym przy budowie docelowego systemu rozpoznawaniamimiki konieczne jest przeprowadzenie dodatkowych testów.

Ręczna adnotacja punktów, w badaniach opisanych w rozprawie, pozwala naodróżnienie wpływu skuteczności lokalizacji punktów na wyniki rozpoznawania,a co za tym idzie ocenę jakości samej klasyfikacji kształtów.

7.3.2 Histogramy orientacji

Przygotowanie danych do rozpoznawania w przypadku histogramów orientacjiwymaga określenia obszaru zainteresowań na obrazie (ROI), w którym spodzie-wane są zmiany wynikające z mimiki (zmarszczki, bruzdy, fałdy). Najprostszymobszarem, który może zostać wybrany, jest cała twarz (rys. 7.3a). Powoduje tojednakże utrudnienia w klasyfikacji, ze względu na konieczność odróżnienia odsiebie wielu gestów. Ponadto określenie ROI dla całej twarzy nie zawsze jestkonieczne — przykładowo jeśli do sterowania ruchem kursora wykorzystywanabędzie mimika dolnej części twarzy, a do emulacji przycisków gesty mimicznegórnej części, możliwe jest zdefiniowanie kilku ROI (rys. 7.3b) dla których roz-poznawany będzie określony zestaw gestów. ROI te powinny być umieszczone wmiejscach, w których występują największe zmiany wizualne wywołane mimiką.

Rysunek 7.3: Wybrane obszary zainteresowań dla rozpoznawania gestów: (a) wy-brane ROI, (b) cała twarz.

Ręczne zaznaczanie obszarów zainteresowań jest bardzo czasochłonne i niespełnia założenia automatycznej pracy systemu (bez udziału operatora). Dlategoistotną kwestią jest automatyczne pozycjonowanie ROI na poszczególnych obra-zach sekwencji video. Na potrzeby testów skuteczności algorytmu rozpoznawania,położenie ROI zostało określone na podstawie względnego położenia w stosunkudo nozdrzy, zlokalizowanych ręcznie. Automatyzacja tego procesu została opisanaw rozdziale 8.4.

Przeprowadzono badanie skuteczności rozpoznawania następujących gestówmimicznych dolnej części twarzy:

• AU0 — położenie neutralne,

• AU12 — unoszenie kącików ust - obustronne i jednostronne,

• AU25+AU26 — otwarcie ust.

Na rysunku 7.4 przedstawiono poszczególne gesty mimiczne (zdjęcie dla ich mak-symalnej intensywności).

Rysunek 7.4: Rozpoznawane gesty mimiczne dolnej części twarzy: (a) AU0, (b)AU12P, (c) AU12L, (d) AU12, (e) AU25+26.

Sekwencje filmowe pobrano przy pomocy kamery Sony-EVI, z następującymiparametrami: rozdzielczość – 320*240, ilość ramek na sekundę FPS=25 (ang.frames per second). Obrazy zostały przekonwertowane z przestrzeni RGB do skaliszarości (8 bitów). Sekwencje zawierają kolejno:

• Sekwencja 1. Na początku pracy użytkownika z systemem dokonywanajest kalibracja, podczas której użytkownik proszony jest o wykonanie wy-branych gestów. Jednokrotne powtórzenie danego gestu, przy powyższychustawieniach kamery skutkuje około kilkunastoma obrazami zawierającymi

poszczególne gesty mimiczne. Pozostałe obrazy sekwencji zawierają położe-nie neutralne twarzy oraz elementy przejściowe pomiędzy poszczególnymigestami mimiki.

• Sekwencja 2. Następnie, przy tych samych ustawieniach i położeniu gło-wy pobierana jest sekwencja zawierająca trzykrotnie powtórzony każdy zgestów.

• Sekwencja 3. W celu określenia wpływu oświetlenia kolejna sekwencja za-wiera obrazy mimiki (dwukrotnie powtórzenie gestów) z włączonym dodat-kowym oświetleniem bocznym.

• Sekwencja 4. Ostatnie dwie sekwencje zawierają dwukrotnie powtórzonegesty dla innego położenia głowy (oddalenie od kamery oraz przechyleniegłowy). Na tej podstawie określono wpływ zmian skali i rotacji twarzy nawyniki rozpoznawania.

Jako zbiór danych uczących przyjęto obrazy z sekwencji zawierającej kalibra-cję systemu (nr 1). Pozostałe dane tworzyły osobne zbiory testowe. Parametryklasyfikatora dobrano z wykorzystaniem kryterium dokładności (7.2) dla sekwen-cji nr 1. Są one następujące:

• dla klasyfikatora kNN: metryka korelacyjna, K=2,

• rodzaj analizy dyskryminacyjnej: kwadratowa analiza dyskryminacyjna QDAz diagonalną macierzą kowariancji (naiwny klasyfikator Bayesa).

Aby ocenić wpływ wyboru obszaru zainteresowań (rys. 7.3a, rys. 7.3b) oraztypu histogramów orientacji na skuteczność rozpoznawania wykonano testy zwykorzystaniem sekwencji nr 2 dla następujących konfiguracji:

• konfiguracja 1: obszar zainteresowań – wybrane ROI, histogramy orientacji– gradienty w przestrzeni skali (ang. scale-space),

• konfiguracja 2: obszar zainteresowań – wybrane ROI, histogramy orientacji– filtry Gabora,

• konfiguracja 3: obszar zainteresowań – cała twarz, histogramy orientacji –gradienty w przestrzeni skali,

• konfiguracja 4: obszar zainteresowań – cała twarz, histogramy orientacji –filtry Gabora.

Rezultaty rozpoznawania dla powyższych konfiguracji przedstawiono w do-datku C, tabele: C.4 — C.11, wykresy: C.1 — C.8.

Porównując metody klasyfikacji, lepszym okazał się klasyfikator kNN. Nato-miast klasyfikator QDA pozwala na lepsze odróżnienie gestu AU0 (neutralnego),co może zostać wykorzystane do stworzenia hierarchicznej struktury klasyfika-cji — najpierw rozpoznawana jest sytuacja wykonania gestu przez użytkownika,później rozróżniane gesty.

Biorąc pod uwagę sposoby wyznaczania histogramów orientacji, lepsze rezul-taty otrzymano dla histogramów opartych o gradienty w przestrzeni skali (ang.scale-space).

Oceniając wpływ wyboru obszaru zainteresowań, można zauważyć dużo słab-sze wyniki dla przypadku ROI obejmującego całą twarz. Potwierdza to hipotezęże wybór większego obszaru utrudnia rozpoznawanie. Jest to najprawdopodobniejspowodowane tym, iż dla większego obszaru jakim jest cała twarz lokalne zmianywyglądu od gestów są niewielkie i trudne do rozróżnienia. Potwierdza to porów-nanie wyników dla gestów AU12 i AU25+26 — gest otwarcia ust (AU25+26)powoduje większe zmiany na obrazie i jest lepiej rozpoznawany. Inną przyczy-ną są również — możliwość wystąpienia zmian obrazu pochodzących od innychgestów, wpływ ruchu całej głowy.

Oceny wpływu zmian oświetlenia oraz ruchów głowy dokonano dla metodyklasyfikacji oraz typu histogramów orientacji dających najlepsze rezultaty — tj.wybrane ROI, klasyfikator kNN, histogramy orientacji — gradienty w przestrzeniskali). Wykonano następujące testy:

• ocena wpływu bocznego oświetlenia sztucznego, sekwencja 2,

• ocena wpływu zmian skali (odsunięcie głowy od kamery), sekwencja 3,

• ocena wpływu zmian skali i rotacji (odsunięcie głowy połączone z jej prze-chyleniem), sekwencja 4.

Wyniki przedstawiono w dodatku C, tabele: C.12 — C.14, wykresy: C.9 — C.11.

Podana analiza wpływu czynników zakłócających takich jak dodatkowe oświe-tlenie, zmiany skali i rotacji wywołane ruchami głowy, widoczne jest iż w takichprzypadkach skuteczność klasyfikacji w dużym stopniu spada. Najmniejszy wpływmają zmiany skali — tylko gest AU12R był błędnie rozpoznawany. Dodatko-wa analiza wyników, wskazuje jako przyczynę błędne klasyfikowanie AU12R doAU12. Jest tak dlatego, że gesty te są bardzo podobne do siebie (unoszenie obukącików i unoszenie jednego z nich). W przypadku zmian oświetlenia, widocznejest że największy wpływ ma ono na gest AU12L. Jest to zrozumiałe, ponieważdodatkowe oświetlenie było skierowane na tą część twarzy. Największe zakłóceniapowoduje rotacja — zmienia się wtedy orientacja wszystkich krawędzi na obrazietwarzy.

Autor pracy proponuje następujące kierunki dalszych badań, mające na celupoprawę jakości klasyfikacji:

• Wykorzystanie informacji czasowej do rozpoznawania (idea omówiona po-niżej).

• Wykrywanie zmian skali i rotacji, automatyczna rekalibracja klasyfikatorów(uwzględnienie w klasyfikacji nowych obserwacji).

• Śledzenie twarzy i estymacja parametrów ruchu (skala, rotacja). Korektahistogramów orientacji wg otrzymanych parametrów.

• Wykorzystanie metod doboru zmiennych diagnostycznych (np. analiza czyn-nikowa, metoda Helwinga) do selekcji orientacji niosących informacje, naj-istotniejsze z punktu widzenia klasyfikacji.

Niska jakość klasyfikacji w przypadku czynników zakłócających niekonieczniemusi prowadzić do niepoprawnego działania systemu. Podstawowym zadaniemsystemu rozpoznawania mimiki jest generacja poleceń np. dla systemu operacyj-nego komputera. Reagowanie na zmiany wykrywane dla każdego obrazu sekwencjivideo, może powodować generację szeregu błędnych poleceń (każde zakłócenie).Dlatego konieczne jest uwzględnienie kontekstu czasowego — np. wykrycie kilkulub kilkunastu obrazów dla których otrzymano ten sam wynik rozpoznania gestu.Potwierdzeniem skuteczności takiego podejścia jest następujący wykres (rys. 7.5),na którym przedstawiono wyniki klasyfikacji gestów dla całej sekwencji testowej.Dodatkowo nałożono informację o rzeczywistym geście występującym na danejramce (ręczna anotacja ramek dokonana przez człowieka).

Rysunek 7.5: Rezultaty klasyfikacji dla konfiguracji 1 przedstawione w formie wy-kresu czasowego. Kolorem niebieskim oznaczono ręczne przyporządkowanie kolej-nych ramek do poszczególnych klas, niebieskim – rezultaty klasyfikacji. ωi - i-taklasa, k - numer obrazu sekwencji

Rozdział 8

Adaptacja systemurozpoznawania mimiki

Streszczenie

Duża zmienność wyglądu twarzy oraz elementów mimiki, wynikająca zwpływu różnych czynników stanowi istotne utrudnienie w automatycznymrozpoznawaniu gestów. W rozdziale usystematyzowano czynniki wpływającena skuteczność rozpoznawania oraz zaproponowano metody adaptacji sys-temu rozpoznawania mimiki do człowieka oraz zmieniających się warunkówotoczenia.

8.1 Wstęp

Czynniki, mające wpływ na wygląd twarzy oraz elementów mimiki, można po-dzielić na dwie grupy [29]:

• zewnętrzne źródła zmienności (ang. extrinsic sources of variation) oraz

• wewnętrzne źródła zmienności wyglądu twarzy (ang. intrinsic sources ofvariation in facial appearance).

Do zewnętrznych źródeł zmienności zalicza się przede wszystkim geometrięsceny (ang. viewing geometry). Obraz jest dwuwymiarowym odwzorowaniem trój-wymiarowej sceny, dlatego też następuje utrata części informacji szczególnie wi-doczna w przypadku dużych ruchów głowy — obroty, przechylenia (rys. 8.1).Istotny wpływ ma również oświetlenie sceny (ang. illumination), które powodujepowstawanie cieni, odblasków oraz skutkuje zmianami kolorystyki obrazu. Wśródpozostałych zewnętrznych czynników można wyróżnić przysłanianie przez inneobiekty (np. ręka użytkownika, okulary), a także samą akwizycję obrazu która

ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI

wiąże się z ograniczoną rozdzielczością przetwornika oraz powstawaniem szumówi zakłóceń.

Rysunek 8.1: Obraz oka: (a) dla twarzy widzianej frontalnie, (b) twarzy z profilu.

Do wewnętrznych źródeł zmienności wyglądu twarzy zaliczyć można tożsa-mość — różne osoby mają odmienny wygląd, mimo iż ogólna budowa morfolo-giczna twarzy jest taka sama. Inne czynniki, które mają wpływ na wygląd twarzy,to wiek i płeć osoby, elementy charakterystyczne (np. włosy, broda...) oraz indy-widualny sposób wykonywania gestów mimicznych.

Podczas interakcji człowieka z maszyną, w każdej chwili może wystąpić zmia-na oświetlenia sceny, położenia osoby względem kamery lub innych parametrów.Z systemu mogą ponadto korzystać różne osoby posiadające indywidualne ce-chy tożsamości wynikające z wyglądu, cech osobniczych, itp. Z tego powodu,kluczowym zagadnieniem staje się konieczność adaptacji systemu doindywidualnych cech człowieka oraz zmieniających się warunków oto-czenia (ang. visual learning and adaptation).

Zagadnienia adaptacji interfejsu stanowią bardzo obszerny temat badań. Wniniejszej pracy przedstawione zostały wybrane problemy badawcze oraz zapro-ponowane przez autora rozwiązania:

• Estymacja położenia głowy człowieka względem kamery.

• Wpływ parametrów kamery oraz zmian oświetlenia sceny — automatyzacjatworzenia modelu barwy skóry.

• Uwzględnienie indywidualnego wyglądu człowieka oraz osobniczych cechmimiki — metoda kalibracji systemu w oparciu o detekcję mrugnięć.

Uwzględnienie zewnętrznych źródeł zmienności (oświetlenie, pozycja...) po-winno odbywać się w sposób ciągły podczas pracy systemu. Z kolei wpływ tożsa-mości, wieku, cech osobniczych może zostać uwzględniony rzadziej — na etapiekalibracji systemu. Kalibracja ta powinna odbywać się każdorazowo gdy nowa oso-ba rozpocznie korzystanie z systemu, bądź też w momencie gdy wystąpią istotnezmiany w wyglądzie tej osoby (np. założenie okularów).

8.2. ESTYMACJA POŁOŻENIA GŁOWY CZŁOWIEKA WZGLĘDEM KAMERY

8.2 Estymacja położenia głowy człowieka względem ka-mery

Opisane w poprzednich rozdziałach algorytmy rozpoznawania elementów mimiki,są dostosowane do sytuacji gdy twarz osoby jest w położeniu frontalnym. Dlategoteż, w trakcie pracy systemu, konieczne jest określenie położenia głowy człowiekaw stosunku do pozycji neutralnej (twarz widziana frontalnie). Dokładna estyma-cja położenia obiektu na scenie trójwymiarowej przy użyciu jednej kamery, jestco prawda możliwa ale bardzo trudna i skomplikowana obliczeniowo. Z regułyprzyjmowany jest model kamery o uproszczonej perspektywie (ang. weak came-ra model). Jest on poprawny, w przypadku gdy odległości pomiędzy elementamitwarzy są niewielkie w stosunku do odległości pomiędzy głową a kamerą. Przyj-muje się że środek układu współrzędnych obserwowanego obiektu znajduje się wśrodku osi głowy. W takim założeniu oddalanie i przybliżanie kamery skutkujezmianą skali twarzy na obrazie, przechylenia głowy — rotacją w płaszczyźnie ob-razu, obroty głowy (góra-dół, prawo-lewo) — rotacją w płaszczyźnie prostopadłejdo płaszczyzny obrazu.

Można założyć, iż w normalnych warunkach pracy z komputerem, typoweruchy głowy ograniczają się do (rys. 8.2):

• oddalania-przybliżania,

• przechylenia głowy prawo-lewo,

• obrotów w lewo-prawo oraz góra-dół.

Dla kamery umieszczonej naprzeciwko twarzy człowieka oraz przyjęciu środ-ka układu współrzędnych obserwowanego obiektu (twarz) w środku osi głowy,powyższe ruchy skutkują odpowiednio:

• zmianą skali twarzy na obrazie,

• rotacją w płaszczyźnie obrazu,

• rotacją w płaszczyznach prostopadłych do płaszczyzny obrazu (zniekształ-cenia perspektywiczne oraz przysłanianie części elementów twarzy).

Problem określenia położenia głowy w stosunku do pozycji neutralnej spro-wadza się zazwyczaj do wyznaczenia dopasowania między dwoma obrazami (ang.correspondence problem). Na jednym z nich twarz znajduje się w położeniu fron-talnym, na drugim w położeniu które jest nieznane. Istnieje wiele metod po-zwalających na rozwiązanie problemu dopasowania obrazów. Ogólnie można jepodzielić na:

Rysunek 8.2: Głowa widziana (a) frontalnie, (b)(c) obroty prawo-lewo, (d)(e)obroty góra-dół, (f)(g) przechylenia prawo-lewo.

• metody wykorzystujące znalezione strukturalne cechy obrazu, niezależneod zmian oświetlenia oraz punktu widzenia kamery (ang. feature invariantapproaches),

• metody oparte na wyszukiwaniu wzorców (ang. template matching me-thods, correlation based methods).

Przykładem algorytmów z pierwszej grupy jest publikacja [97], w której auto-rzy przedstawili algorytm estymacji pozycji głowy wykorzystujący zestaw punk-tów charakterystycznych twarzy (oczy, usta, nos). Cechy te są śledzone na po-szczególnych obrazach sekwencji wideo z użyciem korelacyjnej metody dopaso-wania do wzorca. Na podstawie ich położenia na wzorcowej ramce oraz położeniana obrazie aktualnym, obliczane są parametry transformacji afinicznej (ang. af-fine transform). Transformacja ta charakteryzuje się najmniejszym błędem dlaprzyjętego modelu kamery o uproszczonej perspektywie (ang. weak camera mo-del). Model ten jest poprawny, w przypadku gdy odległości pomiędzy elementa-mi twarzy są niewielkie w stosunku do odległości pomiędzy głową a kamerą. Napodstawie wyznaczonych parametrów oraz reprezentacji twarzy w postaci elip-sy, określane są: położenie twarzy, rotacja w płaszczyźnie obrazu oraz rotacje wpłaszczyznach prostopadłych.

Odmienne podejście [59] wykorzystuje model oparty o zapamiętane wzorcewyglądu twarzy dla różnych pozycji. Wzorce te poddawane są analizie składo-wych głównych PCA. Autorzy udowodnili, że tylko pierwsze kilka składowychgłównych, zawiera informację o zmianach położenia twarzy — występuje wte-dy największa wariancja pikseli obrazu. Dla kolejnych obrazów sekwencji wideoprzedstawiającej ruch głowy, w przestrzeni składowych tworzy się trajektoria od-powiadająca kolejnym położeniom (ang. pose manifold). Ponowny ruch w tymsamym kierunku skutkuje podobną trajektorią. W oparciu o analizę otrzyma-nych trajektorii w przestrzeni cech, autorzy McKenna, Gong opracowali algorytmestymacji położenia twarzy.

8.2.1 Algorytm estymacji położenia głowy

Obrazy twarzy charakteryzują się dużą zmiennością wywołaną wieloma czynni-kami. Najistotniejsze z nich (pomijając ruchy głowy) to mimika oraz oświetlenie.Uwzględnienie zmienności będącej skutkiem ruchów głowy przy jednoczesnympominięciu wpływu innych czynników jest możliwe dzięki analizie statystycznej.Spośród kilku metod wybrano algorytm oparty o analizę składowych głównych(PCA – ang. Principal Component Analysis) określany w literaturze jako „eigen-faces” [59]. Algorytm ten został zmodyfikowany oraz przystosowany dla systemurozpoznawania mimiki twarzy. Modyfikacje obejmują m.in.:

• wykorzystanie modularnych przestrzeni dla rozróżnienia poszczególnych po-zycji głowy,

• sposób porównywania obrazów ze wzorcami oraz

• metodę korekcji globalnych zmian oświetlenia.

Podstawą algorytmu określania położenia głowy jest przygotowana wcześniejbaza, zawierająca wzorce twarzy pobrane podczas ruchów głowy względem ka-mery. Dla każdego rodzaju ruchu głowy (przechylenia, obroty...), uzyskiwana jestsekwencja obrazów zawierająca widok twarzy w jej kolejnych położeniach (rys.8.3). Z widoków tych pobierany jest tylko wycinek zawierający twarz. Każdy ob-raz z bazy wzorców zamieniany jest na wektor cech poprzez odpowiednie ułożeniekolejnych pikseli np. kolumnami — rys. 8.4. Następnie wektory te są normalizo-wane poprzez odjęcie „średniego obrazu twarzy” (ang. mean face). Ponadto każdyobraz testowy jest wstępnie przetwarzany w celu usunięcia szumów i zmniejszeniawymagań obliczeniowych (m.in. filtracja medianowa, zmiana rozmiaru).

Na rysunku 8.5 przedstawiono poszczególne kroki algorytmu określania poło-żenia. W pierwszym etapie, przy pomocy metody PCA, wyznaczana jest repre-zentacja wzorców twarzy w nowej przestrzeni cech. Są to: średni obraz twarzy χ,składowe główne oraz wagi dla wzorców. Użyta w metodzie analiza składowychgłównych PCA została opisana dokładniej w dodatku A.4.

Rysunek 8.3: Wzorce twarzy dla obrotu głowy w prawo i z powrotem (dla uprosz-czenia rysunek zawiera co czwarty wzorzec).

Rysunek 8.4: Ilustracja zasady tworzenia wektorów cech odpowiadających wzor-com twarzy.

Składowe główne UΦ (ang. principal components), określane również jako„eigen-obiekty”, stanowią nową bazę przestrzeni, do której rzutowane są wzor-ce twarzy. W procesie rzutowania wyliczany jest wektor wag Ωχi reprezentującydany wzorzec.

W przypadku określania położenia, największa zmienność jest wynikiem ru-chów głowy. Pozostałe kierunki (osie nowej przestrzeni) mogą zostać pominięteponieważ kodują zmienność pochodzącą np. od szumów, zakłóceń, ruchów mi-micznych. Dlatego ze wszystkich składowych głównych, wybierane jest KΦ pierw-szych elementów. Wartość KΦ obliczana jest na podstawie kryterium (8.1).

KΦ∑

λi pΦ

100·D∑

λi (8.1)

gdzie:

i− indeks kolejnego wzorca

λi − i-ta wartość własna macierzy kowariancji danych wzorców

D − ilość pikseli obrazu wzorca

pΦ − zadana, procentowa wartość określająca proporcję wariancji da-nych z zestawu wzorców

Rysunek 8.5: Etapy algorytmu określania położenia głowy.

Każdy wektor cech (a co za tym idzie obraz wzorca) możne zostać odtworzonypoprzez kombinację liniową składowych głównych (8.2) oraz dodanie średniegowektora cech.

χi = χ+ UΦ · ΩΦ,i (8.2)

gdzie:

χi − odtworzony wektor cech (obraz i-go wzorca)

χ− wektor średniego obrazu twarzy

UΦ − składowe główne

ΩΦ,i − wektor wag i-go wzorca

W wyniku rzutowania wzorców odpowiadających kolejnym położeniom gło-wy do nowej przestrzeni, otrzymuje się wektory cech tworzące w tej przestrzenitrajektorię odpowiadającą zmianie pozycji (ang. pose manifold) — rys. 8.6.

Rysunek 8.6: Wykres trajektorii (dwa pierwsze elementy wektora wag): (a) dlawszystkich ruchów, (b) dla obrotu głowy w prawo.

Określenie pozycji w rozwiązaniu zaproponowanym w artykule [59], odbywasię poprzez obliczenie odległości pomiędzy wagami badanego obrazu, a zapamię-taną trajektorią dla wszystkich ruchów (8.4) — rys. 8.7. Badany obraz jest przy-gotowywany tak samo jak wzorce (pobranie wycinka twarzy, usuwanie szumów).Znalezienie najlepszego dopasowania pomiędzy wzorcem a nieznanym obrazemjest realizowane poprzez wyznaczenie minimum odległości (8.3).

mini‖Ωχi − Ωtst‖ (8.3)

Ωtst = (UΦ)T · (χtst − χ) (8.4)

gdzie:

χtst − nieznany obraz (wektor cech)

Ωtst − wektor wag dla nieznanego obrazu (po rzutowaniu do nowej prze-strzeni)

χ− wektor średniego obrazu twarzy

UΦ − składowe główne

Opisane rozwiązanie wykorzystuje jedną bazę wzorców (ang. general poseeigenspace), w której umieszczone są widoki twarzy dla wszystkich pozycji. Mo-że to powodować błędne rozpoznanie w przypadku gdy baza zawiera elementyodstające (ang. outliers) lub trajektorie dla poszczególnych ruchów leżą bliskosiebie.

Dlatego w niniejszej pracy użyto alternatywna metodę określania pozycji gło-wy, wykorzystującą osobne bazy dla każdego ruchu (ang. modular pose eigen-space). Można ją przyrównać do obserwacji sceny przez kilku obserwatorów rów-

nocześnie, z których każdy zwraca uwagę na co innego. Bazy, reprezentujące po-szczególne pozycje głowy, zostały utworzone poprzez podział sekwencji wzorcowejna części odpowiadające następującym ruchom głowy:

• pozycja neutralna (w przybliżeniu),

• przechylenie głowy w prawo,

• przechylenie głowy w lewo,

• obrót w lewo,

• obrót w prawo,

• obrót w górę,

• obrót w dół.

Rysunek 8.7: Określanie stopnia intensywności ruchu.

Jedną z zalet tej modyfikacji jest wymagana mniejsza ilość komponentówgłównych konieczna do opisania położenia oraz mniejsze skomplikowanie trajek-torii (rys. 8.6b). Inna, przydatna w systemie rozpoznawania mimiki cecha, tomożliwość uzyskania w pierwszej kolejności informacji o rodzaju ruchu (np. pra-wo, lewo), a w późniejszym etapie określenia stopnia intensywności ruchu.

Klasyfikacja badanego obrazu χtst do jednej z baz (odpowiadających poszcze-gólnym pozycjom głowy) odbywa się następująco:

• rzutowanie badanego obrazu do każdej z modularnych przestrzeni, w wyni-ku otrzymywane są wektory wag Ωtst dla danej przestrzeni b (8.4),

• rekonstrukcja badanego obrazu przy pomocy KΦ składowych głównych da-nej bazy (8.5),

• klasyfikacja obrazu wg kryterium minimalnego błędu rekonstrukcji (8.6),

Dla czytelności, we wzorach nie wprowadzono dodatkowych indeksów oznaczają-cych bazę.

χb = UΦ · ΩΦ,tst (8.5)

gdzie:

χb − zrekonstruowany wektor cech badanego obrazu

UΦ − składowe główne przestrzeni b

ΩΦ,tst − wektor wag badanego obrazu w przestrzeni b

minb‖χb − (χtst − χ)‖ (8.6)

gdzie:

χb − zrekonstruowany wektor cech badanego obrazu

χ− wektor średniego obrazu twarzy z bazy b

χtst − wektor cech badanego obrazu

8.2.2 Rezultaty estymacji położenia głowy

Istotnym parametrem, które ma bezpośredni wpływ na skuteczność określaniapozycji, jest wrażliwość algorytmu na zmiany oświetlenia sceny oraz inne czynniki(np. jednocześnie wykonywane ruchy mimiczne). Aby to sprawdzić wyznaczonotrajektorie ruchów dla następujących sekwencji video:

• sekwencja 1 — kamera EVI, jednolite tło, słabe oświetlenie (natężenieoświetlenia około 40lux), (rys. 8.8b),

• sekwencja 2 — kamera EVI, jednolite tło, optymalne warunki oświetlenia(natężenie oświetlenia około 320lux), w pozycji frontalnej wykonany szereggestów mimicznych (rys. 8.8c),

• sekwencja 3 — kamera EVI, jednolite tło, optymalne warunki oświetlenia(natężenie oświetlenia około 320lux), inna mimika twarzy (rys. 8.8d),

Rysunek 8.8: Przykładowe obrazy z sekwencji video: (a) sekwencja wzorcowa, (b)sekwencja nr 1, (c) sekwencja nr 2, (d) sekwencja nr 3

Jako sekwencję wzorcową (inną niż sekwencje testowe) przyjęto obrazy pobra-ne kamerą EVI dla następujących parametrów: jednolite tło, optymalne warunkioświetlenia (natężenie oświetlenia około 320lux), (rys. 8.8a). Każdy obraz testo-wy przetwarzany był wstępnie analogicznie jak obrazy wzorcowe z bazy (m.in.pobranie wycinka obrazu zawierającego twarz, zmiana rozmiaru).

Podczas badań stwierdzono niską skuteczność klasyfikacji, dla sekwencji nr 1(słabe oświetlenie). Prawie wszystkie obrazy testowe charakteryzowały się błę-dem rekonstrukcji powyżej założonego progu. Przyczynę tego obrazują rysunki8.9 i 8.10. Można zauważyć, iż globalna zmiana oświetlenia sceny (np. zmierzch)skutkuje mniejszą dynamiką obrazu. Powoduje to znaczne przesunięcie trajek-torii i uniemożliwia znalezienie optymalnego dopasowania pomiędzy wzorcem anieznanym obrazem. Rozwiązaniem tego problemu jest zastosowanie algorytmuwyrównywania histogramu, który koryguje lokalizację trajektorii w przestrzeniwag — rys. 8.11.

(wz)(tst1)(tst2)(tst3)

Rysunek 8.9: Wykresy trajektorii (ruch głowy – obrót w prawo) dla poszczegól-nych sekwencji przed wyrównaniem histogramu: (wz) sekwencja wzorcowa, (tst1)sekwencja nr 1, (tst2) sekwencja nr 2, (tst3) sekwencja nr 3

0 50 100 150 200

Rysunek 8.10: Histogramy dla obrazu: (wz) z sekwencji wzorcowej, (tst) orazsekwencji nr 1)

(wz)(tst1)(tst2)(tst3)

Rysunek 8.11: Wykresy trajektorii (ruch głowy – obrót w prawo) dla poszcze-gólnych sekwencji po wyrównaniu histogramu: (wz) sekwencja wzorcowa, (tst1)sekwencja nr 1, (tst2) sekwencja nr 2, (tst3) sekwencja nr 3

Rezultaty estymacji położenia głowy przedstawione zostały w dodatku F.Dla położenia frontalnego (czyli najbardziej istotnego z punktu widzenia syste-mu) skuteczność rozpoznawania jest wystarczająca (większa od 98%). Pozostałepozycje głowy są gorzej rozpoznawane.

Opisana powyżej metoda estymacji położenia głowy, może służyć równieżdo detekcji i lokalizacji twarzy. W tym celu dla badanego obrazu wejściowegowyznaczana jest mapa dopasowania do modularnych baz pozycji. Poniżej opisanopokrótce procedurę postępowania, powtarzaną dla jednej z kilku założonych skal(wielkość obrazu twarzy):

8.3. WPŁYW PARAMETRÓW KAMERY ORAZ ZMIAN OŚWIETLENIA SCENY

1. Dla każdego piksela obrazu pobierane jest jego otoczenie o rozmiarze pro-porcjonalnym do skali (tak aby otrzymany wycinek ROI miał rozmiar równyrozmiarom wzorców w bazie).

2. Dla każdego ROI powtarzana jest procedura wyznaczania najlepszego do-pasowania do bazy, analogicznie do opisanej wyżej klasyfikacji nieznanegoobrazu do jednej z kategorii pozycji.

3. W wyniku tego, dla każdego piksela są wyznaczane: numer bazy do którejzostał zaklasyfikowany oraz wartości błędu rekonstrukcji dla tej bazy (8.6).Wartość błędów rekonstrukcji tworzą mapę dopasowania.

4. Poprzez znalezienie współrzędnych piksela dla którego występuje minimummapy dopasowania, określona jest najbardziej prawdopodobna lokalizacjatwarzy na badanym obrazie oraz identyfikowana jest baza odpowiadającapozycji głowy.

5. Na podstawie kryterium minimum odległości pomiędzy wagami ROI rzu-towanego do zidentyfikowanej modularnej przestrzeni, a zapamiętaną tra-jektorią (8.3) możliwe jest określenie pozycji głowy w bazie.

Powyższą procedurę można powtarzać dla różnych skal uzyskując w ten sposóbkolejną istotną dla systemu informację — skalę czyli wielkość twarzy na obrazie.

Przedstawione badania nie wyczerpują całkowicie tematyki estymacji pozycjigłowy. Można wskazać następujące dalsze kierunki prac:

• automatyczna akwizycja sekwencji video połączona z pomiarem pozycji gło-wy w przestrzeni,

• badanie skuteczności określania położenia dla różnych reprezentacji obrazu(np. filtry kierunkowe, własności tekstury),

• badanie odporności utworzonych baz na czynniki zakłócające (np. zmianakąta oświetlenia twarzy, elementy takie jak okulary, zarost),

• badanie wpływu zmian skali na skuteczność detekcji i lokalizacji twarzy.

8.3 Wpływ parametrów kamery oraz zmian oświetleniasceny

Popularny sprzęt wizyjny instalowany w zestawach komputerowych (np. inter-netowe kamery USB) nie został zaprojektowany dla potrzeb zaawansowanegoprzetwarzania i analizy obrazu. Wiąże się z tym szereg problemów wymagają-cych uwzględnienia przy opracowywaniu wizyjnego interfejsu człowiek-komputero niewygórowanych wymaganiach sprzętowych. Problemy te skupiają się wokółnastępujących aspektów akwizycji obrazu:

• szum,

• ostrość i rozdzielczość obrazu,

• balans bieli,

• oświetlenie i parametry ekspozycji.

Obecność szumu, generowanego już przez sam sensor kamery, wprowadza stocha-styczną zmienność koloru pikseli w następujących po sobie w sekwencji obrazach.W przypadku tanich kamer internetowych stosunek sygnału do szumu jest małyi pogarsza się szybko w miarę zmniejszania oświetlenia, gdy układ automatycznejregulacji wzmocnienia dostosowuje kamerę do pracy w ciemniejszych warunkach.Wymusza to wprowadzenie do opracowywanych algorytmów pewnych metod od-dzielających szum od istotnych zmian intensywności pikseli. Zagadnienia te zo-stały opisane w dodatku A.3.

Także pozostałe parametry (ostrość obrazu, fizyczna rozdzielczość) w przy-padku niedrogich kamer, nie są zbyt wysokie. Układ optyczny jest niejednokrotniebardzo uproszczony i pozbawiony możliwości regulacji. Stosowana jest także czę-sto interpolacja obrazu na różnych etapach jego akwizycji. Z punktu widzeniasegmentacji barwnej ważna jest również rozdzielczość barwna obrazu wynikowe-go (głębia kolorów), która w przypadku niektórych kamer, może być ograniczonado 5 bitów na kanał koloru, czyli 32 poziomów jasności (kamera Creative USBWebCam).

Typowe kamery internetowe, wykorzystywane powszechnie przez użytkowni-ków komputerów, są wyposażone w układ regulacji balansu bieli, pomagającyunikać przebarwień obrazu w przypadku zmian temperatury barwowej oświetle-nia. Działanie tego układu nie zawsze prowadzi jednak do pożądanych rezulta-tów i nie zapewnia powtarzalności kolorów rejestrowanych w kadrze obiektówszczególnie przy oświetleniu mieszanym (np. światło żarowe i światło monitorakomputerowego). Z tego powodu nie jest możliwe z góry dokonanie założenia owartości koloru skóry twarzy i wykorzystanie go w segmentacji barwnej, gdyż wzależności od kontekstu i oświetlenia sceny odcień skóry przesuwa się w szerokimzakresie widma barw. Z powodu wspomnianego wyżej układu automatycznegowzmocnienia kamery, lokalne zmiany jasności obrazu powodują globalne zmianyparametrów układu przetwornika wizyjnego kamery. Skutkuje to przesunięciempoziomu średnich wartości wszystkich pikseli w czasie. Zostało to zilustrowanena rysunku 8.12.

8.3.1 Automatyzacja tworzenia modelu barwy skóry

Jednym z problemów, związanych z segmentacją twarzy, jest ustalenie mode-lu barwy skóry charakteryzującego twarz aktualnie obserwowanego użytkownika.

8.3. WPŁYW PARAMETRÓW KAMERY ORAZ ZMIAN OŚWIETLENIA SCENY

0 1 2 3 4 5 6 7 8 950

czas [s]

Rysunek 8.12: Zmiana intensywności wybranego piksela wynikająca z działaniaukładu automatycznego wzmocnienia kamery.

Aby wyznaczyć charakterystykę kolorystyczną skóry w sposób automatyczny, ko-nieczne jest wyodrębnienie z obrazu pikseli należących do skóry twarzy, a więcdokonanie segmentacji tego obiektu. Segmentacja ta nie powinna opierać się najeszcze nie znanym modelu barwy, ale na innym kryterium, nie wykorzystywanympóźniej podczas przetwarzania kolejnych obrazów sekwencji.

Dodatkowym kryterium segmentacji, które może zostać wykorzystane, jestzmienność oświetlenia obiektów wywołana intencjonalnymi zmianami emisji świa-tła przez monitor komputera, przed którym znajduje się użytkownik. Impulsoweoświetlenie twarzy przez ekran monitora stwarza możliwość odróżnienia jej od po-zostałych obiektów znajdujących się w kadrze. Twarz użytkownika jest obiektemznajdującym się bezpośrednio przed ekranem w polu widzenia kamery zamon-towanej na monitorze. Programowo sterowane rozjaśnienie i wygaszenie ekranumonitora powoduje zmiany jasności znajdujących się przed nim obiektów, tymwiększe, im bliżej monitora znajduje się dany obiekt. Efekt ten jest wyraźny,gdyż strumień światła emitowanego przez ekran maleje z kwadratem odległościod niego. Efekt ten obrazują wykresy (rys. 8.13, rys. 8.14) zmian intensywnościpikseli należących do niewielkiego wycinka twarzy (np. 3x3).

Uwzględniając szerszy kontekst (ergonomię rozwiązania, bezpieczeństwo użyt-kownika) — migotanie ekranu monitora powinno zostać ograniczone do jedno-razowego etapu wstępnego (oraz ewentualnie rzadko powtarzanej rekalibracji) inie może być powtarzane wielokrotnie. Te zastrzeżenia dotyczą przede wszystkimużytkowników z zaburzeniami neurologicznymi, u których migotanie ekranu możesprowokować napad padaczkowy. Nie stanowi to jednak przeszkody w wykorzy-staniu tej techniki do jednorazowej kalibracji systemu, pomiędzy rozjaśnieniem iwygaszeniem monitora może upłynąć czas rzędu sekundy, zaś użytkownik możew tym czasie mieć zamknięte oczy.

Zagadnienia budowy modelu barwy skóry na podstawie analizy zmian wy-wołanych sztucznym oświetleniem monitora, zostały szerzej opisane w publikacjiautora [41].

0 1 2 3 4 5 6 7 8 90

czas [s]

0 1 2 3 4 5 6 7 8 974

czas [s]

Rysunek 8.13: Zmiany średniej intensywności pikseli twarzy podczas impulsowychzmian jaskrawości monitora.

0 1 2 3 4 5 6 7 8 90

czas [s]

0 1 2 3 4 5 6 7 8 9140

czas [s]

Rysunek 8.14: Zmiany średniej intensywności pikseli tła podczas impulsowychzmian jaskrawości monitora.

8.4. METODA KALIBRACJI SYSTEMU

8.4 Metoda kalibracji systemu

Opisane w poprzednich rozdziałach metody lokalizacji twarzy, rozpoznawania ele-mentów mimiki oraz określenia położenia głowy, do poprawnego działania wyma-gają szeregu informacji określonych a priori:

• Używane do detekcji i lokalizacji twarzy (por. 5.3) położenie cech odpo-wiadających elementom twarzy (oczy, nozdrza, usta) na obrazie oraz ichwzajemne odległości.

• Położenie punktów charakterystycznych kształtów (statystyczne modele kształ-tu – por. 6.2).

• Dokładne pozycjonowanie obszarów zainteresowań (ROI) na poszczegól-nych obrazach sekwencji video dla histogramów orientacji (por. 7.3.1).

• Baza wzorców widoków twarzy używanych przez algorytm estymacji poło-żenia głowy do porównywania nieznanego obrazu.

Część z wyżej wymienionych informacji może zostać oszacowana na podstawieogólnie dostępnej wiedzy. Przykładem mogą być ogólne zależności geometrycznepomiędzy elementami twarzy (np. wzajemne położenie oczu, ust, nosa...), któresą znane z anatomii. Pozostałe natomiast — powinny zostać pobrane na etapiekalibracji systemu.

Biorąc pod uwagę wygodę korzystania i ergonomię rozwiązania, kalibracjanie może być czasochłonna i skomplikowana. Ręczne wskazywanie elementów naobrazie (np. wybieranie wycinka obrazu), jest rozwiązaniem które nie spełnia za-łożeń ergonomii użytkowania (szczególnie w przypadku osób niepełnosprawnychruchowo). Dlatego istotnym celem jest automatyzacja tego procesu.

Implementacja pełnej automatyzacji (nie zakładającej udziału człowieka) jestzadaniem trudnym do realizacji. Z pomocą przychodzi możliwość wykorzystaniainterakcji z użytkownikiem. System może generować szereg poleceń dla człowiekatakich jak np. „ustaw się przed kamerą w pozycji frontalnej”, „mrugnij oczamidwa razy”, „obróć głowę w prawo”, itp. Dzięki temu zostaje znacznie zredukowanystopień skomplikowania obserwowanej sceny, a także uzyskiwane są dodatkoweinformacje. Przykładowo — ustawienie głowy w pozycji neutralnej zapewnia,iż elementy twarzy takie jak oczy i usta są dobrze widoczne. Z kolei mruganieoczami ułatwia lokalizację oczu. Proponowany algorytm kalibracji składa się ztrzech etapów:

• Etap I (rys. 8.15) — lokalizacja oczu oraz innych elementów twarzy.

• Etap II (rys. 8.16) — tworzenie bazy danych gestów mimicznych.

• Etap III (rys. 8.17) — pobieranie wzorców twarzy dla algorytmu estymacjipołożenia głowy.

Rysunek 8.15: Etap 1 kalibracji — lokalizacja oczu.

Kalibracja w dużej części opiera się na algorytmie detekcji mrugnięć, dziękiktórym uzyskiwana jest informacja o lokalizacji oczu. Zidentyfikowanie położeniaobydwu oczu pozwala na określenie pozycji oraz rozmiaru twarzy. Ponadto, wpołączeniu z wiedzą o jej budowie anatomicznej, możliwe jest przybliżone okre-ślenie położenia pozostałych elementów twarzy (usta, nozdrza...). Upraszcza to wznaczący sposób algorytmy detekcji tych elementów. Informacje te, w połączeniuz modelem barwy skóry określonym poprzez impulsowe oświetlenie od monitora,stanowią podstawę wyznaczania parametrów algorytmu detekcji twarzy.

Tworzenie bazy danych gestów mimicznych (etap II) odbywa się poprzez ge-nerowanie odpowiednich komunikatów dla użytkownika, który proszony jest owykonanie wybranych gestów mimicznych. Po wykonaniu każdego z nich, systempobiera i analizuje dane stanowiące zbiór uczący dla algorytmów rozpoznawa-nia. Sygnałem końca wykonania gestu jest detekcja mrugnięcia. W przypadkuhistogramów orientacji, dane pobierane są ze zdefiniowanych obszarów zainte-resowań (ROI). Położenie ROI wyznaczone jest względem niezmiennych częścitwarzy — w tym przypadku były to nozdrza, które są dobrze widoczne nawet dlawiększych ruchów głowy. Separację danych należących do różnych gestów mo-gą zapewnić algorytmy grupowania bez nauczyciela (ang. clustering), takie jakmetoda k-średnich (ang. k-means).

Rysunek 8.16: Etap 2 kalibracji — tworzenie bazy elementów mimiki.

Idea trzeciego etapu kalibracji, realizującego pobieranie wzorców twarzy, jestpodobna do etapu drugiego — system generuje odpowiednie polecenia dla użyt-kownika. Po każdym ruchu głową system ponawia polecenie „mrugnij”, co za-pewnia informację o początku oraz końcu sekwencji ruchu. Z etapu pierwszegosystem dysponuje wzorcem twarzy w położeniu frontalnym. Z jego użyciem mo-że być zrealizowane śledzenie twarzy na kolejnych obrazach sekwencji wideo —konieczne ze względu na wymaganą dokładność pobierania wzorców twarzy orazmożliwe przemieszczenia głowy. Podział otrzymanego zestawu wzorców do okre-ślonych kategorii pozycji (frontalne, obrót lewo...) odbywa się już bez udziałuużytkownika, przy pomocy algorytmu k-średnich (ang. k-means).

Podsumowując zagadnienia przedstawione w rozdziale. Przedstawiona propo-zycja metody kalibracji systemu wymaga opracowania i implementacji szeregu

Rysunek 8.17: Etap 3 kalibracji — tworzenie bazy wzorców twarzy.

algorytmów. Część z nich została przedstawiona w kolejnych rozdziałach:

• algorytm detekcji mrugnięć (por. 8.4.1),

• algorytm lokalizacji nozdrzy (por. 8.4.2).

Automatyczne wyznaczanie położenie punktów charakterystycznych kształ-tów oraz ich śledzenie zostało w niniejszej pracy pominięte. Podobnie jak śledze-nie twarzy. Prowadzone w tym kierunku prace omawiają następujące artykułyautora:

• „Detekcja markerów dla celów automatycznej adnotacji mimiki twarzy”[69],

• „Śledzenie cech charakterystycznych twarzy w systemie rozpoznawania mi-miki” [68].

Prowadzone były również badania nad alternatywną metodą kalibracji syste-mu, wykorzystującą aktywne metody detekcji charakterystycznych cech twarzy.Ideą była detekcja efektu refleksu siatkówkowego (ang. bright pupil) przy pomocyklasycznych metod przetwarzania obrazu (ang. feature-based). Efekt ten uzyska-ny został dzięki wykorzystaniu konstrukcji aktywnego oświetlacza podczerwieni.Prace w tym kierunku przedstawione zostały w publikacji [70].

Integracja całości algorytmu kalibracji nie została w pracy uwzględniona —stanowi to (w rozumieniu autora) interesujący kierunek dalszych prac.

8.4.1 Detekcja mrugnięć

Ideę algorytmu detekcji mrugnięć przedstawia rysunek 8.18.W pierwszej kolejności (a) następuje wstępne przetwarzanie obrazów — usu-

nięcie szumów przy pomocy filtru medianowego oraz zmniejszenie rozmiaru ob-razu. Następnie wyznaczana jest reprezentacja MEI (b) w wyniku czego otrzy-mywany jest binarny obraz. Zawiera on obiekty powstałe w wyniku zamyka-nia/otwierania oczu oraz inne obiekty będące wynikiem zakłóceń (np. niewielkiedrgania głowy powodują powstawanie długich wąskich obiektów będących za-rysem głowy). W celu wyboru właściwych obiektów dokonywana jest analizawspółczynników kształtu (c), polegająca na pozostawieniu obiektów spełniają-cych następujące kryteria:

• Usuniecie obiektów których wielkość jest poza zadanym przedziałem —celem jest likwidacja drobnych zakłóceń (obiekty złożone z pojedynczychpikseli lub niewielkich grup) oraz wykrycie sytuacji dużego ruchu głową(obiekty o bardzo dużej ilości pikseli).

• Usunięcie obiektów dla których stosunek długiej osi elipsy opisanej na obiek-cie do osi krótkiej mniejszy od zadanego progu — celem jest likwidacjadużych podłużnych obiektów odpowiadających zarysowi głowy.

Na podstawie przeprowadzonych badań stwierdzono, że po analizie współ-czynników kształtu zdarza się, że nadal pozostaje dużo obiektów nie odpowiada-jących oczom. Dlatego też dodano kolejny etap algorytmu, jakim jest wyznaczaniemapy prawdopodobieństwa oczu (d) z wykorzystaniem metody „detekcji plam” wreprezentacji skali (por. A.5). Możliwe również jest użycie mapy prawdopodobień-stwa opartej o kolor, ponieważ w odróżnieniu od modelu koloru skóry, spełnionyjest warunek iż obszary oczu charakteryzują się innymi wartościami składowychchrominancji Cb oraz Cr. W wyniku binaryzacji z odpowiednim progiem mapyoczu powstaje obraz, na którym widoczne są obiekty odpowiadające obszaromoczu (e).

Rysunek 8.18: Schemat algorytmu detekcji mrugnięć.

Obydwa binarne obrazy poddawane są operacji AND oraz dylatacji (f) przyczym obraz powstały z analizy „plam” jest opóźniony o kilka obrazów z sekwencji.Opóźnienie to wprowadzone zostało ponieważ przy zamkniętych oczach plamy sąmniej widoczne niż przy otwartych. W końcowym etapie (g) następuje lokalizacjaoczu poprzez wybór obiektów spełniających następujące kryteria:

• wybór dwóch obiektów o największej powierzchni,

• wielkości obydwu obiektów muszą być porównywalne,

• odległość między obiektami nie może być mniejsza lub większa niż zadanypróg.

Powyższe kryteria pozwalają na prawidłową detekcję i lokalizację oczu nawiększości testowanych sekwencji video. Rezultaty zostały zamieszczone w do-datku G.

Analiza wyników wskazuje niewielką ilość błędów pierwszego rodzaju (wynikifałszywie dodatnie – FP < 1), co jest istotne z punktu widzenia algorytmu ka-libracji. Oznacza to, że ilość obrazów błędnie zaklasyfikowanych jako mrugnięciea nie będących nimi, jest minimalna.

Dość duża ilość błędów drugiego rodzaju (wyniki fałszywie ujemne – 16 <

FN < 37) posiada mniejszy wpływ na procedurę kalibracji. W kalibracji bardziejistotne jest wykrycie samego faktu i momentu mrugnięcia, niż dokładne zliczenieilość obrazów zaklasyfikowanych jako gest mrugania. Rysunki zamieszczone wdodatku G (rys. G.2 – G.5), obrazują przyczynę dużej ilość błędów drugiegorodzaju. Ze względu na specyfikę algorytmu MHI, pojedyncze mrugnięcie jestrozpoznawane jako dwa osobne gesty — zamykanie i otwieranie oczu. Może tobyć wykorzystane do odróżniania od siebie tych gestów.

Dla pozostałych przypadków błędnych detekcji, konieczna będzie w przyszło-ści rozbudowa algorytmu analizy o dodatkowe kryteria.

Aby ocenić dokładność lokalizacji oczu wyznaczony został średni błąd (8.7)dla wszystkich obrazów, dla których detekcja była prawidłowa (dla uproszczeniawspółrzędne obydwu oczu zostały zsumowane). Wyniki przedstawia tabela G.3.Na jej podstawie można stwierdzić że lokalizacja jest dokładna (εeye < 9px).Niewielkie rozbieżności są dopuszczalne i mogą wynikać z niedokładności ręcznegowskazania referencyjnego położenia oczu.

εeye = mean

(√(xieye − xiref

)2+(yieye − yiref

gdzie:

εeye − średni błąd lokalizacji oczu

xieye, yieye − wyznaczone współrzędne x i y oczu dla i-go obrazu

xiref , yiref − referencyjne współrzędne x i y oczu dla i-go obrazu

8.4.2 Lokalizacja nozdrzy

Algorytmy rozpoznawania mimiki oparte na histogramach orientacji wymagajądokładnego pozycjonowania obszarów zainteresowań (ROI). Położenie ROI wy-znaczone może być względem niezmiennych części twarzy — nozdrzy. Nozdrza są

elementem twarzy łatwym do zlokalizowania w przypadku gdy wcześniej zostałookreślone położenie oczu (detekcja mrugnięć).

Do lokalizacji nozdrzy wykorzystany może zostać fakt, iż stanowią one naobrazie ciemniejsze plamy. Stąd do ich detekcji dobrze nadaje się metoda „detekcjiplam” w reprezentacji skali (ang. scale-space) opisana w dodatku A.5.

Algorytm detekcji nozdrzy jest następujący:

• Wstępne przetwarzanie obrazów: usunięcie szumów przy pomocy filtru me-dianowego, konwersja obrazu z przestrzeni RGB do obrazu w 256 odcieniachszarości.

• Pobranie z obrazu wycinka ROI zawierającego nozdrza (rys. 8.20a). Położe-nie ROI wyznaczane jest na podstawie znanej wcześniej (detekcja mrugnięć)lokalizacji oczu (rys. 8.19) oraz zależności anatomicznych twarzy.

• Wyznaczenie reprezentacji skali w celu uwypuklenia obrazu nozdrzy — (rys.8.20b).

• Binaryzacja reprezentacji skali z progiem wyznaczonym automatycznie —wzór (8.8), rys. 8.20c.

• Indeksacja i analiza pozostałych na obrazie obiektów przy pomocy współ-czynników kształtu. Wyznaczenie współrzędnych nozdrzy — środki ciężko-ści pozostałych obiektów.

THSnostril = µSnostril + 2 · stdSnostril (8.8)

gdzie:

THSnostril − wartość progu binaryzacji reprezentacji skali powyżej któregopiksel uznawany jest za należący do nozdrza

µSnostril − średnia pikseli reprezentacji skali obszaru ROI nozdrzy

stdSnostril − odchylenie standardowe pikseli reprezentacji skali obszaru ROInozdrzy

W celu sprawdzenia skuteczności algorytmu detekcji nozdrzy, przeprowadzo-no testy dla tych samych sekwencji video, dla których realizowana była lokalizacjaoczu. Na potrzeby testów lokalizacja oczu została wyznaczona ręcznie. Błąd loka-lizacji nozdrzy został obliczony jako odległość euklidesowa pomiędzy wyznaczonąpozycją, a położeniem wskazanym przez człowieka (8.9). Rezultaty przedstawiająwykresy H.1 – H.4, zamieszczone w dodatku H.1.

εinostril =

√(xinostril − xiref

)2+(yinostril − yiref

)2(8.9)

gdzie:

εinostril − błąd lokalizacji nozdrza dla i-go obrazu

xinostril, yinostril − wyznaczone współrzędne x i y nozdrza dla i-go obrazu

xiref , yiref − referencyjne współrzędne x i y nozdrza dla i-go obrazu

Rysunek 8.19: Przykładowy obraz wraz z pozycją oczu i ROI dla wyszukiwanianozdrzy.

Rysunek 8.20: Rezultaty kolejnych etapów algorytmu lokalizacji nozdrzy: (a) wy-cinek obrazu zawierający nozdrza, (b) obraz w reprezentacji skali (ang. scale-space), (c) mapa prawdopodobieństwa po binaryzacji

Analiza rezultatów lokalizacji potwierdza skuteczność algorytmu (εinostril <4px). Tylko dla niewielu obrazów testowych błąd lokalizacji jest większy od za-kładanego lub nozdrza nie zostały znalezione.

Rozdział 9

Podsumowanie

9.1 Główne rezultaty i wnioski

Postawione na początku niniejszej rozprawy cele zostały w pełni zrealizowane.

1. Określenie sposobu pomiaru oraz precyzyjnego opisu elementówmimiki. Przeprowadzono analizę istniejących sposobów opisu mimiki orazinformacji niesionych przez ten kanał komunikacji. Wybrano dwie metodyopisu przydatne w kontekście rozpoznawania. Wnioski:

• Istniejące sposoby opisu pozwalają na wybór elementów mimiki z uwzględ-nieniem psychofizjologicznych uwarunkowań człowieka (m.in. możliwo-ści wykonania danego gestu przez daną osobę).

• Odróżnianie mimiki spontanicznej od celowych, znaczących ruchówjest zadaniem spoczywającym na oprogramowaniu interfejsu.

2. Określenie możliwości jakie oferuje mimika w kontekście typo-wych scenariuszy interakcji człowieka z maszyną i własności ist-niejących urządzeń. Wybór elementów mimiki przydatnych w ko-munikacji człowiek-maszyna. Na podstawie analizy własności istnieją-cych urządzeń wejściowych oraz poprzez uwzględnienie typowych scenariu-szy interakcji, określono możliwości jakie oferuje mimika. Zaproponowanonowe sposoby sterowania komputerem oraz dokonano wyboru elementówmimiki potencjalnie przydatnych w komunikacji człowiek-maszyna. Wnio-ski:

• Interfejs człowiek-komputer oparty o rozpoznawanie mimiki może udo-stępniać użytkownikowi bogatszy „alfabet”, pozwalający na elastycznywybór sposobu interakcji w zależności od umiejętności lub preferencji

ROZDZIAŁ 9. PODSUMOWANIE

człowieka. Nie każda osoba potrafi wykonać te same gesty — jest tosprawa bardzo indywidualna.

• Możliwość adaptacji interfejsu odgrywa szczególną rolę dla ludzi z po-rażeniem czterokończynowym, ponieważ mimika takich osób może róż-nić się znacznie od mimiki człowieka w pełni sprawnego ruchowo.

3. Zdefiniowanie atrybutów elementów mimiki oraz odpowiadają-cych im cech charakterystycznych na obrazie, pozwalających narozpoznanie gestów mimicznych. Zdefiniowane zostały podstawowe gru-py atrybutów stanowiących abstrakcyjną reprezentację elementów mimiki.Rozpatrując mimikę w kontekście sterowania komputerem, wzięta pod uwa-gę została nie tylko statyczna reprezentacja elementów mimiki, do którejnależą atrybuty stałe (np. brwi) oraz zmienne (np. zmarszczki). Uwzględ-niono także dynamikę zmian wyglądu cech twarzy — atrybuty dynamicznetakie jak np. szybkość wykonania gestu. Określone zostały odpowiadająceatrybutom cechy charakterystyczne (kształt, lokalne zmiany wyglądu, ruch)stanowiące ewidencję wystąpienia na obrazie danego atrybutu. Wnioski:

• Atrybuty elementów mimiki stanowią abstrakcyjną ich reprezentację.Aby były one użyteczne do rozpoznawania, konieczne jest zgromadze-nie ewidencji o wystąpieniu danego atrybutu na obrazie . Taką ewiden-cję stanowią cechy charakterystyczne — przykładowo, jeśli obiekt jestreprezentowany przez jego kształt, to na obrazie oczekuje się istnieniakrawędzi odpowiadających konturowi obiektu.

• Wybór cech jest istotnym zagadnieniem, od którego zależy skutecznośćrozpoznawania oraz złożoność obliczeniowa algorytmów.

Opracowanie metody automatycznego rozpoznawania wybranych elementówmimiki wymagało zrealizowania następujących celów:

1. Zaproponowanie struktury i elementów składowych systemu au-tomatycznego rozpoznawania gestów mimicznych. Rezultatem prze-prowadzonych prac jest opracowana struktura systemu automatycznego roz-poznawania gestów mimicznych. Elementy składowe systemu to: selektywneprzetwarzanie informacji, detekcja i lokalizacja twarzy, ekstrakcja cech cha-rakterystycznych mimiki, klasyfikacja, generacja sygnałów sterujących orazadaptacja systemu. Wśród istotnych rezultatów wymienić można opraco-waną metodę doboru przestrzeni barw dla algorytmu segmentacji oraz al-gorytm lokalizacji twarzy. Wnioski:

• W kontekście rozpoznawania obrazów przez maszynę selektywne prze-twarzanie informacji ma istotne znaczenie, ponieważ pozwala na zawę-żenie obszaru poszukiwań, przyspieszenie obliczeń oraz uzyskanie do-datkowych wskazówek dla pozostałych elementów składowych systemu

9.1. GŁÓWNE REZULTATY I WNIOSKI

(np. algorytmów rozpoznawania). Szczególnie istotne są informacje okolorze (pozwalające na wstępną segmentację twarzy).

• Duży wpływ na skuteczność zaproponowanego algorytmu lokalizacjitwarzy ma prawidłowe oświetlenie sceny. Szczególnie istotny jest odpo-wiedni wybór przestrzeni kolorów oraz algorytmu segmentacji. Istotnejest również, aby twarz człowieka była obserwowana w przybliżeniufrontalnie — przy większych ruchach głowy może się zdarzyć ze nie-które elementy (szczególnie oczy) nie będą widoczne.

2. Opracowanie metod wyodrębniania z obrazu twarzy cech cha-rakterystycznych, odpowiadających atrybutom rozpoznawanychelementów mimiki. Opracowano i przetestowano trzy metody wyodręb-niania cech charakterystycznych, odpowiadających atrybutom rozpoznawa-nych elementów mimiki. Wybrane metody reprezentują odmienne podejściaanalizy obrazów. Są to: statystyczne modele kształtu (grupa metod opar-tych o ekstrakcję cech), histogramy orientacji (grupa metod bezpośredniejanalizy obrazu) oraz detekcja ruchu (metody analizy uwzględniające kon-tekst czasowo-przestrzenny). Dla histogramów orientacji wykorzystano dwiereprezentacje obrazu — przestrzeń skali (ang. scale-space) oraz opartą o fil-try kierunkowe Gabora. Wnioski:

• Z perspektywy budowy interfejsu, który powinien adaptować się doużytkownika, wyznaczanie położenia punktów charakterystycznych dlastatystycznych modeli kształtu powinno odbywać się automatycznie.

• Detekcja ruchu może być wykorzystana do wstępnej segmentacji obsza-rów zainteresowań takich jak: okolice oczu, obszar głowy oraz miejscagdzie występują ruchy mimiczne. Algorytm ten jest jednakże wrażliwyna zmiany oświetlenia.

• W przypadku histogramów orientacji istotne jest precyzyjne określenieobszaru dla którego są one wyznaczane (ROI). Powinny to być obszaryw których spodziewane są zmiany wynikające z ruchów mimicznych(zmarszczki, bruzdy, fałdy).

3. Opracowanie metod rozpoznawania gestów mimicznych wykorzy-stujących wyodrębnione cechy. Badanie skuteczności algorytmówdla typowych sytuacji występujących podczas interakcji człowiekaz maszyną. Dokonano wyboru dwóch metod klasyfikacji (klasyfikator kNNoraz wielowymiarowa analiza dyskryminacyjna) pozwalających na rozpo-znawanie wybranych elementów mimiki. Zaproponowano metodykę ocenyskuteczności algorytmów rozpoznawania. Testy przeprowadzono niezależniedla dwóch wybranych metod wyodrębniania cech, tj. statystycznych modelikształtu oraz histogramów orientacji. W przypadku modeli kształtu badano

m.in. skuteczność rozróżniania gestów mimicznych górnej części twarzy dlajednej i wielu osób. Z kolei dla histogramów orientacji przeprowadzono testyrozpoznawania mimiki dolnej części twarzy. Sprawdzono wpływ wyboru ob-szaru zainteresowań (ROI) oraz rodzaju reprezentacji obrazu (scale-space,filtry Gabora) na skuteczność algorytmu. Badano również wpływ czynnikówzakłócających — zmiany skali rotacji oraz oświetlenia. Wnioski:

• Rozpoznawanie jednostek czynnościowych przy pomocy statystycz-nych modeli kształtów jest skuteczne. Istotną obserwacją jest stwier-dzenie stosunkowo niewielkiej wrażliwości algorytmu rozpoznawaniaopartego o kształty na zmienność cech osobniczych (dobre rezultatydla odróżniania kształtów elementów mimiki różnych osób).

• W przypadku histogramów orientacji, porównując reprezentacje obra-zu lepsze rezultaty otrzymano dla histogramów opartych o gradientyw przestrzeni skali (ang. scale-space).

• Czynniki zakłócające takie jak zmiany oświetlenia, skali i rotacji twa-rzy, mają negatywny wpływ na skuteczność rozpoznawania dla obydwureprezentacji (scale-space oraz filtrów Gabora). Mimo teoretycznej nie-wrażliwości na zmiany oświetlenia sceny, skuteczność rozpoznawaniamaleje. Największe błędy powodują zmiany rotacji twarzy. Algorytmyoparte na histogramach orientacji są również wrażliwe na zmiennośćcech osobniczych. Wymagają więc każdorazowej kalibracji w przypad-ku zmiany użytkownika lub warunków oświetlenia sceny.

• Spośród dwóch metod klasyfikacji, lepszym okazał sie klasyfikator kNN.

• Duży wpływ czynników zakłócających na rozpoznawanie w przypad-ku pojedynczych obrazów sekwencji video, może zostać ograniczonypoprzez uwzględnienie kontekstu czasowego. Przykładowo — prawi-dłowa detekcja gestu wymaga wystąpienia kilku lub kilkunastu nastę-pujących po sobie obrazów, dla których otrzymano ten sam wynikirozpoznania gestu.

4. Usystematyzowanie czynników wpływających na skuteczność roz-poznawania oraz opracowanie metody adaptacji systemu do czło-wieka oraz zmieniających sie warunków otoczenia. Usystematyzowa-no czynniki wpływające na skuteczność rozpoznawania elementów mimiki.Są to: zewnętrzne źródła zmienności (geometria sceny, oświetlenie, przysła-nianie twarzy przez inne obiekty, szumy i zakłócenia) oraz wewnętrzne źró-dła zmienności (tożsamość osoby, wiek, płeć, indywidualne cechy osobniczeoraz sposób wykonywania gestów). Dokonano oceny wpływu parametrówkamery oraz zmian oświetlenia sceny na segmentację twarzy. Zapropono-wano metodę automatycznej kalibracji istotną dla adaptacji systemu do

9.2. KIERUNKI DALSZYCH BADAŃ

człowieka oraz zmieniających się warunków otoczenia. Opracowano szeregalgorytmów składowych metody kalibracji — algorytm estymacji położeniagłowy człowieka względem kamery, metoda automatyzacji tworzenia mode-lu barwy skóry, algorytm detekcji mrugnięć, algorytm lokalizacji nozdrzy.Rozszerzone opracowanie wybranych zagadnień adaptacji przedstawionychw rozprawie znajduje się w publikacjach autora. Wnioski:

• Podczas interakcji człowieka z maszyną występuje wiele czynników po-wodujących dużą zmienność wyglądu twarzy oraz elementów mimiki.Z tego powodu, kluczowym zagadnieniem staje sie konieczność adap-tacji systemu do indywidualnych cech i umiejętności człowieka orazzmieniających sie warunków otoczenia (ang. visual learning and adap-tation).

• Uwzględnienie zewnętrznych źródeł zmienności (oświetlenie, pozycja...)powinno odbywać się w sposób ciągły podczas pracy systemu. Z koleiwpływ tożsamości, wieku, cech osobniczych może zostać uwzględnionyrzadziej — na etapie kalibracji systemu.

• Wykorzystanie możliwości interakcji z użytkownikiem upraszcza pro-cedurę kalibracji systemu i zwiększa skuteczność działania algoryt-mów.

• Algorytm estymacji położenia głowy może służyć również do lokaliza-cji twarzy oraz rozpoznawania następujących gestów mimicznych —AU51-56 (ruchy głowy).

• Metoda detekcji mrugnięć nadaje się również do rozpoznawania nastę-pujących gestów mimicznych — AU43-AU46 (zamkniecie oczu, mru-ganie, przymrużenie oka).

9.2 Kierunki dalszych badań

Przedstawione w rozprawie badania oraz ich rezultaty nie wyczerpują tematuwykorzystania elementów mimiki w interakcji człowiek-maszyna. Według autorawymagane są następujące dalsze prace — dla zachowania czytelności zostały onepogrupowane wg celów rozprawy:

1. Określenie sposobu pomiaru oraz precyzyjnego opisu elementówmimiki.

• Uwzględnienie sposobów opisu mimiki związanych z emocjami człowie-ka np. MAX (ang. Maximally Discriminative Affect Coding System)lub FACSAID (ang. Facial Action Coding System Affect Interpreta-tion Dictionary).

2. Określenie możliwości jakie oferuje mimika w kontekście typo-wych scenariuszy interakcji człowieka z maszyną i własności ist-niejących urządzeń. Wybór elementów mimiki przydatnych w ko-munikacji człowiek-maszyna.

• W celu weryfikacji przeprowadzonej analizy i wyciągniętych wnioskówkonieczne jest dokonanie badań użyteczności zaproponowanych sposo-bów sterowania. W pracy element ten został pominięty, ponieważ wy-maga implementacji całości systemu rozpoznawania mimiki. Systemtaki powinien działać w czasie rzeczywistym umożliwiając przeprowa-dzenie badań na większej populacji ludzi.

3. Zdefiniowanie atrybutów elementów mimiki oraz odpowiadają-cych im cech charakterystycznych na obrazie, pozwalających narozpoznanie gestów mimicznych.

• Określenie listy atrybutów oraz odpowiadających im cech charaktery-stycznych dla pełnego zestawu gestów mimicznych (nie tylko wybra-nych).

4. Zaproponowanie struktury i elementów składowych systemu au-tomatycznego rozpoznawania gestów mimicznych. Rozbudowa algo-rytmu detekcji i lokalizacji twarzy poprzez:

• Wykorzystanie dodatkowych informacji o ruchu do skuteczniejszej lo-kalizacji twarzy.

• Wykorzystanie szerszego zestawu cech, widocznych również w przy-padku położenia głowy innego niż frontalne, do lokalizacji twarzy.

• Określenie dodatkowych kryteriów selekcji cech oraz użycie algoryt-mów śledzenia (ang. feature tracking).

5. Opracowanie metod wyodrębniania z obrazu twarzy cech charak-terystycznych, odpowiadających atrybutom rozpoznawanych ele-mentów mimiki.

• Opracowanie metody automatycznego wyznaczania punktów charak-terystycznych kształtów.

• Badanie innych reprezentacji obrazu potencjalnie przydatnych dla al-gorytmu opartego o histogramy orientacji.

• Opracowanie algorytmów pozwalających na wyodrębnianie cech dyna-micznych mimiki takich jak trajektoria, szybkość wykonania gestu.

6. Opracowanie metod rozpoznawania gestów mimicznych wykorzy-stujących wyodrębnione cechy. Badanie skuteczności algorytmów

9.2. KIERUNKI DALSZYCH BADAŃ

dla typowych sytuacji występujących podczas interakcji człowiekaz maszyną.

• Rozbudowa algorytmu o rozpoznawanie pełnego zestawu gestów.

• Uniezależnienie algorytmu od wpływu czynników zakłócających —wykrywanie zmian skali i rotacji, automatyczna rekalibracja algorytmui uczenie klasyfikatorów w trakcie pracy systemu.

• Wykorzystanie informacji czasowej do rozpoznawania gestów oraz al-gorytmów śledzenia elementów twarzy do estymacja parametrów ruchugłowy (rotacja, skala...).

• Testowanie innych metod klasyfikacji (sieci neuronowe, klasyfikatorybayesa). Poprawa jakości klasyfikacji poprzez wykorzystanie metodwzmacniania (ang. boosting) np. AdaBoost oraz doboru zmiennychdiagnostycznych (np. analiza czynnikowa, metoda Helwinga).

7. Usystematyzowanie czynników wpływających na skuteczność roz-poznawania oraz opracowanie metody adaptacji systemu do czło-wieka oraz zmieniających się warunków otoczenia.

• Rozbudowa, integracja oraz implementacja całości metody kalibracjipozwalającej na automatyczne: tworzenie bazy gestów mimicznych,tworzenie bazy wzorców twarzy, dobór parametrów algorytmów roz-poznawania, itp.

• Zaproszenie większej grupy osób do badań, których celem jest określe-nie najwygodniejszych dla człowieka sposobów kalibracji systemu.

• Rozbudowa i przystosowanie algorytmu estymacji położenia głowy dorozpoznawania gestów mimicznych. Podobnie dla algorytmu detekcjimrugnięć.

Bibliografia

[1] P. Augustyniak. Adaptacja oprogramowania interpretacyjnego do stanu pacjen-ta i celów diagnostycznych. Krajowa Konferencja Biocybernetyka i inżynieriaBiomedyczna, 2007. [cytowanie na str. 6, 49]

[2] P. Augustyniak and Z. Mikrut. Badanie reguł postrzegania naturalnego w celuich wykorzystania w inteligentnych systemach wizyjnych. Krajowa Konferencja:Sztuczna Inteligencja w Inżynierii Biomedycznej, 2004. [cytowanie na str. 6]

[3] D.H. Ballard and C.M. Brown. Computer Vision (section 8.2.2). Prentice HallProfessional Technical Reference, 1982. [cytowanie na str. 38]

[4] M.S. Bartlett, G. Littlewort, B. Braathen, T.J. Sejnowski, and J.R. Movellan. Aprototype for automatic recognition of spontaneous facial actions. Advances inNeural Information Processing Systems, 15:1295–1302, 2002. [cytowanie na str. 18]

[5] Y. Bellik and Burger D. The potential of multimodal interfaces for the blind : anexploratory study. 1995. [cytowanie na str. 5]

[6] M. Betke, J. Gips, and P. Fleming. The camera mouse: Visual tracking of bo-dy features to provide computer access for people with severe disabilities. IEEETransactions on Neural Systems and Rehabilitation Engineering, 10(1):1–10, Mar2002. [cytowanie na str. 6, 39]

[7] I. Biederman. Human image understanding: recent research and a theory. In Papersfrom the second workshop on Human and Machine Vision II, volume 13, pages 13–57,San Diego, CA, USA, - 1986. Academic Press Professional, Inc. [cytowanie na str. 38]

[8] M.J. Black and A.D. Jepson. A probabilistic framework for matching temporal tra-jectories: Condensation-based recognition of gestures and expressions. In H. Bur-khardt and B. Neumann, editors, European Conf. on Computer Vision, ECCV-98,volume 1406 of LNCS-Series, pages 909–924, Freiburg, Germany, - 1998. Springer-Verlag. [cytowanie na str. 40]

[9] A. Bobick, S. Intille, J. Davis, F. Baird, C. Pinhanez, L. Campbell, Y. Ivanov,A. Schutte, and A. Wilson. The kids room: A perceptually-based interactive andimmersive story environment. Technical Report 398, -, E15, 20 Ames Street, Cam-bridge, MA 02139, December 1999. [cytowanie na str. 70]

BIBLIOGRAFIA

[10] A.F. Bobick and J.W. Davis. Action Recognition Using Temporal Templates(Chapter 6). - 1997. [cytowanie na str. 70]

[11] R.A. Bolt. „Put-that-there”: Voice and gesture at the graphics interface. InSIGGRAPH ’80: Proceedings of the 7th annual conference on Computer graphicsand interactive techniques, pages 262–270, New York, NY, USA, 1980. ACM.[cytowanie na str. 5]

[12] A. Broniec. Reprezentacja ruchu i zamiaru ruchu w sygnale eeg oraz możliwości jejwykorzystania w interfejsie człowiek-maszyna, to appear. [cytowanie na str. 6]

[13] W. Buxton. A three-state model of graphical input. In D. Diaper et al.(Eds), Human-Computer Interaction - INTERACT ’90 Amsterdam: Elsevier SciencePublishers B.V. (North-Holland), pages 449–456, 1990. [cytowanie na str. 24]

[14] D. Chai and K.N. Ngan. Face segmentation using skin-color map in videophoneapplications. CirSysVideo, 9(4):551, June 1999. [cytowanie na str. 48, 49]

[15] T. Chen. Audio-visual integration in multi-modal communication. Proceedings ofthe IEEE 86, pages 837–852, 1998. [cytowanie na str. 33]

[16] T. Cootes and C. Taylor. Active shape models- - smart snakes. Proc. British MachineVision Conference, page 266, 1992. [cytowanie na str. 39]

[17] C. Cortes and V. Vapnik. Support-vector networks. Machine Learning, 20(3):273–297, 1995. [cytowanie na str. 76]

[18] L. da F. Costa and R.M. Cesar J. Shape Analysis and Classification: Theory andPractice. CRC Press, Inc., Boca Raton, FL, USA, 2000. [cytowanie na str. 38]

[19] S. Dickinson. Object representation and recognition. 1999. [cytowanie na str. 38]

[20] R.O. Duda and P.E. Hart. Use of the hough transformation to detect lines andcurves in pictures. Commun. ACM, 15(1):11–15, 1972. [cytowanie na str. 38]

[21] R.O. Duda, P.E. Hart, and D.G. Stork. Pattern Classification. Wiley-IntersciencePublication, 2000. [cytowanie na str. 78]

[22] P. Ekman. About brows: Emotional and conversational signals. In J. Aschoff, M. vonCarnach, K. Foppa, W. Lepenies, & D. Plog (Eds.) Human ethology. Cambridge:Cambridge University Press, 1979. [cytowanie na str. 14]

[23] P. Ekman and W.V. Friesen. Unmasking the face. A guide to recognizingemotions from facial clues. Englewood Cliffs, New Jersey: Prentice-Hall., 1975.[cytowanie na str. 14]

[24] P. Ekman and W.V. Friesen. Facial action coding system: A technique forthe measurement of facial movement. Consulting Psychologists, pages –, 1978.[cytowanie na str. 15]

[25] P. Ekman, J. Hager, CH. Methvin, and W. Irwin. Ekman-hager facial action exem-plars (unpublished data). Human Interaction Laboratory, Univ. of California, 1978.[cytowanie na str. 17]

[26] B. Fasel and J. Luettin. Automatic facial expression analysis: A survey. PatternRecognition, 36(1):259–275, 2003. [cytowanie na str. 44, 45, 64]

[27] J.D. Foley, V.L. Wallace, and P. Chan. The human factors of computer graphicsinteraction techniques. IEEE Computer Graphics and Applications, 4 (11):13–48,1984. [cytowanie na str. 22]

[28] W. Freeman. Orientation histogram for hand gesture recognition. In Int’l Workshopon Automatic Face- and Gesture-Recognition, 1995. [cytowanie na str. 39, 67]

[29] S. Gong, S.J. McKenna, and A. Psarrou. Dynamic Vision: From Images to FaceRecognition. Imperial College Press, London, UK, UK, 2000. [cytowanie na str. 87]

[30] T. Goto, M. Escher, Ch. Zanardi, and N. Magnenat-Thalmann. Mpeg-4 basedanimation with face feature tracking. In Computer Animation and Simulation 1999,pages 89–98, - -. [cytowanie na str. 20]

[31] S. Grossberg. How does the cerebral cortex work? [cytowanie na str. 46]

[32] M. Hachet, J. Pouderoux, and P. Guitton. A camera-based interface for interactionwith mobile handheld computers. In I3D’05 - Symposium on Interactive 3D Graphicsand Games., 2005. [cytowanie na str. 33]

[33] B.V. Hancock and A.M Burton. Human face perception and identification. FaceRecognition: From Theory to Applications, Berlin: Springer, pages 51–72, 1998.[cytowanie na str. 56]

[34] M. Held. Voronoi diagrams and offset curves of curvilinear polygons. InComputer-Aided Design, pages 287–300, 30(4) 1998. [cytowanie na str. 38]

[35] K. Hinckley. Input technologies and techniques. The human-computer interactionhandbook: fundamentals, evolving technologies and emerging applications, pages151–168, 2003. [cytowanie na str. 22]

[36] K. Hinckley, R. Jacob, and C. Ware. Input/output devices and interaction tech-niques. In CRC Computer Science and Engineering Handbook, A. B. Tucker, ed.CRC Press LLC: Boca Raton, FL., to appear. (Microsoft). [cytowanie na str. 23]

[37] E. Hjelmas and B.K. Low. Face detection: A survey. Computer Vision and ImageUnderstanding, 83(3):236–274, Sept. 2001. [cytowanie na str. 44, 48, 55]

[38] Rein-Lien Hsu, M. Abdel-Mottaleb, and A.K. Jain. Face detection in color images.IEEE Trans. Pattern Anal. Mach. Intell., 24(5):696–706, 2002. [cytowanie na str. 48,

49, 56, 57]

[39] J. Ilonen, J.K. Kamarainen, and H. Kalviainen. Efficient computation of gaborfeatures. Research Report 100, Lappeenranta University of Technology, Departmentof Information Technology, pages –, 2005. [cytowanie na str. 68]

[40] C.E. Izard. The maximally discriminative facial movement coding system max.Unpublished manuscript available from Instructional Resource Center, Universityof Delaware, 1979. [cytowanie na str. 14]

BIBLIOGRAFIA

[41] M. Jabłoński, J. Przybyło, and P. Wołoszyn. Automatyczna segmentacja twarzydla potrzeb interfejsu człowiek-komputer. AGH Automatyka, 9/3:587–600, 2005.[cytowanie na str. 48, 101]

[42] W. Jakuczun. Lokalne klasyfikatory jako narzędzie analizy i klasyfikacji sygnałów.PhD thesis, IPI PAN, promotor: dr hab. Jerzy Cytowski, 2006. [cytowanie na str. 76]

[43] A. Jozwik, S. Serpico, and F. Roli. A parallel network of modified 1-nn and k-nnclassifiers: Application to remote sensing image classification. PRL, 19(1):57–62,January 1998. [cytowanie na str. 77]

[44] T. Kanade, J.F. Cohn, and Y. Tian. Comprehensive database for facial expressionanalysis. The 4th IEEE International Conference on Automatic Face and GestureRecognition (FG’00), pages –, March 2000. [cytowanie na str. 17]

[45] A. Kapoor, Y. Qi, and W. Picard-Rosalind. Fully automatic upper facial actionrecognition. Analysis and Modeling of Faces and Gestures, pages 195–202, Oct.2003. [cytowanie na str. 17]

[46] M. Kass, A. Witkin, and D. Terzopoulos. Snakes: Active contour models.International Journal of Computer Vision, 1:321–331, 1988. [cytowanie na str. 38]

[47] Y. Keselman and S. Dickinson. Bridging the representation gap between modelsand examplars. In IEEE Conf. on Comp. Soc. Work. on Models versus Exemplarsin Comp. Vis., 2001. [cytowanie na str. 38]

[48] K. Koffka. Principles of gestalt psychology (International library of psychology,philosophy, and scientific method) (International library of psychology, philosophy,and scientific method). Routledge & K. Paul, January 1962. [cytowanie na str. 47]

[49] J. Koronacki and J. Ćwik. Statystyczne systemy uczące się. Warszawa: Wydawnic-twa Naukowo-Techniczne, 2005. [cytowanie na str. 79]

[50] C. Kotropoulos and I. Pitas. Rule-based face detection in frontal views. In Proc. ofIEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP 97), IV:2537–2540, April 21-24 1997. [cytowanie na str. 55]

[51] C. Kouadio, P. Poulin, and P. Lachapelle. Real-time facial animation based upon abank of 3d facial expressions. In CA ’98: Proceedings of the Computer Animation,page 128, Washington, DC, USA, - 1998. IEEE Computer Society. [cytowanie na str. 20]

[52] A. Kuriański. Detekcja i śledzenie ruchu przy użyciu czasowo-przestrzennegomodelowania obrazów za pomocą pól losowych. PhD thesis, IPPT PAN, 1992.[cytowanie na str. 69, 70]

[53] F. Lavagetto and R. Pockaj. The facial animation engine : towards a high-levelinterface for the design of mpeg-4 compliant animated faces. IEEE Transactions onCircuits and Systems for Video Technology, pages –, 1998. [cytowanie na str. 18]

[54] T. Lindeberg. Scale-space theory: A basic tool for analysing structures at differentscales. J. of Applied Statistics, 21(2):224–270, 1994. (Supplement on Advances inApplied Statistics: Statistics and Images: 2). [cytowanie na str. 140]

[55] Ch.L. Lisetti and D.J. Schiano. Automatic facial expression interpretation: Whe-re human-computer interaction, artificial intelligence and cognitive science inter-sect. Pragmatics and Cognition (Special Issue on Facial Information Processing: AMultidisciplinary Perspective), 8(1):185–235, 2000. [cytowanie na str. 7, 22]

[56] J. Lombardi and M. Betke. A self-initializing eyebrow tracker for binary switchemulation. 2002. [cytowanie na str. 70]

[57] J.M. Marnik. Rozpoznawanie znaków Polskiego Alfabetu Palcowego zwykorzystaniem morfologii matematycznej i sieci neuronowych. PhD thesis,AGH Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki, 2002.[cytowanie na str. 48]

[58] L. Mazurek. Modelowanie początkowych etapów przetwarzania informacjiwzrokowej. PhD thesis, AGH, wydz. EAIiE, promotor: dr inż. Zbigniew Mikrut,2001. [cytowanie na str. 44]

[59] S.J. McKenna and S. Gong. Real-time face pose estimation. Real-Time Imaging,4(5):333–347, 1998. [cytowanie na str. 91, 94]

[60] S.J. McKenna, S.G. Gong, and Y. Raja. Modelling facial colour and identity withgaussian mixtures. PR, 31(12):1883–1892, December 1998. [cytowanie na str. 49]

[61] Z. Mikrut and P. Augustyniak. Lokalizacja kluczowych cech rozpoznawanych obiek-tów na podstawie analizy sciezki wzrokowej obserwatora. Bio-Algorithms andMed-Systems, 1(1/2):307–310, 2005. [cytowanie na str. 6]

[62] MPEG-4. ISO/IEC MPEG-4 Part 2 (Visual). [cytowanie na str. 18, 19]

[63] S. Oviatt. Multimodal interfaces. In Handbook of Human-Computer Interaction. J.Jacko and A. Sears (Eds.) Mahwah NJ Lawrence Erlbaum), 2002. [cytowanie na str. 5]

[64] M. Pantic, P. Ioannis, and M. Valstar. Learning spatiotemporal models of facialexpressions. Proceedings of International Conf. Measuring Behaviour, pages 7–10,September 2005. [cytowanie na str. 17]

[65] P. Pawlik, D. Iwaniec, and M. Iwaniec. Analiza obrazu z kamery jako podstawainterfejsu człowiek niepełnosprawny-komputer. AGH Automatyka, 10/3:399–405,2006. [cytowanie na str. 39]

[66] P. Peer, J. Kovac, and F. Solina. Human skin colour clustering for face detection.1998. [cytowanie na str. 49]

[67] D.A. Pollen and S.F. Ronner. Phase relationships between adjacent simple cells inthe visual cortex. Science, 212:1409–1411, jun 1981. [cytowanie na str. 39]

[68] J. Przybyło. Śledzenie cech charakterystycznych twarzy w systemie rozpoznawaniamimiki. AGH Automatyka, 11/3:257–266, 2007. [cytowanie na str. 107]

[69] J. Przybyło, M. Jabłoński, and P. Wołoszyn. Detekcja markerów dla celówautomatycznej anotacji mimiki twarzy. AGH Automatyka, 10/3:413–425, 2006.[cytowanie na str. 106]

BIBLIOGRAFIA

[70] J. Przybyło, P. Wołoszyn, and M. Jabłoński. Wizyjny interfejs człowiek-komputerprzeznaczony dla użytkowników niepełnosprawnych. AGH Automatyka, 7/3:385–398, 2003. [cytowanie na str. 107]

[71] J. Przybyło, P. Wołoszyn, and M. Jabłoński. Rozpoznawanie jednostek czynnościo-wych mimiki twarzy na potrzeby interfejsu człowiek-komputer. AGH Automatyka,8/3:378–379, 2004. [cytowanie na str. 65, 80]

[72] P. Saint-Marc and G. Medioni. B-spline contour representation and symmetry de-tection. In ECCV 90: Proceedings of the first european conference on Computervision, pages 604–606, New York, NY, USA, - 1990. Springer-Verlag New York, Inc.[cytowanie na str. 38]

[73] K.R. Scherer and P. Ekman. The New Handbook of Methods in Nonverbal BehaviorResearch. Cambridge, UK: Cambridge University Press, 1982. [cytowanie na str. 16]

[74] K. Schwerdt and J.L. Crowley. Robust face tracking using color. In AFGR00, pages90–95, 2000. [cytowanie na str. 48]

[75] N. Sebe, M.S. Lew, I. Cohen, A. Garg, and T.S. Huang. Emotion recognitionusing a cauchy naive bayes classifier. In ICPR02, volume I, pages 17–20, 2002.[cytowanie na str. 76]

[76] C. Sheng and Y. Xin. Shape-based image retrieval using shape matrix. InInternational Journal Of Signal Processing, volume 1, 2004. [cytowanie na str. 38]

[77] W. Skarbek. Segmentation of Colour Images. PAN Warszawa, 1994.[cytowanie na str. 49]

[78] M. Soriano, B. Martinkauppi, S. Huovinen, and M. Laaksonen. Skin detection invideo under changing illumination conditions. In ICPR00, volume I, pages 839–842,2000. [cytowanie na str. 49]

[79] C. Stauffer and W.E.L. Grimson. Adaptive background mixture models for real-timetracking. In CVPR99, volume II, pages 246–252, - 1999. [cytowanie na str. 69]

[80] M. Stegmann. Active appearance models: Theory and cases, 2000.[cytowanie na str. 65]

[81] R. Tadeusiewicz. Wykorzystanie sieci neuronowych do analizy sygnałów aku-stycznych w powiązaniu z głosowym sterowaniem robota dydaktycznego. RaportInstytutu Automatyki, 15, 1991. [cytowanie na str. 6]

[82] R. Tadeusiewicz. Sieci neuronowe. Problemy Wspolczesnej Nauki i Techniki. Infor-matyka. Akademicka Oficyna Wydaw. RM, 1993. [cytowanie na str. 39, 76]

[83] R. Tadeusiewicz and M. Flasiński. Rozpoznawanie obrazów. Problemy Wspol-czesnej Nauki i Techniki. Informatyka. Akademicka Oficyna Wydaw. RM, 1993.[cytowanie na str. 75]

[84] R. Tadeusiewicz and P. Korohoda. Komputerowa analiza i przetwarzanie obrazów.Wydawnictwo Fundacji Postępu Telekomunikacji, 1997. [cytowanie na str. 44]

[85] Y-L. Tian, L. Brown, A. Hampapur, S. Pankanti, and R.M. Bolle. Real worldreal-time automatic recognition of facial expressions. In IEEE workshop onperformance evaluation of tracking and surveillance, Graz, Austria, March 31 2003.[cytowanie na str. 39]

[86] Y.L. Tian, T. Kanade, and J.F. Cohn. Dual-state parametric eye tracking.Proceedings of the 4th IEEE International Conference on Automatic Face andGesture Recognition (FG’00), pages 110 – 115, 2000. [cytowanie na str. 16]

[87] Y.L. Tian, T. Kanade, and J.F. Cohn. Robust lip tracking by combining shape,color and motion. Proceedings of the 4th Asian Conference on Computer Vision(ACCV’00), pages –, January 2000. [cytowanie na str. 16]

[88] Y.L. Tian, T. Kanade, and J.F. Cohn. Recognizing action units for facial expres-sion analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence,(23(2)):97–116, 2001. [cytowanie na str. 16]

[89] Y.L. Tian, T. Kanade, and J.F. Cohn. Evaluation of gaborwavelet -based facial ac-tion unit recognition in image sequences of increasing complexity. In Proceedings ofthe 5th IEEE International Conference on Automatic Face and Gesture Recognition(FG’02), DC, May 2002. [cytowanie na str. 39, 68]

[90] F.de la Torre, J. Campoy, Z. Ambadar, and J.F. Cohn. Temporal segmentation offacial behavior. In International Conference on Computer Vision, October 2007.[cytowanie na str. 76]

[91] M. Turk and A. Pentland. Eigenfaces for recognition. J. Cognitive Neuroscience,3(1):71–86, 1991. [cytowanie na str. 39, 56]

[92] M. Valstar, P. Ioannis, and M. Pantic. Facial action unit recognition using temporaltemplates. Proceedings of IEEE Int’l Workshop on Human-Robot Interaction, pages253–258, September 2004. [cytowanie na str. 17, 40, 75]

[93] V. Vezhnevets, V. Sazonov, and A. Andreeva. A survey on pixel-based skin colordetection techniques. in Proc. Graphicon-2003, 2003. [cytowanie na str. 50, 53]

[94] M. Wertheimer. Laws of Organization in Perceptual Forms - A Source Bookof Gestalt Psychology. W.D. Ellis ed. Routledge and Kegan Paul Ltd., -, 1955.[cytowanie na str. 47]

[95] M. Yang and N. Ahuja. Detecting human faces in color images. In ICIP-A 98, pages127–130, 1998. [cytowanie na str. 50]

[96] Ming-Hsuan Yang, D. J. Kriegman, and N. Ahuja. Detecting faces in images: asurvey. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 24(1):34–58, 2002. [cytowanie na str. 55]

[97] P. Yao, G. Evans, and A.D. Calway. Face tracking and pose estimation using affinemotion parameters. In SCIA01, pages O–Th2, 2001. [cytowanie na str. 90]

[98] W. Zhao, R. Chellappa, and A. Krishnaswamy. Discriminant analysis of principalcomponents for face recognition. n 3rd International Conference on Automatic Faceand Gesture Recognition, I:336–341, 1998. [cytowanie na str. 76]

BIBLIOGRAFIA

[99] W. Zhao, R. Chellappa, P.J. Phillips, and A. Rosenfeld. Face recognition: A litera-ture survey. ACM Comput. Surv., 35(4):399–458, 2003. [cytowanie na str. 44, 56]

Dodatki

Dodatek A

Opis metod i algorytmów

W dodatku przedstawiono opis algorytmów oraz rozszerzono wybrane zagadnie-nia poruszane w rozprawie.

A.1 Przestrzenie barw

Znormalizowana przestrzeń RGB posiada korzystną właściwość — niezmienni-czość względem zmian orientacji powierzchni w stosunku do położenia źródłaświatła (przy założeniu powierzchni matowej oraz jednolitego światła otaczają-cego scenę (ang. ambient light). Jest to szczególnie istotne w przypadku detekcjitwarzy, gdzie często występuje sytuacja zmian oświetlenia sceny. Znormalizowanymodel RGB powstaje poprzez normalizację składowych RGB (A.1). Trzecia skła-dowa Ib nie niesie żadnych dodatkowych informacji ponieważ można ją wyznaczyćna podstawie pozostałych (Ir + Ig + Ib = 1). Ponadto do mianownika zazwyczajdodaje się stałą 1 aby uniknąć dzielenia przez zero dla pikseli o wartości RGB=0.

Ir =IR

IR + IG + IB, Ig =

IRIR + IG + IB

gdzie:

Ir, Ig − Składowe znormalizowanego obrazu RGB

IR, IG, IB − Składowe obrazu RGB

Model HSV nawiązuje do sposobu, w jakim widzi ludzki narząd wzroku, gdzieposzczególne składowe nie są skojarzone bezpośrednio z przedziałami widmaobrazu, lecz korespondują z subiektywną percepcją promieniowania widzialne-go przez ludzkie oko — odcień, nasycenie oraz ton. Numerycznie odpowiadają

DODATEK A. OPIS METOD I ALGORYTMÓW

im wartości: barwa (ang. hue), nasycenie (ang. saturation), odcień (ang. value).Transformację RGB do HSV opisuje równanie (A.2):

IH = arc cos

0.5 · ((IR − IG) + (IR − IB))√((IR − IG)2 + (IR − IB) · (IG − IB)

IS = 1− 3min(IR, IG, IB)IR + IG + IB

IV =13

(IR + IG + IB)

gdzie:

IH , IS , IV − Składowe obrazu HSV

Do głównych zalet przestrzeni HSV należy m.in. odseparowanie chrominancji(składowe H i S) od luminancji (V). Ponadto składowa H jest w dużym stopniuniezmiennicza względem zmian orientacji powierzchni w stosunku do położeniaźródła światła (jak dla normalizowanej RGB) oraz oświetlenie światłem białym.Ograniczeniem analizy w przestrzeni HSV jest duża złożoność obliczeniowa trans-formacji RGB do HSV. Ma to szczególne znaczenie ze względu na wymóg szybko-ści przetwarzania ramek obrazu oraz udostępnienia określonej mocy obliczeniowejprocesora dla znacznie bardziej wymagających algorytmów rozpoznawania i ana-lizy twarzy.

Znacznie prostsza obliczeniowo jest transformacja RGB do przestrzeni YCbCr(A.3). Przestrzeń ta wykorzystywana jest w standardach przesyłania europejskiejtelewizji i charakteryzuje się odseparowaniem chrominancji i luminancji.

IY = 0.299 · IR + 0.587 · IG + 0.114 · IB (A.3)

ICr = IR − IYICb = IB − IY

gdzie:

IY , ICr, ICb− Składowe obrazu YCbCr

A.2 Metody segmentacji twarzy

Segmentacja poprzez bezpośrednie określenie zestawu reguł, realizowana jest naj-częściej z użyciem binaryzacji wybranych składowych przestrzeni kolorów. Jej

A.2. METODY SEGMENTACJI TWARZY

zaletą jest prostota i szybkość działania, okupiona koniecznością precyzyjnegookreślenia progów na podstawie analizy rozkładu kolorów pikseli obiektu. Przyję-ty zestaw reguł, pozwala na segmentację twarzy w różnych przestrzeniach barw,przedstawiają równania: (A.4), (A.5), (A.6). W przypadku modeli YCbCr orazznormalizowanego RGB wykorzystano dwie składowe, natomiast w przestrzeniHSV wystarczający okazał się wybór jednej składowej H.

BWr,g =

1; (rlow < Ir < rhigh)

⋂(glow < Ig < ghigh)

0; w przeciwnymprzypadku(A.4)

gdzie:

BWr,g − binarna mapa przynależności pikseli do twarzy dla przestrzeni r-g

Ir, Ig − Składowe znormalizowanego obrazu RGB

rlow, rhigh, glow, ghigh − progi binaryzacji składowych r-g

BWhue =

1; (Hlow < IH < Hhigh)0; w przeciwnymprzypadku

gdzie:

BWHue − binarna mapa przynależności pikseli do twarzy dla przestrzeniHSV

IH − Składowea Hue przestrzeni HSV

Hlow, Hhigh − progi binaryzacji składowej Hue

BWCb,Cr =

1; (Cblow < ICb < Cbhigh)

⋂(Crlow < ICr < Crhigh)

gdzie:

BWCb,Cr − binarna mapa przynależności pikseli do twarzy dla przestrzeniYCbCr

ICb, ICr − Składowe obrazu YCbCr

Cblow, Cbhigh − progi binaryzacji składowej Cb

Crlow, Crhigh − progi binaryzacji składowej Cr

Do metod nieparametrycznych zaliczyć można: znormalizowane tablice prze-kodowań (LUT – ang. look-up-table), klasyfikatory bayesowskie, samoorganizu-jące się sieci neuronowe SOM (ang. self organizing map). Ich zaletą jest szybkość

uczenia modelu i działania oraz (raportowana w doniesieniach) niewrażliwość nakształt rozkładu statystycznego kolorów pikseli. Ograniczeniem są duże wymaga-nia pamięciowe — szczególnie w przypadku wielowymiarowych tablic LUT.

Tablice LUT wyznaczane są następująco. Dla wybranych (ręcznie lub me-todami automatycznymi) fragmentów obrazu zawierających piksele skóry, wy-znaczany jest histogram. Histogram liczony jest dla jednej, dwóch lub trzechskładowych przyjętej przestrzeni barw. Tablicę LUT otrzymuje się poprzez odpo-wiednią normalizację otrzymanego histogramu, formując w ten sposób dyskretnąfunkcję prawdopodobieństwa (A.7). W kategoriach statystycznych Pskin(c) możebyć traktowane jako warunkowe prawdopodobieństwo obserwacji danego koloru,przy założeniu iż piksel należy do obszaru skóry Pskin(c) ≡ P (c|skin).

Pskin(c) =hskin(c)∑ihskin(c)

, lub Pskin(c1, c2) =hskin(c1, c2)∑i,jhskin(c1, c2)

gdzie:

Pskin(c), Pskin(c1, c2)−mapa prawdopodobieństwa skóry

hskin(c), hskin(c1, c2)− histogramy wybranych składowych barw

c, c1, c2 − zakresy wartości (słupków histogramu) danej składowej

Wśród metod parametrycznych wyróżnić należy modelowanie rozkładu kolo-rów przy pomocy eliptycznej gaussowskiej funkcji rozkładu prawdopodobieństwa(A.8). Wykorzystuje się fakt, iż piksele należące do skóry tworzą w przestrzenibarw zwarty, niewielki obszar (rys. 5.8a).

P (c|skin) =1

2 · π · |ΣS |0.5· e− 1

2 (ξ−µS)T ·Σ−1S ·(ξ−µS) (A.8)

gdzie:

ξ − wektor wybranych składowych koloru

ΣS , µS − kowariancja oraz wartość oczekiwana obszaru należącego do skó-ry

Wartości P (c|skin)mogą być użyte do bezpośredniego określenia „jak bardzopodobny do skóry jest dany piksel” bądź też można wyznaczyć miarę błędu —odległość Mahalanobisa (A.9). Odległość Mahalanobisa jest odległością międzydwoma punktami w n-wymiarowej przestrzeni, która różnicuje wkład poszczegól-nych składowych oraz wykorzystuje korelacje między nimi. Więcej informacji naten temat można znaleźć w podręcznikach do matematyki i statystyki.

λS(ξ) = (ξ − µS)T · Σ−1S · (ξ − µS) (A.9)

A.3. ESTYMACJA I USUWANIE SZUMÓW Z SEKWENCJI VIDEO

gdzie:

λS(ξ)− odległość Mahalanobisa wektora wybranych składowych koloruod modelu skóry

ξ − wektor wybranych składowych koloru

ΣS , µS − kowariancja oraz wartość oczekiwana obszaru należącego do skó-ry

W wielu przypadkach podstawowe założenie powyższej metody, czyli rozkładnormalny pikseli należących do skóry, nie jest spełniony (rys. 5.8c). W takimprzypadku użyteczne jest modelowanie barwy skóry przy pomocy mieszanki roz-kładów prawdopodobieństwa (ang. multiple gaussian) i wykorzystanie algorytmumaksymalizacji wartości oczekiwanej EM (ang. expectation-maximization algori-thm), do estymacji parametrów modelu opisanego równaniem (A.5).

A.3 Estymacja i usuwanie szumów z sekwencji video

Pomiar szumów zrealizowano dla kilku sekwencji video pobranych w różnychwarunkach i przy pomocy różnych kamer. Opis sekwencji znajduje się w rozdziale5.2.2.

Ilościowy pomiar szumów zrealizowano następująco. Z sekwencji wideo wy-brano kilka kolejnych obrazów, dla których nie występują ruchy głowy, gestymimiczne lub zmiany oświetlenia sceny. Następnie wyznaczono znormalizowanąsumę obrazu różnicowego z kolejnych ramek (A.10). Jako miarę stopnia zaszu-mienia sekwencji przyjęto średnią z kolejnych wartości znormalizowanej sumy dlakilku obrazów (A.11).

Noise(k) =

∑m,n|I(x, y, k)− I(x, y, k − 1)|

MIM ·NIM(A.10)

gdzie:

MIM , NIM − wymiary obrazu (wiersz, kolumna)

I(x, y, k)− Jasność piksela obrazu o współrzędnych x, y w chwili k

Noise = mean(Noise(k)) (A.11)

Rysunek A.1 przedstawia obrazy różnicowe dla wybranych sekwencji, nato-miast tabela A.1 średni poziom szumów. Można zauważyć występowanie szumów— szczególnie widoczne w przypadku złych warunków akwizycji obrazów. Jest to

Rysunek A.1: Przykładowe obrazy z różnych sekwencji (a) sekwencja nr 1 (b)sekwencja nr 3 (c) sekwencja nr 2, oraz odpowiadające im moduły różnicy dwóchkolejnych obrazów (d)(e)(f).

Tabela A.1: Średni poziom szumów dla sekwencji z rys. A.1

µnoise

Sekwencja nr 1 2.0086Sekwencja nr 3 1.4347Sekwencja nr 2 2.9932

spodziewany fakt, ponieważ metody różniczkowania numerycznego (do którychmożna zaliczyć obliczanie obrazu różnicowego) są wrażliwe na szum.

Otrzymane wyniki uzasadniają konieczność poprawy jakości obrazów i zmniej-szenia zakłóceń. W tym celu można próbować odpowiednio dobrać parametryakwizycji obrazów (o ile kamera pozwala na regulacje swoich parametrów) lubdostosować warunki akwizycji (oświetlenie). Narzuca to dodatkowe wymaganiapracy całego systemu, trudne do zagwarantowania gdy celem jest rozpoznawaniemimiki w nieznanych warunkach. Innym sposobem, wykorzystanym w niniejszejpracy, jest programowa redukcja szumów. W tym celu wykorzystano filtracjęmedianową, która skutecznie zmniejsza lokalne szumy nie powodując ich „rozmy-wania” na większym obszarze (w odróżnieniu od filtrów uśredniających). Dzię-ki temu usunięta została znaczna część zakłóceń z sekwencji (rys. A.2), tabelaA.2), jednocześnie bez wprowadzania większych zmian na obrazach które mogły-by utrudnić np. detekcję ruchu.

A.4. METODA PCA

Rysunek A.2: Wyniki redukcji szumów przy pomocy filtracji medianowej (maskao rozmiarze 5x5) dla sekwencji nr 3 — (a) wybrany obraz z sekwencji, (b) mo-duł różnicy dwóch kolejnych obrazów przed filtracją, (c) moduł różnicy dwóchkolejnych obrazów po filtracji

Tabela A.2: Średni poziom szumów dla sekwencji nr 3, przed i po filtracji media-nowej

µnoise

przed filtracją 1.4347po filtracji 0.97253

A.4 Metoda PCA

Metoda składowych głównych PCA (ang. Principal Component Analysis) należydo grupy metod statystycznych i służy do badania związków zachodzących po-między dwoma wielowymiarowymi zestawami zmiennych. Może być traktowanajako liniowa transformacja punktów z przestrzeni D-wymiarowej (przykładowo— D może być równe ilości pikseli wzorca obrazu) do nowej przestrzeni o mniej-szej liczbie wymiarów. Nowa baza przestrzeni definiuje kierunki, które opisująnajwiększą zmienność z oryginalnego zestawu danych.

Kolejne etapy analizy PCA są następujące. Każdy D-wymiarowy wektor cechjest normalizowany poprzez odjęcie średniej ze wszystkich wektorów (A.12).

yi = xi − x (A.12)

gdzie:

yi −D-wymiarowy wektor cech po normalizacji

xi −D-wymiarowy wektor cech

x− średni wektor cech

Ze znormalizowanych wektorów cech tworzona jest macierz, w której każdakolumna odpowiada jednemu wektorowi (A.13).

1 · · · ϕ1NT

......

ϕD1 · · · ϕDNT

(A.13)

gdzie:

Φ−macierz złożona z wektorów cech

NT − ilość wektorów cech

D − wymiar wektora cech

Funkcje bazowe nowej przestrzeni są obliczane poprzez wyznaczenie wekto-rów własnych następującej macierzy kowariancji (A.14), (A.15). W przypadkugdy wektory cech reprezentują kształty lub wzorce twarzy, efektywną metodąobliczania jest algorytm dekompozycji macierzy na wartości osobliwe (SVD ang.singular value decomposition). Wynika to z faktu, iż macierz kowariancji jestosobliwa (ilość wektorów cech jest mniejsza niż wymiar przestrzeni). Funkcje ba-zowe są określane również jako składowe główne (ang. principal components) lub„eigen-obiekty” (ang. eigenobjects).

CΦ = cov(Φ) (A.14)

[U, S, V ] = svd CΦ

gdzie:

CΦ −macierz kowariancji dla Φ

U −macierz zawierająca w każdej kolumnie składowe główne

S − diagonalna macierz zawierająca wartości własne odpowiadająceskładowym głównym

V −macierz ortonormalna do U

A.4. METODA PCA

λ1 0 0

0. . . 0

0 0 λD

(A.15)

Z uszeregowanych w kolejności od największej do najmniejszej wartości wła-snych oraz odpowiadających im składowych głównych wybierane jest K pierw-szych elementów. Wartość K obliczana jest zazwyczaj wg kryterium (A.16).

100·D∑

λi (A.16)

gdzie:

i− indeks kolejnego wektora cech

λi − i-ta wartość własna macierzy kowariancji

D − wymiar wektora cech

p− zadana, procentowa wartość określająca proporcję wariancji da-nych

Składowe główne stanowią nową bazę przestrzeni, do której rzutowane sąwektory cech. W procesie rzutowania otrzymuje się wektor wag Ω reprezentującydany wektor cech (A.17).

Ωi = [wi1 · · ·wiK ]T (A.17)

wij =(U j)T · xi

i = 1 · · ·NT , j = 1 · · ·K

gdzie:

Ωi − wektor wag dla i-go wektora cech

U j − j-ty element macierzy składowych głównych

xi − i-ty wektor cech

NT − ilość wektorów cech

K − ilość uwzględnionych wektorów głównych

Każdy wektor cech możne zostać odtworzony poprzez kombinację liniową skła-dowych głównych (A.18) oraz dodanie średniego wektora cech.

yi = x+K∑

wij ·U j (A.18)

gdzie:

x− średni wektor cech

U j − j-ty element macierzy składowych głównych

xi − i-ty wektor cech

K − ilość uwzględnionych wektorów głównych

A.5 Metoda przestrzeni skali (ang. scale-space)

Reprezentacja skali (ang. scale-space) jest specjalnym typem reprezentacji wielo-skalowej zaproponowanym przez Tonny’ego Lindeberga [54]. Niech f : <N → <reprezentuje dowolny ciągły sygnał. Reprezentacja skali L : <N × <+ → < jestzdefiniowana przez (A.19):

L(·; 0) = f

L(·;σ) = g(·;σ) ∗ f (A.19)

gdzie:

σ ∈ <+ − parametr skali

g : <N ×<+\0 → <−N-wymiarowy rozkład Gaussa

f − dowolny ciągły sygnał

W przypadku obrazu rozkład Gaussa definiowany jest następująco (A.20):

g(x, y, σ) =1

2 · π · σ2 · e(−x2+y2

2·σ2

)(A.20)

gdzie:

x, y − współrzędne obrazu

Reprezentacja ta może zostać wykorzystana do detekcji cech w różnych ska-lach (w zależności od parametru σ) — rys. A.3. Detekcja cech w pojedynczejskali, odbywa się poprzez wyszukiwanie lokalnych przestrzennych maksimów lubmiejsc zerowych różniczkowego deskryptora cech. Mogą to być plamy (ang. blobs),grzbiety (ang. ridges), krawędzie (ang. edges), itp. W pracy wykorzystano detek-cję plam. Plama to obszar ciemny otoczony elementami jasnymi, lub odwrotnie.Matematycznie plama to ekstremum lokalne laplasjanu(A.21):

∇2L = Lxx + Lyy∇(∇2L) = 0

(A.21)

A.6. FILTRY GABORA

Rysunek A.3: Reprezentacja skali obrazu: (a) obraz, (b) reprezentacja dla σ = 2,(c) reprezentacja dla σ = 8

Znak laplasjanu określa czy jest to plama jasna (∇(∇2L) < 0) czy ciemna( ∇(∇2L) > 0). W wyniku zastosowania powyższego operatora, otrzymywanyjest obraz z wyraźnymi maksimami w miejscach występowania plam o rozmiarzeodpowiadającym wybranej skali σ. Obraz ten podlega normalizacji względemskali i może zostać wykorzystany do detekcji cech. W przypadku uwzględnieniawszystkich skal, detekcja odbywa się w przestrzeni trójwymiarowej (tzn. nie tylkow płaszczyźnie obrazu ale również na osi skali).

A.6 Filtry Gabora

Filtr Gabora jest funkcją Gaussa modulowana przez falę sinusoidalną oraz kosi-nusoidalną. Dla sygnału 2D definiowany jest następująco (A.22):

ΨG (x, y; f0G, θG) =f2

π · γG · ηG · eA · eB (A.22)

A = −(f2

· x′2 +f2

· y′2)

B =(j2π · f0G · x′

= x · cos θG + y · sin θGy′

= −x · sin θG + y · cos θG

gdzie:

γG − ostrość filtru wzdłuż dłuższej osi

ηG − ostrość filtru wzdłuż krótszej osi

f0G − częstotliwość centralna filtru

θG − kąt obrotu głównej osi filtru (orientacja)

Wyszukiwane obiektów na obrazach odbywa się za pomocą bibliotek filtrówGabora, uwzględniających różne częstotliwości, orientacje i szerokości.

A.7 Wyznaczanie mapy prawdopodobieństwa oczu orazust

Obliczanie mapy prawdopodobieństwa oczu składa się z dwóch etapów. W pierw-szym wykorzystywana jest informacja o kolorze (A.23), w wyniku czego otrzy-mywana jest mapa nr 1 (rys. A.4a):

EyeMap1 =13·(I2Cb + I2

Cr + ICb/ICr)

(A.23)

gdzie:

ICr −Negacja składowej Cr

ICr, ICb − Składowe obrazu YCbCr

Obszar oczu zazwyczaj odróżnia się wyraźnie od reszty twarzy tworząc ciem-niejsze plamy. Dlatego tworzona jest druga mapa prawdopodobieństwa oczu (A.24)— rys. A.4b. Rejony oczu wzmacniane są w niej poprzez zastosowanie algorytmu„detekcji plam” w reprezentacji skali (por. A.5).

EyeMap2 = σ · (Lxx + Lyy) (A.24)

gdzie:

Lxx, Lyy − drugie pochodne cząstkowe obrazu

σ − parametr skali

Obydwie mapy podlegają normalizacji do zakresu [0-1]. Na podstawie złoże-nia obu map (rys. A.4c) oraz otrzymanej w poprzednich etapach maski twarzy(por. 5.3.1), tworzona jest binarna maska (rys. A.4d) zawierająca obiekty będącepotencjalnymi oczami (A.25).

BWeye =

1; [(EyeMap1 + EyeMap2) > eyethres] ∩BWface

0; w przeciwnymprzypadku

(A.25)

gdzie:

EyeMap1, EyeMap1−mapy prawdopodobieństwa oczu

BWface − binarna maska twarzy

eyethres − próg binaryzacji mapy prawdopodobieństwa oczu

A.7. WYZNACZANIE MAPY PRAWDOPODOBIEŃSTWA OCZU ORAZ UST

Rysunek A.4: (a) mapa prawdopodobieństwa oczu nr 1, (b) mapa prawdopodo-bieństwa oczu nr 2, (c) połączenie obydwu map, (d) binarna maska oczu

Próg binaryzacji eyethres dobierany jest automatycznie według następującegokryterium (A.26):

eyethres = µeye + const · σeye (A.26)

gdzie:

µeye, σeye − odchylenie standardowe oraz wartość oczekiwana intensywnościpikseli mapy oczu w obszarze należącym do twarzy

Mapa prawdopodobieństwa ust (rys. A.5a) wyznaczana jest następująco (A.27):

MouthMap = ICb ·(I2Cr − ηm ·

ICrICb

)2(A.27)

ηm = 0.95 ·1n ·

∑(x,y)∈BWface

ICrICb

gdzie:

ICr, ICb − Składowe obrazu YCbCr

n− ilość pikseli należących do obszaru twarzy

Rysunek A.5: (a) mapa prawdopodobieństwa ust, (b) połączenie obydwu map,(d) binarna maska ust

Parametr ηm obliczany jest na podstawie zliczania ilości pikseli należącychdo obszaru twarzy (maska) dla odpowiednich składowych przestrzeni kolorówchrominancji-luminancji. W wyniku otrzymywany jest obraz na którym widocz-ne są jaśniejsze plamy w miejscu występowania ust. Podobnie jak w przypadkuoczu, z mapy ust tworzona jest następnie binarna maska (rys. A.5b), zawierającaobiekty będące potencjalnymi ustami (A.28)(A.29).

BWmouth =

1; [MouthMap > mouththres] ∩BWface

gdzie:

MouthMap−mapa prawdopodobieństwa ust

mouththres − próg binaryzacji mapy prawdopodobieństwa ust

mouththres = µmouth + const · σmouth (A.29)

gdzie:

µmouth, σmouth − odchylenie standardowe oraz wartość oczekiwana intensywnościpikseli mapy ust w obszarze należącym do twarzy

Dodatek B

Opis jednostek czynnościowychmimiki

DODATEK B. OPIS JEDNOSTEK CZYNNOŚCIOWYCH MIMIKI

częś

ięśn

14„P

ust”

ięśn

częś

ożliw

ięśn

śćge

ożliw

ół(a

częś

ęść

ięśn

Tabela B.4: Opis wybranych elementów mimiki — AU1, AU2, AU1+2

Elementmimiki

AU1,AU2,AU1+2

AU1 – Unoszenie wewnętrznej części brwi:

• Wewnętrzna część brwi podciągana jest w górę.

• U wielu ludzi powoduje powstanie ukośnego kształtu brwi.

• Powoduje powstawanie poziomych zmarszczek skóry naczole, rozciągających się raczej w środkowej części czoła.Mogą one być zakrzywione, wyższe w środkowej części. Udzieci zmarszczki mogą nie występować. W przypadku osóbz permanentnymi zmarszczkami pogłębiają się one.

• Może powodować lekki ruch zewnętrznej części brwi dośrodka

AU2 – Unoszenie zewnętrznej części brwi:

• Zewnętrzna część brwi podciągana jest w górę.

• Powoduje powstawanie łukowatego kształtu brwi.

• Powoduje rozciąganie w górę bocznej części fałdu powiekigórnej.

• U niektórych ludzi powoduje powstanie krótkich poziomychzmarszczek powyżej bocznej części brwi. Mogą również po-jawić się zmarszczki w środkowej części czoła ale dużo słab-sze od bocznych.

• Może powodować lekki ruch wewnętrznej części brwi.

AU1+2 – Unoszenie brwi:

• Całość brwi podciągana jest w górę.

• Powoduje powstawanie łukowatego i zakrzywionego kształ-tu brwi.

• Marszczy skórę czoła tak że powstają poziome zmarszczki.U dzieci zmarszczki mogą nie występować.

• Rozciąga fałd powieki górnej tak że jest bardziej widoczne.

• U niektórych ludzi (z głęboko osadzonymi oczyma) rozcią-ganie fałdu powieki górnej odkrywa górną powiekę którazazwyczaj jest zakryta przez fałd.

Tabela B.5: Opis wybranych elementów mimiki — AU4

Elementmimiki

Marszczenie brwi:

• Opuszczenie brwi — różne przypadki (całość brwi, tylkozewnętrzna część lub tylko wewnętrzna część).

• Popycha fałd powieki górnej w dół oraz może zwęzić aper-turę oka.

• Przyciąga brwi ku sobie.

• Wywołuje pionowe zmarszczki pomiędzy brwiami (mogąone być głębokie). U niektórych ludzi zmarszczki mogą byćpod kątem 45 lub zarówno pionowe jaki i pod kątem. Mogąrównież powstawać poziome zmarszczki u nasady nosa. Wprzypadku permanentnych zmarszczek pogłębiają się one.

• Może powodować powstawanie ukośnych zmarszczek lubwypukłości mięśni rozciągających się od środka czoła ponadśrodkową częścią brwi, aż do wewnętrznego kącika brwi.

• Mogą również wystąpić inne rodzaje zmarszczek.

Elementmimiki

Unoszenie policzka:

• Skurcz mięśni wokół oka podciąga skórę od skroni i policzkaw kierunku oka.

• Podniesienie trójkąta podoczodołowego, uniesienie policzkaw górę.

• Wypycha skórę otaczającą oko w kierunku oczodołu zwęża-jąc aperturę oczu, powodując marszczenie skóry pod okiemoraz wypychanie fałdu powieki górnej i zmianę jego kształ-tu.

• Może powodować powstawanie „kurzych łapek” lubzmarszczek, które rozszerzają się radialnie od zewnętrznychkącików oka.

• Pogłębia fałd powieki dolnej.

• Może obniżyć w niewielkim stopniu boczne części brwi.

• Bardziej intensywny gest:

– uwidacznia lub pogłębia bruzdę nosowo-wargową,

– unosi w niewielkim stopniu zewnętrzną część górnejwargi,

– uwidacznia lub pogłębia bruzdę podoczołową, także od góry trójkąta podoczodołowy pojawiają sięzmarszczki (proste lub półksiężycowate).

Elementmimiki

Unoszenie kącików ust:

• Pociągnięcie kącików ust w tył oraz ukośnie do góry, tak żekształt ust staje się zakrzywiony.

• Pogłębienie bruzda nosowo-wargowej wraz z pociągnięciemjej w bok i do góry, przylegająca część skóry również prze-suwa się do góry oraz jest unoszona na bok.

• Słabsza lub umiarkowana jednostka AU12 — podniesienietrójkąta podoczodołowego oraz prawdopodobne pogłębie-nie bruzdy podoczodołowej

• Bardziej zdecydowanie wykonanie akcji powoduje ujawnie-nie następujących cech:

– większy skurcz mięśnia uwydatnia bardziej trójkąt po-doczodołowy,

– pogłębienie bruzdy podoczodołowej jest bardziej wi-doczne,

– „worki” pod dolnymi powiekami,

– skóra policzka naciskając na dolną powiekę powodujezmniejszenie otworu oczu,

– czasami połączone z AU6.

Tabela B.8: Opis wybranych elementów mimiki — AU14, AU15

Elementmimiki

AU14,AU15

AU14 – „Przyciąganie ust”:

• Zmarszczki w kącikach ust.

• Powstawanie „dołeczków” w policzku.

• Ruch kącików ust w górę, możliwy również ruch okrężny.

• Wargi rozciągnięte na boki, spłaszczone i naprężone.

• W niektórych przypadkach pogłębienie bruzdy nosowo-wargowej.

• Skóra brody podciągana jest w górę oraz wygładza się irozciąga.

• Może występować symetrycznie lub niesymetrycznie.

AU15 – Opuszczanie kącików ust:

• Opuszczenie kącików ust w dół.

• Zmiana kształtu warg (jak na zdjęciu) z lekkim poziomymrozciągnięciem.

• Dla intensywnego gestu — tworzenie się zmarszczek i in-nych zmian wyglądu skóry (wypukłości, worki, kieszonki)w okolicy kącików ust.

• Może powodować pojawianie się lub wygładzanie wybrzu-szeń na bródce oraz wklęsłości pod dolną wargą.

• Jeśli występują stałe dla danej osoby bruzdy nosowo-wargowe mogą się one pogłębić i wydłużyć.

Tabela B.9: Opis wybranych elementów mimiki — AU17, AU19

Elementmimiki

AU17,AU19

AU17 – Unoszenie podbródka:

• Koniec podbródka unoszony do góry.

• Dolna warga unoszona do góry.

• Możliwe powstawanie zmarszczek na podbródku oraz za-głębienia poniżej środkowej części dolnej wargi.

• Część ust formuje się w kształt odwróconego U.

• Lekkie wysunięcie dolnej wargi.

AU19 – Wysunięcie języka:

• Przynajmniej koniuszek języka widoczny.

• Może wystąpić przysłonięcie jednej z warg lub kącika ust.

• Usta mogą być otwarte lub mogą wystąpić zmiany ichkształtu.

Tabela B.10: Opis wybranych elementów mimiki — AU25, AU26, AU27

Elementmimiki

AU25,AU26,AU27

AU25 – otwarcie ust:

• Wargi oddzielone od siebie, wewnętrzna część warg bardziejwidoczna.

• W niektórych przypadkach widoczne zęby i dziąsła.

• Widoczna jama ustna (w zależności od jednostki AU26/27).

AU26 – opuszczenie szczęki:

• Rozwarcie żuchwy/szczęki dolnej.

• Przy otwarciu ust (AU25+AU26) widoczna przestrzeń mię-dzy górnymi i dolnymi zębami.

• Dolna szczęka rozluźniona.

• Może wystąpić przypadkowe otwarcie ust.

• Stopniowe napinanie mięśni dolnej szczęki.

• Możliwe rozwarcie żuchwy/szczęki dolnej z jednoczesnymzaciśnięciem warg (AU17/24).

AU27 – szerokie otwarcie ust:

• Owalny kształt ust.

• Wargi z dala od siebie.

• Poprzez rozciąganie policzki wydłużają się i spłaszczają.

• Zmienia się wygląd podbródka i strefy poniżej.

• Jednostka połączona z AU25.

Tabela B.11: Opis wybranych elementów mimiki — AU51-56

Elementmimiki

AU51-56

Ruchy głowy:

• AU51,AU52 – obrót głowy lewo/prawo.

• AU53,AU54 – przechylenie głowy góra/dół.

• AU55,AU56 – przechylenie głowy lewo/prawo.

Uwagi:

• Opis w metodyce FACS mniej dokładny.

• Zmiany wyglądu twarzy wywołane zniekształceniami per-spektywicznymi.

• Duże ruchy mogą powodować przysłonięcie niektórych ele-mentów morfologicznych twarzy (np. oko, ucho) lub poja-wienie się dodatkowych elementów (np. szyja).

Tabela B.12: Opis wybranych elementów mimiki — AU43, AU45, AU46

Elementmimiki

AU43,AU45,AU46

AU43 – zamknięcie oczu:

• Powieki opuszczane są w dół zmniejszając aperturę oka.

• Widoczna jest większa część powiek górnych.

• Możliwe różne stopnie intensywności gestu – np. przy-mknięcie oczu lub zaciśnięcie oczu.

AU45 – Mruganie:

• Bardzo szybkie zamknięcie i otwarcie oczu (bez pauzy wmomencie gdy oczy są zamknięte).

• Możliwy gest jednostronny lub obustronny.

AU46 – Przymrużenie oka:

• Intencjonalne zmrużenie jednego z oczu.

• Oko zostaje zamknięte na krótką chwilę (z pauzą w mo-mencie gdy jest w pozycji zamkniętej)

• Maksymalny czas zmrużenia oka – 2 sec.

Tabela B.13: Opis wybranych elementów mimiki — jednostki MPEG4-FAP

Elementmimiki

FAP 31-36

Wertykalne przemieszczenie punktów brwi:

• FAP31 – przemieszczenie wewnętrznej części lewej brwi(punkt 4.1)

• FAP32 – przemieszczenie wewnętrznej części prawej brwi(punkt 4.2)

• FAP33 – przemieszczenie środkowej części lewej brwi(punkt 4.3)

• FAP34 – przemieszczenie środkowej części prawej brwi(punkt 4.4)

• FAP35 – przemieszczenie zewnętrznej części lewej brwi(punkt 4.5)

• FAP36 – przemieszczenie zewnętrznej części prawej brwi(punkt 4.6)

Rysunek B.1: Element mimiki AU1+2 — unoszenie brwi

Rysunek B.2: Element mimiki AU4 — marszczenie brwi

Rysunek B.3: Element mimiki AU12 — unoszenie kącików ust: (a) obustronne,(b)(c) jednostronne

Rysunek B.4: Elementy mimiki: (a) AU0 — położenie frontalne, (b) AU25+26— otwarcie ust

Dodatek C

Rezultaty rozpoznawaniaelementów mimiki — wykresy itabele

C.1 Informacje ogólne

Liczebność elementów w zbiorach danych dla poszczególnych metod jest nastę-pująca:

Tabela C.1: Liczebność dla histogramów orientacji

całość AU0 AU12R AU12L AU12AU25+26

zbiór uczący 280 141 32 33 35 39zbiór testowy 1 514 200 63 81 83 87zbiór testowy 2 339 131 47 52 54 55zbiór testowy 3 319 116 54 47 52 51zbiór testowy 4 322 121 58 49 48 47

Ze względu na małą ilość danych (dla rozpoznawania kształtów), cały zbiórdanych podzielono losowo na zbiór uczący i testowy w stosunku 70% do 30%(tzw. stratified sampling).

DODATEK C. REZULTATY ROZPOZNAWANIA ELEMENTÓW MIMIKI — WYKRESY ITABELE

Tabela C.2: Liczebność dla modeli kształtów — zbiór uczący

całość AU0 AU1+2 AU4

test 1 75 48 27 -test 2 114 73 41 -test 3 86 48 27 11test 4 131 73 41 17

Tabela C.3: Liczebność dla modeli kształtów — zbiór testowy

całość AU0 AU1+2 AU4

test 1 32 21 11 -test 2 49 31 18 -test 3 36 21 11 4test 4 56 31 18 7

Parametry jakości klasyfikacji (C.1)—(C.4).

PPV =TP

TP + FP· 100% (C.1)

NPV =TN

FN + TN· 100% (C.2)

Sens =TP

TP + FN· 100% (C.3)

Spec =TN

FP + TN· 100% (C.4)

gdzie:

PPV − wartość predykcyjna dodatnia klasyfikacji (ang. positive predic-tive value)

NPV − wartość predykcyjna ujemna klasyfikacji (ang. negative predictivevalue)

Sens− czułość (ang. sensitivity)

Spec− swoistość (ang. specificity)

TP − wyniki prawdziwie dodatnie (ang. true positives)

FN − wyniki fałszywie ujemne (ang. false negatives)

FP − wyniki fałszywie dodatnie (ang. false positives)

TN − wyniki prawdziwie ujemne (ang. true negatives)

C.2 Histogramy orientacji — konfiguracja nr 1

Obszar zainteresowań — wybrane ROI. Histogramy orientacji — gradienty wprzestrzeni skali.

C.2. HISTOGRAMY ORIENTACJI — KONFIGURACJA NR 1

Tabela C.4: Konfiguracja 1, klasyfikator kNN

AU0 AU12R AU12L AU12 AU25+26

Spec. 90.78% 97.17% 96.05% 94.88% 97.25%Sens. 75.00% 90.91% 76.19% 92.31% 96.15%PPV 87.00% 79.37% 79.01% 72.29% 86.21%NPV 81.53% 98.89% 95.38% 98.84% 99.30%

Rysunek C.1: Konfiguracja 1, klasyfikator kNN

Tabela C.5: Konfiguracja 1, klasyfikator QDA

Spec. 99.19% 94.71% 94.12% 94.51% 96.59%Sens. 74.16% 92.68% 98.18% 76.62% 97.30%PPV 99.00% 60.32% 66.67% 71.08% 82.76%NPV 78.03% 99.33% 99.77% 95.82% 99.53%

Rysunek C.2: Konfiguracja 1, klasyfikator QDA

Obszar zainteresowań — wybrane ROI. Histogramy orientacji — filtry Gabora.

Spec. 91.84% 95.08% 91.63% 93.84% 89.83%Sens. 66.91% 61.19% 71.67% 73.68% 92.86%PPV 90.00% 65.08% 53.09% 67.47% 44.83%NPV 71.66% 94.24% 96.07% 95.36% 99.30%

Spec. 97.06% 92.40% 94.12% 94.21% 97.16%Sens. 69.93% 96.30% 98.18% 87.69% 82.42%PPV 96.50% 41.27% 66.67% 68.67% 86.21%NPV 73.57% 99.78% 99.77% 98.14% 96.25%

C.4. HISTOGRAMY ORIENTACJI — KONFIGURACJA NR 3

Obszar zainteresowań — cała twarz. Histogramy orientacji — gradienty w prze-strzeni skali.

Spec. 84.88% 88.02% 90.34% 94.53% 94.87%Sens. 62.89% 40.00% 92.11% 47.69% 76.47%PPV 80.50% 3.17% 43.21% 74.70% 74.71%NPV 69.75% 99.33% 99.31% 84.22% 95.32%

Spec. 82.00% 87.91% 87.55% 84.93% 95.44%Sens. 58.71% 100.00% 65.63% 22.37% 49.65%PPV 77.50% 1.59% 25.93% 20.48% 80.46%NPV 65.29% 100.00% 97.46% 86.31% 83.37%

Obszar zainteresowań — cała twarz. Histogramy orientacji — filtry Gabora.

Spec. 82.74% 90.17% 89.01% 85.74% 89.95%Sens. 52.37% 44.44% 70.73% 36.36% 56.58%PPV 83.00% 25.40% 35.80% 19.28% 49.43%NPV 51.91% 95.57% 97.23% 93.50% 92.27%

C.6. HISTOGRAMY ORIENTACJI — BADANIE WPŁYWU OŚWIETLENIA

Spec. 75.59% 89.88% 88.07% 84.55% 98.02%Sens. 53.08% 46.67% 82.14% 25.71% 49.69%PPV 69.00% 22.22% 28.40% 10.84% 91.95%NPV 61.15% 96.45% 98.85% 93.97% 81.03%

C.6 Histogramy orientacji — badanie wpływu oświetlenia

Histogramy orientacji — ocena wpływu bocznego oświetlenia sztucznego, sekwen-cja 2.

Tabela C.12: Wpływ oświetlenia, klasyfikator kNN

Spec. 95.56% 88.75% 84.66% 94.95% 97.83%Sens. 61.27% 100.00% 100.00% 64.52% 77.78%PPV 95.42% 21.28% 0.00% 74.07% 89.09%NPV 62.02% 100.00% 100.00% 92.28% 95.07%

Rysunek C.9: Wpływ oświetlenia, klasyfikator kNN

C.7 Histogramy orientacji — badanie wpływu skali

Histogramy orientacji — ocena wpływu zmian skali (odsunięcie głowy od kame-ry), sekwencja 3.

Tabela C.13: Wpływ skali, klasyfikator kNN

Spec. 95.06% 84.77% 94.79% 95.56% 96.07%Sens. 68.35% 44.44% 100.00% 56.94% 100.00%PPV 93.10% 14.81% 68.09% 78.85% 78.43%NPV 75.49% 96.24% 100.00% 88.43% 100.00%

C.8. HISTOGRAMY ORIENTACJI — BADANIE WPŁYWU SKALI I ROTACJI

Rysunek C.10: Wpływ skali, klasyfikator kNN

C.8 Histogramy orientacji — badanie wpływu skali i ro-tacji

Histogramy orientacji — ocena wpływu zmian skali i rotacji (odsunięcie głowypołączone z jej przechyleniem), sekwencja 4.

Tabela C.14: Wpływ skali i rotacji, klasyfikator kNN

Spec. 61.03% 83.17% 84.83% 81.67% 87.34%Sens. 24.24% 35.00% 100.00% 14.07% 100.00%PPV 6.61% 12.07% 0.00% 77.08% 14.89%NPV 87.62% 95.09% 100.00% 17.82% 100.00%

Rysunek C.11: Wpływ skali i rotacji, klasyfikator kNN

C.9 Statystyczne modele kształtu — test 1

Sprawdzenie skuteczności rozróżniania jednostki AU0 od AU1+2 dla danych jed-nej osoby (test1).

Tabela C.15: Rozpoznawanie kształtów — test 1, klasyfikator kNN

AU0 AU1+2

Spec. 97.30% 97.14%Sens. 97.14% 97.30%PPV 98.55% 94.74%NPV 94.74% 98.55%

Rysunek C.12: Rozpoznawanie kształtów — test 1, klasyfikator kNN

Tabela C.16: Rozpoznawanie kształtów — test 1, klasyfikator LDA

AU0 AU1+2

Spec. 100.00% 100.00%Sens. 100.00% 100.00%PPV 100.00% 100.00%NPV 100.00% 100.00%

C.10. STATYSTYCZNE MODELE KSZTAŁTU — TEST 2

Rysunek C.13: Rozpoznawanie kształtów — test 1, klasyfikator LDA

Sprawdzenie skuteczności rozróżniania jednostki AU0 od AU1+2 dla danych kilkuosób (test2).

AU0 AU1+2

Spec. 85.07% 97.92%Sens. 97.92% 85.07%PPV 90.38% 96.61%NPV 96.61% 90.38%

AU0 AU1+2

Spec. 86.57% 98.96%Sens. 98.96% 86.57%PPV 91.35% 98.31%NPV 98.31% 91.35%

Sprawdzenie skuteczności rozróżniania jednostek AU0, AU1+2 oraz AU4 dla da-nych jednej osoby (test3).

AU0 AU1+2 AU4

Spec. 84.21% 98.80% 95.19%Sens. 92.31% 94.87% 55.56%PPV 86.96% 97.37% 66.67%NPV 90.57% 97.62% 92.52%

C.12. STATYSTYCZNE MODELE KSZTAŁTU — TEST 4

AU0 AU1+2 AU4

Spec. 70.59% 100.00% 94.57%Sens. 90.74% 100.00% 33.33%PPV 71.01% 100.00% 66.67%NPV 90.57% 100.00% 81.31%

Sprawdzenie skuteczności rozróżniania jednostek AU0, AU1+2 oraz AU4 dla da-nych wielu osób (test4).

AU0 AU1+2 AU4

Spec. 92.31% 96.97% 95.73%Sens. 89.91% 100.00% 73.91%PPV 94.23% 93.22% 70.83%NPV 86.75% 100.00% 96.32%

AU0 AU1+2 AU4

Spec. 64.23% 99.17% 97.69%Sens. 93.75% 87.88% 36.84%PPV 57.69% 98.31% 87.50%NPV 95.18% 93.75% 77.91%

Dodatek D

Rezultaty segmentacji twarzy

W dodatku przedstawiono rezultaty badań, pozwalające na dobór przestrzenikolorów oraz metody segmentacji twarzy. Badania przeprowadzona na kilku se-kwencjach video — opis sekwencji znajduje się w rozdziale (5.2.2). Porównanonastępujące przestrzenie kolorów:

• znormalizowaną RGB (ozn. r-g),

• HSV (ang. hue-saturation-value) — wybrana składowa barwa (Hue),

• YCbCr — wybrane składowe Cb-Cr.

Spośród metod segmentacji wybrano do porównania następujące:

• bezpośrednie określenie zestawu reguł,

• znormalizowane tablice przekodowań (ang. LUT – look-up-table)

• eliptyczny model gaussa barwy skóry.

Opis dla rysunków:

• (a) zestaw reguł (progi), znormalizowana przestrzeń RGB,

• (b) zestaw reguł (progi), przestrzeń Cb-Cr,

• (c) zestaw reguł (progi), przestrzeń barwy (Hue),

• (d) tablice LUT, znormalizowana przestrzeń RGB,

DODATEK D. REZULTATY SEGMENTACJI TWARZY

• (e) tablice LUT, przestrzeń Cb-Cr,

• (f) tablice LUT, przestrzeń Hue,

• (g) metoda parametryczna (eliptyczny model gaussa), znormalizowana prze-strzeń RGB,

• (h) metoda parametryczna (eliptyczny model gaussa), przestrzeń Cb-Cr,

• (i) metoda parametryczna (eliptyczny model gaussa), przestrzeń Hue

Tabela D.1: Wartości funkcji celu dla wybranych metod i przestrzeni barw —sekwencja nr 1

r-g Cb-Cr Hue

Metoda regułowa -0.86395 -0.87263 -0.81603Tablice LUT -0.85251 -0.86907 -0.84857Model gaussowski -0.73357 -0.78978 -0.83666

r-g Cb-Cr Hue

Rysunek D.1: Rezultaty segmentacji twarzy dla sekwencji nr 1.

Dodatek E

Rezultaty detekcji i lokalizacjitwarzy

Parametry jakości detekcji twarzy (E.1)—(E.4).

PPV =TP

TP + FP· 100% (E.1)

NPV =TN

FN + TN· 100% (E.2)

Sens =TP

TP + FN· 100% (E.3)

Spec =TN

FP + TN· 100% (E.4)

gdzie:

DODATEK E. REZULTATY DETEKCJI I LOKALIZACJI TWARZY

Tabela E.1: Liczebność poszczególnych grup obrazów dla sekwencji 1-3

Sekwencja 1 Sekwencja 2 Sekwencja 3

Ilość obrazów ca-łej sekwencji 532 424 170

Ilość obrazów dlapołożenia frontal-nego

278 226 105

Tabela E.2: Detekcja i lokalizacja twarzy — rezultaty dla położenia frontalnego

Sekwencja 1 Sekwencja 2 Sekwencja 3

Spec. 99.35% 77.98% 65.51%Sens. 73.09% 73.83% 75.89%PPV 99.64% 83.63% 80.95%NPV 59.84% 66.16% 58.46%

Rysunek E.1: Rezultaty detekcji (dla wybranego obrazu) potencjalnych obiektów:(a) oczu, (b) ust

Dodatek F

Rezultaty estymacji położeniagłowy — wykresy i tabele

F.1 Informacje ogólne

Parametry oceny jakości rozpoznawania położenia głowy (F.1)—(F.4).

PPV =TP

TP + FP· 100% (F.1)

NPV =TN

FN + TN· 100% (F.2)

Sens =TP

TP + FN· 100% (F.3)

Spec =TN

FP + TN· 100% (F.4)

gdzie:

DODATEK F. REZULTATY ESTYMACJI POŁOŻENIA GŁOWY — WYKRESY ITABELE

Liczebność obrazów sekwencji poszczególnych ruchów głowy dla poszczegól-nych sekwencji (opis sekwencji w rozdziale 8.2.2) jest następująca:

Tabela F.1: Liczebność obrazów sekwencji

Sekw.wzorcowa

Sekw.nr 1

Sekw.nr 2

Sekw.nr 3

Pozycja neutralna 351 274 617 268Głowa w prawo 39 26 70 31Głowa w lewo 37 27 58 28Głowa w górę 17 22 57 21Głowa w dół 22 23 37 19Przechylenie w prawo 27 25 40 19Przechylenie w lewo 37 25 51 23

F.2 Sekwencja nr 1 — rezultaty

Rezultaty estymacji położenia głowy dla sekwencji testowej nr 1

Tabela F.2: Rezultaty dla sekwencji nr 1

Spec. Sens. PPV. NPV

Pozycja neutralna 98.46% 93.15% 99.27% 86.49%Głowa w prawo 100.00% 92.86% 100.00% 99.49%Głowa w lewo 100.00% 100.00% 100.00% 100.00%Głowa w górę 99.50% 100.00% 90.91% 100.00%Głowa w dół 99.50% 100.00% 91.30% 100.00%Przechylenie w prawo 98.51% 100.00% 76.00% 100.00%Przechylenie w lewo 97.54% 100.00% 60.00% 100.00%

F.3. SEKWENCJA NR 2 — REZULTATY

Spec. Sens. PPV NPV0

Pozycja neutralnaGlowa w prawoGlowa w lewoGlowa w goreGlowa w dolPrzechylenie w prawoPrzechylenie w lewo

Rysunek F.1: Rezultaty dla sekwencji nr 1

DODATEK F. REZULTATY ESTYMACJI POŁOŻENIA GŁOWY — WYKRESY ITABELE

F.4. SEKWENCJA NR 3 — REZULTATY

Dodatek G

Rezultaty detekcji mrugnięć

G.1 Informacje ogólne

Parametry oceny skuteczności detekcji mrugnięć (G.1)—(G.4).

PPV =TP

TP + FP· 100% (G.1)

NPV =TN

FN + TN· 100% (G.2)

Sens =TP

TP + FN· 100% (G.3)

Spec =TN

FP + TN· 100% (G.4)

gdzie:

Testy wykonano dla następujących sekwencji, z których wybrano obrazy dlapołożenia twarzy w pozycji w przybliżeniu frontalnej:

DODATEK G. REZULTATY DETEKCJI MRUGNIĘĆ

• sekwencja 1 — kamera EVI, jednolite tło, optymalne warunki oświetlenia(natężenie oświetlenia około 320lux),(rys. G.1a)

• sekwencja 2 — kamera EVI, jednolite tło, słabe oświetlenie (natężenieoświetlenia około 40lux), (rys. G.1b),

• sekwencja 3 — kamera EVI, jednolite tło, optymalne warunki oświetlenialekko różniąca się od sekwencji nr 1 (natężenie oświetlenia około 320lux),(rys. G.1c),

• sekwencja 4 — kamera EVI, jednolite tło, optymalne warunki oświetlenia(natężenie oświetlenia około 320lux), inna mimika twarzy (rys. G.1d),

Rysunek G.1: Przykładowe obrazy z sekwencji video: (a) sekwencja nr 1, (b)sekwencja nr 2, (c) sekwencja nr 3, (d) sekwencja nr 4

Liczebność wybranych obrazów z poszczególnych sekwencji jest następująca:

Tabela G.1: Liczebność obrazów sekwencji

Sekwencjanr 1

Sekwencjanr 2

Sekwencjanr 3

Sekwencjanr 4

Pozycja neutralna 125 105 83 93Gest mrugania 62 50 50 46

G.2. SKUTECZNOŚĆ DETEKCJI

G.2 Skuteczność detekcji

Rezultaty detekcji mrugnięć dla poszczególnych sekwencji.

Tabela G.2: Rezultaty detekcji mrugnięć

Sekwencjanr 1

Sekwencjanr 2

Sekwencjanr 3

Sekwencjanr 4

TP 25 14 25 30FP 1 0 0 10TN 62 55 33 37FN 37 36 25 16Spec. 98.41% 100% 100% 78.72%Sens. 40.32% 28.00% 50.00% 65.21%PPV 96.15% 100% 100% 75.00%NPV 62.62% 60.44% 56.90% 69.81%

0 20 40 60 80 100 120 140

nr obrazu

0 20 40 60 80 100 120 140

nr obrazu

Rysunek G.2: Ręczna adnotacja obrazów gestu mrugania (górny wykres) orazrezultaty detekcji mrugnięcia (dolny wykres) dla sekwencji nr 1

DODATEK G. REZULTATY DETEKCJI MRUGNIĘĆ

0 20 40 60 80 100 120

nr obrazu

0 20 40 60 80 100 120

nr obrazu

0 10 20 30 40 50 60 70 80 90

nr obrazu

0 10 20 30 40 50 60 70 80 90

nr obrazu

G.3. ŚREDNI BŁĄD LOKALIZACJI OCZU

0 10 20 30 40 50 60 70 80 90 100

nr obrazu

0 10 20 30 40 50 60 70 80 90 100

nr obrazu

G.3 Średni błąd lokalizacji oczu

Średni błąd lokalizacji oczu dla poszczególnych sekwencji.

Tabela G.3: Średni błąd (w pikselach) lokalizacji oczu

Sekwencjanr 1

Sekwencjanr 2

Sekwencjanr 3

Sekwencjanr 4

εeye 8.143 6.331 6.9525 5.6961

Dodatek H

Rezultaty innych algorytmów

Dodatek zawiera rezultaty działania następujących algorytmów:

• Lokalizacja nozdrzy.

H.1 Lokalizacja nozdrzy

Błąd lokalizacji (w pikselach) został wyznaczony dla sekwencji video opisanych wdodatku G.1. Wartość błędu poniżej zera oznacza, że dla danego obrazu nozdrzanie zostały poprawnie znalezione.

0 20 40 60 80 100 120 1400

ostril

Rysunek H.1: Błąd lokalizacji nozdrzy dla sekwencji nr 1: nozdrze prawe (górnywykres), nozdrze lewe (dolny wykres)

DODATEK H. REZULTATY INNYCH ALGORYTMÓW

0 20 40 60 80 100 120−1

0 20 40 60 80 100 120−2

0 10 20 30 40 50 60 70 80 90−1

0 10 20 30 40 50 60 70 80 90−2

H.1. LOKALIZACJA NOZDRZY

0 10 20 30 40 50 60 70 80 90 100−20

Automatyczne rozpoznawanie elementów mimiki w obrazie ...home.agh.edu.pl/~przybylo/PhD.pdf ·...

Documents

ZASTOSOWANIE TRANSFORMAT FALKOWYCH DAUBECHIES W … · Parametr r oznacza pierwszych r maksymalnych różnic dwóch rozpatrywanych obrazów. Poza zmianą wartości pikseli w obrazie

Zespół żyły głównej górnej o obrazie nawracającego obrzęku ... z… · ścianie klatki piersiowej i nasilanie duszności w godzinach poran-nych – wykonano tomografię komputerową

Wspolnota 19 okladka m - pulawy-swrodziny.kuria.lublin.pl · łem to także efekt tego nagłego skrętu ciała Jezusa. Maryi i Dziecku na obrazie towarzyszą archaniołowie. Tego,

BIM GRUNDLAGEN SEMINAR - buildingsmart.de BIM GRUNDLAGEN SEMINAR 10. buildingSMART Anwendertag, 18. Juni 2013 Jakob Przybylo Dipl.-Ing. CAAD MAS (ETH) Arch

Акредитація освітньо науковихšритерії-PhD.pdf · Критерії Акредитації (з «Положення про акредитацію»):

Plano Director para Governação Electrónica e Uniformização de TICs - final1 (1)good for phd.pdf

polski 5c.docx · Web viewto sposób przedstawienia (na przykład w opowiadaniu, filmie, na obrazie)postaci, sytuacji, zachowań, zjawisk itp., wywołujący u odbiorcy wesołość

dony/postscript/comp-petr-spacek-phd.pdf · ACADÉMIE DEMONTPELLIER U NIVERSITÉ M ONTPELLIERII — SCIENCES ETTECHNIQUES DULANGUEDOC— THÈSE présentée au Laboratoired’InformatiquedeRobotique

Marcin Poprawski - Harmonia czy kakofonia polskie instytucje muzyczne w obrazie statystyki publicznej

phd.pdf · Mahaswami shri Laxmisen Bhosale Uday Khanderao ... Jalkute chidamber Balbhim 19 Patil Suvarna Mahavir Loni Priya prabhuraj _ jadhav Nileshkumar Hindurao

Réglementation des innovations génératrices de nuisancesecondoctor.com/phd.pdf · Délivré par l' Université Montpellier

Alina Biała - ifp.univ.rzeszow.plifp.univ.rzeszow.pl/dydaktyka/dydaktyka_9/Alina_Biala_D9.pdf · Władysław Tatarkiewicz W mateczniku wiersza o obrazie Postrzeganie dzieła malarskiego

Wprowadzenie do przetwarzania obrazówrmantiuk.zut.edu.pl/data/wyklad_przetwarzanie_obrazow.pdf · liczba pikseli o wartości g (odczytana z histogramu) liczba pikseli w obrazie Funcja

starling.rinet.rustarling.rinet.ru/gstarst/Archives/phd.pdf · 2013. 12. 28. · - 3 - ВВЕДЕНИЕ - I - Сравнительная дравидология относится

GUSTAW HERLING - GRUDZIŃSKI: WSPOMNIENIE ......„Pokutnik” o figurze pielgrzyma spod Łysej Góry i legendzie osnutej wokół kamiennej rzeźby. Pisał wiersze o kraj-obrazie świętokrzyskim,

„Theorie und Praxis der Lexikographie“ Natalia Przybylo ...othes.univie.ac.at/27327/1/2013-04-02_0504840.pdf · 4 Zusammenwirken der Wörter. Die Lexikologie, auch „Wörterbuchhandwerk“

4. Fotometria profilowa i aperturowahelas.astro.uni.wroc.pl/data/lecture_notes/AP/04... · Fotometria CCD Proces wyznaczania jasności gwiazd na obrazie CCD obejmuje: 1. Znajdowanie

Росен Балкански - National Academy of Musicnma.bg/uploads/files/avoreferat-rosen-balkanski-phd.pdf · скелетни смущения от различен характер“

Wystawa „Rzeczywistość” w Galerii Sztuki Po Prawej Stronie ... · Ta doświadczana wówczas przez nas rzeczywistość a zatrzymana w obrazie fotografii może być również

Analiza niestandardowych zjawisk mikrosoczewkowania grawitacyjnego gwiazd …jskowron/PhD/thesis/phd.pdf · 2009. 7. 23. · wzmocnienia, można zaobserwować odejście kształtu