View
223
Download
0
Category
Preview:
Citation preview
Akademia Górniczo-Hutnicza im. St. Staszica w KrakowieWydział Elektrotechniki, Automatyki, Informatyki i Elektroniki
Rozprawa doktorska
Automatyczne rozpoznawanieelementów mimiki w obrazie
twarzy i analiza ich przydatnoścido sterowania
Jaromir Przybyło
Promotor: dr hab. inż. Piotr Augustyniak
Kraków, 2008
Rodzicom
za to że wspierali mnie cały czas
Mirkowi J.
za motywowanie mnie zarówno do pracy jak i do odpoczynku
Izie G.
za wyrozumiałość, troskę oraz motywowanie do pogłębiania wiedzyw innych dziedzinach
oraz
Filipowi W.
życząc mu w przyszłości kariery naukowej (o ile będzie to jego marzeniem)
Spis treści
Spis treści i
I O rozprawie 3
1 Wstęp 51.1 Kontekst pracy, uzasadnienie podjęcia tematu . . . . . . . . . . . . 51.2 Zakres, teza oraz cele rozprawy . . . . . . . . . . . . . . . . . . . . 61.3 Streszczenie rozprawy . . . . . . . . . . . . . . . . . . . . . . . . . 8
II Elementy mimiki 11
2 Sposoby pomiaru oraz opisu ekspresji mimicznych twarzy 132.1 Mimika twarzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Facial Action Coding System . . . . . . . . . . . . . . . . . . . . . 152.3 MPEG-4 FAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Określenie i wybór rozpoznawanych elementów mimiki 213.1 Systematyka typowych zadań wykonywanych przez użytkowników . 213.2 Własności i systematyka urządzeń wejściowych . . . . . . . . . . . 233.3 Analiza możliwości jakie oferuje mimika . . . . . . . . . . . . . . . 243.4 Wybór elementów mimiki potencjalnie przydatnych do sterowania 32
4 Atrybuty elementów mimiki 374.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2 Atrybuty stałe — kształt . . . . . . . . . . . . . . . . . . . . . . . 384.3 Atrybuty zmienne — lokalne zmiany wyglądu . . . . . . . . . . . . 394.4 Atrybuty dynamiczne — ruch i jego trajektoria . . . . . . . . . . . 40
i
SPIS TREŚCI
III Automatyczne rozpoznawanie elementów mimiki 41
5 Elementy systemu automatycznego rozpoznawania mimiki 435.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.2 Selektywne przetwarzanie informacji, segmentacja . . . . . . . . . . 46
5.2.1 Segmentacja na podstawie barwy skóry . . . . . . . . . . . 485.2.2 Dobór przestrzeni kolorów oraz metody segmentacji . . . . 50
5.3 Detekcja i lokalizacja twarzy . . . . . . . . . . . . . . . . . . . . . . 555.3.1 Algorytm detekcji i lokalizacji twarzy . . . . . . . . . . . . 575.3.2 Rezultaty detekcji i lokalizacji twarzy . . . . . . . . . . . . 59
6 Wyodrębnianie z obrazu twarzy elementów mimiki 636.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636.2 Statystyczne modele kształtu . . . . . . . . . . . . . . . . . . . . . 646.3 Histogramy orientacji . . . . . . . . . . . . . . . . . . . . . . . . . 676.4 Detekcja ruchu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7 Rozpoznawanie wybranych elementów mimiki 757.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 757.2 Opis wybranych metod klasyfikacji . . . . . . . . . . . . . . . . . . 767.3 Rozpoznawanie elementów mimiki — rezultaty i wnioski . . . . . . 78
7.3.1 Statystyczne modele kształtu . . . . . . . . . . . . . . . . . 807.3.2 Histogramy orientacji . . . . . . . . . . . . . . . . . . . . . 81
8 Adaptacja systemu rozpoznawania mimiki 878.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 878.2 Estymacja położenia głowy człowieka względem kamery . . . . . . 89
8.2.1 Algorytm estymacji położenia głowy . . . . . . . . . . . . . 918.2.2 Rezultaty estymacji położenia głowy . . . . . . . . . . . . . 96
8.3 Wpływ parametrów kamery oraz zmian oświetlenia sceny . . . . . 998.3.1 Automatyzacja tworzenia modelu barwy skóry . . . . . . . 100
8.4 Metoda kalibracji systemu . . . . . . . . . . . . . . . . . . . . . . . 1038.4.1 Detekcja mrugnięć . . . . . . . . . . . . . . . . . . . . . . . 1078.4.2 Lokalizacja nozdrzy . . . . . . . . . . . . . . . . . . . . . . 109
9 Podsumowanie 1139.1 Główne rezultaty i wnioski . . . . . . . . . . . . . . . . . . . . . . . 1139.2 Kierunki dalszych badań . . . . . . . . . . . . . . . . . . . . . . . . 117
Bibliografia 121
A Opis metod i algorytmów 131A.1 Przestrzenie barw . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
ii
A.2 Metody segmentacji twarzy . . . . . . . . . . . . . . . . . . . . . . 132A.3 Estymacja i usuwanie szumów z sekwencji video . . . . . . . . . . . 135A.4 Metoda PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137A.5 Metoda przestrzeni skali (ang. scale-space) . . . . . . . . . . . . . . 140A.6 Filtry Gabora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141A.7 Wyznaczanie mapy prawdopodobieństwa oczu oraz ust . . . . . . . 142
B Opis jednostek czynnościowych mimiki 145
C Rezultaty rozpoznawania elementów mimiki — wykresy i tabele 161C.1 Informacje ogólne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161C.2 Histogramy orientacji — konfiguracja nr 1 . . . . . . . . . . . . . . 162C.3 Histogramy orientacji — konfiguracja nr 2 . . . . . . . . . . . . . . 164C.4 Histogramy orientacji — konfiguracja nr 3 . . . . . . . . . . . . . . 165C.5 Histogramy orientacji — konfiguracja nr 4 . . . . . . . . . . . . . . 166C.6 Histogramy orientacji — badanie wpływu oświetlenia . . . . . . . . 167C.7 Histogramy orientacji — badanie wpływu skali . . . . . . . . . . . 168C.8 Histogramy orientacji — badanie wpływu skali i rotacji . . . . . . 169C.9 Statystyczne modele kształtu — test 1 . . . . . . . . . . . . . . . . 170C.10 Statystyczne modele kształtu — test 2 . . . . . . . . . . . . . . . . 171C.11 Statystyczne modele kształtu — test 3 . . . . . . . . . . . . . . . . 172C.12 Statystyczne modele kształtu — test 4 . . . . . . . . . . . . . . . . 173
D Rezultaty segmentacji twarzy 175
E Rezultaty detekcji i lokalizacji twarzy 181
F Rezultaty estymacji położenia głowy — wykresy i tabele 183F.1 Informacje ogólne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183F.2 Sekwencja nr 1 — rezultaty . . . . . . . . . . . . . . . . . . . . . . 184F.3 Sekwencja nr 2 — rezultaty . . . . . . . . . . . . . . . . . . . . . . 185F.4 Sekwencja nr 3 — rezultaty . . . . . . . . . . . . . . . . . . . . . . 186
G Rezultaty detekcji mrugnięć 189G.1 Informacje ogólne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189G.2 Skuteczność detekcji . . . . . . . . . . . . . . . . . . . . . . . . . . 191G.3 Średni błąd lokalizacji oczu . . . . . . . . . . . . . . . . . . . . . . 193
H Rezultaty innych algorytmów 195H.1 Lokalizacja nozdrzy . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
iii
Podziękowania
Autor chciałby serdecznie podziękować promotorowi dr hab inż. Piotrowi Au-gustyniakowi, za wiele inspirujących uwag które pomogły ukształtować niniejsząrozprawę doktorską, jego czas poświęcony w okresie bezpośredniej pracy nad roz-prawą, jak również za okazywane zrozumienie i cierpliwość.
Podziękowania należą się również całemu zespołowi Laboratorium Biocyber-netyki AGH, pod kierownictwem profesora Ryszarda Tadeusiewicza, a w szcze-gólności:
dr inż. Zbigniewowi Mikrutowi za dobre rady i okazywane w każdejsytuacji poczucie humoru
dr n. techn. lek. med. Pawłowi Woloszynowi za inspirujące rady
dr hab inż. Markowi Gorgoniowi za pomoc na różnych etapach pracy
oraz mgr. inż. Mirosławowi Jabłońskiemu za motywowanie mnie dopracy oraz za wiele przydatnych pomysłów.
1
Rozdział 1
Wstęp
1.1 Kontekst pracy, uzasadnienie podjęcia tematu
Głównym sposobem interakcji człowieka z komputerem jest — i zapewne długojeszcze pozostanie — interfejs graficzny, oparty na technice okien, manipulacjimyszką i wprowadzania danych z pomocą klawiatury. Możliwości wprowadzaniadanych, rozszerzane są poprzez szereg urządzeń, bardziej specjalizowanych dlaokreślonych zastosowań. W przypadku rozrywki (gry) klasycznym przykładem sąróżnego rodzaju manipulatory (joystick, trackball) bądź też gamepady do gier.W zastosowaniach bardziej profesjonalnych (np. aplikacje typu CAD) wykorzy-stywane są również ekrany dotykowe, tablety czy też manipulatory w postaci„rękawicy” pozwalającej na pracę z interfejsem trójwymiarowym (3D).
Obecnie obserwuje się zmianę podejścia w konstruowaniu interfejsów kompu-terowych w kierunku wykorzystania wielu równoległych sposobów komunikacjimiędzy użytkownikiem a maszyną. Podejście to często określane jest w literatu-rze jako interfejsy multimodalne (ang. multimodal interfaces) [63]. Przykłademtakiego sposobu interakcji jest system „Put That There” opracowany na uniwer-sytecie MIT [11]. Interfejs ten bazował na rozpoznawaniu gestów wskazywania(urządzenie elektroniczne zapewniające sygnał o pozycji i orientacji) oraz mowy,jak również zapewniał generację mowy i wizualizację na dużym ekranie ścien-nym. Dzięki połączeniu dwóch metod komunikacji skuteczność i wygoda inte-rakcji została zwiększona. Innym przykładem, ukierunkowanym na zapewnieniemożliwości pracy z komputerem osobom niewidomym, jest aplikacja „Meditor:Multimode Text Editor” wykorzystująca zarówno standardową klawiaturę jaki specjalny terminal Braille’a [5]. Dodatkowo Meditor używa technologii synte-zy (TTS ang. text to speech) oraz rozpoznawania mowy (ASR ang. automatedspeech recognition).
W katedrze Automatyki AGH prowadzono pionierskie prace, których celem
5
ROZDZIAŁ 1. WSTĘP
było zapewnienie komunikacji głosowej z pomocą sygnału mowy [81]. Prowadzonesą również badania mające na celu wykorzystanie do sterowania czujników po-tencjałów bioelektrycznych, na przykład elektronystagmografii, elektromiografiilub elektroencefalografii [12]. W tym kontekście wymienić również należy pra-ce, których celem jest opracowanie systemu adaptacyjnego dla potrzeb zdalnegonadzoru kardiologicznego pacjentów [1].
Na świecie istnieją także projekty badawcze poświęcone wykorzystaniu infor-macji wizyjnej (obraz) do sterowania. Przeznaczony dla osób niepełnosprawnychruchowo, interfejs oparty o metody wyszukiwania wzorców na obrazie, może byćrównież wykorzystany przez osoby w pełni sprawne [6]. W katedrze AutomatykiAGH prowadzone są badania mające na celu określenie reguł postrzegania na-turalnego przez człowieka w celu ich wykorzystania w inteligentnych systemachwizyjnych [2][61].
Obserwując komunikację człowieka z innymi ludźmi łatwo można stwierdzić,że bardzo ważna jest tu komunikacja niewerbalna, której istotnym elementemjest mimika twarzy. Ten kanał łączności między człowiekiem a komputerem i in-nymi systemami technicznymi (na przykład robotem medycznym albo wózkieminwalidzkim) odgrywa szczególną rolę w przypadku niektórych osób dotkniętychszczególnie głęboką niepełnosprawnością. W przypadku gdy kalectwo albo choro-ba odbiorą człowiekowi zręczność rąk konieczną do operowania myszką czy kla-wiaturą, gdy te same przyczyny utrudnią artykułowanie wyrazistych, nadającychsię do automatycznej interpretacji wypowiedzi słownych — mimika pozostaje jed-nym z ostatnich kanałów łączności chorego ze światem, w tym także ze światemsystemów technicznych. Przykładem niepełnosprawności, która praktycznie eli-minuje użycie tradycyjnych metod komunikacji człowieka z komputerem (myszka,klawiatura), są osoby z porażeniem czterokończynowym. W tym przypadku pod-stawowym problemem są ograniczenia sprawności ruchowej takich osób. Jedynąmożliwością ruchu jest mimika twarzy, prawidłowa ruchomość żuchwy i językaoraz minimalne ruchy głowy. Dodatkowym utrudnieniem jest niewyraźna mowa,wynikająca ze stosowanych w wielu przypadkach elektronicznych stymulatorówoddechu.
1.2 Zakres, teza oraz cele rozprawy
W sytuacjach ograniczenia sprawności ruchowej alternatywę w sposobie sterowa-nia komputerem, mogą stanowić metody i algorytmy rozpoznawania oraz analizyobrazów. Podstawową zaletą tego typu interfejsów sterujących jest możliwośćdostosowania interfejsu do człowieka oraz sytuacji a nie odwrotnie. Trend ta-ki można zaobserwować w aktualnie prowadzonych badaniach — zmiana podej-ścia w konstruowaniu interfejsów komputerowych z architektur skoncentrowanychna maszynie (ang. machine-centered architecture) do architektur skupionych na
6
1.2. ZAKRES, TEZA ORAZ CELE ROZPRAWY
użytkowniku (ang. human-centered interaction architecture) [55].Obserwacja optyczna nie wymaga przeprowadzania odpowiedniej procedury
dokowania użytkownika do stanowiska pracy; wystarczające jest, aby użytkownikznalazł się w obszarze działania systemu. Podobnie zakończenie pracy nie wymagaodłączania stanowiska lub odłączania urządzeń. W przypadku osoby poruszającejsię z pomocą wózka lub innego pojazdu rozpoczęcie i zakończenie pracy z kompu-terem może więc nie wymagać udziału opiekunów. Samo stanowisko pracy możebyć także łatwo przenoszone. Ogromną zaletą jest również możliwość dowolne-go wyboru obserwowanej okolicy ciała bez zmiany konstrukcji systemu. Daje tomożliwość zastosowania nawet przy skrajnym ograniczeniu sprawności ruchowejużytkownika i zawężeniu jej na przykład do mimiki twarzy lub jednego palca ręki.System taki stwarza też możliwość jednoczesnego obserwowania dwóch różnych,nawet odległych okolic ciała, jeśli ruchomość każdej z nich osobno nie wystarczado wyrażenia wszystkich poleceń sterujących.
Zaletą tego typu interfejsów sterujących jest również bezkontaktowość interak-cji. Brak fizycznego kontaktu elementów systemu z ciałem użytkownika zapobieganiedogodnościom higienicznym i estetycznym, usuwa też zagrożenia elektrycznewymagające stosowania zabezpieczeń przed porażeniem prądem. System wizyjnynie wymaga stosowania dodatkowych elementów pogarszających wygodę użyt-kowania, jak różnego rodzaju elektrody, czujniki, opaski, okulary, ustniki i tympodobne.
Należy również nadmienić, iż system oparty o rozpoznawanie obrazów możerównież służyć osobom w pełni sprawnym, rozszerzając w ten sposób możliwościwymiany informacji między człowiekiem a maszyną.
Prowadzone w ramach niniejszej rozprawy badania, ograniczonodo rozpoznawania elementów mimiki przy użyciu metod i algorytmówanalizy obrazów. Wybór elementów mimiki, jako sposobu przekazywania infor-macji, podyktowany został faktem — potwierdzanym przez wyniki wielu badańpsychologicznych — iż nie licząc głosu, dużą część informacji człowiek przeka-zuje przy pomocy komunikacji niewerbalnej, w tym dzięki mimice twarzy. Wkontekście systemu dla osób niepełnosprawnych wydaje się to szczególnie istot-ne ze względu na zasygnalizowane wcześniej ograniczenia sprawności ruchowej.Celem prowadzonych prac jest również określenie sposobów wykorzystania ele-mentów mimiki do rozszerzenia możliwości komunikacji między użytkownikiema komputerem. Uwzględniając powyższą analizę sformułowano następującą tezęrozprawy:
7
ROZDZIAŁ 1. WSTĘP
Elementy mimiki automatycznie wyodrębnione z cyfrowegoobrazu twarzy są przydatne w komunikacji człowiek-maszyna i
mogą być wykorzystane do sterowania.
Aby wykazać słuszność powyższej tezy sformułowano następujące główne celerozprawy:
1. Określenie sposobu pomiaru oraz precyzyjnego opisu elementów mimiki.
2. Określenie możliwości jakie oferuje mimika w kontekście typowych scenariu-szy interakcji człowieka z maszyną i własności istniejących urządzeń. Wybórelementów mimiki przydatnych w komunikacji człowiek-maszyna.
3. Zdefiniowanie atrybutów elementów mimiki oraz odpowiadających im cechcharakterystycznych na obrazie, pozwalających na rozpoznanie gestów mi-micznych.
4. Opracowanie metody automatycznego rozpoznawania wybranych elemen-tów mimiki.
Realizacja celu sformułowanego w punkcie -4- wymagała określenia następu-jących celów składowych:
a) Zaproponowanie struktury i elementów składowych systemu automatycznegorozpoznawania gestów mimicznych.
b) Opracowanie metod wyodrębniania z obrazu twarzy cech charakterystycznych,odpowiadających atrybutom rozpoznawanych elementów mimiki.
c) Opracowanie metod rozpoznawania gestów mimicznych wykorzystujących wy-odrębnione cechy. Badanie skuteczności algorytmów dla typowych sytuacjiwystępujących podczas interakcji człowieka z maszyną.
d) Usystematyzowanie czynników wpływających na skuteczność rozpoznawaniaoraz opracowanie metody adaptacji systemu do człowieka oraz zmieniającychsie warunków otoczenia.
1.3 Streszczenie rozprawy
Struktura rozprawy jest następująca:
• W części pierwszej (rozdziały 2 - 4) przedstawiono sposoby pomiaru orazopisu ekspresji mimicznych twarzy, dokonano wyboru elementów mimikioraz określono ich atrybuty i cechy.
8
1.3. STRESZCZENIE ROZPRAWY
• Część druga (rozdziały 5 - 8) poświęcona została zagadnieniom automatycz-nego wyodrębniania z obrazu i rozpoznawania elementów mimiki. Przedsta-wiono również kwestie adaptacji systemu.
• Zestawienie wyników pracy i najistotniejszych wniosków oraz krytycznąanalizę zaproponowanych rozwiązań przedstawiono w podsumowaniu (roz-dział 9).
• Rezultaty przeprowadzonych badań oraz opisy algorytmów zamieszczonezostały w dodatkach.
W poszczególnych rozdziałach zagadnieniami wiodącymi są:
• Rozdział 2 — Sposoby pomiaru oraz opisu ekspresji mimicznychtwarzy. Wykorzystanie elementów mimiki do sterowania, wymaga uwzględ-nienia szeregu zagadnień, wśród których szczególnie istotne są: psychofizjo-logiczne uwarunkowania człowieka oraz sposób reprezentacji i opisu mimi-ki. W rozdziale 2 przedstawione zostały zagadnienia związane z komunika-cją niewerbalną (istotne w kontekście wykorzystania mimiki do sterowania)oraz istniejące sposoby opisu ekspresji mimicznych twarzy. Spośród metodreprezentacji mimiki szczegółowo opisane zostały dwie z nich, wykorzystanew dalszej części pracy.
• Rozdział 3 — Określenie i wybór rozpoznawanych elementów mi-miki. Skonstruowanie urządzenia wejściowego umożliwiającego sterowanieprzy pomocy gestów mimicznych, wymaga uwzględnienia wymagań wynika-jących z typowych zadań jakie wykonuje użytkownik podczas pracy z kom-puterem. W rozdziale 3 przedstawiono usystematyzowanie typowych zadańwykonywanych przez człowieka podczas interakcji z interfejsem graficznymkomputera. Poprzez analizę akcji użytkownika oraz porównanie własnościtypowych urządzeń wejściowych z możliwościami jakie oferuje mimika, do-konano wyboru elementów mimiki, które są potencjalnie przydatne w ko-munikacji człowiek-maszyna.
• Rozdział 4 — Atrybuty elementów mimiki. Rozpoznawanie różnychelementów mimiki w oparciu o informacje wyodrębnione z obrazu, wymagaokreślenia atrybutów oraz cech charakterystycznych opisujących poszcze-gólne gesty mimiczne (np. kształt, zależności geometryczne, wygląd...). Te-mu zagadnieniu poświęcony jest rozdział 4. Dokonana analiza elementówmimiki pozwoliła na zdefiniowanie podstawowych atrybutów oraz odpowia-dających im cech, które mogą zostać następnie wyodrębnione z obrazu.
• Rozdział 5 — Elementy systemu automatycznego rozpoznawaniamimiki. Rozpoznawanie obiektów przez ludzi wydaje się łatwe i bezproble-mowe. Na podstawie ogólnej wiedzy o danym obiekcie, np. sylwetka ludzka
9
ROZDZIAŁ 1. WSTĘP
— człowiek natychmiast jest w stanie rozpoznać nowe osoby, niezależnie odtego z jakiego punktu widzenia są one obserwowane czy też np. siedzą lubstoją. Z punktu widzenia komputerowej analizy obrazów, rozpoznawaniewymaga wyodrębnienia z obrazu użytecznej informacji na temat interesu-jących obiektów. W rozdziale 5 zaproponowano schemat struktury systemuautomatycznego wyodrębniania z obrazu elementów mimiki, zawierającykilka bloków składowych realizujących wymagane zadania. Omówione zo-stały etapy przetwarzania i analizy obrazu, na które składają się: selektyw-ne przetwarzanie informacji (segmentacja), detekcja i lokalizacja twarzy,wyodrębnianie cech, klasyfikacja oraz adaptacja systemu. Wśród istotnychrezultatów wymienić można opracowaną metodę doboru przestrzeni barwdla algorytmu segmentacji oraz algorytm detekcji twarzy.
• Rozdział 6 — Wyodrębnianie z obrazu twarzy elementów mimiki.Zdefiniowane w pierwszej części rozprawy atrybuty elementów mimiki orazodpowiadające im cechy oczekiwane na obrazie twarzy, stanowią podstawęumożliwiającą rozpoznanie wybranych gestów mimicznych. W pierwszej ko-lejności odpowiednie cechy (kształt, wygląd...) muszą zostać wyodrębnionez obrazu. W rozdziale 6 przedstawiono wybrane metody i algorytmy pozwa-lające na ekstrakcję z obrazu twarzy wymaganych na etapie rozpoznawaniawektorów cech, reprezentujących elementy mimiki. Wybrane metody to:statystyczne modele kształtu, histogramy orientacji oraz detekcja ruchu.
• Rozdział 7 — Rozpoznawanie wybranych elementów mimiki. Wzadaniu rozpoznawania celem jest określenie przynależności różnego typuobiektów (w tym przypadku elementów mimiki) do pewnych klas na pod-stawie znanych wcześniej przynależności do klas innych obiektów. Jest tozatem typowe zadanie klasyfikacji, w którym obiekty opisane są przy po-mocy zestawu atrybutów/cech. W rozdziale 7 przedstawiono metodykę orazrezultaty rozpoznawania wybranych elementów mimiki, wykorzystując danebędące wynikiem etapu wyodrębniania cech. Na podstawie analizy wynikówwybrano najlepszą metodę rozpoznawania oraz zaproponowano dalsze kie-runki prac.
• Rozdział 8 — Adaptacja systemu rozpoznawania mimiki. Dużazmienność wyglądu twarzy oraz elementów mimiki, wynikająca z wpływuróżnych czynników stanowi istotne utrudnienie w automatycznym rozpo-znawaniu gestów. W rozdziale 8 usystematyzowano czynniki wpływającena skuteczność rozpoznawania oraz zaproponowano metody adaptacji sys-temu rozpoznawania mimiki do człowieka oraz zmieniających się warunkówotoczenia.
10
Rozdział 2
Sposoby pomiaru oraz opisuekspresji mimicznych twarzy
Streszczenie
Wykorzystanie elementów mimiki do sterowania, wymaga uwzględnieniaszeregu zagadnień, wśród których szczególnie istotne są: psychofizjologiczneuwarunkowania człowieka oraz sposób reprezentacji i opisu mimiki. W niniej-szym rozdziale przedstawione zostały zagadnienia związane z komunikacjąniewerbalną (istotne w kontekście wykorzystania mimiki do sterowania) orazistniejące sposoby opisu ekspresji mimicznych twarzy. Spośród metod repre-zentacji mimiki szczegółowo opisane zostały dwie z nich, wykorzystane wdalszej części pracy.
2.1 Mimika twarzy
Twarz człowieka może być traktowana jako bardzo elastyczny system zdolny dogeneracji wielu sygnałów informacyjnych oraz komunikatów jednocześnie. Możnawyróżnić cztery ogólne klasy sygnałów:
• sygnały statyczne, na które składają się stałe cechy takie jak: naturalnabudowa twarzy, zmarszczki mimiczne i fałdy skórne,
• sygnały wolnozmienne reprezentujące zmiany wyglądu twarzy zachodzącestopniowo w czasie (np. starzenie się),
• sztuczne elementy umieszczane na twarzy takie jak okulary, makijaż,
• szybkie sygnały czyli gesty mimiczne twarzy wywołane ruchami odpowied-nich mięśni.
13
ROZDZIAŁ 2. SPOSOBY POMIARU ORAZ OPISU EKSPRESJI MIMICZNYCH TWARZY
Spośród powyższych klas sygnałów głównie gesty mimiczne twarzy niosą infor-macje użyteczne z punktu widzenia ich wykorzystania do sterowania. Dlategokonieczne jest zdefiniowanie takiego sposobu opisu, który pozwoli na usystematy-zowanie gestów mimicznych oraz nada im określone znaczenie. Pod uwagę należyrównież wziąć psychofizjologiczne uwarunkowania człowieka — podczas absorbu-jącej pracy z aplikacją systemu komputerowego użytkownik może w odruchowysposób zmieniać mimikę twarzy w odpowiedzi na bodźce somatyczne lub emo-cjonalne (np. mruganie oczami, uśmiech, ziewanie, marszczenie brwi). Z punktuwidzenia niesionych informacji istnieje następujący podział funkcjonalny [22][23]związany z komunikacją niewerbalną (mimika):
• Wskaźniki uczuć — przekazują odbiorcy aktualny stan emocji nadawcy (ra-dość, smutek, zaskoczenie, gniew, wstręt, strach), wyrażane głównie twarzą,parajęzykiem, tonem głosu i pozycją ciała.
• Emblematy (inaczej znaki autonomiczne) — zastępują określone słowa ifrazy, wyrażają konkretne emocje i postawy (przykładem emblematu jestwzruszenie ramion jako odpowiednik wypowiedzi „nie mam pojęcia”). Przyj-muje się, że emblemat to taki sygnał, który jest identycznie interpretowanyprzez co najmniej 70 % populacji, w której się go używa.
• Ilustratory — służą do uzupełnienia treści wypowiadanych słów. Najczęściejwykonuje się je rękami, np. w celu zasygnalizowania wielkości, odległości ikierunku, ale używa się tu również mimiki i kanału wokalnego, aby np.podkreślić wagę pewnego słowa.
• Regulatory — organizują całość sytuacji komunikacyjnej, a więc takie sy-gnały, jak: tempo mówienia, przerwy, intonacja pytająca lub kończąca frazę,wzrokowe sygnały zamiaru przejęcia inicjatywy w dialogu lub odwrotnie —chęci przekazania głosu któremuś z pozostałych uczestników konwersacji itym podobne.
• Manipulatory — nazywane też adaptatorami zapewniają większy komfortdanej osobie, np. zmiana pozycji na krześle, oparcie się o ścianę, założe-nie nogi na nogę, poprawianie włosów. Należą tu także ruchy, takie jak:pocieranie jednej części ciała o drugą, drapanie, czyszczenie, przestawianieprzedmiotów na stole i tym podobne.
Odróżnianie mimiki spontanicznej od celowych, znaczących ruchów jest zada-niem spoczywającym na oprogramowaniu interfejsu.
Spośród systemów opisu mimiki można wyróżnić MAX (ang. Maximally Di-scriminative Affect Coding System) [40]. Jest to teoretyczna metoda pomiaruokreślająca mimikę w kategoriach zmian wyglądu twarzy wywołanych poszcze-gólnymi emocjami. Istnieje również wiele metod pozwalających na precyzyjny
14
2.2. FACIAL ACTION CODING SYSTEM
opis ruchów mimicznych twarzy bez nadawania im konkretnego znaczenia. Donajczęściej używanych zaliczyć można systemy:
• FACS (ang. Facial Action Coding System) — oparty na anatomii systempomiaru ruchów mimicznych twarzy, grupujący je w jednostki czynnościowe(ang. action units) ściśle związane z anatomią muskulatury twarzy,
• FAP (ang. Facial Animation Parameters) — zdefiniowana w ramach stan-dardu MPEG-4 specyfikacja oraz metoda opisu i animacji twarzy i ciałaludzkiego.
Poniżej zostały omówione dwie z wymienionych metodyk opisu mimiki — FACSoraz FAP — użyteczne z punktu widzenia wyboru gestów mimicznych przydat-nych do sterowania.
W tabelach B.1, B.2, B.3 zawarto krótki opis jednostek czynnościowych wy-korzystywanych w dalszej części pracy. Natomiast tabele B.4 do B.13 zawierająbardziej szczegółowe informacje o elementach mimiki. Tabele jak również zdjęciawybranych elementów mimiki zamieszczono w dodatku B.
2.2 Facial Action Coding System
Metodyka FACS (ang. Facial Action Coding System) jest jednym z częściej wyko-rzystywanych sposobów pomiaru oraz opisu ekspresji mimicznych twarzy. Zostałaona opracowana przez psychologów P. Ekmana oraz W.V. Friesen w latach 1970,w oparciu o analizę zmian wyglądu twarzy wywołanych przez ruchy poszcze-gólnych mięśni. Naukowcy ci przebadali wiele nagranych materiałów filmowychobrazujących różne ekspresje mimiczne. Na podstawie wiedzy o budowie anato-micznej twarzy oraz badań palpacyjnych (czyli badania przez dotyk), analizowanebyły specyficzne zmiany wyglądu wywołane skurczem poszczególnych mięśni lubich grup oraz próbowano określić sposoby odróżniania poszczególnych ruchówmimicznych od siebie. Celem prowadzonych badań było opracowanie wiarygod-nego sposobu rozróżniania i kategoryzowania ekspresji mimicznych twarzy przezwykwalifikowanych obserwatorów. Wynikiem prowadzonych prac jest metodykaFACS, która została opisana w podręczniku [24] zawierającym również bogatymateriał filmowy.
W metodyce tej wykorzystuje się pojęcie „jednostki czynnościowej” (ang. Ac-tion Unit, AU). Jednostka czynnościowa rozumiana jest jako izolowany i niepo-dzielny ruch mimiczny możliwy do świadomego wykonania przez człowieka orazwywołujący obserwowalne zmiany w wyglądzie twarzy. Zmiany geometrii oraz wy-glądu szczegółów anatomicznych twarzy wywołane są głównie przemieszczaniemobszarów skóry pociąganych przez mięśnie mimiczne. Wykonanie ruchu mimicz-nego może prowadzić na przykład do powstania bruzdy, wygładzenia zmarszczek
15
ROZDZIAŁ 2. SPOSOBY POMIARU ORAZ OPISU EKSPRESJI MIMICZNYCH TWARZY
bądź uwypuklenia fragmentu skóry. Klasyfikacja FACS opisuje 44 jednostki AU.Większość z nich (trzydzieści) związana jest z ruchami mięśni, pozostałe nato-miast — z ruchem głowy lub oczu. Dwanaście AU dotyczy górnej części twarzy,osiemnaście dolnej. Podział mimiki na jednostki czynnościowe nie odpowiada do-kładnie anatomii muskulatury twarzy, ale jest z nią ściśle związany. Wynika to zdwóch powodów — po pierwsze, w niektórych przypadkach skurcze różnych mię-śni wywołują podobne wizualnie zmiany w wyglądzie twarzy. Po drugie, skurczposzczególnych części jednego mięśnia często wywołuje różne zmiany, które mogąbyć zaklasyfikowane jako odmienne jednostki czynnościowe. Ilość podstawowychjednostek czynnościowych jest relatywnie niewielka, w rzeczywistości występująone jednak częściej w kombinacjach. Zaobserwowana całkowita liczba kombinacjiwynosi ponad 7000 [73]. Kombinacje mogą być addytywne, gdy połączenie niewpływa na wygląd poszczególnych jednostek, oraz nie nieaddytywne — wyglądjednostek składowych zmienia się.
Klasyfikacja FACS opisuje zmiany wyglądu twarzy wywołane jednostkamiczynnościowymi zarówno w aspekcie dynamicznym, jak i statycznym. Pozwalato na analizę ruchów mimicznych nie tylko obserwowanych w czasie rzeczywi-stym, ale także zarejestrowanych na nieruchomym obrazie twarzy.
W opisie FACS można wyróżnić następujące elementy:
• określenie jednostek czynnościowych AU składających się na dany ruch mi-miczny,
• pomiar stopnia intensywności oraz czasu wykonywanych ruchów w pięcio-stopniowej skali — od A (śladowy gest mimiczny) do E (maksymalny gest),
• podział na ruchy jednostronne oraz symetryczne,
• uwzględnienie zależności z innymi AU, m.in. ruchami głowy oraz oczu,
• instrukcje w jaki sposób wykonywać ruch.
FACS jest klasyfikacją ściśle opisową — nie zawiera informacji o znaczeniu danegogestu mimicznego. Przyporządkowanie jednostkom AU emocji zostało opracowa-ne w ramach innego systemu nazwanego FACSAID (ang. Facial Action CodingSystem Affect Interpretation Dictionary), który został opracowany przez tą samągrupę badawczą.
Wśród pozycji literaturowych, poświęconych automatycznemu rozpoznawa-niu jednostek czynnościowych przy użyciu metod analizy obrazów, wymienićmożna prace prowadzone na uniwersytecie CMU (Carnegie Mellon University)[86][87][88]. W ramach projektu badawczego powstał system rozpoznawania mi-miki AFA (ang. Automated Facial Image Analysis). Pozwala on na automatycznerozróżnianie subtelnych zmian mimiki w oparciu o klasyfikację FACS dla twarzywidocznych frontalnie. Algorytm rozpoznawania wykorzystuje metody śledzenia
16
2.2. FACIAL ACTION CODING SYSTEM
wybranych cech oraz sieci neuronowe. Śledzone części twarzy mogą stanowić stałecechy charakterystyczne (takie jak np. oczy, brwi, usta) oraz cechy pojawiającesię przejściowo (np. zmarszczki mimiczne). Stałe cechy reprezentowane są przezszczegółowe parametryczne modele (nazywane: ang. multistate facial componentmodels), uwzględniające różne stany w jakich może znaleźć się śledzony element(np. otwarte-zamknięte oczy). System rozwijany jest nie tylko w kierunku au-tomatycznego rozpoznawania mimiki, ale również rozpoznawania i interpretacjizachowania ludzi. Posiada on (wg autorów) średnią skuteczność rozpoznawania96.4% dla AU górnej części twarzy oraz 96.7% AU dolnej części twarzy. Testyprzeprowadzane były na dwóch bazach danych: CMU Facial Expression Databa-se [44] oraz Ekman-Hager Facial Action Exemplars [25].
Prace w kierunku rozpoznawania jednostek czynnościowych prowadzone sąrównież w innych ośrodkach naukowych. Wśród nich wyróżnić należy systemopracowany przez Valstara [92]. Zaproponowana metoda wykorzystuje czaso-we szablony (ang. temporal templates) oraz klasyfikację opartą na algorytmiekNN (ang. k-Nearest-Neighbor) połączonym z algorytmem regułowym (ang. rule-based). System pozwala na rozpoznawanie 15 jednostek AU występujących poje-dynczo lub w kombinacjach i charakteryzuje się średnią skutecznością rozpozna-wania 76.2% (testy przeprowadzane na bazie CMU). Autorzy prowadzą równieżprace nad rozpoznawaniem emocji opartym o jednostki AU [64].
Interesujące podejście do problemu rozpoznawania mimiki zaprezentował A.Kapor w pracy [45]. Przedstawione rozwiązanie pozwala na automatyczne roz-poznawanie jednostek czynnościowych oraz ich kombinacji w obrębie górnej czę-ści twarzy. System wykorzystuje dodatkowe urządzenie — aktywny oświetlaczpodczerwieni. Zastosowanie oświetlacza daje możliwość skutecznej detekcji oczuczłowieka poprzez obserwację odbicia światła od siatkówki oka. Siatkówka okaludzkiego działa jak lustro sferyczne odbijając od dna oka promieniowanie, którewpada poprzez obszar źrenicy. Zjawisko to jest powszechnie znane jako efekt „ja-snych źrenic” (ang. bright pupil effect) i występuje gdy źródło światła i systemoptyczny z sensorem zostaną umieszczone współosiowo. W przypadku oświetleniabocznego (niewspółosiowego), obszar źrenicy na obrazie uzyskanym z kamery jestznacznie ciemniejszy od otoczenia — efekt „ciemnych źrenic” (ang. dark pupileffect). Wykorzystanie oświetlacza w dużym stopniu zwiększa skuteczność orazautomatyzuje detekcję oczu. Informacja o położeniu oczu jest następnie wyko-rzystywana do pobrania odpowiednich obszarów obrazu zawierających elementymimiki (oko, powieka, brwi). Dalsza analiza wykorzystująca statystyczny algo-rytm PCA oraz liniową kombinację wzorców, pozwala na otrzymanie parame-trów kształtu. Kształt ten jest następnie rozpoznawany poprzez klasyfikator zwykorzystaniem metody SVM (ang. support vector machines). Przedstawionerozwiązanie charakteryzuje się skutecznością rozpoznawania około 69% (testy nawłasnej bazie autorów) oraz 81.22% — testy dla bazy CMU. Jak wynika z analizy
17
ROZDZIAŁ 2. SPOSOBY POMIARU ORAZ OPISU EKSPRESJI MIMICZNYCH TWARZY
autorów, metoda ta nie radzi sobie z dużymi zmianami skali obserwowanej twarzyoraz obrazami nowych twarzy o odmiennym wyglądzie.
Istotnym problemem w automatycznym rozpoznawaniu jednostek czynnościo-wych jest fakt, iż gesty mimiczne wykonywane przez ludzi podczas interakcji (np.rozmowa) z innymi osobami bardzo często połączone są z dużymi ruchami głowy(np. potrząsanie, przechylanie głowy, itp). Ruchy te przekładają się na rotacjepoza płaszczyzną obrazu (ang. out-of-plane rotations), będącego dwuwymiaro-wą reprezentacją trójwymiarowej sceny. Skutkuje to istotnymi zniekształceniamikształtu twarzy oraz wyglądu jej elementów. Problem ten jest poruszany w pra-cy [4]. Autorzy uwzględnili zniekształcenia obrazu wynikające z ruchów głowyw następujący sposób. W pierwszej kolejności estymowane są parametry mode-lu kamery (ang. camera calibration parameters) oraz wyznaczane jest geometriatwarzy na scenie trójwymiarowej (3D). Następnie informacje te wykorzystywa-ne są do utworzenia modelu twarzy niezależnego od parametrów sceny (skala,rotacja). Na podstawie takiego modelu generowany jest obraz twarzy w pozycjifrontalnej względem kamery (ang. image warping). Mając do dyspozycji frontalnyobraz twarzy, wyodrębniane są jej cechy charakterystycznych przy użyciu filtrówGabora (ang. Gabor wavelets). Zestaw takich cech jest następnie klasyfikowanyprzy pomocy SVM oraz ukrytych modeli Markowa (ang. Hidden Markov Mo-dels). Zaproponowane rozwiązanie testowany było na własnej bazie autorów —osiągnięta skuteczność wynosiła 95.9%.
2.3 MPEG-4 FAP
W ramach standardu MPEG-4 [62][53] zdefiniowana została specyfikacja metodyopisu i animacji twarzy oraz ciała ludzkiego. Definiuje ona model geometrycznytwarzy (siatka wieloboków lub model powierzchni NURBS), określa parametryanimacji i sposób ich kodowania oraz zawiera reguły pozwalające na obliczaniedeformacji modelu geometrycznego na podstawie parametrów animacji.
W odróżnieniu od metodyki FACS, ściśle związanej ze szczegółami anato-micznymi (mięśnie mimiczne, zmarszczki i fałdy skórne), standard ten określa 84punkty charakterystyczne pozwalające na opisanie wyglądu twarzy. Zostały onepodzielone na kilka grup w zależności od ich położenia oraz przynależności dookreślonych elementów twarzy (np. oczy, brwi, policzki, język, itp.) — rysunek2.1.
Niektóre z punktów związane są z parametrami animacji FAP (ang. FacialAnimation Parameters), które pozwalają na opisanie ruchu pojedynczych punk-tów, bądź też zapisanie całych gestów mimicznych (przesunięcie całej grupy).Ruch definiowany jest względem stanu neutralnego, tzw. pojęcia „neutralnej twa-rzy”, określającego nie tylko wygląd elementów twarzy (np. usta zamknięte, wargizłączone), ale również położenie głowy względem kamery oraz układ odniesienia.
18
2.3. MPEG-4 FAP
Rysunek 2.1: Punkty charakterystyczne twarzy definiowane w standardzieMPEG-4 FAP, [62]
Amplituda ruchu mierzona jest względem trzech osi współrzędnych w jednost-kach określanych przez tablicę FAPU (ang. Facial Animation Parameter Unit).FAPU (rys. 2.2) pozwala na pomiar ruchu w jednostkach względnych — przykła-dowo jednostka ES0 związana jest z odległością między źrenicami. Oprócz gestówmimicznych FAP pozwalają również na opisanie ruchów głowy oraz języka.
Rysunek 2.2: Standard MPEG-4 — jednostki FAPU, [62]
Zdefiniowana specyfikacja pozwala na generację realistycznych animacji, po-przez odpowiednie deformacje modelu geometrycznego twarzy w zależności odzmian parametrów FAP. Animacje takie wykorzystywane są nie tylko do tworze-nia realistycznych „avatarów” (wirtualna postać reprezentująca człowieka), alerównież pozwalają na realizację wideokonferencji nie wymagającej dużych przepu-stowości łączy — przesyłane są tylko parametry FAP oraz informacje o teksturze.Istotnym elementem w tego typu zastosowaniach jest automatyczna lokalizacjaoraz śledzenie punktów charakterystycznych twarzy na obrazach otrzymywanych
19
ROZDZIAŁ 2. SPOSOBY POMIARU ORAZ OPISU EKSPRESJI MIMICZNYCH TWARZY
z kamery. Stosowane są rozwiązania oparte na umieszczaniu łatwo odróżnialnychmarkerów w odpowiednich miejscach twarzy, a następnie wykorzystanie metodprzetwarzania i analizy obrazów do ich lokalizacji. Przykładem może być sys-tem animacji [51] umożliwiający rozpoznawanie wybranych gestów mimicznych,a następnie animowanie sztucznie generowanego avatara. System wykorzystujesztuczne markery umieszczane w określonych punktach charakterystycznych twa-rzy. W artykule [30] autorzy zaprezentowali podejście nie wymagające stosowaniamarkerów. Punkty charakterystyczne określane są ręcznie przez operatora pod-czas inicjalizacji systemu — pobierane są informacje o kolorze oraz krawędziachw otoczeniu punktu. Następnie elementy twarzy są śledzone na kolejnych obra-zach sekwencji video. Do śledzenia używane są algorytmy wykorzystujące budowęmorfologiczną poszczególnych elementów twarzy — np. dla oka są to: położenieźrenicy, powiek oraz brwi.
20
Rozdział 3
Określenie i wybórrozpoznawanych elementówmimiki
Streszczenie
Skonstruowanie urządzenia wejściowego umożliwiającego sterowanie przypomocy gestów mimicznych, wymaga uwzględnienia wymagań wynikającychz typowych zadań jakie wykonuje użytkownik podczas pracy z kompute-rem. Na potrzeby niniejszej rozprawy dokonano usystematyzowania typo-wych zadań wykonywanych przez człowieka podczas interakcji z interfejsemgraficznym komputera. Poprzez analizę akcji użytkownika oraz porównaniewłasności typowych urządzeń wejściowych z możliwościami jakie oferuje mi-mika, dokonano wyboru elementów mimiki, które są potencjalnie przydatnew komunikacji człowiek-maszyna.
3.1 Systematyka typowych zadań wykonywanych przez użyt-kowników
Sterowanie komputerem przy pomocy gestów mimicznych, wymaga od projektan-ta wzięcia pod uwagę szeregu czynników. Oprócz specyfikacji technicznej (dobórkamery, sposobu transmisji danych...) i informatycznej (określenie w jaki sposóbsygnał wizyjny będzie interpretowany przez komputer), konieczne jest uwzględ-nienie wymagań wynikających z typowych zadań jakie wykonuje użytkownik pod-czas pracy z interfejsem graficznym.
Na wczesnym etapie rozwoju informatyki, wymagania te zostały określonew postaci standardów: GSPC, 1977; GSPC, 1979; ISO, 1983. Wprowadzają onekoncepcje „logicznych urządzeń wejściowych” (ang. logical devices), stanowiących
21
ROZDZIAŁ 3. OKREŚLENIE I WYBÓR ROZPOZNAWANYCH ELEMENTÓW MIMIKI
poziom pośredni między sterownikami sprzętu a aplikacjami. Programista apli-kacji dysponuje standardowym API (ang. Application Programming Interface),udostępniającym funkcje pozwalające m.in. na: określenie pozycji (np. kursora wewspółrzędnych ekranu), wybór (np. elementu graficznego), wprowadzanie tekstu,liczb. Z powyższymi sposobami wprowadzania informacji do komputera powiąza-ne są konkretne typy urządzeń (np. klawiatura, myszka).
W pracy [27] autorzy zaprezentowali podejście, które systematyzuje urządze-nia wejściowe z punktu widzenia udostępnianej przez nie funkcjonalności. Wy-szczególnili oni sześć elementarnych zadań pozwalających na realizację dowolnegocelu sterowania odpowiadającego intencjom użytkownika:
• wybór obiektu lub elementu graficznego spośród kilku możliwości (ang. se-lection),
• określenie pozycji 1,2 lub 3 wymiarach (ang. position),
• określenie orientacji w 1,2 lub 3 wymiarach (ang. orientation),
• podanie ścieżki, rysowanie (ang. path or ink), co wymaga podania kolejnychpozycji lub orientacji w czasie,
• wprowadzanie tekstu (ang. text entry),
• ustalenie wartości numerycznej (ang. quantify).
Zadania te odpowiadają w przybliżeniu podejściu zawartemu w standardzie GSPC.Powyższy podział nie jest do końca jednoznaczny, ponieważ zależy od rodzaju
wykorzystanego urządzenia [35]. Jako przykład można przedstawić zadanie wy-boru elementu graficznego. Wykorzystanie myszki wymaga w pierwszej kolejnościokreślenia pozycji, a następnie dokonania wyboru (kliknięcie). Aby osiągnąć celpotrzebne są dwa elementarne zadania. Natomiast przy pomocy ekranu dotyko-wego lub tabletu graficznego wystarczające jest jedno zadanie — bezpośredniewskazanie żądanego obiektu. Ominięcie problemu jednoznaczności można osią-gnąć poprzez zdefiniowanie pojęcia „zadań złożonych” (ang. compound tasks),czyli akcji które z punktu widzenia użytkownika stanowią jedno zadanie (lubmogą być wykonane hierarchicznie). Przykładem może być wybór odnośnika nastronie WWW, który wymaga przewijania dokumentu oraz wskazania kursoremoraz wybrania odnośnika.
Wymienione sposoby opisu funkcjonalności urządzeń wejściowych prezentujądwa odmienne podejścia, które można zaobserwować w konstruowaniu interfejsówkomputerowych [55]. Koncepcja „logicznych urządzeń wejściowych” jest przykła-dem architektury skoncentrowanej na maszynie (ang. machine-centered architec-ture). Z kolei w architekturach skupionych na użytkowniku (ang. human-centered
22
3.2. WŁASNOŚCI I SYSTEMATYKA URZĄDZEŃ WEJŚCIOWYCH
interaction architecture), urządzenia wejściowe rozpatruje się nie od strony inter-fejsu programowego (API), ale z punktu widzenia udostępnianej funkcjonalności.W takim podejściu istotny staje się odpowiedni dobór urządzenia wejściowego dowymaganego zadania.
3.2 Własności i systematyka urządzeń wejściowych
Użytecznymi kryteriami w doborze urządzenia do określonego zadania, mogą byćwłasności danego urządzenia. Do najistotniejszych własności można zaliczyć [36]:
• Mierzona fizyczna cecha. Typowy sprzęt wykorzystuje pomiar pozycji(np. tablet), ruchu (myszka), siły (dżojstik izometryczny1) lub kąta (dżoj-stik izotoniczny2). Urządzenia mierzące pozycję pozwalają na jej określeniew sposób bezwzględny. Umożliwiają również emulację względnej pozycji.Z kolei urządzenia oparte na pomiarze ruchu są zdolne tylko do podawa-nia względnego położenia poprzez sterowanie kursorem na ekranie. Zazwy-czaj wymagana jest również odpowiednia funkcja przejścia (ang. transferfunction) zapewniająca odpowiednie przekodowanie siły na położenie. Możeone przyjąć postać funkcji akceleracji pozwalającej na realizację mniejszegoprzesunięcia na początku ruchu, a większego przy końcu. Definiuje się rów-nież pojęcie stosunku sterowania do wyświetlania (ang. control to displayratio), czyli współczynnika definiującego przesunięcie kursora na ekranie wstosunku do ruchu np. myszki.
• Ilość stopni swobody. Akcje wykonywane przez użytkownika podczas ob-sługi interfejsu graficznego wymagają określenia położenia w jednym (su-wak), dwóch (położenie na ekranie), lub trzech wymiarach oraz określanieorientacji (zastosowania CAD, gry). Urządzenia które nie zapewniają żąda-nych informacji wymagają dodatkowych sposobów interakcji (np. podziałzadania na kilka wykonywanych sekwencyjnie).
• Szybkość i dokładność. Pod tymi pojęciami rozumie się potocznie szeregnastępujących parametrów takich jak: rozdzielczość, częstotliwość próbko-wania, opóźnienie reakcji, szum, nieliniowości.
• Pośrednie lub bezpośrednie sterowanie. Przykładem bezpośredniegosterowania jest ekran dotykowy, w którym powierzchnia wyświetlająca in-formacje służy równocześnie do wprowadzania informacji. Pozostałe urzą-dzenia udostępniają sterowanie pośrednie, np. myszka.
1sygnał wyjściowy jest funkcją siły przyłożonej do drążka2sygnał wyjściowy jest funkcją wychylenia drążka z pozycji neutralnej
23
ROZDZIAŁ 3. OKREŚLENIE I WYBÓR ROZPOZNAWANYCH ELEMENTÓW MIMIKI
• Ciągły pomiar wielkości lub wykrywanie zdarzeń. Wszelkiego ro-dzaju przyciski (ang. buttons) zapewniają sygnały w postaci zdarzeń (naci-śnięty/zwolniony...), w odróżnieniu od np. dżojstika umożliwiającego ciągłypomiar siły.
• Obsługiwane stany. Zadania takie jak np. zaznaczenie ikony na pulpicie,operacje „przeciągnij i upuść”, wymagają dodatkowej sygnalizacji stanuodpowiadającego intencji użytkownika. W pracy [13] określone zostały trzypodstawowe stany wymagane dla poprawnej obsługi interfejsu graficznego.
– stan 0: poza zasięgiem (ang. out of range) — przykładowo oderwanierysika od tabletu graficznego,
– stan 1: śledzenie (ang. tracking) — ruch kursora,
– stan 2: przeciąganie (ang. dragging) — pozwala na przesuwanie ele-mentów interfejsu np. ikon.
Nie wszystkie urządzenia wspierają obsługę powyższych stanów. Jako przykładpodać można pracę z myszką oraz z panelem dotykowym — 3.1. W przypadkupanelu odróżnienie operacji przeciągania od śledzenia wymaga zastosowania do-datkowego przycisku. Z kolei myszka nie obsługuje stanu „poza zasięgiem”. Mato znaczenie w niektórych typach zadań.
Rysunek 3.1: Stany obsługiwane przez: (a) myszkę, (b) panel dotykowy.
3.3 Analiza możliwości jakie oferuje mimika
Przedstawiona systematyka własności urządzeń wejściowych oraz analiza typo-wych zadań stanowi dobry punkt wyjścia do wyboru potencjalnych gestów mi-micznych, które zapewnią sterowanie komputerem. Na potrzeby niniejszej pracydokonano usystematyzowania i wyboru typowych zadań wykonywanych przezczłowieka podczas interakcji z interfejsem graficznym. Są to:
• wskazanie i wybór elementu graficznego (ang. point and select),
24
3.3. ANALIZA MOŻLIWOŚCI JAKIE OFERUJE MIMIKA
• operacja „przeciągnij i upuść” (ang. drag and drop),
• operacja „rozciągania gumki” (ang. rubber banding) służąca np. do ryso-wania ramki zaznaczania wielu obiektów,
• rysowanie (ang. ink),
• menu rozwijalne i wyskakujące (ang. pull-down menu, pop-up menu),
• wprowadzanie tekstu (ang. text entry),
• rozpoznawanie gestu (ang. gesture recognition) wykonywanego np. myszą,
• operacje złożone (ang. compound tasks), np. manipulacja obiektem 3D.
Analizując przedstawione zadania (tab. 3.1) można zauważyć, iż urządzenie wej-ściowe oraz jego interfejs programowy powinno:
• udostępniać sygnały sterujące takie jak: pozycja, orientacja, trajektoria,wybór,
• oraz obsługiwać następujące stany: śledzenie i przeciąganie (w niektórychprzypadkach również stan „poza zasięgiem”).
Udostępnianie sygnałów sterujących jest realizowane w odmienny sposób przezróżne urządzenia (myszka, tablet), które charakteryzują się odmiennymi własno-ściami.
Bezpośrednie wskazanie pozycji na ekranie (ang. direct locator) możliwe jestzazwyczaj w tabletach graficznych. Z kolei myszka komputerowa pozwala na po-średnie wskazanie pozycji poprzez przesunięcie kursora w zadane miejsce (ang.indirect locator). Często wykorzystuje się również wskazanie pozycji przy pomo-cy dedykowanych klawiszy (ang. location direction keys). W przypadku gestówmimicznych sterowanie odbywa się pośrednio, ponieważ powierzchnia wyświetla-jąca nie może być zintegrowana z urządzeniem. Nie wydaje się możliwe równieżbezwzględne mapowanie niewielkich zmian mimiki na położenie kursora, stąd ta-ki sposób sterowania można zaklasyfikować jako względny. Wyjątkiem może byćograniczona możliwość bezwzględnego mapowania ruchów głowy na orientację.
Różne zadania wymagają od urządzenia obsługi innej ilości stopni swobody.Przykładowo do przesuwania suwaka wystarczający jest jeden stopień swobody.Dlatego w konstrukcji myszek komputerowych dodaje się rolkę sterującą. Z ko-lei wybór obiektu na ekranie wymaga zapewnienia w urządzeniu dwóch stopniswobody (wskazanie pozycji). W przypadku mimiki zapewnienie jednego stopniaswobody nie stanowi problemu — prawie każdy gest może zostać do tego celuwykorzystany — ruch brwi w górę (jednostka czynnościowa AU 1+2) oraz w dół(AU4). W przypadku dwóch stopni swobody konieczny jest wybór przynajmniej
25
ROZDZIAŁ 3. OKREŚLENIE I WYBÓR ROZPOZNAWANYCH ELEMENTÓW MIMIKI
Tabela 3.1: Zestawienie typowych zadań oraz wymaganych dla nich sygnałów istanów
ZadanieWymagane sygnały
sterująceWymagana
obsługa stanów
wskazanie elementugraficznego
pozycja w 1, 2 lub 3 wymiarach1 (opisy stanów narysunku 3.1 )
wskazanie i wybórelementu graficznego
pozycja w 1, 2 lub 3 wymiarachoraz sygnał wyboru
1, 2
operacja „przecią-gnij i upuść”
pozycja w 1, 2 lub 3 wymiarachoraz sygnał wyboru
1, 2
operacja „rozciąga-nia gumki”
pozycja w 1, 2 lub 3 wymiarachoraz sygnał wyboru 1, 2
rysowanietrajektoria w 1, 2 lub 3 wymia-rach oraz sygnał wyboru
1, 2
menu rozwijalne iwyskakujące
pozycja lub trajektoria w 1, 2lub 3 wymiarach oraz sygnał wy-boru
1, 2
wprowadzanie tekstu(klawiatura)
wymagana klawiatura lub wprzypadku klawiatury progra-mowej — pozycja w 2 wy-miarach oraz sygnał wyboru(dla jednowymiarowej klawiatu-ry programowej – sygnał pozycji1D)
W przypadku kla-wiatury programo-wej — 1, 2
wprowadzanie tek-stu (rozpoznawaniepisma)
trajektoria w 1, 2 lub 3 wymia-rach oraz sygnał wyboru
0 (ze względu nakonieczność sygna-lizacji końca wpisy-wania tekstu), oraz1 i 2
rozpoznawanie gestu trajektoria w 1, 2 lub 3 wymia-rach
0, 1
operacje złożone —np. rotacja w progra-mie CAD
orientacja w 1, 2 lub 3 wymia-rach
1, 2
czterech gestów. Możliwe jest również uzyskanie trzech stopni swobody, poprzeznp. pomiar ruchów głowy w różnych płaszczyznach (góra/dół, przechylenie pra-wo/lewo, obrót prawo/lewo).
W przypadku mimiki możliwy jest pomiar następujących parametrów: wyko-nanie lub brak wykonania gestu, intensywność gestu, oraz szybkość wykonaniagestu. Wszystkie zmiany odbywają się względem mimiki neutralnej, a ich am-
26
3.3. ANALIZA MOŻLIWOŚCI JAKIE OFERUJE MIMIKA
plituda jest raczej niewielka. Sugeruje to wykorzystanie mimiki do sterowaniapodobnie jak w przypadku joysticka. Istnieje możliwość wyboru pomiaru inten-sywności lub szybkości wykonania gestu (pomiar wielkości fizycznej ciągłej —dżojstik analogowy) lub faktu wykonania lub braku wystąpienia gestu (detekcjazdarzenia — dżojstik cyfrowy).
Zadanie wyboru obiektu lub elementu graficznego również może być reali-zowane na kilka sposobów. Bezpośredni wybór (ang. direct pick) udostępniająurządzenia takie jak tablety graficzne lub ekrany dotykowe. Pośrednie wybranieelementu graficznego realizowane jest zazwyczaj na kilka różnych sposobów:
• poprzez wskazanie pozycji oraz akcję wyboru (ang. indirect locator),
• pośrednie wybranie elementu graficznego poprzez wskazanie pozycji orazoczekiwanie określonego czasu (ang. time scan),
• wybranie jednego ze zdefiniowanych wcześniej elementów poprzez naciśnię-cie dedykowanego przycisku.
Możliwe jest również wybranie elementu poprzez rozpoznanie rysowanego ge-stu (przykład — sterowanie przeglądarką Opera przy pomocy gestów wykony-wanych kursorem). Wymienione sposoby wymagają od urządzenia bądź udostęp-nienia bezpośredniego wyboru (tablet, dedykowane klawisze), lub obsługi stanówśledzenia, przeciągania (czasami również stanu „poza zasięgiem”). W kontekściesterowania mimiką możliwy jest wybór obiektu poprzez wcześniejsze wskazaniepozycji oraz akcję wyboru (analogicznie jak dla myszki). Wymaga to jednak zde-finiowania gestów zapewniających sygnały sterujące pozycją oraz dodatkowegogestu dla akcji wyboru. Możliwe jest również pominięcie dodatkowe gestu wyborui emulacja poprzez oczekiwanie określonego czasu (ang. time scan). Potencjalnązaletą mimiki jest duża różnorodność gestów mimicznych (np. ilość kombinacjijednostek czynnościowych = 4000), która pozwala na wybranie jednego z wieluzdefiniowanych wcześniej elementów poprzez przypisanie gestom akcji naciśnięciadedykowanych przycisków.
Uzyskanie sygnału trajektorii, w przypadku mimiki, jest również możliwe.Najprostszym sposobem może być zdefiniowanie sekwencji gestów (góra, dół,prawo, lewo) definiujących dane pozycji w czasie i składających się na trajek-torię. Możliwe wydaje się również rozpoznawanie ruchów głowy lub ruchów gałekocznych i kierunku patrzenia (ang. eye gaze direction).
Wszystkie wykorzystane gesty powinny być łatwe do wykonania dla człowiekaoraz w miarę możliwości intuicyjne. Wymaga to uwzględnienia umiejętności orazpsychofizjologicznych uwarunkowań człowieka — nie każda osoba potrafi wyko-nać wszystkie gesty, występuje mimika mimowolna (emocje) oraz problem powta-rzalności. Wiele zależy również od budowy i specyfikacji technicznej urządzenia(parametry toru przetwarzania i analizy — częstotliwość próbkowania obrazu
27
ROZDZIAŁ 3. OKREŚLENIE I WYBÓR ROZPOZNAWANYCH ELEMENTÓW MIMIKI
FPS, szumy, nieliniowości), która będzie miała wpływ na szybkość i dokładnośćpomiaru.
W tabelach 3.2 oraz 3.3 i 3.4, zawarte zostało podsumowanie własności typo-wych urządzeń wejściowych w kontekście systemu opartego o mimikę oraz pod-sumowano możliwości jakie oferuje mimika (sygnały sterujące, ilość potrzebnychgestów).
28
3.3. ANALIZA MOŻLIWOŚCI JAKIE OFERUJE MIMIKA
Tab
ela
3.2:
Pod
sum
owan
iew
łasn
ości
typ
owyc
hur
ządz
eńw
ejśc
iow
ych
wko
ntek
ście
ster
owan
iam
imik
ą
Wła
snoś
ćM
ysz
ka/
joyst
ick
Tab
let
Ges
tym
imic
zne
Mie
rzon
ace
cha
fizyc
zna
Mys
zka
–ru
ch,
dżoj
stik
–si
łalu
bką
tP
ozyc
jaM
ożna
mie
rzyć
:w
ykon
anie
lub
brak
wyk
onan
iage
stu,
inte
nsyw
ność
gest
u,sz
ybko
śćw
ykon
ania
gest
u.
Pom
iar
poz
ycji
wzg
lędn
ylu
bb
ezw
zglę
dny
Wzg
lędn
y(u
żytk
owni
km
usi
ster
ować
kurs
orem
)
Bez
wzg
lędn
yor
azm
ożliw
ość
emul
acji
wzg
lędn
ego
pom
iaru
poz
ycji
Ze
wzg
lędu
nasp
ecyfi
kęw
ykon
ywan
ych
gest
ów(z
mia
naw
stos
unku
dom
imik
ine
utra
lnej
)m
ożliw
yje
stp
omia
rw
zglę
dny
(pod
obni
eja
kjo
ysti
ck).
Wyj
ątki
emm
ogą
być
ruch
ygł
owy,
któr
ew
ogra
nicz
onym
zakr
esie
moż
naw
ykor
zyst
aćdo
pod
ania
orie
ntac
jib
ezw
zglę
dnej
.
Iloś
ćst
opni
swob
ody
Dw
aD
wa
Jede
n,dw
a,lu
btr
zy–
wza
leżn
ości
odge
stu
(np.
ruch
głow
yw
pew
nych
gran
icac
hm
oże
być
map
owan
edo
poz
ycji
3D,
nato
mia
stru
chbr
wi
–ja
kop
ozyc
ja1D
).
Szyb
kość
,ro
zdzi
elcz
ość,
dokł
adno
ść
Wza
leżn
ości
odur
ządz
enia
,z
regu
łydu
ża
Wza
leżn
ości
odur
ządz
enia
,z
regu
łydu
ża
Rac
zej
mał
a,ze
wzg
lędu
nato
iżam
plit
uda
wię
kszo
ści
gest
ówje
stni
ewie
lka.
Uw
zglę
dnić
nale
żyró
wni
eżps
ycho
fizjo
logi
czne
uwar
unko
wan
iacz
łow
ieka
—ni
eka
żda
osob
ap
otra
fiw
ykon
aćw
szys
tkie
gest
y,w
ystę
puje
mim
ika
mim
owol
na(e
moc
je)
oraz
prob
lem
pow
tarz
alno
ści.
Szyb
kość
ido
kład
ność
będ
zie
rów
nież
zale
żała
odpa
ram
etró
wto
rupr
zetw
arza
nia
ian
aliz
y(n
p.sz
umy)
.
Cią
gły
pom
iar
wie
lkoś
cilu
bw
ykry
wan
iezd
arze
ń
Cią
głe
pod
awan
iep
ozyc
jior
azzd
arze
nia
–st
any
przy
cisk
ów
Cią
głe
pod
awan
iep
ozyc
jior
azzd
arze
nia
–st
any
przy
cisk
ów.
Dod
atko
wo
pom
iar
siły
ina
cisk
u
Moż
liwy
ciąg
łyp
omia
r(i
nten
syw
nośc
ilu
bsz
ybko
ści
wyk
onan
iage
stu)
,lu
bde
tekc
jazd
arze
ń(w
ykon
anie
lub
brak
gest
u).
Obs
ługi
wan
est
any
1,2
(rys
.3.
1)0,
1(2
zdo
datk
owym
przy
cisk
iem
)
Stan
0(p
oza
zasi
ęgie
m)
–m
ożliw
ySt
an1
(śle
dzen
ie)
–m
ożliw
ySt
an2
(prz
ecią
gani
e)–
moż
liwy
jeśl
izo
stan
ądo
bran
ege
sty,
któr
em
ogą
być
wyk
onan
eni
ezal
eżni
ei
jedn
ocze
śnie
(np.
ruch
ust
im
ruga
nie)
29
ROZDZIAŁ 3. OKREŚLENIE I WYBÓR ROZPOZNAWANYCH ELEMENTÓW MIMIKI
Tab
ela
3.3:
Pod
sum
owan
iem
ożliw
ości
ofer
owan
ych
prze
zm
imik
ęw
kont
ekśc
ieza
dań
—cz
.1
Zad
anie
Sygn
ały
ster
ują
ceU
wag
i
Bez
poś
redn
iew
skaz
anie
poz
ycji
naek
rani
eU
zysk
anie
sygn
ału
zw
ymag
aną
roz-
dzie
lczo
ścią
niem
ożliw
e—
Poś
redn
iew
skaz
anie
poz
ycji
po-
prze
zpr
zesu
nięc
ieku
rsor
a
Wyk
onan
ielu
bbr
akw
ykon
ania
gest
ulu
bin
tens
ywno
ść/
szyb
kość
wyk
onan
iage
stu
Wym
agan
ailo
śćge
stów
:dl
adl
a1D
–m
in.
1ge
st,
opty
mal
nie
2ge
sty,
2Dco
najm
niej
4ge
sty,
3D–
6ge
stów
Bez
poś
redn
iew
ybra
nie
elem
entu
grafi
czne
goB
ezp
ośre
dnie
wsk
azan
iep
ozyc
jior
azw
ybor
uni
emoż
liwe
—
Poś
redn
iew
ybra
nie
elem
entu
grafi
czne
gop
oprz
ezw
skaz
anie
poz
ycji
oraz
akcj
ęw
ybor
u
Wyk
onan
ielu
bbr
akw
ykon
ania
gest
u,p
omia
rin
tens
ywno
ści
/sz
ybko
ści
wy-
kona
nia
gest
u
Wym
aga
zdefi
niow
ania
gest
ówdo
okre
ślen
iap
ozy-
cji
(np.
2D–
4ge
sty)
oraz
doda
tkow
ych
gest
ówsy
-gn
aliz
ując
ych
wyb
ór(k
likni
ęcie
,p
odw
ójne
klik
nię-
cie,
praw
yle
wy
klaw
isz)
Poś
redn
iew
ybra
nie
elem
entu
grafi
czne
gop
oprz
ezw
skaz
anie
poz
ycji
oraz
ocze
kiw
anie
okre
ślo-
nego
czas
u
Wyk
onan
ielu
bbr
akw
ykon
ania
gest
ulu
bin
tens
ywno
ść/
szyb
kość
wyk
onan
iage
stu
Pod
obni
eja
kdl
ap
ośre
dnie
gow
skaz
ania
poz
ycji
pop
rzez
prze
suni
ęcie
kurs
ora.
Dod
atko
wo
obsł
uga
emul
acji
czas
owej
akcj
iw
ybor
u
30
3.3. ANALIZA MOŻLIWOŚCI JAKIE OFERUJE MIMIKA
Tab
ela
3.4:
Pod
sum
owan
iem
ożliw
ości
ofer
owan
ych
prze
zm
imik
ęw
kont
ekśc
ieza
dań
—cz
.2
Zad
anie
Sygn
ały
ster
ują
ceU
wag
i
Wyb
rani
eje
dneg
oze
zdefi
nio-
wan
ych
wcz
eśni
ejel
emen
tów
po-
prze
zna
ciśn
ięci
ede
dyko
wan
ego
przy
cisk
u
Wyk
onan
ielu
bbr
akw
ykon
ania
gest
uIl
ość
gest
ówod
pow
iada
jąca
ilośc
ide
dyko
wan
ych
przy
cisk
ów.
Ges
typ
owin
nyby
ćła
two
odró
żnia
lne
odsi
ebie
Wyb
rani
eel
emen
tup
oprz
ezro
z-p
ozna
nie
ryso
wan
ego
gest
u.
Wyk
onan
ielu
bbr
akw
ykon
ania
gest
ulu
bin
tens
ywno
ść/
szyb
kość
wyk
onan
iage
stu
Wym
aga
zdefi
niow
ania
okre
ślon
ejse
kwen
cjig
estó
wm
imic
znyc
h(k
olej
neda
nep
ozyc
ji)
lub
traj
ekto
rii
ruch
ugł
owy
/oc
zu
Ust
awie
nie
bez
poś
redn
ieor
ient
a-cj
iel
emen
tu(m
apow
anie
orie
n-ta
cji
rzec
zyw
iste
goob
iekt
unp
.w
irtu
alna
ręka
wic
a)
Pom
iar
inte
nsyw
ność
wyk
onan
iaru
chu
głow
ąlu
bru
chu
gałe
koc
znyc
hW
ogra
nicz
onym
zakr
esie
map
owan
ieru
chów
głow
y/
oczu
naor
ient
ację
Ust
awie
nie
poś
redn
ieor
ient
acji
elem
entu
Wyk
onan
ielu
bbr
akw
ykon
ania
gest
ulu
bin
tens
ywno
ść/
szyb
kość
wyk
onan
iage
stu
Wym
aga
opró
czge
stów
dous
tale
nia
poz
ycji
,nie
za-
leżn
ych
gest
ówdl
aor
ient
acji
,lub
ew.o
bsłu
gido
dat-
kow
ego
stan
usy
gnal
izuj
ąceg
ow
yzna
czan
iep
ozyc
jilu
bor
ient
acji
31
ROZDZIAŁ 3. OKREŚLENIE I WYBÓR ROZPOZNAWANYCH ELEMENTÓW MIMIKI
3.4 Wybór elementów mimiki potencjalnie przydatnychdo sterowania
Z przedstawionej analizy wynika, że podstawowym sygnałem wymaganym do re-alizacji większości zadań, jest informacja o pozycji oraz sygnał wyboru. Informa-cja o trajektorii lub orientacji może zostać podana w sposób pośredni, podobniejak w typowych urządzeniach wejściowych (zapamiętanie zmian pozycji w czasie,zamiana pozycji na orientację). Operacje wymagające obsługi kilku stanów (śle-dzenie, przeciąganie) są również możliwe do obsłużenia, jednakże warunkiem jestzapewnienie dodatkowego sygnału informującego o aktualnym stanie lub wyko-rzystanie do tego celu sygnału wyboru (analogicznie jak przycisk w myszce). Wniniejszym rozdziale dokonano wyboru gestów, które będą potencjalnie przydat-ne do sterowania. Przy selekcji wykorzystano systematykę FACS, która określam.in. stopień trudności wykonania danego gestu mimicznego, oraz wzięto poduwagę możliwość niezależnego wykonania wymaganej ilości gestów. Propozycjezostały podsumowane w tabelach 3.5, 3.6 oraz 3.7. Metodyka FAP również możezostać wykorzystana. Należy jednak mieć na uwadze fakt, że standard ten defi-niuje model geometryczny i jego animacje — w odróżnieniu od standardu FACS,który jest ściśle związany z ruchami mięśni.
Duża różnorodność obserwowanych i możliwych do wykonania przez człowiekagestów mimicznych pozwala na elastyczny dobór elementów mimiki i powiązanieich z określonymi sygnałami sterującymi. Dlatego zaproponowany wybór nie jestjedynym możliwym — w zależności od umiejętności lub preferencji człowieka dotych samych celów mogą zostać użyte różne zestawy gestów. Jest to szczególnazaleta w kontekście wykorzystania systemu przez osoby niepełnospraw-ne. Kilka przykładów które obrazują możliwości sterowania przy pomocy mimiki— do emulacji myszki/dżojstika z dwoma przyciskami mogą zostać wykorzysta-ne elementy mimiki nr 1 i 2 (tab. 3.5, tab. 3.6). Sterowanie pozycją zapewnianejest poprzez gesty mimiczne dolnej części twarzy (różne ruchy ust), natomiastudostępnianie sygnału wyboru dzięki gestom górnej części twarzy (ruch brwi).Jako alternatywne źródła sygnałów można zaproponować — zestawy nr 4 i 2,wykorzystujące ruchy głowy do sterowania kursorem oraz ruchy brwi do emulacjiprzycisków. Osoby które posiadają lepszą kontrolę mimiki górnej części twarzyzaproponować można zestaw nr 5, wykorzystujący gesty mrugania oraz ruchówbrwiami.
Jak widać na powyższych przykładach wybór gestów do sterowania jest dośćszeroki. Należy jednak pamiętać, iż mimika jest sprawą bardzo indywidualną igest łatwy do wykonania dla jednego człowieka może być niewykonalny dla in-nego (panowanie nad muskulaturą twarzy, stopień niepełnosprawności). Do psy-chofizjologicznych uwarunkowań człowieka można również zaliczyć emocje, któ-rych skutkiem często jest odruchowa zmiana mimiki twarzy. Dlatego interfejs
32
3.4. WYBÓR ELEMENTÓW MIMIKI POTENCJALNIE PRZYDATNYCH DOSTEROWANIA
człowiek-komputer oparty o rozpoznawanie mimiki powinien raczejudostępniać użytkownikowi „alfabet” z którego może on skorzystaćwybierając najbardziej dla siebie naturalne gesty, niż ustalone z górysposoby sterowania.
Użycie gestów mimicznych do emulacji funkcjonalności myszki lub dżojstikanie wykorzystuje pełnych możliwości jakie oferuje mimika. Duża ilość istniejącychelementów mimiki pozwala na zaprojektowanie interfejsu bardziej elastycznego,który będzie udostępniał wiele równoczesnych sposobów komunikacji (interfejsmultimodalny). Wykorzystanie redundancji gestów mimicznych może w znacznysposób uprościć realizację bardziej złożonych zadań takich jak np. nawigacja podokumentach. Wybrane zadania złożone oraz sposoby użycia elementów mimikiprzedstawiono w tabeli 3.7.
Analizując możliwości jakie oferuje mimika do sterowania, wymienić należyrównież urządzenia przenośne — takie jak telefony komórkowe, palmtopy orazkomputery przenośne PDA. Zastosowania tych urządzeń są bardzo szerokie (ka-lendarz, terminarz, notatnik, przeglądanie multimediów, gry, współpraca z urzą-dzeniami do nawigacji GPS, itp).
W przypadku palmtopów oraz PDA podstawowym sposobem interakcji wy-korzystywanym przez użytkowników jest rysik pozwalający na wybór elementów,czy też rysowanie na ekranie dotykowym. Do wprowadzania informacji w telefo-nach komórkowych, najpopularniejsza jak dotąd, jest klawiatura udostępniającawybrany zestaw cyfr i liter oraz klawisze funkcyjne.
Prowadzone są również badania i wdrożenia nad alternatywnymi możliwościa-mi interakcji, takimi jak rozpoznawanie mowy. Innym przykładem jest urządzeniefirmy Apple — iPhone. Udostępnia ono wielodotykowy ekran (ang. multitouch)pozwalający na bardziej naturalną dla człowieka pracę z urządzeniem. Ekranwielodotykowy, w odróżnieniu od typowego ekranu dotykowego, pozwala na jed-noczesną detekcję wielu dotknięć ekranu.
Coraz więcej urządzeń przenośnych jest wyposażanych w kamerę. Otwiera tomożliwości do analizy obrazu i rozpoznawania mimiki. Przykładem może być pra-ca [32], w której autorzy zaproponowali sterowanie typowymi aplikacjami kompu-tera przenośnego (gry, mapa) przy pomocy analizy obrazu z wbudowanej kamery.
Potencjalne możliwości sterowania jakie oferuje mimika twarzy mogą zostaćrównież wykorzystane w urządzeniach przenośnych. Jako przykład można podaćwspomaganie rozpoznawania mowy poprzez jednoczesną analizę ruchu ust. Roz-poznawanie jednostek fonetycznych mowy (fonemy) może być wspomagane przezrównoczesną detekcję analogicznych jednostek w dziedzinie obrazu — tzw. „vise-mów” (ang. visemes) [15]. Nie zawsze mogą one być traktowane jako odpowiedni-ki fonemów — raczej niosą informacje uzupełniające, przydatne do wspomaganiarozpoznawania mowy np. w przypadku dużego hałasu w pomieszczeniu.
33
ROZDZIAŁ 3. OKREŚLENIE I WYBÓR ROZPOZNAWANYCH ELEMENTÓW MIMIKI
Tab
ela
3.5:
Wyb
rane
elem
enty
mim
iki
pot
encj
alni
epr
zyda
tne
dore
aliz
acji
elem
enta
rnyc
hza
dań
—cz
.1
Nr
Ele
men
tarn
eza
dan
ia
Wym
agan
esy
gnał
yst
eru
jące
Od
pow
iad
ają
ceel
emen
tym
imik
i(w
gFA
CS
)U
wag
i
1P
ośre
dnie
wsk
a-za
nie
poz
ycji
2D
•pra
wo-
lew
o•g
óra
•dół
•AU
14(l
ewy,
praw
y)•A
U12
•AU
15
Ele
men
tA
U14
moż
eby
ćw
ykon
any
nies
ymet
rycz
nie
(pra
wa/
lew
ast
rona
twar
zy).
Moż
liwe
dwa
tryb
ypr
a-cy
:em
ulac
jajo
ysti
cka
cyfr
oweg
o(d
etek
cja
wyk
onan
iage
stu)
oraz
emul
acja
joys
tick
aan
alog
oweg
o(p
omia
rin
-te
nsyw
nośc
ige
stu)
.
2W
ybór
obie
ktu
•wyb
ór1
•wyb
ór2
•AU
1+2
•AU
4
Em
ulac
jale
weg
oi
praw
ego
klaw
isza
mys
zki.
Wod
róż-
nien
iuod
mim
owol
nego
mru
gani
a,m
rugn
ięci
ap
owin
nyby
ćdł
uższ
e.
3U
staw
ieni
eb
ez-
poś
redn
ieor
ien-
tacj
iel
emen
tu
•rot
acja
X•r
otac
jaY
•rot
acja
Z
•AU
51,
AU
52•A
U53
,A
U54
•AU
55,
AU
56
Ori
enta
cja
tylk
ow
niew
ielk
imza
kres
ie(±
45 )
iz
mał
ąro
zdzi
elcz
ości
ą.P
robl
em1
–ko
niec
znoś
ćdo
datk
oweg
osy
gnał
udl
aod
różn
ieni
ast
anu
zmia
nyro
tacj
iod
stan
up
owro
tugł
owy
dop
ołoż
enia
poc
zątk
oweg
o.P
robl
em2
–du
żyob
rót
głow
yp
owod
uje
znik
nięc
iem
onit
ora
zp
o-la
wid
zeni
acz
łow
ieka
.Wpr
zypa
dku
poś
redn
iej
zmia
nyor
ient
acji
(na
zasa
dzie
joys
tick
aan
alog
oweg
o)pr
oble
m1
znik
a.
34
3.4. WYBÓR ELEMENTÓW MIMIKI POTENCJALNIE PRZYDATNYCH DOSTEROWANIA
Tab
ela
3.6:
Wyb
rane
elem
enty
mim
iki
pot
encj
alni
epr
zyda
tne
dore
aliz
acji
elem
enta
rnyc
hza
dań
—cz
.2
Nr
Ele
men
tarn
eza
dan
ia
Wym
agan
esy
gnał
yst
eru
jące
Od
pow
iad
ają
ceel
emen
tym
imik
i(w
gFA
CS
)U
wag
i
4P
ośre
dnie
wsk
a-za
nie
poz
ycji
naek
rani
e(s
pos
ób2)
•pra
wo
•lew
o•g
óra
•dół
•AU
52•A
U51
•AU
53•A
U54
Moż
liwe
dwa
tryb
ypr
acy:
emul
acja
joys
tick
acy
frow
e-go
(det
ekcj
aw
ykon
ania
gest
u)or
azem
ulac
jajo
ysti
cka
anal
ogow
ego
(pom
iar
inte
nsyw
nośc
ige
stu)
.
5P
ośre
dnie
wsk
a-za
nie
poz
ycji
naek
rani
ei
wyb
ór
•pra
wo-
lew
o•g
óra
•dół
•wyb
ór
•AU
46•A
U1+
2•A
U4
•AU
19
Ele
men
tA
U46
moż
eby
ćw
ykon
any
nies
ymet
rycz
nie
(pra
we/
lew
eok
o).
Mru
gani
em
oże
pow
odow
aćog
rani
-cz
enie
wid
zial
nośc
izm
ian
naek
rani
e.P
oten
cjal
naza
le-
ta–
ster
owan
ieku
rsor
emty
lko
pop
rzez
mim
ikę
górn
ejcz
ęści
twar
zy.
Ges
tydo
lnej
częś
citw
arzy
mog
ązo
stać
użyt
edo
emul
acji
przy
cisk
óww
ybor
uzd
efini
owan
ych
akcj
i(n
p.C
iD
).
6
Wyb
rani
eje
dneg
oze
zdefi
niow
anyc
hw
cześ
niej
elem
en-
tów
•A •B •C •D
•AU
1+2
•AU
4•A
U25
(AU
26)
•AU
14
Em
ulac
jana
ciśn
ięci
ade
dyko
wan
ego
przy
cisk
u.P
rzyc
i-sk
iA
,B
–m
imik
agó
rnej
częś
citw
arzy
.P
rzyc
iski
C,
D–
mim
ika
doln
ejcz
ęści
twar
zy.
35
ROZDZIAŁ 3. OKREŚLENIE I WYBÓR ROZPOZNAWANYCH ELEMENTÓW MIMIKI
Tab
ela
3.7:
Wyb
rane
elem
enty
mim
iki
pot
encj
alni
epr
zyda
tne
dore
aliz
acji
złoż
onyc
hza
dań
Nr
Zło
żon
eza
dan
iaW
ym
agan
esy
gnał
yst
eru
jące
Od
p.
elem
enty
mim
iki
(wg
FA
CS
)
Uw
agi
1
Prz
eglą
dani
eot
war
tego
doku
men
tulu
bob
razu
•prz
esuw
anie
zaw
arto
ści
teks
tugó
ra-d
ół•p
rzes
uwan
iest
rony
„pag
eup
/dow
n”•z
mia
nask
ali
„zoo
min
/out
”
•AU
1+2,
AU
4•A
U46
•AU
25(A
U26
)or
azA
U14
+A
U12
Ele
men
tA
U46
moż
eby
ćw
ykon
any
nies
yme-
tryc
znie
(pra
we/
lew
ook
o).
2N
awig
acja
nast
rona
chW
WW
•wsk
azan
iep
ozyc
jiku
rsor
a(p
raw
o,le
wo,
góra
,dó
ł)•p
rzes
uwan
ieza
war
tośc
ite
kstu
góra
-dół
•prz
ejśc
iedo
pop
rzed
niej
/nas
tępn
ejst
rony
•odś
wie
żeni
est
rony
•AU
14(l
/p),
AU
12,
AU
15•A
U1+
2,A
U4
•AU
46(l
/p)
•AU
25(A
U26
)
Ele
men
tyA
U14
iA
U46
mog
ąby
ćw
ykon
ane
nies
ymet
rycz
nie
(pra
wa/
lew
ast
rona
twar
zy).
3W
spom
agan
iero
zpoz
naw
ania
mow
y„v
isem
y”—
Kon
iecz
nep
owią
zani
eje
dnos
tek
czyn
nośc
io-
wyc
hz
„vis
emam
i”lu
bw
ykor
zyst
anie
wyg
lą-
du„v
isem
ów”
36
Rozdział 4
Atrybuty elementów mimiki
Streszczenie
Rozpoznawanie różnych elementów mimiki w oparciu o informacje wy-odrębnione z obrazu, wymaga określenia atrybutów oraz cech charaktery-stycznych opisujących poszczególne gesty mimiczne (np. kształt, zależno-ści geometryczne, wygląd...). Temu zagadnieniu poświęcony jest niniejszyrozdział. Dokonana analiza elementów mimiki pozwoliła na zdefiniowaniepodstawowych atrybutów oraz odpowiadających im cech, które mogą zostaćnastępnie wyodrębnione z obrazu.
4.1 Wstęp
Analizując bardziej szczegółowo wybrane elementy mimiki (dodatek: B, tabele:B.4 do B.13), można zauważyć że gesty mimiczne powodują powstawanie róż-nych zmian w wyglądzie twarzy. Zmiany te mogą zostać wykorzystane do wy-odrębnienia z obrazu danego gestu. Przykładowo — marszczenie brwi (rys. B.2)skutkuje m.in. opuszczeniem oraz przyciągnięciem brwi do siebie połączonym zwywołaniem różnego rodzaju zmarszczek (zmiana wyglądu). Z kolei podczas uno-szenia brwi (rys. B.1) następuje wyraźna zmiana kształtu brwi (powstają równieżzmarszczki). Istotna dla gestów mimicznych jest również szybkość ich wykonania.
Opierając się na powyższych obserwacjach przyjęto, że elementy mimiki mogąskładać się z następujących elementarnych atrybutów:
• Atrybuty stałe, związane z budową morfologiczną twarzy (oczy, usta, brwi,bruzdy). Są one widoczne cały czas i mogą podlegać deformacji w zależnościod rodzaju gestu. Zaliczamy do nich: kształt elementów twarzy (np. brwi)oraz ich wzajemne położenie (np. wielkość szczeliny ust).
37
ROZDZIAŁ 4. ATRYBUTY ELEMENTÓW MIMIKI
• Atrybuty zmienne, wśród których wymienić należy różnego rodzaju zmarszcz-ki, bruzdy oraz fałdy skórne. Może wystąpić również deformacja już istnie-jących bruzd lub pogłębienie zmarszczek. Powstają one podczas ruchówmimicznych i wywołują najczęściej lokalne zmiany wyglądu.
• Atrybuty dynamiczne takie jak np. szybkość wykonania gestu lub trajektoriaruchu. Mimo iż człowiek jest w stanie rozpoznać np. emocje ze statyczne-go obrazu, dynamika zmian wyglądu twarzy niesie dużą część informacji.Dlatego też uwzględnienie tego aspektu może ułatwić proces rozpoznawaniamimiki. Przykładem wykorzystania dynamiki może być odróżnienie gestówwykonywanych intencjonalnie od wykonywanych mimowolnie (mruganie odprzymknięcia oczu).
Przedstawione powyżej atrybuty stanowią raczej abstrakcyjną reprezentację ele-mentów mimiki. Aby były one użyteczne do rozpoznawania, konieczne jest zgro-madzenie ewidencji o wystąpieniu danego atrybutu na obrazie (cechy charakte-rystyczne). Przykładowo, jeśli obiekt jest reprezentowany przez jego kształt, tospodziewać się można istnienia na obrazie krawędzi odpowiadających konturowiobiektu.
Wybór cech jest istotnym zagadnieniem, od którego zależy skuteczność rozpo-znawania oraz złożoność obliczeniowa algorytmów. Zagadnienia te opisane zostaływ bardzo interesujący sposób w [19][47], gdzie można znaleźć informacje na temattego w jaki sposób zmieniało się podejście do rozpoznawania w trakcie rozwojudziedziny przetwarzania i analizy obrazów.
4.2 Atrybuty stałe — kształt
Badania nad percepcją człowieka [7], dowiodły że do rozpoznania obiektu czło-wiek wykorzystuje głównie informację o kształcie. W przypadku kształtu, możebyć on reprezentowany na wiele sposobów, które można podzielić na trzy kate-gorie [18]:
• Kontury — przybliżenie kształtu przy pomocy parametryzowanych kon-turów [3][46], zestawu punktów charakterystycznych lub też aproksymacjikrzywej [72].
• Regiony — dekompozycja kształtu na prostsze elementy składowe [34],aproksymacja predefiniowanym elementem geometrycznym, lub reprezenta-cja przy pomocy zestawu cech związanych z wnętrzem kształtu (np. szkie-let) [76].
• Transformacje — kształt reprezentowany przez parametry liniowej lub nie-liniowej transformacji przestrzennej z kształtu bazowego, np. transformataHouga [20].
38
4.3. ATRYBUTY ZMIENNE — LOKALNE ZMIANY WYGLĄDU
Z powyższych reprezentacji możliwe jest uzyskanie zestawu cech charakterystycz-nych opisujących dany kształt. W najprostszym przypadku mogą to być, częstowykorzystywane, współczynniki kształtu. Możliwe jest również opisanie kształ-tu przy pomocy sygnałów jednowymiarowych (np. orientacja wzdłuż konturu),oraz wykorzystanie algorytmów takich jak transformacja Fouriera lub falkowa.Bardziej zaawansowane algorytmy, oparte o analizę statystyczną, pozwalają nauwzględnienie zmienności kształtu obiektów tej samej klasy. Wymienić tu należyaktywne modele kształtu (ang. active shape models, point distributed models)[16].
4.3 Atrybuty zmienne — lokalne zmiany wyglądu
W przypadku, występujących podczas ruchów mimicznych deformacji istnieją-cych oraz powstawania nowych zmarszczek i bruzd, kształt nie jest wiarygodnymatrybutem. Konieczne jest wyodrębnienie z obrazu lokalnych zmian wyglądu.Można do nich zaliczyć m.in.:
• Teksturę — określenie zmian tekstury skóry wywołanych mimiką realizowa-ne jest przez metody dopasowania wzorców (ang. template matching). Donajprostszych można zaliczyć znormalizowaną korelację (ang. normalizedcross-corelation) wykorzystaną w systemie rozpoznawania mimiki zapropo-nowanym przez Margrit Betke [6]. Do opisu tekstury wykorzystuje się rów-nież liniową transformację PCA (analiza składowych głównych) [91] orazsieci neuronowe [82].
• Lokalną orientację krawędzi — uwypuklanie się zmarszczek i bruzd powo-duje powstawanie i znikanie krawędzi na obrazie. Ilościowy i jakościowypomiar stopnia zmian może być wykonany przy pomocy lokalnych histo-gramów orientacji [28][85].
• Lokalne cechy obrazu — uwypuklanie się zmarszczek i bruzd powoduje rów-nież powstawanie i znikanie innych cech. Do ich wykrycia bardzo dobrzenadają się falki Gabora, które umożliwiają detekcję cech w różnych ska-lach i orientacjach [89]. Dodatkową zaletą falek Gabora jest ich teoretycznaniewrażliwość na zmiany oświetlenia sceny. Działanie tych falek można po-równać do operacji realizowanych przez pierwszorzędową korę wzrokowączłowieka [67]. Do opisu zmian obrazu wywołanych mimiką, wykorzystanymoże być również algorytm SIFT (ang. Scale Inwariant Features Trans-form), który pozwala na detekcję cech charakteryzujących się odpornościąna obrót, zmianę skali oraz pewną odpornością na zmiany oświetlenia [65].
39
ROZDZIAŁ 4. ATRYBUTY ELEMENTÓW MIMIKI
4.4 Atrybuty dynamiczne — ruch i jego trajektoria
Istotnym elementem mimiki są jej dynamiczne atrybuty. Szybkość wykonaniagestu mimicznego, trajektoria ruchu poszczególnych cech lub kolejność wykony-wania jednostek czynnościowych, niosą również istotne informacje. Wśród metodpozwalających na detekcję zmian można wyróżnić m.in.:
• Detekcję ruchu — wykrycie ruchu w określonym miejscu na obrazie twarzystanowi istotną przesłankę o wykonywanym geście mimicznym. Przykła-dowo wykrycie zmian w obszarze ust może świadczyć o wykonaniu gestuustami (uśmiech, otwarcie ust, itp.). Wśród metod wykorzystywanych wrozpoznawaniu mimiki znaleźć można algorytm wykorzystujący szablonyruchu [92].
• Wykorzystanie modeli ruchu. Wykonanie gestu powoduje ruch niektórychelementów charakterystycznych twarzy (np. brwi). Śledzenie tych zmianw czasie pozwala na estymację parametrów ruchu, m.in. trajektorii orazszybkości. W praktyce stosowany jest filtr Kalmana, lub w przypadku niespełnienia założeń tego filtru (nieliniowości, wielomodalny rozkład szumuobserwacji), filtr cząsteczkowy (ang. particle filter, condensation algorithm)[8]. Oprócz śledzenia cech wykorzystywana jest również informacja uzyskanaz analizy lokalnego przepływu optycznego (ang. local optic flow).
40
Rozdział 5
Elementy systemuautomatycznego rozpoznawaniamimiki
Streszczenie
Rozpoznawanie obiektów przez ludzi wydaje się łatwe i bezproblemowe.Na podstawie ogólnej wiedzy o danym obiekcie, np. sylwetka ludzka — czło-wiek natychmiast jest w stanie rozpoznać nowe osoby, niezależnie od tego zjakiego punktu widzenia są one obserwowane czy też np. siedzą lub stoją.Z punktu widzenia komputerowej analizy obrazów, rozpoznawanie wyma-ga wyodrębnienia z obrazu użytecznej informacji na temat interesującychobiektów.
W rozdziale zaproponowano schemat struktury systemu automatycznegowyodrębniania z obrazu elementów mimiki, zawierający kilka bloków skła-dowych realizujących wymagane zadania. Omówione zostały etapy przetwa-rzania i analizy obrazu, na które składają się: selektywne przetwarzanie in-formacji (segmentacja), detekcja i lokalizacja twarzy, wyodrębnianie cech,klasyfikacja oraz adaptacja systemu. Wśród istotnych rezultatów wymienićmożna opracowaną metodę doboru przestrzeni barw dla algorytmu segmen-tacji oraz algorytm detekcji twarzy.
5.1 Wstęp
Jedną z podstawowych funkcji systemu wzrokowego człowieka jest rozpoznawa-nie obiektów, czyli zdolność do powiązania informacji docierającej do ludzkiegooka (fale elektromagnetyczne) z posiadaną wiedzą na temat otaczającego świa-ta. Pozwala to człowiekowi na wyciąganie wniosków oraz podejmowanie działań.
43
ROZDZIAŁ 5. ELEMENTY SYSTEMU AUTOMATYCZNEGO ROZPOZNAWANIAMIMIKI
Przykładem może być powitanie osoby znajomej dzięki rozpoznaniu jej twarzylub określenie jej zamiarów poprzez obserwację mimiki.
Istnieje bogata literatura poświęcona ludzkiemu systemowi wzrokowemu, wśródwielu publikacji wymienić można pracę powstałą w Katedrze Automatyki AGH[58]. W niniejszym rozdziale przedstawiono natomiast spojrzenie na problem zpunktu widzenia komputerowej analizy obrazów.
„Celem sztucznego przetwarzania lub analizy obrazu jest takie automatyczneprzetworzenie i przeanalizowanie obrazu wybranych obiektów lub całego otocze-nia systemu zautomatyzowanego, aby uzyskać użyteczną informację na temat in-teresujących obiektów (np. będących przedmiotem manipulacji ze strony robotaprzemysłowego) lub na temat otoczenia, które może wpływać (i zwykle znaczącowpływa) na sterowany automatycznie proces” [84].
Klasyczny schemat komputerowego przetwarzania obrazu przedstawiony zo-stał na rysunku 5.1. Składa się on z kilku etapów — począwszy od akwizycjiobrazów, a skończywszy na rozpoznaniu obrazu i jego semantycznej interpretacji.Celem wstępnego przetwarzania jest eliminacja zakłóceń, często poprawa jako-ści obrazu (np. wyostrzanie), oraz wyeksponowanie istotnych cech (np. detekcjakrawędzi). Za nim następuje etap analizy pozwalający na wyodrębnienie z ob-razu interesujących obiektów lub ich części (segmentacja), oraz wydobycie cechcharakteryzujących obiekty (np. współczynniki kształtu). W literaturze podejścietakie określane jest często jako „metody oparte na ekstrakcji cech” (ang. feature-based approaches). Możliwe jest również bezpośrednie rozpoznanie obrazu z po-minięciem etapu analizy (ang. image-based approaches). Przykładem mogą byćmetody dopasowania wzorców, w których zawartość obrazu porównywana jestbezpośrednio z zapamiętanym wzorcem wyglądu obiektu.
W kontekście automatycznego rozpoznawania elementów mimiki, klasycznyschemat przetwarzania obrazu przedstawia się zazwyczaj w odmienny sposób[26]. Na rysunku 5.2 przedstawiono schemat systemu rozpoznawania mimiki za-adoptowany i dostosowany na potrzeby niniejszej rozprawy.
Pierwszym etapem jest recepcja obrazu oraz selektywne przetwarzanie infor-macji, których celem jest wydzielenie z obrazu obszarów zawierających użytecz-ne dane. Proces ten porównać można do działania drogi wzrokowej człowieka,w szczególności funkcjonalności ciała kolankowatego bocznego, odpowiedzialnegoza porządkowanie informacji o kolorze, ruchu i formie [58].
Kolejnym etapem jest detekcja i lokalizacja twarzy na obrazie, której celemjest odróżnienie twarzy od innych obiektów występujących na scenie oraz segmen-tacja obszarów zainteresowań. Etap ten często łączony jest z normalizacją twarzy(pod względem skali, orientacji połączonej z korektą jasności), aczkolwiek istniejąmetody rozpoznawania, które tego nie wymagają. W literaturze funkcjonuje wielerodzajów usystematyzowania i pogrupowania metod detekcji i lokalizacji twarzy[37],[99].
44
5.1. WSTĘP
Rysunek 5.1: Operacje składające się na proces automatycznego widzenia.
Ponieważ elementy mimiki mogą mieć różny charakter, konieczne jest wyod-rębnianie z obrazu cech opisujących poszczególne gesty mimiczne. Takimi cechamimogą być np. kształt, zależności geometryczne, kolor lub też bezpośredni wyglądobiektu. Z etapem tym ściśle łączy się kolejny krok algorytmu jakim jest roz-poznawanie elementów mimiki. Podczas rozpoznawania, dane będące wynikiemetapu wyodrębniania cech podlegają klasyfikacji do jednej z założonych wcześniejkategorii. Obszerną systematykę metod rozpoznawania elementów mimiki możnaznaleźć w pracy [26]. Zagadnienia te zostały opisane w rozdziałach 6 oraz 7.
Duża zmienność wyglądu twarzy oraz elementów mimiki, wynikająca z wpły-wu wielu czynników, powoduje iż praktycznie niemożliwe jest opracowanie jednejuniwersalnej metody rozpoznawania. Dlatego istotnym zagadnieniem przy pro-jektowaniu systemu rozpoznawania mimiki, jest jego dostosowywanie się do czło-wieka oraz zmieniających się warunków otoczenia. Zagadnienia adaptacji zostałyopisane w rozdziale 8.
45
ROZDZIAŁ 5. ELEMENTY SYSTEMU AUTOMATYCZNEGO ROZPOZNAWANIAMIMIKI
Rysunek 5.2: Ogólny schemat systemu rozpoznawania mimiki.
5.2 Selektywne przetwarzanie informacji oraz segmenta-cja obszarów zainteresowań
W procesie postrzegania sceny przez człowieka istotną rolę pełni selektywne prze-twarzanie informacji istotnych dla aktualnie przyjętego celu działania. Potwier-dzają to rezultaty badań funkcjonowania zmysłu wzroku oraz kory wzrokowej(ang. visual cortex) [31]. Przykładem skupiania uwagi na wybranych elementachpostrzeganej sceny jest rozmowa z drugą osobą — człowiek często spogląda natwarz rozmówcy aby zorientować się w jego aktualnym stanie emocjonalnym.Skupiając uwagę na elementach twarzy (brwi, oczy, usta) oczekuje ich zmian wzależności od mimiki i jej znaczenia (radość, gniew, smutek, zaskoczenie). Dzię-ki temu człowiek może zareagować w odpowiedni sposób. Trzeba jednak zwrócićuwagę iż sam proces selektywnego przetwarzania informacji nie jest równoznacznyz prawidłowym rozpoznaniem rzeczywistego obiektu. Często zdarza się że „wi-dzimy tylko to czego się spodziewamy”. Przykładem mogą być różnego rodzajuiluzje takie jak na rysunku 5.3.
Z selektywnym przetwarzaniem informacji związany jest również proces gru-powania percepcyjnego (ang. perceptual grouping). Tematyka ta omówiona zo-
46
5.2. SELEKTYWNE PRZETWARZANIE INFORMACJI, SEGMENTACJA
Rysunek 5.3: Przykład optycznej iluzji — „trójkąt Kanizsa”.
stała w teorii percepcji, nazywanej teorią Gestalt (ang. gestalt psychology), którazostała zaproponowana przez berlińską szkołę psychologii na początku XX wieku[48][94]. Opisywała ona pierwotnie organizowanie przez system nerwowy człowie-ka percepcji i spostrzeżeń odbieranych ze wzrokowego pola widzenia. Zauważono,iż ludzie mają tendencję do grupowania i konfigurowania bodźców pochodzącychz wzrokowego pola widzenia wg zasad: bliskości, podobieństwa, domykania sięw pewną całość oraz wyróżnionej cechy prostoty. Później twórcy teorii Gestaltuogólnili te zasady na opis działania innych zmysłów oraz przenieśli spostrzeże-nia na pole psychologii, dostrzegając, że te same prawa dotyczą także zjawiskpsychicznych.
W kontekście rozpoznawania obrazów przez maszynę, selektywne przetwarza-nie informacji ma istotne znaczenie i realizowane jest najczęściej poprzez seg-mentację. W literaturze proces segmentacji określany jest również jako problemgrupowania przestrzennego pikseli (ang. spatial grouping). W przypadku analizyobrazów dynamicznych (sekwencja video), konieczne jest również uwzględnieniekontekstu czasowego (ang. correspondence problem). Polega on na ustanowieniuasocjacji czasowych pomiędzy elementami obrazu należącymi do tej samej czę-ści fizycznego obiektu. Segmentacja która stanowi wstępny etap przetwarzania,zapewnia szereg wskazówek dla algorytmów rozpoznawania obrazu. Pozwala nazawężenie obszaru poszukiwań, poprzez wyeliminowanie pikseli które nie są istot-ne dla dalszej analizy. Zawężenie obszaru poszukiwań skutkuje zmniejszeniemczasu obliczeń, a w konsekwencji ułatwia pracę systemu w czasie rzeczywistym.
Do najczęściej wykorzystywanych w selektywnym przetwarzaniu informacjimetod można zaliczyć:
• Kolor — odgrywa istotną rolę w rozumieniu obrazu przez człowieka. Jestsilną wskazówką odporną na zmiany skali, orientacji oraz przysłonięcie czę-ści obiektu.
• Ruch — pozwala na stwierdzenie czy w obserwowanej scenie zaszły jakieś
47
ROZDZIAŁ 5. ELEMENTY SYSTEMU AUTOMATYCZNEGO ROZPOZNAWANIAMIMIKI
zmiany np. w położeniu cech. Powoduje zmiany intensywności pikseli ob-razu.
• Tekstura powierzchni — umożliwia odróżnienie od siebie części obiektóworaz wyznaczenie ich kształtu.
• Rozbieżność stereoskopowa (ang. stereo disparity) — pozwala na ocenę od-ległości.
• Charakterystyczne cechy (ang. salient features) — widoczne cechy obiek-tów odróżniające się w dużym stopniu od otoczenia (np. plamy, krawędzie,narożniki).
Z powyższych wskazówek szczególnie użyteczny w systemach detekcji twarzyjest kolor, który odgrywa istotną rolę w rozumieniu obrazu przez człowieka. Po-zwala na odróżnienie od siebie obiektów — wśród nich wyróżnić można m.in.twarze innych ludzi. Również w komputerowej analizie obrazów wykorzystuje sięinformacje o kolorze do segmentacji obszarów zainteresowań (ang. ROI — regionof interest).
5.2.1 Segmentacja na podstawie barwy skóry
Barwa skóry człowieka teoretycznie jest niezależna od rasy (z wyjątkiem albino-sów) [37], dlatego też segmentacja w oparciu o kolor pozwala na wydzielenie miejscobrazu w których istnieje duże prawdopodobieństwo wystąpienia twarzy. Wynikimogą zostać wykorzystane do właściwej detekcji i lokalizacji twarzy. Właściwo-ści niektórych przestrzeni kolorów (YCbCr) pozwalają również na wydzielenie zobrazu potencjalnych obszarów oczu oraz ust [38]. Jest to pomocne w weryfikacjiwyników detekcji twarzy.
W pracy [14] autorzy skupili się na automatycznej segmentacji twarzy przyużyciu mapy kolorów skóry człowieka. Celem prowadzonych badań była inteli-gentna selekcja informacji z obrazu dla potrzeb aplikacji wideotelefonu. W ar-tykule [74] przedstawiona została realizacja podobnego celu — wybór obszarówzainteresowań dla potrzeb systemu kodowania i kompresji sygnału wideo. Seg-mentacja i śledzenie twarzy stanowi w opisywanym systemie istotny element re-alizowany poprzez użycie danych o kolorze. W wielu przypadkach segmentacjaoparta o barwę skóry jest częścią etapu detekcji i rozpoznawania twarzy [38].Często skuteczność detekcji zwiększa się poprzez kompensację oświetlenia i wy-korzystanie dodatkowej wiedzy (np. budowa morfologiczna twarzy). W kontek-ście wykorzystania koloru wymienić również należy prace prowadzone w polskichośrodkach naukowych. Jedną z nich jest segmentacja twarzy dla potrzeb systemurozpoznawania mimiki [41] — laboratorium Biocybernetyki AGH. Interesującezastosowanie przedstawiła autorka pracy doktorskiej [57] — wykorzystanie in-
48
5.2. SELEKTYWNE PRZETWARZANIE INFORMACJI, SEGMENTACJA
formacji o barwie skóry w algorytmie rozpoznawania znaków polskiego alfabetupalcowego.
Wykorzystanie informacji o kolorze wymaga określenia dwóch podstawowychzałożeń:
• wybór przestrzeni barw (ang. color space) — różne przestrzenie kolorówcharakteryzują się różnymi własnościami,
• sposób modelowania rozkładu kolorów segmentowanego obiektu.
Jedną z podstawowych przestrzeni barw jest RGB, szeroko wykorzystywa-ny w torach obróbki sygnału wizyjnego. Większość barw można wywołać przezzmieszanie w ustalonych proporcjach trzech wiązek światła o barwie czerwonej,zielonej i niebieskiej, czyli światła o odpowiedniej częstotliwości fali elektromagne-tycznej. Przestrzeń kolorów RGB stanowi również punkt wyjścia do transformacjipikseli obrazu do innych przestrzeni barw. Wykorzystanie RGB do segmentacjiskóry człowieka napotyka na szereg trudności, wynikających ze specyfiki tej prze-strzeni. Przede wszystkim zwrócić należy uwagę na istnienie wysokiej korelacjipomiędzy składowymi oraz brak odseparowania informacji o chrominancji i lu-minancji. Istotny jest również brak percepcyjnej jednolitości (ang. perceptualuniformity) polegający na tym, że jednostkowe zmiany jednej ze składowej nie sątak samo postrzegane dla różnego zakresu tej składowej [1]. Dlatego w algoryt-mach segmentacji wykorzystuje się inne przestrzenie barw, otrzymywane poprzezodpowiednie transformacje:
• znormalizowana RGB [38],
• HSI, HSV, HSL (Hue Saturation Intensity – Value, Lightness), [60],
• YCrCb [14],
• inne.
Więcej informacji na temat wykorzystania różnych przestrzeni kolorów możnaznaleźć w pracy [77].
Celem modelowania rozkładu kolorów jest segmentacja obiektu (twarz, ręka)— inaczej mówiąc określenie reguły decyzyjnej pozwalającej na zaklasyfikowaniedanego piksela jako części obiektu lub tła. Wśród stosowanych metod wyróżnićmożna:
• segmentację poprzez bezpośrednie określenie zestawu reguł [66],
• metody nieparametryczne nie wymagające modelu lecz bezpośrednio wy-korzystujące rozkład statystyczny kolorów pikseli uzyskany z analizy przy-kładów [78],
49
ROZDZIAŁ 5. ELEMENTY SYSTEMU AUTOMATYCZNEGO ROZPOZNAWANIAMIMIKI
• metody parametryczne, w których na podstawie danych uczących tworzonyjest model rozkładu kolorów [95],
• metody dynamiczne wykorzystywane w przypadku jednoczesnej detekcji iśledzenia twarzy.
Zestawienie różnych metod modelowania rozkładu kolorów i segmentacji możnaznaleźć w pracy [93].
5.2.2 Dobór przestrzeni kolorów oraz metody segmentacji
Istnieje wiele metod segmentacji wykorzystujących różne przestrzenie kolorów.Porównanie skuteczności różnych metod segmentacji w oparciu o kolor jest trudneze względu na testowanie dla różnych baz danych zawierających obrazy twarzypobrane w różnych warunkach i różnymi kamerami.
Z punktu widzenia systemu rozpoznawania mimiki istotny jest odpowiedniwybór reprezentacji kolorów oraz sposobu modelowania pikseli skóry człowieka.W niniejszej pracy porównano następujące przestrzenie kolorów: znormalizowanąRGB, HSV oraz YCbCr. Spośród metod segmentacji wybrano do porównanianastępujące: bezpośrednie określenie zestawu reguł, znormalizowane tablice prze-kodowań (ang. LUT – look-up-table) oraz gaussowski model barwy skóry. Opisprzestrzeni kolorów oraz metod segmentacji zamieszczony został w dodatku A(rozdziały: A.1 oraz A.2). W dalszej części rozprawy używane będzie pojęcie„modelu barwy skóry”, które odnosi się do sposobu reprezentacji barwy skóryczłowieka, dla potrzeb algorytmów segmentacji.
W celu obiektywnego porównania skuteczności segmentacji przy pomocy róż-nych metod i przestrzeni kolorów, na wybranych obrazach sekwencji video (uzna-nych za referencyjne) wyznaczono manualnie obszary zawierające piksele repre-zentujące skórę twarzy. W ten sposób utworzona została binarna maska twarzy(rys. 5.4).
Rysunek 5.4: Przykładowy obraz sekwencji zawierający twarz (a) oraz przyjętamaska twarzy (b).
50
5.2. SELEKTYWNE PRZETWARZANIE INFORMACJI, SEGMENTACJA
Następnie zdefiniowano kryterium porównawcze, w postaci funkcji celu (5.1):
fs(ψ) =nbnonfacennonface
− nbfacenface
(5.1)
gdzie:
fs(ψ)− funkcja celu
nbface − ilość pikseli poprawnie zaklasyfikowanych do skóry w obszarzemaski twarzy
nface − całkowita ilość pikseli obszarze maski twarzy
nbnonface − ilość pikseli niepoprawnie zaklasyfikowanych do skóry poza ob-szarem maski twarzy
nnonface − całkowita ilość pikseli poza obszarem maski twarzy
Funkcja przyjmuje wartość minimalną dla przypadku gdy wszystkie pikselenależące do twarzy, zostały poprawnie do niej zaklasyfikowane oraz piksele tłazostały zaklasyfikowane do obszaru tła.
Ta sama funkcja celu zastosowana została także do automatycznego tworzeniamodeli barwy skóry dla poszczególnych metod. W przypadku metody bezpośred-niego określenia zestawu reguł, modelem są wyznaczone progi binaryzacji po-szczególnych składowych koloru (Cb-Cr, Y, r-g1). Optymalne progi wyznaczonominimalizując funkcję celu (5.2):
minψ
fs(ψ) (5.2)
Jako wartości początkowe wektora parametrów przyjęto progi określone jako prze-dział dwóch odchyleń standardowych od wartości oczekiwanej pikseli w obszarzemaski twarzy (5.3):
µξ ± 2 · stdξ (5.3)
Dodatkowo w funkcji celu następuje sortowanie wartości progów co pozwalauniknąć sytuacji, gdy dolny próg jest większy od górnego. Optymalizacji doko-nano przy pomocy funkcji fmincon z modułu Optimization Toolbox środowi-ska MATLAB, która opiera się na metodzie sekwencyjnego programowania SQP(ang. Sequential Quadratic Programming). Na rysunku 5.5 pokazane są wyni-ki segmentacji dla progów przyjętych jako wartości początkowe oraz dla progówwyznaczonych poprzez optymalizację przyjętej funkcji celu.
W metodach opartych o tablice przekodowań (LUT) oraz gaussowskiej funk-cji rozkładu prawdopodobieństwa, rezultatami są obrazy prawdopodobieństwa —wartościom bliskim 1 odpowiadają piksele należące z dużą pewnością do twarzy,
1w rozprawie użyto oznaczenia „r-g” dla składowych znormalizowanej przestrzeni RGB
51
ROZDZIAŁ 5. ELEMENTY SYSTEMU AUTOMATYCZNEGO ROZPOZNAWANIAMIMIKI
Rysunek 5.5: Wyniki segmentacji: (a) dla progów przyjętych wg kryterium (5.3),(b) dla progów wyznaczonych metodą minimalizacji funkcji celu (5.2)
wartościom w pobliżu zera — tła. Obrazy te mogą zostać wykorzystane bezpo-średnio, np. w dalszej analizie skupień, bądź też można z nich uzyskać obrazybinarne. W tym celu konieczne jest określenie progu pozwalającego na klasyfi-kację pikseli do jednej z dwu kategorii — twarz i tło. Próg ten jest wyznaczanyautomatycznie poprzez optymalizację funkcji celu. Ponieważ w tym przypadkufunkcja jest jednowymiarowa, wystarczające jest obliczenie jej wartości dla linio-wo zmieniającego się progu binaryzacji oraz znalezienie minimum — wykres (rys5.6).
Rysunek 5.6: Wykres funkcji celu dla przypadku jednowymiarowego.
Porównanie rezultatów segmentacji przeprowadzono dla obrazów sekwencjivideo pochodzących z różnych kamer, w odmiennych sytuacjach oraz w różnychwarunkach oświetleniowych:
• sekwencja 1 — kamera EVI, optymalne warunki akwizycji (jednolite tło,natężenie oświetlenia około 320lux), (rys. 5.7a),
• sekwencja 2 — kamera EVI, słabe oświetlenie (jednolite tło, natężenieoświetlenia około 40lux), (rys. 5.7b),
52
5.2. SELEKTYWNE PRZETWARZANIE INFORMACJI, SEGMENTACJA
• sekwencja 3 — kamera USB Creative WebCam, skomplikowana scena iwarunki akwizycji (tzn. skomplikowane tło, boczne oświetlenie, okulary),(rys. 5.7c),
• sekwencja 4 — kamera EVI, skomplikowana scena i warunki akwizycji (tzn.skomplikowane tło, boczne oświetlenie, okulary), (rys. 5.7d).
Każdy obraz został poddany operacji usuwania szumów (filtr medianowy o masce5*5). Segmentację przeprowadzono dla wcześniej opisanych przestrzeni koloróworaz metod.
Rysunek 5.7: Przykładowe obrazy z wybranych sekwencji video.
Rezultaty segmentacji twarzy, wraz z wyznaczonymi wartościami funkcji celu,zamieszczone zostały w dodatku D (rysunki D.1 — D.4, tabele D.1 — D.4).
W przypadku dobrych warunków akwizycji i braku na scenie obiektów o bar-wie skóry, wyniki segmentacji są dobre i pozwalają na wyodrębnienie z obrazutwarzy. Wybór metody oraz przestrzeni kolorów nie jest krytyczny, aczkolwiekmetoda wykorzystująca zestaw reguł okazuje się najskuteczniejsza (najmniejszawartość funkcji celu).
Duży wpływ na skuteczność algorytmu ma nieprawidłowe oświetlenie sceny(sekwencja 2). W tym przypadku wybór odpowiedniej metody oraz przestrzenikolorów jest istotny dla prawidłowej segmentacji. W szczególności boczne oświe-tlenie (często spotykane ze względu na typowe ustawienie biurka komputera) maniekorzystny wpływ. Wynika to z powstawania cieni, które znacząco wpływają narejestrowaną barwę skóry. Widoczne jest to na dwuwymiarowych histogramachrozkładu prawdopodobieństwa kolorów pikseli (rys 5.8). W przypadku oświetleniajednorodnego rozkład jest zgodny z teorią [93] — barwa skóry człowieka tworzyteoretycznie w przestrzeni kolorów zwarty, niewielki obszar (rozkład prawdopo-dobieństwa pikseli obszaru skóry normalny lub skośny). Natomiast dla bocznegooświetlenia rozkład jest wielomodalny.
Podczas eksperymentów natrafiono na sytuację, gdy prawidłowo dobrane pro-gi segmentacji (metody regułowa), były nieskuteczne do segmentacji innych obra-zów tej samej sekwencji wideo. Dlatego konieczne okazało się sprawdzenie stabil-ności progów dla testowanych sekwencji. W tym celu wyznaczono progi binary-zacji na wybranym z sygnału wideo obrazie, a następnie dla pozostałych obrazówsekwencji (kilkadziesiąt obrazów pobranych dla stabilnych globalnych warunków
53
ROZDZIAŁ 5. ELEMENTY SYSTEMU AUTOMATYCZNEGO ROZPOZNAWANIAMIMIKI
Rysunek 5.8: Rozkłady prawdopodobieństwa pikseli obszaru skóry dla: (a)(b)sekwencja 1; (c)(d) sekwencja 4. Rozkłady przedstawione w postaci: (a)(c) obra-zu będącego odwzorowaniem histogramu 2D, (b)(d) wykresu powierzchniowegohistogramu 2D.
oświetleniowych) wyznaczono wartość funkcji celu fS(Ψ). Na podstawie otrzyma-nych wyników obliczono wartość oczekiwaną i odchylenie standardowe funkcji celudla poszczególnych sekwencji oraz przestrzeni barw. Wyniki przedstawia tabela5.1. Na jej podstawie można zauważyć że najlepsze wyniki uzyskano dla przestrze-ni Cb-Cr, natomiast przestrzeń r-g okazuje się cechować największą zmiennością,dla występujących niewielkich wahań oświetlenia sceny.
54
5.3. DETEKCJA I LOKALIZACJA TWARZY
Tabela 5.1:
r-g Cb-Cr Hue
sekwencja 1 µ = −0.83757σ = 0.051141
µ = −0.86744σ = 0.0043139
µ = −0.81677σ = 0.005981
sekwencja 2 µ = −0.56997σ = 0.17913
µ = −0.69882σ = 0.0089865
µ = −0.32583σ = 0.019995
sekwencja 3 µ = −0.26569σ = 0.27182
µ = −0.50389σ = 0.018087
µ = −0.53638σ = 0.054475
sekwencja 4 µ = −0.14738σ = 0.11159
µ = −0.22583σ = 0.057913
µ = −0.35548σ = 0.042728
5.3 Detekcja i lokalizacja twarzy
Selektywne przetwarzanie informacji (segmentacja) pozwala na określenie obsza-rów zainteresowań dzięki wykorzystaniu wskazówek takich jak kolor, ruch, tekstu-ra. Nie zapewnia jednak jednoznacznego stwierdzenia istnienia na obrazie twarzyczłowieka. Konieczna jest weryfikacja, czy znaleziony obiekt jest twarzą oraz okre-ślenie jest położenia i wielkości. Cały proces nazywany jest w literaturze detekcjąoraz lokalizacją twarzy. Istniejące metody detekcji i lokalizacji twarzy na obrazachstatycznych, można podzielić na kilka grup:
1. metody wykorzystujące wiedzę o budowie morfologicznej twarzy (ang. know-ledge based methods),
2. metody oparte na detekcji strukturalnych cech obrazu, niezależnych odzmian oświetlenia oraz punktu widzenia kamery (ang. feature invariant ap-proaches),
3. metody oparte na wyszukiwaniu wzorców twarzy oraz jej morfologicznychelementów, np. oczy (ang. template matching methods, appearance-basedmethods).
Wyczerpujące ich omówienie można znaleźć w pracach: [96],[37]. Pierwszagrupa metod (punkt -1-), która wykorzystuje wiedzę o budowie morfologicznejtwarzy, reprezentuje podejście „od ogółu do szczegółu” (ang. top-down). Detek-cja odbywa się na podstawie zestawu reguł przyjętych na podstawie wiedzy oanatomii człowieka [50]. Przykładem może być: symetria elementów twarzy, za-leżności geometryczne pomiędzy nimi oraz informacje o intensywności pikseli wposzczególnych obszarach.
Przykładem odmiennego podejścia jest strategia „od szczegółu do ogółu”(ang. bottom-up). Jest to grupa algorytmów opartych na ekstrakcji struktu-ralnych cech obrazu (punkt -2-). Głównym założeniem jest niewrażliwość cechna zmiany położenia twarzy w stosunku do kamery, zmiany oświetlenia bądźteż indywidualnego wyglądu człowieka. Detekcja twarzy realizowana jest poprzez
55
ROZDZIAŁ 5. ELEMENTY SYSTEMU AUTOMATYCZNEGO ROZPOZNAWANIAMIMIKI
dopasowaniu znalezionych cech (np. własności pikseli obrazu takie jak poziomyszarości, kolor, krawędzie) do modelu twarzy. Model ten może być o różnym stop-niu szczegółowości, dwu- lub trójwymiarowy. Przykładem jest publikacja [38], wktórej wykorzystano informacje o kolorze skóry człowieka do identyfikacji obszarutwarzy oraz jej elementów charakterystycznych (oczy, usta). Autorzy zapropono-wali algorytm lokalizacji oczu i ust, oparty na analizie składowych chrominancjiCb-Cr. Poprzez porównanie prostego modelu twarzy ze znalezionymi cechamiuzyskano skuteczną detekcję twarzy. Główną wadą metod opartych na detekcjicech jest ich wrażliwość na dobór parametrów oraz problem niejednoznaczno-ści dopasowania cech do modelu. Charakteryzują się jednak małą złożonościąobliczeniową, co pozwala na ich stosowanie w systemach pracujących w czasierzeczywistym.
Osobną grupę (punkt -3-) stanowią metody oparte na wyszukiwaniu wzorcówwyglądu twarzy. Zadanie detekcji postawione jest jako problem klasyfikacji nie-znanego obrazu do jednej ze znanych kategorii utworzonych w procesie uczenia naprzykładach. Jedną z metod częściej wykorzystywanych do detekcji twarzy, jestalgorytm nazywany „eigenfaces” [91]. Na podstawie zestawu przykładów orazanalizy składowych głównych PCA (ang. principal component analysis), two-rzony jest statystyczny model twarzy. Detekcja na nieznanym obrazie odbywasię poprzez przesuwanie okna analizy (w różnych skalach) i porównanie wycin-ka obrazu z wzorcem. Porównanie odbywa się poprzez rzutowanie wycinka doprzestrzeni bazowej i obliczenie błędu średniokwadratowego określającego mia-rę podobieństwa do twarzy (ang. DFFS – distance-from-face-space). Metoda tawykorzystywana jest również do rozpoznawania twarzy. Skuteczność tego podej-ścia jest większa niż algorytmów opartych na ekstrakcji cech, ale zależy w dużymstopniu od sposobu uczenia oraz wielkości bazy wzorców.
Wyżej przedstawiony podział dotyczy algorytmów pracujących na obrazachstatycznych, natomiast detekcja twarzy na sekwencji wideo, wymaga uwzględ-nienia szeregu dodatkowych czynników. Jednym z nich jest zmienność warunkówakwizycji dla sekwencji obrazów wpływająca na jej jakość. W rzeczywistych wa-runkach interakcji człowieka z komputerem warunki akwizycji mogą zmieniać siędość znacznie w czasie (np. oświetlenie naturalne i sztuczne, pozycja osoby przedkamerą itp.). Drugim czynnikiem — który pozytywnie wpływa na proces detekcji— jest fakt iż w przypadku sekwencji obrazów dostępne są dodatkowe wskazówki,takie jak ruch oraz zależności czasowe pomiędzy poszczególnymi cechami obrazu.Dowiedziono [33], iż dla człowieka wyszukiwanie twarzy na sekwencji wideo jestłatwiejsze niż na losowo prezentowanych obrazach statycznych. Metody detek-cji i lokalizacji twarzy na sekwencji obrazów, wykorzystujące zarówno informacjeprzestrzenne jak i czasowe, rozwinęły się dopiero niedawno i — wg [99] — wdalszym ciągu wymagają dalszych badań w tym kierunku.
56
5.3. DETEKCJA I LOKALIZACJA TWARZY
5.3.1 Algorytm detekcji i lokalizacji twarzy
Segmentacja twarzy na podstawie barwy skóry umożliwia wydzielenie miejsc ob-razu w których istnieje duże prawdopodobieństwo wystąpienia twarzy. Nie pozwa-la jednak na jednoznaczną detekcję i lokalizację twarzy. Konieczne jest wykorzy-stanie dodatkowych informacji. W niniejszej pracy połączono algorytm wstępnejsegmentacji twarzy z metodą detekcji jej elementów charakterystycznych. Loka-lizacja oczu i ust wraz z zestawem reguł opracowanych na podstawie wiedzy obudowie morfologicznej twarzy umożliwia bardziej skuteczną jej detekcję. Sche-mat blokowy algorytmu przedstawiony został na rysunku 5.9.
W pierwszej kolejności odbywa się wstępna filtracja (filtr medianowy), dziękiktórej uzyskuje się minimalizację wpływu szumów. Operację tą poprzedza zmniej-szenie wymiarów obrazu, co pozwala na skrócenie czasu obliczeń. Segmentacjaobszaru twarzy odbywa się jedną z metod opisaną w poprzednim rozdziale (por.5.2.2) — wybór metody, przestrzeni kolorów oraz parametrów algorytmów zostałzrealizowany na podstawie kryterium najlepszej segmentacji (minimalna wartośćfunkcji celu dla wybranego obrazu z danej sekwencji video). W wyniku otrzymujesię binarną maskę twarzy (5.4). Maska ta poddawana jest dodatkowo następują-cym operacjom morfologicznym: usunięcie niewielkich obiektów, zamknięcie orazzalewanie otworów.
BWface = Γ(BW ) (5.4)
gdzie:
BW ∈ BWr,g, BWhue, BWcb,crΓ(BW )− operacja lub ciąg operacji morfologicznych na obrazie binarnym
(w tym przypadku zalewanie otworów poprzedzone usunięciemniewielkich obiektów)
Do lokalizacji oczu oraz ust wykorzystano algorytm zaproponowany w publi-kacji [38]. Opiera się on na fakcie, iż obszary oczu i ust charakteryzują się innymiwartościami składowych chrominancji Cb oraz Cr. Na obrazie okolic oczu wy-stępują wysokie wartości Cb oraz niskie Cr, natomiast obraz ust zawiera innystosunek składowych Cr/Cb niż inne obszary twarzy. Na tej podstawie tworzonesą mapy prawdopodobieństwa wystąpienia oczu i ust. Algorytm został przystoso-wany na potrzeby systemu rozpoznawania mimiki poprzez wprowadzenie szereguzmian, m.in. wykorzystanie algorytmu detekcji plam (ang. blobs) oraz własnyzestaw reguł na podstawie zależności geometrycznych elementów twarzy.
Obliczanie mapy prawdopodobieństwa oczu oraz ust zostało szerzej opisane wdodatku A.7. Z binarnych masek twarzy, oczu i ust (BWface, BWeye, BWmouth),po indeksacji (ang. labelling), otrzymywane są obiekty będące potencjalnymi
57
ROZDZIAŁ 5. ELEMENTY SYSTEMU AUTOMATYCZNEGO ROZPOZNAWANIAMIMIKI
Rysunek 5.9: Schemat blokowy algorytmu detekcji twarzy.
58
5.3. DETEKCJA I LOKALIZACJA TWARZY
oczami i ustami. Na podstawie badań okazało się, że ilość znajdowanych ele-mentów jest dość duża (rys. E.1). Dlatego konieczne okazało się opracowaniealgorytmu selekcji i weryfikacji, który wybierałby z zestawu kandydatów jedną(najbardziej prawdopodobną) trójkę obiektów „oko-oko-usta”. W tym celu wy-korzystano głównie zależności geometryczne elementów twarzy. Podsumowuje tonastępująca lista kryteriów:
• obiekty muszą leżeć w obszarze maski twarzy (poddanej operacji erozji abyusunąć zakłócenia pojawiające się na krawędziach twarzy i tła),
• wielkość obiektów musi być większa niż założone minimum (usunięcie nie-wielkich obiektów składających się z kilku pikseli będących zakłóceniami),
• odległość lewego oka od ust musi być w przybliżeniu równa odległości pra-wego oka od ust (w rzeczywistości duży obrót głowy w lewo lub prawopowoduje iż zależność ta nie jest spełniona, jednakże w większości przypad-ków kryterium to jest spełnione),
• odległość pomiędzy oczami musi być proporcjonalna do średniej odległościoczu od ust (czyli oczy nie mogą być położone zbyt blisko siebie),
• oczy muszą leżeć powyżej ust (zakłada się że niedopuszczalna jest sytuacjaodwrócenia kamery do góry nogami).
Powyższe kryteria pozwalają na selekcję oczu i ust. W przypadku gdy dalej pozo-stanie wiele kandydatów, jako właściwy wybierana jest trójka obiektów, którychsuma ilości pikseli jest największa. Wyznaczenie położenia oraz wielkości twarzyna podstawie lokalizacji oczu i ust jest już nieskomplikowane.
5.3.2 Rezultaty detekcji i lokalizacji twarzy
Skuteczność algorytmu detekcji twarzy określono dla kilku sekwencji wideo:
• sekwencja 1 — kamera EVI, optymalne warunki akwizycji (jednolite tło,natężenie oświetlenia około 320lux), (rys 5.7a),
• sekwencja 2 — kamera EVI, słabe oświetlenie (jednolite tło, natężenieoświetlenia około 40lux), (5.7b),
• sekwencja 3 — kamera USB Creative WebCam, skomplikowana scena iwarunki akwizycji (tzn. skomplikowane tło, boczne oświetlenie, okulary),(5.7c).
Jako poprawnie wykrytą i zlokalizowaną twarz przyjęto sytuację gdy zosta-ły spełnione założone kryteria selekcji oczu i ust oraz błąd lokalizacji cech był
59
ROZDZIAŁ 5. ELEMENTY SYSTEMU AUTOMATYCZNEGO ROZPOZNAWANIAMIMIKI
mniejszy niż zadany próg (10 pikseli). Na podstawie analizy wyników segmenta-cji przeprowadzonej w poprzednim rozdziale (por. 5.2.2), odpowiednio dobranonajlepszą metodę oraz przestrzeń kolorów. Była nią segmentacja oparta o zestawreguł (dwuprogowa binaryzacja składowych) w przestrzeni Cb-Cr.
Przy większych ruchach głowy, może się zdarzyć że niektóre elementy (szcze-gólnie oczy) nie są widoczne. Ponieważ są one niezbędne do prawidłowego dzia-łania algorytmu, ich brak uniemożliwia prawidłową detekcję. Z tego powodu ba-danie skuteczności algorytmu przeprowadzono dla wybranych z sekwencji obra-zów, odpowiadających położeniu neutralnemu (twarz frontalnie do kamery) —rys (5.10).
Rysunek 5.10: Skrajne położenia głowy dla twarzy uznanej za frontalną.
Rezultaty detekcji i lokalizacji twarzy dla powyższych sekwencji przedstawio-no w dodatku E, tabele: E.1, E.2. Na podstawie wyników można stwierdzić, że wprzypadku gdy twarz usytuowana jest względem kamery w przybliżeniu frontal-nie, detekcja i lokalizacja jest wystarczająca na potrzeby systemu rozpoznawaniamimiki (> 80%). Podczas testów nie uwzględniono również obrazów sekwencjidla których występuje gest mrugania. W takim przypadku poprawna lokalizacjaoczu jest trudna, ponieważ cechy je reprezentujące nie są dobrze widoczne naobrazie.
Podsumowując zagadnienia przedstawione w rozdziale — można przyjąć na-stępujące kierunki dalszych prac, które pozwolą na zwiększenie skuteczności al-gorytmu detekcji twarzy:
• wykorzystanie informacji o ruchu na obrazie do wykrycia sytuacji mrugania,a następnie do lokalizacji oczu,
60
5.3. DETEKCJA I LOKALIZACJA TWARZY
• użycie współczynników kształtu do selekcji cech (zamiast kryterium wiel-kości obiektów),
• znalezienie innych kryteriów odległości cech dla położenia twarzy innegoniż pozycja neutralna,
• wykorzystanie większej ilości elementów twarzy (np. brwi, nozdrza), wi-docznych również w przypadku położenia głowy innego niż frontalne,
• użycie algorytmów śledzenia cech (ang. feature tracking).
61
Rozdział 6
Wyodrębnianie z obrazu twarzyelementów mimiki
Streszczenie
Zdefiniowane w pierwszej części rozprawy atrybuty elementów mimikioraz odpowiadające im cechy oczekiwane na obrazie twarzy, stanowią pod-stawę umożliwiającą rozpoznanie wybranych gestów mimicznych. W pierw-szej kolejności odpowiednie cechy (kształt, wygląd...) muszą zostać wyod-rębnione z obrazu. W rozdziale przedstawiono wybrane metody i algorytmypozwalające na ekstrakcję z obrazu twarzy wymaganych na etapie rozpozna-wania wektorów cech, reprezentujących elementy mimiki. Wybrane metodyto: statystyczne modele kształtu, histogramy orientacji oraz detekcja ruchu.
6.1 Wstęp
W niniejszej rozprawie dokonano wyboru trzech metod reprezentujących różnepodejścia do wyodrębniania z obrazu cech odpowiadających elementom mimiki:
• Statystyczne modele kształtu (ang. point distributed models) umożliwiającerozpoznawanie kształtu jakie tworzą cechy charakterystyczne wybranychjednostek czynnościowych. Jako wybrane jednostki czynnościowe przyjętoelementy mimiki górnej części twarzy: AU1+2 (unoszenie brwi) oraz AU4(marszczenie brwi). U większości osób niezależne wywołanie ruchu AU1 lubAU2 jest niemożliwe bez długotrwałego treningu dlatego zrezygnowano zrozpoznawania osobno tych gestów.
• Histogramy orientacji pozwalające na rozpoznawanie lokalnych zmian wy-glądu. W tym przypadku skupiono się na rozpoznawaniu mimiki dolnej
63
ROZDZIAŁ 6. WYODRĘBNIANIE Z OBRAZU TWARZY ELEMENTÓW MIMIKI
części twarzy, ponieważ występuje tam więcej zmarszczek oraz bruzd. Wy-brane do rozpoznawania jednostki czynnościowe przyjęto na podstawie kry-terium łatwości wykonania oraz ich przydatności do sterowania (patrz roz-dział 3). Są to: AU12 (unoszenie kącików ust — obustronne i jednostronne),AU25+AU26 (otwarcie ust).
• Detekcja ruchu wykorzystana do segmentacji dynamicznych atrybutów ele-mentów mimiki, co pozwala na rozpoznawanie gestów takich jak mrugnięcia,zmrużenia lub przymknięcia oczu (AU43, AU45, AU46).
W dalszej części rozprawy, do opisu elementów mimiki, wykorzystano główniemetodykę FACS. Nie oznacza to jednak że informacje z metodyki FAP nie są przy-datne — obydwa te sposoby opisu mimiki są w pewien sposób komplementarne.Przykładowo — za odpowiedniki jednostek AU1+2 oraz AU4 w metodyce FAP,można przyjąć elementy FAP31-36. Określają one położenie punktów charakte-rystycznych brwi oraz sposób ich deformacji. Jest to istotne np. przy wyborzepunktów kształtu.
Obszerną systematykę algorytmów wykorzystywanych w rozpoznawaniu mi-miki, można znaleźć w pracy [26].
6.2 Statystyczne modele kształtu
Tworzenie modelu opisującego zmiany kształtu cech twarzy pod wpływem wybra-nych jednostek czynnościowych (AU1+2, AU4) wymaga określenia szeregu punk-tów charakterystycznych definiujących analizowane w dalszych etapach kształty.Przy ustalaniu położenia punktów kierowano się kilkoma następującymi kryte-riami:
• Punkty charakterystyczne powinny być łatwe do zlokalizowania na dwu-wymiarowym statycznym obrazie. Oznacza to, że powinny być położone wobrębie wyraźnych i dobrze odróżnialnych elementów twarzy. Przykładempunktu stwarzającego problem podczas lokalizacji jest wierzchołek nosa,dobrze określony anatomicznie na rzeczywistej twarzy, lecz trudny do od-różnienia od jego otoczenia na zarejestrowanym obrazie.
• Punkty charakterystyczne powinny pozostawać widoczne i rozróżnialne po-mimo wykonywanych ruchów mimicznych, przynajmniej w akceptowalnymich zakresie. Punkty nie spełniające tego kryterium są na przykład położonew obrębie bruzdy powiekowej górnej, która przy wyraźniejszym zmarszcze-niu brwi zostaje zasłonięta.
• Punkty charakterystyczne muszą reprezentować trwałe i powtarzalne cechyobrazu. Wyklucza to punkty zlokalizowane w zmiennych szczegółach ana-tomicznych, na przykład bruzdach, zmarszczkach czy liniach owłosienia.
64
6.2. STATYSTYCZNE MODELE KSZTAŁTU
Biorąc pod uwagę powyższe kryteria ustalono łącznie 14 punktów charaktery-stycznych, po 7 dla obu stron obserwowanej twarzy. Po każdej stronie wyzna-czono 3 punkty położone w obrębie brwi oraz 4 dodatkowe punkty odniesienia.Lokalizacje punktów oraz tworzony przez nie kształt przedstawia rysunek 6.1.Punkty kształtów (oprócz dwóch punktów — nozdrza) odpowiadają lokalizacjizdefiniowanej w standardzie FAP — rys. 2.1, rys. 2.2. Szczegółowe informacje natemat doboru punktów oraz ich lokalizacji znajdują się w artykule autora [71].
Rysunek 6.1: Lokalizacja punktów kształtu jednostek czynnościowych górnej czę-ści twarzy (AU1+2, AU4)
Proces tworzenia modelu jednostki czynnościowej jest następujący (rys. 6.2).Na całej serii obrazów uczących, zawierających kształty danej klasy (np. AU0),zaznaczane są manualnie charakterystyczne punkty określające położenie i wza-jemną relację wybranych elementów morfologicznych twarzy. Aby możliwe by-ło wyznaczenie parametrów statystycznych, przeprowadzane jest wyrównywaniekształtów (ang. shape alignment), wg algorytmu przedstawionego w artykule [80].
Rysunek 6.2: Tworzenie statystycznego modelu jednostki czynnościowej
Następnie, przy pomocy metody PCA (ang. Principal Component Analysis),tworzony jest statystyczny model, opisujący średni kształt oraz jego poszczególne
65
ROZDZIAŁ 6. WYODRĘBNIANIE Z OBRAZU TWARZY ELEMENTÓW MIMIKI
deformacje. Metoda PCA została opisana szerzej w dodatku A.4.W przypadku modeli kształtu składowe główne US określają nową przestrzeń,
w której każdy kształt (obiekt) reprezentowany jest przez wektor wag ΩS,i. Wek-tor wag określa stopień deformacji kształtu. Tylko część składowych głównychniesie istotne informacje, pozostałe mogą zostać pominięte, dzięki czemu uzy-skuje się redukcję informacji. Ilość istotnych składowych głównych KS zostałaokreślona na podstawie kryterium (6.1):
KS∑
i=1
λi pS100·N∑
i=1
λi (6.1)
gdzie:
i− indeks kolejnego kształtu
λi − wartość własna macierzy kowariancji danych kształtów zestawuuczącego
N − ilość punktów kształtu
pS − zadana, procentowa wartość określająca proporcję wariancji da-nych z zestawu uczącego
Przy założeniu odpowiedniej ilości obrazów uczących, na podstawie parame-trów tak utworzonego modelu, możliwe jest zsyntetyzowanie dowolnej instancjikształtu obiektu. Odbywa się to poprzez złożenie średniego kształtu oraz liniowejkombinacji poszczególnych deformacji (równanie 6.2).
Si = S + US · ΩS,i (6.2)
gdzie:
Si − wektor współrzędnych punktów i-go kształtu
S − wektor współrzędnych punktów kształtu średniego
US − składowe główne modelu
ΩS,i − wektor wag i-go kształtu
W przypadku nowego (nieznanego) kształtu, sposób postępowania jest nastę-pujący:
1. Nieznany kształt wyrównywany jest względem kształtu średniego otrzyma-nego podczas budowy modelu
2. Wyrównany kształt jest następnie rzutowany do przestrzeni kształtów mo-delu (równanie 6.3).
66
6.3. HISTOGRAMY ORIENTACJI
3. Z otrzymanego wektora wag wybierane jest KS elementów tworząc wektorcech, poddawany klasyfikacji przy pomocy jednej z dostępnych metod.
ΩS,tst = UTS · Stst (6.3)
gdzie:
ΩS,tst − wektor wag testowego kształtu
S − wektor współrzędnych punktów kształtu średniego
US − składowe główne modelu
Stst − wektor współrzędnych punktów testowego kształtu (po wyrów-naniu)
Z perspektywy budowy interfejsu, który powinien adaptować się do użytkow-nika, wyznaczanie położenia punktów charakterystycznych, powinno odbywać sięautomatycznie. Na potrzeby niniejszej rozprawy punkty wyznaczono w sposóbręczny. Problematyka automatyzacji tego procesu została krótko opisana w roz-dziale 8.4.
6.3 Histogramy orientacji
Histogramy orientacji pozwalają na opisanie lokalnej orientacji krawędzi obrazu.Mogą być wyznaczane na wiele różnych sposobów. W niniejszym rozdziale opisanodwa z nich, różniące się sposobem detekcji krawędzi. Pierwszy z nich, wzorowanyna rozwiązaniu stosowanym w pracy [28], realizowany jest następująco:
• dla całego obrazu wyznaczana jest jego reprezentacja w przestrzeni skali(ang. scale-space) L : <N × <+ → < (metoda ta została opisana szerzej wdodatku A.5).
• następnie obliczane są gradienty poziome oraz pionowe Lx, Ly
• na ich podstawie wyznaczany jest moduł oraz orientacja gradientu dla każ-dego piksela (6.4)
• dla wybranego regionu zainteresowań obliczany jest histogram orientacjikrawędzi hedge, poprzez zliczanie pikseli o danej orientacji Lθ.
Lm =√L2x + L2
y
Lθ = arc tg(Lx, Ly)(6.4)
67
ROZDZIAŁ 6. WYODRĘBNIANIE Z OBRAZU TWARZY ELEMENTÓW MIMIKI
Rysunek 6.3 przedstawia rezultaty wyznaczania reprezentacji skali dla przy-kładowych filtrów. Do zalet tego typu histogramów orientacji można zaliczyć:szybkość obliczeń, małą wrażliwość na zmiany oświetlenia sceny, niezależność odtranslacji i skali na obrazie.
Rysunek 6.3: Maski filtrów przestrzeni skali i odpowiadające im obrazy po filtracjidla różnych skal: (a) σ = 1,(b) σ = 2,(c) σ = 4.
Drugi sposób wyznaczania histogramów orientacji wykorzystuje reprezentacjęobrazu powstałą przez konwolucję z zestawem filtrów Gabora. Umożliwiają onedetekcję cech w różnych skalach i orientacjach [89]. Motywacją do ich użycia jestteoretyczna niewrażliwość cech wyznaczonych w ten sposób od globalnych zmianoświetlenia sceny, połączona z małą wrażliwością na deformacje afiniczne obrazu.Dodatkową zaletą jest to, iż dobrze zachowane są informacje o lokalnej geometriii teksturze obrazu. Filtry Gabora zostały opisane szerzej w dodatku A.6. Wcelu wydobycia z obrazu interesujących informacji o obiektach, niezależnie odich skali i orientacji, tworzony jest zestaw filtrów (tzw. bank filtrów). Zestawten jest określany dla różnych parametrów — z reguły są to częstotliwość orazkąt. Więcej informacji na temat zastosowania filtrów Gabora w przetwarzaniuobrazów oraz doboru ich parametrów, można znaleźć w pracy [39]. Algorytmwyznaczania histogramów orientacji jest następujący:
• dla całego obrazu wyznaczana jest jego reprezentacja dla wybranego bankufiltrów Gabora (kilka częstotliwości i kątów): LψG(i), i - numer filtru
• w wybranym regionie zainteresowań obliczane są histogramy dla każdej re-prezentacji - hgabor,
• następnie histogramy łączone są (kolejno) w jeden wektor cech reprezentu-jący dany obszar zainteresowań.
68
6.4. DETEKCJA RUCHU
Rysunek 6.4 przedstawia rezultaty wyznaczania reprezentacji Gabora dla przy-kładowych filtrów.
Rysunek 6.4: Maski filtrów Gabora i odpowiadające im obrazy po filtracji. Para-metry: fG = 0.125, (a) θG = 0,(b) θG = 45,(c) θG = 90,(d) θG = 135
6.4 Detekcja ruchu
Istnieje wiele metod detekcji ruchu [52]. Metody podstawowe umożliwiają uzy-skanie informacji o zaistnieniu zmian na scenie oraz ich lokalizacji. Zaliczyć donich można: odejmowanie obrazu od tła, obrazy różnicowe, analizę histogramówsekwencji, testy statystyczne, potok optyczny (ang. optical flow). Jednym z prost-szych sposobów detekcji zmian na obrazie jest odejmowanie obrazu tła (ang.background subtraction). Ponieważ oprócz poruszających się obiektów mogą wy-stąpić zmiany oświetlenia sceny, sposób ten jest mało skuteczny bez zastosowaniametod automatycznej generacji tła [79]. Algorytmy generacji tła poprawiają wwidoczny sposób rezultaty detekcji. W przypadku jednak obserwacji pracujące-go przed komputerem człowieka, który nie tylko wykonuje ruchy głową ale teżczęsto pozostaje nieruchomo, mogą wystąpić trudności w prawidłowym doborzeparametrów szybkości uaktualniania tła (zbyt szybkie uaktualnianie spowodu-je iż twarz człowieka zostanie uwzględniona jako tło). Innym sposobem detekcjizmian na obrazie jest obliczanie różnicy jasności piksela w kolejnych chwilach cza-sowych (ang. image difference). Z matematycznego punktu widzenia odpowiadato wyznaczaniu pochodnej cząstkowej funkcji jasności względem czasu ∂I(x,y,t)
∂t .Ponieważ w przypadku przetwarzania obrazów sygnał jest dyskretny, w praktycewyznaczaniu pochodnej czasowej odpowiada zwykłe odejmowanie wartości pik-seli obrazu aktualnego od obrazu poprzedniego: I(x, y, k) − I(x, y, k–1). Częstostosuje się również obliczanie wartości bezwzględnej dla różnicy.
Bardziej złożone metody pozwalają na rozpoznanie obiektów ruchomych orazich śledzenie, estymację parametrów ruchu (translacja, orientacja, skala). Jedną
69
ROZDZIAŁ 6. WYODRĘBNIANIE Z OBRAZU TWARZY ELEMENTÓW MIMIKI
z ciekawszych metod są tzw. szablony ruchu (ang. temporal templates) . Wśródnich wyróżnić można:
• obrazy historii ruchu MHI (ang. motion history images),
• obrazy energii ruchu MEI (ang. motion energy images).
Obydwie techniki wykorzystują analizę historii zmian intensywności pikseli w cza-sie do określenia obszarów, w których występuje ruch. W pracy [10] zastosowanopowyższe metody jako wstępny etap rozpoznawania akcji wykonywanych przezczłowieka (siadanie, ćwiczenia aerobik). Interesującym zastosowaniem rozpozna-wania akcji jest użycie metody do analizy zachowania dzieci w interaktywnympokoju zabaw [9]. Wyczerpujące omówienie komputerowej analizy ruchu możnaznaleźć w pracy Kuriańskiego [52].
Dużym problemem podczas detekcji ruchu, są zmiany oświetlenia sceny, któ-re mogą zostać zinterpretowane błędnie jako ruch. Zmiany oświetlenia mogą byćwprowadzane nie tylko przez np. zaświecenie światła w pomieszczeniu, ale rów-nież mogą pochodzić od zmian jasności monitora przed którym znajduje się użyt-kownik systemu. Jednym ze sposobów ominięcia tego problemu, jest wykrywanieglobalnych zmian jasności sceny. Z kolei zakłócenia powodowane przez monitorkomputera mogą zostać wykorzystane do wstępnej segmentacji twarzy, która zreguły jest obiektem pierwszoplanowym — najbliższym monitora i kamery ob-serwującej scenę. Wykorzystanie tego efektu opisano w rozdziale 8.3.
W systemie rozpoznawania mimiki detekcja ruchu może być wykorzystana dowstępnej segmentacji obszarów zainteresowań takich jak:
• obręb oczu — mruganie, ruchy oczu oraz jednostki mimiki wpływające natą część twarzy,
• obszar głowy — ruchy głowy powodują zazwyczaj duże zmiany intensyw-ności pikseli obrazu,
• miejsca w których występują zmiany wyglądu wywołane ruchami mimicz-nymi.
Lokalizacja powyższych zmian umożliwia nie tylko zawężenie obszaru poszukiwańdo odpowiedniego regionu twarzy, ale również uzyskanie bezpośrednich wskazó-wek użytecznych do rozpoznania niektórych gestów mimicznych (np. mruganie).Przykładem może być praca [56], której autorzy wykorzystali detekcję mrugnięćdo inicjalizacji algorytmu rozpoznawania ruchu brwi.
W badaniach opisanych w niniejszej rozprawie wykorzystano obrazy historiiruchu MHI oraz energii ruchu MEI. W odróżnieniu od prostej różnicy obrazów,pozwalają one na uwzględnienie kontekstu historii zmian intensywności piksela.
70
6.4. DETEKCJA RUCHU
Daje to w efekcie większą ilość użytecznych do dalszej analizy danych — nie tylkoinformacje gdzie wystąpił ruch, ale również jego charakterystykę.
Rysunek 6.5 przedstawia schemat blokowy algorytmu wyznaczenia MHI orazMEI.
Rysunek 6.5: Model algorytmu (Simulink) obliczania obrazów: (a) energii ruchuMEI, (b) historii ruchu MHI.
Pierwszym krokiem jest obliczenie binarnego obrazu ruchu — piksele gdziewystąpił ruch przyjmują wartość 1. Dla każdego piksela obrazu wyznaczany jestmoduł różnicy kolejnych wartości w czasie, a otrzymana tablica wartości podda-wana jest operacji binaryzacji z progiem Mtreshprzyjętym doświadczalnie (6.5).
Idiff (x, y, k) =
0; |I(x, y, k)− I(x, y, k − 1)| ¬Mtresh
1; |I(x, y, k)− I(x, y, k − 1)| > Mtresh(6.5)
gdzie:
x, y − koordynaty pikseli
k − numer obrazu z sekwencji video
I(x, y, k)− jasność piksela obrazu o współrzędnych x, y w chwili k
Mtresh − próg binaryzacji dla wyznaczania obrazów energii ruchu
Idiff (x, y, k)−moduł różnicy piskeli w chwili k
71
ROZDZIAŁ 6. WYODRĘBNIANIE Z OBRAZU TWARZY ELEMENTÓW MIMIKI
Obraz MEI powstaje poprzez akumulowanie w czasie binarnych obrazów ru-chu (6.6).
MEIτ (x, y, k) =τ−1⋃
i=0
BWdiff (x, y, k − 1) (6.6)
gdzie:
τ − wartość okresu akumulacji dla obrazów energii i historii ruchu
BWdiff (x, y, k)− binarny obraz ruchu dla piksela o współrzędnych x, y w chwili k
MEIτ (x, y, k)− obraz energii ruchu dla piksela o współrzędnych x, y w chwili k
Natomiast reprezentacja MHI powstaje poprzez przyjęcie wartości okresu aku-mulacji τ dla pikseli binarnego obrazu ruchu BWdiff równych 1, i sukcesyw-ne zmniejszanie dla kolejnych obrazów sekwencji video tej wartości, jeśli pikselBWdiff będzie miał wartość 0 (6.7):
MHIτ (x, y, k) =
τ ; BWdiff (x, y, k) = 1
max [0,MHIτ (x, y, k − 1)] ; BWdiff (x, y, k) = 0
(6.7)
gdzie:
MHIτ (x, y, k)− obraz historii ruchu dla piksela o współrzędnych x, y w chwili k
Wartość okresu akumulacji τ wpływa na czasowy kontekst wykonywanegoruchu mimicznego i została dobrana tak, aby odpowiednio wykryć obszary wktórych występuje gest mimiczny lub ruch głowy.
Na rysunku 6.6 zamieszczone zostały rezultaty wyznaczania reprezentacjiMEI, MHI dla sekwencji ramek obrazu zawierającej akcję mrugania oczu.
W przypadku gdy nie występuje ruch głowy, reprezentacja MEI może zostaćużyta do zidentyfikowania obszarów oczu podczas wykonywania np. gestów mru-gania (AU45, AU46). Również reprezentacja MHI niesie informacje przydatnedo identyfikacji gestu. Obrazy MEI pozwalają stwierdzić „gdzie” wystąpił ruch,natomiast MHI udostępnia informacje o charakterystyce ruchu. Piksele MHI odużej wartości odpowiadają miejscom, w którym aktualnie występują zmiany ja-sności, natomiast wartości niewielkie sygnalizują że ruch w tym miejscu odbywałsię wcześniej w czasie. Przy pomocy parametru τ (okres akumulacji) możliwy jestwpływ na detekcję obszarów charakteryzujących się założoną szybkością wykony-wanego ruchu. Przykładowo — gdy celem jest wykrycie szybkich ruchów (odróż-nienie zamykania oczu od ich otwierania), parametr τ powinien mieć niewielkąwartość. W przeciwnym przypadku szybkie zmiany mimiki zostaną zinterpreto-wane jak jeden ciągły ruch.
72
6.4. DETEKCJA RUCHU
Rysunek 6.6: Kolejne obrazy sekwencji zawierającej gest mrugania: (a) obrazy zkamery EVI, (b) reprezentacja MEI, (c) reprezentacja MHI.
Na rysunku 6.6, oprócz miejsc w których występuje gest mimiczny, widocznesą również zakłócenia. Powstają one w wyniku istnienia szumów oraz mimowol-nych poruszeń głowy (widoczny zarys głowy). Szumy występujące na obrazie mo-gą być usunięte w znacznym stopniu poprzez zastosowanie wstępnej filtracji me-dianowej, która skutecznie zmniejsza lokalny szum, równocześnie pozostawiającnienaruszoną główną składową ruchu (lub zmieniając ją w pomijalnym stopniu).Problem estymacji i usuwania szumów z sekwencji video został szerzej opisany wdodatku A.3.
Z kolei usunięcie zakłóceń od mimowolnych ruchów głowy, może być zreali-zowane poprzez wybór tych obiektów, które spełniają założone dla danego gestulub ruchu własności (np. kształt, orientacja, wzajemne położenie, czas trwania).W tym celu wykorzystane mogą być współczynniki kształtu. Zostało to szerzejopisane w rozdziale 8.4.1.
73
Rozdział 7
Rozpoznawanie wybranychelementów mimiki
Streszczenie
W zadaniu rozpoznawania celem jest określenie przynależności różnegotypu obiektów (w tym przypadku elementów mimiki) do pewnych klas napodstawie znanych wcześniej przynależności do klas innych obiektów. Jest tozatem typowe zadanie klasyfikacji, w którym obiekty opisane są przy pomocyzestawu atrybutów/cech. W niniejszym rozdziale przedstawiono metodykęoraz rezultaty rozpoznawania wybranych elementów mimiki, wykorzystującdane będące wynikiem etapu wyodrębniania cech. Na podstawie analizy wy-ników wybrano najlepszą metodę rozpoznawania oraz zaproponowano dalszekierunki prac.
7.1 Wstęp
Uzyskane na etapie ekstrakcji cech charakterystycznych informacje, pozwalają naopisanie elementów mimiki poprzez zbiór wartości (cechy) i na tym zbiorze możnadokonywać obliczeń w celu podjęcia decyzji o przynależności obiektu do określo-nej klasy. Istnieje wiele metod klasyfikacji obrazów — ich szerszą systematykęi matematyczne podstawy można znaleźć np. w pracy [83]. Wśród najpopular-niejszych algorytmów, wykorzystywanych w rozpoznawaniu obrazów, wymienićmożna:
• Metody minimalno-odległościowe (np. klasyfikator kNN), opierające się naprzesłankach związanych z geometrią przestrzeni cech i wykorzystujący róż-ne metryki [92].
75
ROZDZIAŁ 7. ROZPOZNAWANIE WYBRANYCH ELEMENTÓW MIMIKI
• Metody probabilistyczne (np. naiwny klasyfikator bayesowski), pozwalająceprzewidzieć prawdopodobieństwo przynależności obiektu do klasy w oparciuo twierdzenie Bayesa [75].
• Statystyczna analiza dyskryminacyjna — pozwalająca na klasyfikację obiek-tów do dwóch lub większej liczby klas przy pomocy funkcji dyskryminują-cych, utworzonych w oparciu o zbiór uczący[98].
• Maszyny wektorów wspierających1 (SVM - ang. suport vector machines)[17][42]. Metoda ta poszukuje hiperpłaszczyzny w wielowymiarowej prze-strzeni, która rozdziela przykłady ze zbioru treningowego, rzutowane do tejprzestrzeni przez odpowiednią funkcję zwaną jądrem.
• Sieci neuronowe pozwalające na przetwarzanie informacji w sposób równole-gły, analogicznie do ludzkiego mózgu. Jednym z zastosowań jest klasyfikacjawzorców [82].
W literaturze dotyczącej problematyki rozpoznawania formułuje się równieżkomplementarne w stosunku do klasyfikacji — zadanie grupowania (ang. cluste-ring). W odróżnieniu od klasyfikacji, w której celem jest określenie przynależno-ści pojedynczego obiektu do znanego zbioru klas, zadanie klasteryzacji polega naautomatycznym wyznaczeniu ilości oraz charakterystyki klas na podstawie danejzbiorowości obiektów. W kontekście systemu rozpoznawania mimiki, to drugie po-dejście jest również istotne, ponieważ nie wymaga etapu uczenia, który zazwyczajjest realizowany z udziałem człowieka („ręczne” przyporządkowanie elementówzbioru uczącego do przyjętych klas). Wśród metod grupowania można wymienić:
• Metody grupowania hierarchicznego (ang. hierarchical clustering), które ge-nerują sekwencję podziałów zbiorów obiektów w procesie grupowania.
• Metoda k-średnich (ang. k-means) należąca do grupy algorytmów iteracyjno-optymalizacyjnych [90].
7.2 Opis wybranych metod klasyfikacji
W niniejszej pracy, do rozpoznawania elementów mimiki, wykorzystano dwie me-tody klasyfikacji — klasyfikator kNN oraz wielowymiarową analizę dyskrymina-cyjną.
Metoda kNN (k najbliższych sąsiadów) polega na tym, że klasyfikowany obiektjest zaliczany do klasy najliczniej reprezentowanej wśród jego k „najbliższychsąsiadów”. Jeżeli w tej samej odległości, co k-ty „sąsiad” znajdą się jeszcze inneelementy, to wszyscy ci „sąsiedzi” biorą udział w głosowaniu. Działanie tej reguły
1spotykana jest również nazwa „metoda wektorów nośnych”
76
7.2. OPIS WYBRANYCH METOD KLASYFIKACJI
dla k=3 i sztucznego małego dwuwymiarowego zbioru odniesienia zilustrowanona rysunku (rys. 7.1). Zaletą tej metody jest jej prosta implementacja, możliwośćzrównoleglenia obliczeń, duża skuteczność. Wadą — konieczność zapamiętaniacałego zbioru uczącego.
Rysunek 7.1: Ilustracja reguły k-NN dla k=3. Źródło: [43]
Wielowymiarowa analiza dyskryminacyjna opiera się na podziale zbioru da-nych uczących na obszary ograniczone funkcjami dyskryminującymi, które naj-lepiej rozróżniają dwie lub więcej klas obiektów. Funkcje te mogą być liniowe(liniowa analiza dyskryminacyjna), kwadratowe (kwadratowa analiza dyskrymi-nacyjna), itp. Mogą one być następnie wykorzystane do klasyfikacji nowych da-nych do poszczególnych klas na podstawie prostego kryterium wyboru (rys. 7.2)— przypisz wektor danych X do klasy ωi jeśli dfi (X) > dfj (X) ∀j 6= i
Optymalne parametry funkcji dyskryminacyjnych wyznaczane są na podsta-wie zbioru obserwacji (dane uczące) poprzez minimalizację prawdopodobieństwabłędu z wykorzystaniem reguły maksimum prawdopodobieństwa a posteriori Bay-esa (MAP) . W przypadku parametrycznej analizy dyskryminacyjnej przyjmujesię, że funkcje gęstości prawdopodobieństwa zbioru posiadanych obserwacji sąopisane rozkładem normalnym. Reguła MAP prowadzi do następującego ogólne-go wzoru (7.1):
dfi = −12· (X− µXi)T · Σ−1
Xi· (X− µXi)−
12· log (|ΣXi |) + log (P (ωi)) (7.1)
gdzie:
µXi ,ΣXi − wartość oczekiwana oraz macierz kowariacji dla elementów zbiorudanych uczących należących do i-tej klasy
P (ωi)− prawdopodobieństwo apriori dla i-tej klasy
77
ROZDZIAŁ 7. ROZPOZNAWANIE WYBRANYCH ELEMENTÓW MIMIKI
Rysunek 7.2: Ilustracja klasyfikacji przy pomocy analizy dyskryminacyjnej.
W przypadku gdy macierze kowariancji są takie same dla każdej z klas (ΣXi =ΣX), jest to liniowa analiza dyskryminacyjna (LDA – ang. Linear DiscriminantAnalysis). Gdy macierze kowariancji estymowane są osobno dla każdej z grup —kwadratowa analiza dyskryminacyjna (QDA – Quadratic Discriminant Analysis).W porównaniu do metody kNN, analiza dyskryminacyjna wymaga pamiętanianiewielu parametrów, a nie całego zbioru uczącego. Posiada jednak silne zało-żenie normalności i unimodalności rozkładów zbioru elementów należących doposzczególnych klas. Więcej informacji na temat powyższych metod klasyfikacjimożna znaleźć w pracy [21].
7.3 Rozpoznawanie elementów mimiki — rezultaty i wnio-ski
Testy rozpoznawania elementów mimiki przeprowadzono niezależnie dla dwóch zopisanych wcześniej metod (tj. modeli kształtu oraz histogramów orientacji). Wprzypadku informacji uzyskanych z algorytmów detekcji ruchu, rozpoznawanierealizowane jest w odmienny sposób. Z tego powodu detekcja mrugnięć zostałaodrębnie opisana w rozdziale 8.4.1. Przyjęto następującą ogólną procedurę testo-wą:
1. Przygotowanie danych do rozpoznawania. Dla każdego obrazu sekwencjivideo:
a) ekstrakcja cech charakterystycznych wg odpowiedniej metody (modelekształtu, histogramy orientacji...),
b) utworzenie wektorów cech.
78
7.3. ROZPOZNAWANIE ELEMENTÓW MIMIKI — REZULTATY I WNIOSKI
2. Podział danych na sekwencje uczące oraz testowe, standaryzacja danych(zerowa wartość oczekiwana oraz odchylenie standardowe).
3. Tworzenie modelu — uczenie klasyfikatora i dobór jego parametrów (nadanych ze zbioru uczącego).
4. Ocena skuteczności klasyfikacji na danych ze zbioru testowego.
Etapy pierwszy i drugi, zostały omówione dokładniej w kolejnych podrozdziałachpoświęconych poszczególnym metodom (por. 7.3.1, 7.3.2).
Uczenie i dobór parametrów klasyfikatora zrealizowano z wykorzystaniem jed-nej z technik testowania jakości klasyfikacji — algorytm K-krotnej walidacji krzy-żowej (ang. K-fold crossvalidation) [49]. W metodzie tej oryginalna próba jestdzielona na K możliwie równych, wzajemnie niezależnych podzbiorów. Następniekolejno każdy z nich brany jest jako zbiór testowy, a pozostałe razem jako zbióruczący i dokonywana jest klasyfikacja. Klasyfikacja jest wykonywana K-krotnie,a rezultaty są następnie uśredniane w celu uzyskania jednego wyniku.
Jako K przyjęto 3 (ze względu na niewielką liczność poszczególnych klas zbio-ru uczącego). Aby zmniejszyć wariancję oceny jakości algorytm walidacji byłpowtarzany 10-krotnie. Ponadto każdy podzbiór danych uczących został podzie-lony losowo na część trenującą i walidującą w stosunku 70% do 30% (tzw. stra-tified sampling). Sumaryczny błąd klasyfikacji wyznaczony został jako średniaze wszystkich klasyfikatorów i prób. Jako najlepszy klasyfikator został wybranyten, który zapewniał największą dokładność klasyfikacji — przyjęte kryteriumdokładności jest określone równaniem 7.2.
arg maxi
Nω∑
j
PPV +NPV
, i = 1 . . .Kfold (7.2)
gdzie:
PPV,NPV − wartość predykcyjna dodatnia i ujemna klasyfikacji (ang. positivepredictive value, negative predictive value)
Kfold− ilość podzbiorów dla walidacji krzyżowej K-fold pomnożona przezilość powtórzeń walidacji
Nω − ilość klas
Oceny skuteczności klasyfikacji dokonano na zbiorze testowym dla najlepsze-go klasyfikatora. Wyznaczono następujące parametry jakości klasyfikacji: wartośćpredykcyjna dodatnia, wartość predykcyjna ujemna, swoistość, czułość. Objaśnie-nia znajdują się w dodatku C.1.
79
ROZDZIAŁ 7. ROZPOZNAWANIE WYBRANYCH ELEMENTÓW MIMIKI
7.3.1 Statystyczne modele kształtu
Do testów skuteczności działania przedstawionego algorytmu, wykorzystane zo-stały sekwencje obrazów zawierających wybrane jednostki czynnościowe górneczęści twarzy, wykonywane przez różne osoby:
• AU0 — położenie neutralne,
• AU1+2 — unoszenie brwi,
• AU4 — marszczenie brwi.
Jak wspomniano w rozdziale 6.1, za odpowiedniki jednostek AU1+2 oraz AU4w metodyce FAP, można przyjąć elementy FAP31-36. Określają one położeniepunktów charakterystycznych brwi oraz sposób ich deformacji.
Podczas manualnego wyznaczania punktów charakterystycznych kształtówważne jest zachowanie powtarzalności umieszczania punktów na kolejnych ob-razach. W celu ułatwienia tego procesu utworzona została aplikacja pomocniczapozwalająca na: edycję punktów kształtu, obserwację profili obrazu w wybranychmiejscach oraz tworzenie zestawu kształtów [71].
Przygotowane w ten sposób dane kształtów, podzielono następnie na zbioryuczące oraz testowe, użyte w kolejnych testach:
• Test 1 — sprawdzenie skuteczności rozróżniania jednostki AU0 od AU1+2dla danych jednej osoby.
• Test 2 — sprawdzenie skuteczności rozróżniania jednostki AU0 od AU1+2dla danych kilku osób.
• Test 3 — sprawdzenie skuteczności rozróżniania jednostek AU0, AU1+2oraz AU4 dla danych jednej osoby.
• Test 4 — sprawdzenie skuteczności rozróżniania jednostek AU0, AU1+2oraz AU4 dla danych kilku osób.
Parametry klasyfikatora dobrano z wykorzystaniem kryterium dokładności(7.2) dla sekwencji uczącej. Są one następujące:
• dla klasyfikatora kNN: metryka euklidesowa, K=2,
• rodzaj analizy dyskryminacyjnej: liniowa analiza dyskryminacyjna LDA.
Wyniki testów przedstawiono w dodatku C, tabele: C.15 — C.22, wykresy:C.12 — C.19.
80
7.3. ROZPOZNAWANIE ELEMENTÓW MIMIKI — REZULTATY I WNIOSKI
Z przeprowadzonych testów wynika, że rozpoznawanie jednostek czynnościo-wych przy pomocy statystycznych modeli kształtów jest skuteczne. Testy nr 1 i2 dla wszystkich gestów: > 90%. Testy nr 3 i 4 > 86% (oprócz jednego z gestówdla którego wyniki były niższe). Wybór rodzaju klasyfikatora ma wpływ na re-zultaty, przy czym dla większej ilości rozpoznawanych jednostek czynnościowychlepszy okazał się klasyfikator kNN.
Istotną obserwacją jest stosunkowo niewielka wrażliwość algorytmu rozpozna-wania opartego o kształty na cechy osobnicze (dobre rezultaty dla odróżnianiakształtów dla różnych osób). Daje to niezaprzeczalną zaletę w porównaniu do al-gorytmu opartego na histogramach orientacji, które z definicji są wrażliwe na ce-chy osobnicze. Należy jednak pamiętać, że badania przeprowadzono na niewielkiejgrupie osób, w związku z czym przy budowie docelowego systemu rozpoznawaniamimiki konieczne jest przeprowadzenie dodatkowych testów.
Ręczna adnotacja punktów, w badaniach opisanych w rozprawie, pozwala naodróżnienie wpływu skuteczności lokalizacji punktów na wyniki rozpoznawania,a co za tym idzie ocenę jakości samej klasyfikacji kształtów.
7.3.2 Histogramy orientacji
Przygotowanie danych do rozpoznawania w przypadku histogramów orientacjiwymaga określenia obszaru zainteresowań na obrazie (ROI), w którym spodzie-wane są zmiany wynikające z mimiki (zmarszczki, bruzdy, fałdy). Najprostszymobszarem, który może zostać wybrany, jest cała twarz (rys. 7.3a). Powoduje tojednakże utrudnienia w klasyfikacji, ze względu na konieczność odróżnienia odsiebie wielu gestów. Ponadto określenie ROI dla całej twarzy nie zawsze jestkonieczne — przykładowo jeśli do sterowania ruchem kursora wykorzystywanabędzie mimika dolnej części twarzy, a do emulacji przycisków gesty mimicznegórnej części, możliwe jest zdefiniowanie kilku ROI (rys. 7.3b) dla których roz-poznawany będzie określony zestaw gestów. ROI te powinny być umieszczone wmiejscach, w których występują największe zmiany wizualne wywołane mimiką.
Rysunek 7.3: Wybrane obszary zainteresowań dla rozpoznawania gestów: (a) wy-brane ROI, (b) cała twarz.
81
ROZDZIAŁ 7. ROZPOZNAWANIE WYBRANYCH ELEMENTÓW MIMIKI
Ręczne zaznaczanie obszarów zainteresowań jest bardzo czasochłonne i niespełnia założenia automatycznej pracy systemu (bez udziału operatora). Dlategoistotną kwestią jest automatyczne pozycjonowanie ROI na poszczególnych obra-zach sekwencji video. Na potrzeby testów skuteczności algorytmu rozpoznawania,położenie ROI zostało określone na podstawie względnego położenia w stosunkudo nozdrzy, zlokalizowanych ręcznie. Automatyzacja tego procesu została opisanaw rozdziale 8.4.
Przeprowadzono badanie skuteczności rozpoznawania następujących gestówmimicznych dolnej części twarzy:
• AU0 — położenie neutralne,
• AU12 — unoszenie kącików ust - obustronne i jednostronne,
• AU25+AU26 — otwarcie ust.
Na rysunku 7.4 przedstawiono poszczególne gesty mimiczne (zdjęcie dla ich mak-symalnej intensywności).
Rysunek 7.4: Rozpoznawane gesty mimiczne dolnej części twarzy: (a) AU0, (b)AU12P, (c) AU12L, (d) AU12, (e) AU25+26.
Sekwencje filmowe pobrano przy pomocy kamery Sony-EVI, z następującymiparametrami: rozdzielczość – 320*240, ilość ramek na sekundę FPS=25 (ang.frames per second). Obrazy zostały przekonwertowane z przestrzeni RGB do skaliszarości (8 bitów). Sekwencje zawierają kolejno:
• Sekwencja 1. Na początku pracy użytkownika z systemem dokonywanajest kalibracja, podczas której użytkownik proszony jest o wykonanie wy-branych gestów. Jednokrotne powtórzenie danego gestu, przy powyższychustawieniach kamery skutkuje około kilkunastoma obrazami zawierającymi
82
7.3. ROZPOZNAWANIE ELEMENTÓW MIMIKI — REZULTATY I WNIOSKI
poszczególne gesty mimiczne. Pozostałe obrazy sekwencji zawierają położe-nie neutralne twarzy oraz elementy przejściowe pomiędzy poszczególnymigestami mimiki.
• Sekwencja 2. Następnie, przy tych samych ustawieniach i położeniu gło-wy pobierana jest sekwencja zawierająca trzykrotnie powtórzony każdy zgestów.
• Sekwencja 3. W celu określenia wpływu oświetlenia kolejna sekwencja za-wiera obrazy mimiki (dwukrotnie powtórzenie gestów) z włączonym dodat-kowym oświetleniem bocznym.
• Sekwencja 4. Ostatnie dwie sekwencje zawierają dwukrotnie powtórzonegesty dla innego położenia głowy (oddalenie od kamery oraz przechyleniegłowy). Na tej podstawie określono wpływ zmian skali i rotacji twarzy nawyniki rozpoznawania.
Jako zbiór danych uczących przyjęto obrazy z sekwencji zawierającej kalibra-cję systemu (nr 1). Pozostałe dane tworzyły osobne zbiory testowe. Parametryklasyfikatora dobrano z wykorzystaniem kryterium dokładności (7.2) dla sekwen-cji nr 1. Są one następujące:
• dla klasyfikatora kNN: metryka korelacyjna, K=2,
• rodzaj analizy dyskryminacyjnej: kwadratowa analiza dyskryminacyjna QDAz diagonalną macierzą kowariancji (naiwny klasyfikator Bayesa).
Aby ocenić wpływ wyboru obszaru zainteresowań (rys. 7.3a, rys. 7.3b) oraztypu histogramów orientacji na skuteczność rozpoznawania wykonano testy zwykorzystaniem sekwencji nr 2 dla następujących konfiguracji:
• konfiguracja 1: obszar zainteresowań – wybrane ROI, histogramy orientacji– gradienty w przestrzeni skali (ang. scale-space),
• konfiguracja 2: obszar zainteresowań – wybrane ROI, histogramy orientacji– filtry Gabora,
• konfiguracja 3: obszar zainteresowań – cała twarz, histogramy orientacji –gradienty w przestrzeni skali,
• konfiguracja 4: obszar zainteresowań – cała twarz, histogramy orientacji –filtry Gabora.
Rezultaty rozpoznawania dla powyższych konfiguracji przedstawiono w do-datku C, tabele: C.4 — C.11, wykresy: C.1 — C.8.
83
ROZDZIAŁ 7. ROZPOZNAWANIE WYBRANYCH ELEMENTÓW MIMIKI
Porównując metody klasyfikacji, lepszym okazał się klasyfikator kNN. Nato-miast klasyfikator QDA pozwala na lepsze odróżnienie gestu AU0 (neutralnego),co może zostać wykorzystane do stworzenia hierarchicznej struktury klasyfika-cji — najpierw rozpoznawana jest sytuacja wykonania gestu przez użytkownika,później rozróżniane gesty.
Biorąc pod uwagę sposoby wyznaczania histogramów orientacji, lepsze rezul-taty otrzymano dla histogramów opartych o gradienty w przestrzeni skali (ang.scale-space).
Oceniając wpływ wyboru obszaru zainteresowań, można zauważyć dużo słab-sze wyniki dla przypadku ROI obejmującego całą twarz. Potwierdza to hipotezęże wybór większego obszaru utrudnia rozpoznawanie. Jest to najprawdopodobniejspowodowane tym, iż dla większego obszaru jakim jest cała twarz lokalne zmianywyglądu od gestów są niewielkie i trudne do rozróżnienia. Potwierdza to porów-nanie wyników dla gestów AU12 i AU25+26 — gest otwarcia ust (AU25+26)powoduje większe zmiany na obrazie i jest lepiej rozpoznawany. Inną przyczy-ną są również — możliwość wystąpienia zmian obrazu pochodzących od innychgestów, wpływ ruchu całej głowy.
Oceny wpływu zmian oświetlenia oraz ruchów głowy dokonano dla metodyklasyfikacji oraz typu histogramów orientacji dających najlepsze rezultaty — tj.wybrane ROI, klasyfikator kNN, histogramy orientacji — gradienty w przestrzeniskali). Wykonano następujące testy:
• ocena wpływu bocznego oświetlenia sztucznego, sekwencja 2,
• ocena wpływu zmian skali (odsunięcie głowy od kamery), sekwencja 3,
• ocena wpływu zmian skali i rotacji (odsunięcie głowy połączone z jej prze-chyleniem), sekwencja 4.
Wyniki przedstawiono w dodatku C, tabele: C.12 — C.14, wykresy: C.9 — C.11.
Podana analiza wpływu czynników zakłócających takich jak dodatkowe oświe-tlenie, zmiany skali i rotacji wywołane ruchami głowy, widoczne jest iż w takichprzypadkach skuteczność klasyfikacji w dużym stopniu spada. Najmniejszy wpływmają zmiany skali — tylko gest AU12R był błędnie rozpoznawany. Dodatko-wa analiza wyników, wskazuje jako przyczynę błędne klasyfikowanie AU12R doAU12. Jest tak dlatego, że gesty te są bardzo podobne do siebie (unoszenie obukącików i unoszenie jednego z nich). W przypadku zmian oświetlenia, widocznejest że największy wpływ ma ono na gest AU12L. Jest to zrozumiałe, ponieważdodatkowe oświetlenie było skierowane na tą część twarzy. Największe zakłóceniapowoduje rotacja — zmienia się wtedy orientacja wszystkich krawędzi na obrazietwarzy.
Autor pracy proponuje następujące kierunki dalszych badań, mające na celupoprawę jakości klasyfikacji:
84
7.3. ROZPOZNAWANIE ELEMENTÓW MIMIKI — REZULTATY I WNIOSKI
• Wykorzystanie informacji czasowej do rozpoznawania (idea omówiona po-niżej).
• Wykrywanie zmian skali i rotacji, automatyczna rekalibracja klasyfikatorów(uwzględnienie w klasyfikacji nowych obserwacji).
• Śledzenie twarzy i estymacja parametrów ruchu (skala, rotacja). Korektahistogramów orientacji wg otrzymanych parametrów.
• Wykorzystanie metod doboru zmiennych diagnostycznych (np. analiza czyn-nikowa, metoda Helwinga) do selekcji orientacji niosących informacje, naj-istotniejsze z punktu widzenia klasyfikacji.
Niska jakość klasyfikacji w przypadku czynników zakłócających niekonieczniemusi prowadzić do niepoprawnego działania systemu. Podstawowym zadaniemsystemu rozpoznawania mimiki jest generacja poleceń np. dla systemu operacyj-nego komputera. Reagowanie na zmiany wykrywane dla każdego obrazu sekwencjivideo, może powodować generację szeregu błędnych poleceń (każde zakłócenie).Dlatego konieczne jest uwzględnienie kontekstu czasowego — np. wykrycie kilkulub kilkunastu obrazów dla których otrzymano ten sam wynik rozpoznania gestu.Potwierdzeniem skuteczności takiego podejścia jest następujący wykres (rys. 7.5),na którym przedstawiono wyniki klasyfikacji gestów dla całej sekwencji testowej.Dodatkowo nałożono informację o rzeczywistym geście występującym na danejramce (ręczna anotacja ramek dokonana przez człowieka).
Rysunek 7.5: Rezultaty klasyfikacji dla konfiguracji 1 przedstawione w formie wy-kresu czasowego. Kolorem niebieskim oznaczono ręczne przyporządkowanie kolej-nych ramek do poszczególnych klas, niebieskim – rezultaty klasyfikacji. ωi - i-taklasa, k - numer obrazu sekwencji
85
Rozdział 8
Adaptacja systemurozpoznawania mimiki
Streszczenie
Duża zmienność wyglądu twarzy oraz elementów mimiki, wynikająca zwpływu różnych czynników stanowi istotne utrudnienie w automatycznymrozpoznawaniu gestów. W rozdziale usystematyzowano czynniki wpływającena skuteczność rozpoznawania oraz zaproponowano metody adaptacji sys-temu rozpoznawania mimiki do człowieka oraz zmieniających się warunkówotoczenia.
8.1 Wstęp
Czynniki, mające wpływ na wygląd twarzy oraz elementów mimiki, można po-dzielić na dwie grupy [29]:
• zewnętrzne źródła zmienności (ang. extrinsic sources of variation) oraz
• wewnętrzne źródła zmienności wyglądu twarzy (ang. intrinsic sources ofvariation in facial appearance).
Do zewnętrznych źródeł zmienności zalicza się przede wszystkim geometrięsceny (ang. viewing geometry). Obraz jest dwuwymiarowym odwzorowaniem trój-wymiarowej sceny, dlatego też następuje utrata części informacji szczególnie wi-doczna w przypadku dużych ruchów głowy — obroty, przechylenia (rys. 8.1).Istotny wpływ ma również oświetlenie sceny (ang. illumination), które powodujepowstawanie cieni, odblasków oraz skutkuje zmianami kolorystyki obrazu. Wśródpozostałych zewnętrznych czynników można wyróżnić przysłanianie przez inneobiekty (np. ręka użytkownika, okulary), a także samą akwizycję obrazu która
87
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
wiąże się z ograniczoną rozdzielczością przetwornika oraz powstawaniem szumówi zakłóceń.
Rysunek 8.1: Obraz oka: (a) dla twarzy widzianej frontalnie, (b) twarzy z profilu.
Do wewnętrznych źródeł zmienności wyglądu twarzy zaliczyć można tożsa-mość — różne osoby mają odmienny wygląd, mimo iż ogólna budowa morfolo-giczna twarzy jest taka sama. Inne czynniki, które mają wpływ na wygląd twarzy,to wiek i płeć osoby, elementy charakterystyczne (np. włosy, broda...) oraz indy-widualny sposób wykonywania gestów mimicznych.
Podczas interakcji człowieka z maszyną, w każdej chwili może wystąpić zmia-na oświetlenia sceny, położenia osoby względem kamery lub innych parametrów.Z systemu mogą ponadto korzystać różne osoby posiadające indywidualne ce-chy tożsamości wynikające z wyglądu, cech osobniczych, itp. Z tego powodu,kluczowym zagadnieniem staje się konieczność adaptacji systemu doindywidualnych cech człowieka oraz zmieniających się warunków oto-czenia (ang. visual learning and adaptation).
Zagadnienia adaptacji interfejsu stanowią bardzo obszerny temat badań. Wniniejszej pracy przedstawione zostały wybrane problemy badawcze oraz zapro-ponowane przez autora rozwiązania:
• Estymacja położenia głowy człowieka względem kamery.
• Wpływ parametrów kamery oraz zmian oświetlenia sceny — automatyzacjatworzenia modelu barwy skóry.
• Uwzględnienie indywidualnego wyglądu człowieka oraz osobniczych cechmimiki — metoda kalibracji systemu w oparciu o detekcję mrugnięć.
Uwzględnienie zewnętrznych źródeł zmienności (oświetlenie, pozycja...) po-winno odbywać się w sposób ciągły podczas pracy systemu. Z kolei wpływ tożsa-mości, wieku, cech osobniczych może zostać uwzględniony rzadziej — na etapiekalibracji systemu. Kalibracja ta powinna odbywać się każdorazowo gdy nowa oso-ba rozpocznie korzystanie z systemu, bądź też w momencie gdy wystąpią istotnezmiany w wyglądzie tej osoby (np. założenie okularów).
88
8.2. ESTYMACJA POŁOŻENIA GŁOWY CZŁOWIEKA WZGLĘDEM KAMERY
8.2 Estymacja położenia głowy człowieka względem ka-mery
Opisane w poprzednich rozdziałach algorytmy rozpoznawania elementów mimiki,są dostosowane do sytuacji gdy twarz osoby jest w położeniu frontalnym. Dlategoteż, w trakcie pracy systemu, konieczne jest określenie położenia głowy człowiekaw stosunku do pozycji neutralnej (twarz widziana frontalnie). Dokładna estyma-cja położenia obiektu na scenie trójwymiarowej przy użyciu jednej kamery, jestco prawda możliwa ale bardzo trudna i skomplikowana obliczeniowo. Z regułyprzyjmowany jest model kamery o uproszczonej perspektywie (ang. weak came-ra model). Jest on poprawny, w przypadku gdy odległości pomiędzy elementamitwarzy są niewielkie w stosunku do odległości pomiędzy głową a kamerą. Przyj-muje się że środek układu współrzędnych obserwowanego obiektu znajduje się wśrodku osi głowy. W takim założeniu oddalanie i przybliżanie kamery skutkujezmianą skali twarzy na obrazie, przechylenia głowy — rotacją w płaszczyźnie ob-razu, obroty głowy (góra-dół, prawo-lewo) — rotacją w płaszczyźnie prostopadłejdo płaszczyzny obrazu.
Można założyć, iż w normalnych warunkach pracy z komputerem, typoweruchy głowy ograniczają się do (rys. 8.2):
• oddalania-przybliżania,
• przechylenia głowy prawo-lewo,
• obrotów w lewo-prawo oraz góra-dół.
Dla kamery umieszczonej naprzeciwko twarzy człowieka oraz przyjęciu środ-ka układu współrzędnych obserwowanego obiektu (twarz) w środku osi głowy,powyższe ruchy skutkują odpowiednio:
• zmianą skali twarzy na obrazie,
• rotacją w płaszczyźnie obrazu,
• rotacją w płaszczyznach prostopadłych do płaszczyzny obrazu (zniekształ-cenia perspektywiczne oraz przysłanianie części elementów twarzy).
Problem określenia położenia głowy w stosunku do pozycji neutralnej spro-wadza się zazwyczaj do wyznaczenia dopasowania między dwoma obrazami (ang.correspondence problem). Na jednym z nich twarz znajduje się w położeniu fron-talnym, na drugim w położeniu które jest nieznane. Istnieje wiele metod po-zwalających na rozwiązanie problemu dopasowania obrazów. Ogólnie można jepodzielić na:
89
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
Rysunek 8.2: Głowa widziana (a) frontalnie, (b)(c) obroty prawo-lewo, (d)(e)obroty góra-dół, (f)(g) przechylenia prawo-lewo.
• metody wykorzystujące znalezione strukturalne cechy obrazu, niezależneod zmian oświetlenia oraz punktu widzenia kamery (ang. feature invariantapproaches),
• metody oparte na wyszukiwaniu wzorców (ang. template matching me-thods, correlation based methods).
Przykładem algorytmów z pierwszej grupy jest publikacja [97], w której auto-rzy przedstawili algorytm estymacji pozycji głowy wykorzystujący zestaw punk-tów charakterystycznych twarzy (oczy, usta, nos). Cechy te są śledzone na po-szczególnych obrazach sekwencji wideo z użyciem korelacyjnej metody dopaso-wania do wzorca. Na podstawie ich położenia na wzorcowej ramce oraz położeniana obrazie aktualnym, obliczane są parametry transformacji afinicznej (ang. af-fine transform). Transformacja ta charakteryzuje się najmniejszym błędem dlaprzyjętego modelu kamery o uproszczonej perspektywie (ang. weak camera mo-del). Model ten jest poprawny, w przypadku gdy odległości pomiędzy elementa-mi twarzy są niewielkie w stosunku do odległości pomiędzy głową a kamerą. Napodstawie wyznaczonych parametrów oraz reprezentacji twarzy w postaci elip-sy, określane są: położenie twarzy, rotacja w płaszczyźnie obrazu oraz rotacje wpłaszczyznach prostopadłych.
90
8.2. ESTYMACJA POŁOŻENIA GŁOWY CZŁOWIEKA WZGLĘDEM KAMERY
Odmienne podejście [59] wykorzystuje model oparty o zapamiętane wzorcewyglądu twarzy dla różnych pozycji. Wzorce te poddawane są analizie składo-wych głównych PCA. Autorzy udowodnili, że tylko pierwsze kilka składowychgłównych, zawiera informację o zmianach położenia twarzy — występuje wte-dy największa wariancja pikseli obrazu. Dla kolejnych obrazów sekwencji wideoprzedstawiającej ruch głowy, w przestrzeni składowych tworzy się trajektoria od-powiadająca kolejnym położeniom (ang. pose manifold). Ponowny ruch w tymsamym kierunku skutkuje podobną trajektorią. W oparciu o analizę otrzyma-nych trajektorii w przestrzeni cech, autorzy McKenna, Gong opracowali algorytmestymacji położenia twarzy.
8.2.1 Algorytm estymacji położenia głowy
Obrazy twarzy charakteryzują się dużą zmiennością wywołaną wieloma czynni-kami. Najistotniejsze z nich (pomijając ruchy głowy) to mimika oraz oświetlenie.Uwzględnienie zmienności będącej skutkiem ruchów głowy przy jednoczesnympominięciu wpływu innych czynników jest możliwe dzięki analizie statystycznej.Spośród kilku metod wybrano algorytm oparty o analizę składowych głównych(PCA – ang. Principal Component Analysis) określany w literaturze jako „eigen-faces” [59]. Algorytm ten został zmodyfikowany oraz przystosowany dla systemurozpoznawania mimiki twarzy. Modyfikacje obejmują m.in.:
• wykorzystanie modularnych przestrzeni dla rozróżnienia poszczególnych po-zycji głowy,
• sposób porównywania obrazów ze wzorcami oraz
• metodę korekcji globalnych zmian oświetlenia.
Podstawą algorytmu określania położenia głowy jest przygotowana wcześniejbaza, zawierająca wzorce twarzy pobrane podczas ruchów głowy względem ka-mery. Dla każdego rodzaju ruchu głowy (przechylenia, obroty...), uzyskiwana jestsekwencja obrazów zawierająca widok twarzy w jej kolejnych położeniach (rys.8.3). Z widoków tych pobierany jest tylko wycinek zawierający twarz. Każdy ob-raz z bazy wzorców zamieniany jest na wektor cech poprzez odpowiednie ułożeniekolejnych pikseli np. kolumnami — rys. 8.4. Następnie wektory te są normalizo-wane poprzez odjęcie „średniego obrazu twarzy” (ang. mean face). Ponadto każdyobraz testowy jest wstępnie przetwarzany w celu usunięcia szumów i zmniejszeniawymagań obliczeniowych (m.in. filtracja medianowa, zmiana rozmiaru).
Na rysunku 8.5 przedstawiono poszczególne kroki algorytmu określania poło-żenia. W pierwszym etapie, przy pomocy metody PCA, wyznaczana jest repre-zentacja wzorców twarzy w nowej przestrzeni cech. Są to: średni obraz twarzy χ,składowe główne oraz wagi dla wzorców. Użyta w metodzie analiza składowychgłównych PCA została opisana dokładniej w dodatku A.4.
91
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
Rysunek 8.3: Wzorce twarzy dla obrotu głowy w prawo i z powrotem (dla uprosz-czenia rysunek zawiera co czwarty wzorzec).
Rysunek 8.4: Ilustracja zasady tworzenia wektorów cech odpowiadających wzor-com twarzy.
Składowe główne UΦ (ang. principal components), określane również jako„eigen-obiekty”, stanowią nową bazę przestrzeni, do której rzutowane są wzor-ce twarzy. W procesie rzutowania wyliczany jest wektor wag Ωχi reprezentującydany wzorzec.
W przypadku określania położenia, największa zmienność jest wynikiem ru-chów głowy. Pozostałe kierunki (osie nowej przestrzeni) mogą zostać pominięteponieważ kodują zmienność pochodzącą np. od szumów, zakłóceń, ruchów mi-micznych. Dlatego ze wszystkich składowych głównych, wybierane jest KΦ pierw-szych elementów. Wartość KΦ obliczana jest na podstawie kryterium (8.1).
KΦ∑
i=1
λi pΦ
100·D∑
i=1
λi (8.1)
gdzie:
i− indeks kolejnego wzorca
λi − i-ta wartość własna macierzy kowariancji danych wzorców
D − ilość pikseli obrazu wzorca
pΦ − zadana, procentowa wartość określająca proporcję wariancji da-nych z zestawu wzorców
92
8.2. ESTYMACJA POŁOŻENIA GŁOWY CZŁOWIEKA WZGLĘDEM KAMERY
Rysunek 8.5: Etapy algorytmu określania położenia głowy.
Każdy wektor cech (a co za tym idzie obraz wzorca) możne zostać odtworzonypoprzez kombinację liniową składowych głównych (8.2) oraz dodanie średniegowektora cech.
χi = χ+ UΦ · ΩΦ,i (8.2)
gdzie:
χi − odtworzony wektor cech (obraz i-go wzorca)
χ− wektor średniego obrazu twarzy
UΦ − składowe główne
ΩΦ,i − wektor wag i-go wzorca
W wyniku rzutowania wzorców odpowiadających kolejnym położeniom gło-wy do nowej przestrzeni, otrzymuje się wektory cech tworzące w tej przestrzenitrajektorię odpowiadającą zmianie pozycji (ang. pose manifold) — rys. 8.6.
93
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
Rysunek 8.6: Wykres trajektorii (dwa pierwsze elementy wektora wag): (a) dlawszystkich ruchów, (b) dla obrotu głowy w prawo.
Określenie pozycji w rozwiązaniu zaproponowanym w artykule [59], odbywasię poprzez obliczenie odległości pomiędzy wagami badanego obrazu, a zapamię-taną trajektorią dla wszystkich ruchów (8.4) — rys. 8.7. Badany obraz jest przy-gotowywany tak samo jak wzorce (pobranie wycinka twarzy, usuwanie szumów).Znalezienie najlepszego dopasowania pomiędzy wzorcem a nieznanym obrazemjest realizowane poprzez wyznaczenie minimum odległości (8.3).
mini‖Ωχi − Ωtst‖ (8.3)
Ωtst = (UΦ)T · (χtst − χ) (8.4)
gdzie:
χtst − nieznany obraz (wektor cech)
Ωtst − wektor wag dla nieznanego obrazu (po rzutowaniu do nowej prze-strzeni)
χ− wektor średniego obrazu twarzy
UΦ − składowe główne
Opisane rozwiązanie wykorzystuje jedną bazę wzorców (ang. general poseeigenspace), w której umieszczone są widoki twarzy dla wszystkich pozycji. Mo-że to powodować błędne rozpoznanie w przypadku gdy baza zawiera elementyodstające (ang. outliers) lub trajektorie dla poszczególnych ruchów leżą bliskosiebie.
Dlatego w niniejszej pracy użyto alternatywna metodę określania pozycji gło-wy, wykorzystującą osobne bazy dla każdego ruchu (ang. modular pose eigen-space). Można ją przyrównać do obserwacji sceny przez kilku obserwatorów rów-
94
8.2. ESTYMACJA POŁOŻENIA GŁOWY CZŁOWIEKA WZGLĘDEM KAMERY
nocześnie, z których każdy zwraca uwagę na co innego. Bazy, reprezentujące po-szczególne pozycje głowy, zostały utworzone poprzez podział sekwencji wzorcowejna części odpowiadające następującym ruchom głowy:
• pozycja neutralna (w przybliżeniu),
• przechylenie głowy w prawo,
• przechylenie głowy w lewo,
• obrót w lewo,
• obrót w prawo,
• obrót w górę,
• obrót w dół.
Rysunek 8.7: Określanie stopnia intensywności ruchu.
Jedną z zalet tej modyfikacji jest wymagana mniejsza ilość komponentówgłównych konieczna do opisania położenia oraz mniejsze skomplikowanie trajek-torii (rys. 8.6b). Inna, przydatna w systemie rozpoznawania mimiki cecha, tomożliwość uzyskania w pierwszej kolejności informacji o rodzaju ruchu (np. pra-wo, lewo), a w późniejszym etapie określenia stopnia intensywności ruchu.
Klasyfikacja badanego obrazu χtst do jednej z baz (odpowiadających poszcze-gólnym pozycjom głowy) odbywa się następująco:
• rzutowanie badanego obrazu do każdej z modularnych przestrzeni, w wyni-ku otrzymywane są wektory wag Ωtst dla danej przestrzeni b (8.4),
95
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
• rekonstrukcja badanego obrazu przy pomocy KΦ składowych głównych da-nej bazy (8.5),
• klasyfikacja obrazu wg kryterium minimalnego błędu rekonstrukcji (8.6),
Dla czytelności, we wzorach nie wprowadzono dodatkowych indeksów oznaczają-cych bazę.
χb = UΦ · ΩΦ,tst (8.5)
gdzie:
χb − zrekonstruowany wektor cech badanego obrazu
UΦ − składowe główne przestrzeni b
ΩΦ,tst − wektor wag badanego obrazu w przestrzeni b
minb‖χb − (χtst − χ)‖ (8.6)
gdzie:
χb − zrekonstruowany wektor cech badanego obrazu
χ− wektor średniego obrazu twarzy z bazy b
χtst − wektor cech badanego obrazu
8.2.2 Rezultaty estymacji położenia głowy
Istotnym parametrem, które ma bezpośredni wpływ na skuteczność określaniapozycji, jest wrażliwość algorytmu na zmiany oświetlenia sceny oraz inne czynniki(np. jednocześnie wykonywane ruchy mimiczne). Aby to sprawdzić wyznaczonotrajektorie ruchów dla następujących sekwencji video:
• sekwencja 1 — kamera EVI, jednolite tło, słabe oświetlenie (natężenieoświetlenia około 40lux), (rys. 8.8b),
• sekwencja 2 — kamera EVI, jednolite tło, optymalne warunki oświetlenia(natężenie oświetlenia około 320lux), w pozycji frontalnej wykonany szereggestów mimicznych (rys. 8.8c),
• sekwencja 3 — kamera EVI, jednolite tło, optymalne warunki oświetlenia(natężenie oświetlenia około 320lux), inna mimika twarzy (rys. 8.8d),
96
8.2. ESTYMACJA POŁOŻENIA GŁOWY CZŁOWIEKA WZGLĘDEM KAMERY
Rysunek 8.8: Przykładowe obrazy z sekwencji video: (a) sekwencja wzorcowa, (b)sekwencja nr 1, (c) sekwencja nr 2, (d) sekwencja nr 3
Jako sekwencję wzorcową (inną niż sekwencje testowe) przyjęto obrazy pobra-ne kamerą EVI dla następujących parametrów: jednolite tło, optymalne warunkioświetlenia (natężenie oświetlenia około 320lux), (rys. 8.8a). Każdy obraz testo-wy przetwarzany był wstępnie analogicznie jak obrazy wzorcowe z bazy (m.in.pobranie wycinka obrazu zawierającego twarz, zmiana rozmiaru).
Podczas badań stwierdzono niską skuteczność klasyfikacji, dla sekwencji nr 1(słabe oświetlenie). Prawie wszystkie obrazy testowe charakteryzowały się błę-dem rekonstrukcji powyżej założonego progu. Przyczynę tego obrazują rysunki8.9 i 8.10. Można zauważyć, iż globalna zmiana oświetlenia sceny (np. zmierzch)skutkuje mniejszą dynamiką obrazu. Powoduje to znaczne przesunięcie trajek-torii i uniemożliwia znalezienie optymalnego dopasowania pomiędzy wzorcem anieznanym obrazem. Rozwiązaniem tego problemu jest zastosowanie algorytmuwyrównywania histogramu, który koryguje lokalizację trajektorii w przestrzeniwag — rys. 8.11.
W2
W1
(wz)(tst1)(tst2)(tst3)
Rysunek 8.9: Wykresy trajektorii (ruch głowy – obrót w prawo) dla poszczegól-nych sekwencji przed wyrównaniem histogramu: (wz) sekwencja wzorcowa, (tst1)sekwencja nr 1, (tst2) sekwencja nr 2, (tst3) sekwencja nr 3
97
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
0 50 100 150 200
0
500
1000
1500
2000
2500
wz
0 50 100 150 200
0
500
1000
1500
2000
2500
3000
3500
tst1
Rysunek 8.10: Histogramy dla obrazu: (wz) z sekwencji wzorcowej, (tst) orazsekwencji nr 1)
W2
W1
(wz)(tst1)(tst2)(tst3)
Rysunek 8.11: Wykresy trajektorii (ruch głowy – obrót w prawo) dla poszcze-gólnych sekwencji po wyrównaniu histogramu: (wz) sekwencja wzorcowa, (tst1)sekwencja nr 1, (tst2) sekwencja nr 2, (tst3) sekwencja nr 3
Rezultaty estymacji położenia głowy przedstawione zostały w dodatku F.Dla położenia frontalnego (czyli najbardziej istotnego z punktu widzenia syste-mu) skuteczność rozpoznawania jest wystarczająca (większa od 98%). Pozostałepozycje głowy są gorzej rozpoznawane.
Opisana powyżej metoda estymacji położenia głowy, może służyć równieżdo detekcji i lokalizacji twarzy. W tym celu dla badanego obrazu wejściowegowyznaczana jest mapa dopasowania do modularnych baz pozycji. Poniżej opisanopokrótce procedurę postępowania, powtarzaną dla jednej z kilku założonych skal(wielkość obrazu twarzy):
98
8.3. WPŁYW PARAMETRÓW KAMERY ORAZ ZMIAN OŚWIETLENIA SCENY
1. Dla każdego piksela obrazu pobierane jest jego otoczenie o rozmiarze pro-porcjonalnym do skali (tak aby otrzymany wycinek ROI miał rozmiar równyrozmiarom wzorców w bazie).
2. Dla każdego ROI powtarzana jest procedura wyznaczania najlepszego do-pasowania do bazy, analogicznie do opisanej wyżej klasyfikacji nieznanegoobrazu do jednej z kategorii pozycji.
3. W wyniku tego, dla każdego piksela są wyznaczane: numer bazy do którejzostał zaklasyfikowany oraz wartości błędu rekonstrukcji dla tej bazy (8.6).Wartość błędów rekonstrukcji tworzą mapę dopasowania.
4. Poprzez znalezienie współrzędnych piksela dla którego występuje minimummapy dopasowania, określona jest najbardziej prawdopodobna lokalizacjatwarzy na badanym obrazie oraz identyfikowana jest baza odpowiadającapozycji głowy.
5. Na podstawie kryterium minimum odległości pomiędzy wagami ROI rzu-towanego do zidentyfikowanej modularnej przestrzeni, a zapamiętaną tra-jektorią (8.3) możliwe jest określenie pozycji głowy w bazie.
Powyższą procedurę można powtarzać dla różnych skal uzyskując w ten sposóbkolejną istotną dla systemu informację — skalę czyli wielkość twarzy na obrazie.
Przedstawione badania nie wyczerpują całkowicie tematyki estymacji pozycjigłowy. Można wskazać następujące dalsze kierunki prac:
• automatyczna akwizycja sekwencji video połączona z pomiarem pozycji gło-wy w przestrzeni,
• badanie skuteczności określania położenia dla różnych reprezentacji obrazu(np. filtry kierunkowe, własności tekstury),
• badanie odporności utworzonych baz na czynniki zakłócające (np. zmianakąta oświetlenia twarzy, elementy takie jak okulary, zarost),
• badanie wpływu zmian skali na skuteczność detekcji i lokalizacji twarzy.
8.3 Wpływ parametrów kamery oraz zmian oświetleniasceny
Popularny sprzęt wizyjny instalowany w zestawach komputerowych (np. inter-netowe kamery USB) nie został zaprojektowany dla potrzeb zaawansowanegoprzetwarzania i analizy obrazu. Wiąże się z tym szereg problemów wymagają-cych uwzględnienia przy opracowywaniu wizyjnego interfejsu człowiek-komputero niewygórowanych wymaganiach sprzętowych. Problemy te skupiają się wokółnastępujących aspektów akwizycji obrazu:
99
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
• szum,
• ostrość i rozdzielczość obrazu,
• balans bieli,
• oświetlenie i parametry ekspozycji.
Obecność szumu, generowanego już przez sam sensor kamery, wprowadza stocha-styczną zmienność koloru pikseli w następujących po sobie w sekwencji obrazach.W przypadku tanich kamer internetowych stosunek sygnału do szumu jest małyi pogarsza się szybko w miarę zmniejszania oświetlenia, gdy układ automatycznejregulacji wzmocnienia dostosowuje kamerę do pracy w ciemniejszych warunkach.Wymusza to wprowadzenie do opracowywanych algorytmów pewnych metod od-dzielających szum od istotnych zmian intensywności pikseli. Zagadnienia te zo-stały opisane w dodatku A.3.
Także pozostałe parametry (ostrość obrazu, fizyczna rozdzielczość) w przy-padku niedrogich kamer, nie są zbyt wysokie. Układ optyczny jest niejednokrotniebardzo uproszczony i pozbawiony możliwości regulacji. Stosowana jest także czę-sto interpolacja obrazu na różnych etapach jego akwizycji. Z punktu widzeniasegmentacji barwnej ważna jest również rozdzielczość barwna obrazu wynikowe-go (głębia kolorów), która w przypadku niektórych kamer, może być ograniczonado 5 bitów na kanał koloru, czyli 32 poziomów jasności (kamera Creative USBWebCam).
Typowe kamery internetowe, wykorzystywane powszechnie przez użytkowni-ków komputerów, są wyposażone w układ regulacji balansu bieli, pomagającyunikać przebarwień obrazu w przypadku zmian temperatury barwowej oświetle-nia. Działanie tego układu nie zawsze prowadzi jednak do pożądanych rezulta-tów i nie zapewnia powtarzalności kolorów rejestrowanych w kadrze obiektówszczególnie przy oświetleniu mieszanym (np. światło żarowe i światło monitorakomputerowego). Z tego powodu nie jest możliwe z góry dokonanie założenia owartości koloru skóry twarzy i wykorzystanie go w segmentacji barwnej, gdyż wzależności od kontekstu i oświetlenia sceny odcień skóry przesuwa się w szerokimzakresie widma barw. Z powodu wspomnianego wyżej układu automatycznegowzmocnienia kamery, lokalne zmiany jasności obrazu powodują globalne zmianyparametrów układu przetwornika wizyjnego kamery. Skutkuje to przesunięciempoziomu średnich wartości wszystkich pikseli w czasie. Zostało to zilustrowanena rysunku 8.12.
8.3.1 Automatyzacja tworzenia modelu barwy skóry
Jednym z problemów, związanych z segmentacją twarzy, jest ustalenie mode-lu barwy skóry charakteryzującego twarz aktualnie obserwowanego użytkownika.
100
8.3. WPŁYW PARAMETRÓW KAMERY ORAZ ZMIAN OŚWIETLENIA SCENY
0 1 2 3 4 5 6 7 8 950
100
150
200
250
czas [s]
war
tosc
pik
sela
Rysunek 8.12: Zmiana intensywności wybranego piksela wynikająca z działaniaukładu automatycznego wzmocnienia kamery.
Aby wyznaczyć charakterystykę kolorystyczną skóry w sposób automatyczny, ko-nieczne jest wyodrębnienie z obrazu pikseli należących do skóry twarzy, a więcdokonanie segmentacji tego obiektu. Segmentacja ta nie powinna opierać się najeszcze nie znanym modelu barwy, ale na innym kryterium, nie wykorzystywanympóźniej podczas przetwarzania kolejnych obrazów sekwencji.
Dodatkowym kryterium segmentacji, które może zostać wykorzystane, jestzmienność oświetlenia obiektów wywołana intencjonalnymi zmianami emisji świa-tła przez monitor komputera, przed którym znajduje się użytkownik. Impulsoweoświetlenie twarzy przez ekran monitora stwarza możliwość odróżnienia jej od po-zostałych obiektów znajdujących się w kadrze. Twarz użytkownika jest obiektemznajdującym się bezpośrednio przed ekranem w polu widzenia kamery zamon-towanej na monitorze. Programowo sterowane rozjaśnienie i wygaszenie ekranumonitora powoduje zmiany jasności znajdujących się przed nim obiektów, tymwiększe, im bliżej monitora znajduje się dany obiekt. Efekt ten jest wyraźny,gdyż strumień światła emitowanego przez ekran maleje z kwadratem odległościod niego. Efekt ten obrazują wykresy (rys. 8.13, rys. 8.14) zmian intensywnościpikseli należących do niewielkiego wycinka twarzy (np. 3x3).
Uwzględniając szerszy kontekst (ergonomię rozwiązania, bezpieczeństwo użyt-kownika) — migotanie ekranu monitora powinno zostać ograniczone do jedno-razowego etapu wstępnego (oraz ewentualnie rzadko powtarzanej rekalibracji) inie może być powtarzane wielokrotnie. Te zastrzeżenia dotyczą przede wszystkimużytkowników z zaburzeniami neurologicznymi, u których migotanie ekranu możesprowokować napad padaczkowy. Nie stanowi to jednak przeszkody w wykorzy-staniu tej techniki do jednorazowej kalibracji systemu, pomiędzy rozjaśnieniem iwygaszeniem monitora może upłynąć czas rzędu sekundy, zaś użytkownik możew tym czasie mieć zamknięte oczy.
Zagadnienia budowy modelu barwy skóry na podstawie analizy zmian wy-wołanych sztucznym oświetleniem monitora, zostały szerzej opisane w publikacjiautora [41].
101
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
0 1 2 3 4 5 6 7 8 90
0.5
1
1.5
czas [s]
zmia
ny o
swie
tleni
a m
onito
ra
0 1 2 3 4 5 6 7 8 974
76
78
80
82
84
86
88
czas [s]
sred
nia
war
tosc
pik
seli
Rysunek 8.13: Zmiany średniej intensywności pikseli twarzy podczas impulsowychzmian jaskrawości monitora.
0 1 2 3 4 5 6 7 8 90
0.5
1
1.5
czas [s]
zmia
ny o
swie
tleni
a m
onito
ra
0 1 2 3 4 5 6 7 8 9140
141
142
143
144
145
czas [s]
sred
nia
war
tosc
pik
seli
Rysunek 8.14: Zmiany średniej intensywności pikseli tła podczas impulsowychzmian jaskrawości monitora.
102
8.4. METODA KALIBRACJI SYSTEMU
8.4 Metoda kalibracji systemu
Opisane w poprzednich rozdziałach metody lokalizacji twarzy, rozpoznawania ele-mentów mimiki oraz określenia położenia głowy, do poprawnego działania wyma-gają szeregu informacji określonych a priori:
• Używane do detekcji i lokalizacji twarzy (por. 5.3) położenie cech odpo-wiadających elementom twarzy (oczy, nozdrza, usta) na obrazie oraz ichwzajemne odległości.
• Położenie punktów charakterystycznych kształtów (statystyczne modele kształ-tu – por. 6.2).
• Dokładne pozycjonowanie obszarów zainteresowań (ROI) na poszczegól-nych obrazach sekwencji video dla histogramów orientacji (por. 7.3.1).
• Baza wzorców widoków twarzy używanych przez algorytm estymacji poło-żenia głowy do porównywania nieznanego obrazu.
Część z wyżej wymienionych informacji może zostać oszacowana na podstawieogólnie dostępnej wiedzy. Przykładem mogą być ogólne zależności geometrycznepomiędzy elementami twarzy (np. wzajemne położenie oczu, ust, nosa...), któresą znane z anatomii. Pozostałe natomiast — powinny zostać pobrane na etapiekalibracji systemu.
Biorąc pod uwagę wygodę korzystania i ergonomię rozwiązania, kalibracjanie może być czasochłonna i skomplikowana. Ręczne wskazywanie elementów naobrazie (np. wybieranie wycinka obrazu), jest rozwiązaniem które nie spełnia za-łożeń ergonomii użytkowania (szczególnie w przypadku osób niepełnosprawnychruchowo). Dlatego istotnym celem jest automatyzacja tego procesu.
Implementacja pełnej automatyzacji (nie zakładającej udziału człowieka) jestzadaniem trudnym do realizacji. Z pomocą przychodzi możliwość wykorzystaniainterakcji z użytkownikiem. System może generować szereg poleceń dla człowiekatakich jak np. „ustaw się przed kamerą w pozycji frontalnej”, „mrugnij oczamidwa razy”, „obróć głowę w prawo”, itp. Dzięki temu zostaje znacznie zredukowanystopień skomplikowania obserwowanej sceny, a także uzyskiwane są dodatkoweinformacje. Przykładowo — ustawienie głowy w pozycji neutralnej zapewnia,iż elementy twarzy takie jak oczy i usta są dobrze widoczne. Z kolei mruganieoczami ułatwia lokalizację oczu. Proponowany algorytm kalibracji składa się ztrzech etapów:
• Etap I (rys. 8.15) — lokalizacja oczu oraz innych elementów twarzy.
• Etap II (rys. 8.16) — tworzenie bazy danych gestów mimicznych.
• Etap III (rys. 8.17) — pobieranie wzorców twarzy dla algorytmu estymacjipołożenia głowy.
103
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
Rysunek 8.15: Etap 1 kalibracji — lokalizacja oczu.
Kalibracja w dużej części opiera się na algorytmie detekcji mrugnięć, dziękiktórym uzyskiwana jest informacja o lokalizacji oczu. Zidentyfikowanie położeniaobydwu oczu pozwala na określenie pozycji oraz rozmiaru twarzy. Ponadto, wpołączeniu z wiedzą o jej budowie anatomicznej, możliwe jest przybliżone okre-ślenie położenia pozostałych elementów twarzy (usta, nozdrza...). Upraszcza to wznaczący sposób algorytmy detekcji tych elementów. Informacje te, w połączeniuz modelem barwy skóry określonym poprzez impulsowe oświetlenie od monitora,stanowią podstawę wyznaczania parametrów algorytmu detekcji twarzy.
Tworzenie bazy danych gestów mimicznych (etap II) odbywa się poprzez ge-nerowanie odpowiednich komunikatów dla użytkownika, który proszony jest owykonanie wybranych gestów mimicznych. Po wykonaniu każdego z nich, systempobiera i analizuje dane stanowiące zbiór uczący dla algorytmów rozpoznawa-nia. Sygnałem końca wykonania gestu jest detekcja mrugnięcia. W przypadkuhistogramów orientacji, dane pobierane są ze zdefiniowanych obszarów zainte-resowań (ROI). Położenie ROI wyznaczone jest względem niezmiennych częścitwarzy — w tym przypadku były to nozdrza, które są dobrze widoczne nawet dlawiększych ruchów głowy. Separację danych należących do różnych gestów mo-gą zapewnić algorytmy grupowania bez nauczyciela (ang. clustering), takie jakmetoda k-średnich (ang. k-means).
104
8.4. METODA KALIBRACJI SYSTEMU
Rysunek 8.16: Etap 2 kalibracji — tworzenie bazy elementów mimiki.
Idea trzeciego etapu kalibracji, realizującego pobieranie wzorców twarzy, jestpodobna do etapu drugiego — system generuje odpowiednie polecenia dla użyt-kownika. Po każdym ruchu głową system ponawia polecenie „mrugnij”, co za-pewnia informację o początku oraz końcu sekwencji ruchu. Z etapu pierwszegosystem dysponuje wzorcem twarzy w położeniu frontalnym. Z jego użyciem mo-że być zrealizowane śledzenie twarzy na kolejnych obrazach sekwencji wideo —konieczne ze względu na wymaganą dokładność pobierania wzorców twarzy orazmożliwe przemieszczenia głowy. Podział otrzymanego zestawu wzorców do okre-ślonych kategorii pozycji (frontalne, obrót lewo...) odbywa się już bez udziałuużytkownika, przy pomocy algorytmu k-średnich (ang. k-means).
Podsumowując zagadnienia przedstawione w rozdziale. Przedstawiona propo-zycja metody kalibracji systemu wymaga opracowania i implementacji szeregu
105
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
Rysunek 8.17: Etap 3 kalibracji — tworzenie bazy wzorców twarzy.
algorytmów. Część z nich została przedstawiona w kolejnych rozdziałach:
• algorytm detekcji mrugnięć (por. 8.4.1),
• algorytm lokalizacji nozdrzy (por. 8.4.2).
Automatyczne wyznaczanie położenie punktów charakterystycznych kształ-tów oraz ich śledzenie zostało w niniejszej pracy pominięte. Podobnie jak śledze-nie twarzy. Prowadzone w tym kierunku prace omawiają następujące artykułyautora:
• „Detekcja markerów dla celów automatycznej adnotacji mimiki twarzy”[69],
106
8.4. METODA KALIBRACJI SYSTEMU
• „Śledzenie cech charakterystycznych twarzy w systemie rozpoznawania mi-miki” [68].
Prowadzone były również badania nad alternatywną metodą kalibracji syste-mu, wykorzystującą aktywne metody detekcji charakterystycznych cech twarzy.Ideą była detekcja efektu refleksu siatkówkowego (ang. bright pupil) przy pomocyklasycznych metod przetwarzania obrazu (ang. feature-based). Efekt ten uzyska-ny został dzięki wykorzystaniu konstrukcji aktywnego oświetlacza podczerwieni.Prace w tym kierunku przedstawione zostały w publikacji [70].
Integracja całości algorytmu kalibracji nie została w pracy uwzględniona —stanowi to (w rozumieniu autora) interesujący kierunek dalszych prac.
8.4.1 Detekcja mrugnięć
Ideę algorytmu detekcji mrugnięć przedstawia rysunek 8.18.W pierwszej kolejności (a) następuje wstępne przetwarzanie obrazów — usu-
nięcie szumów przy pomocy filtru medianowego oraz zmniejszenie rozmiaru ob-razu. Następnie wyznaczana jest reprezentacja MEI (b) w wyniku czego otrzy-mywany jest binarny obraz. Zawiera on obiekty powstałe w wyniku zamyka-nia/otwierania oczu oraz inne obiekty będące wynikiem zakłóceń (np. niewielkiedrgania głowy powodują powstawanie długich wąskich obiektów będących za-rysem głowy). W celu wyboru właściwych obiektów dokonywana jest analizawspółczynników kształtu (c), polegająca na pozostawieniu obiektów spełniają-cych następujące kryteria:
• Usuniecie obiektów których wielkość jest poza zadanym przedziałem —celem jest likwidacja drobnych zakłóceń (obiekty złożone z pojedynczychpikseli lub niewielkich grup) oraz wykrycie sytuacji dużego ruchu głową(obiekty o bardzo dużej ilości pikseli).
• Usunięcie obiektów dla których stosunek długiej osi elipsy opisanej na obiek-cie do osi krótkiej mniejszy od zadanego progu — celem jest likwidacjadużych podłużnych obiektów odpowiadających zarysowi głowy.
Na podstawie przeprowadzonych badań stwierdzono, że po analizie współ-czynników kształtu zdarza się, że nadal pozostaje dużo obiektów nie odpowiada-jących oczom. Dlatego też dodano kolejny etap algorytmu, jakim jest wyznaczaniemapy prawdopodobieństwa oczu (d) z wykorzystaniem metody „detekcji plam” wreprezentacji skali (por. A.5). Możliwe również jest użycie mapy prawdopodobień-stwa opartej o kolor, ponieważ w odróżnieniu od modelu koloru skóry, spełnionyjest warunek iż obszary oczu charakteryzują się innymi wartościami składowychchrominancji Cb oraz Cr. W wyniku binaryzacji z odpowiednim progiem mapyoczu powstaje obraz, na którym widoczne są obiekty odpowiadające obszaromoczu (e).
107
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
Rysunek 8.18: Schemat algorytmu detekcji mrugnięć.
Obydwa binarne obrazy poddawane są operacji AND oraz dylatacji (f) przyczym obraz powstały z analizy „plam” jest opóźniony o kilka obrazów z sekwencji.Opóźnienie to wprowadzone zostało ponieważ przy zamkniętych oczach plamy sąmniej widoczne niż przy otwartych. W końcowym etapie (g) następuje lokalizacjaoczu poprzez wybór obiektów spełniających następujące kryteria:
• wybór dwóch obiektów o największej powierzchni,
108
8.4. METODA KALIBRACJI SYSTEMU
• wielkości obydwu obiektów muszą być porównywalne,
• odległość między obiektami nie może być mniejsza lub większa niż zadanypróg.
Powyższe kryteria pozwalają na prawidłową detekcję i lokalizację oczu nawiększości testowanych sekwencji video. Rezultaty zostały zamieszczone w do-datku G.
Analiza wyników wskazuje niewielką ilość błędów pierwszego rodzaju (wynikifałszywie dodatnie – FP < 1), co jest istotne z punktu widzenia algorytmu ka-libracji. Oznacza to, że ilość obrazów błędnie zaklasyfikowanych jako mrugnięciea nie będących nimi, jest minimalna.
Dość duża ilość błędów drugiego rodzaju (wyniki fałszywie ujemne – 16 <
FN < 37) posiada mniejszy wpływ na procedurę kalibracji. W kalibracji bardziejistotne jest wykrycie samego faktu i momentu mrugnięcia, niż dokładne zliczenieilość obrazów zaklasyfikowanych jako gest mrugania. Rysunki zamieszczone wdodatku G (rys. G.2 – G.5), obrazują przyczynę dużej ilość błędów drugiegorodzaju. Ze względu na specyfikę algorytmu MHI, pojedyncze mrugnięcie jestrozpoznawane jako dwa osobne gesty — zamykanie i otwieranie oczu. Może tobyć wykorzystane do odróżniania od siebie tych gestów.
Dla pozostałych przypadków błędnych detekcji, konieczna będzie w przyszło-ści rozbudowa algorytmu analizy o dodatkowe kryteria.
Aby ocenić dokładność lokalizacji oczu wyznaczony został średni błąd (8.7)dla wszystkich obrazów, dla których detekcja była prawidłowa (dla uproszczeniawspółrzędne obydwu oczu zostały zsumowane). Wyniki przedstawia tabela G.3.Na jej podstawie można stwierdzić że lokalizacja jest dokładna (εeye < 9px).Niewielkie rozbieżności są dopuszczalne i mogą wynikać z niedokładności ręcznegowskazania referencyjnego położenia oczu.
εeye = mean
(√(xieye − xiref
)2+(yieye − yiref
)2)
(8.7)
gdzie:
εeye − średni błąd lokalizacji oczu
xieye, yieye − wyznaczone współrzędne x i y oczu dla i-go obrazu
xiref , yiref − referencyjne współrzędne x i y oczu dla i-go obrazu
8.4.2 Lokalizacja nozdrzy
Algorytmy rozpoznawania mimiki oparte na histogramach orientacji wymagajądokładnego pozycjonowania obszarów zainteresowań (ROI). Położenie ROI wy-znaczone może być względem niezmiennych części twarzy — nozdrzy. Nozdrza są
109
ROZDZIAŁ 8. ADAPTACJA SYSTEMU ROZPOZNAWANIA MIMIKI
elementem twarzy łatwym do zlokalizowania w przypadku gdy wcześniej zostałookreślone położenie oczu (detekcja mrugnięć).
Do lokalizacji nozdrzy wykorzystany może zostać fakt, iż stanowią one naobrazie ciemniejsze plamy. Stąd do ich detekcji dobrze nadaje się metoda „detekcjiplam” w reprezentacji skali (ang. scale-space) opisana w dodatku A.5.
Algorytm detekcji nozdrzy jest następujący:
• Wstępne przetwarzanie obrazów: usunięcie szumów przy pomocy filtru me-dianowego, konwersja obrazu z przestrzeni RGB do obrazu w 256 odcieniachszarości.
• Pobranie z obrazu wycinka ROI zawierającego nozdrza (rys. 8.20a). Położe-nie ROI wyznaczane jest na podstawie znanej wcześniej (detekcja mrugnięć)lokalizacji oczu (rys. 8.19) oraz zależności anatomicznych twarzy.
• Wyznaczenie reprezentacji skali w celu uwypuklenia obrazu nozdrzy — (rys.8.20b).
• Binaryzacja reprezentacji skali z progiem wyznaczonym automatycznie —wzór (8.8), rys. 8.20c.
• Indeksacja i analiza pozostałych na obrazie obiektów przy pomocy współ-czynników kształtu. Wyznaczenie współrzędnych nozdrzy — środki ciężko-ści pozostałych obiektów.
THSnostril = µSnostril + 2 · stdSnostril (8.8)
gdzie:
THSnostril − wartość progu binaryzacji reprezentacji skali powyżej któregopiksel uznawany jest za należący do nozdrza
µSnostril − średnia pikseli reprezentacji skali obszaru ROI nozdrzy
stdSnostril − odchylenie standardowe pikseli reprezentacji skali obszaru ROInozdrzy
W celu sprawdzenia skuteczności algorytmu detekcji nozdrzy, przeprowadzo-no testy dla tych samych sekwencji video, dla których realizowana była lokalizacjaoczu. Na potrzeby testów lokalizacja oczu została wyznaczona ręcznie. Błąd loka-lizacji nozdrzy został obliczony jako odległość euklidesowa pomiędzy wyznaczonąpozycją, a położeniem wskazanym przez człowieka (8.9). Rezultaty przedstawiająwykresy H.1 – H.4, zamieszczone w dodatku H.1.
εinostril =
√(xinostril − xiref
)2+(yinostril − yiref
)2(8.9)
110
8.4. METODA KALIBRACJI SYSTEMU
gdzie:
εinostril − błąd lokalizacji nozdrza dla i-go obrazu
xinostril, yinostril − wyznaczone współrzędne x i y nozdrza dla i-go obrazu
xiref , yiref − referencyjne współrzędne x i y nozdrza dla i-go obrazu
Rysunek 8.19: Przykładowy obraz wraz z pozycją oczu i ROI dla wyszukiwanianozdrzy.
Rysunek 8.20: Rezultaty kolejnych etapów algorytmu lokalizacji nozdrzy: (a) wy-cinek obrazu zawierający nozdrza, (b) obraz w reprezentacji skali (ang. scale-space), (c) mapa prawdopodobieństwa po binaryzacji
Analiza rezultatów lokalizacji potwierdza skuteczność algorytmu (εinostril <4px). Tylko dla niewielu obrazów testowych błąd lokalizacji jest większy od za-kładanego lub nozdrza nie zostały znalezione.
111
Rozdział 9
Podsumowanie
9.1 Główne rezultaty i wnioski
Postawione na początku niniejszej rozprawy cele zostały w pełni zrealizowane.
1. Określenie sposobu pomiaru oraz precyzyjnego opisu elementówmimiki. Przeprowadzono analizę istniejących sposobów opisu mimiki orazinformacji niesionych przez ten kanał komunikacji. Wybrano dwie metodyopisu przydatne w kontekście rozpoznawania. Wnioski:
• Istniejące sposoby opisu pozwalają na wybór elementów mimiki z uwzględ-nieniem psychofizjologicznych uwarunkowań człowieka (m.in. możliwo-ści wykonania danego gestu przez daną osobę).
• Odróżnianie mimiki spontanicznej od celowych, znaczących ruchówjest zadaniem spoczywającym na oprogramowaniu interfejsu.
2. Określenie możliwości jakie oferuje mimika w kontekście typo-wych scenariuszy interakcji człowieka z maszyną i własności ist-niejących urządzeń. Wybór elementów mimiki przydatnych w ko-munikacji człowiek-maszyna. Na podstawie analizy własności istnieją-cych urządzeń wejściowych oraz poprzez uwzględnienie typowych scenariu-szy interakcji, określono możliwości jakie oferuje mimika. Zaproponowanonowe sposoby sterowania komputerem oraz dokonano wyboru elementówmimiki potencjalnie przydatnych w komunikacji człowiek-maszyna. Wnio-ski:
• Interfejs człowiek-komputer oparty o rozpoznawanie mimiki może udo-stępniać użytkownikowi bogatszy „alfabet”, pozwalający na elastycznywybór sposobu interakcji w zależności od umiejętności lub preferencji
113
ROZDZIAŁ 9. PODSUMOWANIE
człowieka. Nie każda osoba potrafi wykonać te same gesty — jest tosprawa bardzo indywidualna.
• Możliwość adaptacji interfejsu odgrywa szczególną rolę dla ludzi z po-rażeniem czterokończynowym, ponieważ mimika takich osób może róż-nić się znacznie od mimiki człowieka w pełni sprawnego ruchowo.
3. Zdefiniowanie atrybutów elementów mimiki oraz odpowiadają-cych im cech charakterystycznych na obrazie, pozwalających narozpoznanie gestów mimicznych. Zdefiniowane zostały podstawowe gru-py atrybutów stanowiących abstrakcyjną reprezentację elementów mimiki.Rozpatrując mimikę w kontekście sterowania komputerem, wzięta pod uwa-gę została nie tylko statyczna reprezentacja elementów mimiki, do którejnależą atrybuty stałe (np. brwi) oraz zmienne (np. zmarszczki). Uwzględ-niono także dynamikę zmian wyglądu cech twarzy — atrybuty dynamicznetakie jak np. szybkość wykonania gestu. Określone zostały odpowiadająceatrybutom cechy charakterystyczne (kształt, lokalne zmiany wyglądu, ruch)stanowiące ewidencję wystąpienia na obrazie danego atrybutu. Wnioski:
• Atrybuty elementów mimiki stanowią abstrakcyjną ich reprezentację.Aby były one użyteczne do rozpoznawania, konieczne jest zgromadze-nie ewidencji o wystąpieniu danego atrybutu na obrazie . Taką ewiden-cję stanowią cechy charakterystyczne — przykładowo, jeśli obiekt jestreprezentowany przez jego kształt, to na obrazie oczekuje się istnieniakrawędzi odpowiadających konturowi obiektu.
• Wybór cech jest istotnym zagadnieniem, od którego zależy skutecznośćrozpoznawania oraz złożoność obliczeniowa algorytmów.
Opracowanie metody automatycznego rozpoznawania wybranych elementówmimiki wymagało zrealizowania następujących celów:
1. Zaproponowanie struktury i elementów składowych systemu au-tomatycznego rozpoznawania gestów mimicznych. Rezultatem prze-prowadzonych prac jest opracowana struktura systemu automatycznego roz-poznawania gestów mimicznych. Elementy składowe systemu to: selektywneprzetwarzanie informacji, detekcja i lokalizacja twarzy, ekstrakcja cech cha-rakterystycznych mimiki, klasyfikacja, generacja sygnałów sterujących orazadaptacja systemu. Wśród istotnych rezultatów wymienić można opraco-waną metodę doboru przestrzeni barw dla algorytmu segmentacji oraz al-gorytm lokalizacji twarzy. Wnioski:
• W kontekście rozpoznawania obrazów przez maszynę selektywne prze-twarzanie informacji ma istotne znaczenie, ponieważ pozwala na zawę-żenie obszaru poszukiwań, przyspieszenie obliczeń oraz uzyskanie do-datkowych wskazówek dla pozostałych elementów składowych systemu
114
9.1. GŁÓWNE REZULTATY I WNIOSKI
(np. algorytmów rozpoznawania). Szczególnie istotne są informacje okolorze (pozwalające na wstępną segmentację twarzy).
• Duży wpływ na skuteczność zaproponowanego algorytmu lokalizacjitwarzy ma prawidłowe oświetlenie sceny. Szczególnie istotny jest odpo-wiedni wybór przestrzeni kolorów oraz algorytmu segmentacji. Istotnejest również, aby twarz człowieka była obserwowana w przybliżeniufrontalnie — przy większych ruchach głowy może się zdarzyć ze nie-które elementy (szczególnie oczy) nie będą widoczne.
2. Opracowanie metod wyodrębniania z obrazu twarzy cech cha-rakterystycznych, odpowiadających atrybutom rozpoznawanychelementów mimiki. Opracowano i przetestowano trzy metody wyodręb-niania cech charakterystycznych, odpowiadających atrybutom rozpoznawa-nych elementów mimiki. Wybrane metody reprezentują odmienne podejściaanalizy obrazów. Są to: statystyczne modele kształtu (grupa metod opar-tych o ekstrakcję cech), histogramy orientacji (grupa metod bezpośredniejanalizy obrazu) oraz detekcja ruchu (metody analizy uwzględniające kon-tekst czasowo-przestrzenny). Dla histogramów orientacji wykorzystano dwiereprezentacje obrazu — przestrzeń skali (ang. scale-space) oraz opartą o fil-try kierunkowe Gabora. Wnioski:
• Z perspektywy budowy interfejsu, który powinien adaptować się doużytkownika, wyznaczanie położenia punktów charakterystycznych dlastatystycznych modeli kształtu powinno odbywać się automatycznie.
• Detekcja ruchu może być wykorzystana do wstępnej segmentacji obsza-rów zainteresowań takich jak: okolice oczu, obszar głowy oraz miejscagdzie występują ruchy mimiczne. Algorytm ten jest jednakże wrażliwyna zmiany oświetlenia.
• W przypadku histogramów orientacji istotne jest precyzyjne określenieobszaru dla którego są one wyznaczane (ROI). Powinny to być obszaryw których spodziewane są zmiany wynikające z ruchów mimicznych(zmarszczki, bruzdy, fałdy).
3. Opracowanie metod rozpoznawania gestów mimicznych wykorzy-stujących wyodrębnione cechy. Badanie skuteczności algorytmówdla typowych sytuacji występujących podczas interakcji człowiekaz maszyną. Dokonano wyboru dwóch metod klasyfikacji (klasyfikator kNNoraz wielowymiarowa analiza dyskryminacyjna) pozwalających na rozpo-znawanie wybranych elementów mimiki. Zaproponowano metodykę ocenyskuteczności algorytmów rozpoznawania. Testy przeprowadzono niezależniedla dwóch wybranych metod wyodrębniania cech, tj. statystycznych modelikształtu oraz histogramów orientacji. W przypadku modeli kształtu badano
115
ROZDZIAŁ 9. PODSUMOWANIE
m.in. skuteczność rozróżniania gestów mimicznych górnej części twarzy dlajednej i wielu osób. Z kolei dla histogramów orientacji przeprowadzono testyrozpoznawania mimiki dolnej części twarzy. Sprawdzono wpływ wyboru ob-szaru zainteresowań (ROI) oraz rodzaju reprezentacji obrazu (scale-space,filtry Gabora) na skuteczność algorytmu. Badano również wpływ czynnikówzakłócających — zmiany skali rotacji oraz oświetlenia. Wnioski:
• Rozpoznawanie jednostek czynnościowych przy pomocy statystycz-nych modeli kształtów jest skuteczne. Istotną obserwacją jest stwier-dzenie stosunkowo niewielkiej wrażliwości algorytmu rozpoznawaniaopartego o kształty na zmienność cech osobniczych (dobre rezultatydla odróżniania kształtów elementów mimiki różnych osób).
• W przypadku histogramów orientacji, porównując reprezentacje obra-zu lepsze rezultaty otrzymano dla histogramów opartych o gradientyw przestrzeni skali (ang. scale-space).
• Czynniki zakłócające takie jak zmiany oświetlenia, skali i rotacji twa-rzy, mają negatywny wpływ na skuteczność rozpoznawania dla obydwureprezentacji (scale-space oraz filtrów Gabora). Mimo teoretycznej nie-wrażliwości na zmiany oświetlenia sceny, skuteczność rozpoznawaniamaleje. Największe błędy powodują zmiany rotacji twarzy. Algorytmyoparte na histogramach orientacji są również wrażliwe na zmiennośćcech osobniczych. Wymagają więc każdorazowej kalibracji w przypad-ku zmiany użytkownika lub warunków oświetlenia sceny.
• Spośród dwóch metod klasyfikacji, lepszym okazał sie klasyfikator kNN.
• Duży wpływ czynników zakłócających na rozpoznawanie w przypad-ku pojedynczych obrazów sekwencji video, może zostać ograniczonypoprzez uwzględnienie kontekstu czasowego. Przykładowo — prawi-dłowa detekcja gestu wymaga wystąpienia kilku lub kilkunastu nastę-pujących po sobie obrazów, dla których otrzymano ten sam wynikirozpoznania gestu.
4. Usystematyzowanie czynników wpływających na skuteczność roz-poznawania oraz opracowanie metody adaptacji systemu do czło-wieka oraz zmieniających sie warunków otoczenia. Usystematyzowa-no czynniki wpływające na skuteczność rozpoznawania elementów mimiki.Są to: zewnętrzne źródła zmienności (geometria sceny, oświetlenie, przysła-nianie twarzy przez inne obiekty, szumy i zakłócenia) oraz wewnętrzne źró-dła zmienności (tożsamość osoby, wiek, płeć, indywidualne cechy osobniczeoraz sposób wykonywania gestów). Dokonano oceny wpływu parametrówkamery oraz zmian oświetlenia sceny na segmentację twarzy. Zapropono-wano metodę automatycznej kalibracji istotną dla adaptacji systemu do
116
9.2. KIERUNKI DALSZYCH BADAŃ
człowieka oraz zmieniających się warunków otoczenia. Opracowano szeregalgorytmów składowych metody kalibracji — algorytm estymacji położeniagłowy człowieka względem kamery, metoda automatyzacji tworzenia mode-lu barwy skóry, algorytm detekcji mrugnięć, algorytm lokalizacji nozdrzy.Rozszerzone opracowanie wybranych zagadnień adaptacji przedstawionychw rozprawie znajduje się w publikacjach autora. Wnioski:
• Podczas interakcji człowieka z maszyną występuje wiele czynników po-wodujących dużą zmienność wyglądu twarzy oraz elementów mimiki.Z tego powodu, kluczowym zagadnieniem staje sie konieczność adap-tacji systemu do indywidualnych cech i umiejętności człowieka orazzmieniających sie warunków otoczenia (ang. visual learning and adap-tation).
• Uwzględnienie zewnętrznych źródeł zmienności (oświetlenie, pozycja...)powinno odbywać się w sposób ciągły podczas pracy systemu. Z koleiwpływ tożsamości, wieku, cech osobniczych może zostać uwzględnionyrzadziej — na etapie kalibracji systemu.
• Wykorzystanie możliwości interakcji z użytkownikiem upraszcza pro-cedurę kalibracji systemu i zwiększa skuteczność działania algoryt-mów.
• Algorytm estymacji położenia głowy może służyć również do lokaliza-cji twarzy oraz rozpoznawania następujących gestów mimicznych —AU51-56 (ruchy głowy).
• Metoda detekcji mrugnięć nadaje się również do rozpoznawania nastę-pujących gestów mimicznych — AU43-AU46 (zamkniecie oczu, mru-ganie, przymrużenie oka).
9.2 Kierunki dalszych badań
Przedstawione w rozprawie badania oraz ich rezultaty nie wyczerpują tematuwykorzystania elementów mimiki w interakcji człowiek-maszyna. Według autorawymagane są następujące dalsze prace — dla zachowania czytelności zostały onepogrupowane wg celów rozprawy:
1. Określenie sposobu pomiaru oraz precyzyjnego opisu elementówmimiki.
• Uwzględnienie sposobów opisu mimiki związanych z emocjami człowie-ka np. MAX (ang. Maximally Discriminative Affect Coding System)lub FACSAID (ang. Facial Action Coding System Affect Interpreta-tion Dictionary).
117
ROZDZIAŁ 9. PODSUMOWANIE
2. Określenie możliwości jakie oferuje mimika w kontekście typo-wych scenariuszy interakcji człowieka z maszyną i własności ist-niejących urządzeń. Wybór elementów mimiki przydatnych w ko-munikacji człowiek-maszyna.
• W celu weryfikacji przeprowadzonej analizy i wyciągniętych wnioskówkonieczne jest dokonanie badań użyteczności zaproponowanych sposo-bów sterowania. W pracy element ten został pominięty, ponieważ wy-maga implementacji całości systemu rozpoznawania mimiki. Systemtaki powinien działać w czasie rzeczywistym umożliwiając przeprowa-dzenie badań na większej populacji ludzi.
3. Zdefiniowanie atrybutów elementów mimiki oraz odpowiadają-cych im cech charakterystycznych na obrazie, pozwalających narozpoznanie gestów mimicznych.
• Określenie listy atrybutów oraz odpowiadających im cech charaktery-stycznych dla pełnego zestawu gestów mimicznych (nie tylko wybra-nych).
4. Zaproponowanie struktury i elementów składowych systemu au-tomatycznego rozpoznawania gestów mimicznych. Rozbudowa algo-rytmu detekcji i lokalizacji twarzy poprzez:
• Wykorzystanie dodatkowych informacji o ruchu do skuteczniejszej lo-kalizacji twarzy.
• Wykorzystanie szerszego zestawu cech, widocznych również w przy-padku położenia głowy innego niż frontalne, do lokalizacji twarzy.
• Określenie dodatkowych kryteriów selekcji cech oraz użycie algoryt-mów śledzenia (ang. feature tracking).
5. Opracowanie metod wyodrębniania z obrazu twarzy cech charak-terystycznych, odpowiadających atrybutom rozpoznawanych ele-mentów mimiki.
• Opracowanie metody automatycznego wyznaczania punktów charak-terystycznych kształtów.
• Badanie innych reprezentacji obrazu potencjalnie przydatnych dla al-gorytmu opartego o histogramy orientacji.
• Opracowanie algorytmów pozwalających na wyodrębnianie cech dyna-micznych mimiki takich jak trajektoria, szybkość wykonania gestu.
6. Opracowanie metod rozpoznawania gestów mimicznych wykorzy-stujących wyodrębnione cechy. Badanie skuteczności algorytmów
118
9.2. KIERUNKI DALSZYCH BADAŃ
dla typowych sytuacji występujących podczas interakcji człowiekaz maszyną.
• Rozbudowa algorytmu o rozpoznawanie pełnego zestawu gestów.
• Uniezależnienie algorytmu od wpływu czynników zakłócających —wykrywanie zmian skali i rotacji, automatyczna rekalibracja algorytmui uczenie klasyfikatorów w trakcie pracy systemu.
• Wykorzystanie informacji czasowej do rozpoznawania gestów oraz al-gorytmów śledzenia elementów twarzy do estymacja parametrów ruchugłowy (rotacja, skala...).
• Testowanie innych metod klasyfikacji (sieci neuronowe, klasyfikatorybayesa). Poprawa jakości klasyfikacji poprzez wykorzystanie metodwzmacniania (ang. boosting) np. AdaBoost oraz doboru zmiennychdiagnostycznych (np. analiza czynnikowa, metoda Helwinga).
7. Usystematyzowanie czynników wpływających na skuteczność roz-poznawania oraz opracowanie metody adaptacji systemu do czło-wieka oraz zmieniających się warunków otoczenia.
• Rozbudowa, integracja oraz implementacja całości metody kalibracjipozwalającej na automatyczne: tworzenie bazy gestów mimicznych,tworzenie bazy wzorców twarzy, dobór parametrów algorytmów roz-poznawania, itp.
• Zaproszenie większej grupy osób do badań, których celem jest określe-nie najwygodniejszych dla człowieka sposobów kalibracji systemu.
• Rozbudowa i przystosowanie algorytmu estymacji położenia głowy dorozpoznawania gestów mimicznych. Podobnie dla algorytmu detekcjimrugnięć.
119
Bibliografia
[1] P. Augustyniak. Adaptacja oprogramowania interpretacyjnego do stanu pacjen-ta i celów diagnostycznych. Krajowa Konferencja Biocybernetyka i inżynieriaBiomedyczna, 2007. [cytowanie na str. 6, 49]
[2] P. Augustyniak and Z. Mikrut. Badanie reguł postrzegania naturalnego w celuich wykorzystania w inteligentnych systemach wizyjnych. Krajowa Konferencja:Sztuczna Inteligencja w Inżynierii Biomedycznej, 2004. [cytowanie na str. 6]
[3] D.H. Ballard and C.M. Brown. Computer Vision (section 8.2.2). Prentice HallProfessional Technical Reference, 1982. [cytowanie na str. 38]
[4] M.S. Bartlett, G. Littlewort, B. Braathen, T.J. Sejnowski, and J.R. Movellan. Aprototype for automatic recognition of spontaneous facial actions. Advances inNeural Information Processing Systems, 15:1295–1302, 2002. [cytowanie na str. 18]
[5] Y. Bellik and Burger D. The potential of multimodal interfaces for the blind : anexploratory study. 1995. [cytowanie na str. 5]
[6] M. Betke, J. Gips, and P. Fleming. The camera mouse: Visual tracking of bo-dy features to provide computer access for people with severe disabilities. IEEETransactions on Neural Systems and Rehabilitation Engineering, 10(1):1–10, Mar2002. [cytowanie na str. 6, 39]
[7] I. Biederman. Human image understanding: recent research and a theory. In Papersfrom the second workshop on Human and Machine Vision II, volume 13, pages 13–57,San Diego, CA, USA, - 1986. Academic Press Professional, Inc. [cytowanie na str. 38]
[8] M.J. Black and A.D. Jepson. A probabilistic framework for matching temporal tra-jectories: Condensation-based recognition of gestures and expressions. In H. Bur-khardt and B. Neumann, editors, European Conf. on Computer Vision, ECCV-98,volume 1406 of LNCS-Series, pages 909–924, Freiburg, Germany, - 1998. Springer-Verlag. [cytowanie na str. 40]
[9] A. Bobick, S. Intille, J. Davis, F. Baird, C. Pinhanez, L. Campbell, Y. Ivanov,A. Schutte, and A. Wilson. The kids room: A perceptually-based interactive andimmersive story environment. Technical Report 398, -, E15, 20 Ames Street, Cam-bridge, MA 02139, December 1999. [cytowanie na str. 70]
121
BIBLIOGRAFIA
[10] A.F. Bobick and J.W. Davis. Action Recognition Using Temporal Templates(Chapter 6). - 1997. [cytowanie na str. 70]
[11] R.A. Bolt. „Put-that-there”: Voice and gesture at the graphics interface. InSIGGRAPH ’80: Proceedings of the 7th annual conference on Computer graphicsand interactive techniques, pages 262–270, New York, NY, USA, 1980. ACM.[cytowanie na str. 5]
[12] A. Broniec. Reprezentacja ruchu i zamiaru ruchu w sygnale eeg oraz możliwości jejwykorzystania w interfejsie człowiek-maszyna, to appear. [cytowanie na str. 6]
[13] W. Buxton. A three-state model of graphical input. In D. Diaper et al.(Eds), Human-Computer Interaction - INTERACT ’90 Amsterdam: Elsevier SciencePublishers B.V. (North-Holland), pages 449–456, 1990. [cytowanie na str. 24]
[14] D. Chai and K.N. Ngan. Face segmentation using skin-color map in videophoneapplications. CirSysVideo, 9(4):551, June 1999. [cytowanie na str. 48, 49]
[15] T. Chen. Audio-visual integration in multi-modal communication. Proceedings ofthe IEEE 86, pages 837–852, 1998. [cytowanie na str. 33]
[16] T. Cootes and C. Taylor. Active shape models- - smart snakes. Proc. British MachineVision Conference, page 266, 1992. [cytowanie na str. 39]
[17] C. Cortes and V. Vapnik. Support-vector networks. Machine Learning, 20(3):273–297, 1995. [cytowanie na str. 76]
[18] L. da F. Costa and R.M. Cesar J. Shape Analysis and Classification: Theory andPractice. CRC Press, Inc., Boca Raton, FL, USA, 2000. [cytowanie na str. 38]
[19] S. Dickinson. Object representation and recognition. 1999. [cytowanie na str. 38]
[20] R.O. Duda and P.E. Hart. Use of the hough transformation to detect lines andcurves in pictures. Commun. ACM, 15(1):11–15, 1972. [cytowanie na str. 38]
[21] R.O. Duda, P.E. Hart, and D.G. Stork. Pattern Classification. Wiley-IntersciencePublication, 2000. [cytowanie na str. 78]
[22] P. Ekman. About brows: Emotional and conversational signals. In J. Aschoff, M. vonCarnach, K. Foppa, W. Lepenies, & D. Plog (Eds.) Human ethology. Cambridge:Cambridge University Press, 1979. [cytowanie na str. 14]
[23] P. Ekman and W.V. Friesen. Unmasking the face. A guide to recognizingemotions from facial clues. Englewood Cliffs, New Jersey: Prentice-Hall., 1975.[cytowanie na str. 14]
[24] P. Ekman and W.V. Friesen. Facial action coding system: A technique forthe measurement of facial movement. Consulting Psychologists, pages –, 1978.[cytowanie na str. 15]
[25] P. Ekman, J. Hager, CH. Methvin, and W. Irwin. Ekman-hager facial action exem-plars (unpublished data). Human Interaction Laboratory, Univ. of California, 1978.[cytowanie na str. 17]
122
[26] B. Fasel and J. Luettin. Automatic facial expression analysis: A survey. PatternRecognition, 36(1):259–275, 2003. [cytowanie na str. 44, 45, 64]
[27] J.D. Foley, V.L. Wallace, and P. Chan. The human factors of computer graphicsinteraction techniques. IEEE Computer Graphics and Applications, 4 (11):13–48,1984. [cytowanie na str. 22]
[28] W. Freeman. Orientation histogram for hand gesture recognition. In Int’l Workshopon Automatic Face- and Gesture-Recognition, 1995. [cytowanie na str. 39, 67]
[29] S. Gong, S.J. McKenna, and A. Psarrou. Dynamic Vision: From Images to FaceRecognition. Imperial College Press, London, UK, UK, 2000. [cytowanie na str. 87]
[30] T. Goto, M. Escher, Ch. Zanardi, and N. Magnenat-Thalmann. Mpeg-4 basedanimation with face feature tracking. In Computer Animation and Simulation 1999,pages 89–98, - -. [cytowanie na str. 20]
[31] S. Grossberg. How does the cerebral cortex work? [cytowanie na str. 46]
[32] M. Hachet, J. Pouderoux, and P. Guitton. A camera-based interface for interactionwith mobile handheld computers. In I3D’05 - Symposium on Interactive 3D Graphicsand Games., 2005. [cytowanie na str. 33]
[33] B.V. Hancock and A.M Burton. Human face perception and identification. FaceRecognition: From Theory to Applications, Berlin: Springer, pages 51–72, 1998.[cytowanie na str. 56]
[34] M. Held. Voronoi diagrams and offset curves of curvilinear polygons. InComputer-Aided Design, pages 287–300, 30(4) 1998. [cytowanie na str. 38]
[35] K. Hinckley. Input technologies and techniques. The human-computer interactionhandbook: fundamentals, evolving technologies and emerging applications, pages151–168, 2003. [cytowanie na str. 22]
[36] K. Hinckley, R. Jacob, and C. Ware. Input/output devices and interaction tech-niques. In CRC Computer Science and Engineering Handbook, A. B. Tucker, ed.CRC Press LLC: Boca Raton, FL., to appear. (Microsoft). [cytowanie na str. 23]
[37] E. Hjelmas and B.K. Low. Face detection: A survey. Computer Vision and ImageUnderstanding, 83(3):236–274, Sept. 2001. [cytowanie na str. 44, 48, 55]
[38] Rein-Lien Hsu, M. Abdel-Mottaleb, and A.K. Jain. Face detection in color images.IEEE Trans. Pattern Anal. Mach. Intell., 24(5):696–706, 2002. [cytowanie na str. 48,
49, 56, 57]
[39] J. Ilonen, J.K. Kamarainen, and H. Kalviainen. Efficient computation of gaborfeatures. Research Report 100, Lappeenranta University of Technology, Departmentof Information Technology, pages –, 2005. [cytowanie na str. 68]
[40] C.E. Izard. The maximally discriminative facial movement coding system max.Unpublished manuscript available from Instructional Resource Center, Universityof Delaware, 1979. [cytowanie na str. 14]
123
BIBLIOGRAFIA
[41] M. Jabłoński, J. Przybyło, and P. Wołoszyn. Automatyczna segmentacja twarzydla potrzeb interfejsu człowiek-komputer. AGH Automatyka, 9/3:587–600, 2005.[cytowanie na str. 48, 101]
[42] W. Jakuczun. Lokalne klasyfikatory jako narzędzie analizy i klasyfikacji sygnałów.PhD thesis, IPI PAN, promotor: dr hab. Jerzy Cytowski, 2006. [cytowanie na str. 76]
[43] A. Jozwik, S. Serpico, and F. Roli. A parallel network of modified 1-nn and k-nnclassifiers: Application to remote sensing image classification. PRL, 19(1):57–62,January 1998. [cytowanie na str. 77]
[44] T. Kanade, J.F. Cohn, and Y. Tian. Comprehensive database for facial expressionanalysis. The 4th IEEE International Conference on Automatic Face and GestureRecognition (FG’00), pages –, March 2000. [cytowanie na str. 17]
[45] A. Kapoor, Y. Qi, and W. Picard-Rosalind. Fully automatic upper facial actionrecognition. Analysis and Modeling of Faces and Gestures, pages 195–202, Oct.2003. [cytowanie na str. 17]
[46] M. Kass, A. Witkin, and D. Terzopoulos. Snakes: Active contour models.International Journal of Computer Vision, 1:321–331, 1988. [cytowanie na str. 38]
[47] Y. Keselman and S. Dickinson. Bridging the representation gap between modelsand examplars. In IEEE Conf. on Comp. Soc. Work. on Models versus Exemplarsin Comp. Vis., 2001. [cytowanie na str. 38]
[48] K. Koffka. Principles of gestalt psychology (International library of psychology,philosophy, and scientific method) (International library of psychology, philosophy,and scientific method). Routledge & K. Paul, January 1962. [cytowanie na str. 47]
[49] J. Koronacki and J. Ćwik. Statystyczne systemy uczące się. Warszawa: Wydawnic-twa Naukowo-Techniczne, 2005. [cytowanie na str. 79]
[50] C. Kotropoulos and I. Pitas. Rule-based face detection in frontal views. In Proc. ofIEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP 97), IV:2537–2540, April 21-24 1997. [cytowanie na str. 55]
[51] C. Kouadio, P. Poulin, and P. Lachapelle. Real-time facial animation based upon abank of 3d facial expressions. In CA ’98: Proceedings of the Computer Animation,page 128, Washington, DC, USA, - 1998. IEEE Computer Society. [cytowanie na str. 20]
[52] A. Kuriański. Detekcja i śledzenie ruchu przy użyciu czasowo-przestrzennegomodelowania obrazów za pomocą pól losowych. PhD thesis, IPPT PAN, 1992.[cytowanie na str. 69, 70]
[53] F. Lavagetto and R. Pockaj. The facial animation engine : towards a high-levelinterface for the design of mpeg-4 compliant animated faces. IEEE Transactions onCircuits and Systems for Video Technology, pages –, 1998. [cytowanie na str. 18]
[54] T. Lindeberg. Scale-space theory: A basic tool for analysing structures at differentscales. J. of Applied Statistics, 21(2):224–270, 1994. (Supplement on Advances inApplied Statistics: Statistics and Images: 2). [cytowanie na str. 140]
124
[55] Ch.L. Lisetti and D.J. Schiano. Automatic facial expression interpretation: Whe-re human-computer interaction, artificial intelligence and cognitive science inter-sect. Pragmatics and Cognition (Special Issue on Facial Information Processing: AMultidisciplinary Perspective), 8(1):185–235, 2000. [cytowanie na str. 7, 22]
[56] J. Lombardi and M. Betke. A self-initializing eyebrow tracker for binary switchemulation. 2002. [cytowanie na str. 70]
[57] J.M. Marnik. Rozpoznawanie znaków Polskiego Alfabetu Palcowego zwykorzystaniem morfologii matematycznej i sieci neuronowych. PhD thesis,AGH Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki, 2002.[cytowanie na str. 48]
[58] L. Mazurek. Modelowanie początkowych etapów przetwarzania informacjiwzrokowej. PhD thesis, AGH, wydz. EAIiE, promotor: dr inż. Zbigniew Mikrut,2001. [cytowanie na str. 44]
[59] S.J. McKenna and S. Gong. Real-time face pose estimation. Real-Time Imaging,4(5):333–347, 1998. [cytowanie na str. 91, 94]
[60] S.J. McKenna, S.G. Gong, and Y. Raja. Modelling facial colour and identity withgaussian mixtures. PR, 31(12):1883–1892, December 1998. [cytowanie na str. 49]
[61] Z. Mikrut and P. Augustyniak. Lokalizacja kluczowych cech rozpoznawanych obiek-tów na podstawie analizy sciezki wzrokowej obserwatora. Bio-Algorithms andMed-Systems, 1(1/2):307–310, 2005. [cytowanie na str. 6]
[62] MPEG-4. ISO/IEC MPEG-4 Part 2 (Visual). [cytowanie na str. 18, 19]
[63] S. Oviatt. Multimodal interfaces. In Handbook of Human-Computer Interaction. J.Jacko and A. Sears (Eds.) Mahwah NJ Lawrence Erlbaum), 2002. [cytowanie na str. 5]
[64] M. Pantic, P. Ioannis, and M. Valstar. Learning spatiotemporal models of facialexpressions. Proceedings of International Conf. Measuring Behaviour, pages 7–10,September 2005. [cytowanie na str. 17]
[65] P. Pawlik, D. Iwaniec, and M. Iwaniec. Analiza obrazu z kamery jako podstawainterfejsu człowiek niepełnosprawny-komputer. AGH Automatyka, 10/3:399–405,2006. [cytowanie na str. 39]
[66] P. Peer, J. Kovac, and F. Solina. Human skin colour clustering for face detection.1998. [cytowanie na str. 49]
[67] D.A. Pollen and S.F. Ronner. Phase relationships between adjacent simple cells inthe visual cortex. Science, 212:1409–1411, jun 1981. [cytowanie na str. 39]
[68] J. Przybyło. Śledzenie cech charakterystycznych twarzy w systemie rozpoznawaniamimiki. AGH Automatyka, 11/3:257–266, 2007. [cytowanie na str. 107]
[69] J. Przybyło, M. Jabłoński, and P. Wołoszyn. Detekcja markerów dla celówautomatycznej anotacji mimiki twarzy. AGH Automatyka, 10/3:413–425, 2006.[cytowanie na str. 106]
125
BIBLIOGRAFIA
[70] J. Przybyło, P. Wołoszyn, and M. Jabłoński. Wizyjny interfejs człowiek-komputerprzeznaczony dla użytkowników niepełnosprawnych. AGH Automatyka, 7/3:385–398, 2003. [cytowanie na str. 107]
[71] J. Przybyło, P. Wołoszyn, and M. Jabłoński. Rozpoznawanie jednostek czynnościo-wych mimiki twarzy na potrzeby interfejsu człowiek-komputer. AGH Automatyka,8/3:378–379, 2004. [cytowanie na str. 65, 80]
[72] P. Saint-Marc and G. Medioni. B-spline contour representation and symmetry de-tection. In ECCV 90: Proceedings of the first european conference on Computervision, pages 604–606, New York, NY, USA, - 1990. Springer-Verlag New York, Inc.[cytowanie na str. 38]
[73] K.R. Scherer and P. Ekman. The New Handbook of Methods in Nonverbal BehaviorResearch. Cambridge, UK: Cambridge University Press, 1982. [cytowanie na str. 16]
[74] K. Schwerdt and J.L. Crowley. Robust face tracking using color. In AFGR00, pages90–95, 2000. [cytowanie na str. 48]
[75] N. Sebe, M.S. Lew, I. Cohen, A. Garg, and T.S. Huang. Emotion recognitionusing a cauchy naive bayes classifier. In ICPR02, volume I, pages 17–20, 2002.[cytowanie na str. 76]
[76] C. Sheng and Y. Xin. Shape-based image retrieval using shape matrix. InInternational Journal Of Signal Processing, volume 1, 2004. [cytowanie na str. 38]
[77] W. Skarbek. Segmentation of Colour Images. PAN Warszawa, 1994.[cytowanie na str. 49]
[78] M. Soriano, B. Martinkauppi, S. Huovinen, and M. Laaksonen. Skin detection invideo under changing illumination conditions. In ICPR00, volume I, pages 839–842,2000. [cytowanie na str. 49]
[79] C. Stauffer and W.E.L. Grimson. Adaptive background mixture models for real-timetracking. In CVPR99, volume II, pages 246–252, - 1999. [cytowanie na str. 69]
[80] M. Stegmann. Active appearance models: Theory and cases, 2000.[cytowanie na str. 65]
[81] R. Tadeusiewicz. Wykorzystanie sieci neuronowych do analizy sygnałów aku-stycznych w powiązaniu z głosowym sterowaniem robota dydaktycznego. RaportInstytutu Automatyki, 15, 1991. [cytowanie na str. 6]
[82] R. Tadeusiewicz. Sieci neuronowe. Problemy Wspolczesnej Nauki i Techniki. Infor-matyka. Akademicka Oficyna Wydaw. RM, 1993. [cytowanie na str. 39, 76]
[83] R. Tadeusiewicz and M. Flasiński. Rozpoznawanie obrazów. Problemy Wspol-czesnej Nauki i Techniki. Informatyka. Akademicka Oficyna Wydaw. RM, 1993.[cytowanie na str. 75]
[84] R. Tadeusiewicz and P. Korohoda. Komputerowa analiza i przetwarzanie obrazów.Wydawnictwo Fundacji Postępu Telekomunikacji, 1997. [cytowanie na str. 44]
126
[85] Y-L. Tian, L. Brown, A. Hampapur, S. Pankanti, and R.M. Bolle. Real worldreal-time automatic recognition of facial expressions. In IEEE workshop onperformance evaluation of tracking and surveillance, Graz, Austria, March 31 2003.[cytowanie na str. 39]
[86] Y.L. Tian, T. Kanade, and J.F. Cohn. Dual-state parametric eye tracking.Proceedings of the 4th IEEE International Conference on Automatic Face andGesture Recognition (FG’00), pages 110 – 115, 2000. [cytowanie na str. 16]
[87] Y.L. Tian, T. Kanade, and J.F. Cohn. Robust lip tracking by combining shape,color and motion. Proceedings of the 4th Asian Conference on Computer Vision(ACCV’00), pages –, January 2000. [cytowanie na str. 16]
[88] Y.L. Tian, T. Kanade, and J.F. Cohn. Recognizing action units for facial expres-sion analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence,(23(2)):97–116, 2001. [cytowanie na str. 16]
[89] Y.L. Tian, T. Kanade, and J.F. Cohn. Evaluation of gaborwavelet -based facial ac-tion unit recognition in image sequences of increasing complexity. In Proceedings ofthe 5th IEEE International Conference on Automatic Face and Gesture Recognition(FG’02), DC, May 2002. [cytowanie na str. 39, 68]
[90] F.de la Torre, J. Campoy, Z. Ambadar, and J.F. Cohn. Temporal segmentation offacial behavior. In International Conference on Computer Vision, October 2007.[cytowanie na str. 76]
[91] M. Turk and A. Pentland. Eigenfaces for recognition. J. Cognitive Neuroscience,3(1):71–86, 1991. [cytowanie na str. 39, 56]
[92] M. Valstar, P. Ioannis, and M. Pantic. Facial action unit recognition using temporaltemplates. Proceedings of IEEE Int’l Workshop on Human-Robot Interaction, pages253–258, September 2004. [cytowanie na str. 17, 40, 75]
[93] V. Vezhnevets, V. Sazonov, and A. Andreeva. A survey on pixel-based skin colordetection techniques. in Proc. Graphicon-2003, 2003. [cytowanie na str. 50, 53]
[94] M. Wertheimer. Laws of Organization in Perceptual Forms - A Source Bookof Gestalt Psychology. W.D. Ellis ed. Routledge and Kegan Paul Ltd., -, 1955.[cytowanie na str. 47]
[95] M. Yang and N. Ahuja. Detecting human faces in color images. In ICIP-A 98, pages127–130, 1998. [cytowanie na str. 50]
[96] Ming-Hsuan Yang, D. J. Kriegman, and N. Ahuja. Detecting faces in images: asurvey. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 24(1):34–58, 2002. [cytowanie na str. 55]
[97] P. Yao, G. Evans, and A.D. Calway. Face tracking and pose estimation using affinemotion parameters. In SCIA01, pages O–Th2, 2001. [cytowanie na str. 90]
[98] W. Zhao, R. Chellappa, and A. Krishnaswamy. Discriminant analysis of principalcomponents for face recognition. n 3rd International Conference on Automatic Faceand Gesture Recognition, I:336–341, 1998. [cytowanie na str. 76]
127
BIBLIOGRAFIA
[99] W. Zhao, R. Chellappa, P.J. Phillips, and A. Rosenfeld. Face recognition: A litera-ture survey. ACM Comput. Surv., 35(4):399–458, 2003. [cytowanie na str. 44, 56]
128
Dodatek A
Opis metod i algorytmów
W dodatku przedstawiono opis algorytmów oraz rozszerzono wybrane zagadnie-nia poruszane w rozprawie.
A.1 Przestrzenie barw
Znormalizowana przestrzeń RGB posiada korzystną właściwość — niezmienni-czość względem zmian orientacji powierzchni w stosunku do położenia źródłaświatła (przy założeniu powierzchni matowej oraz jednolitego światła otaczają-cego scenę (ang. ambient light). Jest to szczególnie istotne w przypadku detekcjitwarzy, gdzie często występuje sytuacja zmian oświetlenia sceny. Znormalizowanymodel RGB powstaje poprzez normalizację składowych RGB (A.1). Trzecia skła-dowa Ib nie niesie żadnych dodatkowych informacji ponieważ można ją wyznaczyćna podstawie pozostałych (Ir + Ig + Ib = 1). Ponadto do mianownika zazwyczajdodaje się stałą 1 aby uniknąć dzielenia przez zero dla pikseli o wartości RGB=0.
Ir =IR
IR + IG + IB, Ig =
IRIR + IG + IB
(A.1)
gdzie:
Ir, Ig − Składowe znormalizowanego obrazu RGB
IR, IG, IB − Składowe obrazu RGB
Model HSV nawiązuje do sposobu, w jakim widzi ludzki narząd wzroku, gdzieposzczególne składowe nie są skojarzone bezpośrednio z przedziałami widmaobrazu, lecz korespondują z subiektywną percepcją promieniowania widzialne-go przez ludzkie oko — odcień, nasycenie oraz ton. Numerycznie odpowiadają
131
DODATEK A. OPIS METOD I ALGORYTMÓW
im wartości: barwa (ang. hue), nasycenie (ang. saturation), odcień (ang. value).Transformację RGB do HSV opisuje równanie (A.2):
IH = arc cos
0.5 · ((IR − IG) + (IR − IB))√((IR − IG)2 + (IR − IB) · (IG − IB)
)
(A.2)
IS = 1− 3min(IR, IG, IB)IR + IG + IB
IV =13
(IR + IG + IB)
gdzie:
IH , IS , IV − Składowe obrazu HSV
IR, IG, IB − Składowe obrazu RGB
Do głównych zalet przestrzeni HSV należy m.in. odseparowanie chrominancji(składowe H i S) od luminancji (V). Ponadto składowa H jest w dużym stopniuniezmiennicza względem zmian orientacji powierzchni w stosunku do położeniaźródła światła (jak dla normalizowanej RGB) oraz oświetlenie światłem białym.Ograniczeniem analizy w przestrzeni HSV jest duża złożoność obliczeniowa trans-formacji RGB do HSV. Ma to szczególne znaczenie ze względu na wymóg szybko-ści przetwarzania ramek obrazu oraz udostępnienia określonej mocy obliczeniowejprocesora dla znacznie bardziej wymagających algorytmów rozpoznawania i ana-lizy twarzy.
Znacznie prostsza obliczeniowo jest transformacja RGB do przestrzeni YCbCr(A.3). Przestrzeń ta wykorzystywana jest w standardach przesyłania europejskiejtelewizji i charakteryzuje się odseparowaniem chrominancji i luminancji.
IY = 0.299 · IR + 0.587 · IG + 0.114 · IB (A.3)
ICr = IR − IYICb = IB − IY
gdzie:
IY , ICr, ICb− Składowe obrazu YCbCr
IR, IG, IB − Składowe obrazu RGB
A.2 Metody segmentacji twarzy
Segmentacja poprzez bezpośrednie określenie zestawu reguł, realizowana jest naj-częściej z użyciem binaryzacji wybranych składowych przestrzeni kolorów. Jej
132
A.2. METODY SEGMENTACJI TWARZY
zaletą jest prostota i szybkość działania, okupiona koniecznością precyzyjnegookreślenia progów na podstawie analizy rozkładu kolorów pikseli obiektu. Przyję-ty zestaw reguł, pozwala na segmentację twarzy w różnych przestrzeniach barw,przedstawiają równania: (A.4), (A.5), (A.6). W przypadku modeli YCbCr orazznormalizowanego RGB wykorzystano dwie składowe, natomiast w przestrzeniHSV wystarczający okazał się wybór jednej składowej H.
BWr,g =
1; (rlow < Ir < rhigh)
⋂(glow < Ig < ghigh)
0; w przeciwnymprzypadku(A.4)
gdzie:
BWr,g − binarna mapa przynależności pikseli do twarzy dla przestrzeni r-g
Ir, Ig − Składowe znormalizowanego obrazu RGB
rlow, rhigh, glow, ghigh − progi binaryzacji składowych r-g
BWhue =
1; (Hlow < IH < Hhigh)0; w przeciwnymprzypadku
(A.5)
gdzie:
BWHue − binarna mapa przynależności pikseli do twarzy dla przestrzeniHSV
IH − Składowea Hue przestrzeni HSV
Hlow, Hhigh − progi binaryzacji składowej Hue
BWCb,Cr =
1; (Cblow < ICb < Cbhigh)
⋂(Crlow < ICr < Crhigh)
0; w przeciwnymprzypadku(A.6)
gdzie:
BWCb,Cr − binarna mapa przynależności pikseli do twarzy dla przestrzeniYCbCr
ICb, ICr − Składowe obrazu YCbCr
Cblow, Cbhigh − progi binaryzacji składowej Cb
Crlow, Crhigh − progi binaryzacji składowej Cr
Do metod nieparametrycznych zaliczyć można: znormalizowane tablice prze-kodowań (LUT – ang. look-up-table), klasyfikatory bayesowskie, samoorganizu-jące się sieci neuronowe SOM (ang. self organizing map). Ich zaletą jest szybkość
133
DODATEK A. OPIS METOD I ALGORYTMÓW
uczenia modelu i działania oraz (raportowana w doniesieniach) niewrażliwość nakształt rozkładu statystycznego kolorów pikseli. Ograniczeniem są duże wymaga-nia pamięciowe — szczególnie w przypadku wielowymiarowych tablic LUT.
Tablice LUT wyznaczane są następująco. Dla wybranych (ręcznie lub me-todami automatycznymi) fragmentów obrazu zawierających piksele skóry, wy-znaczany jest histogram. Histogram liczony jest dla jednej, dwóch lub trzechskładowych przyjętej przestrzeni barw. Tablicę LUT otrzymuje się poprzez odpo-wiednią normalizację otrzymanego histogramu, formując w ten sposób dyskretnąfunkcję prawdopodobieństwa (A.7). W kategoriach statystycznych Pskin(c) możebyć traktowane jako warunkowe prawdopodobieństwo obserwacji danego koloru,przy założeniu iż piksel należy do obszaru skóry Pskin(c) ≡ P (c|skin).
Pskin(c) =hskin(c)∑ihskin(c)
, lub Pskin(c1, c2) =hskin(c1, c2)∑i,jhskin(c1, c2)
(A.7)
gdzie:
Pskin(c), Pskin(c1, c2)−mapa prawdopodobieństwa skóry
hskin(c), hskin(c1, c2)− histogramy wybranych składowych barw
c, c1, c2 − zakresy wartości (słupków histogramu) danej składowej
Wśród metod parametrycznych wyróżnić należy modelowanie rozkładu kolo-rów przy pomocy eliptycznej gaussowskiej funkcji rozkładu prawdopodobieństwa(A.8). Wykorzystuje się fakt, iż piksele należące do skóry tworzą w przestrzenibarw zwarty, niewielki obszar (rys. 5.8a).
P (c|skin) =1
2 · π · |ΣS |0.5· e− 1
2 (ξ−µS)T ·Σ−1S ·(ξ−µS) (A.8)
gdzie:
ξ − wektor wybranych składowych koloru
ΣS , µS − kowariancja oraz wartość oczekiwana obszaru należącego do skó-ry
Wartości P (c|skin)mogą być użyte do bezpośredniego określenia „jak bardzopodobny do skóry jest dany piksel” bądź też można wyznaczyć miarę błędu —odległość Mahalanobisa (A.9). Odległość Mahalanobisa jest odległością międzydwoma punktami w n-wymiarowej przestrzeni, która różnicuje wkład poszczegól-nych składowych oraz wykorzystuje korelacje między nimi. Więcej informacji naten temat można znaleźć w podręcznikach do matematyki i statystyki.
λS(ξ) = (ξ − µS)T · Σ−1S · (ξ − µS) (A.9)
134
A.3. ESTYMACJA I USUWANIE SZUMÓW Z SEKWENCJI VIDEO
gdzie:
λS(ξ)− odległość Mahalanobisa wektora wybranych składowych koloruod modelu skóry
ξ − wektor wybranych składowych koloru
ΣS , µS − kowariancja oraz wartość oczekiwana obszaru należącego do skó-ry
W wielu przypadkach podstawowe założenie powyższej metody, czyli rozkładnormalny pikseli należących do skóry, nie jest spełniony (rys. 5.8c). W takimprzypadku użyteczne jest modelowanie barwy skóry przy pomocy mieszanki roz-kładów prawdopodobieństwa (ang. multiple gaussian) i wykorzystanie algorytmumaksymalizacji wartości oczekiwanej EM (ang. expectation-maximization algori-thm), do estymacji parametrów modelu opisanego równaniem (A.5).
A.3 Estymacja i usuwanie szumów z sekwencji video
Pomiar szumów zrealizowano dla kilku sekwencji video pobranych w różnychwarunkach i przy pomocy różnych kamer. Opis sekwencji znajduje się w rozdziale5.2.2.
Ilościowy pomiar szumów zrealizowano następująco. Z sekwencji wideo wy-brano kilka kolejnych obrazów, dla których nie występują ruchy głowy, gestymimiczne lub zmiany oświetlenia sceny. Następnie wyznaczono znormalizowanąsumę obrazu różnicowego z kolejnych ramek (A.10). Jako miarę stopnia zaszu-mienia sekwencji przyjęto średnią z kolejnych wartości znormalizowanej sumy dlakilku obrazów (A.11).
Noise(k) =
∑m,n|I(x, y, k)− I(x, y, k − 1)|
MIM ·NIM(A.10)
gdzie:
MIM , NIM − wymiary obrazu (wiersz, kolumna)
I(x, y, k)− Jasność piksela obrazu o współrzędnych x, y w chwili k
Noise = mean(Noise(k)) (A.11)
Rysunek A.1 przedstawia obrazy różnicowe dla wybranych sekwencji, nato-miast tabela A.1 średni poziom szumów. Można zauważyć występowanie szumów— szczególnie widoczne w przypadku złych warunków akwizycji obrazów. Jest to
135
DODATEK A. OPIS METOD I ALGORYTMÓW
Rysunek A.1: Przykładowe obrazy z różnych sekwencji (a) sekwencja nr 1 (b)sekwencja nr 3 (c) sekwencja nr 2, oraz odpowiadające im moduły różnicy dwóchkolejnych obrazów (d)(e)(f).
Tabela A.1: Średni poziom szumów dla sekwencji z rys. A.1
µnoise
Sekwencja nr 1 2.0086Sekwencja nr 3 1.4347Sekwencja nr 2 2.9932
spodziewany fakt, ponieważ metody różniczkowania numerycznego (do którychmożna zaliczyć obliczanie obrazu różnicowego) są wrażliwe na szum.
Otrzymane wyniki uzasadniają konieczność poprawy jakości obrazów i zmniej-szenia zakłóceń. W tym celu można próbować odpowiednio dobrać parametryakwizycji obrazów (o ile kamera pozwala na regulacje swoich parametrów) lubdostosować warunki akwizycji (oświetlenie). Narzuca to dodatkowe wymaganiapracy całego systemu, trudne do zagwarantowania gdy celem jest rozpoznawaniemimiki w nieznanych warunkach. Innym sposobem, wykorzystanym w niniejszejpracy, jest programowa redukcja szumów. W tym celu wykorzystano filtracjęmedianową, która skutecznie zmniejsza lokalne szumy nie powodując ich „rozmy-wania” na większym obszarze (w odróżnieniu od filtrów uśredniających). Dzię-ki temu usunięta została znaczna część zakłóceń z sekwencji (rys. A.2), tabelaA.2), jednocześnie bez wprowadzania większych zmian na obrazach które mogły-by utrudnić np. detekcję ruchu.
136
A.4. METODA PCA
Rysunek A.2: Wyniki redukcji szumów przy pomocy filtracji medianowej (maskao rozmiarze 5x5) dla sekwencji nr 3 — (a) wybrany obraz z sekwencji, (b) mo-duł różnicy dwóch kolejnych obrazów przed filtracją, (c) moduł różnicy dwóchkolejnych obrazów po filtracji
Tabela A.2: Średni poziom szumów dla sekwencji nr 3, przed i po filtracji media-nowej
µnoise
przed filtracją 1.4347po filtracji 0.97253
A.4 Metoda PCA
Metoda składowych głównych PCA (ang. Principal Component Analysis) należydo grupy metod statystycznych i służy do badania związków zachodzących po-między dwoma wielowymiarowymi zestawami zmiennych. Może być traktowanajako liniowa transformacja punktów z przestrzeni D-wymiarowej (przykładowo— D może być równe ilości pikseli wzorca obrazu) do nowej przestrzeni o mniej-szej liczbie wymiarów. Nowa baza przestrzeni definiuje kierunki, które opisująnajwiększą zmienność z oryginalnego zestawu danych.
Kolejne etapy analizy PCA są następujące. Każdy D-wymiarowy wektor cechjest normalizowany poprzez odjęcie średniej ze wszystkich wektorów (A.12).
yi = xi − x (A.12)
137
DODATEK A. OPIS METOD I ALGORYTMÓW
gdzie:
yi −D-wymiarowy wektor cech po normalizacji
xi −D-wymiarowy wektor cech
x− średni wektor cech
Ze znormalizowanych wektorów cech tworzona jest macierz, w której każdakolumna odpowiada jednemu wektorowi (A.13).
Φ =
ϕ1
1 · · · ϕ1NT
......
ϕD1 · · · ϕDNT
(A.13)
gdzie:
Φ−macierz złożona z wektorów cech
NT − ilość wektorów cech
D − wymiar wektora cech
Funkcje bazowe nowej przestrzeni są obliczane poprzez wyznaczenie wekto-rów własnych następującej macierzy kowariancji (A.14), (A.15). W przypadkugdy wektory cech reprezentują kształty lub wzorce twarzy, efektywną metodąobliczania jest algorytm dekompozycji macierzy na wartości osobliwe (SVD ang.singular value decomposition). Wynika to z faktu, iż macierz kowariancji jestosobliwa (ilość wektorów cech jest mniejsza niż wymiar przestrzeni). Funkcje ba-zowe są określane również jako składowe główne (ang. principal components) lub„eigen-obiekty” (ang. eigenobjects).
CΦ = cov(Φ) (A.14)
[U, S, V ] = svd CΦ
gdzie:
CΦ −macierz kowariancji dla Φ
U −macierz zawierająca w każdej kolumnie składowe główne
S − diagonalna macierz zawierająca wartości własne odpowiadająceskładowym głównym
V −macierz ortonormalna do U
138
A.4. METODA PCA
S =
λ1 0 0
0. . . 0
0 0 λD
(A.15)
Z uszeregowanych w kolejności od największej do najmniejszej wartości wła-snych oraz odpowiadających im składowych głównych wybierane jest K pierw-szych elementów. Wartość K obliczana jest zazwyczaj wg kryterium (A.16).
K∑
i=1
λi p
100·D∑
i=1
λi (A.16)
gdzie:
i− indeks kolejnego wektora cech
λi − i-ta wartość własna macierzy kowariancji
D − wymiar wektora cech
p− zadana, procentowa wartość określająca proporcję wariancji da-nych
Składowe główne stanowią nową bazę przestrzeni, do której rzutowane sąwektory cech. W procesie rzutowania otrzymuje się wektor wag Ω reprezentującydany wektor cech (A.17).
Ωi = [wi1 · · ·wiK ]T (A.17)
wij =(U j)T · xi
i = 1 · · ·NT , j = 1 · · ·K
gdzie:
Ωi − wektor wag dla i-go wektora cech
U j − j-ty element macierzy składowych głównych
xi − i-ty wektor cech
NT − ilość wektorów cech
K − ilość uwzględnionych wektorów głównych
Każdy wektor cech możne zostać odtworzony poprzez kombinację liniową skła-dowych głównych (A.18) oraz dodanie średniego wektora cech.
yi = x+K∑
i=1
wij ·U j (A.18)
139
DODATEK A. OPIS METOD I ALGORYTMÓW
gdzie:
x− średni wektor cech
U j − j-ty element macierzy składowych głównych
xi − i-ty wektor cech
K − ilość uwzględnionych wektorów głównych
A.5 Metoda przestrzeni skali (ang. scale-space)
Reprezentacja skali (ang. scale-space) jest specjalnym typem reprezentacji wielo-skalowej zaproponowanym przez Tonny’ego Lindeberga [54]. Niech f : <N → <reprezentuje dowolny ciągły sygnał. Reprezentacja skali L : <N × <+ → < jestzdefiniowana przez (A.19):
L(·; 0) = f
L(·;σ) = g(·;σ) ∗ f (A.19)
gdzie:
σ ∈ <+ − parametr skali
g : <N ×<+\0 → <−N-wymiarowy rozkład Gaussa
f − dowolny ciągły sygnał
W przypadku obrazu rozkład Gaussa definiowany jest następująco (A.20):
g(x, y, σ) =1
2 · π · σ2 · e(−x2+y2
2·σ2
)(A.20)
gdzie:
x, y − współrzędne obrazu
Reprezentacja ta może zostać wykorzystana do detekcji cech w różnych ska-lach (w zależności od parametru σ) — rys. A.3. Detekcja cech w pojedynczejskali, odbywa się poprzez wyszukiwanie lokalnych przestrzennych maksimów lubmiejsc zerowych różniczkowego deskryptora cech. Mogą to być plamy (ang. blobs),grzbiety (ang. ridges), krawędzie (ang. edges), itp. W pracy wykorzystano detek-cję plam. Plama to obszar ciemny otoczony elementami jasnymi, lub odwrotnie.Matematycznie plama to ekstremum lokalne laplasjanu(A.21):
∇2L = Lxx + Lyy∇(∇2L) = 0
(A.21)
140
A.6. FILTRY GABORA
Rysunek A.3: Reprezentacja skali obrazu: (a) obraz, (b) reprezentacja dla σ = 2,(c) reprezentacja dla σ = 8
Znak laplasjanu określa czy jest to plama jasna (∇(∇2L) < 0) czy ciemna( ∇(∇2L) > 0). W wyniku zastosowania powyższego operatora, otrzymywanyjest obraz z wyraźnymi maksimami w miejscach występowania plam o rozmiarzeodpowiadającym wybranej skali σ. Obraz ten podlega normalizacji względemskali i może zostać wykorzystany do detekcji cech. W przypadku uwzględnieniawszystkich skal, detekcja odbywa się w przestrzeni trójwymiarowej (tzn. nie tylkow płaszczyźnie obrazu ale również na osi skali).
A.6 Filtry Gabora
Filtr Gabora jest funkcją Gaussa modulowana przez falę sinusoidalną oraz kosi-nusoidalną. Dla sygnału 2D definiowany jest następująco (A.22):
ΨG (x, y; f0G, θG) =f2
0G
π · γG · ηG · eA · eB (A.22)
A = −(f2
0G
γ2G
· x′2 +f2
0G
γ2G
· y′2)
B =(j2π · f0G · x′
)
x′
= x · cos θG + y · sin θGy′
= −x · sin θG + y · cos θG
gdzie:
γG − ostrość filtru wzdłuż dłuższej osi
ηG − ostrość filtru wzdłuż krótszej osi
f0G − częstotliwość centralna filtru
θG − kąt obrotu głównej osi filtru (orientacja)
Wyszukiwane obiektów na obrazach odbywa się za pomocą bibliotek filtrówGabora, uwzględniających różne częstotliwości, orientacje i szerokości.
141
DODATEK A. OPIS METOD I ALGORYTMÓW
A.7 Wyznaczanie mapy prawdopodobieństwa oczu orazust
Obliczanie mapy prawdopodobieństwa oczu składa się z dwóch etapów. W pierw-szym wykorzystywana jest informacja o kolorze (A.23), w wyniku czego otrzy-mywana jest mapa nr 1 (rys. A.4a):
EyeMap1 =13·(I2Cb + I2
Cr + ICb/ICr)
(A.23)
gdzie:
ICr −Negacja składowej Cr
ICr, ICb − Składowe obrazu YCbCr
Obszar oczu zazwyczaj odróżnia się wyraźnie od reszty twarzy tworząc ciem-niejsze plamy. Dlatego tworzona jest druga mapa prawdopodobieństwa oczu (A.24)— rys. A.4b. Rejony oczu wzmacniane są w niej poprzez zastosowanie algorytmu„detekcji plam” w reprezentacji skali (por. A.5).
EyeMap2 = σ · (Lxx + Lyy) (A.24)
gdzie:
Lxx, Lyy − drugie pochodne cząstkowe obrazu
σ − parametr skali
Obydwie mapy podlegają normalizacji do zakresu [0-1]. Na podstawie złoże-nia obu map (rys. A.4c) oraz otrzymanej w poprzednich etapach maski twarzy(por. 5.3.1), tworzona jest binarna maska (rys. A.4d) zawierająca obiekty będącepotencjalnymi oczami (A.25).
BWeye =
1; [(EyeMap1 + EyeMap2) > eyethres] ∩BWface
0; w przeciwnymprzypadku
(A.25)
gdzie:
EyeMap1, EyeMap1−mapy prawdopodobieństwa oczu
BWface − binarna maska twarzy
eyethres − próg binaryzacji mapy prawdopodobieństwa oczu
142
A.7. WYZNACZANIE MAPY PRAWDOPODOBIEŃSTWA OCZU ORAZ UST
Rysunek A.4: (a) mapa prawdopodobieństwa oczu nr 1, (b) mapa prawdopodo-bieństwa oczu nr 2, (c) połączenie obydwu map, (d) binarna maska oczu
Próg binaryzacji eyethres dobierany jest automatycznie według następującegokryterium (A.26):
eyethres = µeye + const · σeye (A.26)
gdzie:
µeye, σeye − odchylenie standardowe oraz wartość oczekiwana intensywnościpikseli mapy oczu w obszarze należącym do twarzy
Mapa prawdopodobieństwa ust (rys. A.5a) wyznaczana jest następująco (A.27):
MouthMap = ICb ·(I2Cr − ηm ·
ICrICb
)2(A.27)
ηm = 0.95 ·1n ·
∑(x,y)∈BWface
I2Cr
1n ·
∑(x,y)∈BWface
ICrICb
gdzie:
ICr, ICb − Składowe obrazu YCbCr
BWface − binarna maska twarzy
n− ilość pikseli należących do obszaru twarzy
143
DODATEK A. OPIS METOD I ALGORYTMÓW
Rysunek A.5: (a) mapa prawdopodobieństwa ust, (b) połączenie obydwu map,(d) binarna maska ust
Parametr ηm obliczany jest na podstawie zliczania ilości pikseli należącychdo obszaru twarzy (maska) dla odpowiednich składowych przestrzeni kolorówchrominancji-luminancji. W wyniku otrzymywany jest obraz na którym widocz-ne są jaśniejsze plamy w miejscu występowania ust. Podobnie jak w przypadkuoczu, z mapy ust tworzona jest następnie binarna maska (rys. A.5b), zawierającaobiekty będące potencjalnymi ustami (A.28)(A.29).
BWmouth =
1; [MouthMap > mouththres] ∩BWface
0; w przeciwnymprzypadku(A.28)
gdzie:
MouthMap−mapa prawdopodobieństwa ust
BWface − binarna maska twarzy
mouththres − próg binaryzacji mapy prawdopodobieństwa ust
mouththres = µmouth + const · σmouth (A.29)
gdzie:
µmouth, σmouth − odchylenie standardowe oraz wartość oczekiwana intensywnościpikseli mapy ust w obszarze należącym do twarzy
144
DODATEK B. OPIS JEDNOSTEK CZYNNOŚCIOWYCH MIMIKI
Tab
ela
B.1
:W
ybra
neje
dnos
tki
czyn
nośc
iow
edo
lnej
częś
citw
arzy
—cz
.1
Jed
nos
tka
czyn
no-
ścio
wa
Op
isU
wag
i
AU
12U
nosz
enie
kąci
ków
ust
(ang
.lip
corn
erpu
ller)
Gru
pam
ięśn
i:zy
gom
atic
usm
ajor
Ruc
hte
nje
stp
odst
awą
gest
uuś
mie
chu
im
oże
być
wyk
o-ny
wan
yni
esym
etry
czni
e.C
zęst
ow
ystę
puje
rów
nocz
eśni
ez
AU
6(u
nosz
enie
pol
iczk
a)or
azA
U25
(otw
arci
eus
t).
Mo-
żeby
ćm
ylon
yz
AU
14–
wza
leżn
ości
odos
obni
czyc
hce
chcz
łow
ieka
.
AU
14„P
rzyc
iąga
nie
ust”
(ang
.di
mpl
er)
Gru
pam
ięśn
i:bu
ccin
ator
Ruc
hte
np
owod
uje
pow
staw
anie
dołe
czkó
ww
kąci
kach
ust
im
oże
być
wyk
onyw
any
nies
ymet
rycz
nie.
AU
15
Opu
szcz
anie
kąci
ków
ust
(ang
.lip
corn
erde
-pr
esso
r)G
rupa
mię
śni:
depr
esso
ran
guli
oris
(a.k
.a.
tria
ngul
aris
)
AU
17U
nosz
enie
pod
bród
ka(a
ng.
chin
rais
er)
Gru
pam
ięśn
i:m
enta
lis
146
Tab
ela
B.2
:W
ybra
neje
dnos
tki
czyn
nośc
iow
edo
lnej
częś
citw
arzy
—cz
.2
AU
19W
ysun
ięci
eję
zyka
(ang
.to
ngue
out)
Istn
ieje
wie
lem
ożliw
ości
wyk
onan
iate
goge
stu.
AU
25,
AU
26,
AU
27
AU
25–
Otw
arci
eus
t(a
ng.
lippa
rt)
Gru
pam
ięśn
i:de
pres
sor
labi
iin
feri
oris
orre
-la
xati
onof
men
talis
,or
Oor
bicu
lari
sor
is
AU
26–
opus
zcze
nie
szcz
ęki
(ang
.ja
wdr
op)
Gru
pam
ięśn
i:m
asse
ter,
rela
xed
tem
pora
lisan
din
tern
alpt
eryg
oid
AU
27–
szer
okie
otw
arci
eus
t(a
ng.
mou
thst
rech
)G
rupa
mię
śni:
pter
ygoi
ds,
diga
stri
c
Zaz
wyc
zajs
tosu
jesi
ęty
lko
jedn
ostk
ęA
U25
przy
czym
okre
-śl
asi
ęin
tens
ywno
śćge
stu
(sto
pień
otw
arci
aus
t).
AU
51,
AU
52O
brót
głow
yle
wo/
praw
o(a
ng.
head
turn
left
/rig
ht)
Czę
sto
niem
ożliw
ydo
wyk
onan
iadl
aos
óbz
duży
mup
ośle
-dz
enie
mm
ożliw
ości
ruch
u.
AU
53,
AU
54P
rzec
hyle
nie
głow
ygó
ra/d
ół(a
ng.
head
up/d
own)
j.w
.
AU
55,
AU
56P
rzec
hyle
nie
głow
yle
wo/
praw
o(a
ng.h
ead
titl
left
/rig
ht)
j.w
.
147
DODATEK B. OPIS JEDNOSTEK CZYNNOŚCIOWYCH MIMIKI
Tab
ela
B.3
:W
ybra
neje
dnos
tki
czyn
nośc
iow
egó
rnej
częś
citw
arzy
.
Jed
nos
tka
czyn
no-
ścio
wa
Op
isU
wag
i
AU
1+2
Ruc
hun
oszą
cybr
wi
(ang
.in
ner
and
oute
rbr
owra
iser
):A
U1
–cz
ęść
przy
środ
kow
a,A
U2
–cz
ęść
boc
zna.
Gru
pam
ięśn
i:m
.oc
cipi
tofr
onta
lis,
vent
erfr
onta
lis
Uw
ięks
zośc
ios
óbje
dnak
niez
ależ
new
ywoł
anie
ruch
uA
U1
lub
AU
2je
stni
emoż
liwe
bez
dług
otrw
ałeg
otr
enin
gu,
aun
osze
nie
brw
iodp
owia
daob
uje
dnos
tkom
czyn
nośc
iow
ymdz
iała
jący
mró
wno
cześ
nie,
cooz
nacz
ane
jest
jako
AU
1+2.
AU
4R
uch
mar
szcz
enia
brw
i(a
ng.
brow
low
erer
)G
rupa
mię
śni:
corr
ugat
orsu
perc
ilii,
depr
esso
rsu
perc
ilii
AU
6U
nosz
enie
pol
iczk
a(a
ng.
chee
kra
iser
)G
rupa
mię
śni:
orbi
cula
ris
ocul
i,pa
rsor
bita
lis
Ges
ttr
udny
dow
ykon
ania
sam
odzi
elni
e.Z
azw
ycza
jw
ystę
-pu
jew
poł
ącze
niu
zA
U7
(mru
żeni
eoc
zu)
lub
AU
12(u
no-
szen
ieką
cikó
wus
t)
AU
45,
AU
46
AU
45–
mru
gani
e(a
ng.
blin
k)A
U46
–zm
ruże
nie
oka
(ang
.w
ink)
Gru
pam
ięśn
i:re
laxa
tion
ofle
vato
rpa
lpeb
rae
supe
rior
is;
orbi
cula
ris
ocul
i,pa
rspa
lpeb
ralis
Ges
typ
odob
neal
ezm
ruże
nie
oka
jest
zazw
ycza
jw
olni
ejsz
eod
mru
gani
aor
azw
ykon
ywan
eje
dnym
okie
m.
148
Tabela B.4: Opis wybranych elementów mimiki — AU1, AU2, AU1+2
Elementmimiki
Opis
AU1,AU2,AU1+2
AU1 – Unoszenie wewnętrznej części brwi:
• Wewnętrzna część brwi podciągana jest w górę.
• U wielu ludzi powoduje powstanie ukośnego kształtu brwi.
• Powoduje powstawanie poziomych zmarszczek skóry naczole, rozciągających się raczej w środkowej części czoła.Mogą one być zakrzywione, wyższe w środkowej części. Udzieci zmarszczki mogą nie występować. W przypadku osóbz permanentnymi zmarszczkami pogłębiają się one.
• Może powodować lekki ruch zewnętrznej części brwi dośrodka
AU2 – Unoszenie zewnętrznej części brwi:
• Zewnętrzna część brwi podciągana jest w górę.
• Powoduje powstawanie łukowatego kształtu brwi.
• Powoduje rozciąganie w górę bocznej części fałdu powiekigórnej.
• U niektórych ludzi powoduje powstanie krótkich poziomychzmarszczek powyżej bocznej części brwi. Mogą również po-jawić się zmarszczki w środkowej części czoła ale dużo słab-sze od bocznych.
• Może powodować lekki ruch wewnętrznej części brwi.
AU1+2 – Unoszenie brwi:
• Całość brwi podciągana jest w górę.
• Powoduje powstawanie łukowatego i zakrzywionego kształ-tu brwi.
• Marszczy skórę czoła tak że powstają poziome zmarszczki.U dzieci zmarszczki mogą nie występować.
• Rozciąga fałd powieki górnej tak że jest bardziej widoczne.
• U niektórych ludzi (z głęboko osadzonymi oczyma) rozcią-ganie fałdu powieki górnej odkrywa górną powiekę którazazwyczaj jest zakryta przez fałd.
149
DODATEK B. OPIS JEDNOSTEK CZYNNOŚCIOWYCH MIMIKI
Tabela B.5: Opis wybranych elementów mimiki — AU4
Elementmimiki
Opis
AU4
Marszczenie brwi:
• Opuszczenie brwi — różne przypadki (całość brwi, tylkozewnętrzna część lub tylko wewnętrzna część).
• Popycha fałd powieki górnej w dół oraz może zwęzić aper-turę oka.
• Przyciąga brwi ku sobie.
• Wywołuje pionowe zmarszczki pomiędzy brwiami (mogąone być głębokie). U niektórych ludzi zmarszczki mogą byćpod kątem 45 lub zarówno pionowe jaki i pod kątem. Mogąrównież powstawać poziome zmarszczki u nasady nosa. Wprzypadku permanentnych zmarszczek pogłębiają się one.
• Może powodować powstawanie ukośnych zmarszczek lubwypukłości mięśni rozciągających się od środka czoła ponadśrodkową częścią brwi, aż do wewnętrznego kącika brwi.
• Mogą również wystąpić inne rodzaje zmarszczek.
150
Tabela B.6: Opis wybranych elementów mimiki — AU6
Elementmimiki
Opis
AU6
Unoszenie policzka:
• Skurcz mięśni wokół oka podciąga skórę od skroni i policzkaw kierunku oka.
• Podniesienie trójkąta podoczodołowego, uniesienie policzkaw górę.
• Wypycha skórę otaczającą oko w kierunku oczodołu zwęża-jąc aperturę oczu, powodując marszczenie skóry pod okiemoraz wypychanie fałdu powieki górnej i zmianę jego kształ-tu.
• Może powodować powstawanie „kurzych łapek” lubzmarszczek, które rozszerzają się radialnie od zewnętrznychkącików oka.
• Pogłębia fałd powieki dolnej.
• Może obniżyć w niewielkim stopniu boczne części brwi.
• Bardziej intensywny gest:
– uwidacznia lub pogłębia bruzdę nosowo-wargową,
– unosi w niewielkim stopniu zewnętrzną część górnejwargi,
– uwidacznia lub pogłębia bruzdę podoczołową, także od góry trójkąta podoczodołowy pojawiają sięzmarszczki (proste lub półksiężycowate).
151
DODATEK B. OPIS JEDNOSTEK CZYNNOŚCIOWYCH MIMIKI
Tabela B.7: Opis wybranych elementów mimiki — AU12
Elementmimiki
Opis
AU12
Unoszenie kącików ust:
• Pociągnięcie kącików ust w tył oraz ukośnie do góry, tak żekształt ust staje się zakrzywiony.
• Pogłębienie bruzda nosowo-wargowej wraz z pociągnięciemjej w bok i do góry, przylegająca część skóry również prze-suwa się do góry oraz jest unoszona na bok.
• Słabsza lub umiarkowana jednostka AU12 — podniesienietrójkąta podoczodołowego oraz prawdopodobne pogłębie-nie bruzdy podoczodołowej
• Bardziej zdecydowanie wykonanie akcji powoduje ujawnie-nie następujących cech:
– większy skurcz mięśnia uwydatnia bardziej trójkąt po-doczodołowy,
– pogłębienie bruzdy podoczodołowej jest bardziej wi-doczne,
– „worki” pod dolnymi powiekami,
– skóra policzka naciskając na dolną powiekę powodujezmniejszenie otworu oczu,
– czasami połączone z AU6.
152
Tabela B.8: Opis wybranych elementów mimiki — AU14, AU15
Elementmimiki
Opis
AU14,AU15
AU14 – „Przyciąganie ust”:
• Zmarszczki w kącikach ust.
• Powstawanie „dołeczków” w policzku.
• Ruch kącików ust w górę, możliwy również ruch okrężny.
• Wargi rozciągnięte na boki, spłaszczone i naprężone.
• W niektórych przypadkach pogłębienie bruzdy nosowo-wargowej.
• Skóra brody podciągana jest w górę oraz wygładza się irozciąga.
• Może występować symetrycznie lub niesymetrycznie.
AU15 – Opuszczanie kącików ust:
• Opuszczenie kącików ust w dół.
• Zmiana kształtu warg (jak na zdjęciu) z lekkim poziomymrozciągnięciem.
• Dla intensywnego gestu — tworzenie się zmarszczek i in-nych zmian wyglądu skóry (wypukłości, worki, kieszonki)w okolicy kącików ust.
• Może powodować pojawianie się lub wygładzanie wybrzu-szeń na bródce oraz wklęsłości pod dolną wargą.
• Jeśli występują stałe dla danej osoby bruzdy nosowo-wargowe mogą się one pogłębić i wydłużyć.
153
DODATEK B. OPIS JEDNOSTEK CZYNNOŚCIOWYCH MIMIKI
Tabela B.9: Opis wybranych elementów mimiki — AU17, AU19
Elementmimiki
Opis
AU17,AU19
AU17 – Unoszenie podbródka:
• Koniec podbródka unoszony do góry.
• Dolna warga unoszona do góry.
• Możliwe powstawanie zmarszczek na podbródku oraz za-głębienia poniżej środkowej części dolnej wargi.
• Część ust formuje się w kształt odwróconego U.
• Lekkie wysunięcie dolnej wargi.
AU19 – Wysunięcie języka:
• Przynajmniej koniuszek języka widoczny.
• Może wystąpić przysłonięcie jednej z warg lub kącika ust.
• Usta mogą być otwarte lub mogą wystąpić zmiany ichkształtu.
154
Tabela B.10: Opis wybranych elementów mimiki — AU25, AU26, AU27
Elementmimiki
Opis
AU25,AU26,AU27
AU25 – otwarcie ust:
• Wargi oddzielone od siebie, wewnętrzna część warg bardziejwidoczna.
• W niektórych przypadkach widoczne zęby i dziąsła.
• Widoczna jama ustna (w zależności od jednostki AU26/27).
AU26 – opuszczenie szczęki:
• Rozwarcie żuchwy/szczęki dolnej.
• Przy otwarciu ust (AU25+AU26) widoczna przestrzeń mię-dzy górnymi i dolnymi zębami.
• Dolna szczęka rozluźniona.
• Może wystąpić przypadkowe otwarcie ust.
• Stopniowe napinanie mięśni dolnej szczęki.
• Możliwe rozwarcie żuchwy/szczęki dolnej z jednoczesnymzaciśnięciem warg (AU17/24).
AU27 – szerokie otwarcie ust:
• Owalny kształt ust.
• Wargi z dala od siebie.
• Poprzez rozciąganie policzki wydłużają się i spłaszczają.
• Zmienia się wygląd podbródka i strefy poniżej.
• Jednostka połączona z AU25.
155
DODATEK B. OPIS JEDNOSTEK CZYNNOŚCIOWYCH MIMIKI
Tabela B.11: Opis wybranych elementów mimiki — AU51-56
Elementmimiki
Opis
AU51-56
Ruchy głowy:
• AU51,AU52 – obrót głowy lewo/prawo.
• AU53,AU54 – przechylenie głowy góra/dół.
• AU55,AU56 – przechylenie głowy lewo/prawo.
Uwagi:
• Opis w metodyce FACS mniej dokładny.
• Zmiany wyglądu twarzy wywołane zniekształceniami per-spektywicznymi.
• Duże ruchy mogą powodować przysłonięcie niektórych ele-mentów morfologicznych twarzy (np. oko, ucho) lub poja-wienie się dodatkowych elementów (np. szyja).
156
Tabela B.12: Opis wybranych elementów mimiki — AU43, AU45, AU46
Elementmimiki
Opis
AU43,AU45,AU46
AU43 – zamknięcie oczu:
• Powieki opuszczane są w dół zmniejszając aperturę oka.
• Widoczna jest większa część powiek górnych.
• Możliwe różne stopnie intensywności gestu – np. przy-mknięcie oczu lub zaciśnięcie oczu.
AU45 – Mruganie:
• Bardzo szybkie zamknięcie i otwarcie oczu (bez pauzy wmomencie gdy oczy są zamknięte).
• Możliwy gest jednostronny lub obustronny.
AU46 – Przymrużenie oka:
• Intencjonalne zmrużenie jednego z oczu.
• Oko zostaje zamknięte na krótką chwilę (z pauzą w mo-mencie gdy jest w pozycji zamkniętej)
• Maksymalny czas zmrużenia oka – 2 sec.
157
DODATEK B. OPIS JEDNOSTEK CZYNNOŚCIOWYCH MIMIKI
Tabela B.13: Opis wybranych elementów mimiki — jednostki MPEG4-FAP
Elementmimiki
Opis
FAP 31-36
Wertykalne przemieszczenie punktów brwi:
• FAP31 – przemieszczenie wewnętrznej części lewej brwi(punkt 4.1)
• FAP32 – przemieszczenie wewnętrznej części prawej brwi(punkt 4.2)
• FAP33 – przemieszczenie środkowej części lewej brwi(punkt 4.3)
• FAP34 – przemieszczenie środkowej części prawej brwi(punkt 4.4)
• FAP35 – przemieszczenie zewnętrznej części lewej brwi(punkt 4.5)
• FAP36 – przemieszczenie zewnętrznej części prawej brwi(punkt 4.6)
Rysunek B.1: Element mimiki AU1+2 — unoszenie brwi
Rysunek B.2: Element mimiki AU4 — marszczenie brwi
158
Rysunek B.3: Element mimiki AU12 — unoszenie kącików ust: (a) obustronne,(b)(c) jednostronne
Rysunek B.4: Elementy mimiki: (a) AU0 — położenie frontalne, (b) AU25+26— otwarcie ust
159
Dodatek C
Rezultaty rozpoznawaniaelementów mimiki — wykresy itabele
C.1 Informacje ogólne
Liczebność elementów w zbiorach danych dla poszczególnych metod jest nastę-pująca:
Tabela C.1: Liczebność dla histogramów orientacji
całość AU0 AU12R AU12L AU12AU25+26
zbiór uczący 280 141 32 33 35 39zbiór testowy 1 514 200 63 81 83 87zbiór testowy 2 339 131 47 52 54 55zbiór testowy 3 319 116 54 47 52 51zbiór testowy 4 322 121 58 49 48 47
Ze względu na małą ilość danych (dla rozpoznawania kształtów), cały zbiórdanych podzielono losowo na zbiór uczący i testowy w stosunku 70% do 30%(tzw. stratified sampling).
161
DODATEK C. REZULTATY ROZPOZNAWANIA ELEMENTÓW MIMIKI — WYKRESY ITABELE
Tabela C.2: Liczebność dla modeli kształtów — zbiór uczący
całość AU0 AU1+2 AU4
test 1 75 48 27 -test 2 114 73 41 -test 3 86 48 27 11test 4 131 73 41 17
Tabela C.3: Liczebność dla modeli kształtów — zbiór testowy
całość AU0 AU1+2 AU4
test 1 32 21 11 -test 2 49 31 18 -test 3 36 21 11 4test 4 56 31 18 7
Parametry jakości klasyfikacji (C.1)—(C.4).
PPV =TP
TP + FP· 100% (C.1)
NPV =TN
FN + TN· 100% (C.2)
Sens =TP
TP + FN· 100% (C.3)
Spec =TN
FP + TN· 100% (C.4)
gdzie:
PPV − wartość predykcyjna dodatnia klasyfikacji (ang. positive predic-tive value)
NPV − wartość predykcyjna ujemna klasyfikacji (ang. negative predictivevalue)
Sens− czułość (ang. sensitivity)
Spec− swoistość (ang. specificity)
TP − wyniki prawdziwie dodatnie (ang. true positives)
FN − wyniki fałszywie ujemne (ang. false negatives)
FP − wyniki fałszywie dodatnie (ang. false positives)
TN − wyniki prawdziwie ujemne (ang. true negatives)
C.2 Histogramy orientacji — konfiguracja nr 1
Obszar zainteresowań — wybrane ROI. Histogramy orientacji — gradienty wprzestrzeni skali.
162
C.2. HISTOGRAMY ORIENTACJI — KONFIGURACJA NR 1
Tabela C.4: Konfiguracja 1, klasyfikator kNN
AU0 AU12R AU12L AU12 AU25+26
Spec. 90.78% 97.17% 96.05% 94.88% 97.25%Sens. 75.00% 90.91% 76.19% 92.31% 96.15%PPV 87.00% 79.37% 79.01% 72.29% 86.21%NPV 81.53% 98.89% 95.38% 98.84% 99.30%
Rysunek C.1: Konfiguracja 1, klasyfikator kNN
Tabela C.5: Konfiguracja 1, klasyfikator QDA
AU0 AU12R AU12L AU12 AU25+26
Spec. 99.19% 94.71% 94.12% 94.51% 96.59%Sens. 74.16% 92.68% 98.18% 76.62% 97.30%PPV 99.00% 60.32% 66.67% 71.08% 82.76%NPV 78.03% 99.33% 99.77% 95.82% 99.53%
Rysunek C.2: Konfiguracja 1, klasyfikator QDA
163
DODATEK C. REZULTATY ROZPOZNAWANIA ELEMENTÓW MIMIKI — WYKRESY ITABELE
C.3 Histogramy orientacji — konfiguracja nr 2
Obszar zainteresowań — wybrane ROI. Histogramy orientacji — filtry Gabora.
Tabela C.6: Konfiguracja 2, klasyfikator kNN
AU0 AU12R AU12L AU12 AU25+26
Spec. 91.84% 95.08% 91.63% 93.84% 89.83%Sens. 66.91% 61.19% 71.67% 73.68% 92.86%PPV 90.00% 65.08% 53.09% 67.47% 44.83%NPV 71.66% 94.24% 96.07% 95.36% 99.30%
Rysunek C.3: Konfiguracja 2, klasyfikator kNN
Tabela C.7: Konfiguracja 2, klasyfikator QDA
AU0 AU12R AU12L AU12 AU25+26
Spec. 97.06% 92.40% 94.12% 94.21% 97.16%Sens. 69.93% 96.30% 98.18% 87.69% 82.42%PPV 96.50% 41.27% 66.67% 68.67% 86.21%NPV 73.57% 99.78% 99.77% 98.14% 96.25%
164
C.4. HISTOGRAMY ORIENTACJI — KONFIGURACJA NR 3
Rysunek C.4: Konfiguracja 2, klasyfikator QDA
C.4 Histogramy orientacji — konfiguracja nr 3
Obszar zainteresowań — cała twarz. Histogramy orientacji — gradienty w prze-strzeni skali.
Tabela C.8: Konfiguracja 3, klasyfikator kNN
AU0 AU12R AU12L AU12 AU25+26
Spec. 84.88% 88.02% 90.34% 94.53% 94.87%Sens. 62.89% 40.00% 92.11% 47.69% 76.47%PPV 80.50% 3.17% 43.21% 74.70% 74.71%NPV 69.75% 99.33% 99.31% 84.22% 95.32%
Rysunek C.5: Konfiguracja 3, klasyfikator kNN
165
DODATEK C. REZULTATY ROZPOZNAWANIA ELEMENTÓW MIMIKI — WYKRESY ITABELE
Tabela C.9: Konfiguracja 3, klasyfikator QDA
AU0 AU12R AU12L AU12 AU25+26
Spec. 82.00% 87.91% 87.55% 84.93% 95.44%Sens. 58.71% 100.00% 65.63% 22.37% 49.65%PPV 77.50% 1.59% 25.93% 20.48% 80.46%NPV 65.29% 100.00% 97.46% 86.31% 83.37%
Rysunek C.6: Konfiguracja 3, klasyfikator QDA
C.5 Histogramy orientacji — konfiguracja nr 4
Obszar zainteresowań — cała twarz. Histogramy orientacji — filtry Gabora.
Tabela C.10: Konfiguracja 4, klasyfikator kNN
AU0 AU12R AU12L AU12 AU25+26
Spec. 82.74% 90.17% 89.01% 85.74% 89.95%Sens. 52.37% 44.44% 70.73% 36.36% 56.58%PPV 83.00% 25.40% 35.80% 19.28% 49.43%NPV 51.91% 95.57% 97.23% 93.50% 92.27%
166
C.6. HISTOGRAMY ORIENTACJI — BADANIE WPŁYWU OŚWIETLENIA
Rysunek C.7: Konfiguracja 4, klasyfikator kNN
Tabela C.11: Konfiguracja 4, klasyfikator QDA
AU0 AU12R AU12L AU12 AU25+26
Spec. 75.59% 89.88% 88.07% 84.55% 98.02%Sens. 53.08% 46.67% 82.14% 25.71% 49.69%PPV 69.00% 22.22% 28.40% 10.84% 91.95%NPV 61.15% 96.45% 98.85% 93.97% 81.03%
Rysunek C.8: Konfiguracja 4, klasyfikator QDA
C.6 Histogramy orientacji — badanie wpływu oświetlenia
Histogramy orientacji — ocena wpływu bocznego oświetlenia sztucznego, sekwen-cja 2.
167
DODATEK C. REZULTATY ROZPOZNAWANIA ELEMENTÓW MIMIKI — WYKRESY ITABELE
Tabela C.12: Wpływ oświetlenia, klasyfikator kNN
AU0 AU12R AU12L AU12 AU25+26
Spec. 95.56% 88.75% 84.66% 94.95% 97.83%Sens. 61.27% 100.00% 100.00% 64.52% 77.78%PPV 95.42% 21.28% 0.00% 74.07% 89.09%NPV 62.02% 100.00% 100.00% 92.28% 95.07%
Rysunek C.9: Wpływ oświetlenia, klasyfikator kNN
C.7 Histogramy orientacji — badanie wpływu skali
Histogramy orientacji — ocena wpływu zmian skali (odsunięcie głowy od kame-ry), sekwencja 3.
Tabela C.13: Wpływ skali, klasyfikator kNN
AU0 AU12R AU12L AU12 AU25+26
Spec. 95.06% 84.77% 94.79% 95.56% 96.07%Sens. 68.35% 44.44% 100.00% 56.94% 100.00%PPV 93.10% 14.81% 68.09% 78.85% 78.43%NPV 75.49% 96.24% 100.00% 88.43% 100.00%
168
C.8. HISTOGRAMY ORIENTACJI — BADANIE WPŁYWU SKALI I ROTACJI
Rysunek C.10: Wpływ skali, klasyfikator kNN
C.8 Histogramy orientacji — badanie wpływu skali i ro-tacji
Histogramy orientacji — ocena wpływu zmian skali i rotacji (odsunięcie głowypołączone z jej przechyleniem), sekwencja 4.
Tabela C.14: Wpływ skali i rotacji, klasyfikator kNN
AU0 AU12R AU12L AU12 AU25+26
Spec. 61.03% 83.17% 84.83% 81.67% 87.34%Sens. 24.24% 35.00% 100.00% 14.07% 100.00%PPV 6.61% 12.07% 0.00% 77.08% 14.89%NPV 87.62% 95.09% 100.00% 17.82% 100.00%
Rysunek C.11: Wpływ skali i rotacji, klasyfikator kNN
169
DODATEK C. REZULTATY ROZPOZNAWANIA ELEMENTÓW MIMIKI — WYKRESY ITABELE
C.9 Statystyczne modele kształtu — test 1
Sprawdzenie skuteczności rozróżniania jednostki AU0 od AU1+2 dla danych jed-nej osoby (test1).
Tabela C.15: Rozpoznawanie kształtów — test 1, klasyfikator kNN
AU0 AU1+2
Spec. 97.30% 97.14%Sens. 97.14% 97.30%PPV 98.55% 94.74%NPV 94.74% 98.55%
Rysunek C.12: Rozpoznawanie kształtów — test 1, klasyfikator kNN
Tabela C.16: Rozpoznawanie kształtów — test 1, klasyfikator LDA
AU0 AU1+2
Spec. 100.00% 100.00%Sens. 100.00% 100.00%PPV 100.00% 100.00%NPV 100.00% 100.00%
170
C.10. STATYSTYCZNE MODELE KSZTAŁTU — TEST 2
Rysunek C.13: Rozpoznawanie kształtów — test 1, klasyfikator LDA
C.10 Statystyczne modele kształtu — test 2
Sprawdzenie skuteczności rozróżniania jednostki AU0 od AU1+2 dla danych kilkuosób (test2).
Tabela C.17: Rozpoznawanie kształtów — test 2, klasyfikator kNN
AU0 AU1+2
Spec. 85.07% 97.92%Sens. 97.92% 85.07%PPV 90.38% 96.61%NPV 96.61% 90.38%
Rysunek C.14: Rozpoznawanie kształtów — test 2, klasyfikator kNN
171
DODATEK C. REZULTATY ROZPOZNAWANIA ELEMENTÓW MIMIKI — WYKRESY ITABELE
Tabela C.18: Rozpoznawanie kształtów — test 2, klasyfikator LDA
AU0 AU1+2
Spec. 86.57% 98.96%Sens. 98.96% 86.57%PPV 91.35% 98.31%NPV 98.31% 91.35%
Rysunek C.15: Rozpoznawanie kształtów — test 2, klasyfikator LDA
C.11 Statystyczne modele kształtu — test 3
Sprawdzenie skuteczności rozróżniania jednostek AU0, AU1+2 oraz AU4 dla da-nych jednej osoby (test3).
Tabela C.19: Rozpoznawanie kształtów — test 3, klasyfikator kNN
AU0 AU1+2 AU4
Spec. 84.21% 98.80% 95.19%Sens. 92.31% 94.87% 55.56%PPV 86.96% 97.37% 66.67%NPV 90.57% 97.62% 92.52%
172
C.12. STATYSTYCZNE MODELE KSZTAŁTU — TEST 4
Rysunek C.16: Rozpoznawanie kształtów — test 3, klasyfikator kNN
Tabela C.20: Rozpoznawanie kształtów — test 3, klasyfikator LDA
AU0 AU1+2 AU4
Spec. 70.59% 100.00% 94.57%Sens. 90.74% 100.00% 33.33%PPV 71.01% 100.00% 66.67%NPV 90.57% 100.00% 81.31%
Rysunek C.17: Rozpoznawanie kształtów — test 3, klasyfikator LDA
C.12 Statystyczne modele kształtu — test 4
Sprawdzenie skuteczności rozróżniania jednostek AU0, AU1+2 oraz AU4 dla da-nych wielu osób (test4).
173
DODATEK C. REZULTATY ROZPOZNAWANIA ELEMENTÓW MIMIKI — WYKRESY ITABELE
Tabela C.21: Rozpoznawanie kształtów — test 4, klasyfikator kNN
AU0 AU1+2 AU4
Spec. 92.31% 96.97% 95.73%Sens. 89.91% 100.00% 73.91%PPV 94.23% 93.22% 70.83%NPV 86.75% 100.00% 96.32%
Rysunek C.18: Rozpoznawanie kształtów — test 4, klasyfikator kNN
Tabela C.22: Rozpoznawanie kształtów — test 4, klasyfikator LDA
AU0 AU1+2 AU4
Spec. 64.23% 99.17% 97.69%Sens. 93.75% 87.88% 36.84%PPV 57.69% 98.31% 87.50%NPV 95.18% 93.75% 77.91%
Rysunek C.19: Rozpoznawanie kształtów — test 4, klasyfikator LDA
174
Dodatek D
Rezultaty segmentacji twarzy
W dodatku przedstawiono rezultaty badań, pozwalające na dobór przestrzenikolorów oraz metody segmentacji twarzy. Badania przeprowadzona na kilku se-kwencjach video — opis sekwencji znajduje się w rozdziale (5.2.2). Porównanonastępujące przestrzenie kolorów:
• znormalizowaną RGB (ozn. r-g),
• HSV (ang. hue-saturation-value) — wybrana składowa barwa (Hue),
• YCbCr — wybrane składowe Cb-Cr.
Spośród metod segmentacji wybrano do porównania następujące:
• bezpośrednie określenie zestawu reguł,
• znormalizowane tablice przekodowań (ang. LUT – look-up-table)
• eliptyczny model gaussa barwy skóry.
Opis dla rysunków:
• (a) zestaw reguł (progi), znormalizowana przestrzeń RGB,
• (b) zestaw reguł (progi), przestrzeń Cb-Cr,
• (c) zestaw reguł (progi), przestrzeń barwy (Hue),
• (d) tablice LUT, znormalizowana przestrzeń RGB,
175
DODATEK D. REZULTATY SEGMENTACJI TWARZY
• (e) tablice LUT, przestrzeń Cb-Cr,
• (f) tablice LUT, przestrzeń Hue,
• (g) metoda parametryczna (eliptyczny model gaussa), znormalizowana prze-strzeń RGB,
• (h) metoda parametryczna (eliptyczny model gaussa), przestrzeń Cb-Cr,
• (i) metoda parametryczna (eliptyczny model gaussa), przestrzeń Hue
Tabela D.1: Wartości funkcji celu dla wybranych metod i przestrzeni barw —sekwencja nr 1
r-g Cb-Cr Hue
Metoda regułowa -0.86395 -0.87263 -0.81603Tablice LUT -0.85251 -0.86907 -0.84857Model gaussowski -0.73357 -0.78978 -0.83666
Tabela D.2: Wartości funkcji celu dla wybranych metod i przestrzeni barw —sekwencja nr 2
r-g Cb-Cr Hue
Metoda regułowa -0.7293 -0.70078 -0.3179Tablice LUT -0.55755 -0.32397 -0.32244Model gaussowski -0.58985 -0.56684 -0.33678
Tabela D.3: Wartości funkcji celu dla wybranych metod i przestrzeni barw —sekwencja nr 3
r-g Cb-Cr Hue
Metoda regułowa -0.70611 -0.51838 -0.56166Tablice LUT -0.73582 -0.6128 -0.60464Model gaussowski -0.3341 -0.25709 -0.63027
176
Tabela D.4: Wartości funkcji celu dla wybranych metod i przestrzeni barw —sekwencja nr 4
r-g Cb-Cr Hue
Metoda regułowa -0.34594 -0.2755 -0.41012Tablice LUT -0.48391 -0.30291 -0.44862Model gaussowski -0.17463 -0.27584 -0.50289
Rysunek D.1: Rezultaty segmentacji twarzy dla sekwencji nr 1.
177
DODATEK D. REZULTATY SEGMENTACJI TWARZY
Rysunek D.2: Rezultaty segmentacji twarzy dla sekwencji nr 2.
178
DODATEK D. REZULTATY SEGMENTACJI TWARZY
Rysunek D.4: Rezultaty segmentacji twarzy dla sekwencji nr 4.
180
Dodatek E
Rezultaty detekcji i lokalizacjitwarzy
Parametry jakości detekcji twarzy (E.1)—(E.4).
PPV =TP
TP + FP· 100% (E.1)
NPV =TN
FN + TN· 100% (E.2)
Sens =TP
TP + FN· 100% (E.3)
Spec =TN
FP + TN· 100% (E.4)
gdzie:
PPV − wartość predykcyjna dodatnia klasyfikacji (ang. positive predic-tive value)
NPV − wartość predykcyjna ujemna klasyfikacji (ang. negative predictivevalue)
Sens− czułość (ang. sensitivity)
Spec− swoistość (ang. specificity)
TP − wyniki prawdziwie dodatnie (ang. true positives)
FN − wyniki fałszywie ujemne (ang. false negatives)
FP − wyniki fałszywie dodatnie (ang. false positives)
TN − wyniki prawdziwie ujemne (ang. true negatives)
181
DODATEK E. REZULTATY DETEKCJI I LOKALIZACJI TWARZY
Tabela E.1: Liczebność poszczególnych grup obrazów dla sekwencji 1-3
Sekwencja 1 Sekwencja 2 Sekwencja 3
Ilość obrazów ca-łej sekwencji 532 424 170
Ilość obrazów dlapołożenia frontal-nego
278 226 105
Tabela E.2: Detekcja i lokalizacja twarzy — rezultaty dla położenia frontalnego
Sekwencja 1 Sekwencja 2 Sekwencja 3
Spec. 99.35% 77.98% 65.51%Sens. 73.09% 73.83% 75.89%PPV 99.64% 83.63% 80.95%NPV 59.84% 66.16% 58.46%
Rysunek E.1: Rezultaty detekcji (dla wybranego obrazu) potencjalnych obiektów:(a) oczu, (b) ust
182
Dodatek F
Rezultaty estymacji położeniagłowy — wykresy i tabele
F.1 Informacje ogólne
Parametry oceny jakości rozpoznawania położenia głowy (F.1)—(F.4).
PPV =TP
TP + FP· 100% (F.1)
NPV =TN
FN + TN· 100% (F.2)
Sens =TP
TP + FN· 100% (F.3)
Spec =TN
FP + TN· 100% (F.4)
gdzie:
PPV − wartość predykcyjna dodatnia klasyfikacji (ang. positive predic-tive value)
NPV − wartość predykcyjna ujemna klasyfikacji (ang. negative predictivevalue)
Sens− czułość (ang. sensitivity)
Spec− swoistość (ang. specificity)
TP − wyniki prawdziwie dodatnie (ang. true positives)
FN − wyniki fałszywie ujemne (ang. false negatives)
FP − wyniki fałszywie dodatnie (ang. false positives)
TN − wyniki prawdziwie ujemne (ang. true negatives)
183
DODATEK F. REZULTATY ESTYMACJI POŁOŻENIA GŁOWY — WYKRESY ITABELE
Liczebność obrazów sekwencji poszczególnych ruchów głowy dla poszczegól-nych sekwencji (opis sekwencji w rozdziale 8.2.2) jest następująca:
Tabela F.1: Liczebność obrazów sekwencji
Sekw.wzorcowa
Sekw.nr 1
Sekw.nr 2
Sekw.nr 3
Pozycja neutralna 351 274 617 268Głowa w prawo 39 26 70 31Głowa w lewo 37 27 58 28Głowa w górę 17 22 57 21Głowa w dół 22 23 37 19Przechylenie w prawo 27 25 40 19Przechylenie w lewo 37 25 51 23
F.2 Sekwencja nr 1 — rezultaty
Rezultaty estymacji położenia głowy dla sekwencji testowej nr 1
Tabela F.2: Rezultaty dla sekwencji nr 1
Spec. Sens. PPV. NPV
Pozycja neutralna 98.46% 93.15% 99.27% 86.49%Głowa w prawo 100.00% 92.86% 100.00% 99.49%Głowa w lewo 100.00% 100.00% 100.00% 100.00%Głowa w górę 99.50% 100.00% 90.91% 100.00%Głowa w dół 99.50% 100.00% 91.30% 100.00%Przechylenie w prawo 98.51% 100.00% 76.00% 100.00%Przechylenie w lewo 97.54% 100.00% 60.00% 100.00%
184
F.3. SEKWENCJA NR 2 — REZULTATY
Spec. Sens. PPV NPV0
0.2
0.4
0.6
0.8
1
Pozycja neutralnaGlowa w prawoGlowa w lewoGlowa w goreGlowa w dolPrzechylenie w prawoPrzechylenie w lewo
Rysunek F.1: Rezultaty dla sekwencji nr 1
F.3 Sekwencja nr 2 — rezultaty
Rezultaty estymacji położenia głowy dla sekwencji testowej nr 2
Tabela F.3: Rezultaty dla sekwencji nr 2
Spec. Sens. PPV. NPV
Pozycja neutralna 98.40% 90.15% 99.35% 78.59%Głowa w prawo 99.65% 100.00% 95.71% 100.00%Głowa w lewo 100.00% 93.55% 100.00% 99.54%Głowa w górę 96.36% 100.00% 42.11% 100.00%Głowa w dół 99.00% 100.00% 75.68% 100.00%Przechylenie w prawo 98.45% 100.00% 65.00% 100.00%Przechylenie w lewo 99.10% 100.00% 84.31% 100.00%
185
DODATEK F. REZULTATY ESTYMACJI POŁOŻENIA GŁOWY — WYKRESY ITABELE
Spec. Sens. PPV NPV0
0.2
0.4
0.6
0.8
1
Pozycja neutralnaGlowa w prawoGlowa w lewoGlowa w goreGlowa w dolPrzechylenie w prawoPrzechylenie w lewo
Rysunek F.2: Rezultaty dla sekwencji nr 2
F.4 Sekwencja nr 3 — rezultaty
Rezultaty estymacji położenia głowy dla sekwencji testowej nr 3
Tabela F.4: Rezultaty dla sekwencji nr 3
Spec. Sens. PPV. NPV
Pozycja neutralna 96.35% 96.69% 98.13% 93.62%Głowa w prawo 98.95% 100.00% 87.10% 100.00%Głowa w lewo 100.00% 93.33% 100.00% 99.48%Głowa w górę 100.00% 87.50% 100.00% 99.23%Głowa w dół 99.24% 100.00% 84.21% 100.00%Przechylenie w prawo 99.49% 100.00% 89.47% 100.00%Przechylenie w lewo 100.00% 100.00% 100.00% 100.00%
186
F.4. SEKWENCJA NR 3 — REZULTATY
Spec. Sens. PPV NPV0
0.2
0.4
0.6
0.8
1
Pozycja neutralnaGlowa w prawoGlowa w lewoGlowa w goreGlowa w dolPrzechylenie w prawoPrzechylenie w lewo
Rysunek F.3: Rezultaty dla sekwencji nr 3
187
Dodatek G
Rezultaty detekcji mrugnięć
G.1 Informacje ogólne
Parametry oceny skuteczności detekcji mrugnięć (G.1)—(G.4).
PPV =TP
TP + FP· 100% (G.1)
NPV =TN
FN + TN· 100% (G.2)
Sens =TP
TP + FN· 100% (G.3)
Spec =TN
FP + TN· 100% (G.4)
gdzie:
PPV − wartość predykcyjna dodatnia klasyfikacji (ang. positive predic-tive value)
NPV − wartość predykcyjna ujemna klasyfikacji (ang. negative predictivevalue)
Sens− czułość (ang. sensitivity)
Spec− swoistość (ang. specificity)
TP − wyniki prawdziwie dodatnie (ang. true positives)
FN − wyniki fałszywie ujemne (ang. false negatives)
FP − wyniki fałszywie dodatnie (ang. false positives)
TN − wyniki prawdziwie ujemne (ang. true negatives)
Testy wykonano dla następujących sekwencji, z których wybrano obrazy dlapołożenia twarzy w pozycji w przybliżeniu frontalnej:
189
DODATEK G. REZULTATY DETEKCJI MRUGNIĘĆ
• sekwencja 1 — kamera EVI, jednolite tło, optymalne warunki oświetlenia(natężenie oświetlenia około 320lux),(rys. G.1a)
• sekwencja 2 — kamera EVI, jednolite tło, słabe oświetlenie (natężenieoświetlenia około 40lux), (rys. G.1b),
• sekwencja 3 — kamera EVI, jednolite tło, optymalne warunki oświetlenialekko różniąca się od sekwencji nr 1 (natężenie oświetlenia około 320lux),(rys. G.1c),
• sekwencja 4 — kamera EVI, jednolite tło, optymalne warunki oświetlenia(natężenie oświetlenia około 320lux), inna mimika twarzy (rys. G.1d),
Rysunek G.1: Przykładowe obrazy z sekwencji video: (a) sekwencja nr 1, (b)sekwencja nr 2, (c) sekwencja nr 3, (d) sekwencja nr 4
Liczebność wybranych obrazów z poszczególnych sekwencji jest następująca:
Tabela G.1: Liczebność obrazów sekwencji
Sekwencjanr 1
Sekwencjanr 2
Sekwencjanr 3
Sekwencjanr 4
Pozycja neutralna 125 105 83 93Gest mrugania 62 50 50 46
190
G.2. SKUTECZNOŚĆ DETEKCJI
G.2 Skuteczność detekcji
Rezultaty detekcji mrugnięć dla poszczególnych sekwencji.
Tabela G.2: Rezultaty detekcji mrugnięć
Sekwencjanr 1
Sekwencjanr 2
Sekwencjanr 3
Sekwencjanr 4
TP 25 14 25 30FP 1 0 0 10TN 62 55 33 37FN 37 36 25 16Spec. 98.41% 100% 100% 78.72%Sens. 40.32% 28.00% 50.00% 65.21%PPV 96.15% 100% 100% 75.00%NPV 62.62% 60.44% 56.90% 69.81%
0 20 40 60 80 100 120 140
nr obrazu
0 20 40 60 80 100 120 140
nr obrazu
Rysunek G.2: Ręczna adnotacja obrazów gestu mrugania (górny wykres) orazrezultaty detekcji mrugnięcia (dolny wykres) dla sekwencji nr 1
191
DODATEK G. REZULTATY DETEKCJI MRUGNIĘĆ
0 20 40 60 80 100 120
nr obrazu
0 20 40 60 80 100 120
nr obrazu
Rysunek G.3: Ręczna adnotacja obrazów gestu mrugania (górny wykres) orazrezultaty detekcji mrugnięcia (dolny wykres) dla sekwencji nr 2
0 10 20 30 40 50 60 70 80 90
nr obrazu
0 10 20 30 40 50 60 70 80 90
nr obrazu
Rysunek G.4: Ręczna adnotacja obrazów gestu mrugania (górny wykres) orazrezultaty detekcji mrugnięcia (dolny wykres) dla sekwencji nr 3
192
G.3. ŚREDNI BŁĄD LOKALIZACJI OCZU
0 10 20 30 40 50 60 70 80 90 100
nr obrazu
0 10 20 30 40 50 60 70 80 90 100
nr obrazu
Rysunek G.5: Ręczna adnotacja obrazów gestu mrugania (górny wykres) orazrezultaty detekcji mrugnięcia (dolny wykres) dla sekwencji nr 4
G.3 Średni błąd lokalizacji oczu
Średni błąd lokalizacji oczu dla poszczególnych sekwencji.
Tabela G.3: Średni błąd (w pikselach) lokalizacji oczu
Sekwencjanr 1
Sekwencjanr 2
Sekwencjanr 3
Sekwencjanr 4
εeye 8.143 6.331 6.9525 5.6961
193
Dodatek H
Rezultaty innych algorytmów
Dodatek zawiera rezultaty działania następujących algorytmów:
• Lokalizacja nozdrzy.
H.1 Lokalizacja nozdrzy
Błąd lokalizacji (w pikselach) został wyznaczony dla sekwencji video opisanych wdodatku G.1. Wartość błędu poniżej zera oznacza, że dla danego obrazu nozdrzanie zostały poprawnie znalezione.
0 20 40 60 80 100 120 1400
2
4
i
εi n
ostr
il
0 20 40 60 80 100 120 1400
1
2
3
i
εi n
ostril
Rysunek H.1: Błąd lokalizacji nozdrzy dla sekwencji nr 1: nozdrze prawe (górnywykres), nozdrze lewe (dolny wykres)
195
DODATEK H. REZULTATY INNYCH ALGORYTMÓW
0 20 40 60 80 100 120−1
0
1
2
i
εi n
ostr
il
0 20 40 60 80 100 120−2
0
2
4
i
εi n
ostr
il
Rysunek H.2: Błąd lokalizacji nozdrzy dla sekwencji nr 2: nozdrze prawe (górnywykres), nozdrze lewe (dolny wykres)
0 10 20 30 40 50 60 70 80 90−1
0
1
2
i
εi n
ostr
il
0 10 20 30 40 50 60 70 80 90−2
0
2
4
i
εi n
ostr
il
Rysunek H.3: Błąd lokalizacji nozdrzy dla sekwencji nr 3: nozdrze prawe (górnywykres), nozdrze lewe (dolny wykres)
196
H.1. LOKALIZACJA NOZDRZY
0 10 20 30 40 50 60 70 80 90 100−20
0
20
40
i
εi n
ostr
il
0 10 20 30 40 50 60 70 80 90 100−20
0
20
40
i
εi n
ostr
il
Rysunek H.4: Błąd lokalizacji nozdrzy dla sekwencji nr 4: nozdrze prawe (górnywykres), nozdrze lewe (dolny wykres)
197
Recommended