Download pdf - Face Detection using Multi-view HOGs

IntroduzioneDataset

ImplementazioneRisultati

Conclusioni

Face Detection con Multi-View HOG

Andrea Barillari, Federico D’Amato

Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 1/31

IntroduzioneDataset


Conclusioni

Face DetectionTecniche usate

Face DetectionI Insieme di tecnologie atte alla localizzazione di volti umani in

immagini digitali.I Tale problema puo essere visto come uno specifico caso di

object-class detection.


IntroduzioneDataset


Conclusioni


I Raccolta delle feature ⇒ Histogram of Oriented Gradient (HOG)

I Classificatore ⇒ Structural SVM

Immagine di input

Calcolo del Gradiente

Costruzione dei

descrittori

Raccolta degli HOG

Structural SVM

PredizioneFaccia/Non-faccia

Figura: Processo di classificazione


IntroduzioneDataset


Conclusioni


Libreria”DLIB is a general purpose cross-platform C++ library designed usingcontract programming and modern C++ techniques.”

Figura: Struttura di DLIB


IntroduzioneDataset


Conclusioni


I DLIB ⇒ Face Detection

I Obiettivo : Migliorare DLIB addestrandolo su piu pose

Figura: Yaw, Pitch e Roll di una faccia


IntroduzioneDataset


Conclusioni

DatasetsAFLWAFWGLAIVEPose

Training

I Annotated Facial Landmarks in the Wild (AFLW)

Testing

I Annotated Faces in the Wild (AFW)

I GLAIVE


IntroduzioneDataset


Conclusioni


AFLW: 25,993 immagini”The motivation for the AFLW database is the need for a large-scale,multi-view, real-world face database with annotated facial features.”

I facial feature localization

I multi-view face detection

I coarse head pose estimation.


IntroduzioneDataset


Conclusioni


Annotazioni:

I Bounding Box quadrati dei volti

I 21 Landmark per volto

I Posa (Yaw, Pitch e Roll)

I Altro (Sesso, Occhiali, Occluso)


IntroduzioneDataset


Conclusioni


AFW: 205 immaginiLargamente usato per testing di Face DetectorAnnotazioni:

I Bounding Box rettangolari dei volti

I Posa (Yaw, Pitch e Roll)

I 6 Landmark


IntroduzioneDataset


Conclusioni


GLAIVE: 9546 immaginiFornito dal MICC. Pensato per task di Face RecognitionAnnotazioni:

I Bounding Box rettangolari dei volti

I 3 Landmark


IntroduzioneDataset


Conclusioni


Problemi:

I Annotazioni mancanti

I Singolo volto annotato per immagine (Face Recognition)

I Variabilita nelle dimensioni delle immagini


IntroduzioneDataset


Conclusioni


Il detector fornito da DLIB e addestrato su LFW e utilizza 5 pose:

I Frontale

I Left-Looking

I Right-Looking

I Left-Rotated

I Right-Rotated


IntroduzioneDataset


Conclusioni


I detector da noi implementati usano un numero variabile di pose, finoad un massimo di 11

Figura: Pose utilizzate


IntroduzioneDataset


Conclusioni

HOGStructural SVMTrainingClassificazione

L’ Histogram of Oriented Gradients e un descrittore utilizzato in imageprocessing.Idea: la forma e l’aspetto di un oggetto puo essere ben descritto dalladistribuzione del gradiente locale.

Figura: HOG ottenuto da dataset di volti frontali


IntroduzioneDataset


Conclusioni


HOG utilizzato da DLIB ⇒ F-HOG:

I Pixel Level Feature-Maps

I Aggregazione Spaziale

I Normalizzazione


IntroduzioneDataset


Conclusioni


SVM: Genera una predizione binaria {0, 1}Structural SVM: Genera una predizione strutturata, nel nostro caso unaquadrupla y = {t, l , b, r}, che rappresenta le coordinate del bounding boxdel volto.

Il problema che risolve DLIB:

min 12‖w‖

2 + Cξ

tale che

1nw ·

n∑i=1

∑j∈Vi

[Ψ(xi , yij)−Ψ(xi , y ij)] ≥ 1n

∑j∈Vi

∆(yij , y ij)− ξ


IntroduzioneDataset


Conclusioni


Parametri:

I Grandezza della finestra di scorrimento

I Numero di celle all’interno di un blocco HOG

I Posa

I Livelli della piramide


IntroduzioneDataset


Conclusioni


Valutazione detection: Intersection over Union (IoU) tra i box rilevati equelli di groundtruth

IoU =area(Bp∩Bgt)area(Bp∪Bgt)

I Se IoU < threshold ⇒ false positive

I Se IoU ≥ threshold ⇒ true positive


IntroduzioneDataset


Conclusioni


Non-Max Suppression:

I Intra-Detector

I Inter-Detector

Criterio utilizzato: IoU


IntroduzioneDataset


Conclusioni

CriteriAFWGLAIVE

Criteri di valutazione:

I Precision

I Recall

I Velocita di detection


IntroduzioneDataset


Conclusioni

CriteriAFWGLAIVE

Dimensione celle

Figura: Precision-Recall su AFW al variare della dimensione delle celle usate nelcalcolo degli HOG relativo al detector addestrato su 7 pose


IntroduzioneDataset


Conclusioni

CriteriAFWGLAIVE

Dimensione finestra scorrimento

Figura: Precision-Recall su AFW al variare della grandezza della finestra discorrimento relativo al detector addestrato su 7 pose


IntroduzioneDataset


Conclusioni

CriteriAFWGLAIVE

Miglior configurazione dei parametri su AFW:

I Dimensione celle: 8 ∗ 8 pixel

I Dimensione finestre: 80 ∗ 80 pixel


IntroduzioneDataset


Conclusioni

CriteriAFWGLAIVE

Numero di pose

Figura: Precision-Recall su AFW al variare del numero di pose


IntroduzioneDataset


Conclusioni

CriteriAFWGLAIVE

Confronto con DPM

Figura: Confronto di detections di DPM (blu) e del detector addestrato con 11pose (rosso)


IntroduzioneDataset


Conclusioni

CriteriAFWGLAIVE

DEMO


IntroduzioneDataset


Conclusioni

CriteriAFWGLAIVE

Velocita

Figura: Velocita dei vari detector


IntroduzioneDataset


Conclusioni

CriteriAFWGLAIVE

Dimensione celle

Figura: Precision-Recall su GLAIVE al variare della dimensione delle celle usatenel calcolo degli HOG


IntroduzioneDataset


Conclusioni

CriteriAFWGLAIVE

Dimensione finestra scorrimento

Figura: Precision-Recall su GLAIVE al variare della dimensione delle celle usatenel calcolo degli HOG


IntroduzioneDataset


Conclusioni

CriteriAFWGLAIVE

Bassa Precision: molte detection legittime sono considerate falsi positivia causa della mancanza di annotazioni di groundtruth⇒ Valutazione della Recall

Numero Pose Recall

k=8,w=60 3 0.48k=8,w=80 3 0.51k=8,w=100 3 0.46k=10,w=80 3 0.49k=12,w=80 3 0.47

k=8,w=60 5 0.61k=8,w=80 5 0.61k=8,w=100 5 0.59k=10,w=80 5 0.63k=12,w=80 5 0.59

k=8,w=60 7 0.65k=8,w=80 7 0.66k=8,w=100 7 0.64k=10,w=80 7 0.68k=12,w=80 7 0.65

Tabella: Recall su GLAIVE al variare delle dimensioni di cella, finestra e delnumero di pose


IntroduzioneDataset


Conclusioni

Conclusioni:

I Aumento pose ⇒ aumento efficacia, diminuzione efficienza

I Migliore efficacia rispetto al detector pre-addestrato di DLIB

I Migliore efficienza rispetto a DPM