IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
Face Detection con Multi-View HOG
Andrea Barillari, Federico D’Amato
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 1/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
Face DetectionTecniche usate
Face DetectionI Insieme di tecnologie atte alla localizzazione di volti umani in
immagini digitali.I Tale problema puo essere visto come uno specifico caso di
object-class detection.
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 2/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
Face DetectionTecniche usate
I Raccolta delle feature ⇒ Histogram of Oriented Gradient (HOG)
I Classificatore ⇒ Structural SVM
Immagine di input
Calcolo del Gradiente
Costruzione dei
descrittori
Raccolta degli HOG
Structural SVM
PredizioneFaccia/Non-faccia
Figura: Processo di classificazione
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 3/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
Face DetectionTecniche usate
Libreria”DLIB is a general purpose cross-platform C++ library designed usingcontract programming and modern C++ techniques.”
Figura: Struttura di DLIB
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 4/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
Face DetectionTecniche usate
I DLIB ⇒ Face Detection
I Obiettivo : Migliorare DLIB addestrandolo su piu pose
Figura: Yaw, Pitch e Roll di una faccia
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 5/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
DatasetsAFLWAFWGLAIVEPose
Training
I Annotated Facial Landmarks in the Wild (AFLW)
Testing
I Annotated Faces in the Wild (AFW)
I GLAIVE
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 6/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
DatasetsAFLWAFWGLAIVEPose
AFLW: 25,993 immagini”The motivation for the AFLW database is the need for a large-scale,multi-view, real-world face database with annotated facial features.”
I facial feature localization
I multi-view face detection
I coarse head pose estimation.
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 7/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
DatasetsAFLWAFWGLAIVEPose
Annotazioni:
I Bounding Box quadrati dei volti
I 21 Landmark per volto
I Posa (Yaw, Pitch e Roll)
I Altro (Sesso, Occhiali, Occluso)
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 8/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
DatasetsAFLWAFWGLAIVEPose
AFW: 205 immaginiLargamente usato per testing di Face DetectorAnnotazioni:
I Bounding Box rettangolari dei volti
I Posa (Yaw, Pitch e Roll)
I 6 Landmark
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 9/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
DatasetsAFLWAFWGLAIVEPose
GLAIVE: 9546 immaginiFornito dal MICC. Pensato per task di Face RecognitionAnnotazioni:
I Bounding Box rettangolari dei volti
I 3 Landmark
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 10/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
DatasetsAFLWAFWGLAIVEPose
Problemi:
I Annotazioni mancanti
I Singolo volto annotato per immagine (Face Recognition)
I Variabilita nelle dimensioni delle immagini
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 11/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
DatasetsAFLWAFWGLAIVEPose
Il detector fornito da DLIB e addestrato su LFW e utilizza 5 pose:
I Frontale
I Left-Looking
I Right-Looking
I Left-Rotated
I Right-Rotated
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 12/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
DatasetsAFLWAFWGLAIVEPose
I detector da noi implementati usano un numero variabile di pose, finoad un massimo di 11
Figura: Pose utilizzate
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 13/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
HOGStructural SVMTrainingClassificazione
L’ Histogram of Oriented Gradients e un descrittore utilizzato in imageprocessing.Idea: la forma e l’aspetto di un oggetto puo essere ben descritto dalladistribuzione del gradiente locale.
Figura: HOG ottenuto da dataset di volti frontali
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 14/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
HOGStructural SVMTrainingClassificazione
HOG utilizzato da DLIB ⇒ F-HOG:
I Pixel Level Feature-Maps
I Aggregazione Spaziale
I Normalizzazione
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 15/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
HOGStructural SVMTrainingClassificazione
SVM: Genera una predizione binaria {0, 1}Structural SVM: Genera una predizione strutturata, nel nostro caso unaquadrupla y = {t, l , b, r}, che rappresenta le coordinate del bounding boxdel volto.
Il problema che risolve DLIB:
min 12‖w‖
2 + Cξ
tale che
1nw ·
n∑i=1
∑j∈Vi
[Ψ(xi , yij)−Ψ(xi , y ij)] ≥ 1n
∑j∈Vi
∆(yij , y ij)− ξ
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 16/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
HOGStructural SVMTrainingClassificazione
Parametri:
I Grandezza della finestra di scorrimento
I Numero di celle all’interno di un blocco HOG
I Posa
I Livelli della piramide
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 17/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
HOGStructural SVMTrainingClassificazione
Valutazione detection: Intersection over Union (IoU) tra i box rilevati equelli di groundtruth
IoU =area(Bp∩Bgt)area(Bp∪Bgt)
I Se IoU < threshold ⇒ false positive
I Se IoU ≥ threshold ⇒ true positive
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 18/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
HOGStructural SVMTrainingClassificazione
Non-Max Suppression:
I Intra-Detector
I Inter-Detector
Criterio utilizzato: IoU
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 19/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
CriteriAFWGLAIVE
Criteri di valutazione:
I Precision
I Recall
I Velocita di detection
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 20/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
CriteriAFWGLAIVE
Dimensione celle
Figura: Precision-Recall su AFW al variare della dimensione delle celle usate nelcalcolo degli HOG relativo al detector addestrato su 7 pose
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 21/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
CriteriAFWGLAIVE
Dimensione finestra scorrimento
Figura: Precision-Recall su AFW al variare della grandezza della finestra discorrimento relativo al detector addestrato su 7 pose
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 22/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
CriteriAFWGLAIVE
Miglior configurazione dei parametri su AFW:
I Dimensione celle: 8 ∗ 8 pixel
I Dimensione finestre: 80 ∗ 80 pixel
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 23/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
CriteriAFWGLAIVE
Numero di pose
Figura: Precision-Recall su AFW al variare del numero di pose
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 24/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
CriteriAFWGLAIVE
Confronto con DPM
Figura: Confronto di detections di DPM (blu) e del detector addestrato con 11pose (rosso)
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 25/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
CriteriAFWGLAIVE
DEMO
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 26/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
CriteriAFWGLAIVE
Velocita
Figura: Velocita dei vari detector
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 27/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
CriteriAFWGLAIVE
Dimensione celle
Figura: Precision-Recall su GLAIVE al variare della dimensione delle celle usatenel calcolo degli HOG
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 28/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
CriteriAFWGLAIVE
Dimensione finestra scorrimento
Figura: Precision-Recall su GLAIVE al variare della dimensione delle celle usatenel calcolo degli HOG
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 29/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
CriteriAFWGLAIVE
Bassa Precision: molte detection legittime sono considerate falsi positivia causa della mancanza di annotazioni di groundtruth⇒ Valutazione della Recall
Numero Pose Recall
k=8,w=60 3 0.48k=8,w=80 3 0.51k=8,w=100 3 0.46k=10,w=80 3 0.49k=12,w=80 3 0.47
k=8,w=60 5 0.61k=8,w=80 5 0.61k=8,w=100 5 0.59k=10,w=80 5 0.63k=12,w=80 5 0.59
k=8,w=60 7 0.65k=8,w=80 7 0.66k=8,w=100 7 0.64k=10,w=80 7 0.68k=12,w=80 7 0.65
Tabella: Recall su GLAIVE al variare delle dimensioni di cella, finestra e delnumero di pose
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 30/31
IntroduzioneDataset
ImplementazioneRisultati
Conclusioni
Conclusioni:
I Aumento pose ⇒ aumento efficacia, diminuzione efficienza
I Migliore efficacia rispetto al detector pre-addestrato di DLIB
I Migliore efficienza rispetto a DPM
Andrea Barillari, Federico D’Amato Face Detection con Multi-View HOG 31/31