Upload
truonghanh
View
215
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DA PARAÍBA
CENTRO DE CIÊNCIAS EXATAS E DA NATUREZA
DEPARTAMENTO DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA
FABRIZIA MEDEIROS DE SOUSA MATOS
RECONHECIMENTO DE FACES UTILIZANDO A TRANSFORMADA COSSENO DISCRETA
João Pessoa, 2008
FABRIZIA MEDEIROS DE SOUSA MATOS
RECONHECIMENTO DE FACES UTILIZANDO A TRANSFORMADA COSSENO DISCRETA
Dissertação de mestrado apresentada ao Programa de Pós-Graduação em Informática, da Universidade Federal da Paraíba, como parte dos requisitos para a obtenção do título de Mestre em Informática. Área de concentração: Sistemas Digitais (Processamento Digital de Imagens).
ORIENTADOR: Leonardo Vidal Batista
João Pessoa, 2008
Ficha catalográfica.
M433r Matos, Fabrízia Medeiros de Sousa.
Reconhecimento de faces utilizando a transformada cosseno discreta /
Fabrízia Medeiros de Sousa Matos. – João Pessoa, 2008.
94p.:il.
Orientador: Leonardo Vidal Batista.
Dissertação (mestrado) – UFPB/CCEN.
1. Informática. 2. Processamento Digital de Imagens. 3. Reconhecimento
de Faces. 4. Reconhecimento de Padrões. 5. Transformada Cosseno Discreta.
UFPB/BC CDU:004(043)
FABRIZIA MEDEIROS DE SOUSA MATOS
RECONHECIMENTO DE FACES UTILIZANDO A TRANSFORMADA COSSENO DISCRETA
Esta dissertação foi julgada adequada para a obtenção do título de Mestre em Informática e aprovada em sua forma final pelo Orientador e pela Banca Examinadora.
Orientador: ____________________________________
Prof. Dr. Leonardo Vidal Batista, UFPB
Doutor pela UFCG - Campina Grande, Brasil
Banca Examinadora:
Prof. Dr. Gustavo Henrique Matos Bezerra Motta, UFPB.
Doutor pela Universidade de São Paulo (USP) - São Paulo, Brasil.
Prof. Dr. Lucídio dos Anjos Formiga Cabral, UFPB.
Doutor pela Universidade Federal do Rio de Janeiro (UFRJ) - Rio de Janeiro, Brasil.
Profa. Dra. Joseana Macêdo Fechine, UFCG.
Doutora pela Universidade Federal da Paraíba (UFPB) - Campina Grande, Brasil.
Coordenadora do PPGI: _______________________________
Profa. Dra. Valéria Gonçalves Soares
João Pessoa (julho de 2008)
DEDICATÓRIA
Dedico este trabalho ao meu esposo, Marcial Matos,
e aos meus filhos, Marília Matos e Matheus Matos,
pelo amor vivenciado todos os dias.
AGRADECIMENTOS
A DEUS, pela sabedoria, inspiração e saúde concebida durante a realização de todo esse
trabalho.
Às minhas irmãs, pela amizade, incentivo e apoio incondicional.
À minha sobrinha, Vanessa Cabral, pela carinhosa colaboração em vários momentos.
Aos amigos, pelo carinho, disponibilidade e solidariedade.
Aos colegas do CEFET-PB, pelo incentivo e inestimável ajuda por mais de dois anos de
curso.
Ao Professor Leonardo Vidal Batista, pela amizade, atenção, confiança e orientação.
Ao LASID, pelo ambiente e grupos de trabalho.
Ao Programa de Pós-Graduação em Informática da UFPB (PPGI), professores e
funcionários, pela oportunidade de realização desse trabalho.
v
RESUMO
A operação de reconhecimento de faces humanas realizada por computador possui um campo
de aplicação abrangente, representando em especial, inovação e maior confiabilidade
associada a aplicações de segurança. É uma área de pesquisa com forte atuação desde a
década de 1990, com sistemas comercias já disponíveis no mercado.
Por não se tratar de uma comparação básica entre duas imagens, técnicas para
reconhecimento de faces estão continuamente sendo propostas visando garantir maior taxa de
acertos e rapidez de processamento. Métodos baseados em características físicas, métodos
holísticos e métodos 3D são continuamente aprimorados.
Os métodos holísticos têm se destacado na literatura devido a taxas de acerto elevadas e
utilizam, normalmente, transformadas matemáticas, como a Transformada Cosseno Discreta
(DCT), a Transformada Karhumen-Loève (KLT) e a Transformada Wavelet. Experimentos
com uso da DCT, em específico, chegam a registrar taxas de acerto acima de 95% com custo
computacional reduzido.
Nesse trabalho propõem-se métodos de reconhecimento de faces baseados na seleção
de coeficientes da DCT. Os métodos propostos fazem seleção de atributos baseada nos
coeficientes DCT das imagens e realizam o reconhecimento considerando classificação
baseada em distância. Etapas prévias de pré-processamento e normalização das imagens em
relação à iluminação e posição são dispensadas pelos métodos, pois espera-se que variações
de tais aspectos em coeficientes DCT bem selecionados sejam pouco representadas.
Alguns dos métodos propostos atingem taxa de acertos compatível com o estado da arte
vi
e mostram-se eficazes em relação a alterações sutis de iluminação, posição e expressão facial,
mostrando a viabilidade da aplicação da DCT em reconhecimento de faces.
Experimentos realizados com o banco de faces ORL (Olivetti Research Lab),
constantemente referenciado na literatura, permitiram comparações diretas com outros
métodos de reconhecimento. As comparações mostram que a taxa de acertos de alguns dos
métodos propostos supera os resultados de publicações importantes da área.
Palavras-chave: Processamento Digital de Imagens, Reconhecimento de Faces,
Reconhecimento de Padrões e Transformada Cosseno Discreta.
vii
ABSTRACT
The operation of human faces recognition done by computer has a wide application,
representing innovation and greater reliability associated to security applications. It’s a
research area strongly active since the 1990 decade and commercial systems are already
available on the market.
As it is not a simple comparison between two images, techniques for face recognition
are continuously being proposed aiming to guarantee a greater hit rate and speed of
processing. Methods based on characteristics, holistic methods and 3D methods are being
continuously improved.
Holistic methods are becoming prominent in literature due to high hit rates, and
normally use mathematic transforms, such as Discrete Cosine Transform (DCT), Karhumen-
Loève Transform (KLT) and Wavelet Transform. Experiments with DCT, specifically,
register hit rates above 95% with reduced computational cost.
In this report, methods for faces recognition based on selection of coefficients of the
DCT are proposed. The proposed methods selects DCT coefficients from the images and does
the recognition based on distance. Previous steps of pre-processing and normalization of
images in relation to illumination and position are dispensed, as it is expected that variations
of these aspects into well selected DCT coefficients are not much representative.
The proposed methods reach hit rate compatible with the state of the art and is robust to
subtle alterations of illumination, position and facial expression, showing the viability of
application of DCT in face recognition.
viii
Experiments done with the ORL (Olivetti Research Lab) Face Database, constantly
referenced on literature, allowed direct comparisons with other methods of recognition. The
comparisons show that the hit rate of the method is greater than the results of important
publications in the area.
Key-words: Images Digital Processing, Face Recognition, Pattern Recognition and
Discrete Cosine Transform.
ix
SUMÁRIO
DEDICATÓRIA ................................................................................................................... i AGRADECIMENTOS ........................................................................................................ ii RESUMO ..............................................................................................................................v ABSTRACT ....................................................................................................................... vii SUMÁRIO .......................................................................................................................... ix ÍNDICE DE FIGURAS ...................................................................................................... xi ÍNDICE DE TABELAS..................................................................................................... xii ÍNDICE DE EQUAÇÕES ................................................................................................ xiii LISTA DE ABREVIATURAS E SIGLAS........................................................................xiv LISTA DE SÍMBOLOS ....................................................................................................xvi Capítulo 1..............................................................................................................................1 Introdução ............................................................................................................................1
1.1. Objetivos................................................................................................................5 Capítulo 2..............................................................................................................................6 Reconhecimento de Padrões.................................................................................................6
2.1 Casamento de Modelo (Template Matching) ........................................................8 2.2 Técnicas Estatísticas..............................................................................................9
2.2.1 Dados de Treinamento e de Testes.................................................................13 2.2.2 O Problema da Dimensionalidade..................................................................14 2.2.2 Abordagens de Classificação por Distância ...................................................16
2.3 Reconhecimento Sintático...................................................................................18 2.4 Redes Neurais......................................................................................................19 2.5 Mineração de Dados............................................................................................21
Capítulo 3............................................................................................................................23 Transformada Cosseno Discreta........................................................................................23 Capítulo 4............................................................................................................................28 Reconhecimento de Faces...................................................................................................28
4.1 Seleção de Atributos............................................................................................29 4.2 Abordagens de Classificação ..............................................................................30 4.3 Bancos de Faces...................................................................................................30 4.4 Alguns Métodos Descritos na Literatura ...........................................................31
4.4.1 Métodos Baseados em Análise de Componentes Principais (PCA) ................33 4.4.2 Métodos Baseados em Análise de Discriminantes Lineares de Fisher (LDA).36 4.4.3 Métodos Baseados em DCT ..........................................................................37 4.4.4 Abordagens Adicionais .................................................................................42 4.4.5 Tabela Resumo dos Métodos Apresentados ...................................................46
x
Capítulo 5............................................................................................................................48 Métodos e Material.............................................................................................................48
5.1. Seleção de Atributos............................................................................................48 5.1.1 Seletor Média de Amplitude ..........................................................................51 5.1.2 Seletor Média de Amplitude Excluindo Extremos..........................................52 5.1.3 Seletor Baseado em Mediana.........................................................................52 5.1.4 Seletor por Contagem de Ocorrências............................................................53 5.1.5. Seletor por Posição Média dos Coeficientes...................................................54 5.1.6 Seletor de Distância Normalizada pela Variância...........................................56 5.1.7 Seletor de Baixas Freqüências .......................................................................58 5.1.8 Seletor WEKA ..............................................................................................59 5.1.9 Resumo dos Seletores Apresentados..............................................................60
5.2 Classificação ........................................................................................................60 5.2.1 Classificador de Distância Mínima ao Protótipo ............................................61 5.2.2 Classificador do Vizinho Mais Próximos (NN)..............................................61 5.2.3 Classificador dos K-Vizinhos Mais Próximo (KNN) .....................................62
5.3 Treinamento e Testes ................................................................................................63 5.3.1 Banco de Faces..............................................................................................64 5.3.2 Testes Realizados ..........................................................................................65
5.4 Ferramentas Utilizadas.............................................................................................67 Capítulo 6............................................................................................................................68 Resultados ...........................................................................................................................68
6.1 Resultados Combinando Sete Seletores e Três Classificadores.........................69 6.2 Melhores Resultados Obtidos por Classificador ................................................73 6.3 Exemplos de Erros ..............................................................................................76 6.4 Curvas de Reconhecimento Acumulativo ..........................................................78 6.5 Resultados Utilizando o WEKA .........................................................................80 6.6 Tempo de Processamento....................................................................................81 6.7 Lista de Coeficientes Selecionados......................................................................82
Capítulo 7............................................................................................................................86 Discussão e Conclusão ........................................................................................................86 Referências..........................................................................................................................92 Apêndice A – Resultados do Classificador de Distância Mínima ao Protótipo................96 Apêndice B – Resultados do Classificador de Vizinho Mais Próximo..............................97 Apêndice C – Erros do Classificador de Vizinho Mais Próximo ......................................98 Apêndice D – Resultados do Classificador de K-Vizinhos Mais Próximos ......................99 Apêndice E – Matriz de Confusão ...................................................................................100 Apêndice F – Artigo Publicado ........................................................................................103
xi
ÍNDICE DE FIGURAS
FIGURA 1 - DIVISÃO DE PROCESSAMENTO DE IMAGENS DE FACE, ADAPTADO DE [CHAI, 2004]................................ 3
FIGURA 2 - SISTEMA DE RECONHECIMENTO ESTATÍSTICO, ADAPTADO DE [JAIN, DUIN ET AL., 2000]......................10
FIGURA 3 - MÉTODOS ESTATÍSTICOS DE RECONHECIMENTO, ADAPTADO DE [JAIN ET AL. 2000]. ............................12
FIGURA 4 - EFEITO DO PROBLEMA DE DIMENSIONALIDADE, ADAPTADO DE [CAMPOS, 2001]..................................16
FIGURA 5 - IMAGEM ORIGINAL E RESULTADO DA APLICAÇÃO DA DCT-II. BANCO ORL, PESSOA 1, POSE 1. ...........26
FIGURA 6 - IMAGEM ORIGINAL E SUA RECONSTRUÇÃO COM COEFICIENTES DCT DE BAIXA FREQÜÊNCIA. ..............27
FIGURA 7 - ADAPTAÇÃO DO RECONHECIMENTO DE FACES A UM SISTEMA DE CLASSIFICAÇÃO. ...............................48
FIGURA 8 - ESTRATÉGIA PARA DEFINIR A SELEÇÃO DE ATRIBUTOS DOS MÉTODOS PROPOSTOS. ..............................49
FIGURA 9 - GRUPOS DE SELETORES AVALIADOS......................................................................................................50
FIGURA 10 - REGIÕES QUADRADAS ASSOCIADAS A SELEÇÃO DE BAIXAS FREQÜÊNCIAS..........................................59
FIGURA 11 - IMAGENS DO BANCO ORL: PESSOAS 1, 7, 20 E 35, CADA UMA EM SUAS 10 POSES. ..............................65
FIGURA 12 - CLASSIFICADOR DE DISTÂNCIA MÍNIMA AO PROTÓTIPO: 3 SELETORES DE MELHOR DESEMPENHO.......74
FIGURA 13 - CLASSIFICADOR DE VIZINHO MAIS PRÓXIMO: 3 SELETORES DE MELHOR DESEMPENHO. ......................74
FIGURA 14 - CLASSIFICADOR DE K-VIZINHOS MAIS PRÓXIMO (K=3): 3 SELETORES DE MELHOR DESEMPENHO. .......75
FIGURA 15 - BANCO ORL: PESSOAS 19, 11 E 36 EM SUAS 10 POSES (PESSOAS E POSES EM SEQÜÊNCIA)..................77
FIGURA 16 - CURVA DE RECONHECIMENTO ACUMULATIVO DO SELETOR DE BAIXAS FREQÜÊNCIAS........................79
FIGURA 17 - RECONHECIMENTO ACUMULATIVO DO SELETOR DE DISTÂNCIA NORMALIZADA PELA VARIÂNCIA. .....80
xii
ÍNDICE DE TABELAS
TABELA 1 - ESCALA DE CINZA DA IMAGEM MOSTRADA NA FIGURA 5.A, DA COORDENADA (1,1) ATÉ ( 8, 8). ..........26
TABELA 2 - COEFICIENTES DA DCT-II APLICADA SOBRE A FIGURA 5.A, DA COORDENADA (1,1) ATÉ (8,8).............26
TABELA 3 - CARACTERÍSTICAS DOS BANCOS DE FACES 2D REFERENCIADOS NESSE TRABALHO. .............................31
TABELA 4 - RESUMO DOS MÉTODOS REFERENCIADOS NESSE TRABALHO. ...............................................................46
TABELA 5 - EXEMPLO DO SELETOR POR CONTAGEM DE OCORRÊNCIA. ....................................................................54
TABELA 6 - CONTAGEM DE OCORRÊNCIA DOS COEFICIENTES APRESENTADOS NA TABELA 5. .................................54
TABELA 7 - VALORES FICTÍCIOS DE POSIÇÃO MÉDIA INTRACLASSE.........................................................................56
TABELA 8 - VALORES DA POSIÇÃO MÉDIA INTERCLASSE, CALCULADAS A PARTIR DOS DADOS DA TABELA 7. ........56
TABELA 9 - RAZÃO DAS POSIÇÕES MÉDIA INTRACLASSE E INTERCLASSES PARA A PESSOA 1...................................56
TABELA 10 - RESUMO DAS ABORDAGENS DE SELEÇÃO ANALISADAS NESSE TRABALHO..........................................60
TABELA 11 - RESULTADOS OBTIDOS COM SETE SELETORES E TRÊS CLASSIFICADORES. ..........................................69
TABELA 12 - RESUMO DO DESEMPENHO DOS SELETORES. .......................................................................................73
TABELA 13 - ERROS DE CLASSIFICAÇÃO DOS TRÊS CLASSIFICADORES. ...................................................................76
TABELA 14 - TENTATIVAS DE ACERTOS DOS DOIS SELETORES DE MELHOR DESEMPENHO. ......................................79
TABELA 15 - CLASSIFICAÇÃO DO WEKA UTILIZANDO SELEÇÃO POR BAIXAS FREQÜÊNCIAS..................................81
TABELA 16 - CLASSIFICAÇÃO COMBINANDO SELEÇÃO POR BAIXAS FREQÜÊNCIAS E SELEÇÃO WEKA...................81
TABELA 17 - TEMPO DE PROCESSAMENTO DE SELETORES. ......................................................................................82
TABELA 18 - TEMPO DE PROCESSAMENTO DE CLASSIFICADORES. ...........................................................................82
TABELA 19 - RESULTADOS DA SELEÇÃO DE COEFICIENTES SOBRE O BANCO ORL. .................................................83
TABELA 20 - RESULTADOS DO CLASSIFICADOR DE DISTÂNCIA MÍNIMA AO PROTÓTIPO...........................................96
TABELA 21 - RESULTADOS DO CLASSIFICADOR DE VIZINHO MAIS PRÓXIMO. ..........................................................97
TABELA 22 - ERROS DO CLASSIFICADOR DE VIZINHO MAIS PRÓXIMO COM SELEÇÃO POR BAIXAS FREQÜÊNCIAS. ...98
TABELA 23 - ERROS DO CLASSIFICADOR DE VIZINHO MAIS PRÓXIMO COM SELEÇÃO POR MÉDIA DE AMPLITUDE. ...98
TABELA 24 - RESULTADOS DO CLASSIFICADOR DE K-VIZINHOS MAIS PRÓXIMOS, PARA K=3 E K=5. ........................99
TABELA 25 – MATRIZ DE CONFUSÃO: DISTÂNCIA MÍNIMA AO PROTÓTIPO, BAIXAS FREQÜÊNCIAS, 289
COEFICIENTES, 15 ERROS. ............................................................................................................................101
TABELA 26 – MATRIZ DE CONFUSÃO: VIZINHO MAIS PRÓXIMO, BAIXAS FREQÜÊNCIAS, 36 COEFICIENTES, 3 ERROS.
....................................................................................................................................................................102
xiii
ÍNDICE DE EQUAÇÕES
(1) FUNÇÃO DE DECISÃO...................................................................................................................................... 8
(2) DISTÂNCIA DE MANHATTAN ........................................................................................................................... 9
(3) PROBABILIDADE A PRIORI ..............................................................................................................................10
(4) DENSIDADE DE PROBABILIDADE....................................................................................................................10
(5) PROBABILIDADE A POSTERIORI.......................................................................................................................10
(6) RISCO CONDICIONAL .....................................................................................................................................11
(7) FUNÇÃO DE PERDA – ZERO OU UM .................................................................................................................11
(8) DECISÃO DE BAYES .......................................................................................................................................11
(9) DCT..............................................................................................................................................................25
(10) MÉDIA DE VETORES.......................................................................................................................................34
(11) MATRIZ DE COVARIÂNCIA .............................................................................................................................34
(12) ESPALHAMENTO INTRACLASSES ....................................................................................................................36
(13) ESPALHAMENTO INTERCLASSES ....................................................................................................................37
(14) RAZÃO ENTRE ESPALHAMANETO INTERCLASSES E INTRACLASSES ...............................................................37
(15) MÉDIA DE AMPLITUDE DE UM COEFICIENTE ..................................................................................................51
(16) MÉDIA DE AMPLITUDE DE UM COEFICIENTE EXCLUINDO EXTREMOS .............................................................52
(17) POSIÇÃO MÉDIA INTRACLASSE ......................................................................................................................55
(18) POSIÇÃO MÉDIA INTERCLASSES .....................................................................................................................55
(19) RAZÃO ENTRE POSIÇÕES MÉDIAS INTRACLASSES E INTERCLASSES ...............................................................55
(20) VARIÂNCIA DA AMPLITUDE DE UM COEFICIENTE .........................................................................................57
(21) DISTÂNCIA NORMALIZADA PELA VARIÂNCIA DE UM COEFICIENTE ................................................................57
(22) DISTÂNCIA MÍNIMA AO PROTÓTIPO ...............................................................................................................61
(23) DISTÂNCIA DO VIZINHO MAIS PRÓXIMO.........................................................................................................62
(24) RELAÇÃO ENTRE DISTÂNCIAS DE VIZINHOS MAIS PRÓXIMOS .........................................................................62
(25) DISTÂNCIA DE K-VIZINHOS MAIS PRÓXIMOS ..................................................................................................63
xiv
LISTA DE ABREVIATURAS E SIGLAS
AFGR International Conference on Automatic Face and Gesture Recognition
AVBPA International Conference on Audio and Video Based Autentication
CAS-PEAL Chinese Academy of Science - Pose, Expression, Acessory, Lighting
CMU-PIE Carnegie Mellon University - Pose, Illumination and Expression
DCT Discrete Cosine Transform
DWT Discrete Wavelet Transform
FERET Facial Recognition Technology
FRVT Facial Recognition Vender Test (FRVT)
GMM Gaussian Mixture Model
HMM Hidden Markov Models
HRL Harvard Robotics Lab
ICA Independent Component Analysis
ICP Iterative Closest Point
JPEG Joint Photographic Experts Group
KLT Karhunen-Loève Transform
KNN K-Nearest Neighbor
LDA Linear Discriminant Analysis
LNMF Local Non Negative Matrix Factorization
MAD Mean Absolute Diference
MLP Multi Layer Perceptron
MSERED Mean Square Error Regularized
NMF Non Negative Matrix Factorization
NN Nearest Neighbor
NNSC Non-Negative Sparce Coding
ORL Olivetti Research Lab
PCA Principal Componentes Analysis
RBF Radial-Basis Function
SVM Suport Vector Machine
WEKA Waikato Environment for Knowledge Analysis
xv
XM2VTS Extended M2VTS Database (Multi Modal Verification for Teleservices and
Security)
xvi
LISTA DE SÍMBOLOS
di(x) Função de decisão i
Di(x) Distância de x em relação à classe i
Pi Probabilidade a priori da classe i
p(x) Função densidade de probabilidade de x
p(x|wi) Função densidade de probabilidade de x condicionada à classe wi
( )xwP j | Probabilidade a posteriori de x ser da classe wj
( )ji wwL , Função de perda causada na decisão por wi, sendo wj a classe correta
( )xwP j | Probabilidade a posteriori de x pertencer a classe wj
µ Média aritmética de valores
),( vuF Matriz de coeficientes DCT
wS Matriz de espalhamento intraclasse (classe w)
S Matriz de espalhamento interclasses
m Número de coeficientes selecionados
n Número de coeficientes DCT de uma imagem
p Número de pessoas distintas no conjunto de dados de treinamento
q Número de poses de treinamento de cada pessoa
r Número de poses de cada pessoa em um banco de faces
kjix Valor do i-ésimo coeficiente DCT da imagem da pessoa j na pose k.
jiµ Média aritmética da amplitude do i-ésimo coeficiente da imagem da pessoa j
jie Média da amplitude do i-ésimo coeficiente da imagem da pessoa j, excluindo
os valores extremos
jiR Razão entre as posições médias intraclasse e interclasses do coeficiente i da
imagem da pessoa j
ji2σ̂ Variância da amplitude do coeficiente i da imagem da pessoa j
jfiD̂ Distância normalizada pela variância, do coeficiente i em relação às imagens
xvii
das pessoas f e j
jfDMP Distância mínima ao protótipo entre as imagens das pessoas f e j
kjfDNN Distância entre a imagem da face f e a imagem de treinamento da pessoa j na
pose k (classificação NN)
kjfDKNN Distância entre a imagem da face f e a imagem de treinamento da pessoa j na
pose k (classificação KNN)
1
Capítulo 1
Introdução
Um sistema de reconhecimento de faces é considerado um sistema biométrico que identifica
seres humanos a partir de sua face. Sistemas biométricos se baseiam em atributos individuais
que podem ser mensurados, como assinatura, impressão digital, voz, íris e face [Jain, Hong et
al., 2000].
Reconhecimento de faces é a operação de identificar por computador uma face humana
desconhecida [Ivancevic et al., 2003]. A operação é realizada fazendo-se uma comparação
entre uma face desconhecida e imagens de faces armazenadas em um banco de dados,
confirmando ou rejeitando o reconhecimento. Métodos propostos trabalham no contexto de
reconhecer um objeto tridimensional a partir de imagens de bidimensionais [Zhao et al.,
2003].
Reconhecimento de faces é uma área fortemente atuante desde o início da década de
1990, incentivada em especial por demandas de aplicações de segurança. Trabalhos pioneiros
na área foram publicados na década de 70, tendo-se atualmente um legado de tecnologia
resultado de anos de pesquisa. Também pode-se evidenciar a relevância da área considerando
os seguintes aspectos [Zhao et al., 2003]:
• Conferências internacionais na área, como a International Conference on
Automatic Face and Gesture Recognition (AFGR) e a International Conference
on Audio and Video Based Autentication (AVBPA);
• Existência de sistemas de avaliação de técnicas de reconhecimento de faces, como
2
FERET, FRVT 2000, FRVT 2002 e XM2VTS [Zhao et al., 2003];
• Disponibilidade de produtos comercias, como FaceIt e FaceSnap.
Reconhecimento de faces possui um campo de aplicação abrangente, representando, em
especial, inovação e maior confiabilidade associada a aplicações de segurança [Podilchuk e
Xiaoyu, 1996; Zhoa et al., 2003; Chai e Wong, 2004]. As aplicações de segurança variam
incluindo desde a autorização de acesso físico e lógico até as mais sofisticadas aplicações de
rastreamento de suspeitos. Um contexto significativo de aplicações de segurança corresponde
à autenticação em tempo real de portadores de documentos pessoais, como passa-porte,
carteira de identidade, carteira de motorista, cartão de crédito, seguridade social e outros.
Além de aplicações de segurança, reconhecimento de faces também pode ser associado a
outras aplicações, como interação homem-máquina, programas de treinamento e realidade-
virtual [Zhoa et al., 2003].
Embora existam métodos confiáveis de reconhecimento baseados em outras
características biométricas, como íris, retina e impressão digital, tais métodos exigem precisão
de posicionamento, cooperação do participante, que precisa se submeter voluntariamente à
captura da imagem a ser analisada, e são difíceis de aplicar a vídeo [Zhoa et al., 2003; Abate
et al., 2007]. Para o reconhecimento de íris, o usuário deve permanecer parado em uma
posição definida e com os olhos abertos, enquanto uma fonte de luz os ilumina e uma câmera
captura a imagem. As dificuldades acentuam-se em sistemas que utilizam imagens de fundo
de retina, uma vez que é necessário aplicar um colírio para dilatar a pupila do usuário antes de
efetuar a aquisição da imagem [Campos, 2001]. Entretanto, apesar de tais exigências, há
sistemas de reconhecimento de íris tão confiáveis que já existem bancos financeiros os
adotando para autenticar seus usuários [Jain, Hong et al., 2000].
Considerando as exigências impostas pelos sistemas biométricos referenciados
anteriormente, verifica-se uma sobressalente vantagem dos sistemas de reconhecimento
baseado em faces, visto que podem ser aplicados de forma menos invasiva e com menores
3
exigências de precisão e posicionamento. Além dessas vantagens, há aplicações no contexto
tecnológico atual que não podem impor tais requisitos aos usuários, como identificação de
face em vídeo, rastreamento de suspeitos e interface homem-computador [Zhoa et al., 2003;
Abate et al., 2007].
A operação de reconhecimento de faces pode ser abordada de duas formas: identificação
e autenticação [Jain, Hong et al., 2000; Abate et al., 2007]. Na identificação, a face de uma
pessoa é comparada com uma galeria de faces, tendo como objetivo encontrar a classe correta
para a face investigada, ou seja, subtende-se responder à pergunta “Quem sou eu?”. Na
autenticação, a face investigada e seu proprietário são previamente informados e o objetivo é
certificar a informação declarada, comparando-se a face investigada com uma galeria de faces
para confirmar que a mesma corresponde ao proprietário declarado. Em outras palavras, a
autenticação certifica o pedido “Confirme que eu sou a pessoa x”.
Na Figura 1 é apresentada uma divisão do que tem sido pesquisado em processamento
de imagens de faces, a saber: captura da face, análise e compressão [Chain e Wong, 2004]. A
captura tem como foco a aquisição da imagem da face em formato digital, a compressão se
concentra no armazenamento compactado das imagens e a análise, com uma abrangência mais
diversificada, inclui tópicos como detecção, captura e reconhecimento de face. Outras áreas
de pesquisa relacionadas a faces bastante referenciadas na literatura correspondem à detecção
de faces em vídeo e análise de expressões faciais [Yang et al., 2002; Zhoa et al., 2003;
Chai e Wong, 2004; Li e Jain, 2005]. Nesse trabalho, tem-se como escopo a área de
reconhecimento de faces, propondo-se métodos para identificar uma face desconhecida.
Figura 1 - Divisão de processamento de imagens de face, adaptado de [Chai, 2004].
4
A operação de reconhecimento de faces possui um grau de dificuldade considerável,
visto que não se trata de uma comparação pixel a pixel de duas imagens. No reconhecimento
de uma face há fatores que dificultam o processo de comparação, como por exemplo, posição
da face, escala, iluminação, ambiente, expressão facial, adornos, oclusão e diferença de idade.
Dessa forma, os métodos de reconhecimento de faces normalmente têm como objetivo
reconhecer com confiabilidade e independente de fatores que possam provocar variações nas
imagens de uma mesma face [Zhoa et al., 2003; Abate et al., 2007]. Um desafio importante
dos primeiros métodos de reconhecimento de faces e que se estende até os dias atuais é
localizar de forma automática os atributos representativos da face, como olhos e boca,
independente de pose e escala.
Considerando as dimensões comuns às imagens de faces, o tempo necessário para a
realização do reconhecimento também tem sido visto como uma dificuldade. Nesse contexto,
devem-se utilizar bons algoritmos de redução da dimensionalidade dos dados, que sejam
capazes de extrair das imagens somente as informações essenciais para o reconhecimento
[Campos, 2001].
Em [Zhoa et al., 2003] são diferenciados dois contextos de reconhecimento de faces:
reconhecimento de faces associado a imagem fixa (fotografias) e reconhecimento de faces em
imagens de vídeo. Apesar de se ter nos dois contextos o objetivo comum de reconhecer uma
face humana, há particularidades associadas ao reconhecimento de faces em imagens de vídeo
que impõem novos desafios. O processo de aquisição de uma imagem fixa pode ser
controlado, enquanto a aquisição de imagens de vídeo não permite níveis de controle. Por
exemplo, a aquisição de imagens de face a partir de um vídeo registrado em um aeroporto
produz imagens com posicionamento livre e baixa qualidade. Nesse trabalho, tem-se como
escopo o reconhecimento de faces associado a imagens fixas, com testes realizados sobre
banco de faces construídos sob condições controladas.
Apesar de fatores típicos dificultarem o reconhecimento de faces, métodos têm se
5
mostrado robustos sob condições controladas e sistemas comerciais já estão disponíveis no
mercado [Zhoa et al., 2003; Abate et al., 2007]. Entretanto, continuamente são apresentadas
novas propostas avançando-se na busca por um reconhecimento com maior grau de
confiabilidade, robustez em relação aos fatores que dificultam o reconhecimento e custo de
processamento aceitável.
Trabalhos recentes demonstram que o uso de coeficientes da Transformada Cosseno
Discreta (Discrete Cosine Transform – DCT) no reconhecimento de faces produz resultados
com elevada taxa de acertos em menor tempo de processamento do que outros métodos, sendo
também relativamente independente de fatores como iluminação, posição e escala [Kohir e
Desai, 2000; Hafed e Levine, 2001; Sanderson e Paliwal, 2002; Faúndez, 2003; Zhao et al.,
2003; Matos et al., 2008].
1.1. Objetivos
O objetivo geral desta dissertação é o desenvolvimento de métodos de reconhecimento de
faces baseado na seleção de coeficientes da DCT. Os métodos devem produzir resultados com
taxa de acertos compatível com o estado da arte, devem ter um custo de processamento
satisfatório para aplicações de segurança e ser relativamente independente de fatores como
iluminação, posição e escala.
Os objetivos específicos dessa dissertação são:
• implementar métodos para reconhecimento de faces;
• analisar diferentes associações de seletores de coeficientes DCT e classificadores
para um sistema de reconhecimento de faces;
• realizar testes com bancos de faces referenciados na literatura e que apresentem
poses variadas das pessoas, incluindo diferenças em relação a iluminação,
posição, escala, expressão facial e oclusão;
• comparar os resultados dos métodos propostos com outros métodos já publicados.
6
Capítulo 2
Reconhecimento de Padrões
Os seres humanos são capazes de reconhecer padrões com grande rapidez e qualidade. Faz
parte da natureza humana, ao observar um objeto, fazer uma coleta de informações, as quais
são comparadas com as propriedades e comportamentos conhecidos e armazenados em sua
mente. A partir dessa comparação, os seres humanos são capazes de reconhecer o alvo de sua
observação. Este conceito de reconhecimento é simples e familiar para todos em um ambiente
real, mas em um ambiente computacional, o reconhecimento não é uma tarefa trivial
[Jesan, 2005].
Define-se um padrão como o oposto do caos; uma entidade, vagamente definida, a qual
pode ser dada um nome. Por exemplo, um padrão poderia ser uma imagem de impressão
digital, uma palavra escrita a mão, uma face humana ou um sinal de voz. Reconhecimento de
padrão é o estudo de como máquinas podem observar o ambiente, aprender e distinguir
padrões de interesse do que está sendo visto, verificar e justificar decisões sobre as categorias
dos padrões [Jain, Duin et al., 2000].
Reconhecimento automático, descrição, classificação e agrupamento de padrões são
problemas importantes em diversas áreas, como biologia, psicologia, medicina, marketing,
visão computacional e inteligência artificial. Adicionalmente, novas e emergentes aplicações,
tais como mineração de dados, pesquisa na web, restauração de dados multimídia,
reconhecimento de faces, reconhecimento de voz e reconhecimento de letras cursivas
requerem técnicas robustas e eficientes de reconhecimento de padrão.
7
Dado um padrão, reconhecê-lo ou classificá-lo pode consistir de uma das seguintes
tarefas: classificação supervisionada e classificação não supervisionada [Webb, 2002]. Na
classificação supervisionada, o padrão de entrada é identificado como um membro de uma
classe pré-definida, ou seja, a classe é definida pelo projetista do sistema. Na classificação não
supervisionada, o padrão é determinado por uma fronteira de classe desconhecida, ou seja, as
classes são aprendidas baseadas nas similaridades dos padrões.
O reconhecimento de padrão envolve, essencialmente, as seguintes etapas de
processamento: filtragem da entrada, extração de características e classificação [Jesan, 2005].
A filtragem da entrada, também denominada pré-processamanto, tem o objetivo de eliminar
dados desnecessários ou distorcidos fazendo com que a entrada apresente apenas dados
relevantes para o reconhecimento do objeto em análise. A extração de características, também
denominada etapa de seleção de atributos, consiste em análise dos dados de entrada a fim de
extrair e derivar informações úteis para o processo de reconhecimento. O estágio final do
reconhecimento de padrão é a classificação, ou etapa de tomada de decisão, que analisa as
características extraídas dos dados de entrada e declara o objeto em análise como pertencente
a uma determinada categoria.
Apesar de décadas de pesquisas e técnicas bem formuladas de reconhecimento, ainda se
tem como principais desafios da área as questões de orientação, localização e escala [Jain,
Duin et al. 2000]. Tais desafios são especialmente importantes quando se trata de modernas
aplicações, que exigem técnicas de reconhecimento robustas, como reconhecimento de faces e
voz, mineração de dados, pesquisa na web, restauração de dados multimídia e reconhecimento
de letras cursivas.
De acordo com [Jain, Duin et al., 2000], quatro abordagens bem conhecidas para
reconhecimento de padrão são: casamento de modelo, técnicas estatísticas, reconhecimento
sintático e estrutural e redes neurais. Tais propostas não são necessariamente independentes,
tendo-se até um mesmo método de reconhecimento de padrão existindo com diferentes
8
interpretações. Adicionalmente, verifica-se que o método escolhido depende do domínio da
aplicação, inexistindo uma abordagem de reconhecimento ótima, sendo inclusive a
combinação de várias abordagens de reconhecimento uma prática bastante usada.
Esse trabalho concentra-se em métodos estatísticos de reconhecimento de padrão, visto
ser uma abordagem bem conhecida e apropriada para redução de dimensionalidade dos dados.
2.1 Casamento de Modelo (Template Matching)
Uma das primeiras e mais simples abordagens para reconhecer padrões é a técnica de
casamento de modelos, que determina a similaridade entre duas entidades. Faz parte da
abordagem de decisão teórica que se baseia na utilização de funções de decisão ou
discriminantes, em que o padrão a ser reconhecido é comparado com os modelos
armazenados por meio de uma função de decisão [Jain, Duin et al., 2000].
Seja x um vetor de atributos que representa o padrão a ser classificado e sejam
cwww ,...,, 21 os vetores de atributos que representam as c classes de padrões existentes. O
problema básico consiste em encontrar c funções de decisão, )(...,),(),( 21 xxx cddd , com a
propriedade de que, se o padrão representado pelo vetor x pertence à classe representada por
wi, então a relação definida pela Equação 1 é verdadeira [Marin e Barreto, 2003].
jiecjparaxdxd ji ≠=> ...,,2,1),()( (1)
As funções de decisão presentes na Equação 1 têm sido adaptadas para medidas de
distância. O classificador de distância mínima segue uma abordagem equivalente às funções
de decisão e tem sido utilizado em problemas reais de reconhecimento de padrão.
O classificador de distância mínima atribui um padrão desconhecido representado pelo
vetor x à classe cujo vetor wi é mais próximo a x, ou seja, nessa abordagem a menor distância
implica o melhor casamento de modelos.
Distância Euclidiana, distância de Hamming e distância de Manhattan, dentre outras,
têm sido utilizadas para determinar distância mínima entre objetos. No caso específico da
9
distância de Manhattan, define-se x em relação às classes representadas por wi conforme a
Equação 2, atribuindo-se x à classe representada por wi cujo valor de )(xDi é mínimo.
ii wxxD −=)( , para i = 1, 2, ..., c (2)
2.2 Técnicas Estatísticas
Reconhecimento de padrões baseado em técnicas estatísticas tem obtido avanços
representativos nos últimos anos e tem sido usado com sucesso para projetar sistemas
comerciais de reconhecimento [Webb, 2002]. Conceitos estatísticos de decisão e estimação
são considerados fundamentais para tais abordagens. Novas e emergentes aplicações, como
mineração de dados, pesquisa na web, recuperação de dados multimídia, reconhecimento de
face e reconhecimento de letras cursivas requerem técnicas de reconhecimento de padrões
robustas e eficientes, e têm sido implementadas baseadas em técnicas estatísticas.
Na Figura 2 é ilustrado um modelo de sistema de reconhecimento estatístico [Jain, Duin
et al., 2000]. Esse mesmo modelo também pode ser utilizado para representar outros sistemas
de reconhecimento de padrões. Ele possui dois modos de operação: treinamento ou
aprendizagem e classificação ou reconhecimento.
O módulo de pré-processamento retira o padrão de interesse eliminando ambiente e
paisagem, removendo ruídos, normalizando o padrão e efetuando qualquer outra operação que
contribua na definição de uma representação compacta do padrão.
No modo de treinamento, o módulo de extração e seleção de atributos procura
características apropriadas para a representação de padrões de entrada, e o classificador é
treinado para particionar o espaço de características baseado nos valores de tais atributos. Os
retornos aos módulos anteriores permitem aperfeiçoar o pré-processamento e estratégias de
extração e seleção de atributos.
No modo de classificação, associa-se o padrão de entrada com uma das classes de
padrões de treinamento, sob considerações baseadas nos valores dos atributos.
10
Figura 2 - Sistema de reconhecimento estatístico, adaptado de [Jain, Duin et al., 2000].
Na abordagem estatística, cada padrão é representado em termos de características ou
atributos e é visto como um ponto em um espaço d-dimensional. Deve-se escolher atributos
que proporcionem uma distribuição espacial compacta e disjunta, diferenciando-se de forma
mais segura as diversas classes de padrões existentes. A classificação se faz baseada em
conceitos de teoria de decisão estatística, que definem fronteiras de decisão entre classes de
padrões distintas baseando-se na distribuição de probabilidade [Jain, Duin et al., 2000].
Considere-se que um dado padrão x pode ser associado a uma classe i, dentre as c
classes existentes. Mantendo a notação de Jain, Duin et al.[2000], as c classes serão
representadas nesta seção por cwww ,...,, 21 . Define-se Pi como a probabilidade a priori da
classe i, sendo verdadeira a relação especificada pela Equação 3. Define-se p(x) como a
função densidade de probabilidade de x, especificada pela Equação 4, sendo p(x|wi) a função
densidade de probabilidade de x condicionada à classe wi. Define-se ( )xwP j | como a
probabilidade a posteriori de x ser da classe wj, especificada pela Equação 5.
∑=
=c
i
iP1
1 (3)
∑=
=c
i
ii wxpPxp1
)|(*)( (4)
( ) ∑=
=c
j
jj
jxp
PwxpxwP
1 )(
*)|(| (5)
O processo de decisão da abordagem estatística pode ser assim sintetizado: um padrão
11
deve ser classificado em uma das c classes cwww ,...,, 21 , baseado no seu vetor de
atributos ( )dxxxx ,...,, 21= . Supondo que cada atributo possua uma função densidade de
probabilidade associada a cada classe, então a decisão é extraída a partir da probabilidade
condicional ( )iwxp | .
A regra de decisão ótima de Bayes determina que o padrão x pertence a classe wi se o
risco condicional, definido pela Equação 6, for mínimo [Duda et al., 2000]. Nessa equação,
( )ji wwL , corresponde à função de perda causada na decisão por wi, sendo wj a classe correta
e ( )xwP j | corresponde à probabilidade a posteriori de x pertencer a wj .
( ) ( ) ( )∑=
=c
j
jjii xwPwwLxwR1
|.,| (6)
Considerando a função de perda como zero ou um, definida pela Equação 7, o risco
condicional torna-se a probabilidade condicional de falsa classificação. Assim, ao atribuir o
padrão x à classe wi a regra de decisão de Bayes pode ser simplifica pela Equação 8 [Duda et
al., 2000].
( )
≠
==
ji
jiwwL ji ,1
,0, (7)
( ) ( ) ijxwPxwP ji ≠> ,|| (8)
A escolha da regra de decisão do classificador depende do tipo de informação
disponível a respeito da densidade condicional de classe, mas de certa forma, a maioria dos
enfoques tenta implementar a regra de decisão de Bayes [Jain, Duin, et al., 2000]. Na Figura
3 são apresentadas regras de decisões estatísticas associadas à disponibilidade de informações
da densidade condicional de classe. Se todas as informações são conhecidas, então a decisão
de Bayes pode ser usada para projetar o classificador. Se a forma da densidade condicional de
classe for conhecida, mas alguns de seus parâmetros não o forem, têm-se o modo
parametrizado. Nesse caso, é possível se aplicar a decisão de Bayes ótima ou a do tipo plug-
12
in, tendo-se para a decisão de Bayes ótima os valores dos parâmetros desconhecidos
calculados a partir de informações adicionais e para o tipo plug-in estimação de tais
parâmetros. Em muitas aplicações, entretanto, não se conhece a densidade condicional de
classe, que deve então se aprendida, seja a partir de um treinamento supervisionado ou não.
Considerando o treinamento supervisionado e o modo não parametrizado, pode-se estimar a
função de densidade, utilizando a abordagem de Parzen, ou construir diretamente a fronteira
de decisão, utilizando a abordagem do k-ésimo vizinho mais próximo. Já o treinamento não
supervisionado, no modo não parametrizado, tem sua decisão baseada na análise de cluster,
que busca identificar uma separação razoável das classes mediante os dados de treinamento.
Figura 3 - Métodos estatísticos de reconhecimento, adaptado de [Jain et al. 2000].
Também se verifica que ao percorrer a árvore de métodos de reconhecimento
estatísticos (Figura 3), no sentido de cima para baixo e da esquerda para a direita, se reduz a
quantidade de informações disponíveis a respeito das características e classes de padrões, que
como conseqüência aumenta a dificuldade de classificação.
Uma classificação adicional relacionada aos métodos estatísticos, também ilustrada na
Figura 3, considera a maneira como as fronteiras de decisão são obtidas e define a abordagem
baseada em densidade probabilística (ou indireta) e a abordagem geométrica (ou direta). A
13
abordagem probabilística requer primeiro que a função de densidade seja especificada, para
então construir as funções discriminantes que especificam as fronteiras de decisão. Por outro
lado, a abordagem geométrica freqüentemente constrói fronteiras de decisão diretamente por
meio de funções de custo fixo.
Apesar da existência de abordagens diferentes de classificação, verificam-se em comum
os seguintes objetivos: minimizar os erros de classificação e ter custo computacional
reduzido. O classificador ideal deve produzir uma alta taxa de acertos com rapidez e
eficiência, mas verifica-se que em problemas complexos melhores resultados podem
comprometer a eficiência do processamento.
2.2.1 Dados de Treinamento e de Testes
Independente da regra de classificação ou decisão usada, um classificador deve ser treinado
com as amostras de treinamento e como regra deve classificar amostras que são
provavelmente diferentes daquelas utilizadas no treinamento [Jain, Duin et al., 2000].
Entretanto, nos casos práticos é comum se ter uma limitação de dados de treinamento e testes,
sendo que, para se avaliar de forma correta o desempenho do classificador, é necessário se ter
uma separação de tais dados.
Para ao mesmo tempo manter a separação de dados de treinamento e de teste e evitar
conjuntos de dados independentes, tem-se adotado o uso de validação cruzada, que possibilita
um maior número de testes sobre os dados disponíveis. A validação cruzada é um método
estatístico que divide aleatoriamente o conjunto de dados disponíveis em dados de
treinamento e dados de teste, de modo que as amostras de teste não sejam utilizados no
treinamento [Haykin, 2001]. Para possibilitar um maior número de testes, faz-se alternância
entre os conjuntos de dados e de treinamento e de testes: em uma etapa se treina com o
conjunto que representa o treinamento e se classifica com o conjunto que representa os testes;
em outra etapa se alternam tais conjuntos treinando-se com o antigo conjunto de testes e
classificando-se com o antigo conjunto de treinamento.
14
Quando o conjunto de dados de treinamento for severamente reduzido, justifica-se a
aplicação do método deixe-um-de-fora (leave-one-out), considerado uma variante da
validação cruzada, que treina com p-1 objetos e testa com o objeto deixado de fora do
treinamento.
Define-se como habilidade de generalização de um classificador o seu desempenho ao
classificar padrões de teste que não foram utilizados no treinamento. O desempenho do
classificador depende em especial do número de amostras disponíveis para treinamento assim
como dos valores específicos de tais amostras, ou seja, de quão bem os valores das amostras
se aproximam da distribuição real dos dados. Porém, sabe-se que maximizar o treinamento
nem sempre produz o melhor resultado de classificação.
Dentre os aspectos apontados na literatura que podem contribuir para a limitação de
desempenho de um classificador ou reduzir sua capacidade de generalização destacam-se
[Campos, 2001]:
• dimensão do espaço de atributos, ou seja, elevado número de atributos (curse of
dimensionality);
• número de parâmetros desconhecidos do classificador;
• otimização intensa do treinamento ou número de iterações de treinamento
(overtraining).
2.2.2 O Problema da Dimensionalidade
O problema da “maldição da dimensionalidade” é bem conhecido pela abordagem estatística
de reconhecimento de padrão e está relacionado diretamente à seleção de atributos. A
dimensionalidade consiste no número de atributos utilizados para representar um padrão, ou
seja, a dimensão do espaço de características. O problema da maldição da dimensionalidade
advém da necessidade de se ter um número de elementos de treinamento que depende
diretamente da dimensão do espaço de características. Há casos em que tal relação é
15
exponencial [Jain, Duin et al., 2000], ou seja, NeT ∝ , sendo T o número de amostras de
treinamento requerido e N a dimensão do espaço de atributos. Dessa forma, quando se tem um
conjunto de treinamento reduzido, a adição de novos atributos pode prejudicar o desempenho
do classificador, se não forem adicionados amostras de treinamento.
Apesar de se ver o problema da dimensionalidade generalizado como uma relação
exponencial, há fatores que podem alterar a grandeza de tal relação, como número de classes e
complexidade de classificador. É geralmente aceitável que o número de amostras de
treinamento por classe seja pelo menos dez vezes o número de atributos. Resultados
empíricos em Jain, Duin et al.[2000] sugerem a relação NTi *10< , com i=1, ..., c, sendo Ti
o número de amostras de treinamento da classe i. Assim, quanto mais complexo for o
classificador, maior deveria ser a proporção do tamanho de amostras para ser evitado o
problema da dimensionalidade.
A curva apresentada na Figura 4 ilustra o efeito do problema da dimensionalidade sobre
a taxa de acertos do classificador. Na região compreendida entre 0 e m1 ocorre o
comportamento intuitivamente esperado, pois o aumento do número de atributos proporciona
aumento da taxa de acertos. Isso se deve ao fato de espaços com dimensões reduzidas não
possuírem informações suficientes para distinguir as classes de padrões. Na região
compreendida entre m1 e m2 ocorre uma estabilidade na taxa de acertos e se verifica que a
adição ou eliminação de atributos altera de forma ínfima o resultado do classificador. A
estabilidade da taxa de acertos sugere que os atributos importantes já foram considerados e
atributos extras nem são ruidosos nem relevantes para a classificação. Estratégias de tentativa
e erro têm sido aplicadas para identificar a dimensionalidade ideal que minimiza os erros de
classificação, ou seja, o ponto m1. O problema da dimensionalidade começa a ser visualizado
após m2 e ilustra que, com o aumento do número de atributos se reduz de taxa de acertos.
16
Figura 4 - Efeito do problema de dimensionalidade, adaptado de [Campos, 2001].
Para reduzir a dimensionalidade duas abordagens se destacam: seleção e extração de
atributos [Jain, Duin et al., 2000]. A seleção escolhe o melhor conjunto dentre os atributos
originais e a extração cria novos atributos a partir de transformações ou combinações das
características originais e elimina os atributos menos relevantes. Em geral, a seleção é uma
abordagem simples e os atributos selecionados podem ser associados às características
visíveis da imagem original. As características transformadas, geradas pela extração, podem
não ter uma associação clara em relação à imagem original, mas têm apresentado grande
habilidade em representar classes de padrões.
Um método de extração de atributos primeiro cria um espaço a partir de transformações
ou combinações de características do espaço original e a seguir reduz a dimensionalidade
eliminando os atributos menos relevantes. Formalmente, dado o espaço de atributos τ de
dimensão N, um método de extração de atributos h é uma função h: τ→F, em que F possui
dimensão m, com m ≤ N. Assim, sendo x um padrão representado no espaço τ, temos h(x) = y
com y ∈ F sendo a nova representação de x no espaço F.
2.2.2 Abordagens de Classificação por Distância
O classificador de k-vizinhos mais próximos (K-Nearest Neighbors - KNN) é uma
classificador sub-ótimo que cria fronteiras de decisões complexas a partir de um conjunto de
padrões de treinamento com classes conhecidas a priori. Dado um padrão desconhecido x, sua
classificação ocorre da seguinte forma: calcula-se a distância entre x e todos os padrões de
17
treinamento, verifica-se a quais classes pertencem os k padrões mais próximos de x e
finalmente associa-se o padrão x à classe mais freqüente entre esses k padrões. Como medida
de distância utiliza-se a distância Euclidiana ou similar.
Uma vantagem conhecida do classificador KNN é que, quando o conjunto de
treinamento é grande ou bem representativo, ele cria uma fronteira de decisão que se adapta à
forma de distribuição dos dados de treinamento, possibilitando a obtenção de boas taxas de
acertos. O objetivo de se usar k >1 é reduzir a ocorrência de erros causados por ruído nos
padrões de treinamento, mas o uso de valores grandes para k reduz a taxa de acertos,
especialmente quando a distribuição das classes apresenta um número elevado de
sobreposições.
A escolha do número de vizinhos (k) é um ponto crítico do classificador KNN, sendo
recomendado a estratégia de tentativa e erro para a sua definição. Outras limitações
conhecidas relacionados a tal classificador são: problemas de indecisão nos casos de empate e
custo computacional, pois a quantidade de operações necessárias para a classificação de um
padrão considera valores de atributos de todas as amostras de treinamento [Campos, 2001].
Tomando k=1, obtém-se o classificador do vizinho mais próximo (Nearest
Neighbor - NN). Sob certas condições fracas das densidades de probabilidades condicionadas
às classes, esse classificador acarreta uma taxa de erro maior do que o classificador de Bayes,
mas que não ultrapassa o seu dobro [Kulkarni et al. 1998]. Adicionalmente, de acordo com o
teorema mencionado em [Campos, 2001], considerando infinitos padrões de treinamento, a
taxa de erros do classificador do vizinho mais próximo (k=1) não ultrapassa o dobro da taxa
de erros da regra de Bayes.
O classificador de distância mínima ao protótipo é uma regra de decisão simples, tanto
no treinamento como nos testes, e de menor custo computacional do que os classificadores
KNN e NN. A fase de treinamento consiste na determinação do protótipo, pelo menos um por
classe, definido a partir dos dados de treinamento. Um exemplo comum é definir o protótipo
18
de cada classe a partir da média (baricentro) dos vetores de treinamento da classe. Na fase de
teste, cada padrão é classificado de acordo com o protótipo mais próximo. Para calcular a
proximidade entre os padrões de teste e os protótipos de treinamento se utiliza a distância
Euclidiana ou similar.
Uma vantagem da aplicação do classificador de distância mínima ao protótipo é seu
custo computacional, pois a quantidade de operações necessárias para a classificação de um
padrão considera apenas os valores de atributos dos protótipos. Entretanto, uma limitação
dessa abordagem consiste em seus resultados em casos práticos, pois os protótipos
freqüentemente não contêm informações suficientes sobre a forma de distribuição das classes.
Considerações feitas entre o classificador de distância mínima ao protótipo e os
classificadores KNN e de Bayes indicam as seguintes equivalências [Campos, 2001]:
• Se os protótipos forem os padrões de treinamento, o classificador de distância
mínima ao protótipo equivale ao classificador KNN, para k=1;
• Quando é utilizado apenas um protótipo por classe, sendo cada protótipo definido
pela média (baricentro) do conjunto de treinamento de sua classe, e quando a
distribuição probabilística das classes é tal que seus desvios padrões são
equivalentes para todas as direções do espaço de atributos, então o classificador de
distância mínima ao protótipo comporta-se como o classificador ótimo de Bayes.
2.3 Reconhecimento Sintático
Reconhecimento de padrões baseado nas abordagens sintática e estrutural teve grande
crescimento e destaque durante as décadas de 1960 e 1970 [Basu et al., 2005]. A área evoluiu
para atender a demanda de problemas do mundo real e, em paralelo, outros paradigmas
importantes também se destacaram, como métodos estatísticos e redes neurais.
Os métodos sintáticos usam a estrutura interna do padrão como elemento de análise. O
sub-padrão mais simples a ser reconhecido denomina-se primitiva e padrões complexos são
19
representados como relações entre primitivas. Ressalva-se em especial a característica de um
número limitado de primitivas ser capaz de descrever um número potencialmente grande de
padrões complexos. Formas de onda, texturas de imagens e formas e contornos foram
utilizados como primitivas [Fu, 1982] por apresentarem estruturas bem definidas e passíveis
de captura por meio de regras.
Apesar da abordagem sintática poder ser aplicada a problemas genéricos de
reconhecimento, destacam-se notáveis benefícios de sua aplicação sobre reconhecimento de
padrões complexos passíveis de decomposição hierárquica, como análise gramatical e
autômatos de estado finito. Nesse contexto o padrão passa a ser visto como uma composição
simples de sub-padrões hierarquicamente interligados.
A representação de um padrão na abordagem sintática é baseada em primitivas e
relacionamentos, também conjuntamente tratados como gramáticas, e permitem tanto a
classificação de um padrão como a sua reconstrução. Ao invés de um simples vetor de
características, como o vetor adotado pela abordagem estatística, estruturas de dados mais
complexas, como árvores, grafos e gramáticas são utilizadas na representação da abordagem
sintática.
Dificuldades relevantes associadas à implementação de um método de reconhecimento
sintático correspondem à detecção de primitivas e a inferência das regras. Tais procedimentos
devem gerar recursos apropriados à inferência de uma decisão estrutural e hierárquica e têm
sido guiados por intuição e heurística [Bunke, 1992]. Outra dificuldade do método sintático é
o demasiado esforço computacional devido às combinações explosivas de possibilidades que
têm que ser investigadas.
2.4 Redes Neurais
O cérebro humano é capaz de processar uma grande quantidade de informações rapidamente.
Pesquisas em inteligência artificial procuram organizar elementos processadores de forma
20
similar à organização dos neurônios do cérebro humano buscando obter uma capacidade de
processamento similar [Jesan, 2004]. De acordo com [Jain, Duin et al., 2000], uma rede
neural artificial é um sistema computacional paralelo consistindo de um grande número de
processadores com muitas interconexões, que usam princípios organizacionais como
aprendizado, generalização, adaptabilidades, tolerância a falhas e computação distribuída.
Apesar de redes neurais serem usadas em diversas áreas, pesquisas e aplicações em
problemas de classificação têm se destacado. Redes neurais têm obtido sucesso em
classificações como reconhecimento de caracteres, reconhecimento de voz, diagnóstico
médicos, qualidade de produtos, tolerância a falhas, predição de probabilidade de bancarrotas
e avaliação de títulos bancários [Zhang, 2000].
A popularidade do uso de redes neurais em problemas de reconhecimento de padrão
deve-se em especial a sua baixa dependência de conhecimento do domínio específico e devido
à disponibilidade de algoritmos eficientes de aprendizagem. Redes neurais provêem
algoritmos não lineares para extração de características e classificação, além de também
existirem algoritmos de extração de características e classificação que podem ser mapeados
para implementação eficiente em hardware.
Como diferencial entre redes neurais e outras abordagens de reconhecimento de
padrões, verifica-se a sua habilidade em aprender relacionamentos complexos não lineares
entre dados de entrada e saída, com uso de procedimento seqüencial de treinamento [Jain,
Duin et al., 2000]. Outras características relevantes correspondem à habilidade de adaptação
aos dados e à capacidade de resolver problemas sem a necessidade de definição de listas de
regras.
Redes neurais comumente utilizadas em reconhecimento de padrão são as do tipo
diretas (Feed-Forward Network) e as de função de base radial (Radial-Basis Function - RBF),
que são organizadas em camadas e que produzem conexões unidirecionais entre as camadas,
ou seja, sem realimentação. Elas representam um procedimento integrado de seleção e
21
classificação [Jain, Duin et al., 2000], sendo seu processo de aprendizagem definido por
atualizações na arquitetura da rede e nos pesos das conexões, de forma que ela possa executar
uma tarefa específica de classificação de forma eficiente.
Contrariando a aparente diferença de princípios básicos, a maioria das redes neurais
bem conhecidas é implicitamente similar a métodos estatísticos clássicos de reconhecimento
de padrão [Jain, Duin et al., 2000]. Não obstante estas similaridades, redes neurais podem
oferecer vantagens, tais como unificação de abordagens para extração de características e
classificação, assim como procedimentos flexíveis para encontrar soluções não lineares.
Apesar de seus potenciais benefícios, a aplicação de redes neurais em reconhecimento
de padrões tem dificuldades significativas, como a complexidade de construção das redes, o
tempo de processamento necessário para o treinamento, ajustes de níveis, nós e taxas de
aprendizado, representação das características, modularidade e escala [Jesan, 2004].
2.5 Mineração de Dados
Mineração de dados é definida como o processo não-trivial de descoberta de padrões válidos,
novos, potencialmente úteis e compreensíveis a partir de grandes volumes de dados [Mello et
al., 2007]. É um processo interativo e iterativo englobando várias atividades, como as
seguintes: seleção de atributos, redução de dimensionalidade, mineração de dados
propriamente dita e análise. A atividade de mineração de dados corresponde à aplicação de
algoritmos apropriados que, sob um limite aceitável de eficiência computacional, produzem
uma enumeração particular de padrões sobre os dados. A atividade de análise interpreta os
padrões descobertos com respeito a sua utilidade em uma dada aplicação.
O aplicativo WEKA (Waikato Environment for Knowledge Analysis) é uma ferramenta
de mineração de dados simples e muito utilizada nos dias atuais. Também existem
ferramentas comerciais específicas para mineração de dados assim como bancos de dados
com recursos para mineração de dados [Silva, 2007].
22
O WEKA é formado por uma coleção de algoritmos de aprendizagem de máquina para
resolução de problemas de mineração de dados. Ele foi desenvolvido pela Universidade de
Waikato na Nova Zelândia e disponibilizado como software de domínio público e código
aberto, podendo ser obtido em http://www.cs.waikato.ac.nz/ml/weka/ [University of Waikato,
2004]
O processo de mineração implementado no WEKA, que aplica modelos de classificação
em bases de dados, é composto por duas fases: aprendizado e teste. Na fase de aprendizado,
um classificador é aplicado sobre um conjunto de dados de treinamento. Como resultado,
obtém-se a construção do classificador propriamente dito. Tipicamente, o conjunto de
treinamento corresponde a um subconjunto de observações selecionadas de maneira aleatória
a partir da base de dados que se deseja analisar. Após o classificador ser construído, inicia-se
a etapa de teste, que avalia a eficiência do classificador por meio do emprego de um conjunto
de dados de teste. O conjunto de teste contém observações que também são selecionadas
aleatoriamente a partir da base de dados. No entanto, estas observações são diferentes das que
foram selecionadas para compor o conjunto de treinamento.
Diversas técnicas podem ser utilizadas para a construção de classificadores, tais como
redes neurais, métodos Bayesianos e árvores de decisão. Os principais métodos de
classificação suportados pelo WEKA são [University of Waikato, 2004]: árvore de decisão
induzida, regras de aprendizagem, naive Bayes, tabelas de decisão, regressão local de pesos,
aprendizado baseado em instância, regressão lógica, perceptron e Máquina de Vetores de
Suporte (Suport Vector Machines - SVM).
23
Capítulo 3
Transformada Cosseno Discreta
As transformadas, e em particular as transformadas integrais, são utilizadas para reduzir a
complexidade de problemas matemáticos, como por exemplo, a resolução de equações
diferenciais e integrais. Um caso bem conhecido é a transformada de Fourier, que decompõe
um sinal em seus componentes de freqüência.
O desenvolvimento de algoritmos rápidos para o cálculo da transformada de Fourier em
1965 representou um grande impulso na aplicação de transformadas em processamento digital
de sinais [Rao, 1990]. Similarmente, o surgimento em 1974 da Transformada Cosseno
Discreta (Discrete Cosine Transform - DCT ) e seus algoritmos eficientes impulsionaram em
especial aplicações em processamento de sinais, processamento de imagens e compressão de
dados [Rao, 1990]. Desde então, verificam-se experimentos com resultados promissores
utilizando DCT em problemas como reconhecimento de padrões, compressão, filtragem e
reconstrução.
Uma característica importante de algumas transformadas refere-se a sua capacidade de
gerar coeficientes descorrelacionados, concentrando a maior parte da energia do sinal em um
reduzido número de coeficientes, ou seja, correspondem a uma abordagem capaz de reduzir a
correlação presente nos sinais. Quando o sinal se comporta como um processo estocástico
com determinadas propriedades, pode-se mostrar que a Transformada KLT (Karhunen-Loève
Transform) é ótima no sentido de que obtém descorrelação máxima e concentra a energia em
um número mínimo de coeficientes [Rao, 1990]. No entanto, transformadas sub-ótimas são
24
utilizadas na prática, como a DCT e a Transformada de Wavelet (Discrete Wavelet
Transform - DWT), visto que a implementação da KLT é elaborada, exigindo a estimação de
matriz de covariância além do cálculo da transformada propriamente dito [Batista, 2002].
A DCT é uma função linear e inversível, R → R, que expressa sinais como uma soma
de funções cosseno discretas. O sinal original é convertido para o domínio da freqüência pela
DCT, e é possível converter o sinal de volta para o domínio do tempo aplicando-se a DCT
inversa.
Após a transformação para o domínio da freqüência se obtém os coeficientes da DCT,
que refletem a importância das freqüências presentes no sinal original. Os primeiros
coeficientes referem-se às freqüências mais baixas do sinal, que representam o
comportamento geral do sinal original. Os últimos coeficientes referem-se às freqüências mais
altas do sinal, que geralmente representam as informações mais detalhadas ou finas do sinal,
que em muitos casos representam predominantemente ruído [Gonzalez et al., 2004]. Dessa
forma, no caso específico de se reduzir a dimensionalidade após a aplicação da DCT, os
coeficientes de mais baixa freqüência serão geralmente os mais apropriados para se
representar os diferentes padrões, que no caso desse trabalho correspondem às diferentes
imagens de faces.
Em [Rao, 1990] há quatro definições para DCT: DCT-I, DCT-II, DCT-III e DCT-IV. A
DCT-II tem sido mais usada em processamento de sinais e de imagens devido em especial à
sua forte capacidade de compactação de energia: muitas das informações do sinal tendem a se
concentrar em poucos componentes de baixa freqüência. Por esse motivo, o padrão JPEG usa
a DCT-II na sua implementação.
A definição da DCT-II é apresentada na Equação 9. Nesse contexto, a imagem original
corresponde à matriz de escala de cinza f(x,y), de dimensões a x b, com a*b = N. A aplicação
da DCT-II produz a matriz F(u,v), também de dimensão a x b. As variáveis x e y são as
coordenadas no domínio espacial e u e v são as coordenados no domínio da freqüência.
25
( )( ) ( )
N
vy
N
uxyxfvuvuF
a
x
b
y 2
12cos*
2
12cos*),(*)(*),(
1
0
1
0
ππαα
++= ∑∑
−
=
−
=
=
=
casosdemaisN
vN
vu
,2
1,u,1
)(),( αα
(9)
O primeiro coeficiente, F(1,1), é referenciado como coeficiente DC (Direct Current) e
depende apenas do brilho da imagem. Os demais coeficientes de F(u,v) indicam a amplitude
correspondente do componente de freqüência de f(x,y) e são referenciados como coeficientes
AC (Alternate Current).
Na Figura 5 é ilustrado o resultado da aplicação da DCT-II sobre a imagem de uma
face humana de dimensão 112 x 92. Na Figura 5.a é apresentada a imagem da face original e
na Figura 5.b é apresentada a imagem resultante após a aplicação da DCT-II sobre a imagem
original, seguida de um processamento de normalização que se faz necessário para permitir a
visualização da imagem representativa da DCT em uma escala de cinza. Para a obtenção da
imagem da Figura 5.b foram realizados os seguintes passos: aplicação da DCT-II sobre a
imagem mostrada na Figura 5.a; atribuição do valor zero ao coeficiente DCT (1,1);
identificação do maior valor de amplitude de todos os coeficientes, sem considerar a
amplitude do coeficiente (1,1); e divisão de todos os coeficientes DCT pelo valor máximo de
amplitude identificado. A amplitude do coeficiente DC foi anulada para exibição da imagem e
foi desconsiderada na identificação do valor máximo de amplitude porque seu valor é
tipicamente muito mais alto do que todos os demais (da ordem de 10 vezes mais alto). Como
pode ser visto, há uma concentração de energia no canto superior esquerdo da imagem, que
corresponde aos componentes de mais baixa freqüência.
26
5.a) Imagem original 5.b) Imagem resultante após aplicação da DCT-II seguida de normalização
Figura 5 - Imagem original e resultado da aplicação da DCT-II. Banco ORL, pessoa 1, pose 1.
Nas Tabelas 1 e 2 são apresentados os valores nas coordenadas (1,1) a (8,8), referentes,
respectivamente, à imagem original mostrada na Figura 5.a, e à imagem transformada
mostrada na Figura 5.b. Como pode ser visto na Tabela 2, o coeficiente DC, que representa o
brilho da imagem, tem um valor expressivamente maior do que os demais, enquanto os
valores dos coeficientes AC, se analisados em módulo, expressam a importância dos
componentes de freqüência correspondentes.
Tabela 1 - Escala de cinza da imagem mostrada na Figura 5.a, da coordenada (1,1) até ( 8, 8). 48 49 45 47 49 57 39 42
45 52 39 46 56 45 39 47
45 50 42 51 51 45 40 48
49 46 47 47 50 47 42 45
46 46 47 48 48 44 43 44
47 45 48 51 44 35 41 49
45 48 46 50 33 37 42 51
Tabela 2 - Coeficientes da DCT-II aplicada sobre a Figura 5.a, da coordenada (1,1) até (8,8).
13027,44 440,7733 -3362,41 -81,0502 -1537,09 -17,5546 -258,254 -143,42
-830,883 -31,0569 281,9323 111,4275 689,0147 -95,302 -331,37 -107,274
-1910,15 -130,886 -928,488 -155,236 -141,261 99,54243 542,4558 303,7855
-329,574 -62,2932 820,6742 61,32153 108,4638 -68,1254 35,131 144,917
-448,91 -189,54 1123,19 -139,74 933,1067 257,6487 -11,2129 175,4307
-1004,49 -13,6381 30,91486 -104,476 -167,102 6,390216 -15,357 -49,4262
-217,712 71,19742 -116,731 25,51587 -380,133 106,3373 -265,289 -104,231
170,2288 -12,4388 330,3308 -20,5716 84,55819 115,5538 194,5883 71,90636
27
Na Figura 6 é ilustrada a reconstrução de uma imagem de face após a aplicação da
DCT-II e da DCT-II inversa. A Figura 6.a corresponde à face original, de dimensão 112 x 92,
ou seja, uma matriz de 10.304 valores; as duas faces seguintes (Figura 6.b e 6.c) representam
a reconstrução de imagem original utilizando-se, respectivamente, 2.576 e 625 coeficientes
DCT. Para se obter uma imagem reconstruída foi adotado o seguinte procedimento: aplicação
da DCT-II sobre a face original, atribuição do valor zero aos coeficientes DCT a serem
descartados e por último a aplicação da DCT-II inversa sobre a nova matriz de coeficientes.
Na Figura 6.b é ilustrada a reconstrução da face original considerando apenas os coeficientes
DCT do primeiro quadrante, ou seja, 25% dos coeficientes DCT foram preservados, os
coeficientes da posição (1,1) até (56,46) foram mantidos e os 7.728 coeficientes restantes
foram zerados. Na Figura 6.c é ilustrada a reconstrução da face original preservando apenas
6,07% dos coeficientes DCT originais, da posição (1,1) até (25,25), e atribuindo-se zeros aos
9.679 coeficientes restantes.
Pelas imagens reconstruídas da Figura 6, pode-se ver que redução de dimensionalidade
baseada em DCT produz bons resultados. As imagens reconstruídas considerando apenas os
coeficientes DCT de baixa freqüência apresentam redução de detalhes, mas informações
importantes para caracterizar as imagens são preservadas. Tais resultados sugerem ser viável
um método de reconhecimento de faces que faça redução da dimensionalidade baseado em
DCT.
a) Imagem original (10.304 pixels) b) Imagem reconstruída com 25%
dos coeficientes preservados b) Imagem reconstruída com 6,07%
dos coeficientes preservados
Figura 6 - Imagem original e sua reconstrução com coeficientes DCT de baixa freqüência.
28
Capítulo 4
Reconhecimento de Faces
Os primeiros trabalhos de reconhecimento automático de faces foram publicados na década de
1970 e desde então este tem sido um tema de interesse de áreas como processamento de
imagens, reconhecimento de padrão, redes neurais, visão computacional, computação gráfica
e psicologia [Zhao et al., 2003].
Os métodos propostos para reconhecimento de faces sugerem a execução de um
conjunto de atividades que conduzem a um reconhecimento robusto e com maior número de
acertos. Um processo típico de reconhecimento de faces, normalmente, estabelece a execução
das seguintes atividades: detecção da face, normalização, extração de características,
comparação com o banco de dados e decisão final [Ivancevic et al., 2003]. A detecção da face
identifica a presença de uma face em uma imagem, isola a face e descarta demais objetos da
imagem. A normalização compensa variações que possam existir em uma face, tratando em
especial aspectos como iluminação, aproximação e posição, produzindo ao final uma imagem
o mais próxima possível do padrão do banco de dados da comparação. A extração de
características gera o conjunto de atributos que serão utilizados no processo de comparação
com o banco de dados. A comparação com o banco de dados verifica o grau de coincidência
entre o conjunto de atributos selecionados da face desconhecida e os mesmos atributos das
imagens armazenadas no banco de dados. A decisão final conclui sobre o reconhecimento
considerando as comparações efetivadas.
29
4.1 Seleção de Atributos
Uma imagem de face representada por uma matriz de pixels de a linhas e b colunas é vista
como um padrão no espaço de imagens de dimensionalidade N = a * b. Considerando a
obtenção de imagens por câmeras e scanners modernos, N pode se tornar um valor elevado,
implicando um alto custo de processamento. Como o espaço de imagens possui características
que podem ser eliminadas, sem comprometer o resultado do reconhecimento, e um valor
elevado de N não é apropriado, tanto pelo custo computacional como pelo problema da
dimensionalidade, descrito na Seção 2.2.2, abordagens de redução da dimensionalidade são
aplicadas em sistemas de reconhecimento de faces. Entretanto, ao reduzir a dimensionalidade
é importante analisar o comportamento do classificador, pois uma redução excessiva da
dimensionalidade pode comprometer os seus resultados.
Há métodos lineares e não lineares de extração de atributos [Jain, Duin et al., 2000]. Os
métodos lineares caracterizam-se por aplicarem uma mudança de base sobre o espaço original
dos atributos, permitindo conseqüentemente a inversão da transformação realizada. As
transformadas DCT, KLT e Wavelet são exemplos de tais transformações e métodos de
reconhecimento de faces baseados em tais transformadas têm obtido resultados promissores,
como por exemplo, Análise de Componentes Principais (Principal Components Analysis -
PCA) e Análise de Discriminantes Lineares de Fisher (Linear Discriminant Analysis - LDA).
Os extratores não lineares, que se caracterizam por impossibilidade de inversão da
transformação, têm sido implementados principalmente por redes neurais.
Apesar da distinção existente entre seleção e extração de atributos, na literatura
verifica-se, de forma generalizada o uso do termo seleção para expressar redução de
dimensionalidade de imagens de faces. Nesse trabalho, apesar de se fazer redução de
dimensionalidade por extração de atributos, também trata-se tal operação de forma
generalizada como seleção de atributos. Em particular, o método de reconhecimento de faces
proposto nesse trabalho reduz a dimensionalidade baseado na seleção de coeficientes após
30
aplicação da DCT sobre a imagem original.
4.2 Abordagens de Classificação
Uma diferença importante entre classificadores é a forma como se definem as fronteiras de
decisão a partir dos dados de treinamento. Sabe-se que no aprendizado supervisionado as
fronteiras são pré-estabelecidas enquanto no não-supervisionado as fronteiras devem ser
deduzidas. Nos sistemas de reconhecimento de faces atuais geralmente se tem o aprendizado
supervisionado [Chellappa et al., 1995], pois as imagens de treinamento possuem a
identificação da pessoa que foi fotografada, ficando assim as classes existentes perfeitamente
separadas previamente.
O classificador de Bayes, apesar de ser considerado ótimo, para ser aplicado necessita
da probabilidade a priori Pi e da probabilidade condicional p(x|wi), que são desconhecidas em
muitos problemas reais. Apesar de se ter métodos de estimação de tais probabilidades, o custo
computacional para uma representação precisa é alto. No caso específico de reconhecimento
de face, geralmente não se aplica diretamente a regra de decisão de Bayes, sendo utilizados
como alternativas classificadores baseados em similaridades, como os seguintes: k-vizinhos
mais próximo, vizinho mais próximo e distância mínima ao protótipo [Campos, 2001]. Na
literatura, entretanto, destaca-se a aplicação do classificador do vizinho mais próximo em
experimentos de reconhecimento de faces.
4.3 Bancos de Faces
A aparência de uma face humana pode ser modificada por aspectos como iluminação, pose,
expressão facial, idade, oclusão, adornos, etc. Para testes e comparações de aplicações
robustas de reconhecimento de faces são necessários banco de dados de faces que possuam
variações de tais aspectos.
Como reconhecimento de faces é uma área de pesquisa fortemente atuante desde a
década de 1990, bancos de faces para testes de aplicações já estão disponíveis para uso, sendo
31
inclusive alguns liberados de forma gratuita. Entretanto, em relação aos aspectos
modificadores da face humana, há bancos com uma maior coleta e controle desses aspectos
enquanto outros o fazem de forma mais reduzida.
Uma relação e caracterização de bancos de faces 2D referenciados na literatura estão
disponíveis em Li e Jain [2005]. Para reconhecimento de faces em específico são
apresentados 18 bancos, sendo 8 deles classificados como bancos antigos e 10 como bancos
mais atuais. A seguir são citados cinco bancos de cada modalidade, considerando a
classificação apresentada em Li e Jain [2005]:
• Bancos pioneiros: HRL (Harvard Robotics Lab), MIT Database, ORL (Olivetti
Research Lab ), UMIST e Yale;
• Bancos mais atuais e com notável controle de aquisição de imagens: AR-
Database, CAS-PEAL (Chinese Academy of Science - Pose, Expression,
Acessory, Lighting), CMU-PIE (Carnegie Mellon University - Pose, Illumination
and Expression), FERET (Facial Recognition Technology) e Yale-B.
Na Tabela 3 é apresentado um resumo das características básicas dos bancos 2D que são
referenciados nesse trabalho.
Tabela 3 - Características dos bancos de faces 2D referenciados nesse trabalho. Aspectos controlados Banco Número de
Pessoas Poses por
pessoa Resolução
Iluminação Pose Expressão Escala Oclusão
AR 116 13 768 X 576 Sim Não Sim Não Sim
FERET 30000 - 256 X 384 Sim Sim Sim Não Não
ORL 40 10 112 X 92 Sim Sim Sim Não Não
PIE 68 13 640 X 486 Sim Sim Não Não Não
Yale 15 11 320 X 243 Sim Não Sim Não Não
Yale B 10 9 640 X 480 Sim Sim Não Não Não
4.4 Alguns Métodos Descritos na Literatura
Os métodos pioneiros de reconhecimento de faces por computador necessitavam de
operadores humanos para a localização de pontos na face, cujas posições eram fornecidas
como entrada. Dado um conjunto de pontos e de distâncias, se tinha a representação de
32
características da face, como distância entre nariz e queixo, distância entre olhos, tamanho da
boca, etc. A técnica do vizinho mais próximo ou outras regras de classificação eram utilizadas
para o reconhecimento. Como a extração de características era feita manualmente, os sistemas
eram indiferentes a aspectos como pose, iluminação e escala. Em seguida, vieram os métodos
sem intervenção humana para a aquisição de dados de entrada e seus árduos desafios
[Chellappa et al., 1995].
Os métodos propostos para reconhecimento de faces podem ser classificados em duas
categorias: métodos baseados em características e métodos holísticos [Hafed e Levine, 2001;
Zhao et al., 2003]. Os métodos baseados em características fazem o reconhecimento
considerando características individuas da face e suas relações geométricas, incluindo-se
normalmente na análise características como olhos, nariz e boca, assim como medidas de
distância e ângulos entre tais características. Os métodos holísticos, por sua vez, consideram a
face como um todo, sem identificar características físicas individuas, e têm produzido
resultados eficientes, visto que pequenas diferenças nas imagens comparadas não prejudicam
o reconhecimento como um todo. Alguns métodos holísticos da literatura se baseiam em
transformadas matemáticas, como DCT, KLT e Transformada Wavelet. Outras categorias de
métodos de reconhecimento de faces também referenciadas na literatura e com características
peculiares são os métodos 3D e os métodos de identificação de face em seqüência de vídeo
[Zhao et al., 2003].
Considerando o legado da área de reconhecimento de padrões, verifica-se nos métodos
propostos de reconhecimento de faces significativa aplicação da abordagem estatística e das
redes neurais. Métodos de reconhecimento de faces propostos baseados na abordagem
estatística destacam a aplicação dos seguintes paradigmas [Nefian, 1996]: correlação, modelo
de Markov, PCA e Fisherfaces. Os métodos baseados em PCA e em Fisherfaces são
constantemente aprimorados e referenciados na literatura, especialmente devido às altas taxas
de reconhecimento obtidas.
33
Nas seções seguintes são contempladas abordagens adotadas por métodos de
reconhecimento de faces da atualidade. Métodos baseados em PCA, LDA e DCT são
discutidos em seções específicas por apresentarem um maior grau de relacionamento com os
métodos propostos nesse trabalho. Outras abordagens de reconhecimento de faces são
referenciadas conjuntamente na Seção 4.5.4 (abordagens adicionais).
4.4.1 Métodos Baseados em Análise de Componentes Principais (PCA)
PCA é um método estatístico bem conhecido de múltiplas variáveis. Tem por finalidade
básica a análise dos dados, visando sua redução, eliminação de sobreposições e a escolha das
formas mais representativas de dados a partir de combinações lineares das variáveis originais,
ou seja, identificar o melhor arranjo que representa a distribuição dos dados.
Visando tratar as imagens como padrões para efetivar o reconhecimento estatístico,
faz-se necessário a transformação do espaço de imagem para o espaço linear. Considerando
uma imagem de a linhas e b colunas, sua representação no espaço da imagem corresponde a
uma matriz de a x b características, que deve ser transformada para o espaço linear, sendo
então representada por um vetor coluna x construído a partir da leitura coluna por coluna da
imagem original.
O espaço de imagem é bastante redundante para representar uma face, ou seja, pixels
adjacentes são correlacionados. Além disso, como faces diferentes possuem características
comuns, como olhos, nariz e boca, vetores que representam faces distintas também podem ser
bastantecorrelacionados. Tendo como objetivo uma representação compacta e capaz de
discriminar diferentes classes, a técnica PCA se baseia em reduzir o máximo possível a
covariância existente entre os vetores que representam as imagens.
Sejam x1, x2, x3, ..., xm vetores, cada um com N2 elementos, que representam as imagens
de treinamento da classe j, obtidos a partir de matrizes de imagens de dimensão N x N. Seja µ
a média de tais vetores, dado pela Equação 10, e seja yi = µ-xi o vetor que representa a
diferença da face associado ao vetor xi em relação à média de sua classe. A matriz de
34
covariância da classe j é dada pela Equação 11, sendo C uma matriz de dimensão N2 x N2 que
determina os N2 autovetores da classe j, cada um com seu próprio autovalor.
∑=
=m
i
im 1
1xµ
(10)
∑=
=m
i
T
iim
C1
*1
yy (11)
A PCA tem como idéia principal encontrar os autovetores que melhor diferenciem a
distribuição das faces, representando as faces por poucos parâmetros. Estes parâmetros são
obtidos pela projeção da face sobre um sistema de coordenadas dado por autovetores da
matriz de covariância do conjunto de treinamento. Os autovetores, neste contexto também
chamados eigenfaces [Turk e Pentland, 1991], transpõem um vetor para um novo espaço
chamado espaço de faces. Cada face é então codificada por meio de suas coordenadas no
espaço de faces. O casamento de duas faces corresponde então a um cálculo da distância
Euclidiana (ou similar) entre suas representações no espaço de face, ou seja, classifica-se pela
abordagem do vizinho mais próximo (NN).
Considerando o contexto de reconhecimento de faces, os passos para a identificação das
componentes principais, de forma resumida, são: calcular a matriz de covariância das faces de
treinamento de uma classe, calcular os autovalores e autovetores da matriz de covariância e
ordenar os autovetores pelo valor de seus autovalores.
A transformada KLT é uma técnica de redução do número total de variáveis, empregada
quando existe redundância nos dados, como no caso de imagens em que se têm pixels
altamente correlacionados. A existência de redundância é o que permite a redução no número
de variáveis. Por meio da KLT se transforma variáveis discretas em coeficientes
descorrelacionados, baseando-se na matriz de correlações entre as variáveis analisadas.
A matriz resultante da aplicação da transformada KLT ordena autovetores. Suas linhas
são formadas a partir dos autovetores da matriz de covariância, arranjados de modo que a
35
primeira linha seja o autovetor correspondente ao maior autovalor, e assim sucessivamente até
que a última linha corresponda ao menor autovalor.
O autovetor com o maior autovalor associado corresponde à componente principal do
conjunto de dados utilizados. Isso significa que esse é o relacionamento mais significativo
entre os dados avaliados. A transformada KLT pode então ser utilizada para a identificação
das principais características dos dados, pois seu efeito é o alinhamento dos autovetores
descorrelacionando os dados.
A transformada KLT é amplamente utilizada pela comunidade de reconhecimento de
padrão e de reconhecimento de faces [Chellapa et al., 2003; Abate et al., 2007]. Métodos de
reconhecimento de faces implementados sobre a transformada KLT têm sido bem sucedidos
Nesse contexto tem-se o método de Eigenfaces [Turk e Pentland, 1991], que utiliza PCA para
reconhecimento de faces e é amplamente referenciado na literatura. Tal método tem sido
considerado uma das abordagens mais promissoras para reconhecimento de faces, chegando a
ser indicado por [Jain, Duin et al., 2000] como o melhor extrator de características linear
conhecido.
Embora PCA seja uma abordagem conceitualmente simples, o processo de treinamento
é computacionalmente custoso. Inclusive, de acordo com [Duda et al., 2000] PCA é uma
técnica de extração de características propícia para dados com distribuição Gaussiana, não se
tendo certeza, entretanto, que imagens de faces possuam tal distribuição. Apesar de tais
limitações, métodos de reconhecimento de faces baseados em PCA têm produzido elevadas
taxas de reconhecimento.
Assim como a abordagem Eigenfaces, outros métodos de reconhecimento de faces
baseados em KLT e PCA têm sido propostos. Em [Abate et al., 2007] são referenciados
métodos baseados em PCA que proporcionam taxas de reconhecimento promissoras, acima de
90%.
36
4.4.2 Métodos Baseados em Análise de Discriminantes Lineares de Fisher (LDA)
A Análise de Discriminantes Lineares de Fisher (LDA), também conhecida como Fisherfaces
quando aplicada a reconhecimento de faces, tem sido indicada na literatura como uma das
melhores abordagens adotadas por métodos de reconhecimento de faces, sendo inclusive
considerada superior em alguns aspectos à abordagem PCA [Nefian, 1996; Belhumeur, 1997;
Ruiz-del-Solar, 2005].
LDA é uma abordagem que extrai linearmente as características mais discriminantes das
classes existentes a partir das informações associadas a cada padrão. A separação interclasses
é enfatizada por meio da substituição da matriz de covariância adotada pelo PCA pela medida
de separação de Fisher [Fisher, 1938]. São calculadas inicialmente as matrizes de
espalhamento intraclasse e de espalhamento interclasses, maximizando-se em seguida a
importância das relações interclasses em contraposição à minimização da importância das
relações intraclasses [Campos, 2001]. Como resultado, verifica-se que métodos baseados em
LDA desenvolvem um conjunto de vetores de características nos quais variações de diferentes
faces são enfatizadas enquanto diferentes condições de iluminação, expressões faciais e
orientação são desconsideradas.
Para todas as q amostras de uma classe, a matriz de espalhamento intraclasse da classe w
é definida conforme Equação 12, sendo j
ix o i-ésimo vetor da classe j, jµ o vetor da média
da classe j e p o número de classes. A matriz de espalhamento interclasses é dada pela
Equação 13, com µ representando o vetor média de todas as classes. Para se maximizar a
importância do espalhamento interclasses em contraposição à minimização da importância do
espalhamento intraclasses, deve-se maximizar a taxa expressa pela Equação 14, que ocorrerá
quando os vetores colunas corresponderem aos autovetores de SSw *1− [Fisher, 1938].
( ) ( )T
j
j
i
p
j
q
i
j
j
iw xxS µµ −−=∑∑=
*1
(12)
37
( ) ( )T
j
p
j
jS µµµµ −−=∑=1
* (13)
)det(
)det(
wS
S (14)
Como exemplos de métodos de reconhecimento de faces baseados em LDA tem-se as
propostas de [Chen, 2000; Xiang, 2004; Jing, 2004] com taxas de reconhecimento acima de
96%.
Artigos comparando PCA e LDA mostram que o espaço de características criado pela
abordagem LDA geralmente proporciona resultados de classificação de face superiores ao
espaço criado pela PCA, em especial na presença de variações de iluminação [Belhumeur,
1997; Xiang, 2004; Ruiz-del-Solar, 2005; Ekenel, 2007]. Em contraposição a tais
comparações, em [Martinez e Kak, 2001] se mostra que o desempenho do PCA pode ser
superior ao LDA quando se tem um pequeno conjunto de treinamento, mas com o aumento do
conjunto de treinamento LDA se sobressai sobre PCA. Nos testes realizados por [Martinez e
Kak, 2001], o melhor desempenho do PCA se deu sobre o banco AR Face Database
utilizando-se duas imagens de treinamento e cinco imagens de teste.
Além de ter o desempenho comprometido quando se tem um reduzido conjunto de
treinamento, sabe-se que uma distribuição de classes côncava e distribuições com muitas
interseções de classes também implicam um baixo desempenho da abordagem LDA [Campos,
2001].
4.4.3 Métodos Baseados em DCT
Motivados pelas propriedades da DCT, assim como pelos seus algoritmos rápidos, métodos
de reconhecimento de faces baseados em DCT têm sido propostos e alcançado taxas de
acertos compatíveis com as taxas obtidas por métodos baseados em PCA e LDA, destacando-
se em especial nos métodos baseados em DCT uma notável redução do custo computacional
[Ekenel, 2007].
38
Baseando-se em métodos de processamento de sinais, Podilchuk [1996] propõe um
método de reconhecimento de faces que define blocos posicionados sobre áreas expressivas
da face humana, como olhos e boca. O método define os blocos representativos das principais
características da face humana, aplica DCT sobre tais blocos gerando vetores de blocos para
cada uma das imagens de treinamento e finaliza com classificação por distância mínima.
Relata-se que, considerando um banco de 500 imagens, obteve-se uma taxa de
reconhecimento “promissora”, não sendo especificado no artigo o valor da taxa de acerto.
O método de reconhecimento de faces baseado em DCT proposto por Hafed e Levine
[2001] atinge taxa de acertos de aproximadamente 92,5%, considerando testes realizados
sobre o banco ORL. O método aplica a DCT sobre as faces de treinamento assim como sobre
a face de teste, seleciona os 49 coeficientes DCT de mais baixa freqüência de cada face e
aplica o vizinho mais próximo para classificar a face de teste em relação a todas as faces de
treinamento, considerando apenas os 49 coeficientes selecionados. A taxa de acerto de
aproximadamente 92,5% foi atingida no caso específico em que o treinamento foi feito com
as cinco primeiras faces do banco e os testes com as cinco faces restantes. No caso de
treinamento reduzido, utilizando-se unicamente a primeira face de cada pessoa do banco, a
taxa de acertos obtida foi de 70%.
Uma combinação de DWT e DCT para seleção de atributos e SVM para classificação
foi proposta por Yu et al. [2006]. Para a seleção, se aplica primeiramente a DWT sobre a
imagem, a seguir se aplica DCT apenas sobre a sub-banda LL resultante da DWT e por último
se reduz a dimensionalidade considerando apenas os coeficientes DCT de mais baixa
freqüência. O método foi testado sobre o banco de faces ORL, com cinco faces de
treinamento e cinco faces de teste e obteve como melhor resultado 98% de acertos com
aproximadamente 200 coeficientes. Na comparação com outras abordagens, Yu et al. [2006]
apontam Eigenfaces, Fisherfaces e DCT+LDA com taxas de acertos, respectivamente, de
90,5%, 95% e 97,5%.
39
Choi et al. [2006] propõem um método mais elaborado de seleção de atributos
combinando DCT, energia de probabilidade e LDA. O método propõe a seleção de atributos
em três passos: primeiro se aplica a DCT sobre as imagens de treinamento, a seguir se reduz a
dimensionalidade dos dados a partir da aplicação de uma máscara de freqüência baseada em
energia de probabilidade e por último se aplica LDA para obter os atributos mais
representativos da face. A classificação proposta pelo método corresponde à abordagem do
vizinho mais próximo considerando distância Euclidiana. Os testes foram realizados sobre um
banco de faces proprietário, registrando taxa de reconhecimento de 96,8%. Sobre o banco de
faces utilizado nos testes foram expostas as seguintes características: 55 pessoas, 20 poses por
pessoa e dimensão das imagens de 64 X 64.
Propostas híbridas baseadas em seleção por DCT e classificação por redes neurais
podem ser vistas em [Faúndez-Zanub, 2003; Faúndez-Zanuy e Enric, 2006; Zhang, 2006],
todas apresentando resultados obtidos pela utilização do banco de faces ORL, com cinco faces
de treinamento e cinco faces de testes. O primeiro método [Faúndez-Zanub, 2003] seleciona
coeficientes DCT de baixa freqüência, refinados pela abordagem quadrada (n x n) ou pela
abordagem circular-radial, combinado com classificação por vizinho mais próximo e distância
aferida pela diferença absoluta média (Mean Absolute Diference, MAD), ou combinado com
redes neurais do tipo Multicamadas Perceptron (Multi Layer Perceptron, MLP) e distância
dada pelo erro médio quadrático regularizado (Mean Square Error Regularized, MSERED).
Considerando o vetor de atributos de cada face de treinamento com 100 elementos, a
abordagem de classificação por redes neurais se sobressai com 96,5% de acertos contra 92,5%
obtido pelo classificador de vizinho mais próximo, com diferenças desprezíveis em relação à
abordagem de seleção. O segundo método [Faudez-Zanuy e Enric, 2006] faz uma seleção
baseada em DCT, a seguir treina uma rede Função de Base Radial (Radial Basis Function,
RBF) com os coeficientes selecionados gerando um modelo para cada imagem de treinamento
e, por último, realiza a classificação por vizinho mais próximo. O método obteve taxa de
40
acertos de 96,5% com vetores de atributos contendo 100 elementos. O terceiro método [Zhang
et al., 2006] divide primeiro as imagens em bloco de tamanhos idênticos denominados sub-
imagens, a seguir aplica DCT em cada sub-imagem, selecionando por sub-imagem o maior
coeficiente e os concatena para gerar o vetor de características da imagem; depois define para
cada face de treinamento um padrão consistindo de uma rede neural não linear modelo KIII
(Multi Layer Neural Model – K0, KI and KII Units)e finaliza com a classificação por vizinho
mais próximo. O método obtém 91,5% de acertos com dimensão do vetor de características
igual a 64.
Propostas apresentadas por Kohir e Desai [2000] e Kumar et al. [2006] combinam DCT
e HMM, ambas obtendo 100% de acerto sobre o banco ORL. O método de Kumar et al.
[2006] define primeiro blocos sobre áreas expressivas da face, como olhos, nariz e boca, a
seguir aplicada DCT sobre tais blocos gerando vetores de características para cada face de
treinamento, sendo tais vetores obtidos pela aplicação de uma seqüência do tipo zig-zag sobre
o bloco de coeficientes DCT. Os vetores são então utilizados para o treinamento dos modelos
HMM, com um modelo por face de treinamento, e, por último, se classifica por máxima
probabilidade de acerto. O método foi testado sobre o banco de faces ORL, considerando seis
poses de treinamento e 4 de testes, blocos de dimensão 8 x 8, vetores de características com
dimensão 16 e modelos HMM variando de um a onze estados. Com três abordagens de testes
relacionadas à forma como se define a vizinhança dos blocos, se obteve taxa de acertos
variando de 75,63% a 100%, sendo a taxa máxima obtida com modelo HMM de 7 estados e
abordagem de teste considerando vizinhos horizontais e verticais de cada bloco.
Considerando o escopo de aplicações para ambientes específicos, em que a máquina
identifica seu usuário em tempo real com reduzido controle de ambiente, como aplicações de
acesso a residências e automóvel, Ekenel et al. [2007] propõem um método de
reconhecimento de faces que faz a seleção de atributos baseada em DCT e a classificação pelo
vizinho mais próximo. A seleção proposta pelo método consiste em aplicar a DCT em blocos
41
de 8 x 8, ordenar os coeficientes de cada bloco em zig-zag, selecionar em cada bloco um
subconjunto de m coeficientes de acordo com o critério desejado e concatenar os subconjuntos
selecionados. O método proposto com DCT obtém taxa de acerto de 80,6%. Sobre o mesmo
banco de seqüências de vídeo e considerando a mesma dimensionalidade da seleção de
atributos, Ekenel et al. [2007] também realizam testes com algoritmos de seleção conhecidos
baseados em PCA e LDA e obtêm acertos de 68,7% e 75,9% respectivamente.
Considerando o treinamento reduzido, com uma única amostra, Lu et al. [2006]
comparam cinco algoritmos de reconhecimento de faces, realizando-se experimentos sobre os
bancos de faces Yale e AMP. Os métodos híbridos denominados DCT+2DPCA e DCT+DCT
se sobressaíram no banco AMP, com 934 acertos contra 28 erros de classificação (97,08% de
acerto). O método denominado DCT se sobressaiu no banco Yale com 375 acertos e 255 erros
(59,52% de acerto), seguindo pelo método DCT+2DPCA com 374 acertos e 256 erros
(59,36% de acerto).
Combinando DCT e PCA, He et al. [2006] propõem um método de treinamento
reduzido, com uma única amostra. O método realiza primeiro a reconstrução de cada face de
treinamento a partir dos componentes DCT de mais baixa freqüência, a seguir aplica PCA
sobre uma combinação da imagem original com a imagem reconstruída e, por último,
classifica pelo vizinho mais próximo. O método foi testado sobre o banco ORL, sendo
utilizada para treinamento a primeira face de cada pessoa, ficando as demais 360 faces do
banco para testes. Considerando 55 coeficientes DCT, o método obtém taxa de acerto de
75,56%, se sobressaindo sobre outras abordagens de treinamento reduzido avaliadas que
variaram a taxa de acertos de 65,44% a 74,53%.
Apesar de quase meio século de pesquisas e progressos significativos em
reconhecimento de padrões, variações expressivas de orientação, localização e escala, assim
como custo computacional de processamento continuam representando desafios a serem
vencidos. Dessa forma, abordagens alternativas para reconhecimento de faces vêm sendo
42
continuamente apresentadas.
Motivados pela demanda de métodos de reconhecimento de faces robustos e pelos
resultados promissores da utilização de DCT em diversas propostas, apresenta-se nesse
trabalho abordagens de reconhecimento de faces baseado na seleção de coeficientes da DCT.
As propriedades da DCT são apropriadas para a redução de dimensionalidade e seu custo
computacional é substancialmente menor do que o custo da transformada KLT [Batista,
2002], [Faúndez-Zanuy, 2003].
4.4.4 Abordagens Adicionais
Correlação, Modelos Ocultos de Markov (Hidden Markov Models, HMM), Análise de
Componentes Independentes (Independent Component Analysis, ICA), redes neurais, DWT,
métodos baseados em características geométricas, métodos 3D e combinação de métodos são
exemplos de outros paradigmas que têm sido utilizados para reconhecimento de faces. Visto
que nesse trabalho se adota o uso de DCT, métodos híbridos combinando DCT com outras
técnicas foram apresentados na Seção 4.4.3.
Métodos baseados em correlação fazem o reconhecimento de face por meio do
casamento entre as imagens de teste e um conjunto de imagens de treinamento baseado em
coeficientes de correlação, que indicam a força e a direção do relacionamento linear entre
duas variáveis aleatórias. Entretanto, métodos baseados em correlação são muito dependentes
de iluminação, rotação e escala, além de seu alto custo computacional [Nefian, 1996].
A técnica HMM corresponde a um conjunto de modelos estatísticos usados para
caracterizar propriedades estatísticas de um sinal. O HMM é feito em dois processos inter-
relacionados: o primeiro processo consiste em definir a cadeia oculta de Markov a partir de
números de estados finitos, um estado de transição, a matriz de probabilidade, o estado inicial
e a distribuição de probabilidade; o segundo processo consiste em definir para cada estado o
conjunto de funções de densidade de probabilidade.
HMM tem sido usado para reconhecimento de voz, em que os dados são naturalmente
43
unidimensionais ao longo do eixo do tempo. Entretanto, apesar de cadeias HMM em duas
dimensões implicarem elevado custo computacional, experimentos de reconhecimento de
caracteres são bem sucedidos. No caso específico de reconhecimento de faces com HMM, os
métodos condizem a resultados promissores, como os de Bicego [2003] e Kumar et al. [2006]
versus um elevado custo computacional associado à etapa de treinamento.
A proposta de Bicego [2003] combina HMM e DWT. Primeiro, são definidas
sub-imagens de mesmo tamanho, com sobreposições, obtidas a partir da imagem original; a
seguir se aplica DWT sobre cada sub-imagem gerando os vetores de características a partir da
magnitude decrescente dos coeficientes DWT; depois se treina um modelo HMM por face de
treinamento considerando seus vetores de características. O método finaliza com a
classificação por probabilidade máxima sobre os modelos HMM treinados. O método foi
testado sobre o banco ORL, considerando 5 poses de treinamento e 5 de teste e obteve de
97,4% a 100% de acerto. A taxa máxima foi obtida sob as seguintes condições: sub-imagens
de dimensão 16 x 16, vetores de características com 12 elementos e sobreposição de 50%.
A técnica de ICA, assim como PCA, corresponde a uma abordagem estatística que
representa uma imagem a partir de combinações lineares dos pixels das imagens de
treinamento. Entretanto, enquanto PCA trabalha apenas com relações aos pares, ICA, de
forma mais abrangente, inclui relações entre pixels de ordem mais alta. Bartlett et al. [2002]
propõem dois métodos de reconhecimento de faces baseados em ICA, o primeiro tratando as
imagens como variáveis aleatórias e os pixels como resultado e o segundo tratando os pixels
como variáveis aleatórias e as imagens como resultados. Com testes realizados sobre o banco
FERET e usando 200 atributos, as propostas apresentam reconhecimento de 85% e 87%,
respectivamente, enquanto PCA sob as mesmas condições atinge aproximadamente 85% de
acertos.
A abordagem neural de aprendizado Codificação Esparsa Não Negativa (Non-Negative
Sparce Coding, NNSC) foi aplicada por Shastir and Levine [2004] para reconhecimento de
44
faces e comparada com outras abordagens semelhantes, como Fatorização de Matrizes
Não-negativa (Non -Negative Matrix Factorization, NMF) e Fatorização de Matrizes Não-
negativa Local (Local Non Negative Matrix Factorization, LNMF). A classificação foi
realizada pelo vizinho mais próximo, sendo aplicadas e avaliadas três métricas de distância, a
saber: soma da norma, distância euclidiana e correlação. Os bancos de faces utilizados nos
testes foram ORL, Yale B e AR, sendo realizados testes diferenciados em cada banco, dada a
notável distinção de características por eles contempladas referentes à iluminação, expressão e
oclusão. A melhor taxa de acerto obtida com NNSC sobre o banco ORL foi 96,7%.
Entretanto, tal banco corresponde ao mais simples dentre os bancos considerados.
Uma proposta recente de reconhecimento de faces baseada em redes neurais pode ser
vista em Nazeer et al. [2007], que compara classificação por redes neurais com outras
abordagens, como distância euclidiana e correlação. O método foi testado sobre um banco de
faces particular, contendo 20 pessoas, cada uma em 10 poses, e obteve melhor desempenho do
classificador baseado em redes neurais, com 92,59% de acertos, seguido pelas abordagens de
distância euclidiana e correlação, ambas com 91,85% de acertos.
Dois métodos baseados em DWT foram propostos em Samra et al. [2004], o primeiro
combinando DWT com FFT e o segundo combinando DWT com DCT. Ambos os métodos
aplicam primeiro a DWT sobre as imagens de treinamento e a seguir consideram apenas a
sub-banda LL resultante da DWT para aplicar a segunda transformada, seja FFT ou DCT.
Considerando experimentos realizados sobre o banco ORL, as taxas de reconhecimento do
método que combina DWT com FFT e do método que combina DWT com DCT foram,
respectivamente, 66,25% e 77,58%. Entretanto a abordagem baseada em FFT se mostrou mais
apropriada para variações de iluminação e presença de oclusão enquanto a abordagem
baseada em DCT se mostrou mais apropriada para diferentes escalas e poses.
Um estudo comparativo relacionado a métodos baseados em características locais pode
ser visto no artigo de Zou et al. [2007], que aponta métodos baseados em características locais
45
com taxa de acerto acima de 90%, considerando testes realizados sobre os bancos de faces
FERET e AR.
Na década de 1990 se verifica considerável destaque de métodos baseados em
características locais, inclusive participando de métodos híbridos envolvendo PCA, filtro de
Gabor e Padrões Binários Locais (Local Binary Patterns, LBP). Destacam-se nesses métodos
as etapas de alinhamento e particionamento, extração de características e classificação, cada
uma adaptada ao contexto de características locais [Zou et al., 2007]. Para a etapa de
alinhamento e particionamento são identificadas três categorias: a primeira se concentra em
localizar as características da face, como olhos, boca e nariz, isolar tais elementos e prosseguir
no processo de classificação; a segunda ajusta ou deforma a face para um padrão de face
definido e identifica a seguir suas características locais; a terceira categoria alinha a face com
um sistema comum de coordenadas, por meio de translação, rotação ou escala, particiona a
face em blocos e prossegue para reconhecer blocos específicos. Para a etapa de extração de
características, PCA, filtro de Gabor e DWT foram utilizados, cada um com seus benefícios e
limitações. A etapa de classificação definida na maioria dos métodos baseado em
características locais é feita pela abordagem do vizinho mais próximo.
Tendo maior similaridade com os métodos baseados em características geométricas, em
[Jones e Viola, 2003] se propõe um método de reconhecimento de faces baseado em
características locais impulsionadas (boosted). Trata-se de uma abordagem que avalia regiões
de similaridade entre um par de faces, a partir de regiões retangulares. Quando as faces de um
par pertencem à mesma pessoa são obtidas as similaridades, quando pertencem a pessoas
distintas, são obtidas as diferenças. O método foi testado sobre o banco de faces FERET e,
considerando no treinamento aproximadamente 53 filtros retangulares, foi obtida uma taxa de
reconhecimento de 94%.
Considerando imagens tridimensionais, métodos 3D para reconhecimento de faces
apresentam progressos significativos [Zhoa e Chellappa, 2000; Abate et al., 2006], apesar de
46
dificuldades, como obtenção de alinhamento adequado, complexidade, custo computacional e
reduzido número de bancos de faces 3D. A abordagem 3D justifica-se, entretanto, por ser
capaz de representar toda a geometria da face, podendo visualizar detalhes diferenciais como
curvatura, profundidade, textura e volume, até então não permitido aos métodos 2D.
Mesmo com poucos métodos 3D tendo sido propostos, tem-se em Abate et al. [2007]
um estudo comparativo incluindo propriedades intrínsecas, vantagens e limitação de cada
abordagem, assim como bancos 3D já disponíveis. Métodos explorando curvatura, volume e
morphing têm obtido taxa de acerto acima de 95%, considerando usualmente a utilização de
bancos 3D proprietários. O Modelo Híbrido Gaussiano (Gaussian Mixture Model, GMM) e o
algoritmo de Pontos Mais Próximos de Iteração (Iterative Closest Point, ICP) são propostas
relevantes apresentadas, verificando-se inclusive combinação de propostas 3D com PCA e
LDA [Abate et al., 2007].
4.4.5 Tabela Resumo dos Métodos Apresentados
Na Tabela 4 é apresentado um resumo dos métodos de reconhecimento de faces referenciados
nesse trabalho, ordenados cronologicamente, permitindo uma visualização unificada de suas
características e resultados. Em Kohir e Desai [2000], Bicego et al. [2003], Faùndez-Zanuy
[2003], Ruiz-del-Solar e Navarrete [2005], Yu et al. [2006], Abate et al.[2007] e Zou et al.
[2007] podem ser vistas outras tabelas comparativas de métodos propostos referenciado na
literatura, suas características, resultados e comparações.
Tabela 4 - Resumo dos métodos referenciados nesse trabalho. Ano Referência Abordagem Reconhecimento Banco
1991 Turk PCA 96% 2.500 imagens
1996 Podilchuk DCT 94% 500 imagens
1997 Belhumeur PCA
LDA
89,2%
94%
Yale
2001 Hafed e Levine DCT 92,5% ORL
2002 Bartlett el al. PCA
ICA
85%
87%
FERET
2003 Faúndez-Zanub DCT + Redes neurais RBF 96,5% ORL
47
Ano Referência Abordagem Reconhecimento Banco
2003 Bicego DWT + HMM
DCT + HMM
100%
100%
ORL
2003 Jones e Viola Boosted 94% FERET
2004 Xiang DWT + PCA
DWT + LDA
DWT + Recursive LDA
82,05%
83,97%
86,54%
Yale
2004 Jing LDA
PCA
DCT + LDA
82,5%
90%
97,5%
ORL
2004 Shastir and Levine Redes neurais NNSC 96,7% ORL
2004 Samra et at. DWT + DCT 77,58% ORL
2005 Ruiz-del-Solar e Navarrete
PCA
LDA
83,3%
97,2%
Yale
2005 Ruiz-del-Solar e Navarrete
PCA
LDA
95,7%
95,3%
FERET
2006 Yu et al. PCA
PCA+LDA
DWT + DCT + SVM
90,5%
95%
98%
ORL
2006 Choi et al. DCT + EP + LDA 96,8% 500 imagens
2006 Faúndez-Z. e Enric DCT + Redes neurais RBF 96,5% ORL
2006 Zhang DCT + Redes neurais KIII 91,5% ORL
2006 Kumar et al.. DCT + HMM 100% ORL
2007 Ekenel et al. DCT, reduzido controle de ambiente
LDA, reduzido controle de ambiente
80,6%
75,9%
-
2007 Zou et al. Baseado em características > 90% FERET
2007 Nazeer et al. PCA + Distância Euclidiana
PCA + Redes Neurais
91,85%
92,59%
200 imagens
Treinamento reduzido (uma única amostra de treinamento)
2001 Hafed e Levine DCT 70% ORL
2006 Lu et et al. DCT + PCA 59,52% YALE
2006 He et al. DCT + PCA 75,56% ORL
48
Capítulo 5
Métodos e Material
O problema de reconhecimento de faces pode ser visto como um problema genérico de
classificação. Considerando técnicas estatísticas de reconhecimento de padrão, tem-se a etapa
de treinamento e a classificação de uma amostra. Na Figura 7 é ilustrada a adaptação do
reconhecimento de faces a um sistema de classificação estatístico. Considerando que as faces
já foram previamente detectadas, a etapa de seleção de atributos especifica a lista de
características que melhor representa uma pessoa, considerando as suas várias poses presentes
no banco de treinamento. A etapa de classificação faz uma comparação entre a face de teste e
o banco de treinamento, considerando a lista de atributos selecionada, e indica a quem
pertence a face de teste.
Figura 7 - Adaptação do reconhecimento de faces a um sistema de classificação.
5.1. Seleção de Atributos
O objetivo principal da etapa de seleção de atributos é caracterizar classes distintas de objetos
por atributos que sejam adequados para a classificação. Idealmente, selecionam-se atributos
que sejam similares entre objetos de uma mesma classe, que sejam substancialmente
49
diferentes entre objetos de classes distintas e que sejam invariantes em relação a
transformações que devem ser consideradas irrelevantes para uma classificação, como
iluminação, translação, rotação e escala [Duda et al., 2000].
Sabe-se que uma das maiores dificuldades de um sistema de classificação consiste na
seleção de atributos, que faz a definição do conjunto de atributos para diferenciar as classes
existentes. A definição exata do número de atributos, do conjunto de atributos e dos valores
dos atributos que separam as classes existentes são atividades consideradas críticas em um
sistema de classificação [Castleman, 1996].
Na Figura 8 é ilustrada a estratégia seguida neste trabalho para a etapa de seleção de
atributos. A estratégia consiste na investigação de abordagens distintas de seleção de
coeficientes DCT, sendo valorizado por alguns seletores a amplitude dos coeficientes. Os
coeficientes selecionados por cada seletor são então avaliados por três estratégias de
classificação: distância mínima ao protótipo, vizinho mais próximo e k-vizinhos mais
próximos. A abordagem de melhor desempenho nos testes passa a ser então a estratégia de
seleção de atributos do método proposto.
Figura 8 - Estratégia para definir a seleção de atributos dos métodos propostos.
A investigação de abordagens distintas de seleção faz-se necessária para se identificar o
melhor conjunto de coeficientes DCT para representar uma pessoa específica e ao mesmo
tempo distinguir pessoas diversas. A utilização da DCT se justifica por já se conhecer as
vantagens da sua utilização no processamento de sinais e de imagens, conforme apresentado
no Capitulo 3, destacando-se em especial aspectos como concentração de energia em um
conjunto reduzido de coeficientes, redução de dimensionalidade de forma apropriada e baixa
complexidade de seus algoritmos.
50
Considere que cada imagem do banco de faces é representada por uma matriz de a
linhas e b colunas. Após a DCT de uma imagem se tem uma matriz de coeficientes DCT,
também com a linhas e b colunas, que representa a imagem original convertida para o
domínio da freqüência. Um seletor de atributos especifica quais os m coeficientes DCT que
melhor representam uma pessoa e que ao mesmo tempo distinguem as diversas pessoas
existentes no banco de faces, sendo também m o número de coeficientes que serão utilizados
para posterior classificação da face de teste.
Os seletores de atributos analisados nesse trabalho são separados em dois grupos,
conforma ilustra a Figura 9: seletores que identificam um conjunto de coeficientes por pessoa
e seletores que identificam um único conjunto de coeficientes para todas as pessoas. No
primeiro grupo, caracterizado por se escolher um conjunto de coeficientes para cada pessoa,
são analisados os seguintes seletores: média de amplitude, média excluindo extremos,
mediana, por contagem de ocorrências e por posição média dos coeficientes. No segundo
grupo, caracterizado por se identificar um único conjunto de coeficientes para representar
todas as pessoas do banco, são analisados os seguintes seletores: distância normalizada pela
variância, baixas freqüências e seleção do WEKA. De todos os oito seletores analisados,
apenas o seletor WEKA não foi implementado nesse trabalho, visto que se trata de um
aplicativo de mineração de dados, já disponível e largamente utilizado, conforme apresentado
na Seção 2.5.
Figura 9 - Grupos de seletores avaliados.
51
Uma breve descrição de cada seletor analisado está apresentada nas seções seguintes.
Devem ser consideradas, nas demais seções desse trabalho, as seguintes definições:
• Seja m o número de coeficientes DCT selecionados para representar uma pessoa;
• Seja n o número de coeficientes DCT de uma imagem;
• Seja p o número de pessoas distintas do conjunto de dados de treinamento;
• Seja q o número de poses de treinamento de cada pessoa;
• Seja r o número de poses de cada pessoa;
• Seja i o i-ésimo coeficiente DCT, considerando que a matriz de coeficientes de a
linhas e b colunas foi transformada em um vetor de (a*b) elementos pela
concatenação sucessiva de suas a linhas e
• Seja kjix o valor do i-ésimo coeficiente da pessoa j na pose k.
5.1.1 Seletor Média de Amplitude
A média aritmética é uma medida estatística de tendência central largamente utilizada, que
resume informações de um conjunto de dados em torno do seu ponto central de distribuição.
Considerando que a amplitude representa o valor do coeficiente em módulo, então a
média aritmética da amplitude do i-ésimo coeficiente da pessoa j é dada por:
∑=
=q
k
kjiji xq 1
1 µ (15)
O conjunto de coeficientes selecionados para identificar a pessoa j corresponde aos m
coeficientes que apresentem maior valor de ji µ .
O seletor baseado na média de amplitude é uma abordagem de seleção simples. Ele se
concentra apenas nos valores dos coeficientes das poses de uma dada pessoa, sem considerar
dispersão dos dados nem qualquer relacionamento de semelhanças ou diferenças
representativas que possam ocorrer entre pessoas distintas.
52
5.1.2 Seletor Média de Amplitude Excluindo Extremos
A média aritmética excluindo extremos corresponde a uma média aritmética com a seguinte
alteração: são excluídos do cálculo o maior e o menor valor dos dados considerados. Tal
abordagem se justifica visto que valores extremos podem influenciar excessivamente a média
aritmética de um conjunto de dados.
Considere jix max como o maior valor da amplitude do i-ésimo coeficiente da pessoa j
em q poses de treinamento e jix min como o menor valor da amplitude do i-ésimo coeficiente
da pessoa j em q poses de treinamento. A média da amplitude do i-ésimo coeficiente da
pessoa j, excluindo os valores extremos, é dada por:
( )
+−
−= ∑
=
jiji
q
k
kjiji xxxq
e minmax)2(
1
1 (16)
O conjunto de coeficientes selecionados para identificar a pessoa j corresponde aos m
coeficientes que apresentem maior valor de jie .
O seletor de média excluindo extremos, assim como o seletor de média, é uma
abordagem de seleção de implementação simples. Ele se concentra nos valores dos
coeficientes das poses de uma dada pessoa, sem considerar dispersão dos dados nem qualquer
relacionamento de semelhanças ou diferenças representativas que possam ocorrer entre
pessoas distintas
5.1.3 Seletor Baseado em Mediana
A mediana é uma medida estatística de tendência central que não realiza cálculos matemáticos
com os valores dos dados considerados. Ordenam-se todos os valores, de forma crescente ou
decrescente, e seleciona-se o valor localizado no centro da série ordenada. Verifica-se que, na
série ordenada, tem-se 50% dos valores acima da mediana e 50% dos valores abaixo da
mediana.
A mediana é uma medida que pode ser mais apropriada que a média para representar
53
um conjunto de dados em que se verificam erros ou observações afastadas, os seja, presença
de valores extremos e discrepantes.
Considere jimediana como a mediana do i-ésimo coeficiente da pessoa j considerando
q poses de treinamento. O conjunto de coeficientes selecionados para identificar a pessoa j
corresponde aos m coeficientes que apresentem maior valor de jimediana .
O seletor baseado em mediana também é uma abordagem de seleção simples de
implementar. Ele se concentra nos valores dos coeficientes das poses de uma dada pessoa,
sem considerar dispersão dos dados nem qualquer relacionamento de semelhanças ou
diferenças representativas que possam ocorrer entre pessoas distintas.
5.1.4 Seletor por Contagem de Ocorrências
Essa abordagem de seleção não se baseia diretamente no cálculo de medidas estatísticas. O
seletor por contagem de ocorrências define o conjunto de coeficientes para representar a
pessoa j baseado nos seguintes passos:
1. Para cada pose de treinamento da pessoa j cria-se uma lista contendo os 2*m
coeficientes de maior valor de amplitude;
2. Conta-se o número de ocorrência de cada coeficiente i nas q listas;
3. Os m melhores coeficientes para representar a pessoa j correspondem aos
coeficientes que apresentem maior número de ocorrências nas q listas.
Para melhor compreensão dessa abordagem de seleção, considere o exemplo ilustrado
nas Tabelas 5 e 6, associado à seleção dos dois melhores coeficientes (m=2) para representar a
pessoa j, considerando 5 poses de treinamento (q=5).
Para cada uma das 5 poses de treinamento de j cria-se uma lista de 4 elementos (2*m),
contendo a identificação dos coeficientes de maior valor de amplitude na pose considerada
(Tabela 5). A seguir, conta-se a ocorrência de cada um dos coeficientes nas 5 listas
previamente criadas (Tabela 6). Nesse exemplo, os dois melhores coeficientes selecionados
54
são os de número 1 e 9, porque apresentam maior número de ocorrências nas listas
consideradas.
Tabela 5 - Exemplo do seletor por contagem de ocorrência. Coeficientes com maior valor de amplitude (m=2)
Pose 1 1 5 9 2
Pose 2 1 7 8 9
Pose 3 1 8 9 12
Pose 4 1 2 7 12
Pose 5 1 9 8 5
Tabela 6 - Contagem de ocorrência dos coeficientes apresentados na Tabela 5. Coeficiente Ocorrência
1 5
2 2
5 2
7 2
8 3
9 4
12 2
O seletor por contagem de ocorrências tem uma implementação simples. Ele se
concentra apenas nas maiores amplitudes dos coeficientes das poses de uma pessoa, sem
considerar dispersão dos valores nem qualquer relacionamento de semelhanças ou diferenças
representativas que possam ocorrer entre pessoas distintas.
5.1.5. Seletor por Posição Média dos Coeficientes
Essa abordagem de seleção não se baseia diretamente no cálculo de medidas estatísticas de
tendência central. A seleção é feita a partir da posição média da amplitude dos coeficientes,
considerando tanto a posição média intraclasse como a posição média interclasses .
O seletor por posição média dos coeficientes define o conjunto de coeficientes para
representar a pessoa j baseado nos seguintes passos:
1. Ordenam-se todos os coeficientes de cada pose de treinamento de j, de forma
decrescente por amplitude, e registra-se em kjienaçãoPosiçãoOrd a posição
55
ordenada do coeficiente i da pessoa j na pose k;
2. Calcula-se a posição média intraclasse (PMIntra) e interclasses (PMInter) de cada
coeficiente i, dadas respectivamente por:
( )∑=
=q
k
kjiji enaçãoPosiçãoOrdq
PMIntra1
1 (17)
( )
−
−= ∑
=
ji
p
j
jiji PMIntraPMIntrap
PMInter11
1
(18)
3. Calcula-se a razão entre as posições médias intraclasse e interclasses do
coeficiente i de j, dada por:
ji
ji
jiPMInter
PMIntraR = (19)
4. Os m melhores coeficientes para representar a pessoa j correspondem aos
coeficientes i com menor valor de jiR e que estejam fora do intervalo [1-h, 1+h],
com 0<h<1, sendo h um limiar de controle.
Nessa abordagem de seleção, faz-se necessário um procedimento de limiarização que
desconsidere os coeficientes com razão jiR próxima a 1. Coeficientes com tal característica
não são bons descritores de uma classe, visto que apresentam valores de amplitude intraclasse
e interclasses similares.
Para melhor compreensão dessa abordagem de seleção, considere o exemplo ilustrado
nas Tabelas 7, 8 e 9, associado à seleção dos dois melhores coeficientes (m=2) para
representar a pessoa 1, considerando a existência de 3 pessoas (p=3) e 5 coeficientes por
pessoa. Na Tabela 7 são apresentados, para cada uma das três pessoas, valores fictícios da
posição média intraclasse dos 5 coeficientes. Na Tabela 8 é apresentada a posição média
interclasses calculada a partir dos dados apresentados na Tabela 7. Como exemplo do cálculo
da posição média interclasses, considere o coeficiente 3 da pessoa 1 : [(3,6 + 5,8 + 2,8) – 3,6]
56
/ 2 = 4,3. Na Tabela 9 são apresentadas, apenas para a pessoa 1, as razões das posições médias
de cada coeficiente, calculadas de acordo com a equação 19 e considerando os valores
apresentados nas Tabelas 7 e 8. Considerando a aplicação de um limiar de 0,1, os melhores
coeficientes para representar a pessoa 1 são os de número 2 e 3, pois estão relacionados às
menores posições médias, fora do intervalo [0,9; 1,1].
Tabela 7 - Valores fictícios de posição média intraclasse. Coeficientes
1 2 3 4 5
Pessoa 1 1 2,6 3,6 4,6 4,8
Pessoa 2 1 4,8 5,8 3,2 6,0
Pessoa 3 1 4,4 2,8 3,6 2,2
Tabela 8 - Valores da posição média interclasse, calculadas a partir dos dados da Tabela 7. Coeficientes
1 2 3 4 5
Pessoa 1 1 4,6 4,3 3,4 4,1
Pessoa 2 1 3,5 3,2 4,1 3,5
Pessoa 3 1 3,7 4,7 3,9 5,4
Tabela 9 - Razão das posições média intraclasse e interclasses para a pessoa 1. Coeficientes
1 2 3 4 5
Pessoa 1 1 0,56 0,83 1,35 1,17
O seletor por posição média dos coeficientes não impõe maiores dificuldades de
implementação. Ele considera tanto as amplitudes dos coeficientes das poses de uma pessoa
como as amplitudes de coeficientes de pessoas distintas, valorizando de forma simples
semelhanças e diferenças entre pessoas distintas.
5.1.6 Seletor de Distância Normalizada pela Variância
A variância é uma medida estatística associada à dispersão de dados, definida a partir da
média dos quadrados dos desvios das observações em relação à média da amostra. Tomando-
se a raiz quadrada da variância obtém-se o desvio padrão, que também é uma medida de
dispersão. Entretanto, a variância e o desvio padrão podem ser fortemente afetados por erros
57
ou observações muito afastadas.
Considere que, sobre os dados de treinamento, os coeficientes DCT da posição i da
pessoa j tenham suas amplitudes médias jiµ definidas conforme Equação 15.
Idealmente as características de uma pessoa deveriam ser similares entre poses da
mesma pessoa, devendo se ter a mesma interpretação sobre os coeficientes DCT. Entretanto,
devido a aspectos como iluminação, escala, posição e expressão facial, a similaridade das
características e dos coeficientes DCT pode ser reduzida. Para se registrar diferenças que
possam acontecer, calcula-se a variância da amplitude do coeficiente i da pessoa j, dada por:
( )2
1
2 1ˆ ∑
=
−=q
k
jikjiji xq
µσ
(20)
Uma medida para avaliar se um coeficiente separa efetivamente classes distintas
corresponde à distância normalizada pela variância, especificada pela Equação 21, sendo i o
coeficiente avaliado e f e j pessoas distintas.
jifi
jifi
jfiD22 ˆˆ
ˆσσ
µµ
+
−
(21)
Os melhores coeficientes separadores de classes correspondem então aos coeficientes i
que apresentem maior valor de jfiD̂ [Castleman, 1996].
A distância normalizada pela variância definida pela Equação 21 envolve apenas duas
classes e no problema de reconhecimento de faces proposto tem-se p pessoas, que
conseqüentemente representam p classes. O seletor de distância normalizada pela variância
proposto nesse trabalho define o conjunto de coeficientes separadores de p classes baseado
nos seguintes passos:
1. Para i = 0,1,..., n :
1.1. Define-se a matriz jfiD̂ , de dimensão p x p, com elementos calculados
conforme Equação 21, para registrar a distância normalizada pela variância
58
entre as pessoas f e j considerando apenas o coeficiente i, com f=1,2,...,p,
j=1,2,...,p e apenas para j > f;
1.2. Calcula-se iDistMin como o menor valor de jfiD̂ ;
2. O conjunto de coeficientes selecionados corresponde aos m coeficientes que
apresentem maior valor de iDistMin .
O seletor de distância normalizada pela variância considera de forma direta medidas
estatísticas de tendência central e de dispersão de dados, aplicadas sobre a amplitude dos
coeficientes DCT. É um processo que absorve conceitos e recomendações teóricas de uma
seleção de atributos eficientes [Castleman, 1996; Duda et al., 2000; Thoedoridis e
Koutroumbas, 2003].
5.1.7 Seletor de Baixas Freqüências
Essa abordagem de seleção é simples e não avalia valores dos coeficientes DCT das imagens
de treinamento. A seleção consiste simplesmente na definição dos coeficientes DCT de mais
baixa freqüência, considerando uma região quadrada com início no primeiro coeficiente da
matriz DCT. Ela foi utilizada em Hafed e Levine [2001], foi combinada com DWT em Yu et
al. [2006] e foi combinada com redes neurais em Faúndez-Zanub [2003].
A aplicação da DCT-II sobre uma imagem de treinamento bidimensional produz uma
matriz de coeficientes DCT de mesma dimensão da imagem original. Os coeficientes de mais
baixa freqüência correspondem aos primeiros elementos da matriz, ou seja, elementos
pertencente as primeiras linhas e primeiras colunas. A seleção por baixa freqüência escolhe os
coeficientes posicionados dentro de uma região quadrada, com canto superior esquerdo
posicionado no primeiro elemento da matriz, o elemento (1,1), e canto inferior direito
posicionado na posição (x,x), sendo x menor do que cada uma das dimensões da matriz de
coeficientes. Como exemplo dessa abordagem, selecionando-se 9 coeficientes, escolhe-se
sempre as seguintes posições da matriz DCT: (1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2)
59
e (3,3).
Na Figura 10 é ilustrada a abordagem de seleção por baixas freqüências indicando três
regiões quadradas de seleção. Como pode ser visto, e conforme descrito no Capítulo 3, a
maior concentração de energia ocorre nos coeficientes de mais baixa freqüência. Assim, a
abordagem de seleção por baixas freqüências com regiões quadradas consegue capturar
coeficientes importantes da imagem.
Figura 10 - Regiões quadradas associadas a seleção de baixas freqüências.
5.1.8 Seletor WEKA
Visto que a WEKA é uma ferramenta de mineração de dados bem conceituada, simples de
usar e de domínio público, analisa-se nesse trabalho uma abordagem de seleção de atributos
baseada no seu uso. A abordagem proposta consiste nas seguintes etapas:
1. Todas as imagens são convertidas pela DCT-II para o domínio da freqüência;
2. Um subconjunto de coeficientes DCT de todas as imagens é informado a
ferramenta WEKA;
3. A ferramenta WEKA seleciona o melhor conjunto de coeficientes DCT para
classificar a base de imagens.
O subconjunto de coeficientes DCT informados para o WEKA foram os coeficientes de
mais baixa freqüência, considerando a abordagem quadrada de dimensão 14 X 14 com canto
superior esquerdo posicionado sobre o primeiro elemento da matriz de coeficientes. Essa
escolha teve as seguintes motivações: simplicidade, custo computacional e comparação com
outros métodos que fazem seleção por baixa freqüência [Hafed e Levine, 2001;
Faúndez-Zanub, 2003; Yu et al., 2006].
60
5.1.9 Resumo dos Seletores Apresentados
Nesse trabalho, são analisadas oito abordagens de seleção aplicadas sobre coeficientes DCT.
Na Tabela 10 é apresentado um resumo das abordagens de seleção investigadas nesse
trabalho, permitindo uma visualização unificada de algumas de suas características.
Tabela 10 - Resumo das abordagens de seleção analisadas nesse trabalho. Cálculos com valores: Abordagem de Seleção
intraclasse interclasse
Comparação preliminar de custo de
processamento
Grupo 1: Seletores que indicam um conjunto de coeficientes por classe (pessoa) de treinamento
1. Média de Amplitude Sim Não Baixo
2. Média de Amplitude Excluindo Extremos Sim Não Baixo
3. Baseado em Mediana Sim Não Baixo
4. Por Contagem de Ocorrências Sim Não Médio
5. Por Posição Média do Coeficiente Sim Sim Médio
Grupo 2: Seletores que indicam um único conjunto de coeficientes para todo o banco
6. Distância Normalizada pela Variância Sim Sim Médio
7. Baixas Freqüências Não Não Baixo
8. WEKA Sim Sim Baixo
5.2 Classificação
O objetivo da etapa de classificação é fazer uma comparação entre um objeto de teste e um
conjunto de classes de objetos usados no treinamento, indicando a qual classe o objeto de
teste pertence. Para a realização da classificação, considera-se apenas o conjunto de atributos
previamente selecionados no treinamento.
No contexto de imagens, a classificação computacional tem sido feita baseada em
probabilidade, visto que uma classificação computacional perfeita é considerada impossível
[Duda et al., 2000]. Comumente, o classificador calcula um valor para indicar o grau de
semelhança do objeto de teste em relação a uma classe. O grau de semelhança é computado
como uma função dos atributos selecionados e é utilizado para indicar a classe que mais se
aproxima do objeto de teste.
O conjunto de atributos selecionados para distinguir classes influencia diretamente no
resultado do classificador e normalmente se verifica que uma seleção apropriada conduz a
61
uma maior taxa de acertos. A etapa de classificação, em geral, tem como aspectos
complicadores: número de atributos selecionados, variação de valores de um atributo em
todos os objetos de uma mesma classe, valores que são considerados exceções em um atributo
e a definição da regra de cálculo do grau de semelhança do classificador.
Com o objetivo de alcançar uma maior taxa de acerto e também relacionar taxa de
acerto com custo computacional, nesse trabalho são aplicadas três abordagens de
classificação: distância mínima ao protótipo, vizinho mais próximo (Nearest Neightor - NN) e
k-vizinhos mais próximos (k-Nearest Neightor - KNN). Tais classificadores foram
apresentados na Seção 4.2. Para calcular o grau de semelhança entre objetos foi definida a
distância de Manhattan, especificada na Equação 2, que corresponde a um método simples,
eficiente e fácil de implementar.
5.2.1 Classificador de Distância Mínima ao Protótipo
Considere que, sobre os dados de treinamento, { }jmjj γγγ ,...,, 21 correspondem às médias das
amplitudes dos m coeficientes { }jmjj yyy ,...,, 21 selecionados para representar a pessoa j,
sendo essas médias calculadas conforme Equação 15.
Seja f a pessoa a ser classificada e sejam { }fmff vvv ,...,, 21 as amplitudes dos
coeficientes DCT da pessoa f, com fiv correspondendo ao coeficiente de mesma posição que
jiy . O grau de semelhança entre f e j é dado por:
∑=
−=m
i
fijijf vDMP1
γ (22)
A classificação da pessoa f corresponde então à pessoa j com menor valor de jfDMP .
5.2.2 Classificador do Vizinho Mais Próximos (NN)
Sejam { }jmjj yyy ,...,, 21 os m coeficientes selecionados para representar a pessoa j e sejam
{ },...,,, 21 kjmkjkj www as amplitudes dos coeficientes de treinamento da pessoa j na pose k,
62
com kjiw correspondendo ao coeficiente de mesma posição que jiy .
Seja f a pessoa a ser classificada e sejam { }fmff vvv ,...,, 21 as amplitudes dos
coeficientes DCT da pessoa f, com fiv correspondendo ao coeficiente de mesma posição que
jiy .
A distância entre a face f e a pessoa treinamento j na pose k, com j=1, 2, ..., p e
k=1, 2, ..., q, é dada por:
∑=
−=m
i
fikjikjf vwDNN1
(23)
De acordo com a Equação 23, a face de teste f é classificada como a pessoa j quando:
hkgjDNNDNN hgfkjf ≠∀≠∀≤ ,, (24)
5.2.3 Classificador dos K-Vizinhos Mais Próximo (KNN)
A abordagem de classificação KNN é semelhante à abordagem NN, conforme apresentado na
Seção 4.2. Entretanto, ao invés de classificar a face de teste como a primeira face de
treinamento mais próxima, ele identifica as k faces mais próximas e classifica a face de teste
considerando a classe que for mais freqüente entre as k faces de treinamento mais próximas.
Sejam { }jmjj yyy ,...,, 21 os m coeficientes selecionados para representar a pessoa j e
sejam { },...,,, 21 kjmkjkj www as amplitudes dos coeficientes de treinamento da pessoa j na
pose k, com kjiw correspondendo ao coeficiente de mesma posição que jiy .
Seja f a pessoa a ser classificada e sejam { }fmff vvv ,...,, 21 as amplitudes dos
coeficientes DCT da pessoa f, com fiv correspondendo ao coeficiente de mesma posição que
jiy .
O classificador KNN classifica a face f baseado nos seguintes passos:
1. Calcula-se a distância entre a face f e a pessoa de treinamento j na pose k, com
63
j=1, 2, ..., p e k=1, 2, ..., q, dada por:
∑=
−=m
i
fikjikjf vwDKNN1
(25)
2. Identificam-se os k menores valores kjfDKNN e define-se o i-ésimo vizinho mais
próximo como a pessoa j associada ao i-menor valor de kjfDKNN , com
i=1, 2, ..., k;
3. A classificação da pessoa f corresponde então à pessoa j mais freqüente entre os
k-vizinhos identificados;
4. Em caso de empate, foi definido nesse trabalho se adotar a abordagem NN para
desempate.
5.3 Treinamento e Testes
Para avaliar a taxa de acertos de um classificador é necessário se ter treinamento e testes
confiáveis. Define-se conjunto de treinamento como a coleção de objetos de várias classes
que são utilizadas pelo classificador para aprender sobre as classes, ou seja, conjunto de dados
utilizados para a seleção de atributos. Define-se conjunto de testes como a coleção de objetos
que serão classificados.
Sabe-se que uma boa representatividade do conjunto de treinamento contribui para
aumentar a taxa de acertos do classificador, sendo recomendado que o conjunto de
treinamento possua exemplos de todos os objetos que possam ser encontrados, inclusive os
mais raros [Duda et at., 2000; Theodoridis, 2003]
A taxa de acertos do classificador é calculada baseada nos resultados dos testes
realizados. Faz-se necessário uma quantidade representativa de testes e um conjunto de testes
válidos.
Quando se tem poucos dados para treinamento, recomenda-se utilizar os princípios da
validação cruzada para se ter uma maior validade do treinamento e dos testes (Seção 2.2.1).
64
Nesse trabalho, adotou-se a abordagem leave-one-out realizado-se treinamento e testes de
acordo com a seguinte especificação: seja p o número de pessoas do banco de faces e seja r o
número de poses de cada pessoa. Serão realizados r treinamentos, excluindo-se do
treinamento t a pose t de cada pessoa, com t=1,2,...,r. Sobre cada treinamento t serão
realizados p testes, sendo definida como pose de teste do treinamento t a pose t que foi
anteriormente retirada do treinamento. Totalizando, teremos p*r testes de classificação.
5.3.1 Banco de Faces
Nesse trabalho, o banco de faces definido para testes foi o ORL (Olivetti Research Lab) Face
Database [AT&T, 1994], que apresenta variações sutis e controladas de iluminação, posição,
expressão facial e presença de óculos. Ele está disponível na web para download sem
necessidade de pedido ou de senha, foi o primeiro banco obtido para a pesquisa em questão, é
o mais referenciado nos trabalhos utilizados na revisão literária feita e foi utilizado em testes
de métodos de reconhecimento de faces baseados em DCT. Assim, a utilização do banco ORL
nos permite uma avaliação do método proposto em relação aos aspectos modificadores da
face humana e ao mesmo tempo permite comparar os resultados com outros métodos.
O banco ORL tem 400 imagens de 112 x 92 pixels, referentes a 40 pessoas, cada uma
em 10 poses. Há homens e mulheres e todas as imagens apresentam fundo escuro e
homogêneo com pequenas variações associadas às seguintes características: iluminação,
posição, expressão facial, diferentes aberturas dos olhos, sorrisos e presença de óculos. Na
Figura 11 são ilustradas imagens do banco de faces ORL apresentando as pessoas de número
1, 7, 20 e 35, respectivamente, cada uma em suas 10 poses.
65
Figura 11 - Imagens do banco ORL: pessoas 1, 7, 20 e 35, cada uma em suas 10 poses.
Apesar da disponibilidade de outros bancos de face, conforme apresentado na Seção 4.3,
inclusive com maior variação de aspectos modificadores da face humana, tais bancos não
foram incluídos no escopo de testes desse trabalho. Testes sobre outros bancos são relevantes
para a validação do método proposto e estão sendo indicados como trabalhos futuros.
5.3.2 Testes Realizados
Para validar os métodos propostos, foram realizados testes sobre o banco de faces ORL
combinando os seguintes elementos: oito seletores, dezoito conjuntos de coeficientes
selecionados de diferentes tamanhos, três classificadores e 10 rodadas de treinamento
(abordagem leave-one-out sobre ORL). Para possibilitar melhor comparação com outros
métodos, o número de coeficientes selecionados foi estabelecido como um quadrado perfeito
e para se visualizar a evolução máxima da taxa de acertos foram definidos dezoito conjuntos
de coeficientes por seletor, com tamanho variando de 32 a 202 coeficientes.
O conjunto de testes realizados com os sete seletores implementados nesse trabalho
foram organizados em 10 rodadas de treinamento e classificação. Em cada rodada, o conjunto
de treinamento contém nove poses de cada pessoa e os testes de classificação são efetuados
com a pose que ficou de fora, que nesse caso possui o mesmo número que identifica o
treinamento. A rodada 4, por exemplo, treina com as poses 1,2,3,5,6,7,8,9 e 10 e testa com a
pose 4. Após a realização de um treinamento se tem como resultado a conjunto de
66
coeficientes que identificam as classes existentes. Assim, os dezoito conjuntos de coeficientes
selecionados estão disponíveis após cada etapa de treinamento. Com cada um dos dezoito
conjuntos de coeficientes selecionados são realizados testes de classificação por três
abordagens: distância mínima ao protótipo (DMP), vizinho mais próximo (NN) e k-vizinhos
mais próximos (KNN).
Considerando-se que o banco ORL apresenta faces de 40 pessoas, cada uma em 10
poses, então em cada rodada se tem 40 poses para testes. Dessa forma, cada rodada
corresponde à execução de 40 testes com cada classificador e para cada um dos 18 conjuntos
de coeficientes, ou seja, temos 2.160 testes assim especificados: 3 classificadores, cada um
executando 40 testes sobre cada um dos 18 conjuntos de coeficientes (3*40*18=2.160).
Considerando as 10 rodadas de treinamento, temos então a realização de 21.600 testes para
cada seletor analisado.
O seletor baseado no aplicativo WEKA (oitavo seletor) foi avaliado por testes
diferenciados, pois ele gera um único conjunto de seletores, especificando inclusive o seu
tamanho. A seleção e classificação dessa abordagem foram definidas a partir dos seguintes
passos:
1. Foram informados ao aplicativo WEKA os 196 coeficientes de mais baixa
freqüência da cada uma das faces do banco ORL, considerando uma região
quadrada de 14 X 14 posicionada no início da imagem;
2. o aplicativo WEKA foi configurado para aplicar validação cruzada e identificar os
melhores coeficientes diferenciadores das classes existentes;
3. o aplicativo WEKA produziu o seguinte resultado: seleção do conjunto de
coeficientes, abordagem de classificação apropriada e taxa de acertos obtidas com
os testes realizados;
4. testes adicionais de classificação foram realizados no WEKA informando o
conjunto de coeficientes indicados por outros seletores analisados nesse trabalho.
67
Não foram realizados testes com o conjunto de coeficientes indicados pelo WEKA e os
três classificadores analisados nesse trabalho pois, para um treinamento mais representativo,
todas as 10 poses foram informadas ao WEKA. Como conseqüência dessa escolha, não se tem
uma pose que possa ser utilizada para testes de forma correta, visto que, conforme descrito na
Seção 2.2.1, não é recomendado utilizar para testes as imagens que foram utilizadas para
treinamento.
5.4 Ferramentas Utilizadas
• Todos os seletores e classificadores implementados nesse trabalho foram
elaborados na ferramenta MATLAB® 7.0.
• Foi utilizada a ferramenta WEKA, versão 3.4.11.
• Toda a implementação e testes foram executados em um computador com
processador Pentium IV de 2.40 GHz, com 512 MB de memória principal,
executando o sistema operacional Windows XP.
68
Capítulo 6
Resultados
Os resultados foram produzidos a partir da realização de testes de classificação sobre o banco
de faces ORL, considerando os conjuntos de coeficientes selecionados pelos oito seletores
analisados neste trabalho. Desses seletores, sete foram implementados no decorrer deste
trabalho, e um foi avaliado utilizando-se a implementação do WEKA.
Os resultados obtidos estão organizados em sete seções. Na Seção 6.1 são apresentados,
na forma de tabela, os resultados obtidos utilizando os sete seletores implementados nesse
trabalho, cada um sendo testado por três classificadores. Na Seção 6.2 são apresentados, na
forma de gráfico, os melhores resultados obtidos considerando testes com os sete seletores e
três classificadores. Na Seção 6.3 são apresentados erros de classificação, considerando
apenas a mais alta taxa de acerto alcançada pelos métodos propostos nesse trabalho. Na Seção
6.4, são apresentados reconhecimentos acumulativos para os dois seletor de melhor
desempenho associado a cada um dos três classificadores. Na Seção 6.5 são apresentados os
resultados de classificação do seletor baseado no aplicativo WEKA. Na Seção 6.6 são
apresentados os tempos de processamento. Finalizando, na Seção 6.7 são apresentados, na
forma de tabela, coeficientes selecionados por abordagens de seleção que se destacaram nos
testes.
69
6.1 Resultados Combinando Sete Seletores e Três Classificadores
Na Tabela 11 são apresentados os resultados obtidos combinando sete seletores com três
classificadores. A primeira coluna da tabela corresponde ao seletor empregado, a segunda
coluna indica o número de coeficientes utilizados na seleção e na classificação e da terceira
até a quinta coluna apresentam-se as taxas de acertos obtidas, respectivamente, pelos
classificadores de distância mínima ao protótipo (DMP), vizinho mais próximo (NN) e
k-vizinhos mais próximos (KNN). Cada taxa de acerto apresentada corresponde à
porcentagem de acertos de classificação considerando 400 testes, referentes a 10 rodadas de
treinamento cada uma classificando 40 amostras (10*40=400). O melhor resultado de cada
seletor com cada um dos classificadores está destacado com fonte em negrito.
Como foram definidos dezoito conjuntos de coeficientes então se tem 7.200 testes
(400*18=7.200) considerando a combinação de um seletor com um classificador. Como o
resultado de cada seletor é analisado considerando três abordagens distintas de classificação,
então cada seletor foi testado 21.600 vezes (3*7.200=21.600).
No caso específico do classificador de k-vizinhos mais próximos, foram realizados
testes com k=3 e k=5. Considerando os dois valores de k, a maior de taxa de acerto foi 98%,
obtida utilizando-se k=3. Nesse capítulo, por resumo e simplicidade, são apresentados apenas
os resultados do classificador de k-vizinhos para o melhor valor de k identificado nos
testes (k=3). No Apêndice D podem ser vistos resultados de testes relacionados ao
classificador de k-vizinhos mais próximos para k=3 e k=5.
Tabela 11 - Resultados obtidos com sete seletores e três classificadores. Seletor Classificação – Taxa de acerto em %
No de coeficientes DMP NN KNN (K=3)
9 76,00 93,75 91,00
16 82,75 96,75 92,50
25 84,25 98,00 95,50
36 87,25 98,75 94,25
49 88,75 98,50 94,25
64 90,00 98,75 96,00
1. Média de amplitude
81 91,25 98,25 96,25
70
Seletor Classificação – Taxa de acerto em %
No de coeficientes DMP NN KNN (K=3)
100 92,25 98,00 96,50
121 93,00 98,00 97,00
144 93,25 97,75 96,25
169 93,75 98,25 96,75
196 94,25 97,75 96,75
225 94,00 98,00 96,75
256 94,25 98,00 96,75
289 94,25 98,00 96,50
324 94,50 98,00 96,00
361 94,50 98,00 96,25
400 94,75 98,00 96,25
9 77,75 93,75 90,75
16 83,50 96,75 92,25
25 85,75 98,00 95,50
36 88,75 98,75 94,00
49 89,00 98,50 94,25
64 89,75 98,75 96,25
81 91,25 98,25 96,50
100 92,50 98,00 96,00
121 93,25 97,75 96,50
144 94,25 98,00 96,25
169 93,00 98,00 96,75
196 94,25 98,25 96,50
225 94,50 98,00 97,00
256 94,25 98,00 96,75
289 94,25 98,00 96,25
324 94,25 98,00 96,25
361 94,75 97,75 96,50
2. Média de amplitude excluindo extremos
400 95,00 97,75 96,25
9 78,00 93,25 90,25
16 83,25 97,00 93,50
25 86,75 98,25 94,00
36 88,25 98,50 94,00
49 88,00 98,75 94,25
64 90,00 98,25 95,00
81 91,00 98,50 96,25
100 92,50 98,25 96,00
121 92,25 98,00 95,00
144 93,00 98,00 96,75
169 93,50 98,00 96,75
196 94,00 98,00 97,00
3. Baseado em mediana
225 94,50 98,00 96,50
71
Seletor Classificação – Taxa de acerto em %
No de coeficientes DMP NN KNN (K=3)
256 95,00 98,00 96,50
289 94,50 98,00 97,00
324 94,75 98,00 96,50
361 94,50 98,00 96,75
400 94,25 97,75 97,25
9 55,75 94,00 77,25
16 73,50 98,00 89,50
25 84,25 98,50 92,00
36 89,25 98,25 94,25
49 90,00 98,50 94,25
64 89,25 98,50 95,50
81 90,25 98,75 95,00
100 91,50 98,25 95,50
121 92,75 98,00 95,50
144 93,50 98,25 96,25
169 94,75 98,25 97,00
196 95,25 98,25 96,00
225 95,00 98,25 96,75
256 94,75 98,25 96,75
289 95,00 98,00 97,00
324 95,00 98,00 96,50
361 94,25 98,00 97,00
4. Por contagem de ocorrências
400 94,75 98,00 96,25
9 75,75 89,25 89,25
16 79,75 93,25 92,25
25 83,50 94,50 92,50
36 83,75 96,50 91,25
49 85,00 97,50 90,25
64 86,00 97,25 92,75
81 85,50 97,75 90,50
100 86,00 97,25 91,00
121 87,50 98,00 91,50
144 86,75 98,25 91,00
169 86,00 97,50 91,25
196 87,25 97,25 91,75
225 88,50 97,50 93,25
256 88,50 97,50 93,25
289 90,00 96,75 94,00
324 90,00 96,75 93,75
361 91,25 96,75 93,75
5. Por posição média dos coeficientes (limiar 0,2)
400 91,25 97,00 92,50
6. Distância normalizada pela 9 79,50 95,75 94,25
72
Seletor Classificação – Taxa de acerto em %
No de coeficientes DMP NN KNN (K=3)
16 85,25 98,25 96,25
25 90,00 98,00 95,75
36 91,75 97,50 95,00
49 93,50 98,25 96,50
64 94,00 98,25 96,75
81 95,00 98,25 97,25
100 95,50 98,75 97,00
121 94,75 98,00 96,75
144 95,25 98,00 96,50
169 95,50 98,25 96,50
196 95,50 98,00 96,50
225 95,25 97,75 97,00
256 95,25 97,75 96,75
289 95,50 98,00 97,00
324 95,50 98,00 97,00
361 95,75 98,00 97,75
variância
400 95,75 98,00 97,25
9 67,00 92,25 88,00
16 78,50 96,75 94,75
25 88,50 98,75 97,25
36 93,75 99,25 97,50
49 93,75 98,75 97,25
64 94,00 98,50 97,50
81 95,00 98,50 97,25
100 95,25 98,25 96,75
121 95,25 98,25 97,50
144 95,25 98,25 97,25
169 95,25 97,75 97,00
196 95,50 97,75 97,25
225 95,25 97,75 97,25
256 95,75 98,00 97,50
289 96,25 98,00 97,50
324 96,00 98,00 97,50
361 95,75 98,00 97,50
7. Baixas freqüências
400 96,00 98,00 97,75
Considerando a evolução dos classificadores observam-se os seguintes aspectos: os
classificadores de distância mínima ao protótipo e de k-vizinhos mais próximos atingem taxa
de acerto máxima utilizando maiores conjuntos de coeficientes, o classificador de vizinho
mais próximo atinge sua taxa de acerto máxima utilizando conjuntos de coeficientes menores
73
e as maiores taxas de acerto são associadas ao classificador de vizinho mais próximo.
Considerando os seletores, observam-se os seguintes aspectos: seletores diferentes
conduzem a resultados semelhantes, não há grandes disparidades entre as taxas máximas de
acerto e os resultados dos seletores de baixas freqüências e de distância normalizada pela
variância são mais significativos.
6.2 Melhores Resultados Obtidos por Classificador
Na Tabela 12 é apresentado um resumo enumerando os seletores de melhor desempenho em
cada um dos três classificadores. A primeira coluna identifica o seletor e as seis colunas
seguintes são associadas respectivamente aos classificadores de distância mínima ao protótipo
(DMP), vizinho mais próximo (NN) e k-vizinhos mais próximos (KNN), com duas colunas
por classificador. As colunas Posição e Acerto Máximo de cada classificador representam,
respectivamente, a posição de desempenho dos seletores e a maior taxa de acertos obtida. Na
coluna Acertos Máximo, também se apresenta entre parênteses o número de coeficientes
utilizados para obtenção de taxa de acertos referenciada. O critério adotado para indicar os
melhores seletores foi a maior taxa de acerto apresentada na Tabela 11, com empates
solucionados considerando o menor número de coeficientes utilizados. Para a especificação
do desempenho foi definida a numeração de 1 a 7, com o número 1 identificando o seletor de
melhor desempenho.
Tabela 12 - Resumo do desempenho dos seletores. Desempenho e taxa de acerto dos seletores nos classificadores
DMP NN KNN (K=3)
Posição Acerto Max. Posição Acerto Max. Posição Acerto Max.
Média de amplitude 6 94,75 (400) 2 98,75 (36) 4 97,00 (121)
Média de amplitude exc. extremos 5 95,00 (400) 2 98,75 (36) 6 97,00 (225)
Baseado em mediana 4 95,00 (256) 4 98,75 (49) 3 97,25 (400)
Por contagem de ocorrências 3 95,25 (196) 5 98,75 (81) 5 97,00 (169)
Por posição média do coef. (l= 0,2) 7 91,25 (361) 7 98,25 (144) 7 94,00 (289)
Dist. normalizada pela variância 2 95,75 (361) 6 98,75 (100) 1 97,75 (361)
Baixas freqüências 1 96,25 (289) 1 99,25 (36) 2 97,75 (400)
74
Nas Figuras 12, 13 e 14 são apresentados os três seletores que obtiveram melhor
desempenho utilizando, respectivamente, os classificadores de distância mínima ao protótipo,
vizinho mais próximo e k-vizinhos mais próximos. Foram considerados os dados da Tabela 11
e as melhores posições da Tabela 12. Para melhorar a visualização dos gráficos, o número de
coeficientes considerados inicia em 25, sem provocar prejuízos na visualização da evolução
da taxa de acertos com o aumento do número de coeficientes.
83,00
85,00
87,00
89,00
91,00
93,00
95,00
97,00
25 36 49 64 81 100 121 144 169 196 225 256 289 324 361 400
Número de coeficientes
Taxa d
e a
cert
o (
%)
Baixas frequências Distância normalizada pela variância Contagem de ocorrências
Figura 12 - Classificador de distância mínima ao protótipo: 3 seletores de melhor desempenho.
97,00
97,50
98,00
98,50
99,00
99,50
25 36 49 64 81 100 121 144 169 196 225 256 289 324 361 400
Número de coeficientes
Taxa d
e a
cert
o (
%)
Baixas frequências Média de amplitude Média de amplitude excluindo extremos
Figura 13 - Classificador de vizinho mais próximo: 3 seletores de melhor desempenho.
75
93,50
94,50
95,50
96,50
97,50
25 36 49 64 81 100 121 144 169 196 225 256 289 324 361 400
Número de coeficientes
Ta
xa
de
ac
ert
o (
%)
Distância normalizada pela variência Baixas frequências Mediana
Figura 14 - Classificador de k-vizinhos mais próximo (k=3): 3 seletores de melhor desempenho.
No classificador de distância mínima ao protótipo (Figura 12), as maiores taxas de
acertos são obtidas com mais coeficientes e, a partir de 64 coeficientes, as taxas de acerto dos
seletores de baixas freqüências e de distância normalizada pela variância são próximas. No
classificador de vizinho mais próximo (Figura 13), as maiores taxas de acertos são obtidas
com poucos coeficientes e há pontos de igualdade entre as taxas de acerto dos seletores de
média de amplitude e de média de amplitude excluindo extremos. A evolução do classificador
dos k-vizinhos mais próximos (Figura 14) é mais diferenciada, entretanto, há destaque das
taxas de acertos dos seletores de baixas freqüências e de distância normalizada.
76
6.3 Exemplos de Erros
Na Tabela 13 são apresentados os erros de classificação considerando apenas o contexto em
que cada classificador atinge a sua maior taxa de acerto. O contexto é descrito pelo seletor,
número de coeficientes, taxa de acerto atingida e número de erros; a descrição dos erros é
descrita em função da rodada de treinamento, pessoa de teste e resposta incorreta fornecida
pelo classificador, que corresponde a uma pessoa diferente da pessoa de teste.
Tabela 13 - Erros de classificação dos três classificadores. Classificador: Distância mínima ao protótipo
Contexto Descrição dos erros
Seletor No coef. Taxa de acertos
No erros Treinamento Pessoa de teste Resposta incorreta
(pessoa)
1 1 16
1 23 38
1 31 21
1 35 15
4 40 5
6 16 19
7 26 28
7 31 30
7 32 15
9 19 36
9 29 39
9 31 23
10 5 18
10 10 4
Baixas freqüências
289 96,25% 15
10 40 5
Classificador: Vizinho mais próximo
Contexto Descrição dos erros
Seletor No coef. Taxa de acertos
No erros Treinamento Pessoa de teste Resposta incorreta
(pessoa)
9 10 38
9 19 11
Baixas freqüências
36 99,25 3
10 1 16
Classificador: k-vizinhos mais próximos
Contexto Descrição dos erros
Seletor No coef. Taxa de acertos
No erros Treinamento Pessoa de teste Resposta incorreta
(pessoa)
1 35 15 Distância normalizada
361 97,75% 9
4 40 5
77
5 3 25
6 16 19
7 32 17
9 19 11
10 5 18
10 10 4
pela variância
10 40 5
Para ilustrar imagens de faces que foram classificadas incorretamente, foi escolhida a
pessoa de número 19, visto que os três classificadores erraram o seu reconhecimento. No
treinamento de número 9, a pessoa 19 foi classificada pelo classificador de distância mínima
ao protótipo como se fosse a pessoa 36 e foi classificada como se fosse a pessoa 11 pelos dois
outros classificadores. Na Figura 15 são ilustradas imagens do banco de faces ORL, referentes
às 10 poses das pessoas de número 19, 11 e 36, sequencialmente.
Deve ser destacado que os erros aqui analisados são referentes ao treinamento de
número 9, que treina com as poses 1, 2, 3, 4, 5, 6, 7, 8 e 10 e classifica com a pose de número
9. Nos testes realizados, complementando a Tabela 13, a face da pessoa 19, na pose 9, foi
classificada como a pessoa 11 na pose 5 pelo vizinho mais próximo. No caso do classificador
de k-vizinhos mais próximos, as poses 4 e 5 da pessoa 11 representaram a base da resposta do
classificador. Quanto ao classificador de distância mínima ao protótipo, não se pode associar
uma pose em particular visto que o mesmo classifica em função de um protótipo, perdendo-se
o referencial em relação às poses de treinamento.
Figura 15 - Banco ORL: pessoas 19, 11 e 36 em suas 10 poses (pessoas e poses em seqüência).
78
No Apêndice E pode ser vista a matriz de confusão associada aos erros ocorridos com o
uso do seletor de baixas freqüências combinado com os classificadores de distância mínima
ao protótipo e vizinho mais próximo.
6.4 Curvas de Reconhecimento Acumulativo
Pelo critério de desempenho adotado nesse trabalho, pode ser verificado na Tabela 12 que o
melhor desempenho foi obtido pelo seletor de baixas freqüências, pois conseguiu a primeira
posição em dois classificadores, seguido pelo seletor de distância normalizada pela variância,
que conseguiu a primeira posição em um classificador. Nessa seção, são apresentadas as
curvas de reconhecimento acumulativo de tais seletores, mostrando depois de quantas
tentativas a combinação de seletor e classificador atingiria 100% de acertos. Visto que as
classificações acontecem baseadas em distâncias, a primeira tentativa de acerto do
classificador é apresentar como resposta a pessoa cuja face de treinamento obteve a menor
distância em relação à face de teste, à segunda tentativa corresponde a segunda face de
treinamento de menor distância em relação à face de teste, e assim sucessivamente. Caso a
face de teste não seja a primeira resposta do classificador, as tentativas indicam em que ponto
a classificação seria correta. É considerado apenas o contexto em que o seletor obteve a sua
maior taxa de acerto, de acordo com os dados apresentados na Tabela 12.
Na Tabela 14 são apresentadas tentativas que conduzem os seletores de baixas
freqüências e de distância normalizada pela variância a 100% de acertos nos três
classificadores. A primeira coluna identifica o seletor, a segunda coluna identifica o
classificador, a terceira coluna indica a maior taxa de acertos atingida, a quarta coluna mostra
o número de coeficientes que produziu a taxa de acerto máxima e as nove colunas restantes
correspondem a tentativas, mostrando o número de acertos que cada uma delas produziu. No
caso específico da primeira linha, tem-se que a primeira tentativa acerta 385 classificações, a
segunda tentativa acerta 10 classificações e as tentativas de número 03, 04 05, 07 e 08
79
acertam cada uma apenas uma classificação, ou seja, de 400 testes realizados (40 testes em 10
rodadas), a face de teste está sempre entre as oito primeiras faces mais semelhantes
apresentadas pelo classificador.
Tabela 14 - Tentativas de acertos dos dois seletores de melhor desempenho. Seletor Class. Taxa de
Acerto Coef Tentativas
01 02 03 04 05 06 07 08 >8
Baixas freqüências DMP 96,25 289 385 10 1 1 1 0 1 1 0
NN 99,25 36 397 2 0 0 0 1 0 0 0
KNN 97,75 400 391 0 3 2 1 0 1 0 2
Dist. norm. pela variância DMP 95,75 361 383 9 4 2 2 0 0 0 0
NN 98,75 100 395 1 1 1 1 0 1 0 0
KNN 97,75 361 391 0 2 2 2 0 1 2 0
Nas Figuras 16 e 17 são apresentadas curvas de reconhecimento acumulativo,
considerando os dados da Tabela 14, associadas, respectivamente, aos seletores de baixa
freqüência e de distância normalizada pela variância.
Com o seletor de baixas freqüências (Figura 16), o melhor reconhecimento acumulativo
ocorre considerando 6 tentativas, e está associado ao uso do classificador de vizinho mais
próximo. Já com o seletor de distância normalizada pela variância (Figura 17), o melhor
reconhecimento acumulativo ocorre considerando 5 tentativas, e está associado ao uso do
classificador de distância mínima ao protótipo.
95
96
97
98
99
100
1 2 3 4 5 6 7 8
Tentativas
Re
co
nh
ec
ime
nto
ac
um
ula
tiv
o
DMP NN KNN
'
Figura 16 - Curva de reconhecimento acumulativo do seletor de baixas freqüências.
80
95
96
97
98
99
100
1 2 3 4 5 6 7 8
Tentativas
Reco
nh
ecim
en
to a
cu
mu
lati
vo
DMP NN KNN
'
Figura 17 - Reconhecimento acumulativo do seletor de distância normalizada pela variância.
6.5 Resultados Utilizando o WEKA
Todas as imagens do banco de faces foram convertidas para o domínio da freqüência e foram
informadas ao WEKA as amplitudes dos 196 coeficientes DCT de mais baixa freqüência de
cada imagem, considerando a abordagem quadrada de 14 X 14. O WEKA realizou a sua
seleção, classificou pela abordagem SMO, uma variante do SVM, e produziu os seguintes
resultados:
• Número de coeficientes selecionados: 18
• Lista de coeficientes selecionados: (1,1), (1,3), (1,5), (2,1), (2,3), (2,5), (3,1), (3,3),
(3,5), (3,7), (4,3), (5,1), (6,1), (6,5), (7,1), (8,1), (9,1), (9,3).
• Acertos de classificação: 91,50%
Os resultados da ferramenta WEKA são associados à maior taxa de acerto (91,50%)
alcançada sobre os dados de entrada (coeficientes DCT). São consideradas combinações entre
abordagens de seleção e de classificação suportadas pela ferramenta, além de técnicas
adicionais de treinamento e teste, como validação cruzada.
Testes adicionais foram realizados no WEKA combinando a sua lista de coeficientes
selecionados e coeficientes selecionados pelo critério de baixas freqüências. Na Tabela 15 são
81
apresentas as taxas de acerto da classificação do WEKA considerando coeficientes
selecionados pelo critério de baixas freqüências.
Tabela 15 - Classificação do WEKA utilizando seleção por baixas freqüências. N. de Coef. Taxa de Acerto
4 31.75%
9 63.5%
16 86%
25 96.75%
36 97.75%
49 97.25%
Na Tabela 16 são apresentados resultados de classificação do WEKA considerando os
36 coeficientes de mais baixa freqüência, pois apresentaram a maior taxa de acertos (Tabela
15), mais os quatro coeficientes selecionados pelo WEKA que estão fora de seleção de baixas
freqüências de 36 coeficientes, ou seja, os coeficientes (7,1), (8,1), (9,1) e (9,3). A primeira
coluna da tabela mostra o número de coeficientes de baixa freqüência utilizado, as quatro
colunas seguintes mostram os coeficientes que foram adicionados e a última coluna mostra a
taxa de acerto de classificação do WEKA considerando os coeficientes especificados.
Tabela 16 - Classificação combinando seleção por baixas freqüências e seleção WEKA. N. de Coef. Coeficientes Adicionados Taxa de Acertos
36 (7,1) - - - 97.25%
36 (7,1) (8,1) - - 97,00%
36 (7,1) (8,1) (9,1) - 97,00%
36 (7,1) (8,1) (9,1) (9,3) 97,50%
6.6 Tempo de Processamento
Na Tabela 17 são apresentados tempos de processamento referentes aos dois seletores de
melhor desempenho (baixa freqüência e distância normalizada pela variância). Cada tempo de
processamento apresentado nessa tabela está associado à execução de uma única rodada de
treinamento sobre o banco ORL para a seleção de 49 coeficientes, que considera 360 imagens
de faces (40 pessoas, cada uma em 9 poses), tendo cada imagem 10.304 pixels (112 X 92).
Por simplicidade da identificação de tempo de processamento, foram considerados também
tempos associados a algumas operações de leitura e gravação.
82
Tabela 17 - Tempo de processamento de seletores. Seletor Tempo de processamento (segundos)
Baixas freqüências 5,04
Distância normalizada pela variância 13,04
Na Tabela 18 são apresentados tempos de processamento relacionados aos três
classificadores referenciados nesse trabalho. Cada tempo de processamento apresentado nessa
tabela refere-se à utilização de 49 coeficientes selecionados e a execução de uma rodada de
teste sobre o banco ORL, que consiste em 40 classificações (40 pessoas, cada uma em uma
pose). A opção por se exibir o tempo de processamento para um bloco de 40 classificações, ao
invés do tempo associado a uma única classificação, deve-se ao fato de ser ter uma maior
facilidade para separar no código implementado as operações associadas a rodadas de
classificações (operações aritméticas, lógicas e de leitura/gravação em arquivo). Assim, os
tempos de processamento apresentados na Tabela 18 têm um caráter ilustrativo, não tendo
sido realizados cálculos criteriosos relativos ao tempo de processamento de uma única
classificação.
Tabela 18 - Tempo de processamento de classificadores. Classificador Tempo de processamento para 40 classificações (segundos)
Distância mínima ao protótipo 5
Vizinho mais próximo 51
K-vizinhos mais próximos (k=3) 51
Para tentar manter o ambiente de execução o mais similar possível na identificação dos
tempos de processamento, os processos de seleção e classificação avaliados foram executados
no mesmo computador, um sendo iniciado logo após o término do outro. No momento da
execução dos processos de seleção e classificação analisados, apenas o MATLAB tinha sido
iniciado diretamente pelo usuário.
6.7 Lista de Coeficientes Selecionados
Na Tabela 19 é apresentado o resultado da seleção de coeficientes sobre o banco ORL. A
primeira coluna identifica o coeficiente selecionado e as demais colunas apresentam,
83
considerando um seletor específico, a ordem de seleção do coeficiente. Para os seletores de
baixa freqüência, distância normalizada pela variância e média de amplitude foram
considerados os 49 primeiros coeficientes selecionados e para a seleção do aplicativo WEKA
são apresentados os 18 coeficientes selecionados. No caso da seleção por média de amplitude,
que escolhe um conjunto de coeficientes para cada pessoa do banco, foram apresentados na
tabela apenas os coeficientes selecionados para as pessoas 1 e 2.
Tabela 19 - Resultados da seleção de coeficientes sobre o banco ORL. Seletor
Média de amplitude
Coef.
Baixa
freqüência
Dist. norm.
pela variância Pessoa 1 Pessoa 2
WEKA
(1,1) 1 1 1 1 1
(1,2) 2 35 5 6
(1,3) 5 5 2 2 2
(1,4) 10 32 24 13
(1,5) 17 2 3 4 3
(1,6) 26 34
(1,7) 37 17 14
(1,8) 35
(1,9) 18
(1,11) 28 31
(1,13) 22
(1,15) 38
(2,1) 3 8 9 15 4
(2,2) 4 7 18
(2,3) 7 11 10 5
(2,4) 12 19
(2,5) 19 13 22 10 6
(2,6) 28 41 38 37
(2,7) 39 43 36
(2,8) 47
(2,9) 39
(2,10) 44
(3,1) 6 3 4 3 7
(3,2) 8 43
(3,3) 9 9 6 5 8
(3,4) 14 40 20 24
(3,5) 21 10 9
(3,6) 30
(3,7) 41 20 48 16 10
(3,8) 27 49
84
(3,9) 39
(3,10) 30
(3,11) 30
(3,15) 35
(4,1) 11 19 11 7
(4,2) 13 31
(4,3) 15 4 33 27 11
(4,4) 16 49
(4,5) 23 36 46
(4,6) 32 15
(4,7) 43 36 29
(4,8) 41
(5,1) 18 12 16 8 12
(5,2) 20 45 23
(5,3) 22 7 17 11
(5,4) 24 21
(5,5) 25 26 12 9
(5,6) 34 32
(5,7) 45 37
(5,8) 26
(5,9) 41
(6,1) 27 6 8 12 13
(6,2) 29 46
(6,3) 31 21 31 32
(6,4) 33 39
(6,5) 35 27 49 14
(6,6) 36
(6,7) 47 43
(7,1) 38 14 13 25 15
(7,2) 40
(7,3) 42 18 40 17
(7,4) 44
(7,5) 46 33
(7,6) 48 42
(7,7) 49 26
(7,9) 48 28
(8,1) 15 16
(8,2) 42
(8,3) 25 20
(8,5) 38 21
(8,6) 48
(9,1) 16 44 17
(9,3) 23 34 18
(10,1) 37
85
(10,3) 34
(10,9) 45
(11,1) 30 25 19
(11,3) 42 45 14
(11,5) 47
(12,1) 22
(12,3) 28 40
(13,1) 24
(13,3) 29
(14,1) 46
(15,1) 44
(17,3) 23
(17,11) 29
(18,3) 33
(21,3) 47
Considerando os dados da Tabela 19, verifica-se que há coeficientes selecionados por
todos os seletores, mas que também outros coeficientes não são comuns a todas as seleções.
Para a seleção de 49 coeficientes por quatro seletores e 18 coeficientes por um seletor
(WEKA), sem considerar ordem de seleção, têm-se a seguinte distribuição:
• 12 coeficientes comuns a 5 seletores;
• 11 coeficientes comuns a 4 seletores;
• 11 coeficientes comuns a 3 seletores;
• 22 coeficientes comuns a 2 seletores;
• 33 coeficientes comuns a 1 seletor.
86
Capítulo 7
Discussão e Conclusão
O trabalho desenvolvido atendeu aos objetivos propostos, pois foram exploradas técnicas de
reconhecimento de faces presentes na literatura especializada e foram realizados
implementação, testes e comparações de métodos de reconhecimento de faces.
Taxas de acerto, robustez do método a variações frequentemente encontradas em
imagens de face e custo computacional são itens que devem ser considerados na avaliação de
métodos de reconhecimento de faces.
O método proposto de melhor desempenho apresentou uma taxa de acerto de 99,25%
relacionada a 400 testes, utilizando apenas 36 coeficientes e classificando por vizinho mais
próximo. Tais valores são representativos visto que, sobre o mesmo banco de faces (ORL) e
utilizando a mesma abordagem de seleção e classificação, Hafed e Levine [2001] reportam
taxa de acertos de aproximadamente 92,5% relativos a 200 testes e utilizando 49 coeficientes.
Contudo, o método proposto utiliza para treinamento 9 poses, enquanto Hafed e Levine
[2001] o faz com apenas 5 poses. No método proposto, até mesmo com a aplicação do
classificador de distância mínima ao protótipo, que é uma abordagem de custo computacional
menor, se atinge 93,75% de acertos sobre o banco ORL, considerando treinamento com 9
poses e a utilização de 49 coeficientes.
Além da taxa de acerto, também deve ser analisado o significado da taxa de erro.
Considerando a melhor taxa de acerto atingida (99,25%), sua taxa de erro correspondente é de
0,75%, que apesar de aparentemente baixa ainda precisa ser melhorada. Em 400 testes, uma
87
taxa de erro de 0,75% representa 3 erros de classificação. Entretanto, se o número de testes for
elevado e a taxa de erro for mantida, ter-se-á, por exemplo, em 40.000 testes, 300 erros de
classificação, valor alto e representativo que precisa ser reduzido.
A utilização da transformada DCT para a seleção de atributos corresponde a um aspecto
primordial do método, pois se confirma nos testes que tal transformada é capaz de concentrar
em poucos coeficientes as principais características da imagem, reduzindo assim o custo
computacional. Com o uso de seleção de coeficientes DCT reduz-se o processamento de
10.304 pixels (resolução 112 X 92) para 36 coeficientes DCT. Entretanto, a robustez do uso
da DCT em relação à iluminação, posição e escala somente poderá ser discutida após a
realização de testes sobre bancos de faces que controlem com maior intensidade tais aspectos,
pois o nível de controle de tais aspectos nas faces do banco ORL é insatisfatório para maior
discussão.
Além da taxa de acertos alcançada, outra contribuição importante desse trabalho é a
comparação de resultados de reconhecimento de faces combinando abordagens de
classificação bem conhecidas com diferentes propostas de seleção de atributos, todas
aplicadas após à conversão das imagens pela transformada DCT. Os resultados mostram que,
para reconhecimento de faces, independente da abordagem de seleção, o classificador do
vizinho mais próximo atinge as mais altas taxas de reconhecimento, chegando a 99,25% de
acertos. Entretanto, se comparado ao classificador de distância mínima ao protótipo, seu custo
computacional também é superior.
Na evolução do desempenho dos classificadores verifica-se que, independentemente de
seleção utilizada, a taxa de acertos dos classificadores de vizinho mais próximo e de distância
mínima ao protótipo, de forma generalizada, cresce até se alcançar a taxa máxima de acertos,
quando então tal taxa começa a ser reduzida. Contudo, com vizinho mais próximo se atinge a
taxa de acerto máxima com poucos coeficientes, enquanto que com distância mínima ao
protótipo um maior número de coeficientes são necessários para se alcançar a maior taxa de
88
acerto. Tais comportamentos se justificam porque o aumento do número de atributos a partir
de um determinado ponto começa a inserir características prejudiciais ao processo de
classificação.
O desempenho atingido pelos classificadores aqui implementados são contribuições
significativas ao serem comparados com resultados obtidos por métodos já propostos,
incluindo classificação por redes neurais, HMM e SVM. Bicego [2003] e Kumar et al. [2006]
reportam 100% de acertos sobre o banco ORL, mas os métodos por eles propostos são mais
complexos, têm elevado custo computacional de treinamento e foram testados apenas sobre o
naco ORL.
Em relação aos seletores verifica-se nos testes, de forma geral, um melhor desempenho
dos seletores de baixa freqüência e de distância normalizada pela variância. Entretanto, os
resultados obtidos pelos seletores baseado em média de amplitude e em média de amplitude
excluindo extremos também foram competitivos. O seletor de baixas freqüências, apesar de
não considerar amplitudes de coeficientes DCT nem relações interclasses, como faz outros
seletores, produz resultados de destaque em todos os classificadores analisados.
Já era esperado um bom desempenho do seletor de distância normalizada pela variância,
pois tal abordagem inclui recomendações teóricas de seleção de atributos, considerando tanto
relações intraclasses como relações interclasses. Nos testes realizados, independente do
classificador utilizado, os resultados da seleção por distância normalizada pela variância se
destacam dos demais seletores, quando são considerados conjuntos reduzidos de coeficientes.
No caso específico de classificação por distância mínima ao protótipo e da utilização de 9 e
16 coeficientes, o seletor de distância normalizada pela variância proporciona,
respectivamente, taxa de acerto de 79,50% e 85,25%. Sob as mesmas condições, o seletor de
baixas freqüências atinge 67,00% e 78,50%; o seletor de média de amplitude atinge 76,00% e
82,75%; e o seletor de média de amplitude excluindo extremos atinge 77,75% e 83,50%.
Entretanto, considerando o seletor de baixas freqüências, seu desempenho melhora
89
rapidamente com o aumento do número de coeficientes selecionados, e ele já começa a se
sobressair em relações aos demais seletores a partir do uso de 36 coeficientes, atingindo
93,75% de acerto, contexto em que os seletores de distância normalizada pela variância,
média de amplitude e média de amplitude excluindo extremos atingem, respectivamente,
91,75%, 87,25% e 88,75% de taxa de acerto.
Avaliando-se os coeficientes selecionados, verifica-se importância expressiva
relacionada à seleção do coeficiente (1,1), ou coeficiente DC. Ele está relacionado
diretamente com o brilho médio da imagem, que depende fortemente da intensidade da
iluminação empregada na captura da fotografia e, portanto, supostamente, deveria ser
desconsiderado pelos seletores. Entretanto, o brilho médio é influenciado também por
características relevantes para a classificação de faces, tais como cor da pele e cor do cabelo.
Contudo, salienta-se que tal dedução não foi fundamentada de forma exata.
O melhor resultado obtido nos testes corresponde ao uso em conjunto do seletor de
baixas freqüências com o classificador de vizinho mais próximo, atingindo 99,25% de acertos
com 36 coeficientes. Entretanto, o melhor resultado do classificador de distância mínima ao
protótipo, apesar de apresentar-se numericamente inferior, 96,25% de acertos com 289
coeficientes, é um resultado relevante, pois tal classificador tem um custo computacional
menor, visto que calcula a distância entre as faces considerando apenas a média dos
coeficientes, em contraposição ao cálculo considerando todos os valores individuais dos
coeficientes. No classificador de vizinho mais próximo combinado com o seletor de baixas
freqüências são considerados 129.600 valores, relacionados a 36 coeficientes de 40 pessoas
cada uma em 9 poses (36 * 40 * 9 = 129.600), e se tem como resultado 3 erros em 400 testes
(99,25% de acertos). No classificador de distância mínima ao protótipo são considerados
11.560 valores, relacionados a 289 coeficientes de 40 pessoas, e se tem como resultado 14
erros em 400 testes (96,25% de acertos). Comparando esses dois resultados tem-se que, para
se ter uma taxa de acerto 3% maior (de 96,25% para 99,25%), o vizinho mais próximo
90
aumenta o número de valores a serem considerados aproximadamente 11 vezes, e esse
aumento influência diretamente no espaço de armazenamento requerido e no custo
computacional para recuperação da informação e classificação.
Os resultados do reconhecimento acumulativo também são favoráveis, pois ao retornar a
face de teste no máximo entre as 8 faces mais parecidas o método mostra-se apropriado para
aplicações que buscam identificar faces parecidas em bancos de faces de grande porte, como
por exemplo aplicações voltadas para triagem de suspeitos.
Utilizar a seleção e classificação do WEKA adicionou à pesquisa maior possibilidade de
analisar os métodos propostos, pois o WEKA é um aplicativo bem conceituado, que utiliza
métodos modernos e complexos de seleção e classificação, como por exemplo, a classificação
SVM. Nos testes realizados o WEKA selecionou 18 coeficientes e alcançou 91,50% de
acertos. Nesse contexto, os métodos propostos se mostram apropriados para reconhecimento
de faces, pois se sobressai em relação aos resultados do WEKA nos seguintes aspectos:
simplicidade de processamento, maior taxa de acertos geral (99,25%) e maior taxa de acertos
utilizando o número de coeficientes indicados pelo WEKA (18 coeficientes). O método
proposto utilizando apenas 16 coeficientes e classificando por vizinho mais próximo alcança
taxa de acerto variando de 93,25% a 98,25%, dependendo da abordagem de seleção
empregada.
Apesar de alguns métodos propostos para reconhecimento de faces baseados em DCT
aplicarem seleção por baixas freqüências, o destaque dos resultados dessa abordagem de
seleção não era esperado nesse trabalho, pois a seleção de atributos por baixas freqüências não
valoriza amplitude de coeficientes DCT nem recomendações bem conhecidas de seleção de
atributos, como semelhanças intraclasse e diferenças interclasses. A seleção por baixas
freqüências reduz simplesmente a dimensionalidade da imagem considerando apenas as
baixas freqüências, que podem ser associadas aos atributos mais gerais da imagem original no
domínio do espaço, ou seja, em imagens de face, seleção por baixas freqüências atua como
91
um processo que reduz o foco da imagem original, preservando contornos maiores e
eliminando detalhes (altas freqüências).
Considerando os resultados dos testes realizados nesse trabalho, pode-se associar que,
para reconhecimento de faces, a aplicação de DCT seguida pela seleção por baixas
freqüências é um método de reconhecimento apropriado para o banco ORL, apesar de não
incluir recomendações conhecidas de seleção de atributos. Entretanto, para a seleção de um
número reduzido de coeficientes, são mais apropriadas abordagens de seleção bem
elaboradas, como a seleção de distância normalizada pela variância.
Quanto ao classificador, o vizinho mais próximo é a abordagem que produz taxas de
acerto mais altas. Entretanto, a taxa de acerto do classificador de distância mínima ao
protótipo pode atender aos requisitos de custo computacional reduzido de aplicações
específicas. Nos testes realizados, a taxa de acerto do classificador de distância mínima ao
protótipo foi de 93,75% com 49 coeficientes, valor muito próximo aos resultados de
Hafed e Levine [2001] utilizando, entretanto, classificação por vizinho mais próximo.
Como continuidade desse trabalho, podem-se desenvolver os seguintes pontos: testes
sobre outros bancos de faces referenciados na literatura, testes considerando conjuntos de
treinamento menores, refinamento dos classificadores considerando grau de certeza da
classificação e aprimoramento do classificador de distância mínima ao protótipo, visto o seu
menor custo computacional.
92
Referências
1. ABATE, ANDREA F.; NAPPI, MICHELE; RICCIO, DANIEL AND SABATINO. 2D and 3D Face Recognition: A Survey. Pattern Recognition Letter 28, 1885-1906, 2007.
2. AT&T LABORATORIES, CAMBRIDGE, UK. “The ORL Database of Faces” (now AT&T “The Database of Faces”), Available [Online]: http://www.cl.cam.ac.uk/Research/DTG/attarchive/ pub/data/att_faces,zip [15/Setembro/2007], 1994.
3. BARTLETT, M. S.; MOVELLAN, J. R. AND SEJNOWSKI, T. J. Face Recognition by Independent Component Analysis. IEEE Transactions on Neural Networks, vol. 13, no 6, November 2002.
4. BASU, MITRA; BUNKE, HORST AND BIMBO, ALBERT DEL. Guest Editors’ Introduction to the Special Section on Syntactic and Structural Pattern Recognition. IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 27, no 7, July 2005.
5. BATISTA, L. V. Compressão de Sinais Eletrocardiográficos Baseada na Transformada Cosseno Discreta. Dissertação de Doutorado. Pós-Graduação em Engenharia Elétrica, UFPB, Campina Grande, Brasil, 2002.
6. BELHUMEUR, P. N.; HESOANHA, J. P. AND KRIEGMAN, D. J. Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection. IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 19, no 7, July 1997.
7. BICEGO, M., CASTELLANI, U. AND MURINO V. Using HMM and Wavelets for Face Recognition. Proceedings of the 12th International Conference on Image Analysis and Processing, IEEE 2003.
8. BUNKE, H. AND SANFELIU, A. Statistical and Syntactical Models and Patterns Recognition Technical. Computer Vision, Theory and Industrial Applications. Springer Verlag, 1992, 215–266. 1992.
9. CAMPOS, TEÓFILO EMÍDIO. Técnicas de Seleção de Características com Aplicação em Reconhecimento de Faces. Dissertação de Mestrado. USP, São Paulo, Brasil, 2001.
10. CASTLEMAN, KENNETH R. Digital Image Processing. Prentice Hall, 1996.
11. CHAI, DOUGLAS AND WONG, KOK WAI. Facial Image Processing: An Overview. Proceeding of the IEEE Conference on Cybernetics and Intelligent Systems. Singapore, 2004.
12. CHELLAPPA, RAMA; WILSON, CHARLE L. AND SIROHEY, SAAD. Human and Machine Recognition of Faces: A Survey. Proceedings of IEEE Technology of N. Control Systems, vol. 83, no 5 (703-740). May 1995.
13. CHEN, PING. A New LDA-Based Method for Face Recognition. Proceedings of the 16th International Conference on Pattern Recognition (ICPR'02), vol. 1, 2002.
14. CHOI, JEAN; CHUNG, Y.; KIM, K. AND JOO, J. Face Recognition Using Energy Probability in DCT Domain. IEEE, 2006.
15. CORMEN, THOMAS H.; LEISERSON, CHARLES E.; RIVEST, RONALD L. AND STEIN, CLIFFORD. Algoritmos - Teoria e Prática. Tradução de 2a Edição Americana. Editora Campus, 2002.
16. DUDA, R. O.; HART, P. E. AND STORK, D. G. Pattern Classification. Second Edition. Wiley-Interscience, 2000.
17. EKENEL, H. K.; GOA, S. H.; FISCHERM M. AND STIEFELHAGEN, R. Face Recognition for Smart Interactions. IEEE ICME, 2007.
93
18. FAÚNDEZ-ZANUY, MARCOS AND MONTE-MORENO, ENRIC. Face Recognition Using a Radial Basis Function Classifier. Decision and Control, 1999. Proceedings of the 38th IEEE Conference on IEEE, 2006.
19. FAÚNDEZ-ZANUY, MARCOS. Face Recognition in a Transformed Domain. Proceedings of IEEE 37th Annual International Carnahan Conference on Security Technology, 2003.
20. FISHER, R. A. The Statistical Utilization of Multiple Measurement. Annals of Eugenics, 8:376-386, 1938.
21. FU, KING-SUN. Syntatic Pattern Recognitoon and Applicaton. Prentice-Hall, 1982.
22. GONZALEZ, RAFAEL C; WOODS, RICHARD E. AND EDDINS, STEVEN L. Digital Image Processing Using Matlab. Pearson Education. Inc, 2004.
23. HAFED, ZIAD M. AND LEVINE, MARIN D. Face Recognition Using Discrete Cosine Transform. International Journal of Computer Vision, vol. 43(3), p. 167-188, 2001.
24. HAYKIN, SIMON. Redes Neurais – Princípios e Práticas. Tradução de 2a Edição. Bookman, 2001.
25. HE, JIA-ZHONG; ZHU, QING-HUAN AND DU, MING-HUI. Face Recognition Using PCA on Enhanced Image for Single Training Images. Proceedings of the Fifth International Conference on Machine Learning and Cybernetics. Dalian, 13-16, August 2006.
26. IVANCEVIC, V.; KAINE, A. K.; MCLINDIN, B. A. AND SUNDE, J. Factor Analysis of Essencial Facial Features. 25th Int. Conf. Information Technology Interface (ITI 2003), Croatia, 16-19 June 2003.
27. JAIN, ANIL K.; DUIN, ROBERT P. W. AND JIANCHANG, MAU. Statistical Pattern Recognition – A Review. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 22, no 1. January 2000.
28. JAIN, ANIL K.; HONG, L. AND PANKANTI, S. Biometric Identification. Communications of the ACM 43, 2, p. 90-98, 2000.
29. JESAN, JOHN PETER. The neural approach to pattern recognition. Ubiquity: An ACM IT Magazine and Forum, 2004, URL http://www,acm,org/ubiquity/views/v5i7_jesan,html, acessado em dezembro de 2007.
30. JING, XIAO-YUAN AND ZRANG, DAVID. A Face and Palmprint Recognition Approach Based on Discriminant DCT Feature Extraction. IEEE Transaction on System, Man and Cybernetics - Part B: Cybernetics , vol. 34, December 2004.
31. JONES, M. J. AND VIOLA, P. Face Recognition Using Boosted Local Features. IEEE International Conference on Computer Vision, 2003.
32. KOHIR, VINAYADATT V. AND DESAI, U. B. Face Recognition. IEEE International Symposium on Circuits and Systems. Switzerland, 2000.
33. KULKARNI, SANJEEV R.; LUGOSI, GABOR AND VENCATESH S. S. Learning Pattern Recognition: A Survey. IEEE Transaction on Information Teory, vol. 44, no 6, 1998.
34. KUMAR, S. A. S.; DEEPTI, D. R. AND PRABHAKAR, B. Face Recognition Using Pseudo-2D Ergodic HMM. IEEE ICASSP, 2006.
35. LI, S. AND JAIN, A. Face Databases. Handbook of Face Recognition. Springer-Verlag, 2005.
36. LU, CHONG; LIU, WANQUAN AND AN, SENJIAN. Face Recognition with Only One Training Sample. Proceeding of the 25th Chinese Control Conference, 7-11 August 2006. Harbin, Heilongjiang.
37. MARIN, LUCIENE DE OLIVEIRA E BARRETO, JORGE MUNIZ. Reconhecimento de Faces. UFSC/INE/L3C-03/2003.
94
38. MARTINEZ, A. M. AND KAK, A. C. PCA versus LDA. IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 23, no 2, February 2001.
39. MATOS, FABRÍZIA M. S.; BATISTA, LEONARDO V. AND POEL, JANKEES, V. D. Face Recognition Using DCT Coefficients Selection. Proceedings of the 23rd Annual ACM Symposium on Applied Computing 2008, March 16-20 Fortaleza, Brazil.
40. MELLO, CARLOS E. R.; SILVA, GERALDO Z. E SOUZA, JANO M. Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade. IX Brazilian Symposium on GeoInformatics, p. 277-282, Campos do Jordão, Brazil, Novembro 25-28, 2007.
41. NAZEER, S. A.; OMAR, N. AND KHALID, M. Face Recognition System Using Artificial Neural Network Approach. IEEE ICSCN, 2007.
42. NEFIAN, ARA V. Statistical Approches to Face Recognition. Degree of Doctor in Philosophy and Electrical Engineering. Georgia Institute of Tecnology, 1996.
43. PODILCHUK, CHRISTINE AND ZHANG XIAOYU. Face Recognition Using DCT-Based Feature Vectors. (ICASSP-96) IEEE International Conference on Acoustics, Speech, and Signal Processing, 1996.
44. RAO, K. R. Discrete Cosine Transform – Algorithms, Advantages, Applications. Academic Press, Inc. 1990.
45. RUIZ-DEL-SOLAR, J. AND NAVARRETE, P. Engenspace-Based Face Recogniton: A Canada Ative Study of Different Appoaches. IEEE Transaction on Systems, MAN and Cybernetics – Part C: Applications and Reviews, vol. 35, no 3, August 2005.
46. SAMRA, AHMED SHABANN; ALLAH, SALAH, E. T. G. AND IBRAHIM, REHAB MAHMOUND. Face Recognition Using Wavelet Transform, Fast Fourier Transform and Discrete Cosine Transform. (MWSCAS '03) Proceedings of the 46th IEEE International Midwest Symposium on Circuits and Systems. 2003.
47. SANDERSON, C. AND PALIWAL K. K. Fast Feature Extraction Method for Robust Face Verification. Eletronics Letters 5th . December 2002, vol. 387, no 25.
48. SHASTRI, BHAVIN J. AND LEVINE, MARTIN D. Face Recognition Using Localizeded Features based on Non-Negative Sparse Coding. Technique Report, Departament of Electrical and Computer Engineering & Center for Intelligent Machines, McGill University, Montreal, Canada, 2004.
49. SILVA, MARCELINO P. DOS S. Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka. SBC-Minicurso, Brasil, 2007.
50. THOEDORIDIS, SERGIOS AND KOUTROUMBAS, KONSTANTINOS. Pattern Recognition. Second Edition, Academic Press, 2003.
51. TURK, MATTHEW A. AND PENTLAND, ALEX P. Face Recognition using Eigenfaces. (CVPR '91) IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 1991.
52. UNIVERSITY OF WAIKATO. Weka 3 – Machine Learning Software in Java (2004). Disponível no site da University of Waikato, URL http://www.cs.waikato.ac.nz/ml/weka, acessado em dezembro/2007.
53. POEL, JANKEES V. D. Compressão de Sinais de Eletrocardiograma. Dissertação de Mestrado. Mestrado em Engenharia Biomédica, NETEB-PB, João Pessoa, Brasil, 1999.
54. WEBB, ANDREW R. Statistical Pattern Recognition. Second Edition, John Wiley and Sons Ltd, 2002.
55. XIANG, C.; FAN, X. A. AND LEE, T. H. Face Recognition Using Recursive Fisher Linear Discriminant. IEEE Transaction on Image Processing. 2004.
56. YANG, M. H.; KRIEGMAN, D. AND AHUJA, N. Detectiog Faces in Images: A Survey. IEEE Transactions
95
on Pattern Analysis and Machine Intelligence, vol. 24, no 1, 2002.
57. YU, MING; YAN, GANG AND ZHU, QING-WEN. New Face Recognition method based on DWT/DCT Combined Feature Selection. Proceeding of Fifth International Conference on Machine Learning and Cybernetics, Dalian, 13-16 August 2006.
58. ZHANG, GUOQIANG PETER. Neural Networks for Classification: A Survey. IEEE Transactions on Systems, Man and Cybernetics, 2000.
59. ZHANG, J.; WANG, Y. AND LI, G. Application of Bionic Neural Network on Face Recognition Based on SVD and DCT. Proceeding of the 6th World Congress on Intelligent Control and Automation, China, June 2006.
60. ZHAO, W.; CHELLAPPA, R.; PHILLIPS, P. J. AND ROSENFELD, A. Face Recognition: A Literature Survey. ACM Computing Surveys, vol. 35, no 4, p. 399-458, 2003.
61. ZHAO, WEN YI AND CHELLAPPA, RAMA. Image-based Face Recognition: Issues and Methods
Technical Report, Center for Automation Research University of Maryland, 2000.
62. ZOU, JIE; JI, QIANG AND NAGY, GEORGE. A Comparative Study of Local Matching Approach for Face Recognition. IEEE Transaction on Image Processing, vol. 16, no 10, October 2007.
96
Apêndice A – Resultados do Classificador de Distância Mínima ao
Protótipo
Na Tabela 20 são apresentados os resultados do classificador de distância mínima ao protótipo
por rodada de treinamento, considerando apenas os dois seletores de melhor desempenho
(baixas freqüência e distância normalizada pela variância). Os números de coeficientes
apresentados na tabela obtiveram resultados de destaque.
Tabela 20 - Resultados do classificador de distância mínima ao protótipo. Seletor: Baixas freqüências Seletor: Dist. norm. pela variância
N. Coef. Rodada Acertos Erros N. Coef. Rodada Acertos Erros 289 1 36 4 289 1 37 3
289 2 40 0 289 2 40 0
289 3 40 0 289 3 39 1
289 4 39 1 289 4 39 1
289 5 40 0 289 5 39 1
289 6 39 1 289 6 39 1
289 7 37 3 289 7 38 2
289 8 40 0 289 8 39 1
289 9 37 3 289 9 35 5
289 10 37 3 289 10 37 3
Total: 385 15 Total: 382 18 324 1 36 4 324 1 37 3
324 2 40 0 324 2 40 0
324 3 40 0 324 3 39 1
324 4 39 1 324 4 39 1
324 5 40 0 324 5 39 1
324 6 39 1 324 6 39 1
324 7 37 3 324 7 38 2
324 8 39 1 324 8 39 1
324 9 37 3 324 9 35 5
324 10 37 3 324 10 37 3
Total: 384 16 Total: 382 18 361 1 36 4 361 1 37 3
361 2 40 0 361 2 40 0
361 3 40 0 361 3 40 0
361 4 39 1 361 4 39 1
361 5 40 0 361 5 39 1
361 6 39 1 361 6 39 1
361 7 37 3 361 7 38 2
361 8 39 1 361 8 39 1
361 9 36 4 361 9 35 5
361 10 37 3 361 10 37 3
Total: 383 17 Total: 383 17
97
Apêndice B – Resultados do Classificador de Vizinho Mais
Próximo
Na Tabela 21 são apresentados os resultados do classificador de vizinho mais próximo por
rodada de treinamento, considerando apenas os dois seletores de melhor desempenho (baixas
freqüência e média de amplitude). Os números de coeficientes apresentados na tabela
obtiveram resultados de destaque.
Tabela 21 - Resultados do classificador de vizinho mais próximo. Seletor: Baixas freqüências Seletor: Média de Amplitude N. Coef. Rodada Acertos Erros N. Coef. Rodada Acertos Erros
25 1 38 2 25 1 40 0
25 2 40 0 25 2 40 0
25 3 40 0 25 3 39 1
25 4 40 0 25 4 38 2
25 5 40 0 25 5 40 0
25 6 40 0 25 6 39 1
25 7 39 1 25 7 40 0
25 8 40 0 25 8 40 0
25 9 39 1 25 9 39 1
25 10 39 1 25 10 37 3
Total: 395 5 Total: 392 8 36 1 40 0 36 1 40 0
36 2 40 0 36 2 40 0
36 3 40 0 36 3 39 1
36 4 40 0 36 4 39 1
36 5 40 0 36 5 40 0
36 6 40 0 36 6 40 0
36 7 40 0 36 7 40 0
36 8 40 0 36 8 40 0
36 9 38 2 36 9 39 1
36 10 39 1 36 10 38 2
Total: 397 3 Total: 395 5 49 1 39 1 49 1 38 2
49 2 40 0 49 2 40 0
49 3 40 0 49 3 40 0
49 4 40 0 49 4 39 1
49 5 40 0 49 5 40 0
49 6 40 0 49 6 40 0
49 7 39 1 49 7 40 0
49 8 40 0 49 8 40 0
49 9 39 1 49 9 39 1
49 10 38 2 49 10 38 2
Total: 395 5 Total: 394 6
98
Apêndice C – Erros do Classificador de Vizinho Mais Próximo
Nas Tabelas 22 e 23 são apresentados os erros ocorridos no classificador de vizinho mais
próximo relacionados, respectivamente, aos seletores de baixa freqüência e de média de
amplitude. Os erros apresentados referem-se à utilização de 36 e 49 coeficientes, pois as taxas
de acertos de tais conjuntos de coeficientes são altas. As tabelas mostram o número de
coeficientes, a rodada de treinamento na qual se deu o erro, a pessoa que foi classificada de
forma incorreta e a lista de pessoas com distâncias mais próximas em relação à pessoa de
teste.
Tabela 22 - Erros do classificador de vizinho mais próximo com seleção por baixas freqüências. N. Coef. Rodada Pessoa do erro Lista de pessoas mais parecidas
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 36 9 10 38 10
36 9 19 11 2 7 27 36 19
36 10 1 16 1
49 1 35 15 40 21 35
49 7 32 17 2 32
49 9 19 11 2 36 27 15 7 19
49 10 1 16 1
49 10 10 9 36 4 38 10
Tabela 23 - Erros do classificador de vizinho mais próximo com seleção por média de amplitude. N. Coef. Rodada Pessoa do erro Lista de pessoas mais parecidas
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 11ª 12ª 36 3 35 15 35
36 4 38 20 38
36 9 19 11 36 27 15 19
36 10 5 18 5
36 10 10 38 4 3 36 9 20 17 26 23 10
49 1 1 16 1
49 1 35 40 15 35
49 4 38 20 38
49 9 19 11 36 2 15 27 16 28 19
49 10 5 18 5
49 10 10 38 36 4 20 9 3 26 8 10
99
Apêndice D – Resultados do Classificador de K-Vizinhos Mais
Próximos
Na Tabela 24 são apresentados os resultados do classificador de k-vizinhos mais próximos por
rodada de treinamento, para k=3 e k=5, considerando apenas os dois seletores de melhor
desempenho (baixas freqüências e distância normalizada pela variância). Com o objetivo de
possibilitar comparações, os conjuntos de coeficientes apresentados são os mesmos da Tabela
21.
Tabela 24 - Resultados do classificador de k-vizinhos mais próximos, para k=3 e k=5. Seletor : Baixas frequências Seletor : Média de amplitude k=3 k =5 k =3 k =5
Coef. Rodada Acertos Erros Acertos Erros Acertos Erros Acertos Erros 25 1 39 1 37 3 39 1 37 3 25 2 39 1 39 1 40 0 39 1 25 3 40 0 40 0 38 2 38 2 25 4 39 1 37 3 37 3 36 4 25 5 39 1 37 3 39 1 38 2 25 6 38 2 37 3 38 2 39 1 25 7 39 1 38 2 38 2 38 2 25 8 39 1 40 0 39 1 40 0 25 9 39 1 39 1 38 2 38 2 25 10 38 2 38 2 36 4 35 5 Total: 389 11 382 18 382 18 378 22
36 1 39 1 37 3 39 1 36 4 36 2 39 1 38 2 38 2 38 2 36 3 40 0 39 1 38 2 38 2 36 4 39 1 37 3 36 4 36 4 36 5 39 1 38 2 39 1 39 1 36 6 38 2 37 3 39 1 38 2 36 7 40 0 40 0 37 3 36 4 36 8 40 0 40 0 40 0 39 1 36 9 37 3 38 2 36 4 37 3 36 10 39 1 39 1 35 5 34 6 Total: 390 10 383 17 377 23 371 29
49 1 37 3 39 1 38 2 37 3 49 2 40 0 39 1 39 1 39 1 49 3 39 1 39 1 39 1 37 3 49 4 39 1 39 1 36 4 36 4 49 5 39 1 38 2 40 0 40 0 49 6 39 1 37 3 37 3 39 1 49 7 39 1 39 1 37 3 37 3 49 8 40 0 40 0 38 2 40 0 49 9 39 1 39 1 37 3 38 2 49 10 38 2 38 2 36 4 35 5 Total: 389 11 387 13 377 23 378 22
100
Apêndice E – Matriz de Confusão
Nas Tabelas 25 e 26 são apresentadas matrizes de confusão de 40 pessoas (40 x 40). A
diagonal principal representa o número de acertos e as demais células representam erros. Cada
linha de uma matriz totaliza 10 testes com faces de uma mesma pessoa (suas 10 poses). Na
Tabela 25 têm-se o seguinte contexto: classificação por distância mínima ao protótipo, seleção
por baixas freqüências (289 coeficientes) e taxa de acerto de 96,25% considerando 400 testes
(385 acertos e 15 erros). Na Tabela 26 têm-se o seguinte contexto: classificação por vizinho
mais próximo, seleção por baixas freqüências (36 coeficientes) e taxa de acerto de 99,25%
considerando 400 testes (397 acertos e 3 erros).
101
Tabela 25 – Matriz de confusão: distância mínima ao protótipo, baixas freqüências, 289 coeficientes, 15 erros. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 9 1 2 10 3 10 4 10 5 9 1 6 10 7 10 8 10 9 10 10 1 9 11 10 12 10 13 10 14 10 15 10 16 9 1 17 10 18 10 19 9 1 20 10 21 10 22 10 23 9 1 24 10 25 10 26 9 1 27 10 28 10 29 9 1 30 10 31 1 1 1 7 32 1 9 33 10 34 10 35 1 9 36 10 37 10 38 10 39 10 40 2 8
102
Tabela 26 – Matriz de confusão: vizinho mais próximo, baixas freqüências, 36 coeficientes, 3 erros. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 9 1 2 10 3 10 4 10 5 10 6 10 7 10 8 10 9 10 10 1 9 11 10 12 10 13 10 14 10 15 10 16 10 17 10 18 10 19 1 9 20 10 21 10 22 10 23 10 24 10 25 10 26 10 27 10 28 10 29 10 30 10 31 10 32 10 33 10 34 10 35 10 36 10 37 10 38 10 39 10 40 10
103
Apêndice F – Artigo Publicado