FABRIZIA MEDEIROS DE SOUSA MATOS - ppgi.di.ufpb.br · Os métodos holísticos têm se destacado na literatura devido a taxas de acerto elevadas e ... Objetivos ... 6.3 Exemplos de

UNIVERSIDADE FEDERAL DA PARAÍBA

CENTRO DE CIÊNCIAS EXATAS E DA NATUREZA

DEPARTAMENTO DE INFORMÁTICA

PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA

FABRIZIA MEDEIROS DE SOUSA MATOS

RECONHECIMENTO DE FACES UTILIZANDO A TRANSFORMADA COSSENO DISCRETA

João Pessoa, 2008



Dissertação de mestrado apresentada ao Programa de Pós-Graduação em Informática, da Universidade Federal da Paraíba, como parte dos requisitos para a obtenção do título de Mestre em Informática. Área de concentração: Sistemas Digitais (Processamento Digital de Imagens).

ORIENTADOR: Leonardo Vidal Batista

João Pessoa, 2008

Ficha catalográfica.

M433r Matos, Fabrízia Medeiros de Sousa.

Reconhecimento de faces utilizando a transformada cosseno discreta /

Fabrízia Medeiros de Sousa Matos. – João Pessoa, 2008.

94p.:il.

Orientador: Leonardo Vidal Batista.

Dissertação (mestrado) – UFPB/CCEN.

1. Informática. 2. Processamento Digital de Imagens. 3. Reconhecimento

de Faces. 4. Reconhecimento de Padrões. 5. Transformada Cosseno Discreta.

UFPB/BC CDU:004(043)



Esta dissertação foi julgada adequada para a obtenção do título de Mestre em Informática e aprovada em sua forma final pelo Orientador e pela Banca Examinadora.

Orientador: ____________________________________

Prof. Dr. Leonardo Vidal Batista, UFPB

Doutor pela UFCG - Campina Grande, Brasil

Banca Examinadora:

Prof. Dr. Gustavo Henrique Matos Bezerra Motta, UFPB.

Doutor pela Universidade de São Paulo (USP) - São Paulo, Brasil.

Prof. Dr. Lucídio dos Anjos Formiga Cabral, UFPB.

Doutor pela Universidade Federal do Rio de Janeiro (UFRJ) - Rio de Janeiro, Brasil.

Profa. Dra. Joseana Macêdo Fechine, UFCG.

Doutora pela Universidade Federal da Paraíba (UFPB) - Campina Grande, Brasil.

Coordenadora do PPGI: _______________________________

Profa. Dra. Valéria Gonçalves Soares

João Pessoa (julho de 2008)

DEDICATÓRIA

Dedico este trabalho ao meu esposo, Marcial Matos,

e aos meus filhos, Marília Matos e Matheus Matos,

pelo amor vivenciado todos os dias.

AGRADECIMENTOS

A DEUS, pela sabedoria, inspiração e saúde concebida durante a realização de todo esse

trabalho.

Às minhas irmãs, pela amizade, incentivo e apoio incondicional.

À minha sobrinha, Vanessa Cabral, pela carinhosa colaboração em vários momentos.

Aos amigos, pelo carinho, disponibilidade e solidariedade.

Aos colegas do CEFET-PB, pelo incentivo e inestimável ajuda por mais de dois anos de

curso.

Ao Professor Leonardo Vidal Batista, pela amizade, atenção, confiança e orientação.

Ao LASID, pelo ambiente e grupos de trabalho.

Ao Programa de Pós-Graduação em Informática da UFPB (PPGI), professores e

funcionários, pela oportunidade de realização desse trabalho.

v

RESUMO

A operação de reconhecimento de faces humanas realizada por computador possui um campo

de aplicação abrangente, representando em especial, inovação e maior confiabilidade

associada a aplicações de segurança. É uma área de pesquisa com forte atuação desde a

década de 1990, com sistemas comercias já disponíveis no mercado.

Por não se tratar de uma comparação básica entre duas imagens, técnicas para

reconhecimento de faces estão continuamente sendo propostas visando garantir maior taxa de

acertos e rapidez de processamento. Métodos baseados em características físicas, métodos

holísticos e métodos 3D são continuamente aprimorados.

Os métodos holísticos têm se destacado na literatura devido a taxas de acerto elevadas e

utilizam, normalmente, transformadas matemáticas, como a Transformada Cosseno Discreta

(DCT), a Transformada Karhumen-Loève (KLT) e a Transformada Wavelet. Experimentos

com uso da DCT, em específico, chegam a registrar taxas de acerto acima de 95% com custo

computacional reduzido.

Nesse trabalho propõem-se métodos de reconhecimento de faces baseados na seleção

de coeficientes da DCT. Os métodos propostos fazem seleção de atributos baseada nos

coeficientes DCT das imagens e realizam o reconhecimento considerando classificação

baseada em distância. Etapas prévias de pré-processamento e normalização das imagens em

relação à iluminação e posição são dispensadas pelos métodos, pois espera-se que variações

de tais aspectos em coeficientes DCT bem selecionados sejam pouco representadas.

Alguns dos métodos propostos atingem taxa de acertos compatível com o estado da arte

vi

e mostram-se eficazes em relação a alterações sutis de iluminação, posição e expressão facial,

mostrando a viabilidade da aplicação da DCT em reconhecimento de faces.

Experimentos realizados com o banco de faces ORL (Olivetti Research Lab),

constantemente referenciado na literatura, permitiram comparações diretas com outros

métodos de reconhecimento. As comparações mostram que a taxa de acertos de alguns dos

métodos propostos supera os resultados de publicações importantes da área.

Palavras-chave: Processamento Digital de Imagens, Reconhecimento de Faces,

Reconhecimento de Padrões e Transformada Cosseno Discreta.

vii

ABSTRACT

The operation of human faces recognition done by computer has a wide application,

representing innovation and greater reliability associated to security applications. It’s a

research area strongly active since the 1990 decade and commercial systems are already

available on the market.

As it is not a simple comparison between two images, techniques for face recognition

are continuously being proposed aiming to guarantee a greater hit rate and speed of

processing. Methods based on characteristics, holistic methods and 3D methods are being

continuously improved.

Holistic methods are becoming prominent in literature due to high hit rates, and

normally use mathematic transforms, such as Discrete Cosine Transform (DCT), Karhumen-

Loève Transform (KLT) and Wavelet Transform. Experiments with DCT, specifically,

register hit rates above 95% with reduced computational cost.

In this report, methods for faces recognition based on selection of coefficients of the

DCT are proposed. The proposed methods selects DCT coefficients from the images and does

the recognition based on distance. Previous steps of pre-processing and normalization of

images in relation to illumination and position are dispensed, as it is expected that variations

of these aspects into well selected DCT coefficients are not much representative.

The proposed methods reach hit rate compatible with the state of the art and is robust to

subtle alterations of illumination, position and facial expression, showing the viability of

application of DCT in face recognition.

viii

Experiments done with the ORL (Olivetti Research Lab) Face Database, constantly

referenced on literature, allowed direct comparisons with other methods of recognition. The

comparisons show that the hit rate of the method is greater than the results of important

publications in the area.

Key-words: Images Digital Processing, Face Recognition, Pattern Recognition and

Discrete Cosine Transform.

ix

SUMÁRIO

DEDICATÓRIA ................................................................................................................... i AGRADECIMENTOS ........................................................................................................ ii RESUMO ..............................................................................................................................v ABSTRACT ....................................................................................................................... vii SUMÁRIO .......................................................................................................................... ix ÍNDICE DE FIGURAS ...................................................................................................... xi ÍNDICE DE TABELAS..................................................................................................... xii ÍNDICE DE EQUAÇÕES ................................................................................................ xiii LISTA DE ABREVIATURAS E SIGLAS........................................................................xiv LISTA DE SÍMBOLOS ....................................................................................................xvi Capítulo 1..............................................................................................................................1 Introdução ............................................................................................................................1

1.1. Objetivos................................................................................................................5 Capítulo 2..............................................................................................................................6 Reconhecimento de Padrões.................................................................................................6

2.1 Casamento de Modelo (Template Matching) ........................................................8 2.2 Técnicas Estatísticas..............................................................................................9

2.2.1 Dados de Treinamento e de Testes.................................................................13 2.2.2 O Problema da Dimensionalidade..................................................................14 2.2.2 Abordagens de Classificação por Distância ...................................................16

2.3 Reconhecimento Sintático...................................................................................18 2.4 Redes Neurais......................................................................................................19 2.5 Mineração de Dados............................................................................................21

Capítulo 3............................................................................................................................23 Transformada Cosseno Discreta........................................................................................23 Capítulo 4............................................................................................................................28 Reconhecimento de Faces...................................................................................................28

4.1 Seleção de Atributos............................................................................................29 4.2 Abordagens de Classificação ..............................................................................30 4.3 Bancos de Faces...................................................................................................30 4.4 Alguns Métodos Descritos na Literatura ...........................................................31

4.4.1 Métodos Baseados em Análise de Componentes Principais (PCA) ................33 4.4.2 Métodos Baseados em Análise de Discriminantes Lineares de Fisher (LDA).36 4.4.3 Métodos Baseados em DCT ..........................................................................37 4.4.4 Abordagens Adicionais .................................................................................42 4.4.5 Tabela Resumo dos Métodos Apresentados ...................................................46

x

Capítulo 5............................................................................................................................48 Métodos e Material.............................................................................................................48

5.1. Seleção de Atributos............................................................................................48 5.1.1 Seletor Média de Amplitude ..........................................................................51 5.1.2 Seletor Média de Amplitude Excluindo Extremos..........................................52 5.1.3 Seletor Baseado em Mediana.........................................................................52 5.1.4 Seletor por Contagem de Ocorrências............................................................53 5.1.5. Seletor por Posição Média dos Coeficientes...................................................54 5.1.6 Seletor de Distância Normalizada pela Variância...........................................56 5.1.7 Seletor de Baixas Freqüências .......................................................................58 5.1.8 Seletor WEKA ..............................................................................................59 5.1.9 Resumo dos Seletores Apresentados..............................................................60

5.2 Classificação ........................................................................................................60 5.2.1 Classificador de Distância Mínima ao Protótipo ............................................61 5.2.2 Classificador do Vizinho Mais Próximos (NN)..............................................61 5.2.3 Classificador dos K-Vizinhos Mais Próximo (KNN) .....................................62

5.3 Treinamento e Testes ................................................................................................63 5.3.1 Banco de Faces..............................................................................................64 5.3.2 Testes Realizados ..........................................................................................65

5.4 Ferramentas Utilizadas.............................................................................................67 Capítulo 6............................................................................................................................68 Resultados ...........................................................................................................................68

6.1 Resultados Combinando Sete Seletores e Três Classificadores.........................69 6.2 Melhores Resultados Obtidos por Classificador ................................................73 6.3 Exemplos de Erros ..............................................................................................76 6.4 Curvas de Reconhecimento Acumulativo ..........................................................78 6.5 Resultados Utilizando o WEKA .........................................................................80 6.6 Tempo de Processamento....................................................................................81 6.7 Lista de Coeficientes Selecionados......................................................................82

Capítulo 7............................................................................................................................86 Discussão e Conclusão ........................................................................................................86 Referências..........................................................................................................................92 Apêndice A – Resultados do Classificador de Distância Mínima ao Protótipo................96 Apêndice B – Resultados do Classificador de Vizinho Mais Próximo..............................97 Apêndice C – Erros do Classificador de Vizinho Mais Próximo ......................................98 Apêndice D – Resultados do Classificador de K-Vizinhos Mais Próximos ......................99 Apêndice E – Matriz de Confusão ...................................................................................100 Apêndice F – Artigo Publicado ........................................................................................103

xi

ÍNDICE DE FIGURAS

FIGURA 1 - DIVISÃO DE PROCESSAMENTO DE IMAGENS DE FACE, ADAPTADO DE [CHAI, 2004]................................ 3

FIGURA 2 - SISTEMA DE RECONHECIMENTO ESTATÍSTICO, ADAPTADO DE [JAIN, DUIN ET AL., 2000]......................10

FIGURA 3 - MÉTODOS ESTATÍSTICOS DE RECONHECIMENTO, ADAPTADO DE [JAIN ET AL. 2000]. ............................12

FIGURA 4 - EFEITO DO PROBLEMA DE DIMENSIONALIDADE, ADAPTADO DE [CAMPOS, 2001]..................................16

FIGURA 5 - IMAGEM ORIGINAL E RESULTADO DA APLICAÇÃO DA DCT-II. BANCO ORL, PESSOA 1, POSE 1. ...........26

FIGURA 6 - IMAGEM ORIGINAL E SUA RECONSTRUÇÃO COM COEFICIENTES DCT DE BAIXA FREQÜÊNCIA. ..............27

FIGURA 7 - ADAPTAÇÃO DO RECONHECIMENTO DE FACES A UM SISTEMA DE CLASSIFICAÇÃO. ...............................48

FIGURA 8 - ESTRATÉGIA PARA DEFINIR A SELEÇÃO DE ATRIBUTOS DOS MÉTODOS PROPOSTOS. ..............................49

FIGURA 9 - GRUPOS DE SELETORES AVALIADOS......................................................................................................50

FIGURA 10 - REGIÕES QUADRADAS ASSOCIADAS A SELEÇÃO DE BAIXAS FREQÜÊNCIAS..........................................59

FIGURA 11 - IMAGENS DO BANCO ORL: PESSOAS 1, 7, 20 E 35, CADA UMA EM SUAS 10 POSES. ..............................65

FIGURA 12 - CLASSIFICADOR DE DISTÂNCIA MÍNIMA AO PROTÓTIPO: 3 SELETORES DE MELHOR DESEMPENHO.......74

FIGURA 13 - CLASSIFICADOR DE VIZINHO MAIS PRÓXIMO: 3 SELETORES DE MELHOR DESEMPENHO. ......................74

FIGURA 14 - CLASSIFICADOR DE K-VIZINHOS MAIS PRÓXIMO (K=3): 3 SELETORES DE MELHOR DESEMPENHO. .......75

FIGURA 15 - BANCO ORL: PESSOAS 19, 11 E 36 EM SUAS 10 POSES (PESSOAS E POSES EM SEQÜÊNCIA)..................77

FIGURA 16 - CURVA DE RECONHECIMENTO ACUMULATIVO DO SELETOR DE BAIXAS FREQÜÊNCIAS........................79

FIGURA 17 - RECONHECIMENTO ACUMULATIVO DO SELETOR DE DISTÂNCIA NORMALIZADA PELA VARIÂNCIA. .....80

xii

ÍNDICE DE TABELAS

TABELA 1 - ESCALA DE CINZA DA IMAGEM MOSTRADA NA FIGURA 5.A, DA COORDENADA (1,1) ATÉ ( 8, 8). ..........26

TABELA 2 - COEFICIENTES DA DCT-II APLICADA SOBRE A FIGURA 5.A, DA COORDENADA (1,1) ATÉ (8,8).............26

TABELA 3 - CARACTERÍSTICAS DOS BANCOS DE FACES 2D REFERENCIADOS NESSE TRABALHO. .............................31

TABELA 4 - RESUMO DOS MÉTODOS REFERENCIADOS NESSE TRABALHO. ...............................................................46

TABELA 5 - EXEMPLO DO SELETOR POR CONTAGEM DE OCORRÊNCIA. ....................................................................54

TABELA 6 - CONTAGEM DE OCORRÊNCIA DOS COEFICIENTES APRESENTADOS NA TABELA 5. .................................54

TABELA 7 - VALORES FICTÍCIOS DE POSIÇÃO MÉDIA INTRACLASSE.........................................................................56

TABELA 8 - VALORES DA POSIÇÃO MÉDIA INTERCLASSE, CALCULADAS A PARTIR DOS DADOS DA TABELA 7. ........56

TABELA 9 - RAZÃO DAS POSIÇÕES MÉDIA INTRACLASSE E INTERCLASSES PARA A PESSOA 1...................................56

TABELA 10 - RESUMO DAS ABORDAGENS DE SELEÇÃO ANALISADAS NESSE TRABALHO..........................................60

TABELA 11 - RESULTADOS OBTIDOS COM SETE SELETORES E TRÊS CLASSIFICADORES. ..........................................69

TABELA 12 - RESUMO DO DESEMPENHO DOS SELETORES. .......................................................................................73

TABELA 13 - ERROS DE CLASSIFICAÇÃO DOS TRÊS CLASSIFICADORES. ...................................................................76

TABELA 14 - TENTATIVAS DE ACERTOS DOS DOIS SELETORES DE MELHOR DESEMPENHO. ......................................79

TABELA 15 - CLASSIFICAÇÃO DO WEKA UTILIZANDO SELEÇÃO POR BAIXAS FREQÜÊNCIAS..................................81

TABELA 16 - CLASSIFICAÇÃO COMBINANDO SELEÇÃO POR BAIXAS FREQÜÊNCIAS E SELEÇÃO WEKA...................81

TABELA 17 - TEMPO DE PROCESSAMENTO DE SELETORES. ......................................................................................82

TABELA 18 - TEMPO DE PROCESSAMENTO DE CLASSIFICADORES. ...........................................................................82

TABELA 19 - RESULTADOS DA SELEÇÃO DE COEFICIENTES SOBRE O BANCO ORL. .................................................83

TABELA 20 - RESULTADOS DO CLASSIFICADOR DE DISTÂNCIA MÍNIMA AO PROTÓTIPO...........................................96

TABELA 21 - RESULTADOS DO CLASSIFICADOR DE VIZINHO MAIS PRÓXIMO. ..........................................................97

TABELA 22 - ERROS DO CLASSIFICADOR DE VIZINHO MAIS PRÓXIMO COM SELEÇÃO POR BAIXAS FREQÜÊNCIAS. ...98

TABELA 23 - ERROS DO CLASSIFICADOR DE VIZINHO MAIS PRÓXIMO COM SELEÇÃO POR MÉDIA DE AMPLITUDE. ...98

TABELA 24 - RESULTADOS DO CLASSIFICADOR DE K-VIZINHOS MAIS PRÓXIMOS, PARA K=3 E K=5. ........................99

TABELA 25 – MATRIZ DE CONFUSÃO: DISTÂNCIA MÍNIMA AO PROTÓTIPO, BAIXAS FREQÜÊNCIAS, 289

COEFICIENTES, 15 ERROS. ............................................................................................................................101

TABELA 26 – MATRIZ DE CONFUSÃO: VIZINHO MAIS PRÓXIMO, BAIXAS FREQÜÊNCIAS, 36 COEFICIENTES, 3 ERROS.

....................................................................................................................................................................102

xiii

ÍNDICE DE EQUAÇÕES

(1) FUNÇÃO DE DECISÃO...................................................................................................................................... 8

(2) DISTÂNCIA DE MANHATTAN ........................................................................................................................... 9

(3) PROBABILIDADE A PRIORI ..............................................................................................................................10

(4) DENSIDADE DE PROBABILIDADE....................................................................................................................10

(5) PROBABILIDADE A POSTERIORI.......................................................................................................................10

(6) RISCO CONDICIONAL .....................................................................................................................................11

(7) FUNÇÃO DE PERDA – ZERO OU UM .................................................................................................................11

(8) DECISÃO DE BAYES .......................................................................................................................................11

(9) DCT..............................................................................................................................................................25

(10) MÉDIA DE VETORES.......................................................................................................................................34

(11) MATRIZ DE COVARIÂNCIA .............................................................................................................................34

(12) ESPALHAMENTO INTRACLASSES ....................................................................................................................36

(13) ESPALHAMENTO INTERCLASSES ....................................................................................................................37

(14) RAZÃO ENTRE ESPALHAMANETO INTERCLASSES E INTRACLASSES ...............................................................37

(15) MÉDIA DE AMPLITUDE DE UM COEFICIENTE ..................................................................................................51

(16) MÉDIA DE AMPLITUDE DE UM COEFICIENTE EXCLUINDO EXTREMOS .............................................................52

(17) POSIÇÃO MÉDIA INTRACLASSE ......................................................................................................................55

(18) POSIÇÃO MÉDIA INTERCLASSES .....................................................................................................................55

(19) RAZÃO ENTRE POSIÇÕES MÉDIAS INTRACLASSES E INTERCLASSES ...............................................................55

(20) VARIÂNCIA DA AMPLITUDE DE UM COEFICIENTE .........................................................................................57

(21) DISTÂNCIA NORMALIZADA PELA VARIÂNCIA DE UM COEFICIENTE ................................................................57

(22) DISTÂNCIA MÍNIMA AO PROTÓTIPO ...............................................................................................................61

(23) DISTÂNCIA DO VIZINHO MAIS PRÓXIMO.........................................................................................................62

(24) RELAÇÃO ENTRE DISTÂNCIAS DE VIZINHOS MAIS PRÓXIMOS .........................................................................62

(25) DISTÂNCIA DE K-VIZINHOS MAIS PRÓXIMOS ..................................................................................................63

xiv

LISTA DE ABREVIATURAS E SIGLAS

AFGR International Conference on Automatic Face and Gesture Recognition

AVBPA International Conference on Audio and Video Based Autentication

CAS-PEAL Chinese Academy of Science - Pose, Expression, Acessory, Lighting

CMU-PIE Carnegie Mellon University - Pose, Illumination and Expression

DCT Discrete Cosine Transform

DWT Discrete Wavelet Transform

FERET Facial Recognition Technology

FRVT Facial Recognition Vender Test (FRVT)

GMM Gaussian Mixture Model

HMM Hidden Markov Models

HRL Harvard Robotics Lab

ICA Independent Component Analysis

ICP Iterative Closest Point

JPEG Joint Photographic Experts Group

KLT Karhunen-Loève Transform

KNN K-Nearest Neighbor

LDA Linear Discriminant Analysis

LNMF Local Non Negative Matrix Factorization

MAD Mean Absolute Diference

MLP Multi Layer Perceptron

MSERED Mean Square Error Regularized

NMF Non Negative Matrix Factorization

NN Nearest Neighbor

NNSC Non-Negative Sparce Coding

ORL Olivetti Research Lab

PCA Principal Componentes Analysis

RBF Radial-Basis Function

SVM Suport Vector Machine

WEKA Waikato Environment for Knowledge Analysis

xv

XM2VTS Extended M2VTS Database (Multi Modal Verification for Teleservices and

Security)

xvi

LISTA DE SÍMBOLOS

di(x) Função de decisão i

Di(x) Distância de x em relação à classe i

Pi Probabilidade a priori da classe i

p(x) Função densidade de probabilidade de x

p(x|wi) Função densidade de probabilidade de x condicionada à classe wi

( )xwP j | Probabilidade a posteriori de x ser da classe wj

( )ji wwL , Função de perda causada na decisão por wi, sendo wj a classe correta

( )xwP j | Probabilidade a posteriori de x pertencer a classe wj

µ Média aritmética de valores

),( vuF Matriz de coeficientes DCT

wS Matriz de espalhamento intraclasse (classe w)

S Matriz de espalhamento interclasses

m Número de coeficientes selecionados

n Número de coeficientes DCT de uma imagem

p Número de pessoas distintas no conjunto de dados de treinamento

q Número de poses de treinamento de cada pessoa

r Número de poses de cada pessoa em um banco de faces

kjix Valor do i-ésimo coeficiente DCT da imagem da pessoa j na pose k.

jiµ Média aritmética da amplitude do i-ésimo coeficiente da imagem da pessoa j

jie Média da amplitude do i-ésimo coeficiente da imagem da pessoa j, excluindo

os valores extremos

jiR Razão entre as posições médias intraclasse e interclasses do coeficiente i da

imagem da pessoa j

ji2σ̂ Variância da amplitude do coeficiente i da imagem da pessoa j

jfiD̂ Distância normalizada pela variância, do coeficiente i em relação às imagens

xvii

das pessoas f e j

jfDMP Distância mínima ao protótipo entre as imagens das pessoas f e j

kjfDNN Distância entre a imagem da face f e a imagem de treinamento da pessoa j na

pose k (classificação NN)

kjfDKNN Distância entre a imagem da face f e a imagem de treinamento da pessoa j na

pose k (classificação KNN)

1

Capítulo 1

Introdução

Um sistema de reconhecimento de faces é considerado um sistema biométrico que identifica

seres humanos a partir de sua face. Sistemas biométricos se baseiam em atributos individuais

que podem ser mensurados, como assinatura, impressão digital, voz, íris e face [Jain, Hong et

al., 2000].

Reconhecimento de faces é a operação de identificar por computador uma face humana

desconhecida [Ivancevic et al., 2003]. A operação é realizada fazendo-se uma comparação

entre uma face desconhecida e imagens de faces armazenadas em um banco de dados,

confirmando ou rejeitando o reconhecimento. Métodos propostos trabalham no contexto de

reconhecer um objeto tridimensional a partir de imagens de bidimensionais [Zhao et al.,

2003].

Reconhecimento de faces é uma área fortemente atuante desde o início da década de

1990, incentivada em especial por demandas de aplicações de segurança. Trabalhos pioneiros

na área foram publicados na década de 70, tendo-se atualmente um legado de tecnologia

resultado de anos de pesquisa. Também pode-se evidenciar a relevância da área considerando

os seguintes aspectos [Zhao et al., 2003]:

• Conferências internacionais na área, como a International Conference on

Automatic Face and Gesture Recognition (AFGR) e a International Conference

on Audio and Video Based Autentication (AVBPA);

• Existência de sistemas de avaliação de técnicas de reconhecimento de faces, como

2

FERET, FRVT 2000, FRVT 2002 e XM2VTS [Zhao et al., 2003];

• Disponibilidade de produtos comercias, como FaceIt e FaceSnap.

Reconhecimento de faces possui um campo de aplicação abrangente, representando, em

especial, inovação e maior confiabilidade associada a aplicações de segurança [Podilchuk e

Xiaoyu, 1996; Zhoa et al., 2003; Chai e Wong, 2004]. As aplicações de segurança variam

incluindo desde a autorização de acesso físico e lógico até as mais sofisticadas aplicações de

rastreamento de suspeitos. Um contexto significativo de aplicações de segurança corresponde

à autenticação em tempo real de portadores de documentos pessoais, como passa-porte,

carteira de identidade, carteira de motorista, cartão de crédito, seguridade social e outros.

Além de aplicações de segurança, reconhecimento de faces também pode ser associado a

outras aplicações, como interação homem-máquina, programas de treinamento e realidade-

virtual [Zhoa et al., 2003].

Embora existam métodos confiáveis de reconhecimento baseados em outras

características biométricas, como íris, retina e impressão digital, tais métodos exigem precisão

de posicionamento, cooperação do participante, que precisa se submeter voluntariamente à

captura da imagem a ser analisada, e são difíceis de aplicar a vídeo [Zhoa et al., 2003; Abate

et al., 2007]. Para o reconhecimento de íris, o usuário deve permanecer parado em uma

posição definida e com os olhos abertos, enquanto uma fonte de luz os ilumina e uma câmera

captura a imagem. As dificuldades acentuam-se em sistemas que utilizam imagens de fundo

de retina, uma vez que é necessário aplicar um colírio para dilatar a pupila do usuário antes de

efetuar a aquisição da imagem [Campos, 2001]. Entretanto, apesar de tais exigências, há

sistemas de reconhecimento de íris tão confiáveis que já existem bancos financeiros os

adotando para autenticar seus usuários [Jain, Hong et al., 2000].

Considerando as exigências impostas pelos sistemas biométricos referenciados

anteriormente, verifica-se uma sobressalente vantagem dos sistemas de reconhecimento

baseado em faces, visto que podem ser aplicados de forma menos invasiva e com menores

3

exigências de precisão e posicionamento. Além dessas vantagens, há aplicações no contexto

tecnológico atual que não podem impor tais requisitos aos usuários, como identificação de

face em vídeo, rastreamento de suspeitos e interface homem-computador [Zhoa et al., 2003;

Abate et al., 2007].

A operação de reconhecimento de faces pode ser abordada de duas formas: identificação

e autenticação [Jain, Hong et al., 2000; Abate et al., 2007]. Na identificação, a face de uma

pessoa é comparada com uma galeria de faces, tendo como objetivo encontrar a classe correta

para a face investigada, ou seja, subtende-se responder à pergunta “Quem sou eu?”. Na

autenticação, a face investigada e seu proprietário são previamente informados e o objetivo é

certificar a informação declarada, comparando-se a face investigada com uma galeria de faces

para confirmar que a mesma corresponde ao proprietário declarado. Em outras palavras, a

autenticação certifica o pedido “Confirme que eu sou a pessoa x”.

Na Figura 1 é apresentada uma divisão do que tem sido pesquisado em processamento

de imagens de faces, a saber: captura da face, análise e compressão [Chain e Wong, 2004]. A

captura tem como foco a aquisição da imagem da face em formato digital, a compressão se

concentra no armazenamento compactado das imagens e a análise, com uma abrangência mais

diversificada, inclui tópicos como detecção, captura e reconhecimento de face. Outras áreas

de pesquisa relacionadas a faces bastante referenciadas na literatura correspondem à detecção

de faces em vídeo e análise de expressões faciais [Yang et al., 2002; Zhoa et al., 2003;

Chai e Wong, 2004; Li e Jain, 2005]. Nesse trabalho, tem-se como escopo a área de

reconhecimento de faces, propondo-se métodos para identificar uma face desconhecida.

Figura 1 - Divisão de processamento de imagens de face, adaptado de [Chai, 2004].

4

A operação de reconhecimento de faces possui um grau de dificuldade considerável,

visto que não se trata de uma comparação pixel a pixel de duas imagens. No reconhecimento

de uma face há fatores que dificultam o processo de comparação, como por exemplo, posição

da face, escala, iluminação, ambiente, expressão facial, adornos, oclusão e diferença de idade.

Dessa forma, os métodos de reconhecimento de faces normalmente têm como objetivo

reconhecer com confiabilidade e independente de fatores que possam provocar variações nas

imagens de uma mesma face [Zhoa et al., 2003; Abate et al., 2007]. Um desafio importante

dos primeiros métodos de reconhecimento de faces e que se estende até os dias atuais é

localizar de forma automática os atributos representativos da face, como olhos e boca,

independente de pose e escala.

Considerando as dimensões comuns às imagens de faces, o tempo necessário para a

realização do reconhecimento também tem sido visto como uma dificuldade. Nesse contexto,

devem-se utilizar bons algoritmos de redução da dimensionalidade dos dados, que sejam

capazes de extrair das imagens somente as informações essenciais para o reconhecimento

[Campos, 2001].

Em [Zhoa et al., 2003] são diferenciados dois contextos de reconhecimento de faces:

reconhecimento de faces associado a imagem fixa (fotografias) e reconhecimento de faces em

imagens de vídeo. Apesar de se ter nos dois contextos o objetivo comum de reconhecer uma

face humana, há particularidades associadas ao reconhecimento de faces em imagens de vídeo

que impõem novos desafios. O processo de aquisição de uma imagem fixa pode ser

controlado, enquanto a aquisição de imagens de vídeo não permite níveis de controle. Por

exemplo, a aquisição de imagens de face a partir de um vídeo registrado em um aeroporto

produz imagens com posicionamento livre e baixa qualidade. Nesse trabalho, tem-se como

escopo o reconhecimento de faces associado a imagens fixas, com testes realizados sobre

banco de faces construídos sob condições controladas.

Apesar de fatores típicos dificultarem o reconhecimento de faces, métodos têm se

5

mostrado robustos sob condições controladas e sistemas comerciais já estão disponíveis no

mercado [Zhoa et al., 2003; Abate et al., 2007]. Entretanto, continuamente são apresentadas

novas propostas avançando-se na busca por um reconhecimento com maior grau de

confiabilidade, robustez em relação aos fatores que dificultam o reconhecimento e custo de

processamento aceitável.

Trabalhos recentes demonstram que o uso de coeficientes da Transformada Cosseno

Discreta (Discrete Cosine Transform – DCT) no reconhecimento de faces produz resultados

com elevada taxa de acertos em menor tempo de processamento do que outros métodos, sendo

também relativamente independente de fatores como iluminação, posição e escala [Kohir e

Desai, 2000; Hafed e Levine, 2001; Sanderson e Paliwal, 2002; Faúndez, 2003; Zhao et al.,

2003; Matos et al., 2008].

1.1. Objetivos

O objetivo geral desta dissertação é o desenvolvimento de métodos de reconhecimento de

faces baseado na seleção de coeficientes da DCT. Os métodos devem produzir resultados com

taxa de acertos compatível com o estado da arte, devem ter um custo de processamento

satisfatório para aplicações de segurança e ser relativamente independente de fatores como

iluminação, posição e escala.

Os objetivos específicos dessa dissertação são:

• implementar métodos para reconhecimento de faces;

• analisar diferentes associações de seletores de coeficientes DCT e classificadores

para um sistema de reconhecimento de faces;

• realizar testes com bancos de faces referenciados na literatura e que apresentem

poses variadas das pessoas, incluindo diferenças em relação a iluminação,

posição, escala, expressão facial e oclusão;

• comparar os resultados dos métodos propostos com outros métodos já publicados.

6

Capítulo 2

Reconhecimento de Padrões

Os seres humanos são capazes de reconhecer padrões com grande rapidez e qualidade. Faz

parte da natureza humana, ao observar um objeto, fazer uma coleta de informações, as quais

são comparadas com as propriedades e comportamentos conhecidos e armazenados em sua

mente. A partir dessa comparação, os seres humanos são capazes de reconhecer o alvo de sua

observação. Este conceito de reconhecimento é simples e familiar para todos em um ambiente

real, mas em um ambiente computacional, o reconhecimento não é uma tarefa trivial

[Jesan, 2005].

Define-se um padrão como o oposto do caos; uma entidade, vagamente definida, a qual

pode ser dada um nome. Por exemplo, um padrão poderia ser uma imagem de impressão

digital, uma palavra escrita a mão, uma face humana ou um sinal de voz. Reconhecimento de

padrão é o estudo de como máquinas podem observar o ambiente, aprender e distinguir

padrões de interesse do que está sendo visto, verificar e justificar decisões sobre as categorias

dos padrões [Jain, Duin et al., 2000].

Reconhecimento automático, descrição, classificação e agrupamento de padrões são

problemas importantes em diversas áreas, como biologia, psicologia, medicina, marketing,

visão computacional e inteligência artificial. Adicionalmente, novas e emergentes aplicações,

tais como mineração de dados, pesquisa na web, restauração de dados multimídia,

reconhecimento de faces, reconhecimento de voz e reconhecimento de letras cursivas

requerem técnicas robustas e eficientes de reconhecimento de padrão.

7

Dado um padrão, reconhecê-lo ou classificá-lo pode consistir de uma das seguintes

tarefas: classificação supervisionada e classificação não supervisionada [Webb, 2002]. Na

classificação supervisionada, o padrão de entrada é identificado como um membro de uma

classe pré-definida, ou seja, a classe é definida pelo projetista do sistema. Na classificação não

supervisionada, o padrão é determinado por uma fronteira de classe desconhecida, ou seja, as

classes são aprendidas baseadas nas similaridades dos padrões.

O reconhecimento de padrão envolve, essencialmente, as seguintes etapas de

processamento: filtragem da entrada, extração de características e classificação [Jesan, 2005].

A filtragem da entrada, também denominada pré-processamanto, tem o objetivo de eliminar

dados desnecessários ou distorcidos fazendo com que a entrada apresente apenas dados

relevantes para o reconhecimento do objeto em análise. A extração de características, também

denominada etapa de seleção de atributos, consiste em análise dos dados de entrada a fim de

extrair e derivar informações úteis para o processo de reconhecimento. O estágio final do

reconhecimento de padrão é a classificação, ou etapa de tomada de decisão, que analisa as

características extraídas dos dados de entrada e declara o objeto em análise como pertencente

a uma determinada categoria.

Apesar de décadas de pesquisas e técnicas bem formuladas de reconhecimento, ainda se

tem como principais desafios da área as questões de orientação, localização e escala [Jain,

Duin et al. 2000]. Tais desafios são especialmente importantes quando se trata de modernas

aplicações, que exigem técnicas de reconhecimento robustas, como reconhecimento de faces e

voz, mineração de dados, pesquisa na web, restauração de dados multimídia e reconhecimento

de letras cursivas.

De acordo com [Jain, Duin et al., 2000], quatro abordagens bem conhecidas para

reconhecimento de padrão são: casamento de modelo, técnicas estatísticas, reconhecimento

sintático e estrutural e redes neurais. Tais propostas não são necessariamente independentes,

tendo-se até um mesmo método de reconhecimento de padrão existindo com diferentes

8

interpretações. Adicionalmente, verifica-se que o método escolhido depende do domínio da

aplicação, inexistindo uma abordagem de reconhecimento ótima, sendo inclusive a

combinação de várias abordagens de reconhecimento uma prática bastante usada.

Esse trabalho concentra-se em métodos estatísticos de reconhecimento de padrão, visto

ser uma abordagem bem conhecida e apropriada para redução de dimensionalidade dos dados.

2.1 Casamento de Modelo (Template Matching)

Uma das primeiras e mais simples abordagens para reconhecer padrões é a técnica de

casamento de modelos, que determina a similaridade entre duas entidades. Faz parte da

abordagem de decisão teórica que se baseia na utilização de funções de decisão ou

discriminantes, em que o padrão a ser reconhecido é comparado com os modelos

armazenados por meio de uma função de decisão [Jain, Duin et al., 2000].

Seja x um vetor de atributos que representa o padrão a ser classificado e sejam

cwww ,...,, 21 os vetores de atributos que representam as c classes de padrões existentes. O

problema básico consiste em encontrar c funções de decisão, )(...,),(),( 21 xxx cddd , com a

propriedade de que, se o padrão representado pelo vetor x pertence à classe representada por

wi, então a relação definida pela Equação 1 é verdadeira [Marin e Barreto, 2003].

jiecjparaxdxd ji ≠=> ...,,2,1),()( (1)

As funções de decisão presentes na Equação 1 têm sido adaptadas para medidas de

distância. O classificador de distância mínima segue uma abordagem equivalente às funções

de decisão e tem sido utilizado em problemas reais de reconhecimento de padrão.

O classificador de distância mínima atribui um padrão desconhecido representado pelo

vetor x à classe cujo vetor wi é mais próximo a x, ou seja, nessa abordagem a menor distância

implica o melhor casamento de modelos.

Distância Euclidiana, distância de Hamming e distância de Manhattan, dentre outras,

têm sido utilizadas para determinar distância mínima entre objetos. No caso específico da

9

distância de Manhattan, define-se x em relação às classes representadas por wi conforme a

Equação 2, atribuindo-se x à classe representada por wi cujo valor de )(xDi é mínimo.

ii wxxD −=)( , para i = 1, 2, ..., c (2)

2.2 Técnicas Estatísticas

Reconhecimento de padrões baseado em técnicas estatísticas tem obtido avanços

representativos nos últimos anos e tem sido usado com sucesso para projetar sistemas

comerciais de reconhecimento [Webb, 2002]. Conceitos estatísticos de decisão e estimação

são considerados fundamentais para tais abordagens. Novas e emergentes aplicações, como

mineração de dados, pesquisa na web, recuperação de dados multimídia, reconhecimento de

face e reconhecimento de letras cursivas requerem técnicas de reconhecimento de padrões

robustas e eficientes, e têm sido implementadas baseadas em técnicas estatísticas.

Na Figura 2 é ilustrado um modelo de sistema de reconhecimento estatístico [Jain, Duin

et al., 2000]. Esse mesmo modelo também pode ser utilizado para representar outros sistemas

de reconhecimento de padrões. Ele possui dois modos de operação: treinamento ou

aprendizagem e classificação ou reconhecimento.

O módulo de pré-processamento retira o padrão de interesse eliminando ambiente e

paisagem, removendo ruídos, normalizando o padrão e efetuando qualquer outra operação que

contribua na definição de uma representação compacta do padrão.

No modo de treinamento, o módulo de extração e seleção de atributos procura

características apropriadas para a representação de padrões de entrada, e o classificador é

treinado para particionar o espaço de características baseado nos valores de tais atributos. Os

retornos aos módulos anteriores permitem aperfeiçoar o pré-processamento e estratégias de

extração e seleção de atributos.

No modo de classificação, associa-se o padrão de entrada com uma das classes de

padrões de treinamento, sob considerações baseadas nos valores dos atributos.

10

Figura 2 - Sistema de reconhecimento estatístico, adaptado de [Jain, Duin et al., 2000].

Na abordagem estatística, cada padrão é representado em termos de características ou

atributos e é visto como um ponto em um espaço d-dimensional. Deve-se escolher atributos

que proporcionem uma distribuição espacial compacta e disjunta, diferenciando-se de forma

mais segura as diversas classes de padrões existentes. A classificação se faz baseada em

conceitos de teoria de decisão estatística, que definem fronteiras de decisão entre classes de

padrões distintas baseando-se na distribuição de probabilidade [Jain, Duin et al., 2000].

Considere-se que um dado padrão x pode ser associado a uma classe i, dentre as c

classes existentes. Mantendo a notação de Jain, Duin et al.[2000], as c classes serão

representadas nesta seção por cwww ,...,, 21 . Define-se Pi como a probabilidade a priori da

classe i, sendo verdadeira a relação especificada pela Equação 3. Define-se p(x) como a

função densidade de probabilidade de x, especificada pela Equação 4, sendo p(x|wi) a função

densidade de probabilidade de x condicionada à classe wi. Define-se ( )xwP j | como a

probabilidade a posteriori de x ser da classe wj, especificada pela Equação 5.

∑=

=c

i

iP1

1 (3)

∑=

=c

i

ii wxpPxp1

)|(*)( (4)

( ) ∑=

=c

j

jj

jxp

PwxpxwP

1 )(

*)|(| (5)

O processo de decisão da abordagem estatística pode ser assim sintetizado: um padrão

11

deve ser classificado em uma das c classes cwww ,...,, 21 , baseado no seu vetor de

atributos ( )dxxxx ,...,, 21= . Supondo que cada atributo possua uma função densidade de

probabilidade associada a cada classe, então a decisão é extraída a partir da probabilidade

condicional ( )iwxp | .

A regra de decisão ótima de Bayes determina que o padrão x pertence a classe wi se o

risco condicional, definido pela Equação 6, for mínimo [Duda et al., 2000]. Nessa equação,

( )ji wwL , corresponde à função de perda causada na decisão por wi, sendo wj a classe correta

e ( )xwP j | corresponde à probabilidade a posteriori de x pertencer a wj .

( ) ( ) ( )∑=

=c

j

jjii xwPwwLxwR1

|.,| (6)

Considerando a função de perda como zero ou um, definida pela Equação 7, o risco

condicional torna-se a probabilidade condicional de falsa classificação. Assim, ao atribuir o

padrão x à classe wi a regra de decisão de Bayes pode ser simplifica pela Equação 8 [Duda et

al., 2000].

( )

≠

==

ji

jiwwL ji ,1

,0, (7)

( ) ( ) ijxwPxwP ji ≠> ,|| (8)

A escolha da regra de decisão do classificador depende do tipo de informação

disponível a respeito da densidade condicional de classe, mas de certa forma, a maioria dos

enfoques tenta implementar a regra de decisão de Bayes [Jain, Duin, et al., 2000]. Na Figura

3 são apresentadas regras de decisões estatísticas associadas à disponibilidade de informações

da densidade condicional de classe. Se todas as informações são conhecidas, então a decisão

de Bayes pode ser usada para projetar o classificador. Se a forma da densidade condicional de

classe for conhecida, mas alguns de seus parâmetros não o forem, têm-se o modo

parametrizado. Nesse caso, é possível se aplicar a decisão de Bayes ótima ou a do tipo plug-

12

in, tendo-se para a decisão de Bayes ótima os valores dos parâmetros desconhecidos

calculados a partir de informações adicionais e para o tipo plug-in estimação de tais

parâmetros. Em muitas aplicações, entretanto, não se conhece a densidade condicional de

classe, que deve então se aprendida, seja a partir de um treinamento supervisionado ou não.

Considerando o treinamento supervisionado e o modo não parametrizado, pode-se estimar a

função de densidade, utilizando a abordagem de Parzen, ou construir diretamente a fronteira

de decisão, utilizando a abordagem do k-ésimo vizinho mais próximo. Já o treinamento não

supervisionado, no modo não parametrizado, tem sua decisão baseada na análise de cluster,

que busca identificar uma separação razoável das classes mediante os dados de treinamento.

Figura 3 - Métodos estatísticos de reconhecimento, adaptado de [Jain et al. 2000].

Também se verifica que ao percorrer a árvore de métodos de reconhecimento

estatísticos (Figura 3), no sentido de cima para baixo e da esquerda para a direita, se reduz a

quantidade de informações disponíveis a respeito das características e classes de padrões, que

como conseqüência aumenta a dificuldade de classificação.

Uma classificação adicional relacionada aos métodos estatísticos, também ilustrada na

Figura 3, considera a maneira como as fronteiras de decisão são obtidas e define a abordagem

baseada em densidade probabilística (ou indireta) e a abordagem geométrica (ou direta). A

13

abordagem probabilística requer primeiro que a função de densidade seja especificada, para

então construir as funções discriminantes que especificam as fronteiras de decisão. Por outro

lado, a abordagem geométrica freqüentemente constrói fronteiras de decisão diretamente por

meio de funções de custo fixo.

Apesar da existência de abordagens diferentes de classificação, verificam-se em comum

os seguintes objetivos: minimizar os erros de classificação e ter custo computacional

reduzido. O classificador ideal deve produzir uma alta taxa de acertos com rapidez e

eficiência, mas verifica-se que em problemas complexos melhores resultados podem

comprometer a eficiência do processamento.

2.2.1 Dados de Treinamento e de Testes

Independente da regra de classificação ou decisão usada, um classificador deve ser treinado

com as amostras de treinamento e como regra deve classificar amostras que são

provavelmente diferentes daquelas utilizadas no treinamento [Jain, Duin et al., 2000].

Entretanto, nos casos práticos é comum se ter uma limitação de dados de treinamento e testes,

sendo que, para se avaliar de forma correta o desempenho do classificador, é necessário se ter

uma separação de tais dados.

Para ao mesmo tempo manter a separação de dados de treinamento e de teste e evitar

conjuntos de dados independentes, tem-se adotado o uso de validação cruzada, que possibilita

um maior número de testes sobre os dados disponíveis. A validação cruzada é um método

estatístico que divide aleatoriamente o conjunto de dados disponíveis em dados de

treinamento e dados de teste, de modo que as amostras de teste não sejam utilizados no

treinamento [Haykin, 2001]. Para possibilitar um maior número de testes, faz-se alternância

entre os conjuntos de dados e de treinamento e de testes: em uma etapa se treina com o

conjunto que representa o treinamento e se classifica com o conjunto que representa os testes;

em outra etapa se alternam tais conjuntos treinando-se com o antigo conjunto de testes e

classificando-se com o antigo conjunto de treinamento.

14

Quando o conjunto de dados de treinamento for severamente reduzido, justifica-se a

aplicação do método deixe-um-de-fora (leave-one-out), considerado uma variante da

validação cruzada, que treina com p-1 objetos e testa com o objeto deixado de fora do

treinamento.

Define-se como habilidade de generalização de um classificador o seu desempenho ao

classificar padrões de teste que não foram utilizados no treinamento. O desempenho do

classificador depende em especial do número de amostras disponíveis para treinamento assim

como dos valores específicos de tais amostras, ou seja, de quão bem os valores das amostras

se aproximam da distribuição real dos dados. Porém, sabe-se que maximizar o treinamento

nem sempre produz o melhor resultado de classificação.

Dentre os aspectos apontados na literatura que podem contribuir para a limitação de

desempenho de um classificador ou reduzir sua capacidade de generalização destacam-se

[Campos, 2001]:

• dimensão do espaço de atributos, ou seja, elevado número de atributos (curse of

dimensionality);

• número de parâmetros desconhecidos do classificador;

• otimização intensa do treinamento ou número de iterações de treinamento

(overtraining).

2.2.2 O Problema da Dimensionalidade

O problema da “maldição da dimensionalidade” é bem conhecido pela abordagem estatística

de reconhecimento de padrão e está relacionado diretamente à seleção de atributos. A

dimensionalidade consiste no número de atributos utilizados para representar um padrão, ou

seja, a dimensão do espaço de características. O problema da maldição da dimensionalidade

advém da necessidade de se ter um número de elementos de treinamento que depende

diretamente da dimensão do espaço de características. Há casos em que tal relação é

15

exponencial [Jain, Duin et al., 2000], ou seja, NeT ∝ , sendo T o número de amostras de

treinamento requerido e N a dimensão do espaço de atributos. Dessa forma, quando se tem um

conjunto de treinamento reduzido, a adição de novos atributos pode prejudicar o desempenho

do classificador, se não forem adicionados amostras de treinamento.

Apesar de se ver o problema da dimensionalidade generalizado como uma relação

exponencial, há fatores que podem alterar a grandeza de tal relação, como número de classes e

complexidade de classificador. É geralmente aceitável que o número de amostras de

treinamento por classe seja pelo menos dez vezes o número de atributos. Resultados

empíricos em Jain, Duin et al.[2000] sugerem a relação NTi *10< , com i=1, ..., c, sendo Ti

o número de amostras de treinamento da classe i. Assim, quanto mais complexo for o

classificador, maior deveria ser a proporção do tamanho de amostras para ser evitado o

problema da dimensionalidade.

A curva apresentada na Figura 4 ilustra o efeito do problema da dimensionalidade sobre

a taxa de acertos do classificador. Na região compreendida entre 0 e m1 ocorre o

comportamento intuitivamente esperado, pois o aumento do número de atributos proporciona

aumento da taxa de acertos. Isso se deve ao fato de espaços com dimensões reduzidas não

possuírem informações suficientes para distinguir as classes de padrões. Na região

compreendida entre m1 e m2 ocorre uma estabilidade na taxa de acertos e se verifica que a

adição ou eliminação de atributos altera de forma ínfima o resultado do classificador. A

estabilidade da taxa de acertos sugere que os atributos importantes já foram considerados e

atributos extras nem são ruidosos nem relevantes para a classificação. Estratégias de tentativa

e erro têm sido aplicadas para identificar a dimensionalidade ideal que minimiza os erros de

classificação, ou seja, o ponto m1. O problema da dimensionalidade começa a ser visualizado

após m2 e ilustra que, com o aumento do número de atributos se reduz de taxa de acertos.

16

Figura 4 - Efeito do problema de dimensionalidade, adaptado de [Campos, 2001].

Para reduzir a dimensionalidade duas abordagens se destacam: seleção e extração de

atributos [Jain, Duin et al., 2000]. A seleção escolhe o melhor conjunto dentre os atributos

originais e a extração cria novos atributos a partir de transformações ou combinações das

características originais e elimina os atributos menos relevantes. Em geral, a seleção é uma

abordagem simples e os atributos selecionados podem ser associados às características

visíveis da imagem original. As características transformadas, geradas pela extração, podem

não ter uma associação clara em relação à imagem original, mas têm apresentado grande

habilidade em representar classes de padrões.

Um método de extração de atributos primeiro cria um espaço a partir de transformações

ou combinações de características do espaço original e a seguir reduz a dimensionalidade

eliminando os atributos menos relevantes. Formalmente, dado o espaço de atributos τ de

dimensão N, um método de extração de atributos h é uma função h: τ→F, em que F possui

dimensão m, com m ≤ N. Assim, sendo x um padrão representado no espaço τ, temos h(x) = y

com y ∈ F sendo a nova representação de x no espaço F.

2.2.2 Abordagens de Classificação por Distância

O classificador de k-vizinhos mais próximos (K-Nearest Neighbors - KNN) é uma

classificador sub-ótimo que cria fronteiras de decisões complexas a partir de um conjunto de

padrões de treinamento com classes conhecidas a priori. Dado um padrão desconhecido x, sua

classificação ocorre da seguinte forma: calcula-se a distância entre x e todos os padrões de

17

treinamento, verifica-se a quais classes pertencem os k padrões mais próximos de x e

finalmente associa-se o padrão x à classe mais freqüente entre esses k padrões. Como medida

de distância utiliza-se a distância Euclidiana ou similar.

Uma vantagem conhecida do classificador KNN é que, quando o conjunto de

treinamento é grande ou bem representativo, ele cria uma fronteira de decisão que se adapta à

forma de distribuição dos dados de treinamento, possibilitando a obtenção de boas taxas de

acertos. O objetivo de se usar k >1 é reduzir a ocorrência de erros causados por ruído nos

padrões de treinamento, mas o uso de valores grandes para k reduz a taxa de acertos,

especialmente quando a distribuição das classes apresenta um número elevado de

sobreposições.

A escolha do número de vizinhos (k) é um ponto crítico do classificador KNN, sendo

recomendado a estratégia de tentativa e erro para a sua definição. Outras limitações

conhecidas relacionados a tal classificador são: problemas de indecisão nos casos de empate e

custo computacional, pois a quantidade de operações necessárias para a classificação de um

padrão considera valores de atributos de todas as amostras de treinamento [Campos, 2001].

Tomando k=1, obtém-se o classificador do vizinho mais próximo (Nearest

Neighbor - NN). Sob certas condições fracas das densidades de probabilidades condicionadas

às classes, esse classificador acarreta uma taxa de erro maior do que o classificador de Bayes,

mas que não ultrapassa o seu dobro [Kulkarni et al. 1998]. Adicionalmente, de acordo com o

teorema mencionado em [Campos, 2001], considerando infinitos padrões de treinamento, a

taxa de erros do classificador do vizinho mais próximo (k=1) não ultrapassa o dobro da taxa

de erros da regra de Bayes.

O classificador de distância mínima ao protótipo é uma regra de decisão simples, tanto

no treinamento como nos testes, e de menor custo computacional do que os classificadores

KNN e NN. A fase de treinamento consiste na determinação do protótipo, pelo menos um por

classe, definido a partir dos dados de treinamento. Um exemplo comum é definir o protótipo

18

de cada classe a partir da média (baricentro) dos vetores de treinamento da classe. Na fase de

teste, cada padrão é classificado de acordo com o protótipo mais próximo. Para calcular a

proximidade entre os padrões de teste e os protótipos de treinamento se utiliza a distância

Euclidiana ou similar.

Uma vantagem da aplicação do classificador de distância mínima ao protótipo é seu

custo computacional, pois a quantidade de operações necessárias para a classificação de um

padrão considera apenas os valores de atributos dos protótipos. Entretanto, uma limitação

dessa abordagem consiste em seus resultados em casos práticos, pois os protótipos

freqüentemente não contêm informações suficientes sobre a forma de distribuição das classes.

Considerações feitas entre o classificador de distância mínima ao protótipo e os

classificadores KNN e de Bayes indicam as seguintes equivalências [Campos, 2001]:

• Se os protótipos forem os padrões de treinamento, o classificador de distância

mínima ao protótipo equivale ao classificador KNN, para k=1;

• Quando é utilizado apenas um protótipo por classe, sendo cada protótipo definido

pela média (baricentro) do conjunto de treinamento de sua classe, e quando a

distribuição probabilística das classes é tal que seus desvios padrões são

equivalentes para todas as direções do espaço de atributos, então o classificador de

distância mínima ao protótipo comporta-se como o classificador ótimo de Bayes.

2.3 Reconhecimento Sintático

Reconhecimento de padrões baseado nas abordagens sintática e estrutural teve grande

crescimento e destaque durante as décadas de 1960 e 1970 [Basu et al., 2005]. A área evoluiu

para atender a demanda de problemas do mundo real e, em paralelo, outros paradigmas

importantes também se destacaram, como métodos estatísticos e redes neurais.

Os métodos sintáticos usam a estrutura interna do padrão como elemento de análise. O

sub-padrão mais simples a ser reconhecido denomina-se primitiva e padrões complexos são

19

representados como relações entre primitivas. Ressalva-se em especial a característica de um

número limitado de primitivas ser capaz de descrever um número potencialmente grande de

padrões complexos. Formas de onda, texturas de imagens e formas e contornos foram

utilizados como primitivas [Fu, 1982] por apresentarem estruturas bem definidas e passíveis

de captura por meio de regras.

Apesar da abordagem sintática poder ser aplicada a problemas genéricos de

reconhecimento, destacam-se notáveis benefícios de sua aplicação sobre reconhecimento de

padrões complexos passíveis de decomposição hierárquica, como análise gramatical e

autômatos de estado finito. Nesse contexto o padrão passa a ser visto como uma composição

simples de sub-padrões hierarquicamente interligados.

A representação de um padrão na abordagem sintática é baseada em primitivas e

relacionamentos, também conjuntamente tratados como gramáticas, e permitem tanto a

classificação de um padrão como a sua reconstrução. Ao invés de um simples vetor de

características, como o vetor adotado pela abordagem estatística, estruturas de dados mais

complexas, como árvores, grafos e gramáticas são utilizadas na representação da abordagem

sintática.

Dificuldades relevantes associadas à implementação de um método de reconhecimento

sintático correspondem à detecção de primitivas e a inferência das regras. Tais procedimentos

devem gerar recursos apropriados à inferência de uma decisão estrutural e hierárquica e têm

sido guiados por intuição e heurística [Bunke, 1992]. Outra dificuldade do método sintático é

o demasiado esforço computacional devido às combinações explosivas de possibilidades que

têm que ser investigadas.

2.4 Redes Neurais

O cérebro humano é capaz de processar uma grande quantidade de informações rapidamente.

Pesquisas em inteligência artificial procuram organizar elementos processadores de forma

20

similar à organização dos neurônios do cérebro humano buscando obter uma capacidade de

processamento similar [Jesan, 2004]. De acordo com [Jain, Duin et al., 2000], uma rede

neural artificial é um sistema computacional paralelo consistindo de um grande número de

processadores com muitas interconexões, que usam princípios organizacionais como

aprendizado, generalização, adaptabilidades, tolerância a falhas e computação distribuída.

Apesar de redes neurais serem usadas em diversas áreas, pesquisas e aplicações em

problemas de classificação têm se destacado. Redes neurais têm obtido sucesso em

classificações como reconhecimento de caracteres, reconhecimento de voz, diagnóstico

médicos, qualidade de produtos, tolerância a falhas, predição de probabilidade de bancarrotas

e avaliação de títulos bancários [Zhang, 2000].

A popularidade do uso de redes neurais em problemas de reconhecimento de padrão

deve-se em especial a sua baixa dependência de conhecimento do domínio específico e devido

à disponibilidade de algoritmos eficientes de aprendizagem. Redes neurais provêem

algoritmos não lineares para extração de características e classificação, além de também

existirem algoritmos de extração de características e classificação que podem ser mapeados

para implementação eficiente em hardware.

Como diferencial entre redes neurais e outras abordagens de reconhecimento de

padrões, verifica-se a sua habilidade em aprender relacionamentos complexos não lineares

entre dados de entrada e saída, com uso de procedimento seqüencial de treinamento [Jain,

Duin et al., 2000]. Outras características relevantes correspondem à habilidade de adaptação

aos dados e à capacidade de resolver problemas sem a necessidade de definição de listas de

regras.

Redes neurais comumente utilizadas em reconhecimento de padrão são as do tipo

diretas (Feed-Forward Network) e as de função de base radial (Radial-Basis Function - RBF),

que são organizadas em camadas e que produzem conexões unidirecionais entre as camadas,

ou seja, sem realimentação. Elas representam um procedimento integrado de seleção e

21

classificação [Jain, Duin et al., 2000], sendo seu processo de aprendizagem definido por

atualizações na arquitetura da rede e nos pesos das conexões, de forma que ela possa executar

uma tarefa específica de classificação de forma eficiente.

Contrariando a aparente diferença de princípios básicos, a maioria das redes neurais

bem conhecidas é implicitamente similar a métodos estatísticos clássicos de reconhecimento

de padrão [Jain, Duin et al., 2000]. Não obstante estas similaridades, redes neurais podem

oferecer vantagens, tais como unificação de abordagens para extração de características e

classificação, assim como procedimentos flexíveis para encontrar soluções não lineares.

Apesar de seus potenciais benefícios, a aplicação de redes neurais em reconhecimento

de padrões tem dificuldades significativas, como a complexidade de construção das redes, o

tempo de processamento necessário para o treinamento, ajustes de níveis, nós e taxas de

aprendizado, representação das características, modularidade e escala [Jesan, 2004].

2.5 Mineração de Dados

Mineração de dados é definida como o processo não-trivial de descoberta de padrões válidos,

novos, potencialmente úteis e compreensíveis a partir de grandes volumes de dados [Mello et

al., 2007]. É um processo interativo e iterativo englobando várias atividades, como as

seguintes: seleção de atributos, redução de dimensionalidade, mineração de dados

propriamente dita e análise. A atividade de mineração de dados corresponde à aplicação de

algoritmos apropriados que, sob um limite aceitável de eficiência computacional, produzem

uma enumeração particular de padrões sobre os dados. A atividade de análise interpreta os

padrões descobertos com respeito a sua utilidade em uma dada aplicação.

O aplicativo WEKA (Waikato Environment for Knowledge Analysis) é uma ferramenta

de mineração de dados simples e muito utilizada nos dias atuais. Também existem

ferramentas comerciais específicas para mineração de dados assim como bancos de dados

com recursos para mineração de dados [Silva, 2007].

22

O WEKA é formado por uma coleção de algoritmos de aprendizagem de máquina para

resolução de problemas de mineração de dados. Ele foi desenvolvido pela Universidade de

Waikato na Nova Zelândia e disponibilizado como software de domínio público e código

aberto, podendo ser obtido em http://www.cs.waikato.ac.nz/ml/weka/ [University of Waikato,

2004]

O processo de mineração implementado no WEKA, que aplica modelos de classificação

em bases de dados, é composto por duas fases: aprendizado e teste. Na fase de aprendizado,

um classificador é aplicado sobre um conjunto de dados de treinamento. Como resultado,

obtém-se a construção do classificador propriamente dito. Tipicamente, o conjunto de

treinamento corresponde a um subconjunto de observações selecionadas de maneira aleatória

a partir da base de dados que se deseja analisar. Após o classificador ser construído, inicia-se

a etapa de teste, que avalia a eficiência do classificador por meio do emprego de um conjunto

de dados de teste. O conjunto de teste contém observações que também são selecionadas

aleatoriamente a partir da base de dados. No entanto, estas observações são diferentes das que

foram selecionadas para compor o conjunto de treinamento.

Diversas técnicas podem ser utilizadas para a construção de classificadores, tais como

redes neurais, métodos Bayesianos e árvores de decisão. Os principais métodos de

classificação suportados pelo WEKA são [University of Waikato, 2004]: árvore de decisão

induzida, regras de aprendizagem, naive Bayes, tabelas de decisão, regressão local de pesos,

aprendizado baseado em instância, regressão lógica, perceptron e Máquina de Vetores de

Suporte (Suport Vector Machines - SVM).

23

Capítulo 3

Transformada Cosseno Discreta

As transformadas, e em particular as transformadas integrais, são utilizadas para reduzir a

complexidade de problemas matemáticos, como por exemplo, a resolução de equações

diferenciais e integrais. Um caso bem conhecido é a transformada de Fourier, que decompõe

um sinal em seus componentes de freqüência.

O desenvolvimento de algoritmos rápidos para o cálculo da transformada de Fourier em

1965 representou um grande impulso na aplicação de transformadas em processamento digital

de sinais [Rao, 1990]. Similarmente, o surgimento em 1974 da Transformada Cosseno

Discreta (Discrete Cosine Transform - DCT ) e seus algoritmos eficientes impulsionaram em

especial aplicações em processamento de sinais, processamento de imagens e compressão de

dados [Rao, 1990]. Desde então, verificam-se experimentos com resultados promissores

utilizando DCT em problemas como reconhecimento de padrões, compressão, filtragem e

reconstrução.

Uma característica importante de algumas transformadas refere-se a sua capacidade de

gerar coeficientes descorrelacionados, concentrando a maior parte da energia do sinal em um

reduzido número de coeficientes, ou seja, correspondem a uma abordagem capaz de reduzir a

correlação presente nos sinais. Quando o sinal se comporta como um processo estocástico

com determinadas propriedades, pode-se mostrar que a Transformada KLT (Karhunen-Loève

Transform) é ótima no sentido de que obtém descorrelação máxima e concentra a energia em

um número mínimo de coeficientes [Rao, 1990]. No entanto, transformadas sub-ótimas são

24

utilizadas na prática, como a DCT e a Transformada de Wavelet (Discrete Wavelet

Transform - DWT), visto que a implementação da KLT é elaborada, exigindo a estimação de

matriz de covariância além do cálculo da transformada propriamente dito [Batista, 2002].

A DCT é uma função linear e inversível, R → R, que expressa sinais como uma soma

de funções cosseno discretas. O sinal original é convertido para o domínio da freqüência pela

DCT, e é possível converter o sinal de volta para o domínio do tempo aplicando-se a DCT

inversa.

Após a transformação para o domínio da freqüência se obtém os coeficientes da DCT,

que refletem a importância das freqüências presentes no sinal original. Os primeiros

coeficientes referem-se às freqüências mais baixas do sinal, que representam o

comportamento geral do sinal original. Os últimos coeficientes referem-se às freqüências mais

altas do sinal, que geralmente representam as informações mais detalhadas ou finas do sinal,

que em muitos casos representam predominantemente ruído [Gonzalez et al., 2004]. Dessa

forma, no caso específico de se reduzir a dimensionalidade após a aplicação da DCT, os

coeficientes de mais baixa freqüência serão geralmente os mais apropriados para se

representar os diferentes padrões, que no caso desse trabalho correspondem às diferentes

imagens de faces.

Em [Rao, 1990] há quatro definições para DCT: DCT-I, DCT-II, DCT-III e DCT-IV. A

DCT-II tem sido mais usada em processamento de sinais e de imagens devido em especial à

sua forte capacidade de compactação de energia: muitas das informações do sinal tendem a se

concentrar em poucos componentes de baixa freqüência. Por esse motivo, o padrão JPEG usa

a DCT-II na sua implementação.

A definição da DCT-II é apresentada na Equação 9. Nesse contexto, a imagem original

corresponde à matriz de escala de cinza f(x,y), de dimensões a x b, com a*b = N. A aplicação

da DCT-II produz a matriz F(u,v), também de dimensão a x b. As variáveis x e y são as

coordenadas no domínio espacial e u e v são as coordenados no domínio da freqüência.

25

( )( ) ( )

N

vy

N

uxyxfvuvuF

a

x

b

y 2

12cos*

2

12cos*),(*)(*),(

1

0

1

0

ππαα

++= ∑∑

−

=

−

=

=

=

casosdemaisN

vN

vu

,2

1,u,1

)(),( αα

(9)

O primeiro coeficiente, F(1,1), é referenciado como coeficiente DC (Direct Current) e

depende apenas do brilho da imagem. Os demais coeficientes de F(u,v) indicam a amplitude

correspondente do componente de freqüência de f(x,y) e são referenciados como coeficientes

AC (Alternate Current).

Na Figura 5 é ilustrado o resultado da aplicação da DCT-II sobre a imagem de uma

face humana de dimensão 112 x 92. Na Figura 5.a é apresentada a imagem da face original e

na Figura 5.b é apresentada a imagem resultante após a aplicação da DCT-II sobre a imagem

original, seguida de um processamento de normalização que se faz necessário para permitir a

visualização da imagem representativa da DCT em uma escala de cinza. Para a obtenção da

imagem da Figura 5.b foram realizados os seguintes passos: aplicação da DCT-II sobre a

imagem mostrada na Figura 5.a; atribuição do valor zero ao coeficiente DCT (1,1);

identificação do maior valor de amplitude de todos os coeficientes, sem considerar a

amplitude do coeficiente (1,1); e divisão de todos os coeficientes DCT pelo valor máximo de

amplitude identificado. A amplitude do coeficiente DC foi anulada para exibição da imagem e

foi desconsiderada na identificação do valor máximo de amplitude porque seu valor é

tipicamente muito mais alto do que todos os demais (da ordem de 10 vezes mais alto). Como

pode ser visto, há uma concentração de energia no canto superior esquerdo da imagem, que

corresponde aos componentes de mais baixa freqüência.

26

5.a) Imagem original 5.b) Imagem resultante após aplicação da DCT-II seguida de normalização

Figura 5 - Imagem original e resultado da aplicação da DCT-II. Banco ORL, pessoa 1, pose 1.

Nas Tabelas 1 e 2 são apresentados os valores nas coordenadas (1,1) a (8,8), referentes,

respectivamente, à imagem original mostrada na Figura 5.a, e à imagem transformada

mostrada na Figura 5.b. Como pode ser visto na Tabela 2, o coeficiente DC, que representa o

brilho da imagem, tem um valor expressivamente maior do que os demais, enquanto os

valores dos coeficientes AC, se analisados em módulo, expressam a importância dos

componentes de freqüência correspondentes.

Tabela 1 - Escala de cinza da imagem mostrada na Figura 5.a, da coordenada (1,1) até ( 8, 8). 48 49 45 47 49 57 39 42

45 52 39 46 56 45 39 47

45 50 42 51 51 45 40 48

49 46 47 47 50 47 42 45

46 46 47 48 48 44 43 44

47 45 48 51 44 35 41 49

45 48 46 50 33 37 42 51

Tabela 2 - Coeficientes da DCT-II aplicada sobre a Figura 5.a, da coordenada (1,1) até (8,8).

13027,44 440,7733 -3362,41 -81,0502 -1537,09 -17,5546 -258,254 -143,42

-830,883 -31,0569 281,9323 111,4275 689,0147 -95,302 -331,37 -107,274

-1910,15 -130,886 -928,488 -155,236 -141,261 99,54243 542,4558 303,7855

-329,574 -62,2932 820,6742 61,32153 108,4638 -68,1254 35,131 144,917

-448,91 -189,54 1123,19 -139,74 933,1067 257,6487 -11,2129 175,4307

-1004,49 -13,6381 30,91486 -104,476 -167,102 6,390216 -15,357 -49,4262

-217,712 71,19742 -116,731 25,51587 -380,133 106,3373 -265,289 -104,231

170,2288 -12,4388 330,3308 -20,5716 84,55819 115,5538 194,5883 71,90636

27

Na Figura 6 é ilustrada a reconstrução de uma imagem de face após a aplicação da

DCT-II e da DCT-II inversa. A Figura 6.a corresponde à face original, de dimensão 112 x 92,

ou seja, uma matriz de 10.304 valores; as duas faces seguintes (Figura 6.b e 6.c) representam

a reconstrução de imagem original utilizando-se, respectivamente, 2.576 e 625 coeficientes

DCT. Para se obter uma imagem reconstruída foi adotado o seguinte procedimento: aplicação

da DCT-II sobre a face original, atribuição do valor zero aos coeficientes DCT a serem

descartados e por último a aplicação da DCT-II inversa sobre a nova matriz de coeficientes.

Na Figura 6.b é ilustrada a reconstrução da face original considerando apenas os coeficientes

DCT do primeiro quadrante, ou seja, 25% dos coeficientes DCT foram preservados, os

coeficientes da posição (1,1) até (56,46) foram mantidos e os 7.728 coeficientes restantes

foram zerados. Na Figura 6.c é ilustrada a reconstrução da face original preservando apenas

6,07% dos coeficientes DCT originais, da posição (1,1) até (25,25), e atribuindo-se zeros aos

9.679 coeficientes restantes.

Pelas imagens reconstruídas da Figura 6, pode-se ver que redução de dimensionalidade

baseada em DCT produz bons resultados. As imagens reconstruídas considerando apenas os

coeficientes DCT de baixa freqüência apresentam redução de detalhes, mas informações

importantes para caracterizar as imagens são preservadas. Tais resultados sugerem ser viável

um método de reconhecimento de faces que faça redução da dimensionalidade baseado em

DCT.

a) Imagem original (10.304 pixels) b) Imagem reconstruída com 25%

dos coeficientes preservados b) Imagem reconstruída com 6,07%

dos coeficientes preservados

Figura 6 - Imagem original e sua reconstrução com coeficientes DCT de baixa freqüência.

28

Capítulo 4

Reconhecimento de Faces

Os primeiros trabalhos de reconhecimento automático de faces foram publicados na década de

1970 e desde então este tem sido um tema de interesse de áreas como processamento de

imagens, reconhecimento de padrão, redes neurais, visão computacional, computação gráfica

e psicologia [Zhao et al., 2003].

Os métodos propostos para reconhecimento de faces sugerem a execução de um

conjunto de atividades que conduzem a um reconhecimento robusto e com maior número de

acertos. Um processo típico de reconhecimento de faces, normalmente, estabelece a execução

das seguintes atividades: detecção da face, normalização, extração de características,

comparação com o banco de dados e decisão final [Ivancevic et al., 2003]. A detecção da face

identifica a presença de uma face em uma imagem, isola a face e descarta demais objetos da

imagem. A normalização compensa variações que possam existir em uma face, tratando em

especial aspectos como iluminação, aproximação e posição, produzindo ao final uma imagem

o mais próxima possível do padrão do banco de dados da comparação. A extração de

características gera o conjunto de atributos que serão utilizados no processo de comparação

com o banco de dados. A comparação com o banco de dados verifica o grau de coincidência

entre o conjunto de atributos selecionados da face desconhecida e os mesmos atributos das

imagens armazenadas no banco de dados. A decisão final conclui sobre o reconhecimento

considerando as comparações efetivadas.

29

4.1 Seleção de Atributos

Uma imagem de face representada por uma matriz de pixels de a linhas e b colunas é vista

como um padrão no espaço de imagens de dimensionalidade N = a * b. Considerando a

obtenção de imagens por câmeras e scanners modernos, N pode se tornar um valor elevado,

implicando um alto custo de processamento. Como o espaço de imagens possui características

que podem ser eliminadas, sem comprometer o resultado do reconhecimento, e um valor

elevado de N não é apropriado, tanto pelo custo computacional como pelo problema da

dimensionalidade, descrito na Seção 2.2.2, abordagens de redução da dimensionalidade são

aplicadas em sistemas de reconhecimento de faces. Entretanto, ao reduzir a dimensionalidade

é importante analisar o comportamento do classificador, pois uma redução excessiva da

dimensionalidade pode comprometer os seus resultados.

Há métodos lineares e não lineares de extração de atributos [Jain, Duin et al., 2000]. Os

métodos lineares caracterizam-se por aplicarem uma mudança de base sobre o espaço original

dos atributos, permitindo conseqüentemente a inversão da transformação realizada. As

transformadas DCT, KLT e Wavelet são exemplos de tais transformações e métodos de

reconhecimento de faces baseados em tais transformadas têm obtido resultados promissores,

como por exemplo, Análise de Componentes Principais (Principal Components Analysis -

PCA) e Análise de Discriminantes Lineares de Fisher (Linear Discriminant Analysis - LDA).

Os extratores não lineares, que se caracterizam por impossibilidade de inversão da

transformação, têm sido implementados principalmente por redes neurais.

Apesar da distinção existente entre seleção e extração de atributos, na literatura

verifica-se, de forma generalizada o uso do termo seleção para expressar redução de

dimensionalidade de imagens de faces. Nesse trabalho, apesar de se fazer redução de

dimensionalidade por extração de atributos, também trata-se tal operação de forma

generalizada como seleção de atributos. Em particular, o método de reconhecimento de faces

proposto nesse trabalho reduz a dimensionalidade baseado na seleção de coeficientes após

30

aplicação da DCT sobre a imagem original.

4.2 Abordagens de Classificação

Uma diferença importante entre classificadores é a forma como se definem as fronteiras de

decisão a partir dos dados de treinamento. Sabe-se que no aprendizado supervisionado as

fronteiras são pré-estabelecidas enquanto no não-supervisionado as fronteiras devem ser

deduzidas. Nos sistemas de reconhecimento de faces atuais geralmente se tem o aprendizado

supervisionado [Chellappa et al., 1995], pois as imagens de treinamento possuem a

identificação da pessoa que foi fotografada, ficando assim as classes existentes perfeitamente

separadas previamente.

O classificador de Bayes, apesar de ser considerado ótimo, para ser aplicado necessita

da probabilidade a priori Pi e da probabilidade condicional p(x|wi), que são desconhecidas em

muitos problemas reais. Apesar de se ter métodos de estimação de tais probabilidades, o custo

computacional para uma representação precisa é alto. No caso específico de reconhecimento

de face, geralmente não se aplica diretamente a regra de decisão de Bayes, sendo utilizados

como alternativas classificadores baseados em similaridades, como os seguintes: k-vizinhos

mais próximo, vizinho mais próximo e distância mínima ao protótipo [Campos, 2001]. Na

literatura, entretanto, destaca-se a aplicação do classificador do vizinho mais próximo em

experimentos de reconhecimento de faces.

4.3 Bancos de Faces

A aparência de uma face humana pode ser modificada por aspectos como iluminação, pose,

expressão facial, idade, oclusão, adornos, etc. Para testes e comparações de aplicações

robustas de reconhecimento de faces são necessários banco de dados de faces que possuam

variações de tais aspectos.

Como reconhecimento de faces é uma área de pesquisa fortemente atuante desde a

década de 1990, bancos de faces para testes de aplicações já estão disponíveis para uso, sendo

31

inclusive alguns liberados de forma gratuita. Entretanto, em relação aos aspectos

modificadores da face humana, há bancos com uma maior coleta e controle desses aspectos

enquanto outros o fazem de forma mais reduzida.

Uma relação e caracterização de bancos de faces 2D referenciados na literatura estão

disponíveis em Li e Jain [2005]. Para reconhecimento de faces em específico são

apresentados 18 bancos, sendo 8 deles classificados como bancos antigos e 10 como bancos

mais atuais. A seguir são citados cinco bancos de cada modalidade, considerando a

classificação apresentada em Li e Jain [2005]:

• Bancos pioneiros: HRL (Harvard Robotics Lab), MIT Database, ORL (Olivetti

Research Lab ), UMIST e Yale;

• Bancos mais atuais e com notável controle de aquisição de imagens: AR-

Database, CAS-PEAL (Chinese Academy of Science - Pose, Expression,

Acessory, Lighting), CMU-PIE (Carnegie Mellon University - Pose, Illumination

and Expression), FERET (Facial Recognition Technology) e Yale-B.

Na Tabela 3 é apresentado um resumo das características básicas dos bancos 2D que são

referenciados nesse trabalho.

Tabela 3 - Características dos bancos de faces 2D referenciados nesse trabalho. Aspectos controlados Banco Número de

Pessoas Poses por

pessoa Resolução

Iluminação Pose Expressão Escala Oclusão

AR 116 13 768 X 576 Sim Não Sim Não Sim

FERET 30000 - 256 X 384 Sim Sim Sim Não Não

ORL 40 10 112 X 92 Sim Sim Sim Não Não

PIE 68 13 640 X 486 Sim Sim Não Não Não

Yale 15 11 320 X 243 Sim Não Sim Não Não

Yale B 10 9 640 X 480 Sim Sim Não Não Não

4.4 Alguns Métodos Descritos na Literatura

Os métodos pioneiros de reconhecimento de faces por computador necessitavam de

operadores humanos para a localização de pontos na face, cujas posições eram fornecidas

como entrada. Dado um conjunto de pontos e de distâncias, se tinha a representação de

32

características da face, como distância entre nariz e queixo, distância entre olhos, tamanho da

boca, etc. A técnica do vizinho mais próximo ou outras regras de classificação eram utilizadas

para o reconhecimento. Como a extração de características era feita manualmente, os sistemas

eram indiferentes a aspectos como pose, iluminação e escala. Em seguida, vieram os métodos

sem intervenção humana para a aquisição de dados de entrada e seus árduos desafios

[Chellappa et al., 1995].

Os métodos propostos para reconhecimento de faces podem ser classificados em duas

categorias: métodos baseados em características e métodos holísticos [Hafed e Levine, 2001;

Zhao et al., 2003]. Os métodos baseados em características fazem o reconhecimento

considerando características individuas da face e suas relações geométricas, incluindo-se

normalmente na análise características como olhos, nariz e boca, assim como medidas de

distância e ângulos entre tais características. Os métodos holísticos, por sua vez, consideram a

face como um todo, sem identificar características físicas individuas, e têm produzido

resultados eficientes, visto que pequenas diferenças nas imagens comparadas não prejudicam

o reconhecimento como um todo. Alguns métodos holísticos da literatura se baseiam em

transformadas matemáticas, como DCT, KLT e Transformada Wavelet. Outras categorias de

métodos de reconhecimento de faces também referenciadas na literatura e com características

peculiares são os métodos 3D e os métodos de identificação de face em seqüência de vídeo

[Zhao et al., 2003].

Considerando o legado da área de reconhecimento de padrões, verifica-se nos métodos

propostos de reconhecimento de faces significativa aplicação da abordagem estatística e das

redes neurais. Métodos de reconhecimento de faces propostos baseados na abordagem

estatística destacam a aplicação dos seguintes paradigmas [Nefian, 1996]: correlação, modelo

de Markov, PCA e Fisherfaces. Os métodos baseados em PCA e em Fisherfaces são

constantemente aprimorados e referenciados na literatura, especialmente devido às altas taxas

de reconhecimento obtidas.

33

Nas seções seguintes são contempladas abordagens adotadas por métodos de

reconhecimento de faces da atualidade. Métodos baseados em PCA, LDA e DCT são

discutidos em seções específicas por apresentarem um maior grau de relacionamento com os

métodos propostos nesse trabalho. Outras abordagens de reconhecimento de faces são

referenciadas conjuntamente na Seção 4.5.4 (abordagens adicionais).

4.4.1 Métodos Baseados em Análise de Componentes Principais (PCA)

PCA é um método estatístico bem conhecido de múltiplas variáveis. Tem por finalidade

básica a análise dos dados, visando sua redução, eliminação de sobreposições e a escolha das

formas mais representativas de dados a partir de combinações lineares das variáveis originais,

ou seja, identificar o melhor arranjo que representa a distribuição dos dados.

Visando tratar as imagens como padrões para efetivar o reconhecimento estatístico,

faz-se necessário a transformação do espaço de imagem para o espaço linear. Considerando

uma imagem de a linhas e b colunas, sua representação no espaço da imagem corresponde a

uma matriz de a x b características, que deve ser transformada para o espaço linear, sendo

então representada por um vetor coluna x construído a partir da leitura coluna por coluna da

imagem original.

O espaço de imagem é bastante redundante para representar uma face, ou seja, pixels

adjacentes são correlacionados. Além disso, como faces diferentes possuem características

comuns, como olhos, nariz e boca, vetores que representam faces distintas também podem ser

bastantecorrelacionados. Tendo como objetivo uma representação compacta e capaz de

discriminar diferentes classes, a técnica PCA se baseia em reduzir o máximo possível a

covariância existente entre os vetores que representam as imagens.

Sejam x1, x2, x3, ..., xm vetores, cada um com N2 elementos, que representam as imagens

de treinamento da classe j, obtidos a partir de matrizes de imagens de dimensão N x N. Seja µ

a média de tais vetores, dado pela Equação 10, e seja yi = µ-xi o vetor que representa a

diferença da face associado ao vetor xi em relação à média de sua classe. A matriz de

34

covariância da classe j é dada pela Equação 11, sendo C uma matriz de dimensão N2 x N2 que

determina os N2 autovetores da classe j, cada um com seu próprio autovalor.

∑=

=m

i

im 1

1xµ

(10)

∑=

=m

i

T

iim

C1

*1

yy (11)

A PCA tem como idéia principal encontrar os autovetores que melhor diferenciem a

distribuição das faces, representando as faces por poucos parâmetros. Estes parâmetros são

obtidos pela projeção da face sobre um sistema de coordenadas dado por autovetores da

matriz de covariância do conjunto de treinamento. Os autovetores, neste contexto também

chamados eigenfaces [Turk e Pentland, 1991], transpõem um vetor para um novo espaço

chamado espaço de faces. Cada face é então codificada por meio de suas coordenadas no

espaço de faces. O casamento de duas faces corresponde então a um cálculo da distância

Euclidiana (ou similar) entre suas representações no espaço de face, ou seja, classifica-se pela

abordagem do vizinho mais próximo (NN).

Considerando o contexto de reconhecimento de faces, os passos para a identificação das

componentes principais, de forma resumida, são: calcular a matriz de covariância das faces de

treinamento de uma classe, calcular os autovalores e autovetores da matriz de covariância e

ordenar os autovetores pelo valor de seus autovalores.

A transformada KLT é uma técnica de redução do número total de variáveis, empregada

quando existe redundância nos dados, como no caso de imagens em que se têm pixels

altamente correlacionados. A existência de redundância é o que permite a redução no número

de variáveis. Por meio da KLT se transforma variáveis discretas em coeficientes

descorrelacionados, baseando-se na matriz de correlações entre as variáveis analisadas.

A matriz resultante da aplicação da transformada KLT ordena autovetores. Suas linhas

são formadas a partir dos autovetores da matriz de covariância, arranjados de modo que a

35

primeira linha seja o autovetor correspondente ao maior autovalor, e assim sucessivamente até

que a última linha corresponda ao menor autovalor.

O autovetor com o maior autovalor associado corresponde à componente principal do

conjunto de dados utilizados. Isso significa que esse é o relacionamento mais significativo

entre os dados avaliados. A transformada KLT pode então ser utilizada para a identificação

das principais características dos dados, pois seu efeito é o alinhamento dos autovetores

descorrelacionando os dados.

A transformada KLT é amplamente utilizada pela comunidade de reconhecimento de

padrão e de reconhecimento de faces [Chellapa et al., 2003; Abate et al., 2007]. Métodos de

reconhecimento de faces implementados sobre a transformada KLT têm sido bem sucedidos

Nesse contexto tem-se o método de Eigenfaces [Turk e Pentland, 1991], que utiliza PCA para

reconhecimento de faces e é amplamente referenciado na literatura. Tal método tem sido

considerado uma das abordagens mais promissoras para reconhecimento de faces, chegando a

ser indicado por [Jain, Duin et al., 2000] como o melhor extrator de características linear

conhecido.

Embora PCA seja uma abordagem conceitualmente simples, o processo de treinamento

é computacionalmente custoso. Inclusive, de acordo com [Duda et al., 2000] PCA é uma

técnica de extração de características propícia para dados com distribuição Gaussiana, não se

tendo certeza, entretanto, que imagens de faces possuam tal distribuição. Apesar de tais

limitações, métodos de reconhecimento de faces baseados em PCA têm produzido elevadas

taxas de reconhecimento.

Assim como a abordagem Eigenfaces, outros métodos de reconhecimento de faces

baseados em KLT e PCA têm sido propostos. Em [Abate et al., 2007] são referenciados

métodos baseados em PCA que proporcionam taxas de reconhecimento promissoras, acima de

90%.

36

4.4.2 Métodos Baseados em Análise de Discriminantes Lineares de Fisher (LDA)

A Análise de Discriminantes Lineares de Fisher (LDA), também conhecida como Fisherfaces

quando aplicada a reconhecimento de faces, tem sido indicada na literatura como uma das

melhores abordagens adotadas por métodos de reconhecimento de faces, sendo inclusive

considerada superior em alguns aspectos à abordagem PCA [Nefian, 1996; Belhumeur, 1997;

Ruiz-del-Solar, 2005].

LDA é uma abordagem que extrai linearmente as características mais discriminantes das

classes existentes a partir das informações associadas a cada padrão. A separação interclasses

é enfatizada por meio da substituição da matriz de covariância adotada pelo PCA pela medida

de separação de Fisher [Fisher, 1938]. São calculadas inicialmente as matrizes de

espalhamento intraclasse e de espalhamento interclasses, maximizando-se em seguida a

importância das relações interclasses em contraposição à minimização da importância das

relações intraclasses [Campos, 2001]. Como resultado, verifica-se que métodos baseados em

LDA desenvolvem um conjunto de vetores de características nos quais variações de diferentes

faces são enfatizadas enquanto diferentes condições de iluminação, expressões faciais e

orientação são desconsideradas.

Para todas as q amostras de uma classe, a matriz de espalhamento intraclasse da classe w

é definida conforme Equação 12, sendo j

ix o i-ésimo vetor da classe j, jµ o vetor da média

da classe j e p o número de classes. A matriz de espalhamento interclasses é dada pela

Equação 13, com µ representando o vetor média de todas as classes. Para se maximizar a

importância do espalhamento interclasses em contraposição à minimização da importância do

espalhamento intraclasses, deve-se maximizar a taxa expressa pela Equação 14, que ocorrerá

quando os vetores colunas corresponderem aos autovetores de SSw *1− [Fisher, 1938].

( ) ( )T

j

j

i

p

j

q

i

j

j

iw xxS µµ −−=∑∑=

*1

(12)

37

( ) ( )T

j

p

j

jS µµµµ −−=∑=1

* (13)

)det(

)det(

wS

S (14)

Como exemplos de métodos de reconhecimento de faces baseados em LDA tem-se as

propostas de [Chen, 2000; Xiang, 2004; Jing, 2004] com taxas de reconhecimento acima de

96%.

Artigos comparando PCA e LDA mostram que o espaço de características criado pela

abordagem LDA geralmente proporciona resultados de classificação de face superiores ao

espaço criado pela PCA, em especial na presença de variações de iluminação [Belhumeur,

1997; Xiang, 2004; Ruiz-del-Solar, 2005; Ekenel, 2007]. Em contraposição a tais

comparações, em [Martinez e Kak, 2001] se mostra que o desempenho do PCA pode ser

superior ao LDA quando se tem um pequeno conjunto de treinamento, mas com o aumento do

conjunto de treinamento LDA se sobressai sobre PCA. Nos testes realizados por [Martinez e

Kak, 2001], o melhor desempenho do PCA se deu sobre o banco AR Face Database

utilizando-se duas imagens de treinamento e cinco imagens de teste.

Além de ter o desempenho comprometido quando se tem um reduzido conjunto de

treinamento, sabe-se que uma distribuição de classes côncava e distribuições com muitas

interseções de classes também implicam um baixo desempenho da abordagem LDA [Campos,

2001].

4.4.3 Métodos Baseados em DCT

Motivados pelas propriedades da DCT, assim como pelos seus algoritmos rápidos, métodos

de reconhecimento de faces baseados em DCT têm sido propostos e alcançado taxas de

acertos compatíveis com as taxas obtidas por métodos baseados em PCA e LDA, destacando-

se em especial nos métodos baseados em DCT uma notável redução do custo computacional

[Ekenel, 2007].

38

Baseando-se em métodos de processamento de sinais, Podilchuk [1996] propõe um

método de reconhecimento de faces que define blocos posicionados sobre áreas expressivas

da face humana, como olhos e boca. O método define os blocos representativos das principais

características da face humana, aplica DCT sobre tais blocos gerando vetores de blocos para

cada uma das imagens de treinamento e finaliza com classificação por distância mínima.

Relata-se que, considerando um banco de 500 imagens, obteve-se uma taxa de

reconhecimento “promissora”, não sendo especificado no artigo o valor da taxa de acerto.

O método de reconhecimento de faces baseado em DCT proposto por Hafed e Levine

[2001] atinge taxa de acertos de aproximadamente 92,5%, considerando testes realizados

sobre o banco ORL. O método aplica a DCT sobre as faces de treinamento assim como sobre

a face de teste, seleciona os 49 coeficientes DCT de mais baixa freqüência de cada face e

aplica o vizinho mais próximo para classificar a face de teste em relação a todas as faces de

treinamento, considerando apenas os 49 coeficientes selecionados. A taxa de acerto de

aproximadamente 92,5% foi atingida no caso específico em que o treinamento foi feito com

as cinco primeiras faces do banco e os testes com as cinco faces restantes. No caso de

treinamento reduzido, utilizando-se unicamente a primeira face de cada pessoa do banco, a

taxa de acertos obtida foi de 70%.

Uma combinação de DWT e DCT para seleção de atributos e SVM para classificação

foi proposta por Yu et al. [2006]. Para a seleção, se aplica primeiramente a DWT sobre a

imagem, a seguir se aplica DCT apenas sobre a sub-banda LL resultante da DWT e por último

se reduz a dimensionalidade considerando apenas os coeficientes DCT de mais baixa

freqüência. O método foi testado sobre o banco de faces ORL, com cinco faces de

treinamento e cinco faces de teste e obteve como melhor resultado 98% de acertos com

aproximadamente 200 coeficientes. Na comparação com outras abordagens, Yu et al. [2006]

apontam Eigenfaces, Fisherfaces e DCT+LDA com taxas de acertos, respectivamente, de

90,5%, 95% e 97,5%.

39

Choi et al. [2006] propõem um método mais elaborado de seleção de atributos

combinando DCT, energia de probabilidade e LDA. O método propõe a seleção de atributos

em três passos: primeiro se aplica a DCT sobre as imagens de treinamento, a seguir se reduz a

dimensionalidade dos dados a partir da aplicação de uma máscara de freqüência baseada em

energia de probabilidade e por último se aplica LDA para obter os atributos mais

representativos da face. A classificação proposta pelo método corresponde à abordagem do

vizinho mais próximo considerando distância Euclidiana. Os testes foram realizados sobre um

banco de faces proprietário, registrando taxa de reconhecimento de 96,8%. Sobre o banco de

faces utilizado nos testes foram expostas as seguintes características: 55 pessoas, 20 poses por

pessoa e dimensão das imagens de 64 X 64.

Propostas híbridas baseadas em seleção por DCT e classificação por redes neurais

podem ser vistas em [Faúndez-Zanub, 2003; Faúndez-Zanuy e Enric, 2006; Zhang, 2006],

todas apresentando resultados obtidos pela utilização do banco de faces ORL, com cinco faces

de treinamento e cinco faces de testes. O primeiro método [Faúndez-Zanub, 2003] seleciona

coeficientes DCT de baixa freqüência, refinados pela abordagem quadrada (n x n) ou pela

abordagem circular-radial, combinado com classificação por vizinho mais próximo e distância

aferida pela diferença absoluta média (Mean Absolute Diference, MAD), ou combinado com

redes neurais do tipo Multicamadas Perceptron (Multi Layer Perceptron, MLP) e distância

dada pelo erro médio quadrático regularizado (Mean Square Error Regularized, MSERED).

Considerando o vetor de atributos de cada face de treinamento com 100 elementos, a

abordagem de classificação por redes neurais se sobressai com 96,5% de acertos contra 92,5%

obtido pelo classificador de vizinho mais próximo, com diferenças desprezíveis em relação à

abordagem de seleção. O segundo método [Faudez-Zanuy e Enric, 2006] faz uma seleção

baseada em DCT, a seguir treina uma rede Função de Base Radial (Radial Basis Function,

RBF) com os coeficientes selecionados gerando um modelo para cada imagem de treinamento

e, por último, realiza a classificação por vizinho mais próximo. O método obteve taxa de

40

acertos de 96,5% com vetores de atributos contendo 100 elementos. O terceiro método [Zhang

et al., 2006] divide primeiro as imagens em bloco de tamanhos idênticos denominados sub-

imagens, a seguir aplica DCT em cada sub-imagem, selecionando por sub-imagem o maior

coeficiente e os concatena para gerar o vetor de características da imagem; depois define para

cada face de treinamento um padrão consistindo de uma rede neural não linear modelo KIII

(Multi Layer Neural Model – K0, KI and KII Units)e finaliza com a classificação por vizinho

mais próximo. O método obtém 91,5% de acertos com dimensão do vetor de características

igual a 64.

Propostas apresentadas por Kohir e Desai [2000] e Kumar et al. [2006] combinam DCT

e HMM, ambas obtendo 100% de acerto sobre o banco ORL. O método de Kumar et al.

[2006] define primeiro blocos sobre áreas expressivas da face, como olhos, nariz e boca, a

seguir aplicada DCT sobre tais blocos gerando vetores de características para cada face de

treinamento, sendo tais vetores obtidos pela aplicação de uma seqüência do tipo zig-zag sobre

o bloco de coeficientes DCT. Os vetores são então utilizados para o treinamento dos modelos

HMM, com um modelo por face de treinamento, e, por último, se classifica por máxima

probabilidade de acerto. O método foi testado sobre o banco de faces ORL, considerando seis

poses de treinamento e 4 de testes, blocos de dimensão 8 x 8, vetores de características com

dimensão 16 e modelos HMM variando de um a onze estados. Com três abordagens de testes

relacionadas à forma como se define a vizinhança dos blocos, se obteve taxa de acertos

variando de 75,63% a 100%, sendo a taxa máxima obtida com modelo HMM de 7 estados e

abordagem de teste considerando vizinhos horizontais e verticais de cada bloco.

Considerando o escopo de aplicações para ambientes específicos, em que a máquina

identifica seu usuário em tempo real com reduzido controle de ambiente, como aplicações de

acesso a residências e automóvel, Ekenel et al. [2007] propõem um método de

reconhecimento de faces que faz a seleção de atributos baseada em DCT e a classificação pelo

vizinho mais próximo. A seleção proposta pelo método consiste em aplicar a DCT em blocos

41

de 8 x 8, ordenar os coeficientes de cada bloco em zig-zag, selecionar em cada bloco um

subconjunto de m coeficientes de acordo com o critério desejado e concatenar os subconjuntos

selecionados. O método proposto com DCT obtém taxa de acerto de 80,6%. Sobre o mesmo

banco de seqüências de vídeo e considerando a mesma dimensionalidade da seleção de

atributos, Ekenel et al. [2007] também realizam testes com algoritmos de seleção conhecidos

baseados em PCA e LDA e obtêm acertos de 68,7% e 75,9% respectivamente.

Considerando o treinamento reduzido, com uma única amostra, Lu et al. [2006]

comparam cinco algoritmos de reconhecimento de faces, realizando-se experimentos sobre os

bancos de faces Yale e AMP. Os métodos híbridos denominados DCT+2DPCA e DCT+DCT

se sobressaíram no banco AMP, com 934 acertos contra 28 erros de classificação (97,08% de

acerto). O método denominado DCT se sobressaiu no banco Yale com 375 acertos e 255 erros

(59,52% de acerto), seguindo pelo método DCT+2DPCA com 374 acertos e 256 erros

(59,36% de acerto).

Combinando DCT e PCA, He et al. [2006] propõem um método de treinamento

reduzido, com uma única amostra. O método realiza primeiro a reconstrução de cada face de

treinamento a partir dos componentes DCT de mais baixa freqüência, a seguir aplica PCA

sobre uma combinação da imagem original com a imagem reconstruída e, por último,

classifica pelo vizinho mais próximo. O método foi testado sobre o banco ORL, sendo

utilizada para treinamento a primeira face de cada pessoa, ficando as demais 360 faces do

banco para testes. Considerando 55 coeficientes DCT, o método obtém taxa de acerto de

75,56%, se sobressaindo sobre outras abordagens de treinamento reduzido avaliadas que

variaram a taxa de acertos de 65,44% a 74,53%.

Apesar de quase meio século de pesquisas e progressos significativos em

reconhecimento de padrões, variações expressivas de orientação, localização e escala, assim

como custo computacional de processamento continuam representando desafios a serem

vencidos. Dessa forma, abordagens alternativas para reconhecimento de faces vêm sendo

42

continuamente apresentadas.

Motivados pela demanda de métodos de reconhecimento de faces robustos e pelos

resultados promissores da utilização de DCT em diversas propostas, apresenta-se nesse

trabalho abordagens de reconhecimento de faces baseado na seleção de coeficientes da DCT.

As propriedades da DCT são apropriadas para a redução de dimensionalidade e seu custo

computacional é substancialmente menor do que o custo da transformada KLT [Batista,

2002], [Faúndez-Zanuy, 2003].

4.4.4 Abordagens Adicionais

Correlação, Modelos Ocultos de Markov (Hidden Markov Models, HMM), Análise de

Componentes Independentes (Independent Component Analysis, ICA), redes neurais, DWT,

métodos baseados em características geométricas, métodos 3D e combinação de métodos são

exemplos de outros paradigmas que têm sido utilizados para reconhecimento de faces. Visto

que nesse trabalho se adota o uso de DCT, métodos híbridos combinando DCT com outras

técnicas foram apresentados na Seção 4.4.3.

Métodos baseados em correlação fazem o reconhecimento de face por meio do

casamento entre as imagens de teste e um conjunto de imagens de treinamento baseado em

coeficientes de correlação, que indicam a força e a direção do relacionamento linear entre

duas variáveis aleatórias. Entretanto, métodos baseados em correlação são muito dependentes

de iluminação, rotação e escala, além de seu alto custo computacional [Nefian, 1996].

A técnica HMM corresponde a um conjunto de modelos estatísticos usados para

caracterizar propriedades estatísticas de um sinal. O HMM é feito em dois processos inter-

relacionados: o primeiro processo consiste em definir a cadeia oculta de Markov a partir de

números de estados finitos, um estado de transição, a matriz de probabilidade, o estado inicial

e a distribuição de probabilidade; o segundo processo consiste em definir para cada estado o

conjunto de funções de densidade de probabilidade.

HMM tem sido usado para reconhecimento de voz, em que os dados são naturalmente

43

unidimensionais ao longo do eixo do tempo. Entretanto, apesar de cadeias HMM em duas

dimensões implicarem elevado custo computacional, experimentos de reconhecimento de

caracteres são bem sucedidos. No caso específico de reconhecimento de faces com HMM, os

métodos condizem a resultados promissores, como os de Bicego [2003] e Kumar et al. [2006]

versus um elevado custo computacional associado à etapa de treinamento.

A proposta de Bicego [2003] combina HMM e DWT. Primeiro, são definidas

sub-imagens de mesmo tamanho, com sobreposições, obtidas a partir da imagem original; a

seguir se aplica DWT sobre cada sub-imagem gerando os vetores de características a partir da

magnitude decrescente dos coeficientes DWT; depois se treina um modelo HMM por face de

treinamento considerando seus vetores de características. O método finaliza com a

classificação por probabilidade máxima sobre os modelos HMM treinados. O método foi

testado sobre o banco ORL, considerando 5 poses de treinamento e 5 de teste e obteve de

97,4% a 100% de acerto. A taxa máxima foi obtida sob as seguintes condições: sub-imagens

de dimensão 16 x 16, vetores de características com 12 elementos e sobreposição de 50%.

A técnica de ICA, assim como PCA, corresponde a uma abordagem estatística que

representa uma imagem a partir de combinações lineares dos pixels das imagens de

treinamento. Entretanto, enquanto PCA trabalha apenas com relações aos pares, ICA, de

forma mais abrangente, inclui relações entre pixels de ordem mais alta. Bartlett et al. [2002]

propõem dois métodos de reconhecimento de faces baseados em ICA, o primeiro tratando as

imagens como variáveis aleatórias e os pixels como resultado e o segundo tratando os pixels

como variáveis aleatórias e as imagens como resultados. Com testes realizados sobre o banco

FERET e usando 200 atributos, as propostas apresentam reconhecimento de 85% e 87%,

respectivamente, enquanto PCA sob as mesmas condições atinge aproximadamente 85% de

acertos.

A abordagem neural de aprendizado Codificação Esparsa Não Negativa (Non-Negative

Sparce Coding, NNSC) foi aplicada por Shastir and Levine [2004] para reconhecimento de

44

faces e comparada com outras abordagens semelhantes, como Fatorização de Matrizes

Não-negativa (Non -Negative Matrix Factorization, NMF) e Fatorização de Matrizes Não-

negativa Local (Local Non Negative Matrix Factorization, LNMF). A classificação foi

realizada pelo vizinho mais próximo, sendo aplicadas e avaliadas três métricas de distância, a

saber: soma da norma, distância euclidiana e correlação. Os bancos de faces utilizados nos

testes foram ORL, Yale B e AR, sendo realizados testes diferenciados em cada banco, dada a

notável distinção de características por eles contempladas referentes à iluminação, expressão e

oclusão. A melhor taxa de acerto obtida com NNSC sobre o banco ORL foi 96,7%.

Entretanto, tal banco corresponde ao mais simples dentre os bancos considerados.

Uma proposta recente de reconhecimento de faces baseada em redes neurais pode ser

vista em Nazeer et al. [2007], que compara classificação por redes neurais com outras

abordagens, como distância euclidiana e correlação. O método foi testado sobre um banco de

faces particular, contendo 20 pessoas, cada uma em 10 poses, e obteve melhor desempenho do

classificador baseado em redes neurais, com 92,59% de acertos, seguido pelas abordagens de

distância euclidiana e correlação, ambas com 91,85% de acertos.

Dois métodos baseados em DWT foram propostos em Samra et al. [2004], o primeiro

combinando DWT com FFT e o segundo combinando DWT com DCT. Ambos os métodos

aplicam primeiro a DWT sobre as imagens de treinamento e a seguir consideram apenas a

sub-banda LL resultante da DWT para aplicar a segunda transformada, seja FFT ou DCT.

Considerando experimentos realizados sobre o banco ORL, as taxas de reconhecimento do

método que combina DWT com FFT e do método que combina DWT com DCT foram,

respectivamente, 66,25% e 77,58%. Entretanto a abordagem baseada em FFT se mostrou mais

apropriada para variações de iluminação e presença de oclusão enquanto a abordagem

baseada em DCT se mostrou mais apropriada para diferentes escalas e poses.

Um estudo comparativo relacionado a métodos baseados em características locais pode

ser visto no artigo de Zou et al. [2007], que aponta métodos baseados em características locais

45

com taxa de acerto acima de 90%, considerando testes realizados sobre os bancos de faces

FERET e AR.

Na década de 1990 se verifica considerável destaque de métodos baseados em

características locais, inclusive participando de métodos híbridos envolvendo PCA, filtro de

Gabor e Padrões Binários Locais (Local Binary Patterns, LBP). Destacam-se nesses métodos

as etapas de alinhamento e particionamento, extração de características e classificação, cada

uma adaptada ao contexto de características locais [Zou et al., 2007]. Para a etapa de

alinhamento e particionamento são identificadas três categorias: a primeira se concentra em

localizar as características da face, como olhos, boca e nariz, isolar tais elementos e prosseguir

no processo de classificação; a segunda ajusta ou deforma a face para um padrão de face

definido e identifica a seguir suas características locais; a terceira categoria alinha a face com

um sistema comum de coordenadas, por meio de translação, rotação ou escala, particiona a

face em blocos e prossegue para reconhecer blocos específicos. Para a etapa de extração de

características, PCA, filtro de Gabor e DWT foram utilizados, cada um com seus benefícios e

limitações. A etapa de classificação definida na maioria dos métodos baseado em

características locais é feita pela abordagem do vizinho mais próximo.

Tendo maior similaridade com os métodos baseados em características geométricas, em

[Jones e Viola, 2003] se propõe um método de reconhecimento de faces baseado em

características locais impulsionadas (boosted). Trata-se de uma abordagem que avalia regiões

de similaridade entre um par de faces, a partir de regiões retangulares. Quando as faces de um

par pertencem à mesma pessoa são obtidas as similaridades, quando pertencem a pessoas

distintas, são obtidas as diferenças. O método foi testado sobre o banco de faces FERET e,

considerando no treinamento aproximadamente 53 filtros retangulares, foi obtida uma taxa de

reconhecimento de 94%.

Considerando imagens tridimensionais, métodos 3D para reconhecimento de faces

apresentam progressos significativos [Zhoa e Chellappa, 2000; Abate et al., 2006], apesar de

46

dificuldades, como obtenção de alinhamento adequado, complexidade, custo computacional e

reduzido número de bancos de faces 3D. A abordagem 3D justifica-se, entretanto, por ser

capaz de representar toda a geometria da face, podendo visualizar detalhes diferenciais como

curvatura, profundidade, textura e volume, até então não permitido aos métodos 2D.

Mesmo com poucos métodos 3D tendo sido propostos, tem-se em Abate et al. [2007]

um estudo comparativo incluindo propriedades intrínsecas, vantagens e limitação de cada

abordagem, assim como bancos 3D já disponíveis. Métodos explorando curvatura, volume e

morphing têm obtido taxa de acerto acima de 95%, considerando usualmente a utilização de

bancos 3D proprietários. O Modelo Híbrido Gaussiano (Gaussian Mixture Model, GMM) e o

algoritmo de Pontos Mais Próximos de Iteração (Iterative Closest Point, ICP) são propostas

relevantes apresentadas, verificando-se inclusive combinação de propostas 3D com PCA e

LDA [Abate et al., 2007].

4.4.5 Tabela Resumo dos Métodos Apresentados

Na Tabela 4 é apresentado um resumo dos métodos de reconhecimento de faces referenciados

nesse trabalho, ordenados cronologicamente, permitindo uma visualização unificada de suas

características e resultados. Em Kohir e Desai [2000], Bicego et al. [2003], Faùndez-Zanuy

[2003], Ruiz-del-Solar e Navarrete [2005], Yu et al. [2006], Abate et al.[2007] e Zou et al.

[2007] podem ser vistas outras tabelas comparativas de métodos propostos referenciado na

literatura, suas características, resultados e comparações.

Tabela 4 - Resumo dos métodos referenciados nesse trabalho. Ano Referência Abordagem Reconhecimento Banco

1991 Turk PCA 96% 2.500 imagens

1996 Podilchuk DCT 94% 500 imagens

1997 Belhumeur PCA

LDA

89,2%

94%

Yale

2001 Hafed e Levine DCT 92,5% ORL

2002 Bartlett el al. PCA

ICA

85%

87%

FERET

2003 Faúndez-Zanub DCT + Redes neurais RBF 96,5% ORL

47

Ano Referência Abordagem Reconhecimento Banco

2003 Bicego DWT + HMM

DCT + HMM

100%

100%

ORL

2003 Jones e Viola Boosted 94% FERET

2004 Xiang DWT + PCA

DWT + LDA

DWT + Recursive LDA

82,05%

83,97%

86,54%

Yale

2004 Jing LDA

PCA

DCT + LDA

82,5%

90%

97,5%

ORL

2004 Shastir and Levine Redes neurais NNSC 96,7% ORL

2004 Samra et at. DWT + DCT 77,58% ORL

2005 Ruiz-del-Solar e Navarrete

PCA

LDA

83,3%

97,2%

Yale

2005 Ruiz-del-Solar e Navarrete

PCA

LDA

95,7%

95,3%

FERET

2006 Yu et al. PCA

PCA+LDA

DWT + DCT + SVM

90,5%

95%

98%

ORL

2006 Choi et al. DCT + EP + LDA 96,8% 500 imagens

2006 Faúndez-Z. e Enric DCT + Redes neurais RBF 96,5% ORL

2006 Zhang DCT + Redes neurais KIII 91,5% ORL

2006 Kumar et al.. DCT + HMM 100% ORL

2007 Ekenel et al. DCT, reduzido controle de ambiente

LDA, reduzido controle de ambiente

80,6%

75,9%

-

2007 Zou et al. Baseado em características > 90% FERET

2007 Nazeer et al. PCA + Distância Euclidiana

PCA + Redes Neurais

91,85%

92,59%

200 imagens

Treinamento reduzido (uma única amostra de treinamento)

2001 Hafed e Levine DCT 70% ORL

2006 Lu et et al. DCT + PCA 59,52% YALE

2006 He et al. DCT + PCA 75,56% ORL

48

Capítulo 5

Métodos e Material

O problema de reconhecimento de faces pode ser visto como um problema genérico de

classificação. Considerando técnicas estatísticas de reconhecimento de padrão, tem-se a etapa

de treinamento e a classificação de uma amostra. Na Figura 7 é ilustrada a adaptação do

reconhecimento de faces a um sistema de classificação estatístico. Considerando que as faces

já foram previamente detectadas, a etapa de seleção de atributos especifica a lista de

características que melhor representa uma pessoa, considerando as suas várias poses presentes

no banco de treinamento. A etapa de classificação faz uma comparação entre a face de teste e

o banco de treinamento, considerando a lista de atributos selecionada, e indica a quem

pertence a face de teste.

Figura 7 - Adaptação do reconhecimento de faces a um sistema de classificação.

5.1. Seleção de Atributos

O objetivo principal da etapa de seleção de atributos é caracterizar classes distintas de objetos

por atributos que sejam adequados para a classificação. Idealmente, selecionam-se atributos

que sejam similares entre objetos de uma mesma classe, que sejam substancialmente

49

diferentes entre objetos de classes distintas e que sejam invariantes em relação a

transformações que devem ser consideradas irrelevantes para uma classificação, como

iluminação, translação, rotação e escala [Duda et al., 2000].

Sabe-se que uma das maiores dificuldades de um sistema de classificação consiste na

seleção de atributos, que faz a definição do conjunto de atributos para diferenciar as classes

existentes. A definição exata do número de atributos, do conjunto de atributos e dos valores

dos atributos que separam as classes existentes são atividades consideradas críticas em um

sistema de classificação [Castleman, 1996].

Na Figura 8 é ilustrada a estratégia seguida neste trabalho para a etapa de seleção de

atributos. A estratégia consiste na investigação de abordagens distintas de seleção de

coeficientes DCT, sendo valorizado por alguns seletores a amplitude dos coeficientes. Os

coeficientes selecionados por cada seletor são então avaliados por três estratégias de

classificação: distância mínima ao protótipo, vizinho mais próximo e k-vizinhos mais

próximos. A abordagem de melhor desempenho nos testes passa a ser então a estratégia de

seleção de atributos do método proposto.

Figura 8 - Estratégia para definir a seleção de atributos dos métodos propostos.

A investigação de abordagens distintas de seleção faz-se necessária para se identificar o

melhor conjunto de coeficientes DCT para representar uma pessoa específica e ao mesmo

tempo distinguir pessoas diversas. A utilização da DCT se justifica por já se conhecer as

vantagens da sua utilização no processamento de sinais e de imagens, conforme apresentado

no Capitulo 3, destacando-se em especial aspectos como concentração de energia em um

conjunto reduzido de coeficientes, redução de dimensionalidade de forma apropriada e baixa

complexidade de seus algoritmos.

50

Considere que cada imagem do banco de faces é representada por uma matriz de a

linhas e b colunas. Após a DCT de uma imagem se tem uma matriz de coeficientes DCT,

também com a linhas e b colunas, que representa a imagem original convertida para o

domínio da freqüência. Um seletor de atributos especifica quais os m coeficientes DCT que

melhor representam uma pessoa e que ao mesmo tempo distinguem as diversas pessoas

existentes no banco de faces, sendo também m o número de coeficientes que serão utilizados

para posterior classificação da face de teste.

Os seletores de atributos analisados nesse trabalho são separados em dois grupos,

conforma ilustra a Figura 9: seletores que identificam um conjunto de coeficientes por pessoa

e seletores que identificam um único conjunto de coeficientes para todas as pessoas. No

primeiro grupo, caracterizado por se escolher um conjunto de coeficientes para cada pessoa,

são analisados os seguintes seletores: média de amplitude, média excluindo extremos,

mediana, por contagem de ocorrências e por posição média dos coeficientes. No segundo

grupo, caracterizado por se identificar um único conjunto de coeficientes para representar

todas as pessoas do banco, são analisados os seguintes seletores: distância normalizada pela

variância, baixas freqüências e seleção do WEKA. De todos os oito seletores analisados,

apenas o seletor WEKA não foi implementado nesse trabalho, visto que se trata de um

aplicativo de mineração de dados, já disponível e largamente utilizado, conforme apresentado

na Seção 2.5.

Figura 9 - Grupos de seletores avaliados.

51

Uma breve descrição de cada seletor analisado está apresentada nas seções seguintes.

Devem ser consideradas, nas demais seções desse trabalho, as seguintes definições:

• Seja m o número de coeficientes DCT selecionados para representar uma pessoa;

• Seja n o número de coeficientes DCT de uma imagem;

• Seja p o número de pessoas distintas do conjunto de dados de treinamento;

• Seja q o número de poses de treinamento de cada pessoa;

• Seja r o número de poses de cada pessoa;

• Seja i o i-ésimo coeficiente DCT, considerando que a matriz de coeficientes de a

linhas e b colunas foi transformada em um vetor de (a*b) elementos pela

concatenação sucessiva de suas a linhas e

• Seja kjix o valor do i-ésimo coeficiente da pessoa j na pose k.

5.1.1 Seletor Média de Amplitude

A média aritmética é uma medida estatística de tendência central largamente utilizada, que

resume informações de um conjunto de dados em torno do seu ponto central de distribuição.

Considerando que a amplitude representa o valor do coeficiente em módulo, então a

média aritmética da amplitude do i-ésimo coeficiente da pessoa j é dada por:

∑=

=q

k

kjiji xq 1

1 µ (15)

O conjunto de coeficientes selecionados para identificar a pessoa j corresponde aos m

coeficientes que apresentem maior valor de ji µ .

O seletor baseado na média de amplitude é uma abordagem de seleção simples. Ele se

concentra apenas nos valores dos coeficientes das poses de uma dada pessoa, sem considerar

dispersão dos dados nem qualquer relacionamento de semelhanças ou diferenças

representativas que possam ocorrer entre pessoas distintas.

52

5.1.2 Seletor Média de Amplitude Excluindo Extremos

A média aritmética excluindo extremos corresponde a uma média aritmética com a seguinte

alteração: são excluídos do cálculo o maior e o menor valor dos dados considerados. Tal

abordagem se justifica visto que valores extremos podem influenciar excessivamente a média

aritmética de um conjunto de dados.

Considere jix max como o maior valor da amplitude do i-ésimo coeficiente da pessoa j

em q poses de treinamento e jix min como o menor valor da amplitude do i-ésimo coeficiente

da pessoa j em q poses de treinamento. A média da amplitude do i-ésimo coeficiente da

pessoa j, excluindo os valores extremos, é dada por:

( )

+−

−= ∑

=

jiji

q

k

kjiji xxxq

e minmax)2(

1

1 (16)

O conjunto de coeficientes selecionados para identificar a pessoa j corresponde aos m

coeficientes que apresentem maior valor de jie .

O seletor de média excluindo extremos, assim como o seletor de média, é uma

abordagem de seleção de implementação simples. Ele se concentra nos valores dos

coeficientes das poses de uma dada pessoa, sem considerar dispersão dos dados nem qualquer

relacionamento de semelhanças ou diferenças representativas que possam ocorrer entre

pessoas distintas

5.1.3 Seletor Baseado em Mediana

A mediana é uma medida estatística de tendência central que não realiza cálculos matemáticos

com os valores dos dados considerados. Ordenam-se todos os valores, de forma crescente ou

decrescente, e seleciona-se o valor localizado no centro da série ordenada. Verifica-se que, na

série ordenada, tem-se 50% dos valores acima da mediana e 50% dos valores abaixo da

mediana.

A mediana é uma medida que pode ser mais apropriada que a média para representar

53

um conjunto de dados em que se verificam erros ou observações afastadas, os seja, presença

de valores extremos e discrepantes.

Considere jimediana como a mediana do i-ésimo coeficiente da pessoa j considerando

q poses de treinamento. O conjunto de coeficientes selecionados para identificar a pessoa j

corresponde aos m coeficientes que apresentem maior valor de jimediana .

O seletor baseado em mediana também é uma abordagem de seleção simples de

implementar. Ele se concentra nos valores dos coeficientes das poses de uma dada pessoa,

sem considerar dispersão dos dados nem qualquer relacionamento de semelhanças ou

diferenças representativas que possam ocorrer entre pessoas distintas.

5.1.4 Seletor por Contagem de Ocorrências

Essa abordagem de seleção não se baseia diretamente no cálculo de medidas estatísticas. O

seletor por contagem de ocorrências define o conjunto de coeficientes para representar a

pessoa j baseado nos seguintes passos:

1. Para cada pose de treinamento da pessoa j cria-se uma lista contendo os 2*m

coeficientes de maior valor de amplitude;

2. Conta-se o número de ocorrência de cada coeficiente i nas q listas;

3. Os m melhores coeficientes para representar a pessoa j correspondem aos

coeficientes que apresentem maior número de ocorrências nas q listas.

Para melhor compreensão dessa abordagem de seleção, considere o exemplo ilustrado

nas Tabelas 5 e 6, associado à seleção dos dois melhores coeficientes (m=2) para representar a

pessoa j, considerando 5 poses de treinamento (q=5).

Para cada uma das 5 poses de treinamento de j cria-se uma lista de 4 elementos (2*m),

contendo a identificação dos coeficientes de maior valor de amplitude na pose considerada

(Tabela 5). A seguir, conta-se a ocorrência de cada um dos coeficientes nas 5 listas

previamente criadas (Tabela 6). Nesse exemplo, os dois melhores coeficientes selecionados

54

são os de número 1 e 9, porque apresentam maior número de ocorrências nas listas

consideradas.

Tabela 5 - Exemplo do seletor por contagem de ocorrência. Coeficientes com maior valor de amplitude (m=2)

Pose 1 1 5 9 2

Pose 2 1 7 8 9

Pose 3 1 8 9 12

Pose 4 1 2 7 12

Pose 5 1 9 8 5

Tabela 6 - Contagem de ocorrência dos coeficientes apresentados na Tabela 5. Coeficiente Ocorrência

1 5

2 2

5 2

7 2

8 3

9 4

12 2

O seletor por contagem de ocorrências tem uma implementação simples. Ele se

concentra apenas nas maiores amplitudes dos coeficientes das poses de uma pessoa, sem

considerar dispersão dos valores nem qualquer relacionamento de semelhanças ou diferenças

representativas que possam ocorrer entre pessoas distintas.

5.1.5. Seletor por Posição Média dos Coeficientes

Essa abordagem de seleção não se baseia diretamente no cálculo de medidas estatísticas de

tendência central. A seleção é feita a partir da posição média da amplitude dos coeficientes,

considerando tanto a posição média intraclasse como a posição média interclasses .

O seletor por posição média dos coeficientes define o conjunto de coeficientes para

representar a pessoa j baseado nos seguintes passos:

1. Ordenam-se todos os coeficientes de cada pose de treinamento de j, de forma

decrescente por amplitude, e registra-se em kjienaçãoPosiçãoOrd a posição

55

ordenada do coeficiente i da pessoa j na pose k;

2. Calcula-se a posição média intraclasse (PMIntra) e interclasses (PMInter) de cada

coeficiente i, dadas respectivamente por:

( )∑=

=q

k

kjiji enaçãoPosiçãoOrdq

PMIntra1

1 (17)

( )

−

−= ∑

=

ji

p

j

jiji PMIntraPMIntrap

PMInter11

1

(18)

3. Calcula-se a razão entre as posições médias intraclasse e interclasses do

coeficiente i de j, dada por:

ji

ji

jiPMInter

PMIntraR = (19)

4. Os m melhores coeficientes para representar a pessoa j correspondem aos

coeficientes i com menor valor de jiR e que estejam fora do intervalo [1-h, 1+h],

com 0<h<1, sendo h um limiar de controle.

Nessa abordagem de seleção, faz-se necessário um procedimento de limiarização que

desconsidere os coeficientes com razão jiR próxima a 1. Coeficientes com tal característica

não são bons descritores de uma classe, visto que apresentam valores de amplitude intraclasse

e interclasses similares.

Para melhor compreensão dessa abordagem de seleção, considere o exemplo ilustrado

nas Tabelas 7, 8 e 9, associado à seleção dos dois melhores coeficientes (m=2) para

representar a pessoa 1, considerando a existência de 3 pessoas (p=3) e 5 coeficientes por

pessoa. Na Tabela 7 são apresentados, para cada uma das três pessoas, valores fictícios da

posição média intraclasse dos 5 coeficientes. Na Tabela 8 é apresentada a posição média

interclasses calculada a partir dos dados apresentados na Tabela 7. Como exemplo do cálculo

da posição média interclasses, considere o coeficiente 3 da pessoa 1 : [(3,6 + 5,8 + 2,8) – 3,6]

56

/ 2 = 4,3. Na Tabela 9 são apresentadas, apenas para a pessoa 1, as razões das posições médias

de cada coeficiente, calculadas de acordo com a equação 19 e considerando os valores

apresentados nas Tabelas 7 e 8. Considerando a aplicação de um limiar de 0,1, os melhores

coeficientes para representar a pessoa 1 são os de número 2 e 3, pois estão relacionados às

menores posições médias, fora do intervalo [0,9; 1,1].

Tabela 7 - Valores fictícios de posição média intraclasse. Coeficientes

1 2 3 4 5

Pessoa 1 1 2,6 3,6 4,6 4,8

Pessoa 2 1 4,8 5,8 3,2 6,0

Pessoa 3 1 4,4 2,8 3,6 2,2

Tabela 8 - Valores da posição média interclasse, calculadas a partir dos dados da Tabela 7. Coeficientes

1 2 3 4 5

Pessoa 1 1 4,6 4,3 3,4 4,1

Pessoa 2 1 3,5 3,2 4,1 3,5

Pessoa 3 1 3,7 4,7 3,9 5,4

Tabela 9 - Razão das posições média intraclasse e interclasses para a pessoa 1. Coeficientes

1 2 3 4 5

Pessoa 1 1 0,56 0,83 1,35 1,17

O seletor por posição média dos coeficientes não impõe maiores dificuldades de

implementação. Ele considera tanto as amplitudes dos coeficientes das poses de uma pessoa

como as amplitudes de coeficientes de pessoas distintas, valorizando de forma simples

semelhanças e diferenças entre pessoas distintas.

5.1.6 Seletor de Distância Normalizada pela Variância

A variância é uma medida estatística associada à dispersão de dados, definida a partir da

média dos quadrados dos desvios das observações em relação à média da amostra. Tomando-

se a raiz quadrada da variância obtém-se o desvio padrão, que também é uma medida de

dispersão. Entretanto, a variância e o desvio padrão podem ser fortemente afetados por erros

57

ou observações muito afastadas.

Considere que, sobre os dados de treinamento, os coeficientes DCT da posição i da

pessoa j tenham suas amplitudes médias jiµ definidas conforme Equação 15.

Idealmente as características de uma pessoa deveriam ser similares entre poses da

mesma pessoa, devendo se ter a mesma interpretação sobre os coeficientes DCT. Entretanto,

devido a aspectos como iluminação, escala, posição e expressão facial, a similaridade das

características e dos coeficientes DCT pode ser reduzida. Para se registrar diferenças que

possam acontecer, calcula-se a variância da amplitude do coeficiente i da pessoa j, dada por:

( )2

1

2 1ˆ ∑

=

−=q

k

jikjiji xq

µσ

(20)

Uma medida para avaliar se um coeficiente separa efetivamente classes distintas

corresponde à distância normalizada pela variância, especificada pela Equação 21, sendo i o

coeficiente avaliado e f e j pessoas distintas.

jifi

jifi

jfiD22 ˆˆ

ˆσσ

µµ

+

−

(21)

Os melhores coeficientes separadores de classes correspondem então aos coeficientes i

que apresentem maior valor de jfiD̂ [Castleman, 1996].

A distância normalizada pela variância definida pela Equação 21 envolve apenas duas

classes e no problema de reconhecimento de faces proposto tem-se p pessoas, que

conseqüentemente representam p classes. O seletor de distância normalizada pela variância

proposto nesse trabalho define o conjunto de coeficientes separadores de p classes baseado

nos seguintes passos:

1. Para i = 0,1,..., n :

1.1. Define-se a matriz jfiD̂ , de dimensão p x p, com elementos calculados

conforme Equação 21, para registrar a distância normalizada pela variância

58

entre as pessoas f e j considerando apenas o coeficiente i, com f=1,2,...,p,

j=1,2,...,p e apenas para j > f;

1.2. Calcula-se iDistMin como o menor valor de jfiD̂ ;

2. O conjunto de coeficientes selecionados corresponde aos m coeficientes que

apresentem maior valor de iDistMin .

O seletor de distância normalizada pela variância considera de forma direta medidas

estatísticas de tendência central e de dispersão de dados, aplicadas sobre a amplitude dos

coeficientes DCT. É um processo que absorve conceitos e recomendações teóricas de uma

seleção de atributos eficientes [Castleman, 1996; Duda et al., 2000; Thoedoridis e

Koutroumbas, 2003].

5.1.7 Seletor de Baixas Freqüências

Essa abordagem de seleção é simples e não avalia valores dos coeficientes DCT das imagens

de treinamento. A seleção consiste simplesmente na definição dos coeficientes DCT de mais

baixa freqüência, considerando uma região quadrada com início no primeiro coeficiente da

matriz DCT. Ela foi utilizada em Hafed e Levine [2001], foi combinada com DWT em Yu et

al. [2006] e foi combinada com redes neurais em Faúndez-Zanub [2003].

A aplicação da DCT-II sobre uma imagem de treinamento bidimensional produz uma

matriz de coeficientes DCT de mesma dimensão da imagem original. Os coeficientes de mais

baixa freqüência correspondem aos primeiros elementos da matriz, ou seja, elementos

pertencente as primeiras linhas e primeiras colunas. A seleção por baixa freqüência escolhe os

coeficientes posicionados dentro de uma região quadrada, com canto superior esquerdo

posicionado no primeiro elemento da matriz, o elemento (1,1), e canto inferior direito

posicionado na posição (x,x), sendo x menor do que cada uma das dimensões da matriz de

coeficientes. Como exemplo dessa abordagem, selecionando-se 9 coeficientes, escolhe-se

sempre as seguintes posições da matriz DCT: (1,1), (1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2)

59

e (3,3).

Na Figura 10 é ilustrada a abordagem de seleção por baixas freqüências indicando três

regiões quadradas de seleção. Como pode ser visto, e conforme descrito no Capítulo 3, a

maior concentração de energia ocorre nos coeficientes de mais baixa freqüência. Assim, a

abordagem de seleção por baixas freqüências com regiões quadradas consegue capturar

coeficientes importantes da imagem.

Figura 10 - Regiões quadradas associadas a seleção de baixas freqüências.

5.1.8 Seletor WEKA

Visto que a WEKA é uma ferramenta de mineração de dados bem conceituada, simples de

usar e de domínio público, analisa-se nesse trabalho uma abordagem de seleção de atributos

baseada no seu uso. A abordagem proposta consiste nas seguintes etapas:

1. Todas as imagens são convertidas pela DCT-II para o domínio da freqüência;

2. Um subconjunto de coeficientes DCT de todas as imagens é informado a

ferramenta WEKA;

3. A ferramenta WEKA seleciona o melhor conjunto de coeficientes DCT para

classificar a base de imagens.

O subconjunto de coeficientes DCT informados para o WEKA foram os coeficientes de

mais baixa freqüência, considerando a abordagem quadrada de dimensão 14 X 14 com canto

superior esquerdo posicionado sobre o primeiro elemento da matriz de coeficientes. Essa

escolha teve as seguintes motivações: simplicidade, custo computacional e comparação com

outros métodos que fazem seleção por baixa freqüência [Hafed e Levine, 2001;

Faúndez-Zanub, 2003; Yu et al., 2006].

60

5.1.9 Resumo dos Seletores Apresentados

Nesse trabalho, são analisadas oito abordagens de seleção aplicadas sobre coeficientes DCT.

Na Tabela 10 é apresentado um resumo das abordagens de seleção investigadas nesse

trabalho, permitindo uma visualização unificada de algumas de suas características.

Tabela 10 - Resumo das abordagens de seleção analisadas nesse trabalho. Cálculos com valores: Abordagem de Seleção

intraclasse interclasse

Comparação preliminar de custo de

processamento

Grupo 1: Seletores que indicam um conjunto de coeficientes por classe (pessoa) de treinamento

1. Média de Amplitude Sim Não Baixo

2. Média de Amplitude Excluindo Extremos Sim Não Baixo

3. Baseado em Mediana Sim Não Baixo

4. Por Contagem de Ocorrências Sim Não Médio

5. Por Posição Média do Coeficiente Sim Sim Médio

Grupo 2: Seletores que indicam um único conjunto de coeficientes para todo o banco

6. Distância Normalizada pela Variância Sim Sim Médio

7. Baixas Freqüências Não Não Baixo

8. WEKA Sim Sim Baixo

5.2 Classificação

O objetivo da etapa de classificação é fazer uma comparação entre um objeto de teste e um

conjunto de classes de objetos usados no treinamento, indicando a qual classe o objeto de

teste pertence. Para a realização da classificação, considera-se apenas o conjunto de atributos

previamente selecionados no treinamento.

No contexto de imagens, a classificação computacional tem sido feita baseada em

probabilidade, visto que uma classificação computacional perfeita é considerada impossível

[Duda et al., 2000]. Comumente, o classificador calcula um valor para indicar o grau de

semelhança do objeto de teste em relação a uma classe. O grau de semelhança é computado

como uma função dos atributos selecionados e é utilizado para indicar a classe que mais se

aproxima do objeto de teste.

O conjunto de atributos selecionados para distinguir classes influencia diretamente no

resultado do classificador e normalmente se verifica que uma seleção apropriada conduz a

61

uma maior taxa de acertos. A etapa de classificação, em geral, tem como aspectos

complicadores: número de atributos selecionados, variação de valores de um atributo em

todos os objetos de uma mesma classe, valores que são considerados exceções em um atributo

e a definição da regra de cálculo do grau de semelhança do classificador.

Com o objetivo de alcançar uma maior taxa de acerto e também relacionar taxa de

acerto com custo computacional, nesse trabalho são aplicadas três abordagens de

classificação: distância mínima ao protótipo, vizinho mais próximo (Nearest Neightor - NN) e

k-vizinhos mais próximos (k-Nearest Neightor - KNN). Tais classificadores foram

apresentados na Seção 4.2. Para calcular o grau de semelhança entre objetos foi definida a

distância de Manhattan, especificada na Equação 2, que corresponde a um método simples,

eficiente e fácil de implementar.

5.2.1 Classificador de Distância Mínima ao Protótipo

Considere que, sobre os dados de treinamento, { }jmjj γγγ ,...,, 21 correspondem às médias das

amplitudes dos m coeficientes { }jmjj yyy ,...,, 21 selecionados para representar a pessoa j,

sendo essas médias calculadas conforme Equação 15.

Seja f a pessoa a ser classificada e sejam { }fmff vvv ,...,, 21 as amplitudes dos

coeficientes DCT da pessoa f, com fiv correspondendo ao coeficiente de mesma posição que

jiy . O grau de semelhança entre f e j é dado por:

∑=

−=m

i

fijijf vDMP1

γ (22)

A classificação da pessoa f corresponde então à pessoa j com menor valor de jfDMP .

5.2.2 Classificador do Vizinho Mais Próximos (NN)

Sejam { }jmjj yyy ,...,, 21 os m coeficientes selecionados para representar a pessoa j e sejam

{ },...,,, 21 kjmkjkj www as amplitudes dos coeficientes de treinamento da pessoa j na pose k,

62

com kjiw correspondendo ao coeficiente de mesma posição que jiy .



jiy .

A distância entre a face f e a pessoa treinamento j na pose k, com j=1, 2, ..., p e

k=1, 2, ..., q, é dada por:

∑=

−=m

i

fikjikjf vwDNN1

(23)

De acordo com a Equação 23, a face de teste f é classificada como a pessoa j quando:

hkgjDNNDNN hgfkjf ≠∀≠∀≤ ,, (24)

5.2.3 Classificador dos K-Vizinhos Mais Próximo (KNN)

A abordagem de classificação KNN é semelhante à abordagem NN, conforme apresentado na

Seção 4.2. Entretanto, ao invés de classificar a face de teste como a primeira face de

treinamento mais próxima, ele identifica as k faces mais próximas e classifica a face de teste

considerando a classe que for mais freqüente entre as k faces de treinamento mais próximas.

Sejam { }jmjj yyy ,...,, 21 os m coeficientes selecionados para representar a pessoa j e

sejam { },...,,, 21 kjmkjkj www as amplitudes dos coeficientes de treinamento da pessoa j na

pose k, com kjiw correspondendo ao coeficiente de mesma posição que jiy .



jiy .

O classificador KNN classifica a face f baseado nos seguintes passos:

1. Calcula-se a distância entre a face f e a pessoa de treinamento j na pose k, com

63

j=1, 2, ..., p e k=1, 2, ..., q, dada por:

∑=

−=m

i

fikjikjf vwDKNN1

(25)

2. Identificam-se os k menores valores kjfDKNN e define-se o i-ésimo vizinho mais

próximo como a pessoa j associada ao i-menor valor de kjfDKNN , com

i=1, 2, ..., k;

3. A classificação da pessoa f corresponde então à pessoa j mais freqüente entre os

k-vizinhos identificados;

4. Em caso de empate, foi definido nesse trabalho se adotar a abordagem NN para

desempate.

5.3 Treinamento e Testes

Para avaliar a taxa de acertos de um classificador é necessário se ter treinamento e testes

confiáveis. Define-se conjunto de treinamento como a coleção de objetos de várias classes

que são utilizadas pelo classificador para aprender sobre as classes, ou seja, conjunto de dados

utilizados para a seleção de atributos. Define-se conjunto de testes como a coleção de objetos

que serão classificados.

Sabe-se que uma boa representatividade do conjunto de treinamento contribui para

aumentar a taxa de acertos do classificador, sendo recomendado que o conjunto de

treinamento possua exemplos de todos os objetos que possam ser encontrados, inclusive os

mais raros [Duda et at., 2000; Theodoridis, 2003]

A taxa de acertos do classificador é calculada baseada nos resultados dos testes

realizados. Faz-se necessário uma quantidade representativa de testes e um conjunto de testes

válidos.

Quando se tem poucos dados para treinamento, recomenda-se utilizar os princípios da

validação cruzada para se ter uma maior validade do treinamento e dos testes (Seção 2.2.1).

64

Nesse trabalho, adotou-se a abordagem leave-one-out realizado-se treinamento e testes de

acordo com a seguinte especificação: seja p o número de pessoas do banco de faces e seja r o

número de poses de cada pessoa. Serão realizados r treinamentos, excluindo-se do

treinamento t a pose t de cada pessoa, com t=1,2,...,r. Sobre cada treinamento t serão

realizados p testes, sendo definida como pose de teste do treinamento t a pose t que foi

anteriormente retirada do treinamento. Totalizando, teremos p*r testes de classificação.

5.3.1 Banco de Faces

Nesse trabalho, o banco de faces definido para testes foi o ORL (Olivetti Research Lab) Face

Database [AT&T, 1994], que apresenta variações sutis e controladas de iluminação, posição,

expressão facial e presença de óculos. Ele está disponível na web para download sem

necessidade de pedido ou de senha, foi o primeiro banco obtido para a pesquisa em questão, é

o mais referenciado nos trabalhos utilizados na revisão literária feita e foi utilizado em testes

de métodos de reconhecimento de faces baseados em DCT. Assim, a utilização do banco ORL

nos permite uma avaliação do método proposto em relação aos aspectos modificadores da

face humana e ao mesmo tempo permite comparar os resultados com outros métodos.

O banco ORL tem 400 imagens de 112 x 92 pixels, referentes a 40 pessoas, cada uma

em 10 poses. Há homens e mulheres e todas as imagens apresentam fundo escuro e

homogêneo com pequenas variações associadas às seguintes características: iluminação,

posição, expressão facial, diferentes aberturas dos olhos, sorrisos e presença de óculos. Na

Figura 11 são ilustradas imagens do banco de faces ORL apresentando as pessoas de número

1, 7, 20 e 35, respectivamente, cada uma em suas 10 poses.

65

Figura 11 - Imagens do banco ORL: pessoas 1, 7, 20 e 35, cada uma em suas 10 poses.

Apesar da disponibilidade de outros bancos de face, conforme apresentado na Seção 4.3,

inclusive com maior variação de aspectos modificadores da face humana, tais bancos não

foram incluídos no escopo de testes desse trabalho. Testes sobre outros bancos são relevantes

para a validação do método proposto e estão sendo indicados como trabalhos futuros.

5.3.2 Testes Realizados

Para validar os métodos propostos, foram realizados testes sobre o banco de faces ORL

combinando os seguintes elementos: oito seletores, dezoito conjuntos de coeficientes

selecionados de diferentes tamanhos, três classificadores e 10 rodadas de treinamento

(abordagem leave-one-out sobre ORL). Para possibilitar melhor comparação com outros

métodos, o número de coeficientes selecionados foi estabelecido como um quadrado perfeito

e para se visualizar a evolução máxima da taxa de acertos foram definidos dezoito conjuntos

de coeficientes por seletor, com tamanho variando de 32 a 202 coeficientes.

O conjunto de testes realizados com os sete seletores implementados nesse trabalho

foram organizados em 10 rodadas de treinamento e classificação. Em cada rodada, o conjunto

de treinamento contém nove poses de cada pessoa e os testes de classificação são efetuados

com a pose que ficou de fora, que nesse caso possui o mesmo número que identifica o

treinamento. A rodada 4, por exemplo, treina com as poses 1,2,3,5,6,7,8,9 e 10 e testa com a

pose 4. Após a realização de um treinamento se tem como resultado a conjunto de

66

coeficientes que identificam as classes existentes. Assim, os dezoito conjuntos de coeficientes

selecionados estão disponíveis após cada etapa de treinamento. Com cada um dos dezoito

conjuntos de coeficientes selecionados são realizados testes de classificação por três

abordagens: distância mínima ao protótipo (DMP), vizinho mais próximo (NN) e k-vizinhos

mais próximos (KNN).

Considerando-se que o banco ORL apresenta faces de 40 pessoas, cada uma em 10

poses, então em cada rodada se tem 40 poses para testes. Dessa forma, cada rodada

corresponde à execução de 40 testes com cada classificador e para cada um dos 18 conjuntos

de coeficientes, ou seja, temos 2.160 testes assim especificados: 3 classificadores, cada um

executando 40 testes sobre cada um dos 18 conjuntos de coeficientes (3*40*18=2.160).

Considerando as 10 rodadas de treinamento, temos então a realização de 21.600 testes para

cada seletor analisado.

O seletor baseado no aplicativo WEKA (oitavo seletor) foi avaliado por testes

diferenciados, pois ele gera um único conjunto de seletores, especificando inclusive o seu

tamanho. A seleção e classificação dessa abordagem foram definidas a partir dos seguintes

passos:

1. Foram informados ao aplicativo WEKA os 196 coeficientes de mais baixa

freqüência da cada uma das faces do banco ORL, considerando uma região

quadrada de 14 X 14 posicionada no início da imagem;

2. o aplicativo WEKA foi configurado para aplicar validação cruzada e identificar os

melhores coeficientes diferenciadores das classes existentes;

3. o aplicativo WEKA produziu o seguinte resultado: seleção do conjunto de

coeficientes, abordagem de classificação apropriada e taxa de acertos obtidas com

os testes realizados;

4. testes adicionais de classificação foram realizados no WEKA informando o

conjunto de coeficientes indicados por outros seletores analisados nesse trabalho.

67

Não foram realizados testes com o conjunto de coeficientes indicados pelo WEKA e os

três classificadores analisados nesse trabalho pois, para um treinamento mais representativo,

todas as 10 poses foram informadas ao WEKA. Como conseqüência dessa escolha, não se tem

uma pose que possa ser utilizada para testes de forma correta, visto que, conforme descrito na

Seção 2.2.1, não é recomendado utilizar para testes as imagens que foram utilizadas para

treinamento.

5.4 Ferramentas Utilizadas

• Todos os seletores e classificadores implementados nesse trabalho foram

elaborados na ferramenta MATLAB® 7.0.

• Foi utilizada a ferramenta WEKA, versão 3.4.11.

• Toda a implementação e testes foram executados em um computador com

processador Pentium IV de 2.40 GHz, com 512 MB de memória principal,

executando o sistema operacional Windows XP.

68

Capítulo 6

Resultados

Os resultados foram produzidos a partir da realização de testes de classificação sobre o banco

de faces ORL, considerando os conjuntos de coeficientes selecionados pelos oito seletores

analisados neste trabalho. Desses seletores, sete foram implementados no decorrer deste

trabalho, e um foi avaliado utilizando-se a implementação do WEKA.

Os resultados obtidos estão organizados em sete seções. Na Seção 6.1 são apresentados,

na forma de tabela, os resultados obtidos utilizando os sete seletores implementados nesse

trabalho, cada um sendo testado por três classificadores. Na Seção 6.2 são apresentados, na

forma de gráfico, os melhores resultados obtidos considerando testes com os sete seletores e

três classificadores. Na Seção 6.3 são apresentados erros de classificação, considerando

apenas a mais alta taxa de acerto alcançada pelos métodos propostos nesse trabalho. Na Seção

6.4, são apresentados reconhecimentos acumulativos para os dois seletor de melhor

desempenho associado a cada um dos três classificadores. Na Seção 6.5 são apresentados os

resultados de classificação do seletor baseado no aplicativo WEKA. Na Seção 6.6 são

apresentados os tempos de processamento. Finalizando, na Seção 6.7 são apresentados, na

forma de tabela, coeficientes selecionados por abordagens de seleção que se destacaram nos

testes.

69

6.1 Resultados Combinando Sete Seletores e Três Classificadores

Na Tabela 11 são apresentados os resultados obtidos combinando sete seletores com três

classificadores. A primeira coluna da tabela corresponde ao seletor empregado, a segunda

coluna indica o número de coeficientes utilizados na seleção e na classificação e da terceira

até a quinta coluna apresentam-se as taxas de acertos obtidas, respectivamente, pelos

classificadores de distância mínima ao protótipo (DMP), vizinho mais próximo (NN) e

k-vizinhos mais próximos (KNN). Cada taxa de acerto apresentada corresponde à

porcentagem de acertos de classificação considerando 400 testes, referentes a 10 rodadas de

treinamento cada uma classificando 40 amostras (10*40=400). O melhor resultado de cada

seletor com cada um dos classificadores está destacado com fonte em negrito.

Como foram definidos dezoito conjuntos de coeficientes então se tem 7.200 testes

(400*18=7.200) considerando a combinação de um seletor com um classificador. Como o

resultado de cada seletor é analisado considerando três abordagens distintas de classificação,

então cada seletor foi testado 21.600 vezes (3*7.200=21.600).

No caso específico do classificador de k-vizinhos mais próximos, foram realizados

testes com k=3 e k=5. Considerando os dois valores de k, a maior de taxa de acerto foi 98%,

obtida utilizando-se k=3. Nesse capítulo, por resumo e simplicidade, são apresentados apenas

os resultados do classificador de k-vizinhos para o melhor valor de k identificado nos

testes (k=3). No Apêndice D podem ser vistos resultados de testes relacionados ao

classificador de k-vizinhos mais próximos para k=3 e k=5.

Tabela 11 - Resultados obtidos com sete seletores e três classificadores. Seletor Classificação – Taxa de acerto em %

No de coeficientes DMP NN KNN (K=3)

9 76,00 93,75 91,00

16 82,75 96,75 92,50

25 84,25 98,00 95,50

36 87,25 98,75 94,25

49 88,75 98,50 94,25

64 90,00 98,75 96,00

1. Média de amplitude

81 91,25 98,25 96,25

70

Seletor Classificação – Taxa de acerto em %


100 92,25 98,00 96,50

121 93,00 98,00 97,00

144 93,25 97,75 96,25

169 93,75 98,25 96,75

196 94,25 97,75 96,75

225 94,00 98,00 96,75

256 94,25 98,00 96,75

289 94,25 98,00 96,50

324 94,50 98,00 96,00

361 94,50 98,00 96,25

400 94,75 98,00 96,25

9 77,75 93,75 90,75

16 83,50 96,75 92,25

25 85,75 98,00 95,50

36 88,75 98,75 94,00

49 89,00 98,50 94,25

64 89,75 98,75 96,25

81 91,25 98,25 96,50

100 92,50 98,00 96,00

121 93,25 97,75 96,50

144 94,25 98,00 96,25

169 93,00 98,00 96,75

196 94,25 98,25 96,50

225 94,50 98,00 97,00

256 94,25 98,00 96,75

289 94,25 98,00 96,25

324 94,25 98,00 96,25

361 94,75 97,75 96,50

2. Média de amplitude excluindo extremos

400 95,00 97,75 96,25

9 78,00 93,25 90,25

16 83,25 97,00 93,50

25 86,75 98,25 94,00

36 88,25 98,50 94,00

49 88,00 98,75 94,25

64 90,00 98,25 95,00

81 91,00 98,50 96,25

100 92,50 98,25 96,00

121 92,25 98,00 95,00

144 93,00 98,00 96,75

169 93,50 98,00 96,75

196 94,00 98,00 97,00

3. Baseado em mediana

225 94,50 98,00 96,50

71



256 95,00 98,00 96,50

289 94,50 98,00 97,00

324 94,75 98,00 96,50

361 94,50 98,00 96,75

400 94,25 97,75 97,25

9 55,75 94,00 77,25

16 73,50 98,00 89,50

25 84,25 98,50 92,00

36 89,25 98,25 94,25

49 90,00 98,50 94,25

64 89,25 98,50 95,50

81 90,25 98,75 95,00

100 91,50 98,25 95,50

121 92,75 98,00 95,50

144 93,50 98,25 96,25

169 94,75 98,25 97,00

196 95,25 98,25 96,00

225 95,00 98,25 96,75

256 94,75 98,25 96,75

289 95,00 98,00 97,00

324 95,00 98,00 96,50

361 94,25 98,00 97,00

4. Por contagem de ocorrências

400 94,75 98,00 96,25

9 75,75 89,25 89,25

16 79,75 93,25 92,25

25 83,50 94,50 92,50

36 83,75 96,50 91,25

49 85,00 97,50 90,25

64 86,00 97,25 92,75

81 85,50 97,75 90,50

100 86,00 97,25 91,00

121 87,50 98,00 91,50

144 86,75 98,25 91,00

169 86,00 97,50 91,25

196 87,25 97,25 91,75

225 88,50 97,50 93,25

256 88,50 97,50 93,25

289 90,00 96,75 94,00

324 90,00 96,75 93,75

361 91,25 96,75 93,75

5. Por posição média dos coeficientes (limiar 0,2)

400 91,25 97,00 92,50

6. Distância normalizada pela 9 79,50 95,75 94,25

72



16 85,25 98,25 96,25

25 90,00 98,00 95,75

36 91,75 97,50 95,00

49 93,50 98,25 96,50

64 94,00 98,25 96,75

81 95,00 98,25 97,25

100 95,50 98,75 97,00

121 94,75 98,00 96,75

144 95,25 98,00 96,50

169 95,50 98,25 96,50

196 95,50 98,00 96,50

225 95,25 97,75 97,00

256 95,25 97,75 96,75

289 95,50 98,00 97,00

324 95,50 98,00 97,00

361 95,75 98,00 97,75

variância

400 95,75 98,00 97,25

9 67,00 92,25 88,00

16 78,50 96,75 94,75

25 88,50 98,75 97,25

36 93,75 99,25 97,50

49 93,75 98,75 97,25

64 94,00 98,50 97,50

81 95,00 98,50 97,25

100 95,25 98,25 96,75

121 95,25 98,25 97,50

144 95,25 98,25 97,25

169 95,25 97,75 97,00

196 95,50 97,75 97,25

225 95,25 97,75 97,25

256 95,75 98,00 97,50

289 96,25 98,00 97,50

324 96,00 98,00 97,50

361 95,75 98,00 97,50

7. Baixas freqüências

400 96,00 98,00 97,75

Considerando a evolução dos classificadores observam-se os seguintes aspectos: os

classificadores de distância mínima ao protótipo e de k-vizinhos mais próximos atingem taxa

de acerto máxima utilizando maiores conjuntos de coeficientes, o classificador de vizinho

mais próximo atinge sua taxa de acerto máxima utilizando conjuntos de coeficientes menores

73

e as maiores taxas de acerto são associadas ao classificador de vizinho mais próximo.

Considerando os seletores, observam-se os seguintes aspectos: seletores diferentes

conduzem a resultados semelhantes, não há grandes disparidades entre as taxas máximas de

acerto e os resultados dos seletores de baixas freqüências e de distância normalizada pela

variância são mais significativos.

6.2 Melhores Resultados Obtidos por Classificador

Na Tabela 12 é apresentado um resumo enumerando os seletores de melhor desempenho em

cada um dos três classificadores. A primeira coluna identifica o seletor e as seis colunas

seguintes são associadas respectivamente aos classificadores de distância mínima ao protótipo

(DMP), vizinho mais próximo (NN) e k-vizinhos mais próximos (KNN), com duas colunas

por classificador. As colunas Posição e Acerto Máximo de cada classificador representam,

respectivamente, a posição de desempenho dos seletores e a maior taxa de acertos obtida. Na

coluna Acertos Máximo, também se apresenta entre parênteses o número de coeficientes

utilizados para obtenção de taxa de acertos referenciada. O critério adotado para indicar os

melhores seletores foi a maior taxa de acerto apresentada na Tabela 11, com empates

solucionados considerando o menor número de coeficientes utilizados. Para a especificação

do desempenho foi definida a numeração de 1 a 7, com o número 1 identificando o seletor de

melhor desempenho.

Tabela 12 - Resumo do desempenho dos seletores. Desempenho e taxa de acerto dos seletores nos classificadores

DMP NN KNN (K=3)

Posição Acerto Max. Posição Acerto Max. Posição Acerto Max.

Média de amplitude 6 94,75 (400) 2 98,75 (36) 4 97,00 (121)

Média de amplitude exc. extremos 5 95,00 (400) 2 98,75 (36) 6 97,00 (225)

Baseado em mediana 4 95,00 (256) 4 98,75 (49) 3 97,25 (400)

Por contagem de ocorrências 3 95,25 (196) 5 98,75 (81) 5 97,00 (169)

Por posição média do coef. (l= 0,2) 7 91,25 (361) 7 98,25 (144) 7 94,00 (289)

Dist. normalizada pela variância 2 95,75 (361) 6 98,75 (100) 1 97,75 (361)

Baixas freqüências 1 96,25 (289) 1 99,25 (36) 2 97,75 (400)

74

Nas Figuras 12, 13 e 14 são apresentados os três seletores que obtiveram melhor

desempenho utilizando, respectivamente, os classificadores de distância mínima ao protótipo,

vizinho mais próximo e k-vizinhos mais próximos. Foram considerados os dados da Tabela 11

e as melhores posições da Tabela 12. Para melhorar a visualização dos gráficos, o número de

coeficientes considerados inicia em 25, sem provocar prejuízos na visualização da evolução

da taxa de acertos com o aumento do número de coeficientes.

83,00

85,00

87,00

89,00

91,00

93,00

95,00

97,00

25 36 49 64 81 100 121 144 169 196 225 256 289 324 361 400

Número de coeficientes

Taxa d

e a

cert

o (

%)

Baixas frequências Distância normalizada pela variância Contagem de ocorrências

Figura 12 - Classificador de distância mínima ao protótipo: 3 seletores de melhor desempenho.

97,00

97,50

98,00

98,50

99,00

99,50

25 36 49 64 81 100 121 144 169 196 225 256 289 324 361 400


Taxa d

e a

cert

o (

%)

Baixas frequências Média de amplitude Média de amplitude excluindo extremos

Figura 13 - Classificador de vizinho mais próximo: 3 seletores de melhor desempenho.

75

93,50

94,50

95,50

96,50

97,50

25 36 49 64 81 100 121 144 169 196 225 256 289 324 361 400


Ta

xa

de

ac

ert

o (

%)

Distância normalizada pela variência Baixas frequências Mediana

Figura 14 - Classificador de k-vizinhos mais próximo (k=3): 3 seletores de melhor desempenho.

No classificador de distância mínima ao protótipo (Figura 12), as maiores taxas de

acertos são obtidas com mais coeficientes e, a partir de 64 coeficientes, as taxas de acerto dos

seletores de baixas freqüências e de distância normalizada pela variância são próximas. No

classificador de vizinho mais próximo (Figura 13), as maiores taxas de acertos são obtidas

com poucos coeficientes e há pontos de igualdade entre as taxas de acerto dos seletores de

média de amplitude e de média de amplitude excluindo extremos. A evolução do classificador

dos k-vizinhos mais próximos (Figura 14) é mais diferenciada, entretanto, há destaque das

taxas de acertos dos seletores de baixas freqüências e de distância normalizada.

76

6.3 Exemplos de Erros

Na Tabela 13 são apresentados os erros de classificação considerando apenas o contexto em

que cada classificador atinge a sua maior taxa de acerto. O contexto é descrito pelo seletor,

número de coeficientes, taxa de acerto atingida e número de erros; a descrição dos erros é

descrita em função da rodada de treinamento, pessoa de teste e resposta incorreta fornecida

pelo classificador, que corresponde a uma pessoa diferente da pessoa de teste.

Tabela 13 - Erros de classificação dos três classificadores. Classificador: Distância mínima ao protótipo

Contexto Descrição dos erros

Seletor No coef. Taxa de acertos

No erros Treinamento Pessoa de teste Resposta incorreta

(pessoa)

1 1 16

1 23 38

1 31 21

1 35 15

4 40 5

6 16 19

7 26 28

7 31 30

7 32 15

9 19 36

9 29 39

9 31 23

10 5 18

10 10 4

Baixas freqüências

289 96,25% 15

10 40 5

Classificador: Vizinho mais próximo




(pessoa)

9 10 38

9 19 11

Baixas freqüências

36 99,25 3

10 1 16

Classificador: k-vizinhos mais próximos




(pessoa)

1 35 15 Distância normalizada

361 97,75% 9

4 40 5

77

5 3 25

6 16 19

7 32 17

9 19 11

10 5 18

10 10 4

pela variância

10 40 5

Para ilustrar imagens de faces que foram classificadas incorretamente, foi escolhida a

pessoa de número 19, visto que os três classificadores erraram o seu reconhecimento. No

treinamento de número 9, a pessoa 19 foi classificada pelo classificador de distância mínima

ao protótipo como se fosse a pessoa 36 e foi classificada como se fosse a pessoa 11 pelos dois

outros classificadores. Na Figura 15 são ilustradas imagens do banco de faces ORL, referentes

às 10 poses das pessoas de número 19, 11 e 36, sequencialmente.

Deve ser destacado que os erros aqui analisados são referentes ao treinamento de

número 9, que treina com as poses 1, 2, 3, 4, 5, 6, 7, 8 e 10 e classifica com a pose de número

9. Nos testes realizados, complementando a Tabela 13, a face da pessoa 19, na pose 9, foi

classificada como a pessoa 11 na pose 5 pelo vizinho mais próximo. No caso do classificador

de k-vizinhos mais próximos, as poses 4 e 5 da pessoa 11 representaram a base da resposta do

classificador. Quanto ao classificador de distância mínima ao protótipo, não se pode associar

uma pose em particular visto que o mesmo classifica em função de um protótipo, perdendo-se

o referencial em relação às poses de treinamento.

Figura 15 - Banco ORL: pessoas 19, 11 e 36 em suas 10 poses (pessoas e poses em seqüência).

78

No Apêndice E pode ser vista a matriz de confusão associada aos erros ocorridos com o

uso do seletor de baixas freqüências combinado com os classificadores de distância mínima

ao protótipo e vizinho mais próximo.

6.4 Curvas de Reconhecimento Acumulativo

Pelo critério de desempenho adotado nesse trabalho, pode ser verificado na Tabela 12 que o

melhor desempenho foi obtido pelo seletor de baixas freqüências, pois conseguiu a primeira

posição em dois classificadores, seguido pelo seletor de distância normalizada pela variância,

que conseguiu a primeira posição em um classificador. Nessa seção, são apresentadas as

curvas de reconhecimento acumulativo de tais seletores, mostrando depois de quantas

tentativas a combinação de seletor e classificador atingiria 100% de acertos. Visto que as

classificações acontecem baseadas em distâncias, a primeira tentativa de acerto do

classificador é apresentar como resposta a pessoa cuja face de treinamento obteve a menor

distância em relação à face de teste, à segunda tentativa corresponde a segunda face de

treinamento de menor distância em relação à face de teste, e assim sucessivamente. Caso a

face de teste não seja a primeira resposta do classificador, as tentativas indicam em que ponto

a classificação seria correta. É considerado apenas o contexto em que o seletor obteve a sua

maior taxa de acerto, de acordo com os dados apresentados na Tabela 12.

Na Tabela 14 são apresentadas tentativas que conduzem os seletores de baixas

freqüências e de distância normalizada pela variância a 100% de acertos nos três

classificadores. A primeira coluna identifica o seletor, a segunda coluna identifica o

classificador, a terceira coluna indica a maior taxa de acertos atingida, a quarta coluna mostra

o número de coeficientes que produziu a taxa de acerto máxima e as nove colunas restantes

correspondem a tentativas, mostrando o número de acertos que cada uma delas produziu. No

caso específico da primeira linha, tem-se que a primeira tentativa acerta 385 classificações, a

segunda tentativa acerta 10 classificações e as tentativas de número 03, 04 05, 07 e 08

79

acertam cada uma apenas uma classificação, ou seja, de 400 testes realizados (40 testes em 10

rodadas), a face de teste está sempre entre as oito primeiras faces mais semelhantes

apresentadas pelo classificador.

Tabela 14 - Tentativas de acertos dos dois seletores de melhor desempenho. Seletor Class. Taxa de

Acerto Coef Tentativas

01 02 03 04 05 06 07 08 >8

Baixas freqüências DMP 96,25 289 385 10 1 1 1 0 1 1 0

NN 99,25 36 397 2 0 0 0 1 0 0 0

KNN 97,75 400 391 0 3 2 1 0 1 0 2

Dist. norm. pela variância DMP 95,75 361 383 9 4 2 2 0 0 0 0

NN 98,75 100 395 1 1 1 1 0 1 0 0

KNN 97,75 361 391 0 2 2 2 0 1 2 0

Nas Figuras 16 e 17 são apresentadas curvas de reconhecimento acumulativo,

considerando os dados da Tabela 14, associadas, respectivamente, aos seletores de baixa

freqüência e de distância normalizada pela variância.

Com o seletor de baixas freqüências (Figura 16), o melhor reconhecimento acumulativo

ocorre considerando 6 tentativas, e está associado ao uso do classificador de vizinho mais

próximo. Já com o seletor de distância normalizada pela variância (Figura 17), o melhor

reconhecimento acumulativo ocorre considerando 5 tentativas, e está associado ao uso do

classificador de distância mínima ao protótipo.

95

96

97

98

99

100

1 2 3 4 5 6 7 8

Tentativas

Re

co

nh

ec

ime

nto

ac

um

ula

tiv

o

DMP NN KNN

'

Figura 16 - Curva de reconhecimento acumulativo do seletor de baixas freqüências.

80

95

96

97

98

99

100

1 2 3 4 5 6 7 8

Tentativas

Reco

nh

ecim

en

to a

cu

mu

lati

vo

DMP NN KNN

'

Figura 17 - Reconhecimento acumulativo do seletor de distância normalizada pela variância.

6.5 Resultados Utilizando o WEKA

Todas as imagens do banco de faces foram convertidas para o domínio da freqüência e foram

informadas ao WEKA as amplitudes dos 196 coeficientes DCT de mais baixa freqüência de

cada imagem, considerando a abordagem quadrada de 14 X 14. O WEKA realizou a sua

seleção, classificou pela abordagem SMO, uma variante do SVM, e produziu os seguintes

resultados:

• Número de coeficientes selecionados: 18

• Lista de coeficientes selecionados: (1,1), (1,3), (1,5), (2,1), (2,3), (2,5), (3,1), (3,3),

(3,5), (3,7), (4,3), (5,1), (6,1), (6,5), (7,1), (8,1), (9,1), (9,3).

• Acertos de classificação: 91,50%

Os resultados da ferramenta WEKA são associados à maior taxa de acerto (91,50%)

alcançada sobre os dados de entrada (coeficientes DCT). São consideradas combinações entre

abordagens de seleção e de classificação suportadas pela ferramenta, além de técnicas

adicionais de treinamento e teste, como validação cruzada.

Testes adicionais foram realizados no WEKA combinando a sua lista de coeficientes

selecionados e coeficientes selecionados pelo critério de baixas freqüências. Na Tabela 15 são

81

apresentas as taxas de acerto da classificação do WEKA considerando coeficientes

selecionados pelo critério de baixas freqüências.

Tabela 15 - Classificação do WEKA utilizando seleção por baixas freqüências. N. de Coef. Taxa de Acerto

4 31.75%

9 63.5%

16 86%

25 96.75%

36 97.75%

49 97.25%

Na Tabela 16 são apresentados resultados de classificação do WEKA considerando os

36 coeficientes de mais baixa freqüência, pois apresentaram a maior taxa de acertos (Tabela

15), mais os quatro coeficientes selecionados pelo WEKA que estão fora de seleção de baixas

freqüências de 36 coeficientes, ou seja, os coeficientes (7,1), (8,1), (9,1) e (9,3). A primeira

coluna da tabela mostra o número de coeficientes de baixa freqüência utilizado, as quatro

colunas seguintes mostram os coeficientes que foram adicionados e a última coluna mostra a

taxa de acerto de classificação do WEKA considerando os coeficientes especificados.

Tabela 16 - Classificação combinando seleção por baixas freqüências e seleção WEKA. N. de Coef. Coeficientes Adicionados Taxa de Acertos

36 (7,1) - - - 97.25%

36 (7,1) (8,1) - - 97,00%

36 (7,1) (8,1) (9,1) - 97,00%

36 (7,1) (8,1) (9,1) (9,3) 97,50%

6.6 Tempo de Processamento

Na Tabela 17 são apresentados tempos de processamento referentes aos dois seletores de

melhor desempenho (baixa freqüência e distância normalizada pela variância). Cada tempo de

processamento apresentado nessa tabela está associado à execução de uma única rodada de

treinamento sobre o banco ORL para a seleção de 49 coeficientes, que considera 360 imagens

de faces (40 pessoas, cada uma em 9 poses), tendo cada imagem 10.304 pixels (112 X 92).

Por simplicidade da identificação de tempo de processamento, foram considerados também

tempos associados a algumas operações de leitura e gravação.

82

Tabela 17 - Tempo de processamento de seletores. Seletor Tempo de processamento (segundos)

Baixas freqüências 5,04

Distância normalizada pela variância 13,04

Na Tabela 18 são apresentados tempos de processamento relacionados aos três

classificadores referenciados nesse trabalho. Cada tempo de processamento apresentado nessa

tabela refere-se à utilização de 49 coeficientes selecionados e a execução de uma rodada de

teste sobre o banco ORL, que consiste em 40 classificações (40 pessoas, cada uma em uma

pose). A opção por se exibir o tempo de processamento para um bloco de 40 classificações, ao

invés do tempo associado a uma única classificação, deve-se ao fato de ser ter uma maior

facilidade para separar no código implementado as operações associadas a rodadas de

classificações (operações aritméticas, lógicas e de leitura/gravação em arquivo). Assim, os

tempos de processamento apresentados na Tabela 18 têm um caráter ilustrativo, não tendo

sido realizados cálculos criteriosos relativos ao tempo de processamento de uma única

classificação.

Tabela 18 - Tempo de processamento de classificadores. Classificador Tempo de processamento para 40 classificações (segundos)

Distância mínima ao protótipo 5

Vizinho mais próximo 51

K-vizinhos mais próximos (k=3) 51

Para tentar manter o ambiente de execução o mais similar possível na identificação dos

tempos de processamento, os processos de seleção e classificação avaliados foram executados

no mesmo computador, um sendo iniciado logo após o término do outro. No momento da

execução dos processos de seleção e classificação analisados, apenas o MATLAB tinha sido

iniciado diretamente pelo usuário.

6.7 Lista de Coeficientes Selecionados

Na Tabela 19 é apresentado o resultado da seleção de coeficientes sobre o banco ORL. A

primeira coluna identifica o coeficiente selecionado e as demais colunas apresentam,

83

considerando um seletor específico, a ordem de seleção do coeficiente. Para os seletores de

baixa freqüência, distância normalizada pela variância e média de amplitude foram

considerados os 49 primeiros coeficientes selecionados e para a seleção do aplicativo WEKA

são apresentados os 18 coeficientes selecionados. No caso da seleção por média de amplitude,

que escolhe um conjunto de coeficientes para cada pessoa do banco, foram apresentados na

tabela apenas os coeficientes selecionados para as pessoas 1 e 2.

Tabela 19 - Resultados da seleção de coeficientes sobre o banco ORL. Seletor

Média de amplitude

Coef.

Baixa

freqüência

Dist. norm.

pela variância Pessoa 1 Pessoa 2

WEKA

(1,1) 1 1 1 1 1

(1,2) 2 35 5 6

(1,3) 5 5 2 2 2

(1,4) 10 32 24 13

(1,5) 17 2 3 4 3

(1,6) 26 34

(1,7) 37 17 14

(1,8) 35

(1,9) 18

(1,11) 28 31

(1,13) 22

(1,15) 38

(2,1) 3 8 9 15 4

(2,2) 4 7 18

(2,3) 7 11 10 5

(2,4) 12 19

(2,5) 19 13 22 10 6

(2,6) 28 41 38 37

(2,7) 39 43 36

(2,8) 47

(2,9) 39

(2,10) 44

(3,1) 6 3 4 3 7

(3,2) 8 43

(3,3) 9 9 6 5 8

(3,4) 14 40 20 24

(3,5) 21 10 9

(3,6) 30

(3,7) 41 20 48 16 10

(3,8) 27 49

84

(3,9) 39

(3,10) 30

(3,11) 30

(3,15) 35

(4,1) 11 19 11 7

(4,2) 13 31

(4,3) 15 4 33 27 11

(4,4) 16 49

(4,5) 23 36 46

(4,6) 32 15

(4,7) 43 36 29

(4,8) 41

(5,1) 18 12 16 8 12

(5,2) 20 45 23

(5,3) 22 7 17 11

(5,4) 24 21

(5,5) 25 26 12 9

(5,6) 34 32

(5,7) 45 37

(5,8) 26

(5,9) 41

(6,1) 27 6 8 12 13

(6,2) 29 46

(6,3) 31 21 31 32

(6,4) 33 39

(6,5) 35 27 49 14

(6,6) 36

(6,7) 47 43

(7,1) 38 14 13 25 15

(7,2) 40

(7,3) 42 18 40 17

(7,4) 44

(7,5) 46 33

(7,6) 48 42

(7,7) 49 26

(7,9) 48 28

(8,1) 15 16

(8,2) 42

(8,3) 25 20

(8,5) 38 21

(8,6) 48

(9,1) 16 44 17

(9,3) 23 34 18

(10,1) 37

85

(10,3) 34

(10,9) 45

(11,1) 30 25 19

(11,3) 42 45 14

(11,5) 47

(12,1) 22

(12,3) 28 40

(13,1) 24

(13,3) 29

(14,1) 46

(15,1) 44

(17,3) 23

(17,11) 29

(18,3) 33

(21,3) 47

Considerando os dados da Tabela 19, verifica-se que há coeficientes selecionados por

todos os seletores, mas que também outros coeficientes não são comuns a todas as seleções.

Para a seleção de 49 coeficientes por quatro seletores e 18 coeficientes por um seletor

(WEKA), sem considerar ordem de seleção, têm-se a seguinte distribuição:

• 12 coeficientes comuns a 5 seletores;




• 33 coeficientes comuns a 1 seletor.

86

Capítulo 7

Discussão e Conclusão

O trabalho desenvolvido atendeu aos objetivos propostos, pois foram exploradas técnicas de

reconhecimento de faces presentes na literatura especializada e foram realizados

implementação, testes e comparações de métodos de reconhecimento de faces.

Taxas de acerto, robustez do método a variações frequentemente encontradas em

imagens de face e custo computacional são itens que devem ser considerados na avaliação de

métodos de reconhecimento de faces.

O método proposto de melhor desempenho apresentou uma taxa de acerto de 99,25%

relacionada a 400 testes, utilizando apenas 36 coeficientes e classificando por vizinho mais

próximo. Tais valores são representativos visto que, sobre o mesmo banco de faces (ORL) e

utilizando a mesma abordagem de seleção e classificação, Hafed e Levine [2001] reportam

taxa de acertos de aproximadamente 92,5% relativos a 200 testes e utilizando 49 coeficientes.

Contudo, o método proposto utiliza para treinamento 9 poses, enquanto Hafed e Levine

[2001] o faz com apenas 5 poses. No método proposto, até mesmo com a aplicação do

classificador de distância mínima ao protótipo, que é uma abordagem de custo computacional

menor, se atinge 93,75% de acertos sobre o banco ORL, considerando treinamento com 9

poses e a utilização de 49 coeficientes.

Além da taxa de acerto, também deve ser analisado o significado da taxa de erro.

Considerando a melhor taxa de acerto atingida (99,25%), sua taxa de erro correspondente é de

0,75%, que apesar de aparentemente baixa ainda precisa ser melhorada. Em 400 testes, uma

87

taxa de erro de 0,75% representa 3 erros de classificação. Entretanto, se o número de testes for

elevado e a taxa de erro for mantida, ter-se-á, por exemplo, em 40.000 testes, 300 erros de

classificação, valor alto e representativo que precisa ser reduzido.

A utilização da transformada DCT para a seleção de atributos corresponde a um aspecto

primordial do método, pois se confirma nos testes que tal transformada é capaz de concentrar

em poucos coeficientes as principais características da imagem, reduzindo assim o custo

computacional. Com o uso de seleção de coeficientes DCT reduz-se o processamento de

10.304 pixels (resolução 112 X 92) para 36 coeficientes DCT. Entretanto, a robustez do uso

da DCT em relação à iluminação, posição e escala somente poderá ser discutida após a

realização de testes sobre bancos de faces que controlem com maior intensidade tais aspectos,

pois o nível de controle de tais aspectos nas faces do banco ORL é insatisfatório para maior

discussão.

Além da taxa de acertos alcançada, outra contribuição importante desse trabalho é a

comparação de resultados de reconhecimento de faces combinando abordagens de

classificação bem conhecidas com diferentes propostas de seleção de atributos, todas

aplicadas após à conversão das imagens pela transformada DCT. Os resultados mostram que,

para reconhecimento de faces, independente da abordagem de seleção, o classificador do

vizinho mais próximo atinge as mais altas taxas de reconhecimento, chegando a 99,25% de

acertos. Entretanto, se comparado ao classificador de distância mínima ao protótipo, seu custo

computacional também é superior.

Na evolução do desempenho dos classificadores verifica-se que, independentemente de

seleção utilizada, a taxa de acertos dos classificadores de vizinho mais próximo e de distância

mínima ao protótipo, de forma generalizada, cresce até se alcançar a taxa máxima de acertos,

quando então tal taxa começa a ser reduzida. Contudo, com vizinho mais próximo se atinge a

taxa de acerto máxima com poucos coeficientes, enquanto que com distância mínima ao

protótipo um maior número de coeficientes são necessários para se alcançar a maior taxa de

88

acerto. Tais comportamentos se justificam porque o aumento do número de atributos a partir

de um determinado ponto começa a inserir características prejudiciais ao processo de

classificação.

O desempenho atingido pelos classificadores aqui implementados são contribuições

significativas ao serem comparados com resultados obtidos por métodos já propostos,

incluindo classificação por redes neurais, HMM e SVM. Bicego [2003] e Kumar et al. [2006]

reportam 100% de acertos sobre o banco ORL, mas os métodos por eles propostos são mais

complexos, têm elevado custo computacional de treinamento e foram testados apenas sobre o

naco ORL.

Em relação aos seletores verifica-se nos testes, de forma geral, um melhor desempenho

dos seletores de baixa freqüência e de distância normalizada pela variância. Entretanto, os

resultados obtidos pelos seletores baseado em média de amplitude e em média de amplitude

excluindo extremos também foram competitivos. O seletor de baixas freqüências, apesar de

não considerar amplitudes de coeficientes DCT nem relações interclasses, como faz outros

seletores, produz resultados de destaque em todos os classificadores analisados.

Já era esperado um bom desempenho do seletor de distância normalizada pela variância,

pois tal abordagem inclui recomendações teóricas de seleção de atributos, considerando tanto

relações intraclasses como relações interclasses. Nos testes realizados, independente do

classificador utilizado, os resultados da seleção por distância normalizada pela variância se

destacam dos demais seletores, quando são considerados conjuntos reduzidos de coeficientes.

No caso específico de classificação por distância mínima ao protótipo e da utilização de 9 e

16 coeficientes, o seletor de distância normalizada pela variância proporciona,

respectivamente, taxa de acerto de 79,50% e 85,25%. Sob as mesmas condições, o seletor de

baixas freqüências atinge 67,00% e 78,50%; o seletor de média de amplitude atinge 76,00% e

82,75%; e o seletor de média de amplitude excluindo extremos atinge 77,75% e 83,50%.

Entretanto, considerando o seletor de baixas freqüências, seu desempenho melhora

89

rapidamente com o aumento do número de coeficientes selecionados, e ele já começa a se

sobressair em relações aos demais seletores a partir do uso de 36 coeficientes, atingindo

93,75% de acerto, contexto em que os seletores de distância normalizada pela variância,

média de amplitude e média de amplitude excluindo extremos atingem, respectivamente,

91,75%, 87,25% e 88,75% de taxa de acerto.

Avaliando-se os coeficientes selecionados, verifica-se importância expressiva

relacionada à seleção do coeficiente (1,1), ou coeficiente DC. Ele está relacionado

diretamente com o brilho médio da imagem, que depende fortemente da intensidade da

iluminação empregada na captura da fotografia e, portanto, supostamente, deveria ser

desconsiderado pelos seletores. Entretanto, o brilho médio é influenciado também por

características relevantes para a classificação de faces, tais como cor da pele e cor do cabelo.

Contudo, salienta-se que tal dedução não foi fundamentada de forma exata.

O melhor resultado obtido nos testes corresponde ao uso em conjunto do seletor de

baixas freqüências com o classificador de vizinho mais próximo, atingindo 99,25% de acertos

com 36 coeficientes. Entretanto, o melhor resultado do classificador de distância mínima ao

protótipo, apesar de apresentar-se numericamente inferior, 96,25% de acertos com 289

coeficientes, é um resultado relevante, pois tal classificador tem um custo computacional

menor, visto que calcula a distância entre as faces considerando apenas a média dos

coeficientes, em contraposição ao cálculo considerando todos os valores individuais dos

coeficientes. No classificador de vizinho mais próximo combinado com o seletor de baixas

freqüências são considerados 129.600 valores, relacionados a 36 coeficientes de 40 pessoas

cada uma em 9 poses (36 * 40 * 9 = 129.600), e se tem como resultado 3 erros em 400 testes

(99,25% de acertos). No classificador de distância mínima ao protótipo são considerados

11.560 valores, relacionados a 289 coeficientes de 40 pessoas, e se tem como resultado 14

erros em 400 testes (96,25% de acertos). Comparando esses dois resultados tem-se que, para

se ter uma taxa de acerto 3% maior (de 96,25% para 99,25%), o vizinho mais próximo

90

aumenta o número de valores a serem considerados aproximadamente 11 vezes, e esse

aumento influência diretamente no espaço de armazenamento requerido e no custo

computacional para recuperação da informação e classificação.

Os resultados do reconhecimento acumulativo também são favoráveis, pois ao retornar a

face de teste no máximo entre as 8 faces mais parecidas o método mostra-se apropriado para

aplicações que buscam identificar faces parecidas em bancos de faces de grande porte, como

por exemplo aplicações voltadas para triagem de suspeitos.

Utilizar a seleção e classificação do WEKA adicionou à pesquisa maior possibilidade de

analisar os métodos propostos, pois o WEKA é um aplicativo bem conceituado, que utiliza

métodos modernos e complexos de seleção e classificação, como por exemplo, a classificação

SVM. Nos testes realizados o WEKA selecionou 18 coeficientes e alcançou 91,50% de

acertos. Nesse contexto, os métodos propostos se mostram apropriados para reconhecimento

de faces, pois se sobressai em relação aos resultados do WEKA nos seguintes aspectos:

simplicidade de processamento, maior taxa de acertos geral (99,25%) e maior taxa de acertos

utilizando o número de coeficientes indicados pelo WEKA (18 coeficientes). O método

proposto utilizando apenas 16 coeficientes e classificando por vizinho mais próximo alcança

taxa de acerto variando de 93,25% a 98,25%, dependendo da abordagem de seleção

empregada.

Apesar de alguns métodos propostos para reconhecimento de faces baseados em DCT

aplicarem seleção por baixas freqüências, o destaque dos resultados dessa abordagem de

seleção não era esperado nesse trabalho, pois a seleção de atributos por baixas freqüências não

valoriza amplitude de coeficientes DCT nem recomendações bem conhecidas de seleção de

atributos, como semelhanças intraclasse e diferenças interclasses. A seleção por baixas

freqüências reduz simplesmente a dimensionalidade da imagem considerando apenas as

baixas freqüências, que podem ser associadas aos atributos mais gerais da imagem original no

domínio do espaço, ou seja, em imagens de face, seleção por baixas freqüências atua como

91

um processo que reduz o foco da imagem original, preservando contornos maiores e

eliminando detalhes (altas freqüências).

Considerando os resultados dos testes realizados nesse trabalho, pode-se associar que,

para reconhecimento de faces, a aplicação de DCT seguida pela seleção por baixas

freqüências é um método de reconhecimento apropriado para o banco ORL, apesar de não

incluir recomendações conhecidas de seleção de atributos. Entretanto, para a seleção de um

número reduzido de coeficientes, são mais apropriadas abordagens de seleção bem

elaboradas, como a seleção de distância normalizada pela variância.

Quanto ao classificador, o vizinho mais próximo é a abordagem que produz taxas de

acerto mais altas. Entretanto, a taxa de acerto do classificador de distância mínima ao

protótipo pode atender aos requisitos de custo computacional reduzido de aplicações

específicas. Nos testes realizados, a taxa de acerto do classificador de distância mínima ao

protótipo foi de 93,75% com 49 coeficientes, valor muito próximo aos resultados de

Hafed e Levine [2001] utilizando, entretanto, classificação por vizinho mais próximo.

Como continuidade desse trabalho, podem-se desenvolver os seguintes pontos: testes

sobre outros bancos de faces referenciados na literatura, testes considerando conjuntos de

treinamento menores, refinamento dos classificadores considerando grau de certeza da

classificação e aprimoramento do classificador de distância mínima ao protótipo, visto o seu

menor custo computacional.

92

Referências

1. ABATE, ANDREA F.; NAPPI, MICHELE; RICCIO, DANIEL AND SABATINO. 2D and 3D Face Recognition: A Survey. Pattern Recognition Letter 28, 1885-1906, 2007.

2. AT&T LABORATORIES, CAMBRIDGE, UK. “The ORL Database of Faces” (now AT&T “The Database of Faces”), Available [Online]: http://www.cl.cam.ac.uk/Research/DTG/attarchive/ pub/data/att_faces,zip [15/Setembro/2007], 1994.

3. BARTLETT, M. S.; MOVELLAN, J. R. AND SEJNOWSKI, T. J. Face Recognition by Independent Component Analysis. IEEE Transactions on Neural Networks, vol. 13, no 6, November 2002.

4. BASU, MITRA; BUNKE, HORST AND BIMBO, ALBERT DEL. Guest Editors’ Introduction to the Special Section on Syntactic and Structural Pattern Recognition. IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 27, no 7, July 2005.

5. BATISTA, L. V. Compressão de Sinais Eletrocardiográficos Baseada na Transformada Cosseno Discreta. Dissertação de Doutorado. Pós-Graduação em Engenharia Elétrica, UFPB, Campina Grande, Brasil, 2002.

6. BELHUMEUR, P. N.; HESOANHA, J. P. AND KRIEGMAN, D. J. Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection. IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 19, no 7, July 1997.

7. BICEGO, M., CASTELLANI, U. AND MURINO V. Using HMM and Wavelets for Face Recognition. Proceedings of the 12th International Conference on Image Analysis and Processing, IEEE 2003.

8. BUNKE, H. AND SANFELIU, A. Statistical and Syntactical Models and Patterns Recognition Technical. Computer Vision, Theory and Industrial Applications. Springer Verlag, 1992, 215–266. 1992.

9. CAMPOS, TEÓFILO EMÍDIO. Técnicas de Seleção de Características com Aplicação em Reconhecimento de Faces. Dissertação de Mestrado. USP, São Paulo, Brasil, 2001.

10. CASTLEMAN, KENNETH R. Digital Image Processing. Prentice Hall, 1996.

11. CHAI, DOUGLAS AND WONG, KOK WAI. Facial Image Processing: An Overview. Proceeding of the IEEE Conference on Cybernetics and Intelligent Systems. Singapore, 2004.

12. CHELLAPPA, RAMA; WILSON, CHARLE L. AND SIROHEY, SAAD. Human and Machine Recognition of Faces: A Survey. Proceedings of IEEE Technology of N. Control Systems, vol. 83, no 5 (703-740). May 1995.

13. CHEN, PING. A New LDA-Based Method for Face Recognition. Proceedings of the 16th International Conference on Pattern Recognition (ICPR'02), vol. 1, 2002.

14. CHOI, JEAN; CHUNG, Y.; KIM, K. AND JOO, J. Face Recognition Using Energy Probability in DCT Domain. IEEE, 2006.

15. CORMEN, THOMAS H.; LEISERSON, CHARLES E.; RIVEST, RONALD L. AND STEIN, CLIFFORD. Algoritmos - Teoria e Prática. Tradução de 2a Edição Americana. Editora Campus, 2002.

16. DUDA, R. O.; HART, P. E. AND STORK, D. G. Pattern Classification. Second Edition. Wiley-Interscience, 2000.

17. EKENEL, H. K.; GOA, S. H.; FISCHERM M. AND STIEFELHAGEN, R. Face Recognition for Smart Interactions. IEEE ICME, 2007.

93

18. FAÚNDEZ-ZANUY, MARCOS AND MONTE-MORENO, ENRIC. Face Recognition Using a Radial Basis Function Classifier. Decision and Control, 1999. Proceedings of the 38th IEEE Conference on IEEE, 2006.

19. FAÚNDEZ-ZANUY, MARCOS. Face Recognition in a Transformed Domain. Proceedings of IEEE 37th Annual International Carnahan Conference on Security Technology, 2003.

20. FISHER, R. A. The Statistical Utilization of Multiple Measurement. Annals of Eugenics, 8:376-386, 1938.

21. FU, KING-SUN. Syntatic Pattern Recognitoon and Applicaton. Prentice-Hall, 1982.

22. GONZALEZ, RAFAEL C; WOODS, RICHARD E. AND EDDINS, STEVEN L. Digital Image Processing Using Matlab. Pearson Education. Inc, 2004.

23. HAFED, ZIAD M. AND LEVINE, MARIN D. Face Recognition Using Discrete Cosine Transform. International Journal of Computer Vision, vol. 43(3), p. 167-188, 2001.

24. HAYKIN, SIMON. Redes Neurais – Princípios e Práticas. Tradução de 2a Edição. Bookman, 2001.

25. HE, JIA-ZHONG; ZHU, QING-HUAN AND DU, MING-HUI. Face Recognition Using PCA on Enhanced Image for Single Training Images. Proceedings of the Fifth International Conference on Machine Learning and Cybernetics. Dalian, 13-16, August 2006.

26. IVANCEVIC, V.; KAINE, A. K.; MCLINDIN, B. A. AND SUNDE, J. Factor Analysis of Essencial Facial Features. 25th Int. Conf. Information Technology Interface (ITI 2003), Croatia, 16-19 June 2003.

27. JAIN, ANIL K.; DUIN, ROBERT P. W. AND JIANCHANG, MAU. Statistical Pattern Recognition – A Review. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 22, no 1. January 2000.

28. JAIN, ANIL K.; HONG, L. AND PANKANTI, S. Biometric Identification. Communications of the ACM 43, 2, p. 90-98, 2000.

29. JESAN, JOHN PETER. The neural approach to pattern recognition. Ubiquity: An ACM IT Magazine and Forum, 2004, URL http://www,acm,org/ubiquity/views/v5i7_jesan,html, acessado em dezembro de 2007.

30. JING, XIAO-YUAN AND ZRANG, DAVID. A Face and Palmprint Recognition Approach Based on Discriminant DCT Feature Extraction. IEEE Transaction on System, Man and Cybernetics - Part B: Cybernetics , vol. 34, December 2004.

31. JONES, M. J. AND VIOLA, P. Face Recognition Using Boosted Local Features. IEEE International Conference on Computer Vision, 2003.

32. KOHIR, VINAYADATT V. AND DESAI, U. B. Face Recognition. IEEE International Symposium on Circuits and Systems. Switzerland, 2000.

33. KULKARNI, SANJEEV R.; LUGOSI, GABOR AND VENCATESH S. S. Learning Pattern Recognition: A Survey. IEEE Transaction on Information Teory, vol. 44, no 6, 1998.

34. KUMAR, S. A. S.; DEEPTI, D. R. AND PRABHAKAR, B. Face Recognition Using Pseudo-2D Ergodic HMM. IEEE ICASSP, 2006.

35. LI, S. AND JAIN, A. Face Databases. Handbook of Face Recognition. Springer-Verlag, 2005.

36. LU, CHONG; LIU, WANQUAN AND AN, SENJIAN. Face Recognition with Only One Training Sample. Proceeding of the 25th Chinese Control Conference, 7-11 August 2006. Harbin, Heilongjiang.

37. MARIN, LUCIENE DE OLIVEIRA E BARRETO, JORGE MUNIZ. Reconhecimento de Faces. UFSC/INE/L3C-03/2003.

94

38. MARTINEZ, A. M. AND KAK, A. C. PCA versus LDA. IEEE Transaction on Pattern Analysis and Machine Intelligence, vol. 23, no 2, February 2001.

39. MATOS, FABRÍZIA M. S.; BATISTA, LEONARDO V. AND POEL, JANKEES, V. D. Face Recognition Using DCT Coefficients Selection. Proceedings of the 23rd Annual ACM Symposium on Applied Computing 2008, March 16-20 Fortaleza, Brazil.

40. MELLO, CARLOS E. R.; SILVA, GERALDO Z. E SOUZA, JANO M. Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade. IX Brazilian Symposium on GeoInformatics, p. 277-282, Campos do Jordão, Brazil, Novembro 25-28, 2007.

41. NAZEER, S. A.; OMAR, N. AND KHALID, M. Face Recognition System Using Artificial Neural Network Approach. IEEE ICSCN, 2007.

42. NEFIAN, ARA V. Statistical Approches to Face Recognition. Degree of Doctor in Philosophy and Electrical Engineering. Georgia Institute of Tecnology, 1996.

43. PODILCHUK, CHRISTINE AND ZHANG XIAOYU. Face Recognition Using DCT-Based Feature Vectors. (ICASSP-96) IEEE International Conference on Acoustics, Speech, and Signal Processing, 1996.

44. RAO, K. R. Discrete Cosine Transform – Algorithms, Advantages, Applications. Academic Press, Inc. 1990.

45. RUIZ-DEL-SOLAR, J. AND NAVARRETE, P. Engenspace-Based Face Recogniton: A Canada Ative Study of Different Appoaches. IEEE Transaction on Systems, MAN and Cybernetics – Part C: Applications and Reviews, vol. 35, no 3, August 2005.

46. SAMRA, AHMED SHABANN; ALLAH, SALAH, E. T. G. AND IBRAHIM, REHAB MAHMOUND. Face Recognition Using Wavelet Transform, Fast Fourier Transform and Discrete Cosine Transform. (MWSCAS '03) Proceedings of the 46th IEEE International Midwest Symposium on Circuits and Systems. 2003.

47. SANDERSON, C. AND PALIWAL K. K. Fast Feature Extraction Method for Robust Face Verification. Eletronics Letters 5th . December 2002, vol. 387, no 25.

48. SHASTRI, BHAVIN J. AND LEVINE, MARTIN D. Face Recognition Using Localizeded Features based on Non-Negative Sparse Coding. Technique Report, Departament of Electrical and Computer Engineering & Center for Intelligent Machines, McGill University, Montreal, Canada, 2004.

49. SILVA, MARCELINO P. DOS S. Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka. SBC-Minicurso, Brasil, 2007.

50. THOEDORIDIS, SERGIOS AND KOUTROUMBAS, KONSTANTINOS. Pattern Recognition. Second Edition, Academic Press, 2003.

51. TURK, MATTHEW A. AND PENTLAND, ALEX P. Face Recognition using Eigenfaces. (CVPR '91) IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 1991.

52. UNIVERSITY OF WAIKATO. Weka 3 – Machine Learning Software in Java (2004). Disponível no site da University of Waikato, URL http://www.cs.waikato.ac.nz/ml/weka, acessado em dezembro/2007.

53. POEL, JANKEES V. D. Compressão de Sinais de Eletrocardiograma. Dissertação de Mestrado. Mestrado em Engenharia Biomédica, NETEB-PB, João Pessoa, Brasil, 1999.

54. WEBB, ANDREW R. Statistical Pattern Recognition. Second Edition, John Wiley and Sons Ltd, 2002.

55. XIANG, C.; FAN, X. A. AND LEE, T. H. Face Recognition Using Recursive Fisher Linear Discriminant. IEEE Transaction on Image Processing. 2004.

56. YANG, M. H.; KRIEGMAN, D. AND AHUJA, N. Detectiog Faces in Images: A Survey. IEEE Transactions

95

on Pattern Analysis and Machine Intelligence, vol. 24, no 1, 2002.

57. YU, MING; YAN, GANG AND ZHU, QING-WEN. New Face Recognition method based on DWT/DCT Combined Feature Selection. Proceeding of Fifth International Conference on Machine Learning and Cybernetics, Dalian, 13-16 August 2006.

58. ZHANG, GUOQIANG PETER. Neural Networks for Classification: A Survey. IEEE Transactions on Systems, Man and Cybernetics, 2000.

59. ZHANG, J.; WANG, Y. AND LI, G. Application of Bionic Neural Network on Face Recognition Based on SVD and DCT. Proceeding of the 6th World Congress on Intelligent Control and Automation, China, June 2006.

60. ZHAO, W.; CHELLAPPA, R.; PHILLIPS, P. J. AND ROSENFELD, A. Face Recognition: A Literature Survey. ACM Computing Surveys, vol. 35, no 4, p. 399-458, 2003.

61. ZHAO, WEN YI AND CHELLAPPA, RAMA. Image-based Face Recognition: Issues and Methods

Technical Report, Center for Automation Research University of Maryland, 2000.

62. ZOU, JIE; JI, QIANG AND NAGY, GEORGE. A Comparative Study of Local Matching Approach for Face Recognition. IEEE Transaction on Image Processing, vol. 16, no 10, October 2007.

96

Apêndice A – Resultados do Classificador de Distância Mínima ao

Protótipo

Na Tabela 20 são apresentados os resultados do classificador de distância mínima ao protótipo

por rodada de treinamento, considerando apenas os dois seletores de melhor desempenho

(baixas freqüência e distância normalizada pela variância). Os números de coeficientes

apresentados na tabela obtiveram resultados de destaque.

Tabela 20 - Resultados do classificador de distância mínima ao protótipo. Seletor: Baixas freqüências Seletor: Dist. norm. pela variância

N. Coef. Rodada Acertos Erros N. Coef. Rodada Acertos Erros 289 1 36 4 289 1 37 3

289 2 40 0 289 2 40 0

289 3 40 0 289 3 39 1

289 4 39 1 289 4 39 1

289 5 40 0 289 5 39 1

289 6 39 1 289 6 39 1

289 7 37 3 289 7 38 2

289 8 40 0 289 8 39 1

289 9 37 3 289 9 35 5

289 10 37 3 289 10 37 3

Total: 385 15 Total: 382 18 324 1 36 4 324 1 37 3

324 2 40 0 324 2 40 0

324 3 40 0 324 3 39 1

324 4 39 1 324 4 39 1

324 5 40 0 324 5 39 1

324 6 39 1 324 6 39 1

324 7 37 3 324 7 38 2

324 8 39 1 324 8 39 1

324 9 37 3 324 9 35 5

324 10 37 3 324 10 37 3

Total: 384 16 Total: 382 18 361 1 36 4 361 1 37 3

361 2 40 0 361 2 40 0

361 3 40 0 361 3 40 0

361 4 39 1 361 4 39 1

361 5 40 0 361 5 39 1

361 6 39 1 361 6 39 1

361 7 37 3 361 7 38 2

361 8 39 1 361 8 39 1

361 9 36 4 361 9 35 5

361 10 37 3 361 10 37 3

Total: 383 17 Total: 383 17

97

Apêndice B – Resultados do Classificador de Vizinho Mais

Próximo

Na Tabela 21 são apresentados os resultados do classificador de vizinho mais próximo por

rodada de treinamento, considerando apenas os dois seletores de melhor desempenho (baixas

freqüência e média de amplitude). Os números de coeficientes apresentados na tabela

obtiveram resultados de destaque.

Tabela 21 - Resultados do classificador de vizinho mais próximo. Seletor: Baixas freqüências Seletor: Média de Amplitude N. Coef. Rodada Acertos Erros N. Coef. Rodada Acertos Erros

25 1 38 2 25 1 40 0

25 2 40 0 25 2 40 0

25 3 40 0 25 3 39 1

25 4 40 0 25 4 38 2

25 5 40 0 25 5 40 0

25 6 40 0 25 6 39 1

25 7 39 1 25 7 40 0

25 8 40 0 25 8 40 0

25 9 39 1 25 9 39 1

25 10 39 1 25 10 37 3

Total: 395 5 Total: 392 8 36 1 40 0 36 1 40 0

36 2 40 0 36 2 40 0

36 3 40 0 36 3 39 1

36 4 40 0 36 4 39 1

36 5 40 0 36 5 40 0

36 6 40 0 36 6 40 0

36 7 40 0 36 7 40 0

36 8 40 0 36 8 40 0

36 9 38 2 36 9 39 1

36 10 39 1 36 10 38 2

Total: 397 3 Total: 395 5 49 1 39 1 49 1 38 2

49 2 40 0 49 2 40 0

49 3 40 0 49 3 40 0

49 4 40 0 49 4 39 1

49 5 40 0 49 5 40 0

49 6 40 0 49 6 40 0

49 7 39 1 49 7 40 0

49 8 40 0 49 8 40 0

49 9 39 1 49 9 39 1

49 10 38 2 49 10 38 2

Total: 395 5 Total: 394 6

98

Apêndice C – Erros do Classificador de Vizinho Mais Próximo

Nas Tabelas 22 e 23 são apresentados os erros ocorridos no classificador de vizinho mais

próximo relacionados, respectivamente, aos seletores de baixa freqüência e de média de

amplitude. Os erros apresentados referem-se à utilização de 36 e 49 coeficientes, pois as taxas

de acertos de tais conjuntos de coeficientes são altas. As tabelas mostram o número de

coeficientes, a rodada de treinamento na qual se deu o erro, a pessoa que foi classificada de

forma incorreta e a lista de pessoas com distâncias mais próximas em relação à pessoa de

teste.

Tabela 22 - Erros do classificador de vizinho mais próximo com seleção por baixas freqüências. N. Coef. Rodada Pessoa do erro Lista de pessoas mais parecidas

1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 36 9 10 38 10

36 9 19 11 2 7 27 36 19

36 10 1 16 1

49 1 35 15 40 21 35

49 7 32 17 2 32

49 9 19 11 2 36 27 15 7 19

49 10 1 16 1

49 10 10 9 36 4 38 10

Tabela 23 - Erros do classificador de vizinho mais próximo com seleção por média de amplitude. N. Coef. Rodada Pessoa do erro Lista de pessoas mais parecidas

1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 11ª 12ª 36 3 35 15 35

36 4 38 20 38

36 9 19 11 36 27 15 19

36 10 5 18 5

36 10 10 38 4 3 36 9 20 17 26 23 10

49 1 1 16 1

49 1 35 40 15 35

49 4 38 20 38

49 9 19 11 36 2 15 27 16 28 19

49 10 5 18 5

49 10 10 38 36 4 20 9 3 26 8 10

99

Apêndice D – Resultados do Classificador de K-Vizinhos Mais

Próximos

Na Tabela 24 são apresentados os resultados do classificador de k-vizinhos mais próximos por

rodada de treinamento, para k=3 e k=5, considerando apenas os dois seletores de melhor

desempenho (baixas freqüências e distância normalizada pela variância). Com o objetivo de

possibilitar comparações, os conjuntos de coeficientes apresentados são os mesmos da Tabela

21.

Tabela 24 - Resultados do classificador de k-vizinhos mais próximos, para k=3 e k=5. Seletor : Baixas frequências Seletor : Média de amplitude k=3 k =5 k =3 k =5

Coef. Rodada Acertos Erros Acertos Erros Acertos Erros Acertos Erros 25 1 39 1 37 3 39 1 37 3 25 2 39 1 39 1 40 0 39 1 25 3 40 0 40 0 38 2 38 2 25 4 39 1 37 3 37 3 36 4 25 5 39 1 37 3 39 1 38 2 25 6 38 2 37 3 38 2 39 1 25 7 39 1 38 2 38 2 38 2 25 8 39 1 40 0 39 1 40 0 25 9 39 1 39 1 38 2 38 2 25 10 38 2 38 2 36 4 35 5 Total: 389 11 382 18 382 18 378 22

36 1 39 1 37 3 39 1 36 4 36 2 39 1 38 2 38 2 38 2 36 3 40 0 39 1 38 2 38 2 36 4 39 1 37 3 36 4 36 4 36 5 39 1 38 2 39 1 39 1 36 6 38 2 37 3 39 1 38 2 36 7 40 0 40 0 37 3 36 4 36 8 40 0 40 0 40 0 39 1 36 9 37 3 38 2 36 4 37 3 36 10 39 1 39 1 35 5 34 6 Total: 390 10 383 17 377 23 371 29

49 1 37 3 39 1 38 2 37 3 49 2 40 0 39 1 39 1 39 1 49 3 39 1 39 1 39 1 37 3 49 4 39 1 39 1 36 4 36 4 49 5 39 1 38 2 40 0 40 0 49 6 39 1 37 3 37 3 39 1 49 7 39 1 39 1 37 3 37 3 49 8 40 0 40 0 38 2 40 0 49 9 39 1 39 1 37 3 38 2 49 10 38 2 38 2 36 4 35 5 Total: 389 11 387 13 377 23 378 22

100

Apêndice E – Matriz de Confusão

Nas Tabelas 25 e 26 são apresentadas matrizes de confusão de 40 pessoas (40 x 40). A

diagonal principal representa o número de acertos e as demais células representam erros. Cada

linha de uma matriz totaliza 10 testes com faces de uma mesma pessoa (suas 10 poses). Na

Tabela 25 têm-se o seguinte contexto: classificação por distância mínima ao protótipo, seleção

por baixas freqüências (289 coeficientes) e taxa de acerto de 96,25% considerando 400 testes

(385 acertos e 15 erros). Na Tabela 26 têm-se o seguinte contexto: classificação por vizinho

mais próximo, seleção por baixas freqüências (36 coeficientes) e taxa de acerto de 99,25%

considerando 400 testes (397 acertos e 3 erros).

101

Tabela 25 – Matriz de confusão: distância mínima ao protótipo, baixas freqüências, 289 coeficientes, 15 erros. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 9 1 2 10 3 10 4 10 5 9 1 6 10 7 10 8 10 9 10 10 1 9 11 10 12 10 13 10 14 10 15 10 16 9 1 17 10 18 10 19 9 1 20 10 21 10 22 10 23 9 1 24 10 25 10 26 9 1 27 10 28 10 29 9 1 30 10 31 1 1 1 7 32 1 9 33 10 34 10 35 1 9 36 10 37 10 38 10 39 10 40 2 8

102

Tabela 26 – Matriz de confusão: vizinho mais próximo, baixas freqüências, 36 coeficientes, 3 erros. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 9 1 2 10 3 10 4 10 5 10 6 10 7 10 8 10 9 10 10 1 9 11 10 12 10 13 10 14 10 15 10 16 10 17 10 18 10 19 1 9 20 10 21 10 22 10 23 10 24 10 25 10 26 10 27 10 28 10 29 10 30 10 31 10 32 10 33 10 34 10 35 10 36 10 37 10 38 10 39 10 40 10

103

Apêndice F – Artigo Publicado

Documents

FABRIZIA MEDEIROS DE SOUSA MATOS - ppgi.di.ufpb.br · Os métodos holísticos têm se destacado na literatura devido a taxas de acerto elevadas e ... Objetivos ... 6.3 Exemplos de