View
4
Download
0
Category
Preview:
Citation preview
Universidade Federal da Bahia
Programa de Pós-graduação em Mecatrônica
Auto-calibração de câmeras de vídeo-vigilância por
meio de informações da cena
Tiago Trocoli Leite de Souza
2015
Auto-calibração de câmeras de vídeo-vigilância por
meio de informações da cena
Tiago Trocoli Leite de Souza
Dissertação submetidacomo requisito parcial para obtençãodo grau de Mestre em Mecatrônica.
Programa de Pós-Graduação em MecatrônicaUniversidade Federal da Bahia
Sob a supervisão doProf. Dr. Luciano Rebouças de Oliveira (Orientador)
i
TERMO DE APROVAÇÃO
TIAGO TROCOLI LEITE DE SOUZA
AUTO-CALIBRAÇÃO DE CÂMERAS DEVÍDEO-VIGILÂNCIA POR MEIO DE INFORMAÇÕES
DA CENA
Dissertação aprovada como requisito parcial para a obtenção do graude Mestre em Mecatrônica, Universidade Federal da Bahia, pelaseguinte banca examinadora:
Orientador: Prof. Dr. Luciano Rebouças de OliveiraUFBA
Membro Interno: Prof. Dr. Vinicius MelloUFBA
Membro externo: Prof. Dr. Esdras MedeirosUFC
Salvador, 17 de dezembro de 2015
ii
“Ser o mais rico do cemitério não é o que mais importa para mim. Ir para acama à noite e pensar que foi feito alguma coisa grandiosa, isso é o que mais importapara mim.”
“Melhor ser pirata, à marinheiro...”
Steve Jobs
Resumo
A presença de câmeras de vigilância se tornou comum em ambientes públicos e
privados. Utilizadas para monitorar cenas, esses equipamentos permitem a automatiza-
ção da tarefa de vigilância, quando integrados a sistemas inteligentes capazes de aplicar
técnicas de reconhecimento de padrões. A calibração de câmera é um recurso que possi-
bilita explorar a geometria 3D da cena observada, possibilitando ao sistema inteligente
determinar a posição e tamanho de objetos presentes na cena. Usualmente, ambientes
monitorados possuem redes de câmeras de vigilância, as quais são compostas, em sua mai-
oria, por câmeras heterogêneas e estáticas. A forma comum de calibrar câmeras requer
intensa intervenção humana, e demanda grande quantidade de tempo quando aplicada a
uma rede de câmeras. Neste trabalho é proposto um framework de calibração de câmera
automática, não requerendo intervenção humana durante o processo de calibração. O
framework proposto utilizará dicas da cena e um conhecimento prévio da distribuição da
altura das pessoas para determinar os parâmetros necessários para a calibração da câ-
mera, estimando sua posição, orientação e informações internas da câmera. A avaliação
deste framework indica um resultado promissor. As análises mostram que, ao estimar
os comprimentos na cena, o framework atinge um erro absoluto médio menor que 5 cm
ao definir as alturas das pessoas, e um erro médio menor que 30 cm ao definir distân-
cias sobre o plano do chão. Quando comparado a trabalhos relacionados encontrados na
literatura, o nosso framework apresenta uma eficiência maior ao utilizar até 80% menos
dados na convergência dos parâmetros, e uma precisão 40% maior, na estimativa dos
parâmetros da câmera.
Abstract
Surveillance cameras are commonly used in public and private security systems.
This kind of equipment allows automation of surveillance tasks, when integrated with in-
telligent pattern recognition systems. Camera calibration allows intelligent systems to use
the 3D geometry of a scene as a tool to determine the position and size of a target object.
Typical systems may contain a large number of cameras, which are installed in different
locations, and they are composed of static and heterogeneous cameras. Manual camera
calibration requires intense human effort in order to calibrate all camera in a network. In
this work is proposed a framework for auto-calibration of surveillance cameras, without
any human intervention in the calibration process. Our framework uses scene clues and
prior knowledge of the human height distribution to estimate needed parameters for ca-
mera calibration, which includes the camera position, orientation and internal properties.
Evaluation of the framework indicates promising results. Based on our analysis, the pro-
posed framework reaches an absolute error less than 5 cm in human height estimation,
and an average error less than 30 cm in length determination above the scene ground
plane. Compared with other similar methods, our framework demonstrates better effici-
ency by using 80% less samples in the parameter convergence process, and it reaches 40%
more precision in the camera parameter estimation.
Sumário
1 Introdução 1
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Descrição dos Capítulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Estado da Arte 6
2.1 O Uso da Calibração Automática em Câmeras de Vigilância . . . . . . . . 7
2.2 Modelo de Câmera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Calibração de Câmera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.1 Calibração Manual de Câmera (ZHANG, 2000) . . . . . . . . . . . 12
2.4 Calibração de Câmera de Vigilância . . . . . . . . . . . . . . . . . . . . . 12
2.4.1 Calibração a Partir de Vídeo de Pedestres (LV et al., 2002) . . . . 13
2.4.2 Auto-calibração Bayesiana (KRAHNSTOEVER; MENDONCA, 2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.3 Abordagem de (LV et al., 2006) . . . . . . . . . . . . . . . . . . . . 18
2.4.4 O que Pedestres Podem Informar Sobre a Geometria 3D da Cena(ROTHER et al., 2007) . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.5 Auto-Calibração Por Meio de Detecção de Pessoas (MICUSIK;PAJDLA, 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.6 Ferramenta Robusta de Calibração de Câmeras de Vigilância emAmbientes Urbanos (LEE; NEVATIA, 2011) . . . . . . . . . . . . . 23
2.4.7 Auto-Calibração de Câmera de Vigilância Baseado na Distribuiçãoda Altura de Pedestres (LIU et al., 2011) . . . . . . . . . . . . . . 24
2.5 Subtração de Background . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.1 Adaptive Background Learning . . . . . . . . . . . . . . . . . . . . 27
vi
Sumário
2.5.2 Mesclagem de Gaussianas (KAEWTRAKULPONG; BOWDEN,2002) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.3 Subtração de Background em Multicamadas Baseado em Texturae Cor (YAO; ODOBEZ, 2007) . . . . . . . . . . . . . . . . . . . . . 29
2.5.4 Subtracção de Background Auto-Organizado (MADDALENA; PE-TROSINO, 2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Detecção de Pontos de Fuga . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.1 Detecção de Ponto de Fuga em Imagens Monoculares com Estru-turas do Tipo Manhattan World (WILDENAUER; HANBURY,2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.2 Detecção de Ponto de Fuga para Cenários Antrópicos (XU et al.,2013) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.3 Detecção de Pontos de Fuga no Domínio do PClines (LEZAMA etal., 2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.7 Detecção de Segmento de Reta . . . . . . . . . . . . . . . . . . . . . . . . 36
2.7.1 Detecção Rápida de Segmentos de Reta (GIOI et al., 2010) . . . . 38
2.8 Relação Com o Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3 Visão Geral do Sistema Proposto 42
3.1 Requerimento e Premissas . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2 Arquitetura do Sistema Proposto . . . . . . . . . . . . . . . . . . . . . . . 43
3.3 Métricas de Avaliação e Data sets . . . . . . . . . . . . . . . . . . . . . . . 46
4 Calibração Automática de Câmeras de Vigilância 50
4.1 Modelagem Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2 Dados de Baixo Nível . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2.1 Adaptive Background Learning com Operador Morfológico . . . . . 53
4.3 Dados Intermediários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.1 Eixo Principal do Blob . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.2 Segmentos de Reta da Imagem de Background . . . . . . . . . . . 59
4.3.3 Armazenamento dos Segmentos de Reta . . . . . . . . . . . . . . . 59
4.4 Dados de Alto Nível . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4.1 Detecção dos Pontos de Fuga da Imagem . . . . . . . . . . . . . . 61
4.4.2 Filtro de Convergência e Cálculo da Altura Relativa . . . . . . . . 63
Sumário
4.5 Estimativa da Altura da Câmera . . . . . . . . . . . . . . . . . . . . . . . 65
4.6 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5 Experimentos e Resultados 69
5.1 Avaliação do Método ABL com Operadores Morfológicos . . . . . . . . . . 70
5.2 Avaliação da Calibração Automática de Câmeras de Vigilância . . . . . . 72
5.2.1 Avaliação Por Meio da Métrica da Medida do Chão . . . . . . . . 73
5.2.2 Avaliação Por Meio da Métrica da Altura Real . . . . . . . . . . . 74
5.2.3 Avaliação Por Meio da Métrica da FHH RMSE . . . . . . . . . . . 75
5.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6 Conclusão 79
Lista de Figuras
1.1 Ilustração de um sistema inteligente de vigilância, que utiliza informaçõesda altura e posição na cena. Na figura (a) é apresentada a imagem moni-torada, com informações de altura e identificação de cada pessoa presentena cena. Na figura (b) é representado o mapa da cena, com a posiçãoatual de cada pessoa e o rastro da sua trajetória . . . . . . . . . . . . . . 2
2.1 Representação geométrica da projeção do objeto 3D no plano da imagem.P é um ponto no espaço 3D e p é sua projeção no plano 2D. C é o centroda câmera, definido no espaço 3D, e a distância entre o plano da imageme C determina a distância focal f . O ponto principal do plano da imagemé representado por c(u, v). . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Distorção radial na imagem. A figura a esquerda representa uma imagemsem distorção radial, composta por quadrados com mesma área. A figuracentral representa uma distorção radial do tipo pincushion, que comprimeos dados próximos do centro da imagem. A figura a direita representa umadistorção radial do tipo barrel, que dilata os dados próximos do centro daimagem. Figura adaptada de Kang et al. (2013) . . . . . . . . . . . . . . 10
2.3 Posição e orientação da câmera no espaço 3D. O ponto O representaa origem do espaço, o qual é utilizado como referência para estimar osparâmetros extrínsecos, definindo os valores de rotação e translação, R e t. 11
2.4 Padrões de símbolos utilizados para calibração de câmera. A esquerdaé utilizado como objeto de referência um tabuleiro de xadrez e a direitaum padrão de círculos sobre uma superfície plana. Figura adaptada deOpenCV (2015a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.5 Pontos de fuga da imagem para calibração de câmera. À esquerda, imagemoriginal. À direita, os pontos de fuga VX , VY , VZ , extraídos da imagem ori-ginal. O ângulo de yaw, ρ, é definido pela linha do horizonte, e uma linhahorizontal. O ortocentro e o ponto principal da imagem são representadospor c. Figura adaptada de Lv et al. (2002) . . . . . . . . . . . . . . . . . . 14
2.6 Ilustração geométrica da invariância da relação cruzada de Criminisi et al.(2000). Os objetos com ponta amarela sobre um tronco preto representampessoas na cena que se encontram perpendicular ao plano do chão. pf e ph,representam o ponto inferior e o ponto superior do objeto, ql representa oponto de intersecção entre a reta que passa pelo eixo principal do pedestree a linha do horizonte. Figura adaptada de Liu et al. (2011). . . . . . . . . 15
ix
Lista de Figuras
2.7 Estimativa dos pontos de fuga por meio dos eixos principais de uma pessoa.Os segmentos de reta em laranja representam os eixos principais da mesmapessoas em três diferentes posições. A partir dos eixos são estimadospontos de fuga Vn, localizados sobre a linha do horizonte. Na direçãovertical é estimado apenas o ponto de fuga vertical VY . Figura adaptadade Lv et al. (2002). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.8 Cenários de teste utilizados para avaliar o método de Krahnstoever e Men-donca (2005). Os cenários aprestam diferentes ângulos de captura, emcenas urbanas e com texturas de fundo uniformes. Figura adaptada deKrahnstoever e Mendonca (2005). . . . . . . . . . . . . . . . . . . . . . . . 19
2.9 Informações de cena utilizadas por Lv et al. (2006). Na imagem (a) sãoilustrados dois segmentos de reta, X1X2 e Z1Z2, utilizados para definiros pontos de fuga VX e VY . A Fig. (b) ilustra o ponto de cruzamentodas pernas durante a caminhada do pedestre. São analisadas a altura k1e a largura k2 do formato do corpo, e selecionados os formatos do corpoque apresentem menor valor da razão entre k2 e k1. No gráfico a direitada imagem (b), é representada a oscilação da forma do corpo durante apassagem de frames. Figura adaptada de Lv et al. (2006). . . . . . . . . . 19
2.10 Ilustração da estimativa do erro em pixels. O segmento de reta verderepresenta o eixo do objeto modelo manualmente marcado, em vermelhohá o eixo reprojetado por meio da calibração efetuada. A distância entreos pontos inferiores e do topo de cada eixo são representados por ef eeh respectivamente. Somados ef e eh, encontra-se o erro total e. Figuraadaptada de Lv et al. (2006). . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.11 Detecção de pessoas e a geração dos planos. Em (a) é apresentado oformato do corpo necessário para classificar o blob como pessoa. Paracada formato de corpo detectado é gerado um plano perpendicular ao aoplano do chão. Em (b), para cada detecção foram gerados Qn planos.Figura adaptada de Rother et al. (2007). . . . . . . . . . . . . . . . . . . . 22
2.12 Marcação de segmentos de reta e estimativa dos pontos de fuga. A imagemde um cenário real é apresentada em (a), no qual são marcados, manu-almente, dois pares de segmentos de reta (amarelo). Cada par convergepara um ponto de fuga, indicado pelas retas em vermelho. Em (b) é mos-trado que a partir de dois pontos de fuga, V1 e V2, um terceiro ponto defuga pode ser estimado, caso o ponto princial da imagem c seja conhecido.Figura adaptada de Lee e Nevatia (2011). . . . . . . . . . . . . . . . . . . 23
2.13 Avaliação do framework de Liu et al. (2011) por meio do erro relativoquadrático médio da reprojeção dos pontos de topo e inferior do eixo prin-cipal. Em cada cenário avaliado, as pessoas tiveram seus eixos principaismarcados, simbolizados pelos segmentos de reta em verde. Em magentaestão os eixos principais reprojetados após a calibração da câmera. Figuraretirada de Liu et al. (2011). . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.14 Representação do processo de subtração do background. Cada pixel doframe atual é comparado ao da imagem de background. A quantificaçãoda comparação deve superar um limiar T para que o pixel seja classificadocomo foreground, representado pelo conjunto de pixels brancos (blob) naimagem a direita. Figura adaptada de (OPENCV, 2015c). . . . . . . . . . 27
Lista de Figuras
2.15 Detecção de sombra na imagem de foreground. A esquerda é apresentadaa imagem original, e a direita são representados os pixels pertecente aoobjeto móvel em branco, enquato que os pixels em cinza representam asombra. Figura adaptada de OpenCV (2015c) . . . . . . . . . . . . . . . . 29
2.16 Detecção de objetos estacionários por meio das multicamadas. A primeiracoluna representa o instante em que a bagagem é abandonada. A segundacoluna ilustra a segmentação, alguns frames após o abandono. A terceiracoluna ilustra a detecção da bagagem estática, mesmo após centenas deframes depois do abandono. Figura adaptada de Yao e Odobez (2007). . . 30
2.17 Retas paralelas no espaço 3D, convergindo após a projeção perspectivana imagem. Foto de uma avenida apresentam trilhos paralelos (linhaspontilhadas em azul) que apontam para um mesmo ponto V no infinito. . 32
2.18 Combinações dos quatro segmentos de reta selecionados para estimar ospontos de fuga. Na primeira configuração, a esquerda, há dois pares desegmentos de reta, definindo dois pontos de fuga. Na segunda configura-ção, a direita, três pontos de fuga são definidos pela combinação de umpar de segmentos de reta e dois outros segmentos. Figura adaptada deWildenauer e Hanbury (2012) . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.19 Cenários antrópicos que apresentam mais que três pontos de fuga. Emcada imagem, os segmentos de reta estão agrupados por cor, de acordocom o ponto de fuga para o qual apontam. As retas que cruzam a imagemem roxo e azul ciano pontilhado, são as linha do horizonte estimada e alinha do horizonte verdadeira, respectivamente. Figura retirada de Xu etal. (2013). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.20 Processo de refinamento das retas com comprimento não satisfatório. Asretas menores, representada pela cor azul na primeira coluna de imagens,tem seus pontos da extremidades reprojetados, coluna central de imagens.Os pontos que apresentarem alinhamento próximo de uma reta, são agru-pados e utilizados para definir um novo segmento de reta, representadosna última coluna de imagens, pela cor azul. Figura retirada de Lezama etal. (2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.21 Representação geométrica do domínio do PClines. A reta l do gráficocartesiano da esquerda é representado por três pontos p. No gráfico daesquerda são projetados o pontos p1, p2 e p3 no domínio do PClines. Asretas formadas pela projeção dos pontos se interceptam no ponto l, querepresenta a reta l, no domínio cartesiano. Figura adaptada de Lezama etal. (2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.22 Ilustração do processo de detecção dos pontos de fuga utilizando o domíniodo PClines. Na primeira linha há a imagem original e os segmentos de retadetectados. Na segunda linha são apresentadas as projeções dos segmentosde reta no domínio do PClines e, ao lado, são identificados os pontos defuga. O resultado é apresentado na última linha. Figura retirada deLezama et al. (2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.23 Bordas definidas pelo gradiente formado entre duas cores. A seta repre-senta a direção do gradiente, o qual é perpendicular á borda. Figuraadaptada de Gioi et al. (2010). . . . . . . . . . . . . . . . . . . . . . . . . 38
2.24 Comparação dos resultados obtidos dos métodos de detecção de segmentosde reta e o tempo requerido. Figura adaptada de Gioi et al. (2010). . . . . 39
Lista de Figuras
2.25 Criação das regiões de suporte de acordo com as orientações de cada pixel.Para cada pixel da imagem original é definida sua orientação de acordocom seu gradiente. Em seguida, os pixels são agrupados em regiões desuporte. Figura adaptada de Gioi et al. (2010). . . . . . . . . . . . . . . . 40
3.1 Framework proposto de calibração automática de câmeras de vigilância. Aárea vermelha representa os processos relacionados a extração de dados debaixo nível. Em amarelo, são extraídos os dados de nível médio e em azulos dados de alto nível. Na área em verde, há os processos de estimativados parâmetros de calibração. . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 Mapa de coordenadas do plano do chão. Os pontos apresentam coorde-nadas em metros. As coordenadas são relativas ao ponto de origem domapa, localizado no centro do mapa. Figura adaptada de PETS (2006). . 46
3.3 Exemplos de cenas providas pelos data sets. Cada coluna representa umconjunto de data sets e seus diferentes cenários e ângulos de captura.Algumas figuras são retiradas de (PETS, 2006), (PETS, 2007) e (CVLAB,2013). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1 Exemplos de segmentação de pedestres por meio da subtração de back-ground. A imagem superior a esquerda é um frame extraído de um vídeo.Abaixo desta imagem está a imagem de background em formação. Nela épossível observar a presença de uma pessoa em pé, que após algum tempoparada, se tornou parte do background. A direita tem a imagem de fore-ground a qual apresenta os elementos em movimento na cena com coresdiferentes de preto. É notável a falha de segmentação no pedestre naparte inferior a direita da imagem. A imagem superior a direita mostra adelimitação dos objetos móveis no frame original . . . . . . . . . . . . . . 52
4.2 Falha de segmentação de pedestres utilizando o método ABL. A esquerdada figura há a imagem original extraída do vídeo, e, à direita há a máscarabinária resultante da segmentação do foreground. Em verde, é marcadauma pessoa sentada na cena. Algumas partes do seu corpo são segmenta-das, como a cabeça e seus braços. Em azul, há um pedestre que se movepor uma região com fundo escuro; ocorre uma grande falha de segmenta-ção, pois a vestimenta do pedestre apresenta cores muito próximas às coresde fundo da imagem. Em vermelho é segmentada uma pessoa durante suacaminhada. Contudo, uma pequena região, que apresenta uma proximi-dade de cores, divide o seu blob em duas partes. Os dados resultantesda regiões delimitadas em azul e verde serão descartados, enquanto quea região delimitada em vermelho será aproveitada por meio de operaçõesmorfológicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3 Processo de aplicação de operadores morfológicos. A imagem superior dafigura ilustra um processo de dilatação da bordas da imagem. É apĺicadauma máscara de tamanho predefinido, a qual substitui o valor originaldo pixel pelo maior encontrado entre seus vizinhos. O processo de erosãosubstitui o valor do pixel pelo menor valor encontrado nos seus vizinhos,ilustrado na região inferior da figura. Ambos os processos geram novasimagens como resultado. Figura adaptada de OpenCV (2015b). . . . . . . 55
Lista de Figuras
4.4 Resultado da aplicação da operação morfológica de dilatação e erosão nasegmentação dos pedestres. A segmentação do pedestre da imagem origi-nal com o ABL resulta na segunda imagem. A segunda imagem apresentao blob do pedestre com algumas falhas de segmentação. Na terceira ima-gem, é aplicada uma dilatação no blob do pedestre, o qual preenche asfalhas de segmentação. A dilatação altera o tamanho do blob, expandindosuas bordas. Para retornar ao tamanho original do blob, é aplicado umaerosão. Esse processo de erosão reduz o tamanho do blob, mantendo pre-enchido as regiões corrigidas na etapa de dilatação. . . . . . . . . . . . . . 56
4.5 Extração dos eixos principais dos blobs e detecção dos segmentos de retana imagem de foreground das cenas monitoradas. . . . . . . . . . . . . . . 58
4.6 Extração dos eixos principais dos blobs utilizando aproximação de elipses.Submetido a diferentes formatos de corpos, com diferentes ângulos decaptura da imagem, a extração dos eixos principais pela aproximação dosblobs a uma elipse retorna resultados estáveis com pouca distorção detamanhos e orientações. Nas imagens, o contorno verde representa a regiãodelimitada pela segmentação da subtração de background. Os segmentosde reta em verde, dentro das regiões de contornadas, representam os eixosprincipais dos blobs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.7 Detecção dos segmentos de reta na imagem de background. Detecção dossegmentos de reta em quatro cenários diferentes. Cada um dos segmentosde reta apresenta uma cor de acordo com a sua orientação, variando de 0o
a 180o. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.8 Distribuição das orientações dos segmentos de reta da imagem. Na pri-
meira coluna estão representados os segmentos de reta extraídos da ima-gem de background. Na segunda coluna há a distribuição dos segmentosde reta de acordo com suas orientações em graus. Cada distribuição édivida em 18 partes distribuídas no intervalo de [0o, 180o]. Na ultima co-luna estão as imagens que representam a estimativa dos os pontos de fuga,onde a reta azul aponta para VZ , a reta vermelha aponta pra VX , a retaverde aponta para VY e a reta magenta é a linha do horizonte. Obser-vando as distribuição das alturas é notável que ocorre uma concentraçãodos segmentos de reta em torno de determinadas direções. . . . . . . . . . 63
4.9 Cenário com frequente união de blobs. Apresentam uma orientação decâmera paralela ao planos do chão, e uma altura da câmera próxima aaltura média da população observada. . . . . . . . . . . . . . . . . . . . . 64
4.10 Representação geométrica da métrica de avaliação da orientação utilizadano filtro de convergência. VY é o ponto de fuga vertical da imagem, rirepresenta um eixo principal de blob, e λ é o ângulo formado entre a ri ea reta formada entre o ponto central de ri e o ponto de fuga vertical. . . . 65
4.11 Aplicação do filtro de convergência. A primeira coluna apresenta todosos eixos principais extraído dos blobs, enquanto na segunda imagem apre-senta os eixos principais que foram selecionados pelo filtro de convergência.Muito dos ruídos oriundo de deformações dos blobs são removidos. . . . . 66
Lista de Figuras
5.1 Exemplo de avaliação dos métodos de subtração de background. A figura(a) representa uma máscara binária de referência. As demais figuras ilus-tram os resultados obtidos da segmentação dos métodos de subtração debackground onde (b), (c), (d), (e) e (f) representam o ABL com operadormorfológico, o método (MADDALENA; PETROSINO, 2008), o método(YAO; ODOBEZ, 2007), o método (KAEWTRAKULPONG; BOWDEN,2002) e o ABL, respectivamente. As cores verdes representam regiões deacerto da segmentação; em vermelho estão as regiões erroneamente nãosegmentadas; enquanto que em amarelo estão as regiões erroneamente seg-mentadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2 Gráfico ROC resultante da avaliação dos métodos de subtração de back-ground. O data set utilizado na avaliação, (PETS, 2006), expõe os méto-dos a cenários reais de vigilância, o que degrada os resultados do métodos.Isso ocorre devido a dinamicidade da cena, alterando o seu fundo de cenacom frequência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3 Gráfico que relaciona o valor AUC com a taxa de FPS. Os gráficos emazul e laranja representam, respectivamente, os valores AUC e de FPSpara cada um dos métodos de subtração de background avaliado. Nota-se que os métodos que apresentam os maiores valores de AUC, tendema degenerar a taxa de FPS, exceto pelo método ABL com operadoresmorfológicos, o qual apresentou o maior valor de AUC, com uma taxa deframe por segundo superior a 30 FPS. . . . . . . . . . . . . . . . . . . . . 73
5.4 Gráfico acumulativo dos erros obtidos após a estimativa das medidas dochão. No gráfico à esquerda, σ representa o erro relativo máximo encon-trado para uma porcentagem de exemplos avaliados. No gráfico a direita,λ representa o erro absoluto máximo em metros encontrado para umaporcentagem de exemplos avaliados. . . . . . . . . . . . . . . . . . . . . . 74
5.5 Projeção dos planos do chão estimados após a calibração da câmera. Todasas imagens são do PETS (2006). A plano do chão é representado pelamalha formada pelas linhas azuis e vermelhas; em amarelo estão retasnormais ao plano do chão. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.6 Gráfico acumulativo dos erros obtidos na estimativa das alturas reais dosobjetos. No gráfico a esquerda, σ representa o erro relativo máximo encon-trado para uma porcentagem de exemplos avaliados. No gráfico a direita,λ representa o erro absoluto máximo em metros encontrado para umaporcentagem de exemplos avaliado. . . . . . . . . . . . . . . . . . . . . . . 76
5.7 Gráfico acumulativo dos erros obtidos após a avaliação dos eixos repro-jetados. No gráfico, λ representa o erro máximo encontrado para umaporcentagem de exemplos avaliados. . . . . . . . . . . . . . . . . . . . . . 76
5.8 Exemplos de avaliações utilizando FHH RMSE. Na primeira e segundalinha há imagens do PETS (2006) e PETS (2007) respectivamente, en-quanto que nas últimas duas linhas há imagens do CVLab (2013). Cadapessoa marcada para avaliação apresenta um circulo projetado sobre oplano do chão com raio de 30 cm. Essa pessoas apresentam duas retasperpendiculares ao chão, onde a reta verde representa o eixo principalmarcado manualmente, e a reta vermelha representa o eixo estimado apósa calibração. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Lista de Tabelas
3.1 Resumo das características principais dos data sets utilizados. . . . . . . . 48
5.1 Comparação de dados obitidos quando submetidos os diferente processosde calibação aos data set do CVLab (2013). . . . . . . . . . . . . . . . . . 78
xv
Abreviações
ABL Adaptive Background Learning
AUC Area Under Curve
CCD Charge-Coupled Device
FHH RMSE Foot-Head Homology Root Mean Square Error
FPS Frames Por Segundo
HSV Hue Saturation Value
OpenCV Open Computer Vision
RANSAC Random sample consensus
RGB Red(vermelho) Green(verde) Blue(azul)
RNA Rede Neural Artificial
ROC Receiver Operating Characteristic
xvi
Símbolos
p = [u, v, 1] ponto no plano da imagem em coordenada homogênea
P = [X,Y, Z, 1] ponto no espaço 3D em coordenada homogênea
K matriz de parâmetros intrínsecos
Q matriz de parâmetros extrínsecos
f distância focal
α razão de aspecto
c(u, v) ponto nodal
τ parâmetro de inclinação do sensor CCD
t vetor de translação
ρ, θ e γ ângulos de rotação em torno dos eixos Z, X e Y da câmera
VZ , VX e VY pontos de fuga da imagem
l linha do horizonte
hc altura da câmera em relação ao plano do chão
h3Di altura real de uma i-ésima pessoa
hi altura relativa de uma i-ésima pessoa
Ii i-ésimo frame do vídeo
IFi i-ésimo frame segmentado do vídeo
IB imagem de background
G conjunto de segmentos de reta
ri i-ésimo segmento de reta de um conjunto
xvii
xviii
Capítulo 1
Introdução
Conteúdo1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Descrição dos Capítulos . . . . . . . . . . . . . . . . . . . . . 4
Nunca o ser humano utilizou tantos recursos para vigiar a sociedade em que está
imerso. Não é incomum adentrar em estabelecimentos e observar a presença de câmeras,
ou avisos informando que há vigilância por câmeras. Essa é uma forma que a sociedade
contemporânea encontrou para combater a falta de segurança que a rodeia. As câmeras
de vigilância e sistemas de monitoramento são recursos utilizados como contrapartida à
insegurança, e tornam a vigilância eletrônica uma necessidade e conforto, como afirma
Lemos et al. (2011). A sensação de ser vigiado inibe atos de violência e ações que
infrinjam as regras, pois as câmeras podem gerar informações suficientes para identificar
e incriminar um infrator.
Em 2013, foram gastos 4,73 bilhões de reais com segurança no Brasil, segundo
a Associação Brasileira das Empresas de Sistemas Eletrônicas de Segurança (ABASE,
2014). Sistemas de redes de câmeras de vigilância representam a fatia de 47% do total
de equipamentos comercializados no Brasil. Em grandes cidades, há uma tendência de
uso de câmeras para vigilância, a exemplo do Distrito Federal que possui uma câmera
para cada 5 pessoas (G1, 2012).
As câmeras de vigilância concentram-se em regiões onde há maior aglomeração
de pessoas, maior renda per capita, e em centros urbanos. A região Sudeste do Brasil
concentra 53% das câmeras de vigilância, enquanto a região Norte apresenta apenas
4% do total de câmeras utilizadas no Brasil (CAJAZEIRA, 2013). A grande maioria
1
Capítulo 1. Introdução 2
Figura 1.1: Ilustração de um sistema inteligente de vigilância, que utiliza informaçõesda altura e posição na cena. Na figura (a) é apresentada a imagem monitorada, cominformações de altura e identificação de cada pessoa presente na cena. Na figura (b)é representado o mapa da cena, com a posição atual de cada pessoa e o rastro da suatrajetória
dessas câmeras é utilizada em espaços com alto risco a ocorrência de crimes e com
grande quantidade de pessoas, como bancos, shopping centers, grandes lojas de varejo e
ambientes públicos.
A grande quantidade de câmeras requer uma grande quantidade de pessoas para
observá-las. O grande número de câmeras de vigilância, concentrado em um estabele-
cimento, ou espalhada geograficamente por uma cidade, tem suas imagens exibidas em
um centro de controle e monitoramento. Nestes centros de monitoramento, há pessoas
treinadas para observar as imagens e alertar qualquer tipo de distúrbio e comportamento
suspeito dos objetos monitorados. A tarefa de vigiar por meio de câmeras exige cons-
tante atenção e concentração. Porém, após um determinado tempo, o nível de atenção e
concentração pode se degradar, devido ao cansaço e distrações das pessoas responsáveis
por vigiar a cena. Isso agrava o risco de ocorrer falha humana na vigilância. Sistemas
inteligentes poderiam auxiliar na tarefa de vigilância. As imagens de câmeras de moni-
toramento agregam uma grande quantidade de informações que poderiam ser utilizadas
por sistemas inteligentes. Estes sistemas auxiliariam no monitoramento dos ambientes
com múltiplas câmeras, emitindo alertas e notificações para a pessoa que vigia uma cena.
Informações geométricas da cena são necessárias para a aplicação de algumas
análises de comportamento, como distância percorrida, posição e altura das pessoas
na cena, como ilustrado na Fig. 1.1. Para isso é necessário aplicar a calibração de
câmera. A calibração de câmera permite acessar as informações geométricas do espaço
Capítulo 1. Introdução 3
3D da cena, favorecendo a aplicação de detecção de pessoas (RUJIKIETGUMJORN;
COLLINS, 2013) e re-identificação de pessoas em rede de câmeras (WU et al., 2015), por
exemplo.
1.1 Motivação
A vigilância eletrônica é um segmento que cresce de forma contínua e gera opor-
tunidades para aplicações de monitoramento inteligente. A calibração de câmera é utili-
zada como base para algumas das ferramentas inteligentes utilizadas no monitoramento.
A calibração de câmeras possui uma modelagem matemática conhecida (HARTLEY;
ZISSERMAN, 2003). Sua aplicação exige o conhecimento de propriedades internas da
câmera, e sua posição e orientação de instalação em relação a um objeto de referência.
Ainda, de posse das informações necessárias para calibração, qualquer alteração na posi-
ção ou orientação exige que seja executado o processo de calibração novamente. Métodos
clássicos de calibração de câmeras (ZHANG, 2000) utilizam objetos de tamanhos e for-
mas conhecidas para inferir as propriedades internas e posição da câmera. O objeto de
referência tem de estar presente na imagem gerada da cena, o que requer a sua presença
em todas as regiões monitoradas. Ainda que esse método apresente um bom desempenho
ao executar a calibração de câmera, esta forma de calibração demanda grande quantidade
de tempo e requer uma logística para percorrer todas as cenas monitoradas.
Sistemas de vigilância, em sua maioria, são gerenciados de uma central de mo-
nitoramento. Métodos voltados para calibração de câmera de vigilância propõe que as
câmeras de vigilância podem ter os parâmetros necessários para a calibração inferidos
por meio da observação da cena monitorada. Esses métodos utilizam informações da
cena, como o tamanho de um poste, e os pontos de fuga da imagem (LV et al., 2002).
Esse processo especializado de calibração provê o conforto de calibrar as câmeras de um
sistema de vigilância a partir de um único local. Entretanto, é imposto que na cena
seja conhecido um objeto de referência, além da necessidade de informar os pontos de
fuga da imagem. Neste trabalho, será proposto um framework de calibração de câmera
automático, que utilizará informações da cena, dica das estruturas antrópicas e um co-
nhecimento prévio da distribuição da altura das pessoas. O framework proposto não
requer qualquer intervenção humana durante o processo de calibração.
1.2 Objetivos
O framework proposto neste trabalho tem como principal objetivo automatizar
o processo de calibração de câmeras de vigilância, sem requerer qualquer intervenção
Capítulo 1. Introdução 4
humana durante o processo. Este deverá se comportar como uma etapa inicial para
tarefas mais complexas, e irá prover informações para outras aplicações. O framework
deve calibrar câmeras estáticas e do tipo estenopeica, que monitore ambiente antrópicos.
Deve ser flexível e robusto a dinamicidade que pode ser encontrada nestes ambientes.
Outros objetivos específicos são:
• Explorar informações das estruturas urbanas, como prédios e pavimentações, para
auxílio na calibração da câmera;
• Diminuir a quantidade de exemplos de pessoas necessários para convergência dos
parâmetros de calibração da câmera;
• Elaborar um framework que seja robusto a diferentes ângulos de captura do vídeo
de vigilância.
1.3 Contribuições
O nosso framework de calibração de câmeras de vigilância é modularizado em
etapas, as quais permite tratar problemas locais com soluções específicas. Destas soluções
pode-se eleger como principais contribuições: i) uma evolução de um método clássico de
subtração de background ; ii) o uso combinado de informações de objetos móveis e da
estrutura estática da cena; iii) automatização do processo de calibração de câmeras de
vigilância; iv) um novo data set de câmera de vigilância.
1.4 Descrição dos Capítulos
Este trabalho está dividido em cinco partes, que são:
• Capítulo 2 apresenta o estado da arte de métodos diretamente relacionados ao
nosso trabalho. Introduz conceitos básicos e fundamentos necessários para construir
o nosso framework proposto;
• Capítulo 3 introduz uma visão geral do framework proposto, apresentando suas
etapas principais e como elas estão conectadas. Determina também premissas para
a aplicação do framework e como será feita a sua avaliação;
• Capítulo 4 detalha cada etapa principal que compõe o framework, descrevendo os
métodos, estruturas de dados e soluções implementadas.
Capítulo 1. Introdução 5
• Capítulo 5 avalia o desempenho do framework utilizando três métricas diferentes:
Estimativa da altura de pedestres; A estimativa de comprimentos sobre o chão; Erro
de reprojeção. Por fim, é comparado os resultados obtidos com outros trabalhos
relacionados.
• Capítulo 6 finaliza o trabalho com últimas análises e com propostas de trabalhos
futuros.
Capítulo 2
Estado da Arte
Conteúdo2.1 O Uso da Calibração Automática em Câmeras de Vigilância 7
2.2 Modelo de Câmera . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Calibração de Câmera . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.1 Calibração Manual de Câmera (ZHANG, 2000) . . . . . . . . . 12
2.4 Calibração de Câmera de Vigilância . . . . . . . . . . . . . . 12
2.4.1 Calibração a Partir de Vídeo de Pedestres (LV et al., 2002) . . 13
2.4.2 Auto-calibração Bayesiana (KRAHNSTOEVER; MENDONCA,2005) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.3 Abordagem de (LV et al., 2006) . . . . . . . . . . . . . . . . . . 18
2.4.4 O que Pedestres Podem Informar Sobre a Geometria 3D daCena (ROTHER et al., 2007) . . . . . . . . . . . . . . . . . . . 20
2.4.5 Auto-Calibração Por Meio de Detecção de Pessoas (MICUSIK;PAJDLA, 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.6 Ferramenta Robusta de Calibração de Câmeras de Vigilânciaem Ambientes Urbanos (LEE; NEVATIA, 2011) . . . . . . . . 23
2.4.7 Auto-Calibração de Câmera de Vigilância Baseado na Distri-buição da Altura de Pedestres (LIU et al., 2011) . . . . . . . . 24
2.5 Subtração de Background . . . . . . . . . . . . . . . . . . . . 26
2.5.1 Adaptive Background Learning . . . . . . . . . . . . . . . . . . 27
2.5.2 Mesclagem de Gaussianas (KAEWTRAKULPONG; BOWDEN,2002) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.3 Subtração de Background em Multicamadas Baseado em Tex-tura e Cor (YAO; ODOBEZ, 2007) . . . . . . . . . . . . . . . . 29
2.5.4 Subtracção de Background Auto-Organizado (MADDALENA;PETROSINO, 2008) . . . . . . . . . . . . . . . . . . . . . . . . 30
6
Capítulo 2. Estado da Arte 7
2.6 Detecção de Pontos de Fuga . . . . . . . . . . . . . . . . . . . 31
2.6.1 Detecção de Ponto de Fuga em Imagens Monoculares com Es-truturas do Tipo Manhattan World (WILDENAUER; HAN-BURY, 2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.2 Detecção de Ponto de Fuga para Cenários Antrópicos (XU etal., 2013) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6.3 Detecção de Pontos de Fuga no Domínio do PClines (LEZAMAet al., 2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.7 Detecção de Segmento de Reta . . . . . . . . . . . . . . . . . 36
2.7.1 Detecção Rápida de Segmentos de Reta (GIOI et al., 2010) . . 38
2.8 Relação Com o Trabalho . . . . . . . . . . . . . . . . . . . . . 39
2.1 O Uso da Calibração Automática em Câmeras de Vigi-
lância
É comum o uso de câmeras nas tarefas de vigilância e monitoramento de ambien-
tes. Câmeras de vigilância são, em sua maioria, do tipo estenopeica, conhecidas também
como pinhole camera. Este tipo de câmera apresenta um baixo custo, uma ampla oferta
comercial e portabilidade. Utilizando as câmeras como sensores, sistemas inteligentes são
capazes de automatizar a enfadonha tarefa de monitorar ambientes povoados. Tarefas
como detectar pessoas em uma cena e rastreá-las a partir de uma rede de câmeras, requer
grande atenção e concentração do vigilante. Contudo, Wu et al. (2015), Rujikietgumjorn
e Collins (2013) propuseram métodos capazes de executar a tarefa de detectar, rastrear
e identificar pessoas, em uma rede de câmeras de vigilância, de forma automatizada, uti-
lizando informações do contexto e do espaço 3D da cena. As informações 3D permitem
determinar a altura e comprimento de objetos alvos na cena, sua posição e trajetória,
aumentando a precisão dos sistemas inteligentes. Para acessar as informações do espaço
3D da cena é necessário calibrar a câmera. O processo de calibração permite conhecer
a posição, orientação e o comportamento interno da câmera, os quais definem a relação
entre as coordenadas 3D do mundo e as coordenadas 2D do plano da imagem. Essa
relação é descrita em detalhes na Seção 2.2.
Aplicar processos convencionais de calibração de câmera ( Seção 2.3) em câ-
meras de vigilância pode tornar a tarefa fatigante. A necessidade da presença de um
objeto que apresente um padrão específico na cena e a intensa atuação humana durante
a geração de exemplos, requer um longo tempo e torna o método suceptível a falhas
humanas.
Capítulo 2. Estado da Arte 8
Figura 2.1: Representação geométrica da projeção do objeto 3D no plano da imagem.P é um ponto no espaço 3D e p é sua projeção no plano 2D. C é o centro da câmera,definido no espaço 3D, e a distância entre o plano da imagem e C determina a distânciafocal f . O ponto principal do plano da imagem é representado por c(u, v).
Neste trabalho é proposto um framework capaz de utilizar informações da cena
para calibrar câmeras de vigilância de forma automática. Assim como os trabalhos re-
lacionados na Seção 2.4, não é necessária a presença de um objeto específico na cena.
Para a calibração, são exploradas as informações de objetos naturalmente presentes no
ambiente monitorado: pedestres e estruturas antrópicas. O nosso framework proposto
requer um vídeo da câmera de vigilância que será calibrada. Este vídeo será submetido
ao processo de subtração de background(ver Seção 2.5). Deste processo de subtração,
são obtidos os dados dos pedestres da cena, e uma imagem de background, que contém
os elementos que permaneceram estáticos na cena. Na imagem de background são en-
contradas as estruturas antrópicas da cena. Da imagem de background são estimados os
pontos de fuga da cena, 2.6, a partir dos segmentos de reta, descritos na Seção 2.7. Os
pontos de fuga são essenciais para estimar os parâmetros de calibração da câmera.
A seguir serão apresentados e detalhados cada conceito citado anteriormente,
assim como os trabalhos relacionados a cada um destes. Por fim, é indicado quais tra-
balhos são tomados como base para o desenvolvimento do framework proposto neste
trabalho.
Capítulo 2. Estado da Arte 9
2.2 Modelo de Câmera
A câmera estenopeica possui um modelo matemático geométrico conhecido,
descrito, detalhadamente, em (HARTLEY; ZISSERMAN, 2003) e (CISMOSKI; ROCHA,
2012). Esta câmera relaciona pontos no espaço 3D e o plano de imagem. Esta relação é
chamada de projeção perspectiva e pode ser descrita como
p =MP , (2.1)
onde p = [u, v, 1]T é um ponto do plano da imagem e P = [X,Y, Z, 1]T é um ponto
do espaço 3D, ambos descritos em coordenadas homogêneas. A Eq. 2.1 define uma
transformação projetiva por meio de uma matriz M3×4 que mapeia as coordenadas P do
espaço em coordenadas p do plano. Decomposta, M pode ser representa por
p = KQP , (2.2)
onde K é a matriz de tamanho 3 × 3 de parâmetros intrínsecos e Q é a matriz de
tamanho 3× 4 de parâmetros extrínsecos. A matriz de parâmetros intrínsecos K retrata
as características de fabricação e as condições de operação da câmera. A lente utilizada,
o tipo de sensor (p. ex., charge-coupled device (CCD)) e o índice de refração do meio
ao qual a câmera está inserida (ex: ar, água), são alguns dos elementos que influenciam
na formação da imagem, e são representados numericamente em K. Assim, a matriz de
parâmetros intrínsecos K pode ser escrita como
K =
f τ uc
0 fα vc
0 0 1
, (2.3)
onde K é formada por parâmetros identificados a seguir e ilustrados geometricamente
na Fig. 2.1:
• f , distância focal, determina o comprimento entre o ponto focal, ou centro da
câmera C, ao plano da imagem;
• α, razão de aspecto, definido pela razão entre largura e altura do pixel;
• (uc, vc) = c(u, v), coordenadas do ponto principal do plano da imagem, usualmente,
adotado como centro da imagem, ou ponto nodal;
• τ , parâmetro de inclinação do sensor CCD, utilizado quando as células do sensor
não possuem um formato retangular;
Capítulo 2. Estado da Arte 10
Figura 2.2: Distorção radial na imagem. A figura a esquerda representa uma ima-gem sem distorção radial, composta por quadrados com mesma área. A figura centralrepresenta uma distorção radial do tipo pincushion, que comprime os dados próximosdo centro da imagem. A figura a direita representa uma distorção radial do tipo barrel,que dilata os dados próximos do centro da imagem. Figura adaptada de Kang et al.(2013)
As lentes utilizadas em câmeras estenopeicas podem interferir na formação da
imagem, alterando o mapeamento entre as coordenadas P e p durante a projeção pers-
pectiva. Esta alteração é comumente representada como uma distorção radial, e notada
por uma deformação na imagem. A deformação se intensifica ao passo que o ponto
projetado p se afasta do centro da imagem c, como notado na Fig. 2.2. A modelagem
de uma lente é uma tarefa complexa e requer um tratamento cuidadoso. Em (HAR-
TLEY; ZISSERMAN, 2003) é descrito um modelo genérico de uma lente, e em (FRY;
PUSATERI, 2010) e (KIM et al., 2010) há propostas de procedimentos para remover a
distorção radial da imagem.
A matriz de parâmetros extrínsecos define a posição e orientação da câmera
no espaço 3D. Os parâmetros descrevem as transformações entre o centro da câmera C
e um ponto de referência no mundo. A matriz de parâmetros extrínsecos, Q, pode ser
escrita como
Q = [R|t] , (2.4)
onde R é uma matriz de rotação 3 × 3 que descreve a orientação da câmera nas três
dimensões do espaço. t é um vetor de translação de três coordenadas não homogeneas,
[Xcam, Ycam, Zcam], que descrevem a posição da câmera, como ilustrado na Fig. 2.3. A
matriz de rotação R pode ser decomposta em
R = Rz(ρ)Rx(θ)Ry(γ) , (2.5)
Capítulo 2. Estado da Arte 11
Figura 2.3: Posição e orientação da câmera no espaço 3D. O ponto O representaa origem do espaço, o qual é utilizado como referência para estimar os parâmetrosextrínsecos, definindo os valores de rotação e translação, R e t.
possibilitando determinar a orientação de cada eixo de forma independente. Expandindo
a Eq. 2.5, tem-se
R =
cos(ρ) − sin(ρ) 0
sin(ρ) cos(ρ) 0
0 0 1
1 0 0
0 cos(θ) − sin(θ)
0 sin(θ) cos(θ)
cos(γ) 0 sin(γ)
0 1 0
− sin(γ) 0 cos(γ)
, (2.6)
onde ρ, θ e γ são os valores de rotação em radiano, aplicados a cada eixo.
Conhecido os parâmetros intrínsecos e extrínsecos do modelo da câmera, a trans-
formação projetiva, descrita na Eq. 2.1, pode ser reescrita na forma
p = K[R|t]P , (2.7)
representando os principais dados necessários para determinar o mapeamento entre os
pontos no espaço 3D para o plano da imagem.
2.3 Calibração de Câmera
A calibração de uma câmera tem como objetivo estimar os parâmetros intrínse-
cos e extrínsecos descritos na Seção 2.2. Nesta seção será descrito o método comumente
utilizado na calibração manual de câmeras estenopeicas.
Capítulo 2. Estado da Arte 12
2.3.1 Calibração Manual de Câmera (ZHANG, 2000)
Zhang (2000) propôs um método de calibração de câmera que utiliza um ob-
jeto de referência, o qual possui um padrão conhecido de símbolos impresso sobre uma
superfície plana. Aprimorado por Bouguet (2015), o processo de calibração consiste em
capturar algumas imagens do objeto de referência e então estimar os parâmetros intrín-
secos e extrínsecos. Neste último método, o objeto de referência possui símbolos com
formas geométricas conhecidas e dispostas de forma organizada sobre a superfície plana.
Usualmente, são utilizados padrões de símbolos, como o tabuleiro de xadrez, devido a
fácil detecção na imagem. Porém, há outros padrões aplicáveis, como ilustrado na Fig.
2.4.
Uma vez identificado o padrão de símbolos na imagem, são detectados pontos de
controle (quinas de um quadrado do tabuleiro de xadrez, por exemplo). De cada ponto,
são armazenados os valores das suas coordenadas no plano da imagem e a distância real
entre cada ponto ao ponto localizado no canto esquerdo e superior do padrão de símbolos.
De posse de um conjunto de exemplos de pontos, é aplicada uma triangulação para definir
a distância entre a câmera e cada ponto no espaço 3D. Em seguida é estimada a matriz
de projeção da Eq. 2.1, que em seguida é decomposta para Eq. 2.7. Para estimar
a matriz de projeção, é utilizado o método de Random Sample Consensus (RANSAC)
(FISCHLER; BOLLES, 1981), o qual avalia a exatidão da calibração de acordo com o
erro de projeção dos pontos 3D no plano da imagem.
O método de Zhang (2000) é adotado como uma ferramenta padrão pelas prin-
cipais bibliotecas de Processamento de Imagem e Visão Computacional, a exemplo da
Open Computer Vision (OpenCV) (BRADSKI, 2000) e MATLAB (MATLAB, 2010).
Este método é aplicado principalmente pare determinar os parâmetros intrínsecos da
câmera e remover a distorção radial da imagem. Ainda que o método de Zhang (2000)
seja genérico o suficiente para calibrar qualquer câmera estenopeica, este método requer
intensa atuação humana, o que influencia na qualidade dos exemplos fornecidos. Este
tipo de operação torna o processo de calibração de câmera uma tarefa árdua.
2.4 Calibração de Câmera de Vigilância
Câmeras de vigilância são, em sua maioria, do tipo estenopeica e seguem o
modelo descrito na Seção 2.2. Contudo, há determinados ambientes monitorados onde
não é possível utilizar o método de Zhang (2000), devido a necessidade de manipular um
objeto de referência na cena observada. Assim, foram propostas formas de calibrar câme-
ras de vigilância remotamente, sem a necessidade de interferir ou estar presente na cena
Capítulo 2. Estado da Arte 13
Figura 2.4: Padrões de símbolos utilizados para calibração de câmera. A esquerda éutilizado como objeto de referência um tabuleiro de xadrez e a direita um padrão decírculos sobre uma superfície plana. Figura adaptada de OpenCV (2015a).
monitorada. Nesta seção serão apresentados e analisados alguns métodos especializados
em calibrar câmeras de vigilância.
2.4.1 Calibração a Partir de Vídeo de Pedestres (LV et al., 2002)
Cenas monitoradas por câmeras de vigilância possuem informações que podem
ser úteis para calibrar a câmera. Lv et al. (2002) explorou as informações oferecidas
pelos vídeos das câmeras de vigilância na tarefa de calibração. Ele observou que poderia
utilizar propriedades da formação de imagem, os pontos de fuga da imagem (ver Seção
2.6) e um objeto de referência presente na cena (pedestres).
Com o intuito de simplificar o processo de calibração, Lv et al. (2002) assumem
algumas premissas, as quais diminuem a complexidade do modelo de câmera descrito em
Seção 2.2:
• A imagem não apresenta distorção radial e o parâmetro de inclinação assume valor,
τ = 0;
• A razão de aspecto é conhecida ou unitária;
• O sistema de coordenadas da câmera, Camera Coordinate System (CCS), coincide
com o sistema de coordena do mundo, World Coordinate System (WCS), exceto
pela coordenada Y , que é transladada de acordo com a altura da câmera em relação
ao solo, hc.
Seguindo as premissas citadas anteriormente, a matriz de parâmetros intrínse-
cos, descrita na Eq. 2.3, assume a forma
Capítulo 2. Estado da Arte 14
Figura 2.5: Pontos de fuga da imagem para calibração de câmera. À esquerda,imagem original. À direita, os pontos de fuga VX , VY , VZ , extraídos da imagem original.O ângulo de yaw, ρ, é definido pela linha do horizonte, e uma linha horizontal. Oortocentro e o ponto principal da imagem são representados por c. Figura adaptada deLv et al. (2002)
K =
f 0 uc
0 f vc
0 0 1
, (2.8)
sendo necessário apenas estimar o valor da distância focal f e as coordenadas do ponto
principal da imagem c(u, v). A matriz de parâmetros extrínsecos, Eq. 2.4, também é
modificada, reescrevendo o vetor de translação como
t = [Xcam, Ycam, Zcam] = [0, hc, 0], (2.9)
tornando-a dependente apenas da altura da câmera, hc, em relação ao solo. Após as
modificações, a quantidade de parâmetros necessários para determinar a matriz de trans-
formação projetiva diminuiu para sete variáveis: a distância focal, f , as coordenadas do
ponto principal da imagem, c(u, v), os ângulos de rotação ,(ρ, θ e γ), e a altura da câmera
ao plano do chão, hc.
Baseado em (CIPOLLA et al., 1999), Lv et al. (2002) utilizam os pontos de
fuga para estimar alguns dos parâmetros intrínsecos e extrínsecos. Como descrito na
Seção 2.6, os pontos de fuga são determinados pela intersecção de segmentos de reta
de objetos projetados na imagem. Devido a projeção do espaço 3D para o plano da
imagem, existem pelo menos três pontos de fuga por imagem. Cada ponto de fuga pVX,
pVZ, pVY
representa um eixo da câmera no espaço, respectivamente X, Z, Y , onde os
dois primeiros pontos se situam sobre a linha do horizonte, enquanto que o último ponto
situa-se perpendicular à linha do horizonte. Como ilustrado na Fig. 2.5, o ângulo que
define yaw, ρ, é formado entre a reta horizontal e a linha do horizonte, enquanto que o
Capítulo 2. Estado da Arte 15
Figura 2.6: Ilustração geométrica da invariância da relação cruzada de Criminisi etal. (2000). Os objetos com ponta amarela sobre um tronco preto representam pessoasna cena que se encontram perpendicular ao plano do chão. pf e ph, representam oponto inferior e o ponto superior do objeto, ql representa o ponto de intersecção entre areta que passa pelo eixo principal do pedestre e a linha do horizonte. Figura adaptadade Liu et al. (2011).
ponto principal da imagem é definido pelo ortocentro formado pelos pontos de fuga. Lv
et al. (2002) também mostram que a distância focal pode ser estimada por
f =√−(vVX
− vc)(vVY− vc) , (2.10)
onde vVXe vVY
são as coordenadas verticais dos pontos de fuga VX e VY da imagem. Os
ângulos de tilt e pan , θ e γ respectivamente, podem ser definidos por
θ = tan−1((vc − vVX)/f) , (2.11)
γ = ctan−1((uVX− uc)cos(θ)/f) , (2.12)
onde, uVXé a coordenada horizontal do ponto de fuga do plano da imagem.
Definido seis dos setes parâmetros necessários, a altura da câmera, hc, será
estimada pela invariância da relação cruzada proposta em (CRIMINISI et al., 2000).
Esta relação permite estimar a altura da câmera utilizando uma relação de distância
entre a linha do horizonte, l, o ponto de fuga vertical, VY , o ponto mais baixo e o ponto
Capítulo 2. Estado da Arte 16
Figura 2.7: Estimativa dos pontos de fuga por meio dos eixos principais de umapessoa. Os segmentos de reta em laranja representam os eixos principais da mesmapessoas em três diferentes posições. A partir dos eixos são estimados pontos de fugaVn, localizados sobre a linha do horizonte. Na direção vertical é estimado apenas oponto de fuga vertical VY . Figura adaptada de Lv et al. (2002).
mais alto de um objeto de referência, pf e ph, como ilustrado na Fig. 2.6. Essa relação
pode ser escrita como
hi =h3Dihc
= 1−d(ph, l)d(pf , pVY
)
d(pf , l)d(ph, pVY), (2.13)
e é nomeada como altura relativa de um i-ésimo objeto hi. Nesta Eq. 2.13, d(., .)
determina a menor distância entre dois elementos pertencentes ao plano da imagem, e
h3Di é a altura real do i-ésimo objeto. A altura da câmera pode ser estimada pela razão
hc = h3Di /hi, (2.14)
sendo necessário conhecer a altura real do objeto de referência, sua posição na cena e os
pontos de fuga da imagem.
O problema de calibração recai sobre a necessidade de estimar os pontos de
fuga da imagem e conhecer um objeto de referência na cena. Lv et al. (2002) propõem
então utilizar apenas os pedestres presentes na imagem para estimar os pontos de fuga
Capítulo 2. Estado da Arte 17
e a altura da câmera. A cada quadro do vídeo, uma pessoa é detectada por meio de
subtração de background, Seção 2.5, e tem seu eixo principal determinado. Cada pessoa
tem seu eixo principal extraído apenas quando cruza as pernas durante a caminhada.
Este procedimento tem o objetivo de diminuir as distorções na orientação e tamanho do
eixo principal. Esta seleção de amostras do eixo principal requer uma intensa análise
do formato do corpo durante a caminhada da pessoa. Para estimar os pontos de fuga,
são requisitados ao menos três exemplos de eixos principais não colineares. Os pontos
superiores e os pontos inferiores dos eixos principais são agrupados, formando retas. Os
pontos de intersecção originados das retas formadas na imagem darão origem aos pontos
de fuga da imagem, Fig. 2.7. A altura da câmera, hc, é determinada por
hc = E(h3Di )/E(hi) , (2.15)
onde E(hi) é a média das alturas relativas dos eixos principais, de acordo com a Eq.
2.14, e E(h3Di ) a média das alturas reais conhecidas.
Avaliado por Lv et al. (2002) em um data set privado, no qual o cenário é
controlado e possui apenas uma pessoa durante toda a cena, o método apresentou bons
resultados. Contudo, o método suporta apenas uma pessoa como objeto de referência
durante todo o vídeo. É requerido a analise do formato do corpo da pessoa a cada frame
do vídeo, limitando o uso do método a cenas controladas. É necessário também que a
pessoa rastreada mantenha a velocidade de caminhada constante, o que não ocorre em
cenas mais complexas, com grande ocupação de pessoas. É necessário que a altura da
pessoa se mantenha constante. A grande contribuição do trabalho de Lv et al. (2002) é
a formulação matemática do problema, que permite estimar os parâmetros intrínsecos e
extrínsecos por meio dos pontos de fuga da imagem, e de qualquer objeto perpendicular
ao plano do chão.
2.4.2 Auto-calibração Bayesiana (KRAHNSTOEVER; MENDONCA,2005)
Seguindo a ideia proposta de Lv et al. (2002), Krahnstoever e Mendonca (2005)
elaboraram um método de calibração de câmeras de vigilância que utiliza apenas os pe-
destres da cena, utilizando um modelo Bayesiano para estimar os parâmetros intrínsecos
e extrínsecos. Para diminuir o espaço de busca na modelagem Bayesiana, são assumi-
das as mesmas premissas adotadas em (LV et al., 2002), exceto pelo ponto principal da
imagem c(u, v), que tem suas coordenadas igualadas a zero. Desta forma a matriz de
Capítulo 2. Estado da Arte 18
parâmetros intrínsecos da Eq. 2.3 é reduzida para
K =
f 0 0
0 f 0
0 0 1
, (2.16)
onde a distância focal f é o único parâmetro intrínseco que será estimado. A matriz
de rotação dos parâmetros extrínsecos também é alterada, ignorando o ângulo de pan, e
rescrevendo a Eq. 2.5 na forma
R = Rz(ρ)Rx(θ) (2.17)
A rotação em torno do eixo Y é ignorada, sem prejuízo na generalização do
problema, devido a câmera de vigilância permanecer estática em relação aos pontos de
fuga. A altura da câmera é representada no vetor de translação t = [0, 0, hc], adotando
o eixo Z do espaço 3D como o eixo perpendicular ao plano do chão, diferente de (LV
et al., 2002). Estas premissas restringem a calibração a quatro variáveis: distância focal
f , ângulos de rotação em torno dos eixos Z e X do espaço 3D, ρ e θ, respectivamente,
e a altura da câmera em relação ao solo, hc. Nesta abordagem de calibração, o método
estima todas as quatro varáveis conjuntamente, o que difere da abordagem de Lv et al.
(2002), a qual utiliza dois passos: primeiro é estimado os pontos de fuga da imagem;
em seguida é definida a altura da câmera. Com base em Semple e Kneebone (1998),
é aplicada uma relação entre as quatro varáveis, utilizando a Eq. 2.13, baseando sua
estimativa no eixo principal de cada pessoa. Cada pessoa é detectada na cena utilizando
um classificador proposto por Saptharishi et al. (2000), o qual é especializado em detectar
pessoas em movimento. Por fim, o método aplica um tratamento de ruído por meio do
método de Metropolis et al. (1953).
Na avaliação deste método foram utilizados três data sets, capturados em ambi-
entes abertos, com baixa ocupação de pessoas e uma altura média conhecida das pessoas,
ilustrado na Fig. 2.8. O tratamento de ruído e a unificação das quatro variáveis foram as
principais contribuições deste trabalho. Contudo, a complexidade matemática do método
requer grande esforço computacional.
2.4.3 Abordagem de (LV et al., 2006)
O método de calibração de câmera de vigilância proposto por Lv et al. (2006)
é uma evolução direta do trabalho de Lv et al. (2002), seguindo a mesma abordagem
matemática e a forma de estimar os parâmetros de calibração, baseados nos pontos de
Capítulo 2. Estado da Arte 19
Figura 2.8: Cenários de teste utilizados para avaliar o método de Krahnstoever eMendonca (2005). Os cenários aprestam diferentes ângulos de captura, em cenas urba-nas e com texturas de fundo uniformes. Figura adaptada de Krahnstoever e Mendonca(2005).
Figura 2.9: Informações de cena utilizadas por Lv et al. (2006). Na imagem (a)são ilustrados dois segmentos de reta, X1X2 e Z1Z2, utilizados para definir os pontosde fuga VX e VY . A Fig. (b) ilustra o ponto de cruzamento das pernas durante acaminhada do pedestre. São analisadas a altura k1 e a largura k2 do formato do corpo,e selecionados os formatos do corpo que apresentem menor valor da razão entre k2 ek1. No gráfico a direita da imagem (b), é representada a oscilação da forma do corpodurante a passagem de frames. Figura adaptada de Lv et al. (2006).
fuga da imagem, na invariância da relação cruzada de Criminisi et al. (2000), e na altura
das pessoas na cena. Contudo, a forma de estimar os ponto de fuga adotada por Lv et
al. (2006) difere da proposta de Lv et al. (2002). No primeiro, os pontos de fuga são
definidos pela combinação entre os eixos principais das pessoas na cena e de duas linhas
auxiliares, as quais são inseridas pelo usuário do sistema, de acordo com a estrutura de
Capítulo 2. Estado da Arte 20
fundo presente na cena. O eixo principal de cada pedestre é extraído apenas no instante
em que o pedestre cruza as pernas durante a caminhada. Para selecionar a pose em
que o pedestre está com as pernas cruzadas, é avaliada a largura do formato do corpo
durante a caminhada, Fig. 2.9(b), e retornados apenas os eixos que apresentem a menor
largura. Essa análise de formato do corpo é aplicada a cada indivíduo presente no vídeo
de vigilância, sendo necessário aplicar a detecção e rastreamento das pessoas em Zhao e
Nevatia (2004) para manter o mesmo rótulo de cada indivíduo entre os frames.
De posse dos eixos principais, são definidos os pontos do topo e da base de cada
eixo. Estes pontos são utilizados para definir os pontos de fuga da imagem, junto com
dois segmentos de reta auxiliares, paralelas ao plano do chão, e não paralelas entre si.
Estas retas são definidas pelo usuário, e devem seguir estruturas da cena. Eixos principais
de pedestres são, geralmente, perpendiculares ao plano do chão, úteis para determinar o
ponto de fuga vertical VY . Os segmentos de reta auxiliares são utilizados na estimativa
da linha do horizonte, como ilustrado na Fig. 2.9(a). Em seguida é determinada a altura
relativa de cada eixo principal de acordo com a invariância da relação cruzada.
Lv et al. (2006) propuseram uma forma de avaliação dos parâmetros de calibra-
ção por meio de objetos de referência presentes na imagem. Os objeto-modelos escolhidos
têm seus eixos principais marcados manualmente. Os eixos marcados são comparados
com os eixos gerados pela reprojeção dos mesmos objetos, após a calibração. Em se-
guida, é medida a distância entre os pontos do topo e da base do eixos, ilustrados na
Fig. 2.10. A distância entre os pontos representam o erro e em pixels da calibração na
estimativa da matriz de projeção. Submetido a avaliações com cinco data sets, o método
apresentou uma melhora em relação ao método proposto em (LV et al., 2002). Ainda que
Lv et al. (2006) afirmem que o método é robusto a ambientes com média ocupação de
pessoas, os cenários utilizados para validação do método são controlados e apresentam
apenas uma pessoa como objeto de referência. As principais contribuições deste trabalho
são a avaliação baseada na projeção do eixo principal de um objeto modelo e a fusão de
características entre objetos de referência e segmentos de reta da estrutura da cena para
determinar os pontos de fuga.
2.4.4 O que Pedestres Podem Informar Sobre a Geometria 3D da Cena(ROTHER et al., 2007)
Propondo analisar melhor a cena monitorada, o trabalho de Rother et al. (2007)
propõem um framework para determinar a posição de alvos na cena e a sua trajetória
percorrida de acordo com sua posição sobre o plano do chão. Para fornecer essas ferra-
mentas, é aplicada, como primeira etapa do framework, uma calibração de câmera. Com
Capítulo 2. Estado da Arte 21
Figura 2.10: Ilustração da estimativa do erro em pixels. O segmento de reta verderepresenta o eixo do objeto modelo manualmente marcado, em vermelho há o eixoreprojetado por meio da calibração efetuada. A distância entre os pontos inferiores edo topo de cada eixo são representados por ef e eh respectivamente. Somados ef e eh,encontra-se o erro total e. Figura adaptada de Lv et al. (2006).
base no conhecimento sobre plano do chão e a uma modelagem de cores, a sombra de
cada objeto é detectada e segmentada.
Rother et al. (2007) utilizam o processo de calibração de câmera como uma
ferramenta. Contudo, alguns pontos do processo de estimativa dos parâmetros diferem
das abordagens citadas anteriormente. A modelagem matemática segue a proposta de
Krahnstoever e Mendonca (2005), reduzindo os parâmetros de calibração a quatro va-
riáveis, associando sua inferência aos pontos de fuga da imagem e a uma altura de um
objeto conhecido na cena. Todo o processo de detecção do ponto de fuga é fundamen-
tado nos eixos principais das pessoas, extraídos por meio de um método de subtração de
background.
O processo de estimativa dos pontos de fuga depende diretamente dos eixos
principais das pessoas. A cada frame, são extraídos os eixos principais e agrupados por
pessoa, com o intuito de manter a relação da altura real e sua projeção na imagem. Os
pontos de fuga são estimados para cada grupo de eixos principais utilizando o método dos
mínimos quadrados. Conhecidos os pontos de fuga da imagem, é determinado o plano
do chão. A altura de referência é determinada de acordo com a caminhada das pessoas
sobre o plano do chão. Krahnstoever e Mendonca (2005) assumem que a distância média
percorrida por uma pessoa, a cada segundo, equivale a metade da sua altura, para então
aplicar uma triangulação entre a distância medida e a altura da câmera. Ainda que a
forma de estimar a altura da câmera seja diferente, se faz necessário conhecer a altura
real de um pedestre.
Capítulo 2. Estado da Arte 22
Figura 2.11: Detecção de pessoas e a geração dos planos. Em (a) é apresentado oformato do corpo necessário para classificar o blob como pessoa. Para cada formato decorpo detectado é gerado um plano perpendicular ao ao plano do chão. Em (b), paracada detecção foram gerados Qn planos. Figura adaptada de Rother et al. (2007).
O método proposto por Rother et al. (2007) é limitado à posição da câmera que
favoreçam a captura de imagens de pessoas completamente em pé e sem ocorrência de
oclusão parcial. São utilizados data sets privados, os quais são conhecidas as métricas
dos objetos da cena. Para avaliar o processo de calibração, é comparado a altura real de
objetos da cena com as alturas estimadas.
2.4.5 Auto-Calibração Por Meio de Detecção de Pessoas (MICUSIK;PAJDLA, 2010)
Micusik e Pajdla (2010) mantêm a ideia inicial proposta em (LV et al., 2002),
e utilizam apenas informações dos eixos principais dos pedestres para calibrar a câmera.
Para cada ponto inferior do eixo, sobre o plano do chão, é atribuído uma coordenada 3D
e calculada uma matriz de homografia entre o plano da imagem e o plano perpendicular
ao plano do chão que passa pela coordenada atribuída (ver Fig. 2.11(b)). Em seguida,
é gerado um conjunto de matrizes de homografia, relacionando os pontos no espaço e os
pontos na imagem. Esta relação permite estimar os parâmetros intrínsecos e extrínsecos
por meio de um modelagem matemática que recai sobre um problema não-linear. Micusik
e Pajdla (2010) utilizam o método de convergência de valores por autovalores quadráticos
de Steele e Jaynes (2006), buscando minimizar o erro de reprojeção. Para detectar as
pessoas é utilizado um método especializado, proposto por Beleznai e Bischof (2009).
Este método detecta apenas pessoas em movimento por meio da subtração de background,
e cada blob extraído do foreground, (ver Seção 2.5), é submetido a um classificador de
contorno. O blob é avaliado e recebe o rótulo de pessoa caso apresente um contorno
Capítulo 2. Estado da Arte 23
Figura 2.12: Marcação de segmentos de reta e estimativa dos pontos de fuga. Aimagem de um cenário real é apresentada em (a), no qual são marcados, manualmente,dois pares de segmentos de reta (amarelo). Cada par converge para um ponto de fuga,indicado pelas retas em vermelho. Em (b) é mostrado que a partir de dois pontos defuga, V1 e V2, um terceiro ponto de fuga pode ser estimado, caso o ponto princial daimagem c seja conhecido. Figura adaptada de Lee e Nevatia (2011).
semelhante ao modelo ilustrado na Fig. 2.11(a). Para avaliação do método, é utilizado
um cenário de testes sintético e uma cena real controlada. Foram utilizadas duas métricas
para análise: o erro médio quadrático da reprojeção do objeto de referência, e a estimativa
da distância focal em pixels. Ainda que tenha sido relatado um bom desempenho do
método, este não foi comparado diretamente a outros métodos de calibração de câmeras
de vigilância. Os cenários sintéticos e reais retratam cenas simples, poucas pessoas,
ambiente controlado, fundo de cena claro e uniforme, o que não representa cenários
usualmente monitorados em aplicações reais.
2.4.6 Ferramenta Robusta de Calibração de Câmeras de Vigilância emAmbientes Urbanos (LEE; NEVATIA, 2011)
Cenas urbanas oferecem informações úteis e confiáveis para estimar parâmetros
intrínsecos e extrínsecos, como mostrado em (CIPOLLA et al., 1999) e (CRIMINISI et
al., 2000). Lee e Nevatia (2011) propõe utilizar essas informações da cena para calibrar
câmeras de vigilância. Diferente dos métodos de calibração de câmeras de vigilância
citados, essa abordagem não requer o uso de pessoas para estimar os pontos de fuga
da cena. Com base na modelagem matemática proposta em (CIPOLLA et al., 1999), é
necessário determinar os pontos de fuga para estimar os valores dos parâmetros intrín-
secos e da matriz de rotação. Lee e Nevatia (2011) utilizam informações da cena para
determinar os pontos de fuga, observando as estruturas urbanas presentes na imagem.
Como mostrado na Fig. 2.12(a), são marcados, manualmente, pelo menos dois pares de
segmentos de reta, onde cada par aponta para um ponto de fuga. Os pontos de fuga
Capítulo 2. Estado da Arte 24
são estimados por meio do método dos mínimos quadrados. De posse de dois pontos de
fuga, é possível determinar o terceiro ponto de fuga, utilizando o ortocentro do triângulo
formado entre os pontos de fuga, ilustrado em 2.12(b). A altura da câmera, último va-
lor requerido para a calibração, é definido também pela invariância da relação cruzada
proposta em (CRIMINISI et al., 2000), sendo necessário conhecer o comprimento de um
objeto na cena. O método é avaliado em ambientes reais, onde há estruturas urbanas,
e uma baixa ocupação de pessoas. O método foi submetido a oito diferentes ângulos de
captura de imagem, e o seu erro de reprojeção médio atingiu valores promissores. Ainda
que requeira intensa intervenção humana durante o processo de marcação dos segmentos
de reta na imagem e da escolha do objeto de referência, a abordagem baseada em dicas
da estrutura da cena contribuiu para diminuir a complexidade do processo de estimativa
dos pontos de fuga.
2.4.7 Auto-Calibração de Câmera de Vigilância Baseado na Distribui-ção da Altura de Pedestres (LIU et al., 2011)
Todos os métodos, citados anteriormente, requerem intervenções humanas du-
rante o processo de calibração, seja para definir os eixos das pessoas na cena, ou selecionar
objetos de referência na cena monitorada. Liu et al. (2011) elaboraram um framework
que visa evitar intervenções no processo de calibração da câmera. Seguindo a modelagem
matemática de Cipolla et al. (1999), este framework utiliza apenas os eixos principais
das pessoas na cena, junto com informações prévias sobre a distribuição de alturas da
população europeia (VISSCHER, 2008) para estimar os pontos de fuga da imagem e a
altura da câmera. A cada frame do vídeo é extraído os blobs dos pedestres utilizando
a subtração de background. Cada blob é aproximado para uma elipse (FITZGIBBON;
FISHER, 1995), assumindo o maior eixo da elipse como o eixo principal dos pedestres.
De posse dos eixos principais dos pedestres, é aplicado o método RANSAC para estimar
o ponto de fuga de fuga vertical, VY , e selecionar apenas os eixos principais que apon-
tam para o ponto de fuga vertical, chamados de "bons exemplos". A seleção dos bons
exemplos permite eliminar ruídos gerados a partir de deformações dos blobs causados
por oclusão parcial dos pedestre e união indevida de blobs.
Liu et al. (2011) combinam a relação entre o ponto de fuga vertical, VY , a linha
do horizonte, l, formada entre os pontos de fuga, VX e VZ , e a distância focal, f , definida
por
xVYxl + yVY
yl + f2 = 0 , (2.18)
em (LIEBOWITZ; ZISSERMAN, 1999), com a Eq. 2.13, da invariância da relação
cruzada de Criminisi et al. (2000). Esta relação permite estimar de forma conjunta a
Capítulo 2. Estado da Arte 25
Figura 2.13: Avaliação do framework de Liu et al. (2011) por meio do erro relativoquadrático médio da reprojeção dos pontos de topo e inferior do eixo principal. Emcada cenário avaliado, as pessoas tiveram seus eixos principais marcados, simbolizadospelos segmentos de reta em verde. Em magenta estão os eixos principais reprojetadosapós a calibração da câmera. Figura retirada de Liu et al. (2011).
distância focal, f , e o valor médio da altura relativa, E(hi). Sobre esta combinação, é
aplicado o método de Monte Carlo, que atribui valores a distância focal para gerar uma
distribuição de alturas relativas, encontrando a equação da linha do horizonte, definida
na Eq. 2.18. A distribuição de alturas relativas é comparada com a distribuição de
alturas reais das pessoas descrita por Visscher (2008), no qual 90% das alturas estão
concentradas a uma distância relativa de 7,6% do valor médio, 172cm. Aplicada essa
regra à altura relativa na Eq. 2.14, tem-se
|hi − E(hi)|E(hi)
≤ 0.076 , (2.19)
sabendo-se que altura da câmera e o valor médio da distribuição das alturas reais são
valores constantes. Para diminuir a quantidade de iterações sobre a distância focal, são
atribuídos valores em f de acordo com a variação do ângulo de abertura da câmera, onde
cada iteração é incrementado 0, 05◦. Após determinar o valor médio da altura relativa e
conhecido o valor médio da altura real, é possível aplicar a Eq. 2.15 para determinar a
altura da câmera.
Para avaliar o desempenho do framework, Liu et al. (2011) propõem uma mé-
trica que permite analisar a reprojeção de objetos de referência, e a correta orientação do
eixo principal do pedestre. Esta métrica é o erro relativo quadrado médio da reprojeção
dos pontos de topo e inferior do eixo principal, definido por
err =
∫pf
(d(ph, p
′h)
d(pf , p′h)
)2
, (2.20)
onde p′h é a coordenada em 2D da projeção 3D do eixo principal de um objeto, utilizando
os parâmetros intrínsecos e extrínsecos estimados, e ph e pf são as coordenadas dos
pontos de topo e inferior dos eixos principais, marcados como referência para a avaliação
do método, ilustrado na Fig. 2.13
As avaliações do framework apresentou bons resultados e ocorreram sobre data
Capítulo 2. Estado da Arte 26
sets sintéticos e reais, com média ocupação de pessoas. Liu et al. (2011) mostraram que
utilizando informações prévias sobre a população de pessoas monitoradas, é possível au-
tomatizar todo o processo de calibração de câmeras de vigilância. Contudo, a estimativa
dos parâmetros necessita grande quantidade de bons exemplos de eixos principais, o que
exige poder de processamento para estimar corretamente os pontos de fuga.
2.5 Subtração de Background
A subtração de background é uma ferramenta presente em sistemas de vídeo
vigilância (ver Seção 2.4). A subtração de background permite segmentar elementos que
alteram sua posição dentro da cena monitorada, observando elementos que permanecem
estáticos na cena. A segmentação ocorre para cada i-ésimo frame do vídeo, Ii, de acordo
com a função
S(Ii) = [IFi, IB] (2.21)
onde S é a função que aplica a segmentação. Como mostrado na Fig. 2.14, esta função
tem como retorno duas imagens:
• IFi, imagem de foreground, o qual contém os elementos que se movem na cena
monitorada, blobs, para o i-ésimo frame segmentado.
• IB, imagem de background, imagem que contém a cena de fundo, com elementos
estáticos. Esta imagem é atualizada a cada frame segmentado.
A função de segmentação S representa o método utilizado para determinar a
imagem de background e a forma de segmentar a imagem de foreground. Funções de
segmentação eficientes devem apresentar nas imagens de foreground apenas os objetos
em movimento, enquanto que na imagem de background não deve haver borrões, ou
qualquer elemento não permanente durante o vídeo.
Sobral e Vacavant (2014) avaliaram 29 métodos de subtração de background.
Todos os métodos foram avaliados utilizando o data set do Background Models Challenge
(Vacavant et al., 2012), composto por 20 vídeos sintéticos e 9 vídeos de cenas reais.
Dentre os 29 métodos avaliados, foram selecionados os quatro métodos que se destacaram
por apresentar melhores desempenhos. Estes serão descritos a seguir e submetidos a
avaliações com data sets de cenas de vigilância.
Capítulo 2. Estado da Arte 27
Figura 2.14: Representação do processo de subtração do background. Cada pixel doframe atual é comparado ao da imagem de background. A quantificação da comparaçãodeve superar um limiar T para que o pixel seja classificado como foreground, represen-tado pelo conjunto de pixels brancos (blob) na imagem a direita. Figura adaptada de(OPENCV, 2015c).
2.5.1 Adaptive Background Learning
O Adaptive Background Learning (ABL) utiliza um processo simples de seg-
mentação entre foreground e o background. Baseado em aprendizado da cena, o ABL
mantém uma imagem de referência, IB, com a mesma resolução do vídeo de entrada.
Essa imagem de referência é inicializada com o primeiro frame do vídeo. Durante o
processo, cada frame seguinte é comparado com o IB, e com base no resultado desta
comparação, a imagem de fundo é ajustada para conter os objetos estáticos da cena. O
processo de comparação do ABL consiste em aplicar uma diferença entre o frame atual
e a imagem de referência, de acordo com
|Ii(u, v)− IB(u, v)| > T , (2.22)
onde o módulo da diferença entre os pixels de mesma coordenada, (u, v), do frame Ii e
da imagem IB são comparados a um limiar T . Este limiar determina o destino do pixel
avaliado, tornando-o um pixel do foreground, IFi, caso o valor do módulo da diferença
supere T , ou, caso o valor do módulo seja menor ou igual a T , um pixel do background.
Esta comparação é usualmente aplicada a imagens em tom de cinza, porém, pode ser
aplicada a imagens RGB, sendo necessário cada pixel, em cada canal de cor, superar o
limiar T conjuntamente.
Capítulo 2. Estado da Arte 28
Os pixels definidos como parte da imagem de background sofrerão um processo
de atualização. A cada pixel é somada, ou subtraída, uma taxa de atualização ι de acordo
com a variação resultante da diferença entre Ii e IB. Uma variação positiva indica que
o pixel deve incrementar o seu valor, caso contrário o pixel tem seu valor decrementado
por ι.
O ABL requer dois parâmetros, o limiar de segmentação T e a taxa de atualiza-
ção ι. Nesta abordagem, T é limitado ao intervalo entre [0, 255] e ι limitados entre [0, 1].
Um valor de limiar baixo torna o método sensível, e pequenas variações de iluminação
podem ser classificadas como foreground ; por outro lado, um valor de limiar alto, torna
o método insensível a objetos móveis na cena, requerendo uma grande diferença entre as
cores para se tonar parte da imagem do foreground. A taxa de atualização com valores
próximos de 0, requer uma grande amostragem de frames para gerar o correto modelo da
imagem do background, uma vez que o incremento, e decremento, dos valores dos pixels é
quase nulo. Por outro lado, valores próximos de 1, tornam a IB instável, alterando cons-
tantemente suas cores da imagem de fundo. Na avaliação de Sobral e Vacavant (2014),
a melhor configuração é T = 15 e ι = 0.5.
2.5.2 Mesclagem de Gaussianas (KAEWTRAKULPONG; BOWDEN,2002)
Por meio da distribuição gaussiana, KaewTraKulPong e Bowden (2002) mo-
delam a imagem de background. Esta abordagem modela toda a imagem e analisa a
frequência de atualização de cada cor do pixel. São atribuídos pesos de acordo com a
taxa de variação das cores, para preservar os pixels que apresentem menor variação de
cor.
Com base no trabalho de Stauffer e Grimson (1999), para cada pixel da imagem
de background é gerada uma distribuição gaussiana para representar as cores que ocor-
rem com maior frequência no pixel. Friedman e Russell (1997) mostrou que as cores que
ocorrem com maior frequência, representam objetos estáticos na cena. As distribuições
são pontuadas com pesos, onde as distribuições com alta ocorrência da mesma cor rece-
bem os maiores pesos, se tornando mais resistente ao fator de atualização ι. Para cada
novo frame do vídeo, Ii, todos os pixels são comparados ao valor médio da distribuição,
que descreve a frequência de cores para o pixel de mesma coordenada. É aplicada a
diferença entre o pixel Ii(u, v) e a média da distribuição µi(u, v) de mesma coordenada.
Assim como na Eq. 2.22, o módulo da diferença é comparado ao limiar T para definir se
o pixel pertence ao foreground ou ao background.
Capítulo 2. Estado da Arte 29
Figura 2.15: Detecção de sombra na imagem de foreground. A esquerda é apresentadaa imagem original, e a direita são representados os pixels pertecente ao objeto móvelem branco, enquato que os pixels em cinza representam a sombra. Figura adaptada deOpenCV (2015c)
Após a segmentação, a variação da intensidade do brilho do pixel do foreground
é confrontada com a distribuição gaussiana do pixel de background. A intensidade permite
avaliar se o pixel do foreground representa um objeto em movimento na cena, ou sua
sombra, como ilustrado na Fig. 2.15.
KaewTraKulPong e Bowden (2002) analisa toda a imagem, observando e regis-
trando a variação das cores nos pixels a cada frame. Este método apresenta resultados
melhores quando comparados ao ABL. A modelagem da imagem de background por
meio de distribuições gaussianas tornou o método menos sensível a variações de luz,
diminuindo a quantidade de falhas na segmentação.
2.5.3 Subtração de Background em Multicamadas Baseado em Tex-tura e Cor (YAO; ODOBEZ, 2007)
Yao e Odobez (2007) propuseram uma abordagem de subtração de background
utilizando em conjunto com as informações de cores e textura. Um histórico da imagem
de background é mantida para aumentar a precisão da segmentação, evitando que objetos
que se tornaram estáticos dentro da cena sejam classificados como parte da imagem de
background.
As informações de textura de cor são compactadas em descritores. O descritor
Local Binary Pattern de Heikkilä e Pietikäinen (2006) e a métrica de invariância de cor
são utilizados para descrever cada pixel da imagem. Na segmentação, é calculada uma
distância entre os descritores do pixel do frame atual e a imagem de background. Esta
distância deve superar o valor do limiar T para o pixel ser considerado elemento da
imagem de foreground.
Capítulo 2. Estado da Arte 30
Figura 2.16: Detecção de objetos estacionários por meio das multicamadas. A pri-meira coluna representa o instante em que a bagagem é abandonada. A segunda colunailustra a segmentação, alguns frames após o abandono. A terceira coluna ilustra adetecção da bagagem estática, mesmo após centenas de frames depois do abandono.Figura adaptada de Yao e Odobez (2007).
O histórico de imagens de background mantido pelo método, chamado de cama-
das, permite identificar elementos que se tornaram estáticos na imagem, como ilustrado
na Fig. 2.16. Contudo, esta detecção apenas ocorre de forma correta após um longo
período de amostragem dos frames.
O uso de descritores de textura e cores diminui a ocorrência das falhas de
segmentação, principalmente, quando há semelhança entre as cores dos objetos móveis
e a imagem de background. Contudo, a detecção de objetos estacionários é a maior
contribuição deste trabalho. A complexidade do método degrada o seu desempenho
para 6 frame por segundos (FPS), tornando a sua aplicação inviável para sistemas que
requeiram respostas em tempo real.
2.5.4 Subtracção de Background Auto-Organizado (MADDALENA;PETROSINO, 2008)
A Subtração de Background Auto-Organizado utiliza uma rede neural artificial
(RNA) para descrever a imagem de background. Maddalena e Petrosino (2008) pro-
põem que cada nó da RNA represente os pixels da imagem e, a cada frame, a rede seja
retreinada, adaptando-se ao novo modelo da imagem de background.
Capítulo 2. Estado da Arte 31
Maddalena e Petrosino (2008) utilizam o espaço de cor Hue Saturation Value
(HSV) para representar as cores da imagem. Para segmentar os pixels, é utilizada a
distância Euclidiana no espaço HSV, descrito por Fisher (1999), nos pixels de mesma
coordenada do frame atual e da imagem de background. Caso esta distância supere o
limiar T , o pixel será considerado parte do foreground. A modelagem da imagem de
background é feita por uma rede neural. Cada pixel representa um nó de entrada da
RNA. Cada nó se relaciona com os 8 vizinhos, atribuindo pesos a essa relação. Estes
pesos são determinados de acordo com a distância Euclidiana calculada durante a etapa
de segmentação e de acordo com a ocorrência da cor no pixel. Esta abordagem requer um
período de aprendizagem durante o início do vídeo. Para o processo de aprendizagem, a
cena deve estar com o mínimo de objetos móveis, caso contrário, serão necessário mais
frames de exemplos para uma correta modelagem da imagem de background.
Este método apresenta bons resultados para ambiente fechados e abertos, com
pequenas variações de luz. O método é capaz, também, de detectar objetos estacionários
na imagem. Contudo, o processo de aprendizagem da cena e a constante atualização da
RNA dificultam a aplicação do método em sistemas que requerem respostas em tempo
real.
2.6 Detecção de Pontos de Fuga
Devido a redução da dimensão durante a projeção perspectiva (ver Seção 2.2),
retas paralelas no espaço 3D convergem para um mesmo ponto quando projetadas no
plano da imagem (ver Fig. 2.17). Os pontos, para os quais estas retas convergem na
imagem, são chamados de pontos de fuga.
Os pontos de fuga são utilizados como referência para determinar a orientação
da câmera e explorar informações 3D da cena. Na Seção 2.4, todos os métodos exploram
as informações dos pontos de fuga para calibrar a câmera. Lv et al. (2002) mostraram
que os pontos de fuga são úteis para determinar a distância focal e os ângulos de rotação
em torno de cada eixo da câmera durante o processo de calibração.
Coughlan e Yuille (2000) mostraram que cenários antrópicos são frequentemente
caracterizados por estruturas ortogonais. Esse tipo de cenário foi rotulado como Manhat-
tan World. Cenários do tipo Manhattan World apresentam 3 pontos de fuga, onde cada
um desses pontos de fuga representa um eixo do espaço 3D. Chamados de pontos de fuga
horizontais, VX e VZ , representam os eixos X e Z, enquanto que o eixo Y é o ponto de
fuga vertical, VY . Os pontos de fuga horizontais formam a linha do horizonte na imagem.
Esses pontos de fuga podem ser determinados observando um conjunto de segmentos de
Capítulo 2. Estado da Arte 32
Figura 2.17: Retas paralelas no espaço 3D, convergindo após a projeção perspectivana imagem. Foto de uma avenida apresentam trilhos paralelos (linhas pontilhadas emazul) que apontam para um mesmo ponto V no infinito.
reta, G, extraídos das estruturas presentes na cena. Dessa forma, a detecção dos pontos
de fuga pode ser descritos como
F (G) = [VX , VY , VZ ] , (2.23)
onde F (.) é uma função que determina os pontos de fuga da imagem.
2.6.1 Detecção de Ponto de Fuga em Imagens Monoculares com Estru-turas do Tipo Manhattan World (WILDENAUER; HANBURY,2012)
Wildenauer e Hanbury (2012) combinam as informações de cenários Manhattan
World com o modelo de câmeras estenopeicas para determinar os pontos de fuga da
imagem. Depois de extraídos os segmentos de reta da imagem, é aplicado o RANSAC
para selecionar as melhores exemplos e estimar os pontos de fuga da imagem.
Da imagem, são extraídos os segmentos de reta utilizando o detector de bordas
de Canny (CANNY, 1986), em conjunto com os mínimos quadrados. Essas retas são
selecionadas, aleatoriamente, e agrupadas em um conjunto com quatros exemplos. Como
ilustrado na Fig. 2.18, estes quatros exemplos de segmentos de reta apresentam dois
casos:
Capítulo 2. Estado da Arte 33
Figura 2.18: Combinações dos quatro segmentos de reta selecionados para estimaros pontos de fuga. Na primeira configuração, a esquerda, há dois pares de segmentosde reta, definindo dois pontos de fuga. Na segunda configuração, a direita, três pontosde fuga são definidos pela combinação de um par de segmentos de reta e dois outrossegmentos. Figura adaptada de Wildenauer e Hanbury (2012)
• o primeiro caso apresenta dois pares de segmentos de reta, os quais determinam
dois pontos de fuga. Admitindo o ponto principal da imagem c(0, 0), é possível
determinar o terceiro ponto de fuga restante;
• o segundo caso apresenta um par de reta convergindo para o mesmo ponto de fuga.
Os outros dois segmentos de reta apontam para outros pontos de fuga restantes.
Em grupos de quatro exemplos, os segmentos de reta são avaliados nos dois
casos descritos anteriormente. Cada segmento de reta do conjunto total tem seu desvio
avaliado em relação a um dos pontos de fuga encontrados. Caso o desvio do segmento
de reta seja menor que um limiar para qualquer um dos três pontos de fuga, o segmento
de reta é incluso no grupo do ponto de fuga o qual apresentou menor desvio. Por meio
do RANSAC, são selecionados o conjunto de pontos de fuga que apresentem um maior
número de segmentos de reta, de acordo com a avaliação do desvio.
Wildenauer e Hanbury (2012) apresentaram uma solução elegante para determi-
nar os pontos de fuga da imagem. A simplicidade das operacões matemáticas junto com
a característica iterativa do RANSAC possibilitaram que o método atinja uma taxa de
resposta média de 35 ms. Contudo, a busca aleatória por bons exemplos, pode diminuir
a precisão do método, requerendo mais ciclos iterativos do RANSAC.
2.6.2 Detecção de Ponto de Fuga para Cenários Antrópicos (XU et al.,2013)
O método de detecção de pontos de fuga, proposto por Xu et al. (2013), aplica
um princípio que agrupa os segmentos de reta de acordo com o seu desvio em relação aos
Capítulo 2. Estado da Arte 34
Figura 2.19: Cenários antrópicos que apresentam mais que três pontos de fuga. Emcada imagem, os segmentos de reta estão agrupados por cor, de acordo com o pontode fuga para o qual apontam. As retas que cruzam a imagem em roxo e azul cianopontilhado, são as linha do horizonte estimada e a linha do horizonte verdadeira, res-pectivamente. Figura retirada de Xu et al. (2013).
pontos de fuga. Neste método, também é adotado como premissa o Manhattan World.
Este método é capaz de detectar mais que 3 pontos de fuga na cena, devido ao processo
de agrupamento, o qual não se limita a apenas três pontos de fuga, como ilustrado na
Fig. 2.19.
Para extrair os segmentos de reta da imagem é utilizado o método de Gioi et
al. (2010),( ver Seção 2.7.1). Os G segmentos de reta extraídos são agrupados de acordo
com o ponto de fuga o qual apontam. O agrupamento segue o princípio de Tardif (2009),
chamado de J-linkage. Este processo aleatoriamente seleciona uma quantidade média
de 3000 pares de segmentos de reta. Para cada par, é calculado o ponto de intersecção
das retas, representando um total de N pontos. É gerada uma matriz G × N binária,
o qual representa a agrupamento das retas no ponto de fuga. Os pontos de fuga que
apresentarem um maior número de segmentos de reta em seu grupo são selecionados e
passam por um refinamento. O processo de refinamento pode reduzir a quantidade de
segmentos de reta que apresentem discrepância em relação à distribuição do desvio.
Xu et al. (2013) elaboraram ummétodo robusto, baseado no processo de agrupa-
mento, o qual permitiu detectar mais que três pontos de fugas por imagem, extrapolando
o limite do trabalho de Wildenauer e Hanbury (2012). Contudo, os resultados de Xu et
al. (2013) superam em apenas 0, 3% o desempenho alcançado por Wildenauer e Hanbury
(2012), consumindo mais tempo para a mesma tarefa.
2.6.3 Detecção de Pontos de Fuga no Domínio do PClines (LEZAMAet al., 2014)
A abordagem proposta por Lezama et al. (2014) busca melhorar a confiabilidade
dos segmentos de reta extraídos da imagem, além de aplicar uma mudança de domínio
que reduza a complexidade da detecção dos pontos de fuga. Assim como (XU et al.,
Capítulo 2. Estado da Arte 35
Figura 2.20: Processo de refinamento das retas com comprimento não satisfatório.As retas menores, representada pela cor azul na primeira coluna de imagens, tem seuspontos da extremidades reprojetados, coluna central de imagens. Os pontos que apre-sentarem alinhamento próximo de uma reta, são agrupados e utilizados para definirum novo segmento de reta, representados na última coluna de imagens, pela cor azul.Figura retirada de Lezama et al. (2014).
2013), este método pode detectar mais que os três pontos de fuga representados em
ambientes antrópicos.
Os segmentos de reta extraídos por Gioi et al. (2010) sofrem um refinamento.
De posse do conjunto de retas G, essas retas são agrupadas de acordo com seu tamanho e
angulação. segmentos de reta pequenos tendem a degradar a precisão da estimativa dos
pontos de fuga. Dessa forma, grupos de segmentos de reta que apresentem comprimentos
menores que um limiar sofrerão um refinamento. A partir dos pequenos segmentos de reta
serão gerados novos segmentos de reta maiores. Esse refinamento consiste em reprojetar
os dois pontos extremos de cada segmento, e então estimar novos segmentos de reta
utilizando o método de Lezama et al. (2015), o qual encontra a melhor reta de acordo
com o menor retângulo que circunscreve o maior número de pontos, como ilustrado na
Fig. 2.20. Após o refinamento, cada segmento sofrerá uma transformação do domínio
cartesiano para o domínio do PClines, o qual representa coordenadas cartesianas em
eixos paralelos, descrito por Dubská et al. (2011). No domínio do PClines, é possível
representar retas em pontos, e pontos em retas, como ilustrado na Fig. 2.21. As retas que
Capítulo 2. Estado da Arte 36
Figura 2.21: Representação geométrica do domínio do PClines. A reta l do gráficocartesiano da esquerda é representado por três pontos p. No gráfico da esquerda sãoprojetados o pontos p1, p2 e p3 no domínio do PClines. As retas formadas pela projeçãodos pontos se interceptam no ponto l, que representa a reta l, no domínio cartesiano.Figura adaptada de Lezama et al. (2014).
convergem para um mesmo ponto no domínio cartesiano, alinham-se de forma organizada
quando representadas como pontos no domínio PClines, como ilustrado na Fig. 2.22. Os
pontos de fuga da imagem podem ser determinado identificando retas formadas pelos
pontos no domínio PClines. O método de Lezama et al. (2015) é aplicado no domínio do
PClines, retornando todas as retas detectadas de acordo com o alinhamento dos pontos.
A abordagem proposta por Lezama et al. (2014) atingiu os melhores resultados
de precisão e exatidão, deixando a desejar apenas no tempo de processamento requerido.
A mudança de domínio tornou o método não iterativo quanto à estimativa dos pontos
de fuga, transformando a tarefa de determinar os pontos de fuga equivalente à tarefa
de estimar retas a partir de um conjunto de pontos. Contudo, o tempo necessário para
estimar a melhor reta pelo método de Lezama et al. (2015) apresenta um comportamento
iterativo, buscando a cada iteração a melhor reta.
2.7 Detecção de Segmento de Reta
segmentos de reta oferecem informações geométricas de forma compacta. A
grande presença de segmentos de reta em cenas antrópicas possibilita o uso dos segmentos
de reta em tarefas de calibração da câmera, como relatado no trabalho de Lee e Nevatia
(2011). Na Seção 2.6, os segmentos são elementos primordiais para a detecção dos pontos
de fuga da imagem.
Capítulo 2. Estado da Arte 37
Figura 2.22: Ilustração do processo de detecção dos pontos de fuga utilizando odomínio do PClines. Na primeira linha há a imagem original e os segmentos de retadetectados. Na segunda linha são apresentadas as projeções dos segmentos de retano domínio do PClines e, ao lado, são identificados os pontos de fuga. O resultado éapresentado na última linha. Figura retirada de Lezama et al. (2014).
Em geral, os segmentos de reta representam bordas de objetos na imagem. Essas
bordas são regiões de transição de cores, as quais se propagam perpendicularmente ao
gradiente de intensidade da cor, ilustrado na Fig. 2.23. Assim, pode-se descrever a
detecção de segmentos de reta como
L(I) = G , (2.24)
onde L é a função que retorna o conjunto de retas G, dada uma imagem I.
Na literatura, há diversas propostas de detecção de retas. Em geral, os detecto-
res de retas são avaliados quanto ao tempo consumido durante o processo e sua exatidão.
Estes dois parâmetros geralmente apresentam comportamentos opostos, como ilustrado
na Fig. 2.24. No geral, à medida que o método apresenta uma boa exatidão, este requer
um maior período tempo durante o processamento, a exemplo do método (GIOI et al.,
Capítulo 2. Estado da Arte 38
Figura 2.23: Bordas definidas pelo gradiente formado entre duas cores. A seta repre-senta a direção do gradiente, o qual é perpendicular á borda. Figura adaptada de Gioiet al. (2010).
2007); por outro lado, métodos com retorno rápido apresentam falhas, degradando a
exatidão, mostrado por Burns et al. (1986). Contudo, Gioi et al. (2010) elaboraram um
método que atingiu bons níveis de exatidão, consumindo o menor tempo entre todos os
métodos avaliados, sendo utilizado nos trabalhos de Xu et al. (2013) e Lezama et al.
(2014) apresentados anteriormente.
2.7.1 Detecção Rápida de Segmentos de Reta (GIOI et al., 2010)
Gioi et al. (2010) desenvolveu um método capaz de detectar segmentos de reta
de forma rápida, alcançando baixos níveis de falhas. Este método busca agrupar regiões
de bordas que apresentam orientações semelhantes. Em seguida é aplicado um refina-
mento, aproximando as regiões a retângulos. Na imagem, I, é aplicada uma máscara de
tamanho 2× 2, a qual define a orientação de cada pixel na imagem. Os valores calcula-
dos pela máscara são representadas em uma nova imagem de orientações, Io, de mesmo
número de colunas e linhas que a imagem original, como ilustrado na imagem 2.25. Em
seguida, pixels que apresentam orientações semelhantes são agrupados, formando aglo-
merados, rotulados pelo autor de regiões de suporte. Para cada pixel, são analisados
os seus 8 vizinhos e comparadas suas orientações. Os pixels são agrupados se o pixel
analisado apresentar uma orientação que difere de um valor máximo T do seu vizinho.
Após o processo de aglomeração, cada região de suporte tem seu formato analisado. As
regiões são comparadas a retângulos, avaliando o seu formato e relação entre a largura e
comprimento. As regiões de suporte que apresentam formatos semelhantes a retângulos
passam por um processo de refinamento. Em cada região de suporte são removidos pixels
Capítulo 2. Estado da Arte 39
Figura 2.24: Comparação dos resultados obtidos dos métodos de detecção de seg-mentos de reta e o tempo requerido. Figura adaptada de Gioi et al. (2010).
das extremidades, buscando minimizar a largura do retângulo, e aumentar a densidade
de pontos no centro da região de suporte.
Gioi et al. (2010) atingiram bons resultados, superando outras propostas de
detecção de segmentos de reta, em exatidão e tempo de resposta. Ainda que apresente
falhas em ambientes com excesso de texturas, o método apresenta uma baixa taxa de
falsas detecções, aumentando a confiabilidade no segmento de reta encontrado na ima-
gem.
2.8 Relação Com o Trabalho
Neste trabalho é proposto um framework capaz de calibrar câmeras de vigilân-
cia automaticamente. Todo o processo é voltado para câmeras estenopeicas, as quais
têm sua modelagem matemática descrita em (HARTLEY; ZISSERMAN, 2003) e (CIS-
MOSKI; ROCHA, 2012). O processo de calibração do nosso framework é inspirado no
Capítulo 2. Estado da Arte 40
Figura 2.25: Criação das regiões de suporte de acordo com as orientações de cadapixel. Para cada pixel da imagem original é definida sua orientação de acordo com seugradiente. Em seguida, os pixels são agrupados em regiões de suporte. Figura adaptadade Gioi et al. (2010).
trabalho explanado de Lv et al. (2002), os quais propõem estimar os parâmetros neces-
sários para calibração a partir de objetos provenientes da cena, pedestres. Contudo, o
uso exclusivo de pedestres acrescenta grande incerteza durante a calibração da câmera,
requerendo um intenso processo de filtragem de ruídos e seleção de melhores exemplos
pedestres. Lee e Nevatia (2011) mostram que, utilizar informações de estruturas antró-
picas, diminui a complexidade da calibração, além de tornar o resultado mais preciso.
Assim, neste trabalho são utilizadas conjuntamente as informações extraídas das pessoas
e das estruturas antrópicas da cena.
A subtração de background é utilizada para extrair os dados dos pedestres e da
estrutura antrópica da cena. Com o uso da subtração de background pretende-se evitar
detectores especializados em pedestres, e obter uma imagem de fundo com a mínima
presença de objetos não permanentes na cena. A ABL foi escolhido por apresentar um
processo simples de segmentação, capaz de atingir taxas de repostas que superam 30 FPS.
Neste trabalho, a ABL sofreu uma modificação com a inclusão das operações morfológicas
de dilatação e erosão dos blobs. As operações morfológicas permitem tratar as regiões
de falhas de segmentação, que ocorrem dentro dos blobs. Com esta modificação, o ABL
supera as taxas de acerto dos métodos citados na Seção 2.5.
Os pontos de fuga da imagem permitem estimar os parâmetros intrínsecos e a
matriz de rotação da câmera. A detecção dos pontos de fuga da imagem são estimados
por meio do método proposto por Wildenauer e Hanbury (2012). Ainda que o método
de Wildenauer e Hanbury (2012) apresente uma taxa de acerto um pouco menor que os
trabalhos propostos por Lezama et al. (2014) e Xu et al. (2013), em torno de 1, 0%, este
apresenta a melhor taxa de resposta, requerendo apenas 35 ms em média para detectar
os pontos de fuga da imagem. Para avaliação os métodos foram submetidos a dois data
Capítulo 2. Estado da Arte 41
sets públicos com imagens de cenas antrópicas: o Eurasian Cities Dataset de Barinova
et al. (2010), e o York Urban Dataset de Denis et al. (2008).
Da imagem de background, são extraídos todos os conjuntos de segmentos de
reta. Wildenauer e Hanbury (2012) utilizam este conjunto de segmento de retas como
base para estimar os pontos de fuga da imagem. A extração dos segmentos de reta é
feita por (GIOI et al., 2010), o qual apresentou a melhor taxa de acerto e o menor tempo
consumido durante o processo de detecção de retas.
Por fim, os dados das pessoas são utilizados para inferir a altura da câmera
em relação ao solo. De cada blob é extraído o seu eixo principal. O conjunto de eixos
principais é filtrado, selecionando apenas os eixos que convirjam para o ponto de fuga
vertical. Em seguida é calculada a altura relativa de cada eixo, por meio da invariância
da relação cruzada de Criminisi et al. (2000) e gerada uma distribuição de altura relativa
que se aproxime da distribuição de altura real da população, (VISSCHER, 2008).
Capítulo 3
Visão Geral do Sistema Proposto
Conteúdo3.1 Requerimento e Premissas . . . . . . . . . . . . . . . . . . . . 42
3.2 Arquitetura do Sistema Proposto . . . . . . . . . . . . . . . . 43
3.3 Métricas de Avaliação e Data sets . . . . . . . . . . . . . . . 46
O sistema de calibração automática de câmeras de vigilância proposto neste
trabalho tem como principal objetivo estimar os parâmetros intrínsecos e extrínsecos,
utilizando informações de objetos encontrados regularmente na cena monitorada. Esta
abordagem permite automatizar o processo de calibração, não requerendo qualquer in-
tervenção humana. As informações são extraídas de pedestres, estruturas antrópicas pre-
sentes na cena, objetos móveis e estáticos. Essas informações são extraídas por métodos
especializados e processadas para eliminar os ruídos durante a estimativa dos parâmetros.
Neste capítulo, será apresentado um panorama do método proposto. Serão
descritas as condições mínimas para aplicação da calibração automática (Seção 3.1). Em
seguida será apresentada uma arquitetura do sistema (Seção 3.2), descrevendo cada etapa
do framework proposto, e como elas se relacionam. Por fim, será apresentada a forma
de avaliação dos resultados e os data sets utilizados (Seção 3.3).
3.1 Requerimento e Premissas
A aplicação do framework de calibração de câmera proposto neste trabalho
requer algumas condições básicas para a sua aplicação. A câmera de vigilância e a cena
monitorada por ela têm de apresentar algumas características necessárias para que o
framework atinja seu objetivo, os quais são:
42
Capítulo 3. Visão Geral 43
• a câmera de vigilância deve ser do tipo estenopeica e estática;
• caso a câmera tenha sua posição e orientação alterada durante a captura do vídeo,
o framework pode retornar parâmetros incorretos, ou não ser possível encontrar os
parâmetros;
• caso a posição e orientação da câmera mudar apoś a calibração, este processo deverá
ser executado novamente;
• A câmera deve apresentar uma orientação a qual sempre deverá conter o plano do
chão na imagem;
• É assumido que a formação da imagem não apresenta distoção radial de qualquer
tipo.
A cena monitorada deve conter alguns elementos importantes para a estimativa
dos parâmetros de calibração, que são:
• estruturas antrópicas estáticas, tais como estruturas de prédios, caso contrário a
detecção dos pontos de fuga da imagem será prejudicada.
• presença de pedestres durante a captura do vídeo, necessários para determinar a
altura da câmera.
Ainda que o framework proposto apresente algumas limitações de aplicação,
isto não impedirá a sua aplicação em ambientes monitorados, a exemplo de shoppings,
aeroportos, estações de trem e parques. Os objetos exigidos na cena são comumente
encontrados em muitos cenários monitorados, não se tornando um restrição crítica.
3.2 Arquitetura do Sistema Proposto
O processo de calibração automática de câmera é composta por alguns métodos,
que integram framework proposto. Cada um dos métodos tem uma funcionalidade es-
pecífica, e quando alinhados, conforme proposto neste trabalho, colaboram para estimar
os parâmetros intrínsecos e extrínsecos da câmera. Este framework pode ser dividido em
etapas ilustradas na Fig. 3.1 e descritas a seguir.
A modelagem matemática define a quantidade de parâmetros requeridos para
calibrar a câmera. Neste trabalho, será adotada a modelagem sugerida por Lv et al.
(2002), assumindo premissas semelhantes a Krahnstoever e Mendonca (2005), o qual
limita o processo de calibração a estimar quatro parâmetros. Apesar da redução de
Capítulo 3. Visão Geral 44
Figura 3.1: Framework proposto de calibração automática de câmeras de vigilância.A área vermelha representa os processos relacionados a extração de dados de baixonível. Em amarelo, são extraídos os dados de nível médio e em azul os dados de altonível. Na área em verde, há os processos de estimativa dos parâmetros de calibração.
elementos, não há perda de generalização da aplicação. Estes parâmetros são estimados
de acordo com os pontos de fuga da imagem e a distribuição das alturas relativa das
pessoas observadas no vídeo de vigilância.
Definida a modelagem matemática, o próximo passo é extrair os dados do vídeo
de vigilância. Foi escolhida a subtração de background como ferramenta para extrair
os dados do vídeo. O objetivo é obter dois tipos de dados: Um conjunto de blobs dos
pedestres na cena e uma imagem que apresente apenas os objetos estáticos na cena.
Esses dados são obtidos durante o decorrer do vídeo de forma conjunta, e servem como
base para a calibração. O processo de subtração de background é aplicado por meio do
Capítulo 3. Visão Geral 45
método ABL modificado, o qual apresentou resultados que superaram os outros métodos
de subtração de background. Para esta etapa, é dada o nome de Dados de Baixo Nível(
Seção 4.2) pois são informações brutas, que requerem um pós-processamento para ter
uma melhor utilidade.
Os blobs são extraídos de cada frame do vídeo. Cada um desses blobs são apro-
ximados a uma elipse, utilizando o método de Fitzgibbon e Fisher (1995), armazenando
apenas o eixos principais de cada elipse. Como os blobs são extraídos de cada frame do
vídeo, é comum a ocorrência de dois ou mais eixos principais com o mesmo tamanho e
posição. Cada eixo principal é indexado a uma estrutura de acordo com seu tamanho e
posição, com o intuito de evitar repetição de dados. Isso diminui a possibilidade de po-
larização de resultados durante processos iterativos, a exemplo do RANSAC. A imagem
de background, gerada também durante o processo de subtração de background, passa
por um processo de extração de segmentos de reta. O método de Gioi et al. (2010) é
utilizado para obter as retas das estruturas estáticas presentes na cena. Estas retas são
armazenadas em uma estrutura de dados e ordenadas de acordo com sua orientação.
Posteriormente, essa ordenação facilitará o processo de seleção dos segmentos de reta
durante a detecção dos pontos de fuga. Esta etapa de obtenção e armazenamento dos
eixos principais dos blobs, e dos segmentos de reta obtidos da imagem de background, é
chamada de Dados Intermediários, Seção 4.3, pois esses dados permitem determinar os
pontos de fuga da imagem, e a distribuição das alturas relativas.
Os pontos de fuga da imagem são de grande importância para a calibração da
câmera. Os pontos de fuga auxiliam também na filtragem de eixos principais errôneos,
gerados a partir de blobs ruidosos. Os pontos de fuga são detectados utilizando o método
de Wildenauer e Hanbury (2012), com uma modificação durante o processo de seleção
dos segmentos de exemplos. A seleção dos segmentos de reta utiliza um histograma das
orientações para definir qual delas concentram maior número de segmentos de reta, po-
dendo diminuir o espaço de busca. Conhecido os pontos de fuga da imagem, é aplicado
um filtro de convergência nos eixos principais dos blobs, selecionando apenas os eixos
principais que apontem para o ponto de fuga vertical, VY . Em seguida, é calculada a
altura relativa de cada eixo principal selecionado. Esses dados serão utilizados direta-
mente para estimar os parâmetros intrínsecos e extrínsecos da câmera, motivo pelo qual
esta etapa é chamada de Dados de Alto Nível, Seção 4.4.
A etapa final do processo de calibração é a Estimativa dos Parâmetros, a qual
utilizará os dados provenientes dos Dados de Alto Nível para determinar as quatro infor-
mações necessárias para encontrar as matrizes de parâmetros intrínsecos e extrínsecos.
Os pontos de fuga permitem derivar diretamente a distância focal, f , e a matriz de ro-
tação, R, restando apenas determinar a altura da câmera ao plano do chão, hc. Para
Capítulo 3. Visão Geral 46
Figura 3.2: Mapa de coordenadas do plano do chão. Os pontos apresentam coorde-nadas em metros. As coordenadas são relativas ao ponto de origem do mapa, localizadono centro do mapa. Figura adaptada de PETS (2006).
determinar hc, será utilizada a distribuição das altura relativas dos eixos principais sele-
cionados na etapa anterior, e a distribuição real das alturas das pessoas. A distribuição
das alturas relativas é refinada para se aproximar da distribuição real das alturas das
pessoas. Para esta tarefa é aplicado o RANSAC, o qual avalia a distribuição gerada por
cada iteração, selecionando a distribuição que apresentar maior numero de elementos.
Em seguida, é aplicada a Eq. 2.15, que utiliza a média das alturas relativas e a média
das alturas reais para estimar a altura da câmera.
3.3 Métricas de Avaliação e Data sets
Para avaliar o framework são utilizadas três métricas diferentes. Cada uma
dessas métricas avalia a exatidão do framework proposto, possibilitando compará-lo a
trabalhos relacionados na Seção 2.4. As métricas utilizadas são:
• Medida do chão permite avaliar o mapeamento do plano do chão com o plano da
imagem. Para aplicar esta avaliação, é necessário conhecer o comprimento entre
pontos de referência no plano do chão, como ilustrado na Fig. 3.2. Estes pontos
são reprojetados, calculadas suas distâncias e então comparados os valores obtidos
com as distâncias reais. A diferença entre a métrica real e a métrica estimada
representa o erro do mapeamento do plano do chão na imagem;
• Altura real avalia a precisão na estimativa das alturas reais dos pedestres na cena.
Esta avaliação requer um ambiente controlado, no qual cada pedestre é rotulado
manualmente indicando a sua altura real. Após a calibração da câmera, cada
pedestre tem sua altura real determinada por meio da Eq. 2.14, que utiliza altura
relativa e a altura da câmera. O erro é determinado pela diferença entre o valor
estimado e o valor da altura real anotada;
Capítulo 3. Visão Geral 47
Figura 3.3: Exemplos de cenas providas pelos data sets. Cada coluna representa umconjunto de data sets e seus diferentes cenários e ângulos de captura. Algumas figurassão retiradas de (PETS, 2006), (PETS, 2007) e (CVLAB, 2013).
• FHH RMSE, denota o acrônimo de foot-head homology root mean square error, e
avalia a reprojeção dos eixos principais de cada pessoa por meio do erro quadrático
médio da homologia do eixo principal. Esta métrica permite avaliar o quanto o
eixo principal reprojetado se afasta do eixo principal anotado na cena, e torna
a avaliação livre da necessidade de conhecer comprimentos reais de objetos da
cena. O valor do erro é determinado pela Eq. 2.20. Esta métrica permite avaliar
conjuntamente a estimativa da orientação e da altura da câmera permitindo avaliar
o erro de reprojeção após o processo de calibração.
Com o intuito de submeter o framework a diferentes cenários, foram escolhidos
data sets que apresentem variações de ângulos de captura do vídeo, variação da ocupação
Capítulo 3. Visão Geral 48
Data set PETS 2006 PETS 2007 CVLAB IVISIONAmbiente fechado fechado aberto e fechado fechadoOcupação média alta baixa baixa
Cena não controlada não controlada controle parcial controlada# de visões 4 2 5 3# de frames 2500 2500 2500 2500
Tipo de analise medidas do chãoFHH RMSE FHH RMSE FHH RMSE altura real
Tabela 3.1: Resumo das características principais dos data sets utilizados.
da cena e diferentes cenários reais de monitoramento, ilustrados na Fig. 3.3. Os data
sets também devem atender as limitações de aplicação de cada uma das métricas. Cada
um dos data sets selecionados são descritos a seguir:
• PETS 2006 é um data set oriundo de uma competição de sistemas de monito-
ramento inteligentes, capazes de detectar abandono de bagagem (PETS, 2006).
Todos os data sets foram gerados em uma estação de trem europeia, composta
por transeuntes com diferentes vestimentas, alturas, tipos de andar e formatos de
corpo. São disponibilizados quatro vídeos com ângulos diferentes de captura. Nos
vídeos, há média ocupação dos espaço, ocorrendo cruzamento de pedestres e oclu-
são parcial do corpo. Junto com este data set há um mapa de coordenadas em
metros do plano do chão, possibilitando avaliação da medida do chão. É utilizado
também a FHH RMSE para avaliar a calibração, uma vez que são desconhecida as
alturas reais dos pedestres da cena;
• PETS 2007 é um data set proveniente da mesma competição que PETS (2006).
Em (PETS, 2007), é monitorado um saguão de um aeroporto, e mantido o mesmo
desafio de detecção de abandono de bagagem. Contudo, o cenário apresenta uma
alta taxa de ocupação de pessoas com grande frequência de cruzamento de pedestres
e oclusão parcial dos corpos. Neste data set, a calibração da câmera é avaliada por
meio do FHH RMSE;
• CVLAB, (CVLAB, 2013), apresenta um conjunto de diferentes vídeos de vigilância
que monitoram ambiente abertos e fechados. Este data set apresenta cenas com
diferentes iluminações e ângulos de captura. Ainda que a ocupação da cena seja
controlada, os data sets gerados em ambientes públicos são expostos a condições
não controladas, acarretando na presença de objetos móveis diferentes de pedestres.
É utilizada a FHH RMSE para avaliar a calibração de câmera aplicada a esse data
set ;
• IVISION LAB é um data set gerado especificamente para este trabalho, com o
intuito de avaliar diretamente a estimativa da altura real das pessoas presentes na
Capítulo 3. Visão Geral 49
cena. O data set tem taxa controlada de ocupação de pessoas, e a altura de todos
os pedestres presentes na cena é conhecida. São gerados vídeos com três ângulos
diferentes de captura, dentro do mesmo ambiente fechado. A calibração de câmera
é avaliada utilizando a métrica da altura real.
Na Tabela 3.1, é ilustrado um resumo das características relevantes dos data
sets. A análise de resultados será melhor apresentada e discutida no Capítulo 5.
Capítulo 4
Calibração Automática de Câmeras
de Vigilância
Conteúdo4.1 Modelagem Geométrica . . . . . . . . . . . . . . . . . . . . . . 51
4.2 Dados de Baixo Nível . . . . . . . . . . . . . . . . . . . . . . . 52
4.2.1 Adaptive Background Learning com Operador Morfológico . . . 53
4.3 Dados Intermediários . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.1 Eixo Principal do Blob . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.2 Segmentos de Reta da Imagem de Background . . . . . . . . . 59
4.3.3 Armazenamento dos Segmentos de Reta . . . . . . . . . . . . . 59
4.4 Dados de Alto Nível . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4.1 Detecção dos Pontos de Fuga da Imagem . . . . . . . . . . . . 61
4.4.2 Filtro de Convergência e Cálculo da Altura Relativa . . . . . . 63
4.5 Estimativa da Altura da Câmera . . . . . . . . . . . . . . . . 65
4.6 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . 67
A calibração de uma câmera é uma importante ferramenta para aplicações de
vigilância. Automatizar o processo de calibração permite diminuir o tempo humano em-
pregado nesta tarefa, tornando-o independente de intervenções externas. Neste trabalho
é proposto um framework capaz de calibrar câmeras de vigilância de forma automática,
por meio de informações do contexto da cena. Os dados necessários para a calibração
são extraídos de objetos que compõem a cena monitorada.
O framework é um conjunto de pequenos componentes integrados, que proveem
uma ferramenta robusta de calibração automática. Estes componentes são agrupados de
acordo com o nível de dados que fornecem. Os dados de baixo nível são dados brutos,
50
Capítulo 4. Calibração Automática de Câmeras de Vigilância 51
basicamente um conjunto de pixels, Seção 4.2. A estes pixels são aplicados métodos para
descrevê-los de forma compacta e representativa, rotulados como dados intermediários
(Seção 4.3). Na próxima etapa, são estimados os dados de alto nível (Seção 4.4): pontos
de fuga e altura relativa do eixos principais. Todos os dados são extraídos de acordo com
o vínculo apresentado na modelagem geométrica da câmera (Seção 4.1), que determina
a relação entre as características da cena e os parâmetros de calibração. Na última
etapa (Seção 4.5), os parâmetros intrínsecos e extrínsecos da câmera são estimados após
ajustar a distribuição das alturas relativas, para que se aproxime da distribuição das
alturas reais.
4.1 Modelagem Geométrica
A modelagem geométrica da câmera descreve como serão determinados os parâ-
metros intrínsecos e extrínsecos e qual a relação com os elementos extraídos da imagem.
Câmeras estenopeicas são modeladas de acordo com a formação da imagem no seu inte-
rior e com a posição e orientação de captura de imagem no espaço do mundo, chamados
respectivamente de parâmetros intrínsecos e extrínsecos. Neste trabalho, é utilizada a re-
lação proposta por Lv et al. (2002) entre os elementos da cena (imagem) e os parâmetros
intrínsecos e extrínsecos para calibrar a câmera.
Com o intuito de diminuir a quantidade de parâmetros sem perder a genera-
lidade do problema, são adotadas as restrições de Krahnstoever e Mendonca (2005) ao
modelo da câmera. Durante a captura do vídeo assume-se que a imagem possua uma
razão de aspecto conhecida, e não apresente qualquer tipo de distorção radial. O ponto
nodal do plano da imagem possui coordenadas c(0, 0). Essas restrições tornam a matriz
de parâmetros intrínsecos definida apenas pela distância focal f . Para definir a ma-
triz de rotação é requerido conhecer apenas os ângulos que determinam a rotação em
torno dos eixos Z e X da câmera. O ângulo em torno de Y pode ser ignorado, uma
vez que a câmera se encontra estática em relação ao plano do chão, como mostrado em
(KRAHNSTOEVER; MENDONCA, 2005). Portanto, a matriz de rotação da Eq. 2.5
tem RY substituída pela matriz identidade, sendo necessário determinar os ângulos ρ e
θ, descrito na Eq. 2.17. É assumido também que as coordenadas da câmera coincide com
o sistema de coordenadas do mundo no eixo X e Y do espaço, e que o ponto de origem
do mundo está no plano do chão abaixo do ponto central da câmera, C. O vetor de
translação, t, então pode ser escrito como t = [0, 0, hc], no qual hc é a altura da câmera.
As premissas adotadas neste trabalho resumem o processo de calibração para
a tarefa de estimar quatro parâmetros: a distância focal f , os ângulos de rotação ρ e
θ e a altura da câmera hc. Lv et al. (2002) mostrou que f e os ângulos de rotação da
Capítulo 4. Calibração Automática de Câmeras de Vigilância 52
Figura 4.1: Exemplos de segmentação de pedestres por meio da subtração de back-ground. A imagem superior a esquerda é um frame extraído de um vídeo. Abaixo destaimagem está a imagem de background em formação. Nela é possível observar a presençade uma pessoa em pé, que após algum tempo parada, se tornou parte do background.A direita tem a imagem de foreground a qual apresenta os elementos em movimento nacena com cores diferentes de preto. É notável a falha de segmentação no pedestre naparte inferior a direita da imagem. A imagem superior a direita mostra a delimitaçãodos objetos móveis no frame original
câmera podem ser estimados por meio dos pontos de fuga da imagem, enquanto que hcpode ser estimado utilizando a invariância da relação cruzada de Criminisi et al. (2000).
A relação entre os parâmetros e os dados extraídos da imagem são descritos em detalhes
na Seção 2.4.1.
4.2 Dados de Baixo Nível
Nesta etapa, serão extraídos dados com pouca representatividade, porém vitais
para toda a automatização do processo de calibração. A primeira etapa do processo de
calibração é a segmentação dos pedestres na imagem e a definição das estruturas estáticas
do ambiente monitorado.
Capítulo 4. Calibração Automática de Câmeras de Vigilância 53
Há muitas formas de detectar, segmentar e extrair informações de pedestres na
cena. É utilizada aqui uma forma de segmentação em vídeos, a subtração de background.
Esta ferramenta permite segmentar elementos que se movam de elementos estáticos na
cena. Assumindo a calibração de uma câmera de vigilância estática, a segmentação por
subtração de background surge como uma ferramenta que segmenta os pedestres e outros
objetos que se movam, ao mesmo tempo que gera uma imagem limpa da cena de fundo
como ilustrado na Fig. 4.1. Essa segmentação retorna basicamente uma imagem binária
que destaca a região dos elementos segmentados em branco, e uma imagem de fundo com
elementos estáticos da cena. A grande vantagem em utilizar a subtração de background
é a capacidade de adaptação a cenários com baixa iluminação e seu funcionamento em
diferente posições de captura do vídeo, sem a necessidade de qualquer pré-treino.
Na Seção 2.5, há alguns métodos de subtração de background que atingiram os
melhores resultados na avaliação de Sobral e Vacavant (2014). Entretanto, estes métodos
não apresentaram desempenho suficiente para aplicá-los diretamente na calibração auto-
mática devido as frequentes falhas na segmentação ou baixas taxas de FPS. Desse modo,
foi proposta uma modificação do método ABL de forma que mantenha sua velocidade
adequada para a aplicação, junto com bons resultados de segmentação.
4.2.1 Adaptive Background Learning com Operador Morfológico
A segmentação do foreground no método ABL ocorre mediante uma comparação
direta com o módulo do valor da diferença entre a imagem de background e o frame atual
do vídeo, com um limiar T . A modelagem da imagem de background é decrementada ou
incrementada por ι, dependendo da variação negativa ou positiva da diferença aplicada
no processos de segmentação (ver Seção 2.5.1). Estas poucas etapas de processamento
tornam o ABL um dos métodos com maior velocidade de processamento. Contudo, o
processo de segmentação apresenta falhas quando há pequenas variações de luminosidade,
ou mesmo quando a textura do fundo da cena se aproxima da textura da vestimenta do
pedestre, como ilustrado na Fig. 4.2. Estas falhas tornam o desempenho do ABL o pior
entre os quatros métodos de subtração apresentados na Seção 2.5.
As falhas de segmentação do ABL surgem em forma de buracos nos blobs.
Esses buracos são regiões nos quais a diferença entre a cor do objeto em movimento e a
imagem de background não superou o valor do limiar T . Essas falhas não costumam ter
grande importância e são temporárias, desaparecendo à medida que o objeto se move e
a sua textura é confrontada com outras regiões da imagem de background. Essas falhas
podem deformar os blobs, acarretando erros na estimativa dos eixos principais, etapa
importante para a calibração da câmera. A imagem binária, que delimita a região dos
Capítulo 4. Calibração Automática de Câmeras de Vigilância 54
Figura 4.2: Falha de segmentação de pedestres utilizando o método ABL. A esquerdada figura há a imagem original extraída do vídeo, e, à direita há a máscara bináriaresultante da segmentação do foreground. Em verde, é marcada uma pessoa sentada nacena. Algumas partes do seu corpo são segmentadas, como a cabeça e seus braços. Emazul, há um pedestre que se move por uma região com fundo escuro; ocorre uma grandefalha de segmentação, pois a vestimenta do pedestre apresenta cores muito próximasàs cores de fundo da imagem. Em vermelho é segmentada uma pessoa durante suacaminhada. Contudo, uma pequena região, que apresenta uma proximidade de cores,divide o seu blob em duas partes. Os dados resultantes da regiões delimitadas emazul e verde serão descartados, enquanto que a região delimitada em vermelho seráaproveitada por meio de operações morfológicas.
objetos segmentados, retrata as falhas de segmentação como buracos pretos nas regiões
brancas.
Uma forma simples de corrigir o problema das falhas de segmentação é utilizar
operadores morfológicos. Operadores morfológicos são operações de convolução aplicados
na imagem, alterando a sua distribuição de cores, (HEIJMANS; ROERDINK, 1998). Os
operadores morfológicos são capazes de alterar o formato de regiões de cores, dilatando
ou erodindo as suas bordas de acordo com a máscara de convolução predefinida. A
máscara é uma pequena imagem binária, geralmente de tamanho 5×5, que percorre
a imagem original. A máscara é centralizada sobre cada pixel da imagem, onde são
analisados os pixels vizinhos ao pixel central. É gerada uma nova imagem com novos
valores para o pixel centralizado, como ilustrado na Fig. 4.3. Na operação de dilatação,
o pixel central recebe o maior valor encontrado entre seus vizinhos, enquanto que no
processo de erosão ocorre o oposto, inserindo no pixel central o menor valor encontrado
entre os vizinhos. Após a etapa de segmentação do foreground, as máscaras binárias são
submetidas a uma operação de dilatação, seguida por outra operação de erosão. A etapa
de dilatação aumenta o tamanho das áreas em branco, extrapolando a borda das regiões
de segmentação. Esta expansão permite preencher com a cor branca as regiões internas
que apresentem falhas de segmentação, tornando-os agora parte da região segmentada
como foreground, como ilustrado na Fig. 4.4. Porém, a região dilatada tem uma área
Capítulo 4. Calibração Automática de Câmeras de Vigilância 55
Figura 4.3: Processo de aplicação de operadores morfológicos. A imagem superior dafigura ilustra um processo de dilatação da bordas da imagem. É apĺicada uma máscarade tamanho predefinido, a qual substitui o valor original do pixel pelo maior encontradoentre seus vizinhos. O processo de erosão substitui o valor do pixel pelo menor valorencontrado nos seus vizinhos, ilustrado na região inferior da figura. Ambos os processosgeram novas imagens como resultado. Figura adaptada de OpenCV (2015b).
maior que a ocupada pelo objeto em movimento, e se faz necessário aplicar o processo de
erosão para que a área volte a ocupar o espaço do objeto segmentado. Durante a operação
de erosão as regiões diminuem suas bordas externas, não alterando sua região interna
preenchida, conforme ilustrado na Fig. 4.4. Essa combinação de operações corrige grande
parte das falhas de segmentação, o que aumenta a exatidão da segmentação com pouca
perda na velocidade de processamento (isto será melhor analisado na Capítulo 5). No
entanto, o uso de operadores morfológicos provoca um efeito colateral que une os blobs
de pessoas muito próximas. Estes grandes blobs geram uma grande quantidade de ruído
que são filtrados por meio dos pontos de fuga da cena, na etapa de dados de alto nível
Seção 4.4. Este método tem seu pseudocódigo descrito em Alg. 1
4.3 Dados Intermediários
A etapa de aquisição de dados de baixo nível desempenha um papel funda-
mental no processo de automatização da calibração da câmera de vigilância, entregando
Capítulo 4. Calibração Automática de Câmeras de Vigilância 56
Figura 4.4: Resultado da aplicação da operação morfológica de dilatação e erosãona segmentação dos pedestres. A segmentação do pedestre da imagem original com oABL resulta na segunda imagem. A segunda imagem apresenta o blob do pedestre comalgumas falhas de segmentação. Na terceira imagem, é aplicada uma dilatação no blobdo pedestre, o qual preenche as falhas de segmentação. A dilatação altera o tamanhodo blob, expandindo suas bordas. Para retornar ao tamanho original do blob, é aplicadouma erosão. Esse processo de erosão reduz o tamanho do blob, mantendo preenchidoas regiões corrigidas na etapa de dilatação.
informações importantes sobre o fundo da cena e os pedestres. Contudo uma imagem e
uma máscara binária com os objetos segmentados são informações brutas com baixa re-
presentatividade. A etapa de dados intermediários tem o objetivo de aplicar descritores,
tornando os dados ofertados pela etapa anterior mais representativos geometricamente.
Na etapa de dados intermediários serão aplicados descritores geométricos para
representar os blobs e os dados que serão extraídos da imagem de background. Os dados
de foreground e background serão representados por segmentos de reta. Porém, a forma
de obtenção dos segmentos de reta ocorrerá de maneira diferente para cada tipo de dado
bruto recebido. Os blobs serão aproximados a elipses, e o eixo principal da elipse será
o descritor do blob. Na imagem de background são extraídos segmentos de reta, como
ilustrado na Fig. 4.5. Os segmentos de reta são armazenados em estruturas de dados,
indexados de acordo com os pontos que delimitam o seu tamanho, e são ordenados de
forma crescente de acordo com sua orientação.
A seguir será detalhado, na Seção 4.3.1, o processo de representação dos blobs
em segmentos de reta, e a extração dos segmentos de reta da imagem de background na
Seção 4.3.2. Por fim, a forma como os segmentos de dados são indexados e ordenados na
estrutura de dados é relatada em 4.3.3.
Capítulo 4. Calibração Automática de Câmeras de Vigilância 57
Algoritmo 1: Método do ABL com Operador Morfológico1 Dados de entrada:2 Vídeo ou conjunto de frames da cena monitorada Ii;3 Parâmetros:4 Limiar T ;5 Taxa de atualização da imagem de background ι;6 Tamanho da máscara dos operadores morfológicos L;7 Dados de saída:8 Imagem de background IB;9 Conjunto de máscaras de foreground IF ;
10 Instruções11 Inicializar IB ← I012 para cada frame i do vídeo faça13 para cada pixel p do frame Ii faça14 número η ← (pI − pIB )15 se |η| > T então16 pIF i ← 117 senão18 pIF i ← 019 fim20 se η > 0 então21 pIB ← (pIB + ι)22 senão23 pIB ← (pIB − ι)24 fim25 fim26 dilatação(IF i,L)27 erosão(IF i,L)28 fim29 retorna IB, IF
4.3.1 Eixo Principal do Blob
Os blobs são regiões de cor branca em uma máscara binária, a qual delimitam a
área do objeto segmentado. Esses blobs representam objetos em movimento na cena, os
quais são pedestres em sua maioria. Para aplicar a calibração automática, é necessário
conhecer a altura relativa dos pedestres da cena, o qual requer conhecer os pontos, mais
alto e o ponto mais baixo de cada pedestre na imagem. É possível encontrar o ponto
mais altos e mais baixo de cada pedestre utilizando seus respectivos blobs. Uma forma
simples de encontrar os pontos de interesse, o ponto mais alto e o ponto mais baixo do
blob, é percorrer a borda do blob e encontrar os pontos que apresentem o maior e o menor
valor na coordenada do eixo Y . Entretanto, esta busca é viável somente se não houver
variação da rotação da câmera em torno do seu eixo Z. Outra maneira de determinar os
pontos de interesse seria encontrar os pontos na borda do blob com maior distância entre
si. Se o objeto representado pelo blob apresentar uma amplitude maior que a sua altura,
Capítulo 4. Calibração Automática de Câmeras de Vigilância 58
Figura 4.5: Extração dos eixos principais dos blobs e detecção dos segmentos de retana imagem de foreground das cenas monitoradas.
como abrir os braços durante a caminhada, os pontos estimados podem não definir o
ponto mais alto e o ponto mais baixo do pedestre.
O método de Fitzgibbon e Fisher (1995) avalia o contorno do objeto na imagem,
e determina a melhor elipse que descreve essa região. Krahnstoever e Mendonca (2005)
e Liu et al. (2011) mostraram que blobs de pedestres podem ser aproximados a elipses
para determinar os pontos de interesse, que correspondem ao ponto mais alto e o ponto
mais baixo do eixo principal da elipse. Essa forma de estimar o eixo principal, independe
da orientação da câmera, e é menos sensível a deformações do blob durante a caminhada
do pedestre, como ilustrado na Fig. 4.6. Aproximar blobs com elipses requer cuidados
posteriores. Quando aplicado a blobs deformados, o método de Fitzgibbon e Fisher (1995)
retorna eixos principais errôneos, alongados ou retraídos, indicando falso ponto mais alto
e ponto mais baixo. A orientação do eixo principal pode ser prejudicada também, quando
ocorre união de blobs. Para diminuir o efeito dos ruídos gerados serão utilizados filtros
capazes de selecionar os melhores exemplos de eixos principais na próxima etapa (ver
Seção 4.4).
Capítulo 4. Calibração Automática de Câmeras de Vigilância 59
Figura 4.6: Extração dos eixos principais dos blobs utilizando aproximação de elipses.Submetido a diferentes formatos de corpos, com diferentes ângulos de captura da ima-gem, a extração dos eixos principais pela aproximação dos blobs a uma elipse retornaresultados estáveis com pouca distorção de tamanhos e orientações. Nas imagens, ocontorno verde representa a região delimitada pela segmentação da subtração de back-ground. Os segmentos de reta em verde, dentro das regiões de contornadas, representamos eixos principais dos blobs.
4.3.2 Segmentos de Reta da Imagem de Background
A imagem de background contém informações relevantes sobre a geometria da
cena monitorada. Essas informações são fundamentais para estimar a orientação da
câmera. Ambientes urbanos seguem o padrão Manhattan World e são caracterizados
por apresentar estruturas antrópicas. Em geral, estes ambientes apresentam estruturas
longilíneas que oferecem dicas da geometria da cena. A detecção de segmentos de reta
permite utilizar essas dicas na detecção de pontos de fuga e, em seguida, estimar os
parâmetros de calibração da câmera.
Neste trabalho, é utilizado o método de Gioi et al. (2010) para detectar os
segmentos de reta da cena. Este método apresenta a melhor taxa de acerto com o menor
tempo consumido para executar a tarefa de detecção (Seção 2.7). Como ilustrado na
Fig 4.7, o método de Gioi et al. (2010) apresenta bons resultados, pois procura evitar
falhas de detecção de segmentos de reta, tornando o resultado confiável, não exigindo
pós-processamento.
4.3.3 Armazenamento dos Segmentos de Reta
Os dados obtidos da segmentação da subtração de background são descritos
como segmentos de reta. Os blobs têm seus eixos principais representados como seg-
mentos de reta, enquanto que a imagem de background possibilita a extração direta dos
segmentos de reta. Descrever os dados como segmentos de reta permite compactar as
informações obtidas em apenas dois pares de coordenadas, os quais delimitam o tamanho
do segmento de reta e oferecem uma forma simples de determinar a sua orientação.
Capítulo 4. Calibração Automática de Câmeras de Vigilância 60
Figura 4.7: Detecção dos segmentos de reta na imagem de background. Detecçãodos segmentos de reta em quatro cenários diferentes. Cada um dos segmentos de retaapresenta uma cor de acordo com a sua orientação, variando de 0o a 180o.
A natureza irregular e aleatória do movimento dos pedestres na cena causa uma
frequente duplicação dos segmentos de reta que os representam. A duplicação de dados
é nociva a métodos iterativos de convergência, a exemplo do RANSAC. A frequente
duplicação dos dados polariza a estimativa, deturpando os resultados finais, induzindo
erroneamente a convergência para os valores que apresentem maior repetição dentro do
conjunto de amostras. É possível livrar o sistema de auto calibração da duplicação com
o controle de inserção dos segmentos de reta na estrutura de dados. O hash map é uma
estrutura de dados sequencial e requer um índice que represente o dado armazenado. Esse
índice deve descrever o objeto de forma singular, não havendo a existência de dois ou
mais dados com o mesmo índice. As características do hash map o destaca como principal
ferramenta para tratar a duplicação dos segmentos de reta. É necessário descrever os
segmentos de reta de forma singular em um único registro numérico. As coordenadas
que delimitam o segmento de reta na imagem o definem de forma única quando descrito
na tupla
ri = (u0, v0, u1, v1) , (4.1)
onde ri é o segmento de reta descrito pelas coordenadas que o delimitam, (u0, v0) e
(u1, v1). As coordenadas concatenadas formam um índice numérico singular para cada
Capítulo 4. Calibração Automática de Câmeras de Vigilância 61
segmento de reta na imagem.
São utilizados dois hash maps, um para o conjunto de eixos principais dos blobs e
outro para o conjunto dos segmentos de reta extraídos da imagem de background. Cada
um dos mapas será utilizado para diferentes propósitos durante a próxima etapa. Os
hash maps tem seus dados ordenados de acordo com a orientação dos segmentos de reta,
dentro de um intervalo de [0o, 180o]. Esta ordenação irá diminuir o tempo em tarefas de
busca na próxima etapa.
4.4 Dados de Alto Nível
Todas as etapas anteriores tornaram possível a extração de informações da
imagem diretamente relacionadas com os parâmetros intrínsecos e extrínsecos da câmera.
Na Seção 4.1, os parâmetros intrínsecos e a orientação da câmera são estimados a partir
dos pontos de fuga da imagem, enquanto que a altura da câmera depende de uma métrica
de referência na cena. Os hash maps com os segmentos de reta extraídos da imagem de
background serão utilizados para determinar os pontos de fuga da imagem, e os eixos
principais serão utilizados para determinar a métrica de referência.
Os pontos de fuga têm uma função importante nesta etapa. Além de propor-
cionar um meio de estimar os parâmetros de calibração da câmera, os pontos de fuga
auxiliam na filtragem de eixos principais ruidosos, os quais apresentam orientações in-
corretas. Os pontos de fuga são utilizados também no cálculo da altura relativa de cada
eixo, informação útil para determinar a altura da câmera. Dessa forma, os pontos de fuga
são os primeiros dados a serem estimados nesta etapa (ver Seção 4.4.1). Em seguida, é
aplicado o filtro de convergência (Seção 4.4.2). Ao final são calculados as alturas relativas
de cada eixo principal selecionado.
4.4.1 Detecção dos Pontos de Fuga da Imagem
Os pontos de fuga da imagem carregam informações importantes da cena mo-
nitorada. Com os pontos de fuga, é possível determinar a linha do horizonte, região
onde convergem todas as retas paralelas ao plano do chão. É possível determinar quais
objetos estão perpendiculares ao plano do chão, avaliando apenas a orientação do objeto
em relação ao ponto de fuga vertical, VY . Os pontos de fuga viabilizam um meio de
estimar a orientação e distância focal da câmera, sem a presença de objetos de referência
no ambiente monitorado.
Capítulo 4. Calibração Automática de Câmeras de Vigilância 62
Os pontos de fuga da imagem concentram grande parte do processo de estima-
tiva dos parâmetros na calibração automática da câmera. Uma detecção incorreta dos
pontos de fuga compromete todo o processo de calibração. Portanto, é necessário aplicar
uma detecção de pontos de fuga confiável, com baixa ocorrência de falhas e que apresente
o menor tempo durante o processo de detecção. A maioria dos métodos de calibração de
câmeras de vigilância utiliza os eixos principais dos pedestres para determinar os pontos
de fuga da imagem. Nestes métodos, são propostas diversas formas de utilizar os eixos
principais, os quais requerem processos complexos e restrições à cena observada. A con-
fiabilidade da estimativa destes pontos dependem da quantidade de amostras de eixos
principais, requerendo grande quantidade de amostras para alcançar bons resultados.
Lee e Nevatia (2011) mostraram que em ambientes urbanos é possível utilizar dicas da
cena para determinar os pontos de fuga da imagem. A detecção dos pontos de fuga da
imagem, por meio de segmentos de reta extraídos diretamente da imagem de background,
aumenta a confiabilidade nos pontos de fuga estimados.
Na Seção 2.6, foram apresentados alguns métodos de detecção dos pontos de
fuga que utilizam segmentos de reta extraídos da cena. Neste trabalho, o método de de-
tecção é baseado na proposta de Wildenauer e Hanbury (2012), o qual utiliza o RANSAC
para estimar os pontos de fuga. Para cada iteração do RANSAC é agrupado aleatoria-
mente quatro segmentos de reta, a cada iteração, para estimar um conjunto de 3 pontos
de fuga na imagem. Os pontos de fuga são estimados a partir da intersecção do prolon-
gamento dos segmentos de reta e do ponto nodal da imagem. Cada um dos segmentos de
reta é agrupados de acordo com o ponto de fuga o qual o segmento aponta. É definido
como parte de um dos grupos de pontos de fuga os segmentos de reta que apresentem um
desvio de orientação menos que T = 1o para qualquer um dos pontos de fuga pertencente
ao grupo. Por fim, o RANSAC seleciona o conjunto de pontos de fuga que apresente
mais segmentos de reta em seus grupos.
Observando a distribuição dos segmentos de acordo com a sua orientação na
Fig. 4.8, é notável uma concentração em torno de uma direção. Os intervalos com os
maiores valores representam segmentos de reta que apontam para uma mesma região na
imagem, podendo ser um ponto de fuga da imagem. O método de Wildenauer e Han-
bury (2012) seleciona quatro amostras de segmentos de reta aleatoriamente para estimar
os pontos. Por meio de uma heurística, é possível diminuir a aleatoriedade da busca
utilizando os intervalos da distribuição das orientações que apresentem maior concentra-
ção de segmentos de reta. Isto diminui o espaço de busca requerendo menos iterações
e consequentemente reduzindo o tempo durante o processo de detecção. Contudo, a
heurística é aplicada apenas quando dois pontos de maior concentração na distribuição
superam em 20% o valor da média das concentrações por orientação, mostrando que há
uma polarização dos segmentos de reta em torno de uma orientação.
Capítulo 4. Calibração Automática de Câmeras de Vigilância 63
Figura 4.8: Distribuição das orientações dos segmentos de reta da imagem. Naprimeira coluna estão representados os segmentos de reta extraídos da imagem de back-ground. Na segunda coluna há a distribuição dos segmentos de reta de acordo com suasorientações em graus. Cada distribuição é divida em 18 partes distribuídas no intervalode [0o, 180o]. Na ultima coluna estão as imagens que representam a estimativa dos ospontos de fuga, onde a reta azul aponta para VZ , a reta vermelha aponta pra VX , areta verde aponta para VY e a reta magenta é a linha do horizonte. Observando asdistribuição das alturas é notável que ocorre uma concentração dos segmentos de retaem torno de determinadas direções.
O uso de segmentos de reta extraídos da cena aumenta a precisão na estimativa
dos pontos de fuga, o que torna a calibração mais exata. Este processo utiliza um recurso
ignorado por métodos de calibração de câmera, o qual é naturalmente encontrado em
ambientes urbanos.
4.4.2 Filtro de Convergência e Cálculo da Altura Relativa
A oclusão parcial de pessoas tende a deformar blobs gerando ruídos, alterando o
tamanho e a orientação dos eixos principais dos blobs. A ocorrência de oclusão é comum
em cenas com grande quantidade de pessoas ou que sejam monitoradas por câmeras
paralelas e próximas ao chão, como ilustrado na Fig. 4.9. No entanto, qualquer cenário
Capítulo 4. Calibração Automática de Câmeras de Vigilância 64
Figura 4.9: Cenário com frequente união de blobs. Apresentam uma orientação decâmera paralela ao planos do chão, e uma altura da câmera próxima a altura média dapopulação observada.
.
com mais de uma pessoa na cena está susceptível a ocorrência de oclusão parcial dos
pedestres.
No geral, blobs deformados possuem eixos principais divergentes, sem um pa-
drão definido. Boas amostras de eixos principais se caracterizam por apresentar orienta-
ções perpendiculares ao plano do chão, pois os pedestres apresentam uma maior extensão
da sua altura em relação a sua largura. O ponto de fuga vertical, VY , é determinado
pela convergência dos segmentos de reta perpendiculares ao plano do chão extraídos das
estruturas estáticas da cena na etapa de detecção dos pontos de fuga. Dessa forma, o
ponto de fuga pode ser usado para filtrar os eixos principais dos blobs, avaliando o quanto
sua orientação se afasta do ponto de fuga vertical da imagem, VY . Para determinar a
correta orientação dos eixos principais, é utilizada a métrica de avaliação baseada na
proposta de Liebowitz e Zisserman (1999). Conhecido o ponto de fuga vertical, VY , e o
centro do eixo principal cep, é projetada uma reta entre esses pontos, a qual será usada
como referência para avaliar o desvio do eixo principal. Em seguida, é calculado o menor
ângulo formado entre o eixo principal e a reta de referência, como ilustrado na Fig. 4.10.
Os eixos principais que apresentarem ângulos menores que um limiar T = 1o permane-
cem no hash map, caso contrário, o eixo é removido do mapa. Este filtro remove todos
os ruídos oriundos da deformação dos blobs que apresentem desvio em relação ao ponto
de fuga vertical, ver Fig. 4.11. Os ruídos restantes apresentam apenas distorções no seu
tamanho. Este tipo de ruído requer um processamento mais complexo e será executado
na próxima etapa de acordo com a distribuição da sua altura relativa.
Selecionadas as boas amostras de eixos principais com o filtro de convergência,
é calculada a altura relativa de cada um destes eixos conforme a Eq. 2.13. Esses dados
também são armazenados em um hash map, o qual será utilizada pela próxima etapa.
Capítulo 4. Calibração Automática de Câmeras de Vigilância 65
Figura 4.10: Representação geométrica da métrica de avaliação da orientação utili-zada no filtro de convergência. VY é o ponto de fuga vertical da imagem, ri representaum eixo principal de blob, e λ é o ângulo formado entre a ri e a reta formada entre oponto central de ri e o ponto de fuga vertical.
4.5 Estimativa da Altura da Câmera
O processo de calibração da câmera de vigilância depende diretamente dos
pontos de fuga da imagem e da medida de um objeto de referência, o qual deve estar
perpendicular ao plano do chão na cena. Os pontos de fuga foram determinados durante
a etapa anterior, tornando possível determinar a distância focal, f , conforme Eq. 2.10,
e os ângulos que definem a orientação da câmera, ρ, definido pelo ângulo formado entre
a linha do horizonte e uma linha horizontal, e, θ, definido pela Eq. 2.11. A altura da
câmera é o único parâmetro restante a ser determinado. Para manter a premissa de
oferecer um framework capaz de executar uma calibração de câmera automaticamente,
a altura da câmera, hc, será estimada aproximando a distribuição das alturas relativas à
distribuição das alturas reais.
Visscher (2008) analisou a distribuição das alturas da população Europeia, e
mostrou que 90% da população está a uma distância relativa de 0, 076 da altura média
da população, como descrito na Eq. 2.19. Essa formulação tornou possível aproximar
a distribuição de alturas relativas à distribuição de alturas reais. Utilizando o RAN-
SAC, será aplicada uma análise estatística iterativa no conjunto de alturas relativas. É
calculada a média atual, µ, das alturas relativas e o seu desvio padrão, σ. As alturas
relativas formam uma distribuição normal, a qual permite restringir a busca em 95% dos
elementos variando em 2σ a partir da média. A restrição abrange os 90% dos elementos,
possibilitando aplicar a seleção das aturas relativas por meio da distância relativa a mé-
dia. A cada iteração do RANSAC, é atribuído, aleatoriamente, um valor de média das
Capítulo 4. Calibração Automática de Câmeras de Vigilância 66
Figura 4.11: Aplicação do filtro de convergência. A primeira coluna apresenta todosos eixos principais extraído dos blobs, enquanto na segunda imagem apresenta os eixosprincipais que foram selecionados pelo filtro de convergência. Muito dos ruídos oriundode deformações dos blobs são removidos.
alturas relativas que esteja contido dentro do intervalo [µ−2σ, µ+2σ]. Para cada altura
relativa no hash map é aplicada a Eq. 2.19, no qual são agrupados eixos principais que
apresentem distância relativa menor que 0, 076. Por fim, será selecionado a média das
alturas relativas que agrupar maior número de eixos principais. Definida a média das
alturas relativas, E(h), e conhecida a altura média da população E(h3D) = 172cm, é
então estimada a altura da câmera utilizando a Eq. 2.15. Todo o processo é detalhado
no pseudocódigo descrito em Alg. 2.
A definição da altura da câmera conclui o processo de calibração automática
de câmeras de vigilância, que permite executar todo o processo sem a necessidade de
intervenção humana durante a calibração.
Capítulo 4. Calibração Automática de Câmeras de Vigilância 67
Algoritmo 2: Método de estimativa da altura1 Dados de entrada:2 Hash map das alturas relativas Hh;3 Parâmetros:4 Distância relativa da média dh;5 Média das alturas E(h3D);6 Número total de iterações N ;7 Dados de saída:8 Altura da câmera hc;9 Instruções
10 Hash map finalh ← 011 µ← mediaDasAlturasRelativas(Hh)12 σ ← desvioPadraoDasAlturasRelativas(Hh)13 para cada iteração n < N faça14 m← numeroAleatorioDentroDoIntervalo(µ− 2σ, µ+ 2σ)15 Hash map temph ← 016 para cada altura relativa hi de Hh faça17 dhi ← distanciaRelativaEntre(m,hi)18 se dhi ≤ dh então19 temph inclue hi no conjunto20 fim21 fim22 se #finalh < #temph então23 finalh ← temph24 fim25 fim26 hc ← E(h3D)/E(finalh)27 retorna hc
4.6 Considerações Finais
O processo de calibrar câmeras de vigilância de forma automática contribui
para o correto funcionamento de outros sistemas que necessitem de informações 3D da
cena. Todo o processo aqui proposto e descrito foi elaborado buscando atender a am-
bientes urbanos com diferentes características, aproveitando as informações comumente
oferecidas em cenas monitoradas. Ainda que haja premissas para aplicar a calibração
automática, o framework é apropriado a muitos dos ambientes monitorados por câmeras,
tornado-o uma ferramenta útil. O que será demonstrado no capítulo seguinte.
A característica modular do framework permite que cada uma das etapas seja
especializada em resolver problemas locais. A etapa de baixo nível, que apresenta como
principal método a subtração de background, torna o método flexível a diferentes ilumi-
nações e diferentes ângulos de captura. O método ABL com operadores morfológicos
diminui a quantidade falhas na segmentação, ao tempo que não degenera velocidade de
processamento. O processo executado pela etapa intermediária compacta as informações
Capítulo 4. Calibração Automática de Câmeras de Vigilância 68
dos pedestres e da estrutura da cena, evitando duplicação dos dados dos eixos principais
dos blobs e dos segmentos de reta extraídos da imagem de background. Na etapa de dados
de alto nível, são obtidos os pontos de fuga da cena, por meio de um método especia-
lizado, que se apoia no padrão encontrado em ambientes antrópicos, Manhattan World.
Por fim, o prévio conhecimento sobre a distribuição das alturas, contribui para definir o
ultimo parâmetro restante no processo de calibração automática. A combinação destas
etapas gerou um framework capaz de executar a calibração sem a intervenção humana.
Capítulo 5
Experimentos e Resultados
Conteúdo5.1 Avaliação do Método ABL com Operadores Morfológicos . 70
5.2 Avaliação da Calibração Automática de Câmeras de Vigilância 72
5.2.1 Avaliação Por Meio da Métrica da Medida do Chão . . . . . . 73
5.2.2 Avaliação Por Meio da Métrica da Altura Real . . . . . . . . . 74
5.2.3 Avaliação Por Meio da Métrica da FHH RMSE . . . . . . . . . 75
5.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . 78
Proposto para ser aplicado a ambientes antrópicos, o framework elaborado neste
trabalho deve lidar com diferentes cenas monitoradas. As diversidades de ambientes
antrópicos, com variação da iluminação e do formato das estruturas presentes na cena,
unido com a variação de poses, trajetória e formato do corpo dos pedestres na cena,
requerem um framework flexível, e capaz de manter bons resultados independente das
adversidades encontradas.
Neste capítulo, o framework proposto será submetido a diferentes conjuntos
de data sets. Estes data sets retratam cenas diferentes, com específicas orientações de
câmeras e taxas de ocupação do espaço específicos, relatadas na Seção 3.3. Cada um
dos data sets possibilita aplicar determinadas métricas, avaliando o framework de três
formas distintas. Na Seção 5.2.1, são apresentados os resultados obtidos da comparação
da distância estimada entre os pontos sobre o plano do chão com o seu real comprimento.
Na Seção 5.2.2, são analisados o valores das alturas estimadas de cada pedestre alvo
na cena. Por fim, é utilizada a métrica FHH RMSE, para avaliar o desempenho do
framework em cenas o qual não há qualquer informação sobre o ambiente. Essa última
métrica permite também confrontar os resultados obtidos com trabalhos relacionados
com calibração de câmeras de vigilância de forma automática.
69
Capítulo 5. Experimentos e Resultados 70
Figura 5.1: Exemplo de avaliação dos métodos de subtração de background. A figura(a) representa uma máscara binária de referência. As demais figuras ilustram os resul-tados obtidos da segmentação dos métodos de subtração de background onde (b), (c),(d), (e) e (f) representam o ABL com operador morfológico, o método (MADDALENA;PETROSINO, 2008), o método (YAO; ODOBEZ, 2007), o método (KAEWTRAKUL-PONG; BOWDEN, 2002) e o ABL, respectivamente. As cores verdes representamregiões de acerto da segmentação; em vermelho estão as regiões erroneamente não seg-mentadas; enquanto que em amarelo estão as regiões erroneamente segmentadas.
5.1 Avaliação do Método ABL com Operadores Morfológi-
cos
A subtração de background executa um papel fundamental no processo da ca-
libração automática da câmera de vigilância. Inclusa na etapa de dados de baixo nível,
a subtração de background é responsável por extrair do vídeo de vigilância os primeiros
dados que são utilizados no processo de calibração. São extraídos dos vídeos os blobs dos
pedestres na cena, e a imagem de background que apresenta as estruturas estáticas da
cena. A qualidade desses dados impactam no resultado final da calibração.
Com o intuito de obter uma segmentação que ofereça bons resultados entre
o foreground e o background do vídeo, foram selecionados os métodos de subtração de
background melhor avaliados por Sobral e Vacavant (2014). Estes métodos estão listados
e descritos na Seção 2.5, os quais propõem formas diferentes de aplicar a segmentação.
Contudo, os métodos apresentaram desempenhos antagônicos quando relacionados a sua
exatidão e a velocidade de processamento. Dessa forma foi proposta uma melhoria ao
método ABL aplicando operadores morfológicos, atingindo bons resultados e superando
os métodos descritos anteriormente.
Capítulo 5. Experimentos e Resultados 71
A avaliação de Sobral e Vacavant (2014) submete os métodos a data sets sim-
ples, poucos objetos em cena e com iluminação regular. Neste trabalho, para avaliar os
métodos de subtração de background, foram utilizados os data sets disponibilizados por
PETS (2006), os quais oferecem quatro diferentes ângulos de captura da mesma cena.
Para cada data sets, foram manualmente marcadas máscara de referência para
cada intervalo de 50 frames. Este intervalo corresponde a um período de dois segundos.
Com um total de 2500 frames para cada data set, o intervalo de 50 frames evita avalia-
ções de frames semelhantes, gerando 50 máscaras binárias de referência. As marcações
delimitam as regiões de objetos móveis na cena, pedestres e seus acessórios, além de
meios de locomoção.
Duas métricas principais foram utilizadas para avaliar os métodos de subtração
de background, a taxa de frames por segundo e a área sob a curva (AUC)1. A AUC
será calculada com base na curva de característica de operação do Receptor (ROC)2 que
representa o resultado de uma classificação binária. No caso da subtração de background
os pixels são rotulados em foreground e background. A curva ROC relaciona a taxa
de verdadeiros positivos (pixels corretamente marcados como foreground) e a taxa de
falsos positivos (pixels erroneamente marcados como foreground) alcançados para uma
determinada tolerância. A curva ROC será gerada a partir da análise de cada pixel da
máscara da imagem segmentada com a máscara marcada manualmente, como ilustrado
na Fig. 5.1.
Cada um dos métodos descritos na Seção 2.5, foi avaliado aplicando a sua
melhor configuração, segundo (SOBRAL; VACAVANT, 2014). O ABL modificado foi
configurado com um limiar T = 53, a taxa de atualização ι = 0, 5 e uma máscara de
dilatação e erosão de tamanho 9. Esses parâmetros foram definidos após uma busca
automatizada. Esses parâmetros foram avaliados conjuntamente, testando o máximo de
combinações possíveis. O valor do limiar foi avaliado dentro do intervalo de 0 < T < 128,
enquanto que a taxa de atualização variou dentro do intervalo de 0 < ι ≤ 1 a cada 0, 01.
O tamanho S das máscaras das operações morfológicas estava contida entre 1 < S ≤ 10.
Como ilustrado na Fig. 5.2, todos os métodos avaliados, incluindo o método
de subtração proposto neste trabalho, apresentaram baixos valores para a AUC. Isso
ocorreu devido a característica dinâmica da cena, o que causa grande quantidade de
falhas durante sua segmentação. Contudo, a inclusão dos operadores morfológicos ao
ABL melhorou sua taxa de acerto em quase 100%, saltando de 0, 18 para 0, 34. O
método ABL com operadores morfológicos alcança o melhor resultado entre os métodos
avaliados.1AUC, do Inglês, area under curve2ROC, do Inglês receiver operating characteristic
Capítulo 5. Experimentos e Resultados 72
Figura 5.2: Gráfico ROC resultante da avaliação dos métodos de subtração de back-ground. O data set utilizado na avaliação, (PETS, 2006), expõe os métodos a cenáriosreais de vigilância, o que degrada os resultados do métodos. Isso ocorre devido a dina-micidade da cena, alterando o seu fundo de cena com frequência.
Uma análise conjunta entre a taxa de FPS e o valor obtido do AUC, revela que
os métodos listados na Seção 2.5 degradavam seu FPS ao passo que atingiam melhores
resultados, como ilustrado na Fig. 5.3. Contudo, a modificação aplicada ao ABL divergiu
deste padrão, apresentando a melhor relação entre AUC e FPS. O método proposto
supera a medida de AUC de todos os outros métodos, com uma taxa de 39 FPS. Essa
taxa de FPS se faz suficiente, posto que câmeras de vigilância apresentam vídeos com
taxas que variam entre 30 a 25 FPS.
Diante dos resultados apresentados, o método proposto é a melhor escolha para
executar a tarefa de subtração de background em câmeras de vigilância. A adição de
operações morfológicas ao processo de segmentação do ABL torna-o capaz de alcançar a
melhor taxa de acerto entre os métodos avaliados, mantendo uma satisfatória velocidade
de processamento.
5.2 Avaliação da Calibração Automática de Câmeras de Vi-
gilância
A analise do framework proposto será fragmentado em três partes, avaliando
aspectos diferentes dos resultados obtidos. A primeira avaliação utiliza medidas do chão
para mensurar a precisão na estimativa de comprimento que se estendem paralelamente
ao plano do chão. A segunda métrica avalia a estimativa de comprimento perpendiculares
Capítulo 5. Experimentos e Resultados 73
Figura 5.3: Gráfico que relaciona o valor AUC com a taxa de FPS. Os gráficos em azule laranja representam, respectivamente, os valores AUC e de FPS para cada um dosmétodos de subtração de background avaliado. Nota-se que os métodos que apresentamos maiores valores de AUC, tendem a degenerar a taxa de FPS, exceto pelo métodoABL com operadores morfológicos, o qual apresentou o maior valor de AUC, com umataxa de frame por segundo superior a 30 FPS.
ao plano do chão, por meio de altura das pessoas na cena. A última métrica avalia a
orientação e tamanho dos eixos principais reprojetados. Essa métrica não requer um
conhecimento prévio de qualquer medida da cena, e ,por essa razão, é utilizada como
métrica de comparação entre outros métodos de calibração.
5.2.1 Avaliação Por Meio da Métrica da Medida do Chão
Estimar a distância percorrida por um pedestre, ou calcular a área de uma
região sobre o plano do chão, são tarefas executadas por sistemas de vigilância. A
avaliação de medidas sobre o plano do chão mostra qual a exatidão da calibração em
estimar distâncias que são coplanares ao plano do chão.
No data set (PETS, 2006), são disponibilizados pontos conhecidos sobre o plano
do chão e suas coordenadas sobre o plano (ver Seção 3.3). Essa métrica do chão é avaliada
nas quatro visões da cena disponibilizadas. Os pontos conhecidos que estão visíveis em
cada cena são combinados, aplicando o maior numero de testes possíveis.
Na Fig. 5.4, há dois gráficos cumulativos, um do erro relativo, e um do erro
absoluto em metros. Avaliando o erro relativo, o gráfico apresenta um comportamento
próximo do linear, o que mostra que o erro ocorre proporcionalmente ao comprimento
da medida estimada. Contudo, todos os erros de estimativa avaliados não ultrapassam
16% do comprimento estimado, e apresentam um erro relativo médio menor que 7%. O
gráfico de erro absoluto revela que 70% dos casos de teste apresentaram um erro menor
que 30 cm.
Capítulo 5. Experimentos e Resultados 74
Figura 5.4: Gráfico acumulativo dos erros obtidos após a estimativa das medidas dochão. No gráfico à esquerda, σ representa o erro relativo máximo encontrado para umaporcentagem de exemplos avaliados. No gráfico a direita, λ representa o erro absolutomáximo em metros encontrado para uma porcentagem de exemplos avaliados.
Analisando os erros por cena, os maiores erros ocorreram quando a câmera
apresentava uma orientação quase paralela ao plano do chão. Essa configuração acentua
a distorção perspectiva, intensificando o erro. Os erros também aumentavam a medida
que os pontos de referência no chão se encontravam distantes da câmera. Por outro lado,
imagens capturadas com a câmera apontando diretamente para o plano do chão, como
ilustrado na Fig. 5.5, apresentaram erros menores, visto que o efeito de perspectiva é
menor.
5.2.2 Avaliação Por Meio da Métrica da Altura Real
Um dos principais objetivos de sistemas de vigilância é a extração de dados dos
objetos alvos. A altura é uma das métricas significativas para descrevê-los. A métrica
da altura real é utilizada para avaliar o erro obtido na estimativa da altura de objetos
que estejam perpendiculares ao plano do chão. Para aplicar a métrica que avalia a altura
estimada, é necessário conhecer as alturas de pessoas de referência na cena e seu eixo
principal. Após o processo de calibração, são calculadas as alturas relativas de cada
pessoa marcada como referência, e de posse do valor da altura da câmera em relação ao
solo, é aplicada a Eq. 2.14 para estimar a altura do objeto alvo. Os data sets públicos não
fornecem informações das pessoas na cena. Assim, foi elaborado um data set privado,
o qual é conhecida a altura de cada pessoa presente na cena. Este data set é gerado
dentro do IVISION LAB, como descrito na Seção 3.3. Para cada um dos três data sets,
são avaliadas 100 amostras de alturas marcadas manualmente.
Na Fig. 5.6, são apresentados dois gráficos acumulativos, onde o primeiro apre-
senta o erro relativo, e o segundo o erro absoluto em metros. Avaliando o erro absoluto,
Capítulo 5. Experimentos e Resultados 75
Figura 5.5: Projeção dos planos do chão estimados após a calibração da câmera.Todas as imagens são do PETS (2006). A plano do chão é representado pela malhaformada pelas linhas azuis e vermelhas; em amarelo estão retas normais ao plano dochão.
o framework apresenta um erro absoluto de 5 cm para 70% do exemplos avaliados, atin-
gindo um erro máximo menor que 25 cm. Assim, como a métrica de medida do chão,
o erro relativo não ultrapassou o valor 16%, apresentando um erro relativo médio me-
nor que 2%. As estimativas que apresentavam valores abaixo das alturas reais, foram
oriundos de eixos principais da pessoas, as quais não estavam eretas na cena. Enquanto
que a estimativa de altura dos objetos distantes da câmera apresentam no geral valores
menores que a sua altura real. Isso ocorre devido perda definição do objeto ao passo que
se afasta da câmera.
5.2.3 Avaliação Por Meio da Métrica da FHH RMSE
Alguns dos data sets de câmeras de vigilância não disponibilizam informações
sobre os objetos na cena. Para contornar esse fato, é utilizada a métrica que avalia a
reprojeção dos eixos principais de cada pessoa por meio do erro quadrático médio da
homologia do eixo principal, que pode ser chamada também como FHH RMSE, descrita
melhor na Seção 3.3. Foram marcados 100 exemplos de amostras em cada um dos data
Capítulo 5. Experimentos e Resultados 76
Figura 5.6: Gráfico acumulativo dos erros obtidos na estimativa das alturas reaisdos objetos. No gráfico a esquerda, σ representa o erro relativo máximo encontradopara uma porcentagem de exemplos avaliados. No gráfico a direita, λ representa o erroabsoluto máximo em metros encontrado para uma porcentagem de exemplos avaliado.
Figura 5.7: Gráfico acumulativo dos erros obtidos após a avaliação dos eixos repro-jetados. No gráfico, λ representa o erro máximo encontrado para uma porcentagem deexemplos avaliados.
sets, os quais serão submetidos ao FFH RMSE. A marcação ocorreu de forma manual,
e foram marcados os pedestres que apresentaram uma postura ereta, e sem oclusões da
cabeça e pés.
O FHH RMSE avalia a orientação e tamanho do eixo reprojetado de cada um
dos alvos marcados, após a calibração. Da mesma forma que ocorre com a avaliação
das alturas reais, o eixo marcado tem sua altura relativa calculada, depois é estimada a
sua altura real, e então reprojetado o seu eixo na imagem. Os eixos principais tem sua
orientação e tamanho confrontados com os eixos de referência, e então é calculado o FHH
RMSE. Quanto maior o valor do FHH RMSE, maior é o erro de reprojeção, indicando
que o eixo reprojetado está afastado do eixo de referência.
Capítulo 5. Experimentos e Resultados 77
Figura 5.8: Exemplos de avaliações utilizando FHH RMSE. Na primeira e segundalinha há imagens do PETS (2006) e PETS (2007) respectivamente, enquanto que nasúltimas duas linhas há imagens do CVLab (2013). Cada pessoa marcada para avaliaçãoapresenta um circulo projetado sobre o plano do chão com raio de 30 cm. Essa pessoasapresentam duas retas perpendiculares ao chão, onde a reta verde representa o eixoprincipal marcado manualmente, e a reta vermelha representa o eixo estimado após acalibração.
A Fig. 5.7 apresenta um gráfico acumulativo de todos os data sets avaliados com
o FHH RMSE. A média geral do FHH RMSE de todos os data sets apresenta um valor de
4%, proveniente de resultados que variam entre 2% e 7%. Os melhores resultados foram
obtidos avaliando os data sets disponibilizados por CVLab (2013). Este conjunto de data
sets apresenta cenários com pouca ocupação de pessoas, com um fundo de cena estático
e um forte contraste entre os objetos móveis e o fundo da cena, como ilustrado na Fig.
5.8. Essas características contribuem para os bons resultados alcançados, pois geram
menos ruídos na segmentação e oferecem uma boa imagem de fundo para detecção dos
pontos de fuga. Os piores resultados foram obtidos no PETS (2007), onde há uma grande
ocupação de pessoas e um ambiente dinâmico, no qual ocorre constante união de blobs e
oclusões parciais das pessoas. Contudo, o método aparenta lidar com este problema de
forma robusta, degradando seu resultado em apenas 5% em relação ao melhor resultado
obtido.
Liu et al. (2011) propuseram um método com o mesmo objetivo do framework
Capítulo 5. Experimentos e Resultados 78
Métricas Liu et al. (2011) Nosso frameworkMédia de bons exemplospara calibração 1800 370
FHH RMSE 0,05 0,03
Tabela 5.1: Comparação de dados obitidos quando submetidos os diferente processosde calibação aos data set do CVLab (2013).
proposto neste trabalho, calibrar câmeras de vigilância de forma automática. No entanto
eles utilizam apenas os eixos principais das pessoas para estimar todos os parâmetros
necessários para calibrar a câmera (ver Seção 2.4.7). Nossa abordagem requer uma
grande quantidade de bons exemplos de eixos principais, em média 1800. Submetido aos
data sets do CVLab (2013), Liu et al. (2011) atingem um valor médio do FHH RMSE
de 0.05, como apresentando na Tab. 5.1. O framework proposto neste trabalho utiliza
não apenas os eixos principais dos pedestres na cena, mas também dicas das estruturas
presentes na imagem de fundo da cena. Essa abordagem exige uma média de 370 bons
exemplos de eixos principais, cerca de 80% menos que o exigido pelo método de Liu et al.
(2011) para os mesmos data sets do CVLab (2013). Quando comparados o FHH RMSE,
o nosso framework alcança um valor de 0,03, 0,02 pontos a menos que o apresentado
por Liu et al. (2011). Essa comparação mostra que o framework aqui proposto supera o
método de Liu et al. (2011) em eficiência e exatidão.
5.3 Considerações Finais
As avaliações demonstraram que o framework proposto alcança o objetivo es-
tipulado de forma robusta, sendo aplicável a cenas com diferentes características. A
modificação do método de subtração de background, ABL com operadores morfológicos,
apresentou um bom resultado, superando outros métodos de subtração de background
bem avaliados na literatura. Este resultado tornou o ABL com operadores morfológicos,
o método adotado para compor o framework na etapa de dados de baixo nível. A ava-
liação da calibração de câmera automática proposta neste trabalho por três diferentes
métricas, comprova o bom desempenho do framework. Submetido a diferentes cenários,
o método apresentou uma boa estabilidade mantendo seu desempenho oscilando dentro
de uma pequena faixa. Quando comparado a outro método existente na literatura, o
método de Liu et al. (2011), a nossa abordagem apresentou um desempenho superior em
relação a eficiência e exatidão.
Capítulo 6
Conclusão
O uso de câmeras de vigilância se tornou comum em centros urbanos. Essa
difusão do uso de câmera abre espaço para o surgimento de sistemas inteligentes, capazes
de analisar a cena monitorada e disparar alarmes na ocorrência de distúrbio. As análises
utilizam informações 3D, determinando a altura das pessoas, trajetória percorrida e sua
posição na cena, tudo isto sendo provido pela calibração de câmera. Dessa forma, o
processo de calibração de câmeras de vigilância se faz essencial para a automação do
monitoramento de ambientes.
Visto que uma rede de câmera de vigilância se encontra espalhada em regiões
monitoradas, a forma usual de calibração requer uma intensa intervenção humana, exi-
gindo a presença de um objeto específico na cena. Neste trabalho, foi proposto um
framework para calibração automática de câmeras de vigilância, que utiliza informações
naturalmente presentes na cena monitorada, diminuindo o esforço humano e evitando in-
tervenções durante o processo de calibração. O aspecto modular do framework permite
solucionar problemas locais de forma isolada, mantendo a coesão e o acoplamento do sis-
tema proposto. Isso aumenta a confiabilidade da aplicação, uma vez que são utilizados
pequenos métodos especializados, os quais, arranjados de forma correta, concebem um
framework robusto.
O uso de informações do foreground e background da cena, extraídos pelo ABL
com operadores morfológicos, tornaram o framework mais robusto. Os pontos de fuga,
extraídos da imagem de background dos cenários antrópicos, possibilitaram filtrar ruídos
existentes no conjunto de eixos principais, derivados da deformação de blobs. Essa abor-
dagem tornou o framework capaz de lidar com cenas complexas, mantendo uma boa taxa
de exatidão. Comparado a outras propostas de calibração automática, o framework aqui
proposto apresentou um melhor desempenho, superando-os em eficiência e exatidão.
79
Capítulo 6. Conclusão 80
Como trabalho futuro, planejamos melhorar os resultados alcançados, e inves-
tigar uma forma de corrigir a distorção radial na imagem, permitindo a aplicação desse
framework em câmeras que apresentem amplo campo de visão.
Bibliografia
ABASE. Exposec 2014: principal vitrine do mercado de sistemas eletrônicos desegurança na América Latina. 2014. Disponível em: <http://www.abese.org.br/clipping28-04-2014/#a2>.
BARINOVA, O. et al. Geometric image parsing in man-made environments. In:Computer Vision–ECCV 2010. [S.l.]: Springer, 2010. p. 57–70.
BELEZNAI, C.; BISCHOF, H. Fast human detection in crowded scenes by contourintegration and local shape estimation. In: IEEE. Computer Vision and PatternRecognition, 2009. CVPR 2009. IEEE Conference on. [S.l.], 2009. p. 2246–2253.
BOUGUET, J. MATLAB calibration tool. 2015. Disponível em: <http://www.vision.caltech.edu/bouguetj/calib_doc/>.
BRADSKI, G. The opencv library. Dr. Dobb’s Journal of Software Tools, 2000.
BURNS, J. B.; HANSON, A. R.; RISEMAN, E. M. Extracting straight lines. PatternAnalysis and Machine Intelligence, IEEE Transactions on, IEEE, n. 4, p. 425–455,1986.
CAJAZEIRA, P. E. S. L. Sociedade vigiada: o uso das câmeras de vigilância notelejornal. Revista Comunicação Midiática, v. 8, n. 2, p. p–184, 2013.
CANNY, J. A computational approach to edge detection. Pattern Analysis and MachineIntelligence, IEEE Transactions on, IEEE, n. 6, p. 679–698, 1986.
CIPOLLA, R.; DRUMMOND, T.; ROBERTSON, D. P. Camera calibration fromvanishing points in image of architectural scenes. In: British Machine Vision Conference(BMVC). [S.l.: s.n.], 1999. v. 99, p. 382–391.
CISMOSKI, M.; ROCHA, A. Revisão de Conceitos em Projeção, Homografia, Calibraçãode Câmera, Geometria Epipolar, Mapas de Profundidade e Varredura de Planos. 2012.Disponível em: <http://www.ic.unicamp.br/~rocha/teaching/2012s1/mc949/aulas/additional-material-revision-of-concepts-homography-and-related-topics.pdf>.
COUGHLAN, J. M.; YUILLE, A. L. The manhattan world assumption: Regularities inscene statistics which enable bayesian inference. In: NIPS. [S.l.: s.n.], 2000. p. 845–851.
CRIMINISI, A.; REID, I.; ZISSERMAN, A. Single view metrology. InternationalJournal of Computer Vision, Springer, v. 40, n. 2, p. 123–148, 2000.
CVLAB. Multi-camera pedestrians video. 2013. Disponível emhttp://cvlab.epfl.ch/data/pom/.
81
Bibliografia 82
DENIS, P.; ELDER, J. H.; ESTRADA, F. J. Efficient edge-based methods for estimatingmanhattan frames in urban imagery. [S.l.]: Springer, 2008.
DUBSKÁ, M.; HEROUT, A.; HAVEL, J. Pclines—line detection using parallelcoordinates. In: IEEE. Computer Vision and Pattern Recognition (CVPR), 2011 IEEEConference on. [S.l.], 2011. p. 1489–1494.
FISCHLER, M.; BOLLES, R. Random sample consensus: a paradigm for model fittingwith applications to image analysis and automated cartography. Communications of theACM, p. 381–395, 1981.
FISHER, R. Change detection in color images. In: CITESEER. Proceedings of 7thIEEE Conference on Computer Vision and Pattern, Ft. Collins, CO, USA. [S.l.], 1999.
FITZGIBBON, A.; FISHER, R. A buyer’s guide to conic fitting. In: British Conferenceon Machine Vision. [S.l.: s.n.], 1995. p. 513–522.
FRIEDMAN, N.; RUSSELL, S. Image segmentation in video sequences: A probabilisticapproach. In: MORGAN KAUFMANN PUBLISHERS INC. Proceedings of theThirteenth conference on Uncertainty in artificial intelligence. [S.l.], 1997. p. 175–181.
FRY, J.; PUSATERI, M. A system and method for auto-correction of first order lensdistortion. In: Applied Imagery Pattern Recognition Workshop (AIPR), 2010 IEEE39th. [S.l.: s.n.], 2010. p. 1–4. ISSN 1550-5219.
G1. DF tem uma câmera de segurança para cada 5 habitantes, diz entidade.2012. Disponível em: <http://g1.globo.com/distrito-federal/noticia/2012/09/df-tem-uma-camera-de-seguranca-para-cada-5-habitantes-diz-entidade.html>.
GIOI, R. et al. Lsd: A fast line segment detector with a false detection control. IEEETransactions on Pattern Analysis and Machine Intelligence, p. 722–732, 2010.
GIOI, R. von; JAKUBOWICZ, J.; RANDALL, G. Multisegment detection. In: ImageProcessing, 2007. ICIP 2007. IEEE International Conference on. [S.l.: s.n.], 2007. v. 2,p. II – 253–II – 256. ISSN 1522-4880.
HARTLEY, R.; ZISSERMAN, A. Multiple view geometry in computer vision. [S.l.]:Cambridge university press, 2003.
HEIJMANS, H. J.; ROERDINK, J. B. Mathematical morphology and its applications toimage and signal processing. [S.l.]: Springer Science & Business Media, 1998. v. 12.
HEIKKILÄ, M.; PIETIKÄINEN, M. A texture-based method for modeling thebackground and detecting moving objects. Pattern Analysis and Machine Intelligence,IEEE Transactions on, IEEE, v. 28, n. 4, p. 657–662, 2006.
KAEWTRAKULPONG, P.; BOWDEN, R. An improved adaptive background mixturemodel for real-time tracking with shadow detection. In: Video-Based SurveillanceSystems. [S.l.]: Springer US, 2002. p. 135–144. ISBN 978-1-4613-5301-0.
KANG, H. et al. Holographic printing of white-light viewable holograms andstereograms. Intech, Rijeka, p. 171–201, 2013.
KIM, B.-K. et al. Correcting radial lens distortion with advanced outlier elimination.In: Audio Language and Image Processing (ICALIP), 2010 International Conferenceon. [S.l.: s.n.], 2010. p. 1693–1699.
Bibliografia 83
KRAHNSTOEVER, N.; MENDONCA, P. Bayesian autocalibration for surveillance. In:IEEE International Conference on Computer Vision. [S.l.: s.n.], 2005. p. 1858–1865.
LEE, S.; NEVATIA, R. Robust camera calibration tool for video surveillance camera inurban environment. In: IEEE Computer Society Conference on Computer Vision andPattern Recognition Workshops. [S.l.: s.n.], 2011. p. 62–67.
LEMOS, A. et al. Câmeras de vigilância e cultura da insegurança: percepções sobre ascâmeras de vigilância da ufba. http://revistaalceu. com. pucrio. br/media/Artigo11%20Andr% C3% A9% 20Lemos,% 20Camila% 20Q ueiroz,% 20Egide% C3% ADlson%20Santana,% 20Frederico% 20Fagundes% 20e% 20Gabriela% 20Ba leeiro. pdf Acessoem, v. 23, n. 06, p. 2014, 2011.
LEZAMA, J. et al. Finding vanishing points via point alignments in image primaland dual domains. In: Computer Vision and Pattern Recognition. [S.l.: s.n.], 2014. p.509–515.
LEZAMA, J. et al. A contrario 2d point alignment detection. Pattern Analysis andMachine Intelligence, IEEE Transactions on, IEEE, v. 37, n. 3, p. 499–512, 2015.
LIEBOWITZ, D.; ZISSERMAN, A. Combining scene and auto-calibration constraints.In: IEEE. Computer Vision, 1999. The Proceedings of the Seventh IEEE InternationalConference on. [S.l.], 1999. v. 1, p. 293–300.
LIU, J.; COLLINS, R.; LIU, Y. Surveillance camera autocalibration based on pedestrianheight distributions. In: British Machine Vision Conference (BMVC). [S.l.: s.n.], 2011.p. 144–154.
LV, F.; T., Z.; NEVATIA, R. Self-calibration of a camera from video of a walkinghuman. In: IEEE International Conference on Pattern Recognition. [S.l.: s.n.], 2002. p.562–567 vol.1.
LV, F.; ZHAO, T.; NEVATIA, R. Camera calibration from video of a walking human.IEEE Transactions on Pattern Analysis and Machine Intelligence, p. 1513–1518, 2006.
MADDALENA, L.; PETROSINO, A. A self-organizing approach to backgroundsubtraction for visual surveillance applications. IEEE Transactions on Image Processing,p. 1168–1177, 2008.
MATLAB. version 7.10.0 (R2010a). Natick, Massachusetts: The MathWorks Inc., 2010.
METROPOLIS, N. et al. Equation of state calculations by fast computing machines.The journal of chemical physics, AIP Publishing, v. 21, n. 6, p. 1087–1092, 1953.
MICUSIK, B.; PAJDLA, T. Simultaneous surveillance camera calibration and foot-headhomology estimation from human detections. In: IEEE Conference on Computer Visionand Pattern Recognition. [S.l.: s.n.], 2010. p. 1562–1569.
OPENCV. Camera calibration and 3D reconstruction. 2015. Disponível em: <http://docs.opencv.org/doc/tutorials/calib3d/camera_calibration/camera_calibration.html>.
OPENCV. Extract horizontal and vertical lines by using morphological operations. 2015.Disponível em: <docs.opencv.org/master/d1/dee/tutorial_moprh_lines_detection.html>.
Bibliografia 84
OPENCV. How to Use Background Subtraction Methods. 2015. Disponível em: <http://docs.opencv.org/master/d1/dc5/tutorial_background_subtraction.html#gsc.tab=0>.
PETS. Performance Evaluation of Tracking and Surveillance. 2006. Disponível emhttp://www.cvg.reading.ac.uk/PETS2006/data.html.
PETS. Performance Evaluation of Tracking and Surveillance. 2007. Disponível emhttp://www.cvg.reading.ac.uk/PETS2007/data.html.
ROTHER, D.; PATWARDHAN, K.; SAPIRO, G. What can casual walkers tell usabout a 3d scene? In: IEEE International Conference on Computer Vision. [S.l.: s.n.],2007. p. 1–8.
RUJIKIETGUMJORN, S.; COLLINS, R. Optimized pedestrian detection for multipleand occluded people. In: IEEE Conference on Computer Vision and PatternRecognition. [S.l.: s.n.], 2013. p. 3690–3697.
SAPTHARISHI, M. et al. Agent-based moving object correspondence using differentialdiscriminative diagnosis. In: IEEE. Computer Vision and Pattern Recognition, 2000.Proceedings. IEEE Conference on. [S.l.], 2000. v. 2, p. 652–658.
SEMPLE, J. G.; KNEEBONE, G. T. Algebraic projective geometry. [S.l.]: OxfordUniversity Press, 1998.
SOBRAL, A.; VACAVANT, A. A comprehensive review of background subtractionalgorithms evaluated with synthetic and real videos. Computer Vision and ImageUnderstanding, Elsevier, v. 122, p. 4–21, 2014.
STAUFFER, C.; GRIMSON, W. E. L. Adaptive background mixture models forreal-time tracking. In: IEEE. Computer Vision and Pattern Recognition, 1999. IEEEComputer Society Conference on. [S.l.], 1999. v. 2.
STEELE, R. M.; JAYNES, C. Overconstrained linear estimation of radial distortionand multi-view geometry. In: Computer Vision–ECCV 2006. [S.l.]: Springer, 2006. p.253–264.
TARDIF, J.-P. Non-iterative approach for fast and accurate vanishing point detection.In: IEEE. Computer Vision, 2009 IEEE 12th International Conference on. [S.l.], 2009.p. 1250–1257.
Vacavant, A. et al. Background Models Challenge, Workshop of ACCV 2012. Springer,2012. Disponível em: <http://liris.cnrs.fr/publis/?id=5905>.
VISSCHER, P. M. Sizing up human height variation. Nature genetics, Nature PublishingGroup, v. 40, n. 5, p. 489–490, 2008.
WILDENAUER, H.; HANBURY, A. Robust camera self-calibration from monocularimages of manhattan worlds. In: IEEE Conference on Computer Vision and PatternRecognition. [S.l.: s.n.], 2012. p. 2831–2838.
WU, Z.; LI, Y.; RADKE, R. Viewpoint invariant human re-identification in cameranetworks using pose priors and subject-discriminative features. IEEE Transactions onPattern Analysis and Machine Intelligence, p. 1095–1108, 2015.
Bibliografia 85
XU, Y.; OH, S.; HOOGS, A. A minimum error vanishing point detection approach foruncalibrated monocular images of man-made environments. In: Computer Vision andPattern Recognition, IEEE Conference on. [S.l.: s.n.], 2013. p. 1376–1383.
YAO, J.; ODOBEZ, J. Multi-layer background subtraction based on color and texture.In: IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2007.p. 1–8.
ZHANG, Z. A flexible new technique for camera calibration. Pattern Analysis andMachine Intelligence, IEEE Transactions on, v. 22, n. 11, p. 1330–1334, Nov 2000.ISSN 0162-8828.
ZHAO, T.; NEVATIA, R. Tracking multiple humans in crowded environment. In: IEEE.Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004IEEE Computer Society Conference on. [S.l.], 2004. v. 2, p. II–406.
Recommended