Universidade Federal da Bahia Programa de Pós-graduação em ... · Universidade Federal da Bahia...

Universidade Federal da Bahia

Programa de Pós-graduação em Mecatrônica

Auto-calibração de câmeras de vídeo-vigilância por

meio de informações da cena

Tiago Trocoli Leite de Souza

Auto-calibração de câmeras de vídeo-vigilância por

meio de informações da cena

Tiago Trocoli Leite de Souza

Dissertação submetidacomo requisito parcial para obtençãodo grau de Mestre em Mecatrônica.

Programa de Pós-Graduação em MecatrônicaUniversidade Federal da Bahia

Sob a supervisão doProf. Dr. Luciano Rebouças de Oliveira (Orientador)

TERMO DE APROVAÇÃO

TIAGO TROCOLI LEITE DE SOUZA

AUTO-CALIBRAÇÃO DE CÂMERAS DEVÍDEO-VIGILÂNCIA POR MEIO DE INFORMAÇÕES

DA CENA

Dissertação aprovada como requisito parcial para a obtenção do graude Mestre em Mecatrônica, Universidade Federal da Bahia, pelaseguinte banca examinadora:

Orientador: Prof. Dr. Luciano Rebouças de OliveiraUFBA

Membro Interno: Prof. Dr. Vinicius MelloUFBA

Membro externo: Prof. Dr. Esdras MedeirosUFC

Salvador, 17 de dezembro de 2015

“Ser o mais rico do cemitério não é o que mais importa para mim. Ir para acama à noite e pensar que foi feito alguma coisa grandiosa, isso é o que mais importapara mim.”

“Melhor ser pirata, à marinheiro...”

Steve Jobs

Resumo

A presença de câmeras de vigilância se tornou comum em ambientes públicos e

privados. Utilizadas para monitorar cenas, esses equipamentos permitem a automatiza-

ção da tarefa de vigilância, quando integrados a sistemas inteligentes capazes de aplicar

técnicas de reconhecimento de padrões. A calibração de câmera é um recurso que possi-

bilita explorar a geometria 3D da cena observada, possibilitando ao sistema inteligente

determinar a posição e tamanho de objetos presentes na cena. Usualmente, ambientes

monitorados possuem redes de câmeras de vigilância, as quais são compostas, em sua mai-

oria, por câmeras heterogêneas e estáticas. A forma comum de calibrar câmeras requer

intensa intervenção humana, e demanda grande quantidade de tempo quando aplicada a

uma rede de câmeras. Neste trabalho é proposto um framework de calibração de câmera

automática, não requerendo intervenção humana durante o processo de calibração. O

framework proposto utilizará dicas da cena e um conhecimento prévio da distribuição da

altura das pessoas para determinar os parâmetros necessários para a calibração da câ-

mera, estimando sua posição, orientação e informações internas da câmera. A avaliação

deste framework indica um resultado promissor. As análises mostram que, ao estimar

os comprimentos na cena, o framework atinge um erro absoluto médio menor que 5 cm

ao definir as alturas das pessoas, e um erro médio menor que 30 cm ao definir distân-

cias sobre o plano do chão. Quando comparado a trabalhos relacionados encontrados na

literatura, o nosso framework apresenta uma eficiência maior ao utilizar até 80% menos

dados na convergência dos parâmetros, e uma precisão 40% maior, na estimativa dos

parâmetros da câmera.

Abstract

Surveillance cameras are commonly used in public and private security systems.

This kind of equipment allows automation of surveillance tasks, when integrated with in-

telligent pattern recognition systems. Camera calibration allows intelligent systems to use

the 3D geometry of a scene as a tool to determine the position and size of a target object.

Typical systems may contain a large number of cameras, which are installed in different

locations, and they are composed of static and heterogeneous cameras. Manual camera

calibration requires intense human effort in order to calibrate all camera in a network. In

this work is proposed a framework for auto-calibration of surveillance cameras, without

any human intervention in the calibration process. Our framework uses scene clues and

prior knowledge of the human height distribution to estimate needed parameters for ca-

mera calibration, which includes the camera position, orientation and internal properties.

Evaluation of the framework indicates promising results. Based on our analysis, the pro-

posed framework reaches an absolute error less than 5 cm in human height estimation,

and an average error less than 30 cm in length determination above the scene ground

plane. Compared with other similar methods, our framework demonstrates better effici-

ency by using 80% less samples in the parameter convergence process, and it reaches 40%

more precision in the camera parameter estimation.

Sumário

1 Introdução 1

1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4 Descrição dos Capítulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Estado da Arte 6

2.1 O Uso da Calibração Automática em Câmeras de Vigilância . . . . . . . . 7

2.2 Modelo de Câmera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3 Calibração de Câmera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.1 Calibração Manual de Câmera (ZHANG, 2000) . . . . . . . . . . . 12

2.4 Calibração de Câmera de Vigilância . . . . . . . . . . . . . . . . . . . . . 12

2.4.1 Calibração a Partir de Vídeo de Pedestres (LV et al., 2002) . . . . 13

2.4.2 Auto-calibração Bayesiana (KRAHNSTOEVER; MENDONCA, 2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.4.3 Abordagem de (LV et al., 2006) . . . . . . . . . . . . . . . . . . . . 18

2.4.4 O que Pedestres Podem Informar Sobre a Geometria 3D da Cena(ROTHER et al., 2007) . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4.5 Auto-Calibração Por Meio de Detecção de Pessoas (MICUSIK;PAJDLA, 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.4.6 Ferramenta Robusta de Calibração de Câmeras de Vigilância emAmbientes Urbanos (LEE; NEVATIA, 2011) . . . . . . . . . . . . . 23

2.4.7 Auto-Calibração de Câmera de Vigilância Baseado na Distribuiçãoda Altura de Pedestres (LIU et al., 2011) . . . . . . . . . . . . . . 24

2.5 Subtração de Background . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.5.1 Adaptive Background Learning . . . . . . . . . . . . . . . . . . . . 27

Sumário

2.5.2 Mesclagem de Gaussianas (KAEWTRAKULPONG; BOWDEN,2002) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.5.3 Subtração de Background em Multicamadas Baseado em Texturae Cor (YAO; ODOBEZ, 2007) . . . . . . . . . . . . . . . . . . . . . 29

2.5.4 Subtracção de Background Auto-Organizado (MADDALENA; PE-TROSINO, 2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.6 Detecção de Pontos de Fuga . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.6.1 Detecção de Ponto de Fuga em Imagens Monoculares com Estru-turas do Tipo Manhattan World (WILDENAUER; HANBURY,2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.6.2 Detecção de Ponto de Fuga para Cenários Antrópicos (XU et al.,2013) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.6.3 Detecção de Pontos de Fuga no Domínio do PClines (LEZAMA etal., 2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.7 Detecção de Segmento de Reta . . . . . . . . . . . . . . . . . . . . . . . . 36

2.7.1 Detecção Rápida de Segmentos de Reta (GIOI et al., 2010) . . . . 38

2.8 Relação Com o Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3 Visão Geral do Sistema Proposto 42

3.1 Requerimento e Premissas . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2 Arquitetura do Sistema Proposto . . . . . . . . . . . . . . . . . . . . . . . 43

3.3 Métricas de Avaliação e Data sets . . . . . . . . . . . . . . . . . . . . . . . 46

4 Calibração Automática de Câmeras de Vigilância 50

4.1 Modelagem Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.2 Dados de Baixo Nível . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.2.1 Adaptive Background Learning com Operador Morfológico . . . . . 53

4.3 Dados Intermediários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3.1 Eixo Principal do Blob . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.3.2 Segmentos de Reta da Imagem de Background . . . . . . . . . . . 59

4.3.3 Armazenamento dos Segmentos de Reta . . . . . . . . . . . . . . . 59

4.4 Dados de Alto Nível . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.4.1 Detecção dos Pontos de Fuga da Imagem . . . . . . . . . . . . . . 61

4.4.2 Filtro de Convergência e Cálculo da Altura Relativa . . . . . . . . 63

Sumário

4.5 Estimativa da Altura da Câmera . . . . . . . . . . . . . . . . . . . . . . . 65

4.6 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5 Experimentos e Resultados 69

5.1 Avaliação do Método ABL com Operadores Morfológicos . . . . . . . . . . 70

5.2 Avaliação da Calibração Automática de Câmeras de Vigilância . . . . . . 72

5.2.1 Avaliação Por Meio da Métrica da Medida do Chão . . . . . . . . 73

5.2.2 Avaliação Por Meio da Métrica da Altura Real . . . . . . . . . . . 74

5.2.3 Avaliação Por Meio da Métrica da FHH RMSE . . . . . . . . . . . 75

5.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6 Conclusão 79

Lista de Figuras

1.1 Ilustração de um sistema inteligente de vigilância, que utiliza informaçõesda altura e posição na cena. Na figura (a) é apresentada a imagem moni-torada, com informações de altura e identificação de cada pessoa presentena cena. Na figura (b) é representado o mapa da cena, com a posiçãoatual de cada pessoa e o rastro da sua trajetória . . . . . . . . . . . . . . 2

2.1 Representação geométrica da projeção do objeto 3D no plano da imagem.P é um ponto no espaço 3D e p é sua projeção no plano 2D. C é o centroda câmera, definido no espaço 3D, e a distância entre o plano da imageme C determina a distância focal f . O ponto principal do plano da imagemé representado por c(u, v). . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2 Distorção radial na imagem. A figura a esquerda representa uma imagemsem distorção radial, composta por quadrados com mesma área. A figuracentral representa uma distorção radial do tipo pincushion, que comprimeos dados próximos do centro da imagem. A figura a direita representa umadistorção radial do tipo barrel, que dilata os dados próximos do centro daimagem. Figura adaptada de Kang et al. (2013) . . . . . . . . . . . . . . 10

2.3 Posição e orientação da câmera no espaço 3D. O ponto O representaa origem do espaço, o qual é utilizado como referência para estimar osparâmetros extrínsecos, definindo os valores de rotação e translação, R e t. 11

2.4 Padrões de símbolos utilizados para calibração de câmera. A esquerdaé utilizado como objeto de referência um tabuleiro de xadrez e a direitaum padrão de círculos sobre uma superfície plana. Figura adaptada deOpenCV (2015a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.5 Pontos de fuga da imagem para calibração de câmera. À esquerda, imagemoriginal. À direita, os pontos de fuga VX , VY , VZ , extraídos da imagem ori-ginal. O ângulo de yaw, ρ, é definido pela linha do horizonte, e uma linhahorizontal. O ortocentro e o ponto principal da imagem são representadospor c. Figura adaptada de Lv et al. (2002) . . . . . . . . . . . . . . . . . . 14

2.6 Ilustração geométrica da invariância da relação cruzada de Criminisi et al.(2000). Os objetos com ponta amarela sobre um tronco preto representampessoas na cena que se encontram perpendicular ao plano do chão. pf e ph,representam o ponto inferior e o ponto superior do objeto, ql representa oponto de intersecção entre a reta que passa pelo eixo principal do pedestree a linha do horizonte. Figura adaptada de Liu et al. (2011). . . . . . . . . 15

Lista de Figuras

2.7 Estimativa dos pontos de fuga por meio dos eixos principais de uma pessoa.Os segmentos de reta em laranja representam os eixos principais da mesmapessoas em três diferentes posições. A partir dos eixos são estimadospontos de fuga Vn, localizados sobre a linha do horizonte. Na direçãovertical é estimado apenas o ponto de fuga vertical VY . Figura adaptadade Lv et al. (2002). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.8 Cenários de teste utilizados para avaliar o método de Krahnstoever e Men-donca (2005). Os cenários aprestam diferentes ângulos de captura, emcenas urbanas e com texturas de fundo uniformes. Figura adaptada deKrahnstoever e Mendonca (2005). . . . . . . . . . . . . . . . . . . . . . . . 19

2.9 Informações de cena utilizadas por Lv et al. (2006). Na imagem (a) sãoilustrados dois segmentos de reta, X1X2 e Z1Z2, utilizados para definiros pontos de fuga VX e VY . A Fig. (b) ilustra o ponto de cruzamentodas pernas durante a caminhada do pedestre. São analisadas a altura k1e a largura k2 do formato do corpo, e selecionados os formatos do corpoque apresentem menor valor da razão entre k2 e k1. No gráfico a direitada imagem (b), é representada a oscilação da forma do corpo durante apassagem de frames. Figura adaptada de Lv et al. (2006). . . . . . . . . . 19

2.10 Ilustração da estimativa do erro em pixels. O segmento de reta verderepresenta o eixo do objeto modelo manualmente marcado, em vermelhohá o eixo reprojetado por meio da calibração efetuada. A distância entreos pontos inferiores e do topo de cada eixo são representados por ef eeh respectivamente. Somados ef e eh, encontra-se o erro total e. Figuraadaptada de Lv et al. (2006). . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.11 Detecção de pessoas e a geração dos planos. Em (a) é apresentado oformato do corpo necessário para classificar o blob como pessoa. Paracada formato de corpo detectado é gerado um plano perpendicular ao aoplano do chão. Em (b), para cada detecção foram gerados Qn planos.Figura adaptada de Rother et al. (2007). . . . . . . . . . . . . . . . . . . . 22

2.12 Marcação de segmentos de reta e estimativa dos pontos de fuga. A imagemde um cenário real é apresentada em (a), no qual são marcados, manu-almente, dois pares de segmentos de reta (amarelo). Cada par convergepara um ponto de fuga, indicado pelas retas em vermelho. Em (b) é mos-trado que a partir de dois pontos de fuga, V1 e V2, um terceiro ponto defuga pode ser estimado, caso o ponto princial da imagem c seja conhecido.Figura adaptada de Lee e Nevatia (2011). . . . . . . . . . . . . . . . . . . 23

2.13 Avaliação do framework de Liu et al. (2011) por meio do erro relativoquadrático médio da reprojeção dos pontos de topo e inferior do eixo prin-cipal. Em cada cenário avaliado, as pessoas tiveram seus eixos principaismarcados, simbolizados pelos segmentos de reta em verde. Em magentaestão os eixos principais reprojetados após a calibração da câmera. Figuraretirada de Liu et al. (2011). . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.14 Representação do processo de subtração do background. Cada pixel doframe atual é comparado ao da imagem de background. A quantificaçãoda comparação deve superar um limiar T para que o pixel seja classificadocomo foreground, representado pelo conjunto de pixels brancos (blob) naimagem a direita. Figura adaptada de (OPENCV, 2015c). . . . . . . . . . 27

Lista de Figuras

2.15 Detecção de sombra na imagem de foreground. A esquerda é apresentadaa imagem original, e a direita são representados os pixels pertecente aoobjeto móvel em branco, enquato que os pixels em cinza representam asombra. Figura adaptada de OpenCV (2015c) . . . . . . . . . . . . . . . . 29

2.16 Detecção de objetos estacionários por meio das multicamadas. A primeiracoluna representa o instante em que a bagagem é abandonada. A segundacoluna ilustra a segmentação, alguns frames após o abandono. A terceiracoluna ilustra a detecção da bagagem estática, mesmo após centenas deframes depois do abandono. Figura adaptada de Yao e Odobez (2007). . . 30

2.17 Retas paralelas no espaço 3D, convergindo após a projeção perspectivana imagem. Foto de uma avenida apresentam trilhos paralelos (linhaspontilhadas em azul) que apontam para um mesmo ponto V no infinito. . 32

2.18 Combinações dos quatro segmentos de reta selecionados para estimar ospontos de fuga. Na primeira configuração, a esquerda, há dois pares desegmentos de reta, definindo dois pontos de fuga. Na segunda configura-ção, a direita, três pontos de fuga são definidos pela combinação de umpar de segmentos de reta e dois outros segmentos. Figura adaptada deWildenauer e Hanbury (2012) . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.19 Cenários antrópicos que apresentam mais que três pontos de fuga. Emcada imagem, os segmentos de reta estão agrupados por cor, de acordocom o ponto de fuga para o qual apontam. As retas que cruzam a imagemem roxo e azul ciano pontilhado, são as linha do horizonte estimada e alinha do horizonte verdadeira, respectivamente. Figura retirada de Xu etal. (2013). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.20 Processo de refinamento das retas com comprimento não satisfatório. Asretas menores, representada pela cor azul na primeira coluna de imagens,tem seus pontos da extremidades reprojetados, coluna central de imagens.Os pontos que apresentarem alinhamento próximo de uma reta, são agru-pados e utilizados para definir um novo segmento de reta, representadosna última coluna de imagens, pela cor azul. Figura retirada de Lezama etal. (2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.21 Representação geométrica do domínio do PClines. A reta l do gráficocartesiano da esquerda é representado por três pontos p. No gráfico daesquerda são projetados o pontos p1, p2 e p3 no domínio do PClines. Asretas formadas pela projeção dos pontos se interceptam no ponto l, querepresenta a reta l, no domínio cartesiano. Figura adaptada de Lezama etal. (2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.22 Ilustração do processo de detecção dos pontos de fuga utilizando o domíniodo PClines. Na primeira linha há a imagem original e os segmentos de retadetectados. Na segunda linha são apresentadas as projeções dos segmentosde reta no domínio do PClines e, ao lado, são identificados os pontos defuga. O resultado é apresentado na última linha. Figura retirada deLezama et al. (2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.23 Bordas definidas pelo gradiente formado entre duas cores. A seta repre-senta a direção do gradiente, o qual é perpendicular á borda. Figuraadaptada de Gioi et al. (2010). . . . . . . . . . . . . . . . . . . . . . . . . 38

2.24 Comparação dos resultados obtidos dos métodos de detecção de segmentosde reta e o tempo requerido. Figura adaptada de Gioi et al. (2010). . . . . 39

Lista de Figuras

2.25 Criação das regiões de suporte de acordo com as orientações de cada pixel.Para cada pixel da imagem original é definida sua orientação de acordocom seu gradiente. Em seguida, os pixels são agrupados em regiões desuporte. Figura adaptada de Gioi et al. (2010). . . . . . . . . . . . . . . . 40

3.1 Framework proposto de calibração automática de câmeras de vigilância. Aárea vermelha representa os processos relacionados a extração de dados debaixo nível. Em amarelo, são extraídos os dados de nível médio e em azulos dados de alto nível. Na área em verde, há os processos de estimativados parâmetros de calibração. . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.2 Mapa de coordenadas do plano do chão. Os pontos apresentam coorde-nadas em metros. As coordenadas são relativas ao ponto de origem domapa, localizado no centro do mapa. Figura adaptada de PETS (2006). . 46

3.3 Exemplos de cenas providas pelos data sets. Cada coluna representa umconjunto de data sets e seus diferentes cenários e ângulos de captura.Algumas figuras são retiradas de (PETS, 2006), (PETS, 2007) e (CVLAB,2013). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.1 Exemplos de segmentação de pedestres por meio da subtração de back-ground. A imagem superior a esquerda é um frame extraído de um vídeo.Abaixo desta imagem está a imagem de background em formação. Nela épossível observar a presença de uma pessoa em pé, que após algum tempoparada, se tornou parte do background. A direita tem a imagem de fore-ground a qual apresenta os elementos em movimento na cena com coresdiferentes de preto. É notável a falha de segmentação no pedestre naparte inferior a direita da imagem. A imagem superior a direita mostra adelimitação dos objetos móveis no frame original . . . . . . . . . . . . . . 52

4.2 Falha de segmentação de pedestres utilizando o método ABL. A esquerdada figura há a imagem original extraída do vídeo, e, à direita há a máscarabinária resultante da segmentação do foreground. Em verde, é marcadauma pessoa sentada na cena. Algumas partes do seu corpo são segmenta-das, como a cabeça e seus braços. Em azul, há um pedestre que se movepor uma região com fundo escuro; ocorre uma grande falha de segmenta-ção, pois a vestimenta do pedestre apresenta cores muito próximas às coresde fundo da imagem. Em vermelho é segmentada uma pessoa durante suacaminhada. Contudo, uma pequena região, que apresenta uma proximi-dade de cores, divide o seu blob em duas partes. Os dados resultantesda regiões delimitadas em azul e verde serão descartados, enquanto quea região delimitada em vermelho será aproveitada por meio de operaçõesmorfológicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.3 Processo de aplicação de operadores morfológicos. A imagem superior dafigura ilustra um processo de dilatação da bordas da imagem. É apĺicadauma máscara de tamanho predefinido, a qual substitui o valor originaldo pixel pelo maior encontrado entre seus vizinhos. O processo de erosãosubstitui o valor do pixel pelo menor valor encontrado nos seus vizinhos,ilustrado na região inferior da figura. Ambos os processos geram novasimagens como resultado. Figura adaptada de OpenCV (2015b). . . . . . . 55

Lista de Figuras

4.4 Resultado da aplicação da operação morfológica de dilatação e erosão nasegmentação dos pedestres. A segmentação do pedestre da imagem origi-nal com o ABL resulta na segunda imagem. A segunda imagem apresentao blob do pedestre com algumas falhas de segmentação. Na terceira ima-gem, é aplicada uma dilatação no blob do pedestre, o qual preenche asfalhas de segmentação. A dilatação altera o tamanho do blob, expandindosuas bordas. Para retornar ao tamanho original do blob, é aplicado umaerosão. Esse processo de erosão reduz o tamanho do blob, mantendo pre-enchido as regiões corrigidas na etapa de dilatação. . . . . . . . . . . . . . 56

4.5 Extração dos eixos principais dos blobs e detecção dos segmentos de retana imagem de foreground das cenas monitoradas. . . . . . . . . . . . . . . 58

4.6 Extração dos eixos principais dos blobs utilizando aproximação de elipses.Submetido a diferentes formatos de corpos, com diferentes ângulos decaptura da imagem, a extração dos eixos principais pela aproximação dosblobs a uma elipse retorna resultados estáveis com pouca distorção detamanhos e orientações. Nas imagens, o contorno verde representa a regiãodelimitada pela segmentação da subtração de background. Os segmentosde reta em verde, dentro das regiões de contornadas, representam os eixosprincipais dos blobs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.7 Detecção dos segmentos de reta na imagem de background. Detecção dossegmentos de reta em quatro cenários diferentes. Cada um dos segmentosde reta apresenta uma cor de acordo com a sua orientação, variando de 0o

a 180o. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.8 Distribuição das orientações dos segmentos de reta da imagem. Na pri-

meira coluna estão representados os segmentos de reta extraídos da ima-gem de background. Na segunda coluna há a distribuição dos segmentosde reta de acordo com suas orientações em graus. Cada distribuição édivida em 18 partes distribuídas no intervalo de [0o, 180o]. Na ultima co-luna estão as imagens que representam a estimativa dos os pontos de fuga,onde a reta azul aponta para VZ , a reta vermelha aponta pra VX , a retaverde aponta para VY e a reta magenta é a linha do horizonte. Obser-vando as distribuição das alturas é notável que ocorre uma concentraçãodos segmentos de reta em torno de determinadas direções. . . . . . . . . . 63

4.9 Cenário com frequente união de blobs. Apresentam uma orientação decâmera paralela ao planos do chão, e uma altura da câmera próxima aaltura média da população observada. . . . . . . . . . . . . . . . . . . . . 64

4.10 Representação geométrica da métrica de avaliação da orientação utilizadano filtro de convergência. VY é o ponto de fuga vertical da imagem, rirepresenta um eixo principal de blob, e λ é o ângulo formado entre a ri ea reta formada entre o ponto central de ri e o ponto de fuga vertical. . . . 65

4.11 Aplicação do filtro de convergência. A primeira coluna apresenta todosos eixos principais extraído dos blobs, enquanto na segunda imagem apre-senta os eixos principais que foram selecionados pelo filtro de convergência.Muito dos ruídos oriundo de deformações dos blobs são removidos. . . . . 66

Lista de Figuras

5.1 Exemplo de avaliação dos métodos de subtração de background. A figura(a) representa uma máscara binária de referência. As demais figuras ilus-tram os resultados obtidos da segmentação dos métodos de subtração debackground onde (b), (c), (d), (e) e (f) representam o ABL com operadormorfológico, o método (MADDALENA; PETROSINO, 2008), o método(YAO; ODOBEZ, 2007), o método (KAEWTRAKULPONG; BOWDEN,2002) e o ABL, respectivamente. As cores verdes representam regiões deacerto da segmentação; em vermelho estão as regiões erroneamente nãosegmentadas; enquanto que em amarelo estão as regiões erroneamente seg-mentadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.2 Gráfico ROC resultante da avaliação dos métodos de subtração de back-ground. O data set utilizado na avaliação, (PETS, 2006), expõe os méto-dos a cenários reais de vigilância, o que degrada os resultados do métodos.Isso ocorre devido a dinamicidade da cena, alterando o seu fundo de cenacom frequência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.3 Gráfico que relaciona o valor AUC com a taxa de FPS. Os gráficos emazul e laranja representam, respectivamente, os valores AUC e de FPSpara cada um dos métodos de subtração de background avaliado. Nota-se que os métodos que apresentam os maiores valores de AUC, tendema degenerar a taxa de FPS, exceto pelo método ABL com operadoresmorfológicos, o qual apresentou o maior valor de AUC, com uma taxa deframe por segundo superior a 30 FPS. . . . . . . . . . . . . . . . . . . . . 73

5.4 Gráfico acumulativo dos erros obtidos após a estimativa das medidas dochão. No gráfico à esquerda, σ representa o erro relativo máximo encon-trado para uma porcentagem de exemplos avaliados. No gráfico a direita,λ representa o erro absoluto máximo em metros encontrado para umaporcentagem de exemplos avaliados. . . . . . . . . . . . . . . . . . . . . . 74

5.5 Projeção dos planos do chão estimados após a calibração da câmera. Todasas imagens são do PETS (2006). A plano do chão é representado pelamalha formada pelas linhas azuis e vermelhas; em amarelo estão retasnormais ao plano do chão. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.6 Gráfico acumulativo dos erros obtidos na estimativa das alturas reais dosobjetos. No gráfico a esquerda, σ representa o erro relativo máximo encon-trado para uma porcentagem de exemplos avaliados. No gráfico a direita,λ representa o erro absoluto máximo em metros encontrado para umaporcentagem de exemplos avaliado. . . . . . . . . . . . . . . . . . . . . . . 76

5.7 Gráfico acumulativo dos erros obtidos após a avaliação dos eixos repro-jetados. No gráfico, λ representa o erro máximo encontrado para umaporcentagem de exemplos avaliados. . . . . . . . . . . . . . . . . . . . . . 76

5.8 Exemplos de avaliações utilizando FHH RMSE. Na primeira e segundalinha há imagens do PETS (2006) e PETS (2007) respectivamente, en-quanto que nas últimas duas linhas há imagens do CVLab (2013). Cadapessoa marcada para avaliação apresenta um circulo projetado sobre oplano do chão com raio de 30 cm. Essa pessoas apresentam duas retasperpendiculares ao chão, onde a reta verde representa o eixo principalmarcado manualmente, e a reta vermelha representa o eixo estimado apósa calibração. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

Lista de Tabelas

3.1 Resumo das características principais dos data sets utilizados. . . . . . . . 48

5.1 Comparação de dados obitidos quando submetidos os diferente processosde calibação aos data set do CVLab (2013). . . . . . . . . . . . . . . . . . 78

Abreviações

ABL Adaptive Background Learning

AUC Area Under Curve

CCD Charge-Coupled Device

FHH RMSE Foot-Head Homology Root Mean Square Error

FPS Frames Por Segundo

HSV Hue Saturation Value

OpenCV Open Computer Vision

RANSAC Random sample consensus

RGB Red(vermelho) Green(verde) Blue(azul)

RNA Rede Neural Artificial

ROC Receiver Operating Characteristic

Símbolos

p = [u, v, 1] ponto no plano da imagem em coordenada homogênea

P = [X,Y, Z, 1] ponto no espaço 3D em coordenada homogênea

K matriz de parâmetros intrínsecos

Q matriz de parâmetros extrínsecos

f distância focal

α razão de aspecto

c(u, v) ponto nodal

τ parâmetro de inclinação do sensor CCD

t vetor de translação

ρ, θ e γ ângulos de rotação em torno dos eixos Z, X e Y da câmera

VZ , VX e VY pontos de fuga da imagem

l linha do horizonte

hc altura da câmera em relação ao plano do chão

h3Di altura real de uma i-ésima pessoa

hi altura relativa de uma i-ésima pessoa

Ii i-ésimo frame do vídeo

IFi i-ésimo frame segmentado do vídeo

IB imagem de background

G conjunto de segmentos de reta

ri i-ésimo segmento de reta de um conjunto

Capítulo 1

Introdução

Conteúdo1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4 Descrição dos Capítulos . . . . . . . . . . . . . . . . . . . . . 4

Nunca o ser humano utilizou tantos recursos para vigiar a sociedade em que está

imerso. Não é incomum adentrar em estabelecimentos e observar a presença de câmeras,

ou avisos informando que há vigilância por câmeras. Essa é uma forma que a sociedade

contemporânea encontrou para combater a falta de segurança que a rodeia. As câmeras

de vigilância e sistemas de monitoramento são recursos utilizados como contrapartida à

insegurança, e tornam a vigilância eletrônica uma necessidade e conforto, como afirma

Lemos et al. (2011). A sensação de ser vigiado inibe atos de violência e ações que

infrinjam as regras, pois as câmeras podem gerar informações suficientes para identificar

e incriminar um infrator.

Em 2013, foram gastos 4,73 bilhões de reais com segurança no Brasil, segundo

a Associação Brasileira das Empresas de Sistemas Eletrônicas de Segurança (ABASE,

2014). Sistemas de redes de câmeras de vigilância representam a fatia de 47% do total

de equipamentos comercializados no Brasil. Em grandes cidades, há uma tendência de

uso de câmeras para vigilância, a exemplo do Distrito Federal que possui uma câmera

para cada 5 pessoas (G1, 2012).

As câmeras de vigilância concentram-se em regiões onde há maior aglomeração

de pessoas, maior renda per capita, e em centros urbanos. A região Sudeste do Brasil

concentra 53% das câmeras de vigilância, enquanto a região Norte apresenta apenas

4% do total de câmeras utilizadas no Brasil (CAJAZEIRA, 2013). A grande maioria

Capítulo 1. Introdução 2

Figura 1.1: Ilustração de um sistema inteligente de vigilância, que utiliza informaçõesda altura e posição na cena. Na figura (a) é apresentada a imagem monitorada, cominformações de altura e identificação de cada pessoa presente na cena. Na figura (b)é representado o mapa da cena, com a posição atual de cada pessoa e o rastro da suatrajetória

dessas câmeras é utilizada em espaços com alto risco a ocorrência de crimes e com

grande quantidade de pessoas, como bancos, shopping centers, grandes lojas de varejo e

ambientes públicos.

A grande quantidade de câmeras requer uma grande quantidade de pessoas para

observá-las. O grande número de câmeras de vigilância, concentrado em um estabele-

cimento, ou espalhada geograficamente por uma cidade, tem suas imagens exibidas em

um centro de controle e monitoramento. Nestes centros de monitoramento, há pessoas

treinadas para observar as imagens e alertar qualquer tipo de distúrbio e comportamento

suspeito dos objetos monitorados. A tarefa de vigiar por meio de câmeras exige cons-

tante atenção e concentração. Porém, após um determinado tempo, o nível de atenção e

concentração pode se degradar, devido ao cansaço e distrações das pessoas responsáveis

por vigiar a cena. Isso agrava o risco de ocorrer falha humana na vigilância. Sistemas

inteligentes poderiam auxiliar na tarefa de vigilância. As imagens de câmeras de moni-

toramento agregam uma grande quantidade de informações que poderiam ser utilizadas

por sistemas inteligentes. Estes sistemas auxiliariam no monitoramento dos ambientes

com múltiplas câmeras, emitindo alertas e notificações para a pessoa que vigia uma cena.

Informações geométricas da cena são necessárias para a aplicação de algumas

análises de comportamento, como distância percorrida, posição e altura das pessoas

na cena, como ilustrado na Fig. 1.1. Para isso é necessário aplicar a calibração de

câmera. A calibração de câmera permite acessar as informações geométricas do espaço

3D da cena, favorecendo a aplicação de detecção de pessoas (RUJIKIETGUMJORN;

COLLINS, 2013) e re-identificação de pessoas em rede de câmeras (WU et al., 2015), por

exemplo.

1.1 Motivação

A vigilância eletrônica é um segmento que cresce de forma contínua e gera opor-

tunidades para aplicações de monitoramento inteligente. A calibração de câmera é utili-

zada como base para algumas das ferramentas inteligentes utilizadas no monitoramento.

A calibração de câmeras possui uma modelagem matemática conhecida (HARTLEY;

ZISSERMAN, 2003). Sua aplicação exige o conhecimento de propriedades internas da

câmera, e sua posição e orientação de instalação em relação a um objeto de referência.

Ainda, de posse das informações necessárias para calibração, qualquer alteração na posi-

ção ou orientação exige que seja executado o processo de calibração novamente. Métodos

clássicos de calibração de câmeras (ZHANG, 2000) utilizam objetos de tamanhos e for-

mas conhecidas para inferir as propriedades internas e posição da câmera. O objeto de

referência tem de estar presente na imagem gerada da cena, o que requer a sua presença

em todas as regiões monitoradas. Ainda que esse método apresente um bom desempenho

ao executar a calibração de câmera, esta forma de calibração demanda grande quantidade

de tempo e requer uma logística para percorrer todas as cenas monitoradas.

Sistemas de vigilância, em sua maioria, são gerenciados de uma central de mo-

nitoramento. Métodos voltados para calibração de câmera de vigilância propõe que as

câmeras de vigilância podem ter os parâmetros necessários para a calibração inferidos

por meio da observação da cena monitorada. Esses métodos utilizam informações da

cena, como o tamanho de um poste, e os pontos de fuga da imagem (LV et al., 2002).

Esse processo especializado de calibração provê o conforto de calibrar as câmeras de um

sistema de vigilância a partir de um único local. Entretanto, é imposto que na cena

seja conhecido um objeto de referência, além da necessidade de informar os pontos de

fuga da imagem. Neste trabalho, será proposto um framework de calibração de câmera

automático, que utilizará informações da cena, dica das estruturas antrópicas e um co-

nhecimento prévio da distribuição da altura das pessoas. O framework proposto não

requer qualquer intervenção humana durante o processo de calibração.

1.2 Objetivos

O framework proposto neste trabalho tem como principal objetivo automatizar

o processo de calibração de câmeras de vigilância, sem requerer qualquer intervenção

humana durante o processo. Este deverá se comportar como uma etapa inicial para

tarefas mais complexas, e irá prover informações para outras aplicações. O framework

deve calibrar câmeras estáticas e do tipo estenopeica, que monitore ambiente antrópicos.

Deve ser flexível e robusto a dinamicidade que pode ser encontrada nestes ambientes.

Outros objetivos específicos são:

• Explorar informações das estruturas urbanas, como prédios e pavimentações, para

auxílio na calibração da câmera;

• Diminuir a quantidade de exemplos de pessoas necessários para convergência dos

parâmetros de calibração da câmera;

• Elaborar um framework que seja robusto a diferentes ângulos de captura do vídeo

de vigilância.

1.3 Contribuições

O nosso framework de calibração de câmeras de vigilância é modularizado em

etapas, as quais permite tratar problemas locais com soluções específicas. Destas soluções

pode-se eleger como principais contribuições: i) uma evolução de um método clássico de

subtração de background ; ii) o uso combinado de informações de objetos móveis e da

estrutura estática da cena; iii) automatização do processo de calibração de câmeras de

vigilância; iv) um novo data set de câmera de vigilância.

1.4 Descrição dos Capítulos

Este trabalho está dividido em cinco partes, que são:

• Capítulo 2 apresenta o estado da arte de métodos diretamente relacionados ao

nosso trabalho. Introduz conceitos básicos e fundamentos necessários para construir

o nosso framework proposto;

• Capítulo 3 introduz uma visão geral do framework proposto, apresentando suas

etapas principais e como elas estão conectadas. Determina também premissas para

a aplicação do framework e como será feita a sua avaliação;

• Capítulo 4 detalha cada etapa principal que compõe o framework, descrevendo os

métodos, estruturas de dados e soluções implementadas.

• Capítulo 5 avalia o desempenho do framework utilizando três métricas diferentes:

Estimativa da altura de pedestres; A estimativa de comprimentos sobre o chão; Erro

de reprojeção. Por fim, é comparado os resultados obtidos com outros trabalhos

relacionados.

• Capítulo 6 finaliza o trabalho com últimas análises e com propostas de trabalhos

futuros.

Capítulo 2

Estado da Arte

Conteúdo2.1 O Uso da Calibração Automática em Câmeras de Vigilância 7

2.2 Modelo de Câmera . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3 Calibração de Câmera . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.1 Calibração Manual de Câmera (ZHANG, 2000) . . . . . . . . . 12

2.4 Calibração de Câmera de Vigilância . . . . . . . . . . . . . . 12

2.4.1 Calibração a Partir de Vídeo de Pedestres (LV et al., 2002) . . 13

2.4.2 Auto-calibração Bayesiana (KRAHNSTOEVER; MENDONCA,2005) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.4.3 Abordagem de (LV et al., 2006) . . . . . . . . . . . . . . . . . . 18

2.4.4 O que Pedestres Podem Informar Sobre a Geometria 3D daCena (ROTHER et al., 2007) . . . . . . . . . . . . . . . . . . . 20

2.4.5 Auto-Calibração Por Meio de Detecção de Pessoas (MICUSIK;PAJDLA, 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.4.6 Ferramenta Robusta de Calibração de Câmeras de Vigilânciaem Ambientes Urbanos (LEE; NEVATIA, 2011) . . . . . . . . 23

2.4.7 Auto-Calibração de Câmera de Vigilância Baseado na Distri-buição da Altura de Pedestres (LIU et al., 2011) . . . . . . . . 24

2.5 Subtração de Background . . . . . . . . . . . . . . . . . . . . 26

2.5.1 Adaptive Background Learning . . . . . . . . . . . . . . . . . . 27

2.5.2 Mesclagem de Gaussianas (KAEWTRAKULPONG; BOWDEN,2002) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.5.3 Subtração de Background em Multicamadas Baseado em Tex-tura e Cor (YAO; ODOBEZ, 2007) . . . . . . . . . . . . . . . . 29

2.5.4 Subtracção de Background Auto-Organizado (MADDALENA;PETROSINO, 2008) . . . . . . . . . . . . . . . . . . . . . . . . 30

Capítulo 2. Estado da Arte 7

2.6 Detecção de Pontos de Fuga . . . . . . . . . . . . . . . . . . . 31

2.6.1 Detecção de Ponto de Fuga em Imagens Monoculares com Es-truturas do Tipo Manhattan World (WILDENAUER; HAN-BURY, 2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.6.2 Detecção de Ponto de Fuga para Cenários Antrópicos (XU etal., 2013) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.6.3 Detecção de Pontos de Fuga no Domínio do PClines (LEZAMAet al., 2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.7 Detecção de Segmento de Reta . . . . . . . . . . . . . . . . . 36

2.7.1 Detecção Rápida de Segmentos de Reta (GIOI et al., 2010) . . 38

2.8 Relação Com o Trabalho . . . . . . . . . . . . . . . . . . . . . 39

2.1 O Uso da Calibração Automática em Câmeras de Vigi-

lância

É comum o uso de câmeras nas tarefas de vigilância e monitoramento de ambien-

tes. Câmeras de vigilância são, em sua maioria, do tipo estenopeica, conhecidas também

como pinhole camera. Este tipo de câmera apresenta um baixo custo, uma ampla oferta

comercial e portabilidade. Utilizando as câmeras como sensores, sistemas inteligentes são

capazes de automatizar a enfadonha tarefa de monitorar ambientes povoados. Tarefas

como detectar pessoas em uma cena e rastreá-las a partir de uma rede de câmeras, requer

grande atenção e concentração do vigilante. Contudo, Wu et al. (2015), Rujikietgumjorn

e Collins (2013) propuseram métodos capazes de executar a tarefa de detectar, rastrear

e identificar pessoas, em uma rede de câmeras de vigilância, de forma automatizada, uti-

lizando informações do contexto e do espaço 3D da cena. As informações 3D permitem

determinar a altura e comprimento de objetos alvos na cena, sua posição e trajetória,

aumentando a precisão dos sistemas inteligentes. Para acessar as informações do espaço

3D da cena é necessário calibrar a câmera. O processo de calibração permite conhecer

a posição, orientação e o comportamento interno da câmera, os quais definem a relação

entre as coordenadas 3D do mundo e as coordenadas 2D do plano da imagem. Essa

relação é descrita em detalhes na Seção 2.2.

Aplicar processos convencionais de calibração de câmera ( Seção 2.3) em câ-

meras de vigilância pode tornar a tarefa fatigante. A necessidade da presença de um

objeto que apresente um padrão específico na cena e a intensa atuação humana durante

a geração de exemplos, requer um longo tempo e torna o método suceptível a falhas

humanas.

Figura 2.1: Representação geométrica da projeção do objeto 3D no plano da imagem.P é um ponto no espaço 3D e p é sua projeção no plano 2D. C é o centro da câmera,definido no espaço 3D, e a distância entre o plano da imagem e C determina a distânciafocal f . O ponto principal do plano da imagem é representado por c(u, v).

Neste trabalho é proposto um framework capaz de utilizar informações da cena

para calibrar câmeras de vigilância de forma automática. Assim como os trabalhos re-

lacionados na Seção 2.4, não é necessária a presença de um objeto específico na cena.

Para a calibração, são exploradas as informações de objetos naturalmente presentes no

ambiente monitorado: pedestres e estruturas antrópicas. O nosso framework proposto

requer um vídeo da câmera de vigilância que será calibrada. Este vídeo será submetido

ao processo de subtração de background(ver Seção 2.5). Deste processo de subtração,

são obtidos os dados dos pedestres da cena, e uma imagem de background, que contém

os elementos que permaneceram estáticos na cena. Na imagem de background são en-

contradas as estruturas antrópicas da cena. Da imagem de background são estimados os

pontos de fuga da cena, 2.6, a partir dos segmentos de reta, descritos na Seção 2.7. Os

pontos de fuga são essenciais para estimar os parâmetros de calibração da câmera.

A seguir serão apresentados e detalhados cada conceito citado anteriormente,

assim como os trabalhos relacionados a cada um destes. Por fim, é indicado quais tra-

balhos são tomados como base para o desenvolvimento do framework proposto neste

trabalho.

2.2 Modelo de Câmera

A câmera estenopeica possui um modelo matemático geométrico conhecido,

descrito, detalhadamente, em (HARTLEY; ZISSERMAN, 2003) e (CISMOSKI; ROCHA,

2012). Esta câmera relaciona pontos no espaço 3D e o plano de imagem. Esta relação é

chamada de projeção perspectiva e pode ser descrita como

p =MP , (2.1)

onde p = [u, v, 1]T é um ponto do plano da imagem e P = [X,Y, Z, 1]T é um ponto

do espaço 3D, ambos descritos em coordenadas homogêneas. A Eq. 2.1 define uma

transformação projetiva por meio de uma matriz M3×4 que mapeia as coordenadas P do

espaço em coordenadas p do plano. Decomposta, M pode ser representa por

p = KQP , (2.2)

onde K é a matriz de tamanho 3 × 3 de parâmetros intrínsecos e Q é a matriz de

tamanho 3× 4 de parâmetros extrínsecos. A matriz de parâmetros intrínsecos K retrata

as características de fabricação e as condições de operação da câmera. A lente utilizada,

o tipo de sensor (p. ex., charge-coupled device (CCD)) e o índice de refração do meio

ao qual a câmera está inserida (ex: ar, água), são alguns dos elementos que influenciam

na formação da imagem, e são representados numericamente em K. Assim, a matriz de

parâmetros intrínsecos K pode ser escrita como

f τ uc

0 fα vc

, (2.3)

onde K é formada por parâmetros identificados a seguir e ilustrados geometricamente

na Fig. 2.1:

• f , distância focal, determina o comprimento entre o ponto focal, ou centro da

câmera C, ao plano da imagem;

• α, razão de aspecto, definido pela razão entre largura e altura do pixel;

• (uc, vc) = c(u, v), coordenadas do ponto principal do plano da imagem, usualmente,

adotado como centro da imagem, ou ponto nodal;

• τ , parâmetro de inclinação do sensor CCD, utilizado quando as células do sensor

não possuem um formato retangular;

Figura 2.2: Distorção radial na imagem. A figura a esquerda representa uma ima-gem sem distorção radial, composta por quadrados com mesma área. A figura centralrepresenta uma distorção radial do tipo pincushion, que comprime os dados próximosdo centro da imagem. A figura a direita representa uma distorção radial do tipo barrel,que dilata os dados próximos do centro da imagem. Figura adaptada de Kang et al.(2013)

As lentes utilizadas em câmeras estenopeicas podem interferir na formação da

imagem, alterando o mapeamento entre as coordenadas P e p durante a projeção pers-

pectiva. Esta alteração é comumente representada como uma distorção radial, e notada

por uma deformação na imagem. A deformação se intensifica ao passo que o ponto

projetado p se afasta do centro da imagem c, como notado na Fig. 2.2. A modelagem

de uma lente é uma tarefa complexa e requer um tratamento cuidadoso. Em (HAR-

TLEY; ZISSERMAN, 2003) é descrito um modelo genérico de uma lente, e em (FRY;

PUSATERI, 2010) e (KIM et al., 2010) há propostas de procedimentos para remover a

distorção radial da imagem.

A matriz de parâmetros extrínsecos define a posição e orientação da câmera

no espaço 3D. Os parâmetros descrevem as transformações entre o centro da câmera C

e um ponto de referência no mundo. A matriz de parâmetros extrínsecos, Q, pode ser

escrita como

Q = [R|t] , (2.4)

onde R é uma matriz de rotação 3 × 3 que descreve a orientação da câmera nas três

dimensões do espaço. t é um vetor de translação de três coordenadas não homogeneas,

[Xcam, Ycam, Zcam], que descrevem a posição da câmera, como ilustrado na Fig. 2.3. A

matriz de rotação R pode ser decomposta em

R = Rz(ρ)Rx(θ)Ry(γ) , (2.5)

Figura 2.3: Posição e orientação da câmera no espaço 3D. O ponto O representaa origem do espaço, o qual é utilizado como referência para estimar os parâmetrosextrínsecos, definindo os valores de rotação e translação, R e t.

possibilitando determinar a orientação de cada eixo de forma independente. Expandindo

a Eq. 2.5, tem-se

cos(ρ) − sin(ρ) 0

sin(ρ) cos(ρ) 0

0 cos(θ) − sin(θ)

0 sin(θ) cos(θ)

cos(γ) 0 sin(γ)

− sin(γ) 0 cos(γ)

, (2.6)

onde ρ, θ e γ são os valores de rotação em radiano, aplicados a cada eixo.

Conhecido os parâmetros intrínsecos e extrínsecos do modelo da câmera, a trans-

formação projetiva, descrita na Eq. 2.1, pode ser reescrita na forma

p = K[R|t]P , (2.7)

representando os principais dados necessários para determinar o mapeamento entre os

pontos no espaço 3D para o plano da imagem.

2.3 Calibração de Câmera

A calibração de uma câmera tem como objetivo estimar os parâmetros intrínse-

cos e extrínsecos descritos na Seção 2.2. Nesta seção será descrito o método comumente

utilizado na calibração manual de câmeras estenopeicas.

2.3.1 Calibração Manual de Câmera (ZHANG, 2000)

Zhang (2000) propôs um método de calibração de câmera que utiliza um ob-

jeto de referência, o qual possui um padrão conhecido de símbolos impresso sobre uma

superfície plana. Aprimorado por Bouguet (2015), o processo de calibração consiste em

capturar algumas imagens do objeto de referência e então estimar os parâmetros intrín-

secos e extrínsecos. Neste último método, o objeto de referência possui símbolos com

formas geométricas conhecidas e dispostas de forma organizada sobre a superfície plana.

Usualmente, são utilizados padrões de símbolos, como o tabuleiro de xadrez, devido a

fácil detecção na imagem. Porém, há outros padrões aplicáveis, como ilustrado na Fig.

Uma vez identificado o padrão de símbolos na imagem, são detectados pontos de

controle (quinas de um quadrado do tabuleiro de xadrez, por exemplo). De cada ponto,

são armazenados os valores das suas coordenadas no plano da imagem e a distância real

entre cada ponto ao ponto localizado no canto esquerdo e superior do padrão de símbolos.

De posse de um conjunto de exemplos de pontos, é aplicada uma triangulação para definir

a distância entre a câmera e cada ponto no espaço 3D. Em seguida é estimada a matriz

de projeção da Eq. 2.1, que em seguida é decomposta para Eq. 2.7. Para estimar

a matriz de projeção, é utilizado o método de Random Sample Consensus (RANSAC)

(FISCHLER; BOLLES, 1981), o qual avalia a exatidão da calibração de acordo com o

erro de projeção dos pontos 3D no plano da imagem.

O método de Zhang (2000) é adotado como uma ferramenta padrão pelas prin-

cipais bibliotecas de Processamento de Imagem e Visão Computacional, a exemplo da

Open Computer Vision (OpenCV) (BRADSKI, 2000) e MATLAB (MATLAB, 2010).

Este método é aplicado principalmente pare determinar os parâmetros intrínsecos da

câmera e remover a distorção radial da imagem. Ainda que o método de Zhang (2000)

seja genérico o suficiente para calibrar qualquer câmera estenopeica, este método requer

intensa atuação humana, o que influencia na qualidade dos exemplos fornecidos. Este

tipo de operação torna o processo de calibração de câmera uma tarefa árdua.

2.4 Calibração de Câmera de Vigilância

Câmeras de vigilância são, em sua maioria, do tipo estenopeica e seguem o

modelo descrito na Seção 2.2. Contudo, há determinados ambientes monitorados onde

não é possível utilizar o método de Zhang (2000), devido a necessidade de manipular um

objeto de referência na cena observada. Assim, foram propostas formas de calibrar câme-

ras de vigilância remotamente, sem a necessidade de interferir ou estar presente na cena

Figura 2.4: Padrões de símbolos utilizados para calibração de câmera. A esquerda éutilizado como objeto de referência um tabuleiro de xadrez e a direita um padrão decírculos sobre uma superfície plana. Figura adaptada de OpenCV (2015a).

monitorada. Nesta seção serão apresentados e analisados alguns métodos especializados

em calibrar câmeras de vigilância.

2.4.1 Calibração a Partir de Vídeo de Pedestres (LV et al., 2002)

Cenas monitoradas por câmeras de vigilância possuem informações que podem

ser úteis para calibrar a câmera. Lv et al. (2002) explorou as informações oferecidas

pelos vídeos das câmeras de vigilância na tarefa de calibração. Ele observou que poderia

utilizar propriedades da formação de imagem, os pontos de fuga da imagem (ver Seção

2.6) e um objeto de referência presente na cena (pedestres).

Com o intuito de simplificar o processo de calibração, Lv et al. (2002) assumem

algumas premissas, as quais diminuem a complexidade do modelo de câmera descrito em

Seção 2.2:

• A imagem não apresenta distorção radial e o parâmetro de inclinação assume valor,

τ = 0;

• A razão de aspecto é conhecida ou unitária;

• O sistema de coordenadas da câmera, Camera Coordinate System (CCS), coincide

com o sistema de coordena do mundo, World Coordinate System (WCS), exceto

pela coordenada Y , que é transladada de acordo com a altura da câmera em relação

ao solo, hc.

Seguindo as premissas citadas anteriormente, a matriz de parâmetros intrínse-

cos, descrita na Eq. 2.3, assume a forma

Figura 2.5: Pontos de fuga da imagem para calibração de câmera. À esquerda,imagem original. À direita, os pontos de fuga VX , VY , VZ , extraídos da imagem original.O ângulo de yaw, ρ, é definido pela linha do horizonte, e uma linha horizontal. Oortocentro e o ponto principal da imagem são representados por c. Figura adaptada deLv et al. (2002)

f 0 uc

0 f vc

, (2.8)

sendo necessário apenas estimar o valor da distância focal f e as coordenadas do ponto

principal da imagem c(u, v). A matriz de parâmetros extrínsecos, Eq. 2.4, também é

modificada, reescrevendo o vetor de translação como

t = [Xcam, Ycam, Zcam] = [0, hc, 0], (2.9)

tornando-a dependente apenas da altura da câmera, hc, em relação ao solo. Após as

modificações, a quantidade de parâmetros necessários para determinar a matriz de trans-

formação projetiva diminuiu para sete variáveis: a distância focal, f , as coordenadas do

ponto principal da imagem, c(u, v), os ângulos de rotação ,(ρ, θ e γ), e a altura da câmera

ao plano do chão, hc.

Baseado em (CIPOLLA et al., 1999), Lv et al. (2002) utilizam os pontos de

fuga para estimar alguns dos parâmetros intrínsecos e extrínsecos. Como descrito na

Seção 2.6, os pontos de fuga são determinados pela intersecção de segmentos de reta

de objetos projetados na imagem. Devido a projeção do espaço 3D para o plano da

imagem, existem pelo menos três pontos de fuga por imagem. Cada ponto de fuga pVX,

pVZ, pVY

representa um eixo da câmera no espaço, respectivamente X, Z, Y , onde os

dois primeiros pontos se situam sobre a linha do horizonte, enquanto que o último ponto

situa-se perpendicular à linha do horizonte. Como ilustrado na Fig. 2.5, o ângulo que

define yaw, ρ, é formado entre a reta horizontal e a linha do horizonte, enquanto que o

Figura 2.6: Ilustração geométrica da invariância da relação cruzada de Criminisi etal. (2000). Os objetos com ponta amarela sobre um tronco preto representam pessoasna cena que se encontram perpendicular ao plano do chão. pf e ph, representam oponto inferior e o ponto superior do objeto, ql representa o ponto de intersecção entre areta que passa pelo eixo principal do pedestre e a linha do horizonte. Figura adaptadade Liu et al. (2011).

ponto principal da imagem é definido pelo ortocentro formado pelos pontos de fuga. Lv

et al. (2002) também mostram que a distância focal pode ser estimada por

f =√−(vVX

− vc)(vVY− vc) , (2.10)

onde vVXe vVY

são as coordenadas verticais dos pontos de fuga VX e VY da imagem. Os

ângulos de tilt e pan , θ e γ respectivamente, podem ser definidos por

θ = tan−1((vc − vVX)/f) , (2.11)

γ = ctan−1((uVX− uc)cos(θ)/f) , (2.12)

onde, uVXé a coordenada horizontal do ponto de fuga do plano da imagem.

Definido seis dos setes parâmetros necessários, a altura da câmera, hc, será

estimada pela invariância da relação cruzada proposta em (CRIMINISI et al., 2000).

Esta relação permite estimar a altura da câmera utilizando uma relação de distância

entre a linha do horizonte, l, o ponto de fuga vertical, VY , o ponto mais baixo e o ponto

Figura 2.7: Estimativa dos pontos de fuga por meio dos eixos principais de umapessoa. Os segmentos de reta em laranja representam os eixos principais da mesmapessoas em três diferentes posições. A partir dos eixos são estimados pontos de fugaVn, localizados sobre a linha do horizonte. Na direção vertical é estimado apenas oponto de fuga vertical VY . Figura adaptada de Lv et al. (2002).

mais alto de um objeto de referência, pf e ph, como ilustrado na Fig. 2.6. Essa relação

pode ser escrita como

hi =h3Dihc

= 1−d(ph, l)d(pf , pVY

d(pf , l)d(ph, pVY), (2.13)

e é nomeada como altura relativa de um i-ésimo objeto hi. Nesta Eq. 2.13, d(., .)

determina a menor distância entre dois elementos pertencentes ao plano da imagem, e

h3Di é a altura real do i-ésimo objeto. A altura da câmera pode ser estimada pela razão

hc = h3Di /hi, (2.14)

sendo necessário conhecer a altura real do objeto de referência, sua posição na cena e os

pontos de fuga da imagem.

O problema de calibração recai sobre a necessidade de estimar os pontos de

fuga da imagem e conhecer um objeto de referência na cena. Lv et al. (2002) propõem

então utilizar apenas os pedestres presentes na imagem para estimar os pontos de fuga

e a altura da câmera. A cada quadro do vídeo, uma pessoa é detectada por meio de

subtração de background, Seção 2.5, e tem seu eixo principal determinado. Cada pessoa

tem seu eixo principal extraído apenas quando cruza as pernas durante a caminhada.

Este procedimento tem o objetivo de diminuir as distorções na orientação e tamanho do

eixo principal. Esta seleção de amostras do eixo principal requer uma intensa análise

do formato do corpo durante a caminhada da pessoa. Para estimar os pontos de fuga,

são requisitados ao menos três exemplos de eixos principais não colineares. Os pontos

superiores e os pontos inferiores dos eixos principais são agrupados, formando retas. Os

pontos de intersecção originados das retas formadas na imagem darão origem aos pontos

de fuga da imagem, Fig. 2.7. A altura da câmera, hc, é determinada por

hc = E(h3Di )/E(hi) , (2.15)

onde E(hi) é a média das alturas relativas dos eixos principais, de acordo com a Eq.

2.14, e E(h3Di ) a média das alturas reais conhecidas.

Avaliado por Lv et al. (2002) em um data set privado, no qual o cenário é

controlado e possui apenas uma pessoa durante toda a cena, o método apresentou bons

resultados. Contudo, o método suporta apenas uma pessoa como objeto de referência

durante todo o vídeo. É requerido a analise do formato do corpo da pessoa a cada frame

do vídeo, limitando o uso do método a cenas controladas. É necessário também que a

pessoa rastreada mantenha a velocidade de caminhada constante, o que não ocorre em

cenas mais complexas, com grande ocupação de pessoas. É necessário que a altura da

pessoa se mantenha constante. A grande contribuição do trabalho de Lv et al. (2002) é

a formulação matemática do problema, que permite estimar os parâmetros intrínsecos e

extrínsecos por meio dos pontos de fuga da imagem, e de qualquer objeto perpendicular

ao plano do chão.

2.4.2 Auto-calibração Bayesiana (KRAHNSTOEVER; MENDONCA,2005)

Seguindo a ideia proposta de Lv et al. (2002), Krahnstoever e Mendonca (2005)

elaboraram um método de calibração de câmeras de vigilância que utiliza apenas os pe-

destres da cena, utilizando um modelo Bayesiano para estimar os parâmetros intrínsecos

e extrínsecos. Para diminuir o espaço de busca na modelagem Bayesiana, são assumi-

das as mesmas premissas adotadas em (LV et al., 2002), exceto pelo ponto principal da

imagem c(u, v), que tem suas coordenadas igualadas a zero. Desta forma a matriz de

parâmetros intrínsecos da Eq. 2.3 é reduzida para

, (2.16)

onde a distância focal f é o único parâmetro intrínseco que será estimado. A matriz

de rotação dos parâmetros extrínsecos também é alterada, ignorando o ângulo de pan, e

rescrevendo a Eq. 2.5 na forma

R = Rz(ρ)Rx(θ) (2.17)

A rotação em torno do eixo Y é ignorada, sem prejuízo na generalização do

problema, devido a câmera de vigilância permanecer estática em relação aos pontos de

fuga. A altura da câmera é representada no vetor de translação t = [0, 0, hc], adotando

o eixo Z do espaço 3D como o eixo perpendicular ao plano do chão, diferente de (LV

et al., 2002). Estas premissas restringem a calibração a quatro variáveis: distância focal

f , ângulos de rotação em torno dos eixos Z e X do espaço 3D, ρ e θ, respectivamente,

e a altura da câmera em relação ao solo, hc. Nesta abordagem de calibração, o método

estima todas as quatro varáveis conjuntamente, o que difere da abordagem de Lv et al.

(2002), a qual utiliza dois passos: primeiro é estimado os pontos de fuga da imagem;

em seguida é definida a altura da câmera. Com base em Semple e Kneebone (1998),

é aplicada uma relação entre as quatro varáveis, utilizando a Eq. 2.13, baseando sua

estimativa no eixo principal de cada pessoa. Cada pessoa é detectada na cena utilizando

um classificador proposto por Saptharishi et al. (2000), o qual é especializado em detectar

pessoas em movimento. Por fim, o método aplica um tratamento de ruído por meio do

método de Metropolis et al. (1953).

Na avaliação deste método foram utilizados três data sets, capturados em ambi-

entes abertos, com baixa ocupação de pessoas e uma altura média conhecida das pessoas,

ilustrado na Fig. 2.8. O tratamento de ruído e a unificação das quatro variáveis foram as

principais contribuições deste trabalho. Contudo, a complexidade matemática do método

requer grande esforço computacional.

2.4.3 Abordagem de (LV et al., 2006)

O método de calibração de câmera de vigilância proposto por Lv et al. (2006)

é uma evolução direta do trabalho de Lv et al. (2002), seguindo a mesma abordagem

matemática e a forma de estimar os parâmetros de calibração, baseados nos pontos de

Figura 2.8: Cenários de teste utilizados para avaliar o método de Krahnstoever eMendonca (2005). Os cenários aprestam diferentes ângulos de captura, em cenas urba-nas e com texturas de fundo uniformes. Figura adaptada de Krahnstoever e Mendonca(2005).

Figura 2.9: Informações de cena utilizadas por Lv et al. (2006). Na imagem (a)são ilustrados dois segmentos de reta, X1X2 e Z1Z2, utilizados para definir os pontosde fuga VX e VY . A Fig. (b) ilustra o ponto de cruzamento das pernas durante acaminhada do pedestre. São analisadas a altura k1 e a largura k2 do formato do corpo,e selecionados os formatos do corpo que apresentem menor valor da razão entre k2 ek1. No gráfico a direita da imagem (b), é representada a oscilação da forma do corpodurante a passagem de frames. Figura adaptada de Lv et al. (2006).

fuga da imagem, na invariância da relação cruzada de Criminisi et al. (2000), e na altura

das pessoas na cena. Contudo, a forma de estimar os ponto de fuga adotada por Lv et

al. (2006) difere da proposta de Lv et al. (2002). No primeiro, os pontos de fuga são

definidos pela combinação entre os eixos principais das pessoas na cena e de duas linhas

auxiliares, as quais são inseridas pelo usuário do sistema, de acordo com a estrutura de

fundo presente na cena. O eixo principal de cada pedestre é extraído apenas no instante

em que o pedestre cruza as pernas durante a caminhada. Para selecionar a pose em

que o pedestre está com as pernas cruzadas, é avaliada a largura do formato do corpo

durante a caminhada, Fig. 2.9(b), e retornados apenas os eixos que apresentem a menor

largura. Essa análise de formato do corpo é aplicada a cada indivíduo presente no vídeo

de vigilância, sendo necessário aplicar a detecção e rastreamento das pessoas em Zhao e

Nevatia (2004) para manter o mesmo rótulo de cada indivíduo entre os frames.

De posse dos eixos principais, são definidos os pontos do topo e da base de cada

eixo. Estes pontos são utilizados para definir os pontos de fuga da imagem, junto com

dois segmentos de reta auxiliares, paralelas ao plano do chão, e não paralelas entre si.

Estas retas são definidas pelo usuário, e devem seguir estruturas da cena. Eixos principais

de pedestres são, geralmente, perpendiculares ao plano do chão, úteis para determinar o

ponto de fuga vertical VY . Os segmentos de reta auxiliares são utilizados na estimativa

da linha do horizonte, como ilustrado na Fig. 2.9(a). Em seguida é determinada a altura

relativa de cada eixo principal de acordo com a invariância da relação cruzada.

Lv et al. (2006) propuseram uma forma de avaliação dos parâmetros de calibra-

ção por meio de objetos de referência presentes na imagem. Os objeto-modelos escolhidos

têm seus eixos principais marcados manualmente. Os eixos marcados são comparados

com os eixos gerados pela reprojeção dos mesmos objetos, após a calibração. Em se-

guida, é medida a distância entre os pontos do topo e da base do eixos, ilustrados na

Fig. 2.10. A distância entre os pontos representam o erro e em pixels da calibração na

estimativa da matriz de projeção. Submetido a avaliações com cinco data sets, o método

apresentou uma melhora em relação ao método proposto em (LV et al., 2002). Ainda que

Lv et al. (2006) afirmem que o método é robusto a ambientes com média ocupação de

pessoas, os cenários utilizados para validação do método são controlados e apresentam

apenas uma pessoa como objeto de referência. As principais contribuições deste trabalho

são a avaliação baseada na projeção do eixo principal de um objeto modelo e a fusão de

características entre objetos de referência e segmentos de reta da estrutura da cena para

determinar os pontos de fuga.

2.4.4 O que Pedestres Podem Informar Sobre a Geometria 3D da Cena(ROTHER et al., 2007)

Propondo analisar melhor a cena monitorada, o trabalho de Rother et al. (2007)

propõem um framework para determinar a posição de alvos na cena e a sua trajetória

percorrida de acordo com sua posição sobre o plano do chão. Para fornecer essas ferra-

mentas, é aplicada, como primeira etapa do framework, uma calibração de câmera. Com

Figura 2.10: Ilustração da estimativa do erro em pixels. O segmento de reta verderepresenta o eixo do objeto modelo manualmente marcado, em vermelho há o eixoreprojetado por meio da calibração efetuada. A distância entre os pontos inferiores edo topo de cada eixo são representados por ef e eh respectivamente. Somados ef e eh,encontra-se o erro total e. Figura adaptada de Lv et al. (2006).

base no conhecimento sobre plano do chão e a uma modelagem de cores, a sombra de

cada objeto é detectada e segmentada.

Rother et al. (2007) utilizam o processo de calibração de câmera como uma

ferramenta. Contudo, alguns pontos do processo de estimativa dos parâmetros diferem

das abordagens citadas anteriormente. A modelagem matemática segue a proposta de

Krahnstoever e Mendonca (2005), reduzindo os parâmetros de calibração a quatro va-

riáveis, associando sua inferência aos pontos de fuga da imagem e a uma altura de um

objeto conhecido na cena. Todo o processo de detecção do ponto de fuga é fundamen-

tado nos eixos principais das pessoas, extraídos por meio de um método de subtração de

background.

O processo de estimativa dos pontos de fuga depende diretamente dos eixos

principais das pessoas. A cada frame, são extraídos os eixos principais e agrupados por

pessoa, com o intuito de manter a relação da altura real e sua projeção na imagem. Os

pontos de fuga são estimados para cada grupo de eixos principais utilizando o método dos

mínimos quadrados. Conhecidos os pontos de fuga da imagem, é determinado o plano

do chão. A altura de referência é determinada de acordo com a caminhada das pessoas

sobre o plano do chão. Krahnstoever e Mendonca (2005) assumem que a distância média

percorrida por uma pessoa, a cada segundo, equivale a metade da sua altura, para então

aplicar uma triangulação entre a distância medida e a altura da câmera. Ainda que a

forma de estimar a altura da câmera seja diferente, se faz necessário conhecer a altura

real de um pedestre.

Figura 2.11: Detecção de pessoas e a geração dos planos. Em (a) é apresentado oformato do corpo necessário para classificar o blob como pessoa. Para cada formato decorpo detectado é gerado um plano perpendicular ao ao plano do chão. Em (b), paracada detecção foram gerados Qn planos. Figura adaptada de Rother et al. (2007).

O método proposto por Rother et al. (2007) é limitado à posição da câmera que

favoreçam a captura de imagens de pessoas completamente em pé e sem ocorrência de

oclusão parcial. São utilizados data sets privados, os quais são conhecidas as métricas

dos objetos da cena. Para avaliar o processo de calibração, é comparado a altura real de

objetos da cena com as alturas estimadas.

2.4.5 Auto-Calibração Por Meio de Detecção de Pessoas (MICUSIK;PAJDLA, 2010)

Micusik e Pajdla (2010) mantêm a ideia inicial proposta em (LV et al., 2002),

e utilizam apenas informações dos eixos principais dos pedestres para calibrar a câmera.

Para cada ponto inferior do eixo, sobre o plano do chão, é atribuído uma coordenada 3D

e calculada uma matriz de homografia entre o plano da imagem e o plano perpendicular

ao plano do chão que passa pela coordenada atribuída (ver Fig. 2.11(b)). Em seguida,

é gerado um conjunto de matrizes de homografia, relacionando os pontos no espaço e os

pontos na imagem. Esta relação permite estimar os parâmetros intrínsecos e extrínsecos

por meio de um modelagem matemática que recai sobre um problema não-linear. Micusik

e Pajdla (2010) utilizam o método de convergência de valores por autovalores quadráticos

de Steele e Jaynes (2006), buscando minimizar o erro de reprojeção. Para detectar as

pessoas é utilizado um método especializado, proposto por Beleznai e Bischof (2009).

Este método detecta apenas pessoas em movimento por meio da subtração de background,

e cada blob extraído do foreground, (ver Seção 2.5), é submetido a um classificador de

contorno. O blob é avaliado e recebe o rótulo de pessoa caso apresente um contorno

Figura 2.12: Marcação de segmentos de reta e estimativa dos pontos de fuga. Aimagem de um cenário real é apresentada em (a), no qual são marcados, manualmente,dois pares de segmentos de reta (amarelo). Cada par converge para um ponto de fuga,indicado pelas retas em vermelho. Em (b) é mostrado que a partir de dois pontos defuga, V1 e V2, um terceiro ponto de fuga pode ser estimado, caso o ponto princial daimagem c seja conhecido. Figura adaptada de Lee e Nevatia (2011).

semelhante ao modelo ilustrado na Fig. 2.11(a). Para avaliação do método, é utilizado

um cenário de testes sintético e uma cena real controlada. Foram utilizadas duas métricas

para análise: o erro médio quadrático da reprojeção do objeto de referência, e a estimativa

da distância focal em pixels. Ainda que tenha sido relatado um bom desempenho do

método, este não foi comparado diretamente a outros métodos de calibração de câmeras

de vigilância. Os cenários sintéticos e reais retratam cenas simples, poucas pessoas,

ambiente controlado, fundo de cena claro e uniforme, o que não representa cenários

usualmente monitorados em aplicações reais.

2.4.6 Ferramenta Robusta de Calibração de Câmeras de Vigilância emAmbientes Urbanos (LEE; NEVATIA, 2011)

Cenas urbanas oferecem informações úteis e confiáveis para estimar parâmetros

intrínsecos e extrínsecos, como mostrado em (CIPOLLA et al., 1999) e (CRIMINISI et

al., 2000). Lee e Nevatia (2011) propõe utilizar essas informações da cena para calibrar

câmeras de vigilância. Diferente dos métodos de calibração de câmeras de vigilância

citados, essa abordagem não requer o uso de pessoas para estimar os pontos de fuga

da cena. Com base na modelagem matemática proposta em (CIPOLLA et al., 1999), é

necessário determinar os pontos de fuga para estimar os valores dos parâmetros intrín-

secos e da matriz de rotação. Lee e Nevatia (2011) utilizam informações da cena para

determinar os pontos de fuga, observando as estruturas urbanas presentes na imagem.

Como mostrado na Fig. 2.12(a), são marcados, manualmente, pelo menos dois pares de

segmentos de reta, onde cada par aponta para um ponto de fuga. Os pontos de fuga

são estimados por meio do método dos mínimos quadrados. De posse de dois pontos de

fuga, é possível determinar o terceiro ponto de fuga, utilizando o ortocentro do triângulo

formado entre os pontos de fuga, ilustrado em 2.12(b). A altura da câmera, último va-

lor requerido para a calibração, é definido também pela invariância da relação cruzada

proposta em (CRIMINISI et al., 2000), sendo necessário conhecer o comprimento de um

objeto na cena. O método é avaliado em ambientes reais, onde há estruturas urbanas,

e uma baixa ocupação de pessoas. O método foi submetido a oito diferentes ângulos de

captura de imagem, e o seu erro de reprojeção médio atingiu valores promissores. Ainda

que requeira intensa intervenção humana durante o processo de marcação dos segmentos

de reta na imagem e da escolha do objeto de referência, a abordagem baseada em dicas

da estrutura da cena contribuiu para diminuir a complexidade do processo de estimativa

dos pontos de fuga.

2.4.7 Auto-Calibração de Câmera de Vigilância Baseado na Distribui-ção da Altura de Pedestres (LIU et al., 2011)

Todos os métodos, citados anteriormente, requerem intervenções humanas du-

rante o processo de calibração, seja para definir os eixos das pessoas na cena, ou selecionar

objetos de referência na cena monitorada. Liu et al. (2011) elaboraram um framework

que visa evitar intervenções no processo de calibração da câmera. Seguindo a modelagem

matemática de Cipolla et al. (1999), este framework utiliza apenas os eixos principais

das pessoas na cena, junto com informações prévias sobre a distribuição de alturas da

população europeia (VISSCHER, 2008) para estimar os pontos de fuga da imagem e a

altura da câmera. A cada frame do vídeo é extraído os blobs dos pedestres utilizando

a subtração de background. Cada blob é aproximado para uma elipse (FITZGIBBON;

FISHER, 1995), assumindo o maior eixo da elipse como o eixo principal dos pedestres.

De posse dos eixos principais dos pedestres, é aplicado o método RANSAC para estimar

o ponto de fuga de fuga vertical, VY , e selecionar apenas os eixos principais que apon-

tam para o ponto de fuga vertical, chamados de "bons exemplos". A seleção dos bons

exemplos permite eliminar ruídos gerados a partir de deformações dos blobs causados

por oclusão parcial dos pedestre e união indevida de blobs.

Liu et al. (2011) combinam a relação entre o ponto de fuga vertical, VY , a linha

do horizonte, l, formada entre os pontos de fuga, VX e VZ , e a distância focal, f , definida

xVYxl + yVY

yl + f2 = 0 , (2.18)

em (LIEBOWITZ; ZISSERMAN, 1999), com a Eq. 2.13, da invariância da relação

cruzada de Criminisi et al. (2000). Esta relação permite estimar de forma conjunta a

Figura 2.13: Avaliação do framework de Liu et al. (2011) por meio do erro relativoquadrático médio da reprojeção dos pontos de topo e inferior do eixo principal. Emcada cenário avaliado, as pessoas tiveram seus eixos principais marcados, simbolizadospelos segmentos de reta em verde. Em magenta estão os eixos principais reprojetadosapós a calibração da câmera. Figura retirada de Liu et al. (2011).

distância focal, f , e o valor médio da altura relativa, E(hi). Sobre esta combinação, é

aplicado o método de Monte Carlo, que atribui valores a distância focal para gerar uma

distribuição de alturas relativas, encontrando a equação da linha do horizonte, definida

na Eq. 2.18. A distribuição de alturas relativas é comparada com a distribuição de

alturas reais das pessoas descrita por Visscher (2008), no qual 90% das alturas estão

concentradas a uma distância relativa de 7,6% do valor médio, 172cm. Aplicada essa

regra à altura relativa na Eq. 2.14, tem-se

|hi − E(hi)|E(hi)

≤ 0.076 , (2.19)

sabendo-se que altura da câmera e o valor médio da distribuição das alturas reais são

valores constantes. Para diminuir a quantidade de iterações sobre a distância focal, são

atribuídos valores em f de acordo com a variação do ângulo de abertura da câmera, onde

cada iteração é incrementado 0, 05◦. Após determinar o valor médio da altura relativa e

conhecido o valor médio da altura real, é possível aplicar a Eq. 2.15 para determinar a

altura da câmera.

Para avaliar o desempenho do framework, Liu et al. (2011) propõem uma mé-

trica que permite analisar a reprojeção de objetos de referência, e a correta orientação do

eixo principal do pedestre. Esta métrica é o erro relativo quadrado médio da reprojeção

dos pontos de topo e inferior do eixo principal, definido por

(d(ph, p

d(pf , p′h)

, (2.20)

onde p′h é a coordenada em 2D da projeção 3D do eixo principal de um objeto, utilizando

os parâmetros intrínsecos e extrínsecos estimados, e ph e pf são as coordenadas dos

pontos de topo e inferior dos eixos principais, marcados como referência para a avaliação

do método, ilustrado na Fig. 2.13

As avaliações do framework apresentou bons resultados e ocorreram sobre data

sets sintéticos e reais, com média ocupação de pessoas. Liu et al. (2011) mostraram que

utilizando informações prévias sobre a população de pessoas monitoradas, é possível au-

tomatizar todo o processo de calibração de câmeras de vigilância. Contudo, a estimativa

dos parâmetros necessita grande quantidade de bons exemplos de eixos principais, o que

exige poder de processamento para estimar corretamente os pontos de fuga.

2.5 Subtração de Background

A subtração de background é uma ferramenta presente em sistemas de vídeo

vigilância (ver Seção 2.4). A subtração de background permite segmentar elementos que

alteram sua posição dentro da cena monitorada, observando elementos que permanecem

estáticos na cena. A segmentação ocorre para cada i-ésimo frame do vídeo, Ii, de acordo

com a função

S(Ii) = [IFi, IB] (2.21)

onde S é a função que aplica a segmentação. Como mostrado na Fig. 2.14, esta função

tem como retorno duas imagens:

• IFi, imagem de foreground, o qual contém os elementos que se movem na cena

monitorada, blobs, para o i-ésimo frame segmentado.

• IB, imagem de background, imagem que contém a cena de fundo, com elementos

estáticos. Esta imagem é atualizada a cada frame segmentado.

A função de segmentação S representa o método utilizado para determinar a

imagem de background e a forma de segmentar a imagem de foreground. Funções de

segmentação eficientes devem apresentar nas imagens de foreground apenas os objetos

em movimento, enquanto que na imagem de background não deve haver borrões, ou

qualquer elemento não permanente durante o vídeo.

Sobral e Vacavant (2014) avaliaram 29 métodos de subtração de background.

Todos os métodos foram avaliados utilizando o data set do Background Models Challenge

(Vacavant et al., 2012), composto por 20 vídeos sintéticos e 9 vídeos de cenas reais.

Dentre os 29 métodos avaliados, foram selecionados os quatro métodos que se destacaram

por apresentar melhores desempenhos. Estes serão descritos a seguir e submetidos a

avaliações com data sets de cenas de vigilância.

Figura 2.14: Representação do processo de subtração do background. Cada pixel doframe atual é comparado ao da imagem de background. A quantificação da comparaçãodeve superar um limiar T para que o pixel seja classificado como foreground, represen-tado pelo conjunto de pixels brancos (blob) na imagem a direita. Figura adaptada de(OPENCV, 2015c).

2.5.1 Adaptive Background Learning

O Adaptive Background Learning (ABL) utiliza um processo simples de seg-

mentação entre foreground e o background. Baseado em aprendizado da cena, o ABL

mantém uma imagem de referência, IB, com a mesma resolução do vídeo de entrada.

Essa imagem de referência é inicializada com o primeiro frame do vídeo. Durante o

processo, cada frame seguinte é comparado com o IB, e com base no resultado desta

comparação, a imagem de fundo é ajustada para conter os objetos estáticos da cena. O

processo de comparação do ABL consiste em aplicar uma diferença entre o frame atual

e a imagem de referência, de acordo com

|Ii(u, v)− IB(u, v)| > T , (2.22)

onde o módulo da diferença entre os pixels de mesma coordenada, (u, v), do frame Ii e

da imagem IB são comparados a um limiar T . Este limiar determina o destino do pixel

avaliado, tornando-o um pixel do foreground, IFi, caso o valor do módulo da diferença

supere T , ou, caso o valor do módulo seja menor ou igual a T , um pixel do background.

Esta comparação é usualmente aplicada a imagens em tom de cinza, porém, pode ser

aplicada a imagens RGB, sendo necessário cada pixel, em cada canal de cor, superar o

limiar T conjuntamente.

Os pixels definidos como parte da imagem de background sofrerão um processo

de atualização. A cada pixel é somada, ou subtraída, uma taxa de atualização ι de acordo

com a variação resultante da diferença entre Ii e IB. Uma variação positiva indica que

o pixel deve incrementar o seu valor, caso contrário o pixel tem seu valor decrementado

por ι.

O ABL requer dois parâmetros, o limiar de segmentação T e a taxa de atualiza-

ção ι. Nesta abordagem, T é limitado ao intervalo entre [0, 255] e ι limitados entre [0, 1].

Um valor de limiar baixo torna o método sensível, e pequenas variações de iluminação

podem ser classificadas como foreground ; por outro lado, um valor de limiar alto, torna

o método insensível a objetos móveis na cena, requerendo uma grande diferença entre as

cores para se tonar parte da imagem do foreground. A taxa de atualização com valores

próximos de 0, requer uma grande amostragem de frames para gerar o correto modelo da

imagem do background, uma vez que o incremento, e decremento, dos valores dos pixels é

quase nulo. Por outro lado, valores próximos de 1, tornam a IB instável, alterando cons-

tantemente suas cores da imagem de fundo. Na avaliação de Sobral e Vacavant (2014),

a melhor configuração é T = 15 e ι = 0.5.

2.5.2 Mesclagem de Gaussianas (KAEWTRAKULPONG; BOWDEN,2002)

Por meio da distribuição gaussiana, KaewTraKulPong e Bowden (2002) mo-

delam a imagem de background. Esta abordagem modela toda a imagem e analisa a

frequência de atualização de cada cor do pixel. São atribuídos pesos de acordo com a

taxa de variação das cores, para preservar os pixels que apresentem menor variação de

Com base no trabalho de Stauffer e Grimson (1999), para cada pixel da imagem

de background é gerada uma distribuição gaussiana para representar as cores que ocor-

rem com maior frequência no pixel. Friedman e Russell (1997) mostrou que as cores que

ocorrem com maior frequência, representam objetos estáticos na cena. As distribuições

são pontuadas com pesos, onde as distribuições com alta ocorrência da mesma cor rece-

bem os maiores pesos, se tornando mais resistente ao fator de atualização ι. Para cada

novo frame do vídeo, Ii, todos os pixels são comparados ao valor médio da distribuição,

que descreve a frequência de cores para o pixel de mesma coordenada. É aplicada a

diferença entre o pixel Ii(u, v) e a média da distribuição µi(u, v) de mesma coordenada.

Assim como na Eq. 2.22, o módulo da diferença é comparado ao limiar T para definir se

o pixel pertence ao foreground ou ao background.

Figura 2.15: Detecção de sombra na imagem de foreground. A esquerda é apresentadaa imagem original, e a direita são representados os pixels pertecente ao objeto móvelem branco, enquato que os pixels em cinza representam a sombra. Figura adaptada deOpenCV (2015c)

Após a segmentação, a variação da intensidade do brilho do pixel do foreground

é confrontada com a distribuição gaussiana do pixel de background. A intensidade permite

avaliar se o pixel do foreground representa um objeto em movimento na cena, ou sua

sombra, como ilustrado na Fig. 2.15.

KaewTraKulPong e Bowden (2002) analisa toda a imagem, observando e regis-

trando a variação das cores nos pixels a cada frame. Este método apresenta resultados

melhores quando comparados ao ABL. A modelagem da imagem de background por

meio de distribuições gaussianas tornou o método menos sensível a variações de luz,

diminuindo a quantidade de falhas na segmentação.

2.5.3 Subtração de Background em Multicamadas Baseado em Tex-tura e Cor (YAO; ODOBEZ, 2007)

Yao e Odobez (2007) propuseram uma abordagem de subtração de background

utilizando em conjunto com as informações de cores e textura. Um histórico da imagem

de background é mantida para aumentar a precisão da segmentação, evitando que objetos

que se tornaram estáticos dentro da cena sejam classificados como parte da imagem de

background.

As informações de textura de cor são compactadas em descritores. O descritor

Local Binary Pattern de Heikkilä e Pietikäinen (2006) e a métrica de invariância de cor

são utilizados para descrever cada pixel da imagem. Na segmentação, é calculada uma

distância entre os descritores do pixel do frame atual e a imagem de background. Esta

distância deve superar o valor do limiar T para o pixel ser considerado elemento da

imagem de foreground.

Figura 2.16: Detecção de objetos estacionários por meio das multicamadas. A pri-meira coluna representa o instante em que a bagagem é abandonada. A segunda colunailustra a segmentação, alguns frames após o abandono. A terceira coluna ilustra adetecção da bagagem estática, mesmo após centenas de frames depois do abandono.Figura adaptada de Yao e Odobez (2007).

O histórico de imagens de background mantido pelo método, chamado de cama-

das, permite identificar elementos que se tornaram estáticos na imagem, como ilustrado

na Fig. 2.16. Contudo, esta detecção apenas ocorre de forma correta após um longo

período de amostragem dos frames.

O uso de descritores de textura e cores diminui a ocorrência das falhas de

segmentação, principalmente, quando há semelhança entre as cores dos objetos móveis

e a imagem de background. Contudo, a detecção de objetos estacionários é a maior

contribuição deste trabalho. A complexidade do método degrada o seu desempenho

para 6 frame por segundos (FPS), tornando a sua aplicação inviável para sistemas que

requeiram respostas em tempo real.

2.5.4 Subtracção de Background Auto-Organizado (MADDALENA;PETROSINO, 2008)

A Subtração de Background Auto-Organizado utiliza uma rede neural artificial

(RNA) para descrever a imagem de background. Maddalena e Petrosino (2008) pro-

põem que cada nó da RNA represente os pixels da imagem e, a cada frame, a rede seja

retreinada, adaptando-se ao novo modelo da imagem de background.

Maddalena e Petrosino (2008) utilizam o espaço de cor Hue Saturation Value

(HSV) para representar as cores da imagem. Para segmentar os pixels, é utilizada a

distância Euclidiana no espaço HSV, descrito por Fisher (1999), nos pixels de mesma

coordenada do frame atual e da imagem de background. Caso esta distância supere o

limiar T , o pixel será considerado parte do foreground. A modelagem da imagem de

background é feita por uma rede neural. Cada pixel representa um nó de entrada da

RNA. Cada nó se relaciona com os 8 vizinhos, atribuindo pesos a essa relação. Estes

pesos são determinados de acordo com a distância Euclidiana calculada durante a etapa

de segmentação e de acordo com a ocorrência da cor no pixel. Esta abordagem requer um

período de aprendizagem durante o início do vídeo. Para o processo de aprendizagem, a

cena deve estar com o mínimo de objetos móveis, caso contrário, serão necessário mais

frames de exemplos para uma correta modelagem da imagem de background.

Este método apresenta bons resultados para ambiente fechados e abertos, com

pequenas variações de luz. O método é capaz, também, de detectar objetos estacionários

na imagem. Contudo, o processo de aprendizagem da cena e a constante atualização da

RNA dificultam a aplicação do método em sistemas que requerem respostas em tempo

2.6 Detecção de Pontos de Fuga

Devido a redução da dimensão durante a projeção perspectiva (ver Seção 2.2),

retas paralelas no espaço 3D convergem para um mesmo ponto quando projetadas no

plano da imagem (ver Fig. 2.17). Os pontos, para os quais estas retas convergem na

imagem, são chamados de pontos de fuga.

Os pontos de fuga são utilizados como referência para determinar a orientação

da câmera e explorar informações 3D da cena. Na Seção 2.4, todos os métodos exploram

as informações dos pontos de fuga para calibrar a câmera. Lv et al. (2002) mostraram

que os pontos de fuga são úteis para determinar a distância focal e os ângulos de rotação

em torno de cada eixo da câmera durante o processo de calibração.

Coughlan e Yuille (2000) mostraram que cenários antrópicos são frequentemente

caracterizados por estruturas ortogonais. Esse tipo de cenário foi rotulado como Manhat-

tan World. Cenários do tipo Manhattan World apresentam 3 pontos de fuga, onde cada

um desses pontos de fuga representa um eixo do espaço 3D. Chamados de pontos de fuga

horizontais, VX e VZ , representam os eixos X e Z, enquanto que o eixo Y é o ponto de

fuga vertical, VY . Os pontos de fuga horizontais formam a linha do horizonte na imagem.

Esses pontos de fuga podem ser determinados observando um conjunto de segmentos de

Figura 2.17: Retas paralelas no espaço 3D, convergindo após a projeção perspectivana imagem. Foto de uma avenida apresentam trilhos paralelos (linhas pontilhadas emazul) que apontam para um mesmo ponto V no infinito.

reta, G, extraídos das estruturas presentes na cena. Dessa forma, a detecção dos pontos

de fuga pode ser descritos como

F (G) = [VX , VY , VZ ] , (2.23)

onde F (.) é uma função que determina os pontos de fuga da imagem.

2.6.1 Detecção de Ponto de Fuga em Imagens Monoculares com Estru-turas do Tipo Manhattan World (WILDENAUER; HANBURY,2012)

Wildenauer e Hanbury (2012) combinam as informações de cenários Manhattan

World com o modelo de câmeras estenopeicas para determinar os pontos de fuga da

imagem. Depois de extraídos os segmentos de reta da imagem, é aplicado o RANSAC

para selecionar as melhores exemplos e estimar os pontos de fuga da imagem.

Da imagem, são extraídos os segmentos de reta utilizando o detector de bordas

de Canny (CANNY, 1986), em conjunto com os mínimos quadrados. Essas retas são

selecionadas, aleatoriamente, e agrupadas em um conjunto com quatros exemplos. Como

ilustrado na Fig. 2.18, estes quatros exemplos de segmentos de reta apresentam dois

casos:

Figura 2.18: Combinações dos quatro segmentos de reta selecionados para estimaros pontos de fuga. Na primeira configuração, a esquerda, há dois pares de segmentosde reta, definindo dois pontos de fuga. Na segunda configuração, a direita, três pontosde fuga são definidos pela combinação de um par de segmentos de reta e dois outrossegmentos. Figura adaptada de Wildenauer e Hanbury (2012)

• o primeiro caso apresenta dois pares de segmentos de reta, os quais determinam

dois pontos de fuga. Admitindo o ponto principal da imagem c(0, 0), é possível

determinar o terceiro ponto de fuga restante;

• o segundo caso apresenta um par de reta convergindo para o mesmo ponto de fuga.

Os outros dois segmentos de reta apontam para outros pontos de fuga restantes.

Em grupos de quatro exemplos, os segmentos de reta são avaliados nos dois

casos descritos anteriormente. Cada segmento de reta do conjunto total tem seu desvio

avaliado em relação a um dos pontos de fuga encontrados. Caso o desvio do segmento

de reta seja menor que um limiar para qualquer um dos três pontos de fuga, o segmento

de reta é incluso no grupo do ponto de fuga o qual apresentou menor desvio. Por meio

do RANSAC, são selecionados o conjunto de pontos de fuga que apresentem um maior

número de segmentos de reta, de acordo com a avaliação do desvio.

Wildenauer e Hanbury (2012) apresentaram uma solução elegante para determi-

nar os pontos de fuga da imagem. A simplicidade das operacões matemáticas junto com

a característica iterativa do RANSAC possibilitaram que o método atinja uma taxa de

resposta média de 35 ms. Contudo, a busca aleatória por bons exemplos, pode diminuir

a precisão do método, requerendo mais ciclos iterativos do RANSAC.

2.6.2 Detecção de Ponto de Fuga para Cenários Antrópicos (XU et al.,2013)

O método de detecção de pontos de fuga, proposto por Xu et al. (2013), aplica

um princípio que agrupa os segmentos de reta de acordo com o seu desvio em relação aos

Figura 2.19: Cenários antrópicos que apresentam mais que três pontos de fuga. Emcada imagem, os segmentos de reta estão agrupados por cor, de acordo com o pontode fuga para o qual apontam. As retas que cruzam a imagem em roxo e azul cianopontilhado, são as linha do horizonte estimada e a linha do horizonte verdadeira, res-pectivamente. Figura retirada de Xu et al. (2013).

pontos de fuga. Neste método, também é adotado como premissa o Manhattan World.

Este método é capaz de detectar mais que 3 pontos de fuga na cena, devido ao processo

de agrupamento, o qual não se limita a apenas três pontos de fuga, como ilustrado na

Fig. 2.19.

Para extrair os segmentos de reta da imagem é utilizado o método de Gioi et

al. (2010),( ver Seção 2.7.1). Os G segmentos de reta extraídos são agrupados de acordo

com o ponto de fuga o qual apontam. O agrupamento segue o princípio de Tardif (2009),

chamado de J-linkage. Este processo aleatoriamente seleciona uma quantidade média

de 3000 pares de segmentos de reta. Para cada par, é calculado o ponto de intersecção

das retas, representando um total de N pontos. É gerada uma matriz G × N binária,

o qual representa a agrupamento das retas no ponto de fuga. Os pontos de fuga que

apresentarem um maior número de segmentos de reta em seu grupo são selecionados e

passam por um refinamento. O processo de refinamento pode reduzir a quantidade de

segmentos de reta que apresentem discrepância em relação à distribuição do desvio.

Xu et al. (2013) elaboraram ummétodo robusto, baseado no processo de agrupa-

mento, o qual permitiu detectar mais que três pontos de fugas por imagem, extrapolando

o limite do trabalho de Wildenauer e Hanbury (2012). Contudo, os resultados de Xu et

al. (2013) superam em apenas 0, 3% o desempenho alcançado por Wildenauer e Hanbury

(2012), consumindo mais tempo para a mesma tarefa.

2.6.3 Detecção de Pontos de Fuga no Domínio do PClines (LEZAMAet al., 2014)

A abordagem proposta por Lezama et al. (2014) busca melhorar a confiabilidade

dos segmentos de reta extraídos da imagem, além de aplicar uma mudança de domínio

que reduza a complexidade da detecção dos pontos de fuga. Assim como (XU et al.,

Figura 2.20: Processo de refinamento das retas com comprimento não satisfatório.As retas menores, representada pela cor azul na primeira coluna de imagens, tem seuspontos da extremidades reprojetados, coluna central de imagens. Os pontos que apre-sentarem alinhamento próximo de uma reta, são agrupados e utilizados para definirum novo segmento de reta, representados na última coluna de imagens, pela cor azul.Figura retirada de Lezama et al. (2014).

2013), este método pode detectar mais que os três pontos de fuga representados em

ambientes antrópicos.

Os segmentos de reta extraídos por Gioi et al. (2010) sofrem um refinamento.

De posse do conjunto de retas G, essas retas são agrupadas de acordo com seu tamanho e

angulação. segmentos de reta pequenos tendem a degradar a precisão da estimativa dos

pontos de fuga. Dessa forma, grupos de segmentos de reta que apresentem comprimentos

menores que um limiar sofrerão um refinamento. A partir dos pequenos segmentos de reta

serão gerados novos segmentos de reta maiores. Esse refinamento consiste em reprojetar

os dois pontos extremos de cada segmento, e então estimar novos segmentos de reta

utilizando o método de Lezama et al. (2015), o qual encontra a melhor reta de acordo

com o menor retângulo que circunscreve o maior número de pontos, como ilustrado na

Fig. 2.20. Após o refinamento, cada segmento sofrerá uma transformação do domínio

cartesiano para o domínio do PClines, o qual representa coordenadas cartesianas em

eixos paralelos, descrito por Dubská et al. (2011). No domínio do PClines, é possível

representar retas em pontos, e pontos em retas, como ilustrado na Fig. 2.21. As retas que

Figura 2.21: Representação geométrica do domínio do PClines. A reta l do gráficocartesiano da esquerda é representado por três pontos p. No gráfico da esquerda sãoprojetados o pontos p1, p2 e p3 no domínio do PClines. As retas formadas pela projeçãodos pontos se interceptam no ponto l, que representa a reta l, no domínio cartesiano.Figura adaptada de Lezama et al. (2014).

convergem para um mesmo ponto no domínio cartesiano, alinham-se de forma organizada

quando representadas como pontos no domínio PClines, como ilustrado na Fig. 2.22. Os

pontos de fuga da imagem podem ser determinado identificando retas formadas pelos

pontos no domínio PClines. O método de Lezama et al. (2015) é aplicado no domínio do

PClines, retornando todas as retas detectadas de acordo com o alinhamento dos pontos.

A abordagem proposta por Lezama et al. (2014) atingiu os melhores resultados

de precisão e exatidão, deixando a desejar apenas no tempo de processamento requerido.

A mudança de domínio tornou o método não iterativo quanto à estimativa dos pontos

de fuga, transformando a tarefa de determinar os pontos de fuga equivalente à tarefa

de estimar retas a partir de um conjunto de pontos. Contudo, o tempo necessário para

estimar a melhor reta pelo método de Lezama et al. (2015) apresenta um comportamento

iterativo, buscando a cada iteração a melhor reta.

2.7 Detecção de Segmento de Reta

segmentos de reta oferecem informações geométricas de forma compacta. A

grande presença de segmentos de reta em cenas antrópicas possibilita o uso dos segmentos

de reta em tarefas de calibração da câmera, como relatado no trabalho de Lee e Nevatia

(2011). Na Seção 2.6, os segmentos são elementos primordiais para a detecção dos pontos

de fuga da imagem.

Figura 2.22: Ilustração do processo de detecção dos pontos de fuga utilizando odomínio do PClines. Na primeira linha há a imagem original e os segmentos de retadetectados. Na segunda linha são apresentadas as projeções dos segmentos de retano domínio do PClines e, ao lado, são identificados os pontos de fuga. O resultado éapresentado na última linha. Figura retirada de Lezama et al. (2014).

Em geral, os segmentos de reta representam bordas de objetos na imagem. Essas

bordas são regiões de transição de cores, as quais se propagam perpendicularmente ao

gradiente de intensidade da cor, ilustrado na Fig. 2.23. Assim, pode-se descrever a

detecção de segmentos de reta como

L(I) = G , (2.24)

onde L é a função que retorna o conjunto de retas G, dada uma imagem I.

Na literatura, há diversas propostas de detecção de retas. Em geral, os detecto-

res de retas são avaliados quanto ao tempo consumido durante o processo e sua exatidão.

Estes dois parâmetros geralmente apresentam comportamentos opostos, como ilustrado

na Fig. 2.24. No geral, à medida que o método apresenta uma boa exatidão, este requer

um maior período tempo durante o processamento, a exemplo do método (GIOI et al.,

Figura 2.23: Bordas definidas pelo gradiente formado entre duas cores. A seta repre-senta a direção do gradiente, o qual é perpendicular á borda. Figura adaptada de Gioiet al. (2010).

2007); por outro lado, métodos com retorno rápido apresentam falhas, degradando a

exatidão, mostrado por Burns et al. (1986). Contudo, Gioi et al. (2010) elaboraram um

método que atingiu bons níveis de exatidão, consumindo o menor tempo entre todos os

métodos avaliados, sendo utilizado nos trabalhos de Xu et al. (2013) e Lezama et al.

(2014) apresentados anteriormente.

2.7.1 Detecção Rápida de Segmentos de Reta (GIOI et al., 2010)

Gioi et al. (2010) desenvolveu um método capaz de detectar segmentos de reta

de forma rápida, alcançando baixos níveis de falhas. Este método busca agrupar regiões

de bordas que apresentam orientações semelhantes. Em seguida é aplicado um refina-

mento, aproximando as regiões a retângulos. Na imagem, I, é aplicada uma máscara de

tamanho 2× 2, a qual define a orientação de cada pixel na imagem. Os valores calcula-

dos pela máscara são representadas em uma nova imagem de orientações, Io, de mesmo

número de colunas e linhas que a imagem original, como ilustrado na imagem 2.25. Em

seguida, pixels que apresentam orientações semelhantes são agrupados, formando aglo-

merados, rotulados pelo autor de regiões de suporte. Para cada pixel, são analisados

os seus 8 vizinhos e comparadas suas orientações. Os pixels são agrupados se o pixel

analisado apresentar uma orientação que difere de um valor máximo T do seu vizinho.

Após o processo de aglomeração, cada região de suporte tem seu formato analisado. As

regiões são comparadas a retângulos, avaliando o seu formato e relação entre a largura e

comprimento. As regiões de suporte que apresentam formatos semelhantes a retângulos

passam por um processo de refinamento. Em cada região de suporte são removidos pixels

Figura 2.24: Comparação dos resultados obtidos dos métodos de detecção de seg-mentos de reta e o tempo requerido. Figura adaptada de Gioi et al. (2010).

das extremidades, buscando minimizar a largura do retângulo, e aumentar a densidade

de pontos no centro da região de suporte.

Gioi et al. (2010) atingiram bons resultados, superando outras propostas de

detecção de segmentos de reta, em exatidão e tempo de resposta. Ainda que apresente

falhas em ambientes com excesso de texturas, o método apresenta uma baixa taxa de

falsas detecções, aumentando a confiabilidade no segmento de reta encontrado na ima-

2.8 Relação Com o Trabalho

Neste trabalho é proposto um framework capaz de calibrar câmeras de vigilân-

cia automaticamente. Todo o processo é voltado para câmeras estenopeicas, as quais

têm sua modelagem matemática descrita em (HARTLEY; ZISSERMAN, 2003) e (CIS-

MOSKI; ROCHA, 2012). O processo de calibração do nosso framework é inspirado no

Figura 2.25: Criação das regiões de suporte de acordo com as orientações de cadapixel. Para cada pixel da imagem original é definida sua orientação de acordo com seugradiente. Em seguida, os pixels são agrupados em regiões de suporte. Figura adaptadade Gioi et al. (2010).

trabalho explanado de Lv et al. (2002), os quais propõem estimar os parâmetros neces-

sários para calibração a partir de objetos provenientes da cena, pedestres. Contudo, o

uso exclusivo de pedestres acrescenta grande incerteza durante a calibração da câmera,

requerendo um intenso processo de filtragem de ruídos e seleção de melhores exemplos

pedestres. Lee e Nevatia (2011) mostram que, utilizar informações de estruturas antró-

picas, diminui a complexidade da calibração, além de tornar o resultado mais preciso.

Assim, neste trabalho são utilizadas conjuntamente as informações extraídas das pessoas

e das estruturas antrópicas da cena.

A subtração de background é utilizada para extrair os dados dos pedestres e da

estrutura antrópica da cena. Com o uso da subtração de background pretende-se evitar

detectores especializados em pedestres, e obter uma imagem de fundo com a mínima

presença de objetos não permanentes na cena. A ABL foi escolhido por apresentar um

processo simples de segmentação, capaz de atingir taxas de repostas que superam 30 FPS.

Neste trabalho, a ABL sofreu uma modificação com a inclusão das operações morfológicas

de dilatação e erosão dos blobs. As operações morfológicas permitem tratar as regiões

de falhas de segmentação, que ocorrem dentro dos blobs. Com esta modificação, o ABL

supera as taxas de acerto dos métodos citados na Seção 2.5.

Os pontos de fuga da imagem permitem estimar os parâmetros intrínsecos e a

matriz de rotação da câmera. A detecção dos pontos de fuga da imagem são estimados

por meio do método proposto por Wildenauer e Hanbury (2012). Ainda que o método

de Wildenauer e Hanbury (2012) apresente uma taxa de acerto um pouco menor que os

trabalhos propostos por Lezama et al. (2014) e Xu et al. (2013), em torno de 1, 0%, este

apresenta a melhor taxa de resposta, requerendo apenas 35 ms em média para detectar

os pontos de fuga da imagem. Para avaliação os métodos foram submetidos a dois data

sets públicos com imagens de cenas antrópicas: o Eurasian Cities Dataset de Barinova

et al. (2010), e o York Urban Dataset de Denis et al. (2008).

Da imagem de background, são extraídos todos os conjuntos de segmentos de

reta. Wildenauer e Hanbury (2012) utilizam este conjunto de segmento de retas como

base para estimar os pontos de fuga da imagem. A extração dos segmentos de reta é

feita por (GIOI et al., 2010), o qual apresentou a melhor taxa de acerto e o menor tempo

consumido durante o processo de detecção de retas.

Por fim, os dados das pessoas são utilizados para inferir a altura da câmera

em relação ao solo. De cada blob é extraído o seu eixo principal. O conjunto de eixos

principais é filtrado, selecionando apenas os eixos que convirjam para o ponto de fuga

vertical. Em seguida é calculada a altura relativa de cada eixo, por meio da invariância

da relação cruzada de Criminisi et al. (2000) e gerada uma distribuição de altura relativa

que se aproxime da distribuição de altura real da população, (VISSCHER, 2008).

Capítulo 3

Visão Geral do Sistema Proposto

Conteúdo3.1 Requerimento e Premissas . . . . . . . . . . . . . . . . . . . . 42

3.2 Arquitetura do Sistema Proposto . . . . . . . . . . . . . . . . 43

3.3 Métricas de Avaliação e Data sets . . . . . . . . . . . . . . . 46

O sistema de calibração automática de câmeras de vigilância proposto neste

trabalho tem como principal objetivo estimar os parâmetros intrínsecos e extrínsecos,

utilizando informações de objetos encontrados regularmente na cena monitorada. Esta

abordagem permite automatizar o processo de calibração, não requerendo qualquer in-

tervenção humana. As informações são extraídas de pedestres, estruturas antrópicas pre-

sentes na cena, objetos móveis e estáticos. Essas informações são extraídas por métodos

especializados e processadas para eliminar os ruídos durante a estimativa dos parâmetros.

Neste capítulo, será apresentado um panorama do método proposto. Serão

descritas as condições mínimas para aplicação da calibração automática (Seção 3.1). Em

seguida será apresentada uma arquitetura do sistema (Seção 3.2), descrevendo cada etapa

do framework proposto, e como elas se relacionam. Por fim, será apresentada a forma

de avaliação dos resultados e os data sets utilizados (Seção 3.3).

3.1 Requerimento e Premissas

A aplicação do framework de calibração de câmera proposto neste trabalho

requer algumas condições básicas para a sua aplicação. A câmera de vigilância e a cena

monitorada por ela têm de apresentar algumas características necessárias para que o

framework atinja seu objetivo, os quais são:

Capítulo 3. Visão Geral 43

• a câmera de vigilância deve ser do tipo estenopeica e estática;

• caso a câmera tenha sua posição e orientação alterada durante a captura do vídeo,

o framework pode retornar parâmetros incorretos, ou não ser possível encontrar os

parâmetros;

• caso a posição e orientação da câmera mudar apoś a calibração, este processo deverá

ser executado novamente;

• A câmera deve apresentar uma orientação a qual sempre deverá conter o plano do

chão na imagem;

• É assumido que a formação da imagem não apresenta distoção radial de qualquer

A cena monitorada deve conter alguns elementos importantes para a estimativa

dos parâmetros de calibração, que são:

• estruturas antrópicas estáticas, tais como estruturas de prédios, caso contrário a

detecção dos pontos de fuga da imagem será prejudicada.

• presença de pedestres durante a captura do vídeo, necessários para determinar a

altura da câmera.

Ainda que o framework proposto apresente algumas limitações de aplicação,

isto não impedirá a sua aplicação em ambientes monitorados, a exemplo de shoppings,

aeroportos, estações de trem e parques. Os objetos exigidos na cena são comumente

encontrados em muitos cenários monitorados, não se tornando um restrição crítica.

3.2 Arquitetura do Sistema Proposto

O processo de calibração automática de câmera é composta por alguns métodos,

que integram framework proposto. Cada um dos métodos tem uma funcionalidade es-

pecífica, e quando alinhados, conforme proposto neste trabalho, colaboram para estimar

os parâmetros intrínsecos e extrínsecos da câmera. Este framework pode ser dividido em

etapas ilustradas na Fig. 3.1 e descritas a seguir.

A modelagem matemática define a quantidade de parâmetros requeridos para

calibrar a câmera. Neste trabalho, será adotada a modelagem sugerida por Lv et al.

(2002), assumindo premissas semelhantes a Krahnstoever e Mendonca (2005), o qual

limita o processo de calibração a estimar quatro parâmetros. Apesar da redução de

Figura 3.1: Framework proposto de calibração automática de câmeras de vigilância.A área vermelha representa os processos relacionados a extração de dados de baixonível. Em amarelo, são extraídos os dados de nível médio e em azul os dados de altonível. Na área em verde, há os processos de estimativa dos parâmetros de calibração.

elementos, não há perda de generalização da aplicação. Estes parâmetros são estimados

de acordo com os pontos de fuga da imagem e a distribuição das alturas relativa das

pessoas observadas no vídeo de vigilância.

Definida a modelagem matemática, o próximo passo é extrair os dados do vídeo

de vigilância. Foi escolhida a subtração de background como ferramenta para extrair

os dados do vídeo. O objetivo é obter dois tipos de dados: Um conjunto de blobs dos

pedestres na cena e uma imagem que apresente apenas os objetos estáticos na cena.

Esses dados são obtidos durante o decorrer do vídeo de forma conjunta, e servem como

base para a calibração. O processo de subtração de background é aplicado por meio do

método ABL modificado, o qual apresentou resultados que superaram os outros métodos

de subtração de background. Para esta etapa, é dada o nome de Dados de Baixo Nível(

Seção 4.2) pois são informações brutas, que requerem um pós-processamento para ter

uma melhor utilidade.

Os blobs são extraídos de cada frame do vídeo. Cada um desses blobs são apro-

ximados a uma elipse, utilizando o método de Fitzgibbon e Fisher (1995), armazenando

apenas o eixos principais de cada elipse. Como os blobs são extraídos de cada frame do

vídeo, é comum a ocorrência de dois ou mais eixos principais com o mesmo tamanho e

posição. Cada eixo principal é indexado a uma estrutura de acordo com seu tamanho e

posição, com o intuito de evitar repetição de dados. Isso diminui a possibilidade de po-

larização de resultados durante processos iterativos, a exemplo do RANSAC. A imagem

de background, gerada também durante o processo de subtração de background, passa

por um processo de extração de segmentos de reta. O método de Gioi et al. (2010) é

utilizado para obter as retas das estruturas estáticas presentes na cena. Estas retas são

armazenadas em uma estrutura de dados e ordenadas de acordo com sua orientação.

Posteriormente, essa ordenação facilitará o processo de seleção dos segmentos de reta

durante a detecção dos pontos de fuga. Esta etapa de obtenção e armazenamento dos

eixos principais dos blobs, e dos segmentos de reta obtidos da imagem de background, é

chamada de Dados Intermediários, Seção 4.3, pois esses dados permitem determinar os

pontos de fuga da imagem, e a distribuição das alturas relativas.

Os pontos de fuga da imagem são de grande importância para a calibração da

câmera. Os pontos de fuga auxiliam também na filtragem de eixos principais errôneos,

gerados a partir de blobs ruidosos. Os pontos de fuga são detectados utilizando o método

de Wildenauer e Hanbury (2012), com uma modificação durante o processo de seleção

dos segmentos de exemplos. A seleção dos segmentos de reta utiliza um histograma das

orientações para definir qual delas concentram maior número de segmentos de reta, po-

dendo diminuir o espaço de busca. Conhecido os pontos de fuga da imagem, é aplicado

um filtro de convergência nos eixos principais dos blobs, selecionando apenas os eixos

principais que apontem para o ponto de fuga vertical, VY . Em seguida, é calculada a

altura relativa de cada eixo principal selecionado. Esses dados serão utilizados direta-

mente para estimar os parâmetros intrínsecos e extrínsecos da câmera, motivo pelo qual

esta etapa é chamada de Dados de Alto Nível, Seção 4.4.

A etapa final do processo de calibração é a Estimativa dos Parâmetros, a qual

utilizará os dados provenientes dos Dados de Alto Nível para determinar as quatro infor-

mações necessárias para encontrar as matrizes de parâmetros intrínsecos e extrínsecos.

Os pontos de fuga permitem derivar diretamente a distância focal, f , e a matriz de ro-

tação, R, restando apenas determinar a altura da câmera ao plano do chão, hc. Para

Figura 3.2: Mapa de coordenadas do plano do chão. Os pontos apresentam coorde-nadas em metros. As coordenadas são relativas ao ponto de origem do mapa, localizadono centro do mapa. Figura adaptada de PETS (2006).

determinar hc, será utilizada a distribuição das altura relativas dos eixos principais sele-

cionados na etapa anterior, e a distribuição real das alturas das pessoas. A distribuição

das alturas relativas é refinada para se aproximar da distribuição real das alturas das

pessoas. Para esta tarefa é aplicado o RANSAC, o qual avalia a distribuição gerada por

cada iteração, selecionando a distribuição que apresentar maior numero de elementos.

Em seguida, é aplicada a Eq. 2.15, que utiliza a média das alturas relativas e a média

das alturas reais para estimar a altura da câmera.

3.3 Métricas de Avaliação e Data sets

Para avaliar o framework são utilizadas três métricas diferentes. Cada uma

dessas métricas avalia a exatidão do framework proposto, possibilitando compará-lo a

trabalhos relacionados na Seção 2.4. As métricas utilizadas são:

• Medida do chão permite avaliar o mapeamento do plano do chão com o plano da

imagem. Para aplicar esta avaliação, é necessário conhecer o comprimento entre

pontos de referência no plano do chão, como ilustrado na Fig. 3.2. Estes pontos

são reprojetados, calculadas suas distâncias e então comparados os valores obtidos

com as distâncias reais. A diferença entre a métrica real e a métrica estimada

representa o erro do mapeamento do plano do chão na imagem;

• Altura real avalia a precisão na estimativa das alturas reais dos pedestres na cena.

Esta avaliação requer um ambiente controlado, no qual cada pedestre é rotulado

manualmente indicando a sua altura real. Após a calibração da câmera, cada

pedestre tem sua altura real determinada por meio da Eq. 2.14, que utiliza altura

relativa e a altura da câmera. O erro é determinado pela diferença entre o valor

estimado e o valor da altura real anotada;

Figura 3.3: Exemplos de cenas providas pelos data sets. Cada coluna representa umconjunto de data sets e seus diferentes cenários e ângulos de captura. Algumas figurassão retiradas de (PETS, 2006), (PETS, 2007) e (CVLAB, 2013).

• FHH RMSE, denota o acrônimo de foot-head homology root mean square error, e

avalia a reprojeção dos eixos principais de cada pessoa por meio do erro quadrático

médio da homologia do eixo principal. Esta métrica permite avaliar o quanto o

eixo principal reprojetado se afasta do eixo principal anotado na cena, e torna

a avaliação livre da necessidade de conhecer comprimentos reais de objetos da

cena. O valor do erro é determinado pela Eq. 2.20. Esta métrica permite avaliar

conjuntamente a estimativa da orientação e da altura da câmera permitindo avaliar

o erro de reprojeção após o processo de calibração.

Com o intuito de submeter o framework a diferentes cenários, foram escolhidos

data sets que apresentem variações de ângulos de captura do vídeo, variação da ocupação

Data set PETS 2006 PETS 2007 CVLAB IVISIONAmbiente fechado fechado aberto e fechado fechadoOcupação média alta baixa baixa

Cena não controlada não controlada controle parcial controlada# de visões 4 2 5 3# de frames 2500 2500 2500 2500

Tipo de analise medidas do chãoFHH RMSE FHH RMSE FHH RMSE altura real

Tabela 3.1: Resumo das características principais dos data sets utilizados.

da cena e diferentes cenários reais de monitoramento, ilustrados na Fig. 3.3. Os data

sets também devem atender as limitações de aplicação de cada uma das métricas. Cada

um dos data sets selecionados são descritos a seguir:

• PETS 2006 é um data set oriundo de uma competição de sistemas de monito-

ramento inteligentes, capazes de detectar abandono de bagagem (PETS, 2006).

Todos os data sets foram gerados em uma estação de trem europeia, composta

por transeuntes com diferentes vestimentas, alturas, tipos de andar e formatos de

corpo. São disponibilizados quatro vídeos com ângulos diferentes de captura. Nos

vídeos, há média ocupação dos espaço, ocorrendo cruzamento de pedestres e oclu-

são parcial do corpo. Junto com este data set há um mapa de coordenadas em

metros do plano do chão, possibilitando avaliação da medida do chão. É utilizado

também a FHH RMSE para avaliar a calibração, uma vez que são desconhecida as

alturas reais dos pedestres da cena;

• PETS 2007 é um data set proveniente da mesma competição que PETS (2006).

Em (PETS, 2007), é monitorado um saguão de um aeroporto, e mantido o mesmo

desafio de detecção de abandono de bagagem. Contudo, o cenário apresenta uma

alta taxa de ocupação de pessoas com grande frequência de cruzamento de pedestres

e oclusão parcial dos corpos. Neste data set, a calibração da câmera é avaliada por

meio do FHH RMSE;

• CVLAB, (CVLAB, 2013), apresenta um conjunto de diferentes vídeos de vigilância

que monitoram ambiente abertos e fechados. Este data set apresenta cenas com

diferentes iluminações e ângulos de captura. Ainda que a ocupação da cena seja

controlada, os data sets gerados em ambientes públicos são expostos a condições

não controladas, acarretando na presença de objetos móveis diferentes de pedestres.

É utilizada a FHH RMSE para avaliar a calibração de câmera aplicada a esse data

• IVISION LAB é um data set gerado especificamente para este trabalho, com o

intuito de avaliar diretamente a estimativa da altura real das pessoas presentes na

cena. O data set tem taxa controlada de ocupação de pessoas, e a altura de todos

os pedestres presentes na cena é conhecida. São gerados vídeos com três ângulos

diferentes de captura, dentro do mesmo ambiente fechado. A calibração de câmera

é avaliada utilizando a métrica da altura real.

Na Tabela 3.1, é ilustrado um resumo das características relevantes dos data

sets. A análise de resultados será melhor apresentada e discutida no Capítulo 5.

Capítulo 4

Calibração Automática de Câmeras

de Vigilância

Conteúdo4.1 Modelagem Geométrica . . . . . . . . . . . . . . . . . . . . . . 51

4.2 Dados de Baixo Nível . . . . . . . . . . . . . . . . . . . . . . . 52

4.2.1 Adaptive Background Learning com Operador Morfológico . . . 53

4.3 Dados Intermediários . . . . . . . . . . . . . . . . . . . . . . . 55

4.3.1 Eixo Principal do Blob . . . . . . . . . . . . . . . . . . . . . . . 57

4.3.2 Segmentos de Reta da Imagem de Background . . . . . . . . . 59

4.3.3 Armazenamento dos Segmentos de Reta . . . . . . . . . . . . . 59

4.4 Dados de Alto Nível . . . . . . . . . . . . . . . . . . . . . . . . 61

4.4.1 Detecção dos Pontos de Fuga da Imagem . . . . . . . . . . . . 61

4.4.2 Filtro de Convergência e Cálculo da Altura Relativa . . . . . . 63

4.5 Estimativa da Altura da Câmera . . . . . . . . . . . . . . . . 65

4.6 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . 67

A calibração de uma câmera é uma importante ferramenta para aplicações de

vigilância. Automatizar o processo de calibração permite diminuir o tempo humano em-

pregado nesta tarefa, tornando-o independente de intervenções externas. Neste trabalho

é proposto um framework capaz de calibrar câmeras de vigilância de forma automática,

por meio de informações do contexto da cena. Os dados necessários para a calibração

são extraídos de objetos que compõem a cena monitorada.

O framework é um conjunto de pequenos componentes integrados, que proveem

uma ferramenta robusta de calibração automática. Estes componentes são agrupados de

acordo com o nível de dados que fornecem. Os dados de baixo nível são dados brutos,

Capítulo 4. Calibração Automática de Câmeras de Vigilância 51

basicamente um conjunto de pixels, Seção 4.2. A estes pixels são aplicados métodos para

descrevê-los de forma compacta e representativa, rotulados como dados intermediários

(Seção 4.3). Na próxima etapa, são estimados os dados de alto nível (Seção 4.4): pontos

de fuga e altura relativa do eixos principais. Todos os dados são extraídos de acordo com

o vínculo apresentado na modelagem geométrica da câmera (Seção 4.1), que determina

a relação entre as características da cena e os parâmetros de calibração. Na última

etapa (Seção 4.5), os parâmetros intrínsecos e extrínsecos da câmera são estimados após

ajustar a distribuição das alturas relativas, para que se aproxime da distribuição das

alturas reais.

4.1 Modelagem Geométrica

A modelagem geométrica da câmera descreve como serão determinados os parâ-

metros intrínsecos e extrínsecos e qual a relação com os elementos extraídos da imagem.

Câmeras estenopeicas são modeladas de acordo com a formação da imagem no seu inte-

rior e com a posição e orientação de captura de imagem no espaço do mundo, chamados

respectivamente de parâmetros intrínsecos e extrínsecos. Neste trabalho, é utilizada a re-

lação proposta por Lv et al. (2002) entre os elementos da cena (imagem) e os parâmetros

intrínsecos e extrínsecos para calibrar a câmera.

Com o intuito de diminuir a quantidade de parâmetros sem perder a genera-

lidade do problema, são adotadas as restrições de Krahnstoever e Mendonca (2005) ao

modelo da câmera. Durante a captura do vídeo assume-se que a imagem possua uma

razão de aspecto conhecida, e não apresente qualquer tipo de distorção radial. O ponto

nodal do plano da imagem possui coordenadas c(0, 0). Essas restrições tornam a matriz

de parâmetros intrínsecos definida apenas pela distância focal f . Para definir a ma-

triz de rotação é requerido conhecer apenas os ângulos que determinam a rotação em

torno dos eixos Z e X da câmera. O ângulo em torno de Y pode ser ignorado, uma

vez que a câmera se encontra estática em relação ao plano do chão, como mostrado em

(KRAHNSTOEVER; MENDONCA, 2005). Portanto, a matriz de rotação da Eq. 2.5

tem RY substituída pela matriz identidade, sendo necessário determinar os ângulos ρ e

θ, descrito na Eq. 2.17. É assumido também que as coordenadas da câmera coincide com

o sistema de coordenadas do mundo no eixo X e Y do espaço, e que o ponto de origem

do mundo está no plano do chão abaixo do ponto central da câmera, C. O vetor de

translação, t, então pode ser escrito como t = [0, 0, hc], no qual hc é a altura da câmera.

As premissas adotadas neste trabalho resumem o processo de calibração para

a tarefa de estimar quatro parâmetros: a distância focal f , os ângulos de rotação ρ e

θ e a altura da câmera hc. Lv et al. (2002) mostrou que f e os ângulos de rotação da

Figura 4.1: Exemplos de segmentação de pedestres por meio da subtração de back-ground. A imagem superior a esquerda é um frame extraído de um vídeo. Abaixo destaimagem está a imagem de background em formação. Nela é possível observar a presençade uma pessoa em pé, que após algum tempo parada, se tornou parte do background.A direita tem a imagem de foreground a qual apresenta os elementos em movimento nacena com cores diferentes de preto. É notável a falha de segmentação no pedestre naparte inferior a direita da imagem. A imagem superior a direita mostra a delimitaçãodos objetos móveis no frame original

câmera podem ser estimados por meio dos pontos de fuga da imagem, enquanto que hcpode ser estimado utilizando a invariância da relação cruzada de Criminisi et al. (2000).

A relação entre os parâmetros e os dados extraídos da imagem são descritos em detalhes

na Seção 2.4.1.

4.2 Dados de Baixo Nível

Nesta etapa, serão extraídos dados com pouca representatividade, porém vitais

para toda a automatização do processo de calibração. A primeira etapa do processo de

calibração é a segmentação dos pedestres na imagem e a definição das estruturas estáticas

do ambiente monitorado.

Há muitas formas de detectar, segmentar e extrair informações de pedestres na

cena. É utilizada aqui uma forma de segmentação em vídeos, a subtração de background.

Esta ferramenta permite segmentar elementos que se movam de elementos estáticos na

cena. Assumindo a calibração de uma câmera de vigilância estática, a segmentação por

subtração de background surge como uma ferramenta que segmenta os pedestres e outros

objetos que se movam, ao mesmo tempo que gera uma imagem limpa da cena de fundo

como ilustrado na Fig. 4.1. Essa segmentação retorna basicamente uma imagem binária

que destaca a região dos elementos segmentados em branco, e uma imagem de fundo com

elementos estáticos da cena. A grande vantagem em utilizar a subtração de background

é a capacidade de adaptação a cenários com baixa iluminação e seu funcionamento em

diferente posições de captura do vídeo, sem a necessidade de qualquer pré-treino.

Na Seção 2.5, há alguns métodos de subtração de background que atingiram os

melhores resultados na avaliação de Sobral e Vacavant (2014). Entretanto, estes métodos

não apresentaram desempenho suficiente para aplicá-los diretamente na calibração auto-

mática devido as frequentes falhas na segmentação ou baixas taxas de FPS. Desse modo,

foi proposta uma modificação do método ABL de forma que mantenha sua velocidade

adequada para a aplicação, junto com bons resultados de segmentação.

4.2.1 Adaptive Background Learning com Operador Morfológico

A segmentação do foreground no método ABL ocorre mediante uma comparação

direta com o módulo do valor da diferença entre a imagem de background e o frame atual

do vídeo, com um limiar T . A modelagem da imagem de background é decrementada ou

incrementada por ι, dependendo da variação negativa ou positiva da diferença aplicada

no processos de segmentação (ver Seção 2.5.1). Estas poucas etapas de processamento

tornam o ABL um dos métodos com maior velocidade de processamento. Contudo, o

processo de segmentação apresenta falhas quando há pequenas variações de luminosidade,

ou mesmo quando a textura do fundo da cena se aproxima da textura da vestimenta do

pedestre, como ilustrado na Fig. 4.2. Estas falhas tornam o desempenho do ABL o pior

entre os quatros métodos de subtração apresentados na Seção 2.5.

As falhas de segmentação do ABL surgem em forma de buracos nos blobs.

Esses buracos são regiões nos quais a diferença entre a cor do objeto em movimento e a

imagem de background não superou o valor do limiar T . Essas falhas não costumam ter

grande importância e são temporárias, desaparecendo à medida que o objeto se move e

a sua textura é confrontada com outras regiões da imagem de background. Essas falhas

podem deformar os blobs, acarretando erros na estimativa dos eixos principais, etapa

importante para a calibração da câmera. A imagem binária, que delimita a região dos

Figura 4.2: Falha de segmentação de pedestres utilizando o método ABL. A esquerdada figura há a imagem original extraída do vídeo, e, à direita há a máscara bináriaresultante da segmentação do foreground. Em verde, é marcada uma pessoa sentada nacena. Algumas partes do seu corpo são segmentadas, como a cabeça e seus braços. Emazul, há um pedestre que se move por uma região com fundo escuro; ocorre uma grandefalha de segmentação, pois a vestimenta do pedestre apresenta cores muito próximasàs cores de fundo da imagem. Em vermelho é segmentada uma pessoa durante suacaminhada. Contudo, uma pequena região, que apresenta uma proximidade de cores,divide o seu blob em duas partes. Os dados resultantes da regiões delimitadas emazul e verde serão descartados, enquanto que a região delimitada em vermelho seráaproveitada por meio de operações morfológicas.

objetos segmentados, retrata as falhas de segmentação como buracos pretos nas regiões

brancas.

Uma forma simples de corrigir o problema das falhas de segmentação é utilizar

operadores morfológicos. Operadores morfológicos são operações de convolução aplicados

na imagem, alterando a sua distribuição de cores, (HEIJMANS; ROERDINK, 1998). Os

operadores morfológicos são capazes de alterar o formato de regiões de cores, dilatando

ou erodindo as suas bordas de acordo com a máscara de convolução predefinida. A

máscara é uma pequena imagem binária, geralmente de tamanho 5×5, que percorre

a imagem original. A máscara é centralizada sobre cada pixel da imagem, onde são

analisados os pixels vizinhos ao pixel central. É gerada uma nova imagem com novos

valores para o pixel centralizado, como ilustrado na Fig. 4.3. Na operação de dilatação,

o pixel central recebe o maior valor encontrado entre seus vizinhos, enquanto que no

processo de erosão ocorre o oposto, inserindo no pixel central o menor valor encontrado

entre os vizinhos. Após a etapa de segmentação do foreground, as máscaras binárias são

submetidas a uma operação de dilatação, seguida por outra operação de erosão. A etapa

de dilatação aumenta o tamanho das áreas em branco, extrapolando a borda das regiões

de segmentação. Esta expansão permite preencher com a cor branca as regiões internas

que apresentem falhas de segmentação, tornando-os agora parte da região segmentada

como foreground, como ilustrado na Fig. 4.4. Porém, a região dilatada tem uma área

Figura 4.3: Processo de aplicação de operadores morfológicos. A imagem superior dafigura ilustra um processo de dilatação da bordas da imagem. É apĺicada uma máscarade tamanho predefinido, a qual substitui o valor original do pixel pelo maior encontradoentre seus vizinhos. O processo de erosão substitui o valor do pixel pelo menor valorencontrado nos seus vizinhos, ilustrado na região inferior da figura. Ambos os processosgeram novas imagens como resultado. Figura adaptada de OpenCV (2015b).

maior que a ocupada pelo objeto em movimento, e se faz necessário aplicar o processo de

erosão para que a área volte a ocupar o espaço do objeto segmentado. Durante a operação

de erosão as regiões diminuem suas bordas externas, não alterando sua região interna

preenchida, conforme ilustrado na Fig. 4.4. Essa combinação de operações corrige grande

parte das falhas de segmentação, o que aumenta a exatidão da segmentação com pouca

perda na velocidade de processamento (isto será melhor analisado na Capítulo 5). No

entanto, o uso de operadores morfológicos provoca um efeito colateral que une os blobs

de pessoas muito próximas. Estes grandes blobs geram uma grande quantidade de ruído

que são filtrados por meio dos pontos de fuga da cena, na etapa de dados de alto nível

Seção 4.4. Este método tem seu pseudocódigo descrito em Alg. 1

4.3 Dados Intermediários

A etapa de aquisição de dados de baixo nível desempenha um papel funda-

mental no processo de automatização da calibração da câmera de vigilância, entregando

Figura 4.4: Resultado da aplicação da operação morfológica de dilatação e erosãona segmentação dos pedestres. A segmentação do pedestre da imagem original com oABL resulta na segunda imagem. A segunda imagem apresenta o blob do pedestre comalgumas falhas de segmentação. Na terceira imagem, é aplicada uma dilatação no blobdo pedestre, o qual preenche as falhas de segmentação. A dilatação altera o tamanhodo blob, expandindo suas bordas. Para retornar ao tamanho original do blob, é aplicadouma erosão. Esse processo de erosão reduz o tamanho do blob, mantendo preenchidoas regiões corrigidas na etapa de dilatação.

informações importantes sobre o fundo da cena e os pedestres. Contudo uma imagem e

uma máscara binária com os objetos segmentados são informações brutas com baixa re-

presentatividade. A etapa de dados intermediários tem o objetivo de aplicar descritores,

tornando os dados ofertados pela etapa anterior mais representativos geometricamente.

Na etapa de dados intermediários serão aplicados descritores geométricos para

representar os blobs e os dados que serão extraídos da imagem de background. Os dados

de foreground e background serão representados por segmentos de reta. Porém, a forma

de obtenção dos segmentos de reta ocorrerá de maneira diferente para cada tipo de dado

bruto recebido. Os blobs serão aproximados a elipses, e o eixo principal da elipse será

o descritor do blob. Na imagem de background são extraídos segmentos de reta, como

ilustrado na Fig. 4.5. Os segmentos de reta são armazenados em estruturas de dados,

indexados de acordo com os pontos que delimitam o seu tamanho, e são ordenados de

forma crescente de acordo com sua orientação.

A seguir será detalhado, na Seção 4.3.1, o processo de representação dos blobs

em segmentos de reta, e a extração dos segmentos de reta da imagem de background na

Seção 4.3.2. Por fim, a forma como os segmentos de dados são indexados e ordenados na

estrutura de dados é relatada em 4.3.3.

Algoritmo 1: Método do ABL com Operador Morfológico1 Dados de entrada:2 Vídeo ou conjunto de frames da cena monitorada Ii;3 Parâmetros:4 Limiar T ;5 Taxa de atualização da imagem de background ι;6 Tamanho da máscara dos operadores morfológicos L;7 Dados de saída:8 Imagem de background IB;9 Conjunto de máscaras de foreground IF ;

10 Instruções11 Inicializar IB ← I012 para cada frame i do vídeo faça13 para cada pixel p do frame Ii faça14 número η ← (pI − pIB )15 se |η| > T então16 pIF i ← 117 senão18 pIF i ← 019 fim20 se η > 0 então21 pIB ← (pIB + ι)22 senão23 pIB ← (pIB − ι)24 fim25 fim26 dilatação(IF i,L)27 erosão(IF i,L)28 fim29 retorna IB, IF

4.3.1 Eixo Principal do Blob

Os blobs são regiões de cor branca em uma máscara binária, a qual delimitam a

área do objeto segmentado. Esses blobs representam objetos em movimento na cena, os

quais são pedestres em sua maioria. Para aplicar a calibração automática, é necessário

conhecer a altura relativa dos pedestres da cena, o qual requer conhecer os pontos, mais

alto e o ponto mais baixo de cada pedestre na imagem. É possível encontrar o ponto

mais altos e mais baixo de cada pedestre utilizando seus respectivos blobs. Uma forma

simples de encontrar os pontos de interesse, o ponto mais alto e o ponto mais baixo do

blob, é percorrer a borda do blob e encontrar os pontos que apresentem o maior e o menor

valor na coordenada do eixo Y . Entretanto, esta busca é viável somente se não houver

variação da rotação da câmera em torno do seu eixo Z. Outra maneira de determinar os

pontos de interesse seria encontrar os pontos na borda do blob com maior distância entre

si. Se o objeto representado pelo blob apresentar uma amplitude maior que a sua altura,

Figura 4.5: Extração dos eixos principais dos blobs e detecção dos segmentos de retana imagem de foreground das cenas monitoradas.

como abrir os braços durante a caminhada, os pontos estimados podem não definir o

ponto mais alto e o ponto mais baixo do pedestre.

O método de Fitzgibbon e Fisher (1995) avalia o contorno do objeto na imagem,

e determina a melhor elipse que descreve essa região. Krahnstoever e Mendonca (2005)

e Liu et al. (2011) mostraram que blobs de pedestres podem ser aproximados a elipses

para determinar os pontos de interesse, que correspondem ao ponto mais alto e o ponto

mais baixo do eixo principal da elipse. Essa forma de estimar o eixo principal, independe

da orientação da câmera, e é menos sensível a deformações do blob durante a caminhada

do pedestre, como ilustrado na Fig. 4.6. Aproximar blobs com elipses requer cuidados

posteriores. Quando aplicado a blobs deformados, o método de Fitzgibbon e Fisher (1995)

retorna eixos principais errôneos, alongados ou retraídos, indicando falso ponto mais alto

e ponto mais baixo. A orientação do eixo principal pode ser prejudicada também, quando

ocorre união de blobs. Para diminuir o efeito dos ruídos gerados serão utilizados filtros

capazes de selecionar os melhores exemplos de eixos principais na próxima etapa (ver

Seção 4.4).

Figura 4.6: Extração dos eixos principais dos blobs utilizando aproximação de elipses.Submetido a diferentes formatos de corpos, com diferentes ângulos de captura da ima-gem, a extração dos eixos principais pela aproximação dos blobs a uma elipse retornaresultados estáveis com pouca distorção de tamanhos e orientações. Nas imagens, ocontorno verde representa a região delimitada pela segmentação da subtração de back-ground. Os segmentos de reta em verde, dentro das regiões de contornadas, representamos eixos principais dos blobs.

4.3.2 Segmentos de Reta da Imagem de Background

A imagem de background contém informações relevantes sobre a geometria da

cena monitorada. Essas informações são fundamentais para estimar a orientação da

câmera. Ambientes urbanos seguem o padrão Manhattan World e são caracterizados

por apresentar estruturas antrópicas. Em geral, estes ambientes apresentam estruturas

longilíneas que oferecem dicas da geometria da cena. A detecção de segmentos de reta

permite utilizar essas dicas na detecção de pontos de fuga e, em seguida, estimar os

parâmetros de calibração da câmera.

Neste trabalho, é utilizado o método de Gioi et al. (2010) para detectar os

segmentos de reta da cena. Este método apresenta a melhor taxa de acerto com o menor

tempo consumido para executar a tarefa de detecção (Seção 2.7). Como ilustrado na

Fig 4.7, o método de Gioi et al. (2010) apresenta bons resultados, pois procura evitar

falhas de detecção de segmentos de reta, tornando o resultado confiável, não exigindo

pós-processamento.

4.3.3 Armazenamento dos Segmentos de Reta

Os dados obtidos da segmentação da subtração de background são descritos

como segmentos de reta. Os blobs têm seus eixos principais representados como seg-

mentos de reta, enquanto que a imagem de background possibilita a extração direta dos

segmentos de reta. Descrever os dados como segmentos de reta permite compactar as

informações obtidas em apenas dois pares de coordenadas, os quais delimitam o tamanho

do segmento de reta e oferecem uma forma simples de determinar a sua orientação.

Figura 4.7: Detecção dos segmentos de reta na imagem de background. Detecçãodos segmentos de reta em quatro cenários diferentes. Cada um dos segmentos de retaapresenta uma cor de acordo com a sua orientação, variando de 0o a 180o.

A natureza irregular e aleatória do movimento dos pedestres na cena causa uma

frequente duplicação dos segmentos de reta que os representam. A duplicação de dados

é nociva a métodos iterativos de convergência, a exemplo do RANSAC. A frequente

duplicação dos dados polariza a estimativa, deturpando os resultados finais, induzindo

erroneamente a convergência para os valores que apresentem maior repetição dentro do

conjunto de amostras. É possível livrar o sistema de auto calibração da duplicação com

o controle de inserção dos segmentos de reta na estrutura de dados. O hash map é uma

estrutura de dados sequencial e requer um índice que represente o dado armazenado. Esse

índice deve descrever o objeto de forma singular, não havendo a existência de dois ou

mais dados com o mesmo índice. As características do hash map o destaca como principal

ferramenta para tratar a duplicação dos segmentos de reta. É necessário descrever os

segmentos de reta de forma singular em um único registro numérico. As coordenadas

que delimitam o segmento de reta na imagem o definem de forma única quando descrito

na tupla

ri = (u0, v0, u1, v1) , (4.1)

onde ri é o segmento de reta descrito pelas coordenadas que o delimitam, (u0, v0) e

(u1, v1). As coordenadas concatenadas formam um índice numérico singular para cada

segmento de reta na imagem.

São utilizados dois hash maps, um para o conjunto de eixos principais dos blobs e

outro para o conjunto dos segmentos de reta extraídos da imagem de background. Cada

um dos mapas será utilizado para diferentes propósitos durante a próxima etapa. Os

hash maps tem seus dados ordenados de acordo com a orientação dos segmentos de reta,

dentro de um intervalo de [0o, 180o]. Esta ordenação irá diminuir o tempo em tarefas de

busca na próxima etapa.

4.4 Dados de Alto Nível

Todas as etapas anteriores tornaram possível a extração de informações da

imagem diretamente relacionadas com os parâmetros intrínsecos e extrínsecos da câmera.

Na Seção 4.1, os parâmetros intrínsecos e a orientação da câmera são estimados a partir

dos pontos de fuga da imagem, enquanto que a altura da câmera depende de uma métrica

de referência na cena. Os hash maps com os segmentos de reta extraídos da imagem de

background serão utilizados para determinar os pontos de fuga da imagem, e os eixos

principais serão utilizados para determinar a métrica de referência.

Os pontos de fuga têm uma função importante nesta etapa. Além de propor-

cionar um meio de estimar os parâmetros de calibração da câmera, os pontos de fuga

auxiliam na filtragem de eixos principais ruidosos, os quais apresentam orientações in-

corretas. Os pontos de fuga são utilizados também no cálculo da altura relativa de cada

eixo, informação útil para determinar a altura da câmera. Dessa forma, os pontos de fuga

são os primeiros dados a serem estimados nesta etapa (ver Seção 4.4.1). Em seguida, é

aplicado o filtro de convergência (Seção 4.4.2). Ao final são calculados as alturas relativas

de cada eixo principal selecionado.

4.4.1 Detecção dos Pontos de Fuga da Imagem

Os pontos de fuga da imagem carregam informações importantes da cena mo-

nitorada. Com os pontos de fuga, é possível determinar a linha do horizonte, região

onde convergem todas as retas paralelas ao plano do chão. É possível determinar quais

objetos estão perpendiculares ao plano do chão, avaliando apenas a orientação do objeto

em relação ao ponto de fuga vertical, VY . Os pontos de fuga viabilizam um meio de

estimar a orientação e distância focal da câmera, sem a presença de objetos de referência

no ambiente monitorado.

Os pontos de fuga da imagem concentram grande parte do processo de estima-

tiva dos parâmetros na calibração automática da câmera. Uma detecção incorreta dos

pontos de fuga compromete todo o processo de calibração. Portanto, é necessário aplicar

uma detecção de pontos de fuga confiável, com baixa ocorrência de falhas e que apresente

o menor tempo durante o processo de detecção. A maioria dos métodos de calibração de

câmeras de vigilância utiliza os eixos principais dos pedestres para determinar os pontos

de fuga da imagem. Nestes métodos, são propostas diversas formas de utilizar os eixos

principais, os quais requerem processos complexos e restrições à cena observada. A con-

fiabilidade da estimativa destes pontos dependem da quantidade de amostras de eixos

principais, requerendo grande quantidade de amostras para alcançar bons resultados.

Lee e Nevatia (2011) mostraram que em ambientes urbanos é possível utilizar dicas da

cena para determinar os pontos de fuga da imagem. A detecção dos pontos de fuga da

imagem, por meio de segmentos de reta extraídos diretamente da imagem de background,

aumenta a confiabilidade nos pontos de fuga estimados.

Na Seção 2.6, foram apresentados alguns métodos de detecção dos pontos de

fuga que utilizam segmentos de reta extraídos da cena. Neste trabalho, o método de de-

tecção é baseado na proposta de Wildenauer e Hanbury (2012), o qual utiliza o RANSAC

para estimar os pontos de fuga. Para cada iteração do RANSAC é agrupado aleatoria-

mente quatro segmentos de reta, a cada iteração, para estimar um conjunto de 3 pontos

de fuga na imagem. Os pontos de fuga são estimados a partir da intersecção do prolon-

gamento dos segmentos de reta e do ponto nodal da imagem. Cada um dos segmentos de

reta é agrupados de acordo com o ponto de fuga o qual o segmento aponta. É definido

como parte de um dos grupos de pontos de fuga os segmentos de reta que apresentem um

desvio de orientação menos que T = 1o para qualquer um dos pontos de fuga pertencente

ao grupo. Por fim, o RANSAC seleciona o conjunto de pontos de fuga que apresente

mais segmentos de reta em seus grupos.

Observando a distribuição dos segmentos de acordo com a sua orientação na

Fig. 4.8, é notável uma concentração em torno de uma direção. Os intervalos com os

maiores valores representam segmentos de reta que apontam para uma mesma região na

imagem, podendo ser um ponto de fuga da imagem. O método de Wildenauer e Han-

bury (2012) seleciona quatro amostras de segmentos de reta aleatoriamente para estimar

os pontos. Por meio de uma heurística, é possível diminuir a aleatoriedade da busca

utilizando os intervalos da distribuição das orientações que apresentem maior concentra-

ção de segmentos de reta. Isto diminui o espaço de busca requerendo menos iterações

e consequentemente reduzindo o tempo durante o processo de detecção. Contudo, a

heurística é aplicada apenas quando dois pontos de maior concentração na distribuição

superam em 20% o valor da média das concentrações por orientação, mostrando que há

uma polarização dos segmentos de reta em torno de uma orientação.

Figura 4.8: Distribuição das orientações dos segmentos de reta da imagem. Naprimeira coluna estão representados os segmentos de reta extraídos da imagem de back-ground. Na segunda coluna há a distribuição dos segmentos de reta de acordo com suasorientações em graus. Cada distribuição é divida em 18 partes distribuídas no intervalode [0o, 180o]. Na ultima coluna estão as imagens que representam a estimativa dos ospontos de fuga, onde a reta azul aponta para VZ , a reta vermelha aponta pra VX , areta verde aponta para VY e a reta magenta é a linha do horizonte. Observando asdistribuição das alturas é notável que ocorre uma concentração dos segmentos de retaem torno de determinadas direções.

O uso de segmentos de reta extraídos da cena aumenta a precisão na estimativa

dos pontos de fuga, o que torna a calibração mais exata. Este processo utiliza um recurso

ignorado por métodos de calibração de câmera, o qual é naturalmente encontrado em

ambientes urbanos.

4.4.2 Filtro de Convergência e Cálculo da Altura Relativa

A oclusão parcial de pessoas tende a deformar blobs gerando ruídos, alterando o

tamanho e a orientação dos eixos principais dos blobs. A ocorrência de oclusão é comum

em cenas com grande quantidade de pessoas ou que sejam monitoradas por câmeras

paralelas e próximas ao chão, como ilustrado na Fig. 4.9. No entanto, qualquer cenário

Figura 4.9: Cenário com frequente união de blobs. Apresentam uma orientação decâmera paralela ao planos do chão, e uma altura da câmera próxima a altura média dapopulação observada.

com mais de uma pessoa na cena está susceptível a ocorrência de oclusão parcial dos

pedestres.

No geral, blobs deformados possuem eixos principais divergentes, sem um pa-

drão definido. Boas amostras de eixos principais se caracterizam por apresentar orienta-

ções perpendiculares ao plano do chão, pois os pedestres apresentam uma maior extensão

da sua altura em relação a sua largura. O ponto de fuga vertical, VY , é determinado

pela convergência dos segmentos de reta perpendiculares ao plano do chão extraídos das

estruturas estáticas da cena na etapa de detecção dos pontos de fuga. Dessa forma, o

ponto de fuga pode ser usado para filtrar os eixos principais dos blobs, avaliando o quanto

sua orientação se afasta do ponto de fuga vertical da imagem, VY . Para determinar a

correta orientação dos eixos principais, é utilizada a métrica de avaliação baseada na

proposta de Liebowitz e Zisserman (1999). Conhecido o ponto de fuga vertical, VY , e o

centro do eixo principal cep, é projetada uma reta entre esses pontos, a qual será usada

como referência para avaliar o desvio do eixo principal. Em seguida, é calculado o menor

ângulo formado entre o eixo principal e a reta de referência, como ilustrado na Fig. 4.10.

Os eixos principais que apresentarem ângulos menores que um limiar T = 1o permane-

cem no hash map, caso contrário, o eixo é removido do mapa. Este filtro remove todos

os ruídos oriundos da deformação dos blobs que apresentem desvio em relação ao ponto

de fuga vertical, ver Fig. 4.11. Os ruídos restantes apresentam apenas distorções no seu

tamanho. Este tipo de ruído requer um processamento mais complexo e será executado

na próxima etapa de acordo com a distribuição da sua altura relativa.

Selecionadas as boas amostras de eixos principais com o filtro de convergência,

é calculada a altura relativa de cada um destes eixos conforme a Eq. 2.13. Esses dados

também são armazenados em um hash map, o qual será utilizada pela próxima etapa.

Figura 4.10: Representação geométrica da métrica de avaliação da orientação utili-zada no filtro de convergência. VY é o ponto de fuga vertical da imagem, ri representaum eixo principal de blob, e λ é o ângulo formado entre a ri e a reta formada entre oponto central de ri e o ponto de fuga vertical.

4.5 Estimativa da Altura da Câmera

O processo de calibração da câmera de vigilância depende diretamente dos

pontos de fuga da imagem e da medida de um objeto de referência, o qual deve estar

perpendicular ao plano do chão na cena. Os pontos de fuga foram determinados durante

a etapa anterior, tornando possível determinar a distância focal, f , conforme Eq. 2.10,

e os ângulos que definem a orientação da câmera, ρ, definido pelo ângulo formado entre

a linha do horizonte e uma linha horizontal, e, θ, definido pela Eq. 2.11. A altura da

câmera é o único parâmetro restante a ser determinado. Para manter a premissa de

oferecer um framework capaz de executar uma calibração de câmera automaticamente,

a altura da câmera, hc, será estimada aproximando a distribuição das alturas relativas à

distribuição das alturas reais.

Visscher (2008) analisou a distribuição das alturas da população Europeia, e

mostrou que 90% da população está a uma distância relativa de 0, 076 da altura média

da população, como descrito na Eq. 2.19. Essa formulação tornou possível aproximar

a distribuição de alturas relativas à distribuição de alturas reais. Utilizando o RAN-

SAC, será aplicada uma análise estatística iterativa no conjunto de alturas relativas. É

calculada a média atual, µ, das alturas relativas e o seu desvio padrão, σ. As alturas

relativas formam uma distribuição normal, a qual permite restringir a busca em 95% dos

elementos variando em 2σ a partir da média. A restrição abrange os 90% dos elementos,

possibilitando aplicar a seleção das aturas relativas por meio da distância relativa a mé-

dia. A cada iteração do RANSAC, é atribuído, aleatoriamente, um valor de média das

Figura 4.11: Aplicação do filtro de convergência. A primeira coluna apresenta todosos eixos principais extraído dos blobs, enquanto na segunda imagem apresenta os eixosprincipais que foram selecionados pelo filtro de convergência. Muito dos ruídos oriundode deformações dos blobs são removidos.

alturas relativas que esteja contido dentro do intervalo [µ−2σ, µ+2σ]. Para cada altura

relativa no hash map é aplicada a Eq. 2.19, no qual são agrupados eixos principais que

apresentem distância relativa menor que 0, 076. Por fim, será selecionado a média das

alturas relativas que agrupar maior número de eixos principais. Definida a média das

alturas relativas, E(h), e conhecida a altura média da população E(h3D) = 172cm, é

então estimada a altura da câmera utilizando a Eq. 2.15. Todo o processo é detalhado

no pseudocódigo descrito em Alg. 2.

A definição da altura da câmera conclui o processo de calibração automática

de câmeras de vigilância, que permite executar todo o processo sem a necessidade de

intervenção humana durante a calibração.

Algoritmo 2: Método de estimativa da altura1 Dados de entrada:2 Hash map das alturas relativas Hh;3 Parâmetros:4 Distância relativa da média dh;5 Média das alturas E(h3D);6 Número total de iterações N ;7 Dados de saída:8 Altura da câmera hc;9 Instruções

10 Hash map finalh ← 011 µ← mediaDasAlturasRelativas(Hh)12 σ ← desvioPadraoDasAlturasRelativas(Hh)13 para cada iteração n < N faça14 m← numeroAleatorioDentroDoIntervalo(µ− 2σ, µ+ 2σ)15 Hash map temph ← 016 para cada altura relativa hi de Hh faça17 dhi ← distanciaRelativaEntre(m,hi)18 se dhi ≤ dh então19 temph inclue hi no conjunto20 fim21 fim22 se #finalh < #temph então23 finalh ← temph24 fim25 fim26 hc ← E(h3D)/E(finalh)27 retorna hc

4.6 Considerações Finais

O processo de calibrar câmeras de vigilância de forma automática contribui

para o correto funcionamento de outros sistemas que necessitem de informações 3D da

cena. Todo o processo aqui proposto e descrito foi elaborado buscando atender a am-

bientes urbanos com diferentes características, aproveitando as informações comumente

oferecidas em cenas monitoradas. Ainda que haja premissas para aplicar a calibração

automática, o framework é apropriado a muitos dos ambientes monitorados por câmeras,

tornado-o uma ferramenta útil. O que será demonstrado no capítulo seguinte.

A característica modular do framework permite que cada uma das etapas seja

especializada em resolver problemas locais. A etapa de baixo nível, que apresenta como

principal método a subtração de background, torna o método flexível a diferentes ilumi-

nações e diferentes ângulos de captura. O método ABL com operadores morfológicos

diminui a quantidade falhas na segmentação, ao tempo que não degenera velocidade de

processamento. O processo executado pela etapa intermediária compacta as informações

dos pedestres e da estrutura da cena, evitando duplicação dos dados dos eixos principais

dos blobs e dos segmentos de reta extraídos da imagem de background. Na etapa de dados

de alto nível, são obtidos os pontos de fuga da cena, por meio de um método especia-

lizado, que se apoia no padrão encontrado em ambientes antrópicos, Manhattan World.

Por fim, o prévio conhecimento sobre a distribuição das alturas, contribui para definir o

ultimo parâmetro restante no processo de calibração automática. A combinação destas

etapas gerou um framework capaz de executar a calibração sem a intervenção humana.

Capítulo 5

Experimentos e Resultados

Conteúdo5.1 Avaliação do Método ABL com Operadores Morfológicos . 70

5.2 Avaliação da Calibração Automática de Câmeras de Vigilância 72

5.2.1 Avaliação Por Meio da Métrica da Medida do Chão . . . . . . 73

5.2.2 Avaliação Por Meio da Métrica da Altura Real . . . . . . . . . 74

5.2.3 Avaliação Por Meio da Métrica da FHH RMSE . . . . . . . . . 75

5.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . 78

Proposto para ser aplicado a ambientes antrópicos, o framework elaborado neste

trabalho deve lidar com diferentes cenas monitoradas. As diversidades de ambientes

antrópicos, com variação da iluminação e do formato das estruturas presentes na cena,

unido com a variação de poses, trajetória e formato do corpo dos pedestres na cena,

requerem um framework flexível, e capaz de manter bons resultados independente das

adversidades encontradas.

Neste capítulo, o framework proposto será submetido a diferentes conjuntos

de data sets. Estes data sets retratam cenas diferentes, com específicas orientações de

câmeras e taxas de ocupação do espaço específicos, relatadas na Seção 3.3. Cada um

dos data sets possibilita aplicar determinadas métricas, avaliando o framework de três

formas distintas. Na Seção 5.2.1, são apresentados os resultados obtidos da comparação

da distância estimada entre os pontos sobre o plano do chão com o seu real comprimento.

Na Seção 5.2.2, são analisados o valores das alturas estimadas de cada pedestre alvo

na cena. Por fim, é utilizada a métrica FHH RMSE, para avaliar o desempenho do

framework em cenas o qual não há qualquer informação sobre o ambiente. Essa última

métrica permite também confrontar os resultados obtidos com trabalhos relacionados

com calibração de câmeras de vigilância de forma automática.

Capítulo 5. Experimentos e Resultados 70

Figura 5.1: Exemplo de avaliação dos métodos de subtração de background. A figura(a) representa uma máscara binária de referência. As demais figuras ilustram os resul-tados obtidos da segmentação dos métodos de subtração de background onde (b), (c),(d), (e) e (f) representam o ABL com operador morfológico, o método (MADDALENA;PETROSINO, 2008), o método (YAO; ODOBEZ, 2007), o método (KAEWTRAKUL-PONG; BOWDEN, 2002) e o ABL, respectivamente. As cores verdes representamregiões de acerto da segmentação; em vermelho estão as regiões erroneamente não seg-mentadas; enquanto que em amarelo estão as regiões erroneamente segmentadas.

5.1 Avaliação do Método ABL com Operadores Morfológi-

A subtração de background executa um papel fundamental no processo da ca-

libração automática da câmera de vigilância. Inclusa na etapa de dados de baixo nível,

a subtração de background é responsável por extrair do vídeo de vigilância os primeiros

dados que são utilizados no processo de calibração. São extraídos dos vídeos os blobs dos

pedestres na cena, e a imagem de background que apresenta as estruturas estáticas da

cena. A qualidade desses dados impactam no resultado final da calibração.

Com o intuito de obter uma segmentação que ofereça bons resultados entre

o foreground e o background do vídeo, foram selecionados os métodos de subtração de

background melhor avaliados por Sobral e Vacavant (2014). Estes métodos estão listados

e descritos na Seção 2.5, os quais propõem formas diferentes de aplicar a segmentação.

Contudo, os métodos apresentaram desempenhos antagônicos quando relacionados a sua

exatidão e a velocidade de processamento. Dessa forma foi proposta uma melhoria ao

método ABL aplicando operadores morfológicos, atingindo bons resultados e superando

os métodos descritos anteriormente.

A avaliação de Sobral e Vacavant (2014) submete os métodos a data sets sim-

ples, poucos objetos em cena e com iluminação regular. Neste trabalho, para avaliar os

métodos de subtração de background, foram utilizados os data sets disponibilizados por

PETS (2006), os quais oferecem quatro diferentes ângulos de captura da mesma cena.

Para cada data sets, foram manualmente marcadas máscara de referência para

cada intervalo de 50 frames. Este intervalo corresponde a um período de dois segundos.

Com um total de 2500 frames para cada data set, o intervalo de 50 frames evita avalia-

ções de frames semelhantes, gerando 50 máscaras binárias de referência. As marcações

delimitam as regiões de objetos móveis na cena, pedestres e seus acessórios, além de

meios de locomoção.

Duas métricas principais foram utilizadas para avaliar os métodos de subtração

de background, a taxa de frames por segundo e a área sob a curva (AUC)1. A AUC

será calculada com base na curva de característica de operação do Receptor (ROC)2 que

representa o resultado de uma classificação binária. No caso da subtração de background

os pixels são rotulados em foreground e background. A curva ROC relaciona a taxa

de verdadeiros positivos (pixels corretamente marcados como foreground) e a taxa de

falsos positivos (pixels erroneamente marcados como foreground) alcançados para uma

determinada tolerância. A curva ROC será gerada a partir da análise de cada pixel da

máscara da imagem segmentada com a máscara marcada manualmente, como ilustrado

na Fig. 5.1.

Cada um dos métodos descritos na Seção 2.5, foi avaliado aplicando a sua

melhor configuração, segundo (SOBRAL; VACAVANT, 2014). O ABL modificado foi

configurado com um limiar T = 53, a taxa de atualização ι = 0, 5 e uma máscara de

dilatação e erosão de tamanho 9. Esses parâmetros foram definidos após uma busca

automatizada. Esses parâmetros foram avaliados conjuntamente, testando o máximo de

combinações possíveis. O valor do limiar foi avaliado dentro do intervalo de 0 < T < 128,

enquanto que a taxa de atualização variou dentro do intervalo de 0 < ι ≤ 1 a cada 0, 01.

O tamanho S das máscaras das operações morfológicas estava contida entre 1 < S ≤ 10.

Como ilustrado na Fig. 5.2, todos os métodos avaliados, incluindo o método

de subtração proposto neste trabalho, apresentaram baixos valores para a AUC. Isso

ocorreu devido a característica dinâmica da cena, o que causa grande quantidade de

falhas durante sua segmentação. Contudo, a inclusão dos operadores morfológicos ao

ABL melhorou sua taxa de acerto em quase 100%, saltando de 0, 18 para 0, 34. O

método ABL com operadores morfológicos alcança o melhor resultado entre os métodos

avaliados.1AUC, do Inglês, area under curve2ROC, do Inglês receiver operating characteristic

Figura 5.2: Gráfico ROC resultante da avaliação dos métodos de subtração de back-ground. O data set utilizado na avaliação, (PETS, 2006), expõe os métodos a cenáriosreais de vigilância, o que degrada os resultados do métodos. Isso ocorre devido a dina-micidade da cena, alterando o seu fundo de cena com frequência.

Uma análise conjunta entre a taxa de FPS e o valor obtido do AUC, revela que

os métodos listados na Seção 2.5 degradavam seu FPS ao passo que atingiam melhores

resultados, como ilustrado na Fig. 5.3. Contudo, a modificação aplicada ao ABL divergiu

deste padrão, apresentando a melhor relação entre AUC e FPS. O método proposto

supera a medida de AUC de todos os outros métodos, com uma taxa de 39 FPS. Essa

taxa de FPS se faz suficiente, posto que câmeras de vigilância apresentam vídeos com

taxas que variam entre 30 a 25 FPS.

Diante dos resultados apresentados, o método proposto é a melhor escolha para

executar a tarefa de subtração de background em câmeras de vigilância. A adição de

operações morfológicas ao processo de segmentação do ABL torna-o capaz de alcançar a

melhor taxa de acerto entre os métodos avaliados, mantendo uma satisfatória velocidade

de processamento.

5.2 Avaliação da Calibração Automática de Câmeras de Vi-

gilância

A analise do framework proposto será fragmentado em três partes, avaliando

aspectos diferentes dos resultados obtidos. A primeira avaliação utiliza medidas do chão

para mensurar a precisão na estimativa de comprimento que se estendem paralelamente

ao plano do chão. A segunda métrica avalia a estimativa de comprimento perpendiculares

Figura 5.3: Gráfico que relaciona o valor AUC com a taxa de FPS. Os gráficos em azule laranja representam, respectivamente, os valores AUC e de FPS para cada um dosmétodos de subtração de background avaliado. Nota-se que os métodos que apresentamos maiores valores de AUC, tendem a degenerar a taxa de FPS, exceto pelo métodoABL com operadores morfológicos, o qual apresentou o maior valor de AUC, com umataxa de frame por segundo superior a 30 FPS.

ao plano do chão, por meio de altura das pessoas na cena. A última métrica avalia a

orientação e tamanho dos eixos principais reprojetados. Essa métrica não requer um

conhecimento prévio de qualquer medida da cena, e ,por essa razão, é utilizada como

métrica de comparação entre outros métodos de calibração.

5.2.1 Avaliação Por Meio da Métrica da Medida do Chão

Estimar a distância percorrida por um pedestre, ou calcular a área de uma

região sobre o plano do chão, são tarefas executadas por sistemas de vigilância. A

avaliação de medidas sobre o plano do chão mostra qual a exatidão da calibração em

estimar distâncias que são coplanares ao plano do chão.

No data set (PETS, 2006), são disponibilizados pontos conhecidos sobre o plano

do chão e suas coordenadas sobre o plano (ver Seção 3.3). Essa métrica do chão é avaliada

nas quatro visões da cena disponibilizadas. Os pontos conhecidos que estão visíveis em

cada cena são combinados, aplicando o maior numero de testes possíveis.

Na Fig. 5.4, há dois gráficos cumulativos, um do erro relativo, e um do erro

absoluto em metros. Avaliando o erro relativo, o gráfico apresenta um comportamento

próximo do linear, o que mostra que o erro ocorre proporcionalmente ao comprimento

da medida estimada. Contudo, todos os erros de estimativa avaliados não ultrapassam

16% do comprimento estimado, e apresentam um erro relativo médio menor que 7%. O

gráfico de erro absoluto revela que 70% dos casos de teste apresentaram um erro menor

que 30 cm.

Figura 5.4: Gráfico acumulativo dos erros obtidos após a estimativa das medidas dochão. No gráfico à esquerda, σ representa o erro relativo máximo encontrado para umaporcentagem de exemplos avaliados. No gráfico a direita, λ representa o erro absolutomáximo em metros encontrado para uma porcentagem de exemplos avaliados.

Analisando os erros por cena, os maiores erros ocorreram quando a câmera

apresentava uma orientação quase paralela ao plano do chão. Essa configuração acentua

a distorção perspectiva, intensificando o erro. Os erros também aumentavam a medida

que os pontos de referência no chão se encontravam distantes da câmera. Por outro lado,

imagens capturadas com a câmera apontando diretamente para o plano do chão, como

ilustrado na Fig. 5.5, apresentaram erros menores, visto que o efeito de perspectiva é

menor.

5.2.2 Avaliação Por Meio da Métrica da Altura Real

Um dos principais objetivos de sistemas de vigilância é a extração de dados dos

objetos alvos. A altura é uma das métricas significativas para descrevê-los. A métrica

da altura real é utilizada para avaliar o erro obtido na estimativa da altura de objetos

que estejam perpendiculares ao plano do chão. Para aplicar a métrica que avalia a altura

estimada, é necessário conhecer as alturas de pessoas de referência na cena e seu eixo

principal. Após o processo de calibração, são calculadas as alturas relativas de cada

pessoa marcada como referência, e de posse do valor da altura da câmera em relação ao

solo, é aplicada a Eq. 2.14 para estimar a altura do objeto alvo. Os data sets públicos não

fornecem informações das pessoas na cena. Assim, foi elaborado um data set privado,

o qual é conhecida a altura de cada pessoa presente na cena. Este data set é gerado

dentro do IVISION LAB, como descrito na Seção 3.3. Para cada um dos três data sets,

são avaliadas 100 amostras de alturas marcadas manualmente.

Na Fig. 5.6, são apresentados dois gráficos acumulativos, onde o primeiro apre-

senta o erro relativo, e o segundo o erro absoluto em metros. Avaliando o erro absoluto,

Figura 5.5: Projeção dos planos do chão estimados após a calibração da câmera.Todas as imagens são do PETS (2006). A plano do chão é representado pela malhaformada pelas linhas azuis e vermelhas; em amarelo estão retas normais ao plano dochão.

o framework apresenta um erro absoluto de 5 cm para 70% do exemplos avaliados, atin-

gindo um erro máximo menor que 25 cm. Assim, como a métrica de medida do chão,

o erro relativo não ultrapassou o valor 16%, apresentando um erro relativo médio me-

nor que 2%. As estimativas que apresentavam valores abaixo das alturas reais, foram

oriundos de eixos principais da pessoas, as quais não estavam eretas na cena. Enquanto

que a estimativa de altura dos objetos distantes da câmera apresentam no geral valores

menores que a sua altura real. Isso ocorre devido perda definição do objeto ao passo que

se afasta da câmera.

5.2.3 Avaliação Por Meio da Métrica da FHH RMSE

Alguns dos data sets de câmeras de vigilância não disponibilizam informações

sobre os objetos na cena. Para contornar esse fato, é utilizada a métrica que avalia a

reprojeção dos eixos principais de cada pessoa por meio do erro quadrático médio da

homologia do eixo principal, que pode ser chamada também como FHH RMSE, descrita

melhor na Seção 3.3. Foram marcados 100 exemplos de amostras em cada um dos data

Figura 5.6: Gráfico acumulativo dos erros obtidos na estimativa das alturas reaisdos objetos. No gráfico a esquerda, σ representa o erro relativo máximo encontradopara uma porcentagem de exemplos avaliados. No gráfico a direita, λ representa o erroabsoluto máximo em metros encontrado para uma porcentagem de exemplos avaliado.

Figura 5.7: Gráfico acumulativo dos erros obtidos após a avaliação dos eixos repro-jetados. No gráfico, λ representa o erro máximo encontrado para uma porcentagem deexemplos avaliados.

sets, os quais serão submetidos ao FFH RMSE. A marcação ocorreu de forma manual,

e foram marcados os pedestres que apresentaram uma postura ereta, e sem oclusões da

cabeça e pés.

O FHH RMSE avalia a orientação e tamanho do eixo reprojetado de cada um

dos alvos marcados, após a calibração. Da mesma forma que ocorre com a avaliação

das alturas reais, o eixo marcado tem sua altura relativa calculada, depois é estimada a

sua altura real, e então reprojetado o seu eixo na imagem. Os eixos principais tem sua

orientação e tamanho confrontados com os eixos de referência, e então é calculado o FHH

RMSE. Quanto maior o valor do FHH RMSE, maior é o erro de reprojeção, indicando

que o eixo reprojetado está afastado do eixo de referência.

Figura 5.8: Exemplos de avaliações utilizando FHH RMSE. Na primeira e segundalinha há imagens do PETS (2006) e PETS (2007) respectivamente, enquanto que nasúltimas duas linhas há imagens do CVLab (2013). Cada pessoa marcada para avaliaçãoapresenta um circulo projetado sobre o plano do chão com raio de 30 cm. Essa pessoasapresentam duas retas perpendiculares ao chão, onde a reta verde representa o eixoprincipal marcado manualmente, e a reta vermelha representa o eixo estimado após acalibração.

A Fig. 5.7 apresenta um gráfico acumulativo de todos os data sets avaliados com

o FHH RMSE. A média geral do FHH RMSE de todos os data sets apresenta um valor de

4%, proveniente de resultados que variam entre 2% e 7%. Os melhores resultados foram

obtidos avaliando os data sets disponibilizados por CVLab (2013). Este conjunto de data

sets apresenta cenários com pouca ocupação de pessoas, com um fundo de cena estático

e um forte contraste entre os objetos móveis e o fundo da cena, como ilustrado na Fig.

5.8. Essas características contribuem para os bons resultados alcançados, pois geram

menos ruídos na segmentação e oferecem uma boa imagem de fundo para detecção dos

pontos de fuga. Os piores resultados foram obtidos no PETS (2007), onde há uma grande

ocupação de pessoas e um ambiente dinâmico, no qual ocorre constante união de blobs e

oclusões parciais das pessoas. Contudo, o método aparenta lidar com este problema de

forma robusta, degradando seu resultado em apenas 5% em relação ao melhor resultado

obtido.

Liu et al. (2011) propuseram um método com o mesmo objetivo do framework

Métricas Liu et al. (2011) Nosso frameworkMédia de bons exemplospara calibração 1800 370

FHH RMSE 0,05 0,03

Tabela 5.1: Comparação de dados obitidos quando submetidos os diferente processosde calibação aos data set do CVLab (2013).

proposto neste trabalho, calibrar câmeras de vigilância de forma automática. No entanto

eles utilizam apenas os eixos principais das pessoas para estimar todos os parâmetros

necessários para calibrar a câmera (ver Seção 2.4.7). Nossa abordagem requer uma

grande quantidade de bons exemplos de eixos principais, em média 1800. Submetido aos

data sets do CVLab (2013), Liu et al. (2011) atingem um valor médio do FHH RMSE

de 0.05, como apresentando na Tab. 5.1. O framework proposto neste trabalho utiliza

não apenas os eixos principais dos pedestres na cena, mas também dicas das estruturas

presentes na imagem de fundo da cena. Essa abordagem exige uma média de 370 bons

exemplos de eixos principais, cerca de 80% menos que o exigido pelo método de Liu et al.

(2011) para os mesmos data sets do CVLab (2013). Quando comparados o FHH RMSE,

o nosso framework alcança um valor de 0,03, 0,02 pontos a menos que o apresentado

por Liu et al. (2011). Essa comparação mostra que o framework aqui proposto supera o

método de Liu et al. (2011) em eficiência e exatidão.

5.3 Considerações Finais

As avaliações demonstraram que o framework proposto alcança o objetivo es-

tipulado de forma robusta, sendo aplicável a cenas com diferentes características. A

modificação do método de subtração de background, ABL com operadores morfológicos,

apresentou um bom resultado, superando outros métodos de subtração de background

bem avaliados na literatura. Este resultado tornou o ABL com operadores morfológicos,

o método adotado para compor o framework na etapa de dados de baixo nível. A ava-

liação da calibração de câmera automática proposta neste trabalho por três diferentes

métricas, comprova o bom desempenho do framework. Submetido a diferentes cenários,

o método apresentou uma boa estabilidade mantendo seu desempenho oscilando dentro

de uma pequena faixa. Quando comparado a outro método existente na literatura, o

método de Liu et al. (2011), a nossa abordagem apresentou um desempenho superior em

relação a eficiência e exatidão.

Capítulo 6

Conclusão

O uso de câmeras de vigilância se tornou comum em centros urbanos. Essa

difusão do uso de câmera abre espaço para o surgimento de sistemas inteligentes, capazes

de analisar a cena monitorada e disparar alarmes na ocorrência de distúrbio. As análises

utilizam informações 3D, determinando a altura das pessoas, trajetória percorrida e sua

posição na cena, tudo isto sendo provido pela calibração de câmera. Dessa forma, o

processo de calibração de câmeras de vigilância se faz essencial para a automação do

monitoramento de ambientes.

Visto que uma rede de câmera de vigilância se encontra espalhada em regiões

monitoradas, a forma usual de calibração requer uma intensa intervenção humana, exi-

gindo a presença de um objeto específico na cena. Neste trabalho, foi proposto um

framework para calibração automática de câmeras de vigilância, que utiliza informações

naturalmente presentes na cena monitorada, diminuindo o esforço humano e evitando in-

tervenções durante o processo de calibração. O aspecto modular do framework permite

solucionar problemas locais de forma isolada, mantendo a coesão e o acoplamento do sis-

tema proposto. Isso aumenta a confiabilidade da aplicação, uma vez que são utilizados

pequenos métodos especializados, os quais, arranjados de forma correta, concebem um

framework robusto.

O uso de informações do foreground e background da cena, extraídos pelo ABL

com operadores morfológicos, tornaram o framework mais robusto. Os pontos de fuga,

extraídos da imagem de background dos cenários antrópicos, possibilitaram filtrar ruídos

existentes no conjunto de eixos principais, derivados da deformação de blobs. Essa abor-

dagem tornou o framework capaz de lidar com cenas complexas, mantendo uma boa taxa

de exatidão. Comparado a outras propostas de calibração automática, o framework aqui

proposto apresentou um melhor desempenho, superando-os em eficiência e exatidão.

Capítulo 6. Conclusão 80

Como trabalho futuro, planejamos melhorar os resultados alcançados, e inves-

tigar uma forma de corrigir a distorção radial na imagem, permitindo a aplicação desse

framework em câmeras que apresentem amplo campo de visão.

Bibliografia

ABASE. Exposec 2014: principal vitrine do mercado de sistemas eletrônicos desegurança na América Latina. 2014. Disponível em: <http://www.abese.org.br/clipping28-04-2014/#a2>.

BARINOVA, O. et al. Geometric image parsing in man-made environments. In:Computer Vision–ECCV 2010. [S.l.]: Springer, 2010. p. 57–70.

BELEZNAI, C.; BISCHOF, H. Fast human detection in crowded scenes by contourintegration and local shape estimation. In: IEEE. Computer Vision and PatternRecognition, 2009. CVPR 2009. IEEE Conference on. [S.l.], 2009. p. 2246–2253.

BOUGUET, J. MATLAB calibration tool. 2015. Disponível em: <http://www.vision.caltech.edu/bouguetj/calib_doc/>.

BRADSKI, G. The opencv library. Dr. Dobb’s Journal of Software Tools, 2000.

BURNS, J. B.; HANSON, A. R.; RISEMAN, E. M. Extracting straight lines. PatternAnalysis and Machine Intelligence, IEEE Transactions on, IEEE, n. 4, p. 425–455,1986.

CAJAZEIRA, P. E. S. L. Sociedade vigiada: o uso das câmeras de vigilância notelejornal. Revista Comunicação Midiática, v. 8, n. 2, p. p–184, 2013.

CANNY, J. A computational approach to edge detection. Pattern Analysis and MachineIntelligence, IEEE Transactions on, IEEE, n. 6, p. 679–698, 1986.

CIPOLLA, R.; DRUMMOND, T.; ROBERTSON, D. P. Camera calibration fromvanishing points in image of architectural scenes. In: British Machine Vision Conference(BMVC). [S.l.: s.n.], 1999. v. 99, p. 382–391.

CISMOSKI, M.; ROCHA, A. Revisão de Conceitos em Projeção, Homografia, Calibraçãode Câmera, Geometria Epipolar, Mapas de Profundidade e Varredura de Planos. 2012.Disponível em: <http://www.ic.unicamp.br/~rocha/teaching/2012s1/mc949/aulas/additional-material-revision-of-concepts-homography-and-related-topics.pdf>.

COUGHLAN, J. M.; YUILLE, A. L. The manhattan world assumption: Regularities inscene statistics which enable bayesian inference. In: NIPS. [S.l.: s.n.], 2000. p. 845–851.

CRIMINISI, A.; REID, I.; ZISSERMAN, A. Single view metrology. InternationalJournal of Computer Vision, Springer, v. 40, n. 2, p. 123–148, 2000.

CVLAB. Multi-camera pedestrians video. 2013. Disponível emhttp://cvlab.epfl.ch/data/pom/.

Bibliografia 82

DENIS, P.; ELDER, J. H.; ESTRADA, F. J. Efficient edge-based methods for estimatingmanhattan frames in urban imagery. [S.l.]: Springer, 2008.

DUBSKÁ, M.; HEROUT, A.; HAVEL, J. Pclines—line detection using parallelcoordinates. In: IEEE. Computer Vision and Pattern Recognition (CVPR), 2011 IEEEConference on. [S.l.], 2011. p. 1489–1494.

FISCHLER, M.; BOLLES, R. Random sample consensus: a paradigm for model fittingwith applications to image analysis and automated cartography. Communications of theACM, p. 381–395, 1981.

FISHER, R. Change detection in color images. In: CITESEER. Proceedings of 7thIEEE Conference on Computer Vision and Pattern, Ft. Collins, CO, USA. [S.l.], 1999.

FITZGIBBON, A.; FISHER, R. A buyer’s guide to conic fitting. In: British Conferenceon Machine Vision. [S.l.: s.n.], 1995. p. 513–522.

FRIEDMAN, N.; RUSSELL, S. Image segmentation in video sequences: A probabilisticapproach. In: MORGAN KAUFMANN PUBLISHERS INC. Proceedings of theThirteenth conference on Uncertainty in artificial intelligence. [S.l.], 1997. p. 175–181.

FRY, J.; PUSATERI, M. A system and method for auto-correction of first order lensdistortion. In: Applied Imagery Pattern Recognition Workshop (AIPR), 2010 IEEE39th. [S.l.: s.n.], 2010. p. 1–4. ISSN 1550-5219.

G1. DF tem uma câmera de segurança para cada 5 habitantes, diz entidade.2012. Disponível em: <http://g1.globo.com/distrito-federal/noticia/2012/09/df-tem-uma-camera-de-seguranca-para-cada-5-habitantes-diz-entidade.html>.

GIOI, R. et al. Lsd: A fast line segment detector with a false detection control. IEEETransactions on Pattern Analysis and Machine Intelligence, p. 722–732, 2010.

GIOI, R. von; JAKUBOWICZ, J.; RANDALL, G. Multisegment detection. In: ImageProcessing, 2007. ICIP 2007. IEEE International Conference on. [S.l.: s.n.], 2007. v. 2,p. II – 253–II – 256. ISSN 1522-4880.

HARTLEY, R.; ZISSERMAN, A. Multiple view geometry in computer vision. [S.l.]:Cambridge university press, 2003.

HEIJMANS, H. J.; ROERDINK, J. B. Mathematical morphology and its applications toimage and signal processing. [S.l.]: Springer Science & Business Media, 1998. v. 12.

HEIKKILÄ, M.; PIETIKÄINEN, M. A texture-based method for modeling thebackground and detecting moving objects. Pattern Analysis and Machine Intelligence,IEEE Transactions on, IEEE, v. 28, n. 4, p. 657–662, 2006.

KAEWTRAKULPONG, P.; BOWDEN, R. An improved adaptive background mixturemodel for real-time tracking with shadow detection. In: Video-Based SurveillanceSystems. [S.l.]: Springer US, 2002. p. 135–144. ISBN 978-1-4613-5301-0.

KANG, H. et al. Holographic printing of white-light viewable holograms andstereograms. Intech, Rijeka, p. 171–201, 2013.

KIM, B.-K. et al. Correcting radial lens distortion with advanced outlier elimination.In: Audio Language and Image Processing (ICALIP), 2010 International Conferenceon. [S.l.: s.n.], 2010. p. 1693–1699.

Bibliografia 83

KRAHNSTOEVER, N.; MENDONCA, P. Bayesian autocalibration for surveillance. In:IEEE International Conference on Computer Vision. [S.l.: s.n.], 2005. p. 1858–1865.

LEE, S.; NEVATIA, R. Robust camera calibration tool for video surveillance camera inurban environment. In: IEEE Computer Society Conference on Computer Vision andPattern Recognition Workshops. [S.l.: s.n.], 2011. p. 62–67.

LEMOS, A. et al. Câmeras de vigilância e cultura da insegurança: percepções sobre ascâmeras de vigilância da ufba. http://revistaalceu. com. pucrio. br/media/Artigo11%20Andr% C3% A9% 20Lemos,% 20Camila% 20Q ueiroz,% 20Egide% C3% ADlson%20Santana,% 20Frederico% 20Fagundes% 20e% 20Gabriela% 20Ba leeiro. pdf Acessoem, v. 23, n. 06, p. 2014, 2011.

LEZAMA, J. et al. Finding vanishing points via point alignments in image primaland dual domains. In: Computer Vision and Pattern Recognition. [S.l.: s.n.], 2014. p.509–515.

LEZAMA, J. et al. A contrario 2d point alignment detection. Pattern Analysis andMachine Intelligence, IEEE Transactions on, IEEE, v. 37, n. 3, p. 499–512, 2015.

LIEBOWITZ, D.; ZISSERMAN, A. Combining scene and auto-calibration constraints.In: IEEE. Computer Vision, 1999. The Proceedings of the Seventh IEEE InternationalConference on. [S.l.], 1999. v. 1, p. 293–300.

LIU, J.; COLLINS, R.; LIU, Y. Surveillance camera autocalibration based on pedestrianheight distributions. In: British Machine Vision Conference (BMVC). [S.l.: s.n.], 2011.p. 144–154.

LV, F.; T., Z.; NEVATIA, R. Self-calibration of a camera from video of a walkinghuman. In: IEEE International Conference on Pattern Recognition. [S.l.: s.n.], 2002. p.562–567 vol.1.

LV, F.; ZHAO, T.; NEVATIA, R. Camera calibration from video of a walking human.IEEE Transactions on Pattern Analysis and Machine Intelligence, p. 1513–1518, 2006.

MADDALENA, L.; PETROSINO, A. A self-organizing approach to backgroundsubtraction for visual surveillance applications. IEEE Transactions on Image Processing,p. 1168–1177, 2008.

MATLAB. version 7.10.0 (R2010a). Natick, Massachusetts: The MathWorks Inc., 2010.

METROPOLIS, N. et al. Equation of state calculations by fast computing machines.The journal of chemical physics, AIP Publishing, v. 21, n. 6, p. 1087–1092, 1953.

MICUSIK, B.; PAJDLA, T. Simultaneous surveillance camera calibration and foot-headhomology estimation from human detections. In: IEEE Conference on Computer Visionand Pattern Recognition. [S.l.: s.n.], 2010. p. 1562–1569.

OPENCV. Camera calibration and 3D reconstruction. 2015. Disponível em: <http://docs.opencv.org/doc/tutorials/calib3d/camera_calibration/camera_calibration.html>.

OPENCV. Extract horizontal and vertical lines by using morphological operations. 2015.Disponível em: <docs.opencv.org/master/d1/dee/tutorial_moprh_lines_detection.html>.

Bibliografia 84

OPENCV. How to Use Background Subtraction Methods. 2015. Disponível em: <http://docs.opencv.org/master/d1/dc5/tutorial_background_subtraction.html#gsc.tab=0>.

PETS. Performance Evaluation of Tracking and Surveillance. 2006. Disponível emhttp://www.cvg.reading.ac.uk/PETS2006/data.html.

PETS. Performance Evaluation of Tracking and Surveillance. 2007. Disponível emhttp://www.cvg.reading.ac.uk/PETS2007/data.html.

ROTHER, D.; PATWARDHAN, K.; SAPIRO, G. What can casual walkers tell usabout a 3d scene? In: IEEE International Conference on Computer Vision. [S.l.: s.n.],2007. p. 1–8.

RUJIKIETGUMJORN, S.; COLLINS, R. Optimized pedestrian detection for multipleand occluded people. In: IEEE Conference on Computer Vision and PatternRecognition. [S.l.: s.n.], 2013. p. 3690–3697.

SAPTHARISHI, M. et al. Agent-based moving object correspondence using differentialdiscriminative diagnosis. In: IEEE. Computer Vision and Pattern Recognition, 2000.Proceedings. IEEE Conference on. [S.l.], 2000. v. 2, p. 652–658.

SEMPLE, J. G.; KNEEBONE, G. T. Algebraic projective geometry. [S.l.]: OxfordUniversity Press, 1998.

SOBRAL, A.; VACAVANT, A. A comprehensive review of background subtractionalgorithms evaluated with synthetic and real videos. Computer Vision and ImageUnderstanding, Elsevier, v. 122, p. 4–21, 2014.

STAUFFER, C.; GRIMSON, W. E. L. Adaptive background mixture models forreal-time tracking. In: IEEE. Computer Vision and Pattern Recognition, 1999. IEEEComputer Society Conference on. [S.l.], 1999. v. 2.

STEELE, R. M.; JAYNES, C. Overconstrained linear estimation of radial distortionand multi-view geometry. In: Computer Vision–ECCV 2006. [S.l.]: Springer, 2006. p.253–264.

TARDIF, J.-P. Non-iterative approach for fast and accurate vanishing point detection.In: IEEE. Computer Vision, 2009 IEEE 12th International Conference on. [S.l.], 2009.p. 1250–1257.

Vacavant, A. et al. Background Models Challenge, Workshop of ACCV 2012. Springer,2012. Disponível em: <http://liris.cnrs.fr/publis/?id=5905>.

VISSCHER, P. M. Sizing up human height variation. Nature genetics, Nature PublishingGroup, v. 40, n. 5, p. 489–490, 2008.

WILDENAUER, H.; HANBURY, A. Robust camera self-calibration from monocularimages of manhattan worlds. In: IEEE Conference on Computer Vision and PatternRecognition. [S.l.: s.n.], 2012. p. 2831–2838.

WU, Z.; LI, Y.; RADKE, R. Viewpoint invariant human re-identification in cameranetworks using pose priors and subject-discriminative features. IEEE Transactions onPattern Analysis and Machine Intelligence, p. 1095–1108, 2015.

Bibliografia 85

XU, Y.; OH, S.; HOOGS, A. A minimum error vanishing point detection approach foruncalibrated monocular images of man-made environments. In: Computer Vision andPattern Recognition, IEEE Conference on. [S.l.: s.n.], 2013. p. 1376–1383.

YAO, J.; ODOBEZ, J. Multi-layer background subtraction based on color and texture.In: IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2007.p. 1–8.

ZHANG, Z. A flexible new technique for camera calibration. Pattern Analysis andMachine Intelligence, IEEE Transactions on, v. 22, n. 11, p. 1330–1334, Nov 2000.ISSN 0162-8828.

ZHAO, T.; NEVATIA, R. Tracking multiple humans in crowded environment. In: IEEE.Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004IEEE Computer Society Conference on. [S.l.], 2004. v. 2, p. II–406.

Universidade Federal da Bahia Programa de Pós-graduação em ... · Universidade Federal da Bahia...

Documents

FACULDADE ADVENTISTA DA BAHIA PÓS …adventista.edu.br/_imagens/pos_graduacao/files/Artigo Logística... · 1 faculdade adventista da bahia pÓs-graduaÇÃo em logÍstica empresarial

UFBA · 2018. 3. 7. · ufba universidade federal da bahia escola politÉcnica programa de pÓs-graduaÇÃo em engenharia industrial – pei programa de pÓs-graduaÇÃo em engenharia

UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE SAÚDECOLETIVA PROGRAMA DE PÓS-GRADUAÇÃO ... · 2018. 5. 18. · Tese apresentada ao Programa de Pós-graduação em Saúde Coletiva,

UNIVERSIDADE FEDERAL DA BAHIA Programa de Pós-Graduação …‡ÃO... · UNIVERSIDADE FEDERAL DA BAHIA Programa de Pós-Graduação em Estudos Interdisciplinares sobre a Universidade

UNIVERSIDADE FEDERAL DA BAHIA FACULDADE DE EDUCAÇÃO PROGRAMA DE PÓS ... FINAL.pdf · universidade federal da bahia faculdade de educaÇÃo programa de pÓs-graduaÇÃo em educaÇÃo/doutorado

UNIVERSIDADE DO ESTADO DA BAHIA PROGRAMA DE PÓS ...§ão-COM-F… · 0 universidade do estado da bahia programa de pÓs-graduaÇÃo em educaÇÃo e contemporaneidade ppgeduc marilia

UNIVERSIDADE DO ESTADO DA BAHIA … · universidade do estado da bahia programa de pÓs-graduaÇÃo em educaÇÃo e contemporaneidade - ppgeduc

universidade federal da bahia programa de pós-graduação em

UNIVERSIDADE FEDERAL DA BAHIA NÚCLEO DE PÓS … · universidade federal da bahia escola de administraÇÃo da ufba - eaufba nÚcleo de pÓs-graduaÇÃo em administraÇÃo - npga

UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE GEOCIÊNCIAS PROGRAMA DE PÓS-GRADUAÇÃO EM GEOGRAFIA

UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA … DISSERTAÇÃO... · universidade federal da bahia escola politÉcnica programa de pÓs-graduaÇÃo em engenharia quÍmica “desenvolvimento

UNIVERSIDADE ESTADUAL DO SUDOESTE DA BAHIA - … · 0 universidade estadual do sudoeste da bahia - uesb prÓ-reitoria de pesquisa e pÓs-graduaÇÃo - ppg programa de pÓs-graduaÇÃo

UNIVERSIDADE FEDERAL DA BAHIA ESCOLA DE ADMINISTRAÇÃO NÚCLEO DE PÓS-GRADUAÇÃO EM ... · 2012-09-04 · Escola de Administração, Salvador, ... Pós-Graduação em Administração

UNIVERSIDADE FEDERAL DA BAHIA PROGRAMA DE PÓS JOSÉ … · 2019-10-10 · universidade federal da bahia escola de teatro programa de pÓs-graduaÇÃo em artes cÊnicas josÉ oliveira

UNIVERSIDADE ESTADUAL DO SUDOESTE DA BAHIA - UESB PÓS ...§ão...universidade estadual do sudoeste da bahia - uesb pÓs-graduaÇÃo em letras: cultura, educaÇÃo e linguagens fernando

UNIVERSIDADE FEDERAL DA BAHIA PROGRAMA DE PÓS … · 1 universidade federal da bahia programa de pÓs-graduaÇÃo em zootecnia qualidade de silagens de sorgo com ureia e inoculante

UNIVERSIDADE FEDERAL DA BAHIA CURSO DE PÓS … Carlos... · Escola de Agronomia da Universidade Federal da Bahia, 1997 Dissertação submetida à Câmara de Ensino de Pós- Graduação

Universidade Federal da Bahia Núcleo de Pós-Graduação · PDF fileUniversidade Federal da Bahia Núcleo de Pós-Graduação em Administração - NPGA Especialização em Administração

Programa de Pós-Graduação em Medicina e Saúde …´nio Marconi... · Antônio Marconi Leandro da Silva Salvador-Bahia 2014 . Programa de Pós-Graduação em Medicina e Saúde

DA NATUREZA DA PÓS-GRADUAÇÃO E SEU PÚBLICO ALVO · UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE BIOLOGIA PÓS GRADUAÇÃO EM MICROBIOLOGIA INSTITUTO DE BIOLOGIA - 2 - Art. 4º -