Upload
trankhanh
View
216
Download
0
Embed Size (px)
Citation preview
1
Mauricio Azevedo Lage Ferreira
Técnicas de Visão Computacional para Vigilância de Veículos em Rodovias
Proposta de Dissertação de Mestrado
Orientador: Prof. Marcelo Gattass
Rio de Janeiro
25 de Janeiro de 2008
2
Sumário
Sumário ............................................................................................................... 2
Índice de Figuras ................................................................................................. 4
1 Introdução ......................................................................................................... 5
2 Detecção de Movimento ................................................................................... 8
2.1 Subtração de Fundo ...................................................................................... 11
2.2 Trabalhos Relacionados ............................................................................... 13
2.3 O Algoritmo Desenvolvido .......................................................................... 17
2.4 Pós-Processamento ...................................................................................... 24
2.5 Resultados parciais ....................................................................................... 27
2.6 Considerações Finais do Capítulo ................................................................. 29
3 Modelagem de Veículos .................................................................................. 36
3.1 Trabalhos Relacionados ............................................................................... 37
3.2 Modelo Proposto .......................................................................................... 40
3.3 Resultados parciais ....................................................................................... 50
3.4 Considerações Finais do Capítulo ................................................................. 51
4 Remoção de Sombras ...................................................................................... 52
4.1 Trabalhos relacionados ................................................................................. 54
4.2 Características da sombra e iluminação ........................................................ 56
4.3 Algoritmo proposto ...................................................................................... 64
4.4 Resultados parciais ....................................................................................... 69
4.5 Considerações de final de capítulo ............................................................... 70
5 Remoção de Oclusão, cálculo da velocidade e classificação dos veículos ....... 71
5.1 Detecção e remoção de oclusão .................................................................... 72
3
5.1.1 Trabalhos Relacionados ............................................................................ 73
5.1.2 Modelo Proposto ....................................................................................... 75
5.1.3 Resultados parciais .................................................................................... 79
5.2 Determinação da velocidade ......................................................................... 80
5.2.1 Trabalhos relacionados .............................................................................. 81
5.2.2 Algoritmo desenvolvido ............................................................................ 83
5.2.3 Resultados parciais .................................................................................... 85
5.3 Classificação ................................................................................................ 86
5.3.1 Trabalhos relacionados .............................................................................. 87
5.3.2 Algoritmo desenvolvido ............................................................................ 88
5.3.3 Resultados parciais .................................................................................... 89
5.5 Considerações de final de capítulo ............................................................... 90
6 Rastreamento de Veículos ............................................................................... 91
6.1 Trabalhos relacionados ................................................................................. 94
6.2 Algoritmo proposto ...................................................................................... 95
6.3 Resultados parciais ....................................................................................... 98
6.4 Considerações finais do capítulo .................................................................. 99
7 Conclusões .................................................................................................... 100
Reconstrucao com camera sintetica ................................................................. 101
7.1 Trabalhos futuros ....................................................................................... 101
8 Bibliografia ................................................................................................... 102
4
Índice de Figuras
Figura 1: Fluxograma do sistema desenvolvido .................................................... 7
Figura 2: Representação do espaço de cores HSV. ............................................. 18
Figura 3: Modelo da fase de classificação do algoritmo proposto. ...................... 21
Figura 4: Exemplo de mudança de iluminação. .................................................. 22
Figura 5: Diversas modelagens propostas pela literatura..................................... 38
Figura 6: Representação Tridimensional Veicular (RTV). .................................. 41
Figura 7: Imagem real da rodovia e sua respectiva detecção de faixas e
identificação das suas pistas. ....................................................................................... 42
Figura 8: Etapas do algoritmo automático de detecção de linhas de um campo de
futebol. ....................................................................................................................... 44
Figura 9: Exemplo de polígonos gerados através das pistas da rodovia. .............. 46
Figura 10: Representação de um Bounding-Box de uma silhueta. ....................... 47
Figura 11: Modelo simplificado do veículo no espaço 3D (a) e o 2D (b). ........... 48
Figura 12: Representação do MSPA. .................................................................. 49
Figura 13: Resultado de deteção de movimento com e sem a remoção de sombras.
................................................................................................................................... 52
Figura 14: Histogramas de quatro pixels de uma imagem qualquer para as
componentes H, S e V. (Zhao, et al.) ........................................................................... 58
Figura 15: Resultado da remoção de sombra encontrado por cinco diferentes
algoritmos. .................................................................................................................. 62
Figura 16: (a) Modelo da sombra; e (b) os seis tipos de sombras projetadas para
cada direção de iluminação. Retirado de (Yoneyama, et al., 2005) .............................. 64
Figura 17: Seis possíveis modelos de sombra. Retirado de (Yoneyama, et al.,
2005) .......................................................................................................................... 65
Figura 18: Retirado de (Yoneyama, et al., 2005) ................................................ 66
Figura 19: Fluxograma do algoritmo de rastreamento desenvolvido. .................. 97
5
1 Introdução
Recentemente, sistemas de vigilância eletrônica automática ou semi-automática
têm despertado grande interesse, tanto por parte dos pesquisadores e estudiosos da área
de visão computacional, quanto da indústria. Esse sucesso tem crescido graças ao
barateamento e evolução das câmeras digitais no mercado e dos microcomputadores fez
com que os algoritmos que compõem um sistema de vigilância eletrônica se tornassem
cada vez mais confiáveis.
Esses sistemas estão aos poucos realizando a vigilância de ambientes fechados
como bancos, museus e residências ou para ambientes externos como rodovias, estradas
ou estacionamentos.
Normalmente, o objeto de interesse nestes sistemas é o ser humano ou o veículo.
Logo, cabe ao sistemas de vigilância eletrônica a responsabilidade de, por exemplo,
alertar seu operador para elementos suspeitos no prédio, rastrear veículos ao longo de
rodovias, ou até mesmo o fluxo de pessoas em trechos de um shopping center.
Os equipamentos mais comuns utilizados na vigilância eletrônica, antes de uma
tentativa de automatização computadorizada são câmeras e sensores de presença. Esses
equipamentos eram operados manualmente, porém com o volume de informações
simultâneas cada vez maior ultrapassou a capacidade humana de avaliar muitas
câmeras, por exemplo, ao mesmo tempo, tornando o sistema de segurança falho, o que é
perigoso para o que ele se propõe.
Então, essa vigilância eletrônica automática ou semi-automática é uma tecnologia
que tende aos poucos susbstituir o olho humano. Para realizar esse tipo de vigilância a
tecnologia pode detectar, por exemplo, um intruso sendo uma pessoa ou um objeto no
ambiente de interesse. Um grande desafio para a tecnologia é ter a capacidade de
realizar estas detecções ao longo de ambientes externos amplos como rios, portos e
parques com mais de 50m2.
6
Outro desafio a ser vencido por sistemas como este é a capacidade de operar
durante 24 horas por dia e 7 dias por semana. Isto, obviamente, se dá ao fato de serem
sistemas de segurança, nos quais uma falha ou um desligamento da vigilância pode
comprometer toda a segurança a que o sistema visa proteger.
O objeto de estudo desta dissertação para vigilância eletrônica é o veículo, e este é
estudado especificamente para ambientes como rodovias e estradas. Estes sistemas têm
demandado tarefas como contagem, determinação da velocidade, classificação,
rastreamento, classificação do fluxo, detecção de acidentes, entre outros.
Um sistema eletrônico capaz de realizar todas essas tarefas, além de tornar o
sistema mais seguro por auxiliar o operador humano, é capaz de armazenar estatísticas
de cada veículo (velocidade, aceleração e espaçamento) e da rodovia (tipo de veículo
mais popular do trecho, velocidade média do percurso, números de acidentes por mês,
número médio de veículos por dia, comportamentos dos motoristas, entre outros ).
Todos esses fatos motivaram o estudo desta dissertação. Este trabalho está focado
para ambientes externos, analizando o comportamento dos veículos, dentre eles carros,
ônibus, motos e caminhões. O sistema desenvolvido se propõe a resolver as seguintes
tarefas:
• Detectar os objetos em movimento através da subtração de fundo;
• Atualizar do modelo de fundo em relação à iluminação;
• Detectar a silhueta e a caixa envolvente (bounding box) do objeto;
• Detectar e calibrar as faixas da rodovia de estudo;
• Modelar estes objetos em movimento para se assemelharem ao formato
dos veículos (6-PM e Box3D);
• Remover sombras e oclusões;
• Classificar os veículos;
• Rastrear os veículos ao longo da cena;
• Determinar a velocidade;
A
Figura 1 ilustra um fluxograma destas etapas descritas acima com a ordem de
entrada e saída dos eventos.
7
O documento engloba a resolução dessas tarefas e foi organizado em sete
capítulos. O capítulo um é o presente texto e propõe a motivação, objetivos e estutura
desta dissertação.
No capítulo dois é apresentada a técnica de subtração de fundo, utilizada para
segmentar o objeto de interesse do fundo da cena. Neste capítulo é feito um estudo e
avaliação dos diferentes algoritmos propostos para este tema e desenvolvendo um
algoritmo próprio para tornar o sistema capaz de se adequar a mudanças a mudança de
iluminação do ambiente. Além disso, o capítulo apresenta o pós-processamento
realizado composto de filtros morfológicos, detecção de bordas e contornos com o
objetivo de realizar uma melhoria da segmentação e obtenção das silhuetas.
Figura 1: Fluxograma do sistema desenvolvido
8
No capítulo três é discutida uma modelagem desenvolvida para melhor
caracterizar a morfologia dos veículos para disponibilizar mais informações,
principalmente geométricas, deles mesmos. É feito um estudo sobre a caracterização
geométrica das pistas da rodovia de interesse.
O capítulo quatro se destina exclusivamente para discutir algoritmo de remoção
de sombras. Essa tarefa tem fundamental importância, porque a sombra é
freqüentemente extraída quando associada ao objeto de interesse, podendo causar
distorções em sua forma, umas com outros objetos distintos e até mesmo a perda deles.
O capítulo cinco reune três fundamentais algoritmos para um sistema de
vigilância eletrônica que visa extrair e gerenciar importântes informações da rodovia.
Esses algoritmos são: remoção de oclusão, cálculo da velocidade e classificação dos
veículos.
No capítulo seis é apresentado o algoritmo de rastreamento de veículos que tem
como objetivo localizar um ou mais objetos em movimento e relacioná-los ao longo do
vídeo.
Finalmente, no capítulo sete são apresentadas considerações finais sobre o
trabalho de pesquisa desenvolvida com os resultados comparativos de cada etapa e os
trabalhos futuros que podem resultar à partir deste.
9
2 Detecção de Movimento
A Detecção de Movimento visa diferenciar, em uma seqüência de vídeo, as
imagens dos objetos dinâmicos dos estáticos. Essa técnica é um passo essencial na
resolução de diversos problemas de visão computacional, especialmente no campo de
segurança e vigilância eletrônica. Quanto maior a perfeição com que os objetos em
movimento forem extraídos, menores os ruídos, levando a um menor custo
computacional nas etapas seguintes.
Técnicas de Subtração ou Segmentação de Fundo, Detecção de Textura como pele
e Fluxo Óptico podem ser utilizadas para resolver alguns dos problemas de Detecção de
Movimento. Essas técnicas vêm sendo estudadas a mais de 25 anos e englobam diversas
áreas de interesse humano como: sistemas de vigilância (Haritaoglu, et al., 2000)
(Heikkila, et al., 1999), captura de movimento 3D (Horprasert, et al., 1998), arte digital
(Levin, 2004), reconhecimento de gestos (Kjeldsen, 1997), estimativa de pose humana
(Sminchiescu, et al., 2002), rastreamento de objetos (McFarlane, et al., 1995), entre
outros.
Atualmente, não existe uma abordagem definitiva para resolver o problema de
Detecção de Movimento de forma genérica. As soluções já existentes consistem na
resolução desse problema em condições específicas relacionadas à aplicação que se
deseja criar. Isto ocorre principalmente devido a: mudanças na iluminação (posição e
intensidade), sombras, camuflagem, superfícies espelhadas, mudanças na movimentação
(oscilação da câmera e objetos de alta freqüência), mudanças na geometria do fundo, e o
mais importante de todos – ser em tempo real.
Para esta dissertação, foi selecionada a técnica de Subtração de Fundo para extrair
os veículos em movimento do vídeo. Para isso, foi desenvolvido um algoritmo baseado
na coleção de outros encontrados na literatura da área.
O presente capítulo apresenta um breve resumo sobre as principais características
e problemas dos algoritmos de Subtração de Fundo, juntamente a uma evolução dos
10
algoritmos, encontrados na literatura, desenvolvidos para resolver esses problemas.
Posteriormente, será descrito o algoritmo desenvolvido para esta dissertação com o
objetivo de realizar a detecção de veículos utilizando vídeos de rodovias.
11
2.1 Subtração de Fundo
A técnica de Segmentação ou Subtração de Fundo (McIvor, 2000) é utilizada para
segmentar regiões em movimento em uma seqüência de imagens a partir de uma câmera
estática comparando cada novo quadro com um modelo de fundo da cena. Um
algoritmo baseado nessa técnica, normalmente, compreende as seguintes etapas:
treinamento, classificação e atualização.
A etapa de treinamento consiste em coletar informações de um conjunto de n
quadros seqüenciais para fazer uma estimativa de um modelo de fundo inicial. Esta
etapa não é obrigatória. Nos casos em que esta etapa é inexistente, o modelo é calculado
dinamicamente nas etapas seguintes.
Para definir se um pixel x pertence ao fundo ou a um objeto em movimento é
necessária uma etapa de classificação. Nessa etapa é feito o uso de um modelo de fundo
previamente calculado.
Por fim, a etapa de atualização é responsável por manter a coerência do modelo
de fundo, tratando eventuais mudanças como de iluminação ou de geometria que
possam ocorrer no modelo de fundo.
Algumas características essenciais diferenciam os algoritmos de Subtração de
Fundo, sendo estas: tipo de câmera, de informação extraída de cada imagem, de
ambiente, espectrais, regra de decisão, modelo de atualização e de representação.
A câmera utilizada em um algoritmo de Subtração de Fundo pode ser simples
(uma única câmera), estéreo (duas câmeras em visão estereoscópica) ou múltiplas
câmeras. A utilização de um modelo ou outro revela vantagens e desvantagens. Para
exemplificar essa diferença é dado como exemplo o problema da oclusão. No caso de
câmeras em estéreo e de múltiplas câmeras esse problema é facilmente removido devido
às diferentes vistas de um mesmo objeto, o que já não acontece no caso de uma única
câmera, porém o custo computacional de se trabalhar a cada quadro aumenta
proporcionalmente ao número de câmeras do sistema.
12
O tipo de informação extraída dos pixels pode ser espacial, temporal ou ambas.
Essa informação se refere ao tipo de característica armazenada para uso do algoritmo de
Subtração de Fundo.
O ambiente em que o algoritmo é focado pode ser: interno, externo ou ambos. A
grande maioria de algoritmos da literatura é focada somente para ambientes internos ou
somente externos e é rara a existência de algoritmos robustos para ambos os ambientes,
pois suas características são muito diferentes. Em ambientes externos existe uma maior
influência da luz solar, o que gera mudanças graduais na intensidade da iluminação. O
mesmo não acontece em ambientes internos, pois as fontes de luz artificiais são as
responsáveis pela iluminação do ambiente e podem mudar bruscamente a iluminação se
ligadas ou desligadas durante a gravação do vídeo.
A característica espectral refere-se ao nível de informação extraída de uma
imagem. Ela pode ser por pixel ou por grupo de pixels. Além disso, também, é levado
em consideração o espaço de cor envolvido. Os modelos mais comuns dentre os
algoritmos de Subtração de Fundo são: RGB, YUV, HSV e tons de cinza.
A regra de decisão é a forma como cada pixel do modelo de fundo é classificado,
sendo esta através de limiares, mapas ou redes inteligentes como a Bayesiana.
O modelo de atualização, através das características espectrais armazenadas,
monta o novo modelo de fundo e utiliza, por exemplo, parâmetros, limiares e funções
probabilísticas para isso.
A última característica é o modelo de representação, que define o tipo de
matemática envolvida, por exemplo, distribuição normal, minímos e máximos ou PCA.1
Deve-se considerar, também, em um algoritmo de Subtração de Fundo a sua
performance em termos computacionais. A maioria das aplicações tem necessidade de
ocorrer em tempo real. Então, avalia-se a quantidade de memória utilizada, de
processamento e o valor de quadros por segundo (FPS) da aplicação que utiliza o
algoritmo. Busca-se, então, sempre um maior custo-benefício entre o processamento e a
qualidade da segmentação.
1 Da literatura Principal Components Analysis é uma técnica utilizada para reduzir conjunto de
dados multidimensionais para dimensões menores para simplificar o trabalho com esses dados.
13
2.2 Trabalhos Relacionados
Esta seção traça um paralelo dos problemas existentes nos algoritmos de
Subtração de Fundo com as soluções propostas pelos algorímos da literatura em ordem
cronológica de evolução.
Algoritmos de visão computacional têm a função de auxiliar o estudo dos
elementos do mundo real para trazê-los ao virtual. Essa tarefa não é simples, porque
essa coleção de elementos possui uma alta complexidade para ser modelada com
precisão. Essa falta de precisão acarreta erros na detecção como ruídos, falsos-positivos2
e falsos-negativos3 para o caso dos algoritmos de Subtração de Fundo.
Um dos elementos mais difíceis de ser modelado é a iluminação, devido à
diversidade de tipos de fonte de luz e da forma como ela se comporta ao longo da cena
de interesse em relação à variação da sua posição e intensidade. Ela também é
responsável por gerar outros elementos como sombras e especulares.
Na literatura existem diversos algoritmos de Subtração de Fundo. (Veja os artigos
de revisão Hu (Hu, et al., 2004) e Piccardi (Piccardi, 2004)). Os primeiros que surgiram
na literatura foram criados por Otsu (N, 1979) e por Pun (Pun, 1980). Esses algoritmos,
também conhecidos como “Subtração Básica de Fundo” (BBS) (Hall, et al., 2005),
seguiram uma abordagem não-estatística. Os pesquisadores referenciados utilizaram
uma implementação simples, baseando-se somente na diferenciação direta de quadros
consecutivos em relação a um limiar. Futuramente, Lo (Lo, et al., 2001), Rosin (Rosin,
et al., 1995) e Cucchiara (Cucchiara, et al., 1996) aperfeiçoaram os algoritmos
anteriores, mas nenhum deles obteve um resultado satisfatório em cenas que lidassem
com alterações no quadro de iluminação ou na geometria de fundo (ex. um objeto
deixado na cena deve ser incorporado ao modelo de fundo).
Isso fez com que os algoritmos se tornassem mais adaptativos ao longo da cena
para lidar com mudanças no modelo de fundo treinado. Horprasert (Heikkila, et al.,
2 No caso da subtração de fundo, falsos-positivos são os pixels que, por exemplo, deveriam ser
classificados como fundo, porém foram classificados como movimento. 3 Seguindo a mesma idéia acima, os falsos-negativos seriam os que deveriam ser classificados
como movimento, porém foram classificados como fundo.
14
1999) e McFarlane (McFarlane, et al., 1995) foram os primeiros a desenvolver essas
idéias.
A abordagem não-determinística foi substituída por uma abordagem estatística,
para que ela permita construir modelos de fundo mais sofisticados que representavam
melhor a cena e as mudanças nela ocorridas, realizando, assim, uma subtração de fundo
de maior qualidade. Um dos pioneiros nessa abordagem foi o algoritmo Pfinder (Wren,
et al., 1997) e depois extensões dele como o Spfinder (Azarbayjani, et al., 1996) e
LOTS (Boult, et al., 2001). Todos esses algoritmos utilizavam uma distribuição normal
ou gaussiana para modelar o fundo.
Outro algoritmo de importância na literatura, bastante estudado e referenciado até
hoje é o W4 (Haritaoglu, et al., 2000), desenvolvido por Haritaoglu no ano 2000. Esse
nome é devido ao fato de que o sistema se propõe a resolver as quatro questões: o que
fazem (What), onde atuam (Where), quando atuam (When) e quem são (Who). W4 é
considerado mais um sistema do que um algoritmo, pois ele se propõe a resolver
diversas tarefas na área de vigilância eletrônica, as tarefas são: Detecção de Movimento
através da Subtração de Fundo, classificação dos objetos em movimento para pessoa ou
grupo de pessoas, rastreamento do objeto em movimento (“Tracking”), análise de
postura para uma pessoa isolada (“Ghost”), detecção se a pessoa carrega algum objeto
ou não (“Backpack”) e para o caso de pessoas em grupo a segmentação através da
detecção de cabeça (“Hydra”).
Em relação a sua subtração de fundo, W4 utiliza uma distribuição bimodal e
trabalha com as imagens em tons de cinza, sendo preparado para ambientes externos e
suportando mudanças suaves na iluminação através de mapas de suporte, sem lidar com
sombras em sua segmentação. W4 serviu de inspiração para diversos trabalhos na
literatura e inclusive para esta dissertação. No decorrer da seção, durante a descrição do
método criado, alguns pontos do W4 serão analisados com mais detalhes.
Muitas outras extensões dos algoritmos anteriores surgiram, mas todos eles apesar
de tratarem com sucesso pequenas ou graduais mudanças no cenário de fundo, falharam
para cenários com pixels de distribuição multimodal ou com uma dispersão muito
intensa. Em suma, todos esses algoritmos tinham dificuldade de tratar pixels não-
estacionários de fundo. Como, por exemplo, galhos de árvores em movimento, neve,
chuva ou ondas do mar.
15
O algoritmo Wallflower de Toyama (Toyama, et al., 1999) foi um dos primeiros a
tratar essa questão. Ele emprega o filtro linear de Wiener (um modelo simplificado do
filtro de Kalman) para aprender e prever eventuais mudanças no cenário de fundo.
Wallflower funciona bem para mudanças periódicas nos pixels. Porém, quando os
pixels de fundo alteram drasticamente ou quando o movimento destes é menos
incidente, Wallflower é menos efetivo no aprendizado e na previsão das mudanças no
cenário de fundo. Na mesma tentativa de manipular múltiplos modelos de fundo,
surgiram outros algoritmos como: Kottow (Kottow, et al., 2004), que modela o fundo e
os objetos em movimento como vetores de código (codebook-vectors), e Seki (Seki, et
al., 2003), em que é desenvolvido um modelo de fundo dinâmico através de
coocorrência de variações em blocos vizinhos da imagem.
Outro algoritmo que também buscou lidar com múltiplos modelos de fundo foi
conhecido como MOG (Mixture of Gaussians) ou Mistura de Gaussianas. Esse
algoritmo, criado por Grimson e Stauffer (Grimson, et al., June, 1998) (Stauffer, et al.,
1999), era uma versão extendida do modelo Pfinder. A idéia básica do MOG é assumir
que cada pixel da imagem pode ser modelado por uma mistura de K Gaussianas (k é
normalmente um valor entre 3 e 5). O algoritmo MOG se tornou bastante popular na
literatura e por isso propiciou a criação de muitas outras técnicas. Wang (Wang, et al.,
2005) modificou o MOG para tratar sombras e evoluiu o processo de atualização do
modelo de fundo e classificação. Lee (Lee, et al., 2003) utiliza uma rede Bayesiana para
realizar a segmentação do modelo de fundo do MOG. Muitas outras extensões do MOG
existem na literatura como de Harville (Harville, 2002) e Javed (Javed, et al., 2002).
O MOG tem muitas desvantagens em relação a fundos com rápidas variações que
não podem ser precisamente modeladas com poucas gaussianas, e falha ao prover uma
detecção sensível (Elgammal, et al., 2000). Além disso, dependendo da taxa de
aprendizagem para se adaptar a mudanças do fundo, MOG enfrenta um dilema: para
uma baixa taxa de aprendizagem produz um modelo que apresenta dificuldades de
adaptação às mudanças bruscas no fundo como definidas anteriormente. Por outro lado,
se o modelo se adaptar muito, objetos que se movem muito lentamente terão seus pixels
absorvidos junto ao modelo de fundo, resultando em inúmeros falsos-positivos.
Em uma tentativa de resolver esse problema descrito por Toyama (Toyama, et al.,
1999), uma técnica “não-paramétrica” foi desenvolvida para estimar a função de
16
densidade de probabilidade de cada pixel utilizando a estimativa de densidade Kernel
(Kernel Density Estimation) por Elgammal (Elgammal, et al., 2002). Esse algoritmo
permitiu que o modelo de fundo se adaptasse mais rapidamente às mudanças no atual
cenário de fundo e detectasse os objetos em movimento com maior precisão e
sensibilidade.
Infelizmente a técnica não-paramétrica não pode ser usada quando longos
períodos de tempo são necessários para estimar o modelo de fundo com eficiência, por
exemplo, quando existe uma cena com uma vegetação se movimentando
significativamente devido aos ventos ou numa auto-estrada movimentada devido ao alto
consumo de memória para armazenar os quadros.
Chalidabhongse e Kim (Chalidabhongse, et al., 2003) apresentaram o algoritmo
de Subtração de Fundo chamado Codebook (CB). Esse algoritmo resolveu o problema
da técnica não-paramétrica, permitindo a construção de um modelo de fundo a partir de
longas seqüências de vídeo.
Devido à enorme popularidade do tema de Subtração de Fundo na literatura,
existem muitos outros algoritmos que não foram citados no texto com diferentes
abordagens e com bons resultados. Como, por exemplo, Tai (Tai, et al., 2004) que
propõe um algoritmo utilizando histogramas modificados para segmentar o modelo de
fundo, Idupalli (Indupalli, et al., 2006), que utiliza algoritmos de clusterização como o
K-means, Grossmann (Grossmann, et al.) com um algoritmo supervisionado através de
redes neurais, ou Yang (Yang, et al., 1992), que propõe um sistema baseado na
representação do modelo de fundo por arestas chamado de “Primal Skecth”.
Porém, como foi dito na seção anterior, não existe atualmente um algoritmo que
lide com todos os problemas enumerados e que ainda seja em tempo real, mas cada
algoritmo busca resolver os problemas da aplicação à qual fora designado.
17
2.3 O Algoritmo Desenvolvido
No presente trabalho, o algoritmo foi projetado para trabalhar com vídeos de
rodovias e, a partir disso, algumas considerações foram feitas:
• O ambiente de trabalho é somente o ambiente externo durante a fase
diurna.
• O modelo de fundo é baseado no plano estático do vídeo, sendo sua
principal representante a rodovia.
• Os objetos em movimento são todos os que passam ao longo da rodovia
como veículos e pessoas.
• Os veículos que por um motivo qualquer se tornarem estacionários ao
longo da cena, não são incorporados ao modelo de fundo.
• As únicas alterações no cenário que são incorporadas ao modelo de fundo
são as que foram causadas pela iluminação, tanto devido a mudanças
climáticas quanto a mudanças temporais.
O algoritmo trabalha com as informações temporais e espaciais providas de uma
única câmera estática. O espaço de cores utilizado é o HSV, abreviatura de tonalidade
ou matiz (Hue), saturação (Saturation) e valor (Value). Sua representação é cônica,
segundo a Figura 2, onde H varia de 0 a 360 graus, iniciando no vermelho, S varia de 0
a 100%, iniciando no centro da circunferência e V também varia de 0 a 100% iniciando
na ponta do cone.
18
Figura 2: Representação do espaço de cores HSV.
Este espaço de cor apresenta algumas vantagens sobre outros espaços ao trabalhar
com algoritmos de subtração de fundo. O espaço HSV representa bem a percepção
humana de cor, pois ele separa a cromacidade (saturação e tonalidade) da intensidade
(valor). A vantagem disso é que, além de ser mais fácil para a modelagem, uma variação
de brilho na cena é irrelevante para a informação de cromacidade da imagem. O mesmo
não acontece com o tradicional espaço RGB, onde a distância entre duas cores não é
simétrica. O espaço HSV também oferece mais algumas vantagens: lida melhor com
ruídos, maior exatidão de valores médios de suas componentes e maior facilidade de
caracterizar regiões em sombra.
Na literatura existem muitos outros algoritmos que também utilizam, para tratar a
subtração de fundo, espaços de cores diferentes do tradicional RGB. Um exemplo disso
é o Pfinder (Wren, et al., 1997) já citado anteriormente nessa seção. O Pfinder utiliza o
espaço YUV que da mesma forma que o HSV realiza a separação da intensidade (“Y”)
da cromacidade (“UV”), mas o subespaço “UV” é baseado numa combinação linear do
espaço RGB e não é tão intuitivo como o “HS”. Por todos esses motivos apresentados, o
espaço HSV é o espaço de cor mais popular utilizado nos algoritmos de subtração de
fundo da literatura. Exemplos disso são: Zhao (Zhao, et al.), François (François, et al.) e
Indupalli (Indupalli, et al., 2006).
O algoritmo desenvolvido no presente trabalho possui quatro etapas bem
definidas: treinamento, classificação e atualização.
A primeira fase do algoritmo é a de treinamento. Seu objetivo é realizar a
estimativa inicial do modelo de fundo. Essa etapa pode ter duração de 100 a 200
quadros em seqüência de um trecho qualquer do vídeo. Para todos os pixels de cada
19
quadro desse trecho é realizado o filtro da mediana (Massey, et al.) da mesma maneira
que o W4 de Haritaoglu sugere. O filtro da mediana serve para criar uma estimativa
inicial de quais pixels possuem comportamento estacionário e quais são dinâmicos. A
equação 1 demonstra esse filtro onde Iz(x) é a intensidade do pixel x em um quadro z
qualquer, λ(x) é a mediana e σ(x) é o desvio padrão do pixel x em todos os quadros do
treinamento. Apenas os pixels que satisfazem essa equação são utilizados de fato na
montagem do representante do modelo de fundo. Todo esse cálculo do modelo de fundo
deve ser feito para cada canal H, S e V individualmente.
(1)
É válido ressaltar que para os valores de H a média tradicional não vale, pois os
valores se encontram ao longo de uma circunferência. Funções trigonométricas se fazem
necessárias para calcular corretamente a média, a mediana e o desvio padrão.
Assim, cada pixel filtrado é modelado através do vetor B(x) da equação 2, onde
para cada pixel x, m(x) é o maior valor do pixel x, n(x) é o menor valor, d(x) é a maior
diferença entre dois quadros consecutivos e f(x) é o valor mais freqüente na fase de
treinamento.
(2)
Como dito anteriormente, o treinamento tem como objetivo criar um representante
para o modelo de fundo, representado por B(x) da equação 2. Considerando a aplicação
do presente trabalho, esse representante deve ser composto apenas pela rodovia e os
elementos ao seu redor e não pelos carros em movimento. Porém, existem casos em que
essa tarefa pode se tornar muito complicada, pois durante todo o treinamento, a pista
permanece lotada de veículos passando. Dessa maneira, os valores mínimos e máximos
de cada pixel poderão se tornar bastante ruidosos. Para isso, após o cálculo de B(x), os
20
valores de m(x) e n(x) poderão sofrer alterações, segundo a equação 3, onde α vale 10%
do valor de f(x).
Se,
Então, (3)
Esta equação admite que todos os pixels da imagem devem ser temporalmente
coerentes ao longo de todo o vídeo. Como d(x) é a maior diferença entre dois quadros
consecutivos, quando esse valor for muito maior do que o desvio padrão nesse pixel,
sua informação será considerada ruidosa e os valores máximos e mínimos naquele pixel
serão corrigidos para uma estimativa utilizando o seu valor mais freqüente, conforme
demonstrado na equação 3.
Assim, a fase de treinamento chega ao seu fim com toda a informação do modelo
de fundo B(x) já calculada, conforme a equação 4.
(4)
A fase de classificação do algoritmo utiliza o modelo de fundo para decidir quais
pixels fazem parte aos objetos em movimento e quais fazem parte do fundo. Essa etapa
é representada pela Figura 3. Nela está representado o cone do espaço HSV, e a partir
dos limites m(x) e n(x), calculados no treinamento, é possível segmentar um volume.
Então, para cada novo pixel da seqüência de vídeo, este é classificado como fundo se
estiver dentro do volume, caso contrário é classificado como objeto em movimento.
21
Figura 3: Modelo da fase de classificação do algoritmo proposto.
A representação do modelo de classificação ganhou esta aparência geométrica na
tentativa de realizar uma melhor atualização do modelo de fundo e de remover sombras
e especulares com mais facilidade (ver Capítulo 4).
Por fim, a fase de atualização do modelo de fundo do algoritmo tem como
objetivo manter o modelo atualizado segundo as mudanças caracterizadas pela
iluminação. Considerando a atual aplicação, a única fonte de luz é a do sol, pois o
algoritmo não leva em consideração vídeos noturnos e nem de ambientes internos, onde,
em ambos os casos, as fontes de luz são artificiais. Sendo assim, as mudanças de
iluminação são devido a mudanças climáticas. A Figura 4 exemplifica essa situação.
Nela, o lado esquerdo (a) possui regiões mais escuras do que o lado direito (b). Nesse
22
caso, pode-se observar que a tonalidade (H) de cada pixel se mantém semelhante nas
duas imagens, a saturação (S) é muito semelhante, variando em 20% no máximo, na
maioria dos casos. Já o brilho (V) aumenta razoavelmente da figura (a) para a (b).
(a) (b)
Este resultado já era esperado, considerando a afirmação feita anteriormente na
seção em que H e S controlam a tonalidade e V a intensidade. Outra importante
informação observada é que os veículos jamais ficam estacionários ou mudam de
sentido na pista. Essa característica leva à conclusão de que um pixel, ao permanecer
por muito tempo classificado como em movimento, tenha sofrido influência da
mudança de iluminação.
Com base nessas informações, o modelo de atualização cria e gerencia mapas de
mudanças. Existem três mapas para acompanhar essas mudanças. A cada n quadros
conta-se quantas vezes o mesmo pixel x esteve classificado como:
• Fundo e dentro do volume de classificação (mapa A);
• Fundo e fora do volume de classificação (mapa B);
• Em movimento e fora do volume de classificação (mapa C);
Para cada mapa é armazenada, além dos valores máximo n(x) e mínimo m(x) para
cada pixel, a média dos valores para cada canal HSV da imagem, com objetivo de
Figura 4: Exemplo de mudança de iluminação.
23
auxiliar na atualização do modelo de fundo. Após os n quadros, se algum desses mapas
estiver presente 80% do tempo, dependendo do caso, podem ou não ocasionar
mudanças no modelo de fundo.
Se o mapa A for o vitorioso, significa que o modelo de fundo utilizado no
momento está correto e não deve ser atualizado.
Se o mapa B for o vitorioso, significa que o modelo de fundo utilizado tenha,
possivelmente, sofrido mudanças de iluminação e deve ser modificado. Caso o valor
médio dos canais H e S forem similares a uma taxa máxima de 10% de erro, os valores
m(x) e n(x) do modelo atual ganham os valores armazenados pelo mapa B para todos os
canais, caso contrário, o modelo deve ser treinado novamente.
Se o mapa C for o vitorioso, significa que durante os n quadros a cena foi bastante
movimentada ou sofreu erros devido à mudança de iluminação. Nesse caso, o modelo
também deve ser treinado novamente.
24
2.4 Pós-Processamento
Com o intuito de definir melhor o formato dos blobs encontrados pela subtração
de fundo é realizada uma etapa de pós-processamento. Essa etapa é composta por uma
sequência de algoritmos clássicos:
• Aplicação de filtros morfológicos;
• Aplicação de filtros de suavização;
• Detecção de silhuetas ou contornos;
• Suavização das silhuetas ou contornos;
A primeira parte do pós-processamento é composta pelos filtros morfológicos.
Eles têm como objetivo corrigir a imagem binária do objeto segmentado, eliminando
regiões de poucos pixels e preenchendo buracos de regiões bem definidas, podendo
assim remover ruídos e melhor a qualidade da segmentação da imagem (Referencia
XXX).
As duas operação mais básicas da morfologia matemática é erosão (Eq. XX) e a
dilatação (Eq. XX). Ambos os operadores recebem duas entradas: a imagem para sofrer
erosão ou dilatação chamado de A, e o elemento estrutural de B.
Onde d é o offset do elemento estrututal. A morfologia binária pode ser
considerada um caso especial da morfologia em nível de tons de cinza, onde a luz
possui dois valores. Para uma imagem em tons de cinza, elementos estruturais podem
ser aplicados diretamente em valores da intensidade do pixel. Para a imagem binária, fij
= 1 é usualmente usado para representar a parte em movimento, enquanto fij = 0 para o
plano de fundo. Elementos morfológicos estruturais podem ser definidos
25
arbritariamente e serem considerados um conjunto de coordenadas. Tipicamente, o
ponto é centrado na origem.
Operadores de morfologia de ersosão e dilatação funcionam através da aplicação
de elementos estruturais, B, para todos os pontos da imagem de entrada, A, onde fij = 1,
e examinar interseções entre as coordenadas do ponto translatado B e os de coordenadas
A. Por exemplo, no caso da morfologia de dilatação o resultado da imagem será
resultado de um novo conjunto de pixels da união de elementos estruturais e da imagem
de entrada.
Com intuito de suavizar ainda mais o resultado dos filtros morfológicos, a
segunda etapa do pós-processamento, é a aplicação sobre a imagem, de tradicionais
filtros de suavização: o filtro da mediana e o filtro gaussiano.
COLOCAR FIGURA dos filtros
A detecção da silhueta é a responsável de localizar na imagem binária fornecida
pela subtração de fundo a representação matemática dos contornos dos objetos. O
resultado dessa etapa pode ser considerado um reconhecimento dado que essa etapa já
identifica o que seria um objeto e qual seria a região a que ele representa. O algoritmo
utilizado para realizar esta etapa é o chamado Teh Chin (XX). Esse algoritmo de
aproximação poligonal proposto por C. H. Teh realiza várias passadas através da curva
e elimina alguns pontos em cada uma destas. Primeiramente, todos os pontos de
curvatura zero são removidos. Para todos os pontos de parâmetro M, é calculado junto
ao ângulo de curvatura . Em seguida o algoritmo realiza uma supressão não-máxima
excluindo pontos, cuja curvatura satisfaz a condição prévia em que para , a métrica
H1 é estabelecida a M1. Finalmente, o algoritmo substitui grupos de dois pontos
remanescentes sucessivos com um único ponto e grupos de três ou mais pontos
sucessivos com um par do primeiro e último.
26
A última etapa do pós-processamento é a simplificação dos contornos encontrados
pelo algoritmo anterior. No presente trabalho foi utilizado o algoritmo de Douglas-
Peucker (xx) que é capaz de realizar a simplificação poligonal da silhueta mantendo
com extrema perfeição o formato original do contorno do objeto. Através desse
algoritmo foi capaz de reduzir bastante o custo computacional das etapas seguintes.
[1973] Douglas, D. H.; Peucker, T. K. Algorithms for the reduction of the
number of points required to represent a digitized line or its caricature.
The Canadian Cartographer, Vol. 10, No. 2.
27
2.5 Resultados parciais
Os resultados obtidos para o algoritmo de subtração de fundo obtido nesse
capítulo foram dividos em duas categorias: o resultado da segmentação propriamente
dita e o pela atualização do modelo de fundo.
Nesta fase de resultados é introduzido o conceito de “cenário” que é utilizado em
ambas categorias. Cada cenário, no caso deste capítulo, é composto de um vídeo
original com quadros sequenciais e um outro com a “segmentação perfeita” dos objetos
em movimento do plano de fundo deste vídeo original. Esta “segmentação perfeita” é
obtida através da separação manual em programas de edição de imagem de cada vídeo
que pertecence ao cenário escolhido, na literatura são conhecidos como vídeos “ground-
truth”. Cada vídeo de “ground-truth” possui 150 quadros.
A tarefa de gerar esses vídeos “ground-truth” foi uma tarefa extremamente árdua
e trabalhosa de fazer. Existem pesquisas para buscar alternativas de facilitar essa tarefa,
uma delas seria utlizar vídeos sintéticos simulando os problemas da vida real. Porém
nenhuma delas foi adotada neste trabalho.
Foram escolhidos quatro cenários para a primeira abordagem e dois para a
segunda. Todos os vídeos desses cenários foram gravados durante a fase diurna do dia e
a partir de uma câmera estática localizada em rodovias. Eles possuem a resolução
320x240 e possuem compactação MPEG, o que leva a eventuais artefatos na imagem
que podem prejudicar a segmentação. Esses cenários estão ilustrados na figura XXX.
[ Figura dos cenários ]
Vale a pena lembrar que no caso dos cenários da abordagem de atualização do
modelo de fundo, foram criados apenas casos em que ocorrem mudanças na iluminação.
28
Para todos os outros casos que geram mudanças nos parâmetros da subtração de fundo
foram ignorados, conforme explicado anteriormente em seu algoritmo.
A primeira categoria de resultados, gerados pela subtração de fundo, é
apresentado na seção seguinte e a seguir os da atualização.
29
2.5.1 Resultados da segmentação de fundo
Para analisar algoritmo desenvolvido foram considerados dois quesitos:
qualidade da segmentação e a complexidade computacional. Nesta seção é realizada
uma comparação do algoritmo proposto com outros populares da literatura. São eles W4
de Haritaoglu (Haritaoglu, et al., 2000), Bowden (Bowden, et al., 2001), Rosin (Rosin,
1998) e Li (Li, et al., 2003).
O primeiro quesito é a qualidade da segmentação, ela é de fundamental
importância para uma avaliação objetiva do resultado. Para esta tarefa são utilizadas
medidas baseadas no “ground-truth” do vídeo de cada cenário criado. Embora algumas
medids perceptuais existam, são utilizadas apenas medidas baseadas em precisão de
pixel bem-conhecidas.
Enquanto os verdadeiros-positivos (VP) fornecem o número de pixels dos objetos
em movimendo corretamente detectados, os verdadeiros-negativos (VN) fornecem o
número de pixels do plano de fundo corretamente identificados.
Por outro lado, os falsos-negativos (FN) são os pixels que foram detectados
erradamente como fundo, e os falsos-positivos (FP) são àqueles que foram detectados
erradamente como movimento.
A Figura 5 ilustra a relação desses parâmetros juntamente com as cores
selecionadas para a representação dos mesmos no resultado.
Figura 5: Parâmetros estatísticos para availação da subtração de fundo.
30
Com base nesses parâmetros, diferentes medidas de avaliação podem ser
definidas:
1. A razão do VP é dada por:
2. A razão do VN é dada por:
3. A razão do FP é dada por:
4. A razão do FP é dada por:
Enquanto as medidas mencionadas acima podem ser utilizadas para qualquer tipo
de classificação, as medidas típicas para problemas clássicos são:
1. A razão entre o número de de pixels corretamente detectados e o número
de pixels relevantes no “ground-truth” é dada por:
2. A razão entre o número de de pixels corretamente detectados e o número
total de pixels é definido como:
31
3. A medida F combina essas duas razões com pesos iguais quando
calculado. Essa proporção é dada por:
Outro quesito importante para a avaliação dos algoritmos é a qualidade subjetiva.
A partir do momento que as medidas da qualidade objetiva não são muito sofisticadas, a
avaliaç ão da qualidade subjetiva realizada por observadores humanos é inevitável. Isto
permite uma análise futura futura dos erros dos diferentes métodos de segmentação.
Com base nos dados do “ground-truth”, cada pixel é classificado como VP, VN, FN ou
FP e codificados por uma cor específica como ilustrado na Figura 5.
A tabela abaixo ilustra os resultado médio obtido de todos os quatro cenários
especificados anteriormente. para cada algoritmo em relação a cada um destes critérios.
Algoritmo VP VN FP FN R P F
Rosin 52 99 1 48 68 52 57
Li 60 99 1 40 60 60 64
Bowden 64 98 2 36 65 64 63
W4 73 99 1 27 70 73 75
Algoritmo proposto 89 99 1 11 78 89 82
32
[Figuras de resultados]
[Análise dos resultados por algoritmo]
Foram realizados também testes comparativos entre o resultados da subtração de
fundo com vídeos com compactação e sem compactação. Neste caso as diferenças
encontradas foram muito pequenas. Essas diferenças passam a ser impercaptíveis após a
etapa de pós-processamento descrita anteriormente neste capítulo.
O segundo e último quesito é a complexidade computacional dos algoritmos
escolhidos. Essa informação tem extrema importância para as aplicações que busquem
uma performance em tempo real, tal fato que se deseja obter nesta dissertação.
33
A complexidade computacional pode ser dividida em duas partes: consumo de
tempo e memória. Para uma certa extensão eles são mutáveis entre si. Estruturas de
dados sofisticadas podem ser utilizadas para aumentar a velocidade dentro de um custo
maior de memória. Por outro lado, o custo de mémoria pode ser reduzido pelo uso das
funções do acesso de dados elaborados, que quase sempre efetuam a velocidade.
[ Dados da máquina ]
34
2.5.2 Resultados da atualização do modelo de fundo
A análise dos resultados encontrados dos cenários de atualização de fundo
mantém o mesmo critério definido pela seç ão anterior e foi comparado com os mesmos
algoritmos da literatura.
Continuar...
35
2.6 Considerações Finais do Capítulo
A abordagem utilizada para realizar a detecção de movimento no vídeo de
rodovias foi a subtração de fundo. Como visto neste capítulo, atualmente não existe um
algoritmo de subtração de fundo capaz de realizar com eficiência o que ele se propõe a
fazer para qualquer ambiente ou para qualquer condição de iluminação dado a alta
complexidade dos cenários reais. O que os pesquisadores se limitam a fazer é
desenvolver seus algoritmos restritos a sub-problemas deste problema maior que é a
subtração de fundo genérica. Seguindo essa regra o algoritmo desenvolvido lida com
ambientes externos, com cenário de rodovias e somente com cenas diurnas com
presença de sombras ou não.
O algoritmo de subtração de fundo desenvolvido é capaz de separar os veículos
em movimento do restante estático da cena. Este algoritmo utilizou o espaço HSV de
cores como ferramenta de trabalho devido as características mais estáveis que o
tradicional espaço RGB. Através de mapas de atualização foi possível também tornar o
sistema inteligente o suficiente a de se adaptar de enventuais mudanças de iluminação
ocorridas ao longo da cena.
Outro fato consumado no capítulo é que silhueta ganhou sua importância
fundamental no sistema dado que a subtração de fundo sozinha não classifica as regiões
em movimento como objetos. Assim, é realizado no final do processo um pós
processamento com etapas de filtros mórfológicos e de suavização com objeto de
melhorar o resultado da segmentação e uma etapa de detecção e suavização de silhuetas
de cada veículo encontrado pela subtração de fundo.
Em linhas breves, esse capítulo é responsável por uma etapa fundamental do
sistema, encontrar na imagem original de entrada uma primeira representação do que
seria um veículo em movimento na cena. Os resultados obtidos da subtração de fundo
comparados com outros algoritmos clássicos da literatura e os resultados “ground-truth”
são apresentados no último capítulo desta dissertação.
36
3 Modelagem de Veículos
A modelagem dos objetos em movimento é de fundamental importância para
melhor caracterizar a morfologia destes e disponibilizar mais informações para a
aplicação em que atuam.
Somente a silhueta do veículo não propicia uma boa modelagem do formato do
objeto, pois esta não fornece nenhuma noção de perspectiva ou volume, levando a
interpretações equivocadas da morfologia do veículo agravando-se devido a sombras e
oclusões.
Uma modelagem mais inteligente, além de auxiliar na resolução desses
problemas, ajudaria o sistema a realizar com mais facilidade as etapas posteriores.
Inicialmente, neste capítulo, é feito um levantamento dos trabalhos da literatura e
uma comparação das modelagens propostas pelos autores. A seguir, apresenta-se o
modelo desenvolvido neste trabalho juntamente com uma descrição detalhada de suas
etapas. Finalmente, é feita uma análise crítica do modelo listando as suas vantagens e
desvantagens em relação à aplicação de interesse.
37
3.1 Trabalhos Relacionados
A maioria dos trabalhos encontrados na literatura utilizam somente a silhueta para
representar os veículos em seus algoritmos. Haritaoglu (Haritaoglu, et al., 2000) e
Cucchiara (Cucchiara, et al., 1996) são alguns exemplos de trabalhos que utilizam a
silhueta para modelar seus objetos de interesse, sejam estes pessoas ou objetos.
A silhueta é uma boa estimativa inicial para representar a morfologia do objeto de
interesse, porém, conforme exposto anteriormente ela não representa toda a geometria
do objeto. Além disso, ela poderá conter graves erros em seu formato devido a
recorrentes problemas como má detecção da Subtração de Fundo, sombras e oclusão.
Tais erros somente podem ser removidos com algoritmos específicos utilizando-se
outras informações que a silhueta não fornece.
Uma das maiores dificuldades de utilizar a silhueta em algoritmos de rastreamento
de veículos é a deformação do contorno devido à transformação da perspectiva. Na
tentativa de amenizar esse problema, Terzopoulos (Terzopoulos, et al., 1992) e Zhong
(Zhong, et al., 2000) geraram pequenas mudanças no formato da silhueta ao longo de
quadros consecutivos. Entretanto, esses algoritmos gastam um enorme esforço para
garantir a coerência do contorno entre quadros consecutivos que acabam permitindo
transformações inválidas que levaram a formatos incoerentes dos veículos.
Um algoritmo alternativo proposto por Freedman (Friedman, et al., 1997) e Giebel
(Giebel, et al., 2004) foi de extrair o espaço de formatos de um contorno de um
treinamento prévio e capturar as suas transições através do aprendizado. Esse tipo de
algoritmo requer extensivos treinamentos de uma cena particular e envolve complicadas
transformações, devido ao fato de sua representação utilizar o espaço .
Independente da aplicação de visão computacional, fez-se necessário uma
modelagem focada no problema que se deseja resolver. O que foi não foi fixo nos
algoritmos anteriores citados acima. Na área de vigilância eletrônica para rodovias os
algoritmos de modelagem procuraram criar uma representação mais próxima da
38
realidade do veículo. A Figura 6 representa alguns modelos de veículos em quatro
trabalhos diferentes.
Figura 6: Diversas modelagens propostas pela literatura.
O primeiro deles é a modelagem proposta por Ma (Ma, et al., 2005) representada
na Figura 6 (a) utiliza características de arestas para auxiliar o rastreamento de veículos
através de famosos algoritmos como o SHIFT.
Leotta (Leotta, et al., 2006) desenvolveu um modelo veicular ilustrado pela Figura
6 (b). Este modelo é a representação de uma malha tridimensional de automóveis que
auxilia o autor, juntamente com o modelo de iluminação e uma projeção da imagem
para realizar um treinamento. Este tem o propósito de segmentar imagens em relação a
algumas classes de veículos, sombras e plano de fundo. Na mesma linha de modelo, Tan
(Tan, et al., 2000) propôs um algoritmo eficiente que utiliza modelos tridimensionais
para estimar a morfologia de veículos de diferentes poses e localizá-los nas imagens.
39
Para recuperar a pose tridimensional de uma imagem, Tan requer informações sobre o
plano da estrada não permitindo, desta forma, rodovias com curvas.
Rother (Rother, et al., 2000) propõe um modelo chamado “Plate-Model”
ilustrado na Figura 6 (c). Este modelo une a real representação do veículo com sua
sombra no plano da rodovia, desde que o tipo de veículo e o modelo de iluminação
sejam conhecidos.
Por fim, representado pela Figura 6 (d), foi desenvolvido pelo pesquisador Wai-
Sing (Wai-Sing, et al.). Ele propôs um modelo baseado na simplificação de um cubóide
3D para um modelo 2D. Essencialmente, cada contorno pertencente a este modelo é
parametrizado para acomodar todas as classes de veículos, integrando a representação
com informações de cor e da detecção de movimento. Nesta mesma linha de
modelagem, Yoneyama (Yoneyama, et al., 2005) propõe uma representação
bidimensional do veículo utilizando apenas seis pontos que ligados formam a mesma
simplificação do cubóide utilizado por Wai-Sing. Yoneyama utiliza essa representação
para remover sombras, oclusão e detecções à noite. Neste trabalho foi utilizada uma
modelagem similar à desenvolvida pelo pesquisador.
Justificativa....
40
3.2 Modelo Proposto
Como exposto no capítulo anterior, foi encontrada a silhueta dos veículos em
movimento no vídeo, sendo possível se ter uma primeira idéia do que poderia ser um
objeto na cena. Por esse motivo, a silhueta ganhou sua importância tendo em vista que a
Subtração de Fundo sozinha não classifica as regiões em movimento como objetos,
conforme exposto no capítulo 2. Além disso, a silhueta, através de seu baricentro,
realiza uma primeira estimativa da posição do veículo em relação à imagem.
Todavia, como fora explicitado na descrição introdutória, a silhueta não ilustra a
devida morfologia do veículo. Esta omite importantes informações como dimensões,
volume e perspectiva, dados que poderiam ser bastante úteis em etapas posteriores,
como por exemplo, o rastreamento, detecção da velocidade e da classificação dos
veículos de interesse.
Apesar disso, a silhueta é, ainda, mais comumente utilizada nos algoritmos da
literatura devido a sua maior simplicidade de representação, manipulação e baixo custo
computacional em relação a modelagens mais complexas.
Ademais, dada esta simplicidade, a silhueta acaba por não fornecer nenhuma
ferramenta para auxiliar nos tradicionais problemas anteriormente referidos da atual
aplicação. Pensando nisso, foi preciso ser desenvolvida uma modelagem que pudesse
fornecer mais informações e que se aproxime mais da realidade da morfologia de cada
veículo de interesse.
O objetivo da modelagem proposta é justamente encontrar uma forma mais
inteligente de representar os veículos e que possa resolver estes problemas comuns
citados e, por fim, auxiliar nas etapas seguintes do sistema. Esta modelagem utilizará
como base a própria silhueta, aperfeiçoada para a realização de uma mais sofisticada.
A idéia inicial da modelagem empregada é de encontrar um volume envolvente no
veículo de interesse. Esse volume assume um formato de um cubóide, onde a altura,
comprimento e largura são definidos de acordo com os valores máximos de cada uma
41
dessas dimensões encontradas. Esse formato foi selecionado dentre outros possíveis
devido a sua grande semelhança com a morfologia do veículo, além da simplicidade
matemática.
Nesta dissertação, este volume que representa os veículos é chamado de
“Representação Tridimensional Veicular”, ou simplesmente RTV. A Figura 7
exemplifica o formato do RTV que se deseja encontrar.
Figura 7: Representação Tridimensional Veicular (RTV).
O RTV fornece ao sistema as dimensões, o volume e a posição em relação à pista.
Para encontrar o RTV de cada veículo é preciso coletar algumas informações
geométricas da rodovia e do veículo levando o algoritmo a ser dividido nas seguintes
etapas:
1. Detectar cada faixa da rodovia e classificá-las como pistas numeradas.
2. Identificar de qual pista cada veículo da imagem de entrada faz parte e
remover aqueles que não fizerem.
3. Calcular a Bounding-Box de cada silhueta contida na pista de interesse.
4. Utilizar a silhueta e o Bounding-Box de cada veículo para calcular o
MSPA (Modelo com Seis Pontos de Articulação).
5. Encontrar o RTV.
42
Todas essas etapas e siglas citadas acima estão descritas detalhadamente nos
próximos parágrafos desta seção.
A primeira etapa do algoritmo do RTV é a detecção das faixas e identificação das
pistas da rodovia com uma classificação numeral, como mostra a Figura 8 ao lado
direito.
Figura 8: Imagem real da rodovia e sua respectiva detecção de faixas e identificação das suas pistas.
A Figura 8 representa três típicas cenas de câmeras de vigilância em Seattle nos
EUA. Esta foi retirada do trabalho de Schoepflin (Schoepflin, et al., 2003) e exemplifica
43
com exatidão o resultado que se deseja obter nessa primeira etapa da modelagem: o
posicionamento da rodovia em relação à câmera.
Na imagem (a) da Figura 8 exibe do lado esquerdo a cena real capturada do vídeo
e do lado direito a delimitação da rodovia (representada pelas linhas vermelhas
contínuas), a marcação de cada faixa (representada pelas linhas pontilhadas em cinza) e
pela identificação de cada pista (representada pelos números em preto). O mesmo vale
para todos os outros pares de imagens.
É importante ressaltar que, nos três casos da Figura 8, as pistas e faixas de
interesse são bem definidas e tudo que está fora delas é ignorado em qualquer nova
detecção do sistema, poupando processamentos desnecessários.
Na literatura existem alguns algoritmos para encontrar automaticamente as linhas
que compõem a rodovia. Em destaque o algoritmo de Schoepflin (Schoepflin, et al.,
2003), que realiza uma análise completa de cenas de rodovias. Esta analise utiliza
mapas de atividade compostos da média da diferença entre quadros e sua análise gráfica
para definir a geometria das pistas. (explicar!)
Outros algoritmos não detectam exatamente as faixas, porém realizam uma
segmentação da região da pista como: Chung (Chung, et al., 2002) através da lógica
Fuzzy, Jeon (Jeon, et al., 2002) que utiliza algoritmos genéticos e Dell’Acqua
(Dell'Acqua, et al.) com métodos de clusterização e redes neurais.
Nesta dissertação, foram realizados testes para também encontrar
automaticamente as linhas da rodovia. Este processo é composto em estatísticas sobre o
espaço HSV e RGB, filtros morfológicos, transformada de Hough, filtro de Sobel e
detecção de linhas baseada em uma árvore de interpretação segundo Szenberg
(Szemberg, et al., 2001) propõe. Este algoritmo foi testado, primeiramente, para detectar
automaticamente as linhas de um campo de futebol, segundo a Figura 9.
44
Apesar dos bons resultados encontrados no método automático de detecção de
linhas para o campo de futebol, foi decidido não realizar os testes para a rodovia e
incorporam no sistema deste trabalho somente o modo manual. Esta decisão foi tomada
devido a algumas considerações:
1. Muitos vídeos da base de teses estão com as suas linhas desgastadas, tal
fato que dificulta bastante a sua detecção.
2. Essa etapa é a base de todas as outras que estão a seguir, devido a isso
qualquer falha na detecção de linhas pode acarretar graves problemas em
todo o sistema. Nenhum modo automático pode garantir resultados
perfeitos para todos os casos.
3. Todos os algoritmos encontrados na literatura e o algoritmo proposto
para detectar as linhas são computacionalmente caros, tal fato que
também levou à necessidade de um modelo manual para que o sistema
ainda pudesse se comprometer com o desempenho em tempo real.
4. Outra característica, já não tão importante, é a baixa qualidade de alguns
vídeos de entrada, podendo levar à má classificação dos algoritmos
classificadores.
O modo manual do presente sistema funciona da seguinte maneira: o usuário deve
fornecer as coordenadas inicial e final de cada linha e as identificar em relação a qual
faixa elas pertencem.
Figura 9: Etapas do algoritmo automático de detecção de linhas de um campo de futebol.
45
Para fins de ilustração, um sistema da literatura que também utiliza a detecção
manual é o “Speed Trap” de Burns (Burns, et al.). Esta detecção é realizada através da
seleção de um quadrilátero na janela de trabalho, onde o usuário deverá marcar o início
e o final de uma linha pontilhada.
Para manter a corretude da detecção das linhas, foram feitas algumas
considerações:
1. A rodovia de interesse deve ser aproximadamente plana e ocupar ao
menos um terço da imagem capturada pelo vídeo.
2. Os limites paralelos de cada faixa devem ser visíveis e facilmente
extraídos da imagem.
3. O ângulo α formado entre a reta do eixo central da rodovia e a reta
paralela ao eixo x, conforme ilustrado na na Figura 8, deve estar entre 30
e 150 graus. A Figura 8(a) exibe um caso real onde α vale
aproximadamente 135 graus, a Figura 8(b) 50 graus e a Figura 8(c) 85
graus.
4. Os veículos das pistas selecionadas devem se movimentar ao longo do
mesmo sentido, o que facilita o rastreamento na etapa seguinte.
5. As faixas não necessariamente deverão existir de verdade no vídeo, desde
que sejam marcadas virtualmente.
6. É desejável que a câmera capture a rodovia com maior alcance possível
da vista, de tal maneira que se possa extrair com facilidade o
comportamento dos veículos, principalmente em relação à mudança de
faixas.
Uma vez que todas as pistas de interesse estão detectadas e classificadas
corretamente, é possível identificar à qual pista cada veículo do vídeo faz parte e
remover aqueles que não estiverem em nenhuma dessas pistas nos processamentos
futuros.
Para a realização desta tarefa é utilizado um algoritmo para verificar se um ponto
está dentro ou fora de um polígono qualquer. Cada pista de interesse é transformada em
um quadrilátero utilizando-se as duas faixas paralelas da pista, juntamente às retas
paralelas do eixo x da imagem.
46
Com fins de exemplificar a montagem dos polígonos das pistas, a Figura 10
ilustra uma rodovia com duas pistas. Uma delas representada pelo número um e com
seu quadrilátero da cor vermelha e a outra representada pelo número dois e com seu
quadrilátero da cor azul.
Figura 10: Exemplo de polígonos gerados através das pistas da rodovia.
De posse dos polígonos de cada pista, o algoritmo é utilizado para verificar em
qual destes se encontra cada ponto que compõe a silhueta. Então, o veículo será
identificado de acordo com a pista que contiver a maioria dos pontos da silhueta.
Porém, se a maioria não estiver em nenhuma das pistas, o veículo será descartado e
eliminado das futuras detecções.
A terceira etapa da modelagem é encontrar para cada silhueta pertencente a uma
das pistas de interesse a sua caixa envolvente ou o “Bounding-Box”. Para isso, é preciso
somente percorrer todos os pontos da silhueta e buscar os menores e maiores valores em
x e y. A Figura 11 ilustra a caixa envolvente de uma silhueta de um veículo no plano
2D.
47
Figura 11: Representação de um Bounding-Box de uma silhueta.
A etapa seguinte tem como objetivo encontrar o modelo de seis pontos de
articulação ou simplesmente MSPA. Este modelo é a base final para calcular a caixa
envolvente tridimensional chamada neste trabalho de RTV.
Para encontrar o MSPA é preciso primeiramente considerar um modelo M de um
cubóide simplificado no espaço tridimensional o qual é composto de altura (h) , largura
(w) e comprimento (l) conforme ilustrado na Figura 12 (a). Este modelo M é
transformado em outro modelo M’ no plano da imagem 2D. A Figura 12 (b) ilustra o
resultado desta transformação. Este modelo M’ já é a representação do formato final, o
MSPA, e conforme o próprio nome diz, este modelo possui seis vértices orientados no
plano 2D, logo:
(X)
48
Para certas posições da câmera este modelo no plano 2D da imagem pode ser
aproximado utilizando-se as seguintes considerações:
(X)
Utilizando-se essas considerações, a montagem do MSPA pode ser realizada da
seguinte forma:
1. O ponto P1 tem mesma coordenada (x, y) do ponto B1 do Bounding-Box.
2. V2 é o ponto pertencente à silhueta que é mais próximo da faixa 2 da
pista contida pelo veículo. Rp2 é a reta paralela a da faixa 2 que contém
esse ponto V2, segundo ilustra a Figura 13. Assim, P2 é obtido através da
interseção da reta do Bounding-Box com a esta reta Rp2.
3. P3 é obtido através da interseção de com Rp2.
Figura 12: Modelo simplificado do veículo no espaço 3D (a) e o 2D (b).
49
4. O ponto P4, da mesma maneira que o primeiro ponto, é obtido através da
cópia da coordenada (x, y) do ponto B4 do Bounding-Box.
5. P5 é obtido através da interseção de com Rp2.
6. Da mesma maneira que Rp2, a reta Rp1 é a reta que contém V1 paralela a
faixa 1. P0 é obtido pela interseção de Rp1 com .
Figura 13: Representação do MSPA.
Após a determinação do MSPA a modelagem final pode ser finalmente
encontrada. Para isso, é necessário traçar uma reta da mesma proporção de S0 em P2, de
S4 em P0, S5 em P4.
Assim, é possível que se obtenha informações extras sobre o veículo, além da sua
pista de localização, sua altura, largura e comprimento. É possível, também, determinar
o seu ponto de fuga Pf, segundo a Figura 12 (b), utilizando a interseção das retas S2 e S5.
50
3.3 Resultados parciais
Encontrar uma maneira de medir a qualidade do resultado gerado pelo algoritmo
deste capítulo não foi uma tarefa simples. ...
51
3.4 Considerações Finais do Capítulo
Neste capítulo é desenvolvida uma modelagem voltada para veículos. Utilizando
esta abordagem é importante para as próximas tarefas, principalmente na etapa de
remoção de sombra e oclusão, na determinação de velocidade e classificação.
Isto se deve ao fato de que a modelagem fornece importantes dados geométricos
do veículo (posição no espaço da pista, altura, largura e comprimento) e da rodovia
(coordenadas das faixas e identificação das pistas).
Esta modelagem é dependente da silhueta, pois tem o propósito de ser uma
evolução dela. Caso a silhueta contenha erros em seu formato devido a uma má
subtração de fundo, estes serão levados para a modelagem. Portanto, a precisão da
silhueta é de fundamental importância para a corretude do sistema como um todo. Dessa
mesma forma, a modelagem necessita ser precisa para que essas outras etapas
funcionem corretamente.
52
4 Remoção de Sombras
A detecção de sombras é uma das tarefa fundamental para se obter alguma
robustez em aplicações de visão computacional de um modo geral, principalmente na
área de vigilância eletrônica.
Isso se deve ao fato de que a sombra é freqüentemente extraída quando associada
ao objeto de interesse, podendo causar distorções em sua forma, união com outros
objetos distintos e até mesmo a perda destes. A Figura 14 ilustra justamente esse
problema, ela mostra o caso da detecção de movimento sem a remoção das sombras
(primeira imagem) e com a remoção das sombras (segunda imagem).
Figura 14: Resultado de deteção de movimento com e sem a remoção de sombras.
No caso da aplicação desta dissertação, vigilância eletrônica para estradas, as
sombras geradas por veículos em movimento podem ser segmentadas como parte
destes, fator que não só interfere no seu tamanho e forma, como também pode criar
oclusões sobre outros veículos.
A sombra também fornece ricas informações para a compreensão das
características de iluminação da cena, pois esta só ocorre quando um objeto oclui uma
luz.
53
Diversos algoritmos foram propostos na literatura para lidar com sombras, mas
ainda resta uma abordagem preparada para atuar em qualquer aplicação.
A próxima seção apresenta um breve resumo dos trabalhos existentes na área de
remoção de sombra. Em seguida é feito um levantamento das características da sombra
e da iluminação em uma cena e finalmente apresenta-se o modelo proposto para
remoção de sombras neste trabalho.
54
4.1 Trabalhos relacionados
Nesta seção apresentam-se algoritmos da literatura para a detecção e remoção de
sombras de uma seqüência de imagens capturadas por uma câmera estática.
Estes algoritmos foram classificados nas seguintes categorias: detecção de sombra
baseada em características de textura, estatísticas, de cor ou geométricas.
O princípio em que os algoritmos de detecção e remoção de sombra baseados em
características de textura se orientam é a textura dos objetos em movimento, diferente
do modelo de fundo, e a textura das regiões em sombra que se mantém igual a da
textura do modelo de fundo.
Um dos exemplos desta abordagem é o trabalho de Xu (Xu, et al., 2005). Seu
algoritmo, baseado somente em imagens de cenas em ambientes internos, realiza a
remoção de sombras através da integração da textura de múltiplos quadros. Outro
exemplo é o trabalho de McKenna (McKenna, et al., 2000). Ele admite que a sombra
projetada resulta em significativas mudanças na intensidade sem alterar muito a
cromacidade. Leone (Leone, et al., 2006) utiliza um sistema de dicionário chamado de
Matching Pursuit para discriminar as sombras dos objetos em movimento. Por fim,
Fung (Fung, et al., 2002) desenvolveu seu algoritmo voltado para veículos. Ele analisa
as características das sombras em relação à luminância, crominância, gradiente da
densidade, domínios geométricos e um mapa de probabilidade obtido através de uma
pontuação de confiança chamado de SCS (Shadow Confidence Score).
Para os algoritmos que seguem a abordagem estatística, pode-se citar Toth (Toth,
et al., 2004) que utiliza o algoritmo de Mean Shift para realizar uma clusterização não-
paramétrica utilizando dados classificados como “em movimento”, para assim agrupar
aqueles que possuam propriedades similares. Já Wang (Wang, et al., 2003) desenvolveu
um algoritmo capaz de remover sombras de imagens de ambientes internos. Para isso
ele modela o fundo, a sombra e as informações de aresta como uma distribuição
Gaussiana que é periodicamente atualizada. Martel-Brisson (Martel-Brisson, et al.,
2005) introduz um modelo de sombras de mistura de gaussianas (Gaussian mixture
55
shadow models, GMSM) com a habilidade de aprender a construir modelos estatísticos
para remover sombras projetas em superfícies.
Os algoritmos que utilizam características de cor descrevem mudanças no padrão
da cor nos pixels em sombra e buscam características destes que sejam invariantes à
iluminação. Esta abordagem é a mais popular entre os pesquisadores da área devido a
sua simplicidade e aos bons resultados para a detecção e remoção de sombras em
qualquer que seja a aplicação. Cucchiara (Cucchiara, et al., 1996) (Cucchiara, et al.,
2003) investiga as propriedades da sombra no espaço de cor HSV e Salvador (Salvador,
et al., 2004) propõe o espaço de cor RGB normalizado. Siala (XX) considera que a
mudança de intensidade de um pixel ocorre de maneira uniforme em todos os
componentes do espaço RGB. Horprasert (XX) projetou um modelo em que a
cromacidade é separada da intensidade a partir de suas distorções.
Por fim, existem também algoritmos que seguem uma abordagem geométrica.
Normalmente estes utilizam informações como a localização da câmera, a posição do
chão, geometria do objeto, entre outros.
Hsieh (XX) propôs um modelo gaussiano da sombra para detectá-las em
pedestres. Esse modelo é parametrizado com diversas características incluindo
orientação, intensidade média e a posição central da região da sombra. Um ano depois,
Hsieh, desenvolveu um método baseado em histogramas para detectar diferentes faixas
de rodovias e através destas eliminar as sombras. Yoneyama (Yoneyama, et al., 2005)
utiliza a modelagem de veículos similar à proposta no capítulo anterior e classifica as
regiões de sombra através da luminância.
De todas essas abordagens estudas através da literatura foi decidido que um
algoritmo que utilize a abordagem geométrica seria mais eficiente para remover as
sombras dos veículos de rodovias. Na próxima sessão serão apresentados argumentos
comparativos da abordagem escolhida com as outras. Pq foi decidido?
56
4.2 Características da sombra e iluminação
A sombra é uma região de escuridão gerada pela presença de um objeto opaco
localizado entre uma fonte de luz e esta região. A partir do ponto de vista do observador
a sombra pode ser dividida em estática ou dinâmica. A sombra estática é gerada por
objetos imóveis, enquanto a sombra dinâmica é gerada por objetos em movimento.
Tendo em vista a aplicação desta dissertação, a sombra estática gera poucos erros de
detecções do sistema, pois esta é naturalmente inserida ao modelo de fundo. Já a sombra
dinâmica, se não tratada, pode levar a erros como agrupamento e deformação de
objetos.
Outra característica importante da sombra é a maneira com que ela é projetada,
conforme definido em (Herodotou, et al., 1998). A sombra gerada por um objeto
qualquer pode ser projetada nele mesmo (conhecida na literatura como self-shadow) ou
em outro lugar / objeto qualquer (cast-shadow). Self-Shadow é a parte do objeto na qual
não é iluminada pela fonte de luz direta do ambiente, este tipo de sombra não atrapalha
o sistema, dado que ela está associada ao objeto. Cast-Shadow é a região projetada pelo
objeto na direção da fonte de luz direta. O objetivo desta seção é justamente
desenvolver um algoritmo capaz de detectar este tipo de sombra.
Através do ponto de vista geométrico, a sombra pode ser dividida em regiões
menores chamadas de umbra e penumbra (XX). A umbra corresponde à área onde a luz
é quase que totalmente bloqueada pelo objeto e a região de penumbra é onde essa luz é
parcialmente bloqueada.
A partir de uma imagem capturada pela câmera, a intensidade de um pixel P(x, y)
pode ser dada pela equação (XX) onde i(x, y) representa a componente de iluminação e
r(x, y) a refletância da superfície do objeto.
57
A componente de iluminação é computada através da quantidade de potência de
luz recebida pela área de superfície do objeto segundo a equação XX. (Stanler XX)
Nesta equação, representa a intensidade da luz ambiente e da fonte de luz, t
é a transição dentro da penumbra que é dependente da fonte de luz e da geometria da
cena, onde t deve estar entre 0 e 1, por fim, j é o ângulo da superfície com a fonte de
luz. A área iluminada é representada pela primeira parte da equação: , a
área de penumbra pela segunda parte: e por fim a umbra pela
última parte da equação: .
Neste trabalho, a umbra e a penumbra foram detectadas de forma unificada sem
esta separação, pois para o sistema não importa muito qual tipo de sombra foi detectada
dado que as duas atrapalham igualmente a detecção correta dos limites do veículo.
Na aplicação deste trabalho, os veículos são os responsáveis pela geração de
sombras no ambiente, pois conforme dito anteriormente, os outros objetos estáticos da
cena têm suas sombras inseridas ao modelo de fundo e não atrapalham as detecções de
etapas posteriores do sistema. Remover corretamente as sombras dos veículos não é
uma tarefa fácil. O algoritmo deve ser capaz de diferenciar em um grupo de pixels em
movimento os pertencentes ao veículo dos da sombra.
Conforme exposto na seção anterior, existem diversas abordagens para tratar a
sombra, uma delas seria utilizar características de cor de cada pixel da cena. Uma
primeira solução, utilizando esta abordagem, seria utilizar essas características baseadas
no espaço de cor HSV, dado que este espaço já é utilizado no algoritmo de Subtração de
Fundo apresentado no capítulo 2 deste trabalho. Inicalmente, durante o estudo apostou-
se muito nessa abordagem e foi reservado um grande esforço para que características do
58
espaço HSV fossem decisivas para o desenvolvimento do algoritmo final de remoção de
sombras.
A literatura é riquíssima em relação a estudos relacionados a remoção se sombras
com algoritmos baseados neste espaço de cor. Assim, foi possível enumerar algumas
características em que estes algoritmos se baseiam:
1. A sombra geralmente transforma a região em que ela está presente em tons
mais escuros, tal fato leva que cada pixel isolado desta região sofra
alterações em sua aparência (Baisheng, et al., 2004).
2. A razão entre os pixels quando iluminados e para os mesmos quando em
sombra é estritamente linear (Rosin, et al., 1995).
3. Nas regiões em sombra ocorre uma suave variação nos canais de saturação
(S) e tonalidade (H), e alta no canal de intensidade (V) em relação a imagem
original sem sombra.
4. No caso de um veículo ou outro objeto qualquer em movimento, ocorre
geralmente grande variação na saturação (S) e tonalidade (H) em relação a
imagem original de fundo.
Figura 15: Histogramas de quatro pixels de uma imagem qualquer para as
componentes H, S e V. (Zhao, et al.)
59
A partir daí foram realizados testes em imagens reais com sombra para observar
como cada componente do espaço HSV se comporta. A Figura 15 ilustra as
propriedades do H, S e V reespectivamente para quatro pixels de uma imagem real
qualquer com as coordenadas (100, 120), (100, 180), (200, 120) e (200, 180). Cada
figura das 12 ilustradas na Figura 15 representa um histograma ao longo de cem
quadros consecutivos de uma seqüência de vídeo estático sem a presença de objetos em
movimento. Cada linha da Figura 15 representa uma componente, exibida na ordem H,
S e V reespectivamente, e cada coluna representa um dos quatro pixels estudados.
Pode-se observar através da figura que a componente V é a mais estável durante o
período de modelagem. Tal característica se assemelha a uma distribuição normal com
um pequeno desvio padrão. H e S se mostraram menos estáveis que a componente V.
Eles variam bastante, são muito dependentes da localização e de condições do ambiente
em que o vídeo é capturado. Diferentemente de V, as componentes H e S não se
assemelham a uma distribuição normal e possuem um alto desvio padrão.
Após os obejtos em movimento entrarem na cena, as condições de iluminação
sofrem alterações. Essas mudanças podem ser pequenas a primeira vista do olho
humano, porém provocam mudanças para H, S e V em diferentes intensidades.
Assumindo o mesmo caso para o espaço de cor HSV um pixel qualquer sofreria essas
mudanças devido a iluminação no acrescimo constante de:
Conforme a transformação de espaços de RGB para HSV, V é igual ao máximo
de R, G e B. Logo, dado a essa dependência V é modificado na proporção de ,
conforme a equação XX.
60
A componente H é proporcional a (X - Y) / (Max - Min), onde X e Y são dois de
R, G e B, Max e Min são os máximos e mínimos de R, G e B. Portanto, H não será
alterado a partir de R, G e B.
Por fim, a componente S é igual a (Max - Min) / Max, ele é alterado em uma
proporção menor que , essa relação é representada pela equação XX.
Obviamente, o uso do espaço HSV apresenta vantagens e desvantagens. E esta
pesquisa levou a seguinte conclusão:
• H, S: A distribuição desses canais podem variar bastante. Eles não se
assemelham a uma distribuição normal e possuem um alto desvio padrão.
Porém, H não sofrem alterações em seu valor devido a iluminação e S
altera somente um pouco. Para os pixels com distribuição estável em H
e/ou S deve ser primeiramente considerado para a subtração de fundo.
Mas, primeiramente, deve-se ter certeza se eles são estáveis ou não. Se não
forem, eles devem ser ignorados
• V: Essa componente é a que apresenta a distribuição mais estável. Ela
usualmente se assemelha a uma distribuição normal com um pequeno
desvio padrão. Porém ela é bastante sensível a alterações na iluminação do
ambiente.
O trabalho mais reverenciado para a detecção e remoção de sombras utilizando
esta abordagem relacionada ao espaço de cores HSV é o proposto por Cucchiara
(Cucchiara, et al., 1996). Em seu trabalho, Cucchiara propõe a equação XX que é
realizada para cada pixel da imagem onde resulta um para o pixel classificado como
sombra e zero caso contrário.
61
A equação XX afirma que o pixel (x,y) é classificado como sombra se ele possuir
as três seguintes características:
1. A proporção da componente V de It(x,y) e Bt(x,y) respeitem o limite
inferior e o superior ;
2. A diferença da componente H é limitada em relação ao limiar ;
3. A diferença da componente S é limitada em relação ao limiar ;
Muitos pesquisadores, como François (François, et al.), Baisheng (Baisheng, et
al., 2004) e Zhao (Zhao, et al.), apostaram na idéia de utilizar o espaço HSV juntamente
com algumas ou todas as características apresentadas acima. François (François, et al.)
obteve resultados satisfatórios, porém seu algoritmo não avalia individualmente cada
componente do espaço HSV, o que gera muito ruído em seu resultado. Baisheng
(Baisheng, et al., 2004) e Zhao (Zhao, et al.) fizeram uma análise mais aprofundada das
propriedades dos componentes do HSV para remover a sombra por pixel da
segmentação de fundo.
62
Figura 16: Resultado da remoção de sombra encontrado por cinco diferentes algoritmos.
Foram implementados estes algoritmos propostos pela literatura para remover as
sombras de seqüências de vídeos de rodovias. A Figura 16 ilustra o resultado
encontrado da remoção de sombra por cinco diferentes algoritmos, sendo que no grupo
das primeiras quatro imagens a sombra é representada pela cor azul e o objeto em
movimento pela cor vermelha. A imagem representada pela sigla “SP” (statistical
parametric) é uma abordagem adotada pelo algoritmo de Mikic (XX12), já a imagem
representada pela sigla “SNP” (statistical nonparametric) tem como exemplo o
algoritmo de Horprasert (XX12) e por fim as imagens representadas pelas siglas
“DNM1” e “DNM2” (deterministic non-model) têm como exemplo o algoritmo de
Cucchiara (XX13) e Stauder (XX14). Na última imagem da Figura 16, a sombra é
representada pela cor cinza, o fundo pela cor preta e os objetos em movimento pela cor
branca. Essa imagem representa o resultado encontrado pelo algoritmo de Cucchiara em
seu trabalho (XX) que é ilustrado pela equação XX.
Como se pode observar em todas essas imagens, os resultados obtidos pelos
algoritmos apresentam muitas regiões de falhas e imperfeições que podem ser
irrelevantes dependendo da aplicação que essa detecção de movimento se destina. No
caso desta dissertação, como tem-se tarefas do sistema que demandam precisão nas
silhuetas, como por exemplo a classificação do tipo de cada veículo, então esses
resultados se mostraram insatisfatórios. Além disso, muitas vezes as regiões de sombra
63
projetadas não foram removidas por completo levando uma detecção de novos objetos
erradamente.
Pensando nesses problemas, buscou-se uma solução fora dessa ideía de classificar
cada pixel da imagem como sombra ou não. A partir de uma nova pesquisa percebeu-se
que uma abordagem que utilizasse também informações gemométricas do veículo e da
pista poderia se obter resultados mais interessantes. A próxima seção anuncia o
algoritmo desenvolvido para detectar e remover sombras de veículos em rodovias e
estradas.
[11] T. Horprasert, D. Harwood, and L.S. Davis, “A Statistical Approach for Real-Time Robust Background Subtraction and Shadow Detection,” Proc. IEEE Int’l Conf. Computer Vision ’99 FRAME-RATE Workshop, 1999. [12] I. Mikic, P. Cosman, G. Kogut, and M.M. Trivedi, “Moving Shadow and Object Detection in Traffic Scenes,” Proc. Int’l Conf. Pattern Recognition, vol. 1, pp. 321-324, Sept. 2000. [13] R. Cucchiara, C. Grana, G. Neri, M. Piccardi, and A. Prati, “The Sakbot System for Moving Object Detection and Tracking,” Video-Based Surveillance Systems—Computer Vision and Distributed Processing, pp. 145-157, 2001. [14] J. Stauder, R. Mech, and J. Ostermann, “Detection of Moving Cast Shadows for Object Segmentation,” IEEE Trans. Multimedia, vol. 1, no. 1, pp. 65-76, Mar. 1999.
64
4.3 Algoritmo proposto
O algoritmo de detecção e remoção de sombras desenvolvido nesta dissertação é
fortemente baseado ao criado por Yoneyama (Yoneyama, et al., 2005), sofrendo apenas
algumas modificações em relação a proposta inicial do autor. Este modelo de sombra
utiliza a abordagem geométrica conforme visto na seção anterior. Diferentemente da
maioria dos algorítmos que seguem esta abordagem encontrados na literatura, a sombra
é modelada no plano 2D segundo a Figura 17 (a). Nesta figura, encontra-se um objeto
no formato de um poste representado pela cor vermelha e sua reespectiva sombra
representada pela cor cinza. A sombra deste objeto é decomposta nas direção de sua
altura e largura. Para o modelo da sombra é utilizado três vetores: sh, sl e sw para
representar a “altura do objeto”, o “comprimento da sombra” e a “largura da sombra”
reespectivamente.
Figura 17: (a) Modelo da sombra; e (b) os seis tipos de sombras projetadas para cada direção de iluminação. Retirado de (Yoneyama, et al., 2005)
Dependendo da iluminação da cena de interesse, a projeção da sombra no plano
2D pode adquirir seis tipos distintos conforme ilustra a Figura 17 (b). As três linhas que
65
orientam esta imagem seguem a mesma orientação de sh, sl e sw, representados no
modelo da sombra.
O modelo da sombra é realizado com base na modelagem MSPA veicular que foi
definida anteriormente no capítulo 4. A Figura 18 exibe os seis possíveis modelos da
sombra para um veículo qualquer detectado. Nesta figura, a caixa externa de cada tipo
representa o MSPA de um veículo (cor amarela) que inclui a sua sombra projetada (cor
cinza) no plano 2D. Já a caixa interna de cada modelo representa o MSPA sem a
sombra. O que claramente diferencia cada um dos seis modelos é forma em que eles são
iluminados. Essa diferença é facilmente perecebida pelo fato de cada um deles possuir
pelo menos um dos seis lados em que sua posição e comprimento não é alterada com a
presença da sombra. Este lado imutável de cada modelo é chamado de sf e está
representado na Figura 18 pela linha vermelha mais grossa do MSPA.
Figura 18: Seis possíveis modelos de sombra. Retirado de (Yoneyama, et al., 2005)
66
Considerando M’ o MSPA de um veículo qualquer, da mesma forma que a
equação XXX da seção 4.2, e M’s o MSPA de um veículo unido a sombra, é possível
disponibilizar ferramentas para a remoção da sombra. A Figura 19 ilustra este
relacionamento para cada tipo entre o modelo M’ (representado pela cor azul) e o
modelo M’s (representado pela cor laranja). A equação XXX demonstra a relação entre
os lados de M’ e M’s.
Onde,
(i) é o lado adjacente a Sf de M’ em ordem ascendente.
(ii) é o lado adjacente a Sf de M’ em ordem descendente.
(iii) é a proporção dos parâmetros do modelo de sombra entre e .
(iv) é a proporção dos parâmetros do modelo de sombra entre e .
Figura 19: Retirado de (Yoneyama, et al., 2005)
67
Para exemplificar a equação XXX, é utilizado o Tipo 0 da Figura 19 como
exemplo. A altura do veículo pode ser definida através de Sf. Caso as proporções e
sejam conhecidas, a largura e o comprimento do veículo poderão ser obtidos através
de e , respectivamente. Esta equação implica que o modelo M’ do
veículo pode ser determinado se:
(1) O tipo do modelo é conhecido;
(2) As proprorções e são conhecidas;
(3) Os parâmetros do modelo MSPA podem ser determinados segundo o método
de subtração de fundo.
Para determinar as afirmações (1) e (2) é preciso exbir as seguintes informações....
O modelo MSPA depende de localizações relativas da fonte de luz, do veículo, e a
câmera como demostrado na Figura 18. A localização de Sf no modelo indica a direção
da fonte de luz no plano 2D da imagem. Utilizando essa informação de que um lado não
possui sombra projetada e nem sombra própria, é possível determinar Sf examinando a
luminância de cada lado do MSPA e encontrando o lado que tenha a maior luminância
média. Esse processo é matematicamente calculado através da equação:
Na equação, N é o número de pixels em e representa o valor da
luminância na posição (x,y) da imagem capturada. Os parâmetros do modelo da sombra
sl, sh e sw poderão ser determinados através do comprimento as sombra. Embora seja
difícil obter a precisão da região de sombra projetada de todos os veículos que passam
ao longo da cena devido a diversas adversidades naturais, é possível diferenciar
bruscamente estas regiões de sombra através de diferenças de luminância. O processo é
exibido na Figura XXX. Assim, as proporções e e os parâmetros da sombra
podem ser determinados.
68
... Desenvolver melhor....
COLOCAR FIGURA DO CALCULO D LUMINANCIA
69
4.4 Resultados parciais
O algoritmo de detecção e remoção de sombras que utiliza a abordagem
geométrica obteve melhores resultados do que a abordagem por pixel apresentada nos
trabalhos relacionados.
Nesta seção é realizado testes comparativos entre o algoritmo da Cucciara (XX) e
o algoritmo desenvolvido neste capítulo. Para tal tarefa foram selecionados cinco vídeos
para gerar uma estatística similar a densnvolvida pelos resultados do capítulo 2.
Da mesma formar que nos resultados da subtração de fundo, foram desenvolvidas
imagens “ground-truth” para cada quadro original do vídeo, separando as sombras
projetadas de todo o resto da imagem. As sombras próprias, ou cast shadows, foram
associadas sempre ao objeto em movimento e portanto nao devem ser identificadas.
70
4.5 Considerações de final de capítulo
Este capítulo mostrou que apesar da grande popularidade dos algoritmos de
detecção e remoção de sombras que utilizam as propriedades do espaço HSV para
realizar esta tarefa, não foi suficiente para resolver todas as tarefas que esta dissertação
se propõem a resolver, podendo comprometer a veracidade de cada uma delas.
Mostrou também que é possível utilizar de informações previamente encontradas
como a modelagem do carro e cada pista da rodovia pode auxiliar na detecção e
remoção de sombras do vídeo.
O algoritmo desenvolvido obteve bons resultados que são ilustrados com mais
detalhes pelo capítulo 7. Porém, a teoria apresentada no ínicio deste trabalho de que
quanto menos genérico o algoritmo for, mas preciso ele será.
71
5 Remoção de Oclusão, cálculo da velocidade e classificação dos veículos
Este capítulo reúne três fundamentais algoritmos para um sistema de vigilância
eletrônica que visa extrair e gerenciar importantes informações das rodovias como a
velocidade média do percurso, detectar excessos de velocidade, definir o tipo de veículo
que mais freqüenta o trecho de interesse da rodovia e contagem de veículos. Para obter
todas essas informações, seria necessário somente o cálculo da velocidade e a
classificação de cada veículo, porém devido a sombras e à angulação da câmera acabam
levando os veículos, nesta aplicação, a serem ocluídos por outros ou por estruturas na
pista e na redondeza da cena.
O atual capítulo apresenta para cada uma dessas três técnicas os trabalhos
relacionados da área e o algorítmo proposto. Assim, será apresentado primeiramente o
estudo para detectar e remover a oclusão, a seguir, para determinar a velocidade de cada
veículo e, por fim, para classificar os veículos de acordo com o seu modelo.
72
5.1 Detecção e remoção de oclusão
A remoção de oclusão é uma etapa fundamental quando há interesse do sistema
em realizar um rastreamento dos veículos em movimento com mais perfeição. Este
rastreamento, conforme será visto no capítulo 7, é encontrado conectando o centro do
contorno do veículo ao longo da seqüência de imagens do vídeo. Logo, qualquer
distorção neste levará a uma mudança artificial na trajetória do objeto. Além disso,
oclusões de veículos geradas por outros pode acarretar nos mesmos problemas que as
sombras, como: distorções na forma e união com outros distintos. Na tentativa de
amenizar esses problemas, principalmente em relação à trajetória, fez-se necessário uma
etapa de remoção de oclusão.
73
5.1.1 Trabalhos Relacionados
Os algoritmos de detecção de oclusão da literatura voltados para a vigilância
eletrônica de veículos foram somente desenvolvidos nos últimos anos, sendo portanto,
uma área de poucas referências. Foram selecionados, para essa seção, os trabalhos de
maior importância que levaram o desenvolvimento do algoritmo de detecção e remoção
de oclusão apresentado nesta dissertação.
Yoneyama (Yoneyama, et al., 2005) utiliza informações gemométricas da pista e
dos veículos, à partir da relação das imagens geradas por múltiplas câmeras
sincronizadas, para realizar a detecção implícita da oclusão. Koller em seus trabalhos
(Koller, et al., 1994) também utiliza uma etapa de detecção de oclusão dependente da
geometria da cena, acrescentando a afirmação de que o movimento ocorre sempre no
plano da rodovia.
Kim (XX) utiliza uma abordagem estatística em um agrupamento de
características linhas através do modelo tridimensional do veículo. Kim foi capaz de ...
Huang (XX) desenvolveu um algoritmo de detecção e segmentação de oclusão
astravés da análise do “Campo de Movimento” das regiões concisas e suas trajetórias.
Para isto, o autor realiza três etapas: estimativa de movimento, transformação do vetor
de movimento e detecção com segregação das regiões oclusivas. A primeira etapa do
algoritmo de Huang é realizada através do método “Block Matching” para descobrir o
vetor de movimento de cada pixel. Este método é utilizado somente para blocos de
textura e a busca é operada sempre em uma determinada direção. A segunda etapa
converte o vetor de movimento tradicional para um espaço não homogêneo para ficar
coerente com a projeção da perspectiva. Por fim, a detecção de oclusão é feita através
de descontinuidades nas trajetórias dos objetos e da análise deste “campo de
movimento” da silhueta.
Koller em seu trabalho (XX) foi capaz de remover a oclusão através da interseção
as regiões de profundidade ordenadas associadas aos objetos através dos seguintes
passos: ordenar os objetos na lista de rastreio através de suas coordenadas y no centro
74
do contorno predefinido, procurar regiões sobrescritas os contornos predefinidos e
decidir no caso deste se o objeto está ocludido ou se o objeto em questão oclui outro. E
Por fim, analisar todos os objetos na lista de rastreio lidando com diferentes casos de
oclusão.
- Punduk (xx)
- Colocar figuras desses metodos?
75
5.1.2 Modelo Proposto
Para detectar e remover a oclusão dos veículos, determinar suas velocidades, ou
até mesmo classificá-los é preciso, neste trabalho, realizar uma etapa comum a todos
esses algoritmos. Essa etapa é a calibração da pista e a sua transformação projetiva. A
maior dificuldade destes algoritmos é justamente a deformação da projeção que a
imagem capturada pela câmera sofre. Ao passo que se analisa a projeção dos veículos
no vídeo, observa-se que há divergência na dimensão destes. Por exemplo, um ônibus
pode ser confundido com um carro próximo se dentro do plano da cena ele estiver longe
da câmera. Além disso, a detecção da velocidade é afetada e a oclusão é mais presente.
Esta etapa comum tem como objetivo resolver este problema, para isso é preciso
encontrar transformações que levam pontos da imagem da rodovia do mundo
tridimensional para a da cena para o plano 2D da imagem.
Muitos pesquisadores da área como Blabla (XX) e Bleble (XX) propuseram
diferentes técnicas para realizar a calibração da pista. A diretiva escolhida para esta
dissertação foi a desenvolvida por Kanhere (XX). Este autor elaborou diversos trabalhos
que necessitaram calibrações eficientes. Em seus primeiros trabalhos (XX), o autor
utilizou uma homografia simples (mapeamento de plano a plano), porém ela é
normalmente insuficiente para segmentar os pixels de cada veículo detectado devido à
ambigüidade na informação de profundidade da cena que utiliza apenas uma câmera.
Essa ambigüidade se dá pelo fato de que um ponto no mundo real e todos os pontos que
pertencem ao raio que atravessam o centro da câmera são projetados como um único
ponto na imagem.
Em seus trabalhos anteriores, Kanhere segmenta todos os pontros de
características em grupos (representados por veículos) através da estimativa de suas
coordenadas do mundo para lidar com as alturas dos veículos, em seu trabalho seguinte
o autor detecta regiões na imagem em que a ambiguidade de profundidade é inexistente.
Caso a base do veículo esteja em contato direto com a pista não existira essa
ambigüidade no mapeamento das coordenadas da imagem para as coordenadas do
mundo utilizando uma homografia simples.
76
O método de calibração é extremamente simples. É necessário apenas informar
quatro pontos da pista, o comprimento, a largura e o número de faixas contida na cena.
Tal informação já foi definida anteriormente no capítulo 4 para realizar a modelagem
dos veículos e é ilustrada pela Figura XXX.
FIGURA CALIBRAÇÃO!!!
A homografia é definida por uma matriz H 3x3 que possui 12 parâmetros e é
convenientemente descrita utilizando coordenadas homogêneas através da equação XX.
Onde P = (x,y,0,w) é um ponto do mundo da cena e P = (u,v,t) um ponto no plano
da imagem (utilizando coordenadas homogêneas). Dado que, neste trabalho, a escala
geral não é relevante, o último elemento da matriz é um, levando a oito parâmetros
necessários para encontrar a homografia H. Cada ponto de calibração leva a duas
equações, logo faz-se necessário quatro pontos não-colineares para encontrar a solução
exata dos oito elementos desconhecidos de H.
O mapeamento entre as coordenadas da imagem e do plano da pista serão
denominados conforme a equação XXX.
Onde P e P’ são coordenadas homogêneas no plano da imagem e no plano da
pista, respectivamente, de um ponto do mundo.
77
Com a homografia calculada é possível, finalmente, realizar a transformação do
plano da cena real para o plano da imagem igual ao resultado ilustrado na Figura xxx
(b).
COLOCAR FIGURA DA CALIBRACAO E HOMOGRAFIA!!
Com essa transformação realizada é possível agora descrever o algoritmo para
detectar e remover a oclusão no sistema. O algoritmo proposto é fortemente baseado no
desenvolvido por Kanhere em seu trabalho (XX). A parte chave deste algoritmo é a
detecção da base frontal de cada veículo, ou como o autor sugere, “Vehicle Base Front”
(VBF).
Para cada imagem de entrada de resultado da subtração de fundo e filtros
morfológicos, é realizado o operador de diferença na direção vertical. Para assim gerar
uma nova imagem segundo a equação:
Onde, B(x,y) é um pixel da nova imagem gerada, F(x,y) é o pixel do quadro atual
da subtração de fundo e F(x,y+1) é pixel do próximo quadro somente na direção
vertical. Logo, os pixels em movimento serão renomeados com valores positivos, e
pixels de fundo com o valor zero. O resultado desta operação é exibido na Figura XX
(c).
Após projetar a imagem base no plano da pista utilizando a matriz H da
homografia (Figura XX), é realizada uma análise dos componentes conexos para
selecionar apenas a parte frontal da região base (por exemplo, o segmento orientado na
direção horizontal). A razão para selecionar somente a base frontal é que os lados
78
laterais da base são mais facilmente ocluídos devido a sombras de veículos adjacentes,
já que a parte frontal do veículo recebe apenas oclusões parciais.
É facilmente notado que algoritmos com abordagens baseadas em regiões e
contornos podem também lidar bem com a detecção e remoções de oclusões somente se
os veículos entrarem na cena não-ocluídos, essas técnicas falham quando o ângulo da
câmera é baixo, fazendo com que múltiplos veículos entrem na cena parcialmente
ocluídos (Figura XX).
FIGURA OCLUSÃO!!
A habilidade dos VBFs de separar os veículos que são detectados como um único
blob é ilustrado na Figura XXX.
FIM?
79
5.1.3 Resultados parciais
Fazer....
80
5.2 Determinação da velocidade
A determinação de velocidade é uma tarefa de grande utilidade dentro do conjunto
de outras apresentadas neste trabalho. Esta informação é obtida de maneira muito
simples e barata, pois apenas com uma câmera e um computador podem ser substituídos
os caros contradores de velocidades eletrônicos existentes.
Além disso, dado que estes radares eletrônicos determinam as velocidades através
de reflexões de ondas ultra-sonoras do veículo, podem tornar esta informação imprecisa
em até 10%. Através de sistemas computadorizados, essa margem de erro seria bem
mais baixa, podendo chegar em valores de menos de 1%.
No caso dos radares de velocidade convencionais, quando um veículo se encontra
acima da velocidade máxima permitida, o sistema dispara uma foto de um ângulo
predeterminado e que muitas vezes pode sofrer com a qualidade, devido a reflexos,
problemas com flash ou oclusão de outros veículos no momento da foto. Já é algo que
não acontece no algoritmo proposto aqui, pois a velocidade é determinada todo o tempo
ao longo da via filmada e dado a ateração o carro irregular pode ser filmado e ai sim um
operador buscar a melhor foto como comprovação de sua infração.
Outra grande vantagem é que estes sistemas computadorizados possuem uma
instalação e a manutenção muito mais simples do que os radares convencionais. Para
qualquer uma dessas tarefas o sistema computadorizado se basta por instalar ou
consertar a câmera. Já no caso dos radares, muitas vezes é preciso realizar uma
manutenção dos sensores que se encontram por baixo da superfície da rodovia, gerando
mais trabalho e transtorno para a execução dessas tarefas.
Por fim, o sistema computadorizado de medição de velocidade proposto neste
trabalho pode ser instalado ao longo de toda a via podendo informar com precisão a
velocidade de cada veículo durante todo o percurso e não somente em pontos isolados.
81
Nas próximas seções são apresentados primeiramente os trabalhos da literatura
com os atuais algoritmos para medição de velocidade e a seguir o algoritmo proposto
neste trabalho.
5.2.1 Trabalhos relacionados
Poucos trabalhos da literatura estimam a velocidade dos veículos do vídeo.
Alguns destes poucos autores que desenvolveram algoritmos para determinar a
velocidade foram citados nos próximos parágrafos desta seção.
Kim (XX) apresenta um modelo tridimensional para representar o veículo e
através um agrupamento probabilístico de características de linha o autor consegue
modelar o comportamento do motorista obtendo informações como aceleração,
desaceleração, velocidade e mudança de pistas.
Zhongzhen (XX) através de conhecidas marcações da pista, chamados pelo autor
de “virtual loops”, que na verdade são as linhas pontilhadas que dividem as faixas da
rodovia, consegue determinar a velocidade de cada veículo da cena. Para isso, o autor
calcula o tempo em que um veículo leva para ultrapassar dois “virtual loops”, e utiliza o
valor das distâncias conhecidas da marcações e do número de quadros durante esse
processo.
Grammatikopoulos (XX) utiliza a geometria da pista e pontos de fuga para que
através da transformação projetiva a velocidade dos carros possa ser estimado. Outro
exemplo que segue esta idéia é o trabalho de Burns (Burns, et al.).
Por fim, o trabalho desenvolvido por Zhu (XX) chamado de VISATRAM, é capaz
de automaticamente monitorrar o tráfego através de uma câmera comum colocada sobre
uma rodovia. O sistema utilize uma vista panorâmica e um plano epipolar para cada
pista da rodovia. Através disso é possível contar o número de veículos e estimar suas
velocidades.
AUTOMATIC ESTIMATION OF VEHICLE SPEED FROM UNCALIBRATED VIDEO SEQUENCES Lazaros Grammatikopoulos, George Karras, Elli Petsa (GR)
82
Fast Vehicle Detection with Probabilistic Feature Grouping and its Application to Vehicle Tracking ZuWhan Kim and Jitendra Malik Computer Science Division University of California at Berkeley, CA, USA Model for Predicting Roadside Concentrations of Traffic Pollutants* YANG Zhongzhen (杨忠振)**, MIAO Guoqiang (苗国强), WANG Lu (王 璐) College of Transportation and Logistics, Dalian Maritime University, Dalian 116026, China
Bose, B., Grimson, E., 2003. Ground plane rectification by tracking moving objects. Proceedings of the Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance.
Dual-Stage Robust Vehicle Detection and Tracking for Real-time Traffic Monitoring Jorge Batista, Paulo Peixoto, Catarina Fernandes and Miguel Ribeiro ISR-Institute of Systems and Robotics Department of Electrical Engineering and Computers University of Coimbra, Coimbra, Portugal -Zhu, Zhigang, G. Xu, B. Yang, D. Shi and X. Lin. "VISATRAM: A real-time
vision system for automatic traffic monitoring."
83
5.2.2 Algoritmo desenvolvido
A etapa de determinar a velocidade dos veículos é relativamente simples, ela é
determinada através da tradicional equação de distância sobre o tempo. Porém para
poder realizar esse cálculo é necessário realizar algumas transformações para que o
resultado desta equação esteja correto.
A fins de obter maior precisão do resultado, o cálculo da velocidade é somente
realizado para cada quadro do vídeo em que o veículo rastreado esteja dentro da área
previamente selecionada conforme discutido no capítulo 3. A figura xxx ilustra um
exemplo de uma seleção ilustrada pelas linhas vermelhas.
A idéa para a medição da velocidade é iniciar a contagem de tempo a partir do
momento em que o veículo entra na área de interesse, assim a cada quadro é convertido
o tempo para segundos e a distância do início da seleção para o ponto atual é medida.
Assim, é preciso obter essa informação temporal que o vídeo fornece. Tal
informação é fornecida través de quantos quadros do vídeo se passaram do início da
seleção até o momento em que se deseja determinar a velocidade. Além disso é preciso
84
saber a quantidade de quadros por segundo que o vídeo foi gravado. Logo, através de
uma regra de três simples é possível obter o tempo em que o veículo levou para
percorrer este percurso.
A informação espacial é obtida através da quantidade de pixels da menor distância
em linha reta do entre o veículo e a reta do início da região de interesse. Essa
informação é convertida em metros através da homografia previamente calculada.
Esse processo segue a regra...
A seção seguinte demonstra os resultados obtidos para esse algoritmo.
85
5.2.3 Resultados parciais Fazer...
86
5.3 Classificação
A partir da informação obtida pela modelagem e pela homografia é possível
avaliar as características do veículo e encontrar a sua classificação.
A etapa de classificação tem como objetivo de identificar cada veículo encontrado
de acordo com o seu tipo. Neste trabalho é possível distinguí-los em quatro tipos: moto,
carro, ônibus e caminhão.
Essa tarefa coleciona importantes dados que forcene a capacidade de avaliar a
infra-estrutura e a segurança da rodovia, realocar recursos, engenharia de tráfego, entre
outros.
As próximas seções apresentam os trabalhos relacionados e o algoritmo proposto
para a classificação dos veículos reespectivamente.
87
5.3.1 Trabalhos relacionados
Huang(XX) é capaz, através de seu algoritmo de classifição, identificar sete
diferentes tipos de veículos, estes são: carro, van, pickup, caminhão de pequeno porte,
caminhão de grande porte, ônibus e trailer. Seu algoritmo chamado de “classificação
hierárquica de veículos” extrai três características das silhuetas dos veículos: largura,
razão e proporcionalidade. Através dessas informações e de limiares, o algoritmo é
capaz de realizar a classificação razoavelmente bem.
Kanhere (XX) classifica os veículos somente como carro ou caminhão utilizando
somente as informações de altura e largura da caixa envolvente dos veículos.
88
5.3.2 Algoritmo desenvolvido
89
5.3.3 Resultados parciais
Fazer...
90
5.5 Considerações de final de capítulo
Este capítulo agrupou a exibição de três importântes algoritmos para a coleção de
informações sobre os veículos e seu comportamento na rodovia. São eles: a remoção de
oclusão, o cálculo da velocidade e a classificação dos veículos em relação ao seu tipo.
A remoção de olcusão...
O algoritmo de calculo de velocidade, conforme exposto neste capítulo, se mostou
mais eficiente e barato do que os atuais radares eletrônicos. O algoritmo é bastante
simples e bastante preciso.
A classificação...
A informação que cada um desses algoritmos propõe pode gerar uma riquesa de
dados importântes da rodovia, como:
• Contagem de veículos de acordo com o seu tipo, gerando uma estatística
de quais são os carros mais populares daquela via.
• ...
A partir deste capítulo já é possível ter um grande controle de quase tudo que
acontece na rodovia, só faltando o rastreamento que é apresentando no capítulo
seguinte.
91
6 Rastreamento de Veículos
O processo de rastreamento em vídeo ou “video tracking” é uma área que tem
dispertado muito interesse dos pesquisadores de visão computacional e da indústria de
modo geral. O objetivo deste é localizar um ou mais objetos em movimento no vídeo
capturado pela câmera. Logo, o objetivo de um algoritmo de rastreamento é analisar
cada quadro do vídeo de entrada e retornar a localização dos objetos em movimento
deste quadro.
O rastreamento na área de vigilância eletrônica para veículos tem ganhado toda
esta importância, pois um sistema de posse de um eficiente algoritmo de rastreamento
torna-o mais robusto e confiável. Logo, a habilidade de rastrear e prever o movimento
dos veículos se torna uma tarefa muito importante.
Primeiramente, a presença de ruídos e imperfeições na imagem, bastante comuns
nos vídeos desta área, levam a uma posição final imprecisa. Dadas essas condições, um
filtro se faz necessário para obter uma estimativa suave dos parâmetros do veículo. Em
segundo lugar, as propriedades preditivas do filtro podem ser utilizadas para obter uma
estimativa da pose do próximo quadro baseado na medição dos quadros anteriores. Uma
medição precisa pode simplificar o sistema e reduzir o custo computacional da busca do
objeto de cada módulo, em geral é a precisão do rastreamento que contém o modelo
dinâmico do veículo em movimento.
Como o presente trabalho enfoca somente o rastreamento de veículos em
rodovias, conforme as características discutidas anteriormente no capítulo 3, alguns
desses problemas não estarão presentes ou serão minimizados, que é o caso da troca de
identificadores e casamento errado de trajetórias, respectivamente.
Um grande facilitador do rastreamento de veículos é a posse dos dados
geométricos da pista e do veículo, pois isto limita o rastreamento basicamente a
movimentos aproximadamente paralelos no sentido da pista com exceção para o caso de
eventuais mudanças de pista.
92
Um sistema de rastreamento permitiu a análise de trajetórias ao longo do tempo e
espaço, o que fornece ao sistema novas informações a respeito da cena como:
• Detecção de incidentes;
• Análise do tráfego (lento ou bom);
• Estudo do comportamento do motorista (velocidade, aceleração e
espaçamento);
• Análise do percurso (caminho atravessado pelo motorista);
Através de informações como estas descritas sobre os motoristas e as rodovias
permite que reformulações possam ser feitas na rodovia no sentido de realizar ummnovo
planejamento da rodovia a fim de diminuir taxas de acidentes, alerta imediato de orgãos
responsáveis para socorrer rapidamente vítimas destes acidentes, amenizar
congestionamentos através de um sistema automático para informar o motoristas sobre
as condições de cada via, ou seja, ter como base dados reais e estatísticos para que a
rodovida em análise possa se tornar mais eficiente para os motoristas.
Existem na literatura de visão computacional diferentes algoritmos de
rastreamento de veículos que podem ser classificadas em algumas abordagens distintas.
São elas: rastreamento de modelos tridimensionais, de regiões, de contornos ativos e de
características.
A abordagem de rastreamento a partir de modelos tridimensionais dá ênfase na
recuperação de trajetórias através de modelos de alta precisão para um número reduzido
de veículos. O alto detalhamento destes acaba sendo o maior limitador desta abordagem,
pois não é uma tarefa simples associar modelos com tanta precisão para todos veículos
do vídeo, por limitação de qualidade ou problemas anteriormente discutidos como
sombra e oclusão.
O rastreamento baseado em região tem como objetivo identificar regiões
conectadas na imagem (blobs) associadas a cada veículo que é rastrado ao longo do
tempo utilizando uma medição cruzada-correlacionada. Normalmente inicializado por
algoritmos de subtração de fundo, os veículos são rastreados através da busca pelos
pixels onde a imagem de diferença é acima de limiares pré-definidos. Essa abordagem
funciona razoavelmente bem em cenas de tráfego de velocidade constante. Entretanto,
93
sob condições de congestionamento, onde os veículos parcialmente ocluem outros, leva
a tarefa da segmentação de regiões muito complicada de se realizar.
A abordagem baseada em contornos ativos ou “snakes” tem como idéia central a
representação do contorno envolvente do objeto e mantê-lo atualizado dinamicamente.
Essa abordagem possui um baixo custo computacional, entretanto é bastante susceptível
a oclusões.
Por fim, a última abordagem referenciada é o rastreamento baseado em
característica. Esta abandona a idéia de rastrear os objetos como um todo e no lugar
disso rastrear sub-características do veículo como, por exemplo, pontos ou linhas. A
vantagem desta abordagem é que mesmo com a presença de oclusões parciais, algumas
das características dos objetos em movimento se mantém visíveis. Além disso, o mesmo
algoritmo pode ser usado a princípio para o rastreamento de veículos a luz do dia ou a
noite. Essas caraterísticas podem, no caso da luz do dia, canto de janelas, arestas
laterais, entre outros e no caso da noite feixes de luz. Essa abordagem foi a escolhida
para o desenvolvimento deste trabalho.
Na seção seguinte serão referenciados trabalhos de pesquisadores da área para
cada uma destas abordagens aqui apresentadas.
94
6.1 Trabalhos relacionados
Na área de vigilância eletrônica para veículos existe um número alto de trabalhos
que realizam a etapa de rastreamento. Normalmente, os trabalhos consideram o
rastreamento como o objetivo principal de seus sistemas. Isso se dá ao fato que o
rastreamaneto fornece uma riquesa muito grande de informações importantes da rodovia
conforme discutido na seção anterior.
Alguns trabalhos de rastreamento de veículos serão apresentados a seguir
seguindo a classificação dos algoritmos segundo as abordagens apresentadas
anteriormente.
Na abordagem de rastreamento de modelos tridimensionais pode-se referenciar
Koller (XX) e Baker (XX) que foram os percursores dessa abordagem. Futuramente Bla
(X) e Bla (X) também realizaram seus trabalhos de rastreamento a partir de uma
abordagem tridimensional, conforme apresentado no capítulo 3.
Karmann (XX) e Kilger (XX) utilizaram um modelo de fundo adaptativo baseado
no filtro de Kalman para realizar o rastreamento de veículos baseados em região.
Koller em seus trabalhos (XX) e (XX) utilizou o rastremento baseado em
contornos ativos ou “snakes”.
Coifman (XX) foi capaz de rastrear veículos através de características de cantos
destes, e Achlex (XX) utilizou as rodas a partir de uma câmera lateral....
De um modo geral, todas as abordagens estudadas tiveram sucesso em realizar a
tarefa de rastreamento, porém através do modo de características se saiu relativamente
melhor nos testes realizados desta dissertação e o que levou a ser a abordagem escolhida
neste sistema e será discuitida na seç ão seguinte.
95
6.2 Algoritmo proposto
Após as etapas de segmentação dos veículos do vídeo, modelagem, remoção de
sobras e oclusão, o sistema já é possível rastrear cada veículo ao longo da cena do
vídeo.
O algoritmo proposto utiliza sempre como condição inicial o quadro anterior para
relacionar os veículos rastreados. Intuitivamente, os seguimentos que estiverem mais
próximos dos quadros adjacentes são relacionados. Esses segmentos são os centros dos
VBAs (Ver capítulo 5) de cada veículo e a distância euclidiana é utilizada para medir a
distância esses centros.
Considerando que Vc é o centro da base frontal de um veículo, ela pode ser
encontrada segundo a equação (XX):
,
,
,
Onde, Vp é o número de pixels pertencentes ao VBA do veículo V, e Vxi
representa a coordenada x do i-ésimo pixel do veículo, enquanto Vyi representa a
coordenada y.
Portanto, considerando VcM e VcN o centro do VBA dos consecutivos quadros M
e N, logo a distância euclidiana de um centro a outro é definida como:
96
Posto isto, para cada MTV do quadro M é calculado o ED de cada MTV do
quadro N, segundo a equação (XX), e para a menor distância de um MTV de M para
todos os MTVs de N calculados, será, a princípio , a associação do dado veículo do
quadro M com o V do quadro N. Assim, esse processo é repetido para os MTVs
restantes de M.
A base do processo é essa criada acima, porém foram estipuladas algumas regras
para o rastreamento de veículos nesta dissertação aproveitando as informações
geométricas do veículo calculado nas etapas anteriores. As regras são:
1. Os veículos somente serão rastreados se estiverem na região de interesse da
rodovia.
2. O veículo ao entrar na cena pela 1a vez adquire o status de “novo”.
3. Caso o rastreio do veículo com status de “novo” permaneça com sucesso por
mais de dez quadros consecutivos e ele receberá um novo status de
“rastreando”.
4. Se o rastreio se perder por mais de dez quadros consecutivos a partir de um
tag novo, ou por mais de 30 quadros consecutivos a partir de tag “rastreando”,
o veículo será classificado como eliminado” e retirado da lista de rastreios.
5. A partir do status de rastreando, o veículo recebe um identificador único em
relação a todos os outros e o mantém ao longo da cena.
6. Adimite-se que antes da realização do rastreamento toda e qualquer oclusão já
foi removida.
7. Mudança de pista?
Fluxograma do rastreamaneto....
Filtro de kalman??
O filtro de Kalman é uma ferramenta muito útil em sistemas de rastreamento para
estimar a posição, a velocidade, a aceleração dos obejtos em movimento da sequência
de imagens. Esse filtro funciona bem em muitas aplicações utilizadas buscando trajetos
simples obtendo bons resultados.
97
Figura 20: Fluxograma do algoritmo de rastreamento desenvolvido.
98
6.3 Resultados parciais
Fazer...
99
6.4 Considerações finais do capítulo
Fazer...
100
7 Conclusões
Ao longo dos capítulos anteriores é apresentado diversos algoritmos
Problemas:
1.
2. - Nao faz distincao de objetos alem dos pre-definidos
3. - Nao funciona a noite
101
4.
7.1 Trabalhos futuros
Reconstrucao com camera sintetica 1. Análise do fluxo de veículos, condicao do trafego
2. Noite
102
3.
8
Bibliografia
Azarbayjani A., Wren C. and Pentland A. "Real-Time 3D Tracking of the
human body" [Conference]. - [s.l.] : Proc. IMAGE'COM, 1996.
Baisheng Chen and Yunqui L. "Indoor and Outdoor Detection and Shadow
Suppresion by Exploiting HSV Color Information" [Article] // IEEE Computer
Information Technology. - 2004.
Barron J., Fleet D. and Beauchemin S. "Performance of optical flow
techniques" [Journal]. - [s.l.] : International Journal of Computer Vision, 1994. - pp. 42-
77.
Boult T. E. [et al.] "Into the woods: Visual Surveillance of noncooperative and
camouflaged targets in complex outdoor settings" [Article] // Proceedings of the IEEE. -
2001. - pp. 1382-1402.
Burns M., De Coro C. and Misra A. "Speed Trap" [Report].
Chalidabhongse T. H. [et al.] "A Pertubation Method for Evaluating Background
Subtraction Algotithms" [Journal]. - Nice, France : IEEE International Workshop on
Visual Surveillance and Performance of Tracking and Surveillance (VS-PETS), 2003.
Chen T. P. [et al.] "Computer Vision Analysis: Case Study of Video Surveillance
Systems" [Journal]. - [s.l.] : Intel Technology Journal, 2005.
Chung Y. C., Wang J. M. and Chen S. W. "Progressive Background Images
Generation" [Article] // 15th IPPR Conference on Computer Vision. - 2002.
Cucchiara R. [et al.] "Detecting moving objects, ghosts, and shadows in video
streams" [Article] // IEEE Trans. on Pattern Anal. and Machine Intell.. - 2003. - pp.
1337-1442 : Vol. 25.
103
Cucchiara R. [et al.] "Detecting Objects, Shadows and Ghosts in Video Streams
by Exploiting" [Report]. - Italy : D.S.I. - University of Modena and Reggio Emilia,
1996.
Dell'Acqua F. and Gamba P. "Detection of urban structures in SAR images by
robust fuzzy clustering algorithms: the example of street tracking" [Article] // IEEE
TRansactions on Geoscience and Remote Sensing. - Hsinchu : [s.n.]. - Vol. 39.
Elgammal A. [et al.] "Background and Foreground Modeling Using
Nonparametric Kernel Density Estimation for Visual Surveillance" [Journal]. - [s.l.] :
Proceedings of the IEEE, 2002.
Elgammal A., Harwood D. and Davis LS. "Non-parametric model for
background subtraction" [Article] // European Conference on Computer Vision. -
2000. - pp. 751-767 : Vol. 2.
François Alexandre R. J. and Medioni Gérard G. "Adaptative Color
Background Modeling for Real-Time Segmentation" [Report]. - [s.l.] : Integrated Media
Systems Center, University of Southern California, USA.
Friedman N. and Russel S. "Image Segmentation in video sequences: A
probabilistic approach" [Conference]. - [s.l.] : Thirteenth Conference on Uncertainty in
Artificial Intelligence (UAI), 1997.
Fung G. S. K., Pang G. K. H. and Lai A. H. S. "Effective moving cast shadow
detection for monocular color traffic image sequences" [Article] // Optical
Engineering. - 2002. - 6. - pp. 1425-1440 : Vol. 41.
Giebel J., Gavrila D. M. and Schnurr “A bayesian framework for multi-cue 3d
object tracking” [Article] // Proc. 8th European Conference on Computer Vision. -
2004. - pp. 241–252 : Vol. IV.
Grimson W. E. L. [et al.] "Using adaptative tracking to classify and monitor
activities in a site" [Conference]. - Santa Barbara, CA : CVPR, 1998.
Grossmann E. [et al.] "Offline Generation of High Quality Background
Subtraction Data" [Journal].
104
Hall D. [et al.] "Comparison of target detection algorithms using adaptive
background models" [Conference]. - Beijing : Proc. 2nd Joint IEEE Int. Workshop on
Visual Surveillance and Performance Evaluation of Tracking and Surveillance, (VS-
PETS), 2005. - pp 113-120.
Haritaoglu I., Harwood D. and Davis L. S. "W4: real-time surveillance of
people and their activities" [Article] // IEEE Transactions on Pattern Analysis and
Machine Intelligence. - 2000. - pp. 809-830.
Harville M. "A framework for high-level feedback to adaptive, per-pixel,
mixture-of-gaussian backgound models" [Conference]. - Copenhagen, Denmark :
ECCV, May, 2002. - pp. III: 543.
Heikkila J. and Silven O. "A real-time system for monitoring of cyclists and
pedestrians" [Conference]. - Fort Collins, Colorado : Second IEEE Workshop on Visual
Surveillance, 1999. - pp. 74-81.
Herodotou N., Plataniotis K. N. and Venetsanopolus A. N. "A Color
Segmentation Scheme for Object-Based Video Coding" [Article] // IEEE Symp
Advances in Digital Filtering and Signal Processing. - 1998. - pp. 25-29.
Horn B. K. P. "Robot Vision". - [s.l.] : Massachusetts Institute of Technology,
1986.
Horprasert T. and Haritaoglu I. "Real-time 3D Motion Capture" [Journal]. -
[s.l.] : Proc. Perceptual User Interfaces, 1998. - pp. 87-90.
Hu W. [et al.] "A Survey on Visual Surveillance of Object Motion and
Behaviors". - [s.l.] : IEEE Trans. SMC, 2004. - Vol. 34. - pp. 334-353.
Huerta I. [et al.] "Improving Foreground Detection for Adaptive Background
Segmentation" [Journal]. - 2005.
Indupalli S., Ali A. and Boufama B. "A Novel Clustering-Based Method for
Adaptive Background Segmentation" [Journal]. - [s.l.] : Procedings of the IEEE, 2006.
Javed O., Shafique K. and Shah M. "A hierarchical approach to robust
background subtraction using color and gradient information" [Conference]. - Florida,
USA : MVC, 2002. - pp. 22-27.
105
Jeon B. K., Jang J. H. and Hong K. S. "Road Dectection in Spaceborne SAR
images using a genetic algorithm" [Article] // IEEE Transaction on Geoscience and
Remote Sensig. - 2002. - 22-29 : Vol. 40.
Júnior J. J., Jung C. R. and Musse S. R. "Background Subtraction and Shadow
Detection in Grayscale Video Sequences" [Journal]. - 2005.
Kjeldsen F. "Visual interpretation of hand gestures as a practical" // Phd Thesis. -
[s.l.] : Columbia University, 1997.
Koller D. [et al.] "Towards Robust Automatic Traffic Scene Analysis in Real-
Time" [Journal]. - [s.l.] : In Proc. of the 12th Int’l Conference on Pattern Recognition
(ICPR-94), 1994.
Koller D., Weber J. and Malik J. "Robust Multiple Car Tracking with
Occlusion Reasoning" [Journal]. - [s.l.] : In Proc. Third European Conference on
Computer Vision, 1994.
Kottow D., Koppen M. and Ruiz-del-Solar J. "A Background Maintenance
Model in the Spatial-Range Domain" [Conference]. - Prague, Czech Republic : 2nd
Workshop on Statistical Methods in Video, 2004.
Lee D-S, Hull J. J. and Erol B. "A Bayesian Framework for Gaussian Mixture
Background Modeling" [Article] // IEEE Proc. ICIP. - 2003. - pp 973-979 : Vol. 3.
Leone A., Distante C. and Buccolieri F. "A shadow elimination approach in
video surveillance context" [Article] // Pattern Recognition Letters. - 2006. - 5. - pp.
345-355 : Vol. 27.
Leotta M. J. and Mundy J. L. "Learning Background and Shadow Appearance
with 3-D Vehicle Models" [Journal]. - Providence, RI, USA : Division of Engineering,
Brown University, 2006.
Lepisk A. "The Use of Optic Flow within Background Subtraction". - Stockholm,
Sweden : Numerisk analys och datalogi (NADA), 2005.
Levin G. "Computer Vision for Artists and Designer: Pedagogic Tools and
Techniques for Novice Programmers" [Journal]. - [s.l.] : Carnegie Mellon University,
2004.
106
Lo B. P. L. and Velastin A. S. "Automatic congestion detection system for
underground plataforms" [Article] // Proc. ISIMP. - 2001. - pp. 158-161.
Ma X. and Grimson W. E. L. "Edge-based rich representation for vehicle
classification" [Journal]. - Cambridge, USA : Massachusetts Institute of Technology,
2005.
Martel-Brisson N. and Zaccarin A. "Moving cast shadow detection from a
Gaussian mixture shadow model" [Article] // IEEE Computer Society Conference on
Computer Vision and Patter Recognition. - 2005. - pp. 643-648 : Vol. 2.
Massey M. and Bender W. "Salient stills: Process and Practicei" [Report].
McFarlane N. and Schopfield C. "Segmentation and tracking of piglets in
images" [Article] // Machine Vision and Applications 8(3). - 1995. - pp. 187-193.
McIvor Alan Backgroud subtraction techniques [Report]. - [s.l.] : Proceedings of
Image and Vision Computing, 2000.
McKenna J. S. [et al.] "Tracking Groups of People" [Article] // Computer Vision
and Image Understanding. - 2000. - pp. 42-56 : Vol. 80.
N Otsu A threshold selection method from gray-level histograms [Article] // Proc.
of IEEE Trans. Systems, Man, and Cybernetics. - 1979. - pp. 62-66.
Oliveira R. J. [et al.] "A Video System for Urban Surveillance: Function
Integration and Evaluation" [Conference]. - [s.l.] : International Workshop on Image
Analysis for Multimedia Interactive Systems, 2004.
Piccardi M. "Background Subtraction Techniques: A Review". - [s.l.] : IEEE
Proc. SMC, 2004. - Vol. 4. - pp. 3099-3104.
Pun T "A new method for gray-level picture thresholding using the entropy of the
histogram" [Artigo] // Signal Processing. - 1980. - 2 ed.. - pp. 223-237.
Rosin Paul L. and Ellis T. "Image difference threshold strategies and shadow
detection" [Conference]. - Birmingham : 6th British Machine Vision Conf., 1995. - pp.
347-356.
107
Rother C. and Nagel H.-H. "Analysing the Localisation of Road Vehicles for
Tracking" [Journal]. - Stockholm, Sweden : Royal Institute of Technology (KTH),
2000.
Salvador E., Cavallaro A. and Ebrahimi T. "Cast shadow segmentation using
invariant color features" [Article] // Computer Vision and Image Understanding. -
2004. - pp. 238-259 : Vol. 95.
Schoepflin T. N. and Dailey D. J. "Algorithms for Estimating Mean Vehicle
Speed Using Uncalibrated Traffic Management Cameras" [Journal]. - Seattle,
Washington : University of Washington, 2003.
Seki M., Wada T. F. and Sumi H. K. "Background Subtraction Based on
Cooccurrence of Image Variations" [Conference]. - [s.l.] : Computer Vision and Pattern
Recognition, 2003. - pp. 65-72.
Sminchiescu C. and Telea A. "Human pose estimation from silhouettes. A
consistent approach using distance level sets" [Conference]. - [s.l.] : WSCG
International Conference on Computer Graphics, 2002.
Stauffer C. and Grimson W. E. L. "Adaptative Background Mixture Models for
Real-Time Tracking" [Conference]. - [s.l.] : Proc. IEEE Int'l Conf. on Computer Vision
and Pattern Recognition, 1999. - pp. 246-252.
Szemberg F. and Gattass M. "Acompanhamento de Cenas com Calibração
Automática de Câmeras" [Article] // Dissertação de Doutorado. - 2001. - PUC-RIO.
Tai J. C. and Song K. T. "Background Segmentation and its Application to
Traffic Monitoring Using Modified Histogram" [Journal]. - [s.l.] : IEE, International
Conference of Networking, Sensing & Control, 2004.
Tan T. N. and Baker K. D. “Efficient image gradient based vehicle localization"
[Article] // IEEE Transactions on Image Processing. - 2000. - 8. - pp. 1343–1356, : Vol.
9.
Terzopoulos D. and Szeliski R. “Tracking with kalman snakes” [Journal]. -
[s.l.] : Active Vision, MIT Press, 1992. - pp. 3–20..
108
Toth D. [et al.] "Detection of moving shadows using mean shift clustering and a
significance test" [Article] // IEEE International Conference on Pattern Recognition. -
2004. - pp. 260-263 : Vol. 4.
Toyama K. [et al.] "Wallflower: Principles and practice of background
maintenance" [Conference]. - [s.l.] : Proceedings of IEEE International Conference on
Computer Vision, 1999. - pp. 255-261.
Wai-Sing B. [et al.] "Explicit Contour Model For Vehicle Tracking With
Automatic Hypothesis Validation" [Journal]. - Pokfulam, Hong Kong : Department of
Computer Science, The University of Hong Kong.
Wang H. and Suter D. "A Re-evaluation of Mixture of Gaussian Background
Modeling" [Article] // IEE Proc. ICASSP. - 2005. - 2. - pp. 1017 - 1020 : Vol. 2.
Wang Y., Tan T. and Loe K.-F. "A probabilistic method for foreground and
shadow segmentation" [Article] // IEEE International Conference on Image
Processing. - 2003. - pp. 937-940 : Vol. 3.
Wren C. R. [et al.] "PFinder: real-time tracking of the human body" [Article] //
IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1997. - no. 7, pp.
780-785 : Vol. 19.
Xu D. [et al.] "Cast Shadow detection in video segmentation" [Article] // Pattern
Recognition Letters. - 2005. - pp.91-99 : Vol. 26.
Yang Y. H. and Levinic M. D. "The Background Primal Sketch: An Approach
for tracking moving objects" [Journal]. - [s.l.] : Machine Vision and Applications,
1992. - Vol. 5.
Yoneyama A., Yeh C. H. and Kuo C.-C. J. "Robust Vehicle and Traffic
Information Extraction for Highway Surveillance" [Journal]. - [s.l.] : EURASIP, 2005.
Zhao Ming, Bu Jiajun and Chen Chun "Robust background subtraction in HSV
color space" [Report]. - China : School of Computer Science, Zhejiang University,
Hangzhou.
109
Zhong Y., Jain A. K. and Dubuisson-Jolly M. P. "Object tracking using
deformable templates” [Article] // IEEE Transactions on Pattern Analysis and Machine
Intelligence. - 2000. - pp. 544–549 : Vol. 22.