Sumarização Automática de Vídeos
Edward [email protected]
Introdução
• Sumarização de vídeo é o processo de extração de um resumo do conteúdo original do vídeo.
• O objetivo é fornecer rapidamente a informação do conteúdo do vídeo, preservando a mensagem do vídeo original
• Eles permitem ao usuário uma navegação rápida de vídeo e recuperação de conteúdo.
Introdução
• Sumarizaçao de vídeo implica extrair uma amostra de frames.
• Essas amostras são então juntadas respeitandosua seqüência de tempo.
• Consiste em se-selecionar as porções pequenas mais relevantes de áudioe vídeo, a fim de gerar o resumo de vídeo.
Problema
•A fim de gerar um resumo perfeito o modelo teria que realizar uma boa compreenção da semântica do vídeo.
•A compreenção da semântica é uma tarefa muito complexa e ainda está muito além da inteligência dos atuais sistemas de computação
Definições
• Vídeo: É uma sequencia do frames, geralmente consiste de cenas.
• Cena: cada cena inclui um ou mais shots
• Shot: é um segmento ininterrupto de seqüência de quadros(frames) de vídeo
• Frame é uma imagem do vídeo
Anatomia de um Vídeo
• Keyframe based summarization: Keyframe
• Skimming based summarization: eles fazem uso de informações do shot.
Modelos
• Modelos baseados em informação visual, recursos como histograma de cores, movimento, etc. [3] [6] [8] .
• Informação Visual e de Áudio como discriminante. [5] [2] [7].
• Informação Visual, audio e Textual(filmes e series) [1] [4].
Trabalhos Relacionados
Summarizing Video Sequences Through
Histogram Evolution
• O conceito de evolução de histograma é usado para summarização de vídeo [8].
Modelo
• Histograma são amplamente utilizados em visão computacional.
• Elas descrevem as características de cor quando aplicada a um frame de vídeo.
• O modelo usa histogramas RGB , mas também pode trabalhar em cinza.
Extração de histograma
• Empiricamente, descobrimos que os melhores resultados foram obtidos com 16 bins por cada canal de cor.
• O histograma é extraído e salvo em um vetor.
Extração de histograma
• O vetor obtido (Histrograma) é de alta dimensionalidade.
• Método PCA é executado ao longo desse vetor, a fim de reduzir a dimensão .
• Cada frame seria representado como um único ponto a ser plotado em um espaço 2D.
Redução de dimensão
Redução de dimensão
• Identificamos os shots que podem ocorrer no vídeo
• Usamos o Método de Fuzzy C means ao nosso espaço 2D de valores computados naúltima etapa.
Detecção de shots
• O Fuzzy C-means é um algoritmo popular paraclassificação, e é usado em reconhecimento de padrões e problemas de processamento de imagens.
• O modelo considera a detecção de shot como um problema de classificação.
• Frames análogos serão agrupados em um cluster
Fuzzy C-Means
Fuzzy C Means
• depois de detectar os clusters, extraímos o frame mais próximo para cada classe, este frame será marcado como um keyframe
• Uma vez que tenhamos detectado todos os keyframes, extraímos uma vizinhança de até 30 frames que rodeiam cada keyframe.
Vídeo final
• O Fuzzy C-Means precisa conhecer a priori o número de clusters.
• Um usuario deve forneçer o número possivel de shots.
• O processo não é completamente automático.
• ¿Por qué o PCA só reduz a dimensão a 2D?
Problemas do Modelo
• Propomos o uso do Fuzzy-ART para encontrar automaticamente o número de shots.
• Verificamos a variância dos componentes principais e só escolhemos aqueles com uma variância superior a 50%.
Modelo Proposto
Modelo Proposto
• Vídeos geralmente contêm mais de 400 frames éimpossível mostrar toda a seqüência de um vídeo.
• Extraídos de «Open Video Project» (http://www.open-video.org)
• O «Open Video Project» fornece um storyboard, assim é possivel fazer comparações
Teste e Resultados
OPEN VIDEOSTORYBOARD
OURSTORYBOARD
OPEN VIDEOSTORYBOARD
OURSTORYBOARD
OPEN VIDEOSTORYBOARD
OURSTORYBOARD
OPEN VIDEOSTORYBOARD
OURSTORYBOARD
OPEN VIDEOSTORYBOARD
OURSTORYBOARD
Tabela de testes
• Dado que o modelo so usa o histograma de cor, ele herda suas desvantagens.
– O descriptor não usa informaçao espacial.
– Ele é sensível mudanças de intensidade de iluminação.
Problemas
• A partir dos resultados obtidos dos testes o modelo é eficaz quando encontrar os keyframes e não é computacionalmente caro.
• Nenhum modelo formal foi criado para avaliarresumos de vídeo.
• Informação de cor, não é suficiente para nos fornecer informações discriminativas
Conclusões
• Usar informação espacial ou de textura que podem ser extraídos usando algoritmos não computacionalmente caros.
• Avaliar outros métodos de clustering: X means.
Trabalho futuro
Referências• [1] B.-W. Chen, J.-C. Wang, and J.-F. Wang. A novel video sum-marization based on mining the story-structure and semantic relations among concept entities. IEEE Transactions on Multimedia, 11:295–312, February 2009.
• [2] F. Chen, M. Cooper, and J. Adcock. Video summarization preserving dynamic content. In International Workshop on TRECVID video summarization, TVS ’07, pages 40–44, New York, NY, USA, 2007. ACM.
• [3] R. Laganière, P. Lambert, and B. E. Ionescu. Video sum-marization from spatio-temporal features. ACM Workshop on Video Summarization, ACM, 2008.
• [4] L. Li, K. Zhou, G.-R. Xue, H. Zha, and Y. Yu. Video summa-rization via transferrable structured learning. In International conference on World wide web, WWW ’11, pages 287–296, New York, NY, USA, 2011. ACM.
• [5] J. Nam and A. H. Tewfik. Dynamic video summarization and visualization. In Proceedings of the seventh ACM inter-national conference on Multimedia (Part 2), MULTIMEDIA ’99, pages 53–56, New York, NY, USA, 1999. ACM.
• [6] W. Ren and Y. Zhu. A video summarization approach based on machine learning. In Intelligent Information Hiding and Multimedia Signal Processing, 2008. IIHMSP ’08 International Conference on, pages 450 –453, 2008.
• [7] C. wah Ngo, Y. fei Ma, and H. jiang Zhang. Automatic video summarization by graph modeling. In IEEE International Conference on Computer Vision, pages 104–109, 2003.
• [8] T. Wan and Z. Qin. A new technique for summarizing video sequences through histogram evolution. In Signal Processing and Communications (SPCOM), 2010 International Conference on, pages 1 –5, july 2010.