Download ppt - Sumarização Automática de Vídeos Edward Cayllahua [email protected]

Sumarização Automática de Vídeos

Edward [email protected]

Introdução

• Sumarização de vídeo é o processo de extração de um resumo do conteúdo original do vídeo.

• O objetivo é fornecer rapidamente a informação do conteúdo do vídeo, preservando a mensagem do vídeo original

• Eles permitem ao usuário uma navegação rápida de vídeo e recuperação de conteúdo.

Introdução

• Sumarizaçao de vídeo implica extrair uma amostra de frames.

• Essas amostras são então juntadas respeitandosua seqüência de tempo.

• Consiste em se-selecionar as porções pequenas mais relevantes de áudioe vídeo, a fim de gerar o resumo de vídeo.

Problema

•A fim de gerar um resumo perfeito o modelo teria que realizar uma boa compreenção da semântica do vídeo.

•A compreenção da semântica é uma tarefa muito complexa e ainda está muito além da inteligência dos atuais sistemas de computação

Definições

• Vídeo: É uma sequencia do frames, geralmente consiste de cenas.

• Cena: cada cena inclui um ou mais shots

• Shot: é um segmento ininterrupto de seqüência de quadros(frames) de vídeo

• Frame é uma imagem do vídeo

Anatomia de um Vídeo

• Keyframe based summarization: Keyframe

• Skimming based summarization: eles fazem uso de informações do shot.

Modelos

• Modelos baseados em informação visual, recursos como histograma de cores, movimento, etc. [3] [6] [8] .

• Informação Visual e de Áudio como discriminante. [5] [2] [7].

• Informação Visual, audio e Textual(filmes e series) [1] [4].

Trabalhos Relacionados

Summarizing Video Sequences Through

Histogram Evolution

• O conceito de evolução de histograma é usado para summarização de vídeo [8].

Modelo

• Histograma são amplamente utilizados em visão computacional.

• Elas descrevem as características de cor quando aplicada a um frame de vídeo.

• O modelo usa histogramas RGB , mas também pode trabalhar em cinza.

Extração de histograma

• Empiricamente, descobrimos que os melhores resultados foram obtidos com 16 bins por cada canal de cor.

• O histograma é extraído e salvo em um vetor.

Extração de histograma

• O vetor obtido (Histrograma) é de alta dimensionalidade.

• Método PCA é executado ao longo desse vetor, a fim de reduzir a dimensão .

• Cada frame seria representado como um único ponto a ser plotado em um espaço 2D.

Redução de dimensão

Redução de dimensão

• Identificamos os shots que podem ocorrer no vídeo

• Usamos o Método de Fuzzy C means ao nosso espaço 2D de valores computados naúltima etapa.

Detecção de shots

• O Fuzzy C-means é um algoritmo popular paraclassificação, e é usado em reconhecimento de padrões e problemas de processamento de imagens.

• O modelo considera a detecção de shot como um problema de classificação.

• Frames análogos serão agrupados em um cluster

Fuzzy C-Means

Fuzzy C Means

• depois de detectar os clusters, extraímos o frame mais próximo para cada classe, este frame será marcado como um keyframe

• Uma vez que tenhamos detectado todos os keyframes, extraímos uma vizinhança de até 30 frames que rodeiam cada keyframe.

Vídeo final

• O Fuzzy C-Means precisa conhecer a priori o número de clusters.

• Um usuario deve forneçer o número possivel de shots.

• O processo não é completamente automático.

• ¿Por qué o PCA só reduz a dimensão a 2D?

Problemas do Modelo

• Propomos o uso do Fuzzy-ART para encontrar automaticamente o número de shots.

• Verificamos a variância dos componentes principais e só escolhemos aqueles com uma variância superior a 50%.

Modelo Proposto

Modelo Proposto

• Vídeos geralmente contêm mais de 400 frames éimpossível mostrar toda a seqüência de um vídeo.

• Extraídos de «Open Video Project» (http://www.open-video.org)

• O «Open Video Project» fornece um storyboard, assim é possivel fazer comparações

Teste e Resultados

http://www.open-video.org/

OPEN VIDEOSTORYBOARD

OURSTORYBOARD


OURSTORYBOARD


OURSTORYBOARD


OURSTORYBOARD


OURSTORYBOARD

Tabela de testes

• Dado que o modelo so usa o histograma de cor, ele herda suas desvantagens.

– O descriptor não usa informaçao espacial.

– Ele é sensível mudanças de intensidade de iluminação.

Problemas

• A partir dos resultados obtidos dos testes o modelo é eficaz quando encontrar os keyframes e não é computacionalmente caro.

• Nenhum modelo formal foi criado para avaliarresumos de vídeo.

• Informação de cor, não é suficiente para nos fornecer informações discriminativas

Conclusões

• Usar informação espacial ou de textura que podem ser extraídos usando algoritmos não computacionalmente caros.

• Avaliar outros métodos de clustering: X means.

Trabalho futuro

Referências• [1] B.-W. Chen, J.-C. Wang, and J.-F. Wang. A novel video sum-marization based on mining the story-structure and semantic relations among concept entities. IEEE Transactions on Multimedia, 11:295–312, February 2009.

• [2] F. Chen, M. Cooper, and J. Adcock. Video summarization preserving dynamic content. In International Workshop on TRECVID video summarization, TVS ’07, pages 40–44, New York, NY, USA, 2007. ACM.

• [3] R. Laganière, P. Lambert, and B. E. Ionescu. Video sum-marization from spatio-temporal features. ACM Workshop on Video Summarization, ACM, 2008.

• [4] L. Li, K. Zhou, G.-R. Xue, H. Zha, and Y. Yu. Video summa-rization via transferrable structured learning. In International conference on World wide web, WWW ’11, pages 287–296, New York, NY, USA, 2011. ACM.

• [5] J. Nam and A. H. Tewfik. Dynamic video summarization and visualization. In Proceedings of the seventh ACM inter-national conference on Multimedia (Part 2), MULTIMEDIA ’99, pages 53–56, New York, NY, USA, 1999. ACM.

• [6] W. Ren and Y. Zhu. A video summarization approach based on machine learning. In Intelligent Information Hiding and Multimedia Signal Processing, 2008. IIHMSP ’08 International Conference on, pages 450 –453, 2008.

• [7] C. wah Ngo, Y. fei Ma, and H. jiang Zhang. Automatic video summarization by graph modeling. In IEEE International Conference on Computer Vision, pages 104–109, 2003.

• [8] T. Wan and Z. Qin. A new technique for summarizing video sequences through histogram evolution. In Signal Processing and Communications (SPCOM), 2010 International Conference on, pages 1 –5, july 2010.