Visualização de Texto e Documento
SCC5836 – Visualização Computacional
Prof. Fernando V. Paulovichhttp://www.icmc.usp.br/~paulovic
Instituto de Ciências Matemáticas e de Computação (ICMC)Universidade de São Paulo (USP)
1 / 39
Sumário
1 Introdução
2 Modelo de Espaço Vetorial
3 Visualização de Documento
4 Visualização de Coleções de Documentos
5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos
6 Referências
2 / 39
Introdução
Existe uma grande quantidade de informação disponível naforma de documentos que precisa de ferramentas para poderser explorada
Páginas Web
Artigos científicosNotícias de jornalPatentesetc.
3 / 39
Introdução
Existe uma grande quantidade de informação disponível naforma de documentos que precisa de ferramentas para poderser explorada
Páginas WebArtigos científicos
Notícias de jornalPatentesetc.
4 / 39
Introdução
Existe uma grande quantidade de informação disponível naforma de documentos que precisa de ferramentas para poderser explorada
Páginas WebArtigos científicosNotícias de jornal
Patentesetc.
5 / 39
Introdução
Existe uma grande quantidade de informação disponível naforma de documentos que precisa de ferramentas para poderser explorada
Páginas WebArtigos científicosNotícias de jornalPatentes
etc.
6 / 39
Introdução
Existe uma grande quantidade de informação disponível naforma de documentos que precisa de ferramentas para poderser explorada
Páginas WebArtigos científicosNotícias de jornalPatentesetc.
7 / 39
Introdução
Uma coleção de documentos pode ser definida como umcorpus composto de objetos como
PalavrasSentençasParágrafosDocumentosColeções de documentos
Documentos podem ter associados metadados (autor, data,tamanho, citações, etc.)
8 / 39
Introdução
Uma coleção de documentos pode ser definida como umcorpus composto de objetos como
PalavrasSentençasParágrafosDocumentosColeções de documentos
Documentos podem ter associados metadados (autor, data,tamanho, citações, etc.)
9 / 39
Introdução
Podemos definir documentos textuais em diferentes níveis
Nível léxico: identificação de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.Nível sintático: identificação e anotação dos tokens, como,posição, classe, gênero - esse processo é conhecido comoreconhecimento de entidadeNível Semântico: extração de significado e relacionamentosentre peças de conhecimento derivadas das estruturas sintáticas
10 / 39
Introdução
Podemos definir documentos textuais em diferentes níveisNível léxico: identificação de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.
Nível sintático: identificação e anotação dos tokens, como,posição, classe, gênero - esse processo é conhecido comoreconhecimento de entidadeNível Semântico: extração de significado e relacionamentosentre peças de conhecimento derivadas das estruturas sintáticas
11 / 39
Introdução
Podemos definir documentos textuais em diferentes níveisNível léxico: identificação de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.Nível sintático: identificação e anotação dos tokens, como,posição, classe, gênero - esse processo é conhecido comoreconhecimento de entidade
Nível Semântico: extração de significado e relacionamentosentre peças de conhecimento derivadas das estruturas sintáticas
12 / 39
Introdução
Podemos definir documentos textuais em diferentes níveisNível léxico: identificação de processamento de tokens, como,caracteres, palavras, n-grams, frases, etc.Nível sintático: identificação e anotação dos tokens, como,posição, classe, gênero - esse processo é conhecido comoreconhecimento de entidadeNível Semântico: extração de significado e relacionamentosentre peças de conhecimento derivadas das estruturas sintáticas
13 / 39
Sumário
1 Introdução
2 Modelo de Espaço Vetorial
3 Visualização de Documento
4 Visualização de Coleções de Documentos
5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos
6 Referências
14 / 39
Modelo de Espaço Vetorial
No modelo de espaço vetorial, um vetor é construído paracada objeto cujas dimensões representam palavras e suasfrequências ponderadas
Normalmente ruído é removido eliminando stopwords e aspalavras restantes são lematizadas
Existem diversos esquemas de ponderação, o mais conhecido éo term frequency inverse document frequency (tf-idf)
tfidf (w) = tf (w)∗ log(
ndf (w)
)com tf (w) a frequência do termo w, df (w) o número dedocumentos que contém w e n o número de documentos
15 / 39
Modelo de Espaço Vetorial
No modelo de espaço vetorial, um vetor é construído paracada objeto cujas dimensões representam palavras e suasfrequências ponderadas
Normalmente ruído é removido eliminando stopwords e aspalavras restantes são lematizadas
Existem diversos esquemas de ponderação, o mais conhecido éo term frequency inverse document frequency (tf-idf)
tfidf (w) = tf (w)∗ log(
ndf (w)
)com tf (w) a frequência do termo w, df (w) o número dedocumentos que contém w e n o número de documentos
16 / 39
Modelo de Espaço Vetorial
No tfidf importância de um termo em um documento édiretamente proporcional a sua frequência (tf (w)) nesse einversamente proporcional a seu aparecimento nos outrosdocumentos (df (w))
17 / 39
Sumário
1 Introdução
2 Modelo de Espaço Vetorial
3 Visualização de Documento
4 Visualização de Coleções de Documentos
5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos
6 Referências
18 / 39
Visualização de Documento
Documentos podem ser individualmente visualizados em níveisléxicos e sintáticos
19 / 39
Tag Clouds
Na representação de tag clouds, tokens são coloridos e temtamanho proporcional a sua frequência
(a)
(b)
Figura: Representações usando (a) TagCrowd e (b) Wordle.
20 / 39
WordTree
Na técnica WordTree a frequência e o contexto dos termos sãoapresentados por meio de uma árvore cuja raiz é um termoescolhido pelo usuário
http://www-958.ibm.com/software/data/cognos/manyeyes/visualize/testimony-of-william-jefferson-cli/versions/1
21 / 39
TextArc
Na técnica TextArc frases de um texto são desenhadas naborda de uma elipse, os termos mais frequentes sãodesenhados dentro dela e ligações entre os termos e as frasessão apresentadas
http://www.textarc.org/
22 / 39
ArcDiagrams
A técnica ArcDiagram pode ser usada para identificarrepetições de tokens dentro de um texto
Figura: Visualização do Minueto em Sol maior de Bach.
23 / 39
Literature Fingerprints
Na Literature Fingerprints características são extraídas deblocos de texto dentro de diferentes documentos e apresentadascomo heatmaps
Diferentes níveis de resolução podem ser analisados
Figura: Representação usando como característica a média do tamanho desentenças em blocos de texto. É possível diferenciar os autores.
24 / 39
Sumário
1 Introdução
2 Modelo de Espaço Vetorial
3 Visualização de Documento
4 Visualização de Coleções de Documentos
5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos
6 Referências
25 / 39
Visualização de Coleções de Documentos
Na maioria das visualizações de coleções de documentos oobjetivo é posicionar os documentos similares próximos noespaço visual
Abordagens que podem ser usadas incluem MDS e SOM
26 / 39
Self Organizing Maps
O Self Organizing Mas (SOM) é um método nãosupervisionado onde nós 2D são definidos e os documentos sãoassinalados a esses em um processo iterativo
27 / 39
Themescapes
A técnica Themescape representa uma coleção de documentoscomo uma paisagem cuja altura e cor são usadas para definirregiões de alta densidade (documentos similares)
28 / 39
Document Cards
A técnica Document Cards tenta representar um documentopor meio das suas características mais relevantes (imagens,texto, etc.)
29 / 39
Sumário
1 Introdução
2 Modelo de Espaço Vetorial
3 Visualização de Documento
4 Visualização de Coleções de Documentos
5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos
6 Referências
30 / 39
Sumário
1 Introdução
2 Modelo de Espaço Vetorial
3 Visualização de Documento
4 Visualização de Coleções de Documentos
5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos
6 Referências
31 / 39
Visualização de Software
O sistema SeeSoft representa cada linha de código como umpixel em uma linha e diferentes propriedades podem sermapeadas para cor do pixel
32 / 39
Sumário
1 Introdução
2 Modelo de Espaço Vetorial
3 Visualização de Documento
4 Visualização de Coleções de Documentos
5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos
6 Referências
33 / 39
Visualização de Resultados de Busca
A visualização TileBars apresenta estatísticas sobredocumentos retornados em uma busca (frequência, distribuição,etc. de termos) por meio de display de pixels
34 / 39
Sumário
1 Introdução
2 Modelo de Espaço Vetorial
3 Visualização de Documento
4 Visualização de Coleções de Documentos
5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos
6 Referências
35 / 39
ThemeRiver
A técnica ThemeRiver apresenta mudanças temáticas emcoleções de documentos com o passar do tempo usando umametáfora de correntes em um rio
36 / 39
Representando Ligações
O sistema Jigsaw apresenta uma tipo de visualização baseadoem grafos onde entidades são relacionadas a documentos
37 / 39
Sumário
1 Introdução
2 Modelo de Espaço Vetorial
3 Visualização de Documento
4 Visualização de Coleções de Documentos
5 Visualização de Texto EstendidaVisualização de SoftwareVisualização de Resultados de BuscaVisualização Temporal de Coleção de Documentos
6 Referências
38 / 39
Referências
Ward, M., Grinstein, G. G., Keim, D. Interactive datavisualization foundations, techniques, and applications.Natick, Mass., A K Peters, 2010.
39 / 39