Interface Web para o projeto: Sumarização Automática Multidocumento para o Português do Brasil com Base na Teoria de Estruturação Multidocumento CST (Cross-document StructureTheory)
Pedro Paulo Balage Filho
1
Introdução
� Cenário do projeto
2
Textos-fonte sobre
um mesmo tópico
Sumário
SAM
Usuário/leitor
Buscador de notícias
Arquitetura do Processo de Sumarização
4
Seleção de Textos
•Recuperação de Documentos por tópico•Agrupamento de Documentos em sub-tópicos
Análise
•Análise CST dos textos de entrada•Segmentação e detecção topical•Resolução de expressões temporais•Resolução de correferências
Transformação
•Seleção de conteúdo relevante•Ranqueamento da informação
Síntese
•Fusão de informações•Ordenação de sentenças•Seleção de expressões referenciais
Apresentação do Sumário Final
•Indexação de termos/sentenças/entidades•Formas de apresentação do sumário
Arquitetura do Processo de Sumarização
5
Seleção de Textos
Recuperação de Documentos por
tópico
Sistema Web(Pedro)
Agrupamento de Documentos em sub-tópicos
Sistema Web (Pedro) /Sistema Newshead (Felipe)
Arquitetura do Processo de Sumarização
6
Análise
Segmentação e detecção topical
Ferramentas para análise: segmentação e detecção topical
(Luis)
Resolução de expressões temporais
Ferramentas para análise: resolução de
expressões temporais, etc. (Luis)
Resolução de correferências
Resolução de correferências multidocumento
(Jefferson)
Análise CST dos textos de entrada
Métodos para análise CST automática
(Erick)
Arquitetura do Processo de Sumarização
7
TransformaçãoSeleção de conteúdo
relevante e ranqueamento da informação
Experimento com modelos simples de sumarização
(Wilker)
Seleção de conteúdo com base em relações
CST(Lucia)
Métodos de sumarização baseados em grafos e
preferências de sumarização (Takeo)
Métodos de sumarização baseados em redes complexas (Rafael)
Uso de conhecimento semântico na sumarização multidocumento (Paula)
Aplicação de aprendizado de máquina para produção de sumários multidocumento
(Verônica)
Arquitetura do Processo de Sumarização
8
Síntese
Fusão de informações
Etapa envolvida com a Seleção de conteúdo relevante e
ranqueamento da informação (Lucia, Paula, Verônica, Rafael,
Takeo, Wilker)
Ordenação de sentençasOrdenação de sentenças em sumários multidocumento
(Marco)
Seleção de expressões referenciais
Ferramentas para síntese e apresentação de sumários:
expressões referenciais (Jader)
Arquitetura do Processo de Sumarização
9
Apresentação do Sumário Final
Indexação de termos/sentenças/entidades; Formas de apresentação do
sumário
Ferramentas para síntese e apresentação de sumários: síntese de voz, navegação sumários-textos, etc. (Jader)
Alinhamentos textos-sumários (Wilker)
c
Arquitetura do Sistema WebSeleção de Textos
10
Tela Principal
Termo de
pesquisa
Recuperação de documentos por
tópico
Agrupamento de documentos em sub-tópicosConteúdo dos
documentos
recuperados
Apresentação dos resultados ao usuário
Iteração do usuário
com os textos
recuperados
Sumarizar
Sistema
Newshead
Arquitetura do Sistema WebSeleção de Textos
11
Seleção das características de sumarização
Extração de informações dos documentos
Processamento pelo PALAVRAS
Opções para
sumarização
Sumarizar
•Tipo de sumarização
• Operador para
sumarização CST
•Taxa de Compressão
•Etc...
Texto; Título; Data; Seções
Arquivo parameters.txt
Documentos
XML
Documentos em formato
XMLTexto
Anotação
XML
Anotação PALAVRAS em
XMLAnotação Morfo-
Sintátiica
Segmentação textual do PALAVRAS
Textos em sentenças
Segmentação textual do PALAVRAS
Textos em sentenças
12
Seleção das características de sumarização
Extração de informações do
texto
Processamento pelo PALAVRAS
Opções para
sumarização
Sumarizar
•Tipo de sumarização
• Operador para
sumarização CST
•Taxa de Compressão
•Etc...
Texto; Título; Data; Seções
Arquivo parameters.txt
Texto em formato XMLTexto
Anotação
XML
Anotação PALAVRAS em
XMLAnotação Morfo-
Sintátiica
Arquitetura do Sistema WebSeleção de Textos
13
Seleção das características de sumarização
Extração de informações do
texto
Processamento pelo PALAVRAS
Opções para
sumarização
Sumarizar
•Tipo de sumarização
• Operador para
sumarização CST
•Taxa de Compressão
•Etc...
Texto; Título; Data; Seções
Arquivo parameters.txt
Texto
Anotação
XML
Anotação PALAVRAS em
XMLAnotação Morfo-
Sintátiica
Documentos
XML
Documentos em formato
XML
Arquitetura do Sistema WebSeleção de Textos
Arquivo parameters.txt
14
Seleção das características de sumarização
Extração de informações do
texto
Processamento pelo PALAVRAS
Opções para
sumarização
Sumarizar
•Tipo de sumarização
• Operador para
sumarização CST
•Taxa de Compressão
•Etc...
Texto; Título; Data; Seções
Texto em formato XMLTexto
Anotação Morfo-
Sintátiica
Anotação
XML
Anotação PALAVRAS em
XML
Arquitetura do Sistema WebSeleção de Textos
15
Seleção das características de sumarização
Extração de informações do
texto
Processamento pelo PALAVRAS
Opções para
sumarização
Sumarizar
•Tipo de sumarização
• Operador para
sumarização CST
•Taxa de Compressão
•Etc...
Texto; Título; Data; Seções
Arquivo parameters.txt
Texto em formato XMLTexto
Anotação
XML
Anotação PALAVRAS em
XMLAnotação Morfo-
Sintátiica
Segmentação textual do PALAVRAS
Textos em sentenças
Arquitetura do Sistema WebSeleção de Textos
Arquitetura do Sistema WebAnálise
16
Arquivo parameters.txt
Documentos em formato XML Tópicos
do texto
Anotação PALAVRAS em XML
Textos em sentenças
Arquivos produzidos pela
Seleção de Textos
Detecção topicalFerramentas para
análise: resolução de expressões temporais
Resolução de correferências multidocumento
Métodos para análise CST automática
Modificações no XML dos documento
Expressões
temporais
Modificações no XML dos documento
Modificações no XML dos documento
Coreferências
presentes no
texto
Jefferson
Luis
Erick
Anotação CST dos documentosRelações CST
entre
Sentenças
Arquitetura do Sistema WebAnálise
17
Arquivo parameters.txt
Documentos em formato XML Tópicos
do texto
Anotação PALAVRAS em XML
Textos em sentenças
Arquivos produzidos pela
Seleção de Textos
Detecção topicalFerramentas para
análise: resolução de expressões temporais
Resolução de correferências multidocumento
Métodos para análise CST automática
Modificações no XML dos documento
Expressões
temporais
Modificações no XML dos documento
Modificações no XML dos documento
Coreferências
presentes no
texto
Jefferson
Luis
Erick
Anotação CST dos documentosRelações CST
entre
Sentenças
Arquitetura do Sistema WebTransformação e Síntese
18
Arquivo parameters.txt
Documentos em formato XML
Anotação PALAVRAS em XML
Textos em sentenças
Arquivos produzidos pela
Seleção e Análise de Textos
Anotação CST dos documentos
Seleção de conteúdo com base em relações
CST
Métodos de sumarização baseados em grafos e
preferências de sumarização
Métodos de sumarização baseados em redes complexas
XML de seleção de sentenças para o
sumário
Lucia
Seleção de conteúdo relevante
XML de seleção de sentenças para o
sumário
Wilker
Experimento com modelos simples de
sumarização
Seleção de conteúdo relevante
XML de seleção de sentenças para o
sumário
Rafael
Seleção de conteúdo relevante
XML de seleção de sentenças para o
sumário
Takeo
Seleção de conteúdo relevante
Arquitetura do Sistema WebTransformação e Síntese
19
Arquivo parameters.txt
Documentos em formato XML
Anotação PALAVRAS em XML
Textos em sentenças
Arquivos produzidos pela
Seleção e Análise de Textos
Anotação CST dos documentos
Uso de conhecimento semântico na sumarização
multidocumento
Aplicação de aprendizado de máquina
para produção de sumários
multidocumento
XML de seleção de sentenças para o
sumário
Paula
Seleção de conteúdo relevante
XML de seleção de sentenças para o
sumário
Verônica
Seleção de conteúdo relevante
Arquitetura do Sistema WebTransformação e Síntese
20
Arquivo parameters.txt
Documentos em formato XML
Anotação PALAVRAS em XML
Textos em sentenças
Arquivos produzidos pela
Seleção e Análise de Textos
Anotação CST dos documentos
Uso de conhecimento semântico na sumarização
multidocumento
Aplicação de aprendizado de máquina
para produção de sumários
multidocumento
XML de seleção de sentenças para o
sumário
Paula
Seleção de conteúdo relevante
Verônica
Seleção de conteúdo relevante
XML de seleção de sentenças para o
sumário
Arquitetura do Sistema WebSíntese
21
Arquivo parameters.txt
Documentos em formato XML
Anotação PALAVRAS em XML
Textos em sentenças
Arquivos produzidos pela s
fases anteriores
Anotação CST dos documentos
Ordenação de sentenças em sumários
multidocumento
XML de seleção de sentenças para o
sumário modificado
Marco
XML de seleção de sentenças para o sumário
Sumário
Ferramentas para síntese e apresentação
de sumários: expressões referenciais
XML de seleção de sentenças para o
sumário modificado
Jader
Sumário
Sumário
Arquitetura do Sistema WebSíntese
22
Arquivo parameters.txt
Documentos em formato XML
Anotação PALAVRAS em XML
Textos em sentenças
Arquivos produzidos pela s
fases anteriores
Anotação CST dos documentos
Ordenação de sentenças em sumários
multidocumento
XML de seleção de sentenças para o
sumário modificado
Paula
XML de seleção de sentenças para o sumário
Sumário
Ferramentas para síntese e apresentação
de sumários: expressões referenciais
XML de seleção de sentenças para o
sumário modificado
Jader
Sumário
Sumário
Arquitetura do Sistema WebApresentação do Sumário Final
23
Arquivo parameters.txt
Documentos em formato XML
Anotação PALAVRAS em XML
Textos em sentenças
Arquivos produzidos pelas
fases anteriores
Anotação CST dos documentos
Ferramentas para síntese e apresentação de sumários: síntese de voz, navegação sumários-textos, etc.
Jader
XML de seleção de sentenças para o sumário
Sumário
Alinhamentos textos-sumários
Wilker
Ferramenta de visualização de alinhamento de Textos-Sumários
Ferramentas para apresentação de sumários