Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à...

Preview:

Citation preview

Reunião PLN-BR 2008Renata Vieira

INTRODUÇÃO

A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica e de discurso. As atividades desenvolvidas e os resultados principais são apresentadas a seguir.

Relatório PLN-BR 2008

1) Elaboração do esquema de anotação XCES Um esquema XML para anotação lingüística seguindo o

padrão XCES foi definido para incorporar anotações de diferentes níveis lingüísticos (sintáticas, de correferência e estruturais).

<struct type="token" from="0" to="1"> <feat name="id" value="t1"/> <feat name="base" value="A"/></struct>....<struct type="token" from="30" to="31"> <feat name="id" value="t7"/> <feat name="base" value="."/></struct>

Arquivo de Codificação das palavras

XCES

<struct type="pos"> <feat name="id" value="pos1"/> <feat name="class" value="art"/> <feat name="gender" value="F"/> <feat name="number" value="S"/> <feat name="canon" value="o"/> <feat name="complement" value="artd"/> <feat name="tokenref" value="t1"/> </struct>....<struct type="pos"> <feat name="id" value="pos6"/> <feat name="class" value="adj"/> <feat name="gender" value="F"/> <feat name="number" value="P"/> <feat name="canon" value="verde"/> <feat name="tokenref" value="t6"/> </struct>

<struct type="text" from="t1" to="t7"/><struct type="sentence" from="t1" to="t7"/> <feat name="id" value="s1"/> <feat name="head" value="t5"/></struct>...<struct type="NP" from="t5" to="t6"> <feat name="id" value="phr3"/> <feat name="function" value="p"/> <feat name="head" value="t5"/></struct>

Arquivo de Informações Estruturais Sintagmáticas

Arquivo de Informações Morfológicas

XCES

<struct type="segment" from="t1" to="t7"/> <feat name="id" value="seg1"/> <feat name="parent" value="gr1"/> <feat name="relname" value="elaboration"/></struct>...<struct type="group"/> <feat name="id" value="gr1"/> <feat name="parent" value="gr2"/> <feat name="relname" value="elaboration"/> <feat name="reltype" value="momonuc"/></struct>

<struct type="markable" from="t1" to="t2"/> <feat name="id" value="markable_1"/> <feat name="status" value="new"/></struct>...<struct type="markable" from="t7" to="t7"/> <feat name="id" value="markable_2"/> <feat name="status" value="old"/> <feat name="is_anaph" value="indirect"/> <feat name="pointer" value="markable_1"/></struct> Arquivo de Relações Retóricas

Arquivo de Informações Anafóricas

Relatório PLN-BR 2008

Um Relatório Técnico descrevendo o esquema elaborado foi escrito. Um pôster sobre questões relacionadas à anotação foi apresentado.

(Souza et al., 2006).

Relatório PLN-BR 2008

2) Elaboração de conversores TigerXML para XCES Markables para XCES

O conversor do formato RST não foi desenvolvido.

Relatório PLN-BR 2008

3) Elaboração de guias de instrução para anotação de correferência de corpus

Diretrizes de anotação foram elaboradas para preparar anotadores para anotação de um sub-corpus do PLN-BR contendo informações de correferência. Um Relatório Técnico foi escrito (Coellho et al., 2006).

Relatório PLN-BR 2008

Construção de corpus anotado Summ-it

Um sub-corpus foi construído e anotado com informações de correferência e relações retóricas (Collovini et al., 2007). O corpus serve de base para pesquisas desenvolvidas em dissertações de mestrado.

Summ-it

O corpus é formado por 50 textos jornalísticos do caderno de ciências retirados da Folha de São Paulo e disponibilizado através do projeto PLN-BR.

Construção do Corpus: Anotação Manual de Correferência 10 anotadores treinados Cada texto foi anotado por 2 pessoas e avaliado por um

anotador sênior. Processamento pelo PALAVRAS: informações

morfossintáticas Geração de Sumários Automáticos: GistSumm e SuPor-2 Construção de Sumários Manuais [Coelho, 2007] Anotação RST

Relatório PLN-BR 2008

5) Experimentos de resolução de correferência

Alguns experimentos envolvendo corpus anotado com informação de correferência foram realizados (Collovini and Vieira, 2006; Collovini and Vieira, 2006a; Collovini and Vieira, 2006b). Esses experimentos apontam para a necessidade de balanceamento de corpus e inclusão de informação semântica para resolução de correferência. Uma próxima fase de anotação irá contemplar a anotação semântica com base no Frame-Net.

Relatório PLN-BR 2008

6) Experimentos com uso de informação semântica

Experimentos de classificação de expressões referenciais foram realizados, avaliando os ganhos de aprendizado quando informações semânticas são consideradas (Coelho et al., 2006a; Vieira et al., 2006; Ribeiro et al., 2007).

Atividades previstas para 2008

1) Construção de interfaces para uso do Parser Palavras e conversores de formatos

2) Elaboração da documentação do conversor de formatos Tiger para XCES

3) Anotação Frame-Net do Summ-it

ACROPOS - Automatic Coreference ResOlution system for POrtugueSe

José Guilherme Souza

Renata Vieira

Objetivo

Resolução Automática Correferência Aprendizado de Máquina: Árvores de Decisão Baseado no Trabalho de Soon et al. 2001 Primeira abordagem de resolução automática de

correferência de sintagmas nominais de qualquer tipo para língua portuguesa.

O sistema seleciona, classifica e agrupa as expressões para montagem das cadeias.

ACROPOS

Treino

Classe Precisão Cobertura F-Measure

Anafórica 78,8 40,1 53,1

Não Anafórica 91,1 98,3 94,5

Teste

Classe Precisão Cobertura F-Measure

Anafórica 78,6 48 59,6

Não Anafórica 92,5 98 95,1

Resultados

ACROPOS

Treino

Classe Precisão Cobertura F-Measure

Anafórica 77,7 74,7 76,2

Não Anafórica 75,76 78,5 77

Teste

Classe Precisão Cobertura F-Measure

Anafórica 33 72,7 45,4

Não Anafórica 94,9 77,4 85,2

Resultados - Balanceamento

ACROPOS

MUC

Sistema Precisão Cobertura F-Measure

ACRoPos 97,14 45,11 57,96

ACRoPos Balanceado 90,30 63,16 74,08

Soon et. al 67,3 58,6 62,6

B3

Sistema Precisão Cobertura F-Measure

ACRoPos 99,31 62,87 76,76

ACRoPos Balanceado 96,20 73,49 83,14

Soon et. al 78,4 58 65,6

Resultados: Análise das Cadeias

ONTOLP: CONSTRUÇÃO SEMI-AUTOMÁTICA DE ONTOLOGIAS A PARTIR DE TEXTOS DA LÍNGUA PORTUGUESA

Mestrando: Luiz Carlos

Orientadora: Renata Vieira

INTRODUÇÃO (OBJETIVO)

Propor e avaliar técnicas para a construção automática de ontologias a partir de textos da língua portuguesa com base em técnicas já desenvolvidas para outras línguas

METODOLOGIA PROPOSTA

Corpus XCES

Extração de Termos

Organização Hierárquica dos

Termos

Taxonomia

•Formato XCES:•Token•PoS

•Morfológico•Semântico (tags semânticas)

•Phrase•Sintático

METODOLOGIA (EXTRAÇÃO DE TERMOS)

Classe GramaticalNúcleo do Sintagma Nominal

Rel. Freq. tf-idf NC-Value

Extração de Termos Simples

Filtro por Grupos Semânticos

Seleção por Grupos Semânticos

N-Grama Sintagma NominalPadrões Morfossintáticos

Extração de Termos Complexos

Rel. Freq. tf-idf NC-ValueC-Value

Rel. Freq.

Corpus XCES

Extração de Termos

Organização Hierárquica dos

Termos

Taxonomia

METODOLOGIA (ORGANIZAÇÃO HIERÁRQUICA DOS TERMOS)

Termos Complexos

Padrões de Morin/Jacquemin

Padrões de Hearst

Corpus XCES

Extração de Termos

Organização Hierárquica dos

Termos

Taxonomia

ONTOLP

Armazenadoem Disco

Armazenadoem Memória

Armazenadoem Memória

Armazenadaem Memória

Módulo de Importação do

Corpus (API XCES)

Módulo de Filtro por Grupos SemânticosMódulo de

Extração de Termos Simples

Módulo de Extração de

Termos Complexos

Módulo de Organização por

Termos Complexos

Módulo de Organização baseada

nos Padrões de Hearst e

Morin/Jacquemin

Protégé

CONSIDERAÇÕES FINAIS

Principal Dificuldade: Escassez de recursos de avaliação

Principais Contribuições: Avaliação do uso de informações semânticas

na construção de ontologias para o Português Criação de uma ferramenta de uso geral para

auxílio ao processo de construção de ontologias

Desenvolvimento dos módulos de avaliação automática das etapas executadas

CORREFSUM: REVISÃO DE COESÃO REFERENCIAL EM SUMÁRIOS EXTRATIVOS

Mestrando: Patricia Nunes Gonçalves

Orientadora: Renata Vieira

Foco do Trabalho

O foco deste trabalho é na análise e na recuperação da coesão referencial nos sumários extrativos que utilizam a escolha de sentenças de maior relevância do texto para compor o sumário.

OBJETIVOS

Objetivo geral é enriquecer os sumários extrativos com a aplicação de resolução de correferência utilizando a recuperação de expressões referenciais mais completas nos textos-fonte.

Tarefas Realizadas: Geração de Sumários Automáticos – GistSumm e SuPor-2 Realizar a revisão da coesão referencial automática

desses sumários Avaliar os sumários revisados de forma automática –

Rouge Avaliar os sumários revisados de forma subjetiva Realizar experimentos usando anotação automática de

correferência.

FERRAMENTAS E RECURSOS

Palavras [Bick,2002] MMAX[Muller and Strube, 2000] GistSumm[Pardo,2005] Supor-2[Leite,2007] Corpus Summ-it[Collovini et al, 2007] Rouge[Lin, 2004]

Programa de Pós-Graduação em Computação Aplicada 31

EXEMPLO

[S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia.

[S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina).

[S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

[S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare.

[S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra.

[S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional.

[S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno.

[S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura.

CIENCIA_2000_6389

Programa de Pós-Graduação em Computação Aplicada 32

EXEMPLO

[S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia.

[S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina).

[S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

[S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare.

[S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra.

[S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional.

[S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno.

[S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura.

CIENCIA_2000_6389

Programa de Pós-Graduação em Computação Aplicada 33

EXEMPLO

[S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia.

[S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina).

[S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

[S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare.

[S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra.

[S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional.

[S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno.

[S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura.

CIENCIA_2000_6389

Programa de Pós-Graduação em Computação Aplicada 34

RESULTADO

Sumário Automático

Sumário CorrigidoO agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina) citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

CIENCIA_2000_6389

Programa de Pós-Graduação em Computação Aplicada 35

RESULTADO

Sumário Automático

Sumário CorrigidoO agrônomo Miguel Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

CIENCIA_2000_6389

Utilizando 1º Aposto

MÉTODOS

Utiliza sistema de pontuação. Métodos implementados para pontuação:

Maior Sintagma - Sars (sigla em inglês para síndrome respiratória aguda grave)

Primeiro Sintagma da Cadeia - a proteína beta-amilóide.... a proteína..... ela...

Possui Aposto - a gripe de 1918, a chamada gripe espanhola

Possui Proprio – Jonas Perales do Laboratório de Toxinologia

EXPERIMENTOS

GistSumm

Supor-2

QTDE CADEIAS CORPUS

QTDE CADEIAS NO SUMÁRIO

QTDE.

TROCAS

TX COMPRESS. ORIG.(%)

TX COMPESS. CORRIG(%)

SOMA 586 330 89 - -

MÉDIA 11,72 6,60 1,78 25,30 28,36

QTDE CADEIAS CORPUS

QTDE CADEIAS NO SUMÁRIO

QTDE.

TROCAS

TX COMPRESS. ORIG.(%)

TX COMPESS. CORRIG(%)

SOMA 586 338 75 - -

MÉDIA 11,72 6,76 1,5 23,14 25,52

AVALIAÇÃO AUTOMÁTICA - ROUGE

GistSumm

SuPor-2

GISTSUMM-ORIGINAL GISTSUMM-CORRIGIDO

COBERTURA PRECISÃO F-MEASURE COBERTURA PRECISÃO F-MEASURE

MÉDIA 45,59 54,90 49,26 50,85 54,74 52,28

SUPOR-2-ORIGINAL SUPOR-2-CORRIGIDO

COBERTURA PRECISÃO F-MEASURE COBERTURA PRECISÃO F-MEASURE

MÉDIA 48,37 63,07 54,33 53,15 64,08 57,36

AVALIAÇÃO SUBJETIVA -INFORMATIVIDADE

GistSumm

Supor-2

EXPERIMENTOS

Sistema de Resolução Automática de Correferência

ANOTAÇÃO MANUAL ANOTAÇÃO AUTOMÁTICA

Nº CADEIAS

NO CORPUS

Nº CADEIAS

NO SUMÁRIO

NUM. TROCAS Nº CADEIAS

NO CORPUS

Nº CADEIAS

NO SUMÁRIO

NUM. TROCAS

SOMA 586 330 89 393 (67%) 194 (58%) 34 (40%)

MÉDIA 11,72 6,60 1,78 7,86 3,88 0,72

EXPERIMENTOS

Sistema de Resolução Automática de Correferência

Rouge

Precisão Cobertura F-measure

Originais 45,59 54,94 49,26

Cadeias

Manuais

50,85 54,74 52,28

Cadeias

Autom.

54,60 47,03 49,96

CONSIDERAÇÕES FINAIS

Enriquecimento dos sumários extrativos

Manutenção da coesão referencial dos sumários

Primeira abordagem para língua portuguesa

Construção de uma interface para usuários

WordNet Affect BR: base lexical de emoções para a língua portuguesa

Mestrando: Paulo Pasqualotti

Orientadora: Renata Vieira

Objetivos Construir uma base lexical de emoções para a

língua portuguesa denominada de WordNet Affect BR;

Propor uma ferramenta de chat com o reconhecimento das palavras de emoção presentes no diálogo entre usuários e sua representação visual por meio de imagens;

Fundamentação PLN e Computação Afetiva

Reconhecer e representar palavras de emoção. Teoria psicológica cognitiva de emoções

Modelo OCC: as emoções surgem a partir da avaliação cognitiva que um sujeito faz a partir da desejabilidade de um evento, das ações de agentes e da atratividade dos objetos.

Recursos WordNet WordNet Affect

Metodologia Criação da base; Tradução das palavras; Validação.

Ferramenta de Chat: “Emoticon”

WordNet Affect BR

289 palavras: adjetivos e substantivos; Possibilidades de estender a base

Metáforas; Bigramas, trigramas, expressões completas; Palavras regionais, gírias, ...; Gênero (a/o), número(s/p); Conjugação de verbos; Primitiva e derivadas; Caracteres “emoticons”: :-) ; ...

Avaliação

Imagens representando palavras de emoções Formulário para avaliação da imagem quanto ao seu

significado de emoções, representando o grupo de palavras.

ADJETIVOS: arrependido, contrito, penitente, pesaroso;

SUBSTANTIVOS: arrependimento, auto-reprovação, compunção, consciência pesada, culpa, penitência , remorso, sentimento de culpa.

Avaliação

Resultados

Índice de concordância

73%

22%

5%Concorda

Parcial

Discorda

Publicações

Publicações - 2006 Instruções para anotação de relações anafóricas e referência

dêitica. Autores: Jorge Cesar Coelho, Sandra Collovini e Renata Vieira. Relatório Técnico. 2006

Resolving Portuguese Nominal Anaphora. Autores: Jorge Cesar Coelho, Vinicius Muller, Sandra Collovini, Renata Vieira e Lucia Rino. PROPOR 2006

Learning Discourse-new References in Portuguese Texts. Autores: Sandra Collovini e Renata Vieira. WCC 2006.

Análise de Expressões Referenciais em Corpus Anotado da Língua Portuguesa. Autores: Sandra Collovini e Renata Vieira. CTDIA 2006

Anáforas nominais definidas: balanceamento de corpus e classificação. Autores: Sandra Collovini e Renata Vieira. TIL 2006

Proposta de um Esquema de Anotação Lingüística para Construção de Corpora Anotados da Língua Portuguesa – Autores: José Guilherme Souza, Patricia Nunes Gonçalves e Renata Vieira. TIL 2006

Semantic tagging for resolution of indirect anaphora. Autores:Renata Vieira; Eckhard Bick; Jorge César Coelho; Vinicius Muller; Sandra Collovini; José Guilherme de Souza; Lúcia Rino. SIGdial 2006.

Publicações 2007

Summ-it: um corpus anotado com informações discursivas visando à sumarização automática – Autores: Sandra Collovini de Abreu, Thiago Carbonel, Jorge Cesar Coelho, Juliana Fuchs, Lucia Rino e Renata Vieira. TIL 2007.

Informações Semânticas na Identificação de Anáforas Indiretas e Associativas. Autores: Luiz Carlos Ribeiro, Sandra Collovini, Patricia Nunes Gonçalves, Vinicius Muller e Renata Vieira. TIL 2007

Publicações

PROPOR 2008 CorrefSum: Referencial Cohesion Recovery in Extractive

Summaries - Autores: Patricia Nunes Gonçalves, Lucia Rino, Renata Vieira

Using Semantic Prototypes for Discourse Status Classification Autores: Sandra Collovini, Luiz Carlos Ribeiro Junior, Patricia Nunes Gonçalves, Vinicius Muller e Renata Vieira

Automatic Coreference Resolution Applied to Portuguese Autores: José Guilherme C. de Souza, Patricia Nunes Gonçalves e Renata Vieira

SEMISH 2008 OntoLP: um Sistema de Auxilio à Engenharia de Ontologias

baseado em Textos da Língua Portuguesa - Autores: Luiz Carlos Ribeiro Jr e Renata Vieira