54
Reunião PLN-BR 2008 Renata Vieira

Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Embed Size (px)

Citation preview

Page 1: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Reunião PLN-BR 2008Renata Vieira

Page 2: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

INTRODUÇÃO

A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica e de discurso. As atividades desenvolvidas e os resultados principais são apresentadas a seguir.

Page 3: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Relatório PLN-BR 2008

1) Elaboração do esquema de anotação XCES Um esquema XML para anotação lingüística seguindo o

padrão XCES foi definido para incorporar anotações de diferentes níveis lingüísticos (sintáticas, de correferência e estruturais).

<struct type="token" from="0" to="1"> <feat name="id" value="t1"/> <feat name="base" value="A"/></struct>....<struct type="token" from="30" to="31"> <feat name="id" value="t7"/> <feat name="base" value="."/></struct>

Arquivo de Codificação das palavras

Page 4: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

XCES

<struct type="pos"> <feat name="id" value="pos1"/> <feat name="class" value="art"/> <feat name="gender" value="F"/> <feat name="number" value="S"/> <feat name="canon" value="o"/> <feat name="complement" value="artd"/> <feat name="tokenref" value="t1"/> </struct>....<struct type="pos"> <feat name="id" value="pos6"/> <feat name="class" value="adj"/> <feat name="gender" value="F"/> <feat name="number" value="P"/> <feat name="canon" value="verde"/> <feat name="tokenref" value="t6"/> </struct>

<struct type="text" from="t1" to="t7"/><struct type="sentence" from="t1" to="t7"/> <feat name="id" value="s1"/> <feat name="head" value="t5"/></struct>...<struct type="NP" from="t5" to="t6"> <feat name="id" value="phr3"/> <feat name="function" value="p"/> <feat name="head" value="t5"/></struct>

Arquivo de Informações Estruturais Sintagmáticas

Arquivo de Informações Morfológicas

Page 5: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

XCES

<struct type="segment" from="t1" to="t7"/> <feat name="id" value="seg1"/> <feat name="parent" value="gr1"/> <feat name="relname" value="elaboration"/></struct>...<struct type="group"/> <feat name="id" value="gr1"/> <feat name="parent" value="gr2"/> <feat name="relname" value="elaboration"/> <feat name="reltype" value="momonuc"/></struct>

<struct type="markable" from="t1" to="t2"/> <feat name="id" value="markable_1"/> <feat name="status" value="new"/></struct>...<struct type="markable" from="t7" to="t7"/> <feat name="id" value="markable_2"/> <feat name="status" value="old"/> <feat name="is_anaph" value="indirect"/> <feat name="pointer" value="markable_1"/></struct> Arquivo de Relações Retóricas

Arquivo de Informações Anafóricas

Page 6: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Relatório PLN-BR 2008

Um Relatório Técnico descrevendo o esquema elaborado foi escrito. Um pôster sobre questões relacionadas à anotação foi apresentado.

(Souza et al., 2006).

Page 7: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Relatório PLN-BR 2008

2) Elaboração de conversores TigerXML para XCES Markables para XCES

O conversor do formato RST não foi desenvolvido.

Page 8: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Relatório PLN-BR 2008

3) Elaboração de guias de instrução para anotação de correferência de corpus

Diretrizes de anotação foram elaboradas para preparar anotadores para anotação de um sub-corpus do PLN-BR contendo informações de correferência. Um Relatório Técnico foi escrito (Coellho et al., 2006).

Page 9: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Relatório PLN-BR 2008

Construção de corpus anotado Summ-it

Um sub-corpus foi construído e anotado com informações de correferência e relações retóricas (Collovini et al., 2007). O corpus serve de base para pesquisas desenvolvidas em dissertações de mestrado.

Page 10: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Summ-it

O corpus é formado por 50 textos jornalísticos do caderno de ciências retirados da Folha de São Paulo e disponibilizado através do projeto PLN-BR.

Construção do Corpus: Anotação Manual de Correferência 10 anotadores treinados Cada texto foi anotado por 2 pessoas e avaliado por um

anotador sênior. Processamento pelo PALAVRAS: informações

morfossintáticas Geração de Sumários Automáticos: GistSumm e SuPor-2 Construção de Sumários Manuais [Coelho, 2007] Anotação RST

Page 11: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Relatório PLN-BR 2008

5) Experimentos de resolução de correferência

Alguns experimentos envolvendo corpus anotado com informação de correferência foram realizados (Collovini and Vieira, 2006; Collovini and Vieira, 2006a; Collovini and Vieira, 2006b). Esses experimentos apontam para a necessidade de balanceamento de corpus e inclusão de informação semântica para resolução de correferência. Uma próxima fase de anotação irá contemplar a anotação semântica com base no Frame-Net.

Page 12: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Relatório PLN-BR 2008

6) Experimentos com uso de informação semântica

Experimentos de classificação de expressões referenciais foram realizados, avaliando os ganhos de aprendizado quando informações semânticas são consideradas (Coelho et al., 2006a; Vieira et al., 2006; Ribeiro et al., 2007).

Page 13: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Atividades previstas para 2008

1) Construção de interfaces para uso do Parser Palavras e conversores de formatos

2) Elaboração da documentação do conversor de formatos Tiger para XCES

3) Anotação Frame-Net do Summ-it

Page 14: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

ACROPOS - Automatic Coreference ResOlution system for POrtugueSe

José Guilherme Souza

Renata Vieira

Page 15: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Objetivo

Resolução Automática Correferência Aprendizado de Máquina: Árvores de Decisão Baseado no Trabalho de Soon et al. 2001 Primeira abordagem de resolução automática de

correferência de sintagmas nominais de qualquer tipo para língua portuguesa.

O sistema seleciona, classifica e agrupa as expressões para montagem das cadeias.

Page 16: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

ACROPOS

Treino

Classe Precisão Cobertura F-Measure

Anafórica 78,8 40,1 53,1

Não Anafórica 91,1 98,3 94,5

Teste

Classe Precisão Cobertura F-Measure

Anafórica 78,6 48 59,6

Não Anafórica 92,5 98 95,1

Resultados

Page 17: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

ACROPOS

Treino

Classe Precisão Cobertura F-Measure

Anafórica 77,7 74,7 76,2

Não Anafórica 75,76 78,5 77

Teste

Classe Precisão Cobertura F-Measure

Anafórica 33 72,7 45,4

Não Anafórica 94,9 77,4 85,2

Resultados - Balanceamento

Page 18: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

ACROPOS

MUC

Sistema Precisão Cobertura F-Measure

ACRoPos 97,14 45,11 57,96

ACRoPos Balanceado 90,30 63,16 74,08

Soon et. al 67,3 58,6 62,6

B3

Sistema Precisão Cobertura F-Measure

ACRoPos 99,31 62,87 76,76

ACRoPos Balanceado 96,20 73,49 83,14

Soon et. al 78,4 58 65,6

Resultados: Análise das Cadeias

Page 19: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

ONTOLP: CONSTRUÇÃO SEMI-AUTOMÁTICA DE ONTOLOGIAS A PARTIR DE TEXTOS DA LÍNGUA PORTUGUESA

Mestrando: Luiz Carlos

Orientadora: Renata Vieira

Page 20: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

INTRODUÇÃO (OBJETIVO)

Propor e avaliar técnicas para a construção automática de ontologias a partir de textos da língua portuguesa com base em técnicas já desenvolvidas para outras línguas

Page 21: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

METODOLOGIA PROPOSTA

Corpus XCES

Extração de Termos

Organização Hierárquica dos

Termos

Taxonomia

•Formato XCES:•Token•PoS

•Morfológico•Semântico (tags semânticas)

•Phrase•Sintático

Page 22: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

METODOLOGIA (EXTRAÇÃO DE TERMOS)

Classe GramaticalNúcleo do Sintagma Nominal

Rel. Freq. tf-idf NC-Value

Extração de Termos Simples

Filtro por Grupos Semânticos

Seleção por Grupos Semânticos

N-Grama Sintagma NominalPadrões Morfossintáticos

Extração de Termos Complexos

Rel. Freq. tf-idf NC-ValueC-Value

Rel. Freq.

Corpus XCES

Extração de Termos

Organização Hierárquica dos

Termos

Taxonomia

Page 23: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

METODOLOGIA (ORGANIZAÇÃO HIERÁRQUICA DOS TERMOS)

Termos Complexos

Padrões de Morin/Jacquemin

Padrões de Hearst

Corpus XCES

Extração de Termos

Organização Hierárquica dos

Termos

Taxonomia

Page 24: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

ONTOLP

Armazenadoem Disco

Armazenadoem Memória

Armazenadoem Memória

Armazenadaem Memória

Módulo de Importação do

Corpus (API XCES)

Módulo de Filtro por Grupos SemânticosMódulo de

Extração de Termos Simples

Módulo de Extração de

Termos Complexos

Módulo de Organização por

Termos Complexos

Módulo de Organização baseada

nos Padrões de Hearst e

Morin/Jacquemin

Protégé

Page 25: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

CONSIDERAÇÕES FINAIS

Principal Dificuldade: Escassez de recursos de avaliação

Principais Contribuições: Avaliação do uso de informações semânticas

na construção de ontologias para o Português Criação de uma ferramenta de uso geral para

auxílio ao processo de construção de ontologias

Desenvolvimento dos módulos de avaliação automática das etapas executadas

Page 26: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

CORREFSUM: REVISÃO DE COESÃO REFERENCIAL EM SUMÁRIOS EXTRATIVOS

Mestrando: Patricia Nunes Gonçalves

Orientadora: Renata Vieira

Page 27: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Foco do Trabalho

O foco deste trabalho é na análise e na recuperação da coesão referencial nos sumários extrativos que utilizam a escolha de sentenças de maior relevância do texto para compor o sumário.

Page 28: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

OBJETIVOS

Objetivo geral é enriquecer os sumários extrativos com a aplicação de resolução de correferência utilizando a recuperação de expressões referenciais mais completas nos textos-fonte.

Tarefas Realizadas: Geração de Sumários Automáticos – GistSumm e SuPor-2 Realizar a revisão da coesão referencial automática

desses sumários Avaliar os sumários revisados de forma automática –

Rouge Avaliar os sumários revisados de forma subjetiva Realizar experimentos usando anotação automática de

correferência.

Page 29: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

FERRAMENTAS E RECURSOS

Palavras [Bick,2002] MMAX[Muller and Strube, 2000] GistSumm[Pardo,2005] Supor-2[Leite,2007] Corpus Summ-it[Collovini et al, 2007] Rouge[Lin, 2004]

Page 30: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Programa de Pós-Graduação em Computação Aplicada 31

EXEMPLO

[S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia.

[S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina).

[S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

[S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare.

[S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra.

[S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional.

[S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno.

[S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura.

CIENCIA_2000_6389

Page 31: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Programa de Pós-Graduação em Computação Aplicada 32

EXEMPLO

[S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia.

[S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina).

[S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

[S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare.

[S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra.

[S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional.

[S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno.

[S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura.

CIENCIA_2000_6389

Page 32: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Programa de Pós-Graduação em Computação Aplicada 33

EXEMPLO

[S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia.

[S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina).

[S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

[S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare.

[S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra.

[S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional.

[S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno.

[S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura.

CIENCIA_2000_6389

Page 33: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Programa de Pós-Graduação em Computação Aplicada 34

RESULTADO

Sumário Automático

Sumário CorrigidoO agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina) citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

CIENCIA_2000_6389

Page 34: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Programa de Pós-Graduação em Computação Aplicada 35

RESULTADO

Sumário Automático

Sumário CorrigidoO agrônomo Miguel Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.

CIENCIA_2000_6389

Utilizando 1º Aposto

Page 35: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

MÉTODOS

Utiliza sistema de pontuação. Métodos implementados para pontuação:

Maior Sintagma - Sars (sigla em inglês para síndrome respiratória aguda grave)

Primeiro Sintagma da Cadeia - a proteína beta-amilóide.... a proteína..... ela...

Possui Aposto - a gripe de 1918, a chamada gripe espanhola

Possui Proprio – Jonas Perales do Laboratório de Toxinologia

Page 36: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

EXPERIMENTOS

GistSumm

Supor-2

QTDE CADEIAS CORPUS

QTDE CADEIAS NO SUMÁRIO

QTDE.

TROCAS

TX COMPRESS. ORIG.(%)

TX COMPESS. CORRIG(%)

SOMA 586 330 89 - -

MÉDIA 11,72 6,60 1,78 25,30 28,36

QTDE CADEIAS CORPUS

QTDE CADEIAS NO SUMÁRIO

QTDE.

TROCAS

TX COMPRESS. ORIG.(%)

TX COMPESS. CORRIG(%)

SOMA 586 338 75 - -

MÉDIA 11,72 6,76 1,5 23,14 25,52

Page 37: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

AVALIAÇÃO AUTOMÁTICA - ROUGE

GistSumm

SuPor-2

GISTSUMM-ORIGINAL GISTSUMM-CORRIGIDO

COBERTURA PRECISÃO F-MEASURE COBERTURA PRECISÃO F-MEASURE

MÉDIA 45,59 54,90 49,26 50,85 54,74 52,28

SUPOR-2-ORIGINAL SUPOR-2-CORRIGIDO

COBERTURA PRECISÃO F-MEASURE COBERTURA PRECISÃO F-MEASURE

MÉDIA 48,37 63,07 54,33 53,15 64,08 57,36

Page 38: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

AVALIAÇÃO SUBJETIVA -INFORMATIVIDADE

GistSumm

Supor-2

Page 39: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

EXPERIMENTOS

Sistema de Resolução Automática de Correferência

ANOTAÇÃO MANUAL ANOTAÇÃO AUTOMÁTICA

Nº CADEIAS

NO CORPUS

Nº CADEIAS

NO SUMÁRIO

NUM. TROCAS Nº CADEIAS

NO CORPUS

Nº CADEIAS

NO SUMÁRIO

NUM. TROCAS

SOMA 586 330 89 393 (67%) 194 (58%) 34 (40%)

MÉDIA 11,72 6,60 1,78 7,86 3,88 0,72

Page 40: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

EXPERIMENTOS

Sistema de Resolução Automática de Correferência

Rouge

Precisão Cobertura F-measure

Originais 45,59 54,94 49,26

Cadeias

Manuais

50,85 54,74 52,28

Cadeias

Autom.

54,60 47,03 49,96

Page 41: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

CONSIDERAÇÕES FINAIS

Enriquecimento dos sumários extrativos

Manutenção da coesão referencial dos sumários

Primeira abordagem para língua portuguesa

Construção de uma interface para usuários

Page 42: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

WordNet Affect BR: base lexical de emoções para a língua portuguesa

Mestrando: Paulo Pasqualotti

Orientadora: Renata Vieira

Page 43: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Objetivos Construir uma base lexical de emoções para a

língua portuguesa denominada de WordNet Affect BR;

Propor uma ferramenta de chat com o reconhecimento das palavras de emoção presentes no diálogo entre usuários e sua representação visual por meio de imagens;

Page 44: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Fundamentação PLN e Computação Afetiva

Reconhecer e representar palavras de emoção. Teoria psicológica cognitiva de emoções

Modelo OCC: as emoções surgem a partir da avaliação cognitiva que um sujeito faz a partir da desejabilidade de um evento, das ações de agentes e da atratividade dos objetos.

Page 45: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Recursos WordNet WordNet Affect

Page 46: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Metodologia Criação da base; Tradução das palavras; Validação.

Page 47: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Ferramenta de Chat: “Emoticon”

Page 48: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

WordNet Affect BR

289 palavras: adjetivos e substantivos; Possibilidades de estender a base

Metáforas; Bigramas, trigramas, expressões completas; Palavras regionais, gírias, ...; Gênero (a/o), número(s/p); Conjugação de verbos; Primitiva e derivadas; Caracteres “emoticons”: :-) ; ...

Page 49: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Avaliação

Imagens representando palavras de emoções Formulário para avaliação da imagem quanto ao seu

significado de emoções, representando o grupo de palavras.

ADJETIVOS: arrependido, contrito, penitente, pesaroso;

SUBSTANTIVOS: arrependimento, auto-reprovação, compunção, consciência pesada, culpa, penitência , remorso, sentimento de culpa.

Page 50: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Avaliação

Resultados

Índice de concordância

73%

22%

5%Concorda

Parcial

Discorda

Page 51: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Publicações

Page 52: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Publicações - 2006 Instruções para anotação de relações anafóricas e referência

dêitica. Autores: Jorge Cesar Coelho, Sandra Collovini e Renata Vieira. Relatório Técnico. 2006

Resolving Portuguese Nominal Anaphora. Autores: Jorge Cesar Coelho, Vinicius Muller, Sandra Collovini, Renata Vieira e Lucia Rino. PROPOR 2006

Learning Discourse-new References in Portuguese Texts. Autores: Sandra Collovini e Renata Vieira. WCC 2006.

Análise de Expressões Referenciais em Corpus Anotado da Língua Portuguesa. Autores: Sandra Collovini e Renata Vieira. CTDIA 2006

Anáforas nominais definidas: balanceamento de corpus e classificação. Autores: Sandra Collovini e Renata Vieira. TIL 2006

Proposta de um Esquema de Anotação Lingüística para Construção de Corpora Anotados da Língua Portuguesa – Autores: José Guilherme Souza, Patricia Nunes Gonçalves e Renata Vieira. TIL 2006

Semantic tagging for resolution of indirect anaphora. Autores:Renata Vieira; Eckhard Bick; Jorge César Coelho; Vinicius Muller; Sandra Collovini; José Guilherme de Souza; Lúcia Rino. SIGdial 2006.

Page 53: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Publicações 2007

Summ-it: um corpus anotado com informações discursivas visando à sumarização automática – Autores: Sandra Collovini de Abreu, Thiago Carbonel, Jorge Cesar Coelho, Juliana Fuchs, Lucia Rino e Renata Vieira. TIL 2007.

Informações Semânticas na Identificação de Anáforas Indiretas e Associativas. Autores: Luiz Carlos Ribeiro, Sandra Collovini, Patricia Nunes Gonçalves, Vinicius Muller e Renata Vieira. TIL 2007

Page 54: Reunião PLN-BR 2008 Renata Vieira. INTRODUÇÃO A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica

Publicações

PROPOR 2008 CorrefSum: Referencial Cohesion Recovery in Extractive

Summaries - Autores: Patricia Nunes Gonçalves, Lucia Rino, Renata Vieira

Using Semantic Prototypes for Discourse Status Classification Autores: Sandra Collovini, Luiz Carlos Ribeiro Junior, Patricia Nunes Gonçalves, Vinicius Muller e Renata Vieira

Automatic Coreference Resolution Applied to Portuguese Autores: José Guilherme C. de Souza, Patricia Nunes Gonçalves e Renata Vieira

SEMISH 2008 OntoLP: um Sistema de Auxilio à Engenharia de Ontologias

baseado em Textos da Língua Portuguesa - Autores: Luiz Carlos Ribeiro Jr e Renata Vieira