Upload
ngohanh
View
214
Download
0
Embed Size (px)
Citation preview
Nota da versão 2.0
Este manual de anotação foi elaborado para dar suporte à anotação de sentenças com rótulos de papéis semânticos,
a fim de construirmos um novo corpus PropBank-Br.
O primeiro corpus anotado para o PropBank-Br foi a porção brasileira do corpus Bosque. O Bosque é um treebank do
português, ou seja, um corpus cuja anotação sintática, feita automaticamente pelo parser Palavras, foi manualmente
revista e corrigida por linguistas.
A anotação desse primeiro corpus foi feita por uma única pessoa, motivo pelo qual não foi possível controlar o nível
de concordância na tarefa.
O novo empreendimento a que nos lançamos agora contará com anotação duplo-cega, isto é, cada sentença será
anotada por dois anotadores que não se comunicam. Depois, as anotações serão confrontadas e as divergências
resolvidas por um anotador mais experiente. Esse procedimento visa identificar questões que não são claras para os
humanos e, consequentemente, deverão apresentar problemas para o futuro aprendizado de máquina que será feito
sobre o corpus anotado. Essas questões têm que ser tratadas de maneira a tornar a anotação o mais lógica possível.
Outra grande diferença no novo projeto é que não anotaremos um treebank, mas sim sentenças submetidas à análise
sintática automática pelo parser Palavras, sem nenhuma correção manual. Tentaremos fazer um controle de
qualidade das árvores sintáticas geradas, mas isso não deverá eliminar todos os problemas. A ideia é marcarmos as
sentenças que estiverem muito mal parseadas. Assim elas poderão ser excluídas do corpus de treinamento. A
vantagem é que conheceremos a fundo o desempenho real do parser que usamos e poderemos sugerir melhorias a
seus desenvolvedores
A primeira versão deste manual foi publicada sob a forma de um Relatório Técnico do NILC (NILC-TR-06/2010). Ela foi
elaborada a partir das Guidelines do PropBank do inglês, a fim de guiar a anotação do corpus Bosque com papéis
semânticos.
Esta nova versão incorpora toda a experiência acumulada durante o primeiro processo de anotação, bem como
alterações no conjunto de papéis semânticos promovidas no PropBank do inglês e divulgadas recentemente.
Sumário 1. Introdução .................................................................................................................................................................. 5
2. Anotação de ArgNs..................................................................................................................................................... 7
2.1 Quando atribuir Arg0 ........................................................................................................................................ 7
2.2 Quando atribuir Arg1 ........................................................................................................................................ 8
3. Anotação de Modificadores (ArgMs). ....................................................................................................................... 9
3.1 ArgM-tmp Tempo ............................................................................................................................................ 12
3.2 ArgM-loc Locativo............................................................................................................................................ 12
3.3 ArgM-mnr Modo ou Maneira ......................................................................................................................... 13
3.4 ArgM-cau Causa ............................................................................................................................................... 13
3.5 ArgM-prp Propósito ou Finalidade ................................................................................................................. 14
3.6 ArgM-neg Negação .......................................................................................................................................... 14
3.7 ArgM-ext Quantidade ..................................................................................................................................... 14
3.8 ArgM-dir Direção ............................................................................................................................................. 15
3.9 ArgM-rec Recíprocos ....................................................................................................................................... 15
3.10 ArgM-prd Marcadores de predicação secundária .......................................................................................... 15
3.11 ArgM-dis Marcadores Discursivos .................................................................................................................. 15
3.12 ArgM-adv - Adverbiais ..................................................................................................................................... 16
3.13 ArgM-mod, ArgM-asp, ArgM-tml, ArgM-pas: verbos auxiliares de modalidade, aspecto, tempo e diátese
(voz passiva) ................................................................................................................................................................. 17
3.14 ArgM-exp Partículas expletivas ...................................................................................................................... 19
3.15 Casos Especiais ................................................................................................................................................ 20
3.15.1 Modificadores em frases complexas ...................................................................................................... 20
3.15.2 Atribuindo rótulos de papéis semânticos em interrogações ................................................................. 21
3.15.3 Anotando a partícula “se” ...................................................................................................................... 22
4. ANOTANDO SOBRE ÁRVORES SINTÁTICAS ............................................................................................................. 24
4.1 Relação entre constituintes sintáticos e papéis semânticos ......................................................................... 24
4.1.1 Relação de 1 para 1 ..................................................................................................................................... 24
4.1.2 Relação 1 para n .......................................................................................................................................... 24
4.1.3 Relação de n para 1 ..................................................................................................................................... 26
4.2 Quando um argumento pertence ou não à estrutura argumental do verbo alvo da anotação ................... 27
4.3 Anotação de Correferência ............................................................................................................................. 29
4.4 Atribuindo “Sentence Flags”. .......................................................................................................................... 31
4.5 Anotação de Verbos na Voz Passiva ............................................................................................................... 32
4.6 Anotação de Sujeito Indeterminado pela Partícula “se” ............................................................................... 33
4.7 Anotação de Verbos no Infinitivo, Gerúndio e Particípio .............................................................................. 34
GUIA DE ANOTAÇÃO DO PROPBANK-BR1
1. Introdução
O objetivo do PropBank-Br é adicionar uma nova camada de anotação a um corpus já anotado
sintaticamente. Essa nova camada de anotação atribui um identificador do sentido do verbo, bem como etiquetas de
papéis semânticos aos argumentos do verbo. O propósito final é constituir um corpus de treinamento para um
classificador automático de papéis semânticos.
O conjunto de papéis semânticos utilizados no PropBank-Br é o mesmo usado pelo PropBank do inglês. Os
papéis semânticos podem ser divididos em dois grandes blocos: os papéis semânticos numerados (ArgNs) e os papéis
semânticos modificadores (ArgMs).
Os ArgNs (Arg0, Arg1, Arg2, Arg3, Arg4, Arg5) são previstos pela semântica dos verbos e podem ser
encontrados no repositório VERBO-BRASIL, que lista os sentidos de cada verbo num arquivo (framefile) e, para cada
sentido, um conjunto de papéis semânticos previstos (roleset). Raros são os verbos que preveem mais de três
argumentos numerados.
No VERBO-BRASIL cada sentido “traduz” os papéis numerados em palavras, tornando mais simples para o
anotador identificar cada um deles nas instâncias de anotação. Por exemplo, o conjunto de papéis semânticos do
primeiro sentido do verbo “abrir”, ou seja, “abrir.01”, prevê quatro ArgNs: o Arg0 é o “abridor” ou “Agente”, o Arg1 é
“coisa abrindo” ou “Tema”, o Arg2 é “instrumento” e o Arg3 é “beneficiário”. O VERBO-BRASIL traz exemplos
anotados para ilustrar a atribuição dos papéis. Embora previstos, os ArgNs não precisam ocorr er todos ao mesmo
tempo. Por exemplo, na sentença: “O treino do Brasil foi aberto ao público”, temos apenas Arg1 “O treino do Brasil” e
Arg3 “ao público”.
Já os ArgMs não são previstos pela semântica dos verbos, podem ocorrer com vários verbos e podem ser
suprimidos sem que o sentido do verbo fique incompleto. Correspondem, no nível sintático, aos adjuntos adverbiais e
podem ser expressos por advérbios, locuções adverbiais ou orações subordinadas adverbiais.
Assim como o PropBank, utilizamos o recurso dos ArgM para anotar outros fenômenos que afetam a
anotação semântica, mas que não são propriamente modificadores. Por exemplo, o ArgM-Dis é para anotar
1 O guia de anotação do PropBank do inglês está disponível em:
http://verbs.colorado.edu/~mpalmer/projects/ace/PBguidelines.pdf
marcadores discursivos, ou seja, elementos cujo papel é fazer a coesão entre orações e que não pertencem à
estrutura argumental dos verbos em si.
É importante saber que existe uma zona de intersecção entre ArgNs e ArMs. Por exemplo, Local é um típico
ArgM (ArgM-LOC). Para alguns verbos, porém, o Local é um argumento previsto e deve receber um rótulo de ArgN. É
o caso do verbo morar (alguém mora em algum lugar) e do verbo colocar (alguém coloca alguma coisa em algum
lugar). Mas isso está explícito nos conjuntos de papéis semânticos desses verbos no VERBO-BRASIL.
Este manual deverá ser consultado sobretudo para esclarecer dúvidas a respeito dos ArgMs, pois, não sendo
previstos pela semântica dos verbos, não são contemplados no VERBO-BRASIL, exceto eventualmente nos exemplos
de cada sentido de verbo.
O PropBank-Br adota, sempre que possível, as mesmas diretrizes do PropBank de língua inglesa. Algumas
diferenças, contudo, são inevitáveis devido às diferenças entre as línguas e entre a anotação sintática produzida pelo
parser utilizado por cada um dos projetos em suas respectivas línguas.
No caso do PropBank de língua inglesa, vale lembrar, houve grande interação entre os desenvolvedores do
PropBank e os desenvolvedores do parser (na época todos na Universidade da Pensilvânia). Isso fez acontecerem
contribuições mútuas: o parser recebeu críticas dos anotadores de papéis semânticos e aperfeiçoou-se no sentido de
contribuir para a melhoria da anotação de papéis semânticos. A principal dessas melhorias é o que eles chamam de
“traces”: por meio de uma indexação, eles criam uma marca para indicar qual o lugar em que cada constituinte
deveria ocorrer canonicamente (tomando como canônica a forma SUJEITO, VERBO, COMPLEMENTO, ADJUNTOS
ADVERBIAIS). Dessa forma, a anotação não é feita sobre o constituinte em si, mas sobre o “trace”. Para o aprendizado
de máquina isso torna tudo mais simples, pois reduz a variação na posição dos constituintes. Além disso, o parser do
inglês possui resolução de correferência e preenchimento de elipses, o que também facilita a identificação dos
constituintes que devem receber os papéis semânticos.
Embora nossa realidade seja diferente, estamos estudando formas de fazer alguns pré-processamentos para
melhorar a estrutura das sentença que receberá a anotação dos papéis semânticos. Um desses pré-processamentos é
a inserção de um constituinte artificial na posição onde há supressão de sujeito (sujeito oculto, sujeito elíptico e
sujeito indeterminado). Isso simulará um sujeito explícito, pronto para receber a atribuição do respectivo papel
semântico.
O outro pré-processamento é a resolução de correferência intra-sentencial. Para isso, nesta versão do
PropBank-Br, vamos criar manualmente um link entre o elemento correferente e o referente que ele retoma. Esses
links vão ser usados como material de treinamento visando automatizar a resolução da correferência sentencial
2. Anotação de ArgNs
Para que realizem seu sentido, os verbos “pedem” alguns argumentos. Esses argumentos correspondem, na
sintaxe, ao sujeito e aos objetos direto e indireto, salvo raras exceções. Não existe, porém uma regra simples para
atribuição dos papéis semânticos a partir dos papéis sintáticos.
A primeira tarefa do anotador ao abrir uma instância anotação é identificar, no repositório VERBO -BRASIL, o
sentido do verbo alvo de anotação. O sentido identificado deverá ter seu id inserido no campo sentido no ambiente
de anotação criado com a ferramenta SALTO (é uma wordtag criada para essa finalidade). Depois, ele deverá atribuir,
aos constituintes sintáticos, os rótulos que representam os papéis previstos no roleset do sentido identificado.
Se o anotador não encontrar no VERBO-BRASIL nenhum sentido adequado para anotar a instância, deverá
rotular a sentença com a sentence flag LATER e comunicar o fato para que seja providenciada a inserção do sentido
no repositório.
Para alguns verbos, é impossível fornecer um único conjunto de papéis semânticos que atenda a todos seus
sentidos. Por exemplo, o verbo partir nos exemplos abaixo:
Ele partiu ontem.
Ele partiu o bolo antes da hora.
Nesses exemplos, os dois sentidos do verbo partir pedem diferentes argumentos. Nesses casos, os framefiles
distinguem dois ou mais sentidos do verbo e cada um desses sentidos é chamado de frameset. Cada frameset tem seu
roleset, ou seja, seu conjunto específico de etiquetas para anotar os argumentos.
Partir.01 - cortar Arg0: aquele que corta Arg1: coisa cortada Partir.02 - ir embora Arg0: aquele que vai embora
É importante, portanto, verificar se o verbo a ser anotado tem mais de um sentido e, se tiver, decidir qual
deles é o mais próximo do sentido do verbo no contexto de anotação.
Assim, de acordo com o exemplo, um argumento anotado com Arg0 do verbo partir.02 poderá ser
interpretado semanticamente como o “aquele que vai embora” (tema do ato de ir embora) e um argumento anotado
com Arg0 do verbo partir.01 poderá ser interpretado semanticamente como “aquele que corta” (agente do ato de
cortar).
2.1 Quando atribuir Arg0
O Arg0 é atribuído a argumentos que desempenham o papel de agentes, causadores ou experienciadores
mas nunca a pacientes ou temas (que sofrem a ação do verbo ou são objeto da ação do verbo)
Pedro pescou um peixe. Arg0: Pedro REL: pescou Arg1: um peixe
Pedro pescou ontem. Arg0: Pedro REL: pescou ArgM-tmp: ontem Os carros dos filhos são frequentemente pagos por seus pais. Arg1: os carros dos filhos Argm-tmp: frequentemente REL: pagos Arg0: por seus pais
O cinema abre às duas horas. Arg1: o cinema REL: abre ArgM-tmp: às duas horas.
O gerente abre a agência às nove em ponto. Arg0: o gerente REL: abre Arg1: a agência ArgM-tmp: às nove em ponto
Os Arg0 correspondem aos chamados argumentos externos de um verbo e têm como propriedades:
envolvimento emocional com o evento ou estado
causador de um evento ou mudança de estado em outro participante
movimento em relação à posição de outro participante.
2.2 Quando atribuir Arg1
O Arg1 é atribuído a argumentos que desempenham o papel de pacientes, temas e tópicos, isto é, os
argumentos que sofrem a mudança de estado ou que são afetados pela ação do verbo ou que são objeto do sentido
do verbo. Eles podem ocorrer sintaticamente como sujeito ou como objeto.
Mesmo que ocorra alternância sintática (mudança da posição dos constituintes sintáticos), o papel semântico
não é alterado. Nos exemplos a seguir, a vidraça e a comida são sempre Arg1.
Eu quebrei a vidraça. A vidraça quebrou. A vidraça foi quebrada. Eu queimei a comida. A comida queimou. A comida foi queimada. Os Arg1 têm como propriedades:
sofrem mudança de estado
são afetados pela ação de outro participante;
são estacionários em relação ao movimento de outro participante.
Alguns verbos admitem tanto o Arg0 quanto o Arg1 na posição de sujeito. A isso se dá o nome de
“alternância”, ou seja, o papel semântico do sujeito alterna, muda. São exemplos desses verbos: abrir, fechar,
queimar e quebrar.
Outros verbos admitem a alternância do Arg0 e do Arg1 na posição de sujeito, mas para isso precisam
pronominalizar-se, marcando o movimento:
[O professor] magoou o aluno com a advertência que fez. Arg0: o professor REL: magoou Arg1: o aluno Arg2: com a advertência que fez
Quando há pronominalização, o VERBO-BRASIL prevê um identificador de sentido diferente para o verbo. O
pronome, nesses casos, deve ser anotado como ArgM-nse, pois não tem função argumental e é usado apenas para
marcar o movimento do Arg1 para a posição do sujeito. A causa, nesse caso, é anotada com Arg0.
O aluno magoou-se com a advertência feita pelo professor. Arg1: o aluno REL: magoou ArgM-nse: se Arg0: com a advertência feita pelo professor
3. Anotação de Modificadores (ArgMs). Como já foi dito na Introdução, os ArgMs são aqueles que não estão previstos na estrutura argumental dos
sentidos dos verbos.
A maioria deles não apresenta desafios para os anotadores de papéis semânticos e correspondem a adjuntos
adverbiais (ADVL) na anotação sintática. Ao contrário dos ArgNs, um ArgM pode ocorrer mais de uma vez em uma
mesma estrutura argumental. Desde que cada ArgM constitua uma unidade independente, deve ser anotado
separadamente. A figura a seguir mostra dois ArgM-tmp e a forma correta (em azul) e a incorreta (em vermelho) de
anotar.
Figura 1. Exemplo de tela de “merge” de duas anotações para a mesma instância. No círculo em vermelho a forma incorreta de anotar os dois ArgM-tmp e em azul a forma correta.
Figura 2 Anotação de dois argumentos com ArgM-tmp em uma mesma instância.
Se um ArgM constitui uma unidade independente e corresponde a um nó da árvore sintática, deve ser
anotado separadamente, mesmo que haja outro ArgM do mesmo tipo na estrutura argumental.
Os ArgMs mais frequentes são ArgM-tmp (tempo) e ArgM-loc (lugar), seguidos de ArgM-neg, ArgM-cau
(causa), ArgM-fin (finalidade) e ArgM-mnr (modo). Na tabela abaixo a área tingida contém os verdadeiros
modificadores e a área em branco contém as etiquetas de ArgM utilizadas para anotar constituintes que não recebem
tradicionalmente papéis semânticos, mas que para fins de construção de um corpus de treinamento é interessante
anotar.
Uma diferença entre o PropBank e o PropBank-Br é o tratamento dado aos auxiliares. O PropBank-Br
distingue auxiliares de tempo, modo, aspecto e diátese (voz passiva). O PropBank, por sua vez, só anota os auxiliares
de modo, deixa os auxiliares de voz passiva sem anotar e anota os auxiliares de aspecto e de tempo como verbos
comuns. Como os auxiliares são identificáveis automaticamente e têm uma função fixa, nossa estratégia é bem mais
econômica, pois evita que esses verbos tenham que ser anotados manualmente, salvo em raras exceções, quando o
parser não os tiver integrado ao VP (locução verbal) da qual fazem parte.
O PropBank e o PropBank-BR utilizam as seguintes etiquetas de modificadores:
Tabela 1. Etiquetas de Argumentos Modificadores
ArgM- PROPBANK PROPBANK-BR
ArgM-tmp Time TEMPO
ArgM-cau Cause CAUSA
ArgM-loc Locative LOCAL
ArgM-neg Negation NEGAÇÃO
ArgM-mnr Manner MODO
ArgM-prp* Purpose PROPÓSITO OU FINALIDADE
ArgM-ext Extent QUANTIDADE
ArgM-com Commitative COMPANHIA
ArgM-gol Goal OBJETIVO
ArgM-dir Directional DIREÇÃO
ArgM-adv Adverbial Advérbios que modificam toda a oração
ArgM-prd Secondary Predication PREDICAÇÃO SECUNDÁRIA
ArgM-rec Reciprocals RECIPROCIDADE
ArgM-dis Discourse MARCADOR DISCURSIVO
ArgM-mod Modals Verbo Auxiliar de Modo
ArgM-asp Verbo Auxiliar de Aspecto
ArgM-pas Verbo Auxiliar de Voz Passiva
ArgM-tml Verbo Auxiliar de Tempo
ArgM-exp Expletivos
ArgM-nse Pronome reflexivo não argumental
* a etiqueta PRP substituiu a etiqueta PNC
3.1 ArgM-tmp Tempo Modificadores de tempo informam quando uma ação acontece. São respostas às perguntas Quando? Por
quanto tempo? Desde quando? Até quando? Com que frequência? Em quanto tempo? Para quanto tempo?
Eles podem ser expressos por uma única palavra (ontem, futuramente, frequentemente), por um PP (em
novembro, de 5 a 9 de julho, desde 1933, durante a exibição do filme, na semana passada, cinco vezes por semana )
ou por uma oração completa (ao acordar, quando veio ao Brasil, enquanto dormia, sempre que tem vontade, nunca
ao se deitar, até não querer mais, assim que cheguei, tão logo cheguei, uma vez acordado).
A única preposição exclusiva de tempo é durante. A preposição mais comum é em, mas é altamente ambígua
pois também é muito usada para modificadores de lugar e de modo.
Estão incluídos nessa categoria:
Adjuntos adverbiais de tempo: ontem, antigamente, depois (mas não nunca e jamais, que devem ser
anotados como ArgM-neg),
Adjuntos adverbiais de frequência: sempre, raramente, às vezes
Adjuntos adverbiais de duração: por um ano, durante duas semanas, eternamente, para sempre
Adjuntos adverbiais de ordem: primeiramente, primeiro… segundo…, na primeira vez
Adjuntos adverbiais de repetição: de novo, novamente, uma vez
3.2 ArgM-loc Locativo Os locativos indicam o lugar onde uma ação acontece. Essa noção não se restringe a lugares físicos, mas
também a lugares abstratos. Ex:
Em seu discurso, o presidente anunciou a reforma da previdência. ArM-loc: em seu discurso Arg0: o presidente REL: anunciou Arg1: a reforma da previdência
Os locativos respondem às perguntas: Onde? De onde? Para onde? Por onde? Desde onde? Até onde?
Alguns verbos preveem um locativo como ArgN e, portanto, exigem atenção, pois os ArgNs têm precedência
sobre os ArgMs. Exemplos são os verbos de movimento e os verbos da classe de por e colocar.
Os locativos podem ser constituídos por uma única palavra (aqui, ali, lá, dentro, fora), um PP (desde o km 51
da rodovia, na fazenda, dentro da caixa, ao lado da irmã, na página 2; ou por uma oração subordinada adverbial de
lugar (onde ninguém o conhecia, no lugar combinado)
3.3 ArgM-mnr Modo ou Maneira Esses modificadores especificam como uma ação é realizada. Etiquetas de modo deveriam ser usadas sempre
que um advérbio respondesse a uma pergunta começada por Como? Essa etiqueta inclui os instrumentos, matérias
primas, modo de vestir e outros. Anteriormente, incluía companhia, mas na atual versão do PropBank companhia
recebeu um papel específico – ArgM-com.
Podem ser expressos por uma única palavra (suavemente, loucamente, intuitivamente), por um PP (de
repente, às cegas, pelo avesso, em tom de confidência, sem cessar, de bengala, com roupa de festa) ou por uma
oração (ele chegou gritando, portando uma arma, vestido de preto).
A maioria dos advérbios terminados em –mente pertencem a esta categoria de modificadores. A forma mais
comum de expressar modo por meio de uma oração é utilizar uma reduzidas de gerúndio ou de particípio.
Essa é a categoria de modificadores que está mais fortemente associada a um léxico fixo, embora extenso.
3.4 ArgM-cau Causa Esse tipo de ArgM indica a causa de uma ação. São exemplos típicos as orações introduzidas por “porque”
“em razão de” “por causa de”, “em função de”, “devido a”. São argumentos que respondem à pergunta Por quê?
Em razão da epidemia de gripe suína, as aulas foram suspensas. ArgM-cau: em razão da epidemia de gripe suína Arg1: as aulas ArgM-mod: foram => não anotar se estiver no mesmo vp do verbo principal REL suspensas Atenção às sentenças em que o ArgM-cau aparece antes do Arg1, como no exemplo a seguir:
Agora descobri porque você está tão estranha.
ArgM-tmp: agora
REL: descobri
ARGM-CAU: porque
ARG1: você está tão estranha
3.5 ArgM-prp Propósito ou Finalidade Esse tipo de argumento nunca é expresso por uma única palavra, mas sim por sintagmas preposicionadis
(PPs) ou por orações. As orações são sua forma mais comum e são introduzidas por preposições e locuções
prepositivas como: “para”, “a fim de”, “com o objetivo de”, “com o intuito de”, “com o propósito de”, normalmente
seguidas de infinitivo. Os argumentos desse tipo respondem à pergunta Para quê? Ex:
Espero voltar aqui para novas experiências. Ele comprou um guarda-chuva resistente para enfrentar tempestades. Nem todo mundo trabalha com o único propósito de ganhar dinheiro. Esse argumento mudou de nome. Anteriormente era PNC (purpose not cause) e agora, no PropBank, é PRP
(purpose). Cuidado para não confundi-lo com o modificador PRD (predicação secundária).
3.6 ArgM-neg Negação Essa etiqueta é usada para anotar elementos como não, nunca, não mais e outros marcadores de orações
negativas. A negação é uma noção importante na anotação do PropBank, então todos os marcadores que indicam
negação devem ser anotados com ArgM-NEG. Por exemplo, ao encontrar elementos como jamais, que poderia ser
anotado como TMP ou NEG, a etiqueta NEG deve ser usada.
3.7 ArgM-ext Quantidade Modificadores de quantidade ArgM-EXT indicam quanto uma ação provocou de mudança. Respondem a
pergunta Quanto? e são expressos normalmente por:
Adjuntos numéricos: andar 20 quilômetros, enxergar 100 metros à frente; comer 20 reais de
sorvete.
Quantificadores: muito, pouco, suficientemente, exageradamente;
Comparativos: mais do que, menos do que
Muitos verbos, por indicarem um movimento em uma escala, têm os quantitativos previstos na sua estrutura
argumental. Por exemplo, “engordar” prevê um ArgN para marcar quantos quilos foram engordados. Nesse caso, eles
devem ser anotados com os respectivos ArgNs descritos no VERBO-BRASIL.
Se um verbo está acompanhado de um quantitativo e não tem um quantitativo previsto em sua estrutura
argumental descrita no VERBO-BRASIL, deverá ter o argumento anotado como ArgM-ext. Ex:
Eu achei camisetas a R$20,00 Arg0: Eu REL: achei ArgM-ext: a R$20,00.
3.8 ArgM-dir Direção Modificadores de direção mostram a direção do movimento em determinado caminho. Por exemplo: de
cima, para cima, de baixo, para baixo, da esquerda, para a esquerda, da direita, para a direita, de trás, pa ra trás, da
frente, para frente, em frente, de lado, para o lado, do sul, para o sul, etc.
Esse papel semântico pode se confundir com o de local. Se não houver claramente uma direção que responda
a pergunta Em que direção? De que direção? Para qual direção?, utiliza-se o marcador de local.
Ao contrário do que ocorre no inglês, essa etiqueta não é muito utilizada no português, pois nossos verbos de
movimento embutem a direção. Por exemplo, vir de volta (come back) é voltar e ir para baixo (go down) é descer.
3.9 ArgM-rec Recíprocos Esse modificador inclui palavras e expressões que indicam reciprocidade: entre si, entre nós, juntos, um ao
outro, juntamente, ambos. Esses modificadores sempre se referem a outros argumentos anteriores e não têm um
ArgN previsto na estrutura argumental.
Eu e o Marcelo nos conhecemos no ano passado. Arg0: Eu e o Marcelo ArgM-rec: nos REL: conhecemos ArgM-tmp: no ano passado
3.10 ArgM-prd Marcadores de predicação secundária Esses marcadores são usados para indicar que um argumento de um predicado poderia carregar sua própria
estrutura argumental, ou seja, o marcador de predicação secundária é um argumento do argumento.
Os exemplos típicos são os descritivos, normalmente introduzidos por “como” e orações adjetivas que
estiverem sintaticamente separadas do NP a que se referem. Nos exemplos a seguir os ArgM-prd estão sublinhados:
Ele foi aceito no clube como membro efetivo no ano passado. Lenços umedecidos foram fornecidos como cortesia no avião. Exibida como sempre, ela desfilou seu vestido novo nas galerias do teatro. O presidente, apoiado pelo Congresso, tomou medidas duras
3.11 ArgM-dis Marcadores Discursivos Essa etiqueta de ArgM serve para anotar os marcadores discursivos. Esses elementos são usados para fazer a
coesão textual, ou seja, estruturar a lógica do discurso, relacionando as orações e as sentenças de um texto. Não
constituem modificadores típicos, mas são anotados no escopo do PropBank.
Exemplos dessa categoria são:
Comment [MD1]:
também, além disso, no entanto, mas, conforme exposto anteriormente, por outro lado, por exemplo, da mesma
forma, contudo, entretanto, todavia, porém.
Observe que, no caso de mas, ou e e, só são etiquetados como ArgM-dis no início das orações.
Estamos todos bem, porém apreensivos. =Todos nós estamos bem, porém [todos nós estamos] apreensivos. Rel: estamos Arg0: todos Arg1: bem A segunda oração da sentença não contém verbo. Trata-se de um zeugma, isto é, elipse de verbo, caso ainda
não tratado pelo Propank-Br. Se tivéssemos inclusão do verbo elíptico, a anotação seria a seguinte:
REL: estamos Arg0: todos Arg1: apreensivos ArgM-dis: porém
Também são etiquetados como ArgM-dis os constituintes sintaticamente analisados como vocativos.
Maria, pode servir o jantar. ArgM-DIS: Maria ArgM-mod: pode (não anotar se estiver no mesmo vp do verbo principal) Rel: servir Arg1: o jantar
3.12 ArgM-adv - Adverbiais Os ArgM-adv são usados para anotar elementos que modificam toda a estrutura do evento, mas não se
enquadram nas demais categorias de modificadores. Eles não modificam apenas o verbo, mas toda a oração em que o
verbo está inserido. Podem ser um simples advérbio, uma locução prepositiva ou um oração adverbial. Exemplos:
provavelmente, possivelmente, somente, felizmente, francamente, realmente.
Felizmente você voltou.
ArgM-adv: Felizmente
Arg0: Você
REL: voltou
Ao contrário do que você pode ter pensado, minha habilidade de dirigir um carro não foi afetada pelo
acidente.
ArgM-ADV: ao contrário do que você pode ter pensado
Arg1: minha habilidade de dirigir um carro
ArgM-neg: não
REL: afetada
Arg0: pelo acidente
Devido a uma ambiguidade, às vezes pode haver dificuldade quanto à melhor forma de anotar um
modificador, se como ArgM-mnr, que modifica o verbo ou ArgM-adv, que normalmente modifica toda a oração. É o
caso dos exemplos abaixo:
Incrivelmente, ela canta. ArgM-ADV: incrivelmente (paráfrase: É surpreendente que ela consiga cantar.) REL: canta Arg0: ela
Ela canta incrivelmente. Arg0: ela REL: canta ArgM-MNR: incrivelmente (paráfrase: Ela canta muito bem.)
Figura 3 Exemplo de ArgM-adv
3.13 ArgM-mod, ArgM-asp, ArgM-tml, ArgM-pas: verbos auxiliares de modalidade, aspecto, tempo e diátese (voz passiva)
Os verbos auxiliares modificam os verbos principais, acrescentando-lhes informações de modalidade,
aspecto, tempo e permitindo a construção da voz passiva. Os verbos auxiliares, portanto, nunca têm sua própria
estrutura argumental, ou seja, não devem ser anotados como evocadores e sim como modificadores.
O parser que utilizamos já reconhece esses verbos em sua última versão, anotando-os no mesmo VP que o
verbo principal. Graças a isso, não é necessário anotar manualmente esses modificadores se eles ocorrerem dentro
do mesmo VP do verbo principal, pois a tarefa é automatizável. Se, contudo, isso não ocorrer, ou seja, se o parser não
anotar o verbo auxiliar dentro do mesmo VP que o verbo principal, é preciso anotá-lo com seu respectivo papel
semântico. A tabela de verbos auxiliares e seus respectivos papéis semânticos como modificadores está disponível
neste manual e no site do VERBO-BRASIL.
Médicos costumam não ter muito tempo livre.
Arg0: médicos ArgM-MOD: costumam ArgM-NEG: não Rel: ter Arg1: muito tempo livre
O próprio desenvolvimento da técnica devia finalmente o abolir. Arg0: O próprio desenvolvimento da técnica ArgM-mod: devia ArgM-adv: finalmente Arg1: o REL: abolir
Tabela 2 VERBOS AUXILIARES E SEUS PAPÉIS SEMÂNTICOS
Predicate lema
PREP FORMA DO AUXILIADO
ArgM
acabar gerúndio ArgM-asp
acabar de infinitivo ArgM-asp
acabar por infinitivo ArgM-asp
andar gerúndio ArgM-asp
cessar de infinitivo ArgM-asp
chegar a infinitivo ArgM-asp
começar a infinitivo ArgM-asp
começar por infinitivo ArgM-asp
continuar gerúndio ArgM-asp
continuar a infinitivo ArgM-asp
continuar sem infinitivo ArgM-asp
correr a infinitivo ArgM-asp
costumar infinitivo ArgM-asp
dar de infinitivo ArgM-asp
deixar de infinitivo ArgM-asp
desatar a infinitivo ArgM-asp
dever infinitivo ArgM-mod
disparar a infinitivo ArgM-asp
estar para infinitivo ArgM-asp
estar gerúndio ArgM-asp
estar sem infinitivo ArgM-asp
estar por infinitivo ArgM-asp
estar particípio ArgM-pas
ficar gerúndio ArgM-asp
ficar sem infinitivo ArgM-asp
ficar de infinitivo ArgM-mod
haver de infinitivo ArgM-mod
haver que infinitivo ArgM-mod
haver particípio ArgM-tml
ir infinitivo ArgM-tml
ousar infinitivo ArgM-asp
parar de infinitivo ArgM-asp
passar a infinitivo ArgM-asp
permanecer gerúndio ArgM-asp
poder infinitivo ArgM-mod
recomeçar a infinitivo ArgM-asp
sair gerúndio ArgM-asp
seguir gerúndio ArgM-asp
ser particípio ArgM-pas
ter de infinitivo ArgM-mod
ter que infinitivo ArgM-mod
ter particípio ArgM-tml
terminar gerúndio ArgM-asp
tornar a infinitivo ArgM-asp
vir gerúndio ArgM-asp
vir a infinitivo ArgM-asp
viver gerúndio ArgM-asp
voltar a infinitivo ArgM-asp
3.14 ArgM-exp Partículas expletivas Essa marcação é usada para anotar anotar as partículas e expressões expletivas, ou seja, constituintes que
não trazem nenhum sentido à oração, mas contribuem para a expressividade do discurso. É uma etiqueta que existe
no Penntreebank, mas não no PropBank. Como o parser que usamos não as identif ica, resolvemos anotá-la, muito
embora não constitua um papel semântico. Exemplos:
O que é que você quer? (paráfrases: O que você quer? Você quer o quê?) Arg0: você REL: quer Arg1: o quê ArgM-EXP: é que Os expletivos deveriam ser marcados como tal no nível sintático, para que não recebessem rótulo na
anotação do PropBank, já que não têm valor semântico. Contudo, como isso não ocorre no nível sintático, criamos
essa etiqueta para identificar o que não é argumento semântico.
Outro tipo de expletivo é o que as gramáticas chamam de “partícula de realce”:
Veja só: eles estão nos chamando!
REL: veja
ArgM-EXP: só
Arg1: eles estão nos chamando
3.15 Casos Especiais As decisões de anotação em casos mais complexos merecem ser comentadas.
3.15.1 Modificadores em frases complexas
Quando uma oração tem vários verbos, é preciso certificar-se de que o ArgM refere-se ao verbo que está
sendo anotado e não a outro verbo.
Ex: Ele acordou e, por um breve instante,[Argm-tmp] não enxergou nada.
O Arg-tmp refere-se ao verbo enxergar e não ao verbo acordar.
Uma regra geral é tentar seguir a anotação sintática, sem fazer decomposições ou concatenações. Por
exemplo, se houver uma expressão de tempo como: [ontem às cinco da tarde] e não houver no Bosque um mesmo
constituinte que abrigue a expressão completa, então o modificador deve ser anotado como dois Argms: [ontem]
Argm-tmp e [às cinco da tarde] Argm-tmp.
Outra consequência da regra “siga a sintaxe” é mostrada no exemplo a seguir:
Eles foram, todos os três, escolhidos.
Nesse caso, “todos três” deve ser anotado como Argm-adv e não concatenado com o argumento “eles”:
Rel: escolhidos. Arg1: eles Argm-adv: todos três
NÃO Rel: escolhidos. Arg1: [eles] [todos três]
Da mesma forma, não se deve decompor ArgMs que são analisados como um único constituinte na árvore
sintática.
Uma situação mais complicada é quando há dois argumentos que têm o mesmo papel semântico (dois ArgM-
tmp, por exemplo). Se eles forem independentes um do outro, cada um deverá receber uma etiqueta de ArgM-tmp e
não serem juntados em uma mesma etiqueta.
Contudo, pode ocorrer de o verbo já previr um locativo em sua estrutura argumental. Por exemplo, o Arg2 do
verbo “estacionar” é um locativo:
Eu localizei o carro estacionado na rua, em frente a um prédio de apartamentos.
Arg1: o carro REL: estacionado Arg1: na rua ArgM-loc: em frente a um prédio1 o carro
Nesse caso, tanto “na rua” quanto “em frente a um prédio de apartamentos” podem ser vistos como
locativos e satisfazer o Arg2 do verbo localizar. Sempre que isso acontecer, a regra que se decidiu usar é anotar como
argumento numerado o que estiver mais próximo do verbo e como argumento modificador o outro.
3.15.2 Atribuindo rótulos de papéis semânticos em interrogações O pronome interrogativo deve receber a etiqueta do argumento desconhecido e que se procura conhecer por
meio da pergunta. As perguntas Quem e O quê e suas derivadas referem-se a ArgNs e as perguntas Onde, Quando,
Como, Por quê, Quanto e suas derivadas referem-se a ArgMs.
Do que você gosta? (Você gosta do quê?) REL: gosta Arg0: você Arg1: do quê Quem comeu o meu queijo? REL: comeu Arg0: quem Arg1: o meu queijo
Quando você chegou lá? (Você chegou lá quando?) REL: chegou Arg0: você ArgM-LOC: lá ArgM_TMP: quando
3.15.3 Anotando a partícula “se” Quando o “se” for índice de indeterminação do sujeito ou partícula apassivadora, ele deverá ser anotado
como Arg0, pois toma o lugar de um agente que foi omitido. Exemplos:
Pensou-se que não haveria mais confusão. REL: pensou Arg0: se Arg1: que não haveria mais confusão Fizeram-se várias tentativas e nenhuma deu certo. (várias tentativas foram feitas) REL: fizeram Arg0: se Arg1: várias tentativas
Quando o “se” for pronome reflexivo (substituível por “a si mesmo”) ou recíproco (substituível por “um ao
outro” “um com o outro” “um para o outro”), anotar com o papel que ele ocupa na estrutura argumental do verbo.
Exemplos:
Casaram-se no mês passado. REL: casaram Arg1: se (um com o outro) ArgM-tmp: no mês passado Eles se deram as mãos e fizeram as pazes Arg0: Eles REL: deram Arg1: as mãos Arg2: se (um para o outro) Ele se culpou por não ter chegado a tempo. Arg0: Ele Arg1: se (a si mesmo) REL: culpou Arg2: por não ter chegado a tempo
Quando o “se” não se enquadrar em nenhum dos casos acima, ele deve ter seu sentido descrito no VERBO -
BRASIL como parte de um verbo pronominal, ou seja, a forma pronominalizada do verbo terá um identificador de
sentido próprio.
Há dois casos em que tratamos um verbo como pronominal: 1) pronominalização para construção da
alternância causativa (o tema troca de posição com a causa e assume a posição de sujeito) e 2) pronominaliza ção que
faz parte do léxico e cuja motivação se perdeu ao longo da história da língua. Em ambos os casos, o pronome não
possui papel semântico. Esses casos serão anotados como ArgM-nse (“se” não argumental) para distingui-los dos
demais pronomes que ocorrem junto aos verbos.
Como esse “se” não tem valor argumental, ele deveria fazer parte do lema verbal, ou seja, pertencer ao
léxico e não à gramática. Por isso, futuramente, por meio da identificação do sentido, poderemos fazer a
concatenação do verbo com a partícula.
Exemplos:
O menino magoou-se com a bronca que levou. Arg1: o menino REL:magoou ArgM-nse: se Arg0: com a bronca que levou (causa)
O sentido, nesse caso, não é “ O menino magoou a si mesmo com a bronca que levou”, mas sim “A bronca
que o menino levou magoou-o”. A causa é “a bronca que o menino levou” e o paciente ou tema afetado é “o
menino”. Trata-se, portanto, da pronominalização para alternância causativa (troca de posição dos argumentos causa
e tema afetado).
Eu me orgulho de ter feito isso. Arg0: Eu ArgM-nse: me REL: orgulho Arg1: de ter feito isso
Nesse caso, trata-se de verbo essencialmente pronominal. O sujeito é um experienciador.
4. ANOTANDO SOBRE ÁRVORES SINTÁTICAS
4.1 Relação entre constituintes sintáticos e papéis semânticos O ideal seria que cada papel semântico correspondesse a um único constituinte sintático. Porém, quando se
anota sobre árvores sintáticas não corrigidas (fora do cenário dos treebanks), isso nem sempre ocorre. Basicamente,
há três possibilidades de relacionamento entre a anotação sintática e a semântica: 1 para 1, 1 para n e n para 1.
4.1.1 Relação de 1 para 1 A relação entre o constituinte sintático e o argumento semântico é de um para um sempre que houver um
“nó” da árvore que corresponda exatamente ao papel semântico sendo atribuído, como é mostrado na Figura 4.
Figura 4 Exemplo de um constituinte sintático para cada argumento semântico:
Ohtake diz que até o compositor e cantor baiano Caetano Veloso manifestou desejo de assistir ao show de Nusrat, na segunda-feira, em São Paulo. REL: assistir Arg1: ao show de Nusrat Argm-tmp: na segunda-feira Argm-loc: em São Paulo
4.1.2 Relação 1 para n Por várias razões, inclusive problemas de parsing, um mesmo argumento semântico pode ser composto por
dois ou mais constituintes sintáticos, contínuos ou não (relação de 1 para n). Nesses casos, a etiqueta deverá ser
atribuída a todas as partes que compõem o argumento.
Figura 5 Vários constituintes sintáticos para um semântico.
A rebeldia não é a revolução, como bem acentua Octavio Paz. Arg1: a rebeldia não é a revolução Argm-mnr: bem REL: acentua Arg0: Octavio Paz É possível, inclusive, que os constituintes sintáticos que correspondem a um argumento semântico não
ocorram em sequência, como na Figura 6
Figura 6 Dois constituintes sintáticos não contíguos para um argumento semântico.
Além de Brasília, devem atrasar o relógio os Estados de São Paulo, Rio Grande do Sul, Paraná, Minas Gerais e Santa Catarina. Arg0: [Além de Brasília] [os estados de São Paulo, Rio Grande do Sul, Paraná, Minas Gerais e Santa Catarina.] REL atrasar Arg1; o relógio
Outros exemplos típicos de dois constituintes sintáticos não contíguos para um semântico são mostrados a
seguir.
Dentre outras coisas, eles disseram, vocês precisam se preocupar com o dinheiro. REL: disseram Arg0: eles Arg1: [dentre outras coisas.] [vocês precisam se preocupar com o dinheiro] Algumas pessoas dedicam-se mais a mim do que as pessoas de minha família. REL: dedicam Arg0: algumas pessoas Arg1: se Arg2: a mim ArgM-EXT :[ mais ] + [do que as pessoas de minha família]
Quando um argumento semântico estiver representado por mais de um constituinte sintático, a etiqueta de
papel semântico deverá ser atribuída a todos eles. Em uma fase de pós-processamento, esses constituintes sintáticos
deverão ser concatenados em um único constituinte semânticos.
4.1.3 Relação de n para 1 Há casos em que dois ou mais argumentos semânticos estão contidos em um único constituinte sintático
(relação de n para 1). Nesses casos, como não é possível desmembrar os constituintes, deveremos atribuir o papel
semântico de mais alto nível à sequência toda ou o papel devido ao primeiro argumento se todos forem de um
mesmo nível, como por exemplo vários ArgMs, como mostrado na Figura.
Figura 7 Exemplo de vários argumentos semânticos contidos em um mesmo constituinte sintático
O festival itinerante , que acontecerá em Santos , Rio_de_Janeiro ( em o domingo ) , Capão_da_Canoa ( RS , dia 21 ) e Florianópolis ( dia 23 ) , dá o tom a a primeira etapa de shows de este ano , marcada por o reggae , novas e antigas bandas nacionais e atrações étnicas e/ou regionais. Arg1: que REL: acontecerá Argm-loc: em Santos , Rio_de_Janeiro ( em o domingo ) , Capão_da_Canoa ( RS , dia 21 ) e Florianópolis ( dia 23 )
No exemplo da Figura 7, temos quatro locais e quatro tempos (datas), mas não temos um constituinte
sintático para cada um deles, por isso a sequência recebeu o rótulo do papel semântico referente ao argumento que
ocorreu primeiro na sequência, que é o ArgM-loc.
Se um constituinte sintático contiver vários constituinte semânticos, o const ituinte deverá receber a etiqueta
de mais alto nível na seguinte ordem de prioridade: Arg0, Arg1, Arg2... ArgMs ou, na ausência de relação de
precedência entre os papéis semânticos (como entre os ArgMs, por exemplo) deverá prevalecer a etiqueta do
primeiro constituinte semântico contido no constituinte sintático.
4.2 Quando um argumento pertence ou não à estrutura argumental do verbo alvo da anotação
Muita atenção deve ser colocada sobre os ArgMs, pois eles devem ser anotados na estrutura argumental a
que se referem. Na Figura 8 temos um exemplo adjunto adverbial de causa que modifica um nome. Embora seja uma
causa, não é uma causa relacionada ao verbo que está sendo anotado (“abalar”), i.e. a locução prepositiva “por ter
jogado dopado” é causa da “exclusão de Maradona” e não a causa de “abalou os jogadores”. O mesmo ocorreria se
tivéssemos um adjunto adverbial de tempo ou de lugar modificando o nome “exclusão”: “A expulsão de Maradona,
no sábado passado, no jogo contra a França, abalou os jogadores”.
Figura 8. Argumento modificador que se refere a um argumento do verbo e não ao verbo
A expulsão de Maradona, por ter jogado dopado contra a Nigéria, no jogo contra a França, abalou os
jogadores”.
Arg0: [A exclusão de Maradona] [por ter jogado dopado contra a Nigéria] REL: abalou Arg1: os jogadores Na Figura 9 temos vários constituintes semânticos do nome “falta”: “do lateral Mc Allister”, “em Euler”,
“quando este ia entrar na área”. Portanto, na estrutura argumental do verbo “acordar”, esses constituintes devem ser
anotados juntamente com o constituinte a que se referem, ou seja, o Arg0 do verbo “acordar”, que é uma causa ou
causador.
Figura 9 Exemplo de argumentos de um predicado nominal que não devem ser confundidos com argumentos do verbo
O São Paulo começou o primeiro tempo apático, mas acordou aos 10 min com uma falta não marcada do lateral MacAllister em Euller , quando este ia entrar na área.
Arg0: [com uma falta não marcada do lateral MacAllister] [em Euller] [quando este ia entrar na área] Argm-tmp: aos 10 min
Os modificadores de um argumento do verbo devem ser anotados com esse argumento e não com o verbo.
Se um sintagma nominal (NP) for sujeito de mais de uma oração, ele deverá ser anotado apenas na estrutura
argumental do verbo mais próximo dele. Nos demais, por estar elíptico, não deverá ser anotado. Na Figura 10 temos
o sintagma nominal “Reis”, que é sujeito dos verbos “dizer” e “abandonará”. Nesse caso, ele só deverá receber
anotação de papel semântico na estrutura argumental do verbo “dizer” e não na estrutura argumental do verbo
“abandonar”. A elipse do sujeito na segunda oração deverá ser tratada em breve com a inserção de um co nstituinte
artificial para suportar a anotação, ficando assim: “Reis não quis dizer se Suj também abandonará Espiridião Amin.”
Desta forma, o Arg0 de “abandonará” será atribuído ao constituinte artificial Suj e poderemos fazer uma
correferência entre esse Suj e seu referente, “Reis”.
Figura 10 Exemplo de concorrência entre dois verbos que têm o mesmo sujeito
Reis não quis dizer se também abandonará Esperidião Amin. Argm-dis: também REL: abandonará Arg1; Esperidião Amin
4.3 Anotação de Correferência Quando um pronome fizer correferência a um constituinte presente na sentença, o papel semântico deverá
ser atribuído ao pronome e não ao constituinte a que ele se refere, como é o caso do Arg0 mostrado na Figura 11. Ao
contrário do que ocorre no PennTreebank, a correferência não está resolvida em nosso corpus de português e, por
isso, será anotada nesta versão do PropBank-Br para fornecer material para treinamento, conforme destacado em
vermelho na Figura 11. Se houver um “nó” para ancorar a etiqueta do referente, ele deverá ser usado; se não houver,
a etiqueta deverá ser ancorada diretamente nos tokens (Fig. 12).
Figura 11 Exemplo de anotação de correferência
No exemplo da Figura 12, o “que” é um pronome relativo que retoma o np “outros profissionais brasileiros”
(não identificado pelo parser). Nesse caso, a etiqueta “referente” que liga o “que” a “outros profissionais brasileiros”
deverá ser ancorada diretamente nos tokens. Quando tivermos resolução automática de correferência, ao
atribuirmos um rótulo ao “que”, recuperaremos o sintagma nominal a que ele se refere. Ex: que => Outros
profissionais brasileiros.
Figura 12 Exemplo de referente anotado diretamente nos tokens
Outros profissionais brasileiros, que atuam nos EUA, também participam. Arg0: que REL: atuam ArgM-loc: nos EUA
Já no exemplo da Figura 13, o ArgM-loc foi atribuído ao pronome “onde” e não a “Teatro Nacional de
Brasília”, que é o lugar ao qual “onde” se refere.
Figura 13 Anotação de correferente “onde”
« Eu estou apaixonado » , declarou o presidente Itamar_Franco , 63 , em o hall de o Teatro_Nacional de Brasília , onde assistiu anteontem o balé « Quebra_Nozes » com a pedagoga June_Drummond , 31 . ArgM-loc: onde REL: assistiu Arg1: o balé “Quebra Nozes” ArgM-Com: com a pedagoga June_Drummond , 31
Durante a anotação de papéis semânticos vamos também ligar o correferente a seu referente, como
mostrado nas Figuras 11, 12 e 13.
4.4 Atribuindo “Sentence Flags”. Se houver algum erro grave na árvore sintática ou na sentença do corpus que prejudique a anotação, a
sentença deverá receber um “flag” de WRONGSUBCORPUS (Corpus – Edit Flag – Type: Wrongsubcorpus). No campo
“parameter”, digitar “EC”, para erro de corpus ou “EP”, para erro de parsing. No campo “comentário” descrever o
erro em poucas palavras.
Um erro comum de corpus são as sentenças formadas por anúncios, como a que segue, extraída do corpus
PLN-Br:
0108301 terças a quintas, às 21h Quanto - a confirmar Elenco - adelaide Cristina, Carlos Henrique, Elisa Santana Espetáculo - o que aconteceu a Baby Neide?
Já um erro comum de árvore sintática é a falta de “nós” para ancorar as etiquetas de papéis semânticos,
como mostrado na Figura 14.
Figura 14 Exemplo de sentença que apresenta erro de parsing incontornável e que deve receber Sentence Flag Wrongsubcorpus
Nesse caso, a oração adverbial de tempo “ao retornar ao Japão” não forma um “nó” da árvore, pois a
preposição que a introduz está erroneamente vinculada ao np que constitui o Arg1.
Ao contrário do que ocorre na anotação de correferência, os papéis semânticos nunca devem ser atribuídos
diretamente aos tokens.
Se houver uma dúvida que impeça a anotação imediata, anote a sentença com “flag” LATER (Corpus – Edit
Flag – Type: Later). Deixe o campo “parameter” em branco e preencha o campo “comentário” com uma breve
descrição da dúvida.
4.5 Anotação de Verbos na Voz Passiva Na voz passiva, o Arg1 sempre ocupa a posição do sujeito e o Arg0 nem sempre é expresso.
Exemplos de anotação de verbos na voz passiva:
Voz passiva sintética (com o “se” marcando a supressão do Agente => anotar o “se” com Arg0)
Figura 15 Exemplo de voz passiva sintética
Mesmo abstraindo-se tudo o que a cidade representa como patrimônio cultural da humanidade, ainda assim ela resulta “paradisíaca”.
ArgM-adv: mesmo REL: abstraindo Arg0: se Arg1: tudo o que a cidade representa como patrimônio cultural da humanidade
Voz passiva analítica com agente expresso
Os lacres das embalagens foram rompidos pelos lojistas. Arg1: os lacres das embalagens REL: rompidos Arg0: pelos lojistas Voz passiva analítica sem agente expresso
Os lacres das embalagens foram rompidos. Arg1: os lacres das embalagens REL: rompidos Voz passiva sintética
Romperam-se os lacres das embalagens. REL: romperam Arg0: se Arg1: os lacres das embalagens
4.6 Anotação de Sujeito Indeterminado pela Partícula “se” Quando o “se” corresponder ao índice de indeterminação do sujeito, como na Figura 16, deverá ser anotado
como Arg0, pois é como se “ocupasse” o lugar do agente omitido. Para testar essa função do “se”, veja se pode ser
substituído por “a gente” ou “as pessoas”. Ex: “Isso termina por arrastá-la detestavelmente, sem que a gente chegue
a parte alguma”
Figura 16 Exemplo de Arg0 representado por um “se” com função de índice de indeterminação do sujeito
Isso termina por arrastá-la detestavelmente, sem que se chegue a parte alguma. Arg0: se (índice de indeterminação do sujeito) REL: chegue Arg4: a parte alguma
4.7 Anotação de Verbos no Infinitivo, Gerúndio e Particípio Os verbos que estiverem na forma infinita (infinitivo, gerúndio e particípio) e não fizerem parte de uma
locução verbal (verbos auxiliares mais verbo principal) muitas vezes não têm todos os argumentos previstos. Mesmo
que o sujeito lógico esteja expresso na sentença, não o anote se ele já pertencer à estrutura argume ntal de um verbo
flexionado.
Nas Figuras 17 e 18 temos um verbo que faz parte de locução verbal e na Figura 19 temos um verbo que não
faz parte de locução verbal.
Figura 17 Verbo alvo no particípio, dentro de uma locução verbal (o auxiliar é que faz a flexão)
Figura 18 Verbo alvo no infinitivo, dentro de uma locução verbal (o primeiro auxiliar é que faz a flexão)
Figura 19 Verbo alvo no infinitivo, fora de uma locução verbal
Se, contudo, o verbo estiver em uma flexão que tenha a mesma forma de um infinitivo, como na Figura 19,
que traz o verbo “achar” na terceira pessoa do singular do Futuro do Subjuntivo, ele terá o sujeito em sua estrutura
argumental. Para identificar o infinitivo pessoal é só testar se o verbo muda no plural. No caso da Figura 20, a
sentença ficaria assim: “Se as diretorias acharem por bem...”. Outro teste seria substituir por outro verbo, pois a
coincidência de formas só ocorrer em alguns verbos. Por exemplo, se fosse o verbo “fazer”: “Se a diretoria fizer...”.
Além disso, não há nenhum outro verbo à esquerda do verbo “achar” a que possa pertencer o NP “a diretoria”.
Figura 20 Forma verbal idêntica ao infinitivo do verbo: induz a erro de parsing
Mas se a diretoria achar por bem negociá-lo, tudo bem. Arg0: a diretoria Arg1: por bem negociá-lo
O particípio, quando utilizado como adjetivo, pode ocorrer sem nenhum ArgN e até mesmo sem nenhum
ArgM. As Figuras 21 e 22 são exemplos de verbos no particípio funcionando como adjetivos:
Figura 21 Exemplo de verbo no particípio com função nominal
A Unicef prevê que até o fim do século a África abrigará 10 milhões de crianças órfãs ou abandona das por causa da epidemia de Aids. REL: abandonadas ArgM-cau: por causa da epidemia de Aids
Figura 22 Exemplo de verbo no particípio com função nominal
Oswaldão, sentindo-se abandonado pelo PT e pela Cut, havia acusado Lula de usar um caminhão do sindicato nas campanhas eleitorais. REL: abandonado Arg0: [por o PT e] [ por a Cut]