9
Estudo léxico-informático de 10 canções de Camões José Barbosa Machado Universidade de Trás-os-Montes e Alto Douro O estudo de textos literários através de ferramentas informáticas remonta ao início da própria informática, que se situa nos anos 40 e evoluiu nas décadas seguintes, atingindo um importante desenvolvimento nos anos 90. Uma das ideias iniciais era a junção da estatística, da lexicografia e da informática, criando ferramentas rápidas que pudessem tratar grandes quantidades de informação com o mínimo de erros. Um dos mais destacados investigadores nesta área foi Charles Müller que, desde os anos 60, veio publicando vários estudos, de que se destacam, Essais de Statistique Lexicale (1964), Étude de Statistique Lexicale (1967) e Initiation aux Méthodes de la Statistique Linguistique (1973). Dois outros autores são Louis Gilbert, que publicou em 1963 um ensaio sobre a utilização da estatística em lexicologia aplicada», e Pierre Guiraud, que publicou 1960 duas obras fundamentais: Les Caractères Statistiques du Vocabulaire. Essai de Méthodologie e Problèmes et Méthodes de la Statistique Linguistique. Em Portugal, Maria Helena Mira Mateus foi uma das primeiras autoras a falar da importância desta metodologia para o estudo dos textos portugueses, sendo Augusto Aires Nascimento um dos primeiros a aplicá-la na prática. Em 1977, publicou os dados estatísticos relativos a três textos medievais portugueses: De Ministerio Armorum, Vita S. Martini Saurensis e Vita Sancti Fructuosi. Em 1995, Olinda Santana fez o estudo estatístico-lexical das Éclogas de Bernardim Ribeiro. Em 1997, Deolinda Rodrigues Cabrera fez a análise estatística do texto medieval da Vita Sancti Theotonii e da sua tradução portuguesa numa vertente léxico-comparatista. A evolução informática e o aperfeiçoamento e simplificação dos sistemas operativos resultou na facilidade de utilização das ferramentas. Os linguistas e os estudiosos da literatura deixaram de se dirigir aos engenheiros informáticos para pedirem que lhes fosse facultada determinada rotina lógica ou script que lhes resolvesse um problema do âmbito exclusivamente metodológico do seu trabalho, para eles próprios criarem as suas ferramentas.

machad03

Embed Size (px)

DESCRIPTION

machad03

Citation preview

Estudo léxico-informático de 10 canções de Camões

José Barbosa Machado

Universidade de Trás-os-Montes e Alto Douro

O estudo de textos literários através de ferramentas informáticas remonta ao início

da própria informática, que se situa nos anos 40 e evoluiu nas décadas seguintes,

atingindo um importante desenvolvimento nos anos 90. Uma das ideias iniciais era a

junção da estatística, da lexicografia e da informática, criando ferramentas rápidas que

pudessem tratar grandes quantidades de informação com o mínimo de erros. Um dos

mais destacados investigadores nesta área foi Charles Müller que, desde os anos 60,

veio publicando vários estudos, de que se destacam, Essais de Statistique Lexicale

(1964), Étude de Statistique Lexicale (1967) e Initiation aux Méthodes de la Statistique

Linguistique (1973).

Dois outros autores são Louis Gilbert, que publicou em 1963 um ensaio sobre a

utilização da estatística em lexicologia aplicada», e Pierre Guiraud, que publicou 1960

duas obras fundamentais: Les Caractères Statistiques du Vocabulaire. Essai de

Méthodologie e Problèmes et Méthodes de la Statistique Linguistique.

Em Portugal, Maria Helena Mira Mateus foi uma das primeiras autoras a falar da

importância desta metodologia para o estudo dos textos portugueses, sendo Augusto

Aires Nascimento um dos primeiros a aplicá-la na prática. Em 1977, publicou os dados

estatísticos relativos a três textos medievais portugueses: De Ministerio Armorum, Vita

S. Martini Saurensis e Vita Sancti Fructuosi. Em 1995, Olinda Santana fez o estudo

estatístico-lexical das Éclogas de Bernardim Ribeiro. Em 1997, Deolinda Rodrigues

Cabrera fez a análise estatística do texto medieval da Vita Sancti Theotonii e da sua

tradução portuguesa numa vertente léxico-comparatista.

A evolução informática e o aperfeiçoamento e simplificação dos sistemas

operativos resultou na facilidade de utilização das ferramentas. Os linguistas e os

estudiosos da literatura deixaram de se dirigir aos engenheiros informáticos para

pedirem que lhes fosse facultada determinada rotina lógica ou script que lhes resolvesse

um problema do âmbito exclusivamente metodológico do seu trabalho, para eles

próprios criarem as suas ferramentas.

É o caso de muitos dos programas de análise estatística de textos que surgiram

recentemente e que foram realizados por linguistas. Refiro-me a três: um americano, o

Concordancer, que é sem dúvida o mais intuitivo e o mais fácil de utilizar, mas o mais

lento e o que ocupa mais espaço em disco (cerca de 100 MB para 30 páginas de texto

analisado); um inglês, o Wordsmith, que é o mais completo; e um português, o Lexicon.

Foi deste último que nos servimos para elaborar o estudo que passamos a apresentar.

Servimo-nos deste por três razões: porque aceita a acentuação portuguesa, o que não

acontece com nenhum outro que conhecemos; porque identifica automaticamente a

classe gramatical a que pertence cada palavra; e porque fomos nós próprios que o

criámos.

O nosso objectivo foi estudar as dez canções de Camões do ponto de vista léxico-

informático, sendo necessário, para isso, termos uma listagem fidedigna de todas as

palavras que surgem no texto, o número de ocorrências de cada uma delas, ou seja, o

número de vezes em que aparecem, e a classe gramatical a que pertencem.

Passamos a descrever o método de trabalho: extraímos o texto das canções, que se

encontrava no CD-ROM Vida e Obra de Luís de Camões publicado pela Porto Editora

em 1999, e guardámo-lo em dez ficheiros diferentes em texto simples ou não formatado,

um por cada canção.

De seguida, executámos o programa Lexicon e procedemos à listagem individual

das palavras de cada uma das canções, de que resultou um conjunto de dados que

viríamos posteriormente a completar e que apresentamos no quadro seguinte:

Quadro 1

Canção Nº estrofes Nº versos Finda Nº sílabas Nº palavras OcorrênciasCanção I 7 13 X 6 3 versos 6, 10 492 246Canção II 7 15 X 6 3 versos 6, 10 427 256Canção III 6 13 X 5 3 versos 6, 10 325 188Canção IV 8 16 X 7 3 versos 6, 10 727 371Canção V 6 14 X 5 5 versos 6, 10 420 249Canção VI 4 13 X 3 8 versos 6, 10 278 176Canção VII 9 15 X 8 3 versos 6, 10 709 389Canção VIII 9 13 X 8 3 versos 6, 10 494 277Canção IX 7 15 X 6 5 versos 6, 10 556 310Canção X 13 20 X 12 9 versos 6, 10 1504 686Totais - - - - 5932 1793

Na coluna correspondente ao número de versos, o primeiro valor representa o

número de versos e o segundo o número de estrofes. Assim, 13 X 6 designa 13 versos

distribuídos por 6 estrofes. A finda, que é a última estrofe de cada canção, foi

contabilizada à parte, uma vez que varia no número de versos.

2

Os versos nas dez canções ora têm seis sílabas, ora têm dez sílabas. Predominam,

no entanto, os versos decassilábicos.

Os dados extraídos do Lexicon correspondem apenas às últimas duas colunas: o

número de palavras e o número de ocorrências existentes em cada canção. Os dados

relativos às estrofes, ao número de versos, à finda (ou estrofe que serve de conclusão a

cada canção) e ao número de sílabas, contabilizámo-los manualmente. O total das

ocorrências é o resultado, não da soma dos valores de cada canção, mas da soma das

ocorrências de todas as canções em conjunto.

Se fizermos uma leitura horizontal dos dados, verificamos que os valores mais

elevados nas duas últimas colunas são, em geral, proporcionais ao tamanho das canções.

Por exemplo, a Canção X é, em extensão, a maior de todas, quer em número de estrofes,

quer em número de versos, reflectindo uma maior frequência de palavras e um maior

número de ocorrências. Inversamente, a Canção VI é a mais pequena de todas, sendo a

mais reduzida em número de estrofes, versos, palavras e ocorrências.

Verificamos ainda que o total do número de palavras e o total de ocorrências em

todas as canções varia em menos de metade (por exemplo: 492 / 246).

Quanto às classes gramaticais – retiradas a partir do número de ocorrências e não

contando por isso as formas repetidas –, estão distribuídas de acordo com o seguinte

quadro:

Quadro 2

Classes gramaticais Totais PercentagemVerbos 817 45,6%Substantivos 444 24,8%Adjectivos 274 15,3%Advérbios 63 3,5%Nomes próprios 20 1,1%Pronomes 101 5,6%Preposições 39 2,2%Conjunções 20 1,1%Artigos 7 0,4%Numerais 5 0,3%Interjeições 3 0,2%TOTAL 1793 100%

Sendo o verbo na língua portuguesa o motor da frase, não é de estranhar que esta

classe gramatical tenha maior predominância em relação às restantes. Se pensarmos

ainda que a temática das canções é autobiográfica e o poeta descreve poeticamente

estados de espírito quer no presente, quer no passado, tendo por isso necessidade de

3

utilizar com frequência as formas verbais, facilmente encontramos explicação para uma

frequência tão elevada de formas verbais em relação às outras formas gramaticais.

Dentro dos verbos, verifica-se uma ocorrência reduzida do modo conjuntivo (95

ocorrências), do modo condicional (11 ocorrências), do modo imperativo (7

ocorrências) e do modo infinitivo (122 ocorrências), tendo o poeta privilegiado o modo

indicativo (402 ocorrências). As restantes formas pertencem ao particípio passado, que,

ora aparece em tempos compostos, ora tem a função de adjectivo.

No modo indicativo, mais de metade das formas pertence ao presente (209

ocorrências), podendo a partir daí colocar-se a hipótese, a comprovar através do estudo

extra-gramatical, que, do ponto de vista temporal, a voz do sujeito da enunciação das

canções fala de uma situação presente. Os tempos indicativos do pretérito estão assim

distribuídos: o pretérito perfeito tem 76 ocorrências, o pretérito imperfeito 79

ocorrências, o pretérito mais-que-perfeito 20 ocorrências, o que, somando, dá 175

formas diferentes, número inferior às formas do presente do indicativo.

O futuro imperfeito tem dezoito ocorrências e grande parte das formas pertence a

verbos sensitivos e declarativos: gritarei, queixarei, direi, dirás, dirá, sentirei, sentirão,

verás, verá, dando a ideia de que as considerações do poeta se projectarão no futuro.

Depois do verbo, surge o nome ou substantivo. Camões serviu-se basicamente de

dois subdomínios: os nomes abstractos que remetem para o campo do sentimento:

alegria, amor, afeição, desejo, desgosto, desesperação, etc.; e os nomes concretos que

surgem em momentos descritivos, pertencentes ao campo da Natureza: aves, flores,

arvoredos, gados, orvalho, vento, etc.

Os adjectivos são, curiosamente, de utilização bastante reduzida relativamente aos

verbos e aos substantivos. Também estes podem subdividir-se em dois campos

semânticos: os que se referem à descrição da Natureza que rodeia o poeta (fresca,

suaves, brandas, cristalinas, etc.); e os que se referem a sentimentos em relação a si

próprio, em relação às coisas, ou em relação aos outros (gentil, graciosa, honesto,

infelice, tímido, vingativo, justos, saudosos, etc.).

Os advérbios têm uma frequência reduzida. Dentro destes, apenas dezasseis são

advérbios de modo que, no plano da significação, remetem para a melancolia, uma das

temáticas do Camões maneirista: suavemente, sutilmente, mansamente, docemente,

brandamente, vamente, enganosamente, etc.

Surgem vinte nomes próprios, sete deles relativos à geografia: Abássia (o mesmo

que Abissínia, região junto ao Mar Vermelho), Arábia, Cabo, Oriente, Félix (monte),

4

Austro (o sul) e Mondego (o rio); os restantes relevam da mitologia greco-latina:

Aqueloo, Berenice, Eco, Febo, Flora, Ixião, Marte, Minino (ou Cupido), Progne, Sísifo,

Tântalo e Tício.

Alguns deles aparecem mais do que uma vez. É o caso de Aurora, de Marte, do

Minino e do Oriente.

Quadro 3

Palavra Ocorrência Palavra OcorrênciaAbássia 1 Flora 1Aqueloo 1 Ixião 1Arábia 1 Marte 2Aurora 2 Minino 4Austro 1 Mondego 1Berenice 1 Oriente 2Cabo 1 Progne 1Eco 1 Sísifo 1Febo 1 Tântalo 1Félix 1 Tício 1

Quanto às restantes classes gramaticais, destacamos apenas os pronomes,

especialmente os da primeira pessoa do singular. O pronome pessoal me é o mais

frequente, com 103 ocorrências, seguindo-se eu com 29, mim com 21, meu com 34,

minha com 19 e meus com 9. Os restantes são em número muito mais reduzido,

depreendendo-se daqui que a voz enunciadora é a do próprio sujeito poético, como

sucede com grande parte da poesia lírica.

Nada do que vimos até ao momento leva a concluir da qualidade literária das

várias canções. A qualidade literária, ao contrário do que alguns investigadores desta

área possam afirmar, não é objectivamente mensurável. Depende de gostos literários, de

modas, de convenções. Quando muito, um estudo estatístico pode levar a uma

conclusão mais rigorosa que nunca poderá depender exclusivamente dos dados

estatísticos.

No quadro seguinte apresentamos a diferenciação vocabular no que diz respeito às

ocorrências no texto de cada canção. As palavras que ocorrem apenas uma vez são mais

frequentes do que aqueles que ocorrem duas ou mais vezes, podendo concluir-se que o

poeta utilizou um vocabulário bastante variado.

5

Quadro 4

Canção Nº de ocorrências Uma vez Duas vezes ou maisCanção I 246 179 67Canção II 256 208 48Canção III 188 150 38Canção IV 371 277 94Canção V 249 190 59Canção VI 176 131 45Canção VII 389 290 99Canção VIII 277 207 70Canção IX 310 243 67Canção X 686 497 189

Notam-se algumas diferenças entre as várias canções, podendo concluir-se da

muita ou pouca variedade do vocabulário utilizado pelo poeta em cada uma delas.

Quanto maior for o número de palavras que ocorrem apenas uma vez e quanto menor

for o número daquelas que ocorrem duas vezes ou mais, tanto maior é a variedade

vocabular. Assim, poderemos dizer que a Canção I tem um vocabulário menos variado

do que a Canção II; a Canção III tem um vocabulário mais variado do que a Canção VI;

etc.

Terminamos o nosso estudo dando um exemplo de como constituir um campo

lexical a partir dos dados elaborados pelo Lexicon das 10 canções de Camões.

Seleccionámos o campo relacionado com amor / amar. Criámos em seguida um filtro

na base de dados que nos listou as seguintes formas:

PalavraOcorrências

Classe Subclasse

ama 2 Verbo / Nome Presente do indicativoamada 2 Verbo Particípioamado 1 Verbo Particípioamar 1 Verbo Infinitivoamaríssimo 1 Adjectivoamar-vos 1 Verbo InfinitivoAmor 32 Nomeamores 2 Nomeamoroso 1 Adjectivoamorosos 1 Adjectivonamorada 1 Verbo Particípionamorados 1 Verbo Particípionamoro 1 Verbo Presente do indicativo

A primeira forma, ama, surge uma vez como pertencente ao verbo amar e outra

como nome comum («Foi minha ama üa fera»). Sendo etimologicamente problemática

6

a origem desta palavra, não a poderemos considerar como pertencente ao campo lexical

de amor / amar. Os programas informáticos obviamente não conseguem distinguir estas

particularidades, pelo menos por enquanto.

A língua felizmente não se reduz a fórmulas matemáticas que se possam aplicar

com regras exactas e que dão resultados exactos. As variantes, as modalizações, a

constante recriação lexical e semântica dificultam a exactidão matemática e impõem

desvios estatísticos. É por isso que, apesar de considerarmos a utilização das

ferramentas informáticas necessárias, por pouparem tempo e trabalho ao investigador,

além de darem resultados mais fiáveis, não deixamos de pensar que é necessária a

intervenção e a reflexão humanas posteriores. De outro modo deixaria de ter cabimento

a investigação científica.

Esperemos que Camões não dê muitas voltas no túmulo, onde quer que ele esteja,

ao ver o que lhe andamos a fazer aos versos que tanto lhe custaram a escandir.

7

BIBLIOGRAFIA

CABRERA, Deolinda Rodrigues (1997), Estudo Lexical da Tradução Portuguesa

Quatrocentista da Vida de São Teotónio, Braga, Faculdade de Filosofia.

GILBERT, Louis (1963), «De l'utilization de la statistique en lexicologie

appliquée», em Études de Linguistique Appliquée, nº 2, Paris, Didier.

GUIRAUD, Pierre (1960), Les Caractères Statistiques du Vocabulaire. Essai de

Méthodologie, Paris, P.U.F.

GUIRAUD, Pierre (1960), Problèmes et Méthodes de la Statistique Linguistique,

Paris, P.U.F.

MACHADO, José e Mário Morais, Vida e Obra de Luís de Camões, versão 2.0,

Porto, Porto Editora, 1999 (CD-ROM).

MATEUS, Maria Helena Mira (1966), «Perspectivas da Linguística actual. (O

método estatístico, a teoria da informação, a utilização de máquinas)», em Revista de

Portugal, série A, Língua Portuguesa, vol. 31, pp. 178-185.

MATEUS, Maria Helena Mira (1968), «Informática e Linguística: a mecanografia

nos estudos da linguagem», em Revista de Portugal, série A, Língua Portuguesa, vol.

33, pp. 218-232.

MÜLLER, Charles (1963), «Le mot, unité de texte et unité de lexique en

statistique lexicologique», em Travaux de Linguistique et de Littérature, I, pp. 155-173.

MÜLLER, Charles (1964), Essais de Statistique Lexicale. L'Illusion Comique de

Pierre Corneille, Paris, Klincksieck.

MÜLLER, Charles (1967), Étude de Statistique Lexicale. Le Vocabulaire du

Théâtre de P. Corneille, Paris, Larousse.

MÜLLER, Charles (1968), Initiation à la Statistique Linguistique, Paris,

Larousse.

MÜLLER, Charles (1973), «La Statistique Linguistique», em Le Language,

direcção de B. Pottier, Paris, pp. 288-303.

MÜLLER, Charles (1973), Estadística Lingüística, Madrid, Editorial Gredos.

Tradução espanhola de Antonio Quilis.

MÜLLER, Charles (1973), Initiation aux Méthodes de la Statistique Linguistique,

Paris, Librairie Hachette.

8

MÜLLER, Charles (1977), Principes et Méthodes de Statistique Lexicale, Paris,

Librairie Hachette.

NASCIMENTO, Augusto Aires (1977), De Ministerio Armorum: Índices,

Concordância, Análise Linguística – Dados Estatísticos, Lisboa, sem editora.

NASCIMENTO, Augusto Aires (1977), Vita S. Martini Saurensis: Índices,

Concordância, Análise Linguística – Dados Estatísticos, Lisboa, sem editora.

NASCIMENTO, Augusto Aires (1977), Vita Sancti Fructuosi: Índices,

Concordância, Análise Linguística – Dados Estatísticos, Lisboa, sem editora.

NASCIMENTO, Augusto Aires (1986), «A crítica textual na perspectiva de um

tratamento informático do corpus camonianum», em Critique Textuelle Portugaise –

Actes du Colloque, Paris, 20-24 Octobre 1981, Paris, Centro Cultural Português.

SANTANA, Olinda (1995), Um Estudo Estatístico-Lexical das Éclogas de

Bernardim Ribeiro, Vila Real, UTAD.

9