37
106 Anexo 3: Proposta de tradução para Translation, de Warren Weaver Tradução Warren Weaver Basta mencionar o facto óbvio de a multiplicidade de línguas dificultar o intercâmbio cultural entre as pessoas na Terra, o que se torna um sério obstáculo à compreensão mundial. O presente memorando, assumindo a validade e importância deste facto, contém alguns comentários e sugestões baseados na possibilidade de contribuírem, pelo menos, com alguma coisa para a solução do problema da tradução a nível mundial, através do uso de computadores eletrónicos de grande capacidade, flexibilidade e rapidez. As sugestões presentes neste memorando estarão com certeza incompletas e ingénuas, podendo ser até obviamente tolas para um perito na área para o autor não o é certamente. Uma Anedota de Guerra Invariantes de Língua Durante a guerra um notável matemático a quem chamaremos P, um ex- alemão que passou algum tempo na Universidade de Istambul e que lá aprendeu turco, contou a W.W a seguinte história. Um colega matemático, sabendo que P tinha um interesse amador em criptografia, chegou ao pé de P uma manhã afirmando que tinha descoberto uma técnica de descodificação, e pediu a P para preparar uma mensagem codificada na qual conseguisse experimentar o seu plano. P escreveu em turco uma mensagem que continha cerca de 100 palavras, e simplificou-a ao substituir as letras c, ğ, ı, ş, ö e ü por c, g, i, o, s e u respetivamente; e depois, utilizando algo mais complexo que uma simples cifra de substituição, reduziu a mensagem a uma coluna de números com

Tradução - Repositório da Universidade de Lisboa ...repositorio.ul.pt/bitstream/10451/10945/3/ulfl155512_tm_3.pdf · P escreveu em turco uma mensagem que continha cerca de 100

Embed Size (px)

Citation preview

106

Anexo 3: Proposta de tradução para Translation, de Warren

Weaver

Tradução

Warren Weaver

Basta mencionar o facto óbvio de a multiplicidade de línguas dificultar o intercâmbio

cultural entre as pessoas na Terra, o que se torna um sério obstáculo à compreensão

mundial. O presente memorando, assumindo a validade e importância deste facto,

contém alguns comentários e sugestões baseados na possibilidade de contribuírem,

pelo menos, com alguma coisa para a solução do problema da tradução a nível

mundial, através do uso de computadores eletrónicos de grande capacidade,

flexibilidade e rapidez.

As sugestões presentes neste memorando estarão com certeza incompletas e

ingénuas, podendo ser até obviamente tolas para um perito na área – para o autor não

o é certamente.

Uma Anedota de Guerra – Invariantes de Língua

Durante a guerra um notável matemático a quem chamaremos P, um ex-

alemão que passou algum tempo na Universidade de Istambul e que lá aprendeu

turco, contou a W.W a seguinte história.

Um colega matemático, sabendo que P tinha um interesse amador em

criptografia, chegou ao pé de P uma manhã afirmando que tinha descoberto uma

técnica de descodificação, e pediu a P para preparar uma mensagem codificada na

qual conseguisse experimentar o seu plano. P escreveu em turco uma mensagem que

continha cerca de 100 palavras, e simplificou-a ao substituir as letras c, ğ, ı, ş, ö e ü

por c, g, i, o, s e u respetivamente; e depois, utilizando algo mais complexo que uma

simples cifra de substituição, reduziu a mensagem a uma coluna de números com

107

cinco dígitos. No dia seguinte (e o tempo que foi exigiu é importante) o seu colega

trouxe o seu resultado de volta, e realçou que a correspondência não tinha tido

_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver

107

qualquer sucesso. Porém, a sequência de letras que ele descreveu, quando

devidamente agrupadas em palavras, e quando corrigida ao de leve (não que fosse

necessária uma correção cuidadosa que pudesse incomodar aqueles que conhecem

bem a língua) acabou por ser a mensagem original em turco. O ponto principal, pelo

menos tendo em conta os objetivos presentes, é o de que a descodificação foi feita por

alguém que não sabia turco, e não sabia que a mensagem estava em turco. Por outro

lado, toda a gente conhece o famoso exemplo durante a Primeira Guerra Mundial,

quando as nossas forças criptográficas demoraram semanas ou meses a determinar

que uma mensagem que tinha sido intercetada estava codificada em japonês; e

demorou relativamente pouco tempo a decifrá-la, assim que souberam qual era a

língua.

Durante a guerra, quando toda a área da criptografia era tão secreta, parecia

indiscreto questionar os detalhes relativos a esta história; mas não é difícil adivinhar

que este processo fez uso da frequência de letras, da combinação de letras, intervalos

entre letras e combinações de letras, padrões de letras, entre outros, que são até

determinado nível independentes da língua utilizada. Isto leva qualquer pessoa a

supor que, nas diversas instâncias nas quais o homem tem inventado e desenvolvido

línguas, existem certas propriedades invariantes que, uma vez mais, não sendo

precisas são até certo ponto estatisticamente comuns e úteis a todas as línguas.

Este pode ser, tanto quanto sei, um famoso teorema de filologia. Na verdade,

as conhecidas teorias de Müller e outros para a origem da linguagem, como a teoria

bow-wow, woof-woof, entre outras, levariam qualquer pessoa a esperar que todas as

línguas tivessem características em comum, devido ao seu mecanismo essencialmente

semelhante de desenvolvimento. E, em qualquer caso, existem razões óbvias que

tornam essa suposição bastante provável. Todas as línguas – pelo menos aquelas que

aqui temos em consideração – foram inventadas e desenvolvidas pelos homens; e

todos os homens, sejam eles bantu ou gregos, islandeses ou peruanos têm

essencialmente o mesmo equipamento para lidar com este problema. Todos possuem

órgãos vocais capazes de produzir o mesmo conjunto de sons (com pequenas

exceções, como o clique da glote dos nativos africanos). Os seus cérebros partilham a

mesma complexidade potencial. As exigências básicas da língua têm que ter emergido

de formas relativamente semelhantes em lugares diferentes, e talvez, em alturas

diferentes. Esperar-se-iam grandes diferenças superficiais; mas parece mais sensato

esperar que certos aspetos básicos, e provavelmente pouco óbvios, sejam comuns a

_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver

108

todos os desenvolvimentos. É um pouco como observar que as árvores diferem

amplamente em diversas características, e mesmo assim existem características

básicas em comum – certas qualidades essenciais “do (ser) árvore” – que todas as

árvores partilham, quer cresçam na Polónia, em Ceilão ou na Colômbia. Para além do

mais (e este último ponto é o mais importante) um sul-americano não tem, em geral,

qualquer problema em reconhecer que uma árvore norueguesa é uma árvore.

A ideia de elementos básicos comuns em todas as línguas recebeu, mais tarde,

apoio de uma afirmação que o lógico e matemático Reichenbach fez a W.W.

Reichenbach passou algum tempo em Istambul e, como muitos académicos alemães

que tinham ido para lá, estava perplexo e irritado com a língua turca. A gramática da

língua parecia-lhe tão grotesca que, por fim, acabou por sentir-se estimulado a estudar

a sua estrutura lógica. Esta vontade, por sua vez, fez com que se interessasse pela

estrutura lógica da gramática de muitas outras línguas; e, desconhecendo o interesse

de W.W. no assunto, Reichenbach observou: “fiquei espantado por ter descoberto que

(aparentemente) para uma grande diversidade de línguas, as estruturas básicas e

lógicas têm características importantes em comum”. Reichenbach disse que iria

publicar isto e enviaria o material a W.W., mas nunca apareceu nada.

Suspeita-se que exista uma grande quantidade de provas para este ponto de

vista geral – pelo menos partes destas provas aparecem espontaneamente, mesmo para

aqueles que não lêem muito da literatura relevante. Por exemplo: uma nota publicada

na Revista Science acerca da investigação sobre a semântica comparada de Erwin

Reifler, da Universidade de Washington [University of Washington], afirma que “as

palavras chinesas para „to shoot‟ [disparar] e „to dismiss‟ [dar licença para se retirar]

mostram uma concordância gráfica e fonológica notável”. Tudo isto parece

demasiado estranho, até que alguém pensa nos dois significados de “to fire”

[“despedir” e “disparar”], em inglês. Será apenas coincidência? O quão difundidas

estão estas correlações?

Tradução e Computadores

Tendo tido uma exposição considerável aos problemas de conceção de

computadores durante a guerra, e tendo consciência da velocidade, da capacidade, e

da flexibilidade lógica possível dos computadores eletrónicos modernos, é bastante

natural que W.W. tenha pensado, há muitos anos atrás, na possibilidade de tais

_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver

109

computadores serem utilizados para tradução. A 4 de Março de 1947, depois de ter

dado voltas a esta ideia durante alguns anos, W.W escreveu ao professor Norbert

Wiener do MIT (Massachussetts Institute of Techonology) nos seguintes termos:

Uma das coisas que lhe queria perguntar é o seguinte: um problema demasiado sério,

para a UNESCO e para o futuro do planeta, um futuro pacífico e que valha a pena, é o

problema da tradução, uma vez que afeta inevitavelmente a comunicação entre as pessoas.

Huxley disse-me há pouco tempo que estão aterrorizados com a magnitude e a importância da

tarefa de tradução.

Reconhecendo por completo, mesmo que de forma necessariamente vaga, as

dificuldades semânticas devidas à polissemia, entre outros, pergunto-me se era impensável

conceber um computador que pudesse traduzir. Mesmo que só traduzisse material científico

(onde as dificuldades semânticas são notavelmente menores) e mesmo que produzisse um

resultado deselegante (mas inteligível) parecer-me-ia que valeria a pena.

Também sem saber nada de oficial sobre novos e poderosos métodos mecanizados em

criptografia, mas tendo adivinhado e inferido o suficiente – métodos que acredito terem tido

sucesso mesmo quando ninguém sabe que língua foi codificada – naturalmente que uma

pessoa se interroga se o problema de tradução pode ser, de uma maneira concebível, tratado

como um problema na criptografia. Quando olho para um artigo em russo, digo: “Isto está, na

verdade, escrito em inglês, mas foi codificado em símbolos um pouco estranhos. Irei de

seguida proceder à sua descodificação”.

Alguma vez pensou nisto? Como linguista e especialista em computadores, acha que

é algo que valha a pena considerar?

O Professor Wiener, numa carta datada de 30 de Abril de 1947, disse em

resposta:

Em segundo lugar – em relação ao problema da tradução automática, receio

francamente que as fronteiras das palavras em línguas diferentes sejam demasiado vagas, e

que as conotações emocionais e internacionais sejam demasiado amplas para que um esquema

de tradução quase automático seja promissor. Admitirei que o inglês básico parece indicar

que podemos ir mais além do que foi feito geralmente na mecanização do discurso, mas deve

lembrar-se que em certos aspetos, o inglês básico é o oposto do mecânico e atira para cima de

palavras como get um fardo que é muito maior do que a maioria das palavras transporta no

inglês convencional. No momento presente a mecanização da linguagem, para além de um

_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver

110

estado como o da criação de oportunidades de leitura fotoeléctrica para invisuais, parece

prematura...

A isto, W.W. respondeu a 9 de Maio de 1947:

Estou desiludido, mas não surpreendido, com os seus comentários sobre o problema

da tradução. A dificuldade que mencionou em relação ao (inglês) básico parece-me ter uma

resposta relativamente fácil. É, claro, verdade que o inglês básico dá uso múltiplo a um verbo

de ação como get. Mas, mesmo assim, as combinações de duas palavras como get up

[levantar-se], get over [ultrapassar], get back [voltar], entre outros, são no inglês básico,

pouco numerosas. Imagine que pegamos num vocabulário de 2, 000 palavras, e admitimos

como uma boa medida todas as combinações de duas palavras, como se fossem uma só. O

vocabulário continua a ser apenas de quatro milhões: e isso não é um número muito

formidável para um computador moderno, ou é?

Deste modo, a tentativa de interessar Wiener, que parecia tão idealmente

equipado para considerar o problema, não conseguiu produzir qualquer resultado

concreto. Isto tem que ser, de facto, aceite como extremamente desencorajante

porque, caso existissem quaisquer possibilidades concretas, Wiener seria a pessoa

certa para as desenvolver.

A ideia já foi, contudo, considerada anteriormente. O primeiro exemplo do

conhecimento de W.W subsequente à sua própria noção do assunto, foi descrito num

memorando datado de 12 de Fevereiro, de 1948, escrito pelo Dr. Andrew D. Booth

que, no departamento do Professor J. D. Bernal, na Birkbeck College University of

London [Faculdade de Birbeck da Universidade de Londres], se manteve ativo na

construção e design de computadores. O Dr. Booth disse:

Um exemplo conclusivo, de possível aplicação do computador eletrónico, é a de

tradução de uma língua para outra. Refletimos sobre este problema com alguma minúcia, e a

conclusão foi que uma máquina do tipo proposto poderia desempenhar esta função sem

qualquer modificação na sua conceção.

A 25 de Maio de 1948, W. W. visitou o Dr. Booth no seu laboratório em

Welwyn, Londres, e descobriu que o Dr. Richens, diretor-assistente da Bureau of

Plant Breeding and Genetics [Agência de Multiplicação de Plantas e Genética], muito

_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver

111

preocupado com o problema abstrato, estava, juntamente com o Dr. Booth,

interessado no problema da tradução. Não tinham estado, pelo menos naquela altura,

preocupados com os problemas da polissemia, ordem de palavras, idioma, entre

outros, mas apenas com o problema da mecanização de um dicionário. Na altura, a

proposta de ambos era a de um primeiro “sentido” das letras numa palavra, e ter a

máquina a verificar se a sua memória contém ou não exatamente a palavra em

questão. Se sim, a máquina produz simplesmente a tradução (que é a grande

dificuldade; claro que “a” tradução não existe) da palavra. Se a palavra em questão

não faz parte da memória, então a máquina descarta a última letra da palavra, e tenta

de novo. Se este processo falhar, descarta mais outra letra e tenta novamente. Depois

de encontrar a maior combinação inicial de letras que contida no dicionário, “procura”

toda a porção que fora descartada num “anexo gramatical” do dicionário. Assim

sendo, quando confrontada com a palavra running [correndo; a correr], pode

encontrar run [correr], e depois descobrir o que o que o final ing [-endo; a ...], faz ao

run.

É por esta razão que o interesse dos dois investigadores estava, pelo menos na

altura, confinado ao problema da mecanização de um dicionário que, de uma forma

razoavelmente eficiente, manusearia todas as formas das palavras. Não temos notícias

recentes que Weaver se tenha dedicado mais assunto.

Muito recentemente os jornais têm noticiado histórias sobre o uso de um dos

computadores da Califórnia como tradutor. As notícias publicadas não indicam mais

do que uma espécie de tradução à letra, não havendo indicação, pelo menos que W.

W. tenha visto, da maneira proposta de lidar com o problema da polissemia, ordem de

palavras, entre outros.

Esta última tentativa, ou tentativa planeada, já causou um escárnio inevitável.

O Sr. Max Zeldner, numa carta ao Herald Tribune de 13 de Junho de 1949, afirmou

que o máximo que podíamos esperar de uma tradução automática das 55 palavras

hebraicas que constituem o Salmo 23 começaria assim: Lord my Shepard no I will

lack [Senhor, meu Pastor não me faltará], e acabariam But good and kindness he will

chase me all days of my life; and I shall rest in the house of Lord to length days [Mas

bem e bondade ele perseguir-me-á todos os dias da minha vida; e descansarei na casa

_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver

112

do Senhor para durar os dias]. Zeldner realça as palavras de um grande poeta hebraico

sobre a tradução: “é como beijar o nosso amor através de um véu”.1

É, de facto, bastante evidente que o processo de tradução faz pouco mais do

que lidar com a correspondência palavra-a-palavra, e esta não pode ambicionar

tornar-se útil aos problemas de tradução literária, na qual o estilo é importante e os

problemas idiomáticos e de polissemia, entre outros, são frequentes.

No entanto, mesmo este rigoroso tipo de tradução pode ter um uso bastante

importante. Grandes quantidades de material técnico, por exemplo, podem ser

manuseadas de maneira proveitosa, ainda que não elegante. A escrita técnica,

infelizmente, não é sempre tão direta e simples no que diz respeito ao estilo; mas, pelo

menos, o problema da polissemia é muito mais simples. Na Matemática, para utilizar

o que é provavelmente o exemplo mais simples, quase que se pode afirmar que cada

palavra, dentro do contexto geral de um artigo matemático, tem um significado e

apenas um.

O Futuro da Tradução Automática

As observações anteriores sobre os esquemas de tradução automática que

foram relatados não têm, contudo, dado uma indicação adequadamente promissora de

quais podem ser as futuras possibilidades. Essas devem ser, sem sombra de dúvida,

indicadas por pessoas que têm um conhecimento especial de línguas e sobre a sua

anatomia comparada. Mas mais uma vez, e correndo o risco de ser imbecilmente

ingénuo, é interessante assinalar quatro tipos de ataque, em níveis de sofisticação

crescente.

Significado e contexto

Primeiro, temos que pensar numa maneira na qual o problema de significado

múltiplo possa, pelo menos em princípio, ser resolvido. Se qualquer pessoa examinar

as palavras de um livro, uma de cada vez como que através de uma máscara opaca

com um buraco nela do tamanho de uma grande palavra, então é obviamente

impossível determinar, um de cada vez, o significado das palavras. “Fast” [rápido]

1 Procurou-se uma tradução interlinear dos dois versículos

_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver

113

pode querer dizer “rapid” [veloz] ou pode dizer “motionless”[imóvel]; e não há

maneira de dizer qual delas quer dizer.

No entanto, se alguém alargar a fenda na máscara opaca, para que se consiga

ver não só a palavra central, mas também N palavras de ambos os lados, então, se N

for amplo o suficiente pode-se decidir de forma inequívoca o significado da palavra

central. A verdade formal desta afirmação torna-se clara quando é mencionado o facto

de a palavra do meio de um artigo, ou de um livro inteiro ser inequívoca para a pessoa

que leu o artigo ou o livro completo, assegurando que o artigo ou livro em questão é

suficientemente bem escrito para comunicar.

A questão prática é: “Que valor mínimo de N conseguirá, pelo menos numa

fração tolerável de casos, conduzir à escolha correta de significado da palavra

central?”.

Esta é uma pergunta que diz respeito ao carácter estatístico e semântico da

linguagem, que pode certamente ter resposta, pelo menos de uma forma interessante,

e talvez mais útil. Claramente, N varia consoante o tipo de escrita em questão. Pode

ser zero para um artigo conhecido acerca de um tema matemático específico. Pode ser

bastante baixo para química, física, engenharia, entre outros. Se N for igual a 5, e o

artigo da ou livro em questão fosse sobre um tema de sociologia, haveria alguma

probabilidade de 0.95 que a escolha de significado estivesse correta 98% das vezes?

Claro que não, mas uma declaração deste género pode ser feita, e valores de N podem

determinados de forma a corresponderem a certas exigências feitas.

Além do mais, a ambiguidade é implicada primariamente por advérbios,

verbos e adjetivos; e na realidade (pelo menos suponho que assim seja) a

relativamente poucos pronomes, verbos e adjetivos. Aqui está um bom tema para o

estudo relativo ao carácter estatístico-semântico das línguas. No entanto, alguém pode

pensar em usar o valor de N que varia de palavra em palavra, é zero para he [ele], the

[a], entre outros, e que apenas necessita de ser amplo ocasionalmente. Ou

determinariam um único significado numa fracção satisfatória para examinar, não as

adjacentes de palavras 2N, mas talvez os pronomes adjacentes 2N? Que escolha de

palavras adjacentes maximiza a probabilidade da escolha correta de significado, e ao

mesmo tempo conduz ao valor mais pequeno de N?

Somos levados então a acreditar que o conceito do processo de tradução na

qual, ao determinar o significado para uma palavra, é o cálculo retirado do contexto

imediato (palavras - 2N). Seria muito pouco prático fazer isto através de um

_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver

114

dicionário generalizado que contivesse todas as fases possíveis de 2N + 1 palavra

extra: uma vez que os números dessas fases são terríveis, mesmo para um

computador. Porém, parece provável que se encontre uma maneira razoável de usar

um micro-contexto para resolver os casos mais difíceis de ambiguidade.

Linguagem e Lógica

Uma base mais geral para esperar que um computador possa ser concebido, de

forma a lidar com uma parte útil do problema da tradução, é encontrada num teorema,

testado em 1943 por McCulloch e Pitts2. Este teorema declara que um robô (ou um

computador) construído com loops regenerativos de um certo carácter formal é capaz

de deduzir qualquer conclusão legítima de um número finito de premissas.

Hoje em dia existem certamente elementos ilógicos na linguagem (sentido de

estilo intuitivo, conteúdo emocional, entre outros) para que tenhamos que ser

pessimistas acerca do problema de tradução literária. Contudo, na medida em que a

língua escrita é uma expressão de carácter lógico, este teorema assegura-nos que o

problema é, pelo menos, formalmente resolúvel.

Tradução e Criptografia

Claude Shannon, dos laboratórios Bell Telephone, publicou recentemente

alguns trabalhos notáveis sobre a teoria matemática da comunicação. Este trabalho

remete-nos às características estatísticas do processo de comunicação3. Existe um

nível tão básico de generalidade que não é surpreendente que a sua teoria inclua toda

a área da criptografia. Durante a guerra, Shannon escreveu fez uma análise muito

importante de todo o problema criptográfico, e este trabalho como acredita W. W.,

está para ser publicado brevemente, uma vez desclassificado.

É provável que apenas Shannon possa ser neste momento, um bom avaliador

das possibilidades nesta direção; mas, como foi expresso na carta original de W. W.

para Wiener, é bastante tentador dizer que um livro escrito em chinês é apenas um

livro escrito em inglês que foi codificado para o “código chinês”. Se tivermos

2 Warren B. MacCulloch and Walter Pitts, Bull. Math. Biophys., no. 5, pp. 115-133, 1943

3 Para uma versão mais simplificada, ver “The Mathematics of Communication”, por Warren Weaver,

Sci. Amer., no. 1, pp. 11-15, Julho, 1949.

_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver

115

métodos úteis para resolver qualquer problema de criptografia, não será com uma

interpretação adequada que já dispomos de métodos úteis para a tradução?

Esta abordagem chama a atenção um aspeto que é provavelmente bastante

básico – nomeadamente, o carácter estatístico do problema. A tradução “perfeita” é

quase inatingível. Processos, que em determinados níveis de confiança produzirão

uma tradução que apenas contêm uma percentagem x de “erro”, são certamente

alcançáveis.

É um dos objetivos principais deste memorando enfatizar que se devem fazer

os estudos da semântica estatística, como uma etapa preliminar necessária.

A ideia de tradução criptográfica conduz naturalmente à, e este é um caso

muito especial da, quarta e mais geral das sugestões: nomeadamente, a da tradução

fazer um forte uso de invariantes das línguas.

Linguagem e Invariantes

Na verdade, o que parece ser para W. W. a abordagem mais promissora de

todas é aquela que se baseia [...] noutra abordagem que aprofunda tanto a estrutura

das línguas, que chega ao nível em que estas apresentam traços em comum.

Pensem, por analogia, em indivíduos que moram numa série de torres altas e

fechadas, todas edificadas sobre um alicerce comum. Quando tentam comunicar entre

si, gritam de volta uns para os outros, cada um da sua própria torre fechada. É difícil

fazer com que o som chegue mesmo até às torres mais próximas, e a comunicação

prossegue assim de forma bastante fraca. Porém, quando um indivíduo desce a sua

torre, encontra-se numa grande cave aberta, comum a todas as torres. Aqui estabelece

uma comunicação fácil e útil com as pessoas que também desceram das suas torres.

Pode, por isso, ser verdade que a melhor forma de traduzir chinês para árabe,

ou de traduzir russo para português, não é tentar a via direta, gritando de torre em

torre. Talvez a melhor forma é descer, de cada língua, até à base comum da

comunicação humana – a verdadeira mas ainda desconhecida linguagem universal – e

depois reemergir através de uma qualquer via que seja conveniente.

Um programa como este envolve presumivelmente uma terrível quantidade de

trabalho sobre a estrutura lógica das línguas, antes de se poder passar para a

automatização. Este deve estar intimamente relacionado com aquilo que Ogden e

Richards já fizeram pela língua inglesa – e talvez pelo francês e pelo chinês. Mas é ao

_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver

116

longo destas linhas gerais que parece provável que o problema da tradução seja

atacado com sucesso. Um programa como estes têm a vantagem de, quer conduza ou

não a uma mecanização útil do problema da tradução, não poder falhar ao trazer

algum esclarecimento ao problema geral de comunicação.

Nota

Nota de Editor: Este é um memorando escrito por Warren Weaver no dia 16 de

Julho, de 1949. Foi reimpresso com a sua permissão por ser um documento histórico

sobre a tradução automática. Quando Weaver o enviou a cerca de 200 dos seus

conhecidos de várias áreas, foi literalmente a primeira sugestão que muitos deles

viram para a tradução de línguas ser possível através de técnicas de computador ser

possível.

117

Anexo 4: Proposta de tradução para The Development and use

of machine translation systems and computer-based translation

tools, de John Hutchins

Desenvolvimento e uso dos sistemas de tradução automática e

ferramentas de tradução baseadas em computador [computer-based],

John Hutchins

Resumo: O presente estudo sobre a procura e uso do software de tradução baseado

em computador [computer-based] concentra-se nos sistemas criados para a produção

de traduções de qualidade publicável, incluindo desenvolvimentos em sistemas de

linguagens controladas, software de trabalho do tradutor e de localização: mas

também se refere aos desenvolvimentos de software para não-tradutores,

particularmente para o uso das páginas Web e outras aplicações para a internet, tendo

ainda em consideração futuras necessidades e sistemas sob desenvolvimento. A

secção final compara os tipos de tradução que podem ser apresentados de forma mais

adequada, tanto por uma tradução humana, como por uma tradução automática (e

ainda por uma tradução assistida por computador).

Palavras-chave: tradução automática, tradução assistida por computador, software de

trabalho do tradutor e sistemas multilingues.

Tipos de procura de tradução

Quando se faz uma análise geral sobre o desenvolvimento e uso dos sistemas

de tradução automática (TA) e de ferramentas de tradução, é importante fazer a

distinção entre quatro tipos de procura a nível de tradução. O primeiro, e o mais

tradicional, é a procura de traduções da qualidade que se espera normalmente de

tradutores humanos, i. e. traduções de qualidade publicável – quer seja impressa e

vendida, quer seja distribuída internamente dentro de uma empresa ou organização. O

segundo tipo básico de procura, é para traduções de um nível de qualidade um tanto

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

116

ou quanto inferior (especialmente em estilo) direcionadas a utilizadores que querem

saber qual o conteúdo essencial de determinado documento – e, regra geral, o mais

depressa possível. O terceiro tipo de procura é o de tradução entre participantes numa

comunicação um a um (por telefone ou correspondência escrita) ou de uma

apresentação não-escrita (por exemplo: relações diplomáticas). A quarta área de

aplicação é para a tradução dentro dos sistemas multilingues de extração de

informação, e acesso a base de dados, entre outros.

O primeiro tipo de procura ilustra o uso dos sistemas de tradução automática

(TA) para disseminação. Esta tem sido preenchida, até certo ponto, pelos sistemas de

tradução automática desde que foram desenvolvidos pela primeira vez em 1960.

Contudo, os sistemas de TA produzem um output que tem invariavelmente de ser

revisto ou pós-editado por tradutores humanos para atingir a qualidade pretendida.

Estas revisões, por vezes, chegam a ser substanciais, para que o sistema de TA

produza, na verdade, aquilo que é uma tradução „rascunho‟. Como alternativa, o input

textual pode ser regularizado (ou „controlado‟ em termos de estrutura sintática e

vocabulário) para que os sistemas de TA produzam poucos erros a necessitarem de

correção. No entanto, tem-se desenvolvido alguns sistemas de tradução automática

para lidar com uma pequena variedade de conteúdos de texto e de estilo linguístico, o

que requer pouca ou nenhuma preparação e revisão de texto.

Recentemente, o uso de sistemas de TA com objetivos de disseminação tem

sofrido um aumento através do desenvolvimento de ferramentas de tradução (por

exemplo: bases de dados terminológica e memória de tradução) integradas em

processos de autoria e publicação. Este „software de trabalho de tradução‟ é mais

atrativo para tradutores humanos, enquanto os tradutores dos sistemas de TA se vêem

subordinados à máquina no que diz respeito à edição, correção e à re-tradução do

output de um computador. Com o software de trabalho de tradução, os tradutores têm

controlo sobre recursos baseados em computador [computer-based] onde podem

facilmente aceitar ou rejeitar o que pretenderem.

O segundo tipo de procura – o uso de TA para assimilação – já foi utilizado

no passado como um subproduto de sistemas concebidos originalmente para a

aplicação de disseminação. Alguns utilizadores descobriram que podem extrair o que

precisam de saber de um output não-editado, uma vez que os sistemas de TA não

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

117

conseguem (e continuam a não conseguir) produzir traduções de qualidade elevada.

Esses utilizadores preferem ter uma tradução, por muito fraca que seja, a não ter

nenhuma. Com a chegada de sistemas baseados em computadores pessoais [PC-based

systems] mais baratos ao mercado, este tipo de uso tem crescido rápida e

substancialmente.

Com o terceiro tipo – o de TA para intercâmbio – a situação está a mudar

rapidamente. A procura de traduções de textos eletrónicos na Internet, como de

páginas Web, e-mail e mesmo ainda de listas eletrónicas de „chat‟, está a desenvolver-

se rapidamente. Neste contexto, a possibilidade de se usar uma tradução humana está

fora de questão. A necessidade é de uma tradução imediata, de forma a transmitir o

conteúdo básico das mensagens, por muito fraco que seja o input. Os sistemas de TA

começam a desempenhar um papel „natural‟, uma vez que podem funcionar

virtualmente, em tempo real e online, sem que haja qualquer objeção à sua inevitável

fraca qualidade. Contudo, existe outro dos contextos para a TA no intercâmbio

pessoal que é alvo de inúmeras investigações. Trata-se do desenvolvimento de

sistemas para a tradução de língua falada, por ex., conversas telefónicas ou de

negócios. Os problemas de integração do reconhecimento de fala, e da tradução

automática são obviamente descomunais, no entanto e apesar de tudo, estão a ser

feitos progressos. No futuro – talvez ainda distante – poderemos contar com sistemas

de TA online para a tradução de discurso em domínios altamente restritos.

O quarto tipo de aplicação de TA – como componentes de sistemas de acesso

à informação – é a integração de software de tradução em: (i) sistemas para a

pesquisa e recuperação de textos completos de documentos provenientes de base de

dados (geralmente versões eletrónicas de artigos de revistas de ciência, medicina e

tecnologia), ou sistemas para a recuperação de informação bibliográfica; (ii) sistemas

para extrair informação de textos (por ex. detalhes sobre um produto), especialmente

relatos jornalísticos; (iii) sistemas para a sumarização de textos; e ainda (iv) sistemas

que questionam as bases de dados não-textuais. Este campo é foco de uma série de

projetos que têm lugar de momento na Europa, cujo objetivo consiste em alargar o

acesso a fontes de bases e informação, a todos os membros da União Europeia.

Percurso Histórico

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

118

Os sistemas para a tradução automática têm vindo a ser desenvolvidos desde

há 50 anos – aliás, desde que o computador eletrónico foi inventado nos anos de 1940,

que têm havido várias pesquisas sobre a sua aplicação para a tradução de línguas

(Hutchins 1986).

Por muitos anos, os sistemas foram inicialmente baseados em traduções

diretas via dicionários bilingues, com relativamente pouca análise detalhada das

estruturas sintáticas. Por volta dos anos 80 do século XX, contudo, deu-se um avanço

na linguística computacional que permitiu abordagens muito mais sofisticadas, e

vários sistemas adotaram uma abordagem mais indireta à tarefa da tradução. Nestes

sistemas, os textos da língua-fonte são analisados como representações abstratas de

„sentido‟, envolvendo programas sucessivos para a identificação da estrutura das

palavras (morfologia), estrutura das frases (sintaxe) e para a resolução de

ambiguidade (semântica). Incluído nesta última, estão componentes de programa para

fazer a distinção entre homónimos (exemplo: palavras inglesas como luz, que tanto

pode ser um substantivo, um adjetivo ou um verbo, e ainda solução (que tanto pode

ser um termo matemático ou químico) e para fazer o reconhecimento entre as relações

semânticas corretas (ex. O condutor do autocarro com o casaco amarelo – The driver

of the bus with the yellow coat). As representações abstratas pretendem-se ambíguas

para facultar a base de produção de textos para uma ou mais línguas-alvo. Têm

havido, de facto, duas abordagens „indiretas‟ básicas. Numa, a representação abstrata

pretende ser uma espécie de „interlíngua‟ independente, que pode potencialmente

servir como um intermediário entre um grande número de línguas naturais. A

tradução encontra-se, por isso, em dois níveis básicos: da língua-fonte para a

interlíngua, e da interlíngua para a língua-alvo. Na outra abordagem indireta (que é na

verdade a abordagem mais frequente) a representação é convertida primeiro, numa

representação equivalente da língua-alvo. Existem por isso, três níveis básicos: o da

análise do texto input para uma tradução-fonte abstrata, o da transferência para uma

representação-alvo abstrata, e o da criação para uma língua output.

Até aos finais dos anos 80, foram desenvolvidos todos os tipos de sistemas, e é

correto afirmar que todos os sistemas atuais comercialmente disponíveis estão

também classificados nestes três tipos básicos de sistemas: direto, por interlíngua e

por „transferência‟. Dos sistemas de TA para mainframe, os mais são conhecidos são

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

119

essencialmente os de „tradução direta‟, como por exemplo os sistemas Systran, Logos

e Fujitsu (Atlas).

Estes são, no entanto, versões melhoradas, e ao contrário dos seus

antecessores, são bastante modulares em termos de construção e facilmente

modificáveis e extensíveis, especialmente o sistema Systran. Originalmente criado

para a tradução exclusiva de russo para inglês, o sistema Systran agora disponível

para um vasto número de pares de línguas: de inglês para a maior parte das línguas

europeias (francês, alemão, italiano, espanhol, português) e depois para japonês,

coreano, entre outras. Também o sistema Logos que foi originalmente vendido de

alemão para inglês, está agora disponível para outras línguas: de inglês para francês,

alemão, italiano e espanhol, e ainda de alemão para francês e italiano. O sistema

Fujitsu ATLAS, por outro lado, continua restringido à tradução entre inglês e japonês.

Entre os mais importantes sistemas por transferência ‘mainframe’, estava o

sistema METAL, patrocinado ao longo dos anos 80 pela Siemens, na Alemanha.

Porém, o METAL só saiu para o mercado no final da década e as vendas foram

fracas. Durante os anos 90 do século XX, os direitos de aquisição do METAL foram

transferidos para duas organizações (a GMS e a LANT) através de um complexo

acordo. Mas os sistemas mais conhecidos que adotaram a abordagem por

„transferência‟ eram projetos de investigação: o sistema Ariane no GETA em

Grenoble (um projeto de TA dos anos 60 do século XX) e o Eurotra, fundado pela

Comissão das Comunidades Europeias. Havia a esperança de que o Ariane se tornasse

o sistema nacional francês, e havia planos para incorporá-lo no software de trabalho

do tradutor para a Eurolang (ver abaixo) mas no fim, nada adveio destes. Quanto ao

Eurotra, foi sem dúvida um dos sistemas mais sofisticados, mas depois de envolver,

por quase uma década, centenas de investigadores em muitos dos países da Europa

Ocidental, falhou ao produzir o sistema que os patrocinadores tanto queriam.

Esperava-se, por isso, que o Eurotra fosse eventualmente substituir os sistemas

Systran que a Comissão tinha adquirido, e que estava a desenvolver internamente.

Nos finais dos anos 80 do século XX, as agências governamentais japonesas

começaram a patrocinar um sistema interlíngua para línguas asiáticas, envolvendo

uma colaboração com investigadores da China, Tailândia, Malásia e Indonésia. No

entanto, depois de uma década de trabalho, este projecto também não conseguiu

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

120

produzir um sistema viável, (para estudos de investigação e desenvolvimento em TA

nos anos 80, inícios de 90 do século XX, ver Hutchins 1993, 1994).

Uso governamental e não-comercial

As instalações iniciais dos sistemas de TA eram serviços de tradução militares

e governamentais nacionais e internacionais – principalmente porque podiam cobrir

as despesas necessárias de hardware de computador. A US Air Force [Força Aérea

dos Estados Unidos], introduziu o Systran no ano de 1970 para traduzir documentação

militar, científica e técnica russa para inglês. Apesar de alguns documentos terem sido

publicados, grande parte do output foi passado para os seus respetivos recipientes sem

revisão, apesar da maioria dos relatórios técnicos reivindicarem mais de 90% de rigor.

O National Air Intelligence Center [Centro Nacional de Inteligência Espacial], que

retomou os serviços da USAF (do inglês United States Air Force) produz agora

traduções (muitas sem correção) para um grande leque de organizações

governamentais americanas (Pedtke 1997). Tal como o tipo de traduções referidas

anteriormente, de russo-inglês, foram disponibilizados sistemas do Systran para

traduzir japonês, chinês e coreano para inglês, assim como (também sob a alçada do

Systran) se encontra em desenvolvimento um sistema de servo-croata, também para

inglês.

Na Europa, o maior serviço é o da tradução da Comissão Europeia, e foi

também um dos primeiros a instalar a TA. Começou em 1976 com o sistema Systran

a fazer traduções de inglês para francês, mas nos anos que se seguiram foram

desenvolvidos outros sistemas para muitos outros pares de línguas, satisfazendo as

necessidades de tradução entre as línguas da União Europeia. Enquanto a tradução de

muitos textos jurídicos continua a ser feita por tradutores humanos, os sistemas

Systran são maioritariamente usados não só para a tradução de documentos internos

(com ou sem revisão posterior) mas também como versões rudimentares para dar

assistência aos administradores, aquando da composição de textos em línguas não-

nativas (Senez 1996).

Produção de documentação técnica

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

121

Até aos anos 90, a suposição mais natural era a de que os sistemas de TA

tinham a pretensão de serem usados para a produção de documentação de qualidade

publicável principalmente, mas não exclusivamente, de natureza científica e técnica.

A suposição era, por outras palavras, a de que os sistemas de TA seriam utilizados em

situações em que, outrora, os tradutores humanos eram empregues na qualidade de

peritos sobre os temas em questão. Evidentemente que a qualidade concreta do output

da TA, era inapropriada para uso direto. Tinha que ser extensamente revista antes de

ser publicada e os tradutores eram, por isso, contratados como „pós-revisores‟. Nestas

circunstâncias, o uso da tradução automática tornou-se uma questão económica, e era

apenas viável se a qualidade e a velocidade geral pudessem ser atingidas a um custo

inferior a tradutores humanos.

Apesar de existirem nos dias de hoje outras utilidades para a TA, como já

indicámos, esta aplicação continua a ser mais importante, particularmente para os

vendedores e responsáveis pelo desenvolvimento de mais sistemas ‘mainframe’

(Systran e Logos). Os clientes e utilizadores principais são empresas multinacionais

que exportam equipamento para o mercado global (Vasconcellos 1993; Brace et al.

1995). A necessidade aqui é a de tradução de documentação promocional e técnica.

No último caso os documentos técnicos são frequentemente necessários em grandes

quantidades: um número infindável de manuais operacionais para apenas uma peça de

equipamento pode chegar a vários milhares de páginas. Para além do mais, pode

haver várias revisões à medida que aparecem novos modelos. Como também deve

haver consistência na tradução: o mesmo componente tem que ser referido e traduzido

da mesma forma de cada vez. Esta escala de tradução técnica está para além da

capacidade humana. No entanto, para ser rentável, um sistema de TA tem que estar

bem integrado nos demais processos de documentação técnica da empresa: da escrita

inicial até à publicação e distribuição finais. Os sistemas desenvolvidos para a

assistência de escritores técnicos – não só assistência com a terminologia, mas

também com os manuais de estilo online e ajudas gramaticais – estão neste momento

a ser interligados a processos contínuos de publicação e publicação.

Existem inúmeros exemplos de um uso de sistemas de tradução automática de

empresas multinacionais, bem sucedido e a longo prazo, para a tradução de

documentação técnica. Um dos mais conhecidos é a aplicação dos sistemas Logos na

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

122

empresa Lexi-Tech em Nova Brunswick, Canadá, inicialmente utilizado para efetuar

traduções para francês dos manuais de manutenção de fragatas navais. Com isto, a

empresa construiu um serviço que se encarregou de outros grandes projetos de

tradução. A usar o Logos estão também a Ericsson, a Osram, as Tecnologias Océ,

SAP e a Corel. São os sistemas Systran, contudo, que detêm os clientes mais

importantes: a Ford, a General Motors, Aérospatiale, Berlitz, a Xerox, entre outros. O

sistema de alemão-inglês METAL, tem sido usado com sucesso por um número

significativo de empresas europeias: a Boehringer Ingelheim, a SAP, a Philips e a

UBS ( Union Bank of Switzerland).

Um pré-requisito fundamental para uma instalação de TA em grandes

empresas bem-sucedidas, é o facto de o utilizador esperar uma grande quantidade de

traduções dentro de um campo específico (objetos, produtos, entre outros). O

compromisso financeiro para com uma base de dados terminológica e a manutenção

de dicionários tem que ser justificável. Quer seja produzido automaticamente ou não é

recomendável que a documentação empresarial seja consistente com o uso da

terminologia. Muitas empresas insistem, de facto, no uso exclusivo dos seus próprios

termos, e não aceitam o uso de outros. Manter este tipo de consistência é quase

impossível fora de um sistema automatizado. No entanto, isto significa também que

antes que um sistema possa ser instalado, o utilizador tem que já ter disponível uma

base de dados terminológica sólida, com equivalentes de tradução certificados pelas

línguas envolvidas autorizadas, ou – pelo menos – têm que se comprometer a

desenvolver o banco de termos exigido.

É frequentemente desejável, por razões semelhantes, que o sistema de TA em

questão produza output em mais do que uma língua-alvo. A maioria dos sistemas de

TA em larga-escala têm que ser adaptados para o tipo de linguagem encontrada nos

diferentes tipos de documentos produzidos numa empresa em específico. Pode tratar-

se do acrescento de regras gramaticais específicas para lidar com construções frásicas

e orações, bem como a inclusão de regras específicas para lidar com itens lexicais, e

não só com os ditos termos exclusivos da empresa. A quantidade de trabalho

envolvido na referida adaptação só é justificável caso o output ocorra em várias

línguas.

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

123

Linguagem controlada e sistemas de domínio não-específico

Nestas circunstâncias, contudo, tem sido frequentemente considerado

verosímil a introdução de um maior nível de controlo. Um dos exemplos iniciais, e

também um dos mais conhecidos, é a aplicação do sistema Systran pela Corporação

Xerox. Aqui, os autores técnicos são obrigados a compor documentos naquilo que é

denominado como Inglês Multinacional „Feito por Medida‟ [Multinational

Customized English] que inclui não só o uso de termos específicos apresentados,

como também a construção de frases (Elliston 1979). As vantagens desta abordagem

são: evitar as ambiguidades do input com as quais o sistema de TA não consegue lidar

de forma apropriada, a consequente melhor qualidade do output, a produção rápida de

documentos técnicos em várias línguas diferentes ao mesmo tempo, e por último mas

não o menos importante, está a produção de documentos ingleses mais facilmente

compreensíveis. Estas vantagens têm sido reconhecidas por outras empresas

multinacionais, e o uso de „linguagens controladas‟ está a aumentar: por exemplo, a

Caterpillar Corporation [Corporação Caterpillar] criou a sua própria forma de inglês

para facilitar a tradução num sistema de TA baseado em conhecimento, a ser

desenvolvido pela Universidade Carnegie-Mellon (Miamura e Nyberg 1995). Existem

algumas empresas que se oferecem para construir sistemas de TA de linguagens

„controladas‟ para clientes específicos. A empresa que se estabeleceu há mais tempo –

e a pioneira nesta abordagem – é a Corporação Smart, em Nova York. A Smart tem

desenvolvido sistemas para um número significativo de grandes clientes: a Citicorp, a

Chase, Ford, a General Electric, entre outros. Cada um incorpora um sistema para

„normalizar‟ documentos em inglês. Esta componente de sistema é considerada tão

crucial para que se obtenham bons resultados, que o próprio processo de tradução é

encarado virtualmente como um subproduto (Lee 1994). Existem sistemas Smart que

fazem traduções para francês, alemão, grego, italiano, japonês e espanhol. A maior

instalação Smart é, talvez, o sistema concebido para o Ministério do Trabalho e da

Segurança Social do Canadá [Canadian Ministry of Canada] que tem sido utilizado há

muitos anos para traduzir informação relativa a anúncios de emprego e documentação

semelhante.

Na Europa, a empresa Cap Volmac na Holanda, e a empresa LANT na Bélgica

oferecem serviços idênticos, construindo sistemas de tradução especializados para

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

124

vários clientes, utilizando o seu próprio software de linguagens controladas. Os

serviços da Cap Volmac Lingware são subsidiários holandeses do Grupo Cap Gemini

Sogeti. Ao longo dos anos esta empresa de software tem construído sistemas de

linguagens controladas para seguradoras e empresas têxteis, principalmente de

holandês para inglês (Van der Steen e Dijenborgh 1992). No entanto, a história de

sucesso mais conhecida de um sistema de TA „feito à medida‟ [custom-built] é

possivelmente o sistema PaTrans desenvolvido pela LingTech A/S para traduzir

patentes de inglês para dinamarquês. Este sistema é baseado em métodos e

experiências no âmbito do projeto Eurotra da Comissão Europeia (Ørsnes et al. 1996).

Estes últimos exemplos de sistemas, ilustram um número crescente de

empresas e organizações estão a desenvolver as suas próprias funcionalidades de TA,

em vez de comprarem sistemas comerciais. Esta tem sido a característica principal de

anos anteriores. O bem-sucedido sistema Météo, no Canadá, utilizado para traduzir

boletins meteorológicos de inglês para francês (e mais tarde de francês para inglês) foi

de facto, um sistema específico de cliente [customer-specific] – neste caso o Canadian

Environment Service. É importante ressalvar que uma variante do software Méteo foi

utilizada com sucesso durante os Jogos Olímpicos de Atlanta (Chandioux e Grimaila

1996). O Méteo é um exemplo de um sistema de „sublinguagem‟, i. e. concebido

especialmente para lidar com linguagem específica de meteorologia.

Outro exemplo de um sistema feito „à medida‟ [customer-built] é o TITUS,

um sistema de „sublinguagem‟ bastante restrito, que fez traduções de resumos de

documentos da indústria têxtil, de e para inglês, francês, alemão e espanhol, com uso

regular desde 1970. Mais conhecidos são os dois sistemas específicos de cliente

[customer-specific] que traduzem de inglês para espanhol na Pan American Health

Organization, em Washington – criado e desenvolvido por utilizadores da própria

organização. Estes sistemas, que possuem uma elevada taxa de sucesso (e que estão

agora disponíveis para trabalhadores fora da PAHO) são sistemas com um objetivo

central [general-purpose], não estando condicionados ao vocabulário ou ao tipo de

texto, apesar de os dicionários serem obviamente os pontos mais fortes dos campos

das ciências sociais e saúde (Leon and Aymerich 1997).

Nos anos 90, houve uma série de outros exemplos. Na Finlândia, o sistema

Kielikone foi originalmente desenvolvido como o software de trabalho para as

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

125

Telecomunicações Nokia. Subsequentemente, outras versões foram instaladas noutras

empresas finlandesas, e o sistema está agora a ser vendido de forma mais expansiva

(Arnola 1996). Sucede-se uma história semelhante com o GSI – Erli. Esta grande

empresa de engenharia da linguagem, desenvolveu um sistema de tradução interno

combinando um motor TA e várias ferramentas e de tradução assistida numa

plataforma comum denominada Aleth Trad. Recentemente, este mesmo sistema tem

sido disponibilizado em versões customizadas para clientes fora dessa plataforma

(Humphreys 1996).

Numa escala mais pequena, mas igualmente bem sucedida, tem sido um

sistema desenvolvido por uma pequena empresa inglesa, a Hook and Hatton. Neste

caso, a necessidade foi a de tradução de textos de química, de holandês para inglês

(Lewis 1997). O designer começou por compatibilizar um simples padrão de frases e

construiu gradualmente uma maior análise sintática, para como e quando os

resultados fossem justificáveis e rentáveis.

Baseado numa experiência efetuada ao longo dos anos, esta consiste em

desenvolver TA baseada em conhecimento, e que faz experiências com a tradução de

discurso e métodos baseados em corpora [corpus-based methods]. Membros do grupo

na universidade de Carnegie-Hall têm desenvolvido uma estrutura para a produção

rápida de sistemas de TA usáveis para clientes específicos, em línguas pouco comuns,

como o servo-croata ou o crioulo do Haiti (Frederking et al. 1997). Não há qualquer

falso pretexto em atingir uma qualidade elevada, apenas se pretende atingir um nível

elevado de ‟utilidade‟ para línguas que eram outrora inacessíveis.

Outro exemplo de TA feitos „à medida‟ [custom-built] numa área

especializada, é o programa desenvolvido para as Comunicações TCC, na Simon

Fraser University [Universidade Simon Fraser], para traduzir legendas de programas

de televisão (Toole et al. 1998). Não só existem mais limitações a nível de tempo – a

tradução tem que ser em tempo real – mas existem também desafios como os

coloquialismos, o diálogo, a robustez e a escassez dos indicadores de contexto. O

sistema, de momento a funcionar em direto de inglês para espanhol, exigia técnicas

que eram encontradas principalmente em muitas aplicações para a internet.

No Japão, existem outros exemplos de sistemas feitos „à medida‟ [custom-

built]. O Japan Information Centre of Science and Technology, traduz resumos de

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

126

artigos científicos e técnicos de japonês para inglês. Nos finais dos anos 80 do mesmo

século, assumiu a responsabilidade do sistema de TA MU de japonês-inglês,

desenvolvido na Universidade de Kyoto. A partir daqui, gerou-se uma das maiores

operações de TA no Japão (O‟Neill-Brown 1996). Outros sistemas „feitos à medida‟

[custom-built] de significação no Japão estão os sistemas SHALT, desenvolvido pelo

IBM Japão para as suas próprias necessidades de tradução, e o sistema ARGO

desenvolvido pelo SCK em Tóquio para traduzir notícias do mercado da bolsa

japonesa para inglês, e ainda o sistema NHK para traduzir artigos de notícias para

japonês.

Software de trabalho de tradução

Nos anos de 1990, as possibilidades de efetuar uma tradução em grande escala

aumentaram com a chegada aos mercados do software de trabalho de tradução

[translator workbenches]). As ideias originais para a integração de vários serviços

baseados em computador [computer-based] para tradutores em apenas um lugar,

remontam até ao início dos anos 80, em particular com sistemas ALPS. O software de

trabalho de tradução combina o processamento de texto multilingue, com meios de

receber e enviar documentos eletrónicos, serviços OCR [Optical Character

Recognition], software de controlo de terminologia, funcionalidades que permitem

fazer concordâncias, e em particular a „memória de tradução‟. Esta última é a

instalação que permite aos tradutores armazenar textos originais e as versões

traduzidas lado-a-lado, para que as frases correspondentes do texto de chegada e do

de partida possam ser alinhadas. O tradutor pode assim pesquisar uma expressão, ou

até mesmo uma frase inteira numa língua na memória de tradução, e ter em exibição

as expressões correspondentes numa língua e noutra. Tanto podem ser

correspondências exatas ou aproximações classificadas, de acordo com a

proximidade.

É frequentes grandes empresas submeterem-se a inúmeras revisões de

documentos técnicos, manuais, entre outros, verificando-se por vezes grandes frações

de traduções que se mantêm inalteradas, de uma versão para a outra. Com a memória

de tradução, o tradutor pode localizar e reutilizar as secções já traduzidas. Mesmo que

não exista uma correspondência exata as versões expostas podem ser utilizadas com

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

127

alterações mínimas. Haverá também acesso a bases de dados terminológicas,

particularmente de terminologia específica de empresa [company-specific] para

palavras ou expressões que não são encontradas na memória de tradução. Para além

disso, muito do software de trabalho do tradutor está agora a oferecer traduções

automáticas completas, usando sistemas de TA como o Systran, Logos e o Transcend.

O tradutor pode optar por usá-los, tanto para o texto inteiro, como para frases

selecionadas, podendo aceitar ou rejeitar os resultados adequados (Heyn 1997).

Existem atualmente quatro principais softwares de trabalho do tradutor:

Trados (provavelmente o mais bem sucedido) STAR AG na Alemanha (Transit) IBM

(o Translation Manager) e LANT na Bélgica (a Eurolang Optimizer, previamente

vendido pelo SITE na França). O software de trabalho de tradução tem revolucionado

o uso de computadores pelos tradutores. Estes têm agora uma ferramenta onde podem

estar em controlo absoluto, onde podem usar qualquer uma das instalações ou

nenhuma, como preferirem. Como sempre, o valor de cada recurso depende da

qualidade da informação dos dados, e é por isso que assim como acontece nos

sistemas de TA, as bases de dados de terminologia e dicionários exigem esforço,

tempo e recursos. A memória de tradução depende da disponibilidade de uma corpora

apropriada para traduções autorizadas – não há necessidade em usar traduções que

sejam inaceitáveis (seja por que razão for) pela empresa ou pelo cliente.

Apesar de ser usado maioritariamente por administradores dentro da Comissão

Europeia, o sistema de TA de escala completa Systran, é relativamente pouco

utilizado pelos tradutores profissionais da Comissão. Especialmente para eles, os

serviços de tradução estão a desenvolver o seu próprio software de trabalho, a

EURAMIS, i.e , o European Advanced Multilingual Information, (Theologitis 1997).

Esta combina o acesso à base de dados multilingue da própria Comissão (a

Eurodicautom) com os recursos dos dicionários do Systran, instalações para a criação

e manutenção, individual ou em grupo, das bases de dados de terminologia (utilizando

o software do Trados‟ MultiTerm) a memória de tradução (novamente para grupos ou

indivíduos) o acesso ao CELEX (a base de dados de textos completos da legislação e

das diretrizes da União Europeia) software de comparação de documentos (para

detetar onde ocorreram mudanças) e também, obviamente, acesso aos próprios

sistemas de TA Systran. Este último está agora disponível de inglês para holandês,

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

128

francês, alemão, grego, italiano, português e espanhol; de francês para holandês,

inglês, alemão, italiano e espanhol; de espanhol para inglês francês; e de alemão para

as mesmas. Todo o sistema EURAMIS está ligado a outras funcionalidades como

ferramentas de elaboração de documentos (ortografia, marcadores de gramática e de

estilo, e assistência de rascunhos multilingues) a rede interna e administrativa da

Comissão Europeia, e a recursos exteriores na Internet.

Software de Localização

Uma das áreas de maior crescimento relativas ao uso de computadores para

tradução é a indústria do software de localização. Neste caso, a exigência é no sentido

da documentação paralela estar disponível em várias línguas a tempo do lançamento

do novo software. A tradução tem que ser feita rapidamente, mas há uma grande

repetição de informação de uma versão para outra. A TA e, recentemente, a memória

de tradução no software de trabalho do tradutor são a solução óbvia (Schaeler 1996).

Entre os primeiros desta área, estava a grande empresa de software empresarial SAP

AG, na Alemanha. Nesta empresa utilizam dois sistemas de TA: a METAL que

realiza traduções de alemão para inglês, e o Logos de inglês para francês e que

planeia introduzir novos sistemas para outros pares de línguas.

Grande parte da localização, contudo, é feita a partir da memória de tradução e

do software de trabalho do tradutor. Os exemplos mais comuns são o Corel, o Lotus e

o Canon. É interessante verificar que muita dessa atividade de localização está

sedeada na Irlanda – graças a um apoio do governo e da União Europeia à indústria

informática. No entanto, a localização é uma indústria multinacional e global, com a

sua própria organização (a Localization Industry Standards Association [A

Associação da Indústria Standard de Localização], sediada em Genebra) que organiza

e realiza em todos os continentes, seminários e conferências frequentes (para mais

detalhes ver a LISA Forum Newsletter).

As empresas de localização têm estado na vanguarda das diligências na

Europa para definir os recursos lexicais estandardizados, formatos de manuseamento

de textos, e para desenvolver infraestruturas de rede comuns. Este é o projeto

OTELO, que coordena o Lotus da Irlanda, com outros membros como o SAP, o

Logos e o GMS. Para o sucesso futuro das empresas da indústria de localização

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

129

considera-se fundamental a necessidade de haver um ambiente geral de tradução, para

uma grande variedade de memória de tradução, de tradução automática e de outras

ferramentas de produtividade.

Sistemas para computadores pessoais

O software para computadores pessoais, começou a aparecer no início dos

anos 80 (com o sistema Weidner MicroCAT tornando-se particularmente bem

sucedido). Quase todas as principais empresas japonesas de computadores produzem

sistemas para a tradução de e para inglês, como por exemplo o sistema PIVOT da

NEC, o sistema ASTRANSAC da Toshiba, o HICATS da Hitachi, e ainda a PENSEE

da Oki e DUET, da Sharp.

Para além do Japão, os sistemas para os computadores pessoais começaram a

aparecer cedo, mas em poucas empresas. Os primeiros sistemas americanos chegaram

no início dos anos 80, de ALPS e Weidner. Os produtos ALPS foram inicialmente

criados como assistentes de tradução, fornecendo ferramentas para o acesso e criação

de recursos de terminologia, e também estes incluíam módulos interativos de

tradução. Apesar de ao início ter tido algum sucesso de vendas, ao fim de uma década

os seus produtores concluíram que o mercado ainda não estava preparado e, por isso,

os produtos foram retirados. Pouco tempo depois, a ALPS decidiu tornar-se num

serviço de tradução (o ALPANET) usando as suas próprias ferramentas internamente.

Em contrapartida, a Weidner vendeu um sistema completo de tradução num vasto

número de pares de línguas (inglês, francês, alemão e espanhol) e o negócio

prosperou. A Weidner produziu duas versões dos seus sistemas: a MicroCat para

pequenos computadores pessoais, e o MacroCat para minicomputadores e para

software de trabalho do tradutor em grande escala. A Weidner foi então adquirida

pela empresa japonesa Bravis, e foi posta à venda uma versão da mesma língua. No

entanto, pouco tempo depois o proprietário decidiu que o mercado da TA para

computadores pessoais estava ainda pouco desenvolvido e o negócio foi vendido. A

MicroCat desapareceu completamente, mas a MacroCat por outro lado foi adquirida

pela Intergraph, que a modificou e desenvolveu para a sua gama de publicações de

software, que veio a vender mais tarde com o novo nome de Transcend –

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

130

recentemente a Transcend foi adquirida pela Transparent Language Inc. (para estes

desenvolvimentos ver Hutchins 1993, 1994).

Nos finais dos anos 80 do século XX, apareceu grande parte dos sistemas

comerciais hoje disponíveis no mercado. Primeiro apareceu o sistema PC-Translator

(da Linguistic Products sedeada no Texas) concebido para computadores pessoais

com funcionalidades básicas [low-end]. Ao longo dos anos, muitos pares de línguas

foram produzidos e vendidos, manifestamente com sucesso no que diz respeito às

vendas. Depois seguiu-se a Globalink, com sistemas para francês, alemão e espanhol,

para inglês (existe também um sistema de russo para inglês, que derivou

essencialmente da experiência do proprietário original do projeto Georgetown nos

anos 60). Não demorou muito até a Globalink se fundir com a MicroTac, uma

empresa que teve muito sucesso ao vender o seu Language Assistant, uma série barata

de um software de PC [PC software] – essencialmente dicionários automáticos, com

uma funcionalidade que permite traduzir expressões muito pequenas. No início dos

anos 90, a Globalink produziu a série „Power Translator‟, hoje em dia bastante

conhecida, de tradução nos dois sentidos entre inglês e o francês, o alemão e o

espanhol. Recentemente, a Globalink vendeu a Telegraph, a série mais avançada de

produtos de software de tradução, e a própria Globalink foi adquirida pela Lernout &

Hauspie, uma empresa de tecnologia de discurso líder de mercado.

Desde o início dos anos 90, aparecerem muitos outros sistemas para

computadores pessoais. Estão agora disponível o Logovista da Language Engineering

Corporation, que efectua traduções de japonês para inglês, e a Tsunami e a Typhoon,

da Neocor Tecnologias (que agora pertencem à Lernout & Hauspie). Da antiga União

Soviética – onde havia uma investigação muito activa sobre TA, especialmente nos

anos 60 e 70, – temos agora o Stylus (recentemente rebaptizado ProMT) e o PARS,

ambos sistemas de marketing especializados em traduções de russo para inglês; o

sistema Stylus também trabalha em francês, e o sistema PARS para ucraniano. Outros

sistemas baseados em PC [PC based] na Europa incluem: o Hypertrans para traduzir

entre o italiano e o inglês; o sistema Winger para traduzir de dinamarquês para inglês,

de francês para inglês e de inglês para espanhol, agora também comercializado na

América do Norte; existe ainda o TranSmart, a versão comercial do sistema

Kielikone, para efetuar traduções de finlandês para inglês.

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

131

Vendedores de sistemas mainframe mais antigos (Systran, Fujitsu, Metal e

Logos) estão a ser obrigados a competir, reduzindo os sistemas. Muitos têm-no feito

com sucesso, conseguindo reter grande parte das funcionalidades dos seus produtos

mainframe, nas versões baseadas em PC [PC based]. O Systran Pro e o Systran

Classic, por exemplo, são versões baseadas no sistema operativo Windows

[Windows-based], do sistema de sucesso desenvolvido desde 1960 para clientes em

todo o mundo numa grande variedade de línguas. As grandes bases de dados de

dicionários fornecidas pelo Systran, conferem a estes sistemas, óbvias vantagens

sobre outros produtos de PC – Personal Computer [Computador Pessoal]. Tanto o

Systran Classic (para uso doméstico) como o Systran Pro (para uso dos tradutores)

são agora vendidos por menos de quinhentos dólares em muitos pares de línguas:

inglês-francês, inglês-alemão, inglês-espanhol e ainda de inglês para italiano e de

japonês para inglês. A editora Langenscheidt, adquiriu os direitos de venda de uma

versão da METAL, em colaboração com a GMS (o Gesellschaft für Multilinguale

Systeme [Soceidades de Sistemas Multilingues], agora propriedade de Lernout &

Hauspie) – este sistema denomina-se „Langenscheidt T1‟ e oferece várias versões de

tradução para alemão e inglês. Também vem da Alemanha o Personal Translator, um

produto conjunto do IBM e Von Rheinbaben & Busch baseado no LMT (i.e. Logic-

Programming based Machine Translation) um sistema por transferência [transfer-

based] que se está a desenvolver desde 1985, estando o próprio LMT disponível como

uma componente de TA para o Translation Manager, da IBM. Tanto o Langenscheidt

T1, como o Personal Translator diestinam-se primeiramente para o tradutor não-

profissional, competindo por isso com a Globalink, e outros produtos semelhantes

(para estes desenvolvimentos ver Atas de colóquios de TA: AMTA, EAMT, MT

Summit e MT News International).

Surpreendentemente, as vendas do software de tradução comercial de PC, têm

subido notavelmente. Estima-se que haja cerca de 1000 pacotes diferentes de TA à

venda (sendo que cada par de língua é contado separadamente). Os produtos de um

vendedor (Globalink) estão presentes em pelo menos 6000 lojas só na América do

Norte, e no Japão diz-se que um sistema (o Korya Eiwa em Catena, de traduções de

inglês-japonês) terá vendido mais de 100, 000 mil exemplares no seu primeiro ano no

mercado. Apesar de ser difícil precisar qual a quantidade do software adquirido é

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

132

regularmente usado (alguns cínicos afirmam que apenas uma pequena proporção é

testada mais que uma vez) não há qualquer dúvida de que existe um volume crescente

da tradução „ocasional‟, i.e., de uma tradução efetuada por pessoas de todas as

proveniências, que querem traduções de textos estrangeiros na sua própria língua, ou

que querem comunicar por escrito com outras noutras línguas e que não dão grande

importância à fraca qualidade. É este mercado latente de tradução de escassa

qualidade, inexplorado até há bem pouco tempo, que está agora a ser descoberto e que

está a contribuir para um aumento inesperado de vendas no software de tradução.

TA na Internet

Ao mesmo tempo, muitos vendedores de TA têm fornecido serviços de

tradução em rede [network-based] para traduções encomendadas, com revisão

humana como extras opcionais. Em alguns casos, existem acordos entre cliente e

servidor para utilizadores regulares, noutros o serviço é fornecido para um período

experimental, permitindo às empresas descobrir se a TA vale a pena dentro das suas

circunstâncias específicas, e de que modo. Tais serviços são fornecidos por sistemas

como, por exemplo, o Systran, o Logos, a Globalink, a Fujitsu, a JICST e a NEC.

Algumas empresas têm agora sido construídas com este objetivo: o LANT na

Bélgica é o maior exemplo disso, fundando os seus direitos a desenvolver o sistema

METAL e a Eurolang Optimizer, que também comercializa (Caeyers 1997). A sua

especialidade é a adaptação de linguagens controladas para usar com os seus sistemas

de TA e memória de tradução. No final do ano de 1997, foram ainda lançados os

serviços multilingues para a tradução de e-mails, páginas Web e anexos. Em

Singapura, existe o MTSU (Machine Translation Service Unit do Institute of Systems

Science, da National University of Singapore) que usa os seus próprios sistemas,

desenvolvidos localmente para a tradução de inglês para chinês, malaio, japonês e

coreano (sendo o chinês o seu ponto mais forte) e contando ainda com a revisão de

tradutores profissionais. Este serviço está a proporcionar uma tradução em grande

escala através da Internet para clientes em todo o mundo (principalmente

organizações multinacionais) incluindo muitas das necessidades de localização para

empresas de software nos mercados de língua chinesa. (LISA Forum Newsletter 4 (3)

August 1995, p.12.)

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

133

Outro sinal da influência da Internet, é o número crescente de produtos de

software de TA, destinadas a traduzir páginas Web. As empresas japonesas lideraram

o caminho: quase todas as empresas mencionadas anteriormente têm um produto

neste mercado lucrativo, assim como têm sido seguidas rapidamente em qualquer

outro lugar (por exemplo: o Systran, a Globalink, a Transparent Language e o

LogoVista). Tal como o software de PC para a tradução de páginas Web, verificam-se

serviços na Internet que têm vindo a acrescentar ferramentas de tradução: o exemplo

mais recente é a disponibilidade do AltaVista em versões do Systran para traduzir

francês, alemão e espanhol de e para inglês – mas é demasiado cedo para dizer com

que tipo de sucesso ou nível de satisfação dos utilizadores (Yang e Lange 1998).

Igualmente importante, tem sido o uso da TA para o e-mail e para as „salas de

chat‟. Há dois anos, a CompuServe apresentou um serviço beta, baseado no sistema

Transcend para utilizadores do MacCIM Support Forum [Fórum de Assistência

MacCIM]. Seis meses mais tarde, a World Community Forum começou a utilizar a

TA para traduzir a troca de e-mails, e o seu uso disparou (Flanagan 1996). Muito

recentemente, a CompuServe apresentou os seus próprios serviços de tradução para

documentos mais extensos, quer fosse TA „em bruto‟ e sem revisão, ou com uma

revisão humana opcional. Em breve, o CompuServe irá oferecer a TA como padrão

para todos os seus e-mails. No que diz respeito ao chat da Internet, a Globalink

juntou-se à UniVerse para prestar um serviço multilingue.

Este uso não é mera curiosidade apesar de ser assim que, na maior parte das

vezes, tudo começa. A CompuServe registou uma percentagem elevada e repetida de

vários utilizadores no seu serviço, cerca de 85% de TA sem edição – uma

percentagem muito mais elevada do que seria de esperar. Parece que a maior parte é

utilizada para assimilação de informação, onde uma tradução mais fraca é aceitável. O

ponto essencial é que os clientes estão dispostos a pagar pelo produto – e o

CompuServe é inundado de reclamações cada vez que o sistema de TA vai abaixo.

É óbvio que o potencial da TA na Internet, via Internet e para a Internet está

agora a ser devidamente apreciado – nenhuma empresa se pode dar ao luxo de ficar

para trás, e todos os grandes jogadores têm planos ambiciosos, por exemplo a Lernout

& Hauspie (McLaughlin e Schwall 1998) que adquiriu agora sistemas de TA da

Globalink, Neocor e AppTek, bem como do antigo sistema METAL (da GMS).

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

134

Necessidades e desenvolvimentos futuros

Apesar do crescimento recente de sistemas para computadores pessoais e de

serviços da Internet, é preciso realçar que ainda não há nada realmente adequado para

o tradutor profissional e independente, i.e. para aqueles que não trabalham para

grandes empresas ou em organizações de tradução. Sabe-se que alguns tradutores

tentaram aplicar um software comercial baseado em PC [PC based] às suas

necessidades, mas a quantidade de adaptação necessária e o output frequentemente

fraco tornaram-nos insatisfatórios e muito pouco económicos. Para o tradutor

independente seria mais adequado um software de trabalho de tradução que fosse

rentável, contudo, os softwares de trabalho existentes no mercado continuam a ser

demasiado caros para o tradutor individual. Apesar de haver a promessa de

ferramentas para computador de baixo custo para este mercado potencialmente vasto

– por ex. software de concordância e terminologia, e talvez ainda software de

alinhamento – não há qualquer dúvida de que este segmento não será tão bem cuidado

como outras áreas.

Outra área mal servida presentemente, é a necessidade de uma tradução

fidedigna de documentos para línguas estrangeiras, que sejam de baixo custo e em

que os utilizadores não queiram empregar tradutores profissionais bilingues. Não

existe qualquer problema com a tradução para as próprias línguas dos emissores – os

sistemas de PC podem conferir versões rudimentares adequadas e „sólidas‟ para

utilizadores que têm uma ideia de qual é a mensagem principal – mas no caso de

traduções para línguas desconhecidas ainda não existem soluções. Apareceram

recentemente alguns produtos japoneses baratos que servem esta procura específica

de „língua estrangeira de autor‟, para a escrita de cartas de negócios (baseadas em

expressões padrão e modelos de documentos) mas para outras áreas e para

documentos mais extensos, onde há menos „estereótipo‟, ainda não existe nada. No

caso da tradução para uma língua desconhecida (ou mal conhecida) do emissor, o que

é mesmo exigido é um software em que se possa confiar para facultar um output de

boa qualidade (e muitos produtos de PC não são suficientemente bons). Uma série de

grupos de investigação está a pesquisar sistemas interativos onde o emissor compõe

uma versão „amiga‟ da TA de uma carta ou documento em colaboração com o

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

135

computador. Com um texto de input suficientemente „normalizado‟, o sistema de TA

pode garantir um output gramática e estilisticamente correto. No entanto, este trabalho

(por ex.: at GETA em França) continua em fase de laboratório (Boitet e Blanchon

1995).

O mesmo acontece com o software que combina a TA com acesso e extração

de informação, e software de sumarização. Não existem sistemas comerciais no

mercado até à data, uma vez que todos os desenvolvimentos ainda estão em fase de

investigação. O potencial e a procura têm sido, no entanto, reconhecidos: por ex.,

recentemente a maior parte dos fundos de investigação da União Europeia têm sido

direcionados, não para a TA ou para o processamento de uma língua natural „pura‟

(como era nos anos 80), mas em projetos que têm como objetivo ferramentas

multilingues com aplicações diretas. Muitos destes envolvem traduções de qualquer

tipo, por regra, dentro de um campo restrito, e muitas vezes em condições controladas

(Hutchins 1996; Schütz 1996). Só como exemplo, o projecto AVENTINUS está a

desenvolver um sistema para as forças policiais na área de controlo de estupefacientes

e cumprimento da lei: ou seja, toda a informação sobre estupefacientes, criminosos e

suspeitos, estará disponível em bases de dados acessíveis em qualquer língua da

União Europeia.

Existe um interesse crescente neste tipo de aplicações multilingues em todo o

mundo. A aplicação que tem recebido mais atenção, tem sido a extrcção de

informação multilingue [cross-language], i.e. um software que permite aos

utilizadores pesquisarem bases de dados de línguas estrangeiras, na sua própria

língua. Até agora, grande parte do trabalho tem-se focado na construção e

manuseamento de dicionários de tradução, apropriados na busca de uma

correspondência de palavras ou expressões equívocas em bases de dados de

documentos (Bian e Chen 1998, Oard 1998) – apesar da provisão de software para a

tradução rápida de textos originais para a língua do próprio investigador, ser algo

naturalmente previsto (McCarley e Roukos 1998). É claro que não tardará até o

software comercial estar disponível para esta aplicação.

A aplicação futura que é provavelmente a mais desejada pelo público geral, é a

tradução de língua falada. Contudo, de um ponto de vista comercial (e mesmo de

investigação) a perspetiva para uma tradução automática de discurso falado são ainda

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

136

distantes (Krauwer et al. 1997). Foi só nos anos de 80 do século XX que

desenvolvimentos no reconhecimento de fala e síntese fizeram da tradução de língua

falada, um objetivo exequível. No Japão, a empresa ATR , uma parceria entre o

governo e a indústria, foi fundada em 1986 perto de Osaka, e é agora um dos

principais centros de tradução de discurso automático. O objetivo é desenvolver um

sistema de tradução de telefonemas em tempo real que fosse independente do falante,

de japonês para inglês e vice-versa, inicialmente dirigido a transações para a inscrição

em hotéis e em colóquios. Entretanto, outros projetos de tradução de discurso têm

sido iniciados subsequentemente, como o sistema JANUS, um projeto de investigação

na Carnegie-Mellon University e em Karlssruhe, na Alemanha. Os investigadores

estão a colaborar com a ATR num consórcio (a C-STAR) onde cada um desenvolve o

reconhecimento de fala e módulos de síntese para as suas próprias línguas: inglês,

alemão e japonês (um subproduto desta investigação foi mencionada anteriormente: o

projeto de rápido desenvolvimento para sistemas feitos „à medida‟ [custom-built] em

línguas menos comuns). O quarto maior esforço da tradução de discurso é um

projecto a longo prazo, VERBMOBIL, financiado pelo German Ministry for Research

and Technology [Ministerio para a Investigação e Tecnologia da Alemanha] iniciado

em Maio de 1993. O objetivo é a assistência portátil para negociações, como

suplemento ao conhecimento da línguas da parte dos próprios utilizadores (alemão,

japonês e inglês). Inúmeros grupos universitários alemães, estão envolvidos em

investigação básica em linguística de diálogo, reconhecimento de fala e design de TA;

um protótipo está quase completo e a demonstração do produto está marcada para o

início do século XXI.

A tradução de discurso falado é provavelmente a área de investigação de

tradução baseada em computador [computer-based] atualmente mais inovadora, e está

a atrair mais fundos e mais publicidade. No entanto, poucos observadores experientes

esperam desenvolvimentos dramáticos nesta área num futuro próximo – o

desenvolvimento de TA para uma língua escrita tem demorado vários anos a alcançar

o estádio atual de uso prático em empresas multinacionais, da variedade de produtos

baseados em PC [PC based] de qualidade e aplicação variável, e ainda do uso

crescente em redes e para e-mails. Apesar da excelência da TA dos dias de hoje de

linguagem escrita, os investigadores sabem que ainda há muito por fazer para

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

137

melhorar a qualidade. A TA de língua falada ainda não alcançou um nível de teste em

tempo real, e em cenários não-laboratoriais.

Comparação entre tradução humana e automática

Deste estudo, deve ficar claro que a aplicação de computadores para a tarefa

de tradução de línguas naturais não tem tido lugar, e que é improvável que isto se

torne uma ameaça à vida dos tradutores profissionais. As habilidades que um tradutor

humano possui e com a quais pode contribuir, podem e vão ter sempre procura. Não

há possibilidade, por exemplo, de a tradução automática conseguir alguma vez tentar

traduzir textos literários ou jurídicos. Por outro lado, a tradução rudimentar de textos

eletrónicos na Internet não tem rival com a tradução automática – os tradutores

humanos não conseguem competir em termos de rapidez, mesmo que estivessem

preparados para serem responsáveis pela fraca qualidade de uma tradução de material

efémero.

Podemos comparar os méritos relativos da tradução humana e automática, de

acordo com as categorias de necessidade e uso, delineados no início deste texto. No

que diz respeito à função de disseminação (produção de traduções publicáveis) a

tradução humana é a mais satisfatória e frequentemente a menos dispendiosa, quer

seja ou não uma questão de traduzir de um texto específico num único domínio de

tema (quer seja científico, técnico, médico, jurídico ou literário). A tradução

automática exige um investimento dispendioso de manutenção e atualização de

dicionários, e do envolvimento custoso de pós-revisão. Isto pode ser justificável (i.e.

rentável) apenas quando grandes volumes de documentação estão a ser traduzidos

dentro de um domínio específico. É ainda mais justificável quando a tradução trabalha

mais que uma língua-alvo (quando a pré-revisão e/ou controlo de gramática e

vocabulário de textos originais é possível) e quando é considerado repetição. O

tradutor humano sentir-se-ia esmagado pela magnitude dessa tarefa, pela repetição

enfadonha e pela necessidade de manter a consistência terminológica. O computador,

por outro lado, consegue ligar com esses vastos volumes e pode manter a dita

consistência automaticamente. Em suma, a tradução automática é ideal para grandes

escalas e/ou traduções rápidas de documentação técnica (enfadonha,) de manuais de

software de localização (altamente repetitivo) e da tradução da previsão do estado do

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

138

tempo. O tradutor humano não tem (e continuará a não ter) rivais, no que diz respeito

a textos linguisticamente sofisticados e não-repetitivos (por ex. na literatura e em

direito).

Para a tradução de textos por assimilação, onde a qualidade do output pode ser

mais fraca do que as dos textos por publicar, é óbvio que a tradução automática é a

solução ideal. Os tradutores humanos não estão preparados (e ressentem a pergunta)

para produzir uma tradução „em bruto‟ de documentos científicos e técnicos que

podem ser lidos por apenas uma pessoa que quer apenas encontrar o conteúdo e

informação geral. Muito menos tendo a preocupação se o texto é inteligível ou não, e

que não se deixa dissuadir pela estranheza estilística ou pelos erros gramaticais. É

claro que estes podem preferir ter um output melhor do que aquele apresentado pela

maioria dos sistemas de TA, mas se a única alternativa possível é não ter qualquer

tradução, então a tradução automática é completamente aceitável.

Para a troca de informação, pode ainda continuar a existir no futuro um papel

para o tradutor humano na tradução de correspondência de negócios (particularmente

se o conteúdo é sensível ou legalmente vinculativo). Mas é provável que os sistemas

de TA sejam bastante usados no que diz respeito à tradução de cartas pessoais. E tanto

no que diz respeito ao e-mail, à extração de informação de páginas Web e aos serviços

de informação baseados em computador [computer-based] a TA é a única solução

viável.

No que diz respeito à tradução falada, por outro lado, continuará a haver

mercado para o tradutor humano. Não há certamente nenhuma possibilidade da

tradução automática substituir o intérprete de trocas diplomáticas ou comerciais.

Apesar de ter havido uma investigação sobre a tradução automática de inquéritos via

telefone, dentro de domínios bastante restritos, e uma implementação futura possa ser

vista nesta área para grande parte da comunicação telefónica, é muito improvável que

haja qualquer substituto para a tradução humana.

Por fim, os sistemas de TA estão a descobrir novas áreas nas quais a tradução

humana nunca fez parte: na produção de versões „rascunho‟ para autores que

escrevem numa língua estrangeira e que precisam de assistência na produção de um

texto original, na tradução de legendas online, na tradução de informação através de

bases de dados, e sem dúvida que aparecerão mais aplicações no futuro. Nestas áreas,

_______________Anexo 4: Proposta de tradução para The Development and use of

machine translation systems and computer-based translation tools, de John Hutchins

139

como noutras já mencionadas, não há qualquer ameaça para o tradutor humano

porque estas nunca foram incluídas na esfera da tradução profissional. Não há dúvida

que a TA e a tradução humana podem, e irão, coexistir em harmonia e sem conflito.