Upload
ngoquynh
View
212
Download
0
Embed Size (px)
Citation preview
106
Anexo 3: Proposta de tradução para Translation, de Warren
Weaver
Tradução
Warren Weaver
Basta mencionar o facto óbvio de a multiplicidade de línguas dificultar o intercâmbio
cultural entre as pessoas na Terra, o que se torna um sério obstáculo à compreensão
mundial. O presente memorando, assumindo a validade e importância deste facto,
contém alguns comentários e sugestões baseados na possibilidade de contribuírem,
pelo menos, com alguma coisa para a solução do problema da tradução a nível
mundial, através do uso de computadores eletrónicos de grande capacidade,
flexibilidade e rapidez.
As sugestões presentes neste memorando estarão com certeza incompletas e
ingénuas, podendo ser até obviamente tolas para um perito na área – para o autor não
o é certamente.
Uma Anedota de Guerra – Invariantes de Língua
Durante a guerra um notável matemático a quem chamaremos P, um ex-
alemão que passou algum tempo na Universidade de Istambul e que lá aprendeu
turco, contou a W.W a seguinte história.
Um colega matemático, sabendo que P tinha um interesse amador em
criptografia, chegou ao pé de P uma manhã afirmando que tinha descoberto uma
técnica de descodificação, e pediu a P para preparar uma mensagem codificada na
qual conseguisse experimentar o seu plano. P escreveu em turco uma mensagem que
continha cerca de 100 palavras, e simplificou-a ao substituir as letras c, ğ, ı, ş, ö e ü
por c, g, i, o, s e u respetivamente; e depois, utilizando algo mais complexo que uma
simples cifra de substituição, reduziu a mensagem a uma coluna de números com
107
cinco dígitos. No dia seguinte (e o tempo que foi exigiu é importante) o seu colega
trouxe o seu resultado de volta, e realçou que a correspondência não tinha tido
_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver
107
qualquer sucesso. Porém, a sequência de letras que ele descreveu, quando
devidamente agrupadas em palavras, e quando corrigida ao de leve (não que fosse
necessária uma correção cuidadosa que pudesse incomodar aqueles que conhecem
bem a língua) acabou por ser a mensagem original em turco. O ponto principal, pelo
menos tendo em conta os objetivos presentes, é o de que a descodificação foi feita por
alguém que não sabia turco, e não sabia que a mensagem estava em turco. Por outro
lado, toda a gente conhece o famoso exemplo durante a Primeira Guerra Mundial,
quando as nossas forças criptográficas demoraram semanas ou meses a determinar
que uma mensagem que tinha sido intercetada estava codificada em japonês; e
demorou relativamente pouco tempo a decifrá-la, assim que souberam qual era a
língua.
Durante a guerra, quando toda a área da criptografia era tão secreta, parecia
indiscreto questionar os detalhes relativos a esta história; mas não é difícil adivinhar
que este processo fez uso da frequência de letras, da combinação de letras, intervalos
entre letras e combinações de letras, padrões de letras, entre outros, que são até
determinado nível independentes da língua utilizada. Isto leva qualquer pessoa a
supor que, nas diversas instâncias nas quais o homem tem inventado e desenvolvido
línguas, existem certas propriedades invariantes que, uma vez mais, não sendo
precisas são até certo ponto estatisticamente comuns e úteis a todas as línguas.
Este pode ser, tanto quanto sei, um famoso teorema de filologia. Na verdade,
as conhecidas teorias de Müller e outros para a origem da linguagem, como a teoria
bow-wow, woof-woof, entre outras, levariam qualquer pessoa a esperar que todas as
línguas tivessem características em comum, devido ao seu mecanismo essencialmente
semelhante de desenvolvimento. E, em qualquer caso, existem razões óbvias que
tornam essa suposição bastante provável. Todas as línguas – pelo menos aquelas que
aqui temos em consideração – foram inventadas e desenvolvidas pelos homens; e
todos os homens, sejam eles bantu ou gregos, islandeses ou peruanos têm
essencialmente o mesmo equipamento para lidar com este problema. Todos possuem
órgãos vocais capazes de produzir o mesmo conjunto de sons (com pequenas
exceções, como o clique da glote dos nativos africanos). Os seus cérebros partilham a
mesma complexidade potencial. As exigências básicas da língua têm que ter emergido
de formas relativamente semelhantes em lugares diferentes, e talvez, em alturas
diferentes. Esperar-se-iam grandes diferenças superficiais; mas parece mais sensato
esperar que certos aspetos básicos, e provavelmente pouco óbvios, sejam comuns a
_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver
108
todos os desenvolvimentos. É um pouco como observar que as árvores diferem
amplamente em diversas características, e mesmo assim existem características
básicas em comum – certas qualidades essenciais “do (ser) árvore” – que todas as
árvores partilham, quer cresçam na Polónia, em Ceilão ou na Colômbia. Para além do
mais (e este último ponto é o mais importante) um sul-americano não tem, em geral,
qualquer problema em reconhecer que uma árvore norueguesa é uma árvore.
A ideia de elementos básicos comuns em todas as línguas recebeu, mais tarde,
apoio de uma afirmação que o lógico e matemático Reichenbach fez a W.W.
Reichenbach passou algum tempo em Istambul e, como muitos académicos alemães
que tinham ido para lá, estava perplexo e irritado com a língua turca. A gramática da
língua parecia-lhe tão grotesca que, por fim, acabou por sentir-se estimulado a estudar
a sua estrutura lógica. Esta vontade, por sua vez, fez com que se interessasse pela
estrutura lógica da gramática de muitas outras línguas; e, desconhecendo o interesse
de W.W. no assunto, Reichenbach observou: “fiquei espantado por ter descoberto que
(aparentemente) para uma grande diversidade de línguas, as estruturas básicas e
lógicas têm características importantes em comum”. Reichenbach disse que iria
publicar isto e enviaria o material a W.W., mas nunca apareceu nada.
Suspeita-se que exista uma grande quantidade de provas para este ponto de
vista geral – pelo menos partes destas provas aparecem espontaneamente, mesmo para
aqueles que não lêem muito da literatura relevante. Por exemplo: uma nota publicada
na Revista Science acerca da investigação sobre a semântica comparada de Erwin
Reifler, da Universidade de Washington [University of Washington], afirma que “as
palavras chinesas para „to shoot‟ [disparar] e „to dismiss‟ [dar licença para se retirar]
mostram uma concordância gráfica e fonológica notável”. Tudo isto parece
demasiado estranho, até que alguém pensa nos dois significados de “to fire”
[“despedir” e “disparar”], em inglês. Será apenas coincidência? O quão difundidas
estão estas correlações?
Tradução e Computadores
Tendo tido uma exposição considerável aos problemas de conceção de
computadores durante a guerra, e tendo consciência da velocidade, da capacidade, e
da flexibilidade lógica possível dos computadores eletrónicos modernos, é bastante
natural que W.W. tenha pensado, há muitos anos atrás, na possibilidade de tais
_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver
109
computadores serem utilizados para tradução. A 4 de Março de 1947, depois de ter
dado voltas a esta ideia durante alguns anos, W.W escreveu ao professor Norbert
Wiener do MIT (Massachussetts Institute of Techonology) nos seguintes termos:
Uma das coisas que lhe queria perguntar é o seguinte: um problema demasiado sério,
para a UNESCO e para o futuro do planeta, um futuro pacífico e que valha a pena, é o
problema da tradução, uma vez que afeta inevitavelmente a comunicação entre as pessoas.
Huxley disse-me há pouco tempo que estão aterrorizados com a magnitude e a importância da
tarefa de tradução.
Reconhecendo por completo, mesmo que de forma necessariamente vaga, as
dificuldades semânticas devidas à polissemia, entre outros, pergunto-me se era impensável
conceber um computador que pudesse traduzir. Mesmo que só traduzisse material científico
(onde as dificuldades semânticas são notavelmente menores) e mesmo que produzisse um
resultado deselegante (mas inteligível) parecer-me-ia que valeria a pena.
Também sem saber nada de oficial sobre novos e poderosos métodos mecanizados em
criptografia, mas tendo adivinhado e inferido o suficiente – métodos que acredito terem tido
sucesso mesmo quando ninguém sabe que língua foi codificada – naturalmente que uma
pessoa se interroga se o problema de tradução pode ser, de uma maneira concebível, tratado
como um problema na criptografia. Quando olho para um artigo em russo, digo: “Isto está, na
verdade, escrito em inglês, mas foi codificado em símbolos um pouco estranhos. Irei de
seguida proceder à sua descodificação”.
Alguma vez pensou nisto? Como linguista e especialista em computadores, acha que
é algo que valha a pena considerar?
O Professor Wiener, numa carta datada de 30 de Abril de 1947, disse em
resposta:
Em segundo lugar – em relação ao problema da tradução automática, receio
francamente que as fronteiras das palavras em línguas diferentes sejam demasiado vagas, e
que as conotações emocionais e internacionais sejam demasiado amplas para que um esquema
de tradução quase automático seja promissor. Admitirei que o inglês básico parece indicar
que podemos ir mais além do que foi feito geralmente na mecanização do discurso, mas deve
lembrar-se que em certos aspetos, o inglês básico é o oposto do mecânico e atira para cima de
palavras como get um fardo que é muito maior do que a maioria das palavras transporta no
inglês convencional. No momento presente a mecanização da linguagem, para além de um
_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver
110
estado como o da criação de oportunidades de leitura fotoeléctrica para invisuais, parece
prematura...
A isto, W.W. respondeu a 9 de Maio de 1947:
Estou desiludido, mas não surpreendido, com os seus comentários sobre o problema
da tradução. A dificuldade que mencionou em relação ao (inglês) básico parece-me ter uma
resposta relativamente fácil. É, claro, verdade que o inglês básico dá uso múltiplo a um verbo
de ação como get. Mas, mesmo assim, as combinações de duas palavras como get up
[levantar-se], get over [ultrapassar], get back [voltar], entre outros, são no inglês básico,
pouco numerosas. Imagine que pegamos num vocabulário de 2, 000 palavras, e admitimos
como uma boa medida todas as combinações de duas palavras, como se fossem uma só. O
vocabulário continua a ser apenas de quatro milhões: e isso não é um número muito
formidável para um computador moderno, ou é?
Deste modo, a tentativa de interessar Wiener, que parecia tão idealmente
equipado para considerar o problema, não conseguiu produzir qualquer resultado
concreto. Isto tem que ser, de facto, aceite como extremamente desencorajante
porque, caso existissem quaisquer possibilidades concretas, Wiener seria a pessoa
certa para as desenvolver.
A ideia já foi, contudo, considerada anteriormente. O primeiro exemplo do
conhecimento de W.W subsequente à sua própria noção do assunto, foi descrito num
memorando datado de 12 de Fevereiro, de 1948, escrito pelo Dr. Andrew D. Booth
que, no departamento do Professor J. D. Bernal, na Birkbeck College University of
London [Faculdade de Birbeck da Universidade de Londres], se manteve ativo na
construção e design de computadores. O Dr. Booth disse:
Um exemplo conclusivo, de possível aplicação do computador eletrónico, é a de
tradução de uma língua para outra. Refletimos sobre este problema com alguma minúcia, e a
conclusão foi que uma máquina do tipo proposto poderia desempenhar esta função sem
qualquer modificação na sua conceção.
A 25 de Maio de 1948, W. W. visitou o Dr. Booth no seu laboratório em
Welwyn, Londres, e descobriu que o Dr. Richens, diretor-assistente da Bureau of
Plant Breeding and Genetics [Agência de Multiplicação de Plantas e Genética], muito
_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver
111
preocupado com o problema abstrato, estava, juntamente com o Dr. Booth,
interessado no problema da tradução. Não tinham estado, pelo menos naquela altura,
preocupados com os problemas da polissemia, ordem de palavras, idioma, entre
outros, mas apenas com o problema da mecanização de um dicionário. Na altura, a
proposta de ambos era a de um primeiro “sentido” das letras numa palavra, e ter a
máquina a verificar se a sua memória contém ou não exatamente a palavra em
questão. Se sim, a máquina produz simplesmente a tradução (que é a grande
dificuldade; claro que “a” tradução não existe) da palavra. Se a palavra em questão
não faz parte da memória, então a máquina descarta a última letra da palavra, e tenta
de novo. Se este processo falhar, descarta mais outra letra e tenta novamente. Depois
de encontrar a maior combinação inicial de letras que contida no dicionário, “procura”
toda a porção que fora descartada num “anexo gramatical” do dicionário. Assim
sendo, quando confrontada com a palavra running [correndo; a correr], pode
encontrar run [correr], e depois descobrir o que o que o final ing [-endo; a ...], faz ao
run.
É por esta razão que o interesse dos dois investigadores estava, pelo menos na
altura, confinado ao problema da mecanização de um dicionário que, de uma forma
razoavelmente eficiente, manusearia todas as formas das palavras. Não temos notícias
recentes que Weaver se tenha dedicado mais assunto.
Muito recentemente os jornais têm noticiado histórias sobre o uso de um dos
computadores da Califórnia como tradutor. As notícias publicadas não indicam mais
do que uma espécie de tradução à letra, não havendo indicação, pelo menos que W.
W. tenha visto, da maneira proposta de lidar com o problema da polissemia, ordem de
palavras, entre outros.
Esta última tentativa, ou tentativa planeada, já causou um escárnio inevitável.
O Sr. Max Zeldner, numa carta ao Herald Tribune de 13 de Junho de 1949, afirmou
que o máximo que podíamos esperar de uma tradução automática das 55 palavras
hebraicas que constituem o Salmo 23 começaria assim: Lord my Shepard no I will
lack [Senhor, meu Pastor não me faltará], e acabariam But good and kindness he will
chase me all days of my life; and I shall rest in the house of Lord to length days [Mas
bem e bondade ele perseguir-me-á todos os dias da minha vida; e descansarei na casa
_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver
112
do Senhor para durar os dias]. Zeldner realça as palavras de um grande poeta hebraico
sobre a tradução: “é como beijar o nosso amor através de um véu”.1
É, de facto, bastante evidente que o processo de tradução faz pouco mais do
que lidar com a correspondência palavra-a-palavra, e esta não pode ambicionar
tornar-se útil aos problemas de tradução literária, na qual o estilo é importante e os
problemas idiomáticos e de polissemia, entre outros, são frequentes.
No entanto, mesmo este rigoroso tipo de tradução pode ter um uso bastante
importante. Grandes quantidades de material técnico, por exemplo, podem ser
manuseadas de maneira proveitosa, ainda que não elegante. A escrita técnica,
infelizmente, não é sempre tão direta e simples no que diz respeito ao estilo; mas, pelo
menos, o problema da polissemia é muito mais simples. Na Matemática, para utilizar
o que é provavelmente o exemplo mais simples, quase que se pode afirmar que cada
palavra, dentro do contexto geral de um artigo matemático, tem um significado e
apenas um.
O Futuro da Tradução Automática
As observações anteriores sobre os esquemas de tradução automática que
foram relatados não têm, contudo, dado uma indicação adequadamente promissora de
quais podem ser as futuras possibilidades. Essas devem ser, sem sombra de dúvida,
indicadas por pessoas que têm um conhecimento especial de línguas e sobre a sua
anatomia comparada. Mas mais uma vez, e correndo o risco de ser imbecilmente
ingénuo, é interessante assinalar quatro tipos de ataque, em níveis de sofisticação
crescente.
Significado e contexto
Primeiro, temos que pensar numa maneira na qual o problema de significado
múltiplo possa, pelo menos em princípio, ser resolvido. Se qualquer pessoa examinar
as palavras de um livro, uma de cada vez como que através de uma máscara opaca
com um buraco nela do tamanho de uma grande palavra, então é obviamente
impossível determinar, um de cada vez, o significado das palavras. “Fast” [rápido]
1 Procurou-se uma tradução interlinear dos dois versículos
_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver
113
pode querer dizer “rapid” [veloz] ou pode dizer “motionless”[imóvel]; e não há
maneira de dizer qual delas quer dizer.
No entanto, se alguém alargar a fenda na máscara opaca, para que se consiga
ver não só a palavra central, mas também N palavras de ambos os lados, então, se N
for amplo o suficiente pode-se decidir de forma inequívoca o significado da palavra
central. A verdade formal desta afirmação torna-se clara quando é mencionado o facto
de a palavra do meio de um artigo, ou de um livro inteiro ser inequívoca para a pessoa
que leu o artigo ou o livro completo, assegurando que o artigo ou livro em questão é
suficientemente bem escrito para comunicar.
A questão prática é: “Que valor mínimo de N conseguirá, pelo menos numa
fração tolerável de casos, conduzir à escolha correta de significado da palavra
central?”.
Esta é uma pergunta que diz respeito ao carácter estatístico e semântico da
linguagem, que pode certamente ter resposta, pelo menos de uma forma interessante,
e talvez mais útil. Claramente, N varia consoante o tipo de escrita em questão. Pode
ser zero para um artigo conhecido acerca de um tema matemático específico. Pode ser
bastante baixo para química, física, engenharia, entre outros. Se N for igual a 5, e o
artigo da ou livro em questão fosse sobre um tema de sociologia, haveria alguma
probabilidade de 0.95 que a escolha de significado estivesse correta 98% das vezes?
Claro que não, mas uma declaração deste género pode ser feita, e valores de N podem
determinados de forma a corresponderem a certas exigências feitas.
Além do mais, a ambiguidade é implicada primariamente por advérbios,
verbos e adjetivos; e na realidade (pelo menos suponho que assim seja) a
relativamente poucos pronomes, verbos e adjetivos. Aqui está um bom tema para o
estudo relativo ao carácter estatístico-semântico das línguas. No entanto, alguém pode
pensar em usar o valor de N que varia de palavra em palavra, é zero para he [ele], the
[a], entre outros, e que apenas necessita de ser amplo ocasionalmente. Ou
determinariam um único significado numa fracção satisfatória para examinar, não as
adjacentes de palavras 2N, mas talvez os pronomes adjacentes 2N? Que escolha de
palavras adjacentes maximiza a probabilidade da escolha correta de significado, e ao
mesmo tempo conduz ao valor mais pequeno de N?
Somos levados então a acreditar que o conceito do processo de tradução na
qual, ao determinar o significado para uma palavra, é o cálculo retirado do contexto
imediato (palavras - 2N). Seria muito pouco prático fazer isto através de um
_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver
114
dicionário generalizado que contivesse todas as fases possíveis de 2N + 1 palavra
extra: uma vez que os números dessas fases são terríveis, mesmo para um
computador. Porém, parece provável que se encontre uma maneira razoável de usar
um micro-contexto para resolver os casos mais difíceis de ambiguidade.
Linguagem e Lógica
Uma base mais geral para esperar que um computador possa ser concebido, de
forma a lidar com uma parte útil do problema da tradução, é encontrada num teorema,
testado em 1943 por McCulloch e Pitts2. Este teorema declara que um robô (ou um
computador) construído com loops regenerativos de um certo carácter formal é capaz
de deduzir qualquer conclusão legítima de um número finito de premissas.
Hoje em dia existem certamente elementos ilógicos na linguagem (sentido de
estilo intuitivo, conteúdo emocional, entre outros) para que tenhamos que ser
pessimistas acerca do problema de tradução literária. Contudo, na medida em que a
língua escrita é uma expressão de carácter lógico, este teorema assegura-nos que o
problema é, pelo menos, formalmente resolúvel.
Tradução e Criptografia
Claude Shannon, dos laboratórios Bell Telephone, publicou recentemente
alguns trabalhos notáveis sobre a teoria matemática da comunicação. Este trabalho
remete-nos às características estatísticas do processo de comunicação3. Existe um
nível tão básico de generalidade que não é surpreendente que a sua teoria inclua toda
a área da criptografia. Durante a guerra, Shannon escreveu fez uma análise muito
importante de todo o problema criptográfico, e este trabalho como acredita W. W.,
está para ser publicado brevemente, uma vez desclassificado.
É provável que apenas Shannon possa ser neste momento, um bom avaliador
das possibilidades nesta direção; mas, como foi expresso na carta original de W. W.
para Wiener, é bastante tentador dizer que um livro escrito em chinês é apenas um
livro escrito em inglês que foi codificado para o “código chinês”. Se tivermos
2 Warren B. MacCulloch and Walter Pitts, Bull. Math. Biophys., no. 5, pp. 115-133, 1943
3 Para uma versão mais simplificada, ver “The Mathematics of Communication”, por Warren Weaver,
Sci. Amer., no. 1, pp. 11-15, Julho, 1949.
_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver
115
métodos úteis para resolver qualquer problema de criptografia, não será com uma
interpretação adequada que já dispomos de métodos úteis para a tradução?
Esta abordagem chama a atenção um aspeto que é provavelmente bastante
básico – nomeadamente, o carácter estatístico do problema. A tradução “perfeita” é
quase inatingível. Processos, que em determinados níveis de confiança produzirão
uma tradução que apenas contêm uma percentagem x de “erro”, são certamente
alcançáveis.
É um dos objetivos principais deste memorando enfatizar que se devem fazer
os estudos da semântica estatística, como uma etapa preliminar necessária.
A ideia de tradução criptográfica conduz naturalmente à, e este é um caso
muito especial da, quarta e mais geral das sugestões: nomeadamente, a da tradução
fazer um forte uso de invariantes das línguas.
Linguagem e Invariantes
Na verdade, o que parece ser para W. W. a abordagem mais promissora de
todas é aquela que se baseia [...] noutra abordagem que aprofunda tanto a estrutura
das línguas, que chega ao nível em que estas apresentam traços em comum.
Pensem, por analogia, em indivíduos que moram numa série de torres altas e
fechadas, todas edificadas sobre um alicerce comum. Quando tentam comunicar entre
si, gritam de volta uns para os outros, cada um da sua própria torre fechada. É difícil
fazer com que o som chegue mesmo até às torres mais próximas, e a comunicação
prossegue assim de forma bastante fraca. Porém, quando um indivíduo desce a sua
torre, encontra-se numa grande cave aberta, comum a todas as torres. Aqui estabelece
uma comunicação fácil e útil com as pessoas que também desceram das suas torres.
Pode, por isso, ser verdade que a melhor forma de traduzir chinês para árabe,
ou de traduzir russo para português, não é tentar a via direta, gritando de torre em
torre. Talvez a melhor forma é descer, de cada língua, até à base comum da
comunicação humana – a verdadeira mas ainda desconhecida linguagem universal – e
depois reemergir através de uma qualquer via que seja conveniente.
Um programa como este envolve presumivelmente uma terrível quantidade de
trabalho sobre a estrutura lógica das línguas, antes de se poder passar para a
automatização. Este deve estar intimamente relacionado com aquilo que Ogden e
Richards já fizeram pela língua inglesa – e talvez pelo francês e pelo chinês. Mas é ao
_____________Anexo 3: Proposta de tradução para Translation, de Warren Weaver
116
longo destas linhas gerais que parece provável que o problema da tradução seja
atacado com sucesso. Um programa como estes têm a vantagem de, quer conduza ou
não a uma mecanização útil do problema da tradução, não poder falhar ao trazer
algum esclarecimento ao problema geral de comunicação.
Nota
Nota de Editor: Este é um memorando escrito por Warren Weaver no dia 16 de
Julho, de 1949. Foi reimpresso com a sua permissão por ser um documento histórico
sobre a tradução automática. Quando Weaver o enviou a cerca de 200 dos seus
conhecidos de várias áreas, foi literalmente a primeira sugestão que muitos deles
viram para a tradução de línguas ser possível através de técnicas de computador ser
possível.
117
Anexo 4: Proposta de tradução para The Development and use
of machine translation systems and computer-based translation
tools, de John Hutchins
Desenvolvimento e uso dos sistemas de tradução automática e
ferramentas de tradução baseadas em computador [computer-based],
John Hutchins
Resumo: O presente estudo sobre a procura e uso do software de tradução baseado
em computador [computer-based] concentra-se nos sistemas criados para a produção
de traduções de qualidade publicável, incluindo desenvolvimentos em sistemas de
linguagens controladas, software de trabalho do tradutor e de localização: mas
também se refere aos desenvolvimentos de software para não-tradutores,
particularmente para o uso das páginas Web e outras aplicações para a internet, tendo
ainda em consideração futuras necessidades e sistemas sob desenvolvimento. A
secção final compara os tipos de tradução que podem ser apresentados de forma mais
adequada, tanto por uma tradução humana, como por uma tradução automática (e
ainda por uma tradução assistida por computador).
Palavras-chave: tradução automática, tradução assistida por computador, software de
trabalho do tradutor e sistemas multilingues.
Tipos de procura de tradução
Quando se faz uma análise geral sobre o desenvolvimento e uso dos sistemas
de tradução automática (TA) e de ferramentas de tradução, é importante fazer a
distinção entre quatro tipos de procura a nível de tradução. O primeiro, e o mais
tradicional, é a procura de traduções da qualidade que se espera normalmente de
tradutores humanos, i. e. traduções de qualidade publicável – quer seja impressa e
vendida, quer seja distribuída internamente dentro de uma empresa ou organização. O
segundo tipo básico de procura, é para traduções de um nível de qualidade um tanto
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
116
ou quanto inferior (especialmente em estilo) direcionadas a utilizadores que querem
saber qual o conteúdo essencial de determinado documento – e, regra geral, o mais
depressa possível. O terceiro tipo de procura é o de tradução entre participantes numa
comunicação um a um (por telefone ou correspondência escrita) ou de uma
apresentação não-escrita (por exemplo: relações diplomáticas). A quarta área de
aplicação é para a tradução dentro dos sistemas multilingues de extração de
informação, e acesso a base de dados, entre outros.
O primeiro tipo de procura ilustra o uso dos sistemas de tradução automática
(TA) para disseminação. Esta tem sido preenchida, até certo ponto, pelos sistemas de
tradução automática desde que foram desenvolvidos pela primeira vez em 1960.
Contudo, os sistemas de TA produzem um output que tem invariavelmente de ser
revisto ou pós-editado por tradutores humanos para atingir a qualidade pretendida.
Estas revisões, por vezes, chegam a ser substanciais, para que o sistema de TA
produza, na verdade, aquilo que é uma tradução „rascunho‟. Como alternativa, o input
textual pode ser regularizado (ou „controlado‟ em termos de estrutura sintática e
vocabulário) para que os sistemas de TA produzam poucos erros a necessitarem de
correção. No entanto, tem-se desenvolvido alguns sistemas de tradução automática
para lidar com uma pequena variedade de conteúdos de texto e de estilo linguístico, o
que requer pouca ou nenhuma preparação e revisão de texto.
Recentemente, o uso de sistemas de TA com objetivos de disseminação tem
sofrido um aumento através do desenvolvimento de ferramentas de tradução (por
exemplo: bases de dados terminológica e memória de tradução) integradas em
processos de autoria e publicação. Este „software de trabalho de tradução‟ é mais
atrativo para tradutores humanos, enquanto os tradutores dos sistemas de TA se vêem
subordinados à máquina no que diz respeito à edição, correção e à re-tradução do
output de um computador. Com o software de trabalho de tradução, os tradutores têm
controlo sobre recursos baseados em computador [computer-based] onde podem
facilmente aceitar ou rejeitar o que pretenderem.
O segundo tipo de procura – o uso de TA para assimilação – já foi utilizado
no passado como um subproduto de sistemas concebidos originalmente para a
aplicação de disseminação. Alguns utilizadores descobriram que podem extrair o que
precisam de saber de um output não-editado, uma vez que os sistemas de TA não
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
117
conseguem (e continuam a não conseguir) produzir traduções de qualidade elevada.
Esses utilizadores preferem ter uma tradução, por muito fraca que seja, a não ter
nenhuma. Com a chegada de sistemas baseados em computadores pessoais [PC-based
systems] mais baratos ao mercado, este tipo de uso tem crescido rápida e
substancialmente.
Com o terceiro tipo – o de TA para intercâmbio – a situação está a mudar
rapidamente. A procura de traduções de textos eletrónicos na Internet, como de
páginas Web, e-mail e mesmo ainda de listas eletrónicas de „chat‟, está a desenvolver-
se rapidamente. Neste contexto, a possibilidade de se usar uma tradução humana está
fora de questão. A necessidade é de uma tradução imediata, de forma a transmitir o
conteúdo básico das mensagens, por muito fraco que seja o input. Os sistemas de TA
começam a desempenhar um papel „natural‟, uma vez que podem funcionar
virtualmente, em tempo real e online, sem que haja qualquer objeção à sua inevitável
fraca qualidade. Contudo, existe outro dos contextos para a TA no intercâmbio
pessoal que é alvo de inúmeras investigações. Trata-se do desenvolvimento de
sistemas para a tradução de língua falada, por ex., conversas telefónicas ou de
negócios. Os problemas de integração do reconhecimento de fala, e da tradução
automática são obviamente descomunais, no entanto e apesar de tudo, estão a ser
feitos progressos. No futuro – talvez ainda distante – poderemos contar com sistemas
de TA online para a tradução de discurso em domínios altamente restritos.
O quarto tipo de aplicação de TA – como componentes de sistemas de acesso
à informação – é a integração de software de tradução em: (i) sistemas para a
pesquisa e recuperação de textos completos de documentos provenientes de base de
dados (geralmente versões eletrónicas de artigos de revistas de ciência, medicina e
tecnologia), ou sistemas para a recuperação de informação bibliográfica; (ii) sistemas
para extrair informação de textos (por ex. detalhes sobre um produto), especialmente
relatos jornalísticos; (iii) sistemas para a sumarização de textos; e ainda (iv) sistemas
que questionam as bases de dados não-textuais. Este campo é foco de uma série de
projetos que têm lugar de momento na Europa, cujo objetivo consiste em alargar o
acesso a fontes de bases e informação, a todos os membros da União Europeia.
Percurso Histórico
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
118
Os sistemas para a tradução automática têm vindo a ser desenvolvidos desde
há 50 anos – aliás, desde que o computador eletrónico foi inventado nos anos de 1940,
que têm havido várias pesquisas sobre a sua aplicação para a tradução de línguas
(Hutchins 1986).
Por muitos anos, os sistemas foram inicialmente baseados em traduções
diretas via dicionários bilingues, com relativamente pouca análise detalhada das
estruturas sintáticas. Por volta dos anos 80 do século XX, contudo, deu-se um avanço
na linguística computacional que permitiu abordagens muito mais sofisticadas, e
vários sistemas adotaram uma abordagem mais indireta à tarefa da tradução. Nestes
sistemas, os textos da língua-fonte são analisados como representações abstratas de
„sentido‟, envolvendo programas sucessivos para a identificação da estrutura das
palavras (morfologia), estrutura das frases (sintaxe) e para a resolução de
ambiguidade (semântica). Incluído nesta última, estão componentes de programa para
fazer a distinção entre homónimos (exemplo: palavras inglesas como luz, que tanto
pode ser um substantivo, um adjetivo ou um verbo, e ainda solução (que tanto pode
ser um termo matemático ou químico) e para fazer o reconhecimento entre as relações
semânticas corretas (ex. O condutor do autocarro com o casaco amarelo – The driver
of the bus with the yellow coat). As representações abstratas pretendem-se ambíguas
para facultar a base de produção de textos para uma ou mais línguas-alvo. Têm
havido, de facto, duas abordagens „indiretas‟ básicas. Numa, a representação abstrata
pretende ser uma espécie de „interlíngua‟ independente, que pode potencialmente
servir como um intermediário entre um grande número de línguas naturais. A
tradução encontra-se, por isso, em dois níveis básicos: da língua-fonte para a
interlíngua, e da interlíngua para a língua-alvo. Na outra abordagem indireta (que é na
verdade a abordagem mais frequente) a representação é convertida primeiro, numa
representação equivalente da língua-alvo. Existem por isso, três níveis básicos: o da
análise do texto input para uma tradução-fonte abstrata, o da transferência para uma
representação-alvo abstrata, e o da criação para uma língua output.
Até aos finais dos anos 80, foram desenvolvidos todos os tipos de sistemas, e é
correto afirmar que todos os sistemas atuais comercialmente disponíveis estão
também classificados nestes três tipos básicos de sistemas: direto, por interlíngua e
por „transferência‟. Dos sistemas de TA para mainframe, os mais são conhecidos são
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
119
essencialmente os de „tradução direta‟, como por exemplo os sistemas Systran, Logos
e Fujitsu (Atlas).
Estes são, no entanto, versões melhoradas, e ao contrário dos seus
antecessores, são bastante modulares em termos de construção e facilmente
modificáveis e extensíveis, especialmente o sistema Systran. Originalmente criado
para a tradução exclusiva de russo para inglês, o sistema Systran agora disponível
para um vasto número de pares de línguas: de inglês para a maior parte das línguas
europeias (francês, alemão, italiano, espanhol, português) e depois para japonês,
coreano, entre outras. Também o sistema Logos que foi originalmente vendido de
alemão para inglês, está agora disponível para outras línguas: de inglês para francês,
alemão, italiano e espanhol, e ainda de alemão para francês e italiano. O sistema
Fujitsu ATLAS, por outro lado, continua restringido à tradução entre inglês e japonês.
Entre os mais importantes sistemas por transferência ‘mainframe’, estava o
sistema METAL, patrocinado ao longo dos anos 80 pela Siemens, na Alemanha.
Porém, o METAL só saiu para o mercado no final da década e as vendas foram
fracas. Durante os anos 90 do século XX, os direitos de aquisição do METAL foram
transferidos para duas organizações (a GMS e a LANT) através de um complexo
acordo. Mas os sistemas mais conhecidos que adotaram a abordagem por
„transferência‟ eram projetos de investigação: o sistema Ariane no GETA em
Grenoble (um projeto de TA dos anos 60 do século XX) e o Eurotra, fundado pela
Comissão das Comunidades Europeias. Havia a esperança de que o Ariane se tornasse
o sistema nacional francês, e havia planos para incorporá-lo no software de trabalho
do tradutor para a Eurolang (ver abaixo) mas no fim, nada adveio destes. Quanto ao
Eurotra, foi sem dúvida um dos sistemas mais sofisticados, mas depois de envolver,
por quase uma década, centenas de investigadores em muitos dos países da Europa
Ocidental, falhou ao produzir o sistema que os patrocinadores tanto queriam.
Esperava-se, por isso, que o Eurotra fosse eventualmente substituir os sistemas
Systran que a Comissão tinha adquirido, e que estava a desenvolver internamente.
Nos finais dos anos 80 do século XX, as agências governamentais japonesas
começaram a patrocinar um sistema interlíngua para línguas asiáticas, envolvendo
uma colaboração com investigadores da China, Tailândia, Malásia e Indonésia. No
entanto, depois de uma década de trabalho, este projecto também não conseguiu
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
120
produzir um sistema viável, (para estudos de investigação e desenvolvimento em TA
nos anos 80, inícios de 90 do século XX, ver Hutchins 1993, 1994).
Uso governamental e não-comercial
As instalações iniciais dos sistemas de TA eram serviços de tradução militares
e governamentais nacionais e internacionais – principalmente porque podiam cobrir
as despesas necessárias de hardware de computador. A US Air Force [Força Aérea
dos Estados Unidos], introduziu o Systran no ano de 1970 para traduzir documentação
militar, científica e técnica russa para inglês. Apesar de alguns documentos terem sido
publicados, grande parte do output foi passado para os seus respetivos recipientes sem
revisão, apesar da maioria dos relatórios técnicos reivindicarem mais de 90% de rigor.
O National Air Intelligence Center [Centro Nacional de Inteligência Espacial], que
retomou os serviços da USAF (do inglês United States Air Force) produz agora
traduções (muitas sem correção) para um grande leque de organizações
governamentais americanas (Pedtke 1997). Tal como o tipo de traduções referidas
anteriormente, de russo-inglês, foram disponibilizados sistemas do Systran para
traduzir japonês, chinês e coreano para inglês, assim como (também sob a alçada do
Systran) se encontra em desenvolvimento um sistema de servo-croata, também para
inglês.
Na Europa, o maior serviço é o da tradução da Comissão Europeia, e foi
também um dos primeiros a instalar a TA. Começou em 1976 com o sistema Systran
a fazer traduções de inglês para francês, mas nos anos que se seguiram foram
desenvolvidos outros sistemas para muitos outros pares de línguas, satisfazendo as
necessidades de tradução entre as línguas da União Europeia. Enquanto a tradução de
muitos textos jurídicos continua a ser feita por tradutores humanos, os sistemas
Systran são maioritariamente usados não só para a tradução de documentos internos
(com ou sem revisão posterior) mas também como versões rudimentares para dar
assistência aos administradores, aquando da composição de textos em línguas não-
nativas (Senez 1996).
Produção de documentação técnica
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
121
Até aos anos 90, a suposição mais natural era a de que os sistemas de TA
tinham a pretensão de serem usados para a produção de documentação de qualidade
publicável principalmente, mas não exclusivamente, de natureza científica e técnica.
A suposição era, por outras palavras, a de que os sistemas de TA seriam utilizados em
situações em que, outrora, os tradutores humanos eram empregues na qualidade de
peritos sobre os temas em questão. Evidentemente que a qualidade concreta do output
da TA, era inapropriada para uso direto. Tinha que ser extensamente revista antes de
ser publicada e os tradutores eram, por isso, contratados como „pós-revisores‟. Nestas
circunstâncias, o uso da tradução automática tornou-se uma questão económica, e era
apenas viável se a qualidade e a velocidade geral pudessem ser atingidas a um custo
inferior a tradutores humanos.
Apesar de existirem nos dias de hoje outras utilidades para a TA, como já
indicámos, esta aplicação continua a ser mais importante, particularmente para os
vendedores e responsáveis pelo desenvolvimento de mais sistemas ‘mainframe’
(Systran e Logos). Os clientes e utilizadores principais são empresas multinacionais
que exportam equipamento para o mercado global (Vasconcellos 1993; Brace et al.
1995). A necessidade aqui é a de tradução de documentação promocional e técnica.
No último caso os documentos técnicos são frequentemente necessários em grandes
quantidades: um número infindável de manuais operacionais para apenas uma peça de
equipamento pode chegar a vários milhares de páginas. Para além do mais, pode
haver várias revisões à medida que aparecem novos modelos. Como também deve
haver consistência na tradução: o mesmo componente tem que ser referido e traduzido
da mesma forma de cada vez. Esta escala de tradução técnica está para além da
capacidade humana. No entanto, para ser rentável, um sistema de TA tem que estar
bem integrado nos demais processos de documentação técnica da empresa: da escrita
inicial até à publicação e distribuição finais. Os sistemas desenvolvidos para a
assistência de escritores técnicos – não só assistência com a terminologia, mas
também com os manuais de estilo online e ajudas gramaticais – estão neste momento
a ser interligados a processos contínuos de publicação e publicação.
Existem inúmeros exemplos de um uso de sistemas de tradução automática de
empresas multinacionais, bem sucedido e a longo prazo, para a tradução de
documentação técnica. Um dos mais conhecidos é a aplicação dos sistemas Logos na
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
122
empresa Lexi-Tech em Nova Brunswick, Canadá, inicialmente utilizado para efetuar
traduções para francês dos manuais de manutenção de fragatas navais. Com isto, a
empresa construiu um serviço que se encarregou de outros grandes projetos de
tradução. A usar o Logos estão também a Ericsson, a Osram, as Tecnologias Océ,
SAP e a Corel. São os sistemas Systran, contudo, que detêm os clientes mais
importantes: a Ford, a General Motors, Aérospatiale, Berlitz, a Xerox, entre outros. O
sistema de alemão-inglês METAL, tem sido usado com sucesso por um número
significativo de empresas europeias: a Boehringer Ingelheim, a SAP, a Philips e a
UBS ( Union Bank of Switzerland).
Um pré-requisito fundamental para uma instalação de TA em grandes
empresas bem-sucedidas, é o facto de o utilizador esperar uma grande quantidade de
traduções dentro de um campo específico (objetos, produtos, entre outros). O
compromisso financeiro para com uma base de dados terminológica e a manutenção
de dicionários tem que ser justificável. Quer seja produzido automaticamente ou não é
recomendável que a documentação empresarial seja consistente com o uso da
terminologia. Muitas empresas insistem, de facto, no uso exclusivo dos seus próprios
termos, e não aceitam o uso de outros. Manter este tipo de consistência é quase
impossível fora de um sistema automatizado. No entanto, isto significa também que
antes que um sistema possa ser instalado, o utilizador tem que já ter disponível uma
base de dados terminológica sólida, com equivalentes de tradução certificados pelas
línguas envolvidas autorizadas, ou – pelo menos – têm que se comprometer a
desenvolver o banco de termos exigido.
É frequentemente desejável, por razões semelhantes, que o sistema de TA em
questão produza output em mais do que uma língua-alvo. A maioria dos sistemas de
TA em larga-escala têm que ser adaptados para o tipo de linguagem encontrada nos
diferentes tipos de documentos produzidos numa empresa em específico. Pode tratar-
se do acrescento de regras gramaticais específicas para lidar com construções frásicas
e orações, bem como a inclusão de regras específicas para lidar com itens lexicais, e
não só com os ditos termos exclusivos da empresa. A quantidade de trabalho
envolvido na referida adaptação só é justificável caso o output ocorra em várias
línguas.
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
123
Linguagem controlada e sistemas de domínio não-específico
Nestas circunstâncias, contudo, tem sido frequentemente considerado
verosímil a introdução de um maior nível de controlo. Um dos exemplos iniciais, e
também um dos mais conhecidos, é a aplicação do sistema Systran pela Corporação
Xerox. Aqui, os autores técnicos são obrigados a compor documentos naquilo que é
denominado como Inglês Multinacional „Feito por Medida‟ [Multinational
Customized English] que inclui não só o uso de termos específicos apresentados,
como também a construção de frases (Elliston 1979). As vantagens desta abordagem
são: evitar as ambiguidades do input com as quais o sistema de TA não consegue lidar
de forma apropriada, a consequente melhor qualidade do output, a produção rápida de
documentos técnicos em várias línguas diferentes ao mesmo tempo, e por último mas
não o menos importante, está a produção de documentos ingleses mais facilmente
compreensíveis. Estas vantagens têm sido reconhecidas por outras empresas
multinacionais, e o uso de „linguagens controladas‟ está a aumentar: por exemplo, a
Caterpillar Corporation [Corporação Caterpillar] criou a sua própria forma de inglês
para facilitar a tradução num sistema de TA baseado em conhecimento, a ser
desenvolvido pela Universidade Carnegie-Mellon (Miamura e Nyberg 1995). Existem
algumas empresas que se oferecem para construir sistemas de TA de linguagens
„controladas‟ para clientes específicos. A empresa que se estabeleceu há mais tempo –
e a pioneira nesta abordagem – é a Corporação Smart, em Nova York. A Smart tem
desenvolvido sistemas para um número significativo de grandes clientes: a Citicorp, a
Chase, Ford, a General Electric, entre outros. Cada um incorpora um sistema para
„normalizar‟ documentos em inglês. Esta componente de sistema é considerada tão
crucial para que se obtenham bons resultados, que o próprio processo de tradução é
encarado virtualmente como um subproduto (Lee 1994). Existem sistemas Smart que
fazem traduções para francês, alemão, grego, italiano, japonês e espanhol. A maior
instalação Smart é, talvez, o sistema concebido para o Ministério do Trabalho e da
Segurança Social do Canadá [Canadian Ministry of Canada] que tem sido utilizado há
muitos anos para traduzir informação relativa a anúncios de emprego e documentação
semelhante.
Na Europa, a empresa Cap Volmac na Holanda, e a empresa LANT na Bélgica
oferecem serviços idênticos, construindo sistemas de tradução especializados para
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
124
vários clientes, utilizando o seu próprio software de linguagens controladas. Os
serviços da Cap Volmac Lingware são subsidiários holandeses do Grupo Cap Gemini
Sogeti. Ao longo dos anos esta empresa de software tem construído sistemas de
linguagens controladas para seguradoras e empresas têxteis, principalmente de
holandês para inglês (Van der Steen e Dijenborgh 1992). No entanto, a história de
sucesso mais conhecida de um sistema de TA „feito à medida‟ [custom-built] é
possivelmente o sistema PaTrans desenvolvido pela LingTech A/S para traduzir
patentes de inglês para dinamarquês. Este sistema é baseado em métodos e
experiências no âmbito do projeto Eurotra da Comissão Europeia (Ørsnes et al. 1996).
Estes últimos exemplos de sistemas, ilustram um número crescente de
empresas e organizações estão a desenvolver as suas próprias funcionalidades de TA,
em vez de comprarem sistemas comerciais. Esta tem sido a característica principal de
anos anteriores. O bem-sucedido sistema Météo, no Canadá, utilizado para traduzir
boletins meteorológicos de inglês para francês (e mais tarde de francês para inglês) foi
de facto, um sistema específico de cliente [customer-specific] – neste caso o Canadian
Environment Service. É importante ressalvar que uma variante do software Méteo foi
utilizada com sucesso durante os Jogos Olímpicos de Atlanta (Chandioux e Grimaila
1996). O Méteo é um exemplo de um sistema de „sublinguagem‟, i. e. concebido
especialmente para lidar com linguagem específica de meteorologia.
Outro exemplo de um sistema feito „à medida‟ [customer-built] é o TITUS,
um sistema de „sublinguagem‟ bastante restrito, que fez traduções de resumos de
documentos da indústria têxtil, de e para inglês, francês, alemão e espanhol, com uso
regular desde 1970. Mais conhecidos são os dois sistemas específicos de cliente
[customer-specific] que traduzem de inglês para espanhol na Pan American Health
Organization, em Washington – criado e desenvolvido por utilizadores da própria
organização. Estes sistemas, que possuem uma elevada taxa de sucesso (e que estão
agora disponíveis para trabalhadores fora da PAHO) são sistemas com um objetivo
central [general-purpose], não estando condicionados ao vocabulário ou ao tipo de
texto, apesar de os dicionários serem obviamente os pontos mais fortes dos campos
das ciências sociais e saúde (Leon and Aymerich 1997).
Nos anos 90, houve uma série de outros exemplos. Na Finlândia, o sistema
Kielikone foi originalmente desenvolvido como o software de trabalho para as
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
125
Telecomunicações Nokia. Subsequentemente, outras versões foram instaladas noutras
empresas finlandesas, e o sistema está agora a ser vendido de forma mais expansiva
(Arnola 1996). Sucede-se uma história semelhante com o GSI – Erli. Esta grande
empresa de engenharia da linguagem, desenvolveu um sistema de tradução interno
combinando um motor TA e várias ferramentas e de tradução assistida numa
plataforma comum denominada Aleth Trad. Recentemente, este mesmo sistema tem
sido disponibilizado em versões customizadas para clientes fora dessa plataforma
(Humphreys 1996).
Numa escala mais pequena, mas igualmente bem sucedida, tem sido um
sistema desenvolvido por uma pequena empresa inglesa, a Hook and Hatton. Neste
caso, a necessidade foi a de tradução de textos de química, de holandês para inglês
(Lewis 1997). O designer começou por compatibilizar um simples padrão de frases e
construiu gradualmente uma maior análise sintática, para como e quando os
resultados fossem justificáveis e rentáveis.
Baseado numa experiência efetuada ao longo dos anos, esta consiste em
desenvolver TA baseada em conhecimento, e que faz experiências com a tradução de
discurso e métodos baseados em corpora [corpus-based methods]. Membros do grupo
na universidade de Carnegie-Hall têm desenvolvido uma estrutura para a produção
rápida de sistemas de TA usáveis para clientes específicos, em línguas pouco comuns,
como o servo-croata ou o crioulo do Haiti (Frederking et al. 1997). Não há qualquer
falso pretexto em atingir uma qualidade elevada, apenas se pretende atingir um nível
elevado de ‟utilidade‟ para línguas que eram outrora inacessíveis.
Outro exemplo de TA feitos „à medida‟ [custom-built] numa área
especializada, é o programa desenvolvido para as Comunicações TCC, na Simon
Fraser University [Universidade Simon Fraser], para traduzir legendas de programas
de televisão (Toole et al. 1998). Não só existem mais limitações a nível de tempo – a
tradução tem que ser em tempo real – mas existem também desafios como os
coloquialismos, o diálogo, a robustez e a escassez dos indicadores de contexto. O
sistema, de momento a funcionar em direto de inglês para espanhol, exigia técnicas
que eram encontradas principalmente em muitas aplicações para a internet.
No Japão, existem outros exemplos de sistemas feitos „à medida‟ [custom-
built]. O Japan Information Centre of Science and Technology, traduz resumos de
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
126
artigos científicos e técnicos de japonês para inglês. Nos finais dos anos 80 do mesmo
século, assumiu a responsabilidade do sistema de TA MU de japonês-inglês,
desenvolvido na Universidade de Kyoto. A partir daqui, gerou-se uma das maiores
operações de TA no Japão (O‟Neill-Brown 1996). Outros sistemas „feitos à medida‟
[custom-built] de significação no Japão estão os sistemas SHALT, desenvolvido pelo
IBM Japão para as suas próprias necessidades de tradução, e o sistema ARGO
desenvolvido pelo SCK em Tóquio para traduzir notícias do mercado da bolsa
japonesa para inglês, e ainda o sistema NHK para traduzir artigos de notícias para
japonês.
Software de trabalho de tradução
Nos anos de 1990, as possibilidades de efetuar uma tradução em grande escala
aumentaram com a chegada aos mercados do software de trabalho de tradução
[translator workbenches]). As ideias originais para a integração de vários serviços
baseados em computador [computer-based] para tradutores em apenas um lugar,
remontam até ao início dos anos 80, em particular com sistemas ALPS. O software de
trabalho de tradução combina o processamento de texto multilingue, com meios de
receber e enviar documentos eletrónicos, serviços OCR [Optical Character
Recognition], software de controlo de terminologia, funcionalidades que permitem
fazer concordâncias, e em particular a „memória de tradução‟. Esta última é a
instalação que permite aos tradutores armazenar textos originais e as versões
traduzidas lado-a-lado, para que as frases correspondentes do texto de chegada e do
de partida possam ser alinhadas. O tradutor pode assim pesquisar uma expressão, ou
até mesmo uma frase inteira numa língua na memória de tradução, e ter em exibição
as expressões correspondentes numa língua e noutra. Tanto podem ser
correspondências exatas ou aproximações classificadas, de acordo com a
proximidade.
É frequentes grandes empresas submeterem-se a inúmeras revisões de
documentos técnicos, manuais, entre outros, verificando-se por vezes grandes frações
de traduções que se mantêm inalteradas, de uma versão para a outra. Com a memória
de tradução, o tradutor pode localizar e reutilizar as secções já traduzidas. Mesmo que
não exista uma correspondência exata as versões expostas podem ser utilizadas com
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
127
alterações mínimas. Haverá também acesso a bases de dados terminológicas,
particularmente de terminologia específica de empresa [company-specific] para
palavras ou expressões que não são encontradas na memória de tradução. Para além
disso, muito do software de trabalho do tradutor está agora a oferecer traduções
automáticas completas, usando sistemas de TA como o Systran, Logos e o Transcend.
O tradutor pode optar por usá-los, tanto para o texto inteiro, como para frases
selecionadas, podendo aceitar ou rejeitar os resultados adequados (Heyn 1997).
Existem atualmente quatro principais softwares de trabalho do tradutor:
Trados (provavelmente o mais bem sucedido) STAR AG na Alemanha (Transit) IBM
(o Translation Manager) e LANT na Bélgica (a Eurolang Optimizer, previamente
vendido pelo SITE na França). O software de trabalho de tradução tem revolucionado
o uso de computadores pelos tradutores. Estes têm agora uma ferramenta onde podem
estar em controlo absoluto, onde podem usar qualquer uma das instalações ou
nenhuma, como preferirem. Como sempre, o valor de cada recurso depende da
qualidade da informação dos dados, e é por isso que assim como acontece nos
sistemas de TA, as bases de dados de terminologia e dicionários exigem esforço,
tempo e recursos. A memória de tradução depende da disponibilidade de uma corpora
apropriada para traduções autorizadas – não há necessidade em usar traduções que
sejam inaceitáveis (seja por que razão for) pela empresa ou pelo cliente.
Apesar de ser usado maioritariamente por administradores dentro da Comissão
Europeia, o sistema de TA de escala completa Systran, é relativamente pouco
utilizado pelos tradutores profissionais da Comissão. Especialmente para eles, os
serviços de tradução estão a desenvolver o seu próprio software de trabalho, a
EURAMIS, i.e , o European Advanced Multilingual Information, (Theologitis 1997).
Esta combina o acesso à base de dados multilingue da própria Comissão (a
Eurodicautom) com os recursos dos dicionários do Systran, instalações para a criação
e manutenção, individual ou em grupo, das bases de dados de terminologia (utilizando
o software do Trados‟ MultiTerm) a memória de tradução (novamente para grupos ou
indivíduos) o acesso ao CELEX (a base de dados de textos completos da legislação e
das diretrizes da União Europeia) software de comparação de documentos (para
detetar onde ocorreram mudanças) e também, obviamente, acesso aos próprios
sistemas de TA Systran. Este último está agora disponível de inglês para holandês,
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
128
francês, alemão, grego, italiano, português e espanhol; de francês para holandês,
inglês, alemão, italiano e espanhol; de espanhol para inglês francês; e de alemão para
as mesmas. Todo o sistema EURAMIS está ligado a outras funcionalidades como
ferramentas de elaboração de documentos (ortografia, marcadores de gramática e de
estilo, e assistência de rascunhos multilingues) a rede interna e administrativa da
Comissão Europeia, e a recursos exteriores na Internet.
Software de Localização
Uma das áreas de maior crescimento relativas ao uso de computadores para
tradução é a indústria do software de localização. Neste caso, a exigência é no sentido
da documentação paralela estar disponível em várias línguas a tempo do lançamento
do novo software. A tradução tem que ser feita rapidamente, mas há uma grande
repetição de informação de uma versão para outra. A TA e, recentemente, a memória
de tradução no software de trabalho do tradutor são a solução óbvia (Schaeler 1996).
Entre os primeiros desta área, estava a grande empresa de software empresarial SAP
AG, na Alemanha. Nesta empresa utilizam dois sistemas de TA: a METAL que
realiza traduções de alemão para inglês, e o Logos de inglês para francês e que
planeia introduzir novos sistemas para outros pares de línguas.
Grande parte da localização, contudo, é feita a partir da memória de tradução e
do software de trabalho do tradutor. Os exemplos mais comuns são o Corel, o Lotus e
o Canon. É interessante verificar que muita dessa atividade de localização está
sedeada na Irlanda – graças a um apoio do governo e da União Europeia à indústria
informática. No entanto, a localização é uma indústria multinacional e global, com a
sua própria organização (a Localization Industry Standards Association [A
Associação da Indústria Standard de Localização], sediada em Genebra) que organiza
e realiza em todos os continentes, seminários e conferências frequentes (para mais
detalhes ver a LISA Forum Newsletter).
As empresas de localização têm estado na vanguarda das diligências na
Europa para definir os recursos lexicais estandardizados, formatos de manuseamento
de textos, e para desenvolver infraestruturas de rede comuns. Este é o projeto
OTELO, que coordena o Lotus da Irlanda, com outros membros como o SAP, o
Logos e o GMS. Para o sucesso futuro das empresas da indústria de localização
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
129
considera-se fundamental a necessidade de haver um ambiente geral de tradução, para
uma grande variedade de memória de tradução, de tradução automática e de outras
ferramentas de produtividade.
Sistemas para computadores pessoais
O software para computadores pessoais, começou a aparecer no início dos
anos 80 (com o sistema Weidner MicroCAT tornando-se particularmente bem
sucedido). Quase todas as principais empresas japonesas de computadores produzem
sistemas para a tradução de e para inglês, como por exemplo o sistema PIVOT da
NEC, o sistema ASTRANSAC da Toshiba, o HICATS da Hitachi, e ainda a PENSEE
da Oki e DUET, da Sharp.
Para além do Japão, os sistemas para os computadores pessoais começaram a
aparecer cedo, mas em poucas empresas. Os primeiros sistemas americanos chegaram
no início dos anos 80, de ALPS e Weidner. Os produtos ALPS foram inicialmente
criados como assistentes de tradução, fornecendo ferramentas para o acesso e criação
de recursos de terminologia, e também estes incluíam módulos interativos de
tradução. Apesar de ao início ter tido algum sucesso de vendas, ao fim de uma década
os seus produtores concluíram que o mercado ainda não estava preparado e, por isso,
os produtos foram retirados. Pouco tempo depois, a ALPS decidiu tornar-se num
serviço de tradução (o ALPANET) usando as suas próprias ferramentas internamente.
Em contrapartida, a Weidner vendeu um sistema completo de tradução num vasto
número de pares de línguas (inglês, francês, alemão e espanhol) e o negócio
prosperou. A Weidner produziu duas versões dos seus sistemas: a MicroCat para
pequenos computadores pessoais, e o MacroCat para minicomputadores e para
software de trabalho do tradutor em grande escala. A Weidner foi então adquirida
pela empresa japonesa Bravis, e foi posta à venda uma versão da mesma língua. No
entanto, pouco tempo depois o proprietário decidiu que o mercado da TA para
computadores pessoais estava ainda pouco desenvolvido e o negócio foi vendido. A
MicroCat desapareceu completamente, mas a MacroCat por outro lado foi adquirida
pela Intergraph, que a modificou e desenvolveu para a sua gama de publicações de
software, que veio a vender mais tarde com o novo nome de Transcend –
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
130
recentemente a Transcend foi adquirida pela Transparent Language Inc. (para estes
desenvolvimentos ver Hutchins 1993, 1994).
Nos finais dos anos 80 do século XX, apareceu grande parte dos sistemas
comerciais hoje disponíveis no mercado. Primeiro apareceu o sistema PC-Translator
(da Linguistic Products sedeada no Texas) concebido para computadores pessoais
com funcionalidades básicas [low-end]. Ao longo dos anos, muitos pares de línguas
foram produzidos e vendidos, manifestamente com sucesso no que diz respeito às
vendas. Depois seguiu-se a Globalink, com sistemas para francês, alemão e espanhol,
para inglês (existe também um sistema de russo para inglês, que derivou
essencialmente da experiência do proprietário original do projeto Georgetown nos
anos 60). Não demorou muito até a Globalink se fundir com a MicroTac, uma
empresa que teve muito sucesso ao vender o seu Language Assistant, uma série barata
de um software de PC [PC software] – essencialmente dicionários automáticos, com
uma funcionalidade que permite traduzir expressões muito pequenas. No início dos
anos 90, a Globalink produziu a série „Power Translator‟, hoje em dia bastante
conhecida, de tradução nos dois sentidos entre inglês e o francês, o alemão e o
espanhol. Recentemente, a Globalink vendeu a Telegraph, a série mais avançada de
produtos de software de tradução, e a própria Globalink foi adquirida pela Lernout &
Hauspie, uma empresa de tecnologia de discurso líder de mercado.
Desde o início dos anos 90, aparecerem muitos outros sistemas para
computadores pessoais. Estão agora disponível o Logovista da Language Engineering
Corporation, que efectua traduções de japonês para inglês, e a Tsunami e a Typhoon,
da Neocor Tecnologias (que agora pertencem à Lernout & Hauspie). Da antiga União
Soviética – onde havia uma investigação muito activa sobre TA, especialmente nos
anos 60 e 70, – temos agora o Stylus (recentemente rebaptizado ProMT) e o PARS,
ambos sistemas de marketing especializados em traduções de russo para inglês; o
sistema Stylus também trabalha em francês, e o sistema PARS para ucraniano. Outros
sistemas baseados em PC [PC based] na Europa incluem: o Hypertrans para traduzir
entre o italiano e o inglês; o sistema Winger para traduzir de dinamarquês para inglês,
de francês para inglês e de inglês para espanhol, agora também comercializado na
América do Norte; existe ainda o TranSmart, a versão comercial do sistema
Kielikone, para efetuar traduções de finlandês para inglês.
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
131
Vendedores de sistemas mainframe mais antigos (Systran, Fujitsu, Metal e
Logos) estão a ser obrigados a competir, reduzindo os sistemas. Muitos têm-no feito
com sucesso, conseguindo reter grande parte das funcionalidades dos seus produtos
mainframe, nas versões baseadas em PC [PC based]. O Systran Pro e o Systran
Classic, por exemplo, são versões baseadas no sistema operativo Windows
[Windows-based], do sistema de sucesso desenvolvido desde 1960 para clientes em
todo o mundo numa grande variedade de línguas. As grandes bases de dados de
dicionários fornecidas pelo Systran, conferem a estes sistemas, óbvias vantagens
sobre outros produtos de PC – Personal Computer [Computador Pessoal]. Tanto o
Systran Classic (para uso doméstico) como o Systran Pro (para uso dos tradutores)
são agora vendidos por menos de quinhentos dólares em muitos pares de línguas:
inglês-francês, inglês-alemão, inglês-espanhol e ainda de inglês para italiano e de
japonês para inglês. A editora Langenscheidt, adquiriu os direitos de venda de uma
versão da METAL, em colaboração com a GMS (o Gesellschaft für Multilinguale
Systeme [Soceidades de Sistemas Multilingues], agora propriedade de Lernout &
Hauspie) – este sistema denomina-se „Langenscheidt T1‟ e oferece várias versões de
tradução para alemão e inglês. Também vem da Alemanha o Personal Translator, um
produto conjunto do IBM e Von Rheinbaben & Busch baseado no LMT (i.e. Logic-
Programming based Machine Translation) um sistema por transferência [transfer-
based] que se está a desenvolver desde 1985, estando o próprio LMT disponível como
uma componente de TA para o Translation Manager, da IBM. Tanto o Langenscheidt
T1, como o Personal Translator diestinam-se primeiramente para o tradutor não-
profissional, competindo por isso com a Globalink, e outros produtos semelhantes
(para estes desenvolvimentos ver Atas de colóquios de TA: AMTA, EAMT, MT
Summit e MT News International).
Surpreendentemente, as vendas do software de tradução comercial de PC, têm
subido notavelmente. Estima-se que haja cerca de 1000 pacotes diferentes de TA à
venda (sendo que cada par de língua é contado separadamente). Os produtos de um
vendedor (Globalink) estão presentes em pelo menos 6000 lojas só na América do
Norte, e no Japão diz-se que um sistema (o Korya Eiwa em Catena, de traduções de
inglês-japonês) terá vendido mais de 100, 000 mil exemplares no seu primeiro ano no
mercado. Apesar de ser difícil precisar qual a quantidade do software adquirido é
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
132
regularmente usado (alguns cínicos afirmam que apenas uma pequena proporção é
testada mais que uma vez) não há qualquer dúvida de que existe um volume crescente
da tradução „ocasional‟, i.e., de uma tradução efetuada por pessoas de todas as
proveniências, que querem traduções de textos estrangeiros na sua própria língua, ou
que querem comunicar por escrito com outras noutras línguas e que não dão grande
importância à fraca qualidade. É este mercado latente de tradução de escassa
qualidade, inexplorado até há bem pouco tempo, que está agora a ser descoberto e que
está a contribuir para um aumento inesperado de vendas no software de tradução.
TA na Internet
Ao mesmo tempo, muitos vendedores de TA têm fornecido serviços de
tradução em rede [network-based] para traduções encomendadas, com revisão
humana como extras opcionais. Em alguns casos, existem acordos entre cliente e
servidor para utilizadores regulares, noutros o serviço é fornecido para um período
experimental, permitindo às empresas descobrir se a TA vale a pena dentro das suas
circunstâncias específicas, e de que modo. Tais serviços são fornecidos por sistemas
como, por exemplo, o Systran, o Logos, a Globalink, a Fujitsu, a JICST e a NEC.
Algumas empresas têm agora sido construídas com este objetivo: o LANT na
Bélgica é o maior exemplo disso, fundando os seus direitos a desenvolver o sistema
METAL e a Eurolang Optimizer, que também comercializa (Caeyers 1997). A sua
especialidade é a adaptação de linguagens controladas para usar com os seus sistemas
de TA e memória de tradução. No final do ano de 1997, foram ainda lançados os
serviços multilingues para a tradução de e-mails, páginas Web e anexos. Em
Singapura, existe o MTSU (Machine Translation Service Unit do Institute of Systems
Science, da National University of Singapore) que usa os seus próprios sistemas,
desenvolvidos localmente para a tradução de inglês para chinês, malaio, japonês e
coreano (sendo o chinês o seu ponto mais forte) e contando ainda com a revisão de
tradutores profissionais. Este serviço está a proporcionar uma tradução em grande
escala através da Internet para clientes em todo o mundo (principalmente
organizações multinacionais) incluindo muitas das necessidades de localização para
empresas de software nos mercados de língua chinesa. (LISA Forum Newsletter 4 (3)
August 1995, p.12.)
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
133
Outro sinal da influência da Internet, é o número crescente de produtos de
software de TA, destinadas a traduzir páginas Web. As empresas japonesas lideraram
o caminho: quase todas as empresas mencionadas anteriormente têm um produto
neste mercado lucrativo, assim como têm sido seguidas rapidamente em qualquer
outro lugar (por exemplo: o Systran, a Globalink, a Transparent Language e o
LogoVista). Tal como o software de PC para a tradução de páginas Web, verificam-se
serviços na Internet que têm vindo a acrescentar ferramentas de tradução: o exemplo
mais recente é a disponibilidade do AltaVista em versões do Systran para traduzir
francês, alemão e espanhol de e para inglês – mas é demasiado cedo para dizer com
que tipo de sucesso ou nível de satisfação dos utilizadores (Yang e Lange 1998).
Igualmente importante, tem sido o uso da TA para o e-mail e para as „salas de
chat‟. Há dois anos, a CompuServe apresentou um serviço beta, baseado no sistema
Transcend para utilizadores do MacCIM Support Forum [Fórum de Assistência
MacCIM]. Seis meses mais tarde, a World Community Forum começou a utilizar a
TA para traduzir a troca de e-mails, e o seu uso disparou (Flanagan 1996). Muito
recentemente, a CompuServe apresentou os seus próprios serviços de tradução para
documentos mais extensos, quer fosse TA „em bruto‟ e sem revisão, ou com uma
revisão humana opcional. Em breve, o CompuServe irá oferecer a TA como padrão
para todos os seus e-mails. No que diz respeito ao chat da Internet, a Globalink
juntou-se à UniVerse para prestar um serviço multilingue.
Este uso não é mera curiosidade apesar de ser assim que, na maior parte das
vezes, tudo começa. A CompuServe registou uma percentagem elevada e repetida de
vários utilizadores no seu serviço, cerca de 85% de TA sem edição – uma
percentagem muito mais elevada do que seria de esperar. Parece que a maior parte é
utilizada para assimilação de informação, onde uma tradução mais fraca é aceitável. O
ponto essencial é que os clientes estão dispostos a pagar pelo produto – e o
CompuServe é inundado de reclamações cada vez que o sistema de TA vai abaixo.
É óbvio que o potencial da TA na Internet, via Internet e para a Internet está
agora a ser devidamente apreciado – nenhuma empresa se pode dar ao luxo de ficar
para trás, e todos os grandes jogadores têm planos ambiciosos, por exemplo a Lernout
& Hauspie (McLaughlin e Schwall 1998) que adquiriu agora sistemas de TA da
Globalink, Neocor e AppTek, bem como do antigo sistema METAL (da GMS).
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
134
Necessidades e desenvolvimentos futuros
Apesar do crescimento recente de sistemas para computadores pessoais e de
serviços da Internet, é preciso realçar que ainda não há nada realmente adequado para
o tradutor profissional e independente, i.e. para aqueles que não trabalham para
grandes empresas ou em organizações de tradução. Sabe-se que alguns tradutores
tentaram aplicar um software comercial baseado em PC [PC based] às suas
necessidades, mas a quantidade de adaptação necessária e o output frequentemente
fraco tornaram-nos insatisfatórios e muito pouco económicos. Para o tradutor
independente seria mais adequado um software de trabalho de tradução que fosse
rentável, contudo, os softwares de trabalho existentes no mercado continuam a ser
demasiado caros para o tradutor individual. Apesar de haver a promessa de
ferramentas para computador de baixo custo para este mercado potencialmente vasto
– por ex. software de concordância e terminologia, e talvez ainda software de
alinhamento – não há qualquer dúvida de que este segmento não será tão bem cuidado
como outras áreas.
Outra área mal servida presentemente, é a necessidade de uma tradução
fidedigna de documentos para línguas estrangeiras, que sejam de baixo custo e em
que os utilizadores não queiram empregar tradutores profissionais bilingues. Não
existe qualquer problema com a tradução para as próprias línguas dos emissores – os
sistemas de PC podem conferir versões rudimentares adequadas e „sólidas‟ para
utilizadores que têm uma ideia de qual é a mensagem principal – mas no caso de
traduções para línguas desconhecidas ainda não existem soluções. Apareceram
recentemente alguns produtos japoneses baratos que servem esta procura específica
de „língua estrangeira de autor‟, para a escrita de cartas de negócios (baseadas em
expressões padrão e modelos de documentos) mas para outras áreas e para
documentos mais extensos, onde há menos „estereótipo‟, ainda não existe nada. No
caso da tradução para uma língua desconhecida (ou mal conhecida) do emissor, o que
é mesmo exigido é um software em que se possa confiar para facultar um output de
boa qualidade (e muitos produtos de PC não são suficientemente bons). Uma série de
grupos de investigação está a pesquisar sistemas interativos onde o emissor compõe
uma versão „amiga‟ da TA de uma carta ou documento em colaboração com o
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
135
computador. Com um texto de input suficientemente „normalizado‟, o sistema de TA
pode garantir um output gramática e estilisticamente correto. No entanto, este trabalho
(por ex.: at GETA em França) continua em fase de laboratório (Boitet e Blanchon
1995).
O mesmo acontece com o software que combina a TA com acesso e extração
de informação, e software de sumarização. Não existem sistemas comerciais no
mercado até à data, uma vez que todos os desenvolvimentos ainda estão em fase de
investigação. O potencial e a procura têm sido, no entanto, reconhecidos: por ex.,
recentemente a maior parte dos fundos de investigação da União Europeia têm sido
direcionados, não para a TA ou para o processamento de uma língua natural „pura‟
(como era nos anos 80), mas em projetos que têm como objetivo ferramentas
multilingues com aplicações diretas. Muitos destes envolvem traduções de qualquer
tipo, por regra, dentro de um campo restrito, e muitas vezes em condições controladas
(Hutchins 1996; Schütz 1996). Só como exemplo, o projecto AVENTINUS está a
desenvolver um sistema para as forças policiais na área de controlo de estupefacientes
e cumprimento da lei: ou seja, toda a informação sobre estupefacientes, criminosos e
suspeitos, estará disponível em bases de dados acessíveis em qualquer língua da
União Europeia.
Existe um interesse crescente neste tipo de aplicações multilingues em todo o
mundo. A aplicação que tem recebido mais atenção, tem sido a extrcção de
informação multilingue [cross-language], i.e. um software que permite aos
utilizadores pesquisarem bases de dados de línguas estrangeiras, na sua própria
língua. Até agora, grande parte do trabalho tem-se focado na construção e
manuseamento de dicionários de tradução, apropriados na busca de uma
correspondência de palavras ou expressões equívocas em bases de dados de
documentos (Bian e Chen 1998, Oard 1998) – apesar da provisão de software para a
tradução rápida de textos originais para a língua do próprio investigador, ser algo
naturalmente previsto (McCarley e Roukos 1998). É claro que não tardará até o
software comercial estar disponível para esta aplicação.
A aplicação futura que é provavelmente a mais desejada pelo público geral, é a
tradução de língua falada. Contudo, de um ponto de vista comercial (e mesmo de
investigação) a perspetiva para uma tradução automática de discurso falado são ainda
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
136
distantes (Krauwer et al. 1997). Foi só nos anos de 80 do século XX que
desenvolvimentos no reconhecimento de fala e síntese fizeram da tradução de língua
falada, um objetivo exequível. No Japão, a empresa ATR , uma parceria entre o
governo e a indústria, foi fundada em 1986 perto de Osaka, e é agora um dos
principais centros de tradução de discurso automático. O objetivo é desenvolver um
sistema de tradução de telefonemas em tempo real que fosse independente do falante,
de japonês para inglês e vice-versa, inicialmente dirigido a transações para a inscrição
em hotéis e em colóquios. Entretanto, outros projetos de tradução de discurso têm
sido iniciados subsequentemente, como o sistema JANUS, um projeto de investigação
na Carnegie-Mellon University e em Karlssruhe, na Alemanha. Os investigadores
estão a colaborar com a ATR num consórcio (a C-STAR) onde cada um desenvolve o
reconhecimento de fala e módulos de síntese para as suas próprias línguas: inglês,
alemão e japonês (um subproduto desta investigação foi mencionada anteriormente: o
projeto de rápido desenvolvimento para sistemas feitos „à medida‟ [custom-built] em
línguas menos comuns). O quarto maior esforço da tradução de discurso é um
projecto a longo prazo, VERBMOBIL, financiado pelo German Ministry for Research
and Technology [Ministerio para a Investigação e Tecnologia da Alemanha] iniciado
em Maio de 1993. O objetivo é a assistência portátil para negociações, como
suplemento ao conhecimento da línguas da parte dos próprios utilizadores (alemão,
japonês e inglês). Inúmeros grupos universitários alemães, estão envolvidos em
investigação básica em linguística de diálogo, reconhecimento de fala e design de TA;
um protótipo está quase completo e a demonstração do produto está marcada para o
início do século XXI.
A tradução de discurso falado é provavelmente a área de investigação de
tradução baseada em computador [computer-based] atualmente mais inovadora, e está
a atrair mais fundos e mais publicidade. No entanto, poucos observadores experientes
esperam desenvolvimentos dramáticos nesta área num futuro próximo – o
desenvolvimento de TA para uma língua escrita tem demorado vários anos a alcançar
o estádio atual de uso prático em empresas multinacionais, da variedade de produtos
baseados em PC [PC based] de qualidade e aplicação variável, e ainda do uso
crescente em redes e para e-mails. Apesar da excelência da TA dos dias de hoje de
linguagem escrita, os investigadores sabem que ainda há muito por fazer para
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
137
melhorar a qualidade. A TA de língua falada ainda não alcançou um nível de teste em
tempo real, e em cenários não-laboratoriais.
Comparação entre tradução humana e automática
Deste estudo, deve ficar claro que a aplicação de computadores para a tarefa
de tradução de línguas naturais não tem tido lugar, e que é improvável que isto se
torne uma ameaça à vida dos tradutores profissionais. As habilidades que um tradutor
humano possui e com a quais pode contribuir, podem e vão ter sempre procura. Não
há possibilidade, por exemplo, de a tradução automática conseguir alguma vez tentar
traduzir textos literários ou jurídicos. Por outro lado, a tradução rudimentar de textos
eletrónicos na Internet não tem rival com a tradução automática – os tradutores
humanos não conseguem competir em termos de rapidez, mesmo que estivessem
preparados para serem responsáveis pela fraca qualidade de uma tradução de material
efémero.
Podemos comparar os méritos relativos da tradução humana e automática, de
acordo com as categorias de necessidade e uso, delineados no início deste texto. No
que diz respeito à função de disseminação (produção de traduções publicáveis) a
tradução humana é a mais satisfatória e frequentemente a menos dispendiosa, quer
seja ou não uma questão de traduzir de um texto específico num único domínio de
tema (quer seja científico, técnico, médico, jurídico ou literário). A tradução
automática exige um investimento dispendioso de manutenção e atualização de
dicionários, e do envolvimento custoso de pós-revisão. Isto pode ser justificável (i.e.
rentável) apenas quando grandes volumes de documentação estão a ser traduzidos
dentro de um domínio específico. É ainda mais justificável quando a tradução trabalha
mais que uma língua-alvo (quando a pré-revisão e/ou controlo de gramática e
vocabulário de textos originais é possível) e quando é considerado repetição. O
tradutor humano sentir-se-ia esmagado pela magnitude dessa tarefa, pela repetição
enfadonha e pela necessidade de manter a consistência terminológica. O computador,
por outro lado, consegue ligar com esses vastos volumes e pode manter a dita
consistência automaticamente. Em suma, a tradução automática é ideal para grandes
escalas e/ou traduções rápidas de documentação técnica (enfadonha,) de manuais de
software de localização (altamente repetitivo) e da tradução da previsão do estado do
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
138
tempo. O tradutor humano não tem (e continuará a não ter) rivais, no que diz respeito
a textos linguisticamente sofisticados e não-repetitivos (por ex. na literatura e em
direito).
Para a tradução de textos por assimilação, onde a qualidade do output pode ser
mais fraca do que as dos textos por publicar, é óbvio que a tradução automática é a
solução ideal. Os tradutores humanos não estão preparados (e ressentem a pergunta)
para produzir uma tradução „em bruto‟ de documentos científicos e técnicos que
podem ser lidos por apenas uma pessoa que quer apenas encontrar o conteúdo e
informação geral. Muito menos tendo a preocupação se o texto é inteligível ou não, e
que não se deixa dissuadir pela estranheza estilística ou pelos erros gramaticais. É
claro que estes podem preferir ter um output melhor do que aquele apresentado pela
maioria dos sistemas de TA, mas se a única alternativa possível é não ter qualquer
tradução, então a tradução automática é completamente aceitável.
Para a troca de informação, pode ainda continuar a existir no futuro um papel
para o tradutor humano na tradução de correspondência de negócios (particularmente
se o conteúdo é sensível ou legalmente vinculativo). Mas é provável que os sistemas
de TA sejam bastante usados no que diz respeito à tradução de cartas pessoais. E tanto
no que diz respeito ao e-mail, à extração de informação de páginas Web e aos serviços
de informação baseados em computador [computer-based] a TA é a única solução
viável.
No que diz respeito à tradução falada, por outro lado, continuará a haver
mercado para o tradutor humano. Não há certamente nenhuma possibilidade da
tradução automática substituir o intérprete de trocas diplomáticas ou comerciais.
Apesar de ter havido uma investigação sobre a tradução automática de inquéritos via
telefone, dentro de domínios bastante restritos, e uma implementação futura possa ser
vista nesta área para grande parte da comunicação telefónica, é muito improvável que
haja qualquer substituto para a tradução humana.
Por fim, os sistemas de TA estão a descobrir novas áreas nas quais a tradução
humana nunca fez parte: na produção de versões „rascunho‟ para autores que
escrevem numa língua estrangeira e que precisam de assistência na produção de um
texto original, na tradução de legendas online, na tradução de informação através de
bases de dados, e sem dúvida que aparecerão mais aplicações no futuro. Nestas áreas,
_______________Anexo 4: Proposta de tradução para The Development and use of
machine translation systems and computer-based translation tools, de John Hutchins
139
como noutras já mencionadas, não há qualquer ameaça para o tradutor humano
porque estas nunca foram incluídas na esfera da tradução profissional. Não há dúvida
que a TA e a tradução humana podem, e irão, coexistir em harmonia e sem conflito.