Upload
vuongkien
View
218
Download
0
Embed Size (px)
Citation preview
UNIVERSITÀ DEGLI STUDI DI BOLOGNA
FACOLTÀ DI INGEGNERIA
Corso di Laurea in Ingegneria Elettronica
Sistemi Informativi I
ANALISI E CONFRONTO DI SISTEMI EBMT PER LA TRADUZIONE ASSISTITA
Tesi di Laurea di: Relatore:
BRUNO UMBERTO SPAGNA Chiar.mo Prof. PAOLO CIACCIA
Correlatori:
Dott.ssa FEDERICA MANDREOLI
Dott. Ing. RICCARDO MARTOGLIA
Anno Accademico 2001-2002
Sessione Autunnale
Parole chiave:
EBMT - Example Based Machine Translation
CAT - Computer Aided Translation
Traduzione assistita
Trados
IBM TranslationManager
I
Sommario
Introduzione ......................................................................................1 Modello a tre livelli ..........................................................................2 Attività di traduzione: organizzazione specializzata .........................3
Capitolo 1 Computer Aided Translation........................................7 1.1 Componenti di base e strumenti aggiuntivi ..............................7 1.2 Caratteristiche ideali di un sistema di traduzione assistita ........7
1.2.1 Componenti Off-line .......................................................7 1.2.1.1 Analisi del testo da tradurre.............................................7 1.2.1.2 Importazione dati nella TM .............................................7 1.2.1.3 Esportazione dati dalla TM..............................................7 1.2.1.4 Altre funzioni Off-line.....................................................7
1.2.2 Componenti On-line ........................................................7 1.2.2.1 Ricerca ............................................................................7 1.2.2.2 Aggiornamento e Networking .........................................7
Capitolo 2 Programmi in commercio .............................................7 2.1 TRADOS .................................................................................7
2.1.1 Componenti e loro caratteristiche ....................................7 2.1.1.1 WorkSpace ......................................................................7 2.1.1.2 WorkBench .....................................................................7 2.1.1.3 WinAlign ........................................................................7 2.1.1.4 ExtraTerm .......................................................................7 2.1.1.5 MultiTerm.......................................................................7
2.1.2 Ulteriori caratteristiche ....................................................7 2.2 IBM TRANSLATION MANAGER ........................................7
2.2.1 Componenti.....................................................................7 2.2.2 Caratteristiche .................................................................7 2.2.3 Ulteriori caratteristiche ....................................................7
Capitolo 3 Valutazione di un programma CAT.............................7 3.1 Efficacia - Concetto di Precision e Recall ................................7 3.2 I principali modelli di ricerca ...................................................7
Capitolo 4 Prove sperimentali.........................................................7 4.1 Valutazione delle penalizzazioni..............................................7
4.1.1 Trados .............................................................................7 4.1.1.1 Eliminazione di una parola di 8 lettere ............................7
II
4.1.1.2 Aggiunta di una parola di n lettere...................................7 4.1.1.3 Modifica di una parola ....................................................7 4.1.1.4 Unione di due frasi ..........................................................7 4.1.1.5 Stemming in Trados ........................................................7 4.1.1.6 Ordine delle parole ..........................................................7 4.1.1.7 Conclusioni su stemming e ordine delle parole................7
4.1.2 IBM Translation Manager ...............................................7 4.1.2.1 Eliminazione di una parola di 8 lettere ............................7 4.1.2.2 Aggiunta di una parola di n lettere...................................7 4.1.2.3 Modifica di una parola ....................................................7 4.1.2.4 Unione di due frasi ..........................................................7 4.1.2.5 Markup Table..................................................................7
4.2 Efficacia in relazione ad un testo campione (nuovo) ................7 4.2.1 Risultati ottenuti..............................................................7
4.3 Efficienza in relazione ad un testo campione (nuovo) ..............7 4.3.1 Risultati ottenuti..............................................................7 4.3.2 Scalabilità .......................................................................7
4.4 Caratteristiche dell’esperimento...............................................7
Capitolo 5 Analisi dei risultati ........................................................7 5.1 Commento ai risultati...............................................................7
5.1.1 Caratteristiche comuni.....................................................7 5.1.2 Differenze .......................................................................7 5.1.3 Limiti ..............................................................................7 5.1.4 Strumenti aggiuntivi........................................................7
5.2 Deduzione del modello ............................................................7
Capitolo 6 Limiti attuali dei programmi commerciali ..................7 6.1 Possibili sviluppi futuri ............................................................7
6.1.1 Approccio grammaticale .................................................7 6.1.2 Approccio sintattico ........................................................7 6.1.3 Criteri di valutazione standardizzati ................................7
Capitolo 7 Conclusioni e futuro della Traduzione Assistita..........7
Fonti e riferimenti bibliografici........................................................7
Indice figure
Figura 1 – Struttura a tre livelli.............................................................................3 Figura 1.1 - Computer Aided Translation - Programma di traduzione
assistita da calcolatore......................................................................7
III
Figura 1.2 - Esempio di file in formato FrameMaker trasformato in formato RTF (traduzione manualistica Panasonic dal giapponese)................. 7
Figura 1.3 - Computer Aided Translation - Allineamento segmenti e creazione di una nuova memoria ...................................................... 7
Figura 1.4 - Esempio di segmentazione del testo .................................................. 7 Figura 2.1- Trados 5............................................................................................. 7 Figura 2.2 - Trados WorkSpace............................................................................ 7 Figura 2.3 - Trados WorkBench ........................................................................... 7 Figura 2.4 - Trados WorkBench - Importazione dati per creazione memoria......... 7 Figura 2.5 - Integrazione Trados - WordProcessor................................................ 7 Figura 2.6 - Impostazione del progetto ................................................................. 7 Figura 2.7 - Associazione file sorgente, file tradotto............................................. 7 Figura 2.8 - Pre-allineamento batch...................................................................... 7 Figura 2.9 - Allineamento segmento-segmento..................................................... 7 Figura 2.10 - Parametrizzazioni di WinAlign ....................................................... 7 Figura 2.11 - Analisi in ExtraTerm....................................................................... 7 Figura 2.12 - Lista termini esportabili .................................................................. 7 Figura 2.13 - Interfaccia MultiTerm ..................................................................... 7 Figura 2.14 – Trados WorkBench - Pretraduzione di tipo batch............................ 7 Figura 2.15 - IBM TranslationManager ................................................................ 7 Figura 2.16 - Interfaccia principale IBM TranslationManager .............................. 7 Figura 2.17 - Initial Translation Memory Tool ..................................................... 7 Figura 2.18 – Allineamento con l'Initial Translation Memory Tool....................... 7 Figura 2.19 – Initial Translation Memory Tool - Allineamento segmenti.............. 7 Figura 2.20 - Conferma allineamento ................................................................... 7 Figura 2.21 - Analisi batch in IBM TranslationManager....................................... 7 Figura 2.22 - Analisi batch in IBM TranslationManager....................................... 7 Figura 3.1 – Processo di Retrieval ........................................................................ 7 Figura 3.2 – Possibili risultati di una ricerca in una collezione.............................. 7 Figura 3.3 – Curva precision e recall .................................................................... 7 Figura 3.4 – Precision e recall - Esempio.............................................................. 7 Figura 3.5 – Modello booleano............................................................................. 7 Figura 3.6 – Modello basato su cluster ................................................................. 7 Figura 4.1 - Testo originale inserito in memoria ................................................... 7 Figura 4.2 - Eliminazione di una parola di 8 lettere .............................................. 7 Figura 4.3 - Report analisi batch Trados - Eliminazione di una parola di 8
lettere............................................................................................... 7 Figura 4.4 - Pretradotto - Eliminazione di una parola di 8 lettere .......................... 7 Figura 4.5 - Pretradotto - Eliminazione di una parola di 3 lettere .......................... 7 Figura 4.6 - Pretradotto - Eliminazione di due parole............................................ 7 Figura 4.7 - Pretradotto - Eliminazione di tre parole ............................................. 7 Figura 4.8 - Aggiunta di una parola di 8 lettere..................................................... 7 Figura 4.9 - Pretradotto - Aggiunta di una parola di 8 lettere ................................ 7 Figura 4.10 - Aggiunta di due parole .................................................................... 7 Figura 4.11 - Pretradotto - Aggiunta di due parole................................................ 7 Figura 4.12 - Modifica di una parola .................................................................... 7 Figura 4.13 - Pretradotto - Modifica di una parola ................................................ 7 Figura 4.14 - Prova "A and B".............................................................................. 7 Figura 4.15 - Pretradotto - Prova "A and B" ......................................................... 7 Figura 4.16 - Trados - Impostazione di nuove regole di segmentazione ................ 7
IV
Figura 4.17 - Pretradotto dopo l'introduzione di una nuova regola di segmentazione..................................................................................7
Figura 4.18 - Pretradotto dopo l'eliminazione del punto di separazione.................7 Figura 4.19 - Trados - "A1, B, A2".......................................................................7 Figura 4.20 - Pretradotto - Trados - "A1, B, A2" ..................................................7 Figura 4.21 - Trados - Analisi on-line...................................................................7 Figura 4.22 - Trados - Stemming..........................................................................7 Figura 4.23 - Pretradotto - Trados - Stemming......................................................7 Figura 4.24 - Trados - Stemming - on-line............................................................7 Figura 4.25 - Trados - Stemming..........................................................................7 Figura 4.26 - Pretradotto - Trados - Stemming......................................................7 Figura 4.27 - Trados - Stemming - on-line............................................................7 Figura 4.28 - Trados - Ordinamento delle parole ..................................................7 Figura 4.29 - Pretradotto - Trados - Ordinamento delle parole ..............................7 Figura 4.30 - Trados - Ordinamento delle parole - on-line ....................................7 Figura 4.31 – IBM TranslationManager ...............................................................7 Figura 4.32 – IBM TranslationManager – Batch processing .................................7 Figura 4.33 – IBM TranslationManager – Impostazione parametri del
progetto............................................................................................7 Figura 4.34 – IBM TranslationManager – Analisi risultati....................................7 Figura 4.35 – IBM TranslationManager – Interfaccia operativa ............................7 Figura 4.36 – IBM TranslationManager –Risultato dopo eliminazione di due
parole...............................................................................................7 Figura 4.37 – IBM TranslationManager – Eliminazione di due parole ..................7 Figura 4.38 – IBM TranslationManager – Eliminazione di parti consistenti..........7 Figura 4.39 – IBM TranslationManager – Eccesso di distanza..............................7 Figura 4.40 – IBM TranslationManager – Aggiunta di una parola ........................7 Figura 4.41 – IBM TranslationManager – Modifica di una parola ........................7 Figura 4.42 – IBM TranslationManager – “A and B” ...........................................7 Figura 4.43 – IBM TranslationManager – “A1 B A2” ......................................7 Figura 4.44 – IBM TranslationManager - “A1 parte di B A2”...........................7 Figura 4.45 – IBM TranslationManager - “A1 parte di B significativa A2”.......7 Figura 4.46 – IBM TranslationManager - “A1 B modificato A2”......................7 Figura 4.47 – IBM TranslationManager - “A1 B ulteriormente modificato
A2” ..................................................................................................7 Figura 4.48 – IBM TranslationManager – Word per Windows .............................7 Figura 4.49 – IBM TranslationManager – Word per Windows .............................7 Figura 4.50 – IBM TranslationManager – Word per Windows .............................7 Figura 4.51 – Scalabilità dei sistemi .....................................................................7
Introduzione 1
Introduzione
La traduzione è stata per lungo tempo considerata come quell’attività,
eseguita nel modo migliore, di trasporto di un testo da una lingua in
un’altra. Tradurre nel modo migliore, oggi, significa non solo
conoscere le parole, le regole grammaticali e le espressioni tipiche di
un paese e del suo idioma, ma anche produrre un documento che sia
identico per aspetto all’originale, ne rispetti cioè le caratteristiche
formali, e soprattutto sia caratterizzato da un’uniformità terminologica
e di stile.
Per sopperire a tale necessità, in relazione anche alle sempre più
elevate esigenze del mercato mondiale (quantità maggiori in minore
tempo e alla medesima elevata qualità), si è giunti negli ultimi decenni
a ricercare tecniche di automazione del processo stesso di traduzione.
Riuscire ad automatizzare il processo per dare maggiore qualità e
quantità in minor tempo è lo scopo che si sono prefissi i più recenti
studi sull’uso del calcolatore in appoggio alla traduzione. Tali studi
hanno portato alla realizzazione di sistemi di traduzione assistita
2 Introduzione
denominati CAT, Computer Aided Translation, dei quali i sistemi
EBMT, Example Based Machine Translation, sono uno dei più
promettenti sviluppi di tale ricerca.
Un sistema EBMT traduce per analogia, utilizzando traduzioni
precedentemente realizzate per fornire nuovi documenti pretradotti. Il
suo funzionamento quindi è riconducibile ad un processo di creazione
di una memoria di traduzione, Translation Memory, a cui sottoporre,
successivamente, un nuovo testo da tradurre. Il risultato che si ottiene
è un documento pretradotto. Completata poi la traduzione è possibile
arricchire la memoria con le nuove parti tradotte in un ciclo continuo
di accrescimento della memoria stessa.
I più recenti sviluppi in ambito di Information Retrieval hanno
permesso di giungere a tale risultato, di avere cioè sistemi che si
basano su database corredati da algoritmi per la determinazione di
similarità tra frasi..
Modello a tre livelli
La necessità di tradurre testi in quantità e con qualità sempre maggiori
è divenuta oggi tale da richiedere l’utilizzo di sistemi basati su
calcolatore come supporto al processo di traduzione vero e proprio. Se
in un primo tempo era infatti sufficiente disporre di una schiera di
traduttori professionisti, a cui affiancare revisori linguistici, cioè
traduttori con elevata esperienza in grado di verificare e quindi
validare la traduzione fatta da altri, oggi ciò non è più vero; esigenze
come la corretta scelta terminologica, il rispetto delle scelte
stilistiche/linguistiche del documento originale, l'esatta corrispondenza
al formato dei documenti originali hanno portato alla necessità di
introdurre un nuovo livello organizzativo che si inserisce tra cliente e
traduttore ed agisce sia sul testo originale da tradurre (testo source
fornito dal cliente) che sul testo tradotto (testo target ottenuto dal
traduttore). Questo nuovo modello a tre livelli nasce nella seconda
metà degli anni '70 e vede l'introduzione di una struttura organizzata,
intermedia nel processo di traduzione, il cui compito è quello di
sovrintendere al lavoro di traduzione, fornendo, a supporto della
Introduzione 3
traduzione stessa, tutti gli strumenti tecnologici disponibili e le
conoscenze specifiche in ambito informatico-linguistico.
Questa struttura è oggi rappresentata dalla cosiddetta società di servizi
linguistici che, raggruppando conoscenze informatiche, linguistiche e
tecnologiche, può affiancare nel proprio compito il traduttore. Essa è
costituita da tutte quelle attività collaterali al lavoro di traduzione,
quali la corretta ricerca della terminologia da fornire al professionista
prima dell'inizio dell'attività di traduzione (glossari e testi di
riferimento), l'analisi delle problematiche tecnico-informatiche dei
documenti (il problema dei formati dei file in continua evoluzione e
sempre più diversificati), il mantenimento dell'uniformità
terminologica all'interno di un medesimo testo, oltre all'utilizzo di
programmi di supporto alla traduzione.
Figura 1 – Struttura a tre livelli
La traduzione diviene quindi un'attività non più individuale ma un
processo collettivo di un'organizzazione specializzata.
Attività di traduzione: organizzazione specializzata
L'attività di traduzione di oggi può essere descritta tenendo conto dei
vari aspetti che la caratterizzano.
Se si caratterizza semplicemente la traduzione come il processo di
traduzione di un testo, si individuano parametri come la quantità di
testo da tradurre, il tipo di testo (contesto), le lingue coinvolte, la
1.cliente
2.organizzazione
3.traduttore
4 Introduzione
qualità della traduzione (correttezza grammaticale, sintattica e
terminologica).
Se invece ci si focalizza sull'organizzazione del lavoro di traduzione
(secondo livello) si ottengono nuovi parametri come il tipo di lavoro
(analisi formato, contesto, ricerca terminologica, uniformità
terminologica), la dimensione del lavoro (analisi dei volumi) e la
programmazione delle risorse (traduttori coinvolti nel progetto).
Il modello a tre livelli è l'unico in grado ad oggi di garantire tempi di
traduzione e costi da sostenere, sufficientemente bassi e in linea con le
richieste di qualità del mercato. I volumi attuali di traduzione
(normalmente calcolati in righe o cartelle normalizzate) e i relativi
costi sarebbero infatti inaccettabili con un approccio che potremmo
chiamare lineare (un certo numero righe di traduzione è affidato a un
certo numero di professionisti entro un complessivo numero di giorni).
L'unica soluzione attualmente individuabile è quella in cui
un'organizzazione si premura di analizzare un testo da tradurre
fornendo al traduttore tutte quelle informazioni e mezzi con cui
portare a termine il proprio lavoro nel migliore modo e nel minor
tempo possibile.
La traduzione assistita dal calcolatore è quindi approdata nelle società
di servizi linguistici come supporto al lavoro di organizzazione e
miglioramento della qualità della traduzione.
Tali strumenti permettono infatti sia l'analisi del materiale fornito da
tradurre al fine di determinare in breve i tempi e i costi (fase di
preventivazione del lavoro), che la creazione di memorie di traduzione
a partire da materiale inerente l'argomento della traduzione e
precedentemente tradotto, e infine la pretraduzione del nuovo
materiale sfruttando tali memorie. Altri aspetti della traduzione
assistita come la creazione di glossari specifici e l’aggiornamento
delle memorie sono ulteriori compiti della struttura organizzativa.
Scopo di questa tesi è quello di documentare la realtà degli strumenti
di traduzione assistita EBMT attualmente in commercio e diffusi nelle
società di servizi linguistici, le loro caratteristiche e prestazioni,
Introduzione 5
individuando eventualmente quale tipo di approccio tecnologico-
informatico sia alla base di essi.
In particolare verranno analizzati i programmi Trados 5.0.1 e IBM
TranslationManager 2.0.6. Il primo è tra i principali software in uso
nel mercato della traduzione commerciale, mentre il secondo è stato
tra i primi a essere sviluppato partendo da alcuni studi della divisione
tedesca del noto produttore in collaborazione con il partner IBM
Synthema [19].
La maggior parte del materiale analizzato e sintetizzato nella presente
tesi proviene da ricerche eseguite direttamente con i programmi in
questione presso la società Intradoc S.r.l. e da ricerche condotte in
collaborazione con la Dott.ssa Federica Mandreoli e il Dott. Ing.
Riccardo Martoglia dell’Università di Modena e Reggio Emilia.
Per quanto riguarda la struttura della tesi, essa è organizzata nel
seguente modo:
Nel Capitolo 1 vengono descritte quelle che devono essere le
caratteristiche peculiari di un buon sistema CAT. Nel Capitolo 2 sono
analizzati i componenti dei due prodotti presi in esame. Nel Capitolo
3 vengono descritte le principali nozioni di Information Retrieval,
mentre nel Capitolo 4 vengono condotte le esperienze sperimentali al
fine di valutare il funzionamento dei due prodotti. Quindi nel
Capitolo 5 si giunge a illustrare i risultati di tali prove in relazione
all’efficacia e all’efficienza degli stessi. Nel Capitolo 6 si evidenziano
i limiti di tali sistemi, arrivando nel Capitolo 7 a fornire una
panoramica sugli sviluppi futuri della traduzione assistita.
Computer Aided Translation 7
Capitolo 1 Computer Aided Translation
Scopo della traduzione assistita da calcolatore (Computer Aided
Translation - CAT) nel mondo aziendale odierno è quello della
pretraduzione automatica al fine di ridurre i costi e i tempi della
traduzione stessa mantenendo un elevato standard qualitativo sia dal
punto di vista linguistico che di formato. Oltre a questo, lo scopo è
anche quello di fornire al traduttore testi pretradotti corredati da
ulteriori elementi aggiuntivi utili al completamento del proprio
compito.
Il modello a tre livelli precedentemente descritto è l’unico ad oggi a
fornire una soluzione efficace a questa richiesta, in quanto da un lato
fornisce al cliente garanzia di organizzazione del lavoro, tempi certi di
realizzazione a costi preventivati con qualità elevata, e dall’altro è
l'unico in grado di consentire un'approfondita ricerca di conoscenze
specifiche e in particolare informatiche che solitamente non sono alla
portata e competenza di un singolo traduttore.
8 Computer Aided Translation
Un ulteriore motivo all’utilizzo della traduzione assistita è anche
quello di generare glossari bilingue a partire da testi completi allo
scopo di disporre di un riferimento terminologico preciso da utilizzare
anche in occasioni non strettamente legate alla traduzione.
Figura 1.1 - Computer Aided Translation - Programma di traduzione assistita da calcolatore
1.1 Componenti di base e strumenti aggiuntivi
I programmi di traduzione assistita sono normalmente composti da
strumenti atti all'analisi e alla pretraduzione di testi da tradurre da una
lingua sorgente ad una di destinazione. Questi strumenti sono
normalmente racchiusi dentro un'interfaccia grafica principale del
programma da cui è possibile impostare un progetto di traduzione e
accedere ai principali strumenti necessari alla gestione dello stesso.
L'interfaccia principale del programma consente quindi
specificatamente di indicare la posizione dei file da tradurre, la
posizione della memoria da utilizzare, le lingue coinvolte nel progetto,
lo stato di avanzamento del lavoro, il materiale di riferimento inerente
e altre informazioni.
Oltre all'interfaccia principale sono solitamente forniti anche altri
componenti utili alla realizzazione di un progetto di traduzione tra cui
si possono individuare ad esempio: dizionari multilingua, dizionari dei
Programma CAT Traduttore
Glossari, memorie ulteriori di riferimento, altra documentazione
Testo sorgente
Testo tradotto
Pre-tradotto
Computer Aided Translation 9
sinonimi, tool di conversione tra formati, programmi per la creazione
di memorie a partire da testi già tradotti in precedenza.
Oggetto principale di un programma di traduzione assistita è la
cosiddetta Translation Memory (TM) attorno alla quale ruotano tutti i
componenti del programma.
Translation Memory
Il principale componente di un programma di traduzione assistita
(CAT) è la cosiddetta Translation Memory (TM) o banca dati in cui
sono memorizzate le associazioni tra un segmento (o frase) in una
lingua e la sua corrispondente in un'altra lingua. Ogni associazione
rappresenta un record della banca dati comporto da più campi tra cui
anche data di creazione del record, autore, note, ecc.
Tale database costituisce il nucleo attorno a cui lavora il programma
vero e proprio che avrà quindi il compito di analizzare un testo
sottoposto a traduzione ricercando eventuali somiglianze tra una frase
nuova e quelle presenti nel database stesso. Tale approccio alla
traduzione assistita basato su esempi viene denominato EBMT -
Example Based Machine Translation – intendendo con ciò un sistema
per la realizzazione di una traduzione basandosi su precedenti
traduzioni memorizzate in una struttura organizzata [2] [16].
Una più precisa definizione è stata fornita dall'Expert Advisory Group
on Language Engineering Standards (EAGLES) [6]: “a multilingual
text archive containing (segmented, aligned, parsed and classified)
multilingual texts, allowing storage and retrieval of aligned
multilingual text segments against various search conditions” (un
archivio testuale multilingua di testi segmentati, allineati, scomposti e
classificati che consenta l'archiviazione e la ricerca di segmenti di
testo multilingua da tradurre tramite un'interrogazione
parametrizzabile.)
10 Computer Aided Translation
Tool di pretraduzione automatica (batch processing)
Il tool di pretraduzione automatica è quello strumento in grado di
generare un file bilingue sostituendo al testo originale quei segmenti
in lingua trovati in memoria. Il file così ottenuto è poi
successivamente sottoposto a traduzione per completarne il risultato.
La caratteristica di questo strumento di operare su testi anche senza
conoscenze linguistiche specifiche lo rendono utilizzabile da qualsiasi
operatore.
Questo strumento è calibrabile in base ad alcuni parametri come ad
esempio il livello di matching con cui cercare nella Translation
Memory, il grado di segmentazione del testo, le conversioni
automatiche di date, valute e formati numerici, ottenendo così la
possibilità di differenti risultati personalizzabili.
Tool di suggerimento
Il tool di suggerimento è quello strumento di interfaccia utente tramite
il quale il traduttore traducendo un testo riceve parallelamente alla
traduzione individuata nella TM anche alcuni input aggiuntivi
(suggerimenti) che sono contestuali, ad esempio suggerimenti di
termini attinti da glossari settoriali.
Dizionari Multilingua
Un dizionario multilingua è composto tipicamente da uno o più
dizionari bilingua e da un applicativo di ricerca. Questi applicativi
sono normalmente concepiti per lavorare assieme ad un programma di
videoscrittura e qualche volta permettono anche la gestione delle
inflessioni terminologiche (permettono cioè di non dover introdurre la
radice di un termine per cercarne la traduzione ma automaticamente
cercano e suggeriscono i termini più vicini). Questi applicativi
vengono forniti con dizionari settoriali preimpostati, ma modificabili,
e sono caratterizzati dalla possibilità di importazione/esportazione dei
termini stessi.
Computer Aided Translation 11
Si tratta quindi di uno strumento utile sia per il traduttore in fase di
traduzione sia per l'organizzazione che deve fornire al traduttore in
fase di inizio lavoro un dizionario contestuale al documento da
tradurre.
In taluni casi se la struttura organizzativa e il traduttore utilizzano il
medesimo sistema di traduzione assistita, è possibile interscambiare
dizionari in un formato originale senza necessità di esportarli al fine di
mantenere un'uniformità di strumentazione adoperata e consentendo di
arricchire direttamente il dizionario originale.
Dizionari dei Sinonimi
I dizionari dei sinonimi solitamente consistono di due o più dizionari
collegati (cross-reference multilingual thesauri) che permettono
ricerche di sinonimi (e/o contrari) tramite ricerche di concetto e non
solamente di tipo alfabetico. Il fruitore di tale dizionario (corredato da
applicativo di ricerca) può quindi scorrere e ricercare la terminologia
attraverso più lingue individuando le sotto-aree di pertinenza. Non
sono infrequenti informazioni anche di tipo grammaticale, genere,
inflessioni e altro.
I traduttori professionisti potrebbero altresì trovare questi dizionari
troppo limitati e quindi è prevista la possibilità di modifica,
cancellazione, introduzione dei termini stessi. Questi applicativi
inoltre forniscono la possibilità di riordinare i dati stessi in base a
criteri che vanno al di là della semplice relazione di sinonimia, ad
esempio: per associazioni, per contrari (antinomia), per sottoparti, per
declinazione. A questo proposito si veda §2.1.1.5 "MultiTerm" a
pagina 7.
Tool di conversione formati
Oggi i documenti da tradurre sono nei formati più disparati (Quark
Xpress, Adobe PageMaker, Adobe FrameMaker, Word XP, Word
2000, Word 97, ecc.) e devono essere tradotti da professionisti che
non sempre dispongono di tali software; sono quindi necessari
strumenti che consentano la trasformazione di un documento da un
12 Computer Aided Translation
formato ad un altro e viceversa al fine di garantire un processo di
traduzione semplificato e il rispetto/mantenimento dell'aspetto del
documento originale.
I tool di conversione permettono quindi di convertire in formati di
interscambio (Interchange Format File) come l'RTF (Rich Text File) o
il MIF (Meta Interchange Format) i documenti originali e di
mantenere con opportuni codici (tags) le formattazioni del testo stesso
(grassetti, dimensioni caratteri, posizione del testo e delle figure nella
pagina) al fine di permettere una corretta contro-conversione nel
formato originale.
Solitamente questo tool è di ausilio a chi si occupa di organizzare il
lavoro di traduzione e permetterà al traduttore di manipolare
documenti senza preoccuparsi del formato originale e senza necessità
di disporre di applicativi dedicati. Inoltre il traduttore potrà continuare
ad utilizzare il programma di videoscrittura a cui è maggiormente
abituato senza dover apprendere nuovi strumenti.
Tale processo di conversione è quindi una normalizzazione del testo
che lo rende di fatto indipendente dal formato originale. Tale
strumento permette inoltre un mantenimento dell'investimento
economico effettuato per l'acquisto del programma, grazie alla
possibilità di gestire nuovi formati tramite moduli aggiuntivi plug-in
da implementare nel programma stesso.
Nella figura seguente si vede un testo esportato dal formato
FrameMaker in formato RTF. Esso è corredato da codice di controllo
di colore grigio e rosso contenente quelle informazioni aggiuntive non
propriamente attinenti il lavoro vero e proprio del traduttore ma
necessarie per la sua corretta contro-conversione nel formato
originale.
Computer Aided Translation 13
Figura 1.2 - Esempio di file in formato FrameMaker trasformato in formato RTF (traduzione manualistica Panasonic dal giapponese)
Tool di creazione di nuove memorie
Nell'ottica di recuperare materiale precedentemente tradotto viene
fornito uno strumento per l'allineamento di testi sorgenti e testi tradotti
allo scopo di creare nuove memorie. Queste memorie saranno alla
base della pretraduzione di nuovi testi. E’ pertanto di fondamentale
importanza che questo strumento sia in grado di realizzare
velocemente ed efficacemente tali nuove memorie.
Questo strumento, normalmente dotato di interfaccia grafica
complessa, si compone di un primo modulo in grado di scomporre in
segmenti il testo sorgente e quello tradotto per poi, in una seconda
fase, consentire all'utente di verificare, ed eventualmente correggere,
l'allineamento segmento-segmento suggerito.
Al termine di questa operazione di allineamento, viene creata una
memoria catalogabile secondo vari parametri come il nome del
creatore, la data di creazione, il materiale su cui si basa e le lingue
presenti (vedi Figura 1.3).
14 Computer Aided Translation
Figura 1.3 - Computer Aided Translation - Allineamento segmenti e creazione di una nuova memoria
1.2 Caratteristiche ideali di un sistema di traduzione assistita
Al fine di poter analizzare un sistema di traduzione assistita presente
sul mercato è necessario compiere prima una analisi dei requisiti che
un applicativo del genere dovrebbe possedere. Sulla base di queste
caratteristiche sarà possibile comprendere meglio le caratteristiche dei
prodotti in commercio e i parametri con cui valutarne l’efficacia.
Ricordando che una sistema basato su Translation Memory è una sorta
di archivio multilingua contenente del testo segmentato, allineato e
classificato, sarà quindi possibile sottoporre al sistema materiale
testuale al fine di ottenere in output un dato qualificativo indicante la
presenza o meno nell’archivio dello stesso testo o di testo simile ad
esso. Tale valutazione di similitudine ovviamente dovrà essere
limitata al solo testo e sarà corredato da un valore compreso tra 0 e 1
che ne indica il grado di similitudine.
Alcuni software di traduzione assistita cercano e segnalano solo
stringhe perfettamente identiche a quelle presenti in memoria, altri
invece compiono una ricerca di tipo approssimata (fuzzy), suggerendo
frasi simili a meno di un valore percentuale che faccia da
TM
Computer Aided Translation 15
discriminante per il traduttore. In questo secondo caso l’applicativo
che compone il sistema di traduzione assistita, segnala puntualmente
con opportuni parametri, flag o colori le eventuali differenze.
Le segnalazioni sono tanto più accurate quanto più l’applicativo è
basato su un algoritmo complesso per l’individuazione di queste
somiglianze.
I migliori applicativi segnalano inoltre anche le eventuali ripetizioni
presenti nel testo al fine di minimizzare task ripetitivi di traduzione.
Considerando quindi le sopracitate necessità di ricerca ed indicazione
del livello di attinenza con i dati presenti in una memoria si evince che
un applicativo per la traduzione assistita è un sistema basato su un
sistema di tipo query / database.
Infine le caratteristiche di un sistema di traduzione assistita
suddividono lo stesso in differenti componenti: componenti Off-line,
intendendo la capacità del sistema di pre-analizzare un testo ancora da
sottoporre a traduzione; componenti On-line in grado di accompagnare
l’opera di traduzione vera e propria.
1.2.1 Componenti Off-line
1.2.1.1 Analisi del testo da tradurre
L’analisi delle caratteristiche Off-line parte dalla necessità di
segmentazione sia del testo sorgente che di quello di destinazione.
Tale scomposizione è necessaria da un lato per creare memorie di testi
già tradotti associando segmenti nelle due lingue, dall’altro per
consentire la ricerca di un segmento nuovo in una memoria esistente.
Segmentazione
Lo scopo della segmentazione è quello di individuare le unità di testo
da tradurre che abbiano una specificità, indipendenza e completezza a
prescindere dal testo che precede e segue. Intuitivamente la
scomposizione di un testo in segmenti può essere effettuata
considerando i segni di punteggiatura e gli eventuali codici aggiuntivi
o caratteri speciali, come elementi separatori.
16 Computer Aided Translation
Il riconoscimento della punteggiatura richiede ovviamente una
conoscenza da parte del sistema dell’ortografia e delle convenzioni
grammaticali della lingua, ad esempio per distinguere il normale punto
alla fine di una frase da un punto presente alla fine di una
abbreviazione o sigla.
Inoltre eventuali presenze di codici aggiuntivi propri del testo devono
essere individuati dal sistema e debitamente ignorati e/o utilizzati per
la corretta scomposizione del testo.
Si veda a questo proposito l'esempio seguente: una lista di ricambi
composta da codici alfanumerici di matricola seguiti dopo un segno
distintivo da brevi testi descrittivi, in tale caso il discriminante è
proprio il segno distintivo.
…
ALFA001 *** Transistor¶
BETA002 *** Triodo¶
GAMMA003 *** Diodo¶
… Figura 1.4 - Esempio di segmentazione del testo
Nell'esempio sopra riportato il sistema deve essere in grado di
individuare il simbolo "***" come elemento separatore tra i codici
sulla sinistra (da non tradurre) e i termini sulla destra da tradurre.
Ovviamente oltre a tale segno, il sistema deve riconoscere anche
l'andata a capo (¶) come ulteriore elemento distintivo. Anche altri
elementi come ad esempio nomi propri, numeri, date, valute, figure
possono essere considerati codici aggiuntivi utili alla scomposizione
del testo.
La segmentazione porta quindi alla scomposizione di un testo in
elementi di base che successivamente verranno o analizzati
ricercandoli nella memoria o allineati con altri segmenti in un’altra
lingua al fine di creare una nuova memoria.
Computer Aided Translation 17
I segmenti individuati da un processo di scomposizione non dovranno
essere troppo piccoli (necessità di avere un senso compiuto) al fine di
non arrivare all'assurda traduzione “parola per parola”; a questo
proposito si ricorda la presenza in commercio di programmi di
traduzione elementare i cui suggerimenti sono solo applicazione di
“filtri” di traduzione parola per parola con risultati spesso scarsi o
addirittura errati. La dimensione ottimale varia ovviamente in
funzione del tipo di testo che si traduce. Da un lato la traduzione di un
nuovo testo utilizzando una memoria basata su una segmentazione
troppo stretta potrebbe fornire una larga percentuale di uguaglianze
non riutilizzabili in un contesto che deve essere completo e omogeneo,
dall’altro la traduzione di un testo segmentato strettamente confrontato
con memorie dai segmenti più grandi potrebbe avere poche
segnalazioni di similitudine.
Altri tipi di segmentazione
Un altro tipo di segmentazione è quella linguistica:
- la lemmatizzazione (lemming) o stemming è la riduzione di un
termine al suo elemento primitivo, alla radice; ed è utilizzata per la
preparazione di una lista di parole chiave ad esempio per
successive ricerche in banche dati di tipo differente.
- la scomposizione sintattica è utile per individuare quelle sottoparti
di un segmento che possono essere considerate come indipendenti
e significative. Lo scopo è quello di permettere il riutilizzo della
loro traduzione in altre parti del documento stesso (concetto di
“molecola-poche parole” rispetto al concetto “atomo-parola”)
Allineamento
Per allineamento si intende l'individuazione delle corrispondenze tra
testo (sorgente/traduzione). La segmentazione fornisce
all’allineamento quella scomposizione in unità la cui corrispondenza
permette di ottenere i migliori risultati nella fase successiva di ricerca
nella Translation Memory.
18 Computer Aided Translation
In generale una differente punteggiatura nel testo tradotto può
ingenerare una difficoltà aggiuntiva in fase di allineamento (i migliori
applicativi permettono l’individuazione e correzione di tali regole di
scomposizione).
Estrazione delle parole chiave
Un ulteriore strumento è quello dell’analisi statistica delle parole
presenti nel testo di un documento da tradurre al fine di individuare
quei termini che si ripetono molte volte. Questo allo scopo di
individuare quelle parole chiave da sottoporre ad ulteriore (e separata)
analisi. Si veda §2.1.1.4 "Trados-ExtraTerm" a pagina 7.
Statistiche del testo
Alla necessità di valutare il volume di un nuovo lavoro di traduzione,
risponde quell’applicativo capace di fornire numericamente
indicazioni sulla quantità di parole, segmenti, ripetizioni presenti nel
testo sorgente al fine, ad esempio, di permettere una valutazione
tempi/costi di una traduzione che ci si appresta ad iniziare.
1.2.1.2 Importazione dati nella TM
L’importazione dei dati allineati in una TM consiste nell’introduzione
automatica di segmenti nella lingua sorgente e i corrispondenti
segmenti nella lingua di destinazione.
L’importazione può avvenire da un formato grezzo o da uno nativo.
Il cosiddetto formato grezzo è qualsiasi formato in cui il testo sorgente
e quello di destinazione sono formattati eccetto il formato nativo della
TM stessa.
In altre parole testi in formato ASCII, ANSI, o di un qualsiasi
programma di videoscrittura sono considerati come testo grezzo da
segmentare ed allineare.
Il formato nativo invece consiste nell’avere il testo sorgente e quello
di destinazione nel formato proprio della Translation Memory. Tale
formato conterrà già informazioni come segmentazione e
allineamento.
Computer Aided Translation 19
1.2.1.3 Esportazione dati dalla TM
Per esportazione si intende il processo di trasferimento di testo dalla
TM in un file esterno di testo. Lo scopo è quello di permettere la
successiva importazione da parte del traduttore in un eventualmente
differente sistema di traduzione assistita.
1.2.1.4 Altre funzioni Off-line
Altre funzioni off-line possono essere:
- Merging (Join)
- Filtering
- Inversione
- Composizione
Le TM sono dei database in cui il merging altro non è che il join tra
tabelle. Un record in una tabella corrisponde ad un segmento assieme
alla sua traduzione e ad altre informazioni aggiuntive. Un join è basata
sulla uguaglianza perfetta o di tipo approssimato tra uno o più campi.
Il merging può essere usato in congiunzione con il filtering. Per
filtering infatti si intende la possibilità di esportare (filtrare) da un
testo sottoposto a traduzione solo quei segmenti che non sono presenti
in memoria, al fine ad esempio di sottoporre tali segmenti non tradotti
ad altre analisi con altre TM.
Per inversione si intende invece la capacità di rovesciare il “verso”
della traduzione (scambio tra lingua sorgente e lingua destinazione nel
database).
Per composizione (sorta di proprietà transitiva delle memorie) si
intende la capacità di avere una traduzione in una terza lingua a partire
da memorie tra una prima lingua e una seconda e tra questa seconda e
la terza in questione.
20 Computer Aided Translation
1.2.2 Componenti On-line
In fase di traduzione un sistema di traduzione assistita deve fornire, a
partire dai dati presenti nella TM, suggerimenti su come tradurre un
determinato segmento di testo. Tale segnalazione deve essere
corredata da varie informazioni aggiuntive:
- diverse alternative di traduzione se in memoria sono presenti varie
frasi simili o uguali;
- indicazione del livello di somiglianza tra la frase da tradurre e
quella presente in memoria;
- indicazione delle parole differenti (colorandole ad esempio).
La stessa interfaccia utente deve supportare alcune funzionalità
specifiche:
- esportazione del nuovo segmento;
- possibilità di modificare la traduzione presente in memoria
(eventuali correzioni in memoria);
- possibilità di variare i parametri al fine di ottenere differenti
risposte dalla TM (ad esempio ignorare le date, i numeri, i codici, i
nomi propri, ecc.).
1.2.2.1 Ricerca
Si consideri la TM come un database e la frase/segmento sorgente
come quell’unità da cercare tramite query; si possono così ottenere
due tipi di risultati che sono alla base della ricerca.
Exact match
Per Exact match si intende la perfetta uguaglianza carattere per
carattere tra il testo sorgente da tradurre e il testo sorgente presente in
memoria.
Approximate match
Una uguaglianza di tipo approximate (fuzzy) è la somiglianza tra
segmenti a meno di alcune differenze. Solitamente gli applicativi
Computer Aided Translation 21
assegnano valori di verosimiglianza. La misurazione della distanza
(Edit distance [8]) tra le parole è uno dei metodi usati per valutare tale
verosimiglianza.
Si tenga conto che il peso assegnato alle differenze varia da
programma a programma, ma deve essere in parte parametrizzabile
dall’utente. Ad esempio la presenza di codici, date, ecc. e dei rispettivi
pesi di traduzione devono essere calibrabili.
1.2.2.2 Aggiornamento e Networking
In fase di traduzione una frase tradotta deve essere immediatamente
inserita nella TM al fine di fornirla come suggerimento all’utente
qualora si ripresentasse all’interno del testo.
Inoltre in caso di memorie centralizzate deve essere possibile accedere
ad esse da parte di più utenti contemporaneamente. Si noti come in
caso di memoria condivisa l’inserimento di una traduzione errata può
ripercuotersi su altre traduzioni, nasce quindi la necessità della
definizione del livello degli utenti (account) in relazione alla memoria,
potendo così valutare il suggerimento in relazione al livello degli
utenti quali “traduttori”, “revisori di lingua”, "correttori di bozze", ecc.
Programmi in commercio 23
Capitolo 2 Programmi in commercio
Nel presente capitolo si vogliono individuare i principali e
maggiormente diffusi programmi commerciali.
I programmi sottoposti ad analisi sono Trados nella versione 5.0.1 e
IBM TranslationManager nella versione 2.6.0.
24 Programmi in commercio
2.1 TRADOS
Figura 2.1- Trados 5
Trados è una suite composta da più programmi atti a consentire la
traduzione di un testo. L’approccio al sistema è estremamente curato
nell’interfaccia grafica e nelle possibilità di forte personalizzazione
consentite all’utente.
2.1.1 Componenti e loro caratteristiche
I componenti principali di Trados sono WorkSpace, WorkBench,
WinAlign, ExtraTerm, MultiTerm. In particolare tali componenti
servono per eseguire differenti task legati alla traduzione assistita in
relazione anche a differenti scenari possibili di traduzione.
L'operatività del sistema potrebbe essere quindi così descritta:
- creazione di memorie a partire da traduzioni precedentemente
svolte: usando WinAlign per l'allineamento delle stringhe e
WorkBench per la creazione della TM vera e propria si realizzano
memorie da utilizzare per successive traduzioni;
- creazione di nuovi progetti di traduzione in ambiente integrato
tramite WorkSpace, riunendo file da tradurre, memorie da
utilizzare, glossari consultabili;
Programmi in commercio 25
- creazione di glossari di traduzione esportando le parole chiave da
testi da tradurre tramite ExtraTerm, consultabili tramite
MultiTerm.
2.1.1.1 WorkSpace
WorkSpace è una shell integrata tramite la quale impostare interi
progetti di traduzione in varie lingue indicando ad esempio le cartelle
interessate al progetto, i dizionari associati, le memorie di traduzione
da utilizzare e aggiornare, oltre a permettere la centralizzazione dei
più comuni compiti di traduzione quali analizzare preventivamente il
materiale da tradurre (al fine di un preventivo) e arricchire la memoria
di traduzione al rientro di un file tradotto (Figura 2.2).
Figura 2.2 - Trados WorkSpace
2.1.1.2 WorkBench
WorkBench è l’interfaccia che si integra con il programma di Word
Processing adottato per l’editing del testo da tradurre. Prima della
creazione della versione 5, Trados non disponeva della scrivania
26 Programmi in commercio
virtuale WorkSpace ed era WorkBench stesso a fungere da strumento
principale per il traduttore. Ancora oggi si tende ad identificare Trados
con lo strumento WorkBench, in quanto risultava l’interfaccia tipica
per l’utente, negando di fatto l’esistenza di altri tool.
WorkBench consente il suggerimento on-line in fase di traduzione di
segmenti disponibili in memoria a meno di un valore percentuale di
similitudine (100% o approximate match); consente inoltre la
manutenzione e creazione di memorie a partire da file allineati
(realizzati precedentemente con WinAlign).
Figura 2.3 - Trados WorkBench
Qui di seguito (Figura 2.4) l'interfaccia di importazione e creazione
memoria a partire da file allineati in precedenza con WinAlign:
Figura 2.4 - Trados WorkBench - Importazione dati per creazione memoria
Tramite tale schermata è possibile indicare se si tratta di importazioni
minori (senza rigenerazione dell’indice della banca dati) o di
importazioni massive (Import Mode), oltre a permettere l’eventuale
aggiornamento di testo già presente in memoria fornendo nuove
possibili traduzioni dello stesso (Existing Translation Units).
Programmi in commercio 27
In fase di traduzione il programma è integrato direttamente
all’ambiente scelto per la traduzione del testo, tramite pulsanti
aggiunti alla toolbar del Word Processor. Tali pulsanti consentono di
interrogare il database, di sostituire il testo sorgente con quello
tradotto e di aggiornare in tempo reale la memoria (Figura 2.5).
Figura 2.5 - Integrazione Trados - WordProcessor
2.1.1.3 WinAlign
WinAlign è lo strumento per l'allineamento di coppie di file in lingue
differenti. Tale allineamento ha lo scopo di generare un file di
interscambio successivamente importabile in WorkBench.
Il programma permette l’individuazione di quali file allineare, il
formato degli stessi e le lingue di origine e destinazione (Figura 2.6).
28 Programmi in commercio
Figura 2.6 - Impostazione del progetto
Figura 2.7 - Associazione file sorgente, file tradotto
E' ovviamente possibile impostare interi gruppi di file che
compongono progetti complessi.
Dopo questa prima fase di impostazione dei parametri, il programma
compie una fase di pre-analisi/segmentazione (Figura 2.8). Durante
questa fase il programma scompone i file in lingua sorgente e in
lingua destinazione in segmenti che nella fase successiva saranno
proposti per l’allineamento vero e proprio.
Programmi in commercio 29
Figura 2.8 - Pre-allineamento batch
Al termine si procede alla verifica dell'allineamento suggerito dal
programma tramite un’interfaccia grafica a due colonne in cui sono
affiancate le due lingue e i segmenti in cui sono state scomposte.
L'operatore/utente può quindi intervenire a vari livelli correggendo
eventuali segmenti allineati in maniera errata (Figura 2.9).
Figura 2.9 - Allineamento segmento-segmento
30 Programmi in commercio
Durante questa fase è consentito di disallineare interi blocchi di
segmenti e di sospendere il lavoro per recuperarlo in un secondo
momento. Particolarmente interessante è la funzione che consente di
poter modificare il testo di singoli segmenti per correggere eventuali
errori di ortografia.
Al termine della fase di verifica dell'allineamento si procede con
l'esportazione in un file .TXT per permettere il successivo inserimento
nella TM.
Data la particolare importanza della fase di segmentazione del testo è
stata inserita la possibilità di impostare alcuni parametri del
programma stesso per consentire una calibrazione in base alle proprie
esigenze specifiche. In un pannello del programma stesso è infatti
possibile impostare, prima di eseguire la pre-analisi/segmentazione del
testo, parametri come le regole di segmentazione da adottare
(Segmentation Rules - Figura 2.10).
Figura 2.10 - Parametrizzazioni di WinAlign
Programmi in commercio 31
Si noti come il programma abbia preimpostate alcune regole di
segmentazione basate sul punto (Full Stop), sui segni di tabulazione
(Tabulator), sui punto e virgola (Colon), su marcatori personalizzabili
(Marks) e su segni di fine paragrafo (End of Paragraph), mentre non
prevede una segmentazione basata sulla regola della scomposizione in
base alla presenza di virgole nel testo ("comma"). Questa opzione è
però facilmente implementabile in quanto il programma consente
l’introduzione di nuove regole di segmentazione.
2.1.1.4 ExtraTerm
ExtraTerm è lo strumento di estrazione di parole chiave per la
realizzazione di glossari (Figura 2.11). Il programma è
parametrizzabile in funzione del tipo di glossario che si desidera
ottenere. Ad esempio è possibile stabilire che il glossario deve
contenere singole parole o insiemi di parole composte da un certo
numero di termini (Figura 2.12).
Figura 2.11 - Analisi in ExtraTerm
32 Programmi in commercio
Figura 2.12 - Lista termini esportabili
2.1.1.5 MultiTerm
MultiTerm è l’interfaccia integrata nel programma di Word
Processing per la ricerca in tempo reale di singoli termini durante la
fase di traduzione.
Figura 2.13 - Interfaccia MultiTerm
Programmi in commercio 33
2.1.2 Ulteriori caratteristiche
Lo strumento WorkBench consente la pretraduzione automatica di
tipo batch di un documento indicando un livello minimo di
verosimiglianza da applicare. E’ cioè consentito di ottenere in maniera
semiautomatica un documento pretradotto in cui le frasi uguali a
quelle in memoria sono sostituite con quelle nella lingua di
destinazione. Il testo così ottenuto sarà composto da frasi ancora nella
lingua sorgente e frasi nella lingua destinazione.
La particolarità di questo strumento è la possibilità di discriminare la
soglia di verosimiglianza. In altre parole è consentito impostare a
livelli inferiori il 100% il parametro con cui il programma sostituisce
le frasi quasi uguali (Approximate match).
Ad esempio è possibile pretradurre un documento indicando che
segmenti nella lingua sorgente uguali solo al 97% a segmenti presenti
in memoria siano trattati alla stregua di Exact match (Figura 2.14).
Questo genere di approccio è ovviamente estremamente delicato in
quanto si presuppone la certezza da parte dell’operatore di essere di
fronte a casi in cui la verosimiglianza al 97% sia effettivamente una
verosimiglianza assoluta.
Questo genere di azione è consigliabile solo dopo alcune prove e in
casi particolari in cui, ad esempio, i codici di controllo, e non il testo
vero e proprio, differiscono da quelli in memoria ed è comunque
prevista una successiva verifica degli stessi.
Programmi in commercio 35
2.2 IBM TRANSLATION MANAGER
Figura 2.15 - IBM TranslationManager
IBM TranslationManager è un programma incentrato su una scrivania
virtuale di lavoro, unica e centralizzata, e da uno strumento aggiuntivo
per la creazione di memorie.
2.2.1 Componenti
Il programma è costituito da due applicativi ciascuno specifico per un
determinato compito. La shell principale di sistema
TranslationManager consente di cui creare progetti, importare file,
associare memorie a progetti, consultare memorie, ecc. Il secondo
applicativo si chiama Initial Translation Memory Tool e serve per la
creazione di memorie permettendo l'allineamento di file
scomponendoli in singole sentence.
2.2.2 Caratteristiche
La scrivania virtuale TranslationManager contiene una serie di finestre
ciascuna atta ad uno scopo diverso. Una prima finestra contiene ad
36 Programmi in commercio
esempio la lista delle cartelle progetto in cui è possibile importare e
impostare i formati dei file o aprire i file da pretradurre e completare.
Altri strumenti/finestre presenti sono la cartella delle memorie
consultabili e la cartella degli eventuali dizionari settoriali (Figura
2.16).
Figura 2.16 - Interfaccia principale IBM TranslationManager
Programmi in commercio 37
L'Initial Translation Memory Tool (Figura 2.17) si presenta invece
con una interfaccia articolata in cui individuare i file da allineare allo
scopo di permetterne la scomposizione e successiva realizzazione di
una nuova memoria.
Figura 2.17 - Initial Translation Memory Tool
Figura 2.18 – Allineamento con l'Initial Translation Memory Tool
Dopo la prima fase di segmentazione e allineamento dei due testi
(Figura 2.18), il programma presenta un'interfaccia a due colonne in
cui vengono visualizzati i due testi di cui verificarne l’allineamento
(Figura 2.19).
38 Programmi in commercio
Figura 2.19 – Initial Translation Memory Tool - Allineamento segmenti
Particolarità di questo approccio è l'arricchimento della memoria in
tempo reale; mentre infatti si procede con la conferma delle singole
frasi, la memoria viene aggiornata ed è subito utilizzabile da un altro
eventuale utente. Ovviamente il lavoro di conferma di allineamento
può essere sospeso, consentendo di rimandare particolare decisioni e
non introdurre in memoria dati inesatti.
Al termine della fase di allineamento dei due testi si conferma la
creazione della memoria completando il processo (Figura 2.20).
Figura 2.20 - Conferma allineamento
Programmi in commercio 39
Questa interfaccia a differenza del precedente Trados si presenta
estremamente scarna. In particolare risulta scomoda e poco intuitiva
per il neofita a causa dell’assenza di icone e menu personalizzabili. E’
quindi possibile, solo dopo molta pratica, apprendere i numerosi
comandi abbreviati da tastiera. Ciò è prevalentemente dovuto
all'origine del programma in ambiente Unix testuale in cui era stato
sviluppato e a cui i progettisti non hanno rinunciato nel porting in
ambiente Windows.
2.2.3 Ulteriori caratteristiche
Come nel caso del precedente programma analizzato, si vuole ora
valutare la differente tecnica di approccio alla traduzione del sistema
IBM. I tipi di analisi dei file da tradurre è anche in questo caso
distinguibile in analisi di tipo batch e analisi di tipo On-line.
Analisi di tipo batch
Figura 2.21 - Analisi batch in IBM TranslationManager
40 Programmi in commercio
Partendo dalla scrivania del sistema è possibile aprire e analizzare un
file singolo di un progetto impostato. Tale tipo di analisi prevede solo
pochi settaggi possibili per la pretraduzione automatica di un file.
Una caratteristica principale è che questo tipo di approccio può essere
definito di tipo assoluto, in quanto le frasi eventualmente uguali
(Exact match) vengono sostituite senza lasciare traccia nel documento
originale, perdendo quindi il vantaggio di un eventuale suggerimento
al traduttore. Non è inoltre possibile indicare un eventuale livello
minimo di verosimiglianza da utilizzare come soglia per ottenere un
documento pretradotto in cui anche le frasi simili a meno di un certo
valore percentuale siano automaticamente sostituite come fossero
esattamente uguali. Per questo motivo è preferibile fornire al
traduttore sia il file originale che la memoria, al fine di permettergli
una traduzione on-line che consenta in tempo reale la consultazione
delle frasi suggerite dalla memoria. Questo processo però genera nel
traduttore la necessità di tradurre o meglio confermare anche quelle
frasi che sono in realtà già rilevate dal sistema come uguali al solo
fine di permettere al traduttore di venirne a conoscenza
In conclusione questo approccio è sicuramente meno funzionale del
cosiddetto approccio a due vie consentito da altri programmi, tra cui
Trados, in cui è possibile ottenere un file di testo pretradotto in
maniera batch in cui sono affiancati sia il testo sorgente che la
traduzione corrispondente a meno un valore di verosimiglianza
indicato. L’approccio consentito da IBM TranslationManager inoltre
rende necessario disporre del programma stesso da parte del
traduttore.
Programmi in commercio 41
Analisi On-line
Figura 2.22 - Analisi batch in IBM TranslationManager
L'analisi on-line in questo caso avviene in un ambiente grafico che
non è il classico wordprocessor a cui il traduttore è abituato, bensì di
un ambiente a finestre in cui è possibile vedere: il testo nuovo da
tradurre, i segmenti trovati simili in memoria e i segmenti originali da
cui queste traduzioni sono scaturite.
Tale ambiente si occupa quindi delle eventuali conversioni da un
formato nativo (RTF, ANSI, altri) in questo documento di tipo
testuale, perdendo l'immediatezza d'uso. Per questo motivo il
traduttore dovrà quindi utilizzare una serie di comandi direttamente
dai menu a tendina o le combinazioni di tasti di questa particolare
interfaccia.
Il programma prevede la possibilità di nascondere eventuali tags al
fine di permettere una traduzione più agevole al traduttore che però
può in qualsiasi momento vedere (senza modificare) questi codici di
controllo. L'esempio riportato in figura essendo basato su file di testo
ANSI non presenta questi codici di controllo.
Valutazione di un programma CAT 43
Capitolo 3 Valutazione di un programma CAT
In questo capitolo si intende fornire una panoramica degli approcci
possibili per la valutazione di un programma CAT.
3.1 Efficacia - Concetto di Precision e Recall
La determinazione di uno strumento di misura valido per la
determinazione dell’efficacia di un programma CAT deve ovviamente
rifarsi agli stessi strumenti forniti dalla letteratura sull’Information
Retrieval per la misurazione di una query SQL e dei risultati forniti.
Information Retrieval
La nascita del problema del recupero di informazioni da una raccolta
di testi è databile per lo meno al terzo secolo avanti Cristo, quando
iniziarono ad apparire biblioteche con centinaia di migliaia di
documenti; tuttavia è solo recentemente, con l’avvento degli strumenti
44 Valutazione di un programma CAT
informatici, che l’Information Retrieval ha subito una "spinta
evolutiva" ed ha assunto consistenza dal punto di vista teorico.
Per Information Retrieval si intende "classicamente" quell’insieme di
tecniche che consentono un accesso mirato ed efficiente a grandi
raccolte di oggetti contenenti principalmente testo (ad esempio, il
recupero, in una biblioteca, di tutti i libri inerenti l’argomento
"Information Retrieval"). Attualmente l’Information Retrieval
riguarda tecniche applicabili in modo algoritmico da "macchine"
(calcolatori) in grado di accedere agli oggetti di una raccolta. Ogni
oggetto è riassunto nei suoi attributi da "descrittori", che tipicamente
consistono in un testo. Queste descrizioni possono anche includere
descrittori assegnati dal creatore (autore) dell’oggetto o da un qualche
indicizzatore (un uomo o una "macchina") o utilizzati per descrivere
eventuali relazioni con altri oggetti nella raccolta.
Quello che rende un sistema del genere un Retrieval System è la
capacità di descrivere e tentare di soddisfare un fabbisogno informativo (f.i.), cioè un interesse specifico, dell’utente. Le
caratteristiche del f.i. sono descritte in query. Una query è espressa
tipicamente in linguaggio naturale, ma sono possibili anche altre
forme, come l’uso di espressioni booleane o di esempi di documenti.
Dando per scontato che l’utente sia in grado di formalizzare delle
query corrette e coerenti con il proprio f.i., egli dovrebbe essere in
grado di constatare, effettuata una ricerca, se gli oggetti recuperati
dalla "macchina" rientrano o meno nel suo interesse. Questa centralità
dell’utente nella valutazione del processo di retrieval è una
caratteristica importante dell’Information Retrieval tradizionale e
svincola in qualche modo il problema da quello attinente
l’interpretazione del testo.
Sintetizzando, il processo di retrieval può essere visto come una serie
di passi:
1. si genera una rappresentazione del significato o del
contenuto di ogni oggetto, basata sulla sua descrizione,
Valutazione di un programma CAT 45
2. si genera una rappresentazione del significato del
fabbisogno informativo,
3. si confrontano le due rappresentazioni e si scelgono quegli
oggetti che sembrano attenersi maggiormente al f.i.
Figura 3.1 – Processo di Retrieval
Risulta evidente allora come il problema sia quello di cercare delle
buone rappresentazioni del documento e del f.i., e di come poter
paragonare queste rappresentazioni.
Come valutare un meccanismo di ricerca
Compito dell’Information Retrieval (IR) è quello di memorizzare,
rappresentare ed estrarre da una raccolta di documenti la più grande
quantità di informazioni su un dato argomento e null’altro [5][18]. E’
necessario specificare che per documenti si intende ovviamente un
insieme omogeneo di dati che può quindi essere diversamente
costituito rispetto agli storici insiemi di testi quali si è solito fare
riferimento pensando a banche dati.
Se il reperimento di informazioni è l’aspetto su cui si incentra
maggiormente questa Tesi, allora l’aspetto da approfondire di un
Sistema IR è l’efficacia con cui esso è in grado reperire in una
collezione di documenti proprio i documenti ricercati, cioè la sua
capacità di fornire tutte le informazioni rilevanti presenti in una
collezione. La determinazione della rilevanza di un risultato fornito
dal Sistema IR è ovviamente soggettiva in quanto a medesimi risultati
Processo di Retrieval
46 Valutazione di un programma CAT
forniti da una stessa ricerca, utenti diversi potrebbero assegnare
giudizi diversi, cioè interpretare diversamente il risultato fornito. Tutto
dipende dalle conoscenze a priori che si hanno sull’argomento
ricercato. In particolare è necessario osservare come, in relazione ad
una data ricerca, vi sono dati restituiti rilevanti e dati restituiti non
rilevanti. I risultati ottenuti dalla ricerca potranno quindi essere
suddivisi nei seguenti quattro casi:
- rilevanti e reperiti, cioè corretti;
- rilevanti e non reperiti, cioè omessi;
- non rilevanti e reperiti, cioè inesatti;
- non rilevanti e non reperiti, cioè da omettere;
Rilevanti REL
Non rilevanti NREL
Documenti reperiti
RET
Corretti Inesatti
Documenti non reperiti NRET
Omessi Da omettere
Figura 3.2 – Possibili risultati di una ricerca in una collezione
Scopo di un Sistema IR è quello di massimizzare i documenti rilevanti
e reperiti (RET&REL) e minimizzare il “rumore” costituito dai
RET&REL
RET&NREL NRET&REL
NRET&NREL
reperiti non reperiti
rilevanti non rilevanti
Valutazione di un programma CAT 47
documenti reperiti e non rilevanti. I documenti rilevanti e non reperiti
(NRET&REL) sono invece i risultati omessi dal sistema e quindi sono
da minimizzare ugualmente.
I parametri adottati a livello internazionale per misurare l’efficacia di
un Sistema IR sono i fattori recall (richiamo, ricordo) e precision
(precisione).
Il fattore recall viene calcolato sui documenti rilevanti reperiti, e ne
misura la percentuale rispetto al totale contenuto nella collezione,
mentre il fattore precision invece riguarda i documenti reperiti dalla
ricerca e rappresenta la percentuale di documenti rilevanti.
recall = REL
RELRET & precision = RET
RELRET &
Ovviamente il fattore recall presuppone di conoscere quanti sono i
documenti rilevanti in tutta la collezione (deus ex-machina), mentre il
fattore precision è calcolabile a partire dal risultato ottenuto.
In genere aumentando il fattore recall, diminuisce il fattore precision e
viceversa.
Figura 3.3 – Curva precision e recall
Un buon modello di ricerca sarà allora quello in grado di
massimizzare i fattori di recall e precision, quindi di minimizzare
rispettivamente il silenzio cioè l’assenza di informazione
(informazione omessa) e il rumore cioè il deterioramento
dell’informazione (informazione inesatta).
precision
recall
1
0 1
48 Valutazione di un programma CAT
Esempio
Ad esempio se disponiamo di una raccolta di 10 documenti, di cui 4
hanno per argomento le torte di mele, mentre gli altri 6 contengono
ricette per cucinare il pesce. Effettuando una ricerca sulle torte, il
processo di retrieval restituisce 5 documenti, di cui 3 riguardano le
torte di mele mentre gli altri 2 la cottura della trota. Si avrà una
precision pari a 3/5 cioè 60%, mentre la recall sarà pari a 3/4 cioè
75%.
Figura 3.4 – Precision e recall - Esempio
3.2 I principali modelli di ricerca
Come si è visto, per attuare il processo di retrieval bisogna avere a
disposizione delle descrizioni di documenti da confrontare con la
descrizione del f.i. Quello che serve è allora un modello di retrieval
[1], che stabilisca i dettagli delle rappresentazioni usate e il criterio per
paragonare i due tipi di descrizioni.
Modello booleano
Nel modello booleano i documenti e le query sono rappresentati come
insiemi (set) di parole chiave; pertanto si dirà che il modello è di tipo
set theoretic [15]. Esso è il primo modello utilizzato storicamente e si
Il processo di retrieval ha ottenuto un recall pari al 75% e un precision del
60%
Valutazione di un programma CAT 49
contraddistingue in quanto i documenti sono rappresentati da insiemi
di termini chiave (keywords) estratti manualmente o automaticamente
dal testo e le ricerche sono condotte tramite parole chiave connesse da
operatori logici. La sua diffusione è dovuta prevalentemente alla sua
semplicità ed efficienza, ma a volte fornisce limitata efficacia.
In particolare quindi dato un insieme finito di feature R = {r1, r2…,
rk}, il documento è rappresentato come un assegnamento di qualche
feature. Tale assegnamento viene generalmente rappresentato da un
vettore a valori booleani V di lunghezza k: assegnare la feature ri ad
un documento significa impostare a true l’i-mo elemento di V; se una
data feature non è presente nel documento, il corrispondente elemento
nel vettore viene posto a false.
Ad esempio se l’insieme delle feature è:
R = {…, informatica, information retrieval, intelligenza artificiale, …}
il presente documento potrebbe essere rappresentato dal vettore:
[…, TRUE, TRUE, FALSE, …]
Un fabbisogno informativo è descritto da una espressione booleana, in
cui gli operandi rappresentano dei concetti, mentre vengono ritenuti
rilevanti tutti e solo quei documenti che soddisfano l’espressione
suddetta.
La valutazione della query partiziona allora l’insieme dei documenti
in due sottoinsiemi, quelli "rilevanti" e quelli "non rilevanti", ma non
fornisce alcuna informazione sulla relativa probabilità che documenti
ritenuti "rilevanti" soddisfino il f.i.
Il modello booleano è alla base della maggior parte dei servizi
commerciali di retrieval, ma generalmente è considerato difficile da
utilizzare. Inoltre, non classificando i documenti nella raccolta, ottiene
bassi risultati di recall e precision.
Modello dello spazio vettoriale
Nel modello vettoriale, i documenti e le query sono rappresentati
come vettori in uno spazio k-dimensionale; pertanto si definisce
questo modello come algebrico [15].
50 Valutazione di un programma CAT
Tale modello utilizza nuovamente il vettore di feature dove i
documenti VD e le query Q sono rappresentati da vettori di lunghezza
k, questa volta a valori reali, in cui ogni elemento costituisce un peso.
Possono essere utilizzate diverse tecniche per determinare i vari pesi,
ma comunemente ci si basa sulla frequenza di un termine in un
singolo documento e nell’intera raccolta. Il confronto fra documenti e
query avviene utilizzando una funzione di somiglianza: ad esempio il
coseno dell’angolo tra i vettori.
Questo modello è storicamente importante, avendo avviato un filone
di ricerca fin dagli anni ’60, ma viene criticato per il fatto di essere un
modello ad hoc, peraltro povero di giustificazioni teoriche.
Figura 3.5 – Modello booleano
Un’evoluzione di questo modello in grado di tenere conto della
somiglianza fra i documenti è quello basato sui cluster (grappoli). A
fondamento del modello è la Cluster Hypothesis, che afferma che
documenti simili sono conformi ad uno stesso f.i.
Invece che paragonare le rappresentazioni dei singoli documenti alla
rappresentazione del f.i., viene effettuata una prima catalogazione dei
documenti suddividendoli in cluster (in base ad una qualche misura di
somiglianza) e per ogni cluster si crea un documento "medio" che
rappresenta i documenti corrispondenti. Il processo di retrieval
restituisce tutti quei documenti appartenenti a cluster che soddisfano
la query.
Esempi di vettori rappresentativi di un documento e di un f.i. in due modelli di retrieval
Valutazione di un programma CAT 51
E’ da notare come questo modello non fornisca una definizione
standard della rilevanza, dipendendo quest’ultima dai cluster utilizzati
e dai criteri adottati per la riduzione di documenti simili ad uno stesso
cluster. Infine, esistono diversi criteri per identificare i cluster da
recuperare, specie se si ricorre a tecniche di strutturazione che
permettono la navigazione nella gerarchia dei cluster.
Figura 3.6 – Modello basato su cluster
Modello probabilistico
Un modello simile al vector-space model, ma con una più solida base
teorica, è il modello probabilistico. Il principio alla base del modello è
detto Probabilistic Ranking Principal e afferma che la miglior
efficacia di retrieval si raggiunge quando i documenti sono classificati
in ordine decrescente della probabilità di rilevanza.
Il documento di e il f.i. fj vengono rappresentati da un vettore
booleano a k dimensioni. Detto F l’insieme delle rappresentazioni per
i fabbisogni informativi e D l’insieme delle rappresentazioni dei
documenti, si definisce uno spazio degli eventi F x D. L’obiettivo è
quello di determinare le coppie (di, fj) rilevanti, cioè stimare la
probabilità P(R | di, fj).
Di fatto si fanno delle supposizioni sulla indipendenza della
distribuzione delle feature nei documenti e nelle query.
Modello basato sui cluster
52 Valutazione di un programma CAT
Successivamente si effettua una stima delle probabilità che le singole
feature siano assegnate a documenti "rilevanti" o "non rilevanti", e si
utilizza il teorema di Bayes per derivare una funzione di
classificazione che calcoli P(R | di, fj) in termini di queste probabilità.
Nella pratica, esistono differenti modelli probabilistici, ciascuno
caratterizzato da un particolare insieme di supposizioni di
indipendenza, e quindi da differenti funzioni di classificazione.
Si noti, infine, come i vari modelli probabilistici e quello dello spazio
vettoriale, possano essere considerati delle estensioni del modello
booleano, in quanto fanno ricorso al vettore di feature e consentono
ricerche in termini di corrispondenza parziale (partial matching) delle
feature tra query e documenti.
Prove sperimentali 53
Capitolo 4 Prove sperimentali
Scopo di questa sperimentazione è di individuare quale approccio i
programmi di traduzione assistita di tipo commerciale adottano per
individuare similitudini tra la frase sottoposta e quelle presenti in
memoria.
In particolare si adotta il seguente schema sperimentale: si realizza
inizialmente una memoria a partire da un testo precedentemente
tradotto realizzando così una Translation Memory; utilizzando questa
TM viene sottoposto un nuovo testo da tradurre tramite programma
CAT. I risultati ottenuti sono indicati tramite alcuni valori numerici di
"distanza" dal tesato presente in memoria. In generale infatti un
programma CAT indica che la traduzione suggerita è valida o meno
fornendo un valore numerico di somiglianza che va dal 50% al 100%
(approximate match o exact match).
Si è scelto di procedere utilizzando un testo descrittivo di un software
(DeLuxe Paint III) e crearne così una TM. Successivamente si è
54 Prove sperimentali
proceduto a effettuare alcune modifiche al testo al fine di valutare
quali siano le penalità applicate dai programmi CAT.
DELUXEPAINT III is a graphics tool that can help you create works
of art with an ease and precision that you may never have thought
possible. After spending a little time with this manual, you'll be
able to use the program to create colorful graphics in a fraction
of the time it would take using more traditional techniques.
You'll learn how to create perspective effects, how to create and
save your own custom brushes, how to mix your own color palette
from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
Figura 4.1 - Testo originale inserito in memoria
Prove sperimentali 55
4.1 Valutazione delle penalizzazioni
Per penalizzazione si intende il grado di distanza/somiglianza che il
programma assegna ad un segmento sottoposto a traduzione.
4.1.1 Trados
4.1.1.1 Eliminazione di una parola di 8 lettere
Nel brano sottoposto (originariamente composto da 109 parole per
605 caratteri - spazi compresi) si è proceduto ad eliminare una parola
di 8 lettere (108 parole-596 caratteri). DELUXEPAINT III is a graphics tool that can help you create works
of art with an ease and precision that you may never have thought
possible. After spending a little time with this manual, you'll be
able to use the program to create colorful graphics in a fraction
of the time it would take using more traditional techniques.
You'll learn how to create perspective effects, how to create and
save your own custom brushes, how to mix your own color palette
from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
Figura 4.2 - Eliminazione di una parola di 8 lettere
In Trados l'analisi di tipo batch (off-line) indica i seguenti valori: Start Analyse: Sat May 11 14:06:50 2002
Translation Memory: Prova analisi piccole
modifiche\mem_piccole_modifiche.tmw
Prova analisi piccole modifiche\DP3_modificato.doc
Chars/Word 4.55
Chars Total 492
Analyse Total (1 file):
Match Types Segments Words Percent Placeables
XTranslated 0 0 0 0
Repetitions 0 0 0 0
100% 0 0 0 0
56 Prove sperimentali
95% - 99% 2 83 77 0
85% - 94% 1 25 23 0
75% - 84% 0 0 0 0
50% - 74% 0 0 0 0
No Match 0 0 0 0
Total 3 108 100 0
Chars/Word 4.55
Chars Total 492
Analyse finished successfully without errors!
Sat May 11 14:06:51 2002
==================================================================
Figura 4.3 - Report analisi batch Trados - Eliminazione di una parola di 8 lettere
Volendo valutare l'impatto che l'eliminazione della parola comporta
nella fase di analisi da parte di Trados, si procede con la pretraduzione
del testo che permetterà di analizzare la segmentazione e la
penalizzazione valutata dal programma CAT.
Figura 4.4 - Pretradotto - Eliminazione di una parola di 8 lettere
Dalla schermata qui sopra si comprende che il programma ha
penalizzato le frasi identiche a quelle in memoria con un fattore del
La parola "graphics" è stata eliminata
Prove sperimentali 57
3% a causa del recupero della frase da un progetto di allineamento
fatto con WinAlign (questo dato è chiaramente dichiarato nella
manualistica di Trados e modificabile dall'utente ad esempio
impostando questa penalizzazione di default a 0%). La prima frase,
che è stata oggetto dell'eliminazione della parola, è stata penalizzata di
un ulteriore 4 % arrivando ad un fuzzy match del 93%.
La segmentazione ha spezzato il testo in corrispondenza del punto
come da parametrizzazione di default del programma.
Se si procede con l'eliminazione di una parola di 3 lettere, risulta:
Figura 4.5 - Pretradotto - Eliminazione di una parola di 3 lettere
Penalizzazione del 4%.
Sembrerebbe quindi che la penalizzazione non dipenda dalla
lunghezza della parola eliminata.
Si procede ora ad eliminare 2 parole dal testo campione ("and
precision") su un totale di 127 caratteri vengono eliminati quindi 13
caratteri (riduzione del 10% circa):
Figura 4.6 - Pretradotto - Eliminazione di due parole
La penalizzazione passa al 8%. Una parola di 9 lettere e uno spazio
hanno quindi incrementato la penalizzazione di un ulteriore 4%.
Si procede ora ad eliminare 3 parole dal testo campione ("graphics",
"and precision"):
58 Prove sperimentali
Figura 4.7 - Pretradotto - Eliminazione di tre parole
La penalizzazione passa al 13% (sono state eliminate tre parole per un
totale di 20 lettere e tre spazi). Ulteriore incremento quindi di 5 punti
percentuali (da sola la parola "graphics" aveva dato una
penalizzazione del 4%).
Da quest'ultimo dato si comprende come la penalizzazione applicata
dal programma Trados non dipenda dalla sola quantità di parole
eliminate ma anche da altri parametri quali la lunghezza totale della
frase, che in questo ultimo caso è sostanzialmente più corta di quella
della prima prova in cui si è eliminata la sola parola "graphics".
L'algoritmo di penalizzazione di Trados tiene pertanto conto non solo
della quantità di parole eliminate ma anche della lunghezza totale
della frase nuova rispetto a quella nella TM.
Prove sperimentali 59
4.1.1.2 Aggiunta di una parola di n lettere
Si procede ad aggiungere una parola di 8 lettere al testo originale al
fine di valutare la distanza assegnata dal programma Trados a tale
modifica: DELUXEPAINT III is a standard graphics tool that can help you
create works of art with an ease and precision that you may never
have thought possible. After spending a little time with this
manual, you'll be able to use the program to create colorful
graphics in a fraction of the time it would take using more
traditional techniques. You'll learn how to create perspective
effects, how to create and save your own custom brushes, how to
mix your own color palette from a universe of 4096 possible
colors, and how to create effective on-screen animations, to name
just a few of DeluxePaint III's powerful features.
Figura 4.8 - Aggiunta di una parola di 8 lettere
Figura 4.9 - Pretradotto - Aggiunta di una parola di 8 lettere
Il risultato è una penalizzazione del 3% (97%-3%=94%)
Se si aggiunge invece una parola composta da 12 lettere il valore
rimane lo stesso (la penalizzazione resta del 3%). L'algoritmo
nuovamente non tiene in considerazione la lunghezza della parola
aggiunta.
60 Prove sperimentali
Prova ulteriore con due parole aggiunte (per un totale di 8+3+9=20
caratteri + 3 spazi=23): DELUXEPAINT III is a standard and efficient graphics tool that can
help you create works of art with an ease and precision that you
may never have thought possible. After spending a little time with
this manual, you'll be able to use the program to create colorful
graphics in a fraction of the time it would take using more
traditional techniques. You'll learn how to create perspective
effects, how to create and save your own custom brushes, how to
mix your own color palette from a universe of 4096 possible
colors, and how to create effective on-screen animations, to name
just a few of DeluxePaint III's powerful features.
Figura 4.10 - Aggiunta di due parole
Figura 4.11 - Pretradotto - Aggiunta di due parole
La penalizzazione passa al 8%. Anche in questo caso quindi
l'aggiunta di x caratteri non influenza in maniera direttamente
proporzionale il valore di penalizzazione indicato da Trados, il quale
considera anche la lunghezza della frase nuova sottoposta a
traduzione.
Prove sperimentali 61
4.1.1.3 Modifica di una parola
Si vuole ora procedere alla modifica di una sola lettera di una parola
in un segmento già presente in memoria per individuare il valore di
penalizzazione individuato da Trados con tale modifica. Si procede ad
eliminare la "s" finale della parola "graphics" DELUXEPAINT III is a graphic tool that can help you create works
of art with an ease and precision that you may never have thought
possible.
Figura 4.12 - Modifica di una parola
Figura 4.13 - Pretradotto - Modifica di una parola
La penalizzazione è di un solo punto percentuale (1%).
L'eliminazione di una seconda lettera nella stessa parola comporta una
penalizzazione sempre del 1%.
L'eliminazione di due lettere in due parole diverse comporta invece
una penalizzazione del 2%.
L'aggiunta di una lettera ad una parola comporta una penalizzazione
del 1%.
L'aggiunta di due lettere in due parole diverse comporta una
penalizzazione del 4%.
Il sistema Trados dunque penalizza maggiormente eventuali lettere
aggiunte piuttosto che quelle eliminate.
62 Prove sperimentali
4.1.1.4 Unione di due frasi
Si procede ora a congiungere due intere frasi al fine di determinare
come il programma CAT valuti queste due frasi già presenti
singolarmente in TM. La congiunzione tra le due è in una prima fase
effettuata con l'"and". In una seconda fase verranno congiunte con
una semplice virgola. In una terza fase le due frasi verranno messe una
all'interno dell'altra.
- Prima prova: "A and B"
- Seconda prova: "A, B"
- Terza prova: "A1, B, A2"
Prima prova:
DELUXEPAINT III is a graphics tool that can help you create works
of art with an ease and precision that you may never have thought
possible and after spending a little time with this manual, you'll
be able to use the program to create colorful graphics in a
fraction of the time it would take using more traditional
techniques. You'll learn how to create perspective effects, how to
create and save your own custom brushes, how to mix your own color
palette from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
Figura 4.14 - Prova "A and B"
Figura 4.15 - Pretradotto - Prova "A and B"
Prove sperimentali 63
Il risultato dell'analisi batch è incredibilmente del 0%.
Lo stesso risultato si ottiene usando la virgola come separatrice tra la
frase A e la frase B (seconda prova).
Il problema è che nelle regole di separazione dei paragrafi
(segmentazione) la virgola non è considerata. Si tenga conto però
dell'alto grado di personalizzazione possibile in Trados:
Figura 4.16 - Trados - Impostazione di nuove regole di segmentazione
Dopo l’introduzione di una nuova regola di segmentazione basata
sulla virgola ("comma" in inglese), si ottiene (Figura 4.17):
64 Prove sperimentali
Figura 4.17 - Pretradotto dopo l'introduzione di una nuova regola di segmentazione
Il programma individua correttamente la frase B come presente in
memoria ma non trova la frase A (ora leggermente diversa da quella in
TM in quanto termina con una virgola e non con un punto).
In conclusione i simboli di segmentazione sono determinanti per la
corretta individuazione in TM della frase ricercata. Inoltre, anche se
altamente personalizzabile, il programma non considera tali simboli di
segmentazione come secondari, ma al contrario assegna loro una
grande importanza. Per fare una controprova, si vuole valutare cosa
accade nel togliere semplicemente il punto di separazione tra le due
frasi (Figura 4.18):
Figura 4.18 - Pretradotto dopo l'eliminazione del punto di separazione
Il programma in questo caso infatti non distingue più le due frasi e
non trova alcuna corrispondenza in TM (indicatore a 0).
Prove sperimentali 65
Terza prova (A1, B, A2):
DELUXEPAINT III, after spending a little time with this manual,
you'll be able to use the program to create colorful graphics in a
fraction of the time it would take using more traditional
techniques, is a graphics tool that can help you create works of
art with an ease and precision that you may never have thought
possible. You'll learn how to create perspective effects, how to
create and save your own custom brushes, how to mix your own color
palette from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
Figura 4.19 - Trados - "A1, B, A2"
Figura 4.20 - Pretradotto - Trados - "A1, B, A2"
L'analisi di tipo batch suggerisce una somiglianza del 50% circa,
indicando come possibile traduzione la sola parte B e ignorando
completamente la parte A che è stata spezzata in due parti.
Analisi di tipo on-line
Se si procede con l'utilizzo dell'interfaccia utilizzata dal traduttore
professionista l'interazione con il programma WorkBench permette il
suggerimento di frasi presenti in memoria sia per la parte A che per la
parte B, previa evidenziazione e ricerca di tipo "Concordance":
66 Prove sperimentali
Figura 4.21 - Trados - Analisi on-line
Conclusioni sull'analisi di tipo batch
Il sistema Trados non è in grado di riconoscere parti di frasi come
presenti in memoria, ma tratta solo segmenti strutturalmente simili a
quelli in memoria. La memoria di Trados, o meglio l'algoritmo che
Trados utilizza per "leggere" la propria memoria ed analizzare un testo
da tradurre, non possiede la capacità di analizzare una frase/segmento
suddividendola in sottoparti e cercando queste ultime nella TM.
Si noti però come il prodotto nel suo aspetto on-line risulti essere
invece buon suggeritore di dove e come sono presenti differenze tra
memoria e testo da tradurre, arrivando addirittura assieme ad altri
programmi della suite (leggi MultiTerm) a fornire ulteriori aiuti al
traduttore.
Prove sperimentali 67
4.1.1.5 Stemming in Trados
In questo paragrafo ci si prefigge il compito di analizzare il sistema
Trados in relazione alle cosiddette "radici" di una parola. Si vuole
infatti determinare se il sistema è in grado di individuare le varianti di
un termine, singolari/plurali, coniugazioni di verbi, ecc. e se quindi
riesce a trovare similitudine tra un segmento nuovo e uno in memoria
simile.
Per stemming si intende appunto la capacità di estrarre da un termine
la sua radice eliminando prefissi e suffissi:
connected, connecting, connection, connections ! connect
Si vuole quindi determinare se il sistema è in grado di suggerire
varianti di un termine.
Prima prova - approccio batch
La prova consisterà quindi nella modifica di un paio di termini nel
testo originale per sottoporlo poi ad un'analisi di tipo batch:
DELUXEPAINT III is a graph tool that could help you create works
of art with an ease and precision that you may never have thought
possible. After spending a little time with this manual, you'll be
able to use the program to create colorful graphics in a fraction
of the time it would take using more traditional techniques.
You'll learn how to create perspective effects, how to create and
save your own custom brushes, how to mix your own color palette
from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
Figura 4.22 - Trados - Stemming
Si procede modificando la parola "graphics" in "graph" e "can" in
"could".
68 Prove sperimentali
Il risultato ottenuto è il seguente:
Figura 4.23 - Pretradotto - Trados - Stemming
La pretraduzione di Trados individua una similitudine tra la prima
frase e l'originale in memoria pari al 95% (penalizzazione pari a 5%)
senza però segnalare quali termini siano "lontani" dalla memoria.
Prima prova - approccio on-line
Se invece del procedimento batch si utilizza l'aspetto on-line di Trados
è interessante vedere come il sistema in effetti individui esattamente i
termini modificati, senza peraltro suggerire possibili traduzioni per
essi:
Figura 4.24 - Trados - Stemming - on-line
Prove sperimentali 69
Si noti come il programma comunque segnali l'assenza del
componente "MultiTerm" il quale come glossario potrebbe contenere
suggerimenti validi per i termini evidenziati.
Seconda prova - approccio batch
Si vuole ora provare a valutare il comportamento di Trados in
relazione alla modifica della parola "graphics" in "raphics" e di
"graphics" in "graphic":
DELUXEPAINT III is a raphics tool that can help you create works
of art with an ease and precision that you may never have thought
possible. After spending a little time with this manual, you'll be
able to use the program to create colorful graphics in a fraction
of the time it would take using more traditional techniques.
You'll learn how to create perspective effects, how to create and
save your own custom brushes, how to mix your own color palette
from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
DELUXEPAINT III is a graphic tool that can help you create works
of art with an ease and precision that you may never have thought
possible. After spending a little time with this manual, you'll be
able to use the program to create colorful graphics in a fraction
of the time it would take using more traditional techniques.
You'll learn how to create perspective effects, how to create and
save your own custom brushes, how to mix your own color palette
from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
Figura 4.25 - Trados - Stemming
Lo scopo è quello di comprendere quanto il sistema penalizzi questa
differenza di un solo carattere. Il sistema infatti dovrebbe penalizzare
maggiormente il primo caso in cui i due termini non hanno
linguisticamente niente in comune, e penalizzare meno il secondo
caso.
70 Prove sperimentali
Il risultato ottenuto è il seguente:
Figura 4.26 - Pretradotto - Trados - Stemming
Il sistema sia nel primo caso ("graphics" in "raphics") che nel secondo
("graphics" in "graphic") penalizza con il medesimo 1% non
distinguendo i due casi.
Seconda prova - approccio on-line
Se si utilizza la procedura on-line del programma si ottengono le
seguenti segnalazioni:
Prove sperimentali 71
Figura 4.27 - Trados - Stemming - on-line
In cui si vede che il sistema semplicemente evidenzia la parola diversa
senza valutare in cosa lo sia, confermando così che si tratta di un
sistema che non valuta le singole parole ma interi segmenti (si veda a
questo proposito il paragrafo §6.1.1 "Approccio grammaticale" a
pagina 7).
72 Prove sperimentali
4.1.1.6 Ordine delle parole
Si vuole ora analizzare il comportamento in relazione all'inversione di
ordine delle parole all'interno di uno stesso segmento. Sono state
quindi invertiti i termini "graphics tool" in "tool graphics" e "ease and
precision" in "precision and ease":
DELUXEPAINT III is a tool graphics that can help you create works
of art with an precision and ease that you may never have thought
possible. After spending a little time with this manual, you'll be
able to use the program to create colorful graphics in a fraction
of the time it would take using more traditional techniques
Figura 4.28 - Trados - Ordinamento delle parole
Il risultato:
Figura 4.29 - Pretradotto - Trados - Ordinamento delle parole
Anche in questo caso l'analisi batch non segnala le singole differenze
ed indica una distanza pari al 4%.
L'analisi on-line fornisce però anche in questo caso maggiori dettagli:
Prove sperimentali 73
Figura 4.30 - Trados - Ordinamento delle parole - on-line
La segnalazione è precisa e arricchita da colori che indicano un
semplice cambiamento di ordine delle parole. In particolare l'Help del
programma dichiara:
In altre parole il sistema segnala in azzurro (Blue) quelle parti di
segmento che sono in realtà state solo spostate e che la traduzione del
segmento non dovrebbe quindi essere molto diversa da quella
proposta dal sistema stesso.
74 Prove sperimentali
4.1.1.7 Conclusioni su stemming e ordine delle parole
Per quanto riguarda l'analisi stemming ed ordine delle parole è
naturale ottenere dal programma suggerimenti non completi, perché
Trados è un sistema basato da un lato su memorie di associazione tra
segmenti e dall'altro da algoritmi che "pesano" le frasi da tradurre in
relazione a quelle in memoria (String based translation memory -
STM, chiamato anche TMS-Translation Memory System); non si tratta
quindi di una Machine Translation (MT) dotata di algoritmi e
soprattutto regole di sintassi linguistica proprie di ogni idioma e in
grado quindi di distinguere semplici modifiche di singolari/plurali,
coniugazione dei verbi, ecc. Tali ultimi dispositivi (Lexeme-based
translation memory - LTM) sono descrivibili come insiemi di regole
di inflessione e derivazione, mentre i sistemi STM, come Trados,
semplicemente memorizzano la corrispondenza "esteriore" delle
stringhe senza compiere nessun tipo di analisi lessicale.
In particolare Trados si basa su FindLink (database retrieval) creato da
CONNEX nel 1996, il quale nella fase di "apprendimento" memorizza
nel proprio database un insieme di segmenti in lingua sorgente e
destinazione, codificando le stringhe in n-grammi, mentre in fase di
"traduzione" la stringa ricercata è analizzata per individuare il livello
di similarità con quelle in memoria, risultato fornito tramite il già visto
indice tra 0% e 100%.
A proposito di questo si veda il Capitolo 6 "Limiti attuali dei
programmi commerciali" ed in particolare il paragrafo §6.1.1
"Approccio grammaticale" a pagina 7.
Prove sperimentali 75
4.1.2 IBM Translation Manager
Figura 4.31 – IBM TranslationManager
4.1.2.1 Eliminazione di una parola di 8 lettere
Nel brano sottoposto si è proceduto ad eliminare una parola di 8
lettere.
DELUXEPAINT III is a graphics tool that can help you create works
of art with an ease and precision that you may never have thought
possible. After spending a little time with this manual, you'll be
able to use the program to create colorful graphics in a fraction
of the time it would take using more traditional techniques.
You'll learn how to create perspective effects, how to create and
save your own custom brushes, how to mix your own color palette
from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
76 Prove sperimentali
L'analisi del nuovo testo privo della parola "graphics" è
individuata dalla funzione Analyze Documents del programma IBM:
Figura 4.32 – IBM TranslationManager – Batch processing
I cui risultati visibili nella seguente schermata:
Figura 4.33 – IBM TranslationManager – Impostazione parametri del progetto
Prove sperimentali 77
In altre parole, dei tre segmenti che costituiscono il campione preso ad
esempio solo due sono stati riconosciuti come uguali al 100% (copied
segments), mentre uno non è stato riconosciuto come tale (Completion
rate = 66 indica che il 66% del testo originale è stato tradotto) (Figura
4.33).
La funzione conteggio presente nella schermata principale del
programma evidenzia infatti che solo 81 parole su 106 sono tradotte,
mentre le restanti 25 non sono traducibili.
Figura 4.34 – IBM TranslationManager – Analisi risultati
Passando ora alla funzionalità on-line vera e propria si possono
valutare i risultati sopra indicati:
Figura 4.35 – IBM TranslationManager – Interfaccia operativa
Il programma ha infatti già sostituito i due segmenti identici (il
secondo e il terzo nell'esempio), mentre per quanto riguarda il primo
segmento viene evidenziato in grigio il termine differente.
78 Prove sperimentali
Si vuole ora valutare il risultato che si ottiene dal programma con
l’eliminazione di due o più parole, al fine di valutare quale sia la
penalizzazione fuzzy:
DELUXEPAINT III is a graphics tool that can help you create works
of art with an ease and precision that you may never have thought
possible. After spending a little time with this manual, you'll be
able to use the program to create colorful graphics in a fraction
of the time it would take using more traditional techniques.
You'll learn how to create perspective effects, how to create and
save your own custom brushes, how to mix your own color palette
from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
L'analisi evidenzia, in maniera simile al caso precedente, una
sostituzione di 81 parole, contro 24 non ancora tradotte:
Figura 4.36 – IBM TranslationManager –Risultato dopo eliminazione di due parole
L'analisi on-line infatti rivela quanto segue:
Figura 4.37 – IBM TranslationManager – Eliminazione di due parole
Prove sperimentali 79
Entrambi i termini "graphics" e "tool" sono evidenziati in grigio
ad indicare dove sia la differenza con il testo originale.
Si noti come la precedente analisi abbia creato/aggiunto un segmento
nella Translation Memory che il sistema indica al punto 1, fornendo
quindi al traduttore un'informazione aggiuntiva su come poter tradurre
quel determinato segmento. In altre parole (come in Trados) il
processo di autoapprendimento è continuo e i risultati validati in
precedenza sono ora rimessi a disposizione del traduttore stesso.
In generale si può quindi concludere che la quantità di parole
eliminate (una o due) non è valutata dal programma in maniera
differente.
Sorge quindi spontanea la domanda su quale sia la soglia minima di
distanza tollerata in una penalizzazione fuzzy. A questo proposito si
procede con un'ulteriore prova (Figura 4.38) in cui viene eliminata
una prima e seconda parte sostanziale della frase originale.
DELUXEPAINT III is a graphics tool that can help you create works
of art with an ease and precision that you may never have thought
possible. After spending a little time with this manual, you'll be
able to use the program to create colorful graphics in a fraction
of the time it would take using more traditional techniques.
You'll learn how to create perspective effects, how to create and
save your own custom brushes, how to mix your own color palette
from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
80 Prove sperimentali
Figura 4.38 – IBM TranslationManager – Eliminazione di parti consistenti
Anche in questo caso il programma ha riconosciuto la similarità tra il
segmento sottoposto a traduzione e i segmenti presenti in memoria.
Una successiva eliminazione di una ulteriore parte del testo porta
infine al non riconoscimento da parte del programma (Figura 4.39):
Figura 4.39 – IBM TranslationManager – Eccesso di distanza
Prove sperimentali 81
4.1.2.2 Aggiunta di una parola di n lettere
Si procede ad aggiungere una parola di 8 lettere al testo originale al
fine di valutare la distanza assegnata dal programma IBM a tale
modifica:
DELUXEPAINT III is a standard graphics tool that can help you
create works of art with an ease and precision that you may never
have thought possible. After spending a little time with this
manual, you'll be able to use the program to create colorful
graphics in a fraction of the time it would take using more
traditional techniques. You'll learn how to create perspective
effects, how to create and save your own custom brushes, how to
mix your own color palette from a universe of 4096 possible
colors, and how to create effective on-screen animations, to name
just a few of DeluxePaint III's powerful features.
Il risultato che si ottiene (Figura 4.40) evidenzia la corretta
individuazione da parte del programma della nuova parola:
Figura 4.40 – IBM TranslationManager – Aggiunta di una parola
La nuova parola viene indicata nelle possibili traduzioni con un punto
interrogativo evidenziato.
82 Prove sperimentali
4.1.2.3 Modifica di una parola
Si vuole ora procedere alla modifica di una sola lettera di una parola
presente in memoria. Si procede ad eliminare la "s" finale della parola
"graphics"
DELUXEPAINT III is a graphic tool that can help you create works
of art with an ease and precision that you may never have thought
possible.
Figura 4.41 – IBM TranslationManager – Modifica di una parola
Anche in questo caso il programma segnala correttamente la
differenza evidenziando la parola.
Si noti come tale esempio di eliminazione della “s” finale corrisponda
anche ad una prova sui singolari e plurali; permette infatti di
concludere che il sistema non è in grado di distinguere i casi singolari
e plurali di un termine nel testo sottoposto ad analisi.
Prove sperimentali 83
4.1.2.4 Unione di due frasi
Si procede ora a congiungere due intere frasi al fine di determinare
come il programma valuti queste due frasi già presenti singolarmente
in TM. La congiunzione tra le due è in una prima fase effettuata con
"and". In una seconda fase le due frasi vengono composte mettendole
una all'interno dell'altra.
- Prima prova: "A and B"
- Seconda prova: "A1 B A2"
- Terza prova: "A1 parte del segmento B A2"
- Quarta prova: "“A1 B modificato A2”
Prima prova: "A and B"
DELUXEPAINT III is a graphics tool that can help you create works
of art with an ease and precision that you may never have thought
possible and after spending a little time with this manual, you'll
be able to use the program to create colorful graphics in a
fraction of the time it would take using more traditional
techniques. You'll learn how to create perspective effects, how to
create and save your own custom brushes, how to mix your own color
palette from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
Figura 4.42 – IBM TranslationManager – “A and B”
84 Prove sperimentali
Il programma non propone direttamente una frase composta come ci si
aspetterebbe, bensì indica correttamente i due segmenti che possono
concorrere alla traduzione del segmento "A and B" completo. Si noti
in particolare l'individuazione della differenza tra la parola "After"
(in memoria) e la parola "after" sottoposta, e come il programma
indichi con il punto interrogativo alla fine del segmento in memoria la
presenza di una parola aggiuntiva ("and").
Non viene invece indicato il punto (".") al termine del primo
segmento in memoria come oggetto di necessaria modifica.
Seconda prova: "A1 B A2"
DELUXEPAINT III is a graphics tool that After spending a little
time with this manual, you'll be able to use the program to create
colorful graphics in a fraction of the time it would take using
more traditional techniques can help you create works of art with
an ease and precision that you may never have thought possible.
You'll learn how to create perspective effects, how to create and
save your own custom brushes, how to mix your own color palette
from a universe of 4096 possible colors, and how to create
effective on-screen animations, to name just a few of DeluxePaint
III's powerful features.
Anche in questo caso il programma riesce ad individuare il testo
sottoposto come simile a due segmenti presenti in memoria, indicando
con il punto interrogativo evidenziato le parti di "ingresso" ed "uscita"
del segmento:
Figura 4.43 – IBM TranslationManager – “A1 B A2”
Prove sperimentali 85
Terza prova: "A1 parte del segmento B A2"
DELUXEPAINT III is a graphics tool that you'll be able to use the
program can help you create works of art with an ease and
precision that you may never have thought possible. You'll learn
how to create perspective effects, how to create and save your own
custom brushes, how to mix your own color palette from a universe
of 4096 possible colors, and how to create effective on-screen
animations, to name just a few of DeluxePaint III's powerful
features.
Si ottiene il seguente risultato:
Figura 4.44 – IBM TranslationManager - “A1 parte di B A2”
In questo caso il programma evidenzia la presenza di una parte di
segmento sconosciuta, ma non individua correttamente la eventuale
presenza in altri segmenti in memoria.
86 Prove sperimentali
Se il testo sottoposto fosse composto invece da una parte del segmento
B più significativa si otterrebbe il seguente risultato:
DELUXEPAINT III is a graphics tool that you'll be able to use the
program to create colorful graphics in a fraction of the time can
help you create works of art with an ease and precision that you
may never have thought possible. You'll learn how to create
perspective effects, how to create and save your own custom
brushes, how to mix your own color palette from a universe of 4096
possible colors, and how to create effective on-screen animations,
to name just a few of DeluxePaint III's powerful features.
Figura 4.45 – IBM TranslationManager - “A1 parte di B significativa A2”
In questo caso il programma è riuscito ad individuare correttamente la
presenza della parte significativa del segmento B come presente in un
altro segmento in memoria. Si noti come in questo caso il
suggerimento della corrispondente traduzione in italiano sia fornita
indicando globalmente il segmento in italiano, senza individuare la
parte del testo corrispondente.
A questo punto si introduce un'ulteriore modifica al testo a partire dai
risultati di quest’ultima prova.
Prove sperimentali 87
Quarta prova: piccole modifiche al segmento B inserito
Lo scopo di questa prova è di valutare se il programma è in grado di
riconoscere ancora la parte di testo B, inserita all'interno del segmento
A, se ad essa vengono applicate piccole modifiche (indicate con una
sottolineatura).
DELUXEPAINT III is a graphics tool that you'll be able to use the
program to modify colorful graphics in a fraction of the time can
help you create works of art with an ease and precision that you
may never have thought possible. You'll learn how to create
perspective effects, how to create and save your own custom
brushes, how to mix your own color palette from a universe of 4096
possible colors, and how to create effective on-screen animations,
to name just a few of DeluxePaint III's powerful features.
Si ottiene:
Figura 4.46 – IBM TranslationManager - “A1 B modificato A2”
88 Prove sperimentali
Ovviamente se si prova a modificare maggiormente il testo B inserito
come qui sotto illustrato:
DELUXEPAINT III is a graphics tool that you are able to use the
programs to modify colorful graphics in a fraction of the time can
help you create works of art with an ease and precision that you
may never have thought possible. You'll learn how to create
perspective effects, how to create and save your own custom
brushes, how to mix your own color palette from a universe of 4096
possible colors, and how to create effective on-screen animations,
to name just a few of DeluxePaint III's powerful features.
allora, il programma fornisce il seguente risultato:
Figura 4.47 – IBM TranslationManager - “A1 B ulteriormente modificato A2”
Il programma non è quindi nuovamente in grado di fornire
suggerimenti utili sulla parte inserita e modificata.
Prove sperimentali 89
4.1.2.5 Markup Table
Si è già valutato come il sistema IBM TranslationManager sia dotato
di un’interfaccia poco user friendly; molti dei comandi infatti sono
poco intuitivi e a volte presenti solo sotto forma di comandi a menu.
Dal punto di vista batch è inoltre assente la possibilità di tradurre
automaticamente segmenti simili a meno di un impostato valore di
verosimiglianza come invece era presente nel programma Trados.
L'unica possibilità disponibile è quello della traduzione automatica dei
segmenti uguali al 100% (exact match).
Un ulteriore limite è la limitata disponibilità di Markup Table fornite.
Tali Markup Table sono i filtri con cui il programma importa il testo
al fine di sottoporlo ad analisi e traduzione. Inoltre anche disponendo
del filtro giusto tale procedimento di lavoro costringe l'utente finale a
lavorare/tradurre nell'ambiente IBM piuttosto che direttamente
nell'applicativo originale; questo significa che l'utente finale non potrà
utilizzare gli strumenti nativi a cui potrebbe essere necessario ricorrere
(ad esempio correzione automatica, spostamento del testo sopra/sotto
altro testo, ecc.). Si tenga infine conto che l'importazione da formati
proprietari (ad esempio Word di Microsoft) comporta la presenza di
codici tag di controllo che ulteriormente distolgono l’attenzione
dell’utente dalla traduzione.
Esempio di TAGS nell'IBM TranslationManager
A questo proposito si vuole sottoporre ad analisi il seguente segmento
in formato Microsoft Word per Windows 6.0:
DELUXEPAINT III is a graphics tool that can help you create
works of art with an ease and precision that you may never have thought possible.
Tale testo si presenta con font Arial dimensione 12, alcune parole
sottolineate, altre in grassetto e altre ancora colorate.
L'analisi on-line fornisce i seguenti risultati:
90 Prove sperimentali
Figura 4.48 – IBM TranslationManager – Word per Windows
Il programma ha nuovamente individuato correttamente il segmento
sottoposto a traduzione come presente in memoria, ma ne ha anche
evidenziato tutti gli aspetti differenti. In particolare si veda come sono
chiaramente indicati i tags di formattazione ([bold], [underline],
[color:06], ecc.) e i rispettivi punti di differenza presenti nella frase
presente in memoria (priva di tali tags) ben evidenziati.
Se ora l'utente decide di accettare la traduzione suggerita dalla
memoria si ritroverà la seguente sostituzione:
Figura 4.49 – IBM TranslationManager – Word per Windows
Prove sperimentali 91
A questo punto quindi l'utente dovrà a mano inserire i codici di
controllo della formattazione.
Il programma a questo proposito fornisce con il tasto destro del mouse
un menu contestuale con il quale poter inserire nel segmento tradotto
(ma incompleto) i tags già presenti nel segmento originale:
Figura 4.50 – IBM TranslationManager – Word per Windows
Così facendo il segmento verrà correttamente tradotto e validato dal
programma al successivo passaggio al segmento seguente da tradurre.
Il risultato finale che si ottiene è:
DELUXEPAINT III è uno strumento grafico che può aiutarLa
nella creazione artistica con una facilità e una precisione che non avrebbe mai pensato possibile.
Il risultato è corretto ma è costato all'utente un'enorme perdita di
tempo.
Si noti infine come tale risultato sia poi inesatto in quanto sono
presenti delle imperfezioni quali l'inserzione di doppi spazi a
separazione di alcune parole. Ciò è dovuto allo strumento di copia dei
tags presente nel programma che non offre nessuna forma di
automatismo ma è affidata totalmente alla "mano" dell'utente finale.
92 Prove sperimentali
4.2 Efficacia in relazione ad un testo campione (nuovo)
Nel presente capitolo si analizzano i valori forniti dai due programmi
CAT nella traduzione di un testo più corposo, utilizzando nello
specifico un file DeLuxePaint V composto da circa 6000 parole come
source language input, evoluzione del testo presente nella TM.
4.2.1 Risultati ottenuti
I due programmi, utilizzando le opzioni standard di configurazione
degli stessi, forniscono i seguenti risultati indicati più sotto.
Trados WorkBench
Si ricordi che la realizzazione della TM è stata automaticamente
penalizzata dal sistema con una distanza del 3% per cui un fuzzy-
match del 100% non è possibile. L’exact match, la piena
corrispondenza tra testo sottoposto a traduzione e segmento presente
in memoria, è il 97% e a tale valore ci si dovrà riferire come massimo
consentito in questa analisi.
L'analisi fornita è la seguente:
Match Types Segments Words Percent Placeables XTranslated 0 0 0 0 Repetitions 12 116 2 0 100% 0 0 0 0 95% - 99% 20 311 5 0 85% - 94% 22 423 7 0 75% - 84% 16 300 5 0 50% - 74% 8 201 3 0 No Match 313 4,921 78 0 Total 391 6,272 100 0 Chars/Word 4.74 Chars Total 29,763
Il log fornito è dettagliato in relazione alla distanza dei segmenti
analizzati rispetto alla TM. Su un totale di 391 segmenti, pari a 6272
parole, il programma ha individuato 20 segmenti (311 parole) come
uguali al 100% o poco meno (il range illustrato in realtà va dal 95% al
99% cioè, riportandoci a valori in centesimi, dal 98% al 100%
riferendosi alla TM utilizzata). Un’altra consistente parte di testo
analizzato (22 segmenti pari a 423 parole) risulta presente in memoria
Prove sperimentali 93
a meno di una distanza dal 85% al 94% (cioè normalizzando, dal 87%
al 97%).
Per quanto riguarda invece le parti non trovate in memoria, cioè con
distanza superiore al 50%, risultano 313 segmenti pari a 4921 parole,
corrispondenti al 78% del documento.
Si noti come sia caratteristico di questo programma fornire alcuni
valori di valutazione aggiuntivi tra cui il valore medio di caratteri per
parola, il numero totale di caratteri e soprattutto il numero delle
repetitions intendendo con questo il numero di segmenti presenti nel
file analizzato, e non presenti in memoria, che si ripetono all’interno
dello stesso testo e per i quali è sufficiente tradurli una sola volta per
averli poi in memoria al successivo incontro. Nel nostro esempio ben
12 segmenti diversi sono presenti nel testo varie volte ciascuno e
risultano quindi segnalati come ripetizioni di traduzioni. Ovviamente
essi devono essere considerati a tutti gli effetti come segmenti non
corrispondenti ad alcun segmento della TM e per questo motivo il
numero totale di no match diventa di 325 segmenti pari a 5037 parole.
IBM Translation Manager
L'analisi del nuovo file sottoposto a traduzione automatica fornisce i
seguenti risultati:
In questo caso i risultati vengono illustrati in maniera molto più
sintetica ed in particolare il numero totale di parole è di 6227. L’Exact
match è presente per un totale di 190 parole coinvolte, mentre i casi di
Fuzzy match sono pari a 1544 parole.
Si noti come innanzitutto il risultato illustrato non differenzi i casi di
Fuzzy match per scaglioni di distanza ma genericamente li raggruppi
assieme non consentendo di valutare distanze effettivamente elevate
94 Prove sperimentali
da altre minori cioè con intervento minimo richiesto al traduttore.
Inoltre il risultato non tiene assolutamente conto del numero dei
segmenti fornendo un risultato solo in parole.
La quantità di no match è pari a 4993 parole.
Confronto di risultati ottenuti
La valutazione dei risultati deve basarsi sul confronto dei valori
numerici suddividendo i campi di analisi in tre casi: la quantità di
Exact match che quindi non prevedono intervento del traduttore ma
sono a tutti gli effetti segmenti presenti identici a segmenti in
memoria; la quantità di Fuzzy match che richiedono un intervento
parziale; la quantità di no match.
La quantità di exact match è a favore del sistema Trados con 20
segmenti pari a 311 parole contro le 119 parole del sistema IBM.
Per quanto riguarda i casi di Fuzzy match il sistema IBM non fornisce
dettagli quali il sistema Trados e quindi il confronto dei risultati vede
la somma dei valori No match di Trados (46 segmenti pari a 924
parole) a confronto con il valore genericamente indicato dal
programma IBM (1544 parole).
Il risultato finale sulla quantità di testo ancora da tradurre (No match)
riporta 325 segmenti pari a 5037 parole per Trados contro 4493 parole
per IBM.
Trados IBM
Exact match 311 119
Fuzzy match 924 1544
No match 5037 4493
Totale 6272 6227
Prove sperimentali 95
Il valore differente di totale numero parole porta alla seguente tabella
di valori normalizzati:
Trados IBM
Exact match 4,96 1,91
Fuzzy match 14,74 24,79
No match 80,30 73,30
Totale 100 100
Tale risultato non è da intendersi a favore del sistema Trados rispetto a
quello IBM in quanto se ad una approssimativa analisi si potrebbe
concludere che il sistema Trados individua una quantità maggiore di
Exact match e quindi richiede da parte del traduttore una quantità
minore di interventi per completare la traduzione, in realtà è la
quantità di Fuzzy match individuata a fornire un valido metro di
paragone. Il sistema IBM è superiore in questo caso di un 10% circa
(24,79 contro 14,74) rispetto al concorrente. Questo significa che il
prodotto IBM è più efficace proprio in quel terreno meno definito dei
Fuzzy match utili al professionista come suggerimenti per completare
il proprio compito.
Si noti infine come la quantità di No match sia paragonabile a meno di
un 7% sempre a favore del sistema IBM.
96 Prove sperimentali
4.3 Efficienza in relazione ad un testo campione (nuovo)
4.3.1 Risultati ottenuti
Si vuole determinare il tempo impiegato dai due sistemi per:
• allineare due file per creare una nuova memoria;
• analizzare un file nuovo sottoposto a traduzione;
• esportare il file così pretradotto.
Trados WorkBench
Creazione memoria:
Tempo impiegato per l'allineamento: 18 secondi
98 Prove sperimentali
Esportazione del file:
Il programma Trados prevede un successivo passaggio di pulizia dai
TAGS che si può far corrispondere alla fase di esportazione del file
pretradotto.
Tempo impiegato: 6 secondi
Prove sperimentali 99
IBM Translation Manager
Creazione memoria:
Tempo impiegato per l'allineamento: 5 secondi
Analisi del file da tradurre:
Traduzione automatica (analisi): 3,5 secondi
100 Prove sperimentali
Esportazione del file:
Tempo impiegato: 0,5 secondi
Conclusioni:
Trados IBM
Allineamento 18 s 5 s
Traduzione 23 s 3,5 s
Esportazione 6 s 0,5 s
Totale 47 s 9 s
La tabella mette in risalto i tempi complessivi ottenuti nelle prove
sperimentali per ottenere il testo pretradotto.
Prove sperimentali 101
4.3.2 Scalabilità
L’analisi della scalabilità consiste nella valutazione dei tempi di
risposta del sistema al variare della dimensione dei dati in input.
Lo scopo è quindi quello di verificare se, creata una memoria, la
pretraduzione di testi grandi il doppio o il quadruplo, generi
prestazioni lineari alla quantità di parole analizzate. A questo scopo si
è creata una nuova memoria allineando segmenti di testo pari a circa
7000 parole corrispondenti a 553 segmenti allineati, per poi sottoporre
ad analisi un testo nuovo composto da 20000 parole (2007 segmenti).
Successivamente si è analizzato il comportamento dei due sistemi con
testi nuovi corrispondenti al 25%, 50% e 75% del testo integrale di
20000 parole.
Trados WorkBench
25% 50% 75% 100% (20000 parole)
Traduzione 4,6 s 8,5 s 12,2 s 15,8 s
Esportazione 2,6 s 4,1 s 5,3 s 6,9 s
Totale 8,2 s 12,6 s 17,5 s 22,7 s
IBM TranslationManager
25% 50% 75% 100% (20000 parole)
Traduzione 4,8 s 8,2 s 11,4 s 14,8 s
Esportazione 1,1 s 1,1 s 1,1 s 1,2 s
Totale 6,2 s 9,3 s 12,5 s 16,3 s
102 Prove sperimentali
Da questo test si verifica come i sistemi forniscono risultati quasi
lineari all'aumentare della quantità di testo da pretradurre.
Scalabilità
8,2
12,6
17,5
22,7
6,29,3
12,5
16,3
0,0
5,0
10,0
15,0
20,0
25,0
30,0
25% 50% 75% 100%
Quantità di frasi
Sec
on
di i
mp
ieg
ati
Trados
IBM
Figura 4.51 – Scalabilità dei sistemi
4.4 Caratteristiche dell’esperimento
E’ stato utilizzato il seguente Personal Computer:
Pentium III - 700 MHz (microprocessore Intel) con 512 MB RAM.
Il testo sottoposto a traduzione automatica è il file descrittivo delle
caratteristiche della versione "V" del programma DeLuxe Paint,
mentre la memoria utilizzata è stata ottenuta allineando con se stesso
il file della versione "III".
Note sul calcolo dell'efficienza
Per quanto riguarda il programma Trados si osserva che la traduzione
in automatico avviene in due fasi distinte, la prima di pretraduzione
con aggiunta del testo trovato in memoria al testo originale (distinti
tramite marcatori nascosti), la seconda con l'eliminazione del testo
originale indicato come identico a quello proposto dalla memoria. Si
tratta quindi di sommare due tempi.
Si tenga inoltre in considerazione che l'analisi con il programma IBM
Translation Manager non fornisce in output direttamente il file
pretradotto vero e proprio in quanto si lavora nell'ambiente
Prove sperimentali 103
proprietario del programma. L'output del file si ottiene solo con una
successivo comando di esportazione che genera il file vero e proprio
nel formato originale. Anche in questo caso quindi si devono
considerare i tempi delle due fasi.
Analisi dei risultati 105
Capitolo 5 Analisi dei risultati
Scopo di questo capitolo è quello di analizzare i risultati ottenuti dai
due sistemi di traduzione assistita sia in relazione a quelli che sono i
risultati ideali sia confrontando le caratteristiche proprie di ciascuno.
5.1 Commento ai risultati
5.1.1 Caratteristiche comuni
Entrambi i programmi consentono innanzitutto di creare una memoria
di analisi mettendo in allineamento due testi precedentemente tradotti
(sorgente/traduzione) grazie ad un'interfaccia grafica a due finestre
verticali. L'allineamento risulta essere più difficoltoso nell'ambiente
IBM TranslationManager in quanto si basa sull'uso o di comandi posti
menu a tendina o di combinazioni di tasti da apprendere
mnemonicamente. L'interfaccia del prodotto Trados risulta invece
estremamente ben realizzata e intuitiva per l'utente.
106 Analisi dei risultati
Entrambi i prodotti permettono l'importazione di vari formati dei file,
sia per la realizzazione della memoria sia per quanto riguarda la fase
di traduzione vera e propria. Il prodotto IBM TranslationManager
risulta però essere meno aggiornato e addirittura non predisposto nei
riguardi di programmi di impaginazione avanzata. Entrambi si
prestano bene invece alla gestione dei più comuni formati di
videoscrittura.
Entrambi possiedono un formato proprietario della memoria ma
comunque dotato di possibilità di esportazione in comuni file di testo.
5.1.2 Differenze
L'interfaccia utente è decisamente un elemento di differenza tra i due
prodotti. Il prodotto Trados infatti si interfaccia direttamente o con il
programma di videoscrittura o comunque consente la gestione dei file
direttamente nel loro formato nativo senza imporre alcuna conversione
(salvo casi specifici). Il prodotto IBM invece costringe l'utente ad
importare nel proprio ambiente di lavoro i file trasformandone con
opportuni filtri il formato. Se da un lato questo porta ad una
uniformità di interfaccia indipendente dal formato specifico dei file
sottoposti a traduzione, d'altro canto limita la libertà e l'intuitività delle
operazioni eseguibili sui file.
La principale differenza tra i risultati ottenuti dai due applicativi è la
capacità del prodotto IBM TranslationManager di individuare e quindi
suggerire anche sottoparti di segmento. Questa sua caratteristica
ovviamente è legata, come si è visto, alla lunghezza della parte
suggerita. Se essa risultasse troppo corta in relazione alla lunghezza
del segmento presente in memoria, il suggerimento verrebbe a
mancare. Il prodotto Trados fornisce invece una serie di risultati più
rigidi anche se affiancati da tool secondari importanti (vedi §5.1.4
"Strumenti aggiuntivi" a pagina 7).
Per quanto riguarda le prestazioni dei due prodotti (si veda §4.3
"Efficienza in relazione ad un testo campione (nuovo)" a pagina 7)
ovviamente i risultati in termini di tempo di esecuzione sono
difficilmente confrontabili. Questi risultati a favore del prodotto IBM
Analisi dei risultati 107
sono influenzati dall'approccio di base al problema dell'interfaccia con
l’utente che nel caso IBM prevede la trasformazione dei formati nativi
in un formato proprio, mentre nel caso di Trados prevede il
mantenimento del formato stesso a favore di un utilizzo conservativo
direttamente nell'applicativo che ha realizzato il testo da tradurre.
Nel caso di Trados si deve però riconoscere che ciò è vero solo nel
caso di file di videoscrittura dal formato comune, in quanto in caso di
specifici formati di impaginazione (Quark Xpress, PageMaker,
FrameMaker - si veda "Tool di conversione formati" a pagina 7) anche
qui si è costretti alla trasformazione dei formati arrivando in casi
particolari all'utilizzo di un formato proprietario (Trados Tag Text -
TTX) simile al formato XML.
5.1.3 Limiti
Un primo limite dei sistemi di traduzione assistita descritti è la
necessità di apprendere l'uso specifico di differenti componenti per
ciascuna suite. Ciascuna di queste componenti è da considerarsi come
un programma vero e proprio e come tale va appreso nei minimi
dettagli per ottenere da esso il massimo delle prestazioni e
l'individuazione dei limiti. Trados ha cercato di ovviare a questo
problema centralizzando nel programma WorkSpace (vedi §2.1.1.1
"WorkSpace" a pagina 7) l'accesso al progetto traduzione e ai vari
programmi della suite. IBM ha ridotto il numero di strumenti totale
introducendo il concetto di scrivania di lavoro centralizzata in maniera
simile all'altro programma, ma comunque fornendo una serie di
finestre che riportano al problema della conoscenza specifica delle
singole sottoparti di programma.
Infine entrambi si basano su un approccio example based al problema
della traduzione assistita che non tiene conto delle eventuali sottoparti
presenti in memoria, e quindi non sono in grado di fornire
suggerimenti per sottoparti di segmento. Questo limite non è proprio
dei sistemi example based, piuttosto sembra essere uno scarso
sviluppo ed implementazione di algoritmi di ricerca e di metrica di
similarità tra segmenti. A questo proposito infatti esistono efficaci
108 Analisi dei risultati
studi sulla ricerca di similarità su base sintattica tra cui il recente
sviluppo dell’ambiente EXTRA presso l’Università di Modena e
Reggio Emilia [15].
Dalle prove sperimentali condotte risulta infine che il prodotto IBM è
dotato di una capacità di indicizzazione del testo superiore a quella del
prodotto Trados, data la sua capacità di suggerire anche traduzioni per
sottoparti non troppo brevi di segmento.
5.1.4 Strumenti aggiuntivi
Solo Trados fornisce MultiTerm (glossario), strumento in grado di
suggerire termini singoli o successioni di termini come aiuto in fase di
traduzione on-line. Il prodotto IBM consente anch'esso la ricerca in
dizionari specifici dall'interfaccia però meno intuitiva.
Trados consente inoltre l'estrazione di termini da testi sottoposti a
traduzione per la creazione di glossari puntuali o per sottoporre tali
liste ad altri strumenti di ricerca o TM (vedi §2.1.1.4"ExtraTerm" a
pagina 7).
5.2 Deduzione del modello
Entrambi i prodotti si sono rivelati privi di ogni spiegazione sul
modello di analisi del testo adottato. La spiegazione di tale
riservatezza va ovviamente ricercata nel segreto industriale. Si noti
come addirittura il modello di memoria del prodotto Trados stia per
essere sottoposto a crittografia per garantirne il non utilizzo da parte di
software di terze parti [4].
Per quanto riguarda il modello adottato da IBM TranslationManager si
può affermare che esso effettua una rianalisi di un segmento appena
questo si discosta da quello presente in memoria di una certa quantità
di parole. Tale rianalisi viene effettuata allo scopo di ricercare ulteriori
suggerimenti per sequenze di parole non riconosciute e presenti
all’interno di un segmento in fase di traduzione. Questa nuova analisi
ovviamente può essere descritta come una reiterazione (nested loop)
del primo processo di ricerca di traduzione in memoria effettuata ad
Analisi dei risultati 109
un secondo livello questa volta specificatamente sulla sequenza
contaminante il segmento.
Il prodotto Trados invece non rimette in analisi parti di frasi non
riconosciute e quindi semplicemente indica una distanza maggiore tra
il segmento in fase di traduzione e quello presente in memoria.
Limiti attuali dei programmi commerciali 111
Capitolo 6 Limiti attuali dei programmi commerciali
6.1 Possibili sviluppi futuri
Gli attuali programmi di traduzione assistita che utilizzano un
approccio basato su esempio (EBMT - Example Based Machine
Translation), creano e gestiscono memorie (banche dati) di segmenti
in lingua sorgente in associazione con altri segmenti in lingua target.
Nel capitolo Capitolo 4 “Prove sperimentali” a pagina 7 sono stati
analizzati i prodotti Trados e IBM TranslationManager e si è ottenuto
una verifica del fatto che il loro approccio sia valido per cambiamenti
di minore entità, mentre per modifiche sostanziali o ricerche di
sottoparti di segmento sia inefficace. Tale approccio è forse l’unico
possibile? Esistono miglioramenti che possono essere richiesti agli
attuali programmi di traduzione assistita per risultare più efficaci? Con
quali criteri confrontare i vari sistemi di traduzione assistita?
112 Limiti attuali dei programmi commerciali
Si proverà qui di seguito a indicare possibili sviluppi ai limiti degli
attuali programmi in commercio di questo genere, ricordando l’ottimo
risultato ottenuto dal prodotto EXTRA sviluppato presso l’Università
di Modena e Reggio Emilia [15].
6.1.1 Approccio grammaticale
Un ottimo spunto per i futuri programmi di traduzione assistita è
l’approccio basato sull’analisi grammaticale di una lingua. Lo stesso
vale anche per la una combinazione tra quest’ultimo e il classico
approccio example based (sistemi ibridi).
L'approccio grammaticale è caratterizzato dai seguenti elementi:
• Allineamento delle parti elementari di una frase: soggetto,
verbo, complemento oggetto e quanto altro compone una frase;
a questo proposito si segnala il programma MORPHIX che
fornisce un robusto algoritmo per la scomposizione di frasi [7]
(efficient and robust lexically-driven parser);
• Traduzione di testo "unrelated": oltre alla traduzione di testo
presente in memoria e simile sarebbe interessante vedere un
suggerimento (basato su regole grammaticali certe) anche per
frasi non presenti in memoria; come dire una traduzione "parola
per parola" ma efficiente e corretta [17].
Da qui i due tipi di approccio TMS-Translation Memory System ("a
TMS stores in a computer all translations made by a translator. In
case of re-translation, these translations are retrieved automatically")
e MT-Machine Translation ("an MT system applies grammatical rules
and information from dictionaries to a given source sentence in order
to translate it") devono trovare punti di contatto: infatti nel primo caso
un traduttore che si fida della memoria presente nel TMS procederà
con la traduzione delle sole parti nuove, al contrario in un contesto
MT il traduttore dovrà verificare che la macchina abbia suggerito
correttamente e in molti casi dovrà correggere l'output fornito
dall'MT. Sembrerebbe perciò che l'MT, che cerca di sostituirsi al
traduttore e per questo motivo è soggetto ad errore, sia peggiore del
Limiti attuali dei programmi commerciali 113
TMS. Sappiamo però che l'MT ha anche la capacità di scomporre una
frase in sottoparti "atomiche" che potrebbero essere analizzate
successivamente da un sistema MT. Per questo motivo sarebbe
auspicabile l'integrazione delle caratteristiche di scomposizione
dell'MT nei tool del TMS.
Si veda a questo proposito [9] la dichiarazione in cui si suggerisce da
parte del responsabile ricerca e sviluppo della società Trados di
integrare la cosiddetta "proposal machine" o MT nel sistema TMS
(Trados).
Alla stessa conclusione giungono Michael Carl e Silvia Hansen [3] nel
loro "Linking Translation Memories with Example-Based Machine
Translation" affermando che "più un sistema MT è abile nel
decomporre e generalizzare le frasi da tradurre, per poi ricomporle,
maggiore sarà la sua efficacia. Una combinazione di differenti
approcci al problema sembrano essere la chiave per incrementare i
risultati globali ottenibili". Arrivando a concludere che "un sistema
TMS raggiunge precisioni di traduzione superiori quando può
individuare nel proprio database match molto prossimi, mentre
quando il testo in memoria non contiene alcuna similarità sono
migliori gli approcci tramite Lexeme-based translation memory
(LTM)".
6.1.2 Approccio sintattico
L’approccio sintattico si basa sulla definizione di una nuova metrica di
similarità e sulla creazione di una nuova tecnica di ricerca. L’ambiente
EXTRA ne è un esempio [15]. Tramite questo approccio è infatti
possibile ottenere suggerimenti di traduzione fornendo in particolare
anche indicazioni in lingua sulla traduzione di sottoparti. Oltre a
questo aspetto innovativo sono inoltre possibili calibrazioni tramite
filtri personalizzabili al fine di migliorare l’efficienza del processo di
ricerca [13][14].
6.1.3 Criteri di valutazione standardizzati
114 Limiti attuali dei programmi commerciali
Si dovrebbe cercare di individuare nuovi criteri di valutazione per i
programmi CAT che tengano conto dei differenti approcci che si
possono seguire riguardo il problema della traduzione e che
forniscano quindi una valutazione complessiva e obiettiva dello
strumento CAT [12].
In particolare si possono individuare il "user-oriented evaluation
criteria". Questa valutazione dovrà tenere conto dell'attinenza della
traduzione fornita con il settore linguistico del testo sorgente, il
rispetto delle formattazioni originali, le ricerche all’interno del testo e
tutte le "classiche" problematiche delle GUI (Graphic User Interface).
Un altro metro di misura sarà il cosiddetto "linguistic criteria". Esso
dovrà tenere conto del rispetto della grammatica e delle espressioni
linguistiche proprie di ciascuna lingua.
Il "technical criteria" dovrà invece tenere conto dell'apertura del
modello software utilizzato, al fine di non pregiudicare sviluppi futuri,
scalabilità, modularità, costo della manutenzione del sistema; a questo
proposito ci sarà anche un "economic criteria" per individuare il costo
per licenza del prodotto, i conseguenti costi di follow-up (architettura
hardware da implementare). Il "strategic criteria" infine considererà i
fattori di espandibilità del prodotto in relazione alle mutevoli esigenze
di business delle aziende.
Conclusioni e futuro della Traduzione Assistita 115
Capitolo 7 Conclusioni e futuro della Traduzione Assistita
L'analisi degli attuali programmi CAT ha indicato quali siano ad oggi
i limiti della traduzione assistita da calcolatore, rilevando soprattutto
la loro incapacità di riconoscere sottoparti di segmento. L'uso di
sistemi di tipo example based machine translation basati su
Translation Memory (TM) e algoritmi di ricerca si è rivelato non
sufficiente a garantire un'elevata qualità della traduzione e il recupero
delle informazioni eventualmente presenti in più sorgenti di dati,
qualora non siano presenti direttamente in memoria.
Come indicato nel capitolo 6.1 "Possibili sviluppi futuri" una
promettente direzione da seguire è, per alcuni studiosi, quella di
integrare gli attuali sistemi basati su TM con sistemi basati su
proposal machine [9]. Lo studio di nuovi sistemi di traduzione
assistita è oggi infatti indirizzato verso la Machine Translation e il
Natural Language Processing, intendendo con questo sistemi di
traduzione automatici ed evoluti, in quanto in grado di avvicinarsi alla
116 Conclusioni e futuro della Traduzione Assistita
qualità della traduzione umana [10]. Il recente aumento delle richieste
di traduzioni in ambito commerciale da parte di colossi giapponesi
come Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi,
Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki ma
anche da parte di realtà degli Stati Uniti (Motorola) e del nord Europa
(Nokia, Ericsson) ha portato ad una intensificazione delle ricerche per
lo sviluppo di sistemi automatici di traduzione di questo genere.
Anche la realtà di Internet ha incrementato tali ricerche, si veda ad
esempio come CompuServe abbia introdotto da alcuni anni un
servizio di traduzione automatica basato sul sistema Transcend
sviluppato da Intergraph. La stessa Commissione Europea ha adottato
rapidamente il sistema Systran per poter tradurre in tutte le lingue
della comunità le migliaia di leggi, note, documenti che ogni giorno
produce e deve rendere disponibili a tutti i paesi.
Nuove soluzioni si sono quindi affacciate sul mercato con sistemi
basati tipicamente su mainframe come AppTek (www.apptek.com),
CITAC (www.citac-mt.com), EJ Bilingual (www.onesource.com),
LEC (www.lec.com), Neocor, PC-Translator, e Globalink. Tali
soluzioni sono basate sui più recenti studi del Natural Language
Processing (NLP) e sono solitamente specifiche per settore (cliente) e
coppia di lingue.
Ovviamente i produttori di software non specifici, quali Trados, IBM
e altri, non sono rimasti insensibili a questa crescita di soluzioni
specifiche e se da un lato hanno abbassato il costo delle proprie
soluzioni basate su Translation Memory (per aumentare il proprio
bacino d’utenza), dall'altro hanno tentato un'evoluzione specifica dei
propri prodotti. Ad esempio Personal Translator, è un prodotto
realizzato con la collaborazione tra IBM e von Rheinbaben & Busch:
basato su un sistema LMT (Logic-Programming based Machine
Translation) è disponibile come componente aggiuntivo MT per IBM
TranslationManager. Altri sistemi basati su PC sono Hypertrans per
traduzioni tra italiano e inglese, il sistema Al-Nakil per arabo, francese
e inglese, il sistema Winger per danese-inglese, francese-inglese e
Conclusioni e futuro della Traduzione Assistita 117
inglese-spagnolo e il sistema TranSmart della Kielikone Ltd per
finnico-inglese.
In particolare quanto più il Natural Language Processing è stato
oggetto di studio nei dipartimenti di ricerca e sviluppo, uscendo
dall'area della sola ricerca teorica, tanto più le società di Information
Technology hanno potuto realizzare prodotti basati su tale
metodologia. Ad esempio sia Winger che TranSmart hanno sviluppato
prodotti specifici per alcuni loro clienti; nel caso di TranSmart, si è
trattato inizialmente dello sviluppo di un sistema per Nokia
Telecommunications, per giungere in seguito a nuove versioni
installandole anche in altre compagnie di telecomunicazioni
finlandesi. Allo stesso modo la GSI-Erli che per le proprie esigenze ha
sviluppato un sistema di traduzione combinando un motore MT con
altri strumenti su una piattaforma già esistente (AlethTrad), ha reso
poi disponibile il sistema stesso ai propri clienti.
Altri ambiti di ricerca
Un altro settore di ricerca è quello indirizzato verso lo sviluppo di
sistemi di traduzione della parola che combinano l'uso del calcolatore
con i più recenti studi sulle reti neurali.
Altri ambiti di ricerca sono il parallel processing, l'approccio
sintattico-statistico all'analisi del testo, la scomposizione secondo
regole grammaticali, l'uso di sistemi ibridi che utilizzano più approcci
contemporaneamente.
E' quindi ragionevole concludere che l'attuale stadio di sviluppo dei
sistemi commerciali EBMT, con i sopradescritti punti di forza e limiti,
è insufficiente a soddisfare le notevoli richieste del mercato. Per
questo motivo la ricerca di soluzioni MT innovative, più efficaci ed
efficienti, sarà oggetto di ulteriori studi da parte dell’ambiente
scientifico e dell'industria [13][14][15].
Fonti e riferimenti bibliografici 119
Fonti e riferimenti bibliografici
[1] R.Baeza-Yates and B.Ribeiro-Neto, Modern Information
Retrieval. Addison Wesley, 1999
[2] R.D.Brown, Example-Based Machine Translation in the
Pangloss System. In Proceedings of the 16th International
Conference on Computational Linguistics (COLING-96), p. 169-
174. Copenhagen, Denmark, August 5-9, 1996.
[3] M.Carl, S.Hansen, Linking Translation Memories with Example-
Based Machine Translation. Institut für Angewandte
Informationsforschung, Martin-Luther-Straße 14, 66111
Saarbrücken, Germany - [email protected]
[4] Champollion, WordFast, interfaccia alternativa e gratuita per
utilizzare eventuali memorie Trados o crearne di nuove.
www.champollion.net
120 Fonti e riferimenti bibliografici
[5] P.Ciaccia, Dispense corso di Sistemi Informativi II, Università
degli studi di Bologna, Facoltà di Ingegneria, Dipartimento
CSITE-CNR
[6] Expert Advisory Group on Language Engineering Standards
(EAGLES). www.ilc.pi.cnr.it/EAGLES/home.html
[7] W. Finkler and G. Neumann, Morphix: a fast realization of a
classification-based approach to morphology. In H Trost, editor,
Proceedings of 4th ÖFAI, Berlin, 1988. Springler.
[8] L.Gravano, P.G. Ipeirotis, H.V.Jagadish, N.Koudas,
S.Muthukrishnan and D.Srivastava, Approximate String Joins in
a Database (Almost) for Free. In Proceeding of 27th VLDB
Conference, 2001.
[9] M.Heyn, Integrating Machine Translation into Translation
Memory Systems. In EAMT Workshop, TKE’96, Vienna,
Austria, 29 and 30 August 1996; in particolare i paragrafi 3 (MT
as an “add-on”) e 4 (Integrating MT into TMS),
www.eamt.org/archive/vienna.pdf
[10] J.Hutchins, Computer-based translation systems and tools.
ELRA Newsletter vol.1 no.4, www.eamt.org, December 1996.
www.eamt.org/archive/hutchins_intro.html
[11] IBM TranslationManager,
www-3.ibm.com/software/ad/translat/tm/
[12] E.Maier, A.Clarke, H.-U. Stadler, Evaluation of machine
translation systems at CLS Corporate Language Services AG.
MT Summit VII ’99, September 13-17, 1999, Singapore.
it.jeita.or.jp/aamt/mtsummit99. CLS Corporate Language
Services AG and Canoo Engineering AG. www.sail-
labs.com/products/CLS.pdf
[13] F.Mandreoli, R.Martoglia and P.Tiberio, A Syntactic Apprroach
for Searching Similarities within Sentences, In Proc. Of the 11th
Conference of Information and Knowledge Management
(CIKM), 2002
Fonti e riferimenti bibliografici 121
[14] F.Mandreoli and R.Martoglia and P.Tiberio, Searching Similar
(Sub)sentences for Example Based Machine Translation, In Proc.
of the 10th convegno su Sistemi evoluti per Basi di Dati (SEBD),
2002
[15] R.Martoglia, EXTRA: Progetto e Sviluppo di un Ambiente per
Traduzioni Multilingua Assistite. Tesi di Laurea presso
l’Università degli studi di Modena e Reggio Emilia. Anno
accademico 2000/2001.
[16] S.Nirenburg, S.Beale and C.Domashnev, A Full-Text Experiment
in Example-Based Machine Translation, School of Computer
Science, Carnegie Mellon University
[17] R.Rapp, Automatic Identification of Word Translations from
Unrelated English and German Corpora. University of Mainz,
FASK (Germany) January 1999
[18] G. Salton, M.J. McGill, Introduction to Modern Information
Retrieval. Mc-Graw-Hill, 1983
[19] Sythema,
http://www.synthema.it
[20] Trados Corporation,
www.trados.com