10
Manutenzione TM con OKAPI OLIFANT Luciano Drusetta © 2014 1 Olifant è un software gratuito sviluppato dalla Okapi che serve a facilitare la gestione delle memorie di traduzione di Wordfast (in formato txt) ed SDL-Trados (in formato tmx). In inglese si chiamano TM files; d'ora in poi ci riferiremo a questo tipo di file con espressioni quali: TM, file di TM, "file di memoria" o anche semplicemente "memoria" o "memorie". Possiamo scaricare Olifant qui: http://okapi.sourceforge.net/downloads.html Ad ogni nuovo utilizzo, Olifant ripropone l'ultima memoria su cui abbiamo lavorato: Una volta installato il programma e aperta una memoria qualsiasi, si apre una finestra di questo tipo: Cliccando sulla seconda icona da sinistra oppure accedendo alla voce di menù File -> Open… possiamo scegliere altri file di memoria da aprire:

Manutenzione TM con OKAPI OLIFANT di Luciano Drusetta

Embed Size (px)

DESCRIPTION

I passi che personalmente consiglio di fare per una efficace manutenzione dei file di memoria, partendo dalla schermata iniziale del programma. Olifant è un software gratuito sviluppato dalla Okapi che serve a facilitare la gestione delle memorie di traduzione di Wordfast (in formato txt) ed SDL-Trados (in formato tmx). In inglese si chiamano TM files.

Citation preview

Page 1: Manutenzione TM con OKAPI OLIFANT di Luciano Drusetta

Manutenzione TM con OKAPI OLIFANT

Luciano Drusetta © 2014

1

Olifant è un software gratuito sviluppato dalla Okapi che serve a facilitare la gestione delle memorie di

traduzione di Wordfast (in formato txt) ed SDL-Trados (in formato tmx). In inglese si chiamano TM files;

d'ora in poi ci riferiremo a questo tipo di file con espressioni quali: TM, file di TM, "file di memoria" o anche

semplicemente "memoria" o "memorie". Possiamo scaricare Olifant qui:

http://okapi.sourceforge.net/downloads.html

Ad ogni nuovo utilizzo, Olifant ripropone l'ultima memoria su cui abbiamo lavorato:

Una volta installato il programma e aperta una memoria qualsiasi, si apre una finestra di questo tipo:

Cliccando sulla seconda icona da sinistra oppure accedendo alla voce di menù File -> Open… possiamo

scegliere altri file di memoria da aprire:

Page 2: Manutenzione TM con OKAPI OLIFANT di Luciano Drusetta

Manutenzione TM con OKAPI OLIFANT

Luciano Drusetta © 2014

2

Da notare che in basso a destra del campo Nome file ci viene chiesto di scegliere se aprire memorie

"Trados" (in formato tmx) o memorie "Wordfast" (in formato txt). Nella schermata riprodotta qui sopra, la

cartella HU-IT è vuota solo all'apparenza, in quanto contiene solo memorie in formato txt; e non le

possiamo vedere perché il tipo di file è impostato su TMX. Con Olifant possiamo anche trasformare le

memorie dal formato TMX a quello TXT e viceversa; ma a questo scopo personalmente preferisco usare il

programma gratuito Wf2Tmx.exe che è possibile scaricare anche dal mio sito. Si tratta di un piccolo

programmino eseguibile (non si installa) che vi rendo disponibile anche qui:

https://dl.dropboxusercontent.com/u/4100687/Wf2Tmx.exe

Personalmente uso Olifant al posto di una "vecchia" ma efficientissima macro di Christine Alba (scaricabile

anche qui: https://dl.dropboxusercontent.com/u/4100687/Wfmt.xlt) che permette di aprire le memorie

Wordfast in Excel e procedere quindi ad alcune operazioni di facile manutenzione, molte delle quali però

sono offerte anche da Olifant - che preferisco, anche perché aprire le memorie di Wordfast in Excel può

comportare alcuni inconvenienti.

Il primo è legato al fatto che quando si importa in Excel un file di testo separato da tabulazioni (come sono

le memorie di Wordfast) Excel tende ad aggiungere delle fastidiose virgolette all'inizio e alla fine di ogni

segmento. Teoricamente la cosa è risolvibile facendo particolarmente attenzione al secondo passaggio

della procedura di importazione guidata, illustrato oui sotto:

Page 3: Manutenzione TM con OKAPI OLIFANT di Luciano Drusetta

Manutenzione TM con OKAPI OLIFANT

Luciano Drusetta © 2014

3

Nella schermata possiamo notare che il campo Qualificatore di testo mostra il carattere " che è

l'impostazione predefinita. Ebbene, questo campo andrebbe settato su Nessuno. Ma anche così, il rischio

che Excel aggiunga le fastidiose virgolette è reale e… sempre in agguato. Questo potrebbe non essere un

problema per memorie di minore estensione; ma talune memorie, come quelle prodotte dall'Unione

Europea (http://ipsc.jrc.ec.europa.eu/index.php/Traineeships/197/0/#c2744), possono contenere

parecchie migliaia di TU (Translation Unities, cioè accoppiate di porzioni di testo in lingua originale (source)

e relativi traducenti (target); per comodità d'ora in poi le chiamerò "segmenti"). In memorie così

voluminose l'aggiunta anche di un solo carattere a ciascun segmento può appesantire notevolmente il file.

Dopo ciascuna sessione di manutenzione in Excel con la macro che vi ho detto (e della quale magari tornerò

a parlarvi in dettaglio in futuro), è dunque opportuno riaprire la memoria in Word e procedere a un "trova

& sostituisci" per rimuovere non solo le fastidiose virgolette, ma anche taluni codici (tipicamente

caratterizzati dalla presenza del segno & preceduto o seguito da un apostrofo e da un numero o una

lettera) che si vengono a creare nel file di memoria in sostituzione di particolari segni grafici, come per

esempio i trattini lunghi ( – ), gli apostrofi o virgolette semplici "inglesi" ( ʻ e ʼ ), le doppie virgolette "inglesi"

(˵ e ˶), quelle "francesi" (« e ») e altri fastidiosi codici eventualmente presenti nei segmenti. Anche questa

operazione, su memorie particolarmente voluminose può diventare complessa e arrivare addirittura a

"congelare" anche i computer più brillanti.

Con Olifant si risolve il problema alla radice: l'apertura delle memorie in Olifant non comporta alcuna

operazione di conversione o di aggiunta di caratteri "strani". Inoltre, è possibile svolgere molto

rapidamente le stesse funzioni di quella macro Excel (tranne una, che vi dirò in seguito). Vediamo i passi

che personalmente consiglio di fare per una efficace manutenzione dei file di memoria, partendo dalla

schermata iniziale che vi ripropongo qui di seguito.

Page 4: Manutenzione TM con OKAPI OLIFANT di Luciano Drusetta

Manutenzione TM con OKAPI OLIFANT

Luciano Drusetta © 2014

4

Come prima cosa, vi consiglio di ordinare i segmenti in ordine alfabetico sul testo originale. Per farlo,

clicchiamo sulla decima icona da sinistra caratterizzata da una a minuscola sovrapposta a una z

minuscola affiancate da una doppia freccia verticale. L'icona corrisponde al comando SORT ORDER

(Cntr+R), che apre questa finestra:

Cliccando su Examples… ci vengono proposti alcuni possibili esempi di ordinamento del testo. Per ordinarlo

sul testo originale scegliamo Sort by source, in key ascending order e poi clicchiamo su Set sort.

Fatto questo, consiglio di usare la pratica funzione di Find And Replace di Olifant per togliere eventuali

virgolette o qualsiasi altro carattere "di disturbo" da TUTTO il file di memoria, sia source che target. Questa

operazione è importante specialmente se in precedenza abbiamo usato la macro Excel sullo stesso file di

memoria, e/o se pensiamo di usarla ancora in futuro sullo stesso file. Troviamo il comando Find And

Replace nella seconda voce di menù (Edit), oppure usando la combinazione di tasti Cntr+H.

Con questo comando possiamo trovare e sostituire qualsiasi cosa; per esempio possiamo sostituire un

traducente con un altro, o possiamo cancellare eventuali caratteri o spazi o tag che desideriamo eliminare

per snellire la memoria di traduzione. Possiamo cancellare asterischi o trattini o altri simboli particolari; se

Page 5: Manutenzione TM con OKAPI OLIFANT di Luciano Drusetta

Manutenzione TM con OKAPI OLIFANT

Luciano Drusetta © 2014

5

ne possono trovare specialmente all'inizio del segmento, residui di eventuali elenchi puntati o numerati

segmentati male. Li chiamo "caratteri di disturbo" perché più caratteri non testuali ci sono in un segmento,

minore è la probabilità che il CAT riconosca l'eventuale percentuale di match del segmento stesso.

Provo a spiegarmi con un esempio. Supponiamo di trovarci di fronte alla frase avvitate il bullone B, che

abbiamo già tradotto sicuramente in passato. Però mettiamo che nella nostra memoria la frase sia stata

salvata così:

- avvitate il bullone "B"

oppure così:

1) avvitate il bullone B

Stando così le cose, difficilmente un CAT sarà in grado di riconoscere il segmento già presente in memoria

come un full match della frase avvitate il bullone B, proprio a causa dei caratteri non testuali presenti in

memoria e che per comodità ho evidenziato in giallo: nel primo caso, il trattino seguito dallo spazio e le

virgolette che incorniciano la lettera B; e nel secondo caso, il numero seguito da parentesi e dallo spazio

che precede la parola "avvitate".

Fatte queste piccole operazioni di pulizia preliminare, che tutto sommato sono opzionali, entriamo nel vivo

della manutenzione con la voce di menù Entries. Clicchiamoci sopra e scegliamo la voce Flag entries…

(Cntr+E). Corrisponde alla penultima icona da destra (quella a sinistra dell'icona di Help, caratterizzata

dal tipico punto di domanda), che apre questa finestra:

Qui consiglio di procedere per passi successivi. Infatti, nonostante Olifant sia un programma stabile e

veloce, se clicchiamo tutte insieme le caselle di spunta che ci interessano questo potrebbe rallentare il

Page 6: Manutenzione TM con OKAPI OLIFANT di Luciano Drusetta

Manutenzione TM con OKAPI OLIFANT

Luciano Drusetta © 2014

6

computer e in certi casi, perfino arrivare a "congelare" il programma, specialmente se stiamo lavorando su

un file di memoria particolarmente voluminoso.

Ecco l'ordine che consiglio di seguire:

I - Cercare ed eliminare i tag e altri codici

II - Cercare ed eliminare i segmenti vuoti

III - Cercare ed eliminare quei segmenti in cui il testo source e il testo target sono uguali

IV - Cercare ed eliminare i doppioni nei quali allo stesso testo source corrisponde lo stesso testo target

Se in una qualsiasi di queste operazioni Olifant non trova corrispondenze, possiamo passare al controllo

successivo. Se invece Olifant trova corrispondenze le "flagga". In questo secondo caso, la prima cosa da fare

è visualizzare solo i segmenti "flaggati" e poi decidere il da farsi: correggerli, cancellarli o lasciarli così come

sono, a seconda del caso. L'ultimo accorgimento prima di passare al controllo successivo è quello di

ripristinare la visualizzazione dell'intero file di memoria (non solo dei segmenti "flaggati").

Ma vediamo i passi in dettaglio, uno per uno.

I - Cercare ed eliminare i tag e altri codici

Nella finestra riprodotta più sopra, clicchiamo sulla casella di spunta Source or Target has inline code e poi

su OK. Così facendo indichiamo a Olifant di cercare tutti i segmenti che contengono particolari tag o codici.

Alla fine viene visualizzato il risultato della ricerca:

In questo caso, è stato trovato un solo segmento bilingue contenente codici. Naturalmente, ce ne

potrebbero essere molti altri, in altri file di memoria. Come possiamo notare, in questo momento non

sappiamo se il segmento ha dei codici o tag solo nel testo source, solo nel testo target, oppure in entrambi.

Clicchiamo su OK per andare oltre. Fatto questo, chiediamo di visualizzare solo i segmenti "flaggati", cioè

solo quei segmenti che risultano essere corrispondenti al nostro criterio di ricerca. Per farlo, clicchiamo

sull'ottava icona corrispondente al comando Set Filter For Flagged Entries. In questo caso, il filtro mi

visualizza l'unica TU contenente codici particolari:

Page 7: Manutenzione TM con OKAPI OLIFANT di Luciano Drusetta

Manutenzione TM con OKAPI OLIFANT

Luciano Drusetta © 2014

7

La grandezza del carattere del testo contenuti nei segmenti è regolabile a piacimento con la rotellina del

mouse. Qui ho evidenziato in blu il codice che ritengo sia utile cancellare: <ph>&amp;t2;</ph>

Confrontando il testo target e il testo source, mi pare di capire che questa combinazione di caratteri possa

corrispondere a un trattino oppure a un semplice spazio. Forse si trattava invece di un rimando

ipertestuale, per esempio una nota a piè di pagina. In ogni caso, credo che si possa tranquillamente

cancellare. Provvedo dunque alla sostituzione opportuna modificando direttamente il testo del segmento

target. Ma se invece di uno solo, ci fossero numerosi segmenti contenenti la stessa combinazione di codici,

conviene usare la funzione Find And Replace per eliminare rapidamente i codici indesiderati ed

eventualmente sostituirli con altro carattere. Per eliminarli basta non scrivere nessun carattere nel campo

Replace by.

Per essere sicuri di trovare tutti i codici, sia nella lingua originale che in quella di partenza, ricordiamoci di

spuntare sia la casella del testo source sia la casella del testo target, come nella figura qui sopra.

Prima di proseguire con i passi successivi, ripristiniamo la visualizzazione di tutti i segmenti cliccando

sull'icona Use Filter (F5), che ora appare incorniciata di blu:

II - Cercare ed eliminare i segmenti vuoti

Può capitare a volte che, per errori di segmentazione o di salvataggio delle TU, il file di memoria possa

contenere alcuni segmenti vuoti. Possiamo avere tre casi: 1) il segmento source contiene del testo, ma il

relativo segmento target è vuoto; 2) viceversa, il segmento source può essere vuoto mentre il target

contiene testo; oppure 3) possono essere vuoti sia il source che il target. Personalmente li elimino tutti in

un colpo solo, spuntando le caselle Source is empty e Target is empty:

Page 8: Manutenzione TM con OKAPI OLIFANT di Luciano Drusetta

Manutenzione TM con OKAPI OLIFANT

Luciano Drusetta © 2014

8

E' importante che ad ogni nuova ricerca, nel campo Fields siano spuntate (come nella schermata qui sopra)

anche le due caselle del testo target e del testo source, oltre alla casella in basso a sinistra Reset flags

before executing the selections. Quest'ultima casella fa sì che ogni nostra ricerca successiva non si

aggiunga a quelle che abbiamo eventualmente effettuato in precedenza. Avendo prima effettuato una

ricerca di TU contenenti codici, se ora non spuntiamo la casella Reset flag, oltre a cercare segmenti vuoti o

parzialmente vuoti, Olifant cercherà di nuovo eventuali segmenti contenenti codici.

Da qui, il procedimento è uguale a quello seguito nel caso precedente. Si apre una finestra che ci dice se

sono stati trovati segmenti corrispondenti al nostro criterio di ricerca, e quanti. Diamo l'OK e clicchiamo

sull'icona corrispondente al comando Set Filter For Flagged Entries. Facciamo le nostre valutazioni del

caso (correggere o eliminare i segmenti), e alla fine di tutto, ricordiamoci di cliccare di nuovo sull'icona Use

Filter (F5) incorniciata di blu: . Non vi ho ancora detto come cancellare i segmenti indesiderati? Nessun

problema: lo potete leggere più sotto.

III - Cercare ed eliminare quei segmenti in cui il testo source e il testo target sono uguali

Qui consiglio di cliccare sulla casella Source is the same as Target (case not sensitive). Ecco un possibile

risultato dopo aver cliccato su Set Filter For Flagged Entries:

Page 9: Manutenzione TM con OKAPI OLIFANT di Luciano Drusetta

Manutenzione TM con OKAPI OLIFANT

Luciano Drusetta © 2014

9

Qui troviamo nomi propri, indirizzi, località, formule… Se scegliamo l'opzione Source is the same as Target

(case sensitive) Olifant fa differenza tra maiuscole e minuscole; così potrebbe trovare, per esempio, un

segmento in cui il testo source è EUR e quello target è EUR, mentre ignorerà eventuali segmenti in cui il

testo source è EUR e quello target è Eur o viceversa.

Io sono di bocca buona e cancello inesorabilmente tutti i doppioni. Come si fa? Clicchiamo col mouse a

sinistra della casella che in questa schermata è evidenziata in blu, cioè nel primissimo riquadro a sinistra

della prima riga in alto della tabella. Poi andiamo a scorrere la tabella verso il basso fino a trovare l'ultima

riga. Lì teniamo premuto il tasto Maiuscole mentre clicchiamo col mouse nel riquadro a sinistra dell'ultima

riga della tabella. Così facendo, l'intera tabella verrà evidenziata e potremo eliminare tutti i doppioni in un

colpo solo con la semplice pressione del tasto Canc o Del.

Attenzione però: se il file di memoria è particolarmente voluminoso e i doppioni da cancellare sono diverse

migliaia, può essere prudente cancellare le TU a gruppetti di 1000-2000 alla volta, altrimenti Olifant

potrebbe dare la fastidiosa impressione di non rispondere (anche se magari lavora in background).

Poi ricordiamoci di cliccare ancora sull'icona Use Filter (F5) incorniciata di blu per tornare a visualizzare

l'intero file di memoria, esclusi ovviamente i segmenti che abbiamo eventualmente cancellato.

IV - Cercare ed eliminare i doppioni nei quali allo stesso testo source corrisponde lo stesso testo target

Qui consiglio di cliccare sulla casella Duplicate Source and Target (case not sensitive). Ecco un possibile

risultato:

Altri possibili esempi di segmenti ripetitivi possono essere: Articolo 1, Articolo 2, Capitolo 10, Allegato 3,

Nota Bene... Procediamo a cancellarli come fatto prima: cliccando sulla prima riga della tabella (rettangolo

vuoto a sinistra del rettangolo che qui vede evidenziato in blu) e poi sull'ultima riga della tabella tenendo

Page 10: Manutenzione TM con OKAPI OLIFANT di Luciano Drusetta

Manutenzione TM con OKAPI OLIFANT

Luciano Drusetta © 2014

10

premuto il tasto maiuscole, cioè SHIFT (sempre nel rettangolo vuoto a sinistra). Poi clicchiamo di nuovo

sull'icona Use Filter (F5) incorniciata di blu per tornare a visualizzare l'intera memoria, esclusi

ovviamente esclusi i segmenti che abbiamo eventualmente cancellato.

Resta un'ultima operazione di pulizia da fare, che però in Olifant ancora non ho capito bene come fare:

quella della ricerca ed eliminazione dei doppioni "parziali", cioè di quei segmenti che a parità di testo

source hanno due o tre possibili traducenti. Spesso si tratta di segmenti target apparentemente diversi, che

però mostrano piccolissime differenze di punteggiatura o di spaziatura, e che a mio avviso si possono

tranquillamente cancellare.

Questa è un'operazione nella quale la macro di Christine Alba è ancora insuperabile. Ve ne parlerò, se Dio

vuole, in un'altra occasione.

Luciano Drusetta © 2014