35
23 Luglio, 2015 - ILC Spring Seminars Traduco un ambiente Web collaborativo per la traduzione assistita di testi antichi Andrea Bellandi

un ambiente Web collaborativo per la traduzione assistita ... · Il Web costituisce l’ambiente di lavoro ideale per attività editoriali; a differenza delle ... interfaccia nel

  • Upload
    vudan

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

23 Luglio, 2015 - ILC Spring Seminars

Traducoun ambiente Web collaborativo per la traduzione

assistita di testi antichi

Andrea Bellandi

23 Luglio, 2015 - ILC Spring Seminars

◉ Genesi del Sistema Presentazione delle varie release del Sistema, sino alla sua versione finale “Gamma”.

◉ Servizi e Utenti Descrizione del Sistema rispetto ai profili di utenza e i relativi servizi offerti.

◉ Panoramica del Sistema Scelte progettuali e aspetti innovativi.

◉ Supporto alla TraduzioneDescrizione e valutazione del servizio di supporto alla traduzione.

◉ Informazione contestualeAnnotazione di porzioni di testo, creazione di glossari e note.

◉ Analisi della lingua Problematiche linguistiche e possibili scenari di soluzioni per l’analisi automatica delle lingue (Italiano, Ebraico).

◉ Lavori in corsoProssimi passi nello sviluppo del sistema.

23 Luglio, 2015 - ILC Spring Seminars 2015

Sommario

23 Luglio, 2015 - ILC Spring Seminars

Genesi del Sistema

Traduco

23 Luglio, 2015 - ILC Spring Seminars

Progetto Traduzione del Talmud Babilonese

Sviluppare un sistema Web-based che risponda a tre esigenze:

1. supportare il processo di traduzione del Talmud Babilonese in lingua

italiana; 2. produrre una edizione a stampa del Talmud tradotto;3. permettere la consultazione dell’opera in versione digitale.

Il Talmud babilonese:

● testo fondamentale del Giudaismo Rabbinico, costituito da trentasei trattati, riunisce e

commenta la “Legge Orale” rivelata al Popolo Ebraico insieme alla Torah (“Legge Scritta”);

● composizione molto articolata, che ha attraversato un processo di trasmissione prima orale

e poi scritto, venendo rielaborata ed ampliata nel corso dei secoli prima della sua redazione

finale;

● testo religioso, giuridico, letterario e folklorico;

● testo fondamentale per lo studio linguistico dell’ebraico rabbinico e dell’aramaico

babilonese.

23 Luglio, 2015 - ILC Spring Seminars

Genesi del Sistema Traduco

inizio analisi dei requisiti utente:maggio 2012

inizio sviluppo Sistema Talmud versione "Alfa": luglio 2012

rilascio versione "Alfa": settembre 2012

rilascio versione "Beta": settembre 2013

rilascio versione "Gamma":novembre 2014

analisi, progettazione e sviluppo del Sistema Talmud condotti in stretta collaborazione

con gli utenti

23 Luglio, 2015 - ILC Spring Seminars

Il Sistema Traducoversione "Alfa" (novembre 2012 – settembre 2013)

23 Luglio, 2015 - ILC Spring Seminars

Il Sistema Traducoversione "Beta" (settembre 2013 – ottobre 2014)

23 Luglio, 2015 - ILC Spring Seminars

Il Sistema Traducoversione "Gamma" (novembre 2014 – oggi)

23 Luglio, 2015 - ILC Spring Seminars

Servizi e Utenti

Traduco

23 Luglio, 2015 - ILC Spring Seminars

Servizi e Utenti

TraduzioneTraduco

Servizio alla

Ricerca sulla

Modulo CAT: Computer Assisted

Translation

Modulo Semantico:

Rappresentazione formale della conoscenza

Modulo TAL: Trattamento

automatico del linguaggio (italiano, ebraico)

traduttore

revisore

studiosi e ricercatori

Esportazione della

Modulo Stampa:

Preparazione traduzioni alla

stampa ed esportazione

editore

Moduli del sistemaTipologia di utenza

Servizi forniti dal sistema

Stampa di lavoro della

23 Luglio, 2015 - ILC Spring Seminars

Panoramicadel Sistema

Traduco

23 Luglio, 2015 - ILC Spring Seminars

Caratteristiche (1)

◉ Consultabile via Web ○ Il Web costituisce l’ambiente di lavoro ideale per attività editoriali; a differenza delle

applicazioni desktop, che richiedono installazioni di specifici programmi client sui computer di lavoro, le applicazioni cosiddette Web-based richiedono il solo utilizzo di un browser (e.g. Firefox, Safari, Chrome, ecc.) attraverso il quale l’utente può collegarsi al sistema in esecuzione su una macchina server remota;

◉ Collaborativo○ L’ambiente Web, unitamente alla robustezza dell’impianto tecnologico adottato,

consentono a un team di utenti (traduttori e revisori) di poter lavorare sugli stessi dati in modo collaborativo (circa 40 utenti sul Talmud);

◉ Predisposto per il trattamento della lingua e della conoscenza○ tecniche per il supporto alla traduzione, il trattamento automatico della lingua e l’

estrazione della conoscenza codificata nei testi;

23 Luglio, 2015 - ILC Spring Seminars

Caratteristiche (2)

◉ Tecnologie open-source ○ Lo sviluppo di software basato su tecnologie open-source e incoraggiato dalla

comunità scientifica. Java costituisce una delle piattaforme tecnologiche più robuste, testate e documentate per l’integrazione di sistemi “mission critical” che necessitano di un accesso distribuito, transazionalità delle sessioni, gestione della persistenza e ricche librerie di componenti di interfaccia;

◉ Adattabile a lingue diverse ○ Le componenti di analisi e trattamento della lingua in fase di sviluppo saranno

adattabili a lingue differenti in virtù della loro natura stocastica;

◉ Adattabile alla traduzione di altri testi ○ Il sistema sarà utilizzabile per la traduzione di altri testi con adattamenti minimi.

23 Luglio, 2015 - ILC Spring Seminars

Supporto alla traduzione

Traduco

23 Luglio, 2015 - ILC Spring Seminars

La traduzione● Nella traduzione di un testo:

● ogni traduzione, in generale, comporta una interpretazione del testo originario;

● una traduzione letterale non è, in genere, sufficiente a veicolare il significato originario di un

testo; in alcuni casi (come per la traduzione del Talmud), una traduzione letterale può

addirittura risultare del tutto incomprensibile.

● Per una traduzione accurata di un testo può rendersi necessario conoscere

molto bene i due contesti culturali: quello nel quale il testo originario è

stato redatto e quello di appartenenza del lettore del testo tradotto.

● Un sistema di supporto alla traduzione di testi antichi deve:● tenere di conto che, oltre al problema della velocità di traduzione, possono sussistere

particolari difficoltà nella traduzione di certi passaggi (e.g. importanza di suggerire anche

traduzioni non esatte);

● fornire al traduttore una serie di strumenti per la rappresentazione di informazioni

contestuali che possano aiutare nella riproduzione del significato del testo originario nella

lingua contemporanea.

23 Luglio, 2015 - ILC Spring Seminars

Tecnologie di supporto alla traduzione

● Computer Assisted Translation (CAT) vs. Machine Translation (MT)● CAT è una strategia di traduzione in base alla quale i traduttori utilizzano programmi per computer per

compiere parte del processo traduttivo;

● MT è un'area della linguistica computazionale della scienza della traduzione che studia la traduzione

di testi da un linguaggio naturale a un altro mediante programmi informatici;

● Se per MT si intende un sistema di traduzione completamente automatico, che prevede un intervento

umano molto limitato, nella CAT il software aiuta semplicemente il traduttore a velocizzare il

processo traduttivo.

● CAT● Utilizzata quando è presente coerenza fraseologica (la stessa idea e la stessa azione sono spesso

descritte in modo identico), e quando il testo è composto da frasi semplici e brevi, così che aumenta

la probabilità di ripetizione e diminuiscono i casi di ambiguità.

● MT● statistica: richiede corpora bilingue paralleli molto grandi;

● basata su regole: richiede la scrittura di grandi quantità di regole.

✓ trattati contengono strutture linguistiche ricorrenti;

✓ intere frasi si ripetono; ✓ il lessico utilizzato e relativamente “povero”

23 Luglio, 2015 - ILC Spring Seminars

Traduzione Assistita: Esempio

traduttore

TrattatiTalmud

אדם משקלקלו הבייתוסים התקינו שלאיהו מקבלין אלא מן המכירין

(“Da quando i Baitosei provocarono degli errori, i Maestri stabilirono che non si accettasse la

testimonianza se non da persone conosciute”)

(“In quel momento stabilirono anche che non si accettasse la testimonianza se non da persone

conosciute”)

Componente di supporto alla traduzione

FuzzyAlgorithm

TranslationMemory

(~100.000 stringhe)

23 Luglio, 2015 - ILC Spring Seminars

Misura di similarità

- Edit distance tra Si e S

j, ED(S

i,S

j), applicata alle parole:

◉ algoritmo basato sulla programmazione dinamica;◉ sensibile all’ordine delle parole;◉ complessità O(|S

i|,|S

j|);

◉ ottimizzazione che sfrutta la monotonicità crescente della diagolnale della matrice;

- Il numero di errori massimo consentito è legato alla lunghezza della stringa di cui si cerca un suggerimento alla traduzione:

ED(Si,S

j) ≤ round(|S

i| * k) k=0,7

- k è stato sperimentalmente posto a 0,7 in accordo con i traduttori

- Miglioramenti:

◉ inclusione di una lista di “stopwords”; ◉ scelta dei tipi di suggerimenti (solo proprie traduzioni, solo traduzioni “autorevoli”);◉ lista di parole con peso maggiore.

continua...

23 Luglio, 2015 - ILC Spring Seminars

Misura di similarità (2)- Miglioramenti:

◉ allineamento a livello di parole con parti di traduzioni “letterali”;◉ similarità tra sottostringhe;◉ pesi di similarità basati su relazioni paradigmatiche (sinonimia, iper/iponimia)

Esempio di estrazioni di relazioni di sinonimia con

tecniche distribuzionali

Esempio di estrazione candidati sinonimi dal trattato Rosh Hashanà con finestra ampia 5 tokens.

23 Luglio, 2015 - ILC Spring Seminars

Performance

◉ in corso: valutare l’utilità del suggeritore misurando○ il tempo impiegato nel salvataggio di traduzioni supportate dal suggeritore○ le modifiche apportate alla stringa italiana suggerita

% s

trin

ghe

con

sugg

erim

enti

(media della lunghezza di una stringa in ebraico = 7 tokens)

nov. 2012

mag. 2015

23 Luglio, 2015 - ILC Spring Seminars

Performance (2)

lunghezza posizione token id_stringa

id stringaindice invertito

id stringa

stringhe candidate

Applicazione algoritmo di similarità ottimizzato

solo sul set di candidati

Translation Memory

23 Luglio, 2015 - ILC Spring Seminars

Utilizzo dei suggerimenti a supporto del processo di revisione

Il sistema permette di visualizzare, per ogni stringa origine, tutte le traduzioni in italiano ad essa riconducibili, permettendo così ai revisori di segnalare eventuali disomogeneità e richiamare, quando necessario, i traduttori per creare una traduzione più uniforme

23 Luglio, 2015 - ILC Spring Seminars

Ripetitività del testo

- Esempi di strutture ricorrenti:◉ “Rav disse:”◉ “Secondo quanto abbiamo studiato”◉ “I Maestri hanno insegnato”◉ “E’ stato insegnato in una baraytà”◉ “Come è insegnato nella Mishnà”◉ ...

23 Luglio, 2015 - ILC Spring Seminars

Informazione contestuale

Traduco

23 Luglio, 2015 - ILC Spring Seminars

Annotazioni e note

gli utenti possono inserire note, commenti, riferimenti bibliografici

gli utenti, in qualità di esperti di dominio, possono annotare specifiche porzioni del testo sulla base di classi semantiche predeterminate (nomi propri, piante, misure, concetti, ecc.)

note

annotazioni

23 Luglio, 2015 - ILC Spring Seminars

Glossari

23 Luglio, 2015 - ILC Spring Seminars

Analisi della linguaTraduco4Talmud

Traduco

23 Luglio, 2015 - ILC Spring Seminars

Analisi della lingua (Italiana):interfaccia nel Sistema

Al momento del salvataggio di una traduzione, il Sistema la analizza dal punto di vista linguistico attribuendo una categoria grammaticale (ed eventualmente i tratti morfologici) e un lemma ad ogni parola

Il traduttore/revisore può accedere a tale analisi tramite un’apposita interfaccia e correggere ove necessario

re-training?

23 Luglio, 2015 - ILC Spring Seminars

Analisi della lingua (Ebraica):le lingue del Talmud Babilonese (TB)

Gemarah (Aramaic) Mishnah (Mishnaic Hebrew)

Mishnaic Hebrew

(Mishnah)

Biblical Hebrew

(Quotations from the

Bible)

Babylonian Aramaic

(Gemarah)

Mishnaic Hebrew

(Baraytah)

Loanword from

Ancient Greek

23 Luglio, 2015 - ILC Spring Seminars

Analisi della lingua (Ebraico):stato dell’arte

◉ Software come MILA1 e HebMorph2 sono stati realizzati solo per l’analisi linguistica dell’ebraico moderno e risultano, pertanto, inadatti per l’analisi linguistica di testi ebraici più antichi, come il TB, caratterizzati da un alto numero di varianti arcaiche;

◉ MILA e HebMorph, inoltre, non sono stati implementati per l’analisi linguistica di altre lingue semitiche e non riconoscono per esempio l’aramaico, lingua che invece figura in maniera significativa nel TB.

◉ La complessità linguistica del TB, inoltre, richiede un software di analisi linguistica in grado di distinguere le diverse fasi linguistiche dell’ebraico e le varianti dialettali dell’aramaico.

1 Technion Faculty of Computer Science, Technion City, Haifa, http://www.cs.technion.ac.il/~winter/Corpus-Project/project-description.html

2 http://code972.com/hebmorph

23 Luglio, 2015 - ILC Spring Seminars

Lavori in corsoTraduco

23 Luglio, 2015 - ILC Spring Seminars

In cantiere...

◉ Sperimentazione di Traduco nella traduzione di altri testi e con altre

lingue (a partire dalla Bibbia)

◉ Potenziamento del suggeritore

◉ Genera+ (traduzione semi-automatica)

◉ Sperimentazione di tecniche per l’annotazione lessico-semantica

automatica

◉ Integrazione dell’analizzatore LinguA (ItaliaNLP Lab) per l’italiano

◉ Adattamento di MILA all’analisi dell’ebraico mishnico

◉ Costruzione di una base di conoscenza talmudica…

23 Luglio, 2015 - ILC Spring Seminars

Focus on: dall’annotazione alle ontologie

Ontologia del testo talmudico

strutturazione formale dei concetti e delle entità citate e descritte all’

interno del Talmud Babilonese

23 Luglio, 2015 - ILC Spring Seminars

Focus on: dalle ontologie al contenuto del testo

Esempio di navigazione del testo, costruito sul TB, Trattato Berakhot, Capitolo IX, 55a-57b, Sughia: “Il trattato dei sogni” (discussione rabbinica sulla natura dei sogni, sulle pratiche rituali legate ai sogni e manuale di interpretazione dei sogni)

Sogno: “il naso è caduto”

Interpretazione: “tutte le paure sono scomparse”

Quale è l’interpretazione del sogno sul naso fatto da Bar Qappara ?

23 Luglio, 2015 - ILC Spring Seminars

Produzione scientifica

1. D. Albanesi, A. Bellandi, G. Benotto, G. Di Segni, E. Giovannetti. 2015. When Translation Requires Interpretation: Collaborative Computer–Assisted Translation of Ancient Texts. To Appear in Proceedings of the 9th Workshop on Language Technology for Cultural Heritage, Social Sciences (ACL Special Interest Group on Language Technologies for the Socio-Economic Sciences and Humanities). Beijing, China, July 26 – 31.

2. D. Albanesi, A. Bellandi, G. Benotto, E. Giovannetti. 2015. Translation, Annotation and Knowledge Modelling of the Babylonian Talmud: the Talmud System. To Appear in Proceedings of the Digital Humanities Conference 2015 (DH 2015). Sydney, Australia, 29 June–3 July 2015.

3. A. Bellandi, A. Bellusci. 2015. Towards a Translation Platform as a Bridge Between Ancient and Modern Languages. In A. Bozzi (ed.), Digital Texts, Translations, Lexicons in the Web, Leo Olschki editore, Firenze (in preparazione).

4. A. Bellandi, A. Bellusci, A. Cappelli, E. Giovannetti. 2014. Graphic Visualization in Literary Text Interpretation. In Proceedings of the IEEE 18th International Conference on Information Visualisation, Paris, France, July 16-18, 2014, pp. 392-397.

5. A. Bellandi, A. Bellusci, E. Giovannetti. 2014. Computer Assisted Translation of Ancient Texts: the Babylonian Talmud Case Study. In Proceedings of the 11th International Workshop on Natural Language Processing and Cognitive Science (NLPCS), Venice, 27-29 October 2014.

6. A. Bellandi, D. Albanesi, A. Bellusci, A. Bozzi, E. Giovannetti. 2014. The Talmud System: a Collaborative Web Application for the Translation of the Babylonian Talmud Into Italian. In Proceedings of the 1st Italian Conference on Computational Linguistics (Clic-it), Pisa, 9-10 Decembre 2014.

7. A. Bellandi, A. Bellusci, E. Carniani, E. Giovannetti. 2014. Content Elicitation: Towards a New Paradigm for the Analysis and Interpretation of Text. In Proceedings of the 13th IASTED International Conference on Software Engineering, Innsbruck.