Upload
vudan
View
212
Download
0
Embed Size (px)
Citation preview
23 Luglio, 2015 - ILC Spring Seminars
Traducoun ambiente Web collaborativo per la traduzione
assistita di testi antichi
Andrea Bellandi
23 Luglio, 2015 - ILC Spring Seminars
◉ Genesi del Sistema Presentazione delle varie release del Sistema, sino alla sua versione finale “Gamma”.
◉ Servizi e Utenti Descrizione del Sistema rispetto ai profili di utenza e i relativi servizi offerti.
◉ Panoramica del Sistema Scelte progettuali e aspetti innovativi.
◉ Supporto alla TraduzioneDescrizione e valutazione del servizio di supporto alla traduzione.
◉ Informazione contestualeAnnotazione di porzioni di testo, creazione di glossari e note.
◉ Analisi della lingua Problematiche linguistiche e possibili scenari di soluzioni per l’analisi automatica delle lingue (Italiano, Ebraico).
◉ Lavori in corsoProssimi passi nello sviluppo del sistema.
23 Luglio, 2015 - ILC Spring Seminars 2015
Sommario
23 Luglio, 2015 - ILC Spring Seminars
Progetto Traduzione del Talmud Babilonese
Sviluppare un sistema Web-based che risponda a tre esigenze:
1. supportare il processo di traduzione del Talmud Babilonese in lingua
italiana; 2. produrre una edizione a stampa del Talmud tradotto;3. permettere la consultazione dell’opera in versione digitale.
Il Talmud babilonese:
● testo fondamentale del Giudaismo Rabbinico, costituito da trentasei trattati, riunisce e
commenta la “Legge Orale” rivelata al Popolo Ebraico insieme alla Torah (“Legge Scritta”);
● composizione molto articolata, che ha attraversato un processo di trasmissione prima orale
e poi scritto, venendo rielaborata ed ampliata nel corso dei secoli prima della sua redazione
finale;
● testo religioso, giuridico, letterario e folklorico;
● testo fondamentale per lo studio linguistico dell’ebraico rabbinico e dell’aramaico
babilonese.
23 Luglio, 2015 - ILC Spring Seminars
Genesi del Sistema Traduco
inizio analisi dei requisiti utente:maggio 2012
inizio sviluppo Sistema Talmud versione "Alfa": luglio 2012
rilascio versione "Alfa": settembre 2012
rilascio versione "Beta": settembre 2013
rilascio versione "Gamma":novembre 2014
analisi, progettazione e sviluppo del Sistema Talmud condotti in stretta collaborazione
con gli utenti
23 Luglio, 2015 - ILC Spring Seminars
Il Sistema Traducoversione "Alfa" (novembre 2012 – settembre 2013)
23 Luglio, 2015 - ILC Spring Seminars
Il Sistema Traducoversione "Beta" (settembre 2013 – ottobre 2014)
23 Luglio, 2015 - ILC Spring Seminars
Servizi e Utenti
TraduzioneTraduco
Servizio alla
Ricerca sulla
Modulo CAT: Computer Assisted
Translation
Modulo Semantico:
Rappresentazione formale della conoscenza
Modulo TAL: Trattamento
automatico del linguaggio (italiano, ebraico)
traduttore
revisore
studiosi e ricercatori
Esportazione della
Modulo Stampa:
Preparazione traduzioni alla
stampa ed esportazione
editore
Moduli del sistemaTipologia di utenza
Servizi forniti dal sistema
Stampa di lavoro della
23 Luglio, 2015 - ILC Spring Seminars
Caratteristiche (1)
◉ Consultabile via Web ○ Il Web costituisce l’ambiente di lavoro ideale per attività editoriali; a differenza delle
applicazioni desktop, che richiedono installazioni di specifici programmi client sui computer di lavoro, le applicazioni cosiddette Web-based richiedono il solo utilizzo di un browser (e.g. Firefox, Safari, Chrome, ecc.) attraverso il quale l’utente può collegarsi al sistema in esecuzione su una macchina server remota;
◉ Collaborativo○ L’ambiente Web, unitamente alla robustezza dell’impianto tecnologico adottato,
consentono a un team di utenti (traduttori e revisori) di poter lavorare sugli stessi dati in modo collaborativo (circa 40 utenti sul Talmud);
◉ Predisposto per il trattamento della lingua e della conoscenza○ tecniche per il supporto alla traduzione, il trattamento automatico della lingua e l’
estrazione della conoscenza codificata nei testi;
23 Luglio, 2015 - ILC Spring Seminars
Caratteristiche (2)
◉ Tecnologie open-source ○ Lo sviluppo di software basato su tecnologie open-source e incoraggiato dalla
comunità scientifica. Java costituisce una delle piattaforme tecnologiche più robuste, testate e documentate per l’integrazione di sistemi “mission critical” che necessitano di un accesso distribuito, transazionalità delle sessioni, gestione della persistenza e ricche librerie di componenti di interfaccia;
◉ Adattabile a lingue diverse ○ Le componenti di analisi e trattamento della lingua in fase di sviluppo saranno
adattabili a lingue differenti in virtù della loro natura stocastica;
◉ Adattabile alla traduzione di altri testi ○ Il sistema sarà utilizzabile per la traduzione di altri testi con adattamenti minimi.
23 Luglio, 2015 - ILC Spring Seminars
La traduzione● Nella traduzione di un testo:
● ogni traduzione, in generale, comporta una interpretazione del testo originario;
● una traduzione letterale non è, in genere, sufficiente a veicolare il significato originario di un
testo; in alcuni casi (come per la traduzione del Talmud), una traduzione letterale può
addirittura risultare del tutto incomprensibile.
● Per una traduzione accurata di un testo può rendersi necessario conoscere
molto bene i due contesti culturali: quello nel quale il testo originario è
stato redatto e quello di appartenenza del lettore del testo tradotto.
● Un sistema di supporto alla traduzione di testi antichi deve:● tenere di conto che, oltre al problema della velocità di traduzione, possono sussistere
particolari difficoltà nella traduzione di certi passaggi (e.g. importanza di suggerire anche
traduzioni non esatte);
● fornire al traduttore una serie di strumenti per la rappresentazione di informazioni
contestuali che possano aiutare nella riproduzione del significato del testo originario nella
lingua contemporanea.
23 Luglio, 2015 - ILC Spring Seminars
Tecnologie di supporto alla traduzione
● Computer Assisted Translation (CAT) vs. Machine Translation (MT)● CAT è una strategia di traduzione in base alla quale i traduttori utilizzano programmi per computer per
compiere parte del processo traduttivo;
● MT è un'area della linguistica computazionale della scienza della traduzione che studia la traduzione
di testi da un linguaggio naturale a un altro mediante programmi informatici;
● Se per MT si intende un sistema di traduzione completamente automatico, che prevede un intervento
umano molto limitato, nella CAT il software aiuta semplicemente il traduttore a velocizzare il
processo traduttivo.
● CAT● Utilizzata quando è presente coerenza fraseologica (la stessa idea e la stessa azione sono spesso
descritte in modo identico), e quando il testo è composto da frasi semplici e brevi, così che aumenta
la probabilità di ripetizione e diminuiscono i casi di ambiguità.
● MT● statistica: richiede corpora bilingue paralleli molto grandi;
● basata su regole: richiede la scrittura di grandi quantità di regole.
✓ trattati contengono strutture linguistiche ricorrenti;
✓ intere frasi si ripetono; ✓ il lessico utilizzato e relativamente “povero”
23 Luglio, 2015 - ILC Spring Seminars
Traduzione Assistita: Esempio
traduttore
TrattatiTalmud
אדם משקלקלו הבייתוסים התקינו שלאיהו מקבלין אלא מן המכירין
(“Da quando i Baitosei provocarono degli errori, i Maestri stabilirono che non si accettasse la
testimonianza se non da persone conosciute”)
(“In quel momento stabilirono anche che non si accettasse la testimonianza se non da persone
conosciute”)
Componente di supporto alla traduzione
FuzzyAlgorithm
TranslationMemory
(~100.000 stringhe)
23 Luglio, 2015 - ILC Spring Seminars
Misura di similarità
- Edit distance tra Si e S
j, ED(S
i,S
j), applicata alle parole:
◉ algoritmo basato sulla programmazione dinamica;◉ sensibile all’ordine delle parole;◉ complessità O(|S
i|,|S
j|);
◉ ottimizzazione che sfrutta la monotonicità crescente della diagolnale della matrice;
- Il numero di errori massimo consentito è legato alla lunghezza della stringa di cui si cerca un suggerimento alla traduzione:
ED(Si,S
j) ≤ round(|S
i| * k) k=0,7
- k è stato sperimentalmente posto a 0,7 in accordo con i traduttori
- Miglioramenti:
◉ inclusione di una lista di “stopwords”; ◉ scelta dei tipi di suggerimenti (solo proprie traduzioni, solo traduzioni “autorevoli”);◉ lista di parole con peso maggiore.
continua...
23 Luglio, 2015 - ILC Spring Seminars
Misura di similarità (2)- Miglioramenti:
◉ allineamento a livello di parole con parti di traduzioni “letterali”;◉ similarità tra sottostringhe;◉ pesi di similarità basati su relazioni paradigmatiche (sinonimia, iper/iponimia)
Esempio di estrazioni di relazioni di sinonimia con
tecniche distribuzionali
Esempio di estrazione candidati sinonimi dal trattato Rosh Hashanà con finestra ampia 5 tokens.
23 Luglio, 2015 - ILC Spring Seminars
Performance
◉ in corso: valutare l’utilità del suggeritore misurando○ il tempo impiegato nel salvataggio di traduzioni supportate dal suggeritore○ le modifiche apportate alla stringa italiana suggerita
% s
trin
ghe
con
sugg
erim
enti
(media della lunghezza di una stringa in ebraico = 7 tokens)
nov. 2012
mag. 2015
23 Luglio, 2015 - ILC Spring Seminars
Performance (2)
lunghezza posizione token id_stringa
id stringaindice invertito
id stringa
stringhe candidate
Applicazione algoritmo di similarità ottimizzato
solo sul set di candidati
Translation Memory
23 Luglio, 2015 - ILC Spring Seminars
Utilizzo dei suggerimenti a supporto del processo di revisione
Il sistema permette di visualizzare, per ogni stringa origine, tutte le traduzioni in italiano ad essa riconducibili, permettendo così ai revisori di segnalare eventuali disomogeneità e richiamare, quando necessario, i traduttori per creare una traduzione più uniforme
23 Luglio, 2015 - ILC Spring Seminars
Ripetitività del testo
- Esempi di strutture ricorrenti:◉ “Rav disse:”◉ “Secondo quanto abbiamo studiato”◉ “I Maestri hanno insegnato”◉ “E’ stato insegnato in una baraytà”◉ “Come è insegnato nella Mishnà”◉ ...
23 Luglio, 2015 - ILC Spring Seminars
Annotazioni e note
gli utenti possono inserire note, commenti, riferimenti bibliografici
gli utenti, in qualità di esperti di dominio, possono annotare specifiche porzioni del testo sulla base di classi semantiche predeterminate (nomi propri, piante, misure, concetti, ecc.)
note
annotazioni
23 Luglio, 2015 - ILC Spring Seminars
Analisi della lingua (Italiana):interfaccia nel Sistema
Al momento del salvataggio di una traduzione, il Sistema la analizza dal punto di vista linguistico attribuendo una categoria grammaticale (ed eventualmente i tratti morfologici) e un lemma ad ogni parola
Il traduttore/revisore può accedere a tale analisi tramite un’apposita interfaccia e correggere ove necessario
re-training?
23 Luglio, 2015 - ILC Spring Seminars
Analisi della lingua (Ebraica):le lingue del Talmud Babilonese (TB)
Gemarah (Aramaic) Mishnah (Mishnaic Hebrew)
Mishnaic Hebrew
(Mishnah)
Biblical Hebrew
(Quotations from the
Bible)
Babylonian Aramaic
(Gemarah)
Mishnaic Hebrew
(Baraytah)
Loanword from
Ancient Greek
23 Luglio, 2015 - ILC Spring Seminars
Analisi della lingua (Ebraico):stato dell’arte
◉ Software come MILA1 e HebMorph2 sono stati realizzati solo per l’analisi linguistica dell’ebraico moderno e risultano, pertanto, inadatti per l’analisi linguistica di testi ebraici più antichi, come il TB, caratterizzati da un alto numero di varianti arcaiche;
◉ MILA e HebMorph, inoltre, non sono stati implementati per l’analisi linguistica di altre lingue semitiche e non riconoscono per esempio l’aramaico, lingua che invece figura in maniera significativa nel TB.
◉ La complessità linguistica del TB, inoltre, richiede un software di analisi linguistica in grado di distinguere le diverse fasi linguistiche dell’ebraico e le varianti dialettali dell’aramaico.
1 Technion Faculty of Computer Science, Technion City, Haifa, http://www.cs.technion.ac.il/~winter/Corpus-Project/project-description.html
2 http://code972.com/hebmorph
23 Luglio, 2015 - ILC Spring Seminars
In cantiere...
◉ Sperimentazione di Traduco nella traduzione di altri testi e con altre
lingue (a partire dalla Bibbia)
◉ Potenziamento del suggeritore
◉ Genera+ (traduzione semi-automatica)
◉ Sperimentazione di tecniche per l’annotazione lessico-semantica
automatica
◉ Integrazione dell’analizzatore LinguA (ItaliaNLP Lab) per l’italiano
◉ Adattamento di MILA all’analisi dell’ebraico mishnico
◉ Costruzione di una base di conoscenza talmudica…
23 Luglio, 2015 - ILC Spring Seminars
Focus on: dall’annotazione alle ontologie
Ontologia del testo talmudico
strutturazione formale dei concetti e delle entità citate e descritte all’
interno del Talmud Babilonese
23 Luglio, 2015 - ILC Spring Seminars
Focus on: dalle ontologie al contenuto del testo
Esempio di navigazione del testo, costruito sul TB, Trattato Berakhot, Capitolo IX, 55a-57b, Sughia: “Il trattato dei sogni” (discussione rabbinica sulla natura dei sogni, sulle pratiche rituali legate ai sogni e manuale di interpretazione dei sogni)
Sogno: “il naso è caduto”
Interpretazione: “tutte le paure sono scomparse”
Quale è l’interpretazione del sogno sul naso fatto da Bar Qappara ?
23 Luglio, 2015 - ILC Spring Seminars
Produzione scientifica
1. D. Albanesi, A. Bellandi, G. Benotto, G. Di Segni, E. Giovannetti. 2015. When Translation Requires Interpretation: Collaborative Computer–Assisted Translation of Ancient Texts. To Appear in Proceedings of the 9th Workshop on Language Technology for Cultural Heritage, Social Sciences (ACL Special Interest Group on Language Technologies for the Socio-Economic Sciences and Humanities). Beijing, China, July 26 – 31.
2. D. Albanesi, A. Bellandi, G. Benotto, E. Giovannetti. 2015. Translation, Annotation and Knowledge Modelling of the Babylonian Talmud: the Talmud System. To Appear in Proceedings of the Digital Humanities Conference 2015 (DH 2015). Sydney, Australia, 29 June–3 July 2015.
3. A. Bellandi, A. Bellusci. 2015. Towards a Translation Platform as a Bridge Between Ancient and Modern Languages. In A. Bozzi (ed.), Digital Texts, Translations, Lexicons in the Web, Leo Olschki editore, Firenze (in preparazione).
4. A. Bellandi, A. Bellusci, A. Cappelli, E. Giovannetti. 2014. Graphic Visualization in Literary Text Interpretation. In Proceedings of the IEEE 18th International Conference on Information Visualisation, Paris, France, July 16-18, 2014, pp. 392-397.
5. A. Bellandi, A. Bellusci, E. Giovannetti. 2014. Computer Assisted Translation of Ancient Texts: the Babylonian Talmud Case Study. In Proceedings of the 11th International Workshop on Natural Language Processing and Cognitive Science (NLPCS), Venice, 27-29 October 2014.
6. A. Bellandi, D. Albanesi, A. Bellusci, A. Bozzi, E. Giovannetti. 2014. The Talmud System: a Collaborative Web Application for the Translation of the Babylonian Talmud Into Italian. In Proceedings of the 1st Italian Conference on Computational Linguistics (Clic-it), Pisa, 9-10 Decembre 2014.
7. A. Bellandi, A. Bellusci, E. Carniani, E. Giovannetti. 2014. Content Elicitation: Towards a New Paradigm for the Analysis and Interpretation of Text. In Proceedings of the 13th IASTED International Conference on Software Engineering, Innsbruck.