View
227
Download
0
Category
Preview:
Citation preview
7/23/2019 Lengua italiana
1/77
White Paper Series
THE ITALIANLANGUAGE IN
THE DIGITAL
AGE
Collana Libri Bianchi
LA LINGUAITALIANANELLERA
DIGITALE
Nicoletta CalzolariBernardo MagniniClaudia SoriaManuela Speranza
7/23/2019 Lengua italiana
2/77
7/23/2019 Lengua italiana
3/77
White Paper Series
THE ITALIANLANGUAGE IN
THE DIGITAL
AGE
Collana Libri Bianchi
LA LINGUAITALIANANELLERA
DIGITALE
Nicoletta Calzolari CNR-ILCBernardo Magnini FBKClaudia Soria CNR-ILCManuela Speranza FBK
Georg Rehm, Hans Uszkoreit
(curatori,editors)
7/23/2019 Lengua italiana
4/77
PREFAZIONE PREFACE
uesto Libro Bianco fa parte di una collana che inten- is white paper is part of a series that promotes
de promuovere la conoscenza in merito alle tecnologie knowledge about language technology and its poten-
del linguaggio e al loro potenziale. Si rivolge, tra gli al- tial. It addresses journalists, politicians, language com-
tri, ai giornalisti, i politici, gli educatori e le comuni- munities, educators and others. e availability and
t linguistiche. La disponibilit e luso delle tecnologie use of language technology in Europe varies between
del linguaggio in Europa variano da lingua a lingua, e languages. Consequently, the actions that are required
di conseguenza differiscono anche le azioni richieste to further support research and development of lan-
per sostenere la ricerca e lo sviluppo di tali tecnologie. guage technologies also differ. e required actions
Gli interventi necessari dipendono da molti fattori, tra depend on many factors, such as the complexity of a
i quali la complessit di ciascuna lingua e le dimensioni given language and the size of its community.
della comunit che vi fa riferimento. META-NET, a Network of Excellence funded by the
META-NET, una Rete di Eccellenza finanziata dalla European Commission, has conducted an analysis of
Commissione Europea, con questa Collana di Libri current language resources and technologies in this
Bianchi ha condotto unanalisi delle risorse e delle tec- white paper series (p.69). e analysis focused on the
nologie linguistiche attualmente esistenti (p.69). La- 23 official European languages as well as other impor-
nalisi si concentrata sulle 23 lingue europee ufficiali tant national andregional languages in Europe. e re-
e su altre importanti lingue nazionali e regionali dEu- sults of this analysis suggest that there are tremendous
ropa. I risultati di questa analisi indicano che per tut- deficits in technology support and significant research
te le lingue considerate esistono dei deficit tecnologi- gaps for each language. e given detailed expert anal-
ci enormi e significative lacune nella ricerca. Lanalisi ysis and assessment of the current situation will help
dettagliata che viene fornita, insieme a una valutazione maximise the impact of additional research.
della situazione attuale, potr consentire di massimiz- As of November 2011, META-NET consists of 54
zare limpatto delle ricerche future. research centres in 33 European countries (p. 65).
A novembre 2011, META-NET composta da 54 META-NET is working with stakeholders from econ-
centri di ricerca, dislocati in 33 paesi europei (p.65). omy (soware companies, technology providers and
META-NET collabora con aziende commerciali, enti users), government agencies, research organisations,
governativi, industrie, organizzazioni di ricerca, com- non-governmental organisations, language communi-
pagnie produttrici di soware e universit europee. In- ties and European universities. Together with these
sieme a queste comunit, META-NET sta creando una communities, META-NET is creatinga common tech-
visione comune sulla tecnologia e unagenda di ricerca nology vision and strategic research agenda for multi-
strategica condivisa per lEuropa multilingue del 2020. lingual Europe 2020.
III
7/23/2019 Lengua italiana
5/77
META-NET office@meta-net.eu http://www.meta-net.eu
GliautoridiquestodocumentosonogratiagliautoridelLibroBianco sulla lingua tedesca per aver consentito di riutilizzarealcuni materiali selezionati dal loro documento [1].
uesto Libro Bianco stato finanziato dal Settimo Program-ma uadro e dal Programma di sostegno alla politica in ma-
teria di TIC (tecnologie dellinformazione e delle comunica-zioni) della Commissione Europea nellambito dei contrattiT4ME (accordo di finanziamento 249119), CESAR (accor-do di finanziamento 271 022), METANET4U (accordo di fi-nanziamento270 893) e META-NORD (accordo di finanzia-mento 270 899).
e authors of this document are grateful to the authors ofthe White Paper on German for permission to re-use selectedlanguage-independent materials from their document [1].
e development of this White Paper has been funded by theSeventh Framework Programme and the ICT Policy Support
Programme of the European Commission under the contractsT4ME (Grant Agreement 249 119), CESAR (Grant Agree-ment 271022), METANET4U (Grant Agreement 270 893)and META-NORD (Grant Agreement 270 899).
IV
7/23/2019 Lengua italiana
6/77
INDICE CONTENTS
LA LINGUA ITALIANA NELLERA DIGITALE
1 Sommario 1
2 Le nostre lingue a rischio: Una sfida per le tecnologie del linguaggio 42.1 I confini linguistici frenano la societ europea dell'Informazione . . . . . . . . . . . . . . . . . . . 5
2.2 Le nostre lingue a rischio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 La tecnologia del linguaggio una tecnologia fondamentale . . . . . . . . . . . . . . . . . . . . 6
2.4 Le opportunit per le tecnologie linguistiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5 Le sfide delle tecnologie linguistiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.6 L'acquisizione del linguaggio negli umani e nelle macchine . . . . . . . . . . . . . . . . . . . . . 8
3 La lingua italiana nella societ europea dell'informazione 103.1 Aspetti generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Particolarit della lingua italiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3 Sviluppi recenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4 Iniziative per la promozione della lingua italiana . . . . . . . . . . . . . . . . . . . . . . . . . . 123.5 La lingua nel settore della formazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.6 L'italiano su Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4 Le tecnologie linguistiche per l'italiano 144.1 Architetture applicative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2 Ambiti applicativi principali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Altre aree applicative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.4 Programmi formativi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.5 Progetti e iniziative nazionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.6 Disponibilit di strumenti e risorse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.7 Confronto fra le lingue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.8 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 META-NET 32
7/23/2019 Lengua italiana
7/77
THE ITALIAN LANGUAGE IN THE DIGITAL AGE
1 Executive Summary 33
2 Languages at Risk: a Challenge for Language Technology 362.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 37
2.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3 The Italian Language in the European Information Society 413.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2 Particularities of the Italian Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4 Official Language Protection in Italy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.6 Italian on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4 Language Technology Support for Italian 454.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 Core Application Areas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.5 National Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.7 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 About META-NET 61
A Riferimenti bibliografici -- References 63
B Membri di META-NET -- META-NET Members 65
C La Collana Libri Bianchi META-NET -- The META-NET White Paper Series 69
7/23/2019 Lengua italiana
8/77
1
SOMMARIO
Nel corso degli ultimi 60 anni, lEuropa diventata una
struttura politica ed economica distinta, che si carat-
terizza per la ricchezza e la variet del suo patrimonio
culturale e linguistico. Ci significa che dal portoghese
al polacco e dallitaliano allislandese, la comunicazione
quotidiana tra cittadinieuropei, cos come la comunica-
zionenellasferadegliaffariedellapolitica,sonoinevita-bilmenteostacolatedabarrierelinguistiche.Leistituzio-
nidellUEspendonocircaunmiliardodieurolannoper
mantenere la loro politica di multilinguismo, che consi-
ste nella traduzione di testi scritti e nellinterpretariato
di comunicazioni orali. Secondo alcune stime, il merca-
to europeo per la traduzione, linterpretariato, la loca-
lizzazione delsoware e la globalizzazionedeisiti web si
aggiraintornoa8.4miliardidieuroecisiaspettacheau-
menti del 10% allanno. Ma si tratta di una spesa davve-ro necessaria? Nonostante questo impegno economico,
i testi tradotti rappresentano solo una parte dellinfor-
mazione a disposizione della popolazione in paesi dove
cunasolalinguapredominante,comegliStatiUniti,la
CinaoilGiappone.Lemodernetecnologiedellinguag-
gio e la ricerca linguistica possono dare un contributo
significativo per abbattere questi confini linguistici. Se
combinate con dispositivi e applicazioni intelligenti, le
tecnologie del linguaggio in futuro saranno in grado di
aiutareicittadinieuropeiacomunicareefareaffarifacil-
mente tra loro anche senon parlano una lingua comune.
Leconomia italiana trae vantaggio dal mercato unico
europeo ma le barriere linguistiche possono portare ad
unalimitazionedegliscambi,soprattuttoperlePMIche
non hanno i mezzi finanziari per invertire la situazione.
Lunica (impensabile) alternativa a questo tipo di Euro-
pa multilingue sarebbe quella di permettere a una singo-
la lingua di acquisire una posizione dominante e finire
per sostituire tutte le altre lingue.
Le tecnologie del linguaggio costruiscono ponti
per il futuro dellEuropa.
Ilmodopinaturalepersuperarelebarrierelinguistiche
sarebbe certamente quello di imparare le lingue stranie-
re. Eppure, considerando la quantit delle lingue dEu-
ropa circa ottanta, tra lingue ufficiali e non lappren-
dimento delle lingue non basta da solo per le necessit
della comunicazione, del commercio e del trasferimen-
to dellinformazione tra tutti i confini linguistici. Senza
il supporto della tecnologia, per esempio la traduzione
automatica, la diversit linguistica dellEuropa rischia di
rappresentare un ostacolo insormontabile per i cittadini
europeieperleconomia,ildibattitopoliticoeilprogres-
so scientifico.
Le tecnologie del linguaggio hanno un ruolo chiave per
fornire una soluzione sostenibile, economica e social-
mente vantaggiosa al problema creato dalle barriere lin-
guistiche.
ueste tecnologie offriranno agli attori europei enormi
vantaggi, non solo allinterno del mercato comune eu-
ropeo, ma anche nelle relazioni commerciali con i pae-
si terzi, in particolare le economie emergenti. Le solu-
zioni proposte dalle tecnologie del linguaggio finiranno
per rappresentare un unico ponte tra le lingue dEuropa.
Perraggiungerequestoobiettivoepreservareladiversit
1
7/23/2019 Lengua italiana
9/77
culturaleelinguisticadellEuropa,primanecessarioef-
fettuare unanalisi sistematica delle particolarit lingui-
stichedituttelelingueeuropeeedellostatoattualedelle
tecnologie linguistiche per ciascuna di esse.
Gi alla fine degli anni Settanta lUE aveva compreso la
grande importanza della tecnologia del linguaggio per
guidare lunit europea, quando cominci a finanziare
i primi progetti di ricerca (per esempio, EUROTRA).
Dopo un lungo periodo in cui i finanziamenti venivano
concessi in modo relativamente poco concertato, pochi
anni fa la Commissione Europea ha istituito un diparti-
mento dedicato alle tecnologie del linguaggio e alla tra-
duzione automatica.
Al momento lUnione Europea sostiene progetti come
EuroMatrix e EuroMatrixPlus (dal 2006) e iTranslate4
(dal 2010), che conducono ricerca di base e applicata e
producono risorse per la creazione di tecnologie lingui-
stiche di alta qualit per tutte le lingue europee. ue-
sti sforzi hanno gi portato un certo numero di risulta-
ti notevoli. I servizi di traduzione dellUnione Europea,
per esempio, attualmenteutilizzano il soware di tradu-
zione automatica open-source MOSES, che stato svi-
luppatoprincipalmenteattraversoprogettidiricercaeu-
ropei. Tuttavia, questi progetti non sono mai sfociati in
uno sforzo coerente e coeso a livello europeo, che veda
lUE e i suoi stati membri perseguire in modo sistemati-
coloscopocomunedisosteneretecnologicamentetutte
le lingue europee.
Le tecnologie del linguaggiosono la chiave per il futuro.
Invece di investire sui risultati dei suoi progetti di ricer-
ca,lEuropahamantenutolatendenzaasvolgereattivit
di ricerca isolate, con un impatto sul mercato meno per-
vasivo. Di conseguenza, questa pur intensa attivit di fi-
nanziamento non ha prodotto dei risultati sostenibili.
Inmolticasi,laricercafattainEuropahaprodottorisul-
tati considerevoli, ma fuori dai confini europei. I vinci-
toridi questosviluppo generale sono Googlee Apple. In
realt, molti dei soggetti principali nel settore oggi sono
aziendeprivateascopodilucroconsedenelNordAme-
rica.
Lamaggiorpartedeisistemiditecnologiadellinguaggio
sviluppati da queste aziende si basano su approcci stati-
stici imprecisi, che non fanno uso di metodi linguistici
pi sofisticati. Per esempio, le frasi vengono tradotte au-
tomaticamente mettendo a confronto una nuova frase
contro migliaia di frasi tradotte in precedenza da esse-
ri umani. La qualit del risultato dipende in larga misu-
ra dalla dimensione e dalla qualit del corpus campio-
ne disponibile. Mentre la traduzione automatica di fra-
si semplici in lingue con sufficienti quantit di materia-
le testuale a disposizione pu raggiungere risultati uti-
li, detti metodi statistici poco profondi sono destinati a
fallirenelcasodilinguechedispongonodimoltomeno
materialecampione,oppurenelcasodifrasiconstruttu-
re complesse.Analizzare le proprietstrutturalipi pro-
fonde delle lingue lunica strada percorribile se voglia-
mo creare applicazioni che funzionino bene per tutte le
lingue dEuropa.
Le tecnologie linguisticheaiutano a unificare lEuropa.
InEuropacisonocondizioniottimaliperlaricerca:gra-
zieadiniziativecomeCLARIN,META-NETeFLaRe-
Net, la comunit di ricerca ben coesa; in FLaReNet e
META-NETsono state sviluppate delle agende di ricer-
caalungotermine,eletecnologiedellinguaggiostanno
rafforzando il loro ruolo presso la Commissione Euro-
pea in modo lento ma costante.Tuttavia, da alcuni punti
divista,lasituazioneeuropeapeggiorerispettoaquella
di altre societ multilingui. A fronte di risorse finanzia-
rie inferiori, paesi come lIndia, con 22 lingue ufficiali, e
ilSudAfrica,con11lingueufficiali,hannorecentemen-
2
7/23/2019 Lengua italiana
10/77
te istituito programmi nazionali a lungo termine per la
ricerca linguistica e lo sviluppo tecnologico.
uello che manca in Europa sono la consapevolezza, la
volont politica e il coraggio di lottare per una posizio-
nedileaderinternazionaleinquestosettoretecnologico
attraversounosforzoconcertatodifinanziamento.Sulla
base dei risultati ottenuti finora, sembra che la tecnolo-
gialinguisticadioggi,definitaibridainquantocombina
i metodi statistici con unanalisi linguistica a livello pi
profondo, riuscir a colmare il divario tra tutte le lingue
europee.
Come viene mostratoin questa collanadi Libri Bianchi,
c una notevole differenza tra i diversi paesi membri re-
lativamente allo stato di preparazione rispetto alle solu-
zioni tecnologiche linguistiche e allo stato della ricerca.
Litaliano, in quanto una delle grandi lingue dellUE, si
trova in una situazione migliore sia per quanto riguar-
dalamaturitdellaricercacheillivellodisviluppodelle
tecnologie linguistiche. Tuttavia, litaliano necessita an-
cora di ulteriori ricerche prima di poter avere soluzioni
tecnologiche veramente efficaci pronte per luso quoti-
diano.
La percentuale di utenti Internet che parlano italiano
subir una diminuzione nel prossimo futuro e litalia-
no potrebbe andare incontro al problema di essere sotto
rappresentato nel Web, specialmente se paragonato al-
linglese. qui che le tecnologie del linguaggio possono
svolgere un ruolo fondamentale per vincere le sfide che
aspettano la lingua italiana nellera digitale. La presenza
digitale di una lingua in applicazioni e servizi basati su
Internet ormai un elemento cruciale per mantenere la
vitalit culturale di quella lingua. E, daltra parte, appli-
cazioni e servizi su Internet sono sostenibili solo in pre-
senza di adeguate infrastrutture e tecnologie. La ricer-
ca nel campo delle tecnologie del linguaggio condotta
in Italia in oltre 15 laboratori (secondo quanto riporta-
to dallo studio EUROMAP) e la presenza italiana nella
comunit di ricerca internazionale attiva e rilevante.
A partire dal 1997 stato fatto uno sforzo considerevo-
le in Italia nella ricerca sulle tecnologie del linguaggio,
quando per questo settore stata designata una politica
di ricerca nazionale. Sfortunatamente, i fiananziamenti
a livello nazionale sono molto limitati, e lo stato attuale
delle tecnologie del linguaggionon sufficiente a garan-
tire allitaliano una dimensione digitale proporzionata
alla richiesta delle applicazioni e dei servizi dellInternet
del futuro. Per i prossimi decenni la comunit italiana
deve fare uno sforzo sostanziale per creare risorse e stru-
menti linguistici per litaliano in grado di trainare la ri-
cerca, linnovazione e lo sviluppo in generale. In questo
volume verr presentata una introduzione alle tecnolo-
gie linguistiche e alle relative prinicipali aree di applica-
zione, corredata da una valutazione dello stato attuale
delle tecnologie linguistiche disponibili per litaliano.
uesta collana di Libri Bianchi integra le altre azio-
ni strategiche intraprese da META-NET (si veda lap-
pendice per una panoramica). Informazioni aggiorna-
te, come per esempio la versione attuale del vision pa-
per di META-NET [2] o lAgenda di Ricerca Strategi-
ca (SRA) sono disponibili sul sito web di META-NET:
http://www.meta-net.eu.
3
http://www.meta-net.eu/7/23/2019 Lengua italiana
11/77
2
LE NOSTRE LINGUE A RISCHIO:UNA SFIDA PER LE TECNOLOGIE DELLINGUAGGIO
Siamotestimonidiunarivoluzionedigitalechestaaven-
dounimpattoradicalesullacomunicazioneesullasocie-
t. I recenti sviluppi nella tecnologia dellinformazione
digitale e della comunicazionevengono talvolta parago-nati allinvenzione della stampa da parte di Gutenberg.
Macosapudirciquestaanalogiasulfuturodellasociet
dellinformazione europea e, in particolare, delle nostre
lingue?
La rivoluzione digitale paragonabileallinvenzione della stampa da parte di
Gutenberg.
In seguito allinvenzione di Gutenberg, furono compiu-
ti grandi progressi nella comunicazione e nello scambio
di conoscenza attraverso opere quali la traduzione della
BibbiainunalinguavolgaredapartediLutero.Nelcor-
sodeisecoli successivi, sono statesviluppatetecniche per
gestiremeglio lelaborazione del linguaggio e lo scambio
di conoscenza:
lastandardizzazioneortograficaegrammaticaledelle
lingue principali ha oermesso di disseminare nuove
idee scientifiche e intellettuali in modo rapido;
lo sviluppo delle lingue ufficiali ha reso possibile ai
cittadini la comunicazione allinterno di determina-
ti confini (spesso politici);
linsegnamento delle lingue e la traduzione ha reso
possibili gli scambi tra persone che parlavano lingue
diverse;
la creazione di linee guida editoriali e bibliografiche
ha assicurato la qualit e la disponibilit di materiale
stampato;
lacreazionedidiversimezzidicomunicazione,come
i giornali, la radio, la televisione e i libri, ha permes-
so di soddisfare bisogni di comunicazione di natura
diversa.
Negli ultimi ventanni, la tecnologia dellinformazione
ha aiutato ad automatizzare e facilitare molti processi:
i soware per ildesktop publishinghanno sostituito
la dattilografia e la composizione tipografica;
PowerPoint di Microso ha sostituito i lucidi;
con la posta elettronica si spediscono e si ricevono
documenti pi velocemente che utilizzando un fax;
Skypeoffrelapossibilitdifarechiamatetelefoniche
su Internet in modo economico e permette di orga-nizzare incontri virtuali;
grazie a formati di codifica audio e video possibile
scambiarsi in maniera semplice contenuti multime-
diali;
i motori di ricerca forniscono un accesso alle pagine
web basato su parole chiave;
4
7/23/2019 Lengua italiana
12/77
servizi online come Google Translate producono ve-
loci traduzioni approssimate;
lepiattaformedisocialmediacomeFacebook,Twit-
ter, e Google+ facilitano la comunicazione, la colla-
borazione e la condivisione dellinformazione.
Sebbene queste applicazioni e questi strumenti siano
utili, essi non sono ancora in grado di supportare pie-
namente una societ europea multilingue in cui linfor-
mazione e le merci possano circolare liberamente.
2.1I CONFINI LINGUISTICI
FRENANO LA SOCIETEUROPEA DELLINFORMAZIONENon siamo in grado di prevedere esattamente come sar
la societ dellinformazione del futuro. Tuttavia, esiste
unelevata probabilit che la rivoluzione nelle tecnolo-
gie della comunicazione avviciner persone che parlano
lingue diverse in nuovi modi. uesta tendenza induce
gli individui a imparare nuove lingue e gli sviluppatori,
in particolare, a creare nuove applicazioni tecnologiche
per assicurare la comprensione reciproca e laccesso allaconoscenza condivisa.
Inunospazioeconomicoediinformazioneglobale,una
maggiore quantit di lingue, di parlanti e di contenuti
interagiscono pi velocemente con nuovi tipi di mez-
zi di comunicazione. Lattuale popolarit dei social me-
dia (Wikipedia, Facebook, Twitter, YouTube e, recente-
mente, Google+) rappresenta soltanto la punta dellice-
berg.
Leconomia e lo spazio dinformazioneglobali ci mettono di fronte a lingue,
parlanti e contenuti diversi.
Oggi possiamo trasmettere gigabyte di testo in tutto il
mondo in pochi secondi prima di accorgerci che si trat-
tadiunalinguachenoncomprendiamo.Secondounre-
cente rapporto della Commissione Europea, il 57% de-
gli utenti di Internet in Europa acquista merci e servizi
inlinguediversedallalorolinguanativa;lingleselalin-
gua straniera pi comune, seguito dal francese, dal tede-
sco e dallo spagnolo. Il 55% degli utenti legge contenuti
in una lingua straniera mentre il 35% usa unaltra lingua
per scrivere e-mail o per spedire commenti sul Web [3].
Alcuni anni fa, linglese poteva essere considerato la lin-
gua franca del Web la grande maggioranza dei con-
tenuti sul Web era in inglese ma la situazione ora
cambiata sensibilmente.La quantit di contenuti online
in altre lingue europee (cos come per quelle asiatiche e
medio-orientali) si moltiplicata.
Sorprendentemente, questo onnipresente divario digi-
tale dovuto ai confini linguistici non ha ricevuto mol-
ta attenzione pubblica; eppure, esso solleva una doman-
da molto pressante: quali lingue europee prospereranno
nella societ dellinformazione e della conoscenza in re-
te, e quali sono destinate a scomparire?
2.2LE NOSTRE LINGUE A
RISCHIOSe da un lato linvenzione della stampa contribu certa-
menteadintensificareloscambiodiinformazioniinEu-
ropa,essaalcontempoportancheallestinzionedimol-
te lingue europee. Le lingue regionali e minoritarie ve-
nivano stampate raramente e lingue come il cornico e il
dalmatico vennero ridotte a forme di trasmissione orale,
il che a sua volta restrinse gli ambiti duso di queste lin-
gue. Internet avr lo stesso impatto sulle nostre lingue?
Lampia variet di lingue esistentiin Europa rappresenta una delle
sue ricchezze pi importanti.
5
7/23/2019 Lengua italiana
13/77
Le circa 80 lingue dellEuropa costituiscono unodei pi
ricchi e pi importanti patrimoni culturali dellEuropa,
e una parte vitaledelsuomodellosociale unico [4].Men-
tre lingue come linglese e lo spagnolo probabilmente
sopravviveranno nel mercato digitale emergente, molte
altre lingue Europee potrebbero diventare irrilevanti al-
linternodiunasocietinrete.uestoporterebbeadun
indebolimento dello stato globale dellEuropa e andreb-
be contro lobiettivo strategico di assicurare unuguale
partecipazione a tutti i cittadini europei indipendente-
mente dalla lingua.
Secondo un rapporto dellUNESCO sul multilingui-
smo, le lingue rappresentano un mezzo essenziale per
poter godere di diritti fondamentali come il diritto di
espressione politica, il diritto alleducazione e alla parte-
cipazione nella societ [5].
2.3LA TECNOLOGIA DELLINGUAGGIO UNA
TECNOLOGIA FONDAMENTALEIn passato, gli sforzi di investimento nellambito della
conservazione delle lingue si sono focalizzati sullinse-
gnamento delle lingue e sulla traduzione. Secondo una
stima, il mercato europeo per la traduzione, linterpre-
tariato, la localizzazione di soware e di siti web stato
di 8,4 miliardi di euro nel 2008 e per il futuro attesa
unacrescitadel10%allanno[6].Eppurequestacifraco-
pre solo una piccola parte dei bisogni attuali e futuri per
quanto riguarda la comunicazione tra lingue diverse. La
soluzione pi convincente per assicurare in futuro am-
piezza e profondit nelluso delle lingue in Europa con-
siste nelluso di una tecnologia appropriata, allo stesso
modo in cui usiamo la tecnologia per risolvere le nostre
esigenze di trasporto e di energia.
Le tecnologie linguistiche (rivolte a tutte le forme di te-
sti scritti e discorsi orali) aiutano le persone a collabo-
rare, a fare affari, a condividere la conoscenza e a parte-
cipare al dibattito sociale e politico a prescindere dalle
barriere linguistiche e dallabilit nelluso del computer.
Spesso operano in maniera invisibile allinterno di siste-
mi informatici complessi, per aiutarci a:
trovare informazioni mediante un motore di ricerca
su Internet;
controllareerroridi ortografiae di grammatica allin-
terno di un programma per lelaborazione di testi;
vedere,inunnegozioonline,leopinionisuiprodotti
espresse da altri clienti;
seguire, in automobile, le istruzioni vocali di un si-
stema di navigazione;
tradurre pagine web attraverso un servizio in rete.
La tecnologia del linguaggio consiste in un certo nume-
ro di applicazioni di base che rendono possibili processi
allinterno di un pi ampio quadro applicativo. I Libri
Bianchi di META-NETsi prefiggono lobiettivodi veri-
ficare che livello abbiano raggiuntoqueste tecnologie di
base per ciascuna lingua europea.
LEuropa ha bisogno di tecnologie linguisticherobuste ed economicamente accessibili per tutte
le lingue europee.
Al fine di mantenere la propria posizione in prima li-
nea nellinnovazione globale lEuropa avr bisogno, per
tutte le lingue europee, di tecnologie linguistiche robu-
ste, economicamente accessibili e saldamente integrate
allinterno degli ambienti soware principali. Senza le
tecnologie del linguaggio, non saremo in grado di rag-
giungere in un prossimo futuro unesperienza utente in-
terattiva, multimedialee multilingue realmente efficace.
6
7/23/2019 Lengua italiana
14/77
2.4LE OPPORTUNIT PER LE
TECNOLOGIE LINGUISTICHE
La rivoluzione tecnologica nel mondo della carta stam-
pata fu la possibilit di duplicare rapidamente unim-magine di un testo usando una macchina da stampa suf-
ficientemente potente. Il duro lavoro di ricerca, lettura,
traduzione e sintesi della conoscenza era appannaggio
degli uomini. Per registrare la lingua parlata si dovu-
to aspettare fino ad Edison e di nuovo la sua tecnolo-
gia produceva semplicementedelle copie analogiche. Le
tecnologie linguistiche possono ora semplificare e auto-
matizzare i processi stessi di traduzione, produzione di
contenuto e gestione della conoscenza per tutte le lin-gue europee. Possono anche arricchire interfacce intui-
tive a base vocale per elettrodomestici, macchinari, vei-
coli, computer e robot. Delle applicazioni commerciali
ed industriali reali sono ancora agli stadi iniziali di svi-
luppo, ma i progressi di R&S stanno creando una vera
finestra di opportunit. Per esempio, la traduzione auto-
matica gi ragionevolmente accurata in settori specifi-
ci,edalcuneapplicazionisperimentaliconsentonolage-
stione multilingue dellinformazione e della conoscenzae la produzione di contenuto in molte lingue europee.
Comeaccadeperlamaggioranzadelletecnologie,lepri-
me applicazioni linguistiche come le interfacce basate
sulla voce e i sistemi di dialogo erano sviluppate per set-
tori altamente specialistici, e spesso avevano prestazioni
limitate. Ma lintegrazione delle tecnologie linguistiche
neigiochi,neisitilegatialpatrimonioculturale,neipac-
chetti diedutainment, nelle biblioteche, negli ambienti
di simulazione e nei programmi di training offre oppor-
tunit di mercato enormi nellindustria delleducazione
e dellintrattenimento. I servizi mobili di informazio-
ne, il soware per lapprendimento delle lingue assisti-
to da computer, gli ambienti di eLearning, gli strumenti
di auto-valutazione e il soware di rilevamento del pla-
gio sono solo alcune delle aree applicative in cui le tec-
nologie linguistiche possono avereunruolo importante.
Lapopolaritdelleapplicazioni socialmedia comeTwit-
tereFacebooksuggerisconounulteriorebisognoditec-
nologie linguistiche sofisticate che consentano di mo-
nitorare i messaggi, sintetizzare le discussioni, suggeri-
re andamenti di opinione, individuare risposte emotive,
identificareviolazioni di copyright o rintracciareusi im-
propri. Le tecnologie linguistiche rappresentano unop-
portunit straordinaria per lUnione Europea, in quan-
to possono aiutare ad affrontare il complesso problema
delmultilinguismo in Europa il fatto che lingue diver-
se coesistono naturalmente nel mondo degli affari, delle
amministrazioni e delle scuole. I cittadini, tuttavia, han-
no bisogno di comunicare al di l di questi confini lin-
guistici che attraversano il Mercato Comune Europeo,
e le tecnologie linguistiche possono aiutare a superare
questultima barriera pur continuando a supportare lu-
so libero e aperto delle singole lingue.
Le tecnologie linguistiche aiutano a superarequella forma di disabilit rappresentata dalla
diversit linguistica.
Guardando ancora pi avanti, le tecnologie linguistiche
multilingui innovative rappresenteranno un punto di ri-
ferimento per i nostri partner globali quando le comu-
nit multilingui cominceranno a dotarsene. Le tecnolo-
gie linguistiche possono essere viste come una tecnolo-
gia assistiva che aiuta a superare quella forma di disabi-
lit rappresentata dalla diversit linguistica, rendendo le
comunit linguistiche ancora pi accessibili le une ver-
so le altre. Infine, un campo di ricerca attivo luso del-
le tecnologie linguistiche per operazioni di soccorso in
aree colpite da emergenze, dove le prestazioni possono
essere una questione di vita o di morte: i robot intelli-
genti del futuro con capacit trans-linguistiche hanno il
potenziale di salvare vite umane.
7
7/23/2019 Lengua italiana
15/77
2.5LE SFIDE DELLE
TECNOLOGIE LINGUISTICHENonostante i considerevoli passi avanti compiuti dal-
le tecnologie linguistiche negli ultimi anni, il ritmo del
progresso tecnologico e dellinnovazione produttiva
troppo lento. Tecnologie ampiamente usate come i cor-
rettori ortografici e grammaticali degli editori di testo
sono in genere monolingui, e sono disponibili per po-
che lingue. I servizi di traduzione automatica on-line,
sebbene utili per generare rapidamente una ragionevole
approssimazione del contenuto di un documento, sono
irti di difficolt quando siano richieste delle traduzioni
completeemoltoaccurate.Acausadellacomplessitdel
linguaggioumano,modellarelenostrelinguepermezzo
di un soware che sia poi testato in applicazioni reali
un processo troppo lungo e costoso che richiede un im-
pegno finanziariocostante.LEuropa, quindi, deve man-
tenere il suo ruolo pionieristico nellaffrontare le sfide
tecnologiche di una comunit multilingue, inventando
nuovimetodi tantoil progressocomputazionale quan-
totecnichecomeilcrowdsourcing per accelerare lo svi-
luppo a tutto campo.
Il ritmo del progresso tecnologicodeve essere accelerato.
2.6LACQUISIZIONE DEL
LINGUAGGIO NEGLI UMANI ENELLE MACCHINEPer illustrare il modo in cui i computer gestiscono il lin-
guaggio e il perch sia difficile programmarli ad usarlo,
diamoun rapidosguardoal modoin cuigli umani acqui-
sisconolelingue,evediamopoicomelavoranoletecno-
logie linguistiche.
Gli esseri umani acquisiscono le competenze linguisti-
cheinduemodidiversi.Ibambiniacquisisconounalin-
gua ascoltando delle interazioni reali che avvengono tra
genitori, fratelli o membri della famiglia. A partire da
circa due anni, i bambini producono le loro prime pa-
role e delle brevi frasi. uesto possibile solo perch gli
esseriumanihanno una predisposizionegeneticaad imi-
tare e poi razionalizzare i suoni che sentono.
Lapprendimento di una seconda lingua ad unet mag-
giore richiede pi sforzo, in gran parte perch il bambi-
no non immerso in una comunit linguistica di par-
lanti nativi. A scuola, le lingue straniere di solito sono
acquisitestudiandolastrutturagrammaticale,ilvocabo-
lario e lortografia con esercizi che descrivono la cono-
scenza linguistica in termini di regole astratte, tabelle ed
esempi.
Gli esseri umani acquisiscono il linguaggioin due modi diversi: apprendendo dagli
esempi e apprendendo le regolelinguistiche che li governano.
I due tipi principali di sistemi di tecnologie linguistiche
acquisiscono delle capacit linguistiche in modo
simile. Gli approcci statistici (o datadriven)rica-
vano la conoscenza linguistica da vaste raccolte di esem-
pi testuali concreti. Mentre sufficiente usare del testo
in una sola lingua per addestrare un correttore ortogra-
fico, per addestrare un sistema di traduzione automatica
sono necessari dei testi paralleli in due (o pi) lingue.
Lalgoritmo dimachine learningpoi impara dei mo-
delli di come sono tradotte le parole, i gruppi di parole
e le frasi complete.
uesto approccio statistico pu richiedere milioni di
frasielaqualitdelleprestazioniaumentaconlaquanti-
t di testo analizzato. uesto uno dei motivi per cui
i fornitori di motori di ricerca vogliono raccogliere il
maggior numero possibile di materiale scritto. La cor-
rezione ortografica negli editori di testo, e servizi come
8
7/23/2019 Lengua italiana
16/77
Google Search e Google Translate si basano tutti su ap-
procci statistici. Il grande vantaggio della statistica che
la macchina impara velocemente in serie continue di ci-
cli di apprendimento, anche se la qualit pu variare ar-
bitrariamente.
Il secondo approccio alle tecnologie linguistiche e al-
la traduzione automatica in particolare quello di co-
struiresistemibasatisuregole.Espertidilinguistica,lin-
guistica computazionale e informatica devono prima di
tutto codificare delle analisi grammaticali (regole di tra-
duzione) e compilare liste di vocaboli (lessici). uesto
lavoro molto lungo e laborioso. Alcuni dei sistemi lea-
der di traduzione automatica basati su regole sono stati
in costante sviluppo da pi di venti anni. Il grande van-taggiodeisistemibasatisuregolechegliespertihanno
un controllo pi dettagliato sulla elaborazione del lin-
guaggio. In questo modo possibile correggere sistema-
ticamente gli errori nel soware e fornire allutente un
feedback dettagliato, soprattutto quando i sistemi basa-
ti su regole vengono utilizzati per lapprendimento delle
lingue. Ma a causa del costo elevato di questo lavoro, le
tecnologielinguistichebasatesuregolefinorasonostate
sviluppate solo per le lingue principali.
Dal momento che i punti di forza e di debolezza dei si-
stemi statistici e di quelli basati su regole tendono ad es-
sere complementari, la ricerca attuale si concentra sugli
approcciibridichecombinanoleduemetodologie.Tut-
tavia, questi approcci finora hanno avuto pi successo
nei laboratori di ricerca che in applicazioni industriali.
I due tipi principali dei sistemidi tecnologie linguistiche acquisiscono
il linguaggio in modo simile.
Come abbiamo visto in questo capitolo, molte applica-
zioni ampiamente usate nella societ dellinformazione
dioggisibasanomoltosullatecnologialinguistica.Gra-zie alla sua comunit multilingue, questo vero in par-
ticolar modo per lo spazio economico e di informazio-
ne europeo. Sebbene le tecnologie linguistiche abbiano
fatto progressi notevoli negli ultimi anni, c ancora uno
spazio di miglioramento enorme per la qualit dei siste-
mi di tecnologie linguistiche. Nei prossimi capitoli de-
scriveremo il ruolo della lingua italiana nella societ del-
linformazioneeuropeae valuteremo lo stato attuale del-
le tecnologie linguistiche per la lingua italiana.
9
7/23/2019 Lengua italiana
17/77
3
LA LINGUA ITALIANA NELLA SOCIETEUROPEA DELLINFORMAZIONE
3.1ASPETTI GENERALILalinguaitalianacontacirca62milionidiparlantinati-
vi, il che la colloca tra le 20 lingue pi parlate al mondo.
125 milioni di persone la usano come seconda lingua.
Diversecomunitdiex-emigranti,ciascunacostituitada
pi di 500.000 persone che ancora parlano italiano, si
trovano in Argentina, Brasile, Canada e Stati Uniti. Se-
condounindaginerealizzatanel2006,conisuoi56mi-
lioni di parlanti nativi residenti in Italia litaliano la se-
conda lingua nellUnione Europea per numero di par-
lanti, dopo il tedesco e alla pari con linglese.
Nellambito di vari studi condotti in anni diversi, stato
stimato che altri 280.000 parlanti di italiano come pri-
ma lingua risiedano in Belgio, 70.000 in Croazia (pae-
se candidato a entrare a far parte dellUnione Europea),
1.000.000 in Francia, 548.000 in Germania, 20.800 nel
Lussemburgo, 27.000 a Malta (esclusi 118.000 parlan-
ti di italiano come seconda lingua), 2.560 in Romania,
4.010 in Slovenia, 200.000 nel Regno Unito e 471.000
in Svizzera.
La lingua italiana conta circa 62 milioni diparlanti nativi.
Litaliano si trovaal sesto posto nellUnione Europea tra
le lingue pi parlate come lingua straniera dopo lingle-
se,ilfrancese,iltedesco,lospagnoloeilrusso.Perquan-
to concerne il numero di traduzioni a livello mondiale,
litaliano si trova al quinto posto come lingua di parten-
za e allundicesimo come lingua di arrivo.
NellUnione Europea litaliano parlato come seconda
lingua dal 3% della popolazione, cio 14 milioni di per-
sone; da uno studio effettuato nel 2005 emerso che il61% dei maltesi, il 14% dei croati, il 12% degli sloveni,
l11%degliaustriaci,l8%deiromenieil6%deifrancesi
edeigreciincludonolitalianotraleduelinguestraniere
che i bambini dovrebbero imparare. Litaliano la lin-
gua ufficiale della Repubblica Italiana (formalmente ci
apparsonellaCostituzionesoltantoapartiredal2007)
edellaRepubblicadiSanMarino.InSvizzeralitaliano
una delle quattro lingue ufficiali, ed parlato soprattut-
to nel Canton Grigioni e nel Canton Ticino. A Cittdel Vaticano una delle lingue ufficiali (tutte le leggi e i
regolamenti dello stato sono pubblicati in italiano).
Litaliano una lingua ufficiale regionale in Slovenia
(larticolo 64 della Costituzione slovena concede allI-
stria, regione di lingua italiana, unampia libert per
quanto riguarda luso dellitaliano in aree quali listru-
zione, la cultura, la scienza, leconomia e i mass media)
e in Croazia.
SebbeneinItalialitalianosialalinguadigranlungapi
parlata, e quasi tutti i media (per esempio, la televisio-
ne, i giornali, i film, eccetera) siano prodotti in italiano,
altre lingue sono co-ufficiali allinterno di alcune regio-
ni: il francese in Val dAosta, il tedesco in Trentino-Alto
Adige e il sardo in Sardegna.
10
7/23/2019 Lengua italiana
18/77
3.2PARTICOLARIT DELLA
LINGUA ITALIANALa lingua italiana deriva dal latino ed la lingua nazio-
nale ad esso pi vicina. A differenza della maggior par-
te delle altre lingue romanze, la lingua italiana mantie-
ne il contrasto tra consonanti lunghe e consonanti brevi
che era presente in latino. Come nella maggior pare del-
le lingue romanze, laccento ha una funzione distintiva.
In particolare la lingua italiana la pi vicina al latino
tra le lingue romanze per quanto riguarda il lessico [7].
La grammatica italiana quella tipica delle lingue ro-
manze in generale. I casi esistono per i pronomi (no-
minativo, accusativo e dativo), ma non per i sostantivi.
Ci sono due generi grammaticali (maschile e femmini-
le).Isostantivi,gliaggettiviegliarticolicambianolade-
sinenza in rapporto al genere e al numero (singolare e
plurale). Gli aggettivi a volte si trovano prima del nome
a cui si riferiscono e a volte dopo. I sostantivi che svol-
gono la funzione di soggetto di solito sono posizionati
prima del verbo. I pronomi personali soggetto di solito
vengono omessi in quanto la loro presenza resa super-
flua dalle desinenze verbali. I sostantivi con funzione di
complementooggettoseguonoilverbo.Ipronomicom-
plemento oggetto in genere precedono il verbo, ma lo
seguono nel caso di verbi allimperativo e allinfinito. Ci
sono numerosi casi di contrazioni di preposizioni e arti-
coli (preposizioni articolate). Esistono infine numerosi
suffissi moltoproduttivi per il diminutivo, laccrescitivo,
ilpeggiorativoeilvezzeggiativo,chepossonoanchedare
origine a dei neologismi.
Molti parlanti nativi dellitaliano in realt sonoparlanti nativi bilingui, parlano cio come lingua
nativa sia litaliano sia il loro dialetto.
Una caratteristica peculiare dellitaliano che molti
parlanti nativi residenti in Italia in realt sono par-
lanti nativi bilingui, parlano cio come lingua nativa
sia litaliano sia il loro dialetto. Alcuni dei dialetti ita-
liani pi parlati sono il lombardo (8.830.000 parlanti
nel 2000), il napoletano-calabrese (7.050.000 parlanti
nel 1976), il siciliano (4.830.000 parlanti nel 2000), il
piemontese (3.110.000 parlanti nel 2000), il venezia-
no (2.180.000 parlantinel 2000), lemiliano-romagnolo
(2.000.000 parlanti nel 2003), il ligure (1.920.000 par-
lanti nel 2000). Alcuni dialetti italiani sono sufficiente-
mente distanti dallitaliano da essere considerati lingue
separate. I dialetti hanno svolto un ruolo significativo
nello sviluppo delle molteplici variet regionali esisten-
ti per litaliano e tale influenza risulta particolarmente
evidente nella prosodia, nella fonetica e nel lessico del-
litaliano parlato da dialettofoni.
3.3SVILUPPI RECENTINeglianni 50, le serie televisive e i film americani inizia-
rono a dominare il mercato italiano. Sebbene di solito le
serie e i film stranieri siano doppiati in italiano, la for-
te presenza del modo di vivere americano nei media ha
influenzato la cultura e la lingua italiana. In seguito al
trionfo della musica inglese e americana a partire dagli
anni 60, gli adolescenti italiani hanno subito una forte
esposizione allinglese per generazioni. Linglese ha ben
presto acquisito lo stato di lingua in o di moda, status
che mantiene anche ai giorni nostri.
Il mantenimento di questo status da parte della lingua
inglese si riflette nel numero dei prestitidallinglese (an-
glicismi) presenti attualmente nella lingua. Uno studio
recente[8]miraaquantificarelimpattodeglianglicismi
non adattati sulla base di conteggi relativi alla frequen-
za duso. uesto studio si basa su una lista di esempi di
anglicisminonadattatiraccoltidauncorpusitalianoco-
stituito da articoli di quotidiani. Lanalisi mostra come,
sebbene il numero di anglicismi nei dizionari italiani sia
considerevole,laloropresenzaallinternodeiquotidiani
un genere che i linguisti tradizionalmente considera-
no incline allinclusione di prestiti in generale e di an-
11
7/23/2019 Lengua italiana
19/77
glicismi nello specifico raggiunge percentuali molto
pi basse. Lautore sostiene che le strategie di marketing
spingono gli editori e i curatori a massimizzare il nume-
ro di lemmi nei dizionari includendo molti prestiti e, in
particolare, molti anglicismi; sarebbero invece da pren-
dereinconsiderazioneiconteggirelativiallafrequenzae
basatisucorpora,inquantocapacidiattestarelusoreale
di una parola. Lautore suggerisce che dovrebbero essere
introdottedellesogliedifrequenzaperdeterminarelin-
clusione degli anglicismi nei dizionari monolingui e nei
dizionari settoriali, sia per litaliano che per altre lingue,
e in questo la linguistica basata su corpora pu offrire
il suo contributo fornendo dati approssimati sulla fre-
quenza duso delle parole.
3.4INIZIATIVE PER LAPROMOZIONE DELLA LINGUA
ITALIANAUno dei principali punti di riferimento per le ricerche
sullalinguaitaliana,ancherispettoallesuevarietregio-
nali, lAccademia della Crusca [9], che fu fondata a
Firenze nella seconda met del XVI secolo. Il principale
risultato ottenuto dallAccademia fu il Vocabolario de-
gliAccademicidellaCrusca(1612),ilprimodizionario
della lingua italiana. Attualmente, lattivit dellAccade-
mia mira a sostenere lattivit scientifica e la formazione
di nuovi ricercatori nel campo della linguistica e della
filologia italiana e a collaborare con le omologhe istitu-
zioniestereeconleistituzionigovernativeitalianeedel-
lUnioneEuropeaperlapoliticadellEuropaafavoredel
plurilinguismo.
LAccademia della Crusca uno deiprincipali punti di riferimento per le ricerche
sulla lingua italiana.
Infine, lAccademia punta ad acquisire e diffondere non
solo la conoscenza storica ma anche la coscienza critica
dellevoluzione dellitaliano nellera della societ dellin-
formazione.
In parte come reazione alla crescente importanza de-gli anglicismi nella lingua italiana, nel 2001 stata pre-
sentata uniniziativa parlamentare che punta alla crea-
zione di un Consiglio Superiore della Lingua Italiana
(CSLI), allo scopo di contrastare limpoverimento della
lingua italiana e la sua perdita di prestigio a livello euro-
peo e internazionale (tale proposta non ha avuto ancora
lapprovazione del Parlamento). Gli obiettivi del CLSI
includerebbero, tra gli altri, la difesa, la valorizzazione
e la diffusione della cultura italiana, in particolar modoattraverso iniziative mirate alla promozione di un uso
corretto della lingua italiana nelle scuole, nei mezzi di
comunicazione e negli scambi economici. Un obiettivo
aggiuntivo sarebbe costituito dalla diffusione della lin-
gua italiana allestero, cos come il suo uso ufficiale nelle
istituzioni europee.
3.5LA LINGUA NEL SETTOREDELLA FORMAZIONELe capacit linguistiche costituiscono una competenza
fondamentale richiesta nella formazione scolastica e an-
che per la comunicazione personale e professionale. Lo
status della lingua italiana come materia scolastica nella
scuola di base sembra riflettere la necessit di dare prio-
rit a questo aspetto. Il primo studio PISA, condotto
nel 2000, ha rivelato come gli studenti italiani ottenga-
no risultati inferiori alla media OECD per quanto con-
cerne le loro capacit nella lettura. Gli studenti con un
background di migrazione ottengono risultati partico-
larmente bassi. Il dibattito che ne derivato ha avuto
leffetto di aumentare nellopinione pubblica la consape-
volezza dellimportanza dellapprendimento linguistico,
specialmentenelcontestodellintegrazionesociale.Nel-
12
7/23/2019 Lengua italiana
20/77
lultimo studio PISA (2009), gli studenti italiani hanno
ottenuto risultati simili a quelli ottenuti nel 2000, il che
pu essere valutato positivamente dal momento che la
media OECD nello stesso periodo si invece abbassata
[10].
3.6LITALIANO SU INTERNETSistimachelapenetrazionediInternetinItaliasiattesti
al 51,7%, con 30 milioni di utenti su una popolazione
totale di 58 milioni; gli utenti di Internet in Italia sono
cresciuti del 127,5% tra il 2000 e il 2010 e rappresenta-
no circa il 6,3% degli utenti di Internet nellUnione Eu-
ropea. La percentuale di pagine web in italiano a livel-lo mondiale raddoppiata passando dall1,5% nel 1998
al 3,05% nel 2005. stato stimato che nel 2004 in tut-
to il mondo ci fossero 30,4 milioni di parlanti italiani
online. Al di fuori dei confini dellUnione Europea, le
stime parlano di 520.000 americani, 200.000 svizzeri e
100.000 australiani che accedono a Internet in italiano.
Il numero di utenti di Internet italiani negli ultimi cin-
que anni rimasto relativamente stabile, mentre il nu-
mero di nuovi utenti nei paesi in via di sviluppo au-mentatonotevolmente.Laconseguenzachelapropor-
zione di utenti Internet che parlano italiano subir una
diminuzione nel prossimo futuro e litaliano potrebbe
andare incontro al problema di essere sotto rappresen-
tato nel Web, specialmente se paragonato allinglese.
qui che le tecnologie del linguaggio possono svolgere un
ruolo fondamentale per vincere le sfide che aspettano la
lingua italiana nellera digitale.
Luso massiccio di sistemi interattivi nellInternetdel Futuro richiede tecnologie del linguaggiocon un alto livello di adattabilit a parlanti
di diverse variet di italiano.
Luso massiccio di sistemi interattivi nellInternet del
Futurorichiedetecnologiedellinguaggioconunaltoli-
vello di adattabilit a parlanti di diverse variet di italia-
no. Ci si ripercuote in primo luogo sulle tecnologie per
la trascrizione automatica di dati audio, dal momento
che gli accenti regionali variano significativamente, ma
nesonointeressateanchetuttelealtretecnologiedellin-
guaggio, in quanto le variet regionali sono caratterizza-
te da differenze a tutti i livelli linguistici, dal lessico alla
sintassi. La disponibilit di sistemi in grado di suppor-
tare le variet regionali dellitaliano permetterebbe non
solo un miglioramento in termini di prestazioni, ma an-
che uninterazione pi naturale tra umani e computer.
Lapplicazione web pi comunemente usata certamen-
te la ricerca di contenuti, la quale richiede lelaborazione
automatica del linguaggio a vari livelli, come vedremo
pi in dettaglio nella seconda parte di questo articolo.
Essa richiede tecnologie linguistiche sofisticate che dif-
feriscono da lingua a lingua (in italiano, ad esempio,
necessario far corrispondere citt e citta). anche
possibile, tuttavia, che gli utenti di Internet e coloro che
pubblicano contenuti sul Web sfruttino le tecnologie
linguisticheinunmodomenoesplicito,peresempionel
momentoincuiessevengonoimpiegatepereffettuarela
traduzione automatica di contenuti web da una lingua
allaltra. Considerando i costi della traduzione manuale
di tali contenuti, pu apparire sorprendente quanto sia
limitata la quantit di tecnologie linguistiche effettiva-
mente disponibili, specialmente se paragonata ai biso-
gni.
Daltra parte, questo risulta meno sorprendente se pren-
diamo in considerazione la complessit della lingua ita-
liana e la quantit di tecnologie richieste per una tipi-
ca applicazione di tecnologie del linguaggio. Nel prossi-
mo capitolo, presentiamo unintroduzione alle tecnolo-
gie del linguaggio e ai loro ambiti applicativi principali;
proponiamo inoltre una valutazione della situazione at-
tuale di queste tecnologie per la lingua italiana.
13
7/23/2019 Lengua italiana
21/77
4
LE TECNOLOGIE LINGUISTICHE PER LITALIANO
Le tecnologie linguistiche sono usate per sviluppare si-
stemi soware progettati per gestire il linguaggio uma-
no e di conseguenza sono spesso chiamate tecnologia
del linguaggio umano. Il linguaggio umano si presen-
ta in forma orale o scritta. Mentre la voce la forma di
comunicazione linguistica pi antica e pi naturale in
terminievolutivi,linformazionecomplessaelamaggiorparte della conoscenza sono memorizzate e trasmesse in
testi scritti. Le tecnologie vocali e testuali elaborano o
producono queste diverse forme di linguaggio usando i
dizionari, le regole della grammatica e della semantica.
Ci significa che la tecnologia linguistica (TL) collega
il linguaggio a varie forme di conoscenza, indipenden-
temente dal mezzo (discorso o testo) con cui espressa.
La Figura1illustra il panorama delle tecnologie lingui-
stiche.uando comunichiamo, combiniamo il linguaggio con
altri modi di comunicazione e mezzi di informazione
per esempio il parlare pu includere gesti ed espressioni
facciali. I testi digitali sono collegati a immagini e suoni.
I film possono contenere il linguaggio in forma parlata e
scritta.Inaltreparole,letecnologievocalietestualisiso-
vrappongono e interagiscono con altre tecnologie della
comunicazione multimodali e multimediali.
In questo capitolo, presenteremo i campi principali diapplicazione delle tecnologie linguistiche, ovveroil con-
trolloortograficoegrammaticalediunalingua,laricerca
suWeb,latecnologiavocale,elatraduzioneautomatica.
ueste applicazioni e tecnologie di base includono:
correzione ortografica
supporto alla creazione di documenti
apprendimento linguistico assistito da computer
information retrieval
estrazione di informazione
sommarizzazione automatica
question answering
riconoscimento vocale sintesi vocale
Lareadiricercarelativaalletecnologiedellinguaggiodi-
sponedi unvasto insieme di letteratura introduttiva;per
un approfondimento si rimanda ai seguenti riferimenti
bibliografici: [11,12,13,14,15].
Prima di discutere queste aree di applicazione, descrive-
remo brevemente larchitettura di un tipico sistema di
tecnologie del linguaggio.
4.1ARCHITETTURE APPLICATIVELe applicazioni soware per lelaborazione del linguag-
giogeneralmentesonocostituitedapicomponentiche
rispecchiano i diversi aspetti del linguaggio. Sebbene si
tratti di applicazioni in genere molto complesse, la Fi-
gura2mostra unarchitettura altamente semplificata di
un tipico sistema di elaborazione del testo. I primi tremoduli gestiscono la struttura e il significato del testo in
ingresso:
1. Pre-processing: prepara i dati, analizza o rimuove il
formato, rileva la lingua in ingresso, rileva gli accenti
(citt e citta) e gli apostrofi (dellUE e della
UE) per litaliano, e cos via.
14
7/23/2019 Lengua italiana
22/77
Tecnologiemultimediali e
multimodali
Tecnologielinguistiche
Tecnologie vocali
Tecnologie perl'elaborazione del testo
Tecnologie della conoscenza
1: Tecnologie linguistiche
2. Analisi grammaticale: riconosce il verbo, i suoi og-
getti, modificatori e altre parti del discorso e inoltre
rileva la struttura della frase.3. Analisi semantica: esegue la disambiguazione (cio
assegna un significatoappropriato alle parole in base
al contesto), risolve lanafora (cio quali pronomi si
riferiscono a quali sostantivi nella frase) e le espres-
sioni sostitutive, e rappresenta il significato della fra-
se in un formato leggibile da una macchina.
Dopoaveranalizzatoiltesto,deimodulispecificiperun
certo compito possono eseguire altre operazioni, come
il riassunto automatico e la ricerca in un database.
Dopoaver introdotto le aree chiave della tecnologie lin-
guistiche, nella parte restante di questocapitolo fornire-
mo prima una breve panoramica dello stato attuale del-
la ricerca e della formazione in questo campo e poi un
quadro dei programmi di ricerca passati e attuali. Infine,
presenteremo una stima esperta degli strumenti e delle
risorse che sono fondamentali per litaliano da diversi
punti di vista, quali la disponibilit, la maturite la qua-
lit. La situazione generale delle tecnologie linguistiche
per litaliano infine riassunta in Figura8alla fine di
questo capitolo. uesta tabella elenca tutti gli strumen-
ti e le risorse che sonoevidenziatinel testo. Le tecno-
logie linguistiche per litaliano sono confrontate anche
con quelle per le altre lingue facenti parte di questa col-
lana.
4.2AMBITI APPLICATIVIPRINCIPALIIn questa sezione, ci concentriamo sugli strumenti e le
risorse pi importanti per le tecnologie linguistiche, per
poi passare ad una panoramica delle attivit legate alle
tecnologie del linguaggio in Italia.
4.2.1 Controllo ortografico egrammaticale
Chiunque abbia usato un editore di testo come Micro-
so Word sa che dispone di un correttore ortograficoche evidenzia gli errori di ortografia e propone delle
correzioni. I primi programmi di correzione ortografica
confrontavano una lista di parole estratte con un dizio-
nario di parole scritte correttamente. Oggi questi pro-
grammi sono molto pi sofisticati. Utilizzando algorit-
mi dipendenti dalla lingua per lanalisi grammaticale,
rilevano gli errori relativi alla morfologia (per esempio,
laformazionedelplurale),coscomeglierrorirelativial-
lasintassi,comeunverbomancanteounconflittodiac-cordo verbo-soggetto contratto (ad esempio,lei *scrio
una lettera). Ma la maggior parte dei correttori ortogra-
fici non trover alcun errore nel testo che segue [16]:
*Per salire in casa occorre fare 15scali
(Per salire in casa occorre fare 15gradini)
15
7/23/2019 Lengua italiana
23/77
Testo in input
Pre-elaborazione Analisigrammaticale
Analisisemantica
Moduli specifici delcompito
Output
2: Architettura tipica di unapplicazione per lelaborazione del testo
La gestione di questo tipo di errori di solito richiede
unanalisi del contesto. uesto tipo di analisi deve at-
tingere a dellegrammatichespecifiche per una lingua,
faticosamente codificate nel soware da parte di esper-ti, o ad un modello di linguaggio statistico. In questul-
timo caso, un modello calcola la probabilit di una cer-
ta parola di comparire in una determinata posizione (ad
esempio,traleparolechelaprecedonoelaseguono).Ad
esempio: 15 gradini unasequenzadiparolepiproba-
bile di15 scali. Un modello di linguaggio statistico pu
essere creato automaticamente utilizzando una grande
quantit di dati linguistici (corretti), un cosiddetto cor-
pus testuale. La maggior parte di questi approcci sonostati sviluppati sulla base di dati per la lingua inglese.
Nessuno dei due approcci pu essere facilmente trasfe-
rito allitaliano perch la lingua ha un ordine flessibile
delle parole e un sistema flessionale pi ricco.
Il controllo ortografico e grammaticale non limitato
agli editori di testo, ma usato anche in sistemi di sup-
porto alla creazione di documenti, cio ambienti so-
ware con cui sono scritti i manuali e altra documentazio-
ne che segue standard particolari per le tecnologie del-
linformazione, i prodotti sanitari, lingegneria ed altro.
Temendo lamentele da parte dei clienti circa luso scor-
rettoerichiestedirisarcimentoperdannidovutiaistru-
zionipocochiare,leaziendesonosemprepiconcentra-
te sulla qualit della documentazione tecnica, puntando
al contempo al mercato internazionale (tramite tradu-
zione o localizzazione).I progressinella elaborazionedel
linguaggio naturale hanno portato allo sviluppo di so-
ware di supporto alla creazione di documenti, che aiu-
tano lautore di documentazione tecnica nelluso di unvocabolario e di una costruzione della frase coerenti con
le regole del settore e con le restrizioni terminologiche
aziendali.
Luso del controllo ortografico e grammaticalenon limitato agli editori di testo ma usato
anche nei sistemi di supporto alla creazione didocumenti.
Oltre ai correttori ortografici e ai supporti alla creazio-
ne di documenti,il controllogrammaticale importante
anchenelcampodellapprendimentodellelingueassisti-
to da computer. Le applicazioni di controllo grammati-
cale correggono automaticamente le query deimotoridi
ricerca, come ad esempio nei suggerimenti di Google.
4.2.2 Ricerca nel WebLa ricerca nel Web, nelle intranet o nelle biblioteche di-
gitali probabilmente lapplicazione di tecnologia del
linguaggio oggi pi usata, anche se in gran parte anco-
ra poco sviluppata. Il motore di ricerca di Google, che
ha iniziato nel 1998, gestisce oggi circa l80% di tutte le
querydi ricerca [17]. Linterfaccia di ricerca di Google
16
7/23/2019 Lengua italiana
24/77
Testo in input Controllo ortografico Controllo grammaticale Proposte di correzione
Modello statistico di linguaggio
3: Correttore ortografico e grammaticale (sopra: statistica, sotto: a regole)
e la pagina che mostra i risultati non sono significativa-
mente cambiate rispetto alla prima versione. Tuttavia,
nella versione attuale Google offre la correzione orto-
grafica per le parole errate e di recente ha incorporato
delle funzionalit di base di ricerca semantica che pos-
sono migliorare la precisione della ricerca analizzando ilsignificatodeiterminiinundatocontestodi query diri-
cerca [18]. La storia del successo di Google mostra che
grandiquantitdidatiuniteatecnichediindicizzazione
efficienti sono in grado di fornire risultati soddisfacenti
usando un approccio basato sulla statistica.
Per richieste di informazioni pi sofisticate, essenzia-
le integrare delle conoscenze linguistiche pi approfon-
dite che consentano linterpretazione del testo. Espe-
rimenti che hanno utilizzato delle risorse lessicalico-me thesauri elettronici o risorse linguistiche ontologi-
che(adesempio, WordNet per lingleseo ItalWordNet e
MultiWordNet per litaliano) hanno dimostrato dei mi-
glioramenti nella ricerca di pagine utilizzando dei sino-
nimidei termini di ricerca originali, comeenergia ato-
mica e energia nucleare, o termini meno strettamente
connessi.
La prossima generazione di motori di ricerca dovr in-
cludere una tecnologia linguistica molto pi sofisticata,
inparticolareperaffrontare query diricercacostituiteda
domande o altri tipi di frase, piuttosto che da un elenco
diparolechiave.PerlarichiestaDammiun elenco di tutte
le aziende che sono state rileate da altre societ negli ul-
timi cinque anni, necessaria unanalisi semantica oltre
a quella sintattica. Il sistema dovr inoltre fornire un in-
dice per recuperare rapidamente i documenti rilevanti.
Una risposta soddisfacente richieder lanalisi sintattica
per analizzare la struttura grammaticale della frase e de-
terminare che lutente desidera conoscere le aziende che
sono state acquisite, e non le societ che hanno acquisi-
to altre societ. Per lespressionegli ultimi cinque anni, ilsistema deve determinare gli anni in questione. E la que-
rydeve essere confrontata con una quantit enorme di
dati non strutturati per trovare la o le informazioni per-
tinenti che lutente desidera. uesto processo si chiama
information retrieval, e implica la ricerca e la classifica-
zione dei documenti rilevanti. Per generare un elenco di
societ, il sistema deve anche riconoscere che una parti-
colare stringa di parole in un documento il nome del-
la societ, utilizzando un processo chiamato riconosci-mento di entit nominate.
La prossima generazione di motori di ricercadovr includere una tecnologia linguistica molto
pi sofisticata.
Una sfida ancora pi impegnativa far corrispondere
unaqueryin una lingua con dei documenti in unaltra
lingua. Ilcross-lingual information retrievalcomporta
tradurre automaticamente laqueryin tutte le lingue di
origine possibili e poi di nuovo tradurre i risultati nella
lingua di destinazione.
Ora che i dati sono sempre pi disponibili in formati
non testuali, sono necessari dei servizi che offrano il re-
cuperodiinformazionemultimedialeattraversolaricer-
17
7/23/2019 Lengua italiana
25/77
Query utente
Pagine web
Pre-elaborazione Analisi della query
Pre-elaborazione Elaborazione semantica Indicizzazione
Corrispondenzae
rilevanza
Risultati della ricerca
4: Ricerca su Web
ca di immagini, file audio e dati video. Nel caso di file
audio e video, un modulo di riconoscimento vocale de-
ve convertire il contenuto parlato in testo (o in una rap-
presentazione fonetica) che possa poi essere confrontato
con unaquerydellutente.
In Italia, aziende come Expert System e CELI, tra le al-tre, sviluppano e applicano con successo le tecnologie di
ricerca semantica.
4.2.3 Interazione Vocale
Linterazione vocale una delle molte aree applicati-
ve che dipendono dalle tecnologie vocali, ovvero quello
tecnologiecheconsentonolelaborazionedellinguaggio
parlato. Le tecnologie per linterazione vocale sono uti-
lizzate per creare interfacce che consentono agli uten-
ti di interagire in linguaggio parlato anzich usare un
display grafico, tastiera e mouse. Oggi, queste interfac-
ce utente vocali (Voice User Interfaces VUI) vengono
utilizzateperservizitelefonicicompletamenteoparzial-
mente automatizzati chevengono forniti dalle societai
clienti, ai dipendenti o ai partner commerciali. I domini
applicativi che si basano massicciamente sulle VUI in-
cludono banche, catene di distribuzione, trasporti pub-
blici, e telecomunicazioni. Altri usi delle tecnologie per
linterazione vocale includono le interfacce dei sistemi
di navigazione per auto e luso del linguaggio parlato co-
mealternativaalleinterfaccegraficheotouch-screenne-gli smartphone.
Linterazione vocale comprende quattro tecnologie:
1. Il riconoscimento vocale automatico (ASR), che
determina quali parole sono effettivamente pronun-
ciate in una data sequenza di suoni emessi da un
utente.
2. La comprensione del linguaggio naturale analizza la
struttura sintattica dellespressione di un utente e lainterpreta secondo il sistema in questione.
3. La gestione del dialogo determina lazione da intra-
prendere in base allinputdellutentee le funzionalit
del sistema.
4. La sintesi vocale (text-to-speech o TTS) trasforma la
risposta del sistema in suoni per lutente.
18
7/23/2019 Lengua italiana
26/77
Input vocale Elaborazione delsegnale
Output vocale Sintesi vocaleRicerca fonetica e
pianificazionedell'intonazione
Comprensione dellinguaggio naturale
e dialogo
Riconoscimento
5: Sistema di dialogo parlato
La tecnologia vocale rappresenta la baseper creare delle interfacce che permettano
ad un utente di interagire tramite il linguaggio
parlato anzich usare uno schermo grafico,tastiera e mouse.
Una delle sfide principali dei sistemi di riconoscimento
vocale consiste nel riconoscere con precisione le paro-
le pronunciate da un utente. uesto significa limitare la
gammadiespressionipossibilidegliutentiaduninsieme
limitato di parole chiave, oppure creare manualmente
dei modelli di linguaggio che coprano una vasta gamma
di espressioni in linguaggio naturale. Utilizzando tecni-
che dimachine learning, dei modelli di linguaggio pos-
sono essere generati anche automaticamente da corpo-
ra di parlato, ovvero grandi raccolte di file audio voca-
li e trascrizioni testuali. Limitare le espressioni di solito
costringe le persone a utilizzare linterfaccia utente vo-
cale in modo rigido e pu pregiudicare laccettazione da
parte dellutente, ma la creazione, ladattamento e la ma-
nutenzione di modelli di linguaggio ricchi aumentano
sensibilmente i costi. Le interfacce vocali che utilizzano
modelli linguistici e permettono inizialmente allutente
di esprimere le proprie intenzioni in modo pi flessibile
per esempio tramite un saluto introduttivo comeCo-
me posso aiutarla? tendono ad essere automatizzate e
sono accettate meglio dagli utenti.
Le aziende tendono ad usare delle espressioni pre-
registrate da attori professionisti per generare loutput
dellinterfaccia utente vocale. Per espressioni statiche in
cui la formulazione non dipende da contesti duso par-
ticolari o da dati personali, questo pu offrire unespe-
rienza pi ricca per lutente. Tuttavia, i contenuti pi di-
namici in un enunciato potrebbero essere compromes-
si da unintonazione innaturale derivante dalla semplice
combinazionediframmentidifileaudio.Isistemidisin-
tesi vocale attuali sono in continuo miglioramento (an-
che se possono essere ancora ottimizzati) nel produrre
espressioni dinamiche che suonino naturali.
Nel mercato dellinterazione vocale le interfacce sono
state notevolmente standardizzate negli ultimi dieci an-
ni in termini di componenti tecnologici vari. C statoanche un forte consolidamento nel mercato del ricono-
scimentovocaleedellasintesivocale.Imercatinazionali
dei paesi del G20 (paesi economicamente resilienti e in-
tensamente popolati) sono stati dominati da sole cinque
figuredilivellomondiale,conNuance(USA)eLoquen-
do(Italia)arappresentarelefigurepiimportantiinEu-
ropa. Nel 2011, Nuance ha completato lacquisizione di
Loquendo, definendo cos un ulteriore passo avanti nel
consolidamento del mercato.
Nel mercato del riconoscimento vocale automatico per
la lingua italiana, ci sono anche aziende pi piccole co-
me PerVoice, Cedat85 e Synthema. Per quanto riguarda
la tecnologia e il know-how della gestione del dialogo, il
mercato dominato da operatori nazionali per le PMI.
InItalia,questiincludonoIMServiceLab.Piuttostoche
19
7/23/2019 Lengua italiana
27/77
fare affidamento su un modello produttivo basati su li-
cenze soware, queste aziende sono posizionate princi-
palmente come fornitori di servizi completi che creano
interfacce utente vocali come parte di un servizio di in-
tegrazione di sistema. Nel settore della tecnologia inte-
rattiva, non vi ancora un vero mercato per tecnologie
di base basate su analisi sintattica e semantica.
LadomandadiinterfacceutentevocaliinItaliacresciu-
ta rapidamente negli ultimi cinque anni, trainata dal-
la richiesta crescente di servizi self-service da parte dei
clienti e dalla crescente accettazione del linguaggio par-
lato come mezzo per linterazione uomo-macchina.
Guardando al futuro, ci saranno cambiamenti significa-
tivi dovuti alla diffusione degli smartphone quale nuovapiattaforma per la gestione delle relazioni con i clienti
in aggiunta ai telefoni fissi, Internet e posta elettronica.
uestoinfluiranchesulmodoincuiusatalatecnolo-
gia vocale. Nel lungo periodo, ci saranno sempre meno
interfacce vocali basate sul telefono e il linguaggio par-
lato avr un ruolo molto pi centrale come modalit di
accessoperglismartphone.uestosaringranpartede-
terminato dai miglioramenti intervenuti nellaccuratez-
za del riconoscimento vocale indipendente dal parlanteattraverso i servizi di dettatura vocale gi offerti come
servizi centralizzati agli utenti di smartphone.
4.2.4 Traduzione automatica
Lidea di utilizzare i computer per tradurre le lingue na-
turali risale al 1946 ed stata seguita da cospicui finan-
ziamentiperlaricercaduranteglianni50enuovamente
negli anni 80. Eppure latraduzione automatica(Ma-
chine Translation,MT)nonancoraingradodimante-
nere la sua promessa iniziale.
Nella traduzione automatica, lapproccio pi semplice
consiste nel sostituire automaticamente le parole di un
testo in una certa lingua naturale con parole in unaltra
lingua. uesto pu essere utile in ambiti che hanno un
linguaggio molto limitato e stereotipato, come le previ-
sioni meteo. Ma per produrre una buona traduzione di
testi meno standardizzati, o per unit di testo pi gran-
di(comesintagmi,frasioancheinteripassaggi),devono
essere trovati gli omologhi migliori nella lingua di arri-
vo.
Ad un livello base, la traduzione automaticaconsiste semplicemente nella sostituzione di
parole in una lingua con parole in unaltra lingua.
Ladifficoltmaggiorecheillinguaggioumanoambi-
guo.Lambiguitcreaproblemisupilivelli,adesempio
a livello lessicale (la parola inglesejaguarpu essere tra-
dotta come una marca di auto o come un animale) o a
livello sintattico, per esempio:
e chicken is readyto eat.
[Il pollo prontoa mangiare.]
[Il pollo prontoper essere mangiato.]
Un modo di costruire un sistema di MT consiste nel-
lutilizzare delle regole linguistiche. Per le traduzioni tra
lingue molto simili, una traduzione diretta basata sul-
la sostituzione pu essere fattibile in casi come quello
dellesempio precedente. Tuttavia, i sistemi basati su re-
gole (o basati sulla conoscenza linguistica) spesso ana-
lizzano il testo in input e creano una rappresentazione
simbolica intermedia da cui il testo pu essere generato
nella lingua di destinazione. Il successo di questi meto-
di fortemente dipendente dalla disponibilit di grandi
lessici dotati di informazioni morfologiche, sintattiche
e semantiche, e di grandi insiemi di regole grammatica-
li attentamente progettate da linguisti esperti. uesto
un processo molto lungo e di conseguenza costoso.
Linteresse per i modelli statistici nella traduzione auto-
matica cresciuto verso la fine degli anni 80, quando
la potenza di calcolo aumentata ed diventata meno
costosa. I modelli statistici sono derivati dallanalisi di
20
7/23/2019 Lengua italiana
28/77
Traduzioneautomatica
statistica
Testo originale
Testo finale
Analisi testuale (formattazione,morfologia, sintassi, ecc.)
Post-editing (formattazione,contesto, ecc.)
Regole di traduzione
6: Traduzione automatica (a sinistra: statistico, a destra: a regole)
corpora testuali bilingui, come il corpus paralleloEu-
roparl, che raccoglie gli atti del Parlamento europeo in
21 lingue europee. Con una quantit sufficiente di dati,
la traduzione automatica statistica funziona abbastanzabene da ricavare un significato approssimativo di un te-
sto in una lingua straniera, elaborando versioni paralle-
le e trovando delle sequenze di parole plausibili. Ma a
differenza dei sistemi basati sulla conoscenza, la tradu-
zione automatica statistica (odata-driven) spesso gene-
ra un risultato sgrammaticato. La traduzione automati-
cadata-driven vantaggiosa perch richiede uno sforzo
umanominore, e puanche trattareparticolarit specia-
lidellinguaggio(adesempio,leespressioniidiomatiche)che possono essere ignorate da sistemi basati sulla cono-
scenza.
I punti di forza e di debolezza della traduzione auto-
matica basata sulla conoscenza e di quella data-driven
tendono ad essere complementari, di modo che al gior-
no doggi i ricercatori si concentrano su approcci ibridi
che combinano entrambe le metodologie. Un approc-
cioparticolareutilizzasiasistemi basati sulla conoscenza
che data-driven, con un modulo di selezione che decide
la migliore uscita per ogni frase. Tuttavia, i risultati per
frasi pi lunghe di 12 parole saranno spesso ben lonta-
ni dallessere perfetti. Una soluzione pi soddisfacente
consiste nel combinare le parti migliori di ogni frase da
pi uscite diverse; la cosa pu essere piuttosto comples-
sa, in quanto non sempre evidente quali siano le parti
corrispondenti di alternative multiple, che devono esse-
re allineate.
La traduzione automatica particolarmenteimpegnativa per la lingua italiana.
La traduzione automatica particolarmente impegnati-
va per la lingua italiana, che morfologicamente com-
plessa ed ha un ordine libero delle parole nella frase. Ci
sono alcune aziende in Italia attive nel settore della tra-
duzioneautomatica,soprattuttonellafornituradiservi-
zi per usi professionali (ad esempio, Translated).
Lusodellatraduzioneautomaticapuaumentarelapro-
duttivit in modo significativo, ammesso che il sistema
sia adattato in modo intelligente alla terminologia spe-
cifica per lutente e integrato nel flusso di lavoro. Sono
stati sviluppati dei sistemi speciali per supportare la tra-
duzione interattiva.
Il potenziale di miglioramento della qualit dei sistemi
di traduzione automatica ancora enorme. Le sfide at-
tuali riguardano ladattamento delle risorse linguistiche
a un dominio o argomento determinato e lintegrazio-
ne della tecnologia nei flussi di lavoro che dispongono
gi di database di termini e memorie di traduzione. Un
altro problema che la maggior parte dei sistemi attuali
sono incentrati sullinglese e supportano solo alcune lin-
gue da e verso litaliano. uesto comporta una frizione
nel flusso di lavoro di traduzione e costringe gli utenti
21
7/23/2019 Lengua italiana
29/77
Lingua target Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV
EN 40.5 46.852.6 50.041.055.234.8 38.650.137.250.439.643.439.852.349.255.049.0 44.750.7 52.0BG 61.3 38.7 39.4 39.6 34.546.925.5 26.742.422.043.529.3 29.1 25.944.935.145.936.8 34.1 34.1 39.9DE 53.626.3 35.443.132.847.126.7 29.539.427.642.727.630.319.850.230.244.130.729.431.441.2CS 58.432.042.6 43.634.648.930.7 30.541.627.444.334.5 35.826.346.539.245.736.543.6 41.3 42.9
DA57.628.744.135.7 34.347.527.831.641.324.243.829.732.921.148.534.345.433.9 33.0 36.247.2EL 59.532.443.137.744.5 54.026.5 29.048.323.749.629.032.623.848.934.252.537.2 33.1 36.343.3ES 60.031.142.737.544.439.4 25.4 28.551.324.051.726.830.524.648.833.957.338.1 31.7 33.943.7ET 52.024.637.3 35.2 37.828.240.4 37.7 33.4 30.9 37.0 35.0 36.920.541.332.0 37.828.030.6 32.9 37.3FI 49.323.236.0 32.0 37.927.239.7 34.9 29.5 27.236.6 30.5 32.519.440.628.837.526.5 27.3 28.237.6FR 64.034.545.139.547.4 42.860.926.730.0 25.556.128.331.925.351.635.761.043.833.1 35.645.8HU48.024.734.3 30.0 33.025.534.129.6 29.430.7 33.529.631.918.136.129.834.225.7 25.6 28.230.5IT 61.032.144.338.945.8 40.626.9 25.0 29.752.724.2 29.432.624.650.535.256.539.3 32.5 34.744.3LT 51.827.633.9 37.0 36.826.5 21.134.2 32.0 34.428.536.8 40.122.238.1 31.6 31.629.331.8 35.3 35.3LV 54.029.135.0 37.8 38.529.7 8.0 34.2 32.4 35.629.338.9 38.4 23.341.534.4 39.6 31.0 33.3 37.1 38.0MT72.132.2 37.2 37.9 38.9 33.748.726.9 25.842.422.443.730.2 33.2 44.037.145.938.9 35.840.0 41.6NL 56.929.346.937.045.435.349.727.5 29.843.425.344.528.631.722.0 32.047.733.0 30.1 34.643.6PL 60.831.540.2 44.2 42.134.246.229.2 29.040.024.543.233.2 35.627.944.8 44.138.2 38.2 39.842.1PT 60.731.442.938.442.8 40.260.726.4 29.253.223.852.828.031.524.849.334.5 39.4 32.1 34.443.9RO60.833.1 38.5 37.840.335.650.424.6 26.246.525.044.828.4 29.9 28.743.035.848.5 31.5 35.1 39.4SK 60.832.6 39.448.1 41.033.346.229.8 28.439.427.441.833.8 36.728.544.439.043.335.3 42.6 41.8SL 61.033.1 37.943.5 42.634.047.031.128.838.225.742.334.6 37.3 30.045.938.244.135.8 38.9 42.7SV 58.526.941.035.646.633.346.627.430.9 38.922.742.028.231.023.745.632.244.232.7 31.3 33.5
7: Traduzione automatica tra 22 lingue dellUE Machine translation between 22 EU-languages [19]
dei sistemi di traduzione automatica ad apprendere lu-
so di strumenti diversi di codifica dei lessici per sistemi
diversi.Le campagne di valutazione aiutano a confrontare la
qualitdeisistemiditraduzioneautomatica,idiversiap-
procci e lo stato dei sistemi per coppie di lingue diverse.
La Figura7(p.22), che stata preparata durante il pro-
getto europeo Euromatrix +, mostra le prestazioni otte-
nute per coppie di lingue su 22 delle 23 lingue ufficiali
dellUE (lirlandese non stato confrontato). I risultati
sono classificati in base al punteggio BLEU, che assegna
punteggi pi alti alle traduzioni migliori [20] (un tra-duttoreumanoraggiungerebbeunpunteggiodicirca80
punti).
I ris
Recommended