Η ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΣΤΗΝ ΨΗΦΙΑΚΗ ΕΠΟΧΗ

White Paper Series

THE GREEKLANGUAGE IN

THE DIGITALAGE

Σειρά Λευκών Βίβλων

Η ΕΛΛΗΝΙΚΗΓΛΩΣΣΑ ΣΤΗΝΨΗΦΙΑΚΗΕΠΟΧΗ

Maria GavrilidouMaria KoutsombogeraAnastasios PatrikakosStelios Piperidis

White Paper Series

THE GREEKLANGUAGE IN

THE DIGITALAGE

Σειρά Λευκών Βίβλων

Η ΕΛΛΗΝΙΚΗΓΛΩΣΣΑ ΣΤΗΝΨΗΦΙΑΚΗΕΠΟΧΗ

Maria Gavrilidou R. C. “Athena”, ILSP

Maria Koutsombogera R. C. “Athena”, ILSP

Anastasios Patrikakos R. C. “Athena”

Stelios Piperidis R. C. “Athena”, ILSP

Georg Rehm, Hans Uszkoreit(επιμελητές, editors)

ΠΡΟΟΙΜΙΟ PREFACE

Η παρούσα Λευκή Βίβος εντάσσεται σε μια σειρά από is white paper is part of a series that promotesπαρόμοιες ενημερωτικές αναφορές σχετικά με τη γλωσ- knowledge about language technology and its poten-σική τεχνολογία και τις δυνατότητές της. Απευθύνεται tial. It addresses journalists, politicians, language com-σε εκπαιδευτικούς, δημοσιογράφους, πολιτικούς, γλωσσι- munities, educators and others. e availability andκές κοινότητες και άους φορείς. Η διαθεσιμότητα και use of language technology in Europe varies betweenη χρήση γλωσσικής τεχνολογίας στην Ευρώπη ποικίει languages. Consequently, the actions that are requiredαπό γλώσσα σε γλώσσα. Κατά συνέπεια, οι δράσεις που to further support research and development of lan-απαιτούνται για την περαιτέρω στήριξη της έρευνας και guage technologies also differ. e required actionsτης ανάπτυξης γλωσσικών τεχνολογιών επίσης διαφέρουν depend on many factors, such as the complexity of aγια κάθε γλώσσα. Οι απαιτούμενες δράσεις εξαρτώνται given language and the size of its community.από ποούς παράγοντες, όπως είναι η πολυπλοκότητα META-NET, a Network of Excellence funded by theμιας γλώσσας και το μέγεθος της κοινότητάς της. European Commission, has conducted an analysis ofΤο META-NET, ένα Δίκτυο Αριστείας που χρηματο- current language resources and technologies in thisδοτείται από την Ευρωπαϊκή Επιτροπή, διεξήγαγε μια white paper series (p. 79). e analysis focused on theέρευνα των υπαρχόντων γλωσσικών πόρων και τεχνο- 23 official European languages as well as other impor-λογιών στη σειρά αυτή των Λευκών Βίβων (σελ. 79). tant national and regional languages in Europe. e re-Αυτή η έρευνα επικεντρώθηκε στις 23 επίσημες ευρωπαϊ- sults of this analysis suggest that there are tremendousκές γλώσσες, καθώς και σε άες σημαντικές εθνικές και deficits in technology support and significant researchπεριφερειακές γλώσσες στην Ευρώπη. Τα αποτελέσματα gaps for each language. e given detailed expert anal-αυτής της ανάυσης δείχνουν ότι υπάρχουν ποά σημα- ysis and assessment of the current situation will helpντικά ερευνητικά κενά σε κάθε γλώσσα. Η λεπτομερής maximise the impact of additional research.ανάυση και εκτίμηση της τρέχουσας κατάστασης από As of November 2011, META-NET consists of 54εμπειρογνώμονες θα βοηθήσει πιθανές μεοντικές έρευ- research centres from 33 European countries (p. 75).νες. META-NET is working with stakeholders from econ-Το META-NET απαρτίζεται πλέον από 54 ερευνητικά omy (soware companies, technology providers andκέντρα από 33 χώρες (σελ. 75), και συνεργάζεται με φο- users), government agencies, research organisations,ρείς που κυμαίνονται από εμπορικές επιχειρήσεις, δημόσιες non-governmental organisations, language communi-υπηρεσίες, τη βιομηχανία, ερευνητικά ιδρύματα, εταιρείες ties and European universities. Together with theseανάπτυξης λογισμικού, μέχρι εταιρείες παροχής τεχνο- communities,META-NET is creating a common tech-λογίας και ευρωπαϊκά πανεπιστήμια. Το ΜΕΤΑ-ΝΕΤ, nology vision and strategic research agenda for multi-σε συνεργασία με τους φορείς αυτούς, υλοποιεί ένα κοινό lingual Europe 2020.όραμα για την τεχνολογία και αναπτύσσει μια στρατηγικήατζέντα για την πολύγλωσση Ευρώπη του 2020.

III

META-NET – [email protected] – http://www.meta-net.eu

Οι συντάκτες του κειμένου αυτού θα ήθελαν να ευχαριστήσουντους συραφείς της γερμανικής Λευκής Βίβου για την άδειαχρήσης επιλεγμένων εισαγωγικών χωρίωναπό το κείμενό τους [1].

Η κατάρτιση αυτής της Λευκής Βίβου χρηματοδοτήθηκε απότο 7ο Πρόγραμμα Παίσιο και το Πρόγραμμα “Υποστήριξητης Πολιτικής για τις ΤΠΕ” της Ευρωπαϊκής Επιτροπής, με ταργα Τ4ΜΕ (Αρ. Σύμβασης: 249 119), CESAR (Αρ. Σύμβα-σης: 271 022), METANET4U (Αρ. Σύμβασης: 270 893) καιMETA-NORD (Αρ. Σύμβασης: 270 899).

e authors of this document are grateful to the authors ofthe White Paper on German for permission to re-use selectedlanguage-independent materials from their document [1].

e development of this white paper has been funded by theSeventh Framework Programme and the ICT Policy SupportProgramme of the European Commission under the contractsT4ME (Grant Agreement 249 119), CESAR (Grant Agree-ment 271 022), METANET4U (Grant Agreement 270 893)and META-NORD (Grant Agreement 270 899).

IV

ΠΕΡΙΕΧΟΜΕΝΑ CONTENTS

Η ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΣΤΗΝ ΨΗΦΙΑΚΗ ΕΠΟΧΗ

1 Περίληψη 1

2 Γλώσσες σε κίνδυνο: μια πρόκληση για τη Γλωσσική Τεχνολογία 32.1 Γλωσσικά σύνορα: εμπόδιο στην Ευρωπαϊκή Κοινωνία της Πληροφορίας . . . . . . . . . . . . . . 42.2 Οι γλώσσες μας κινδυνεύουν . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Γλωσσική Τεχνολογία: μια βασική τεχνολογία προσβασιμότητας . . . . . . . . . . . . . . . . . . . 52.4 Ευκαιρίες για τη Γλωσσική Τεχνολογία . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5 Προκλήσεις που αντιμετωπίζει η Γλωσσική Τεχνολογία . . . . . . . . . . . . . . . . . . . . . . . . 72.6 Κατάκτηση της γλώσσας από ανθρώπους και μηχανήματα . . . . . . . . . . . . . . . . . . . . . . . 7

3 Τα Ελληνικά στην ευρωπαϊκή κοινωνία της πληροφορίας 93.1 Γενικά δεδομένα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Το ελληνικό αλφάβητο . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3 Ιδιαιτερότητες της ελληνικής γλώσσας . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.4 Πρόσφατες εξελίξεις . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.5 Γλωσσική πολιτική στην Ελλάδα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.6 Η γλώσσα στην Εκπαίδευση . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.7 Η διεθνής διάσταση . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.8 Τα Ελληνικά στο Διαδίκτυο . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4 Η Γλωσσική Τεχνολογία για τα Ελληνικά 174.1 Αρχιτεκτονικές Εφαρμογών . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.2 Βασικά πεδία εφαρμογών . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194.3 Άλλα πεδία εφαρμογών . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.4 Εκπαιδευτικά Προγράμματα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.5 Εθνικά προγράμματα και πρωτοβουλίες . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.6 Ο ιδιωτικός τομέας . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.7 Διαθεσιμότητα εργαλείων και πόρων . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.8 Διαγλωσσική σύγκριση . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.9 Συμπεράσματα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5 Σχετικά με το META-NET 37

THE GREEK LANGUAGE IN THE DIGITAL AGE

1 Executive Summary 39

2 Languages at Risk: a Challenge for Language Technology 412.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 422.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 422.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3 The Greek Language in the European Information Society 463.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.2 The Greek Alphabet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.3 Particularities of the Greek Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.4 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.5 Language Policy in Greece . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.6 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.7 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.8 Greek on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4 Language Technology Support for Greek 544.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.5 National Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.6 The Private Sector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.7 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.8 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.9 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5 About META-NET 71

A Παραπομπές -- References 73

B Μέλη του META-NET -- META-NET Members 75

C Σειρά Λευκών Βίβλων του META-NET -- The META-NET White Paper Series 79

1

ΠΕΡΙΛΗΨΗ

Τα τελευταία 60 χρόνια, παρόο που η Ευρώπη έχει γί-νει μια διακριτή πολιτική και οικονομική οντότητα, εντού-τοις παρουσιάζει έντονη πολιτισμική και γλωσσική ποικι-λότητα. Αυτό σημαίνει ότι, από τα πορτογαλικά έως τα πο-λωνικά και από τα ιταλικά έως τα ισλανδικά, η επικοινω-νία μεταξύ των ευρωπαίων πολιτών σε καθημερινό αάκαι σε επιχειρηματικό και πολιτικό επίπεδο παρεμποδίζεταιαναπόφευκτα από γλωσσικούς φραγμούς. Οι οργανισμοίτης Ευρωπαϊκής νωσης δαπανούν ετησίως περίπου ένα διςευρώ για τη διατήρηση της πολιτικής της πολυγλωσσίας,δηλαδή τη μετάφραση κειμένων και τη διερμηνεία της προ-φορικής επικοινωνίας. Ωστόσο, γιατί πρέπει αυτό να απο-τελεί επιβάρυνση; Η σύγχρονη γλωσσική τεχνολογία καιη γλωσσολογική έρευνα μπορούν να συνεισφέρουν σημα-ντικά στην κατάργηση των γλωσσικών φραγμών. Ο συν-δυασμός της γλωσσικής τεχνολογίας με έξυπνες συσκευέςκαι εφαρμογές θα παρέχει μεοντικά στους Ευρωπαίουςτη δυνατότητα συνομιλίας και επιχειρηματικών συναα-γών ακόμη και αν δεν μιλούν την ίδια γλώσσα.

Η Γλωσσική Τεχνολογία χτίζει γέφυρεςγια το μέλλον της Ευρώπης.

Οι γλωσσικοί φραγμοί θέτουν εμπόδια στην ανάπτυξη τωνεπιχειρήσεων, κυρίως των μικρομεσαίων, οι οποίες δεν δια-θέτουν τα οικονομικά μέσα για να αντιστρέψουν την κα-τάσταση. Η μόνη (αδιανόητη) εναακτική λύση θα ήτανη υιοθέτηση μίας μόνο γλώσσας, η οποία θα είχε κυρίαρχηθέση και τελικά θα αντικαθιστούσε όες τις άες γλώσ-σες. Χωρίς όμως τεχνολογική υποστήριξη, η αντιμετώπισητων 23 επίσημων γλωσσών των κρατών μελών της Ευρω-παϊκής νωσης καθώς και των 60 περίπου άων ευρωπαϊ-

κών γλωσσών αποτελεί αξεπέραστο εμπόδιο για τους ευρω-παίους πολίτες καθώς και για την οικονομία, την πολιτικήδιαβούευση και την επιστημονική πρόοδο της Ευρώπης.Η λύση εντοπίζεται στην ανάπτυξη βασικών τεχνολογιών,οι οποίες θα προσφέρουν στους ευρωπαϊκούς φορείς σημα-ντικά πλεονεκτήματα όχι μόνο εντός της ευρωπαϊκής κοι-νής αγοράς, αά και στις εμπορικές σχέσεις με τρίτες χώ-ρες, κυρίως με τις αναδυόμενες οικονομίες. Η επίτευξη τουστόχου αυτού και η διατήρηση της πολιτισμικής και γλωσ-σικής ποικιλότητας της Ευρώπης προϋποθέτουν τη διεξα-γωγή συστηματικής ανάυσης των ιδιαιτεροτήτων όωντων ευρωπαϊκών γλωσσών καθώς και του επιπέδου ανά-πτυξης υποστηρικτικής γλωσσικής τεχνολογίας για καθε-μιά από αυτές.

Η Γλωσσική Τεχνολογία είναιτο κλειδί για το μέλλον.

Τα εργαλεία αυτόματης μετάφρασης και επεξεργασίας φω-νής που διατίθενται στο εμπόριο απέχουν ακόμη αρκετάαπό αυτόν τον φιλόδοξο στόχο. Οι κυρίαρχοι παίκτες στοχώρο αυτό είναι κατεξοχήν ιδιωτικές κερδοσκοπικές εται-ρίες με έδρα τη Βόρεια Αμερική. δη από τα τέη του1970 η ΕΕ αντιλήφθηκε τη σπουδαιότητα της γλωσσικήςτεχνολογίας στην πορεία προς την ευρωπαϊκή ενοποίησηκαι ξεκίνησε τη χρηματοδότηση των πρώτων της ερευνη-τικών προγραμμάτων, όπως το EUROTRA. Παράηλα,συστάθηκαν εθνικά έργα τα οποία, αν και παρήγαγαν ση-μαντικά αποτελέσματα δεν οδήγησαν ποτέ σε συντονισμέ-νες ευρωπαϊκές ενέργειες. Σε αντίθεση προς αυτές τις προ-σπάθειες επιλεκτικής χρηματοδότησης, άες πολύγλωσ-σες κοινωνίες όπως η Ινδία (22 επίσημες γλώσσες) και η

1

Ν.Αφρική (11 επίσημες γλώσσες) έχουν οργανώσει μακρο-πρόθεσμα εθνικά προγράμματα γλωσσικής έρευνας και τε-χνολογικής ανάπτυξης.

Οι κυρίαρχοι παίκτες στο χώρο της γλωσσικής τεχνολογίαςσήμερα βασίζονται σε μη ακριβείς στατιστικές προσεί-σεις οι οποίες δεν αξιοποιούν γλωσσολογικές μεθόδους καιγνώση. Για παράδειγμα, οι προτάσεις που μεταφράζονταιαυτόματα προκύπτουν από τη σύγκριση μιας νέας πρότα-σης με χιλιάδες προτάσεις που έχουν προηγουμένως μετα-φραστεί από ανθρώπους. Η ποιότητα του αποτελέσματοςεξαρτάται σε μεγάο βαθμό από το μέγεθος και την ποιό-τητα του διαθέσιμου σώματος κειμένων. Αν και η αυτόματημετάφραση απλών προτάσεων σε γλώσσες με επαρκή όγκοδιαθέσιμων πόρων μπορεί να επιτύχει ικανοποιητικά απο-τελέσματα, οι επιφανειακές στατιστικές μέθοδοι τέτοιουτύπου είναι καταδικασμένες να αποτύχουν σε περιπτώσειςγλωσσών με πολύ μικρότερο σώμα δεδομένων ή σε περι-πτώσεις προτάσεων με πολύπλοκες δομές.

Η Ευρωπαϊκή νωση αποφάσισε να χρηματοδοτήσει έργαόπως το EuroMatrix και το EuroMatrix+ (από το 2006)και το iTranslate4 (από το 2010), στο πλαίσιο των οποίωνδιεξάγεται βασική και εφαρμοσμένη έρευνα και παράγο-νται πόροι που εξασφαλίζουν λύσεις γλωσσικής τεχνολο-γίας υψηλής ποιότητας για όες τις ευρωπαϊκές γλώσσες.Ηανάυση των βαθύτερων δομικών ιδιοτήτων των γλωσσώνείναι η μόνη διέξοδος, αν ο στόχος είναι η ανάπτυξη εφαρ-μογών υψηλής απόδοσης για το συνολικό εύρος των ευρω-παϊκών γλωσσών. Η ευρωπαϊκή έρευνα στο χώρο αυτό έχειήδη σημειώσει αρκετές επιτυχίες. Για παράδειγμα, οι μετα-φραστικές υπηρεσίες τηςΕυρώπης χρησιμοποιούνπλέον τοMoses, λογισμικό ανοιχτού κώδικα για την αυτόματη με-τάφραση, το οποίο αναπτύχθηκε κυρίως στο πλαίσιο ευρω-παϊκών ερευνητικών προγραμμάτων. Αντί να αξιοποιεί τααποτελέσματα των ευρωπαϊκών της προγραμμάτων, η Ευ-ρώπη έχει την τάση να επιδιώκει μεμονωμένες ερευνητικέςδράσεις με περιορισμένο αντίκτυπο στην αγορά. Η οικο-

νομική αξία ακόμη και των πρώιμων προσπαθειών είναι εμ-φανής και στην περίπτωση των τεχνοβαστών, όπως τηςεταιρίαςTrados, η οποία ιδρύθηκε το 1984και αγοράστηκεαπό την βρετανική SDL το 2005.

Η Γλωσσική Τεχνολογία συμβάλλειστην ενοποίηση της Ευρώπης.

Κρίνοντας από τα αποτελέσματα των εξελίξεων στο χώρο,φαίνεται πως η σημερινή “υβριδική” γλωσσική τεχνολο-γία που συνδυάζει τη γλωσσική επεξεργασία με στατιστι-κές μεθόδους είναι σε θέση να γεφυρώσει το χάσμα μεταξύτων ευρωπαϊκών γλωσσών.πως φαίνεται και από την πα-ρούσα σειρά των Λευκών Βίβων, υπάρχουν σημαντικέςδιαφορές μεταξύ των κρατών μελών της Ευρώπης ως προςτην ετοιμότητα της γλωσσικής τεχνολογίας και το επίπεδοτης έρευνας. Αν και ο χώρος της γλωσσικής τεχνολογίαςστην Εάδα έχει σημειώσει σημαντική πρόοδο τα τελευ-ταία χρόνια, απαιτείται περαιτέρω έρευνα και ανάπτυξη γιατην επίτευξη πραγματικά αποτελεσματικών λύσεων γλωσ-σικής τεχνολογίας για καθημερινή χρήση.Μακροπρόθεσμο στόχο τουΜΕΤΑ-ΝΕΤ αποτελεί η ανά-πτυξη γλωσσικής τεχνολογίας υψηλής ποιότητας για όεςτις γλώσσες με στόχο την επίτευξη της πολιτικής και κοι-νωνικής ενοποίησης μέσω της πολιτισμικής ποικιλότητας.Η τεχνολογία θα βοηθήσει στην κατάργηση των υπαρχό-ντων φραγμών και θα δημιουργήσει γέφυρες μεταξύ τωνγλωσσών της Ευρώπης. Ο στόχος αυτός απαιτεί την συ-νένωση των προσπαθειών όων των φορέων της πολιτικής,της έρευνας, των επιχειρήσεων και της κοινωνίας.Η συογή των εν λόγω Λευκών Βίβων αποτελεί μιααπό της στρατηγικές δραστηριότητες που έχει αναλάβειτοΜΕΤΑ-ΝΕΤ.Περαιτέρω ενημέρωση σχετικά με τις εκ-δόσεις των σχετικών εράφων [2], συμπεριλαμβανομένηςτης ΣτρατηγικήςΑτζέντας για την ρευνα, βρίσκεται στονιστότοπο του ΜΕΤΑ-ΝΕΤ: http://www.meta-net.eu.

2

2

ΓΛΩΣΣΕΣ ΣΕ ΚΙΝΔΥΝΟ: ΜΙΑ ΠΡΟΚΛΗΣΗΓΙΑ ΤΗ ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ

Είμαστε μάρτυρες μιας ψηφιακής επανάστασης η οποίαεπηρεάζει δραματικά την επικοινωνία και την κοινωνία. Οιπρόσφατες εξελίξεις στην ψηφιακή τεχνολογία των πληρο-φοριών και των επικοινωνιών αρκετές φορές συγκρίνονταιμε την εφεύρεση της τυπογραφίας από τονΓουτεμβέργιο.Τιμας λέει αυτή η αναλογία για το μέον της ευρωπαϊκής κοι-νωνίας της πληροφορίας και ειδικότερα για το μέον τωνγλωσσών μας;

Σήμερα είμαστε μάρτυρες μιαςψηφιακής επανάστασης που μπορείνα συγκριθεί με την εφεύρεση της

τυπογραφίας από τον Γουτεμβέργιο.

Μετά την εφεύρεση του Γουτεμβέργιου επιτεύχθηκανπραγματικές καινοτομίες στην επικοινωνία και την ανταλ-λαγή γνώσεων με προσπάθειες όπως η μετάφραση της Βί-βου στην καθομιλουμένη από τον Λούθηρο. Στους αιώ-νες που ακολούθησαν, αναπτύχθηκαν πολιτισμικές τεχνι-κές για την καλύτερη προσέιση της επεξεργασίας του λό-γου και της αντααγής γνώσεων:

‚ Η ορθογραφική και γραμματική τυποποίηση ευρέωςδιαδεδομένων γλωσσών επέτρεψε την ταχεία διάδοσηνέων επιστημονικών γνώσεων και ιδεών.

‚ Η ανάπτυξη επίσημων γλωσσών κατέστησε δυνατήτην επικοινωνία των πολιτών εντός ορισμένων (συχνάπολιτικών) συνόρων.

‚ Ηδιδασκαλία και η μετάφραση γλωσσών επέτρεψε δια-γλωσσικές αντααγές.

‚ Η δημιουργία εκδοτικών και βιβιογραφικών οδηγιώνδιασφάισε την ποιότητα και τη διαθεσιμότητα έντυ-που υλικού.

‚ Ηδημιουργία διαφορετικών μέσων όπως οι εφημερίδες,το ραδιόφωνο, η τηλεόραση, τα βιβία κ. ά. ικανοποί-ησε διάφορες επικοινωνιακές ανάγκες.

Τα τελευταία είκοσι χρόνια, η πληροφορική έχει βοηθήσειστην αυτοματοποίηση και τη διευκόυνση ποών διαδι-κασιών:

‚ οι ηλεκτρονικές εκδόσεις έχουν αντικαταστήσει την δα-κτυλογράφηση και τη στοιχειοθεσία,

‚ το Microso PowerPoint έχει αντικαταστήσει τονπροβολέα διαφανειών,

‚ το ηλεκτρονικό ταχυδρομείο στένει και λαμβάνει έγ-γραφα ταχύτερα και από την τηλεομοιοτυπία (fax),

‚ το Skype προσφέρει οικονομικές τηλεφωνικές κλήσειςμέσω Διαδικτύου και υποστηρίζει εικονικές συσκέψεις,

‚ τα μορφότυπα κωδικοποίησης ήχου και βίντεο διευκο-λύνουν την αντααγή πολυμεσικού περιεχομένου,

‚ οι μηχανές αναζήτησης προσφέρουν πρόσβαση σε ιστο-σελίδες βασιζόμενες σε λέξεις κλειδιά,

‚ διαδικτυακές υπηρεσίες όπως το Google Translate πα-ράγουν γρήγορες, κατά προσέιση μεταφράσεις,

‚ οι πλατφόρμες κοινωνικής δικτύωσης όπως τοFacebook, το Twitter και το Google+ διευκολύνουντην επικοινωνία, τη συνεργασία και την αντααγήπληροφοριών.

3

Αν και αυτά τα εργαλεία και οι εφαρμογές είναι χρήσιμα,δεν είναι ακόμα ικανά να υποστηρίξουν μια βιώσιμη, πολυ-γλωσσική ευρωπαϊκή κοινωνία για όους, όπου οι πληροφο-ρίες και τα αγαθά θα μπορούν να διακινούνται ελεύθερα.

2.1 ΓΛΩΣΣΙΚΑ ΣΥΝΟΡΑ:ΕΜΠΟΔΙΟ ΣΤΗΝ ΕΥΡΩΠΑΪΚΗΚΟΙΝΩΝΙΑ ΤΗΣΠΛΗΡΟΦΟΡΙΑΣΔεν είμαστε σε θέση να προβέψουμε πώς ακριβώς θαμοιάζει η μεοντική κοινωνία της πληροφορίας. Υπάρχειόμως μεγάη πιθανότητα η επανάσταση στην τεχνολογίαεπικοινωνιών να φέρει κοντά ανθρώπους που μιλάνε δια-φορετικές γλώσσες, με νέους τρόπους. Το γεγονός αυτόωθεί τους ανθρώπους προς την εκμάθηση νέων γλωσσώνκαι ασκεί πίεση στους προγραμματιστές να δημιουργή-σουν νέες τεχνολογικές εφαρμογές που να εξασφαλίζουντην αμοιβαία κατανόηση και την πρόσβαση σε διαμοιραζό-μενη γνώση. Στην παγκόσμια οικονομία και στον παγκό-σμιο χώρο πληροφοριών, περισσότερες γλώσσες, ομιλητέςκαι περιεχόμενο αηλεπιδρούν ταχύτερα με νέους τύπουςμέσων. Η τρέχουσα δημοτικότητα των κοινωνικών μέσων(Wikipedia, Facebook, Twitter, YouTube, και προσφά-τως το Google+) είναι μόνον η κορυφή του παγόβουνου.

Η παγκόσμια οικονομία καιο ενιαίος χώρος πληροφοριών μας φέρνειαντιμέτωπους με περισσότερες γλώσσες,

ομιλητές και περιεχόμενο.

Σήμερα μπορούμε να μεταδίδουμε gigabytes κειμένου σεολόκληρο τον πλανήτη μέσα σε λίγα δευτερόεπτα προ-τού αντιληφθούμε ότι αφορά μια γλώσσα που δεν κατα-νοούμε. Σύμφωνα με μια πρόσφατη έκθεση της Ευρωπαϊ-κής Επιτροπής, το 57% των χρηστών τουΔιαδικτύου στηνΕυρώπη αγοράζουν εμπορεύματα και υπηρεσίες χρησιμο-ποιώντας γλώσσες οι οποίες δεν είναι οι μητρικές τους (τα

αλικά είναι η πιο διαδεδομένη ξένη γλώσσα κι ακολου-θούν τα γαικά, τα γερμανικά και τα ισπανικά). Το 55%των χρηστών διαβάζει περιεχόμενο σε κάποια ξένη γλώσσα,ενώ μόις το 35% χρησιμοποιεί άη γλώσσα για να γράψειηλεκτρονικά μηνύματα ή να κάνει σχόια στο Διαδίκτυο[3]. Πριν από λίγα χρόνια, τα αλικά ίσως ήταν η linguafranca του Διαδικτύου— η πλειονότητα του περιεχομένουστοΔιαδίκτυο ήταν στα αλικά—αάη κατάσταση έχειπλέον αάξει δραματικά. Η ποσότητα του διαδικτυακούπεριεχομένου σε άες ευρωπαϊκές γλώσσες (καθώς και σεασιατικές και μεσανατολικές) έχει υπερποαπλασιαστεί.

Προκαλεί έκπληξη το γεγονός ότι αυτό το πανταχού πα-ρόν ψηφιακό χάσμα λόγω των γλωσσικών συνόρων δεν έχειπροσελκύσει ιδιαίτερα την προσοχή, παρόο που θέτει έναπολύ πιεστικό ερώτημα: ποιες ευρωπαϊκές γλώσσες θα κα-τορθώσουν να επιβιώσουν στη δικτυωμένη κοινωνία τηςπληροφορίας και της γνώσης και ποιες είναι καταδικασμέ-νες να εξαφανιστούν;

2.2 ΟΙ ΓΛΩΣΣΕΣ ΜΑΣΚΙΝΔΥΝΕΥΟΥΝΠαρόο που η τυπογραφία βοήθησε στην ενίσχυση τηςαντααγής πληροφοριών στην Ευρώπη, οδήγησε επίσηςστον αφανισμό ποών ευρωπαϊκών γλωσσών. Οι περιφε-ρειακές και μειονοτικές γλώσσες σπανίως τυπώνονταν καιγλώσσες όπως τα κορνουαλικά και τα δαλματικά περιορί-στηκαν σε προφορικές μορφές μετάδοσης, οι οποίες με τησειρά τους περιόρισαν το πεδίο χρήσης τους. Θα έχει καιτο Διαδίκτυο τις ίδιες επιπτώσεις στις γλώσσες μας;

Οι περίπου 80 γλώσσες της Ευρώπης είναι ένα από ταπολυτιμότερα και σημαντικότερα πολιτιστικά της περιου-σιακά στοιχεία, καθώς και ζωτικό κομμάτι του μοναδικούτης κοινωνικού μοντέου [4]. Ενώ γλώσσες όπως τα αγ-γλικά και τα ισπανικά είναι πιθανότερο να επιβιώσουν στηναναδυόμενη ψηφιακή αγορά, ποές ευρωπαϊκές γλώσσεςθαμπορούσαν νακαταλήξουν ήσσονος σημασίας σε μια δια-δικτυωμένη κοινωνία. Αυτό θα αποδυνάμωνε την παγκό-

4

σμια θέση της Ευρώπης και θα εναντιωνόταν στον στρα-τηγικό στόχο της διασφάισης της ίσης συμμετοχής κάθεΕυρωπαίου πολίτη ανεξαρτήτως γλώσσας.

Η μεγάλη ποικιλία γλωσσών στην Ευρώπη είναιένα από τα πολυτιμότερα και σημαντικότερα

πολιτισμικά περιουσιακά της στοιχεία.

Σύμφωνα με μια έκθεση τηςUNESCOγια την πολυγλωσ-σία, οι γλώσσες αποτελούν ένα ουσιαστικό μέσο για τηναπόαυση θεμελιωδών δικαιωμάτων, όπως η πολιτική έκ-φραση, η εκπαίδευση και η συμμετοχή στην κοινωνία [5].

2.3 ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ:ΜΙΑ ΒΑΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑΠΡΟΣΒΑΣΙΜΟΤΗΤΑΣΣτο παρελθόν οι επενδυτικές προσπάθειες για τη διατή-ρηση των γλωσσών επικεντρώνονταν στη γλωσσική εκπαί-δευση και τη μετάφραση. Σύμφωνα με μια εκτίμηση, η ευ-ρωπαϊκή αγορά μετάφρασης, διερμηνείας, λογισμικών το-πικοποίησης (localisation) και παγκοσμιοποίησης δικτυα-κών τόπων (website globalisation) ανερχόταν σε 8,4 δισε-κατομμύρια ευρώ το 2008 με ρυθμό ανάπτυξης 10% ετη-σίως [6]. Κι όμως αυτός ο αριθμός καλύπτει ένα πολύ μι-κρό ποσοστό των τρεχουσών και των μεοντικών ανα-γκών διαγλωσσικής επικοινωνίας. Η πιο πειστική λύση γιατη διασφάιση του εύρους και του βάθους της χρήσης τηςγλώσσας στην Ευρώπη του αύριο είναι η χρήση της κατά-ληλης τεχνολογίας, ακριβώς όπως χρησιμοποιούμε τεχνο-λογία για να λύσουμε, μεταξύ άων, τις ανάγκες μας γιαμεταφορά, ενέργεια και πρόσβαση.Η γλωσσική τεχνολογία (που στοχεύει σε κάθε μορφή γρα-πτού κειμένου και προφορικού λόγου) βοηθά τους ανθρώ-πους να συνεργάζονται, να συναάσσονται, να μοιράζο-νται γνώσεις και να συμμετέχουν στον κοινωνικό και πο-λιτικό διάογο ανεξάρτητα από γλωσσικούς φραγμούς και

δεξιότητες χρήσης υπολογιστή. Συχνά λειτουργεί αόραταμέσα σε σύνθετα συστήματα λογισμικού για να μας βοηθή-σει:

‚ να βρούμε πληροφορίες με μια μηχανή αναζήτησης,

‚ να ελέγξουμε την ορθογραφία και τη γραμματική σεέναν επεξεργαστή κειμένου,

‚ να δούμε συστάσεις για προϊόντα σε ένα διαδικτυακόκατάστημα,

‚ να ακούσουμε φωνητικές οδηγίες από ένα σύστημαπλοήγησης αυτοκινήτου,

‚ να μεταφράσουμε ιστοσελίδες μέσω μιας διαδικτυακήςυπηρεσίας.

Η γλωσσική τεχνολογία απαρτίζεται από ποές βασικέςεφαρμογές που καθιστούν δυνατές διαδικασίες στο πλαί-σιο μιας μεγαλύτερης εφαρμογής. Ο στόχος των ΛευκώνΒίβων του META-NET για τη γλώσσα είναι να εστιά-σουν στο πόσο έτοιμες είναι αυτές οι βασικές τεχνολογίεςγια κάθε ευρωπαϊκή γλώσσα.

Η Ευρώπη χρειάζεται αξιόπιστηκαι οικονομική Γλωσσική Τεχνολογίαγια όλες τις ευρωπαϊκές γλώσσες.

Για να διατηρήσουμε τη θέση μας στην πρώτη γραμμή τηςπαγκόσμιας καινοτομίας, η Ευρώπη θα χρειαστεί γλωσσικήτεχνολογία προσαρμοσμένη σε όες τις ευρωπαϊκές γλώσ-σες, η οποία θα είναι αξιόπιστη, οικονομική και ολοκλη-ρωμένη σε βασικά περιβάοντα λογισμικού. Χωρίς γλωσ-σική τεχνολογία δεν θα κατορθώσουμε στο προσεχές μέ-λον να προσφέρουμε μια πραγματικά αποτελεσματική, δια-δραστική, πολυμεσική και πολυγλωσσική εμπειρία στονχρήστη.

5

2.4 ΕΥΚΑΙΡΙΕΣ ΓΙΑ ΤΗ ΓΛΩΣΣΙΚΗΤΕΧΝΟΛΟΓΙΑΣτον κόσμο της τυπογραφίας, τεχνολογική καινοτομίααποτέεσε η γρήγορη αναπαραγωγή μιας εικόνας ενός κει-μένου (σελίδας) χρησιμοποιώντας ένα κατάηλο μηχανο-κίνητο τυπογραφικό πιεστήριο. νθρωποι καλούνταν ναεπιτελέσουν το δύσκολο έργο της έρευνας, του διαβάσμα-τος, της μετάφρασης και της συνοπτικής παρουσίασης τηςγνώσης. Χρειάστηκε να περιμένουμε μέχρι τον ντισον γιανα καταγράψουμε τον προφορικό λόγο – και πάι η τεχνο-λογία του απλά παρήγαγε αναλογικά αντίγραφα.

Η γλωσσική τεχνολογία μπορεί πλέον να αυτοματοποιή-σει τις ίδιες τις διεργασίες της μετάφρασης, της παραγωγήςπεριεχομένου και της διαχείρισης γνώσης για όες τις ευ-ρωπαϊκές γλώσσες. Μπορεί επίσης να εμπλουτίσει οικιακάηλεκτρονικά συστήματα, μηχανήματα, οχήματα, υπολο-γιστές και ρομπότ με διεπαφές βασισμένες σε γραπτό ήπροφορικό λόγο. Οι εμπορικές και βιομηχανικές εφαρμο-γές βρίσκονται ακόμη σε αρχικά στάδια ανάπτυξης, αάτα επιτεύγματα της ρευνας & Ανάπτυξης δημιουργούνπραγματικές ευκαιρίες. Για παράδειγμα, η μηχανική μετά-φραση είναι ήδη σχετικά ακριβής σε συγκεκριμένους το-μείς. Επίσης, υπάρχουν πειραματικές εφαρμογές που προ-σφέρουν πολυγλωσσικές πληροφορίες και διαχείριση γνώ-σης, καθώς και παραγωγή περιεχομένου σε ποές ευρω-παϊκές γλώσσες.

πως συμβαίνει με τις περισσότερες τεχνολογίες, οι πρώ-τες γλωσσικές εφαρμογές, όπως οι φωνητικές διεπαφές χρή-στη και τα διαλογικά συστήματα, αναπτύχθηκαν για πολύεξειδικευμένους τομείς και συχνά παρουσιάζουν περιορι-σμένη απόδοση. Υπάρχουν όμως τεράστιες επιχειρηματι-κές ευκαιρίες στον τομέα της εκπαίδευσης και της ψυχα-γωγίας σχετικά με την ολοκλήρωση γλωσσικών τεχνολο-γιών σε παιχνίδια, χώρους πολιτιστικής κληρονομιάς, ψυ-χαγωγικά εκπαιδευτικά πακέτα, βιβιοθήκες, περιβάο-ντα προσομοίωσης και προγράμματα επιμόρφωσης. Υπη-ρεσίες ενημέρωσης κινητής τηλεφωνίας, λογισμικό εκμά-θησης γλωσσών μέσω Η/Υ, περιβάοντα εξ αποστάσεως

μάθησης, εργαλεία αυτο-αξιολόγησης και λογισμικό εντο-πισμού λογοκλοπής είναι μόνο μερικοί από τους τομείςεφαρμογής όπου η γλωσσική τεχνολογία μπορεί να διαδρα-ματίσει σημαντικό ρόο. Η δημοτικότητα των εφαρμογώνκοινωνικών μέσων όπως το Twitter και το Facebook δεί-χνουν μια περαιτέρω ανάγκη για προηγμένες γλωσσικές τε-χνολογίες που να μπορούν να παρακολουθούν τις αναρτή-σεις, να συνοψίζουν συζητήσεις, να αναδεικνύουν τις τάσειςτης κοινής γνώμης, να ανιχνεύουν συναισθηματικές αντι-δράσεις, να εντοπίζουν παραβιάσεις πνευματικών δικαιω-μάτων ή να ανιχνεύουν παράνομες χρήσεις.

Η γλωσσική τεχνολογία βοηθά στηνυπέρβαση της “αναπηρίας” πουεπιφέρει η γλωσσική ποικιλότητα.

Η γλωσσική τεχνολογία αποτελεί τεράστια ευκαιρία γιατην Ευρωπαϊκή νωση. Μπορεί να βοηθήσει στην αντιμε-τώπιση του σύνθετου ζητήματος της πολυγλωσσίας στηνΕυρώπη – το γεγονός ότι διαφορετικές γλώσσες συνυπάρ-χουν φυσικά σε ευρωπαϊκές επιχειρήσεις, οργανισμούς καισχολεία. Αά οι πολίτες χρειάζεται να επικοινωνούν υπερ-πηδώντας τα γλωσσικά σύνορα, καθώς διασχίζουν απόάκρη σε άκρη την Ευρωπαϊκή Κοινή Αγορά, και η γλωσ-σική τεχνολογία μπορεί να βοηθήσει στην υπέρβαση αυτούτου τελευταίου φραγμού, υποστηρίζοντας παράηλα τηνελεύθερη και απρόσκοπτη χρήση των διαφόρων γλωσσών.Κοιτάζοντας ακόμα πιο μπροστά, η καινοτόμος ευρωπαϊκήπολύγλωσση γλωσσική τεχνολογία θα αποτελέσει σημείοαναφοράς για τους παγκόσμιους εταίρους μας, όταν θα ξε-κινήσουν να οργανώνουν τις δικές τους πολύγλωσσες κοι-νότητες. Η γλωσσική τεχνολογία μπορεί να θεωρηθεί ωςμια μορφή “υποστηρικτικής” τεχνολογίας που βοηθά στηνυπέρβαση της “αναπηρίας” της γλωσσικής ποικιλότηταςκαι κάνει τις γλωσσικές κοινότητες πιο προσβάσιμες τη μίαστην άη.Τέος, ένα δυναμικό πεδίο έρευνας είναι η χρήση της γλωσ-σικής τεχνολογίας σε επιχειρήσεις διάσωσης σε περιοχές

6

καταστροφών, όπου το ζήτημα της επίδοσης ενός συστήμα-τος μπορεί να είναι ζήτημα ζωής και θανάτου: μεοντικάευφυή ρομπότ με διαγλωσσικές ικανότητες θα είναι σε θέσηνα σώζουν ζωές.

2.5 ΠΡΟΚΛΗΣΕΙΣ ΠΟΥΑΝΤΙΜΕΤΩΠΙΖΕΙ Η ΓΛΩΣΣΙΚΗΤΕΧΝΟΛΟΓΙΑΑν και η γλωσσική τεχνολογία έχει σημειώσει σημαντικήπρόοδο τα τελευταία χρόνια, ο τρέχων ρυθμός τεχνολογικήςπροόδου και καινοτομίας είναι πολύ αργός. Ευρέως διαδεδο-μένες τεχνολογίες όπως οι ορθογραφικοί και γραμματικοίδιορθωτές σε κειμενογράφους είναι συνήθως μονόγλωσσοικαι είναι διαθέσιμοι μόνο για λίγες γλώσσες.

Ο τρέχων ρυθμός της τεχνολογικήςπροόδου είναι πολύ αργός.

Οι διαδικτυακές υπηρεσίες μηχανικής μετάφρασης, παρ’ότι είναι σε θέση να παραγάγουν σχετικά αποδεκτή προ-σέιση του περιεχομένου ενός εράφου, βρίθουν προβη-μάτων όταν απαιτούνται μεταφράσεις υψηλής ακρίβειαςκαι πληρότητας. Εξαιτίας της πολυπλοκότητας της ανθρώ-πινης γλώσσας, η μοντελοποίηση των γλωσσών μας και ηδοκιμή του μοντέου στον πραγματικό κόσμο είναι μια μα-κρά, δαπανηρή υπόθεση που απαιτεί δεσμεύσεις συνεχούςχρηματοδότησης. Η Ευρώπη πρέπει επομένως να διατη-ρήσει τον πρωτοποριακό της ρόο στην αντιμετώπιση τωντεχνολογικών προκλήσεων μιας πολύγλωσσης κοινότητας,επινοώντας νέες μεθόδους για την επιτάχυνση της ανάπτυ-ξης από τη μία άκρη του χάρτη ως την άη. Αυτές θα μπο-ρούσαν να περιλαμβάνουν τόσο τις εξελίξεις στην επιστήμητων υπολογιστών όσο και τεχνικές όπως είναι ο πληθοπο-ρισμός (crowdsourcing).

2.6 ΚΑΤΑΚΤΗΣΗ ΤΗΣ ΓΛΩΣΣΑΣΑΠΟ ΑΝΘΡΩΠΟΥΣ ΚΑΙΜΗΧΑΝΗΜΑΤΑΓια να απεικονίσουμε το πώς οι υπολογιστές χειρίζονται τηγλώσσα και γιατί είναι δύσκολο να τους προγραμματίσουμεώστε να την χρησιμοποιούν, ας ρίξουμε μια γρήγορη ματιάστον τρόπο που οι άνθρωποι μαθαίνουν την πρώτη και τηδεύτερη γλώσσα, κι έπειτα θα εξετάσουμε το πώς λειτουρ-γούν τα συστήματα γλωσσικής τεχνολογίας.

Ο άνθρωπος κατακτά γλωσσικές δεξιότητες μεδύο διαφορετικούς τρόπους: μαθαίνοντας

παραδείγματα και μαθαίνοντας τουςυποκείμενους γλωσσικούς κανόνες.

Οι άνθρωποι κατακτούν γλωσσικές δεξιότητες με δύο δια-φορετικούς τρόπους. Τα μωρά μαθαίνουν μια γλώσσα ακού-γοντας τους γονείς τους, τα αδέρφια τους και άα μέη τηςοικογένειάς τους να μιλάνε σε πραγματικές συνθήκες. Απότην ηλικία περίπου των δύο ετών, τα παιδιά λένε τις πρώ-τες τους λέξεις και σχηματίζουν μικρές φράσεις. Αυτό είναιεφικτό μόνο επειδή ο άνθρωπος έχει γενετική προδιάθεσηνα μιμείται κι έπειτα να εκλογικεύει τα όσα ακούει.Η εκμάθηση μιας δεύτερης γλώσσας σε μεγαλύτερη ηλικίααπαιτεί μεγαλύτερη προσπάθεια, κυρίως επειδή το παιδί δενπεριβάεται από μια γλωσσική κοινότητα φυσικών ομι-λητών. Στο σχολείο οι ξένες γλώσσες συνήθως διδάσκο-νται μέσω γραμματικής, λεξιλογίου και ορθογραφίας με τηχρήση ασκήσεων που περιγράφουν τη γλωσσική γνώση εκ-πεφρασμένη σε αφηρημένους κανόνες, πίνακες και παρα-δείγματα.Οι δύο κύριοι τύποι συστημάτων γλωσσικής τεχνολογίας“κατακτούν” γλωσσικές ικανότητες με παρόμοιο τρόπο.Οιστατιστικές προσείσεις (ή “βασισμένες σε δεδομένα”)αποκτούν γλωσσική γνώση από τεράστιες συογές δειγ-μάτων πραγματωμένου λόγου. Ενώ αρκεί η χρήση κειμέ-νου σε μια μόνον γλώσσα για την εκπαίδευση, π. χ. ενός ορ-

7

θογράφου, απαιτούνται παράηλα κείμενα σε δύο (ή πε-ρισσότερες) γλώσσες για την εκπαίδευση ενός συστήμα-τος μηχανικής μετάφρασης. Ο αλγόριθμος μηχανικής μά-θησης “μαθαίνει” τρόπους μετάφρασης λέξεων, σύντομωνφράσεων και ολόκληρων προτάσεων.Αυτή η στατιστική προσέιση απαιτεί εκατομμύρια προ-τάσεων και η ποιότητα της επίδοσής της αυξάνεται ανά-λογα με την όγκο των κειμένων που έχει αναλύσει. Αυτόςείναι ο λόγος για τον οποίο οι πάροχοι των μηχανών αναζή-τησης ενδιαφέρονται να συγκεντρώσουν όσο περισσότερογραπτό υλικό μπορούν. Ο ορθογραφικός έεγχος σε κειμε-νογράφους αά και υπηρεσίες όπως τοGoogle Search καιτο Google Translate βασίζονται σε στατιστικές προσεί-σεις. Το μεγάο πλεονέκτημα της στατιστικής είναι ότι ημηχανή μαθαίνει γρήγορα μέσα από διαρκείς σειρές αε-πάηλων κύκλων εκμάθησης, αν και η ποιότητα μπορείνα ποικίει.Η δεύτερη προσέιση της γλωσσικής τεχνολογίας, και συ-γκεκριμένα της μηχανικής μετάφρασης, είναι η δημιουργίασυστημάτων βασισμένων σε κανόνες. Ειδικοί στους τομείςτης γλωσσολογίας, της υπολογιστικής γλωσσολογίας καιτης πληροφορικής καλούνται πρώτα να κωδικοποιήσουνγραμματικές αναλύσεις (κανόνες μετάφρασης) και να συ-γκεντρώσουν καταλόγους λεξιλογίου (λεξικά). Αυτό είναιεξαιρετικά χρονοβόρο και απαιτεί εντατική εργασία. Ορι-σμένααπό τακαλύτερασυστήματαμηχανικής μετάφρασηςβάσει κανόνων αναπτύσσονται εδώ και πάνω από μία εικο-σαετία. Το μεγάο πλεονέκτημα των συστημάτων αυτώνείναι ότι οι ειδικοί έχουν ουσιαστικό έεγχο στην επεξερ-

γασία της γλώσσας. Αυτό δίνει τη δυνατότητα να διορθώ-νονται συστηματικά τα λάθη στο λογισμικό και να υπάρ-χει αναλυτικός σχολιασμός προς τον χρήστη, ειδικά ότανσυστήματα βασισμένα σε κανόνες χρησιμοποιούνται γιατην εκμάθηση γλώσσας. Εξαιτίας, ωστόσο, του υψηλού κό-στους αυτής της διαδικασίας, η βασισμένη σε κανόνες τε-χνολογία προς το παρόν έχει αναπτυχθεί μόνο για τις πε-ρισσότερο χρησιμοποιούμενες γλώσσες.

Καθώς τα πλεονεκτήματα και οι αδυναμίες των στατιστι-κών και των βασισμένων σε κανόνες συστημάτων τείνουννα αηλοσυμπληρώνονται, η έρευνα εστιάζει πλέον σευβριδικές προσείσεις που συνδυάζουν τις δύο μεθοδολο-γίες. Εντούτοις, αυτές οι προσείσεις μέχρι σήμερα ήτανλιγότερο πετυχημένες σε βιομηχανικές εφαρμογές από ό,τιστο ερευνητικό εργαστήριο.

πως είδαμε σε αυτό το κεφάαιο, ποές ευρέως διαδεδο-μένες εφαρμογές στη σημερινή κοινωνία της πληροφορίαςβασίζονται σε πολύ μεγάο βαθμό στη γλωσσική τεχνολο-γία. Εξαιτίας της πολύγλωσσης κοινότητάς της, αυτό ισχύειιδιαίτερα για την οικονομία και την τεχνολογία της Ευρώ-πης. Αν και η γλωσσική τεχνολογία έχει σημειώσει σημα-ντική πρόοδο τα τελευταία χρόνια, υπάρχουν ακόμα τερά-στιες δυνατότητες για βελτίωση της ποιότητας των συστη-μάτων γλωσσικής τεχνολογίας. Ακολούθως, θα περιγρά-ψουμε το ρόο των Εηνικών στην ευρωπαϊκή κοινωνίατης πληροφορίας και θα κάνουμε μια εκτίμηση της σημερι-νής κατάστασης της γλωσσικής τεχνολογίας για την εη-νική γλώσσα.

8

3

ΤΑ ΕΛΛΗΝΙΚΑ ΣΤΗΝ ΕΥΡΩΠΑΪΚΗΚΟΙΝΩΝΙΑ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

3.1 ΓΕΝΙΚΑ ΔΕΔΟΜΕΝΑΤα Εηνικά είναι η επίσημη γλώσσα της Εάδας και μίααπό τις δύο επίσημες γλώσσες τηςΚύπρου και από το 1981μία από τις επίσημες γλώσσες της Ευρωπαϊκής νωσης.Ομιλείται ως μητρική γλώσσα από περίπου το 95% από τα11,5 εκατομμύρια κατοίκους της Εάδας και από περίπου500.000 Εηνοκυπρίους [7]. Χρησιμοποιείται επίσης (σεδιαφορετικά επίπεδα γλωσσομάθειας) από συνολικά περί-που 5 εκατομμύρια ανθρώπους εηνικής καταγωγής, μέηεηνικών κοινοτήτων (τη λεγόμενη Διασπορά) παγκο-σμίως [8], πρωτίστως στιςΗΠΑ, την Αυστραλία (ηΜελ-βούρνη αποκαλείται “η τρίτη μεγαλύτερη εηνική πόηστον κόσμο”), τονΚαναδά, την Ευρώπη (κυρίως τηΒρετα-νία και τη Γερμανία), τις χώρες της πρώην Σοβιετικής νω-σης, την Τουρκία και την Αίγυπτο.Τα Εηνικά είναι Ινδοευρωπαϊκή γλώσσα, το μοναδικόσωζόμενο μέος του εηνικού κλάδου της οικογένειας τωνΙνδοευρωπαϊκών γλωσσών [9]. Σε αντίθεση με τα Λατι-νικά, από τα οποία γεννήθηκαν αρκετές θυγατρικές γλώσ-σες, ο μοναδικός απόγονος της Αρχαίας Εηνικής είναιη Νέα Εηνική. χει την πιο μακρόχρονη τεκμηριωμένηιστορία από όες τις Ινδοευρωπαϊκές γλώσσες, καλύπτο-ντας 34 αιώνες γραπτών μνημείων.Μετά τηνΚασικήΑρχαιότητα, από τον 4ο αιώνα π. Χ. κιέπειτα, οι διάφορες διάεκτοι υπέστησαν ισοπέδωσηκαι δη-μιουργήθηκε μια οικουμενική διάεκτος, η Κοινή, η οποίασε μεγάο βαθμό βασιζόταν στηνΑττική διάεκτο εμπλου-τισμένη με στοιχεία από άες διαλέκτους. Αυτή η κοινήγλώσσα ομιλούνταν, ως μητρική ή ως δεύτερη γλώσσα, σε

μια γεωγραφική περιοχή που εκτεινόταν γύρω από τη Με-σόγειο.Ηβασική εηνόφωνη επικράτεια, στο νότιο τμήματης βαλκανικής χερσονήσου, που εκτεινόταν στα δυτικάέως τηΝότια Ιταλία και τη Σικελία και στα ανατολικά έωςτη Μικρά Ασία, κάποιες εποχές απέκτησε σημαντικές δια-στάσεις (Αίγυπτος, Εύς Ανατολή, Ανατολία κ. λπ.) καιήρθε σε επαφή με ποούς πολιτισμούς και γλώσσες. Ση-μειώθηκε εκτενής απλοποίηση της γλώσσας αναφορικά μετη μορφολογία, τη σύνταξη και το λεξιλόγιο και τα Εη-νικά έγιναν μια ευρέως ομιλούμενη lingua anca. Στα βυ-ζαντινά χρόνια (μετά το 610 μ.Χ.), καθιερώθηκε ως επί-σημη γλώσσα της Βυζαντινής Αυτοκρατορίας.

Σχεδόν όες οι ποικιλίες της Νέας Εηνικής προέρχονταιαπό την Κοινή [10]. Μετά τον Β΄ Παγκόσμιο Πόεμο, οιδιάφορες εηνικές διάεκτοι σταδιακά παράκμασαν καιμερικές (π. χ. η καππαδοκική διάεκτος, η Τσακώνικη, ηΓκρίκο – η εηνική διάεκτος που ομιλείται σε μερικά χω-ριά τηςΝοτίου Ιταλίας, περιοχή γνωστή επίσης και ωςΜε-γάη Εάδα) θεωρείται ότι έχουν σχεδόν εξαφανιστεί. Οιδιάεκτοι που υπάρχουν σήμερα θεωρούνται περισσότεροστοιχεία πολιτιστικής ταυτότητας, καθώς ομιλούνται απο-κλειστικά μεταξύ των μελών των συγκεκριμένων κοινοτή-των. Ο σύγχρονος τρόπος ζωής, η αστικοποίηση, η χρήσητης πρότυπης ποικιλίας στην εκπαίδευση και τα μέσα ενη-μέρωσης έχουν οδηγήσει στην υποχώρησή τους έναντι τηςπρότυπης Νέας Εηνικής. Τέτοιες διάεκτοι των Εηνι-κών είναι η ποντιακή, η κυπριακή και η κρητική διάεκτος.

9

3.2 ΤΟ ΕΛΛΗΝΙΚΟ ΑΛΦΑΒΗΤΟ

Το εηνικό σύστημα γραφής είναι το εηνικό αλφάβητοκατά το μεγαλύτερο μέρος της ιστορίας του. Παλαιότεραχρησιμοποιούνταν άα συστήματα [11]. Το εηνικό αλ-φάβητο δημιουργήθηκε με βάση το φοινικικό αλφάβητο(κατά τον Ηρόδοτο), δηλαδή το σημιτικό αλφάβητο, τοοποίο χρησιμοποιούσε σύμβολα για να παραστήσει μόνοσύμφωνα. Το εηνικό αλφάβητο εισήγαγε – ή μάον επα-ναχρησιμοποίησε υφιστάμενα σύμβολα που δεν αντιστοι-χούσαν σε εηνικά φωνήματα – για να παραστήσει τα φω-νήεντα. Αυτό το αλφάβητο χρησιμοποιείται περίπου απότον 10ο αιώνα π. Χ. [12] και αποτέεσε τη βάση του Λα-τινικού, του Κυριικού, του Κοπτικού και ποών άωνσυστημάτων γραφής.

Κατά την κλασική εποχή, υπήρχαν μόνο κεφαλαία γράμ-ματα. Κατά τα εηνιστικά χρόνια, εισήχθησαν διακριτικάσημάδια και τόνοι προκειμένου να εξηγούν τον τρόπο προ-φοράς συγκεκριμένων φωνηέντων, δεδομένου ότι η προσω-δία είχε αάξει. Αυτά τα διακριτικά σημάδια καθιερώθη-καν στο γραφηματικό σύστημα της Εηνικής [13]. Ταπεζά γράμματα αναπτύχθηκαν πολύ αργότερα, από γρα-φείς του Μεσαίωνα.

Το σύγχρονο εηνικό αλφάβητο απαρτίζεται από 24γράμματα. Η μεταρρύθμιση της γραφής το 1982 κατάρ-γησε τα διακριτικά σημάδια. κτοτε, η επίσημη ορθογρα-φία της Εηνικής είναι το απλοποιημένο μονοτονικό σύ-στημα, που χρησιμοποιεί μόνο τον τόνο και τα διαλυτικά.Το παραδοσιακό πολυτονικό σύστημα συνεχίζει να χρησι-μοποιείται διεθνώς για τη γραφή των Αρχαίων Εηνικών.

Ιστορικά, η χρήση του λατινικού αλφάβητου για την ανα-παράσταση της εηνικής γλώσσας έχει διαπιστωθεί σε πε-ριοχές οι οποίες τέεσαν υπό βενετσιάνικη κατοχή ή απόηνες Καθολικούς. Προσφάτως, η χρήση του λατινικούαλφαβήτου για τη γραφή Εηνικών αποτελεί μια τάσηπου παρατηρείται κυρίως σε μηνύματα ηλεκτρονικού ταχυ-δρομείου και γραπτά μηνύματα μέσω κινητών τηλεφώνων.Αυτή η γραφή καλείται “Greeklish”.

Η Εάδα απέκτησε την ανεξαρτησία της το 1830 (ήτανπολύ μικρότερη σε σχέση με σήμερα). Ο πυρήνας της νεοϊ-δρυθείσας χώρας ήταν ηΑθήνα και ηΠελοπόννησος. Κατάσυνέπεια, οι διάεκτοι που ομιλούνταν σε αυτές τις περιο-χές αποτέεσαν τη βάση για τη δημιουργία της πρότυ-πης ποικιλίας της εηνικής γλώσσας (της νόρμας). Εντού-τοις, η εξέιξη της γλώσσας δεν ήταν απρόσκοπτη: σημειώ-θηκε εκτενής γλωσσικός προγραμματισμός υπό την επιρ-ροή του ιδανικού της εθνικής γλώσσας του Διαφωτισμού.Σύμφωνα με την Δενδρινού [14], “οι αρχαϊστές υποστή-ριζαν την αναβίωση της Αρχαίας Εηνικής, απααγμέ-νης από ‘ακάθαρτες’ προσμείξεις που την είχαν ‘μολύνει’στις διάφορες επαφές της”. Η άη πλευρά ήταν υπέρμα-χος της χρήσης της καθομιλουμένης γλώσσας του λαού, ενώμια τρίτη άποψη υποστήριζε ένα μείγμα των δύο, συγκεκρι-μένα τη χρήση της σύγχρονης γλώσσας, “καθαρισμένης”μέσα από την πρόσμειξη με την αρχαία εηνική μορφο-λογία, σύνταξη και λεξιλόγιο. Επικράτησε η τρίτη άποψη,η οποία έφερε επίσης το συμβολικό φορτίο της συνέχισηςτης Αρχαίας Εηνικής, με συνέπεια μια μακρά περίοδο δι-γλωσσίας.

Η διγλωσσία, δηλαδή η ταυτόχρονη ύπαρξη μιας καθομι-λουμένης και μιας υψηλής ποικιλίας, ήταν στο προσκήνιοαπό τη γέννηση του νέου κράτους έως ουσιαστικά τα τέητου 20ού αιώνα. Η λόγια ποικιλία, η Καθαρεύουσα, μιααπομίμηση των Αρχαίων Εηνικών, χρησιμοποιούνταν σεόους τους τομείς του δημόσιου βίου (πολιτική, διοίκηση,εκπαίδευση, επιστήμη) ενώ η λαϊκή ποικιλία, η Δημοτική,χρησιμοποιούνταν στην καθημερινή ανεπίσημη επικοινω-νία, τη λογοτεχνία (αν και όχι από όους τους συραφείς)και την πρωτοβάθμια εκπαίδευση.

Το πρόβημα της διγλωσσίας έηξε επισήμως το 1976,όταν η Δημοτική ανακηρύχθηκε επίσημη γλώσσα της Ε-λάδας. Σήμερα στην πρότυπη εηνική γλώσσα, η οποίαχρησιμοποιείται για όους τους επίσημους και ανεπίσημουςσκοπούς, υπάρχουν τύποι κυρίως της Δημοτικής αά καιορισμένοι της Καθαρεύουσας.

10

3.3 ΙΔΙΑΙΤΕΡΟΤΗΤΕΣ ΤΗΣΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣΤα Εηνικά είναι μια γλώσσα με πλούσιο κλιτικό σύ-στημα, με τέσσερις πτώσεις για το ονοματικό σύστημα,τρία γένη και δύο αριθμούς [15]. Τα Εηνικά έχουν ένανεκτενή αριθμό παραγωγικών παραθημάτων, ενώ το σύ-στημα της σύνθεσης είναι σχετικά περιορισμένο αά πα-ραγωγικό. Κατά την εξέιξη της γλώσσας μέσα στους αιώ-νες, οι μορφολογικές κατηγορίες διατηρήθηκαν σχετικάσταθερές. Η μεγαλύτερη ααγή στη μορφολογία του ονο-ματικού συστήματος ήταν η απώεια της δοτικής πτώσης(τις λειτουργίες της οποίας ανέαβαν σε μεγάο βαθμό η γε-νική ή οι εμπρόθετες φράσεις). Στο ρήμα η μεγάη ααγήήταν η απώεια του απαρεμφάτου με την ταυτόχρονη ανά-πτυξη νέων περιφραστικών τύπων.

Πολλά γλωσσικά χαρακτηριστικά τηςελληνικής γλώσσας αποτελούν προκλήσεις

για την υπολογιστική επεξεργασία.

Το πλούσιο κλιτικό σύστημα προκαλεί συγκεκριμένες δυ-σκολίες σε συστήματα γλωσσικής τεχνολογίας: η λημματο-ποίηση, για παράδειγμα, αντιμετωπίζει το περιβόητο πρό-βημα της αναγνώρισης ορισμένων κλιτικών τύπων πουμπορεί να ανήκουν σε ένα ρήμα ή το ρηματικό ουσιαστικότου.Μια τέτοια περίπτωση ομογραφίας είναι η λέξη διαβά-σεις, που μπορεί να είναι

‚ δεύτερο πρόσωπο ενικού συνοπτικού ποιού ενεργείαςτου ρήματος διαβάζω ή

‚ ονομαστική ή αιτιατική πληθυντικού του ουσιαστικούη διάβαση.

Σε τέτοιες περιπτώσεις, τη λύση δίνει η επεξεργασία τουπερικειμένου.σον αφορά στη σύνταξη, η χρήση των σωζόμενων πτώ-σεων έχει σε μεγάο βαθμό διατηρηθεί ακέραιη (ονομα-στική για υποκείμενα και κατηγορούμενα, αιτιατική για

αντικείμενα των περισσοτέρων ρημάτων και ποών προ-θέσεων, γενική για τα κτητικά), τα άρθρα προηγούνταιτων ουσιαστικών. Η απώεια της δοτικής οδήγησε στηδημιουργία εμπρόθετων έμμεσων αντικειμένων (τα οποίαεναακτικά δηλώνονται και με τη γενική). Η σειράτων λέξεων στα Εηνικά είναι ελεύθερη και η ουδέ-τερη σειρά των όρων είναι Ρήμα-Υποκείμενο-Αντικείμενο ήΥποκείμενο-Ρήμα-Αντικείμενο. Αυτό επιτρέπει στους ομι-λητές να σχηματίζουν εκφωνήματα με ποικίους τρόπουςκαι να θέτουν την έμφαση σε διάφορα μέρη της πρότασης.Ταυτόχρονα, αυτές οι παρααγές δημιουργούν και μεγά-λες προκλήσεις για την υπολογιστική επεξεργασία φυσικήςγλώσσας. Ας δούμε, για παράδειγμα, την αλική πρόταση

e woman gave the man an apple.

Στα αλικά υπάρχουν δύο ακόμα τρόποι να εκφράσει κα-νείς την ίδια ιδέα, συγκεκριμένα:

‚ e woman gave an apple to the man.

‚ An apple was given to the man by the woman.

Στα Εηνικά, η πρόταση αυτή θα μπορούσε να έχει τηνεξής δομή:

‚ Η γυναίκα έδωσε στον άντρα ένα μήο.

‚ Η γυναίκα έδωσε ένα μήο στον άντρα.

‚ δωσε ένα μήο η γυναίκα στον άντρα.

‚ δωσε η γυναίκα ένα μήο στον άντρα.

‚ δωσε στον άντρα η γυναίκα ένα μήο.

‚ Στον άντρα έδωσε η γυναίκα ένα μήο.

‚ Στον άντρα έδωσε ένα μήο η γυναίκα.

‚ να μήο δόθηκε από τη γυναίκα στον άντρα.

‚ να μήο δόθηκε στον άντρα από τη γυναίκα.

‚ Δόθηκε ένα μήο από τη γυναίκα στον άντρα.

‚ Δόθηκε από τη γυναίκα στον άντρα ένα μήο.

‚ Δόθηκε στον άντρα ένα μήο από τη γυναίκα.

11

Το πλούσιο κλιτικό σύστημα καθιστά την ελεύθερη σειράτων όρων της πρότασης εφικτή και προσφέρει πολύτι-μες πληροφορίες στη συντακτική ανάυση: η ονομαστικήπτώση χρησιμοποιείται μόνο για υποκείμενα, και η αιτια-τική για τα αντικείμενα των περισσότερων ρημάτων καιποών προθέσεων, η γενική για τα κτητικά και τα αντικεί-μενα ορισμένων ρημάτων και προθέσεων. Κατά συνέπεια,η αναγνώριση των συντακτικών ρόων είναι πιο απλή απόό,τι σε γλώσσες χωρίς πτώσεις. Επίσης, δεν είναι αναγκαίεςοι αυστηρές θέσεις μέσα στην πρόταση για τους διάφορουςσυντακτικούς ρόους. Τα Εηνικά είναι μια γλώσσα με δυ-νατότητα παράειψης των προσωπικών αντωνυμιών (pro-drop), όταν αυτές υποδηλώνονται μορφολογικά ή πραγμα-τολογικά.Τη διαδικασίααναγνώρισης της παραλειπόμενηςαντωνυμίας βοηθά το γεγονός ότι τα ρήματα περιλαμβά-νουν ένα μόρφημα του προσώπου το οποίο συμφωνεί με τηναντωνυμία ως προς το πρόσωπο και τον αριθμό. Συνήθως,οι προσωπικές αντωνυμίες α΄ και β΄ προσώπου του ενικούπαραλείπονται (εγώ, εσύ). Η παρουσία τους υποδηλώνειέμφαση. Επομένως, η αλική πρόταση

I am leaving.

μπορεί να αποδοθεί στα Εηνικά ως

‚ Φεύγω. (ουδέτερη διατύπωση) ή

‚ Εγώ φεύγω. (έμφαση στο “εγώ”)

Δύο σημαντικά χαρακτηριστικά του εηνικού λεξιλογίουείναι η έκτασή του και το μήκος των λέξεων. Μια αιτίαγια τον όγκο του λεξιλογίου είναι ο μεγάος αριθμός συνω-νύμων που παρατηρείται. Η πληθώρα συνωνύμων οφείε-ται στην προέευσή τους από τις διάφορες διαλέκτους, κα-θώς και από την Καθαρεύουσα (την λόγια ποικιλία). πωςσυμβαίνει με όες τις γλώσσες, το λεξιλόγιο περιλαμβάνειεπίσης λέξεις δανεισμένες από άες γλώσσες. Κατά συνέ-πεια, για την ίδια έννοια είναι πιθανό να υπάρχουν 3 ή 4λέξεις, καθεμιά προερχόμενη από μια διαφορετική γλώσσα.Μια άη αιτία για το εκτενές λεξιλόγιο είναι ο πλούτοςτου παραγωγικού μορφολογικού συστήματος: η παραγω-

γική αλυσίδα ρήμα> ρηματικό ουσιαστικό> ονοματικό επί-θετο > επίρρημα είναι πολύ συνηθισμένη (π. χ. δημιουργώ> δημιουργία/δημιουργός > δημιουργικός > δημιουργικά).Επίσης, τα Εηνικά χαρακτηρίζονται από ισχυρό παρα-γωγικό μηχανισμό για τα υποκοριστικά και τα μεγεθυντικάουσιαστικών και επιθέτων.Το λεξιλόγιο της Εηνικής προέρχεται πρωτίστως από ταΑρχαία Εηνικά είτε ως ατόφιες λέξεις (αν και κάποιεςέχουν αάξει μορφολογικά ή σημασιολογικά) είτε ως ρίζεςπου παράγουν νέες λέξεις.Σε παλαιότερες εποχές, δάνειες λέξεις προς τα Εηνικάαπέκτησαν εηνικές καταλήξεις κι έτσι προσαρμόστη-καν/ αφομοιώθηκανστο μορφολογικό σύστημα.Σύγχροναδάνεια (που εισήχθησαν κατά τις τελευταίες δεκαετίες), ει-δικά από τα αλικά και τα γαικά, συνήθως δεν κλίνο-νται. Η απουσία κλιτικών μορφημάτων στη γλώσσα προέ-λευσης έχει ως αποτέεσμα τη δυσκολία απόδοσης γένους,το οποίο ένα απαραίτητο χαρακτηριστικό γνώρισμα τωνονομάτων. Παράγοντες που επηρεάζουν την απόδοση γέ-νους είναι το αρχικό γένος (εάν υπάρχει), ο αναλογικός σχη-ματισμός (κατ’ αναλογία με υπάρχουσες εηνικές λέξεις)και η ομοιότητα (λέξεις που λήγουν σε κάποιο μόρφημα χα-ρακτηριστικό ενός συγκεκριμένου γένους θα αποδοθούν σεαυτό το γένος).σον αφορά το μήκος των λέξεων, τα Εηνικά έχουν ελά-χιστες μονοσύαβες λέξεις. Οι δισύαβες ή τρισύαβεςλέξεις αποτελούν την πλειονότητα, αά οι πολυσύαβεςλέξεις δεν είναι καθόου σπάνιες (ακόμα και λέξεις με οκτώή εννιά συαβές).

3.4 ΠΡΟΣΦΑΤΕΣ ΕΞΕΛΙΞΕΙΣΑπό τη δεκαετία του 1950 κι έπειτα, οι αμερικανικές ται-νίες άρχισαν να δεσπόζουν στην εηνική αγορά.Ηκυριαρ-χία ήταν ακόμα περισσότερο εμφανής κατά τη δεκαετία του1970, όταν εισήχθησαν τηλεοπτικές σειρές σε κάθε νοικο-κυριό. Οι ξένες ταινίες και οι τηλεοπτικές σειρές δεν με-ταγλωττίζονται στην Εάδα. Αντίθετα, χρησιμοποιείται ουποτιτλισμός (σε αντίθεση με ποές άες χώρες όπως η

12

Γαία και η Γερμανία). Η ισχυρή παρουσία του αμερικανι-κού τρόπου ζωής στα ΜΜΕ επηρέασε την εηνική κουλ-τούρα και γλώσσα. Εξαιτίας της επικράτησης της αλικήςκαι αμερικανικής μουσικής από τη δεκαετία του 1960 καιμετά, οι ηνες έχουν εκτεθεί πολύ στα αλικά επί σειράγενεών. Τα αλικά σύντομα απέκτησαν το καθεστώς τηςμοντέρνας, “τρέντι” γλώσσας, το οποίο διατηρούν μέχρι καισήμερα.

Αυτό το καθεστώς αντικατοπτρίζεται από τον τεράστιοαριθμό των σημερινών δανείων από τα αλικά (τους λεγό-μενους αλισμούς). Στις περισσότερες περιπτώσεις, αυτέςοι λέξεις καλύπτουν κάποιο κενό στο λεξιλόγιο, π. χ. ονομά-ζουν μια νέα ιδέα ή αντικείμενο για το οποίο δεν υφίσταταιεηνικό όνομα.

Εντούτοις, σε ορισμένες περιοχές οι αλισμοί έχουν αρ-χίσει να αντικαθιστούν υφιστάμενο εηνικό λεξιλόγιο.να παράδειγμα είναι η χρήση αλικών τίτλων σε αε-λίες εργασίας, ιδιαίτερα για θέσεις διοικητικών στελεχών,π. χ. ‘Human Resources Manager’ αντί Υπεύθυνος Προ-σωπικού. Επίσης, αλικά ονόματα καταστημάτων, επω-νυμίες προϊόντων κ. λπ. θεωρούνται περισσότερο “πιασά-ρικα” από τα Εηνικά. Τάση υπερβολικής χρήσης αλι-σμών μπορεί επίσης να διαπιστωθεί σε διαφημίσεις προϊό-ντων. Αυτή η τάση όμως όσο “κουλ” κι αν φαντάζει, διατρέ-χει τον κίνδυνο να αποκλείει μεγάα τμήματα του πληθυ-σμού από το να συμμετέχουν στην κοινωνία της πληροφο-ρίας, και συγκεκριμένα αυτούς που δεν γνωρίζουν αλικά.

3.5 ΓΛΩΣΣΙΚΗ ΠΟΛΙΤΙΚΗ ΣΤΗΝΕΛΛΑΔΑΗ Εάδα έχει ακολουθήσει διάφορες πολιτικές στη διάρ-κεια του 20ού αιώνα σε μια προσπάθεια να ξεπεράσει τογλωσσικό πρόβημα που κατέτρυχε τις απόπειρες γλωσσι-κού προγραμματισμού του διευρυνόμενου Εηνικού Κρά-τους.

Το ζήτημα της Διγλωσσίας (που προαναφέρθηκε) επιλύ-θηκε νομοθετικά το 1976, αά η διαδικασία που οδή-

γησε σε αυτήν την απόφαση δεν βασίστηκε στο έργο κά-ποιας συγκεκριμένης αρχής ή άου θεσμοθετημένου φο-ρέα, αά στο κοινό αίσθημα φιλολόγων και του απλούλαού. Η Γωσσική Μεταρρύθμιση ήταν αντικείμενο ενόςμόνο νόμου, έγινε δεκτή και τηρήθηκε έκτοτε χωρίς αα-γές. Κανένας φορέας δεν συγκροτήθηκε ούτε για να εφαρ-μόσει τη μεταρρύθμιση ούτε για να εξετάσει μεοντικέςανάγκες για ααγές.

Η Ακαδημία Αθηνών, ίδρυμα που απαρτίζεται από τουςσημαντικότερους πανεπιστημιακούς, στοχαστές και άτομαευρείας επιρροής από όα τα πεδία της τέχνης, της επι-στήμης, της πολιτικής και της κοινωνίας έχει προσπαθή-σει κατά καιρούς να ασκήσει κριτική αά και να εισηγηθείπροτάσεις για να βοηθήσει στη διατήρηση μιας “γλωσσι-κής κουλτούρας” και “γλωσσικής ποιότητας” για τα Εη-νικά, αά αυτό δεν μετατράπηκε ποτέ σε θεσμοθετημένηή διαρκή προσπάθεια.

Το μόνο μηπανεπιστημιακό επιχορηγούμενο από το κράτοςίδρυμα που έχει συσταθεί για να διεξάγει έρευνα και να στη-ρίζει την τεκμηρίωση και τη διδασκαλία των Εηνικών εί-ναι το Κέντρο Εηνικής Γώσσας το οποίο δεν ασχολεί-ται με γλωσσικό προγραμματισμό. Αποστολή του είναι ναστηρίζει και να προάγει την εηνική γλώσσα και τη λο-γοτεχνία μέσα από την έρευνα, την ανάπτυξη διδακτικούυλικού, τη στήριξη δασκάων της Εηνικής στη χώρα καιστο εξωτερικό και τη διοργάνωση τωνμοναδικών επίσημωνεξετάσεων επάρκειας στην Εηνική.

Υπάρχουν κυριολεκτικά εκατοντάδες δημοσιεύματα κάθεχρόνο, κυρίως στις εφημερίδες και πρόσφατα στο Διαδί-κτυο, που εστιάζουν στις απειλές που αντιμετωπίζει η Ε-ληνική στον αγώνα της για επιβίωση. νθρωποι όων τωνκοινωνικών στρωμάτων νιώθουν την ανάγκη να παραπο-νεθούν για το πώς το ξένο λεξιλόγιο και οι παγιωμένες εκ-φράσεις έχουν κάνει τους νέους ανθρώπους να μιλάνε κακήςποιότητας Εηνικά. Αν και το επιχείρημα της γλωσσικήςένδειας της νέας γενιάς είναι σύνηθες σε ποές γλώσσεςκαι κοινωνίες, φαίνεται να είναι πολύ ισχυρό στην Εάδα.Ποοί ανησυχούν επίσης ότι τα “Greeklish” (γραφή των

13

Εηνικών με λατινικούς χαρακτήρες, φωνολογικά ή καιοπτικά ισοδύναμους) θα επηρεάσουν με κάποιο τρόπο τηνποιότητα του προφορικού και γραπτού εηνικού λόγουκαι θα εξαλείψει τη χρήση του εηνικού αλφάβητου. Δυ-στυχώς, δεν έχουν διεξαχθεί μελέτες μεγάης κλίμακας πουνα μπορούν να ρίξουν φως στο εάν υπάρχει πραγματικά τέ-τοιος κίνδυνος.

Πέρα από τις επίσημες (επιστημονικές ή άες) προσπά-θειες και τα ιδρύματα γλωσσικού προγραμματισμού/ υπο-στήριξης/ προώθησης της εηνικής, παρατηρείται και με-γάος αριθμός συόγων, εκδόσεων και διαδικτυακών τό-πων (ιστότοποι, ιστολόγια, ηλεκτρονικά περιοδικά κ. λπ.)που περιλαμβάνουν στους στόχους τους την προώθηση/υποστήριξη/υπεράσπιση των Εηνικών.

Η γλωσσική τεχνολογία θεωρήθηκε από αρκετά νωρίς κρί-σιμος παράγοντας για να σταθούν ισότιμα τα Εηνικάμεταξύ πιο ευρέως ομιλουμένων και διδασκόμενων γλωσ-σών. Αυτή η συνειδητοποίηση οδήγησε στη δημιουργίαενός εξειδικευμένου ερευνητικού ιδρύματος (του Ινστιτού-του Επεξεργασίας του Λόγου – ΙΕΛ) και την προκήρυξητριών μεγάωνΠρογραμμάτων Εθνικής Χρηματοδότησηςπου εστίαζαν σε τεχνολογίες γλώσσας και γνώσης. Αυτά ταΠρογράμματα οδήγησαν στην ανάπτυξη μιας ομάδας ερ-γαλείων και πόρων που χρησιμοποιούνται πλέον για τηνυποστήριξη της χρήσης των Εηνικών σε ΠηροφοριακάΣυστήματα και τη διευκόυνση της γλωσσικά ενισχυμένηςεπεξεργασίας εηνικού περιεχομένου.

3.6 Η ΓΛΩΣΣΑ ΣΤΗΝΕΚΠΑΙΔΕΥΣΗΤα αποτελέσματα της μελέτης Programme forInternational Student Assessment, PISA (2009) [16]δείχνουν ότι οι ηνες μαθητές έχουν κακές επιδόσεις καιστους τρεις μεγάους τομείς που εστιάζει η μελέτη, συμπε-ριλαμβανομένης της κατανόησης κειμένου. Αν και αυτάτα αποτελέσματα δείχνουν ότι έχει σημειωθεί μια μικρήβελτίωση σε σχέση με προηγούμενες χρονιές, η Εάδα

βρίσκεται στις κατώτερες θέσεις μεταξύ των χωρών πουμελετήθηκαν από το PISA.

Δεν έχουν γίνει προσπάθειες να αναλυθούν αυτά τα απο-τελέσματα και να συνδεθούν με τη γλωσσική εκπαίδευσηστην Εάδα. Τα γλωσσικά μαθήματα (Αρχαίων και ΝέωνΕηνικών) πάντοτε ευνοούνταν ποσοτικά στο εηνικόεκπαιδευτικό σύστημα. χουν γίνει ποές συζητήσεις γιατο πώς οι δεξιότητες στη μητρική γλώσσα μπορούν να βελ-τιωθούν μέσα από την εκπαίδευση και υπήρξε ένα σχέδιοτης ΕηνικήςΚυβέρνησης το 2010 (στο πλαίσιο της πρω-τοβουλίας Νέο Σχολείο) να αυξήσει τις ώρες διδασκαλίαςτων Νέων Εηνικών στην πρωτοβάθμια εκπαίδευση καινα μειώσει τις ώρες που αφιερώνονται στην εκμάθηση Αρ-χαίων Εηνικών στη δευτεροβάθμια.

Κατά την τελευταία δεκαετία, έχει τεθεί σε εφαρμογή έναεκτεταμένο πρόγραμμα για να έρθει η διδασκαλία της εη-νικής γλώσσας πιο κοντά σε μειονότητες (Πομάκους, Ρομά,Μουσουλμάνους) και μετανάστες και έχει παραχθεί υλικόκαι μεθοδολογίες υψηλής ποιότητας. Αυτά αναμένεται ναπροάγουν την ισότιμη πρόσβαση σε περιεχόμενο στην ελ-ληνική γλώσσα για όους τους πολίτες και τους μετανάστες.Υπήρξαν επίσης ποές ιδιωτικές και συογικές πρωτο-βουλίες τα τελευταία χρόνια για να καλυφθούν τα κενά στηδιδασκαλία της εηνικής γλώσσας σε μετανάστες οι οποίοιγια διαφόρους λόγους αποκλείονται από το επίσημο εκπαι-δευτικό σύστημα.

να ιδιαίτερο ζήτημα που επηρεάζει τα Εηνικά περισσό-τερο από σχεδόν οποιαδήποτε άη ευρωπαϊκή γλώσσα εί-ναι ο τρόπος οργάνωσης της εκμάθησης/διδασκαλίας τηςγλώσσας στους ηνες της Διασποράς. Δεδομένου ότι οιάνθρωποι εηνικής καταγωγής που ζουν εκτός Εάδαςανέρχονται πλέον σχεδόν στα 5 εκατομμύρια (οι αριθμοί εί-ναι κατά προσέιση αφού δεν έχει πραγματοποιηθεί ποτέεπίσημη απογραφή της Διασποράς), ήταν πάντα έντονο τοπρόβημα της διδασκαλίας στοιχείων της εηνικής ή πα-ροχής πλήρους εκπαίδευσης στην εηνική γλώσσα. Το ελ-ληνικό κράτος έχει ιδρύσει εηνικά σχολεία σε ποές χώ-ρες σε ολόκληρο τον κόσμο και έχει υπογράψει συμφωνίες

14

με ακόμα περισσότερες χώρες ώστε να προσφέρονται ταΕηνικά ως προαιρετικό μάθημα στο σχολικό πρόγραμμασπουδών σε διάφορες εκπαιδευτικές βαθμίδες. Αυτή η προ-σπάθεια δεν έχει πετύχει το στόχο της, δηλαδή να επιτρέψεισε περισσότερους δεύτερης και τρίτης γενιάς ηνες τηςΔιασποράς να διατηρήσουν ή να ανακτήσουν την επαφή μετη γλώσσα των προγόνων τους. νας νέος νόμος που ψηφί-στηκε πρόσφατα εισηγείται μεταρρυθμίσεις στη διδασκα-λία και την εκπαίδευση στην εηνική γλώσσα στο εξωτε-ρικό. Λαμβάνει υπόψη του τα συγκεκριμένα εθνικά και το-πικά γνωρίσματα των κοινοτήτων της ομογένειας και στο-χεύει να τις υποστηρίξει να αναπτύξουν προσαρμοσμένα δι-δακτικά περιβάοντα και δομές.

3.7 Η ΔΙΕΘΝΗΣ ΔΙΑΣΤΑΣΗΣαφώς και δεν είναι εφικτό να γίνει μια σύντομη επισκό-πηση της σημασίας της εηνικής γλώσσας για τον σύγ-χρονο (δυτικό) πολιτισμό. Η επιστήμη, η φιλοσοφία, η λο-γοτεχνία, ουσιαστικά κάθε μείζων πτυχή της ανθρώπινηςδραστηριότητας επηρεάζεται από τον τρόπο που αναπτύ-χθηκε και περιγράφηκε γλωσσικά στα Εηνικά.Αά αυτό αποτελεί κυρίως “επίτευγμα” των Αρχαίων Ε-ληνικών. Ποια είναι η θέση των Νέων Εηνικών στη σύγ-χρονη εποχή; Τα Νέα Εηνικά έχουν διαδραματίσει ση-μαντικό ρόο στα Βαλκάνια και στην περιοχή τηςΜαύρηςΘάασσας, όντας σημαντική γλώσσα του εμπορίου και τηςεκπαίδευσης τουλάχιστον από τον 17ο ως τον 19ο αιώνα.Στη διάρκεια του 20ού αιώνα, το οξύ πρόβημα της Δι-γλωσσίας, σε συνδυασμό με πολιτικά, οικονομικά και κοι-νωνικά προβήματα, εμπόδισε τη διάδοση των Εηνικώνκαι η σημασία τους στη Νοτιοανατολική Ευρώπη και τηνΑνατολική Μεσόγειο μειώθηκε. Παρ’ ό’ αυτά, η Εηνικήείδε δύο από τους ποιητές της του 20ού αιώνα να παίρνουντο Νόμπελ Λογοτεχνίας και ένα μεγάο αριθμό έργων Ε-λήνων συραφέων να μεταφράζονται.Μετά το άνοιγμα των χωρών τηςΑνατολικής Ευρώπης στηΔύση, τα Εηνικά αποκτούν ξανά σημασία, κυρίως στιςβαλκανικές χώρες, όπου οι εηνικές επενδύσεις διαδραμα-

τίζουν σημαντικό οικονομικό ρόο με την παρουσία ολοένακαι περισσότερων εηνικών εταιρειών και με τα κύματατουριστών από αυτές τις χώρες να αυξάνονται χρόνο με τοχρόνο.

Οι εηνικές σπουδές διεθνώς φαίνεται να παρακμάζουνσταδιακά τα τελευταία χρόνια. Ποές από τις περίπου185 έδρες Εηνικών σε διάφορα Πανεπιστήμια ανά τονπλανήτη κινδυνεύουν να κλείσουν. Οι λόγοι που αναφέ-ρονται είναι οι οικονομικές περικοπές ακόμα και στα με-γαλύτερα πανεπιστήμια, η σε γενικές γραμμές παγκόσμιαυποβάθμιση του τομέα των Ανθρωπιστικών Επιστημών, οασήμαντος ρόος της εηνικής γλώσσας για το εμπόριο καιειδικά την αγορά εργασίας, και τέος η αδυναμία του εη-νικού κράτους να στηρίξει την εηνική γλώσσα στο εξω-τερικό.

3.8 ΤΑ ΕΛΛΗΝΙΚΑ ΣΤΟΔΙΑΔΙΚΤΥΟΣύμφωνα με το Παρατηρητήριο για την Ψηφιακή Εάδα[17], 20% των Εήνων πολιτών έχουν πλήρη πρόσβασησε ευρυζωνικές υπηρεσίες ντερνετ και 25% χρησιμοποιείτα smartphones γιαπρόσβασηστοΔιαδίκτυο.Το50%τουπληθυσμού έχουν πρόσβαση (οποιουδήποτε είδους) από τοσπίτι τους στο Διαδίκτυο, ενώ σχεδόν όες οι επιχειρή-σεις έχουν πρόσβαση στο Διαδίκτυο. Το 40% του συνο-λικού πληθυσμού επισκέπτεται το Διαδίκτυο τουλάχιστονμία φορά την εβδομάδα, με αυτούς τους αριθμούς να είναιπολύ υψηλότεροι για πιο νεαρές ηλικιακές ομάδες. Σχεδόντο ένα τρίτο του επαελματικά ενεργού πληθυσμού χρησι-μοποιεί το Διαδίκτυο για να εκτελέσει εργασίες σχετικές μεηλεκτρονική διακυβέρνηση, να χρησιμοποιήσει υπηρεσίεςηλεκτρονικής τραπεζικής και να κάνει άες διαδικτυακέςσυνααγές.

Η απόκλιση από τον ευρωπαϊκό μέσο όρο είναι προφα-νής αά καλύπτεται αρκετά γρήγορα, εάν λάβουμε επί-σης υπόψη μας την τρέχουσα οικονομική κατάσταση. Τοτρέχον Κοινοτικό Παίσιο Στήριξης έχει πάνω από 4 δισε-

15

κατομμύρια ευρώ να χορηγήσει για την κατασκευή ψηφια-κών υποδομών, υπηρεσιών και δυνατοτήτων.Στο τέος του2010 ο εηνικός τομέας διευθυνσιοδοσίας (.gr URL) είχεσχεδόν 330.000 καταχωρημένες διευθύνσεις. Δεν υπάρ-χει αξιόπιστη μέτρηση των εηνικών διαδικτυακών τόπωνστον τομέα .com, των εηνικών ιστολογίων και των ελ-ληνικών διαδικτυακών τόπων των Εήνων της Διασπο-ράς. Πάνω από 3 εκατομμύρια ηνες έχουν λογαριασμόστο Facebook. Είναι σωστό να πούμε ότι τα Εηνικά είναιπια μια πολύ ζωντανή και ολοένα και περισσότερο χρησιμο-ποιούμενη γλώσσα στο Διαδίκτυο.

Για τη γλωσσική τεχνολογία η αυξανόμενη χρήση του Δια-δικτύου έχει διττή ζωτική σημασία. Αφενός, ο μεγάοςόγκος ψηφιακά διαθέσιμων γλωσσικών δεδομένων αντι-προσωπεύει μια πλούσια πηγή για την ανάυση της χρήσηςφυσικής γλώσσας, ιδιαίτερα συέγοντας στατιστικές πλη-ροφορίες. Αφετέρου, το Διαδίκτυο προσφέρει ένα μεγάοεύρος δυνατοτήτων για εφαρμογές γλωσσικής τεχνολογίας.

Η διαδικτυακή εφαρμογή που χρησιμοποιείται πιο συχνάείναι ασφαλώς η αναζήτηση, η οποία σχετίζεται με την αυ-τόματη επεξεργασία γλώσσας σε ποά επίπεδα, όπως θαδούμε πιο αναλυτικά στο δεύτερο μέρος αυτής της αναφο-ράς. χει να κάνει με προηγμένη γλωσσική τεχνολογία πουείναι διαφορετική για κάθε γλώσσα. Για τα Εηνικά μπορείνα περιλαμβάνει την επεξεργασία εσφαλμένων στοιχείωνεισαγωγής (επεξεργασία ανορθόγραφων λέξεων σε ερωτή-ματα), πλούσια μορφολογική επεξεργασία, οντολογίες ειδι-κές για τη γλώσσα κ. λπ.

Η διασφάιση ίσων ευκαιριών σε όους αποτελεί ρητό πο-λιτικό στόχο στην Εάδα και άες ευρωπαϊκές χώρες.Συγκεκριμένα, ο πρόσφατος μεταρρυθμιστικός νόμος γιατην ηλεκτρονική διακυβέρνηση που ψηφίστηκε τον Ιού-νιο του 2011 σαφώς ζητά όες οι διαδικτυακές κυβερνητι-κές υπηρεσίες να είναι “σχεδιασμένες για όους”. Αυτό δενεπηρεάζει μόνο τους χρήστες με αναπηρίες αά συνδέε-ται επίσης με την πολυγλωσσία και με διάφορους τρόπουςπρόσβασης (κινητό, έειψη ευρυζωνικότητας, χωροχρονι-κές ρυθμίσεις κ. λπ.). Τα φιλικά προς τον χρήστη εργαλείαγλωσσικής τεχνολογίας προσφέρουν την κύρια λύση γιατην ικανοποίηση αυτού του κανονισμού, για παράδειγμαπροσφέροντας σύνθεση φωνής για τους πολίτες με μειω-μένη όραση.Οι χρήστες του Διαδικτύου και οι πάροχοι διαδικτυα-κού περιεχομένου μπορούν επίσης να επωφεληθούν από τηγλωσσική τεχνολογία με λιγότερο προφανείς τρόπους, π. χ.τη χρήση της για την αυτόματη μετάφραση διαδικτυακούπεριεχομένου από μία γλώσσα σε άη. Αν λάβει κανείςυπόψη του αφενός το υψηλό κόστος που συνδέεται με τημετάφραση αυτού του περιεχομένου από άνθρωπο και αφε-τέρου την εκτιμώμενη ανάγκη, θα περίμενε να αναπτύσσε-ται και να χρησιμοποιείται πιο πολύ η γλωσσική τεχνολογίααπό ό,τι τελικά συμβαίνει. Αυτό μπορεί να οφείεται στηνπολυπλοκότητα της εηνικής γλώσσας και στη μικρή της“αγορά” σε σχέση με τον αριθμό τεχνολογιών που εμπλέ-κονται σε συνήθεις εφαρμογές γλωσσικής τεχνολογίας.Στο επόμενο κεφάαιο θα παρουσιάσουμε μια εισαγωγήστη γλωσσική τεχνολογία και τα κεντρικά πεδία εφαρμο-γής της, καθώς και μια αξιολόγηση της τρέχουσας κατά-στασης της γλωσσικής τεχνολογίας για τα Νέα Εηνικά.

16

4

Η ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑΓΙΑ ΤΑ ΕΛΛΗΝΙΚΑ

Οι γλωσσικές τεχνολογίες χρησιμοποιούνται στην ανά-πτυξη υπολογιστικών συστημάτων εξειδικευμένων στονχειρισμό ανθρώπινης γλώσσας, και για το λόγο αυτό, αυτέςοι τεχνολογίες συχνά συνοψίζονται επίσης υπό τον όρο Τε-χνολογίες Ανθρώπινου Λόγου. Ο ανθρώπινος λόγος πραγ-ματώνεται σε προφορική και γραπτή μορφή. Ενώ ο προ-φορικός λόγος είναι ο παλαιότερος και πιο φυσικός τρόποςγλωσσικής επικοινωνίας σε ό,τι αφορά την ανθρώπινη εξέ-λιξη, σύνθετες πληροφορίες και το μεγαλύτερο μέρος τηςανθρώπινης γνώσης διατηρούνται και μεταδίδονται με γρα-πτά κείμενα. Οι τεχνολογίες φωνής και κειμένου, χρησι-μοποιώντας λεξικά καθώς και γραμματικούς και σημασιο-λογικούς κανόνες, επεξεργάζονται ή παράγουν γλώσσα καιστις δύο αυτές μορφές. Αυτό σημαίνει ότι η γλωσσική τε-χνολογία (ΓΤ) συνδέει τη γλώσσα με ποικίες μορφές γνώ-σης ανεξάρτητα από το μέσο έκφρασης (φωνή ή κείμενο).Το σχήμα 1 περιγράφει το τοπίο της ΓΤ.

Στην επικοινωνία μας, συνδυάζουμε τη γλώσσα με άαμέσα επικοινωνίας και πληροφόρησης - για παράδειγμα οπροφορικός λόγος μπορεί να περιλαμβάνει χειρονομίες καιεκφράσεις του προσώπου. Τα ψηφιακά κείμενα συνδυάζο-νται με εικόνες και ήχους. Οι ταινίες μπορεί να περιέχουνγλώσσα και σε προφορική και σε γραπτή μορφή. Με άαλόγια, οι τεχνολογίες προφορικού λόγου και κειμένου επι-καλύπτονται και αηλεπιδρούν με ποές άες τεχνολο-γίες που διευκολύνουν την επεξεργασία της πολυτροπικήςεπικοινωνίας και των πολυμεσικών εράφων.

Στη συνέχεια θα παρουσιαστούν τα βασικά πεδία εφαρμο-γών της ΓΤ, π. χ. ο γλωσσικός έεγχος, η αναζήτηση στο

Διαδίκτυο, η τεχνολογία φωνής και η μηχανική μετάφραση.Τα πεδία αυτά περιλαμβάνουν εφαρμογές όπως:

‚ διόρθωση ορθογραφικών λαθών

‚ υποστήριξη συραφής κειμένου

‚ εκμάθηση γλώσσας υποβοηθούμενη από υπολογιστή

‚ ανάκτηση πληροφορίας

‚ εξαγωγή πληροφορίας

‚ αυτόματη περίηψη κειμένου

‚ απάντηση ερωτημάτων

‚ αναγνώριση φωνής

‚ σύνθεση φωνής.

Η γλωσσική τεχνολογία αποτελεί μια καθιερωμένη ερευ-νητική περιοχή με πλούσιο βιβιογραφικό υλικό. Παρατί-θενται ενδεικτικά οι ακόουθες βιβιογραφικές αναφορές:[18, 19, 20, 21].

Πριν την ανάυση των ανωτέρω πεδίων εφαρμογών θα πε-ριγραφεί σύντομα η αρχιτεκτονική ενός τυπικού συστήμα-τος ΓΤ.

4.1 ΑΡΧΙΤΕΚΤΟΝΙΚΕΣΕΦΑΡΜΟΓΩΝΟι συνήθεις εφαρμογές λογισμικού για γλωσσική επεξερ-γασία συνήθως απαρτίζονται από διαφορετικά συστατικάμέρη που αντικατοπτρίζουν διάφορες πτυχές της γλώσσας.

17

Τεχνολογίες Πολυμέσων και

ΠολυτροπικότηταςΓλωσσικές Τεχνολογίες

Τεχνολογίες Φωνής

Τεχνολογίες Κειμένου

Τεχνολογίες Γνώσης

1: Το τοπίο της Γλωσσικής Τεχνολογίας

Το σχήμα 2 εμφανίζει μια εξαιρετικά απλοποιημένη αρχι-τεκτονική που απαντά σε ένα σύστημα επεξεργασίας κει-μένου.Οι πρώτες τρεις λειτουργικές μονάδες χειρίζονται τηδομή και τη σημασία του εισαγόμενου κειμένου:

1. Προ-επεξεργασία: καθαρισμός των δεδομένων, αφαί-ρεση μορφοποίησης, ανίχνευση της εισερχόμενης γλώσ-σας, των ορίων λέξης και πρότασης κ. λπ.

2. Γραμματική ανάυση: εύρεση του ρήματος και τωναντικειμένων του, των προσδιορισμών και άων με-ρών του λόγου, καθώς και της δομής της πρότασης.

3. Σημασιολογική ανάυση: αποσαφήνιση (εντοπισμόςτης κατάηλης σημασίας των λέξεων στο δεδομένο πε-ρικείμενο), επίυση συναναφοράς και αναφορικών εκ-φράσεων (ποιες αντωνυμίες αναφέρονται σε ποια ου-σιαστικά της πρότασης) και αναπαράσταση της σημα-σίας της πρότασης κατά τρόπο μηχανικά αναγνώσιμο.

Στη συνέχεια, εξειδικευμένα αρθρώματα εκτελούν άεςλειτουργίες, όπως η αυτόματη περίηψη κειμένου και ηαναζήτηση σε βάσεις δεδομένων. Πρόκειται για μια απλο-ποιημένη περιγραφή της αρχιτεκτονικής που απεικονίζειτην πολυπλοκότητα των εφαρμογών της ΓΤ.

Μετά την εισαγωγή για τα βασικά πεδία εφαρμογών τηςΓΤθαακολουθήσει μια σύντομη επισκόπηση της κατάστα-σης στην έρευνα και την εκπαίδευση στη ΓΤ, καταλήγο-ντας με μια επισκόπηση παλαιότερων και τρεχουσών ερευ-νητικών δραστηριοτήτων. Στο τέος αυτής της ενότητας,θαπαρουσιάσουμε τις εκτιμήσεις εμπειρογνωμόνωναναφο-ρικά με βασικά εργαλεία και πόρους ΓΤ ως προς αρκετέςδιαστάσεις, όπως η διαθεσιμότητα, η ωριμότητα και η ποιό-τητα. Η γενική εικόνα της κατάστασης της ΓΤ για την ελ-ληνική γλώσσα συνοψίζεται στον πίνακα 8 στη σελίδα 31.

Κείμενο Εισόδου

Προεπεξεργασία Γραμματική Ανάλυση

Σημασιολογική Ανάλυση

Εξειδικευμένα Αρθρώματα

Έξοδος

2: Τυπική Αρχιτεκτονική Εφαρμογής Επεξεργασίας Κειμένου

18

4.2 ΒΑΣΙΚΑ ΠΕΔΙΑΕΦΑΡΜΟΓΩΝΗ ενότητα αυτή εστιάζει στα πιο σημαντικά εργαλεία καιπόρους ΓΤ και παρουσιάζει συνοπτικά τις δραστηριότητεςτης ΓΤ στην Εάδα.

4.2.1 Γλωσσικός έλεγχος

Οποιοσδήποτε έχει χρησιμοποιήσει έναν κειμενογράφοόπως το Microso Word γνωρίζει ότι περιλαμβάνει ένανδιορθωτή που επισημαίνει τα ορθογραφικά λάθη και προ-τείνει διορθώσεις. Οι πρώτοι ορθογραφικοί διορθωτές συ-νέκριναν τη λίστα των λέξεων του κειμένου με ένα λεξικόορθογραφημένων λέξεων.Οι σύγχρονοι όμως διορθωτές εί-ναι πολύπιο εξελιγμένοι.Με τη χρήση εξαρτώμενωναπό τηγλώσσα αλγόριθμων για την γραμματική ανάυση εντο-πίζουν λάθη που σχετίζονται με την μορφολογία (π. χ. τοσχηματισμό του πληθυντικού), όπως και συντακτικά λάθη,π. χ. την έειψη ρήματος ή περιπτώσεις ασυμφωνίας ρή-ματος και υποκειμένου, π. χ. “Μπορείτε να *προτείνεταικάτι άο;”. Εντούτοις, οι περισσότεροι διαθέσιμοι ορθο-γράφοι δεν θα βρουν κανένα λάθος στο ακόουθο κείμενο[22]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

Για το χειρισμό τέτοιου τύπου σφαλμάτων, η ανάυση τουπερικειμένου είναι απαραίτητη σε ποές περιπτώσεις, π. χ.για να κριθεί εάν μια λέξη είναι ρηματικός ή ονοματικόςτύπος, όπως στο ακόουθο παράδειγμα, όπου οι κλιτικοίτύποι λύσης (από το ουσιαστικό λύση) και λύσεις (από τορήμα λύνω) ταυτίζονται φωνητικά αά διαφέρουν στηνορθογραφία και τη μορφοσυντακτική τους ταυτότητα:

‚ Μας παρουσίασε το σχέδιο της λύσης / *της λύσεις.

‚ Πρέπει να λύσεις / *λύσης αυτό το πρόβημα.

Αυτό απαιτεί είτε το σχηματισμό κανόνων γραμματικήςειδικών για κάθε γλώσσα, το οποίο συνεπάγεται μεγάοβαθμό εξειδίκευσης και ανθρωποωρών ή τη χρήση ενόςστατιστικού γλωσσικού μοντέου. Αυτά τα μοντέα υπο-λογίζουν την πιθανότητα μιας συγκεκριμένης λέξης να εμ-φανίζεται σε ένα συγκεκριμένο περιβάον (δηλαδή, τιςπροηγούμενες και τις επόμενες λέξεις). Για παράδειγμα, τιςλύσεις είναι μια πολύ πιο πιθανή ακολουθία λέξεων απότο *τις λύσης. να στατιστικό γλωσσικό μοντέο μπορείνα παραχθεί αυτόματα χρησιμοποιώντας ένα μεγάο όγκο(ορθών) γλωσσικών δεδομένων (π. χ. ένα σώμα κειμένων).Μέχρι σήμερα αυτές οι προσείσεις έχουν κυρίως ανα-πτυχθεί και αξιολογηθεί σε αλικά γλωσσικά δεδομένα.Ωστόσο, αυτό δε σημαίνει ότι μπορούν να μεταφερθούναπευθείας στα Εηνικά, λόγω της ευέικτης ακολουθίαςτων λέξεων και του πλούσιου κλιτικού συστήματος.

Η χρήση ορθογράφου δεν περιορίζεταισε εργαλεία επεξεργασίας κειμένου, αλλά

εφαρμόζεται επίσης σε συστήματαυποβοήθησης συγγραφής κειμένου.

Η χρήση ορθογράφου δεν περιορίζεται σε εργαλεία επεξερ-γασίας κειμένου, αά εφαρμόζεται επίσης σε συστήματαυποβοήθησης συραφής κειμένου, δηλαδή περιβάονταλογισμικού στα οποία εγχειρίδια και λοιπά έραφα τεκμη-ρίωσης γράφονται σύμφωνα με συγκεκριμένα πρότυπα γιασύνθεταπροϊόντα στο χώρο της τεχνολογίας πληροφοριών,της υγείας, της μηχανολογίας κ. λπ.

Φοβούμενοι τα παράπονα των πελατών για κακή χρήσηκαι τις αγωγές αποζημιώσεων εξαιτίας ακατανόητων ή δυσ-νόητων οδηγιών, οι εταιρείες έχουν αρχίσει να εστιάζουνολοένα και περισσότερο στηνποιότητα της τεχνικής τεκμη-ρίωσης, στοχεύοντας παράηλα στη διεθνή αγορά (μέσωτης μετάφρασης ή της τοπικοποίησης). Οι εξελίξεις στηνεπεξεργασία της φυσικής γλώσσας οδηγούν στην ανάπτυξηλογισμικού υποβοήθησης συραφής κειμένου, το οποίοβοηθά τον συντάκτη τεχνικών εράφων να χρησιμοποιεί

19

Κείμενο Εισόδου

Ορθογραφικός Έλεγχος Γραμματικός Έλεγχος Προτεινόμενες

Διορθώσεις

Στατιστικό Γλωσσικό Μοντέλο

3: Γλωσσικός Έλεγχος (επάνω: στατιστικός, κάτω: βασισμένος σε κανόνες)

λεξιλόγιο και προτασιακές δομές συμβατές με κανόνες καιπεριορισμούς της (εταιρικής) ορολογίας.Λίγοι μόνο εηνικοί οργανισμοί, εταιρείες και πάροχοιγλωσσικών υπηρεσιών προσφέρουν προϊόντα σε αυτόν τοντομέα. Το Ινστιτούτο Επεξεργασίας του Λόγου έχει ανα-πτύξει τη “Συμφωνία”, μια εφαρμογή ελέγχου ορθογραφίαςκαι γραμματικής συμφωνίας (π. χ. άρθρου-ουσιαστικού)για την εηνική γλώσσα.Δεν υπάρχει ακόμα κάποιος αξιό-πιστος γραμματικός διορθωτής για τα Εηνικά.Πέρα από τους ορθογράφους και τη υποβοήθηση συρα-φής κειμένου, ο Γωσσικός εγχος είναι επίσης σημαντι-κός στον τομέα της υποβοηθούμενης από υπολογιστή εκ-μάθησης γλωσσών και επιπλέον εφαρμόζεται στην αυτό-ματη διόρθωση ερωτημάτων σε διαδικτυακές μηχανές ανα-ζήτησης, π. χ. στις προτάσεις “Μήπως εννοείτε…” που προ-τείνει το Google.

4.2.2 Αναζήτηση στο Διαδίκτυο

Η αναζήτηση στο Διαδίκτυο, σε εσωτερικά δίκτυα ήψηφιακές βιβιοθήκες είναι πιθανότατα η ευρύτερα χρη-σιμοποιούμενη αά παρό΄ αυτά η λιγότερο ανεπτυγ-μένη γλωσσική τεχνολογία σήμερα.Η μηχανή αναζήτησηςGoogle, η οποία ξεκίνησε το 1998, χρησιμοποιείται σή-μερα για περίπου το 80% όων των ερωτημάτων αναζήτη-σης παγκοσμίως [23]. Από το 2007, το ρήμα γκουκγλάρωή γκουγκλίζω έχει συμπεριληφθεί ως λήμμα σε ορισμένα ελ-ληνικά λεξικά. Ούτε η διεπαφή αναζήτησης ούτε η παρου-σίαση των ανακτημένων αποτελεσμάτων έχει αάξει ση-μαντικά σε σχέση με τηνπρώτη έκδοση.Στην τρέχουσα έκ-

δοσή του, τοGoogle προσφέρει ορθογραφική διόρθωση γιαανορθόγραφες λέξεις, ενώ το 2009 ενσωμάτωσε δυνατότη-τες βασικής σημασιολογικής αναζήτησης στον αλγόριθμότου [24], η οποία μπορεί να βελτιώσει την ακρίβεια τωναναζητήσεων αναλύοντας τη σημασία των όρων του ερω-τήματος εντός περικειμένου. Η επιτυχία του Google δεί-χνει ότι διαθέτοντας ποά δεδομένα και αποτελεσματικέςτεχνικές για ευρετηρίαση αυτών των δεδομένων, μια στα-τιστική (κυρίως) προσέιση μπορεί να οδηγήσει σε ικανο-ποιητικά αποτελέσματα.

Ωστόσο, για πιο προηγμένες αναζητήσεις πληροφορίαςαπαιτείται η ενσωμάτωση βαθύτερης γλωσσολογικής γνώ-σης για την ερμηνεία κειμένων. Πειράματα που χρησιμο-ποιούν λεξιλογικούς πόρους, όπως π. χ. μηχανικά αναγνώ-σιμους γλωσσικούς θησαυρούς και οντολογικούς γλωσσι-κούς πόρους όπως το WordNet, έχουν επιδείξει βελτιώσειςως προς την ανεύρεση μιας σελίδας με βάση τα συνώνυματων όρων αναζήτησης, π. χ. ανανεώσιμες πηγές ενέργειας,αιολική ενέργεια ή ακόμα και όρους λιγότερο στενά συνδε-δεμένους.

Η επόμενη γενιά μηχανών αναζήτησης θαπρέπει να συμπε-ριλάβει πολύ πιο προηγμένη γλωσσική τεχνολογία, κυρίωςγια αναζητήσεις που χρησιμοποιούν ερώτηση ή άον τύποπρότασης πέρα από μια λίστα λέξεων-κλειδιών. Για το ερώ-τημα Δώσε μου μια λίστα όων των εταιρειών οι οποίες εξα-γοράστηκαν από άες εταιρείες τα τελευταία πέντε χόνιατο σύστημα ΓΤ πρέπει να αναλύσει την πρόταση συντα-κτικά και σημασιολογικά, καθώς και να παρέχει ένα ευρε-τήριο που να επιτρέπει τη γρήγορη ανάκτηση των σχετι-

20

Ερώτημα χρήστη

Ιστοσελίδες

Προεπεξεργασία Ανάλυση Ερωτήματος

Προεπεξεργασία Σημασιολογική Επεξεργασία

Ευρετηρίαση

Αντιστοίχιση και

Συνάφεια

Αποτελέσματα Αναζήτησης

4: Αναζήτηση στον Ιστό

κών εράφων. Μια ικανοποιητική απάντηση απαιτεί συ-ντακτική ανάυση για να αναγνωριστεί η γραμματική δομήτης πρότασης και να καθοριστεί ότι ο χρήστης ψάχνει τιςεταιρείες που εξαγοράστηκαν και όχι τις εταιρείες που εξα-γόρασαν άες. Επίσης, για την έκφραση τα τελευταία πέ-ντε χόνια το σύστημα χρειάζεται να προσδιορίσει το σχε-τικό χρονικό διάστημα. Και τέος, το επεξεργασμένο ερώ-τημα πρέπει να αντιστοιχιστεί με έναν τεράστιο όγκο αδό-μητων δεδομένων προκειμένου να βρεθεί το τμήμα ή τατμήματα πληροφοριών που αναζητά ο χρήστης. Αυτό κα-λείται “ανάκτηση πληροφορίας” και έχει να κάνει με τηναναζήτηση και την κατάταξη σχετικών εράφων. Για τηνπαραγωγή μιας λίστας εταιρειών χρειάζεται επίσης το σύ-στημα νααναγνωρίσει μια συγκεκριμένηακολουθία λέξεωνσε ένα έραφο ως όνομα εταιρείας, διαδικασία που ονομά-ζεται “αναγνώριση ονοματικών οντοτήτων”.

Η επόμενη γενιά μηχανών αναζήτησηςθα πρέπει να συμπεριλάβει πολύ πιο

προηγμένη Γλωσσική Τεχνολογία.

Ακόμα πιο απαιτητική είναι η απόπειρα αντιστοίχισης ενόςερωτήματος που γίνεται σε μια γλώσσα με έραφα διαφο-ρετικής γλώσσας. Η διαγλωσσική ανάκτηση πληροφορίαςπεριλαμβάνει την αυτόματη μετάφραση του ερωτήματοςσε όες τις πιθανές γλώσσες αναζήτησης, την εύρεση τωναποτελεσμάτων και την επακόουθη μετάφρασή τους στηναρχική γλώσσα του ερωτήματος.

Το αυξανόμενο ποσοστό δεδομένων που διατίθενται σε μηκειμενικές μορφές αυξάνει τη ζήτηση για υπηρεσίες που κα-θιστούν δυνατή την ανάκτηση πολυμεσικής πληροφορίας,δηλαδή την αναζήτηση πληροφορίας σε δεδομένα από ει-κόνες, ήχο και βίντεο. Στην περίπτωση των αρχείων ήχουκαι βίντεο, μια μονάδα αναγνώρισης φωνής πρέπει να με-τατρέψει το προφορικό περιεχόμενο σε κείμενο (ή σε φωνη-τική αναπαράσταση), το οποίο στη συνέχεια αντιστοιχίζε-ται στο ερώτημα του χρήστη.

4.2.3 Φωνητική Αλληλεπίδραση

Η φωνητική αηλεπίδραση είναι ένα από τα ποά πε-δία εφαρμογών που βασίζονται στην τεχνολογία φωνής,

21

δηλαδή τις τεχνολογίες για την επεξεργασία του προφο-ρικού λόγου. Οι τεχνολογίες φωνητικής αηλεπίδρασηςχρησιμοποιούνται για τη δημιουργία διεπαφών που επιτρέ-πουν στον χρήστη να αηλεπιδρά χρησιμοποιώντας προ-φορικό λόγο αντί για οθόνη γραφικών, πληκτρολόγιο, πο-ντίκι κ. λπ. Σήμερα τέτοιες φωνητικές διεπαφές χρήστηχρησιμοποιούνται συνήθως για μερικώς ή πλήρως αυτο-ματοποιημένες τηλεφωνικές υπηρεσίες από εταιρείες προςτους πελάτες, τους εργαζομένους ή τους συνεταίρους τους.Επιχειρηματικοί κλάδοι που βασίζονται σε μεγάο βαθμόσε φωνητικές διεπαφές χρήστη είναι οι τράπεζες, ο εφοδια-σμός και διακίνηση προϊόντων (logistics), οι δημόσιες συ-γκοινωνίες και οι τηλεπικοινωνίες. ες χρήσεις της τε-χνολογίας φωνητικής αηλεπίδρασης είναι οι διεπαφές συ-στημάτων πλοήγησης σε αυτοκίνητα και η χρήση της φω-νής ως εναακτική της οθόνης γραφικών ή της οθόνηςαφής στις έξυπνες τηλεφωνικές συσκευές (smartphones).Η φωνητική αηλεπίδραση περιλαμβάνει τις εξής τέσσε-ρις επιμέρους τεχνολογίες:

1. Η αυτόματη αναγνώριση φωνής προσδιορίζει τις λέ-ξεις που ειπώθηκαν δεδομένης μιας ακολουθίας ήχωνπου εκφέρει ο χρήστης.

2. Η τεχνολογία κατανόησης φυσικής γλώσσας αναλύειτη συντακτική δομή του εκφωνήματος του χρήστη καιτο ερμηνεύει αναλόγως με το σκοπό του αντίστοιχουσυστήματος.

3. Η τεχνολογία διαχείρισης διαλόγου καθορίζει τις ενέρ-γειες που πρέπει να γίνουν αναλόγως με το εκφώνηματου χρήστη και τη λειτουργικότητα του εκάστοτε συ-στήματος.

4. Η τεχνολογία σύνθεσης φωνής μετατρέπει την από-κριση του συστήματος σε ήχους αντιληπτούς από τονχρήστη.

Μία από τις κύριες προκλήσεις των συστημάτων αναγνώ-ρισης φωνής είναι η ακριβής αναγνώριση των λέξεων πουαρθρώνει ο χρήστης. Αυτό απαιτεί είτε περιορισμό του εύ-ρους των πιθανών εκφωνημάτων του χρήστη σε ένα ορι-

σμένο σύνολο λέξεων-κλειδιών είτε τη χειρωνακτική δη-μιουργία γλωσσικών μοντέων που καλύπτουν ένα ευρύφάσμα εκφωνημάτων φυσικής γλώσσας. Μέσω της υιοθέ-τησης τεχνικών μηχανικής μάθησης τα γλωσσικά μοντέαείναι δυνατόν να παραχθούν αυτόματα από σώματα κειμέ-νων προφορικού λόγου, δηλαδή από αρχεία ήχου και κειμε-νικές μεταγραφές αυτών.Οπεριορισμός των εκφωνημάτωνσυνήθως οδηγεί τους χρήστες σε μη ευέικτη χρήση τηςφωνητικής διεπαφής, γεγονός που οδηγεί στην απόρριψητου συστήματος. μως, η δημιουργία και η συντήρησηπλούσιων γλωσσικών μοντέων αυξάνει το κόστος σημα-ντικά. Οι φωνητικές διεπαφές που χρησιμοποιούν γλωσ-σικά μοντέα και επιτρέπουν ευελιξία στη διατύπωση τηςερώτησης από τον χρήστη – με έναν χαιρετισμό του τύπουΠώς μπορώ να σας βοηθήσω; – τείνουν να αυτοματοποιη-θούν και τυγχάνουν μεγαλύτερης αποδοχής από τον χρή-στη.

Οι τεχνολογίες φωνητικής αλληλεπίδρασηςείναι η βάση δημιουργίας διεπαφών πουεπιτρέπουν στον χρήστη να αλληλεπιδράχρησιμοποιώντας προφορικό λόγο αντί

για οθόνη γραφικών, πληκτρολόγιο ή ποντίκι.

Οι εταιρείες τείνουν να χρησιμοποιούν προηχογραφημέναεκφωνήματα επαελματιών ομιλητών για την παραγωγήτου αποτελέσματος μιας φωνητικής διεπαφής χρήστη.Στην περίπτωση στατικών εκφωνημάτων, στα οποία η δια-τύπωση δεν εξαρτάται από ιδιαίτερα περικείμενα χρήσηςή τα προσωπικά δεδομένα του συγκεκριμένου χρήστη, οχρήστης έχει μια πολύ θετική εμπειρία. Ωστόσο, όσο πιοδυναμικό περιεχόμενο χρειάζεται να λάβει υπόψη του έναεκφώνημα, τόσο περισσότερο μπορεί να επηρεαστεί αρνη-τικά η εμπειρία του χρήστη εξαιτίας του αφύσικου επιτονι-σμού που οφείεται στη σύνδεση μεμονωμένων ηχητικώναρχείων. Τα σημερινά συστήματα σύνθεσης φωνής βελ-τιώνονται, αν και επιδέχονται επιπλέον βελτιώσεων, όσοναφορά την προσωδιακή φυσικότητα των εκφωνημάτων.Οι εμπορικές διεπαφές χρήστη για τεχνολογίες φωνητικής

22

Φωνητικό Σήμα Εισόδου

Επεξεργασία Σήματος

Φωνητικό Σήμα Εξόδου Σύνθεση Φωνής Φωνητική Αναζήτηση &

Επιτονικός ΣχεδιασμόςΚατανόηση

Φυσικής Γλώσσας και Διάλογος

Αναγνώριση Φωνής

5: Διαλογικό Σύστημα βασισμένο σε Επεξεργασία Φωνής

αηλεπίδρασης την τελευταία δεκαετία είναι σχετικά τυ-ποποιημένες ως προς τα επιμέρους τεχνολογικά συστατικά.Παρατηρείται επίσης ισχυρή ενοποίηση της αγοράς σταπεδία της αναγνώρισης και σύνθεσης φωνής. Στις εθνικέςαγορές των χωρών της G20 (οικονομικά εύρωστες χώρεςμε σημαντικό πληθυσμό) κυριαρχούν μόις πέντε παίκτεςπαγκοσμίως, με την Nuance (ΗΠΑ) και την Loquendo(Ιταλία) να είναι οι επικρατέστερες εταιρείες στην Ευ-ρώπη. Το 2011 η Nuance ανακοίνωσε την απόκτηση τηςLoquendo, κίνηση η οποία αποτελεί ένα ακόμα βήμα προςτην ενοποίηση της αγοράς.

Στο χώρο της τεχνολογίας διαχείρισης διαλόγου και τηςσχετικής τεχνογνωσίας, οι αγορές κινούνται κυρίως σεεθνικό επίπεδο, με κυρίαρχους παίκτες μικρομεσαίες επι-χειρήσεις. Αντί να βασίζονται αποκλειστικά σε προϊόνταπου εξαρτώνται από άδειες χρήσης λογισμικού, οι επιχειρή-σεις αυτές προβάονται κυρίως ως πάροχοι ολοκληρωμέ-νων υπηρεσιών που προσφέρουν τη δημιουργία φωνητικώνδιεπαφών χρήστη ως υπηρεσία ολοκλήρωσης συστήματος.Τέος, στον κλάδο της φωνητικής αηλεπίδρασης δεν υφί-σταται ακόμα γνήσια αγορά για τις βασικές γλωσσικές τε-χνολογίες συντακτικής και σημασιολογικής ανάυσης.

Στην Εάδα, η ζήτηση για την πραγματική χρήση τωνφωνητικών διεπαφών χρήστη έχει αυξηθεί σημαντικά κατάτην τελευταία πενταετία. Αυτή η τάση οφείεται στην αυ-ξανόμενη ζήτηση των τελικών πελατών για αυτοεξυπηρέ-τηση, στη σημαντική βελτίωση του κόστους των αυτομα-τοποιημένων τηλεφωνικών υπηρεσιών, καθώς και στη ση-

μαντικά αυξημένη αποδοχή του προφορικού λόγου ως τρό-που επικοινωνίας ανθρώπου-μηχανής.Τέτοιες υπηρεσίες προσφέρονται από μικρομεσαίες επι-χειρήσεις που προσαρμόζουν στην εηνική γλώσσα έναμείγμα από εισαγόμενες τεχνολογικές λύσεις, όπως αυτέςπου προαναφέρθηκαν, με εγχώριες τεχνολογικές λύσεις.Στο άμεσο μέον θα υπάρξουν σημαντικές ααγές λόγωτης διάδοσης των smartphones ως νέας πλατφόρμας δια-χείρισης των πελατειακών σχέσεων – πέρα από το στα-θερό τηλέφωνο, το Διαδίκτυο και το ηλεκτρονικό ταχυ-δρομείο. Αυτή η τάση θα επηρεάσει επίσης την ανάπτυξητης τεχνολογίας φωνητικής αηλεπίδρασης. Μακροπρό-θεσμα, η ζήτηση για τις βασισμένες στο τηλέφωνο φωνητι-κές διεπαφές χρήστη θα μειωθεί, ενώ η χρήση της φωνής ωςμιας φιλικής προς τον χρήστη λειτουργικότητας εισόδου γιαsmartphones θα αποκτήσει σημαντικό προβάδισμα. Αυτήη τάση υποστηρίζεται από την παρατηρούμενη βελτίωσητης ακρίβειας στην αναγνώριση φωνής, ανεξαρτήτως ομι-λητή, στις υπηρεσίες υπαγόρευσης που είναι ήδη διαθέσιμεςως υπηρεσίες σε χρήστες smartphones.

4.2.4 Μηχανική Μετάφραση

Η ιδέα της χρήσης υπολογιστών για τη μετάφραση φυσι-κών γλωσσών χρονολογείται από το1946 .Σημαντική χρη-ματοδότηση δόθηκε για την έρευνα σε αυτόν τον τομέα στηδεκαετία του 1950και πάι στη δεκαετία του 1980. Εντού-τοις, ηΜηχανικήΜετάφραση (ΜΜ) εξακολουθεί να αδυ-νατεί να ικανοποιήσει τις υψηλές προσδοκίες πλήρους αυ-

23

τόματης μετάφρασης που δημιούργησε σταπρώτα της χρό-νια.

Η απλούστερη προσέγγιση στη ΜΜ είναι ηαυτόματη αντικατάσταση των λέξεων μιας

φυσικής γλώσσας με λέξεις μιας άλλης γλώσσας.

Η απλούστερη προσέιση στη ΜΜ είναι η αυτόματηαντικατάσταση των λέξεων ενός κειμένου γραμμένου σε μιαφυσική γλώσσα με λέξεις μιας άης γλώσσας. Αυτό μπο-ρεί να είναι χρήσιμο σε θεματικούς τομείς με πολύ περιορι-σμένη και τυποποιημένη γλώσσα, όπως π. χ. τα μετεωρο-λογικά δελτία. Ωστόσο, η καλή μετάφραση λιγότερο τυ-ποποιημένων και μεγαλύτερων κειμένων (φράσεων, προ-τάσεων ή ακόμα και ολόκληρων αποσπασμάτων) απαι-τεί την αντιστοίχιση με τα πιο κοντινά τους ισοδύναμαστη γλώσσα στόχο.Ημεγαλύτερη δυσκολία εν προκειμένωέγκειται στο γεγονός ότι η ανθρώπινη γλώσσα είναι αμφί-σημη, πράγμα το οποίο γεννά προκλήσεις σε ποαπλά επί-πεδα, π. χ. την αποσαφήνιση της σημασίας των λέξεων σελεξιλογικό επίπεδο (η λέξη τζάγκουαρ μπορεί να αναφέρε-ται σε αυτοκίνητο ή ζώο) ή την προσάρτηση εμπρόθετωνφράσεων σε συντακτικό επίπεδο όπως παρακάτω:

‚ Οαστυνομικός παρακολουθεί τη γυναίκα με τα κιάια.

‚ Ο αστυνομικός παρακολουθεί τη γυναίκα με το περί-στροφο.

νας τρόπος ανάπτυξης συστημάτων ΜΜ βασίζεται στηχρήση γλωσσολογικών κανόνων. Για μεταφράσεις ανάμεσασε συενικές γλώσσες, μια λέξη προς λέξη υποκατάστασημπορεί να είναι εφικτή σε περιπτώσεις όπως το προηγού-μενο παράδειγμα. μως, τα συστήματα που βασίζονται σεκανόνες (ή σε γλωσσολογική γνώση) συνήθως αναλύουν τοεισερχόμενο κείμενο και δημιουργούν μια ενδιάμεση, συμ-βολική αναπαράσταση, από την οποία παράγεται το κεί-μενο στη γλώσσα στόχο. Η επιτυχία αυτών των μεθόδωνεξαρτάται σε μεγάο βαθμό από τη διαθεσιμότητα εκτετα-μένων λεξικών με μορφολογική, συντακτική και σημασιο-

λογική πληροφορία και μεγάα σύνολα γραμματικών κα-νόνων καταρτισμένων από εξειδικευμένους γλωσσολόγους.Αυτή όμως είναι μια πολύ μακροχρόνια και επομένως δα-πανηρή διαδικασία.

Στα τέη της δεκαετίας του 1980, καθώς η υπολογιστικήισχύς αυξήθηκε και έγινε λιγότερο δαπανηρή, παρατηρή-θηκε μεγαλύτερο ενδιαφέρον για στατιστικά μοντέαΜΜ.Τα στατιστικά μοντέα προέρχονται από την ανάυση δί-γλωσσων σωμάτων παράηλων κειμένων, όπως είναι γιαπαράδειγμα το Europarl, το οποίο περιλαμβάνει τα πρα-κτικά του Ευρωπαϊκού Κοινοβουλίου σε 21 ευρωπαϊκέςγλώσσες. Εάν υπάρχουν αρκετά δεδομένα, η στατιστικήMΜ αποδίδει αρκετά καλά ως προς την παραγωγή κατάπροσέιση νοήματος ενός ξενόγλωσσου κειμένου μέσω τηςεπεξεργασίας παράηλων δεδομένων και της ανεύρεσηςπιθανών αντιστοιχίσεων λέξεων. Εντούτοις, σε αντίθεση μετα συστήματα που βασίζονται σε γλωσσολογική γνώση, ηστατιστική (ή βασισμένη σε δεδομένα) MΜ συχνά παρά-γει γραμματικά εσφαλμένα αποτελέσματα. Η βασισμένησε δεδομένα ΜΜ υπερτερεί στο ότι απαιτεί μικρότερηανθρώπινη προσπάθεια, και στο ότι έχει τη δυνατότητανα χειρίζεται ιδιαιτερότητες της γλώσσας (π. χ. ιδιωματι-σμούς) που τα συστήματα που βασίζονται σε γλωσσολο-γική γνώση πιθανόν να αγνοήσουν.

Καθώς τα πλεονεκτήματα και τα μειονεκτήματα της βασι-σμένης στη γλωσσολογική γνώση και στα δεδομένα MΜαηλοσυμπληρώνονται, οι ερευνητές σήμερα προσανατο-λίζονται σε υβριδικές προσείσεις που συνδυάζουν και τιςδύο μεθοδολογίες. Μία από αυτές συνδυάζει συστήματαβασισμένα στη γλωσσολογική γνώση και συστήματα βα-σισμένα στα δεδομένα μαζί με μια μονάδα επιλογής, η οποίααποφασίζει ποιο είναι το καλύτερο αποτέεσμα για κάθεπρόταση. Εντούτοις, τα αποτελέσματα για προτάσεις με-γαλύτερες των 12 λέξεων συνήθως δεν είναι ικανοποιητικά.Επομένως, μια καλύτερη λύση είναι να συνδυαστούν τα κα-λύτερα τμήματα κάθε πρότασης από ποαπλά αποτελέ-σματα, κάτι που είναι αρκετά περίπλοκο καθώς οι αντιστοι-χίες των ποαπλών αυτών εναακτικών δεν είναι πά-

24

Στατιστική Μηχανική

Μετάφραση

Κείμενο Πηγή

Κείμενο Στόχος

Ανάλυση Κειμένου (μορφοποίηση, μορφολογία,

σύνταξη κ.λπ.)

Παραγωγή κειμένου

Μεταφραστικοί Κανόνες

6: Μηχανική Μετάφραση (αριστερά: στατιστική, δεξιά: βασισμένη σε κανόνες)

ντοτε προφανείς και χρειάζονται στοίχιση. Η χρήση τηςΜΜ είναι δυνατόν να αυξήσει σημαντικά την παραγωγι-κότητα εάν προσαρμοστεί κατάηλα στην ορολογία καιενταχθεί στη ροή εργασιών. Διαδικτυακές πύες γλωσσι-κών πόρων παρέχουν πρόσβαση σε λεξικά και εξειδικευ-μένη ορολογία, καθώς και σε υποστήριξη μεταφραστικώνμνημών και ΜΜ.Η ποιότητα των συστημάτων MΜ θεωρείται ότι έχειακόμη τεράστιες δυνατότητες βελτίωσης. Στις προκλήσειςσυγκαταλέγονται η δυνατότητα προσαρμογής των γλωσ-σικών πόρων σε ένα δεδομένο θεματικό πεδίο ή στον το-μέα του χρήστη και η ενσωμάτωση σε υπάρχουσες ροέςεργασιών με βάσεις δεδομένων και μεταφραστικές μνήμες.Επίσης, τα περισσότερα από τα τρέχοντα συστήματα είναιεπικεντρωμένα στα αλικά και υποστηρίζουν μόνο λίγεςγλώσσες σε συνδυασμό με τα Εηνικά, γεγονός που δη-μιουργεί προβήματα σε ολόκληρη τη ροή μεταφραστικώνεργασιών και αναγκάζει τους χρήστες της MΜ να μαθαί-νουν διαφορετικά εργαλεία για διαφορετικά συστήματα.

Η Μηχανική Μετάφραση για την ελληνικήγλώσσα παρουσιάζει ιδιαίτερες προκλήσεις.

Η ΜΜ για τα Εηνικά παρουσιάζει ιδιαίτερες προκλή-σεις. Η ελεύθερη σειρά των όρων της πρότασης θέτει προ-βήματα στην διαδικασία της ανάυσης και το πλούσιοκλιτικό σύστημααποτελεί πρόκληση για τη διαδικασία πα-ραγωγής λέξεων στο σωστό γένος και πτώση. Σε εθνικό

επίπεδο, υπάρχουν μικρές εταιρείες-τεχνοβαστοί που προ-σπαθούν να κατακτήσουν μια θέση στην αγορά ενσωμα-τώνοντας λύσεις Μεταφραστικών Μνημών και Στατιστι-κής Μηχανικής Μετάφρασης, υποστηρίζοντας κυρίως ταεηνικά σε συνδυασμό με τα αλικά, τα γαικά και ταγερμανικά.

Δράσεις αξιολόγησης επιτρέπουν τη σύγκριση των συστη-μάτων MΜ ως προς την ποιότητά τους, τις διαφορετικέςπροσείσεις και την απόδοσή τους για τα διαφορετικάγλωσσικά ζεύγη. Στον πίνακα 7 (σελ. 26), ο οποίος καταρ-τίστηκε στο πλαίσιο του ευρωπαϊκού έργου Euromatrix+,περιγράφονται οι κατά ζεύγη επιδόσεις για 22 από τις23 επίσημες γλώσσες της ΕΕ (εκτός της ιρλανδικής). Ηκατάταξη των αποτελεσμάτων ακολουθεί τη βαθμολογίαBLEU, η οποία δίνει υψηλότερα σκορ για τις καλύτερεςμεταφράσεις [25]. Με αυτή τη μέθοδο, η βαθμολογία ενόςανθρώπου μεταφραστή θα ανερχόταν στους 80 βαθμούς.

Τα καλύτερα αποτελέσματα (με πράσινο και μπλε) επι-τεύχθηκαν σε γλώσσες που χαρακτηρίζονται από σημα-ντική ερευνητική δραστηριότητα μέσα από συντονισμέναπρογράμματα καθώς και από την ύπαρξη ποών παρά-ληλων σωμάτων κειμένων (π. χ. αλικά, γαικά, οαν-δικά, ισπανικά, γερμανικά). Τα χειρότερα αποτελέσματα(με κόκκινο) αφορούν σε γλώσσες με περιορισμένη ερευνη-τική δραστηριότητα ή σε γλώσσες που είναι δομικά πολύδιαφορετικές από άες (π. χ. ουρικά, μαλτέζικα, φινλαν-δικά).

25

Γώσσα στόχος – Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

EN – 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 – 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 – 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 – 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 – 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 – 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 – 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 – 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 – 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 – 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 – 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 – 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 – 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 – 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 – 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 – 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 – 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 – 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 – 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 – 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 – 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5 –

7: Μηχανική Μετάφραση μεταξύ 22 γλωσσών ΕΕ – Machine translation between 22 EU-languages [26]

4.3 ΑΛΛΑ ΠΕΔΙΑ ΕΦΑΡΜΟΓΩΝΗδημιουργία εφαρμογών γλωσσικής τεχνολογίας περιλαμ-βάνει ευρύ φάσμα επιμέρους εργασιών οι οποίες δεν εί-ναι πάντα αντιληπτές από τον χρήστη, αά προσφέρουνσημαντικές λειτουργικότητες “στο παρασκήνιο” του εκά-στοτε συστήματος. Για το λόγο αυτό συνιστούν σημαντικάερευνητικά ζητήματα που έχουν εξελιχθεί σε διακριτούςκλάδους.

Οι εφαρμογές γλωσσικής τεχνολογίαςσυχνά παρέχουν σημαντικές

λειτουργικότητες ενσωματωμένες σεμεγαλύτερα συστήματα λογισμικού.

Για παράδειγμα, τα συστήματα ερωταποκρίσεων έχουν εξε-λιχθεί σε ένα δυναμικό πεδίο έρευνας, για το οποίο έχουναναπτυχθεί επισημειωμένα σώματα κειμένων, ενώ έχουνδιενεργηθεί και σχετικοί επιστημονικοί διαγωνισμοί. Η λο-

γική πίσω από τα συστήματα ερωταποκρίσεων βρίσκεταιπέρα από την αναζήτηση με λέξεις-κλειδιά (στην οποία ημηχανή αναζήτησης επιστρέφει μια συογή πιθανά σχετι-ζόμενων εράφων) δεδομένου ότι δίνει στον χρήστη τη δυ-νατότητα να απευθύνει μια συγκεκριμένη ερώτηση για τηνοποία το σύστημα παρέχει μια μοναδική απάντηση. Για πα-ράδειγμα:

Ερώτηση: Σε ποια ηλικία πάτησε οNeil Armstrong στοφεάρι;

Απάντηση: 38.

Ενώ η απάντηση ερωτημάτων σχετίζεται προφανώς με τηνερευνητική περιοχή της αναζήτησης στο Διαδίκτυο, σή-μερα αποτελεί έναν περιληπτικό όρο για ερευνητικά ζητή-ματα όπως είναι ο τύπος των πιθανών ερωτημάτων και οτρόπος διαχείρισής τους, ο τρόπος ανάυσης και σύγκρι-σης (σε περίπτωση αντικρουόμενων απαντήσεων) συνόουεράφων που ενδεχομένως περιλαμβάνουν την απάντηση,

26

καθώς και ο τρόπος με τον οποίο η συγκεκριμένη πληροφο-ρία (απάντηση) εξάγεται αξιόπιστα από ένα έραφο χωρίςνα παραβέπεται το περικείμενο.

Η απάντηση ερωτημάτων σχετίζεται με την εξαγωγή πλη-ροφορίας (ΕΠ), κλάδος που ήταν εξαιρετικά δημοφιλής καιισχυρός την εποχή που η υπολογιστική γλωσσολογία στρά-φηκε στις στατιστικές προσείσεις στις αρχές της δεκαε-τίας του 1990. Η ΕΠ στοχεύει στον εντοπισμό συγκεκρι-μένων πληροφοριών σε συγκεκριμένα είδη εράφων, όπωςπ. χ. ο εντοπισμός των σημαντικών παραγόντων στις εξα-γορές εταιρειών όπως καταγράφονται στα άρθρα εφημερί-δων. να άο σενάριο που έχει διερευνηθεί είναι οι ανα-φορές σε τρομοκρατικά συμβάντα, όπου το ζήτημα είναι ηαπεικόνιση του κειμένου σε ένα μοντέο (template) που ναπροσδιορίζει τον δράστη, τον στόχο, τον χρόνο και την το-ποθεσία του συμβάντος, καθώς και τα αποτελέσματά του.Η συμπλήρωση μοντέων ανάογα με το θεματικό πεδίοείναι το κεντρικό χαρακτηριστικό της EΠ, η οποία επί-σης συνιστά ένα παράδειγμα τεχνολογίας “παρασκηνίου”,το οποίο χρειάζεται στη συνέχεια να ολοκληρωθεί σε ένακατάηλο περιβάον εφαρμογής.

Η αυτόματη περίηψη και η παραγωγή κειμένου είναιδύο οριακές περιπτώσεις, οι οποίες άοτε υφίστανται ωςαυτόνομες εφαρμογές, ενώ άοτε έχουν υποστηρικτικόρόο. Η περίηψη επιδιώκει την απόδοση του νοήματοςενός μακροσκελούς κειμένου σε πιο συνοπτική έκταση καιπροσφέρεται, για παράδειγμα, ως λειτουργικότητα από τοMicrosoWord.Σε μεγάο βαθμό χρησιμοποιεί στατιστι-κές προσείσεις για τον εντοπισμό “σημαντικών” λέξεωνστα κείμενα (δηλ. λέξεων λέξεις με υψηλή συχνότητα στοκείμενο, αά λιγότερο συχνών στην καθημερινή χρήσητης γλώσσας) και τον προσδιορισμό των προτάσεων πουπεριλαμβάνουν τις περισσότερες από αυτές τις “σημαντι-κές” λέξεις. Στη συνέχεια οι προτάσεις αυτές εξάγονται καισυγκεντρώνονται έτσι ώστε να δημιουργηθεί η περίηψη.Στην πολύ συχνή αυτή περίπτωση εμπορικής εφαρμογής, ηπερίηψη είναι μια μορφή εξαγωγής προτάσεων και το κεί-μενο μειώνεται σε ένα υποσύνολο των προτάσεών του.Μια

εναακτική προσέιση συνιστά η παραγωγή νέων προ-τάσεων οι οποίες δεν υπάρχουν στο κείμενο πηγή.

Η έρευνα για τις περισσότερες τεχνολογίεςκειμένου στην ελληνική γλώσσα είναι λιγότερο

ανεπτυγμένη σε σχέση με την αγγλική.

Η προσέιση αυτή απαιτεί βαθύτερη κατανόηση του κει-μένου και επομένως είναι, προς το παρόν τουλάχιστον, λι-γότερο εύρωστη. Γενικότερα η εφαρμογή παραγωγής κει-μένου σπανίως χρησιμοποιείται αυτόνομα. Αντιθέτως, εν-σωματώνεται σε ευρύτερο περιβάον λογισμικού, όπωςπ. χ. σε ένα ιατρικό σύστημα πληροφόρησης το οποίο συλ-λέγει, αποθηκεύει και επεξεργάζεται δεδομένα ασθενών. Ηπαραγωγή αναφορών είναι μία από τις ποές εφαρμογέςτης αυτόματης περίηψης κειμένου.Για τα Εηνικά, το επίπεδο σε όα αυτά τα ερευνητικάπεδία είναι πολύ λιγότερο ανεπτυγμένο σε σχέση με τηναλική γλώσσα, όπου τα συστήματα ερωταποκρίσεων, ηεξαγωγή πληροφορίας και η αυτόματη περίηψη ήδη απότη δεκαετία του 1990 αποτελούν το αντικείμενο πολυά-ριθμων ανοιχτών διαγωνισμών, πρωτίστως εκείνων πουδιοργανώνει η DARPA/NIST στις Ηνωμένες Πολιτείες.Οι διαγωνισμοί έχουν βελτιώσει σημαντικά το επίπεδο,αά στο επίκεντρο βρίσκονταν πάντα τα αλικά. Ορι-σμένοι διαγωνισμοί έχουν αποκτήσει πολυγλωσσικό χαρα-κτήρα, αά τα Εηνικά ποτέ δεν είχαν την πρωτοκαθε-δρία. Εντούτοις, έχουν αναπτυχθεί πλατφόρμες μηχανικήςανάυσης κειμένου όπως το ELLOGON, κυρίως εμπνευ-σμένες από (και εξυπηρετώντας) την εξαγωγή πληροφο-ρίας καθώς και εφαρμογές σχετικές με την ανάυση καιτην αξιολόγηση κειμενικής και πολυμεσικής πληροφορίας.Μικροί τεχνοβαστοί δραστηριοποιούνται σε πεδία εφαρ-μογής όπως η παρακολούθηση ΜΜΕ (τηλεόραση, ραδιό-φωνο,Διαδίκτυο), η ανάυση συναισθήματος και η εξόρυξηαπόψεων κ. λπ., εστιάζοντας σε εηνικό και αλικό περιε-χόμενο.Τα συστήματα αυτόματης περίηψης που χρησιμοποιούνστατιστικές μεθόδους είναι συχνά ανεξάρτητα γλώσσας σε

27

μεγάο βαθμό και για το λόγο αυτό υπάρχουν διαθέσιμακάποια ερευνητικά πρωτότυπα που μπορούν να επαναχρη-σιμοποιηθούν και για άες γλώσσες. Ως προς την παρα-γωγή κειμένου, τα επαναχρησιμοποιήσιμα τμήματα περιο-ρίζονται στις γραμματικές παραγωγής κειμένου. Και πάι,το μεγαλύτερο μέρος του διαθέσιμου λογισμικού αφορά τααλικά.

Πέρα από την πολυπλοκότητα της γλώσσας ως μέσου επι-κοινωνίας, η επεξεργασία φυσικής γλώσσας για μια λιγό-τερο διαδεδομένη γλώσσα όπως τα Εηνικά θέτει επιπλέονπροκλήσεις. Οι ερευνητικές προσπάθειες που εστιάζουνστα Εηνικά προσπαθούν να μοντελοποιήσουν γλωσσικάφαινόμενα αφενός και να αναπτύξουν χρήσιμες εφαρμογέςαφετέρου. Αυτό αντικατοπτρίζεται στον σχετικά αυξημένοαριθμό ερευνητικών ομάδων και ερευνητών που προσπα-θούν να αντιμετωπίσουν προβήματα επεξεργασίας τηςγλώσσας που κυμαίνονται από το μορφογραφηματικό καιφωνητικό επίπεδο έως τις τεχνολογικές λύσεις για πρό-σβαση σε πληροφορίες και περιεχόμενο.

4.4 ΕΚΠΑΙΔΕΥΤΙΚΑΠΡΟΓΡΑΜΜΑΤΑΗ γλωσσική τεχνολογία είναι ένας διεπιστημονικός κλά-δος, που συνδυάζει τη γνώση και την εμπειρία γλωσσο-λόγων, πληροφορικών, μαθηματικών, φιλοσόφων, ψυχο-γλωσσολόγων και νευροεπιστημόνων. Στην Εάδα, υπάρ-χει μόνο ένα μεταπτυχιακό πρόγραμμα σχετικό με τηνγλωσσική τεχνολογία. Αυτό το πρόγραμμα προσφέρεταιαπό κοινού από το Εθνικό Καποδιστριακό ΠανεπιστήμιοΑθηνών και το Εθνικό Μετσόβιο Πολυτεχνείο, ενώ οι δια-λέξεις δίνονται από μέη αυτών των δύο πανεπιστημίων καιτων δύο κύριων ερευνητικών Εργαστηρίων για τη ΓΤ, δη-λαδή του ΙΕΛ / Ε.Κ “Αθηνά” και του Εργαστηρίου Τεχνο-λογίας Γνώσεων και Λογισμικού του ΕΚΕΦΕ “Δημόκρι-τος”. Περίπου 35 φοιτητές αποφοιτούν από αυτό το πρό-γραμμα κάθε δύο χρόνια από το 1998.

Μεμονωμένα μαθήματαΥπολογιστικής Γωσσολογίας καισχετικών επιστημονικών περιοχών προσφέρονται από όατα υπόοιπα μεγάα εηνικά πανεπιστήμια, στα προπτυ-χιακά και στα μεταπτυχιακά προγράμματα σπουδών (πιοαξιοσημείωτες περιπτώσεις μεταξύ αυτών είναι το Οικονο-μικόΠανεπιστήμιο Αθηνών, τοΠανεπιστήμιοΠειραιά, τοΠανεπιστήμιο Πατρών και το Αριστοτέειο Πανεπιστή-μιο Θεσσαλονίκης). Ποά από αυτά τα προγράμματα καιμαθήματα ξεκίνησαν μόις πρόσφατα.

Ο αυξανόμενος αριθμός νέων ερευνητικών ομάδων και ερ-γαστηρίων σε πανεπιστήμια και ερευνητικά κέντρα πουεστιάζουν στη ΓΤ δείχνει τη δυναμική του κλάδου και τηδημοτικότητα που αποκτά μεταξύ των φοιτητών.

Το Ινστιτούτο Επεξεργασίας του Λόγου του Ε.Κ. “Αθηνά”και το ΙνστιτούτοΠηροφορικής καιΤηλεπικοινωνιών τουΕΚΕΦΕ “Δημόκριτος” είναι τα δύο μεγαλύτερα ερευνη-τικά ιδρύματα που επί μονίμου βάσεως προσφέρουν ευκαι-ρίες για υποτροφίες σε φοιτητέςΥπολογιστικής Γωσσολο-γίας και παρεμφερών κλάδων.

Δεν υπάρχουν διαθέσιμα στοιχεία για τον αριθμό των φοι-τητών που σπουδάζουν σε προπτυχιακό και σε μεταπτυ-χιακό επίπεδο σε κλάδους που συνδέονται με τη γλωσ-σική τεχνολογία. Οι περισσότεροι από όσους επιθυμούν νασπουδάσουν σε αυτόν τον κλάδο φοιτούν σε Πανεπιστή-μια και εξειδικευμένα κέντρα του εξωτερικού. Οι περισ-σότερες θέσεις στη βιομηχανία και τον ακαδημαϊκό χώροπου συνδέονται με τις γλωσσικές τεχνολογίες καταλαμβά-νονται από ανθρώπους που έχουν ήδη σπουδάσει ή/και ερ-γαστεί στο εξωτερικό. Εξαιτίας της απουσίας επαρκώς κα-ταρτισμένου προσωπικού, σε ποές περιπτώσεις οι θέσειςεργασίας που απαιτούν εξειδίκευση στη γλωσσική τεχνολο-γία καλύπτονται από μηχανικούς υπολογιστών που έχουν(μικρότερη ή μεγαλύτερη) (αυτο)κατάρτιση στην ΓΤ.

28

4.5 ΕΘΝΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑΚΑΙ ΠΡΩΤΟΒΟΥΛΙΕΣΗ ύπαρξη βιομηχανίας ΓΤ στην Εάδα συνδέεται με με-γάα προγράμματα ΓΤ που διεξήχθησαν τις τελευταίες δε-καετίες.Τοπρώτο τέτοιο πρόγραμμαήταν τοEUROTRA,ένα φιλόδοξο έργο μηχανικής μετάφρασης (ΜΜ) που δη-μιουργήθηκε και χρηματοδοτήθηκε από την ΕυρωπαϊκήΕπιτροπή από τα τέη της δεκαετίας του 1970 έως το1994. Αν και το έργο EUROTRA δεν εκπλήρωσε τιςπροσδοκίες της δημιουργίας ενός σύγχρονου συστήματοςMΜ, είχε μακροχρόνια επίδραση στις γλωσσικές βιομη-χανίες στην Ευρώπη. να πρόσθετο αποτέεσμα αυτούτου έργου ήταν η δημιουργία και η επιμόρφωση σημαντι-κού αριθμού επιστημόνων και ερευνητών στον αναδυόμενοκλάδο.Εθνικά προγράμματα (χρηματοδοτούμενα κυρίως μέσωΔιαρθρωτικών Ταμείων της ΕΕ) στη δεκαετία του 1990και τις αρχές της δεκαετίας του 2000 αποσκοπούσαν στηνανάπτυξη γλωσσικής τεχνολογίας και τη δημιουργία υπο-δομής στον τομέα της επεξεργασίας γλώσσας και φωνής(σώματα κειμένων, φωνητικές βάσεις δεδομένων, εργαλείαεπεξεργασίας γραπτού και προφορικού λόγου, υπολογι-στικά λεξικά, ηλεκτρονικά λεξικά, εκπαιδευτικές πλατφόρ-μες για τη διδασκαλία Εηνικών). Αυτά τα προγράμματα(STRIDE, ΔΙΑΛΟΓΟΣ, ΕΠΕΤ I – ΓΤ, ΕΠΕΤ II) ήτανπολύ σημαντικά για τη συνέχιση του τομέα της ΓΤ στηνΕάδα και, σε συνδυασμό με τα έργα της ΕΕ, εξασφάι-σαν την υλοποίηση των βασικών εργαλείων και τεχνολο-γιών επισημείωσης γλωσσικών πόρων για τα Εηνικά.Επακόουθα προγράμματα, όπως το ΗΧΟΣ, ΕΙΚΟΝΑ,ΓΛΩΣΣΑ, προσανατολίστηκαν περισσότερο στον χρή-στη και τις εφαρμογές. Εστίασαν στη χρήση της σύγχρο-νης γλωσσικής τεχνολογίας σε τομείς όπως η Ψηφιακή Πο-λιτιστική Κηρονομιά, η Ηεκτρονική Διακυβέρνηση καιη επεξεργασία πολυμεσικού περιεχομένου για τη βιομηχα-νία των μέσων μαζικής επικοινωνίας.να σημαντικό πλεονέκτημα που αποκτήθηκε από τις χρη-ματοδοτικές αυτές πρωτοβουλίες είναι η δημιουργία ομά-

δων ΓΤ σε μεγάα ερευνητικά κέντρα και πανεπιστημιακάεργαστήρια, καθώς και σε εταιρείες.Οι πλειονότητα αυτώντων ομάδων συνεχίζει να δραστηριοποιείται στον κλάδομέσω ερευνητικών δραστηριοτήτων της ΕΕ, συμβάο-ντας θετικά στη δημιουργία των περισσότερων πόρων καιεργαλείων ΓΤ που υπάρχουν σήμερα διαθέσιμα για τα Ε-ληνικά, καλύπτοντας τους άξονες της επεξεργασίας κειμέ-νου, φωνής και πολυμεσικών δεοδμένων.Μια νέα εθνική χρηματοδοτική πρωτοβουλία ρευνας &Ανάπτυξης για όους τους κλάδους (ΣΥΝΕΡΓΑΣΙΑ) έχειξεκινήσει, η οποία περιλαμβάνει ποά υποσχόμενα έργαΓΤ. Καθώς αυτό το πρόγραμμα δημιουργείται για να προ-άγει συνεργασίες μεταξύ της ακαδημαϊκής κοινότητας καιτης βιομηχανίας, προβέπεται ότι μέσα στα επόμενα χρόνιαθα υπάρχει διαθέσιμος ένας σεβαστός αριθμός γλωσσικώνεργαλείων και συστημάτων και υπηρεσιών ενισχυμένων μεΓΤ για τα Εηνικά.Εντούτοις, η κρατική χρηματοδότηση για έργα ΓΤ στηνΕάδα είναι σχετικά χαμηλή συγκριτικά με τις δαπάνεςτων ΗΠΑ για θέματα όπως η μετάφραση και η πρόσβασησε πολυγλωσσική πληροφορία [27]. Επιπρόσθετα, το γε-γονός ότι η ιδιωτική χρηματοδότηση ρευνας & Τεχνολο-γίας στην Εάδα στο σύνολό της είναι εξαιρετικά χαμηλήαποδεικνύεται ιδιαίτερα μειονεκτικό για τεχνολογίες όπωςη ΓΤ.

4.6 Ο ΙΔΙΩΤΙΚΟΣ ΤΟΜΕΑΣΕνδεικτική της σημασίας της ΓΤ στην Εάδα είναι ηύπαρξη μικρού, αά σημαντικού για το μέγεθος της χώ-ρας, αριθμού ιδιωτικών εταιρειών, συμπεριλαμβανομένωντων τεχνοβαστών, οι οποίες διεξάγουν προηγμένη έρευνασταπεδία της αναγνώρισης και σύνθεσης φωνής, της παρα-κολούθησηςΜΜΕ, της μηχανικής μετάφρασης, της παρα-γωγής γλωσσικών πόρων (λεξικά, θησαυροί, οντολογίες),των ηλεκτρονικών εκδόσεων, της ηλεκτρονικής μάθησηςκαι της έξυπνης ανάυσης περιεχομένου.Αυτές οι εταιρείες εστιάζουν στην ανάπτυξη πρόσθετωνεφαρμογών και προηγμένων μηχανών αναζήτησης για πύ-

29

λες ειδικού ενδιαφέροντος αξιοποιώντας σημασιολογικήπληροφορία. Εξαιτίας των ακόμα υψηλών απαιτήσεων σευπολογιστική ισχύ, τέτοιες μηχανές αναζήτησης είναι εύ-χρηστες και οικονομικές μόνο σε σχετικά μικρούς όγκουςκειμενικών δεδομένων. Ο χρόνος επεξεργασίας εύκολα ξε-περνά κατά αρκετές τάξεις μεγέθους τον χρόνο που απαιτείμία κοινή στατιστική μηχανή αναζήτησης όπως, π. χ. αυτήτης Google. Αυτές οι μηχανές αναζήτησης παρουσιάζουνεπίσης υψηλές απαιτήσεις στη μοντελοποίηση συγκεκριμέ-νων θεματικών τομέων, καθιστώντας μη εφικτή τη χρήσητους σε κλίμακα Διαδικτύου.

4.7 ΔΙΑΘΕΣΙΜΟΤΗΤΑΕΡΓΑΛΕΙΩΝ ΚΑΙ ΠΟΡΩΝΣημαντικό μέρος των βασικών γλωσσικών πόρων και ερ-γαλείων έχει αναπτυχθεί για τα Εηνικά: γλωσσικοί πόροι(μονόγλωσσοι, πολύγλωσσοι, πολυτροπικοί κ. λπ.), υπολο-γιστικά λεξικά, συντακτικοί αναλυτές, ορθογραφικοί καισυντακτικοί διορθωτές, συστήματα αναγνώρισης ονομα-τικών οντοτήτων, σημασιολογικοί επισημειωτές, μεταφρα-στικές εφαρμογές, συστήματα υποβοήθησης συραφής,τεχνολογίες αναγνώρισης και σύνθεσης φωνής, εκπαιδευ-τικό λογισμικό υποβοηθούμενο από γλωσσική τεχνολογία– ένα ευρύ φάσμα. Είναι όμως προφανές ότι ο κλάδος χρή-ζει περαιτέρω ανάπτυξης.

Ορισμένα προϊόντα έχουν κυκλοφορήσει στην αγορά μεκυμαινόμενη επιτυχία. Οι υπηρεσίες που προσφέρονταιστο Διαδίκτυο σχετικά με τους γλωσσικούς πόρους πε-ριλαμβάνουν μονόγλωσσα εηνικά σώματα κειμένων (οΕθνικός Θησαυρός της Εηνικής Γώσσας, το Σώμα Ε-ληνικών Κειμένων και το σώμα εφημερίδων του ΚέντρουΕηνικής Γώσσας). Η αγορά, ωστόσο, συνεχίζει να είναιμικρή και ανεπαρκώς ενημερωμένη για τη διαθεσιμότητάτους.

Ο πίνακας 8 παρέχει μια επισκόπηση της τρέχουσας κα-τάστασης της γλωσσικής τεχνολογίας που υποστηρίζει τηνεηνική γλώσσα. Η βαθμολόγηση των υπαρχόντων εργα-

λείων και πόρων βασίζεται σε εκτιμήσεις επιφανών εμπειρο-γνωμόνων και υπολογίστηκαν σύμφωνα με επτά κριτήριαβάσει κλίμακας διαβαθμιζόμενης από 0 (πολύ χαμηλό) έως6 (πολύ υψηλό).Τα σημαντικότερα ευρήματα για την εηνική γλώσσα συ-νοψίζονται ως εξής:

‚ Ενώ υπάρχουν σώματα κειμένων υψηλής ποιότητας,που καλύπτουν κυρίως τα Νέα Εηνικά, τα εη-νικά σώματα κειμένων αναφοράς είναι αρκετά μικρό-τερα από το όριο των 100 εκατομμυρίων λέξεων και πε-ριέχουν κυρίως δημοσιογραφικά κείμενα, ενώ λίγα περι-λαμβάνουν κείμενα προφορικού λόγου.

‚ α τα σώματα κειμένων είναι προσβάσιμα μέσω Δια-δικτύου αά δεν υπάρχει η δυνατότητα λήψης του υλι-κού.

‚ Οι περισσότεροι γλωσσικοί πόροι που έχουν αναπτυ-χθεί για την εηνική γλώσσα δεν συντηρούνται επαρ-κώς ούτε ενημερώνονται μετά τη δημιουργία τους.

‚ Ποοί από τους πόρους στερούνται προτυποποίησης,δηλαδή ακόμα κι εάν υπάρχουν, η βιωσιμότητά τουςδεν είναι δεδομένη. Απαιτούνται επομένως στοχευμέναπρογράμματα και πρωτοβουλίες για την προτυποποί-ηση των δεδομένων και των μορφότυπων κωδικοποίη-σης.

‚ Η επεξεργασία της σημασιολογικής πληροφορίας είναιπιο δύσκολη σε σχέση με αυτή της συντακτικής. Επι-πλέον, η επεξεργασία της σημασίας σε επίπεδο κειμένουείναι πιο δύσκολη σε σύγκριση με μικρότερες μονάδες,όπως είναι η λέξη και η πρόταση.

‚ σο περισσότερη σημασιολογική πληροφορία λαμβά-νει υπόψη του ένα εργαλείο, τόσο δυσκολότερο είναινα βρεθούν τα σωστά δεδομένα. Απαιτούνται περισσό-τερες προσπάθειες για την υποστήριξη της βαθύτερηςεπεξεργασίας.

‚ Αν και υπάρχουν διεθνή πρότυπα για την κωδικοποί-ηση σημασιολογικής πληροφορίας κυρίως με τη μορφήτης αναπαράστασης της γνώσης για τον κόσμο (RDF,

30

Ποσ

ότητ

α

Διαθε

σιμό

τητα

Ποιότ

ητα

Κά

υψη

Ωρίμα

νση

Βιωσ

ιμότ

ητα

Προ

σαρμ

οστικό

τητα

Γωσσική Τεχνολογία: εργαλεία, τεχνολογίες και εφαρμογές

Αναγνώριση φωνής 3 2 4 3 5 4 3

Σύνθεση φωνής 4 2 5 4 5 4 3

Γραμματική ανάυση 2 1.5 3.5 3 3 3 3

Σημασιολογική ανάυση 1 1.5 1.5 1.5 1.5 1.5 1.5

Παραγωγή κειμένου 1 1 2 1 1 1 1

Μηχανική μετάφραση 2 1 1 1 1 1 2

Γωσσικοί Πόροι: πόροι, βάσεις δεδομένων και γνώσης

Σώματα κειμένων 3 3.5 3.5 3 3 4 4

Σώματα προφορικού λόγου 2 1 3 2 3 2 2

Παράηλα σώματα κειμένων 2 2 2 2 3 3 2

Λεξικοί πόροι 1.5 1 2.5 2 2 2.5 2.5

Γραμματικές 1 1 1 1 1 2 1

8: Επίπεδο υποστήριξης της Γλωσσικής Τεχνολογίας για τα Ελληνικά

OWLκ. λπ.), εντούτοις είναι δύσκολο να εφαρμοστούνσε τομείς της επεξεργασίας φυσικής γλώσσας (ΕΦΓ).

‚ Ηεπεξεργασία φωνής είναι επί του παρόντος πιο ώριμηαπό τις τεχνολογίες ΕΦΓ για γραπτά κείμενα.

‚ Ως προς την ποσότητα και ποικιλία των λεξικών πό-ρων, υπάρχει μεγάη ανάγκη για περισσότερα λεξικάμε σημασιολογική και συντακτική πληροφορία, για ση-μασιολογικά δίκτυα, για ορολογικά δεδομένα σε διάφο-ρες θεματικές περιοχές, καθώς και για περισσότερουςδίγλωσσους (για ζεύγη γλωσσών πέραν των εηνικών-αλικών) και πολύγλωσσους πόρους. σον αφορά τηνωριμότητα, πολύ λίγοι πόροι είναι αρκετά ώριμοι ώστενα ενσωματωθούν απευθείας σε εργαλεία και συστή-ματα ΕΦΓ.

‚ Η έρευνα στην ΓΤ πέτυχε στον σχεδιασμό ιδιαίτεραυψηλής ποιότητας λογισμικού, αά είναι σχεδόν αδύ-νατο να βρεθούν βιώσιμες και τυποποιημένες λύσεις μετην τρέχουσα κατάσταση ειπούς χρηματοδότησης.

‚ Τα εργαλεία χαρακτηρίζονται από διάφορα επίπεδαωριμότητας, από εργαστηριακά πρωτότυπα έως εμπο-ρικά προϊόντα.

‚ Η τεκμηρίωση πόρων και εργαλείων είναι σπάνια.

‚ Οι εηνικοί πολυμεσικοί και πολυτροπικοί πόροι πα-ρουσιάζουν μεγάη ποικιλία και ικανοποιητική κάυψηόσον αφορά τα είδη, τα μέσα και τις τροπικότητες.

‚ Εν γένει, δεν καταγράφονται αρκετά συντακτικά καισημασιολογικά επισημειωμένα σώματα κειμένων, ενώταυτόχρονα οι υπάρχοντες πόροι αίζουν υψηλά επί-πεδα ποιότητας.

31

4.8 ΔΙΑΓΛΩΣΣΙΚΗ ΣΥΓΚΡΙΣΗΤο επίπεδο της ΓΤ ποικίει σημαντικά από γλώσσα σεγλώσσα. Με στόχο τη σύγκριση μεταξύ των γλωσσών, ηπαρούσα ενότητα περιγράφει μια αξιολόγηση που στηρί-χθηκε δειγματικά σε δύο πεδία εφαρμογών (μηχανική μετά-φρασηκαι επεξεργασίαφωνής) και μιας υποκείμενης τεχνο-λογίας (ανάυση κειμένου), καθώς και στους βασικούς τύ-πους πόρων που είναι απαραίτητοι για την ανάπτυξη εφαρ-μογών ΓΤ.Η κατηγοριοποίηση των γλωσσών πραγματοποιήθηκε βά-σει της ακόουθης κλίμακας:

1. ριστη υποστήριξη

2. Καλή υποστήριξη

3. Μέτρια υποστήριξη

4. Αποσπασματική υποστήριξη

5. Μικρή ή καθόου υποστήριξη

Επεξεργασία Φωνής: ποιότητα υπάρχουσας τεχνολογίαςαναγνώρισης φωνής, ποιότητα υπάρχουσας τεχνολογίαςσύνθεσης φωνής, κάυψη θεματικών περιοχών, ποιότητακαι όγκος υπαρχόντων σωμάτων κειμένων προφορικού λό-γου, αριθμός και ποικιλία διαθέσιμων εφαρμογών επεξεργα-σίας φωνής.Μηχανική Μετάφραση: ποιότητα υπάρχουσας τεχνολο-γίας ΜΜ, αριθμός γλωσσικών ζευγών που αντιμετωπίζο-νται, κάυψη γλωσσικών φαινομένων και θεματικών περιο-χών, ποιότητα και όγκος υπαρχόντων παράηλων σωμά-των κειμένων, αριθμός και ποικιλία διαθέσιμων εφαρμογώνΜΜ.Ανάυση Κειμένου: ποιότητα και κάυψη υπαρχουσώντεχνολογιών ανάυσης κειμένου (μορφολογία, σύνταξη,σημασιολογία), κάυψη γλωσσικών φαινομένων και θεμα-τικών περιοχών, αριθμός και ποικιλία διαθέσιμων εφαρμο-γών, ποιότητα και όγκος υπαρχόντων (επισημειωμένων)σωμάτων κειμένων γραπτού λόγου, ποιότητα και κάυψηυπαρχόντων λεξικών πόρων (π. χ. WordNet) και γραμμα-τικών.

ΓωσσικοίΠόροι:ποιότητα και όγκος υπαρχόντων σωμά-των κειμένων (γραπτού λόγου, προφορικού λόγου, παρά-ληλα), ποιότητα και κάυψη υπαρχόντων λεξικών πόρωνκαι γραμματικών.

Οι Πίνακες 9 έως 12 δείχνουν ότι η γλωσσική τεχνολογίαστην Εάδα έχει σημειώσει σημαντική πρόοδο κατά τιςτελευταίες δεκαετίες. Δεν έχει όμως φτάσει ακόμα το επί-πεδο μεγαλύτερων (ως προς τον αριθμό ομιλητών και τουςδιαθέσιμους πόρους) γλωσσών. Αυτό οφείεται σε ποούςπαράγοντες. να παράδειγμα γλωσσικού παράγοντα είναιη ταυτότητα της γλώσσας (μοναδικό αλφάβητο, δύσκολημορφολογία), η οποία απαιτεί την ανάπτυξη γλωσσικών ερ-γαλείων ειδικά προσαρμοσμένων στα Εηνικά, γεγονός τοοποίο με τη σειρά του παρεμποδίζει τη μεταφορά τεχνολο-γίας από άες γλώσσες. Είναι προφανές ότι για τα Εη-νικά δεν υπάρχει ακόμα το ίδιο επίπεδο ποιότητας και κά-λυψης σε σχέση με τα αντίστοιχα εργαλεία και γλωσσικούςπόρους για την αλική γλώσσα, η οποία προηγείται σχεδόνσε όες τις περιοχές της ΓΤ. Και υπάρχουν ακόμα ποάκενά σε γλωσσικούς πόρους για εφαρμογές υψηλής ποιότη-τας ακόμα και για τα αλικά.

Η επίδοση συγκεκριμένων τεχνολογιών επεξεργασίας φω-νής (π. χ. σύνθεση φωνής) είναι αρκετά καλή ώστε να επι-τρέπει την ολοκλήρωσή τους σε βιομηχανικές εφαρμογές.Τα σημερινά συστήματα ανάυσης κειμένου και οι γλωσσι-κοί πόροι καλύπτουν σε μεγάο βαθμό τα γλωσσικά φαινό-μενα της Εηνικής και αποτελούν τμήματα ποών εφαρ-μογών, κυρίως επιφανειακής επεξεργασίας φυσικής γλώσ-σας, όπως οι ορθογραφικοί διορθωτές και τα συστήματαυποβοήθησης συραφής κειμένου.

Εντούτοις, για την ανάπτυξη πιο απαιτητικών εφαρμο-γών, όπως είναι η μηχανική μετάφραση, είναι απαραίτητηη ύπαρξη πόρων και τεχνολογιών που καλύπτουν μεγα-λύτερο εύρος γλωσσολογικών φαινομένων και επιτρέπουντη βαθιά σημασιολογική ανάυση του κειμένου εισόδου.Η βελτίωση της ποιότητας και του εύρους κάυψης τωνβασικών αυτών πόρων και τεχνολογιών θα δημιουργήσεινέες ευκαιρίες για την ανάπτυξη ευρέος φάσματος προηγμέ-

32

νων εφαρμογών, συμπεριλαμβανομένης της μηχανικής με-τάφρασης υψηλής ποιότητας.

4.9 ΣΥΜΠΕΡΑΣΜΑΤΑΑυτή η συογή Λευκών Βίβων αποτελεί μια σημαντικήπρώτη προσπάθεια καταγραφής της υποστήιξης που παρέ-χει η γλωσσική τεχνολογία σε 30 ευρωπαϊκές γλώσσες, καιμια υψηλού επιπέδου συγκριτική ανάυση της υποστήιξηςαυτής μεταξύ των γλωσσών αυτών. Μέσω του εντοπισμούτων κενών, των αναγκών και των εείψεων θα μπορέσουνη ευρωπαϊκή κοινότητα της γλωσσικής τεχνολογίας και οιενδιαφερόμενοι φορείς να σχεδιάσουν ευρείας κλίμακας δρά-σεις έρευνας και ανάπτυξης με στόχο μια πραγματικά πολύ-γλωσση και τεχνολογικά ενισχυμένη επικοινωνία στην Ευ-ρώπη.Διαπιστώθηκε ότι υπάρχουν τεράστιες διαφορές μεταξύτων ευρωπαϊκών γλωσσών. Παρά την ύπαρξη λογισμικούκαλής ποιότητας και τη διαθεσιμότητα πόρων για κάποιεςγλώσσες και πεδία εφαρμογών, άες γλώσσες παρουσιά-ζουν σημαντικά κενά.Ποές γλώσσες στερούνται των βα-σικών τεχνολογιών για ανάυση κειμένου και των βασικώνπόρων για την ανάπτυξη των τεχνολογιών αυτών. εςγλώσσες διαθέτουν μεν τα βασικά εργαλεία και τους πό-ρους, αά δεν είναι ακόμη σε θέση να επενδύσουν στηνεπεξεργασία σημασιολογικής πληροφορίας. Είναι απαραί-τητη επομένως μια προσπάθεια ευρείας κλίμακας για τηνεπίτευξη του φιλόδοξου στόχου της παροχής μηχανικής με-τάφρασης υψηλής ποιότητας μεταξύ όων των ευρωπαϊκώνγλωσσών.Στην περίπτωση των Εηνικών, αν και είναι σαφής η πρό-οδος του χώρου, δεν μπορούμε παρά να δηλώσουμε ρητά ότιείναι ποάαυτά που πρέπει να γίνουν ως προς την υποστή-ριξη της γλωσσικής τεχνολογίας. Η ερευνητική κοινότηταΓΤ στην Εάδα έχει υποστηριχθεί κατά το παρελθόν απόεθνικά και ευρωπαϊκά ερευνητικά προγράμματα, τα οποίαοδήγησαν στην παραγωγή πόρων μεγάης κλίμακας καισε τεχνολογίες αιχμής. Εντούτοις, το εύρος κάυψης τωνπόρων και το εύρος των εργαλείων εξακολουθούν να είναι

περιορισμένα συγκριτικά με την αλική γλώσσα και δενεπαρκούν ποσοτικά και ποιοτικά για την ανάπτυξη της τε-χνολογίας που απαιτείται για την υποστήριξη μιας πραγμα-τικά πολύγλωσσης κοινωνίας της γνώσης.

Δεν υπάρχει επίσης η δυνατότητα μεταφοράς ήδη ανεπτυγ-μένης και βελτιστοποιημένης τεχνολογίας από την αλικήγλώσσα στην εηνική. Τα συστήματα συντακτικής ανά-λυσης (επιφανειακής και βαθειάς συντακτικής ανάυσηςτης δομής της πρότασης) που βασίζονται στην αλικήγλώσσα συνήθως δεν αποδίδουν ικανοποιητικά στην εη-νική γλώσσα λόγω των ιδιαιτεροτήτων της.

Η Εάδα δεν είναι ακόμα σε θέση να ισχυριστεί ότι υπάρ-χει βιομηχανία γλωσσικής τεχνολογίας που να μετατρέπειτα ερευνητικά αποτελέσματα σε προϊόντα. Οι λίγες εται-ρίες που είναι ενεργές στο χώρο έχουν είτε σταματήσει είτεπεριορίσει σημαντικά τις προσπάθειές τους για ΓΤ, με απο-τέεσμα οι εξειδικευμένες μικρομεσαίες επιχειρήσεις πουασχολούνται πλέον με το χώρο της ΓΤ να μην είναι ακόμητόσο εύρωστες ώστε να απευθύνονται με μια βιώσιμη στρα-τηγική στην εγχώρια και διεθνή αγορά.

Τα ευρήματα που παρουσιάστηκαν υποδηλώνουν ότι ημόνη εναακτική είναι η ουσιαστική προσπάθεια για τηδημιουργία πόρων ΓΤ για τα Εηνικά και η χρήση τουςγια την προώθηση της έρευνας, της καινοτομίας και τηςανάπτυξης.Η ανάγκη μεγάων όγκων δεδομένων και η με-γάη πολυπλοκότητα των συστημάτων ΓΤ καθιστά ζωτι-κής σημασίας την ανάπτυξη μιας νέας υποδομής και μιαςνέας συνεκτικής οργάνωσης της έρευνας για την προώθησητης αντααγής και της συνεργασίας.

Παρατηρείται επίσης έειψη συνέχειας ως προς τη χρη-ματοδότηση της έρευνας και της ανάπτυξης. Συντονισμέναπρογράμματα μικρής διάρκειας εναάσσονται με περιό-δους σποραδικής ή μηδενικής χρηματοδότησης σε εθνικόεπίπεδο. Επιπλέον, διαπιστώνεται συνολική έειψη συ-ντονισμού με προγράμματα άων ευρωπαϊκών χωρών καιστο επίπεδο της Ευρωπαϊκής Επιτροπής.

Οδηγούμαστε επομένως στο συμπέρασμα ότι είναι επιτα-κτική ανάγκη να υπάρξει μια μεγάη και συντονισμένη

33

πρωτοβουλία που θα εστιάσει στην αντιμετώπιση των δια-φορετικών επιπέδων ετοιμότητας των ευρωπαϊκών γλωσ-σών συνολικά απέναντι στη γλωσσική τεχνολογία.Μακροπρόθεσμο στόχο τουΜΕΤΑ-ΝΕΤ αποτελεί η ανά-πτυξη γλωσσικής τεχνολογίας υψηλής ποιότητας για όεςτις γλώσσες, με στόχο την επίτευξη της πολιτικής και κοι-νωνικής ενοποίησης μέσω της πολιτισμικής ποικιλότητας.

Η τεχνολογία θα συνεισφέρει στην κατάργηση των υπαρ-χόντων συνόρων και θα δημιουργήσει συνδέσμους μεταξύτων γλωσσών της Ευρώπης. Για το λόγο αυτό χρειάζεταιόοι οι ενδιαφερόμενοι φορείς από την πολιτική, την έρευνα,τις επιχειρήσεις και την κοινωνία να ενώσουν τις προσπά-θειές τους για το μέον.

34

ριστη Καλή Μέτρια Αποσπασματική Μικρή/καθόουυποστήριξη υποστήριξη υποστήριξη υποστήριξη υποστήριξη

αλικά γαικάγερμανικάισπανικάιταλικάοανδικάπορτογαλικάτσεχικάφινλανδικά

βασκικάβουλγαρικάγαλικιανάδανικάεηνικάεσθονικάιρλανδικάκαταλανικάνορβηγικάουρικάπολωνικάσερβικάσλοβακικάσλοβενικάσουηδικά

ισλανδικάκροατικάλεττονικάλιθουανικάμαλτέζικαρουμανικά

9: Επεξεργασία φωνής: Επίπεδο υποστήριξης γλωσσικής τεχνολογίας για τις 30 ευρωπαϊκές γλώσσες


αλικά γαικάισπανικά

γερμανικάιταλικάκαταλανικάοανδικάουρικάπολωνικάρουμανικά

βασκικάβουλγαρικάγαλικιανάδανικάεηνικάεσθονικάιρλανδικάισλανδικάκροατικάλεττονικάλιθουανικάμαλτέζικανορβηγικάπορτογαλικάσερβικάσλοβακικάσλοβενικάσουηδικάτσεχικάφινλανδικά

10: Μηχανική Μετάφραση: Επίπεδο υποστήριξης γλωσσικής τεχνολογίας για τις 30 ευρωπαϊκές γλώσσες

35


αλικά γαικάγερμανικάιταλικάισπανικάοανδικά

βασκικάβουλγαρικάγαλικιανάδανικάεηνικάκαταλανικάνορβηγικάουρικάπολωνικάπορτογαλικάρουμανικάσλοβακικάσλοβενικάσουηδικάτσεχικάφινλανδικά

εσθονικάιρλανδικάισλανδικάκροατικάλεττονικάλιθουανικάμαλτέζικασερβικά

11: Ανάλυση κειμένου: Επίπεδο υποστήριξης γλωσσικής τεχνολογίας για τις 30 ευρωπαϊκές γλώσσες


αλικά γαικάγερμανικάιταλικάισπανικάοανδικάουρικάπολωνικάσουηδικάτσεχικά

βασκικάβουλγαρικάγαλικιανάδανικάεηνικάεσθονικάκαταλανικάκροατικάνορβηγικάπορτογαλικάρουμανικάσερβικάσλοβακικάσλοβενικάφινλανδικά

ιρλανδικάισλανδικάλεττονικάλιθουανικάμαλτέζικα

12: Πόροι προφορικού και γραπτού λόγου: Επίπεδο υποστήριξης γλωσσικής τεχνολογίας για τις 30 ευρωπαϊκέςγλώσσες

36

5

ΣΧΕΤΙΚΑ ΜΕ ΤΟ META-NET

Το META-NET είναι ένα Δίκτυο Αριστείας που χρημα-τοδοτείται από την Ευρωπαϊκή Επιτροπή. Το δίκτυο απαρ-τίζουν σήμερα 54 μέη από 33 ευρωπαϊκές χώρες [28]. ΤοMETA-NET προάγει την Σύμπραξη Τεχνολογίας για τηνΠολύγλωσση Ευρώπη (Multilingual EuropeTechnologyAlliance – META), μια συνεχώς διευρυνόμενη κοινότηταεπαελματιών και οργανισμών γλωσσικής τεχνολογίαςστην Ευρώπη. Το META-NET προάγει τα τεχνολογικάθεμέια για μια πραγματικά πολύγλωσση ευρωπαϊκή κοι-νωνία της πληροφορίας η οποία: καθιστά εφικτές την επι-κοινωνία και τη συνεργασία σε όες τις γλώσσες, παρέ-χει ισότιμη πρόσβαση στην πληροφορία και τη γνώση σεοποιαδήποτε γλώσσα, προσφέρει προηγμένη και προσιτήοικονομικά δικτυωμένη τεχνολογία πληροφορίας στους ευ-ρωπαίους πολίτες. Το δίκτυο υποστηρίζει το όραμα μιαςενωμένης Ευρώπης, ενός χώρου ενιαίας ψηφιακής αγοράςκαι πληροφορίας, ενισχύοντας και προάγοντας τις πολύ-γλωσσες τεχνολογίες για όες τις ευρωπαϊκές γλώσσες. Οιτεχνολογίες αυτές καθιστούν δυνατή την αυτόματη μετά-φραση, την παραγωγήπεριεχομένου, την επεξεργασία πλη-ροφορίας και τη διαχείριση γνώσης για μια μεγάη ποικι-λία εφαρμογών και θεματικών τομέων. Επίσης, επιτρέπουντην ανάπτυξη διαισθητικών γλωσσοκεντρικών διεπαφώνπου κυμαίνονται από οικιακές ηλεκτρονικές συσκευές, μη-χανήματα και οχήματα έως υπολογιστές και ρομπότ. ΤοMETA-NET ξεκίνησε την 1ηΦεβρουαρίου 2010 και έχειήδη πραγματοποιήσει ποές δραστηριότητες στους τρειςάξονες δράσης του.Το META-VISION καιεργεί μια δυναμική και μεισχυρή επιρροή κοινότητα φορέων, ενωμένη γύρω από ένακοινό όραμα και μια κοινή στρατηγική ατζέντα για τηνέρευνα. Ο κύριος στόχος αυτής της δραστηριότητας είναινα αναπτύξει μια συνεκτική κοινότητα ΓΤ στην Ευρώπη

φέρνοντας σε επαφή εκπροσώπους από ποές και διαφορε-τικές ομάδες ενδιαφερόμενων φορέων. Η παρούσα ΛευκήΒίβος συντάχθηκε μαζί με αντίστοιχες αναφορές για ά-λες 29 ευρωπαϊκές γλώσσες. Το κοινό όραμα προέκυψε απότρεις θεματικές ομάδες εργασίας. Ακολούθως, συστάθηκετο META Technology Council, προκειμένου να συζητή-σει και να προετοιμάσει τη στρατηγική ατζέντα για τηνέρευνα, βασισμένο στο κοινό όραμα και σε στενή διάδρασημε ολόκληρη την κοινότητα της Γωσσικής Τεχνολογίας.Το META-SHARE δημιουργεί μια ανοιχτή, κατανεμη-μένη υποδομή για την αντααγή και την κοινή χρήσηπόρων. Το δίκτυο των αποθετηρίων θα περιέχει γλωσσικάδεδομένα, εργαλεία και διαδικτυακές υπηρεσίες τεκμηριω-μένα με υψηλής ποιότητας μεταδεδομένα και οργανωμένασε τυποποιημένες κατηγορίες. Οι πόροι θα είναι εύκολαπροσβάσιμοι και η αναζήτηση θα γίνεται με ενιαίο τρόπο.Οι διαθέσιμοι πόροι περιλαμβάνουν ελεύθερο, ανοιχτούκώδικα υλικό αά και περιορισμένο, εμπορικά διαθέσιμουλικό έναντι αμοιβής.Το META-RESEARCH δημιουργεί συνδέσμους με συ-ναφείς τεχνολογικούς τομείς. Η δραστηριότητα επιδιώκεινα διευκολύνει τις εξελίξεις σε άους τομείς και να κεφα-λαιοποιήσει την καινοτόμο έρευνα που μπορεί να ωφελήσειτη γλωσσική τεχνολογία. Συγκεκριμένα, στοχεύει στη διε-ξαγωγή πρωτοποριακής έρευνας στη μηχανική μετάφραση,εστιάζοντας στη συγκέντρωση δεδομένων, στην προετοι-μασία συνόων δεδομένων και στην οργάνωση γλωσσικώνπόρων για την αξιολόγηση συστημάτων και τεχνολογιών,στην κατασκευή ευρετηρίων εργαλείων και μεθόδων καιστη διοργάνωση ειδικών συνεδρίων και επιμορφωτικών εκ-δηλώσεων για τα μέη της κοινότητας.

[email protected] – http://www.meta-net.eu

37

English

38

1

EXECUTIVE SUMMARY

During the last 60 years, Europe has become a distinctpolitical and economic structure. Culturally and lin-guistically it is rich and diverse. However, from Por-tuguese to Polish and Italian to Icelandic, everyday com-munication between Europe’s citizens, within businessand among politicians is inevitably confrontedwith lan-guage barriers. e EU’s institutions spend about a bil-lion euros a year onmaintaining their policy ofmultilin-gualism, i. e., translating texts and interpreting spokencommunication. Does this have to be such a burden?Language technology and linguistic research canmake asignificant contribution to removing the linguistic bor-ders. Combined with intelligent devices and applica-tions, language technology will help Europeans talk anddo business together even if they do not speak a com-mon language.

Language technology builds bridges.

Language barriers can bring business to a halt, especiallyfor SMEs who do not have the financial means to re-verse the situation. e only (unthinkable) alternativeto this kind of a multilingual Europe would be to allowa single language to take a dominant position, to replaceall other languages. Yet without technological support,mastering the 23 official languages of the member statesof the European Union and some 60 other Europeanlanguages is an insurmountable obstacle for Europe’s cit-izens, economy, political debate, and scientific progress.e solution is to build key enabling technologies: lan-guage technologies will offer European stakeholders

tremendous advantages, not only within the commonEuropean market, but also in trade relations with non-European countries, especially emerging economies.Language technology solutions will eventually serve asa unique bridge between Europe’s languages. An inde-spensable prerequisite for their development is first tocarry out a systematic analysis of the linguistic particu-larities of all European languages, and the current stateof language technology support for them.

e automated translation and speech processing toolscurrently available on the market fall short of the en-visaged goals. e dominant actors in the field are pri-marily privately-owned for-profit enterprises based inNorthern America. As early as the late 1970s, the EUrealised the profound relevance of language technologyas a driver of European unity, and began funding itsfirst research projects, such as EUROTRA. At the sametime, national projects were set up that generated valu-able results, but never led to a concerted European ef-fort. In contrast to these highly selective funding efforts,othermultilingual societies such as India (22official lan-guages) and South Africa (11 official languages) haveset up long-term national programmes for language re-search and technology development.

e predominant actors in LT today rely on imprecisestatistical approaches that do not make use of deeperlinguistic methods and knowledge. For example, sen-tences are oen automatically translated by comparingeach new sentence against thousands of sentences pre-viously translated by humans. e quality of the out-put largely depends on the size and quality of the avail-able data. While the automatic translation of simple

39

sentences in languages with sufficient amounts of avail-able textual data can achieve useful results, shallow sta-tistical methods are doomed to fail in the case of lan-guages with a much smaller body of sample data or inthe case of sentenceswith complex, non-repetitive struc-tures. Analysing the deeper structural properties of lan-guages is the only way forward if we want to build ap-plications that perform well across the entire range ofEuropean languages.

Language technology as a key for the future.

e European Union is thus funding projects such asEuroMatrix and EuroMatrix+ (since 2006) and iTrans-late4 (since 2010), which carry out basic and appliedresearch, and generate resources for establishing highquality language technology solutions for all Europeanlanguages. European research in the area of languagetechnology has already achieved a number of successes.For example, the translation services of the EuropeanUnion nowuse theMoses open-sourcemachine transla-tion soware,whichhas beenmainly developed inEuro-pean research projects. Rather than building on the out-comes of these research projects, Europe has tended topursue isolated research activities with a less pervasiveimpact on the market. e economic value of even theearliest efforts can be seen in the number of spin-offs.A company such as Trados, which was founded back in1984, was sold to the UK-based SDL in 2005.

Language Technology helps unify Europe.

Drawingon the insights gained so far, today’s hybrid lan-guage technology mixing deep processing with statisti-cal methods should be able to bridge the gap betweenall European languages and beyond. But as this seriesof white papers shows, there is a dramatic difference be-tween Europe’s member states in terms of both the ma-turity of the research and in the state of readiness withrespect to language solutions. Although the field of lan-guage technology has witnessed much progress the pastyears in Greece, further research and de-velopment isneeded before truly effective language technology solu-tions are ready for everyday use.

META-NET’s vision is high-quality language technol-ogy for all languages that supports political and eco-nomic unity through cultural diversity.is technologywill help tear down existing barriers and build bridgesbetween Europe’s languages.is requires all stakehold-ers – in politics, research, business, and society – tounitetheir efforts for the future.

is white paper series complements the other strate-gic actions taken by META-NET. Up-to-date infor-mation such as the current version of the META-NET vision paper [2] or the Strategic Research Agenda(SRA) can be found on the META-NET web site:http://www.meta-net.eu.

40

2

LANGUAGES AT RISK: A CHALLENGE FORLANGUAGE TECHNOLOGY

We are witnesses to a digital revolution that is dramati-cally impacting communication and society. Recent de-velopments in information and communication tech-nology are sometimes compared to Gutenberg’s inven-tion of the printing press. What can this analogy tell usabout the future of the European information societyand our languages in particular?

The digital revolution is comparable toGutenberg’s invention of the printing press.

Aer Gutenberg’s invention, real breakthroughs incommunication were accomplished by efforts such asLuther’s translation of the Bible into vernacular lan-guage. In subsequent centuries, cultural techniques havebeen developed to better handle language processingand knowledge exchange:

‚ the orthographic and grammatical standardisationof major languages enabled the rapid disseminationof new scientific and intellectual ideas;

‚ the development of official languages made it possi-ble for citizens to communicate within certain (of-ten political) boundaries;

‚ the teaching and translation of languages enabled ex-changes across languages;

‚ the creationof editorial andbibliographic guidelinesassured the quality of printed material;

‚ the creation of different media like newspapers, ra-dio, television, books, andother formats satisfieddif-ferent communication needs.

In the past twenty years, information technology hashelped to automate and facilitate many processes:

‚ desktop publishing soware has replaced typewrit-ing and typesetting;

‚ Microso PowerPoint has replaced overhead projec-tor transparencies;

‚ e-mail allows documents to be sent and receivedmore quickly than using a fax machine;

‚ Skype offers cheap Internet phone calls and hostsvirtual meetings;

‚ audio and video encoding formatsmake it easy to ex-change multimedia content;

‚ Web search engines provide keyword-based access;

‚ online services like Google Translate produce quick,approximate translations;

‚ social media platforms such as Facebook, Twitterand Google+ facilitate communication, collabora-tion, and information sharing.

Although these tools and applications are helpful, theyare not yet capable of supporting a fully-sustainable,multilingual European society in which informationand goods can flow freely.

41

2.1 LANGUAGE BORDERSHOLD BACK THE EUROPEANINFORMATION SOCIETYWe cannot predict exactly what the future informationsociety will look like. However, there is a strong like-lihood that the revolution in communication technol-ogy is bringing together people who speak different lan-guages in new ways. is is putting pressure both on in-dividuals to learnnew languages and especially ondevel-opers to create new technology applications to ensuremutual understanding and access to shareable knowl-edge. In the global economic and information space,there is increasing interaction between different lan-guages, speakers and content thanks to new types ofme-dia. e current popularity of social media (Wikipedia,Facebook, Twitter, YouTube, and, recently, Google+) isonly the tip of the iceberg.

The global economy and informationspace confronts us with different languages,

speakers and content.

Today, we can transmit gigabytes of text around theworld in a few seconds before we recognise that it is ina language that we do not understand. According to areport from the European Commission, 57% of Inter-net users in Europe purchase goods and services in non-native languages; English is the most common foreignlanguage followedbyFrench,GermanandSpanish. 55%of users read content in a foreign language while 35%use another language to write e-mails or post commentson the Web [3]. A few years ago, English might havebeen the lingua franca of the Web – the vast majorityof content on the Web was in English – but the situa-tion has now drastically changed. e amount of onlinecontent in other European (as well as Asian and MiddleEastern) languages has exploded.

Surprisingly, this ubiquitous digital linguistic dividehas not gained much public attention. Yet, it raises avery pressing question: Which European languages willthrive in the networked information and knowledge so-ciety, and which are doomed to disappear?

2.2 OUR LANGUAGES AT RISKWhile the printing press helped step up the exchangeof information in Europe, it also led to the extinctionof many languages. Regional and minority languageswere rarely printed and languages such as Cornish andDalmatian were limited to oral forms of transmission,which in turn restricted their scope of use. Will the In-ternet have the same impact on our modern languages?

The variety of languages in Europe is one of itsrichest and most important cultural assets.

Europe’s approx. 80 languages are one of our richest andmost important cultural assets, and a vital part of thisunique social model [4]. While languages such as En-glish and Spanish are likely to survive in the emergingdigital marketplace, many languages could become ir-relevant in a networked society. is would weaken Eu-rope’s global standing, and run counter to the goal ofensuring equal participation for every citizen regardlessof language. According to a UNESCO report on mul-tilingualism, languages are an essential medium for theenjoyment of fundamental rights, such as political ex-pression, education and participation in society [5].

2.3 LANGUAGE TECHNOLOGYIS A KEY ENABLINGTECHNOLOGYIn the past, investments in language preservation fo-cussed primarily on language education and transla-

42

tion. According to one estimate, the European marketfor translation, interpretation, soware localisation andwebsite globalisation was €8.4 billion in 2008 and isexpected to grow by 10% per annum [6]. Yet this fig-ure covers just a small proportion of current and futureneeds in communicating between languages. e mostcompelling solution for ensuring the breadth and depthof language usage in Europe tomorrow is to use appro-priate technology, just as we use technology to solve ourtransport and energy needs among others.Language technology targeting all forms of written textand spoken discourse can help people to collaborate,conduct business, share knowledge and participate insocial and political debate regardless of language barri-ers and computer skills. It oen operates invisibly insidecomplex soware systems to help us already today to:

‚ find information with a search engine;

‚ check spelling and grammar in a word processor;

‚ view product recommendations in an online shop;

‚ follow the spoken directions of a navigation system;

‚ translate Web pages via an online service.

Language technology consists of a number of core ap-plications that enable processes within a larger applica-tion framework. e purpose of the META-NET lan-guage white papers is to focus on how ready these coreenabling technologies are for each European language.

Europe needs robust and affordable languagetechnology for all European languages.

Tomaintain our position in the frontline of global inno-vation, Europe will need language technology, tailoredto all European languages, that is robust and affordableand can be tightly integrated within key soware envi-ronments.Without language technology, wewill not beable to achieve a really effective interactive, multimediaand multilingual user experience in the near future.

2.4 OPPORTUNITIES FORLANGUAGE TECHNOLOGYIn the world of print, the technology breakthrough wasthe rapid duplication of an image of a text using a suit-ably powered printing press. Human beings had to dothe hard work of looking up, assessing, translating, andsummarising knowledge. We had to wait until Edisonto record spoken language – and again his technologysimply made analogue copies.

Language technology can now simplify and automatethe processes of translation, content production, andknowledge management for all European languages. Itcan also empower intuitive speech-based interfaces forhousehold electronics, machinery, vehicles, computersand robots. Real-world commercial and industrial ap-plications are still in the early stages of development,yet R&D achievements are creating a genuine windowof opportunity. For example, machine translation is al-ready reasonably accurate in specific domains, and ex-perimental applications provide multilingual informa-tion and knowledge management, as well as contentproduction, in many European languages.

As with most technologies, the first language applica-tions such as voice-based user interfaces and dialoguesystems were developed for specialised domains, andoen exhibit limited performance. However, there arehuge market opportunities in the education and enter-tainment industries for integrating language technolo-gies into games, edutainment packages, libraries, simula-tion environments and training programmes.Mobile in-formation services, computer-assisted language learningsoware, eLearning environments, self-assessment toolsand plagiarism detection soware are just some of theapplication areas inwhich language technology can playan important role. e popularity of social media ap-plications like Twitter and Facebook suggest a need forsophisticated language technologies that can monitorposts, summarise discussions, suggest opinion trends,

43

detect emotional responses, identify copyright infringe-ments or track misuse.

Language technology helps overcomethe “disability” of linguistic diversity.

Language technology represents a tremendous opportu-nity for the European Union. It can help to address thecomplex issue of multilingualism in Europe – the factthat different languages coexist naturally in Europeanbusinesses, organisations and schools.However, citizensneed to communicate across the language borders of theEuropean Common Market, and language technologycan help overcome this final barrier, while supportingthe free and open use of individual languages. Lookingeven further ahead, innovative European multilinguallanguage technology will provide a benchmark for ourglobal partners when they begin to support their ownmultilingual communities. Language technology can beseen as a form of “assistive” technology that helps over-come the “disability” of linguistic diversity and makeslanguage communitiesmore accessible to each other. Fi-nally, one active field of research is the use of languagetechnology for rescue operations in disaster areas, whereperformance can be amatter of life and death: Future in-telligent robots with cross-lingual language capabilitieshave the potential to save lives.

2.5 CHALLENGES FACINGLANGUAGE TECHNOLOGYAlthough language technology has made considerableprogress in the last few years, the current pace of tech-nological progress and product innovation is too slow.Widely-used technologies such as the spelling and gram-mar correctors in word processors are typically mono-lingual, and are only available for a handful of languages.Online machine translation services, although useful

for quickly generating a reasonable approximation of adocument’s contents, are fraught with difficulties whenhighly accurate and complete translations are required.Due to the complexity of human language, modellingour tongues in soware and testing them in the realworld is a long, costly business that requires sustainedfunding commitments. Europe must therefore main-tain its pioneering role in facing the technological chal-lenges of a multiple-language community by inventingnewmethods to accelerate development right across themap. ese could include both computational advancesand techniques such as crowdsourcing.

Technological progress needs to be accelerated.

2.6 LANGUAGE ACQUISITIONIN HUMANS AND MACHINESTo illustrate how computers handle language andwhy itis difficult to program them toprocess different tongues,let’s look briefly at the way humans acquire first and sec-ond languages, and then see how language technologysystems work.Humans acquire language skills in two different ways.Babies acquire a language by listening to the real inter-actions between their parents, siblings and other familymembers. From the age of about two, children producetheir first words and short phrases. is is only possi-ble because humans have a genetic disposition to imitateand then rationalise what they hear.Learning a second language at an older age requiresmore cognitive effort, largely because the child is not im-mersed in a language community of native speakers. Atschool, foreign languages are usually acquired by learn-ing grammatical structure, vocabulary and spelling usingdrills that describe linguistic knowledge in terms of ab-stract rules, tables and examples.

44

Humans acquire language skills in twodifferent ways: learning from examples and

learning the underlying language rules.

Moving now to language technology, the two maintypes of systems acquire language capabilities in a sim-ilar manner. Statistical (or data-driven) approaches ob-tain linguistic knowledge from vast collections of con-crete example texts. While it is sufficient to use text in asingle language for training, e. g., a spell checker, paral-lel texts in two (or more) languages have to be availablefor training a machine translation system. e machinelearning algorithm then learns patterns of how words,short phrases and complete sentences are translated.is statistical approach usually requiresmillions of sen-tences to boost performance quality. is is one rea-son why search engine providers are eager to collect asmuchwrittenmaterial as possible. Spelling correction inword processors, and services such asGoogle Search andGoogle Translate, all rely on statistical approaches. egreat advantage of statistics is that the machine learnsquickly in a continuous series of training cycles, eventhough quality can vary randomly.e second approach to language technology, and tomachine translation in particular, is to build rule-basedsystems. Experts in the fields of linguistics, computa-tional linguistics and computer science first have to en-code grammatical analyses (translation rules) and com-

pile vocabulary lists (lexicons). is is very time con-suming and labour intensive. Some of the leading rule-basedmachine translation systems have been under con-stant development for more than 20 years.e great ad-vantage of rule-based systems is that the experts havemore detailed control over the language processing.ismakes it possible to systematically correct mistakes inthe soware and give detailed feedback to the user, es-pecially when rule-based systems are used for languagelearning. However, due to the high cost of this work,rule-based language technology has so far only been de-veloped for a few major languages.

As the strengths and weaknesses of statistical and rule-based systems tend to be complementary, current re-search focusses on hybrid approaches that combine thetwo methodologies. However, these approaches have sofar been less successful in industrial applications than inthe research lab.

As we have seen in this chapter, many applicationswidely used in today’s information society rely heavilyon language technology, particularly in Europe’s eco-nomic and information space. Although this technol-ogy hasmade considerable progress in the last few years,there is still huge potential to improve the quality of lan-guage technology systems. In the next section, we de-scribe the role of Greek in European information soci-ety and assess the current state of language technologyfor the Greek language.

45

3

THE GREEK LANGUAGE IN THEEUROPEAN INFORMATION SOCIETY

3.1 GENERAL FACTSGreek is the official language of Greece and one ofthe two official languages of Cyprus and since 1981one of the official languages of the European Union.It is spoken as a mother tongue by approximately 95%of the 11.5 million inhabitants of Greece and by ap-proximately 500,000 Greek Cypriots [7]. It is also used(at varying levels of competence) by a total of approx-imately 5 million people of Greek origin, membersof Greek communities (the Diaspora) worldwide [8],mainly in the USA, Australia (Melbourne has beennamed “the third largest Greek city in the world”),Canada, Europe (UK andGermanymainly), the formerSoviet Union countries, Turkey, and Egypt.

Greek is an Indo-European language, the only survivingmember of the Hellenic branch of the Indo-Europeanlanguage family [9]. Unlike Latin, which gave rise toseveral daughter languages, the only descendant of An-cient Greek is Modern Greek. It has the longest docu-mented history of any Indo-European language, span-ning 34 centuries of written records.

Aer the Classical Antiquity, from the 4th centuryB. C. onwards, the various dialects were subject to level-ing, leading to the formation of an interdialectal Koiné(common language), which was largely based on theAthenian dialect infused with elements from other di-alects. is common language was spoken, as a na-tive or as a second language, in a geographical settingwith varied extension around the Mediterranean Sea.

e basic Greek-speaking territory, at the south of theBalkan Peninsula, extending west to Southern Italy andSicily and east to AsiaMinor, at times grew significantly(Egypt, Near East, Anatolia etc.) and came into contactwith many cultures and languages. Extensive simplifi-cation of the language in what concerned morphology,syntax and vocabulary took place, and Greek became awidely spoken lingua franca. During Byzantium (aer610 A. C.) it became the official language of the Byzan-tine Empire.Almost all Modern Greek varieties are descended fromthe Koiné [10]. Aer World War II, the various Greekdialects gradually decline and some (e. g., the Cappado-cian dialect, the Tsakonia dialect or Grico – the Greekdialect spoken in a handful of villages in southern Italy,area also known as Magna Grecia) are considered prac-tically extinct. e currently existing dialects are con-sidered as elements of cultural identity being used ex-clusively among members of the specific communities;the modern way of living, urbanism, the use of the stan-dard variety in education and mass media has led to theprevalence of standard Modern Greek over the variousdialects. Such dialects of Greek are the Pontic dialect,Cypriot Greek and the Cretan dialect.

3.2 THE GREEK ALPHABETe Greek writing system has been the Greek alphabetfor the majority of its history; other systems were previ-ously used [11]. e Greek alphabet was created based

46

on the Phoenician alphabet (according to Herodotus),i. e., the Semitic alphabet, which used symbols to rep-resent consonants only. e Greek alphabet introduced– or, rather, reused existing symbols that did not cor-respond to Greek phonemes for the representation ofvowels.is alphabet has been used since approximatelythe 10th century B. C. [12], and was the basis of theLatin, Cyrillic, Coptic, andmany other writing systems.In classical Greek only upper-case letters existed. Dur-ing the Hellenistic period, diacritics and accent markswere introduced in order to reveal howparticular vowelswere pronounced, given that the prosody had changed.ese diacritics were established in the graphemic sys-temofGreek [13].e lower-caseGreek letterswere de-veloped much later by medieval scribes.e Modern Greek alphabet consists of 24 letters. ewriting reform of 1982 eliminated the diacritics. Sincethen, the official orthography of Modern Greek is thesimplified monotonic (single stress) system, which em-ploys only the stress mark and the diaeresis. e tradi-tional system, called the polytonic (multiple stress) sys-tem, is still used internationally for the writing of An-cient Greek.Historically, the usage of the Latin alphabet for the rep-resentation of the Greek language has been attested,e. g., in territories that were under Venetian rule or byGreek Catholics. Recently the use of the Latin alpha-bet for writing Greek is a tendency observed mainlyin emails and texting with mobile phones; this script iscalled “Greeklish”.

The diglossia issue.

Greece became an independent country in 1830 (muchsmaller than now).e core of the newly founded coun-try was Athens and the Peloponnese; as a consequence,the dialects spoken in these regionswere the basis for theformation of the standard varietyGreek language.How-

ever, the evolution of the language was not without im-pediments: extensive language planning took place, in-fluenced by the Enlightenment ideal for a national lan-guage.According toDendrinos [14], “the traditionalistsargued for the resurrection of the classical Greek, un-contaminated by ‘impure’ admixtures with which it hadbeen ‘polluted’ during its contacts”. e opposite sideadvocated the usage of the language actually spoken bythe people, while a third option supported a mixture ofthe two, namely the use of the current language, ‘puri-fied’ through its infusion with classical Greek morphol-ogy, syntax and vocabulary. e third option, whichbore also the symbolic charge of continuation of An-cientGreek, prevailed, leading to a longperiodof diglos-sia.

Diglossia, i. e., the simultaneous existence of a vernac-ular and a high variety, was prominent from the birthof the new country until practically the end of the 20thcentury. e high variety, Kathareousa (from katharo,meaning “clean”), an imitation of classical Greek wasused in all areas of public life (politics, administration,education, science) while the low variety, Dimotiki, wasused in everyday informal communication, literature(although not by all authors) and primary education.

e diglossia problem ended officially in 1976,when Dimotiki was declared the official language ofGreece. Currently, the distance between Dimotiki andKatharevousa is getting narrower, as the StandardGreeklanguage which is in use for all official and non-officialpurposes combines aspects of both.

3.3 PARTICULARITIES OF THEGREEK LANGUAGEGreek is a heavily inflectional language, with four casesfor the nominal system, three genders and two numbers[15]. Greek shows an extensive set of derivational af-fixes, whereas the system of compounding is relatively

47

limited but productive. In the evolution of the lan-guage through the ages, the morphological categorieshave been relatively stable.emajor change in nominalmorphologywas the loss of the dative case (its functionsbeing largely taken over by the genitive or by preposi-tional phrases); in the verb, the major change was theloss of the infinitive, with a concomitant rise in new pe-riphrastic forms.

Certain linguistic characteristics of Greek arechallenges for computational processing.

e rich inflectional system poses specific difficulties toLT systems: lemmatisation, for example, faces the no-torious problem of recognition of certain inflectionaltypes that can belong to a verb or to its deverbal noun.Such a case of homography, for instance, is the wordδιαβάσεις, which can be:

‚ 2nd person singular perfective aspect of the verbδιαβάζω (read), or

‚ plural nominative or accusative case of the nounδιάβαση (crossing).

In case such as these, processing of the context gives thesolution.As regards syntax, the use of the surviving cases islargely intact (nominative for subjects and predicates,accusative for objects of most verbs and many prepo-sitions, genitive for possessors), articles precede nouns,adpositions are largely prepositional. e loss of the da-tive led to a rise of prepositional indirect objects (andthe use of the genitive to directly mark these as well).Greek presents a free word order, the neutral word or-der being Verb-Subject-Object or Subject-Verb-Object.is allows the speakers to form utterances in a widevariety of ways, and to put the focus on different partsof the sentence; at the same time, these variations pose

great challenges for computational processing of naturallanguage. Consider, e. g., the English sentence

e woman gave the man an apple.

In English, there are two more ways to express the sameidea, namely:

‚ e woman gave an apple to the man.

‚ An apple was given to the man by the woman.

In Greek, this sentence could be structured as follows:

‚ Η γυναίκα έδωσε στον άντρα ένα μήο.

‚ Η γυναίκα έδωσε ένα μήο στον άντρα.

‚ δωσε ένα μήο η γυναίκα στον άντρα.

‚ δωσε η γυναίκα ένα μήο στον άντρα.

‚ δωσε στον άντρα η γυναίκα ένα μήο.

‚ Στον άντρα έδωσε η γυναίκα ένα μήο.

‚ Στον άντρα έδωσε ένα μήο η γυναίκα.

‚ να μήο δόθηκε από τη γυναίκα στον άντρα.

‚ να μήο δόθηκε στον άντρα από τη γυναίκα.

‚ Δόθηκε ένα μήο από τη γυναίκα στον άντρα.

‚ Δόθηκε από τη γυναίκα στον άντρα ένα μήο.

‚ Δόθηκε στον άντρα ένα μήο από τη γυναίκα.

e rich case systemmakes free word order possible andoffers crucial information to syntactic analysis: nomina-tive case is used only for subjects, and accusative for ob-jects of most verbs and of many prepositions, genitivefor possessives and for objects of some verbs and prepo-sitions. Consequently, recognition of syntactic roles ismore straightforward than in languages with no cases;additionally, there is no need for strict places in the sen-tence for the various syntactic roles.Greek is a pro-drop language: personal pronouns maybe omitted when they are morphologically or pragmat-ically inferable. Morphological inference is aided by thefact that verbs include a personmorphemewhich agrees

48

with the pronoun in person and number. Most com-monly, 1st and 2nd person singular personal pronouns(I, you) are omitted; their inclusion is interpreted as em-phasis. us, the English sentence

I am leaving.

can be rendered in Greek as

‚ Φεύγω. (neutral utterance) or

‚ Εγώ φεύγω. (emphasis on ‘I’ – e. g., ‘I, for one, amleaving’)

Two significant features of the Greek vocabulary are ex-tension and word length. One reason for the size of thevocabulary is the great number of synonyms observed.e abundance of synonyms is due to their origin formthe various dialects as well as from Katharevousa (thehigh variety). As all languages, the vocabulary also in-cludes words borrowed from other languages. As a re-sult, for the same concept, it is possible to find 3 or 4words, each one originating from a different language.

Greek is extremely productive when itcomes to derivational morphology.

Another reason for the extensive vocabulary is the pro-ductivity of the derivational morphological system: theproductive chain verb > deverbal noun > denominal ad-jective > adverb is very common. Additionally, Greekis characterised by a very productive mechanism fordiminutives and augmentatives for nouns and adjec-tives.As regards word length, Greek has very few one-syllablewords. Two- or three-syllable words are the majority,but multi-syllable words are not rare at all (even eightor nine-syllable words).During older periods, loan words into Greek acquiredGreek inflections, getting thus adjusted to and assimi-lated in the morphological system. Modern loan words

(imported during the last decades), especially from En-glish and French, are typically not inflected; absence ofinflectionalmorphemes results in difficulty in gender as-signment,which is an indispensable feature of nominals.Factors that influence gender assignment are the origi-nal gender (if present), analogical formation (in analogyto existing Greek words) and similarity (words endingin a morpheme typical for a gender will be assigned thisspecific gender).Modern Greek vocabulary mainly comes from ancientGreek, either as whole words (although some havechanged morphologically or semantically) or as stemsthat produced new words.

3.4 RECENT DEVELOPMENTSFrom the 1950s on, American movies began to domi-nate the Greek market; the domination was even moreevident in the 1970s, when television series were intro-duced to every household. Foreign films and series arenot dubbed in Greece; instead, subtitles are used (incontrast to many other countries such as France andGermany). e strong presence of the American wayof life in the media influenced the Greek culture andlanguage. Due to the continuing triumph of Englishand American music since the 1960s, Greeks have beenexposed to a lot of English during their adolescencefor generations. English soon acquired the status of a‘cool/hip’ language, which it has kept up to the presentday.is continuing status is reflected by the sheer numberof present-day loan words from English (so-called an-glicisms). In most cases these words fill some gap in thevocabulary, e. g., by naming a new concept or referentfor which a Greek name does not exist.However, in some areas, anglicisms have started to re-place existing Greek vocabulary. One example is the useof English titles in job advertisements, in particular forexecutive positions, e. g., ‘Human Resources Manager’

49

instead of Υπεύθυνος Προσωπικού; furthermore, Englishshop names, product brands etc. are considered more‘catchy’ than Greek ones. A strong tendency to overuseanglicisms can also be detected in product advertise-ments. is tendency, however, ‘cool’ as it might be,runs the risk of excluding large parts of the populationfrom taking part in information society, namely thosewho are not familiar with English.

3.5 LANGUAGE POLICY INGREECEGreece has gone through a variation of policy mixturesduring the 20th century trying to overcome the lan-guage problem that dominated the Language Program-ming efforts of the expanding Greek State.

e Diglossia issue (referred to above) was resolved bylegislation in 1976, but the procedure that led to thisdecision was not based on the work of a certain author-ity or otherwise constituted body, but on the commonfeeling of language scientists and the public. e Lan-guage Reform was contained in a single legislation andhas been accepted and followed since with no changes.No official authority has been set up either to enforcethe reform or to examine future needs for changes.

e Academy of Athens, an institution comprising ofthe leading academics, thinkers and influencers from allfields of arts, science, politics and society has sporadi-cally tried to articulate both criticism and proposals tohelp maintain a “language culture” and “language qual-ity” forModernGreek, but this has not been turned intoa formal or standing effort.

e only publicly funded non-university institutionthat has been set up to conduct research and support thedocumentation and teaching of Modern Greek is theCentre for the Greek Language which is not involvedin any kind of language planning; its mission is the sup-port and promotion of Modern Greek language and lit-

erature through research, the development of teachingmaterial, the support of teachers of Greek in the coun-try and abroad, and the organisation of the only officialexaminations for attainment in Modern Greek.

ere are literally hundreds of publications every year,mainly in newspapers and recently on theWeb, that rou-tinely focus on the threats thatModernGreek faces in itsstruggle for survival. People from all walks of life feel theneed to complain about how foreign vocabulary and ex-pression patterns havemade young people speak a lowerquality version of Greek. Although the young genera-tion language poverty argument is common in manylanguages and societies, it appears very strong inGreece.Many people are alsoworried that the “Greeklish”modeof writing Greek (writing Greek using Latin phoneti-cally or visually equivalent letters) will somehow affectthe quality of spoken and written Greek and eliminatethe use of the distinctiveGreek alphabet. Unfortunatelythere have been no large scale studies that can offer anyinsights on whether any real dangers exist.

If we move away from official (scientific or other) lan-guage planning/support/promotion efforts and insti-tutions, we can find a great number of associations,editions and online spaces (sites, blogs, e-zines etc)that include the promotion/support/defence of Mod-ern Greek in their aims.

Language Technology has been early enough seen asa crucial factor in achieving equal status for ModernGreek amongmorewidely spoken and taught languages.is realisation has led to the creation of a specialisedresearch Institute (Institute for Language and SpeechProcessing – ILSP) and the development of three ma-jorNational Funding Programmes focusing on languageand knowledge technologies. ese programmes haveled to the development of a cohort of tools and re-sources that are now being used to support the usage ofModernGreek on Information Systems and to facilitatelanguage-enhanced Greek content processing.

50

3.6 LANGUAGE IN EDUCATIONResults of the Programme for International StudentAssessment (PISA) test studies (2009) [16] show thatGreek students perform poorly in all three major re-porting areas, including that of text comprehension. Al-though these results show that therehas been a slight im-provement fromprevious studies,Greece is in the lowestrank of the countries reported by PISA.

ere has been little effort to analyse these results andconnect them with language education in Greece. Lan-guage lessons (of Ancient and Modern Greek) have al-ways been quantitatively favoured in the Greek educa-tional system.ere have beenmany discussions on hownative language skills may be improved through educa-tion and there has been a 2010 plan by the Greek Gov-ernment (in the framework of the New School initia-tive) to increase Modern Greek teaching hours duringprimary education and cut down hours dedicated onlearning Ancient Greek.

During the last decade an extensive programme forbringing Modern Greek language learning closer to mi-norities (Pomak, Roma, Muslim) and immigrants hasbeen deployed and produced high quality material andmethodologies.ese are expected to promote equal ac-cess toGreek language content for all citizens and immi-grants. Lots of private and community initiatives havealso emerged during the last years to fill gaps in Mod-ern Greek teaching for immigrants that are for variousreasons excluded by the formal education system.

A special issue that affects Modern Greek more thanalmost any other European language is how its learn-ing/teaching is organised among Greeks of the Dias-pora. Since people of Greek origin that live outsideGreece now count almost to 5 million (numbers are ap-proximate since no official Diaspora “census” has everbeen carried out), the problem of teaching them aspectsof Modern Greek or providing them with full Mod-ern Greek language education has always been hot. e

Greek state has establishedGreek schools inmany coun-tries all over the world and has signed agreements witheven more to allow Modern Greek to be offered as anoptional subject in school curricula over several educa-tional levels. is effort has arguably not achieved itsaim to allow more second and third generation Greeksof theDiaspora to stay or come again in touchwith theirancestral language. A recent law, plans to reform Greeklanguage teaching and education abroad. e main fo-cus of this law takes into consideration the specific na-tional and local features of the Diaspora communitiesand aims to help them develop customised learning en-vironments and structures.Language technologies andTechnology Enhanced Lan-guage Learning (TELL) have been proclaimed by theGreek government as of the greatest importance toachieve the New School and the Diaspora EducationReform targets.eGreek language has become a central part of the im-migration policy in Greek: the law which regulates res-idence and working rights of migrants, places particularemphasis on learningGreek through integration classes.ese classes include language teaching, introduction toGreek history and culture. Knowledge of the language iscertifiedwith examinationswhich lead to theCertificateof Greek language. e Certificate entails longer resi-dence permits and quicker integration in the host coun-try.

3.7 INTERNATIONAL ASPECTSIt is certainly not possible to provide a brief overview ofthe importance of the Greek language tomodern (west-ern) civilisation. Science, philosophy, literature, practi-cally every major aspect of human activity is influencedby the way it has been linguistically described and devel-oped in Greek.But this is mainly an “achievement” of Ancient Greek.How has Modern Greek placed itself in the modern

51

era? Modern Greek has played a significant role in theBalkan and Black Sea areas, being a major commercialand education language during at least the 17th-19thcenturies. During the 20th century, the acute Diglos-sia issue, in combination with political, economical andsocial issues, has hindered the diffusion of ModernGreek and its importance in South-Eastern Europe andEastMediterranean declined.Despite this fact,ModernGreek saw two of its 20th century poets receiving theNobel Prize for Literature and a great number of trans-lations of Greek writers’ works.Aer the opening of the Eastern European countriestowards the West, Modern Greek again gains impor-tance, mainly in the Balkan countries, where Greek in-vestments play a significant financial role with the pres-ence of increasinglymanyGreekfirms and tourismflowsfrom these countries getting larger every year.Modern Greek studies internationally seem to declinegradually in the last years. Many of the approximately185ModernGreek chairs in variousUniversities aroundtheworld face thedanger of closingdown.Reasonsmen-tioned are financial cuts even at the largest universities,global deterioration of the field of Humanities at large,insignificance of the Greek language for business andthe job market especially, and finally the inability of theGreek state to support the Greek language abroad.

3.8 GREEK ON THE INTERNETAccording to the Observatory for Digital Greece [17]20% of the Greek citizens have full access to broadbandInternet services and25%percentuse their smartphonesto access theWeb. 50% of the population have home ac-cess (of any kind) to the Internet, while almost all enter-prises have Internet access. 40% of the total populationare reported to visit the Web at least once a week, withthese numbers to be significantly higher for younger agegroups. Almost one third of the professionally activepopulation uses the Internet to perform e-government

related tasks, use e-banking and make on-line transac-tions of various kinds.

e deviation from the European average is evident butis getting bridged quite quickly, taking into account thecurrent economic situation. e ongoing CommunitySupport Framework has more than 4 billion Euros tospend on building digital infrastructures, services andcapabilities.

At the end of 2010 the Greek domain (.gr URLs) hadalmost 330,000 registered addresses.ere is no reliablecount of Greek sites on the .com domain, Greek blogsand Greek sites of the Diaspora Greeks. More than 3million Greeks have a Facebook account. It is fair to saythatModernGreek is a very lively and increasingly usedlanguage on the Web.

For Language Technology, the growing importance ofthe Internet is critical in twoways.On the one hand, thelarge amount of digitally available language data repre-sents a rich source for analysing the usage of natural lan-guage, in particular by collecting statistical information.On the other hand, the Internet offers a wide range ofapplication possibilities for Language Technology.

e most commonly used web application is certainlyweb search, which involves the automatic processing oflanguage on multiple levels, as we will see in more detailin the second part of this paper. It involves sophisticatedLanguage Technology, differing for each language. ForGreek, this may include erroneous input processing(misspelledwords in query getting processed), richmor-phological processing, language specific ontologies etc.

It is an expressed political aim in Greece and other Eu-ropean countries to ensure equal opportunities for ev-eryone. In particular, the recently ( June 2011) legislatede-Governement Reform Act clearly asks for “design forall” features to be implemented in all governmental on-line services. is not only affects users with disabili-ties but has also to do with multilinguality and differ-ent access modalities (mobile, narrowband, time/space-

52

critical settings etc). User-friendly language technologytools offer the principal solution to satisfy this regula-tion, for example by offering speech synthesis for the vi-sion impaired citizens.Internet users and providers of web content can alsoprofit from Language Technology in less obvious ways,e. g., if it is used to automatically translate web contentsfrom one language into another. Considering the highcosts associated withmanually translating such content,comparatively little usable Language Technology is de-

veloped and applied, compared to the anticipated need.ismaybedue to the complexity of theGreek languageand its small “market” as opposed to the number of tech-nologies involved in typical Language Technology ap-plications.In the next chapter, we will present an introduction toLanguage Technology and its core application areas aswell as an evaluation of the current situation of Lan-guage Technology support for Modern Greek.

53

4

LANGUAGE TECHNOLOGY SUPPORTFOR GREEK

Language technology is used to develop soware sys-tems designed to handle human language and are there-fore oen called “human language technology”. Humanlanguage comes in spoken and written forms. Whilespeech is the oldest and in terms of human evolution themost natural form of language communication, com-plex information and most human knowledge is storedand transmitted through the written word. Speech andtext technologies process or produce these differentforms of language, using dictionaries, rules of grammar,and semantics. is means that language technology(LT) links language to various forms of knowledge, in-dependently of the media (speech or text) in which it isexpressed. Figure 1 illustrates the LT landscape.When we communicate, we combine language withother modes of communication and information media– for example speaking can involve gestures and facialexpressions. Digital texts link to pictures and sounds.Movies may contain language in spoken and writtenform. In otherwords, speech and text technologies over-lap and interact with other multimodal communicationand multimedia technologies.In this section, we will discuss the main applicationareas of language technology, i. e., language checking,web search, speech interaction, and machine transla-tion. ese applications and basic technologies include

‚ spelling correction

‚ authoring support

‚ computer-assisted language learning

‚ information retrieval

‚ information extraction

‚ text summarisation

‚ question answering

‚ speech recognition

‚ speech synthesis

Language technology is an established area of researchwith an extensive set of introductory literature. e in-terested reader is referred to the following references:[18, 19, 20, 21].Before discussing the above application areas, we willbriefly describe the architecture of a typical LT system.

4.1 APPLICATIONARCHITECTURESSoware applications for language processing typicallyconsist of several components that mirror different as-pects of language. While such applications are typicallyvery complex, figure 2 shows a highly simplified archi-tecture of a typical text processing system.efirst threemodules handle the structure and meaning of the textinput:

1. Pre-processing: cleans the data, analyses or removesformatting, detects the input languages, and so on.

2. Grammatical analysis: finds the verb, its objects,modifiers and other sentence elements; detects thesentence structure.

54

Multimedia &MultimodalityTechnologies

LanguageTechnologies

Speech Technologies

Text Technologies

Knowledge Technologies

1: Language technologies

3. Semantic analysis: performs disambiguation (i. e.,computes the appropriate meaning of words in agiven context); resolves anaphora (i. e., which pro-nouns refer to which nouns in the sentence); rep-resents the meaning of the sentence in a machine-readable way.

Aer analysing the text, task-specific modules can per-formother operations, such as automatic summarisationand database look-ups.In the remainder of this section, we firstly introducethe core application areas for language technology, andfollow this with a brief overview of the state of LT re-search and education today, and a description of pastand present research programmes. Finally, we presentan expert estimate of core LT tools and resources forGreek in terms of various dimensions such as availabil-ity, maturity and quality.e general situation of LT for

the Greek language is summarised in amatrix (figure 7).Tools and resources that are boldfaced in the text canalso be found in figure 7 (p. 66) at the end of this chap-ter. LT support for Greek is also compared to other lan-guages that are part of this series.

4.2 CORE APPLICATION AREASIn this section, we focus on themost important LT toolsand resources, and provide an overview of LT activitiesin Greece.

4.2.1 Language Checking

Anyone who has used a word processor such as Mi-crosoWord knows that it has a spell checker that high-lights spelling mistakes and proposes corrections. efirst spelling correction programs compared a list of ex-tracted words against a dictionary of correctly spelled

Input Text

Pre-processing Grammatical Analysis Semantic Analysis Task-specific Modules

Output

2: A typical text processing architecture

55

Input Text Spelling Check Grammar Check Correction Proposals

Statistical Language Models

3: Language checking (top: statistical; bottom: rule-based)

words. Today these programs are farmore sophisticated.Using language-dependent algorithms for grammaticalanalysis, they detect errors related tomorphology (e. g.,plural formation) as well as syntax–related errors, suchas a missing verb or a conflict of verb-subject agreement(e. g., she *write a letter). However, most spell checkerswill not find any errors in the following text [22]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

For handling this type of errors, analysis of the context isneeded inmany cases, e. g., for deciding if aword is a ver-bal or a nominal type, as in the following example,wherethe inflected types λύσης (from the noun λύση [solu-tion]) and λύσεις (from the verb λύνω [to solve]) coin-cide phonetically but differ in spelling and morphosyn-tactic identity:

‚ Μας παρουσίασε το σχέδιο της λύσης.[He presented the solution plan to us.]

‚ Πρέπει να λύσεις αυτό το πρόβημα.[You must solve this problem.]

is type of analysis either needs to draw on language-specific grammars laboriously coded into the sowareby experts, or on a statistical language model. In thiscase, a model calculates the probability of a particularword as it occurs in a specific position (e. g., between the

words that precede and follow it). For example: τις λύσειςis amuchmore probable word sequence than * τις λύσης.A statistical language model can be automatically cre-ated by using a large amount of (correct) language data,a text corpus. Most of these two approaches have beendeveloped around data from English. However, they donot necessarily transfer straightforwardly to Greek withits flexible word order and rich inflection system.

Language checking is not limited to wordprocessors but also applies to authoring systems.

Language checking is not limited to word processors;it is also used in “authoring support systems”, i. e., so-ware environments in which manuals and other typesof technical documentation for complex IT, healthcare,engineering and other products, are written. To off-set customer complaints about incorrect use and dam-age claims resulting from poorly understood instruc-tions, companies are increasingly focusing on the qual-ity of technical documentation while targeting the in-ternational market (via translation or localisation) atthe same time. Advances in natural language process-ing have led to the development of authoring supportsoware, which helps the writer of technical documen-tation to use vocabulary and sentence structures that areconsistentwith industry rules and (corporate) terminol-ogy restrictions.Only few Greek organisations, companies and Lan-guage Service Providers offer products in this area. e

56

Institute for Language and Speech Processing has devel-oped a spelling and syntactic agreement checking mod-ule Symfonia (Agreement), for Greek language check-ing. A robust grammar checker forGreek is still missing.Besides spell checkers and authoring support, languagechecking is also important in the field of computer-assisted language learning. Language checking applica-tions also automatically correct search engine queries, asfound in Google’s Did you mean… suggestions.

4.2.2 Web Search

Searching the Web, intranets or digital libraries is prob-ably the most widely used yet largely underdevelopedlanguage technology application today. e Googlesearch engine,which started in1998, nowhandles about80% of all search queries [23]. Since 2007, the verbγκουκγλάρω or γκουγκλίζω [to google] has even had anentry in someGreek dictionaries.eGoogle search in-terface and results page has not significantly changedsince the first version. However, in the current version,Google offers spelling correction for misspelled wordsand incorporates basic semantic search capabilities thatcan improve search accuracy by analysing the meaningof terms in a search query context [24].eGoogle suc-cess story shows that a large volume of data and efficientindexing techniques can deliver satisfactory results us-ing a statistical approach to language processing.

For more sophisticated information requests, it is essen-tial to integrate deeper linguistic knowledge to facilitatetext interpretation. Experiments using lexical resourcessuch as machine-readable thesauri or ontological lan-guage resources (e. g.,WordNet) have demonstrated im-provements in finding pages using synonyms of the orig-inal search terms, such as ανανεώσιμες πηγές ενέργειας[renewable energy resources], αιολική ενέργεια [windpower/energy], or even more loosely related terms.

e next generation of search engines will have to in-clude much more sophisticated language technology,

especially to deal with search queries consisting of aquestion or other sentence type rather than a list of key-words. For the query, Give me a list of all companiesthat were taken over by other companies in the last fiveyears, a syntactic as well as semantic analysis is required.e system also needs to provide an index to quickly re-trieve relevant documents. A satisfactory answer will re-quire syntactic parsing to analyse the grammatical struc-ture of the sentence and determine that the user wantscompanies that have been acquired, rather than compa-nies that have acquired other companies. For the expres-sion last five years, the system needs to determine therelevant range of years, taking into account the presentyear.e query then needs to bematched against a hugeamount of unstructured data to find the pieces of infor-mation that are relevant to the user’s request. is pro-cess is called information retrieval, and involves search-ing and ranking relevant documents. To generate a list ofcompanies, the system also needs to recognise a particu-lar string of words in a document represents a companyname, using a process called named entity recognition.

The next generation of search engineswill have to include much more

sophisticated language technology.

A more demanding challenge is matching a query inone language with documents in another language.Cross-lingual information retrieval involves automati-cally translating the query into all possible source lan-guages and then translating the results back into theuser’s target language.Now that data is increasingly found in non-textual for-mats, there is a need for services that deliver multime-dia information retrieval by searching images, audio filesand video data. In the case of audio and video files,a speech recognition module must convert the speechcontent into text (or into a phonetic representation)that can then be matched against a user query.

57

User Query

Web Pages

Pre-processing Query Analysis

Pre-processing Semantic Processing Indexing

Matching&

Relevance

Search Results

4: Web search

4.2.3 Speech Interaction

Speech interaction is one of many application areas thatdependon speech technology, i. e., technologies for pro-cessing spoken language. Speech interaction technol-ogy is used to create interfaces that enable users to in-teract in spoken language instead of using a graphicaldisplay, keyboard and mouse. Today, these voice userinterfaces (VUI) are used for partially or fully auto-mated telephone services provided by companies to cus-tomers, employees or partners. Business domains thatrely heavily on VUIs include banking, supply chain,public transportation, and telecommunications. Otheruses of speech interaction technology include interfacesto car navigation systems and the use of spoken languageas an alternative to the graphical or touchscreen inter-faces in smartphones.

1. Automatic speech recognition (ASR) determineswhich words are actually spoken in a given sequenceof sounds uttered by a user.

2. Natural language understanding analyses the syntac-tic structure of a user’s utterance and interprets it ac-cording to the system in question.

3. Dialogue management determines which action totake given the user input and system functionality.

4. Speech synthesis (text-to-speech or TTS) trans-forms the system’s reply into sounds for the user.

One of the major challenges of ASR systems is to accu-rately recognise the words a user utters. is means re-stricting the range of possible utterances to a limited setof keywords, or manually creating language models thatcover a large range of natural language utterances. Us-ing machine learning techniques, language models canalso be generated automatically from speech corpora,i. e., large collections of speech audio files and text tran-scriptions. Restricting utterances usually forces peopleto use the voice user interface in a rigid way and candamage user acceptance; but the creation, tuning andmaintenance of rich language models will significantlyincrease costs. VUIs that employ language models and

58

Speech Input Signal Processing

Speech Output Speech Synthesis Phonetic Lookup & Intonation Planning

Natural Language Understanding &

Dialogue

Recognition

5: Speech-based dialogue system

initially allow a user to express their intentmore flexibly– prompted by aHowmay I help you? greeting – tend tobe automated and are better accepted by users.

Speech interaction is the basis for interfaces thatallow a user to interact with spoken language.

Companies tend to use utterances pre-recorded by pro-fessional speakers for generating the output of the voiceuser interface. For static utterances where the wordingdoes not depend on particular contexts of use or per-sonal user data, this can deliver a rich user experience.But more dynamic content in an utterance may sufferfrom unnatural intonation because different parts of au-dio files have simply been strung together.roughopti-misation, today’s TTS systems are getting better at pro-ducing natural-sounding dynamic utterances.Interfaces in speech interaction have been considerablystandardised during the last decade in terms of theirvarious technological components. ere has also beenstrong market consolidation in speech recognition andspeech synthesis.enationalmarkets in theG20 coun-tries (economically resilient countries with high popu-lations) have been dominated by just five global play-ers, withNuance (USA) andLoquendo (Italy) being themost prominent players in Europe. In 2011, Nuance an-nounced the acquisition of Loquendo, which representsa further step in market consolidation.

With regard to dialogue management technology andknow-how, the market is dominated by national SMEplayers. Rather than relying on a soware license-drivenproduct business, these companies are mainly posi-tioned as full-service providers that create voice user in-terfaces as part of a system integration service. In the areaof speech interaction, there is as yet no real market forsyntactic and semantic analysis-based core technologies.

As for the actual employment of VUIs, demand inGreece has strongly increased within the last 5 years.is tendency has been driven by end customers’ in-creasing demand for customer self-service and the con-siderable cost optimisation aspect of automated tele-phone services, as well as by a significantly increasedacceptance of spoken language as a modality for man-machine interaction. Such services are offered by SMEswhich adapt and customise to Greek mixtures of im-ported technological solutions from big players as thosementioned above and indigenous technological solu-tions.

Looking ahead, there will be significant changes, due tothe spread of smartphones as a new platform for man-aging customer relationships, in addition to fixed tele-phones, the Internet and e-mail. is will also affecthow speech interaction technology is used. In the longterm, there will be fewer telephone-based VUIs, andspoken language apps will play a far more central roleas a user-friendly input for smartphones. is will be

59

largely driven by stepwise improvements in the accu-racy of speaker-independent speech recognition via thespeech dictation services already offered as centralisedservices to smartphone users.

4.2.4 Machine Translation

e idea of using digital computers to translate naturallanguages can be traced back to 1946 and was followedby substantial funding for research during the 1950s andagain in the 1980s. Yetmachine translation (MT) stillcannot deliver on its initial promise of providing across-the-board automated translation.

At its basic level, machine translationsimply substitutes words in one natural language

with words in another language.

e most basic approach to machine translation is theautomatic replacement of the words in a text writtenin one natural language with the equivalent words ofanother language. is can be useful in subject do-mains that have a very restricted, formulaic languagesuch as weather reports. However, in order to produce agood translation of less restricted texts, larger text units(phrases, sentences, or even whole passages) need to bematched to their closest counterparts in the target lan-guage. e major difficulty is that language is ambigu-ous. Ambiguity creates challenges on multiple levels,such as word sense disambiguation at the lexical level (ajaguar is a car or an animal) or the attachment of prepo-sitional phrases on the syntactic level as in:

‚ Οαστυνομικός παρακολουθεί τη γυναίκα με τα κιάια.[e policeman is following the woman with thebinoculars.]

‚ Ο αστυνομικός παρακολουθεί τη γυναίκα με τοπερίστροφο.[e policeman is following the woman with the re-volver.]

One way to build an MT system is to use linguisticrules. For translations between closely related languages,a translation using direct substitution may be feasible incases such as the above example. However, rule-based(or linguistic knowledge-driven) systems oen analysethe input text and create an intermediary symbolic rep-resentation from which the target language text can begenerated.e success of thesemethods is highly depen-dent on the availability of extensive lexicons with mor-phological, syntactic, and semantic information, andlarge sets of grammar rules carefully designed by skilledlinguists.is is a very long and therefore costly process.

In the late 1980s when computational power increasedand became cheaper, interest in statistical models formachine translation began to grow. Statistical modelsare derived from analysing bilingual text corpora, paral-lel corpora, such as the Europarl parallel corpus, whichcontains the proceedings of the European Parliamentin 21 European languages. Given enough data, statis-tical MT works well enough to derive an approximatemeaning of a foreign language text by processing parallelversions and finding plausible patterns of words. Unlikeknowledge-driven systems, however, statistical (or data-driven) MT systems oen generate ungrammatical out-put. Data-driven MT is advantageous because less hu-man effort is required, and it can also cover special par-ticularities of the language (e. g., idiomatic expressions)that are oen ignored in knowledge-driven systems.

e strengths and weaknesses of knowledge-driven anddata-drivenmachine translation tend to be complemen-tary, so that nowadays researchers focus on hybrid ap-proaches that combine both methodologies. One suchapproach uses both knowledge-driven and data-drivensystems, together with a selection module that decideson the best output for each sentence. However, resultsfor sentences longer than, say, 12 words, will oen befar from perfect. A more effective solution is to com-bine the best parts of each sentence from multiple out-

60

Statistical Machine

Translation

Source Text

Target Text

Text Analysis (Formatting, Morphology, Syntax, etc.)

Text Generation

Translation Rules

6: Machine translation (left: statistical; right: rule-based)

puts; this can be fairly complex, as corresponding partsof multiple alternatives are not always obvious and needto be aligned.

Provided good adaptation in terms of user-specific ter-minology and workflow integration, the use of MTcan increase productivity significantly. Language por-tals provide access to dictionaries and company-specificterminology, translation memory and MT support.

Machine Translation is particularlychallenging for the Greek language.

e quality of MT systems is still considered to havehuge improvement potential. Challenges include theadaptability of the language resources to a given sub-ject domain or user area and the integration into exist-ing workflows with term bases and translation memo-ries. In addition,most of the current systems areEnglish-centred and support only few languages from and intoGreek, which leads to frictions in the total translationworkflow, and, e. g., forces MT users to learn differentlexicon coding tools for different systems.

For Greek, MT is particularly challenging. Free wordorder poses problems for analysis, and extensive inflec-tion is a challenge for generatingwordswith proper gen-der and case markings. At the national level, there aresmall spin-off companies that try to gain a position in

themarket, by integratingTranslationMemory and Sta-tistical Machine Translation solutions, catering mostlyfor Greek paired with English, French and German.

Evaluation campaigns help to compare the quality ofMT systems, the different approaches and the statusof the systems for different language pairs. Figure 7(p. 26), whichwas prepared during theECEuromatrix+project, shows the pair-wise performances obtained for22 of the 23 official EU languages (Irish was not com-pared). e results are ranked according to a BLEUscore, which indicates higher scores for better transla-tions [25]. A human translator would normally achievea score of around 80 points.

ebest results (in green andblue)were achievedby lan-guages that benefit froma considerable research effort incoordinated programmes and the existence ofmany par-allel corpora (e. g., English, French, Dutch, Spanish andGerman). e languages with poorer results are shownin red.ese languages either lack such development ef-forts or are structurally very different from other lan-guages (e. g., Hungarian, Maltese and Finnish).

4.3 OTHER APPLICATION AREASBuilding language technology applications involves arange of subtasks that do not always surface at the levelof interaction with the user, but they provide significantservice functionalities “behind the scenes” of the sys-

61

tem in question.ey all form important research issuesthat have now evolved into individual sub-disciplines.uestion answering, for example, is an active area of re-search for which annotated corpora have been built andscientific competitions have been initiated. e con-cept of question answering goes beyond keyword-basedsearches (in which the search engine responds by de-livering a collection of potentially relevant documents)and enables users to ask a concrete question towhich thesystem provides a single answer. For example:

Question: How old was Neil Armstrong when hestepped on the moon?

Answer: 38.

While question answering is obviously related to thecore area of web search, it is nowadays an umbrella termfor such research issues as which different types of ques-tions exist, and how they should be handled; how a setof documents that potentially contain the answer can beanalysed and compared (do they provide conflicting an-swers?); and how specific information (the answer) canbe reliably extracted from a document without ignoringthe context.

Language technology applications oftenprovide significant service functionalities “behind

the scenes” of larger software systems.

uestion answering is in turn related to information ex-traction (IE), an area that was extremely popular andinfluential when computational linguistics took a sta-tistical turn in the early 1990s. IE aims to identify spe-cific pieces of information in specific classes of docu-ments, such as the key players in company takeovers asreported in newspaper stories. Another common sce-nario that has been studied is reports on terrorist in-cidents. e task here consists of mapping appropriate

parts of the text to a template that specifies the per-petrator, target, time, location and results of the in-cident. Domain-specific template-filling is the centralcharacteristic of IE, which makes it another exampleof a “behind the scenes” technology that forms a well-demarcated research area, which in practice needs to beembedded into a suitable application environment.Text summarisation and text generation are two bor-derline areas that can act either as standalone applica-tions or play a supporting role. Summarisation attemptsto give the essentials of a long text in a short form, andis one of the features available in Microso Word. Itmostly uses a statistical approach to identify the “im-portant” words in a text (i. e., words that occur very fre-quently in the text in question but less frequently in gen-eral language use) and determine which sentences con-tain the most of these “important” words. ese sen-tences are then extracted and put together to create thesummary. In this very common commercial scenario,summarisation is simply a form of sentence extraction,and the text is reduced to a subset of its sentences. Analternative approach, for which some research has beencarried out, is to generate brand new sentences that donot exist in the source text.

For the Greek language, research inmost text technologies is much less developed

than for the English language.

is requires a deeper understanding of the text, whichmeans that so far this approach is far less robust. On thewhole, a text generator is rarely used as a stand-aloneapplication but is embedded into a larger soware en-vironment, such as a clinical information system thatcollects, stores and processes patient data. Creating re-ports is just one of many applications for text summari-sation. For Greek, the situation in all these research ar-eas is much less developed than it is for English, where

62

question answering, information extraction, and sum-marisation have since the 1990s been the subject of nu-merous open competitions, primarily those organisedby DARPA/NIST in the United States. ese have sig-nificantly improved the state of the art, but the focus hasalways been on English; some competitions have addedmultilingual tracks, but Greek was never prominent.However, text engineering platforms like ELLOGONhave been developed, mostly inspired by (and cateringfor) information extraction as well as text andmedia an-alytics related applications. Small spin-offs are active inapplication areas such as media (TV, Radio,Web)mon-itoring, sentiment analysis and opinion mining etc., fo-cusing on Greek and English content.

Summarisation systems, when using purely statisticalmethods, are oen language-independent to a good ex-tent, and thus some research prototypes are available.For text generation, reusable components have tradi-tionally been limited to the surface realisation modules(the “generation grammars”); again, most available so-ware is for English.

Apart from the intricacies of language as a communica-tionmedium in general, natural language processing fora less-widely spoken language like Greek poses its ownchallenges. Research endeavours focused on Greek trytomodel language phenomena on the one hand and de-velop useful applications on the other. is is reflectedin the relatively high number of research groups and re-searchers trying to attack language processing problemsfrom the morphographemic and phonetic level to tech-nological solutions for access to information and con-tent.

4.4 EDUCATIONALPROGRAMMESLanguage Technology is a highly interdisciplinary field,involving the expertise of linguists, computer scien-

tists, mathematicians, philosophers, psycholinguists,and neuroscientists, among others. In Greece thereis only one dedicated post-graduate programme thatdeals with Language Technology. is programme isoffered jointly by the National Kapodistrian Univer-sity of Athens and the National Technical Universityof Athens, while lectures are given by members ofthese two Universities and of the two main researchLabs on LT, namely ILSP, R. C ‘Athena’ and the So-ware andKnowledge Engineering Laboratory ofNCSRDemokritos. Approximately 35 students graduate fromthis programme every two years since 1998.

Isolated courses on Computational Linguistics and re-lated areas are offered by all other major Greek Univer-sities both in their undergraduate and postgraduate cur-ricula (most notable cases among those are the AthensUniversity for Economics and Business, the Universityof Pireaus, the University of Patras, the Aristotle Uni-versity of essaloniki). Many of these programs andcourses have only recently been introduced.

e increasing number of new research groups and labsin Universities and research centres focussing on LT, in-dicates the impetus of the field and the popularity it hasbeen gaining among students.

e Institute for Language and Speech Processing,R. C. ‘Athena’ and the Institute for Informatics andTelecommunications of the NCSR Demokritos are thetwo major Research Institutes that routinely offer op-portunities for internships to students of Computa-tional Linguistics and related fields.

ere are no data available on the number of studentsthat study on both under- and post-graduate levels infields related to Language Technology. Most peoplethat wish to pursue education in these fields do so inUniversities and specialised Centers abroad. Most in-dustrial and academic positions related to LanguageTechnologies are occupied by people that have alreadystudied and/or worked abroad. Due to the lack of ad-

63

equately qualified personnel, in many cases jobs thatneed Language Technology expertise are filled by com-puter engineers that have a (short ormore extensive) LT(self )training.

4.5 NATIONAL PROJECTSAND INITIATIVESe existence of LT industry in Greece can be tracedback to major LT programs carried out in the lastdecades. e first such program was EUROTRA, anambitious Machine Translation (MT) project estab-lished and funded by the European Commission fromthe late 1970s until 1994. Even though the EUROTRAproject didnot fulfill the expectations of creating a state-of-the-art MT system, the project had a long-term im-pact on the language industries in Europe; an additionalresult of this project was the creation and training ofa critical mass of scientists, researchers in the emergingfield.

National programmes (mainly funded through EUStructural Funds) in the ’90s and early ’00s aimed at thedevelopment of language technology and the creationof infrastructure in the field of language and speechprocessing (text corpora, speech databases, speech andwritten language processing tools, computational lexica,electronic dictionaries, educational platforms for teach-ing Greek). ese programmes (namely STRIDE, DI-ALOGOS, EPET I – LT, EPET II) were seminal forthe continuation of the field of LT in the country andtogether with EU projects in the 1990s and early 2000catered for the creation of the basic tools and tech-nologies for the markup and annotation of language re-sources for Greek.

Follow-up programmes, such as “SOUND, IMAGE,LANGUAGE”, were more user- and application-oriented. ey focused on the use of contemporaryLanguage Technology in sectors like Digital Cultural

Heritage, e-Government, and multimedia content pro-cessing for the mass media communication industry.A significant asset gained by those funding initiativesis the establishment of a group of LT teams in majorResearch Centers and University labs as well as of LT-aware teams in companies. Most of these teams are con-tinuously active in the area through EU research activi-ties and have acted positively in producing most of theLT resources and tools that are now available for Greek,covering the axes of text, speech and multimedia dataprocessing.A new national all-areas R&D funding initiative (SYN-ERGASIA) is currently unfolding, including somepromising LT projects. Since this programme is builtto foster academia-industry collaborations, it is foreseenthat a good set of Greek language tools and LT en-hanced systems and services will be available in the com-ing years.Still, public funding for LT projects in Greece is rel-atively low compared to the expenses spent on issueslike translation and multilingual information access bythe USA [27]. An additional crucial fact is that privateR&D funding in Greece is overall extremely low, a factthat proves especially disadvantageous for technologieslike LT.

4.6 THE PRIVATE SECTORIndicative of the significance of LT in Greece is theexistence of a small, but important for the size of thecountry, number of private companies, spin-off compa-nies included, which conduct state-of-the-art researchin the fields of speech recognition and synthesis, me-diamonitoring,machine translation, language resourcesproduction (dictionaries, thesauri, ontologies), ePub-lishing, eLearning and intelligent content analysis.Focus on development for these companies lies on pro-viding add-ons and advanced search engines for special-interest portals by exploiting topic-relevant semantics.

64

Due to the still high demands in processing power, suchsearch engines are only economically usable on relativelysmall text corpora. Processing time easily exceeds that ofa common statistical search engine as, e. g., provided byGoogle by a magnitude of thousands. ese search en-gines also have high demand in topic-specific domainmodelling, making it not feasible to use these mecha-nisms on web scale.

4.7 AVAILABILITY OF TOOLSAND RESOURCESA good part of the basic LRT components have beendeveloped for Greek: language resources (mono- andmultilingual, multimodal etc.) computational lexica,parsers, spelling and syntax checkers, named entityrecognisers, semantic annotators, translation applica-tions, authoring tools, speech recognition and synthesistechnologies, language technology assisted educationalsoware – a broad range. It is obvious, however, that thefield needs further development.

Some products have reached the market, with rangingsuccess. Services offered over the Internet concerninglanguage resources include monolingual Greek corpora(e Hellenic National Corpus, the Corpus of GreekTexts, and the CGL newspaper corpus). e market,though, continues to be small and not well aware of theavailability.

Figure 7 provides a rating for language technology sup-port for theGreek language.is rating of existing toolsand resources was generated by leading experts in thefield who provided estimates based on a scale from 0(very low) to 6 (very high) using seven criteria.

e key results for the Greek language technology canbe summed up as follows:

‚ While some corpora of high quality exist, coveringmainly Modern Greek, Greek reference corpora are

well below the 100 million threshold and mainly in-clude journalistic texts,whereas spoken text types arefound only in few.

‚ All of the corpora are accessed over the Internet andare not downloadable.

‚ Most LRs developed for the Greek language havenot been sufficiently maintained and/or updatedonce constructed.

‚ Many of the resources lack standardisation, i. e., evenif they exist, sustainability is not given; concertedprograms and initiatives are needed to standardisedata and interchange formats.

‚ Semantics is more difficult to process than syntax;text semantics is more difficult to process than wordand sentence semantics.

‚ e more semantics a tool takes into account, themore difficult it is to find the right data;more effortsfor supporting deep processing are needed.

‚ Standards do exist for semantics in the sense ofworldknowledge (RDF, OWL, etc.); they are, however,not easily applicable to NLP tasks.

‚ Speech processing is currently more mature thanNLP for written text.

‚ In what concerns lexical resources, in terms of quan-tity and variety, there is a great need for more lex-icons with semantic and syntactic information, se-mantic networks, terminological data for differentdomains, as well as more bilingual (for pairs of lan-guages other than Greek-English) and multilingualresources. As regards maturity, very few are matureenough to be directly integrated in NLP tools andsystems.

‚ Research was successful in designing particular highquality soware, but it is nearly impossible to comeupwith sustainable and standardised solutions giventhe current funding situations.

‚ Tools are at varied levels of maturity, from lab pro-totype to market product.

65

ua

ntity

Availabi

lity

ua

lity

Cov

erag

e

Matur

ity

Sustaina

bilit

y

Ada

ptab

ility

Language Technology: Tools, Technologies and Applications

Speech Recognition 3 2 4 3 5 4 3

Speech Synthesis 4 2 5 4 5 4 3

Grammatical analysis 2 1.5 3.5 3 3 3 3

Semantic analysis 1 1.5 1.5 1.5 1.5 1.5 1.5

Text generation 1 1 2 1 1 1 1

Machine translation 2 1 1 1 1 1 2

Language Resources: Resources, Data and Knowledge Bases

Text corpora 3 3.5 3.5 3 3 4 4

Speech corpora 2 1 3 2 3 2 2

Parallel corpora 2 2 2 2 3 3 2

Lexical resources 1.5 1 2.5 2 2 2.5 2.5

Grammars 1 1 1 1 1 2 1

7: State of language technology support for Greek

‚ Documentation of resources and tools is scarce.

‚ Greek multimedia/ multimodal resources present alarge variety and a satisfactory coverage regardinggenres, media and modalities.

‚ In general, syntactically and semantically annotatedcorpora are rather underrepresented while at thesame time the existing resources reach high levels ofquality.

4.8 CROSS-LANGUAGECOMPARISONecurrent state of LT support varies considerably fromone language community to another. In order to com-pare the situation between languages, this section willpresent an evaluation based on two sample applica-

tion areas (machine translation and speech processing)and one underlying technology (text analysis), as wellas basic resources needed for building LT applications.e languages were categorised using the following five-point scale:

1. Excellent support

2. Good support

3. Moderate support

4. Fragmentary support

5. Weak or no support

LTsupportwasmeasured according to the following cri-teria:Speech Processing:uality of existing speech recogni-tion technologies, quality of existing speech synthesistechnologies, coverage of domains, number and size of

66

existing speech corpora, amount and variety of availablespeech-based applications.

Machine Translation: uality of existing MT tech-nologies, number of language pairs covered, coverage oflinguistic phenomena and domains, quality and size ofexisting parallel corpora, amount and variety of availableMT applications.

Text Analysis: uality and coverage of existing textanalysis technologies (morphology, syntax, semantics),coverage of linguistic phenomena and domains, amountand variety of available applications, quality and size ofexisting (annotated) corpora, quality and coverage oflexical resources (e. g., WordNet) and grammars.

Resources: uality and size of existing text corpora,speech corpora and parallel corpora, quality and cover-age of existing lexical resources and grammars.

Figures 8 to 11 show that language technology forGreekhas indeedprogressedover thepast decades. It hasnot, however, reached the status of the bigger languages(bigger in terms of numbers of speakers and in availableresources).is is due tomany factors; tonamea linguis-tic one, the identity of the language (unique alphabet,difficultmorphology) demands the development of lan-guage tools especially tailored to Greek, which, in turn,hampers technology transfer from other languages. It isobvious that Greek has not yet reached the quality andcoverage of comparable resources and tools for the En-glish language,which is in the lead in almost all LTareas.And there are still plenty of gaps in English language re-sources with regard to high quality applications.

Specific speech processing technologies (e. g., text-to-speech) perform well enough to be successfully inte-grated into a number of industrial applications. Today’stext analysis components and language resources coverthe linguistic phenomena of Greek to a certain extentand form part of many applications involving mostlyshallow natural language processing, e. g., spelling cor-rection and authoring support.

However, for building more sophisticated applications,such as machine translation, there is a clear need forresources and technologies that cover a wider range oflinguistic aspects and allow a deep semantic analysis ofthe input text. By improving the quality and coverage ofthese basic resources and technologies, we shall be ableto openupnewopportunities for tackling a vast range ofadvanced application areas, including high-quality ma-chine translation.

4.9 CONCLUSIONSIn this series of white papers, we have made an impor-tant effort by assessing the language technology supportfor 30 European languages, and by providing a high-leel comparison across these languages. By identifying thegaps, needs and deficits, the European language technol-ogy community and its related stakeholders are now ina position to design a large scale research and develop-ment programme aimed at building a truly multilingual,technology-enabled communication across Europe.e results of this white paper series show that there is adramatic difference in language technology support be-tween the various European languages. While there aregood quality soware and resources available for somelanguages and application areas, others, usually smallerlanguages, have substantial gaps. Many languages lackbasic technologies for text analysis and the essential re-sources. Others have basic tools and resources but theimplementation of for example semanticmethods is stillfar away.erefore a large-scale effort is needed to attainthe ambitious goal of providing high-quality languagetechnology support for all European languages, for ex-ample through high quality machine translation.In the case of the Greek language, although we wit-nessed the progress of the field, we cannot but state thatthere is a lot to be done as regards the current state oflanguage technology support. e LT research commu-nity in Greece has been supported in the past by na-

67

tional and European research programmes, which haveresulted in a number of large-scale resources and state-of-the-art technologies. However, the scope of the re-sources and the range of tools are still very limited whencompared to the resources and tools for the English lan-guage, and they are simply not sufficient in quality andquantity to develop the kind of technologies required tosupport a truly multilingual knowledge society.Nor can we simply transfer technologies already devel-oped and optimised for the English language to han-dle Greek. English-based systems for parsing (syntac-tic and grammatical analysis of sentence structure) typi-cally perform far less well onGreek texts, due to the spe-cific characteristics of the Greek language.Greece never could claim the existence of language tech-nology industry dedicated to transforming research intoproducts.e few companies that were active in this do-main have either stopped or severely cut their LT efforts,leaving thefield to anumberof specialisedSMEs that arenot robust enough to address the internal and the globalmarket with a sustained strategy.Our findings show that the only alternative is to makea substantial effort to create LT resources for Greek,and use them to drive forward research, innovation and

development. e need for large amounts of data andthe extreme complexity of language technology systemsmakes it vital to develop a new infrastructure and amorecoherent research organisation to spur greater sharingand cooperation.

ere is also a lack of continuity in research and devel-opment funding. Short-term coordinated programmestend to alternate with periods of sparse or zero fundingat the national level. In addition, there is an overall lackof coordinationwithprogrammes in otherEUcountriesand at the European Commission level.

We can therefore conclude that there is a desperate needfor a large, coordinated initiative focused on overcom-ing the differences in language technology readiness forEuropean languages as a whole.

e long term goal of META-NET is to enable the cre-ation of high-quality language technology for all lan-guages. is requires all stakeholders – in politics, re-search, business, and society – to unite their efforts.e resulting technology will help tear down existingbarriers and build bridges between Europe’s languages,paving theway for political and economic unity throughcultural diversity.

68

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFinnishFrenchGermanItalianPortugueseSpanish

BasqueBulgarianCatalanDanishEstonianGalicianGreekHungarianIrishNorwegianPolishSerbianSlovakSloveneSwedish

CroatianIcelandicLatvianLithuanianMalteseRomanian

8: Speech processing: state of language technology support for 30 European languages


English FrenchSpanish

CatalanDutchGermanHungarianItalianPolishRomanian

BasqueBulgarianCroatianCzechDanishEstonianFinnishGalicianGreekIcelandicIrishLatvianLithuanianMalteseNorwegianPortugueseSerbianSlovakSloveneSwedish

9: Machine translation: state of language technology support for 30 European languages

69


English DutchFrenchGermanItalianSpanish

BasqueBulgarianCatalanCzechDanishFinnishGalicianGreekHungarianNorwegianPolishPortugueseRomanianSlovakSloveneSwedish

CroatianEstonianIcelandicIrishLatvianLithuanianMalteseSerbian

10: Text analysis: state of language technology support for 30 European languages


English CzechDutchFrenchGermanHungarianItalianPolishSpanishSwedish

BasqueBulgarianCatalanCroatianDanishEstonianFinnishGalicianGreekNorwegianPortugueseRomanianSerbianSlovakSlovene

IcelandicIrishLatvianLithuanianMaltese

11: Speech and text resources: State of support for 30 European languages

70

5

ABOUT META-NET

META-NET is a Network of Excellence funded bythe EuropeanCommission.e network currently con-sists of 54 members from 33 European countries [28].META-NET fosters the Multilingual Europe Technol-ogy Alliance (META), a growing community of lan-guage technology professionals and organisations in Eu-rope. META-NET fosters the technological founda-tions for a truly multilingual European information so-ciety that:

‚ makes communication and cooperation possibleacross languages;

‚ provides equal access to information and knowledgein any language;

‚ offers advanced and affordable networked informa-tion technology to European citizens.

e network supports a Europe that unites as a sin-gle digital market and information space. It stimulatesand promotes multilingual technologies for all Euro-pean languages. ese technologies support automatictranslation, content production, information process-ing and knowledge management for a wide variety ofapplications and subject domains. ey also enable in-tuitive language-based interfaces to technology rang-ing from household electronics, machinery and vehi-cles to computers and robots. Launched on 1 February2010,META-NEThas already conducted various activ-ities in its three lines of actionMETA-VISION,META-SHARE and META-RESEARCH.META-VISION fosters a dynamic and influentialstakeholder community that unites around a shared vi-

sion and a common strategic research agenda (SRA).e main focus of this activity is to build a coherentand cohesive LT community in Europe by bringing to-gether representatives from highly fragmented and di-verse groups of stakeholders. e present White Paperwas prepared together with volumes for 29 other lan-guages. e shared technology vision was developed inthree sectorial Vision Groups. e META TechnologyCouncil was established in order to discuss and to pre-pare the SRA based on the vision in close interactionwith the entire LT community.

META-SHARE creates an open, distributed facilityfor exchanging and sharing resources. e peer-to-peernetwork of repositories will contain language data,tools and web services that are documented with high-quality metadata and organised in standardised cate-gories. e resources can be readily accessed and uni-formly searched. e available resources include free,open sourcematerials as well as restricted, commerciallyavailable, fee-based items.

META-RESEARCH builds bridges to related technol-ogy fields. is activity seeks to leverage advances inother fields and to capitalise on innovative research thatcan benefit language technology. In particular, the ac-tion line focuses on conducting leading-edge research inmachine translation, collecting data, preparing data setsand organising language resources for evaluation pur-poses; compiling inventories of tools and methods; andorganising workshops and training events for membersof the community.

[email protected] – http://www.meta-net.eu

71

A

ΠΑΡΑΠΟΜΠΕΣ REFERENCES

[1] Aljoscha Burchardt, Markus Egg, Kathrin Eichler, Brigitte Krenn, Jörn Kreutel, Annette Leßmöllmann,Georg Rehm, Manfred Stede, Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache im Digitalen Zeital-ter – e German Language in the Digital Age. META-NET White Paper Series. Georg Rehm and HansUszkoreit (Series Editors). Springer, 2012.

[2] Aljoscha Burchardt, Georg Rehm, and Felix Sasaki. e Future European Multilingual Information So-ciety – Vision Paper for a Strategic Research Agenda, 2011. http://www.meta-net.eu/vision/reports/meta-net-vision-paper.pdf.

[3] Directorate-General Information Society&Media of the EuropeanCommission. User Language PreferencesOnline, 2011. http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf.

[4] European Commission. Multilingualism: an Asset for Europe and a Shared Commitment, 2008. http://ec.europa.eu/languages/pdf/comm2008_en.pdf.

[5] Directorate-General of the UNESCO. Intersectoral Mid-term Strategy on Languages and Multilingualism,2007. http://unesdoc.unesco.org/images/0015/001503/150335e.pdf.

[6] Directorate-General for Translation of the European Commission. Size of the Language Industry in the EU,2009. http://ec.europa.eu/dgs/translation/publications/studies.

[7] Eurostat. Tables, Graphs and Maps Interface Table. http://epp.eurostat.ec.europa.eu/tgm/table.do?tab=table&language=en&pcode=tps00001&tableSelection=1&footnotes=yes&labeling=labels&plugin=1.

[8] Wikipedia. Greek Diaspora. http://en.wikipedia.org/wiki/Greek_diaspora.

[9] Peter Trudgill. Modern Greek Dialects. http://www.greek-language.gr/greekLang/modern_greek/studies/dialects/thema_a_1_1en/index.html.

[10] Robert Browning. Medieval and Modern Greek. Cambridge University Press, Cambridge, 1969.

[11] Μ.Ζ. Κοπιδάκης (M.Z. Kopidakis). Ιστορία της εηνικής γλώσσας (History of the Greek language). ΕηνικόΛογοτεχνικό και Ιστορικό Αρχείο (e Hellenic Literary and Historical Archive), Αθήνα (Athens), 1999.

[12] Henri Tonnet. Histoire du Grec Moderne. L’ Asiatheque, Paris, 1993.

73

http://www.meta-net.eu/vision/reports/meta-net-vision-paper.pdf

http://www.meta-net.eu/vision/reports/meta-net-vision-paper.pdf

http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf

http://ec.europa.eu/languages/pdf/comm2008_en.pdf

http://ec.europa.eu/languages/pdf/comm2008_en.pdf

http://unesdoc.unesco.org/images/0015/001503/150335e.pdf

http://ec.europa.eu/dgs/translation/publications/studies

http://epp.eurostat.ec.europa.eu/tgm/table.do?tab=table&language=en&pcode=tps00001&tableSelection=1&footnotes=yes&labeling=labels&plugin=1

http://epp.eurostat.ec.europa.eu/tgm/table.do?tab=table&language=en&pcode=tps00001&tableSelection=1&footnotes=yes&labeling=labels&plugin=1

http://en.wikipedia.org/wiki/Greek_diaspora

http://www.greek-language.gr/greekLang/modern_greek/studies/dialects/thema_a_1_1en/index.html

http://www.greek-language.gr/greekLang/modern_greek/studies/dialects/thema_a_1_1en/index.html

[13] Αναστάσιος-Φοίβος Χριστίδης (Anastasios-Phoevos Christidis). Ιστορία της εηνικής γλώσσας (History ofthe Ancient Greek language). Ινστιτούτο Νεοεηνικών Σπουδών (Institute for Modern Greek Studies),Θεσσαλονίκη (essaloniki), 2005.

[14] BessieDendrinos andMariaeodoropoulou. Language issues and language policies inGreece. http://www.efnil.org/documents/conference-publications/riga-2007/Riga-06-Dendrinos-Mother.pdf.

[15] Peter Mackridge. Η Νεοεηνική Γώσσα (e Modern Greek language). Πατάκης (Patakis), Αθήνα (Athens),1990.

[16] OECD. Summary of Results from PISA 2009. http://www.oecd.org/dataoecd/34/60/46619703.pdf.

[17] Observatory for Digital Greece (Παρατηρητήριο για την Ψηφιακή Εάδα). Measurement of eEurope/i2010Indicators for Greece. http://www.observatory.gr/files/meletes/Booklet%20eEurope%202008%20en.pdf.

[18] Daniel Jurafsky and James H. Martin. Speech and Language Processing. Prentice Hall, 2nd edition, 2009.

[19] Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. MITPress, 1999.

[20] Language Technology World (LT World). http://www.lt-world.org.

[21] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zam-polli, editors. Survey of the State of the Art in Human Language Technology (Studies in Natural LanguageProcessing). Cambridge University Press, 1998.

[22] Jerrold H. Zar. Candidate for a Pullet Surprise. Journal of Irreproducible Results, page 13, 1994.

[23] Spiegel Online. Google zieht weiter davon (Google is still leaving everybody behind), 2009. http://www.spiegel.de/netzwelt/web/0,1518,619398,00.html.

[24] Juan Carlos Perez. Google Rolls out Semantic Search Capabilities, 2009. http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html.

[25] Kishore Papineni, SalimRoukos, ToddWard, andWei-Jing Zhu. BLEU:AMethod forAutomatic Evaluationof Machine Translation. In Proceedings of the 40th Annual Meeting of ACL, Philadelphia, PA, 2002.

[26] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 Machine Translation Systems for Europe. InProceedings of MT Summit XII, 2009.

[27] Gianni Lazzari. Human Language Technologies for Europe, 2006. http://tcstar.org/pubblicazioni/D17_HLT_ENG.pdf.

[28] Georg Rehm and Hans Uszkoreit. Multilingual Europe: A challenge for language tech. MultiLingual,22(3):51–52, April/May 2011.

74

http://www.efnil.org/documents/conference-publications/riga-2007/Riga-06-Dendrinos-Mother.pdf

http://www.efnil.org/documents/conference-publications/riga-2007/Riga-06-Dendrinos-Mother.pdf

http://www.oecd.org/dataoecd/34/60/46619703.pdf

http://www.observatory.gr/files/meletes/Booklet%20eEurope%202008%20en.pdf

http://www.lt-world.org

http://www.spiegel.de/netzwelt/web/0,1518,619398,00.html

http://www.spiegel.de/netzwelt/web/0,1518,619398,00.html

http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html

http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html

http://tcstar.org/pubblicazioni/D17_HLT_ENG.pdf

http://tcstar.org/pubblicazioni/D17_HLT_ENG.pdf

B

ΜΕΛΗ ΤΟΥ META-NET META-NET MEMBERS

Αυστρία Austria Zentrum für Translationswissenscha, Universität Wien: Gerhard Budin

Βέγιο Belgium Computational Linguistics and Psycholinguistics Research Centre, Univ. ofAntwerp: Walter Daelemans

Centre for Processing Speech and Images, Univ. of Leuven: Dirk van Compernolle

Βουλγαρία Bulgaria Institute for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva

Γαία France Centre National de la Recherche Scientifique, Laboratoire d’Informatique pour laMécanique et les Sciences de l’Ingénieur and Institute for Multilingual and Multi-media Information: Joseph Mariani

Evaluations and Language Resources Distribution Agency: Khalid Choukri

Γερμανία Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm

Human Language Technology and Pattern Recognition, RWTH Aachen Univ.:Hermann Ney

Dept. of Computational Linguistics, Saarland Univ.: Manfred Pinkal

Δανία Denmark Centre for Language Technology, Univ. of Copenhagen:Bolette Sandford Pedersen, Bente Maegaard

Εβετία Switzerland Idiap Research Institute: Hervé Bourlard

Εάδα Greece R. C. “Athena”, Institute for Language and Speech Processing: Stelios Piperidis

Εσθονία Estonia Institute of Computer Science, Univ. of Tartu: Tiit Roosmaa, Kadri Vider

Ηνωμένο Βασίειο UK School of Computer Science, Univ. of Manchester: Sophia Ananiadou

Institute for Language, Cognition andComputation, Center for SpeechTechnologyResearch, Univ. of Edinburgh: Steve Renals

Research Institute of Informatics and Language Processing, Univ. of Wolverhamp-ton: Ruslan Mitkov

Ιρλανδία Ireland School of Computing, Dublin City Univ.: Josef van Genabith

Ισλανδία Iceland School of Humanities, Univ. of Iceland: Eiríkur Rögnvaldsson

Ισπανία Spain Barcelona Media: Toni Badia, Maite Melero

Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra: Núria Bel

Aholab Signal Processing Laboratory, Univ. of the Basque Country:Inma Hernaez Rioja

75

Center for Language and SpeechTechnologies andApplications,Universitat Politèc-nica de Catalunya: Asunción Moreno

Dept. of Signal Processing and Communications, Univ. of Vigo:Carmen García Mateo

Ιταλία Italy Consiglio Nazionale delle Ricerche, Istituto di Linguistica Computazionale “Anto-nio Zampolli”: Nicoletta Calzolari

Human Language Technology Research Unit, Fondazione Bruno Kessler:Bernardo Magnini

Κροατία Croatia Institute of Linguistics, Faculty of Humanities and Social Science, Univ. of Zagreb:Marko Tadić

Κύπρος Cyprus Language Centre, School of Humanities: Jack Burston

Λεττονία Latvia Tilde: Andrejs Vasiļjevs

Institute of Mathematics and Computer Science, Univ. of Latvia: Inguna Skadiņa

Λιθουανία Lithuania Institute of the Lithuanian Language: Jolanta Zabarskaitė

Λουξεμβούργο Luxembourg Arax Ltd.: Vartkes Goetcherian

Μάτα Malta Dept. Intelligent Computer Systems, Univ. of Malta: Mike Rosner

Νορβηγία Norway Dept. of Linguistic, Literary and Aesthetic Studies, Univ. of Bergen:Koenraad De Smedt

Dept. of Informatics, Language Technology Group, Univ. of Oslo: Stephan Oepen

Οανδία Netherlands Utrecht Institute of Linguistics, Utrecht Univ.: Jan Odijk

Computational Linguistics, Univ. of Groningen: Gertjan van Noord

Ουαρία Hungary Research Institute for Linguistics, Hungarian Academy of Sciences: Tamás Váradi

Dept. ofTelecommunications andMedia Informatics, BudapestUniv. ofTechnologyand Economics: Géza Németh, Gábor Olaszy

Πολωνία Poland Institute of Computer Science, Polish Academy of Sciences: Adam Przepiórkowski,Maciej Ogrodniczuk

Univ. of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik

Dept. of Computer Linguistics and Artificial Intelligence, Adam Mickiewicz Univ.:Zygmunt Vetulani

Πορτογαλία Portugal Univ. of Lisbon: António Branco, Amália Mendes

Spoken Language Systems Laboratory, Institute for Systems Engineering and Com-puters: Isabel Trancoso

Ρουμανία Romania Research Institute for Artificial Intelligence, Romanian Academy of Sciences:Dan Tufiș

Faculty of Computer Science, Univ. Alexandru Ioan Cuza of Iași: Dan Cristea

76

Σερβία Serbia Univ. of Belgrade, Faculty of Mathematics: Duško Vitas, Cvetana Krstev,Ivan Obradović

Pupin Institute: Sanja Vranes

Σοβακία Slovakia Ľudovít Štúr Institute of Linguistics, Slovak Academy of Sciences: RadovanGarabík

Σοβενία Slovenia Jožef Stefan Institute: Marko Grobelnik

Σουηδία Sweden Dept. of Swedish, Univ. of Gothenburg: Lars Borin

Τσεχία Czech Republic Institute of Formal and Applied Linguistics, Charles Univ. in Prague: Jan Hajič

Φινλανδία Finland Computational Cognitive Systems Research Group, Aalto Univ.: Timo Honkela

Dept. of Modern Languages, Univ. of Helsinki: Kimmo Koskenniemi,Krister Lindén

Περίπου 100 επαγγελματίες της Γλωσικής Τεχνολογίας και εκπρόσωποι των χωρών και των γλωσσών του ΜΕΤΑ-ΝΕΤ συζήτησαν και κατέληξαν στα κύρια αποτελέσματα και μηνύματα των Λευκών Βίβλων κατά τη διάρκεια τηςσυνάντησης του ΜΕΤΑ-ΝΕΤ στο Βερολίνο, στις 21/22 Οκτωβρίου 2011. — About 100 language technologyexperts – representatives of the countries and languages represented in META-NET – discussed and finalisedthe key results and messages of the White Paper Series at a META-NET meeting in Berlin, Germany, on October21/22, 2011.

77

C

ΣΕΙΡΑ ΛΕΥΚΩΝΒΙΒΛΩΝ META-NET

THE META-NETWHITE PAPER SERIES

αλικά English Englishβασκικά Basque euskaraβουλγαρικά Bulgarian българскиγαλικιανά Galician galegoγαικά French françaisγερμανικά German Deutschδανικά Danish danskεηνικά Greek εηνικάεσθονικά Estonian eestiιρλανδικά Irish Gaeilgeισλανδικά Icelandic íslenskaισπανικά Spanish españolιταλικά Italian italianoκαταλανικά Catalan catalàκροατικά Croatian hrvatskiλεττονικά Latvian latviešu valodaλιθουανικά Lithuanian lietuvių kalbaμαλτέζικα Maltese Maltiνορβηγικά μποκμά Norwegian Bokmål bokmålνορβηγικά νινόρσκ Norwegian Nynorsk nynorskοανδικά Dutch Nederlandsουρικά Hungarian magyarπολωνικά Polish polskiπορτογαλικά Portuguese portuguêsρουμανικά Romanian românăσερβικά Serbian српскиσλοβακικά Slovak slovenčinaσλοβενικά Slovene slovenščinaσουηδικά Swedish svenskaτσεχικά Czech češtinaφινλανδικά Finnish suomi

79

www.meta-net.eu

La

ngua

ge Users Society Research Communities In

dustries

www.meta-net.eu

In everyday communication, Europe’s citizens, businesspartners and politicians are inevitably confronted withlanguage barriers. Language technology has the poten-tial to overcome these barriers and to provide innovativeinterfaces to technologies and knowledge. This whitepaper presents the state of language technology sup-port for the Greek language. It is part of a series thatanalyses the available language resources and tech-nologies for 30 European languages. The analysis wascarried out by META-NET, a Network of Excellencefunded by the European Commission. META-NET con-sists of 54 research centres in 33 countries, who cooper-ate with stakeholders from economy, government agen-cies, research organisations, non-governmental organi-sations, language communities and European universi-ties. META-NET’s vision is high-quality language tech-nology for all European languages.

Κατά την καθημερινή τους επικοινωνία οι ευρωπαίοιπολίτες, επιχειρηματίες και πολιτικοί έρχονται αντι-μέτωποι με γλωσσικούς φραγμούς. Η γλωσσική τε-χνολογία έχει τη δυνατότητα να ξεπεράσει αυτά ταεμπόδια παρέχοντας καινοτόμες διεπαφές τεχνολο-γίας και γνώσης. Η παρούσα Λευκή Βίβλος περιγρά-φει την υποστήριξη της γλωσσικής τεχνολογίας γιατα Ελληνικά και αποτελεί μέρος μιας συλλογής πουκαταγράφει τη διαθεσιμότητα γλωσσικών πόρων καιτεχνολογιών σε 30 ευρωπαϊκές γλώσσες. Την ανά-λυση πραγματοποίησε το ΜΕΤΑ-ΝΕΤ, ένα Δίκτυο Αρι-στείας χρηματοδοτούμενο από την ΕΕ και αποτελού-μενο από 54 ερευνητικά κέντρα σε 33 χώρες, ταοποία συνεργάζονται με οικονομικούς και κυβερνητι-κούς φορείς, ερευνητικούς οργανισμούς, μη κυβερ-νητικές οργανώσεις, γλωσσικές κοινότητες και ευρω-παϊκά πανεπιστήμια. Το όραμα του ΜΕΤΑ-ΝΕΤ είναι ηανάπτυξη γλωσσικής τεχνολογίας υψηλής ποιότηταςγια όλες τις ευρωπαϊκές γλώσσες.

“H ενίσχυση της γλωσσικής τεχνολογίας διασφαλίζει τη θέση της ελληνικής γλώσσας και του ελληνικού πολιτισμούστον ψηφιακό κόσμο, ενισχύοντας ταυτόχρονα τόσο την ανάπτυξη όσο και την επικοινωνία των πολιτών στηνΚοινωνία της Πληροφορίας.”

Γεώργιος Μπαμπινιώτης (Καθηγητής Γλωσσολογίας, Υπουργός Παιδείας, Δια Βίου Μάθησης και Θρησκευμάτων)

“Further support to language technologies safeguards the presence of Greek language and culture in the digitalenvironment, while at the same time promoting development and fostering communication among citizens withinthe Information Society.”

George Babiniotis (Prof. of linguistics, Minister of Education, Lifelong Learning and Religious Affairs)

Documents

Η ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΣΤΗΝ ΨΗΦΙΑΚΗ ΕΠΟΧΗ