41
Senosios lietuvių kalbos anotuotas referencinis korpusas Diachroninio lietuvių kalbos korpuso iniciatyva Pietro U. Dini (Pisos universitetas, Italija) Jolanta Gelumbeckaitė (Frankfurto / M. Goethe’s universitetas, Vokietija) Mindaugas Šinkūnas (Lietuvių kalbos institutas, Vilnius, Lietuva) Vytautas Zinkevičius (Lietuvių kalbos institutas, Vilnius, Lietuva)

Pietro U. Dini (Pisos universitetas, Italija)

  • Upload
    adem

  • View
    47

  • Download
    9

Embed Size (px)

DESCRIPTION

Senosios lietuvių kalbos anotuotas referencinis korpusas Diachroninio lietuvių kalbos korpuso iniciatyva. Pietro U. Dini (Pisos universitetas, Italija) Jolanta Gelumbeckaitė (Frankfurto / M . Goethe’s universitetas, Vokietija) - PowerPoint PPT Presentation

Citation preview

Page 1: Pietro U.  Dini  (Pisos universitetas, Italija)

Senosios lietuvių kalbos anotuotas referencinis

korpusas

Diachroninio lietuvių kalbos korpuso iniciatyva

Pietro U. Dini (Pisos universitetas, Italija)Jolanta Gelumbeckaitė (Frankfurto / M. Goethe’s universitetas, Vokietija)Mindaugas Šinkūnas (Lietuvių kalbos institutas, Vilnius, Lietuva)Vytautas Zinkevičius (Lietuvių kalbos institutas, Vilnius, Lietuva)

Page 2: Pietro U.  Dini  (Pisos universitetas, Italija)

2

Page 3: Pietro U.  Dini  (Pisos universitetas, Italija)

SLIEKKAS

Senosios LIEtuvių Kalbos KorpusAS

KALT

KorpusAltLiTauisch

3

Frankfurto prie Maino Goethe’s universitetas (Vokietija)Lietuvių kalbos institutas (Vilnius, Lietuva)Pisos universitetas (Italija)

Page 4: Pietro U.  Dini  (Pisos universitetas, Italija)

4

Page 5: Pietro U.  Dini  (Pisos universitetas, Italija)

5

Page 6: Pietro U.  Dini  (Pisos universitetas, Italija)

6

Page 7: Pietro U.  Dini  (Pisos universitetas, Italija)

7

Page 8: Pietro U.  Dini  (Pisos universitetas, Italija)

SLIEKKAS

• Multimodalinis: tekstas + faksimilė • Daugiakalbis: lietuviškas tekstas +

vertimo šaltinis • Anotuotas: teksto metainformacija +

gramatinės / morfosintaksinės anotacijos

• Referencinis: informacija apie kalbą, jos variantus, charakteringą žodyną

8

Page 9: Pietro U.  Dini  (Pisos universitetas, Italija)

9

Page 10: Pietro U.  Dini  (Pisos universitetas, Italija)

Penn-Helsinki-Corpus

• York-Helsinki Parsed Corpus of Old English Poetry (York Poetry Corpus),

• York-Toronto-Helsinki Parsed Corpus of Old English Prose (YCOE),

• Penn-Helsinki Parsed Corpus of Middle English, second edition (PPCME2).

10

Page 11: Pietro U.  Dini  (Pisos universitetas, Italija)

11

Page 12: Pietro U.  Dini  (Pisos universitetas, Italija)

Senųjų raštų duomenų bazė (LKI)

• 72 tekstai nuo 1573 iki 1816 metų (virš 3 mln. žodžių).

• Šiuo metu išoriniam vartotojui prieinami 36 tekstai.

• Konkordancijos (Keyword in Context formatas).

12

Page 13: Pietro U.  Dini  (Pisos universitetas, Italija)

13

Page 14: Pietro U.  Dini  (Pisos universitetas, Italija)

14

Senųjų raštų duomenų bazė (LKI)

Page 15: Pietro U.  Dini  (Pisos universitetas, Italija)

15

Page 16: Pietro U.  Dini  (Pisos universitetas, Italija)

16

Page 17: Pietro U.  Dini  (Pisos universitetas, Italija)

17

Page 18: Pietro U.  Dini  (Pisos universitetas, Italija)

18

Page 19: Pietro U.  Dini  (Pisos universitetas, Italija)

19

Page 20: Pietro U.  Dini  (Pisos universitetas, Italija)

Senosios lietuvių kalbos bazių deficitai:

• nėra aiškių tekstų elektroninio parengimo (digitalizavimo) parametrų:• Senieji raštai: Palemonas (UTF-16),• TITUS: TITUS Cyberbit (UTF-8),

• nėra tekstų vertimo šaltinių elektroninio parengimo parametrų,• nėra aiškių tekstų metaaprašo parametrų,• nėra tekstų gramatinės anotacijos standartų,• nėra aiškiai nustatytų paieškos ir tyrimo kriterijų,• nėra elektroninių tekstų ir jų elektroninių faksimilių tarpusavio

susiejimo galimybės,• tekstų ir tekstų dalių tarpusavio susiejimo galimybės labai ribotos:

– chronologiškai,

– geografiškai,

– pagal žanrą,

– pagal kalbos variantus (dialektus, sociolektus),

– pagal citatas (pvz., Biblijos tam tikros eilutės vertimo variantai visuose tekstuose, autorių citatos),

• tekstų ir jų vertimo šaltinių tarpusavio susiejimo galimybės labai ribotos. 20

Page 21: Pietro U.  Dini  (Pisos universitetas, Italija)

Iniciatyvos tikslai (1)

• lietuviškų tekstų rankraščių ir spaudinių faksimilės,

• tekstų perrašai,• tekstų korektūros:

• rankraščių korektūrų ir/ar komentarų sluoksniai,• spaudinių korektūros pagal errata/corrigenda sąrašus

pačiuose spaudiniuose,

• tekstų klaidų nurodymas, analizė, taisymas (paties parengėjo/mokslininko nustatytos klaidos, t. y. kritinio leidimo sluoksniai),

• lietuviškų tekstų vertimo šaltinių perrašai.

21

Page 22: Pietro U.  Dini  (Pisos universitetas, Italija)

Anotacija (2)

• kiekvieno žodžio standartizuota forma (t. y. kaitoma forma, kaip ji būtų atstatyta istoriniame žodyne),

• kiekvieno žodžio lema (t. y. antraštinis žodis, pagrindinė forma, kokia ji būtų istoriniame žodyne),

• kiekvieno žodžio lema užrašyta bendrine kalba ir pateiktos jos reikšmės,

• kiekvienos žodžio formos morfologinės kategorijos ir charakteristikos (POS = Part-of-Speech Tagging).

• pažymėtos eksplicitinės ir implicitinės citatos (jų ribos).

22

Page 23: Pietro U.  Dini  (Pisos universitetas, Italija)

Pagrindiniai principai

• ekonomija: optimaliai panaudoti jau esančius resursus,

• kokybė: kiekvieną korpuso darbų etapą turi atlikti tos srities ekspertas,

• paslankumas: kiek įmanoma paslankesnė korpuso architektūra, kuri leistų pildyti anotacinių sluoksnių skaičių; galimybė korpusą plėsti ir taisyti; galimybė keliems mokslininkams paraleliai dirbti prie vieno teksto/subkorpuso.

23

Page 24: Pietro U.  Dini  (Pisos universitetas, Italija)

Sinchroniniai, diachroniniai ir lyginamieji klausimai

• kaip kinta ortografija ir kokie jos modeliai (priklausomai nuo laiko, vietos, žanro, kalbos varianto, rankraščio ar spaudinio šrifto),

• kaip kinta žodžių tvarkos modeliai (priklausomai nuo vertimo šaltinio, laiko, vietos, žanro, kalbos varianto),

• kokia vieno ar kito žodžio kaitybos paradigma,• koks atributinių konstrukcijų santykis su šalutiniais sakiniais,• kokia analitinių veiksmažodžio konstrukcijų raida, pagalbinio

veiksmažodžio pozicija,• kokia evidencinių formų ir konstrukcijų diachronija,• kaip verčiamas vienas ar kitas lotyniškas, vokiškas ar lenkiškas

žodis ar junginys, kokia jo sintaksinė pozicija vertime lyginant su vertimo šaltiniu,

• lotynų, vokiečių ir lenkų kalbos įtaka lietuvių kalbos gramatikai (pagal įvairius morfosintaksinius kriterijus).

• ir t. t.

24

Page 25: Pietro U.  Dini  (Pisos universitetas, Italija)

Techninė koncepcija

• XML• TEI, CES, XCES• STTS, DDDTS• Timeline• Stand-off

25

Page 26: Pietro U.  Dini  (Pisos universitetas, Italija)

XML

• įsigalėjus XML (Extensible Markup Language) duomenų struktūrų kalbai kaip visuotiniam formatui, visi tekstai konvertuojami į XML. XML formatas leidžia įvesti daugiau teksto informacijos sluoksnių. Taip atsiranda daugiau galimybių anotuoti tekstus ir plėsti paieškos laukus.

26

Page 27: Pietro U.  Dini  (Pisos universitetas, Italija)

TEI, CES, XCES

• tekstų kodavimui (metainformacijai apie tekstą, vad. Header-Information ir lingvistinėms anotacijoms) iš esmės perimami tarptautiniai techniniai parametrai: – TEI (Text Encoding Initiative, www.tei-c.org)– CES, XCES (Corpus Encoding Standard,

www.cs.vassar.edu/CES; www.xces.org)

27

Page 28: Pietro U.  Dini  (Pisos universitetas, Italija)

28

Page 29: Pietro U.  Dini  (Pisos universitetas, Italija)

29

Page 30: Pietro U.  Dini  (Pisos universitetas, Italija)

STTS, DDDTS

• lingvistinių anotacijų kodavimas iš principo remiasi senosios vokiečių kalbos korpuso (DDD) morfosintaksinio kodavimo pažymomis (tagset), kurios apima ir lotyniškų tekstų anotacijas

• SLIEKKAS anotaciniai principai rengiami atsižvelgiant į Onos Aleknavičienės parengtus senųjų raštų indeksų rengimo principus

30

Page 31: Pietro U.  Dini  (Pisos universitetas, Italija)

31

Page 32: Pietro U.  Dini  (Pisos universitetas, Italija)

32

Page 33: Pietro U.  Dini  (Pisos universitetas, Italija)

Timeline

• pagal tekstų preindeksaciją numeruojami mažiausi teksto vienetai – ženklai

33

Page 34: Pietro U.  Dini  (Pisos universitetas, Italija)

34

Page 35: Pietro U.  Dini  (Pisos universitetas, Italija)

Stand-off

Vad. stand-off architektūra yra formatas, kuriame kiekvienas anotacinis sluoksnis faktiškai yra atskiras dokumentas, t. y.:

• pirminiai duomenys (tekstas, šaltinis) atskirti nuo anotacijų,

• anotacijų sluoksniai atskirti vienas nuo kito,

• pirminiai duomenys ir anotacijos vieni su kitais sinchronizuoti,

• pirminiai duomenys išlieka integralūs.

35

Page 36: Pietro U.  Dini  (Pisos universitetas, Italija)

36

Page 37: Pietro U.  Dini  (Pisos universitetas, Italija)

Teksto ir anotacinių lygmenų seka programoje ELAN

ELAN (DDD) Reikšmė PavyzdysManuskript B, W(Buchstabiert, Wort)

forma rankraštyje (paraidžiui, visas žodis)įrašoma automatiškai

ſchwaiſdes

Referenztext B, W

forma spausdintame leidime (paraidžiui, visas žodis) įrašoma automatiškai

ſchwaiſdes

Standard B, Wstandartizuota forma (atstatyta kaitoma forma istoriniame žodyne)

žvaizdės

Lemmaantraštinis žodis (pagrindinė forma istoriniame žodyne)

žvaizdė

Übersetzungantraštinio žodžio vertimas, antraštinio žodžio užrašymas bendrine kalba ir jo reikšmės

žvaigždė

Sprachekalba (standartizuota kalbos santrumpa) įrašoma automatiškai

lit

M1a Lemmaantraštinio žodžio morfologinė kategorija

NA (bendrinis daiktavardis / nomen appellativum)

M1b Belegkonkrečiõs žodžio formos morfologinė (morfosintaksinė) charakteristika

NA

M2a Flexion Lemma

antraštinio žodžio:kaitybos klasė_giminė

ė_Fem

M2b Flexion Beleg

konkrečiõs žodžio formos:kaitybos klasė_giminė

ė_Fem

M2c Flexion Beleg

konkrečiõs žodžio formos:skaičius_linksnis

Sg_Gen

37

Page 38: Pietro U.  Dini  (Pisos universitetas, Italija)

Daiktavardžių anotacinė tvarka

Daiktavardžiai (M1a: N...)M2a (lema) kaitybos klasė_giminė

M2b (konkreti žodžio forma)

kaitybos klasė_giminė

M2c (konkreti žodžio forma)

skaičius_linksnis

kaitybos klasėdar reikia susitarti, kaip žymėti kaitybos klases

giminė Masc, Fem, Neut, Comskaičius Sg, Pl, Du

linksnisNom, Gen, Dat, Acc, Ins, Loc, Ad, Ill, All, Voc

38

Page 39: Pietro U.  Dini  (Pisos universitetas, Italija)

39

Page 40: Pietro U.  Dini  (Pisos universitetas, Italija)

40

PAULA (Potsdamer AUstauschformat für Linguistische Annotationen)

ANNIS (ANNotation of Information Structure)

Page 41: Pietro U.  Dini  (Pisos universitetas, Italija)

Mes uždangą nuleidom, bet daugybė Opiausių klausimų – ore pakibę...

Den Vorgang zu und alle Fragen offen

(Berthold Brecht, Der gute Mensch von Sezuan)

41